摘要:中醫(yī)古籍承載的信息具有大數(shù)據(jù)的特征。本文論述了在“大數(shù)據(jù)”背景下,中醫(yī)古籍在集成、利用、知識發(fā)現(xiàn)等方面面臨的機遇和挑戰(zhàn)。
關(guān)鍵詞:中醫(yī)古籍;大數(shù)據(jù);數(shù)據(jù)挖掘
doi: 10.3969/j.issn.2095-5707.2014.03.004
Opportunities and Challenges of Traditional Chinese Medicine Ancient Books in the Era of Big Data
Zhu Yumei
(Shandong University of Traditional Chinese Medicine, Jinan Shandong 250355, China)
Abstract: This article expounded that the information of Traditional Chinese Medicine(TCM) Ancient Books possesses the characteristic of Big Data and demonstrated the opportunities and challenges of TCM Ancient Books in the fields of data integration, information application and knowledge discovery.
Key words: TCM ancient book; Big Data; data mining
1大數(shù)據(jù)的背景、特點和含義
信息和能源、材料一起,并稱為現(xiàn)代社會的三大支柱[1]。信息不可遏制的增長,導致了大數(shù)據(jù)時代的到來。大數(shù)據(jù)具有“大容量、種類多、流動快、價值高”的含義[2]。在維克托?邁爾-舍恩伯格和肯尼思?庫克耶所著的《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中談到,起源于電子信息領(lǐng)域的大數(shù)據(jù)概念正在日益深刻地改變著我們的生活以及理解世界的方式。在該書中談到,大數(shù)據(jù)具有三個特點,第一是全面性;第二是模糊性;第三是由探求因果關(guān)系,轉(zhuǎn)向事物相關(guān)性的尋找,要讓數(shù)據(jù)自己發(fā)聲;建立在相關(guān)關(guān)系的分析基礎(chǔ)上的預測是大數(shù)據(jù)的核心[3]。
2中醫(yī)古籍信息具有大數(shù)據(jù)的特點
中醫(yī)古籍是中醫(yī)理論和診療實踐傳承的載體。中醫(yī)古籍信息量巨大,據(jù)《中國中醫(yī)古籍總目》記載,在全國131個圖書館中館藏中醫(yī)書目有1.3萬種。
中醫(yī)古籍信息種類繁多,從臨床診療經(jīng)驗的描述、中藥的采集、藥性的辨別到理論的闡述,既有嚴格遵循邏輯理論原則的醫(yī)案解釋,又有偏方驗方匯集。中醫(yī)古籍信息歷經(jīng)幾千年,橫跨南北方,既有橫向的學術(shù)爭鳴,又有縱向的流派傳承,既有一定的理論自洽性,又有各自獨特的見解。
基金項目:國家公共衛(wèi)生資金項目(2010GJ01)
作者簡介:朱毓梅,副研究館員,研究方向:圖書與文獻信息研究。E-mail: zhuyumei000000@163.com
中醫(yī)古籍信息的利用率不高,但無疑古籍中蘊含著極為有價值的知識。不僅臨床中醫(yī)醫(yī)生要借助于古代文獻中的知識來處理病患,2011年美國“拉斯克臨床醫(yī)學研究獎”——青蒿素的發(fā)現(xiàn)也來源于古籍文獻。
中醫(yī)思維的習慣是“取類比象”。個例化診療是中醫(yī)臨床的特色描述方式。個別是一般的基礎(chǔ),規(guī)律是個體的凝練。中醫(yī)在被迫接受現(xiàn)代科學“大量、雙盲、隨機”統(tǒng)計學方式的同時,也在堅守著自己“天人合一,辨證論證,個體化診療”的特色。中醫(yī)傳統(tǒng)理論不是由“可觀察、可設(shè)計、可控制、可預測”的實驗證實的、具有明確因果邏輯關(guān)系的科學理論,而是采用經(jīng)驗的、“取類比象”的方式進行的描述。比如對于發(fā)熱的癥狀而言,因為“熱”的現(xiàn)象和太陽的發(fā)熱、物體的發(fā)熱是具有相似性的,在現(xiàn)實生活中,用寒涼的物體可以消除或者消退熱的現(xiàn)象,而在中醫(yī)實踐中,石膏的服入可以治療發(fā)熱的癥狀,因此把石膏定位為具有“寒”的藥性。這種“石膏-發(fā)熱”到“寒-熱”關(guān)聯(lián)角度考慮問題的方式體現(xiàn)了中醫(yī)自然哲學的特征。這種特征無法像現(xiàn)代生物學那樣,從微觀邏輯的角度、從實驗設(shè)計的角度令人完全信服,但這種關(guān)聯(lián)本身在實際的醫(yī)療實踐中是非常有效的。生物醫(yī)學的最終目的除了滿足人們對于人體自身的好奇心之外,就是對于疾病好轉(zhuǎn)的追求。忽略臨床需要,一味追求理論的完美對于醫(yī)學本身是有害的。中醫(yī)的這種關(guān)聯(lián)性思維方式無處不在,符合大數(shù)據(jù)時代對于相關(guān)性的重視。
在大數(shù)據(jù)時代,個別信息不確定,總體信息具有規(guī)律性。中醫(yī)古籍信息良莠不齊,真理和謬誤并存。就像我們不能從單一信息源出發(fā),確定某個網(wǎng)絡(luò)信息是否為真一樣,對于中醫(yī)古籍信息真實性的確定除了臨床驗證之外,我們可以通過全面信息的分析獲得我們需要的知識。比如不同醫(yī)家對于“不寐”的理論闡述是不同的,他們所采用的方藥也是各異的,宋詠梅等[4]對歷代治療不寐方劑中的中藥進行頻次分析得知,酸棗仁是所有方劑中使用頻率最高的藥物,使用頻率較高的藥物包括人參、茯神、麥冬、半夏、遠志、熟地黃、生地黃、柏子仁,這些常用藥物在臨床中是常用的,也是有效的。從大量不確定信息中找出有價值的信息,是大數(shù)據(jù)時代的特征。
中醫(yī)專家系統(tǒng)的目的就是根據(jù)以往有效的臨床經(jīng)驗,在疾病好轉(zhuǎn)的驅(qū)動下,預測當前患者病因病機和診療方案的過程。預測的基礎(chǔ)是對以往海量數(shù)據(jù)進行機器學習。中醫(yī)古籍文獻中的大量病例,是構(gòu)建中醫(yī)專家系統(tǒng)的基礎(chǔ)。這些病例來自不同年代、不同地域的不同醫(yī)家,具有鮮明的個性化特征。對于一個具體的患者,不同醫(yī)家的預測方向可能是不同的,如何根據(jù)當前大量的、模糊的、不確定的知識選擇最符合要求的診療方案,是中醫(yī)專家系統(tǒng)能最終廣泛應(yīng)用于臨床的關(guān)鍵所在。
3大數(shù)據(jù)時代中醫(yī)古籍面臨的機遇
中醫(yī)古籍最初全部都是以文本形式存在的,與信息化數(shù)據(jù)相比,具有傳播性慢、復制性差、容易損壞等特點。
傳統(tǒng)中醫(yī)從業(yè)者和研究者對中醫(yī)古籍的利用具有局限性、片面性、時效性、地域性等不足。大數(shù)據(jù)的理念和技術(shù)為中醫(yī)古籍信息的充分利用帶來了機遇。
3.1在大數(shù)據(jù)時代,知識變得更加全面,海量數(shù)據(jù)的集成變得可能
在農(nóng)業(yè)社會,很難想象一個人能夠有機會閱讀如此眾多、不同年代、不同流派、不同地域的中醫(yī)藥著作。信息化時代打破了時間、地域界限和流派之爭,使得面向主題的全面信息的存儲和檢索變得簡單和可能。王振國等[5]研制的“中醫(yī)藥古文獻保障系統(tǒng)”收錄了上至秦漢,下至當代的十萬余首方劑,并具有靈活的面向用戶的知識服務(wù)功能;張啟明等[6]在visual foxpro平臺上,通過對歷代中醫(yī)醫(yī)案文本數(shù)據(jù)的規(guī)范化、結(jié)構(gòu)化處理,收錄了歷代醫(yī)案22 459首,數(shù)據(jù)量達到2億。
3.2在大數(shù)據(jù)時代,不確定的、模糊的個體經(jīng)驗,在數(shù)據(jù)挖掘后呈現(xiàn)總體的規(guī)律性
中醫(yī)流傳幾千年,中醫(yī)理論和成功診療的實踐描述無疑是豐富的,信息量是巨大的。在過去,人們往往依靠個人在閱讀有限書籍和臨床的摸索悟性中尋找規(guī)律。如今數(shù)據(jù)挖掘技術(shù)使得規(guī)律的尋找變得更加直觀和觸手可及。相比于“第一原理”對客觀世界微觀領(lǐng)域的精確描述,數(shù)據(jù)挖掘強調(diào)收集大量的、復雜的、模糊的、不確定的數(shù)據(jù),分析數(shù)據(jù)集合從而獲得有用的信息和知識的過程[7-8]。
對中醫(yī)古籍信息進行數(shù)據(jù)挖掘主要集中在病案和用藥規(guī)律的研究。曾大方[9]對《臨證指南醫(yī)案》進行了頻數(shù)統(tǒng)計的分析;陳擎文[10]在中醫(yī)古籍治療中風的醫(yī)案基礎(chǔ)中,運用頻次分析和關(guān)聯(lián)分析的方法,找到古代名醫(yī)治療中風最常用的7味中藥、9個藥對和3個三藥對;周德生[11]集成了明清時期津液虧損的病案573例,采用R型系統(tǒng)聚類分析方法,確定了每個亞型的辨證用藥規(guī)律;王佑華等[12]探討了人工神經(jīng)網(wǎng)絡(luò)、決策樹、粗糙集等方法應(yīng)用于古籍文獻信息數(shù)據(jù)挖掘的可行性。
3.3在大數(shù)據(jù)時代,個性化十足的師承將被中醫(yī)專家系統(tǒng)取代
個性化診療是中醫(yī)的特色,也是中醫(yī)難以進行規(guī)范化的桎梏。中醫(yī)專家系統(tǒng)是人工智能和中醫(yī)藥相結(jié)合的研究領(lǐng)域。自1979年第一臺中醫(yī)專家系 統(tǒng)——關(guān)幼波中醫(yī)肝病診療系統(tǒng)誕生以來,迎來了10多年的研究熱潮。到2008年底,研制的中醫(yī)專家系統(tǒng)有200多個[13],比如鮑友麟“胃脘痛”專家系統(tǒng)、梁宗翰兒科脾病專家診療系統(tǒng)等[14]。到上個世紀90年代,由于中醫(yī)專家系統(tǒng)的個性化特點,研制成的專家系統(tǒng)往往很難進行普及,中醫(yī)專家系統(tǒng)的研究陷入低潮。王瑞祥等[15]在胃脘痛中醫(yī)古籍信息的基礎(chǔ)上,針對不同醫(yī)生對同一患者診斷可能產(chǎn)生的不確定信息和不同癥狀體征對辨證的重要性難以把握的瓶頸問題,采用粗集理論結(jié)合聚類分析的方法,實現(xiàn)了不同年代中醫(yī)專家的集體會診,研制成功的胃脘痛中醫(yī)診療系統(tǒng),具有良好的理論基礎(chǔ)和臨床效果。
4大數(shù)據(jù)時代中醫(yī)古籍面臨的挑戰(zhàn)
大數(shù)據(jù)時代盡管給人們帶來了更全面的信息,更先進的技術(shù),更科學的算法,但要使得中醫(yī)古籍信息的作用得到充分的發(fā)揮,還面臨著許多尚待解決的問題。
大數(shù)據(jù)要求數(shù)據(jù)越多越好,但中醫(yī)古籍由于年代久遠,保存不利,大量古籍流失,有的版本流落在民間,有的版本遠在海外,現(xiàn)存古籍也面臨大量修復的問題。
盡管大數(shù)據(jù)不強調(diào)數(shù)據(jù)的規(guī)范化和結(jié)構(gòu)化[3],但對于中醫(yī)古籍信息而言,由于年代和地域的差距過大,一詞多義、多詞同義現(xiàn)象非常普遍,如果不進行適當?shù)囊?guī)范化,很容易造成信息的誤讀,很難提取出有價值的信息。2010年,財政部專項公共衛(wèi)生專項資金“中醫(yī)藥古籍保護與利用能力建設(shè)”對400本中醫(yī)古籍進行整理,有望在一定程度上實現(xiàn)對中醫(yī)古籍信息的確認和規(guī)范化[16]。2012年,科技部重點項目“中醫(yī)藥基礎(chǔ)學科名詞術(shù)語規(guī)范研究項目”在北京啟動,項目將對中藥、方劑等十個學科的8 000條名詞術(shù)語進行規(guī)范,項目完成后,中醫(yī)規(guī)范化名詞術(shù)語將達到1.3萬條,并建立同義詞數(shù)據(jù)庫[17]。盡管如此,中醫(yī)古籍信息的規(guī)范化工作還有相當長的道路要走。
中醫(yī)古籍中的不確定信息固然可以通過數(shù)據(jù)挖掘的手段提取出臨床和科學研究中有價值的知識,但不可否認,很多有價值的知識并不是在古籍信息中普遍存在的。比如在發(fā)現(xiàn)青蒿素的過程中,是通過對古籍中記載的治療瘧疾的640個方藥一一實驗之后,才找到青蒿這一治療瘧疾的中藥的。而數(shù)據(jù)挖掘僅僅體現(xiàn)在從2 000多個記載治療瘧疾的方藥中精選出640個方藥的過程。這種范圍的縮小盡管有價值,但也是遠遠不夠的。如何找到一個能對有價值信息進行精確定位的工具,是大數(shù)據(jù)時代中醫(yī)古籍信息知識發(fā)現(xiàn)的關(guān)鍵。
5小結(jié)
在信息化浪潮里,中醫(yī)古籍以其悠久的歷史淵源、豐富多彩的信息內(nèi)容、高價值的知識蘊含,越來越多地受到人們的關(guān)注,中醫(yī)特有的相關(guān)性思維方式符合大數(shù)據(jù)時代的特征。根據(jù)相關(guān)性知識構(gòu)建的具有預測功能的中醫(yī)專家系統(tǒng),可以在大量不同醫(yī)家不確定知識的基礎(chǔ)上進行確定性診療。在大數(shù)據(jù)理念和技術(shù)的指導之下,以中醫(yī)古籍文本信息為本,最大限度地構(gòu)建同義詞數(shù)據(jù)庫,保持古籍信息的原汁原味,在正確語義的基礎(chǔ)上進行知識發(fā)現(xiàn),并能及時應(yīng)用于臨床和科學研究,是中醫(yī)古籍信息發(fā)揮作用的必由之路。
參考文獻
[1]郁青.圖書館信息服務(wù)散論[J].圖書館界,2000,9(3): 8-11.
[2]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報, 2012(5):37-40.
[3]維克托?邁爾-舍恩伯格,肯尼思?庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2012:18-42.
[4]宋詠梅,崔利銳,李軍偉.古代失眠方藥的文獻分析[J].山東中醫(yī)藥大學學報,2012,36(5):392-394.
[5]王振國,劉耀,周揚.基于信息構(gòu)建(IA)的中醫(yī)藥古文獻保障系統(tǒng)研究[J].中國中醫(yī)藥現(xiàn)代遠程教育,2004, 2(7):5-8.
[6]張啟明,王永炎,張志斌,等.中醫(yī)歷代醫(yī)案數(shù)據(jù)庫的建立與統(tǒng)計方法[J].山東中醫(yī)藥大學學報,2005,29(4): 298-299.
[7]DL Olson, D Delen. Advanced data mining techniques[M]. Springer Publishing Company,2008:5-7.
[8]Mehmed Kantardzic. Data Mining: Concepts, Models, Methods, and Algorithms[M]. A JOHN WILEY&SONS, INC, 2011:1-9.
[9]曾大方.《臨證指南醫(yī)案》方案的統(tǒng)計研究[J].山東中醫(yī)學院學報,1985,9(1):13-17.
[10]陳擎文.數(shù)據(jù)挖掘技術(shù)在古代名中醫(yī)中風醫(yī)案之應(yīng)用研究[J].中華中醫(yī)藥學刊,2008,26(10):2254-2257.
[11]周德生.明清時期津液虧損病案573例辨證用藥統(tǒng)計分 析[J].中醫(yī)藥研究,1998,14(4):12-13.
[12]王佑華,陸金根,柳濤,等.中醫(yī)醫(yī)案中的知識發(fā)現(xiàn)研 究[J].中西醫(yī)結(jié)合學報,2007,5(4):368-372.
[13]白春清.中醫(yī)專家系統(tǒng)30年[J].醫(yī)學信息,2011,24(2): 550-552.
[14]北京中醫(yī)管理局科教處.關(guān)幼波、鮑友麟、梁宗翰老中醫(yī)專家系統(tǒng)[J].北京中醫(yī),1992(4):54-55.
[15]王瑞祥.一種基于粗集簡約的中醫(yī)專家系統(tǒng)設(shè)計和實現(xiàn)[J].時珍國醫(yī)國藥,2013,24(10):2476-2477.
[16]林玉婷,林莉.論中醫(yī)古籍的保護[J].中華醫(yī)學圖書情報雜志,2011,20(11):45-47.
[17]吳瀟湘.中醫(yī)藥基礎(chǔ)學科名詞術(shù)語規(guī)范研究啟動[J].中醫(yī)藥管理雜志,2012,20(4):345.
(收稿日期:2014-03-28,編輯:魏民)