于彤 李敬華 張竹綠 于琦 劉靜 楊碩 賈李蓉 朱玲 董燕
【摘要】 “大數(shù)據(jù)”時(shí)代的來(lái)臨,為中醫(yī)藥工作者重新思考中醫(yī)藥數(shù)據(jù)的本質(zhì),革新中醫(yī)藥數(shù)據(jù)處理方法,提供了寶貴的契機(jī)。中醫(yī)藥數(shù)據(jù)的核心是“知識(shí)密集性”數(shù)據(jù)?!按髷?shù)據(jù)”時(shí)代的中醫(yī)藥數(shù)據(jù)處理方法,應(yīng)側(cè)重于解決知識(shí)建模、知識(shí)融合、知識(shí)服務(wù)等一系列與“知識(shí)”相關(guān)的問(wèn)題。語(yǔ)義網(wǎng)技術(shù)發(fā)端于知識(shí)表示和推理領(lǐng)域的研究成果,又能解決數(shù)據(jù)集成與互聯(lián)問(wèn)題。它為構(gòu)建中醫(yī)藥“大數(shù)據(jù)”并從中發(fā)現(xiàn)新穎知識(shí),提供了理想的技術(shù)手段。
【關(guān)鍵詞】 大數(shù)據(jù); 中醫(yī)藥; 語(yǔ)義網(wǎng); 數(shù)據(jù)處理
中醫(yī)藥科學(xué)數(shù)據(jù)庫(kù)的建設(shè)和利用,是中醫(yī)藥信息處理過(guò)程中的核心環(huán)節(jié)。經(jīng)過(guò)30多年的努力,中醫(yī)藥工作者已建成了大量的中醫(yī)藥科學(xué)數(shù)據(jù)庫(kù),內(nèi)容涉及中醫(yī)、中藥、古籍、方劑、針灸等諸多領(lǐng)域[1]。這些數(shù)據(jù)資源中蘊(yùn)含著豐富的中醫(yī)藥知識(shí)遺產(chǎn),為知識(shí)百科、知識(shí)檢索、知識(shí)地圖等知識(shí)服務(wù)提供數(shù)據(jù)支持,為中醫(yī)藥知識(shí)傳承、臨床實(shí)踐和科學(xué)研究做出了重要貢獻(xiàn)[2]。然而,中醫(yī)團(tuán)體近十年來(lái)仍在沿用傳統(tǒng)的數(shù)據(jù)處理技術(shù),數(shù)據(jù)處理水平?jīng)]有明顯提高。該領(lǐng)域仍存在著數(shù)據(jù)庫(kù)模式不合理、數(shù)據(jù)質(zhì)量缺陷、數(shù)據(jù)管理手段相對(duì)落后等諸多問(wèn)題。特別是數(shù)據(jù)資源無(wú)法在組織、地區(qū)及國(guó)際間的充分共享,形成所謂的“數(shù)據(jù)孤島”現(xiàn)象,這已成為困擾中醫(yī)藥工作者多年的老大難問(wèn)題。數(shù)據(jù)資源建設(shè)仍滯后于臨床、科研發(fā)展的需要,制約中醫(yī)藥信息化事業(yè)的整體發(fā)展。
“大數(shù)據(jù)”時(shí)代的來(lái)臨,為中醫(yī)藥工作者重新思考中醫(yī)藥數(shù)據(jù)的本質(zhì),革新中醫(yī)藥數(shù)據(jù)處理方法,提供了寶貴的契機(jī)?!按髷?shù)據(jù)”的理念在于將各種相關(guān)的數(shù)據(jù)集關(guān)聯(lián)起來(lái),構(gòu)成大型、全面的數(shù)據(jù)集合,從中發(fā)現(xiàn)新穎的知識(shí)。為建立一套既符合“大數(shù)據(jù)”理念,又適合中醫(yī)藥領(lǐng)域特點(diǎn)的信息處理方法,首先要從本質(zhì)上理解中醫(yī)藥數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容。中醫(yī)典籍汗牛充棟。但與天文、地理、生物等以“大數(shù)據(jù)(Big Data)”為特征的學(xué)科相比,中醫(yī)藥領(lǐng)域產(chǎn)生的數(shù)據(jù)量仍然是“小巫見(jiàn)大巫”。中醫(yī)藥數(shù)據(jù)的數(shù)據(jù)量不是很大,但數(shù)據(jù)本身所包含的知識(shí)量很大,因此常被稱為“知識(shí)密集型”的數(shù)據(jù)資源[3]。中醫(yī)藥領(lǐng)域的數(shù)據(jù)不是單純的觀測(cè)數(shù)據(jù),而是觀測(cè)與體驗(yàn)相互融合的數(shù)據(jù)。中醫(yī)藥數(shù)據(jù)的生成模式與獲取手段,決定其無(wú)法成為傳統(tǒng)意義上的“大數(shù)據(jù)”,而必然是“知識(shí)密集型”數(shù)據(jù)。
為處理中醫(yī)藥知識(shí)密集型數(shù)據(jù),需要建立適合中醫(yī)藥領(lǐng)域特點(diǎn)的方法學(xué)體系。所謂中醫(yī)藥數(shù)據(jù)的“知識(shí)量很大”,主要體現(xiàn)在其中蘊(yùn)含著豐富的語(yǔ)義關(guān)系。若將這些語(yǔ)義關(guān)系抽取并融合起來(lái),則構(gòu)成了復(fù)雜語(yǔ)義網(wǎng)絡(luò),其節(jié)點(diǎn)數(shù)量相對(duì)而言不是很大,但具有復(fù)雜的結(jié)構(gòu)。語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性,反映了數(shù)據(jù)中的知識(shí)含量。若能通過(guò)基于本體的方法來(lái)處理中醫(yī)藥數(shù)據(jù),深度挖掘其中蘊(yùn)含的語(yǔ)義關(guān)系,并基于語(yǔ)義網(wǎng)(Semantic Web)實(shí)現(xiàn)“知識(shí)密集型”數(shù)據(jù)資源的合理組織,則可在中醫(yī)藥數(shù)據(jù)資源利用中取得突破[4-5]。
1 語(yǔ)義網(wǎng)在中醫(yī)藥數(shù)據(jù)處理中的應(yīng)用
語(yǔ)義網(wǎng)(Semantic Web)是萬(wàn)維網(wǎng)聯(lián)盟(World Wide Web Consortium,簡(jiǎn)稱W3C)提出并倡導(dǎo)使用的一項(xiàng)創(chuàng)新的萬(wàn)維網(wǎng)(Web)技術(shù),其核心思想是在萬(wàn)維網(wǎng)上構(gòu)建一個(gè)全球性的數(shù)據(jù)網(wǎng)絡(luò),用以實(shí)現(xiàn)更為智能的應(yīng)用[5]。近年來(lái),語(yǔ)義網(wǎng)技術(shù)在歐、美等地取得迅速發(fā)展,得到IBM、Oracle等著名IT企業(yè)的鼎力支持,在生命科學(xué)、醫(yī)療保健和新藥研發(fā)等領(lǐng)域取得廣泛應(yīng)用。
中醫(yī)藥工作者已經(jīng)認(rèn)識(shí)到語(yǔ)義網(wǎng)的價(jià)值,并開(kāi)展了將語(yǔ)義網(wǎng)應(yīng)用于中醫(yī)藥領(lǐng)域的若干嘗試,構(gòu)建了中醫(yī)藥本體平臺(tái)、中醫(yī)藥語(yǔ)義查詢平臺(tái)和中醫(yī)藥語(yǔ)義搜索平臺(tái)等系統(tǒng),在文化傳承和醫(yī)療保健等方面產(chǎn)生了社會(huì)效益,取得了良好的示范性效果,并積累了寶貴的經(jīng)驗(yàn)[5]?,F(xiàn)有工作表明語(yǔ)義網(wǎng)能夠?yàn)橹嗅t(yī)藥領(lǐng)域問(wèn)題提供適宜的解決方案,但尚未充分發(fā)揮語(yǔ)義網(wǎng)的全部潛能。這就需要建立一套基于語(yǔ)義網(wǎng)的數(shù)據(jù)處理方法學(xué),消除語(yǔ)義網(wǎng)技術(shù)和中醫(yī)藥領(lǐng)域?qū)嶋H應(yīng)用之間的隔閡,從而實(shí)現(xiàn)中醫(yī)藥數(shù)據(jù)的充分共享和深度利用。
這套方法學(xué)的處理對(duì)象是中醫(yī)藥數(shù)據(jù),但其最終目的則是對(duì)數(shù)據(jù)中蘊(yùn)含的知識(shí)進(jìn)行合理組織、系統(tǒng)保護(hù)和深度挖掘。中醫(yī)藥科學(xué)數(shù)據(jù)是中醫(yī)藥知識(shí)的密集型載體,中醫(yī)藥數(shù)據(jù)處理在本質(zhì)上是對(duì)中醫(yī)藥知識(shí)的創(chuàng)造、維護(hù)、共享、融合和利用的持續(xù)過(guò)程,其中涉及知識(shí)建模、知識(shí)融合、知識(shí)服務(wù)等一系列與“知識(shí)”相關(guān)的方法。下面分別進(jìn)行闡述。
1.1 基于本體的中醫(yī)藥知識(shí)建模方法 中醫(yī)藥知識(shí)體系與中華傳統(tǒng)文化息息相關(guān),具有鮮明的思想和語(yǔ)言特色,這決定了中醫(yī)藥知識(shí)建模的獨(dú)特性。歷代中醫(yī)普遍采用“取向比類(lèi)”等形象思維方法,導(dǎo)致中醫(yī)藥知識(shí)難以精確描述和定量刻畫(huà)。中醫(yī)藥領(lǐng)域知識(shí)的復(fù)雜性、模糊性和爭(zhēng)議性,向現(xiàn)有的知識(shí)表達(dá)與推理技術(shù)提出了嚴(yán)峻的挑戰(zhàn)。作為語(yǔ)義網(wǎng)的基石,本體是針對(duì)某個(gè)領(lǐng)域的概念體系的精確規(guī)范,用以明確概念的定義以及概念之間的語(yǔ)義關(guān)系[4]??梢曰趪?guó)際最新的本體表達(dá)框架,提出符合中醫(yī)藥特色的知識(shí)建模方法,對(duì)中醫(yī)藥的思維模式和知識(shí)體系進(jìn)行分析與建模,研發(fā)面向中醫(yī)藥領(lǐng)域的示范性本體、知識(shí)庫(kù)以及相應(yīng)的推理方法,從而系統(tǒng)梳理中醫(yī)藥知識(shí)體系,保護(hù)中醫(yī)藥知識(shí)遺產(chǎn)。
1.2 基于語(yǔ)義網(wǎng)的中醫(yī)藥數(shù)據(jù)集成與知識(shí)融合方法 中醫(yī)藥領(lǐng)域的數(shù)據(jù)整合工作長(zhǎng)期停滯不前,形成了所謂的“數(shù)據(jù)孤島”現(xiàn)象,造成中醫(yī)藥知識(shí)無(wú)法在組織和實(shí)踐者之間充分共享。語(yǔ)義網(wǎng)的核心優(yōu)勢(shì)在于將數(shù)據(jù)結(jié)構(gòu)和存儲(chǔ)方式各異的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一格式并重新發(fā)表,從而實(shí)現(xiàn)數(shù)據(jù)資源整合,構(gòu)建全球數(shù)據(jù)網(wǎng)絡(luò)。在語(yǔ)義網(wǎng)的框架下,不僅能夠?qū)崿F(xiàn)中醫(yī)疾病、中藥、針灸、醫(yī)案等中醫(yī)藥各門(mén)類(lèi)數(shù)據(jù)資源的集成,而且能夠進(jìn)一步建立中西醫(yī)之間的知識(shí)關(guān)聯(lián)??赏ㄟ^(guò)語(yǔ)義關(guān)系表達(dá)中醫(yī)藥和西醫(yī)之間的結(jié)合點(diǎn),從而實(shí)現(xiàn)這兩個(gè)領(lǐng)域的知識(shí)資源的關(guān)聯(lián)和融合,支持各種面向結(jié)合醫(yī)學(xué)的知識(shí)共享、決策支持和知識(shí)發(fā)現(xiàn)應(yīng)用。這套方法能使中醫(yī)藥知識(shí)接入全球互聯(lián)的知識(shí)網(wǎng)絡(luò)之中,在中西醫(yī)結(jié)合醫(yī)學(xué)中發(fā)揮更大的作用和影響力。
1.3 基于語(yǔ)義網(wǎng)的中醫(yī)藥知識(shí)服務(wù)方法 語(yǔ)義網(wǎng)不僅支持?jǐn)?shù)據(jù)集成,而且為基于數(shù)據(jù)的知識(shí)服務(wù)提供了新方法。例如,“語(yǔ)義搜索”基于領(lǐng)域知識(shí)庫(kù)實(shí)現(xiàn)智能的搜索功能,向用戶提供準(zhǔn)確的信息搜索結(jié)果;“語(yǔ)義查詢”向用戶提供簡(jiǎn)易、友好的查詢構(gòu)造界面,引導(dǎo)用戶以交互的方式進(jìn)行知識(shí)問(wèn)答;“語(yǔ)義維基”向用戶提供百科全書(shū)式的知識(shí)服務(wù),支持知識(shí)資源的有序組織、有效管理和協(xié)作式加工。基于中醫(yī)藥數(shù)據(jù)的語(yǔ)義網(wǎng)應(yīng)用系統(tǒng)能夠面向臨床決策、新藥研發(fā)和電子教學(xué)提供知識(shí)服務(wù),解決中醫(yī)藥知識(shí)共享與傳播的問(wèn)題,為中醫(yī)藥知識(shí)服務(wù)模式創(chuàng)新提供了有力的技術(shù)支持。
2 小結(jié)
近年來(lái),中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)事業(yè)取得長(zhǎng)足發(fā)展,積累了為數(shù)眾多的數(shù)據(jù)資源。如何管理如此龐大的數(shù)據(jù)資源,如何解決“數(shù)據(jù)孤島”問(wèn)題實(shí)現(xiàn)數(shù)據(jù)整合,如何從海里數(shù)據(jù)中挖掘新穎的知識(shí),如何實(shí)現(xiàn)基于數(shù)據(jù)的知識(shí)服務(wù)以滿足中醫(yī)專家和百姓的需求,都是中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)事業(yè)中需要考慮并解決的問(wèn)題?!按髷?shù)據(jù)”時(shí)代的來(lái)臨,有望帶來(lái)中醫(yī)藥數(shù)據(jù)處理方法的大變革,從根本上解決上述問(wèn)題,推動(dòng)中醫(yī)藥信息化事業(yè)的整體發(fā)展。需要針對(duì)中醫(yī)藥“知識(shí)密集性”數(shù)據(jù)的特點(diǎn),建立一套基于語(yǔ)義網(wǎng)的數(shù)據(jù)處理方法學(xué)。其中包括:(1)采用基于本體的知識(shí)建模方法,構(gòu)建中醫(yī)藥領(lǐng)域本體和知識(shí)庫(kù),系統(tǒng)梳理中醫(yī)藥知識(shí)體系;(2)采用語(yǔ)義集成方法實(shí)現(xiàn)大量中醫(yī)藥數(shù)據(jù)庫(kù)的有效整合,解決中醫(yī)藥“數(shù)據(jù)孤島”問(wèn)題;(3)采用語(yǔ)義搜索、語(yǔ)義查詢、語(yǔ)義維基等方法提供知識(shí)服務(wù),解決中醫(yī)藥知識(shí)傳播問(wèn)題。通過(guò)這套方法學(xué),將能匯集中醫(yī)藥及相關(guān)學(xué)科的數(shù)據(jù)資源,挖掘數(shù)據(jù)中蘊(yùn)含的潛在規(guī)律及知識(shí)點(diǎn),發(fā)揮多學(xué)科研究成果對(duì)中醫(yī)藥發(fā)展的支撐作用。
參考文獻(xiàn)
[1]崔蒙,尹愛(ài)寧,范為宇,等.中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)研究進(jìn)展[J].中國(guó)中醫(yī)藥信息雜志,2006,13(11):104-105.
[2]高博,崔蒙,楊碩,等.基于數(shù)據(jù)的中醫(yī)藥知識(shí)服務(wù)研究[J].圖書(shū)情報(bào)工作,2012,56(9):5-9.
[3]崔蒙,李海燕,雷蕾,等.“大數(shù)據(jù)”時(shí)代與中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)[J].中國(guó)中醫(yī)藥圖書(shū)情報(bào)雜志,2013,37(3):1-3.
[4]于彤,崔蒙,李敬華,等.中醫(yī)藥本體工程研究現(xiàn)狀[J].中國(guó)中醫(yī)藥信息雜志,2013,20(7):110-112.
[5]于彤,崔蒙,李敬華.語(yǔ)義Web在中醫(yī)藥領(lǐng)域的應(yīng)用研究綜述[J].世界中醫(yī)藥,2013,8(1):107-109.
(收稿日期:2014-03-04) (本文編輯:蔡元元)endprint