劉 耀 穗志方 周 揚(yáng) 章成志 王振國
摘要利用自然語言處理(NLP)理論和技術(shù)方法對中醫(yī)藥領(lǐng)域中已有的公認(rèn)領(lǐng)域知識進(jìn)行了重構(gòu)與利用,在成功實現(xiàn)了中醫(yī)藥學(xué)知識描述體系的自動構(gòu)建與獲取的基礎(chǔ)上。利用領(lǐng)域?qū)<抑R,實現(xiàn)了受限文本的Ontology自學(xué)習(xí)機(jī)制,并對領(lǐng)域本體的進(jìn)化進(jìn)行了有益的探索,有效地解決了Ontology研究的瓶頸問題,從而為中醫(yī)藥知識的挖掘與利用奠定了數(shù)據(jù)基礎(chǔ)。從目前看來,這是一種較為理想、實用的方法,為專業(yè)領(lǐng)域Ontology的自動構(gòu)建提供了理論依據(jù)及技術(shù)支持。
關(guān)鍵詞中醫(yī)藥本體數(shù)據(jù)共享知識工程
1、概述
幾千年來,中醫(yī)藥領(lǐng)域的無數(shù)臨床實踐與理論研究積累了海量的科學(xué)知識,這些知識包含在中醫(yī)藥古籍以及當(dāng)前的研究文獻(xiàn)中。面對浩如煙海的中醫(yī)文獻(xiàn),如何有效利用,服務(wù)于臨床及中藥新藥研發(fā),是中醫(yī)藥行業(yè)普遍關(guān)注、亟待解決的重要問題。
中醫(yī)學(xué)的數(shù)據(jù)多建立在人的經(jīng)驗基礎(chǔ)上,其規(guī)律受自身理論的支配,其客觀性與科學(xué)實驗數(shù)據(jù)不在一個層面上。如果用科學(xué)實驗數(shù)據(jù)的獲取方法和標(biāo)準(zhǔn)來衡量中醫(yī)的數(shù)據(jù),即便是四診數(shù)據(jù)仍不可避免帶有主觀因素。例如對同一病人脈象信息的獲取,不同的醫(yī)生很可能有不同的結(jié)論。但是從認(rèn)知層面來講,中醫(yī)確切的療效這一事實,說明這些數(shù)據(jù)具有客觀性,即診治的認(rèn)識符合了病癥的客觀存在。本體是一種能在語義和知識層次上描述系統(tǒng)的概念模型,其目的在于以一種通用的方式來獲取領(lǐng)域中的知識,提供對領(lǐng)域中概念的共同一致的理解,從而實現(xiàn)知識在不同的應(yīng)用程序和組織之間的共享和重用,這對中醫(yī)藥領(lǐng)域的知識挖掘、發(fā)現(xiàn)與利用將會起到不可忽視的作用。因此,基于歷史文獻(xiàn)進(jìn)行中醫(yī)藥本體的構(gòu)建,利用歷史文獻(xiàn)及公認(rèn)的領(lǐng)域知識對中醫(yī)藥核心概念進(jìn)行全面詮釋,以期通過概念及其相關(guān)要素的關(guān)系進(jìn)行全面分析,解釋中醫(yī)病、證、方、藥等核心概念的實質(zhì)與內(nèi)涵。但是本體的構(gòu)建并不是一件簡單的事情,課題組在大量實踐的基礎(chǔ)上,利用自然語言處理(NLP)理論和技術(shù)方法對已有公認(rèn)領(lǐng)域知識,如中醫(yī)藥主題詞表、專業(yè)辭典、專業(yè)教材或權(quán)威著作等進(jìn)行重構(gòu)利用,并借助領(lǐng)域?qū)<抑R,實現(xiàn)基于網(wǎng)絡(luò)的知識采集與加工,建立起受限文本的Ontology自學(xué)習(xí)機(jī)制,從而實現(xiàn)領(lǐng)域Ontology概念描述體系的自動構(gòu)建,最終有效地解決了On-tology的自動構(gòu)建這一瓶頸問題,成功地探索出了一種較為理想、實用的理論與方法,為專業(yè)領(lǐng)域Ontolo-gy的自動構(gòu)建提供理論依據(jù)及技術(shù)支持。
2、建設(shè)流程
3、資料來源
3.1《中醫(yī)藥學(xué)主題詞表》
《中醫(yī)藥學(xué)主題詞表》1987年首次面世,被社會各界廣泛應(yīng)用。1996年,研究人員在大量詞頻統(tǒng)計及用戶意見反饋的基礎(chǔ)上,對《中醫(yī)藥學(xué)主題詞表》進(jìn)行了增補(bǔ)修訂,推出第2版并更名為《中國中醫(yī)藥學(xué)主題詞表》,以印刷版和電子版兩種形式出版。該版主題詞表與《漢語主題詞表》以及美國國立醫(yī)學(xué)圖書館的《醫(yī)學(xué)主題詞表》(MeSH)相兼容,成為目前使用最廣泛、影響最大的一部中醫(yī)藥學(xué)主題詞表,也是國內(nèi)中西醫(yī)大型數(shù)據(jù)庫建設(shè)的支撐。
3.2《中醫(yī)藥常用名詞術(shù)語辭典》
《中醫(yī)藥常用名詞術(shù)語辭典》是一部查檢中醫(yī)藥常用名詞術(shù)語的綜合性工具書,共收載中醫(yī)基礎(chǔ)理論、中藥、方劑、診斷、內(nèi)經(jīng)、傷寒、金匱、溫病、中醫(yī)內(nèi)科學(xué)、中醫(yī)外科學(xué)、中醫(yī)婦科學(xué)、中醫(yī)兒科學(xué)、中醫(yī)骨傷科學(xué)、針灸學(xué)、推拿學(xué)、中醫(yī)眼科學(xué)、中醫(yī)耳鼻喉科學(xué)、中醫(yī)急癥學(xué)等學(xué)科的常用名詞術(shù)語共5701條。但涉及醫(yī)史文獻(xiàn)的人物、著作、事件不在收詞之列。
3.3專業(yè)教材
采用全國中醫(yī)高等院校統(tǒng)編教材第七版。自1960年出版高等中醫(yī)院校試用教材(俗稱第一版)以來,迄今已達(dá)七版。從高等中醫(yī)藥院校中醫(yī)學(xué)專業(yè)規(guī)劃教材的第二版到第七版,其課程設(shè)置體系和教學(xué)內(nèi)容沒有發(fā)生質(zhì)的變化,處于比較穩(wěn)定的狀態(tài),鑒于多方面的考慮,我們采用了距今較近的第七版。
4、本體的構(gòu)建
將主題詞作為Ontology的知識元,對分類及其屬性設(shè)置進(jìn)行調(diào)整與修改。將上下位關(guān)系作為the medical domain Ontology的知識元樹狀結(jié)構(gòu)。以此建立知識描述體系的原型。
4.1中醫(yī)藥主題詞表的重構(gòu)與利用
中醫(yī)藥主題詞表的自動導(dǎo)入只是實現(xiàn)了描述語言上的一種轉(zhuǎn)換,但是,領(lǐng)域本體中概念的設(shè)計應(yīng)最大限度地貼近研究者要研究的專業(yè)領(lǐng)域中的客觀對象和對象間的關(guān)系法則。因此,中醫(yī)藥主題詞表雖然是該專業(yè)公認(rèn)的領(lǐng)域知識,但主題詞表多是由圖書情報人員編寫而成,有較強(qiáng)的文獻(xiàn)標(biāo)注覆蓋面,卻不能夠深層次反映學(xué)科內(nèi)在聯(lián)系,必須對其進(jìn)行知識重構(gòu),使其具備更強(qiáng)的學(xué)術(shù)性、專業(yè)性。
①從樹狀結(jié)構(gòu)到多層嵌套的立體網(wǎng)狀結(jié)構(gòu)的轉(zhuǎn)變:主題詞表為了文獻(xiàn)標(biāo)引的方便,多把主題詞平行分布在多個樹狀結(jié)構(gòu)內(nèi)。背離了專業(yè)知識體系描述習(xí)慣與方法,因此,必須在中醫(yī)藥主題詞表中尋找關(guān)鍵類,以此作為知識描述的基本單元,建立層次結(jié)構(gòu)體系。該設(shè)計不但可以實現(xiàn)概念描述體系從樹狀結(jié)構(gòu)到多層嵌套的網(wǎng)狀結(jié)構(gòu)的轉(zhuǎn)變;同時,也有效地實現(xiàn)了領(lǐng)域本體最大單向可擴(kuò)展性。
②從文獻(xiàn)檢索與標(biāo)引到專家系統(tǒng)雙重功能的轉(zhuǎn)變:從樹狀結(jié)構(gòu)到多層嵌套的立體網(wǎng)狀結(jié)構(gòu)的轉(zhuǎn)變,雖然可以改變概念體系的描述結(jié)構(gòu),卻沒有改變對知識深層的描述方式,必須依據(jù)專業(yè)知識進(jìn)行再次重構(gòu)。從而實現(xiàn)從主要服務(wù)于文獻(xiàn)檢索與標(biāo)注到既服務(wù)于文獻(xiàn)檢索與標(biāo)注又服務(wù)于臨床診斷與治療的雙重功能的轉(zhuǎn)變。如醫(yī)學(xué)領(lǐng)域可以“臨床”為核心組織疾病類知識,根據(jù)臨床醫(yī)學(xué)的知識描述框架,將疾病類知識框架中其他類(解剖、化學(xué)制品和藥物、衛(wèi)生保健)合并、拆分,得到疾病類屬性包含癥狀與體征、治療與護(hù)理等。并將其他類也根據(jù)專業(yè)知識進(jìn)行進(jìn)一步的描述,如中藥的描述屬性有起源、產(chǎn)地、采收、炮制、藥性、功效主治、中藥分類、配伍規(guī)律、中藥毒性、中藥禁忌、用量用法等。以此分別建立其他類知識的描述框架。具體屬性如下所述:
中醫(yī)基礎(chǔ)理論:釋義、理論概念產(chǎn)生與發(fā)展、學(xué)術(shù)觀、主要代表人物、主要代表著作。
藏象學(xué)說:藏象學(xué)說產(chǎn)生與發(fā)展、基本功能、臟腑關(guān)系。
氣血津液:氣血津液概念、生成、功能、運(yùn)行及其方式、分類與分布、氣血津液相互關(guān)系。
經(jīng)絡(luò)腧穴:概念學(xué)說產(chǎn)生與發(fā)展、循行走向、分布部位、生理功能、經(jīng)絡(luò)腧穴關(guān)系、臨床應(yīng)用。
病因病機(jī):產(chǎn)生發(fā)展、特征、層次結(jié)構(gòu)。
診斷:分類、方法、意義。
中藥:起源、產(chǎn)地、采收、炮制、藥性、功效主治、中藥分類、配伍規(guī)律、中藥毒性、中藥禁忌、用量用法。
方劑:來源、方劑分類、劑型、組成、組方原則、功用與主治、煎服法、禁忌。
傷寒與溫病屬性:相關(guān)定義、癥狀、體征、病因病機(jī)、診斷、治則治法、方藥、傳變、轉(zhuǎn)歸預(yù)后、預(yù)防調(diào)攝。
癥狀、病證:病位、病性、病癥相互關(guān)系。
治療方法:發(fā)生發(fā)展、內(nèi)容與分類、相互關(guān)系。
中醫(yī)藥器械設(shè)備:類型、儀器功能、儀器應(yīng)用、生產(chǎn)商、銷售商。
中醫(yī)藥及相關(guān)學(xué)科:發(fā)展史、代表人物、代表著作、主要學(xué)術(shù)觀。
中醫(yī)藥文獻(xiàn)及情報學(xué):定義、產(chǎn)生與發(fā)展、主要人物、主要著作、學(xué)術(shù)觀點(diǎn)。
中醫(yī)藥機(jī)構(gòu):名稱、成立年代、機(jī)構(gòu)性質(zhì)、職責(zé)。
人物:姓名、生存年代、籍貫、著作、學(xué)術(shù)觀念、所屬學(xué)派、學(xué)術(shù)成就。
地理:現(xiàn)代名稱、古代曾用名、地方病、流行病、地方學(xué)派、地方名醫(yī)、道地藥材。
體質(zhì):定義、形成與發(fā)展、分型、體質(zhì)特征、生理學(xué)基礎(chǔ)、應(yīng)用。
著作:異名、著者、成書年代、卷次、版本與流傳、類別、主要學(xué)術(shù)觀點(diǎn)。
通過這次重構(gòu),實現(xiàn)從主要服務(wù)于文獻(xiàn)檢索與標(biāo)注到既服務(wù)于文獻(xiàn)檢索與標(biāo)注又服務(wù)于臨床診斷與治療的雙重功能的轉(zhuǎn)變。
4.2基于NLP技術(shù)的知識描述體系的構(gòu)建與獲取
通過對中醫(yī)藥主題詞表的重構(gòu)與利用,我們也就獲得了領(lǐng)域本體的基本架構(gòu),但這還遠(yuǎn)遠(yuǎn)不夠,需要集成NLP技術(shù),實現(xiàn)從傳統(tǒng)的知識描述到NLP智能分析描述的功能轉(zhuǎn)變。
4.2.1概念屬性的深化描述
為了獲得廣泛意義上的構(gòu)建方法與技術(shù),我們突破學(xué)科限制,從自然語言分析和知識挖掘的高度出發(fā),將每個概念的屬性描述都分為三種方式:概述類描述、專業(yè)類描述、NLP語義類描述。
概述類描述:名稱、英文名、釋義、代碼與約束。其中名稱、英文名、代碼等由主題詞表等所帶信息自動生成。釋義是利用概念詞(主題詞)與專業(yè)詞典詞條匹配后,實現(xiàn)概念定義文本的自動填充。
專業(yè)類描述:每個概念的專業(yè)類屬性又分為兩種描述形式——自然語言文本描述、知識元描述(NLP主題自動標(biāo)引)。
如病證類專業(yè)屬性描述:“癥狀與體征”、“發(fā)病部位”以及“癥狀與體征2”、“發(fā)病部位2”等。其中“癥狀與體征”、“發(fā)病部位”的屬性值是利用自然語言文本進(jìn)行描述的,即槽值是用自然文本填充的。而“癥狀與體征2”、“發(fā)病部位2”的屬性值則是利用自然語言文本描述屬性中的文本內(nèi)容進(jìn)行NLP主題自動標(biāo)引后進(jìn)行映射關(guān)聯(lián)形成的,即:槽值是相關(guān)結(jié)點(diǎn)(概念)屬性的集成與關(guān)聯(lián)(關(guān)聯(lián)概念攜帶其固有關(guān)系及結(jié)構(gòu))。
NLP語義類描述:由自由詞(NLP自動切分)、同義詞、相關(guān)詞、中文概念詞典(CCD)詞等構(gòu)成。
4.2.2領(lǐng)域概念的自動獲取
關(guān)于概念的自動獲取方法,無論國內(nèi)還是國外,統(tǒng)計方法都是主流。我們也曾經(jīng)嘗試著將已有的這些方法應(yīng)用到醫(yī)學(xué)領(lǐng)域中,希望能夠自動抽取出醫(yī)學(xué)概念,但結(jié)果卻不理想。其中的主要困難在于如何識別概念的領(lǐng)域相關(guān)性。因此,本文采用已有本體NLP語義類技術(shù),獲取新的概念,即由系統(tǒng)對自然文本進(jìn)行自動切分標(biāo)注,并利用所得術(shù)語與已有概念集(主題詞表)進(jìn)行匹配后,沒有相應(yīng)匹配的術(shù)語也就組成新術(shù)語備選集合。將新獲取的術(shù)語備選詞與關(guān)系術(shù)語(本體原有概念)進(jìn)行冗余度計算,大于一定閾值后,可認(rèn)為是新概念。
5、本體的進(jìn)化
Ontology是一個開放集成的體系,底層知識庫與概念集應(yīng)該隨著學(xué)科領(lǐng)域的更新和發(fā)展隨時進(jìn)行修正和更新,因此針對權(quán)威機(jī)構(gòu)網(wǎng)站發(fā)布的更新信息,進(jìn)行定期采集與獲取,可以有效地解決這一問題。
5.1進(jìn)化流程
基于網(wǎng)絡(luò)資源,進(jìn)行知識采集與加工,進(jìn)而實現(xiàn)受限文本的Ontology自學(xué)習(xí)機(jī)制。
5.2概念關(guān)系自動獲取方法及技術(shù)
使用擴(kuò)展的關(guān)聯(lián)規(guī)則挖掘方法獲取概念間的非分類關(guān)系。其基本思想是:如果兩個概念經(jīng)常出現(xiàn)在同一文檔(或段落,或句子)中,則這兩個概念之間必定存在關(guān)系,因此,使用已有的概念層次作為背景知識,然后利用關(guān)聯(lián)規(guī)則來發(fā)現(xiàn)概念間的非分類關(guān)系;如在基于模式識別的層次關(guān)系提取中,通過部件的語義類別,利用漢語的命名規(guī)律,可推導(dǎo)出術(shù)語的語義類別,以確定術(shù)語關(guān)系。
術(shù)語自動提取與術(shù)語層次關(guān)系自動提取技術(shù),是領(lǐng)域本體進(jìn)化過程中的兩個關(guān)鍵環(huán)節(jié),通過上述方法,實現(xiàn)了從傳統(tǒng)的知識描述到NLP智能分析描述的功能轉(zhuǎn)變,從而為本體的自動進(jìn)化奠定了物質(zhì)基礎(chǔ)。
6、構(gòu)建平臺的研制與開發(fā)
利用自然語言處理(NLP)理論和技術(shù)方法,將多種公認(rèn)領(lǐng)域知識自動導(dǎo)入編譯,是實現(xiàn)中醫(yī)藥本體構(gòu)建、進(jìn)化的必備條件之一。我們在Protege3.1的基礎(chǔ)上,加入了大量NLP的處理技術(shù),成功開發(fā)出了中醫(yī)藥本體輔助構(gòu)建系統(tǒng),其主要功能如下:
①多樣化的導(dǎo)人、導(dǎo)出方式(RTF/XML/OWL等):方便與國際上相關(guān)的Ontology之間的知識交流、知識共享和知識重用;
②強(qiáng)大的編輯功能:層次結(jié)構(gòu)的調(diào)整、屬性關(guān)系的調(diào)整、屬性值的增刪改等;
③強(qiáng)大的檢索功能:可以對知識元或?qū)傩赃M(jìn)行精確查找和模糊查找;
④多層次網(wǎng)絡(luò)的知識互聯(lián);
⑤NLP自動分析處理功能:包括結(jié)構(gòu)化詞表處理功能,主要處理中醫(yī)藥主題詞表、主題詞表、分類詞表、分類主題詞表等帶有結(jié)構(gòu)信息的資源,是領(lǐng)域Ontology自動構(gòu)建的基礎(chǔ);教材及其他文本處理,主要處理教材等行文相對規(guī)范的電子文本;專業(yè)詞典處理功能,主要對專業(yè)詞典進(jìn)行導(dǎo)入與處理。
⑥網(wǎng)絡(luò)內(nèi)容提取與挖掘:主要包括批量網(wǎng)絡(luò)內(nèi)容提取功能(離線),輸入批量的醫(yī)學(xué)網(wǎng)站地址,定期、主動下載所有網(wǎng)頁并建立索引,輸入知識元類別,完成網(wǎng)上醫(yī)學(xué)知識的自動提取與批量填充;知識元相關(guān)的批量網(wǎng)絡(luò)內(nèi)容提取功能,輸入某一種疾病,并提供該疾病相關(guān)的批量的醫(yī)學(xué)網(wǎng)站地址,完成網(wǎng)上醫(yī)學(xué)知識的自動提取與批量填充。
⑦本體關(guān)系的可視化功能:可視化是利用計算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。為了使用戶能夠更形象地看到本體的關(guān)系結(jié)構(gòu),我們?yōu)槠脚_集成了本體關(guān)系的可視化功能。
7、應(yīng)用研究
在成功構(gòu)建的基礎(chǔ)上,課題組也進(jìn)行了多種應(yīng)用研究,主要體現(xiàn)在以下幾個方面:
7.1文獻(xiàn)知識標(biāo)引
建立每篇文獻(xiàn)與核心知識庫的多點(diǎn)鏈接:對海量的文獻(xiàn)資料庫,以領(lǐng)域的核心知識元數(shù)據(jù)庫為主軸,對每篇文獻(xiàn)進(jìn)行結(jié)構(gòu)化的知識標(biāo)引,使當(dāng)前文獻(xiàn)中蘊(yùn)涵的知識骨架結(jié)構(gòu)顯性化地呈現(xiàn)出來,形成解構(gòu)后的文獻(xiàn)資料映像庫,其中的每篇文獻(xiàn)都與核心知識元數(shù)據(jù)庫相鏈接,并藉此形成不同文獻(xiàn)之間的相互關(guān)聯(lián)。
7.2網(wǎng)絡(luò)資源的知識標(biāo)引
更大范圍內(nèi)的知識資源集合分類型、分領(lǐng)域與核心知識庫進(jìn)行鏈接:以核心知識元數(shù)據(jù)庫為底層的本體,通過Semantic Web語義標(biāo)注技術(shù),對互聯(lián)網(wǎng)信息資源以及其他國家的知識資源集合進(jìn)行分類型、分領(lǐng)域的對接。
7.3精準(zhǔn)知識服務(wù)系統(tǒng)
基于本體,自動生成醫(yī)學(xué)知識,引證和補(bǔ)充知識庫;在搜索文獻(xiàn)基礎(chǔ)上分析文獻(xiàn)內(nèi)容,基于知識元數(shù)據(jù)庫整理相關(guān)數(shù)據(jù),形成對當(dāng)前最新研究現(xiàn)狀的總結(jié)、述評以及趨勢預(yù)測。
通過以上幾方面的分析對比,既可以基于網(wǎng)絡(luò)資源更新百科全書,又可以基于百科全書指導(dǎo)網(wǎng)絡(luò)資源的開發(fā)和利用。
8、結(jié)論
本文利用自然語言處理(NLP)理論和技術(shù)方法對中醫(yī)藥領(lǐng)域中已有的公認(rèn)領(lǐng)域知識進(jìn)行了重構(gòu)與利用,成功實現(xiàn)了中醫(yī)藥學(xué)知識描述體系的自動構(gòu)建與獲取,從而為中醫(yī)藥知識的挖掘與利用奠定了數(shù)據(jù)基礎(chǔ),并在此基礎(chǔ)上,借助領(lǐng)域?qū)<抑R,實現(xiàn)了受限文本的Ontology自學(xué)習(xí)機(jī)制,對領(lǐng)域本體的進(jìn)化進(jìn)行了有益的探索,有效地解決了Ontology研究的瓶頸問題,從目前看來。是一種較為理想、實用的方法,該研究的成功實現(xiàn),為專業(yè)領(lǐng)域Ontology的自動構(gòu)建提供理論依據(jù)及技術(shù)支持。