王大禹,李園白,楊陽(yáng),崔蒙
中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700
·中醫(yī)藥信息研究·
中文中醫(yī)本體自動(dòng)擴(kuò)展的定量研究
王大禹,李園白,楊陽(yáng),崔蒙*
中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700
目的 對(duì)利用新的知識(shí)源自動(dòng)擴(kuò)展中文中醫(yī)本體進(jìn)行定量研究。方法 基于中醫(yī)醫(yī)療術(shù)語(yǔ)及術(shù)語(yǔ)間的關(guān)系構(gòu)建實(shí)驗(yàn)用的本體,利用中醫(yī)藥學(xué)術(shù)論文中提及的病例作為知識(shí)源擴(kuò)展本體,并用作測(cè)試集來(lái)評(píng)測(cè)本體擴(kuò)展前后的質(zhì)量。結(jié)果 包含 41 652個(gè)實(shí)例的本體可以通過(guò) 3000個(gè)診次的醫(yī)療信息擴(kuò)展,對(duì)真實(shí)臨床應(yīng)用出現(xiàn)的疾病名稱的覆蓋率由 52.3%增至 72.4%,證候名稱覆蓋率由 14.8%增至55.8%,藥物名稱覆蓋率由 13.7%增至 54.8%,治法名稱覆蓋率由 25.8%增至 77.2%。結(jié)論 利用學(xué)術(shù)論文中提及的病例作為新知識(shí)源來(lái)自動(dòng)擴(kuò)展本體可以顯著增加本體的覆蓋率。
本體擴(kuò)展;中醫(yī)藥本體;中醫(yī)藥術(shù)語(yǔ)集
一個(gè)本體包含的概念、實(shí)例及關(guān)系的數(shù)量決定了這個(gè)本體可以支持的智能算法的廣度和深度。如果一個(gè)實(shí)例在本體中找不到,那么本體對(duì)于這個(gè)實(shí)例的處理和計(jì)算就無(wú)法提供準(zhǔn)確支持。當(dāng)然,也可以考慮利用相似度計(jì)算找到本體中與被查詢實(shí)例最接近的實(shí)例,但是這種方法會(huì)引入其他知識(shí)資源(如同義詞詞典)或計(jì)算模型(如向量空間模型等相似度計(jì)算模型),本體無(wú)法獨(dú)立工作,產(chǎn)生依賴關(guān)系;同時(shí)也降低了準(zhǔn)確度,因?yàn)橄嗨贫扔?jì)算本身可能是不夠完善和準(zhǔn)確的。所以,構(gòu)建一個(gè)概念豐富、關(guān)系完整的本體對(duì)于解決復(fù)雜問(wèn)題是必備的。
本體的構(gòu)建需要領(lǐng)域?qū)<业膮⑴c,并需要大量的手工工作,難以大規(guī)模構(gòu)建。在具有基本框架和內(nèi)容的本體上利用人工智能技術(shù)進(jìn)行擴(kuò)展是擴(kuò)建本體的一種辦法。中醫(yī)領(lǐng)域的本體擴(kuò)展對(duì)于醫(yī)學(xué)領(lǐng)域及其他領(lǐng)域的本體擴(kuò)展都具有指導(dǎo)意義。
本體的常用形式化定義有很多種,例如,本體可以形式化為五元組<C, R, F, A, ins>,其中C為本體中包含的概念(或類別)的集合;R是關(guān)系的集合;F是一個(gè)函數(shù)的集合,其中每一個(gè)函數(shù)定義了一個(gè)或幾個(gè)概念通過(guò)某個(gè)關(guān)系 ri映射到唯一的一個(gè)概念;A是公理集;ins是實(shí)例集。為簡(jiǎn)化問(wèn)題,本文僅研究二元關(guān)系。例如,在本論文研究的本體中,對(duì)于三元組<加味術(shù)苓湯,呃逆,治療>,“加味術(shù)苓湯”和“呃逆”分別屬于“中藥”和“病癥”類別下面的實(shí)例,“治療”是關(guān)系。EL和 ER分別表示存在二元關(guān)系的 2個(gè)實(shí)例,例如對(duì)于“治療”關(guān)系,EL是“加味術(shù)苓湯”,ER是“呃逆”,表示加味術(shù)苓湯可治療呃逆。
一個(gè)從帶標(biāo)語(yǔ)料庫(kù)、結(jié)構(gòu)化文本或其他資源中抽取出的二元關(guān)系可用于本體擴(kuò)展,它與本體的關(guān)系取決于這個(gè)二元關(guān)系中的 2個(gè)實(shí)例和關(guān)系是否在原本體中。表1顯示了 6種情況,除了“不支持?jǐn)U展”這種情況,我們對(duì)其他5種情況(概念擴(kuò)展I、概念擴(kuò)展II、單純關(guān)系擴(kuò)展、關(guān)系及概念擴(kuò)展I、關(guān)系及概念擴(kuò)展II)逐一進(jìn)行定義。
表1 二元關(guān)系擴(kuò)展本體分類情況
1.1 概念擴(kuò)展Ⅰ
在這種情況下,新的二元關(guān)系(ELn, ERn, Rn)中有一個(gè)概念在本體中,假設(shè)概念 ELn在本體中,同時(shí)關(guān)系Rn也在本體中。新的二元關(guān)系把原本體中的某一個(gè)實(shí)例相關(guān)的一個(gè)關(guān)系擴(kuò)展到了一個(gè)新的實(shí)例。例如,“治療”關(guān)系是中醫(yī)本體中最基本的關(guān)系之一,對(duì)于一種常見的疾病,如果新的二元關(guān)系是一種新的藥物或組方可以治療這種疾病,就可以利用概念擴(kuò)展Ⅰ的方式對(duì)本體進(jìn)行擴(kuò)展。
1.2 概念擴(kuò)展Ⅱ
在這種情況下,新的三元組中的 2個(gè)實(shí)例ELn、ERn均不在本體中,而關(guān)系Rn在本體中,我們把這個(gè)二元關(guān)系加入本體。加入本體后如果不對(duì)本體內(nèi)部進(jìn)行操作,這個(gè)新的三元組中的 2個(gè)實(shí)例就是孤立的。仍以“治療”關(guān)系為例,如果發(fā)現(xiàn)某種新的藥物可以治療新的疾病,則符合概念擴(kuò)展Ⅱ的方式。
1.3 單純關(guān)系擴(kuò)展
在這種情況下,新的三元組中的 2個(gè)實(shí)例ELn、ERn均在本體中,而關(guān)系 Rn不在本體中,這意味著新三元組為本體中 2個(gè)已經(jīng)存在的實(shí)例發(fā)現(xiàn)了新的關(guān)系,我們需要判斷新的關(guān)系和原有關(guān)系是否存在從屬關(guān)系。如果存在從屬關(guān)系,例如,直接上位詞或相鄰層級(jí)的上位詞關(guān)系是上位詞關(guān)系的子集。在這種條件下,如果新發(fā)現(xiàn)的關(guān)系沒有為本體提供新的信息,則不作擴(kuò)展。例如,本體中已經(jīng)是直接上位詞關(guān)系,新發(fā)現(xiàn)的是上位詞關(guān)系,則不做擴(kuò)展。如果新發(fā)現(xiàn)的關(guān)系提供了更準(zhǔn)確的信息,例如本體中是上位詞關(guān)系,而新發(fā)現(xiàn)的是直接上位詞關(guān)系,則用新的關(guān)系代替原有關(guān)系。如果不存在從屬關(guān)系,則要檢查新關(guān)系和原有關(guān)系是否矛盾,或有條件限制。例如,2個(gè)人的關(guān)系可能在某個(gè)日期前是上下級(jí)關(guān)系,而在某個(gè)日期之后是匯報(bào)給同一個(gè)上司的同事關(guān)系?!吧舷录?jí)”和“同級(jí)”這2個(gè)關(guān)系在同一時(shí)間點(diǎn)是矛盾的,因此需要加入日期這個(gè)信息。很多情況下,2個(gè)關(guān)系是不矛盾的。例如,2個(gè)人的生物學(xué)父子關(guān)系會(huì)一直延續(xù),但在某個(gè)日期之后2個(gè)人增加了“同事”關(guān)系。這種情況下,增加日期信息會(huì)讓本體包含更多有用的信息。
2.1.1 性別因素 楊霞等[10]對(duì)201例入住ICU的危重患者研究提示,男性發(fā)生率明顯高于女性,可能與女性忍耐性好于男性有關(guān);其中女性患者129例,發(fā)生例數(shù)25例,發(fā)生率為19.4%,男性患者72例,發(fā)生例數(shù)29例,發(fā)生率為40.3%(P <0.05)。
1.4 關(guān)系及概念擴(kuò)展Ⅰ和Ⅱ
在這種情況下,新的三元組中的關(guān)系Rn不在本體中,同時(shí)至少有 1個(gè)實(shí)例不在本體中,這時(shí)需要把新的三元組所表示的關(guān)系加入到本體中。
1.5 本體的自完善
本體擴(kuò)展應(yīng)尊重并符合原本體的建立標(biāo)準(zhǔn)。我們提出一些衡量本體內(nèi)部一致性的評(píng)測(cè)指標(biāo),并定義在我們的研究中本體需要達(dá)到的標(biāo)準(zhǔn)。如果原本體已經(jīng)達(dá)到了這樣的標(biāo)準(zhǔn),新添加的部分應(yīng)符合同樣的標(biāo)準(zhǔn)。如果原本體沒有達(dá)到這樣的標(biāo)準(zhǔn),則可以將原本體做自完善,使其符合定義的標(biāo)準(zhǔn);然后再保證新添加的部分符合同樣的標(biāo)準(zhǔn)。
2.1 本體的構(gòu)建
本研究使用中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所的病癥、臨床發(fā)現(xiàn)和處方三個(gè)分支結(jié)構(gòu)的術(shù)語(yǔ)集[1]及術(shù)語(yǔ)之間的二元關(guān)系來(lái)構(gòu)建本體。構(gòu)建后的本體包含41 652個(gè)實(shí)例,這些實(shí)例之間存在的二元關(guān)系及數(shù)量如表2所示。
表2 本體中關(guān)系與實(shí)例數(shù)量的統(tǒng)計(jì)
例如,“被…治療”和“治療”是一對(duì)反向的關(guān)系,本體中包含“被…治療”的二元關(guān)系有57 170個(gè),“治療”關(guān)系也有同樣的數(shù)量?!爸委煛标P(guān)系的EL有31 879個(gè),“被…治療”關(guān)系的EL有 2293個(gè),就是說(shuō)這個(gè)本體中“治療”關(guān)系左側(cè)的藥物或方法有31 879個(gè),而右側(cè)被治療的疾病或者證候有2293個(gè)。31 879個(gè)EL到2293個(gè)ER上的二元關(guān)系共有57 170個(gè)。
本研究使用本所對(duì)近年中醫(yī)領(lǐng)域中文學(xué)術(shù)論文中病案的標(biāo)注[2],隨機(jī)抽取 4000個(gè)診次,抽取條件是每個(gè)診次包含如下完整的信息:疾病名稱、證候、治法和用藥。例如,下面是一個(gè)診次的例子:
疾病名稱:'咳嗽'
證候:'風(fēng)熱之邪侵襲肺衛(wèi)$肺失清肅$衛(wèi)表失宣'
治法:'祛風(fēng)$疏表$宣肺$止咳'
用藥:'止嗽散加減'
本研究把4000個(gè)診次信息隨機(jī)分成4組,每組1000個(gè)診次。對(duì) 4000個(gè)診次中疾病名稱進(jìn)行統(tǒng)計(jì),并按照出現(xiàn)頻率由高到低排序,統(tǒng)計(jì)信息見表3??梢姟把灐焙汀翱人浴笔浅霈F(xiàn)頻率最高的2個(gè)疾病名稱,分別出現(xiàn)116次和92次。有兩個(gè)疾病名稱分別出現(xiàn)53、51次,疾病種類數(shù)為2。
為了定量評(píng)估擴(kuò)展前和擴(kuò)展后本體的質(zhì)量,我們定義了一些適合評(píng)測(cè)研究中所使用的本體的指標(biāo),這些評(píng)估指標(biāo)也可以為其他本體質(zhì)量的評(píng)測(cè)提供一些幫助。
表3 診次信息中出現(xiàn)頻率最高的疾病名稱
3.1 實(shí)例術(shù)語(yǔ)覆蓋率
這類指標(biāo)包括可重復(fù)覆蓋率(RC)和不重復(fù)覆蓋率(UC),它們反映一個(gè)本體對(duì)測(cè)試集中的疾病名稱的覆蓋情況,即給出一個(gè)實(shí)例名稱,例如疾病名稱或證候名稱,在本體中是否可以查詢到這個(gè)名稱及相關(guān)知識(shí)。為了更好地呈現(xiàn)一個(gè)本體對(duì)真實(shí)應(yīng)用的支持程度,測(cè)試集中的疾病名稱應(yīng)直接來(lái)源于各種應(yīng)用,例如醫(yī)案、病案或電子病歷。如果測(cè)試集中的疾病名稱是真實(shí)的隨機(jī)采樣,疾病名稱在測(cè)試集中是可以重復(fù)的,其所占比例代表實(shí)踐中的真實(shí)情況。有一些疾病是非常常見的,例如表 3中使用的病案中“眩暈”和“咳嗽”就是出現(xiàn)頻率最高的疾病名稱。當(dāng)測(cè)試集中的疾病名稱是可以重復(fù)的,一個(gè)本體包含這個(gè)測(cè)試集中的疾病的百分比被稱為RC;如果一個(gè)測(cè)試集中的疾病名稱都是不可重復(fù)的,則一個(gè)本體包含這個(gè)測(cè)試集中的疾病百分比被稱為UC。顯然,“可重復(fù)覆蓋率”給常見疾病增加了對(duì)結(jié)果的影響;而“不重復(fù)覆蓋率”把所有疾病都賦予相同的權(quán)重。
3.2 關(guān)系覆蓋率
這類指標(biāo)也包括可重復(fù)覆蓋率(RC)和不重復(fù)覆蓋率(UC),它們反映一個(gè)本體對(duì)測(cè)試集中的二元關(guān)系的覆蓋情況。只有測(cè)試集中某一個(gè)二元關(guān)系的 2個(gè)實(shí)例及關(guān)系都能在本體中找到,我們才確定本體覆蓋這樣一個(gè)二元關(guān)系。如果測(cè)試集中的二元關(guān)系來(lái)源于真實(shí)應(yīng)用,則可以有重復(fù)的,本體稱這種測(cè)試集的覆蓋為RC;如果測(cè)試集中的二元關(guān)系都是不相同的,本體稱這種測(cè)試集的覆蓋為UC。
3.3 本體擴(kuò)展效果評(píng)測(cè)
我們對(duì)構(gòu)建的本體分別使用1組、2組、3組診次中抽取的信息進(jìn)行擴(kuò)展,然后使用第 4組診次中抽取的信息作為測(cè)試集進(jìn)行評(píng)測(cè)。同時(shí)和原本體進(jìn)行比較。為了減少不同診次對(duì)實(shí)驗(yàn)結(jié)果的影響,我們借用N重交叉驗(yàn)證方法,把未擴(kuò)展的本體在4組診次上的疾病名稱覆蓋率的平均值作為基準(zhǔn),即表4中“0”所在列。使用 1000個(gè)診次擴(kuò)展本體時(shí),如果用 A組診次作為知識(shí)源擴(kuò)展本體,會(huì)分別使用BCD其他3個(gè)組作為測(cè)試集,然后求平均值;再換B組作為知識(shí)源擴(kuò)展本體,用ACD其他3個(gè)組作為測(cè)試集。這樣把12個(gè)實(shí)驗(yàn)結(jié)果求平均值作為最終結(jié)果,即表4中“1000”所在列。使用2000個(gè)診次擴(kuò)展時(shí),也用任意 2個(gè)組擴(kuò)展本體后,分別在剩余的2個(gè)組上做測(cè)試,然后求平均值,也是 12個(gè)實(shí)驗(yàn)結(jié)果求平均值,即表 4中“2000”所在列。使用3000個(gè)診次擴(kuò)展本體時(shí),取3個(gè)組診次擴(kuò)展本體,然后在第四組上做測(cè)試,為 4個(gè)實(shí)驗(yàn)結(jié)果的平均值,即“3000”所在列。為了衡量覆蓋率隨診次增加的變化關(guān)系,使用最小二乘法對(duì)已知數(shù)據(jù)進(jìn)行最佳線性擬合,把使用的診次數(shù)量視為自變量,疾病名稱覆蓋率視為函數(shù)值,把擬合后的直線斜率 k放大10 000倍后呈現(xiàn)在表4中“k×104”所在列中。
表4 本體擴(kuò)展前后的實(shí)例術(shù)語(yǔ)覆蓋率
本研究通過(guò)構(gòu)建本體和新知識(shí)源,并通過(guò)構(gòu)建測(cè)試集來(lái)定量研究本體擴(kuò)展后性能的提升。實(shí)驗(yàn)表明,包含 41 652個(gè)實(shí)例的本體通過(guò) 3000個(gè)診次(另有1000個(gè)診次是測(cè)試集,不使用)的醫(yī)療信息擴(kuò)展后,對(duì)真實(shí)臨床應(yīng)用出現(xiàn)的疾病名稱的覆蓋率由52.3%增至72.4%,證候名稱的覆蓋率由14.8%增至55.8%,藥物名稱的覆蓋率由13.7%增至54.8%,治法名稱的覆蓋率由25.8%增至77.2%。隨著用于擴(kuò)充本體的診次數(shù)量的增加,治法名稱的覆蓋率增加最快,平均每增加1000診次,覆蓋率增加16%;疾病名稱增加最慢,平均每增加 1000診次增加6.5%。
目前研究?jī)H為初步工作,因此包含很多簡(jiǎn)化。例如,治療中藥物名稱的匹配,只考慮藥物名稱,而且方劑名稱后如果有“加味”及“加減”視為同一名稱。另外,治法的匹配只考慮了精確匹配,沒有做進(jìn)一步的分析,如四字詞僅和自身做精確匹配,沒有和包含的二字術(shù)語(yǔ)匹配或計(jì)算相似度。例如“活血化瘀”在4000個(gè)診次中出現(xiàn)了81次,查找時(shí)沒有考慮“活血”或“化瘀”。而“活血”出現(xiàn)了389次,“化瘀”出現(xiàn)207次。如果考慮模糊匹配或相似度計(jì)算,可以更好地反映本體的質(zhì)量。
本體的自動(dòng)、半自動(dòng)構(gòu)建和擴(kuò)展一直是國(guó)際上人工智能、知識(shí)管理領(lǐng)域的重要研究課題。很多智能的方法已經(jīng)出現(xiàn),例如基于語(yǔ)義的方法從語(yǔ)料中抽取概念來(lái)擴(kuò)展已有的本體的研究,其核心在于如何識(shí)別出候選的概念,這種方法已經(jīng)應(yīng)用于中醫(yī)領(lǐng)域的本體擴(kuò)展[3]。有的研究從網(wǎng)上的百科全書中抽取概念來(lái)構(gòu)建本體,例如使用維基百科的方法[4],在沒有標(biāo)注的語(yǔ)料庫(kù)中概念和實(shí)例是難以區(qū)分的,因此上述研究借助維基百科的定義和種類標(biāo)記,借助N元組統(tǒng)計(jì)及自然語(yǔ)言處理的方法。也有一些研究嘗試使用原有本體,從中抽取概念再構(gòu)成新的本體[5]。因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)需要大量人工的工作,有研究人員[6]從文本中通過(guò)無(wú)指導(dǎo)的方式構(gòu)建特殊領(lǐng)域的本體,包含了同義詞、從屬、作用、屬性等語(yǔ)義及結(jié)構(gòu)明顯的關(guān)系。還有在已經(jīng)存在的本體上進(jìn)行計(jì)算,構(gòu)建新的本體。例如,有的研究在已經(jīng)存在的本體中自動(dòng)生成映射關(guān)系,通過(guò)抽取、匹配、合并技術(shù)來(lái)半自動(dòng)地構(gòu)建本體[7];有的研究利用術(shù)語(yǔ)在特殊領(lǐng)域及一般領(lǐng)域出現(xiàn)頻次的比較來(lái)抽取概念和關(guān)系,進(jìn)行半自動(dòng)的本體構(gòu)建[8]。國(guó)內(nèi)也有一些通用領(lǐng)域的研究[9-12]和特定領(lǐng)域的研究,例如生物醫(yī)學(xué)領(lǐng)域[13]、氣象領(lǐng)域[14]、農(nóng)業(yè)領(lǐng)域[15]等,這些研究使用了維基百科、科技文獻(xiàn)等資源來(lái)擴(kuò)展本體。
上述研究的普遍不足之處在于缺少對(duì)擴(kuò)展前后或新構(gòu)建的本體的評(píng)測(cè),有的研究即使有評(píng)測(cè),卻沒有使用來(lái)源于實(shí)際應(yīng)用的測(cè)試集。本研究彌補(bǔ)了本體測(cè)評(píng)的問(wèn)題,并使用了來(lái)自真實(shí)應(yīng)用的診次信息構(gòu)建測(cè)試集。從 UC和 RC的差值上,我們發(fā)現(xiàn)藥物名稱的差距最小而治法名稱的差距最大,說(shuō)明絕大部分治法名稱的術(shù)語(yǔ)容易反復(fù)出現(xiàn),而藥物名稱不容易反復(fù)出現(xiàn)。從斜率 k上看,隨著診次的增加,治法名稱覆蓋率最容易增加,而疾病名稱不容易增加。說(shuō)明實(shí)際就診中常見病會(huì)經(jīng)常出現(xiàn),而中醫(yī)治法多元化的形勢(shì)明顯,與疾病名稱相比,同樣的疾病在中醫(yī)診治中會(huì)使用不同的治法。通過(guò)藥物名稱的 RC和 UC差異看,二者差異遠(yuǎn)大于疾病名稱、治法和證候,說(shuō)明實(shí)際治療中醫(yī)生傾向于使用常用藥物。
[1] 于彤,賈李蓉,劉靜,等.中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)研究綜述[J].中國(guó)中醫(yī)藥圖書情報(bào)雜志,2015,39(6):56-60.
[2] 李園白,楊陽(yáng),朱曉博,等.基于文獻(xiàn)的“病-藥”關(guān)聯(lián)關(guān)系分析[J].中華中醫(yī)藥雜志,2014,29(1):253-255.
[3] ZHOU LP, ZHANG DZ, CHEN X, et al. A method for semanticsbased conceptual expansion of ontology[C]// Association for Computing Machinery(ACM). Proceedings of the 2008 ACM symposium on Applied computing. New York,2008:1583-1587.
[4] CUI GY, LU Q, LI WJ, et al. Mining Concepts from Wikipedia for Ontology Construction[C]// IEEE Computer Society. Proceedings of the 2009 IEEE/WIC/ACM international Joint Conference on Web intelligence and intelligent Agent Technology. Washington,2009:287-290.
[5] BANU A, FATIMA SS, KHAN KUR. A re-usability approach to ontology construction[C]// Association for Computing Machinery(ACM). Proceedings of the Second International Conference on Computational Science, Engineering and Information Technology. New York,2012:189-193.
[6] MUKHERJEE S, AJMERA J, JOSHI S. Unsupervised approach for shallow domain ontology construction from corpus[C]// Association for Computing Machinery(ACM). Proceedings of the 23rd International Conference on World Wide Web. New York,2014:349-350.
[7] TOUMA R, ROMERO O, JOVANOVIC P. Supporting Data Integration Tasks with Semi-Automatic Ontology Construction[C]// Association for Computing Machinery(ACM). Proceedings of the ACM Eighteenth International Workshop on Data Warehousing and OLAP. New York,2015:89-98.
[8] CARVALHEIRA LCC, GOMI ES. A method for semi-automatic creation of ontologies based on texts[C]// Proceedings of the 2007 conference on Advances in conceptual modeling:foundations and applications. Auckland,2007:150-159.
[9] 侯鑫,張旭堂,金天國(guó),等.面向知識(shí)與信息管理的領(lǐng)域本體自動(dòng)構(gòu)建算法[J].計(jì)算機(jī)集成制造系統(tǒng),2011,17(1):159-170.
[10] 楊靖.領(lǐng)域本體自動(dòng)構(gòu)建的關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2008.
[11] 程曉.面向半結(jié)構(gòu)化文本的領(lǐng)域本體自動(dòng)構(gòu)建研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009.
[12] 盧文興,陳黎,朱洪波,等.基于本體翻譯的領(lǐng)域本體自動(dòng)構(gòu)建[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(9):3203-3207,3230.
[13] 孫銳.生物醫(yī)學(xué)領(lǐng)域本體自動(dòng)構(gòu)建系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].杭州:浙江大學(xué),2013.
[14] 王磊,顧大權(quán),侯太平,等.基于維基百科的氣象本體的自動(dòng)構(gòu)建[J].計(jì)算機(jī)與現(xiàn)代化,2014(6):129-131,136.
[15] 王超,李書琴,肖紅.基于文獻(xiàn)的農(nóng)業(yè)領(lǐng)域本體自動(dòng)構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(8):71-74.
A Quantitative Study on Automatic Expansion of Chinese TCM Ontology
WANG Da-yu, LI Yuan-bai, YANG Yang, CUI Meng*
(Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medicine Science, Beijing 100700, China)
Objective To conduct a quantitative study on the automatic expansion of Chinese TCM ontology with new knowledge sources. Methods The experimental Chinese TCM ontology was built based on TCM terms and relationships among different terms. Medical cases in TCM academic papers were set as knowledge sources for expansion of ontology. These cases were used as testing sets to evaluate the quality of the ontology before and after expansion. Results Ontology with 41,652 cases could be expanded through information in 3000 clinical visits. The coverage of this ontology on disease names in real clinical application increased from 52.3% to 72.4%, syndrome names from 14.8% to 55.8%, medicine names from 13.7% to 54.8%, and TCM therapy names from 25.8% into 77.2%. Conclusion Using medical cases in TCM acajemic papers as the new knowledge sources for automatic expansion of ontology can significantly increase ontology coverage.
ontology expansion; TCM ontology; TCM terminology set
R2-03
A
2095-5707(2016)05-0009-05
王大禹,李園白,楊陽(yáng),等.中文中醫(yī)本體自動(dòng)擴(kuò)展的定量研究[J].中國(guó)中醫(yī)藥圖書情報(bào)雜志,2016,40(5):9-13. DOI: 10.3969/j.issn.2095-5707.2016.05.003
2016-08-19)
(
2016-09-08;編輯:魏民)
國(guó)家科技部重大專項(xiàng)(2012ZX09304003-001);國(guó)家中醫(yī)藥管理局行業(yè)專項(xiàng)(201207001-21);科技部科技基礎(chǔ)性工作專項(xiàng)(2009FY120300);中國(guó)中醫(yī)科學(xué)院創(chuàng)新團(tuán)隊(duì)項(xiàng)目(PY1306);福建省2011中醫(yī)健康管理協(xié)同創(chuàng)新中心
王大禹,博士后研究人員,研究方向?yàn)獒t(yī)學(xué)信息學(xué)。E-mail: sywdy@qq.com
崔蒙,研究員,研究方向?yàn)橹嗅t(yī)藥信息學(xué)。
E-mail: cm@mail.cintcm.ac.cn