国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

領(lǐng)域知識(shí)圖譜研究綜述①

2020-06-20 07:31劉燁宸李華昱
關(guān)鍵詞:醫(yī)學(xué)知識(shí)本體圖譜

劉燁宸,李華昱

(中國(guó)石油大學(xué)(華東) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)

1 引言

知識(shí)圖譜的概念要追溯到上世紀(jì)六十年代提出的一種知識(shí)表示形式-語(yǔ)義網(wǎng)絡(luò)(semantic network),它由相互連接的節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示概念或?qū)ο?邊表示節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系.在表現(xiàn)形式上,語(yǔ)義網(wǎng)絡(luò)和知識(shí)圖譜相似,但語(yǔ)義網(wǎng)絡(luò)側(cè)重于描述概念與概念之間的關(guān)系,知識(shí)圖譜側(cè)重于描述實(shí)體與實(shí)體之間的關(guān)系[1].除了語(yǔ)義網(wǎng)絡(luò)之外,語(yǔ)義網(wǎng)(semantic web)和鏈接數(shù)據(jù)(linked data)也為知識(shí)圖譜的誕生提供了支撐.

知識(shí)圖譜分為通用知識(shí)圖譜與領(lǐng)域知識(shí)圖譜兩類.這兩種知識(shí)圖譜主要存在覆蓋范圍和使用方式上的差異.通用知識(shí)圖譜面向通用領(lǐng)域,主要包含了大量的現(xiàn)實(shí)世界中的常識(shí)性知識(shí),覆蓋面廣.領(lǐng)域知識(shí)圖譜又稱為行業(yè)知識(shí)圖譜或垂直知識(shí)圖譜,是面向某一特定領(lǐng)域的,是由該領(lǐng)域的專業(yè)數(shù)據(jù)構(gòu)成的行業(yè)知識(shí)庫(kù),因其基于行業(yè)數(shù)據(jù)構(gòu)建,有著嚴(yán)格而豐富的數(shù)據(jù)模式,所以對(duì)該領(lǐng)域知識(shí)的深度、知識(shí)準(zhǔn)確性有著更高的要求.

本文通過(guò)介紹領(lǐng)域知識(shí)圖譜的定義與架構(gòu),首先對(duì)領(lǐng)域知識(shí)圖譜有個(gè)基本了解.然后以醫(yī)學(xué)知識(shí)圖譜的構(gòu)建為例介紹信息抽取、知識(shí)融合和知識(shí)加工3 個(gè)核心技術(shù).最后列舉了幾大熱門領(lǐng)域知識(shí)圖譜的現(xiàn)狀并對(duì)知識(shí)圖譜的應(yīng)用做出說(shuō)明.

2 領(lǐng)域知識(shí)圖譜的定義與架構(gòu)

2.1 領(lǐng)域知識(shí)圖譜的定義

要說(shuō)明什么是領(lǐng)域知識(shí)圖譜,首先應(yīng)該闡述什么是知識(shí)圖譜.其實(shí),工業(yè)界和學(xué)術(shù)界都沒(méi)有對(duì)于知識(shí)圖譜給出一個(gè)嚴(yán)格的定義.本文在這里借用“Exploiting Linked Data and Knowledge Graphs in Large Organisations”[2]這本書對(duì)知識(shí)圖譜的定義:“A knowledge graph consists of a set of interconnected typed entities and their attributes.”,即知識(shí)圖譜是由一些相互連接的實(shí)體以及它們的屬性構(gòu)成的.知識(shí)圖譜是由一條條知識(shí)組成,而知識(shí)需要有其表達(dá)形式,目前主流的知識(shí)表達(dá)形式有兩種:W3W 制定的資源描述框架(Resource Description Framework,RDF)和網(wǎng)絡(luò)本體語(yǔ)言(Web Ontology Language,OWL).本質(zhì)上,知識(shí)圖譜是一種揭露實(shí)體之間關(guān)系的語(yǔ)義網(wǎng)絡(luò).但是又不同于上世紀(jì)五六十年代產(chǎn)生的語(yǔ)義網(wǎng)絡(luò),它之所以成為了新興技術(shù),其中的關(guān)鍵就是知識(shí)規(guī)模.知識(shí)圖譜是大數(shù)據(jù)時(shí)代催生的,其規(guī)模之大決定了其效用之大.當(dāng)前已經(jīng)建成了多個(gè)大規(guī)模知識(shí)圖譜:DBpedia,YAGO,XLORE,Freebase,Google KG 等.表1統(tǒng)計(jì)了部分知識(shí)圖譜的數(shù)據(jù)規(guī)模.

表1 部分知識(shí)圖譜規(guī)模統(tǒng)計(jì)

領(lǐng)域知識(shí)圖譜(domain-specific knowledge graph)作為知識(shí)圖譜的一個(gè)分支,它把知識(shí)的覆蓋范圍和使用方式都聚焦于某一特定領(lǐng)域,因此其對(duì)該領(lǐng)域知識(shí)的深度和精度都有很高的要求.通用知識(shí)圖譜則更注重廣度,強(qiáng)調(diào)融合更多的實(shí)體,其精確度不夠高,且受概念范圍的影響,很難借助本體庫(kù)對(duì)公理、規(guī)則以及約束條件的支持能力規(guī)范其實(shí)體、屬性、實(shí)體間的關(guān)系等[3].領(lǐng)域知識(shí)圖譜具有許多不同的數(shù)據(jù)模式以適應(yīng)不同的業(yè)務(wù)場(chǎng)景和使用人員

表2總結(jié)了領(lǐng)域知識(shí)圖譜和通用知識(shí)圖譜在知識(shí)表示、知識(shí)獲取和知識(shí)應(yīng)用3 個(gè)方面的區(qū)別.

表2 通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜比較[4]

知識(shí)表示的3 個(gè)維度中比較重要的一個(gè)維度是知識(shí)粒度,知識(shí)粒度反映了基本知識(shí)單元的大小.不同領(lǐng)域中粒度大小往往是不相同的,也難以形成一個(gè)統(tǒng)一標(biāo)準(zhǔn).在傳統(tǒng)的知識(shí)搜索領(lǐng)域中,知識(shí)粒度往往是文檔級(jí)別,這也就表現(xiàn)為搜索結(jié)果是一堆文檔的羅列.而在引入知識(shí)圖譜后的搜索結(jié)果可以直接給出答案的名詞以及答案的相近關(guān)系,這也就是知識(shí)表示粒度細(xì)化到單個(gè)實(shí)體乃至是實(shí)體的某個(gè)屬性的表現(xiàn)(如圖1).一般來(lái)說(shuō),知識(shí)表示的細(xì)膩程度與表達(dá)能力成正比,與獲取難度成反比.領(lǐng)域知識(shí)圖譜往往要求更細(xì)的知識(shí)粒度,這也就造成了知識(shí)獲取的困難.所以領(lǐng)域知識(shí)圖譜的構(gòu)建更加花費(fèi)資源[4].

圖1 知識(shí)圖譜以文檔中的實(shí)體作為知識(shí)單元

從知識(shí)獲取層面看,領(lǐng)域知識(shí)圖譜對(duì)知識(shí)質(zhì)量要求更加苛刻,這是因?yàn)轭I(lǐng)域內(nèi)的應(yīng)用容錯(cuò)率更低.比如教育領(lǐng)域,某一知識(shí)點(diǎn)的錯(cuò)誤還可能導(dǎo)致與其關(guān)聯(lián)知識(shí)產(chǎn)生偏差.對(duì)質(zhì)量要求苛刻自然也就需要更多的專家參與,這也是領(lǐng)域知識(shí)圖譜準(zhǔn)確度的保障.但重度專家參與并不意味著完全由專家建設(shè),充分發(fā)揮專家在該領(lǐng)域的專業(yè)性,自動(dòng)化建設(shè)與人力補(bǔ)充才是構(gòu)建領(lǐng)域知識(shí)圖譜的正確思路.

由于領(lǐng)域知識(shí)圖譜知識(shí)覆蓋范圍較小,知識(shí)深度更深,所以知識(shí)點(diǎn)更加密集,這就導(dǎo)致領(lǐng)域知識(shí)圖譜的推理鏈條更長(zhǎng).領(lǐng)域知識(shí)圖譜往往是為了某一專業(yè)領(lǐng)域而構(gòu)建的,其應(yīng)用復(fù)雜度自然更復(fù)雜一些.

2.2 領(lǐng)域知識(shí)圖譜的架構(gòu)

領(lǐng)域知識(shí)圖譜的架構(gòu)分兩種:一種是領(lǐng)域知識(shí)圖譜自身的邏輯結(jié)構(gòu);另一種是領(lǐng)域知識(shí)圖譜的構(gòu)建技術(shù)(體系)架構(gòu),如圖2所示.

從邏輯上看,知識(shí)圖譜分為數(shù)據(jù)層和模式層.在數(shù)據(jù)層中,知識(shí)以事實(shí)為單位進(jìn)行存儲(chǔ).事實(shí)通常以三元組的形式進(jìn)行存儲(chǔ)在圖數(shù)據(jù)庫(kù)中.像Neo4J、ArangoDB、OrientDB 都是當(dāng)前主流的圖數(shù)據(jù)庫(kù).模式層制定了數(shù)據(jù)層應(yīng)該遵守的約束規(guī)范.通常采用本體庫(kù)來(lái)管理知識(shí)圖譜的模式層,借助本體庫(kù)對(duì)公理、規(guī)則和約束條件的支持能力來(lái)規(guī)范實(shí)體、關(guān)系以及實(shí)體的類型和屬性等對(duì)象間的聯(lián)系[5].知識(shí)圖譜的技術(shù)(體系)架構(gòu)是指其構(gòu)建模式結(jié)構(gòu),通常有自底向上構(gòu)建和自頂向下兩種構(gòu)建方式.自底向上的構(gòu)建方式是直接進(jìn)行數(shù)據(jù)抽取,將所得實(shí)體、關(guān)系、屬性等經(jīng)審核后整合到知識(shí)庫(kù)中.自頂向下的構(gòu)建方式先定義頂層關(guān)系本體,再將實(shí)體整合到頂層本體中.通用知識(shí)圖譜為了融合更多的實(shí)體,大多采用自底向上的方式構(gòu)建[6].領(lǐng)域知識(shí)圖譜面向特定領(lǐng)域,對(duì)知識(shí)的質(zhì)量和準(zhǔn)確度要求苛刻,因此要求領(lǐng)域知識(shí)圖譜具有完備的本體層模式,通常采用自頂向下和自底向上相結(jié)合的構(gòu)建方式[6].

圖2 領(lǐng)域知識(shí)圖譜體系架構(gòu)

3 領(lǐng)域知識(shí)圖譜構(gòu)建

隨著研究熱度越來(lái)越高,各類領(lǐng)域知識(shí)圖譜迅速建設(shè)起來(lái),不但涉及領(lǐng)域范圍廣,而且領(lǐng)域細(xì)分更加復(fù)雜.比如醫(yī)學(xué)知識(shí)圖譜就可以細(xì)化為生物醫(yī)學(xué)領(lǐng)域知識(shí)圖譜、中醫(yī)學(xué)科領(lǐng)域知識(shí)圖譜、中文疾病知識(shí)圖譜乃至乳腺腫瘤知識(shí)圖譜、基于甲狀腺知識(shí)圖譜等.雖然說(shuō)領(lǐng)域知識(shí)圖譜的構(gòu)建總體遵循上文闡述的體系架構(gòu),但是具體到各行業(yè)總會(huì)產(chǎn)生差異.所以無(wú)法空泛地講領(lǐng)域知識(shí)圖譜的構(gòu)建.接下來(lái),本文將選取當(dāng)前比較熱門的醫(yī)學(xué)領(lǐng)域?yàn)槔?闡述領(lǐng)域知識(shí)圖譜的構(gòu)建技術(shù).

醫(yī)學(xué)領(lǐng)域知識(shí)圖譜是由多種信息處理技術(shù)共同構(gòu)建而成.通過(guò)醫(yī)學(xué)信息抽取技術(shù),可以從包含醫(yī)學(xué)數(shù)據(jù)的數(shù)據(jù)源中提取出實(shí)體、實(shí)體間的關(guān)系和實(shí)體的屬性等要素.通過(guò)醫(yī)學(xué)知識(shí)融合技術(shù),可以使信息抽取中提取的事實(shí)歧義性更小、冗余度更低、錯(cuò)誤更低.但事實(shí)本身不等于知識(shí),要想最終獲取結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識(shí)體系,還要進(jìn)行知識(shí)加工.

3.1 醫(yī)學(xué)知識(shí)表示

知識(shí)表示是醫(yī)學(xué)知識(shí)圖譜構(gòu)建之前確定下來(lái)的一組約定,以便將知識(shí)以符號(hào)的形式存儲(chǔ).知識(shí)表示的選擇影響著醫(yī)學(xué)知識(shí)圖譜這個(gè)系統(tǒng)在信息抽取、存儲(chǔ)以及應(yīng)用的效率[7].知識(shí)表示方法有3 類.

(1)基于符號(hào)邏輯的知識(shí)表示.該方法是早期醫(yī)療知識(shí)庫(kù)使用的知識(shí)表示方法,常見(jiàn)的邏輯方法有時(shí)間、概率、答案集編程、時(shí)間抽象等.在文獻(xiàn)[8]中,van der Heijden 等提出基于時(shí)態(tài)邏輯的知識(shí)表示方法來(lái)規(guī)范化具有生理背景知識(shí)的臨床指南.在文獻(xiàn)[9]中,Merhej 等提出了一種基于答案集編程(ASP)方法,該方法在處理復(fù)雜搜索問(wèn)題時(shí)取得了較好的成效,不僅可以用于檢測(cè)不同治療方法的沖突,還可以檢測(cè)治療方法間的相互作用.但是基于符號(hào)邏輯的知識(shí)表示很難使用機(jī)器生成推理規(guī)則,僅僅在數(shù)據(jù)規(guī)模較小的時(shí)期使用較廣,現(xiàn)在面對(duì)規(guī)模龐大的醫(yī)學(xué)知識(shí)庫(kù)建設(shè)、面對(duì)具有挑戰(zhàn)性的臨床患者數(shù)據(jù)和基因組數(shù)據(jù)時(shí),僅作為輔助形式存在[7].

(2)使用語(yǔ)義網(wǎng)的知識(shí)表示.這種方法當(dāng)前認(rèn)可度比較高,使用也很廣泛.文獻(xiàn)[10]就使用語(yǔ)義網(wǎng)絡(luò)技術(shù)從計(jì)算機(jī)可解釋的準(zhǔn)則中評(píng)估護(hù)理行為并檢測(cè)個(gè)性化過(guò)程中的潛在矛盾,而文獻(xiàn)[11]則使用語(yǔ)義網(wǎng)絡(luò)技術(shù)通過(guò)醫(yī)療行為和治療數(shù)據(jù)的層次結(jié)構(gòu)進(jìn)行推理以檢測(cè)主要的替代干預(yù)措施.在文獻(xiàn)[12]中,作者使用UMLS 尤其是其語(yǔ)義網(wǎng)絡(luò)來(lái)檢測(cè)臨床指南中的模式.使用語(yǔ)義網(wǎng)的知識(shí)表示主要包括用于可擴(kuò)展標(biāo)記語(yǔ)言XML、描述Web 資源的資源描述框架RDF 和本體語(yǔ)義描述語(yǔ)言WOL.RDF 假定任何復(fù)雜的語(yǔ)義都可以通過(guò)若干個(gè)三元組的組合來(lái)表達(dá).RDF作為一個(gè)統(tǒng)一且無(wú)歧義的語(yǔ)義定義方式,能夠促進(jìn)語(yǔ)義網(wǎng)不同知識(shí)的相互鏈接,克服了XML 必須需要足夠詳細(xì)的XML 解釋文檔才能解釋語(yǔ)義的困難.當(dāng)前在工業(yè)界大規(guī)模應(yīng)用的是基于RDF 三元組的表示方法.

(3)表示學(xué)習(xí).RDF 方法雖然得到了大規(guī)模應(yīng)用,但是由于知識(shí)圖譜中節(jié)點(diǎn)個(gè)數(shù)影響著推理的效率和難度,所以RDF 方法在應(yīng)用于醫(yī)學(xué)領(lǐng)域時(shí)會(huì)出現(xiàn)計(jì)算效率低等問(wèn)題.表示學(xué)習(xí)可以將醫(yī)學(xué)研究對(duì)象的語(yǔ)義信息表示為稠密低維的實(shí)數(shù)值向量.通過(guò)在低維空間中計(jì)算和推理,能有效解決數(shù)據(jù)稀疏的問(wèn)題,適應(yīng)了大數(shù)據(jù)環(huán)境下知識(shí)計(jì)算效率問(wèn)題,更容易解決不同源的異質(zhì)信息融合問(wèn)題.醫(yī)學(xué)知識(shí)圖譜按照計(jì)算方式不同可以分為距離平移模型(translational distance model)和語(yǔ)義匹配模型(semantic matching model)[6].其中距離平移模型通過(guò)設(shè)計(jì)距離評(píng)估函數(shù)判斷知識(shí)的合理性,平移模型的代表是Bordes 提出的TransE 模型.語(yǔ)義匹配模型包括單層神經(jīng)網(wǎng)絡(luò)模型(Single Layer Model,SLM)、隱因子模型(Latent Factor Model,LFM)、神經(jīng)張量模型(Neural Tensor Model,NTM)、矩陣分解模型(Matrix Factorization,MF)等[6].這方面的研究有:Henriksson 等[13]證明基于電子病歷中的臨床事件的深度學(xué)習(xí)表示法可以對(duì)更高性能的預(yù)測(cè)模型進(jìn)行后續(xù)訓(xùn)練.可見(jiàn)表示學(xué)習(xí)在知識(shí)表示方面效果不錯(cuò).

3.2 醫(yī)學(xué)信息抽取

醫(yī)學(xué)信息抽取主要是通過(guò)人工或者自動(dòng)方式從非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)中提取醫(yī)學(xué)知識(shí)單元[7].人工抽取可以通過(guò)基于訪談或焦點(diǎn)小組的工具輔助方法或定性方法來(lái)獲取知識(shí).目前臨床醫(yī)學(xué)知識(shí)庫(kù)、ICD-10和上文提到的SNOMED-CT 知識(shí)庫(kù)都是采用這種方法抽取構(gòu)建的.自動(dòng)抽取借助可以使用機(jī)器學(xué)習(xí)(ML)或基于案例的推理(CBR)技術(shù)從醫(yī)學(xué)信息源中自動(dòng)提取出醫(yī)學(xué)知識(shí)單元以構(gòu)建知識(shí)庫(kù).采用這種方式構(gòu)建的醫(yī)學(xué)知識(shí)庫(kù)有一體化醫(yī)學(xué)語(yǔ)言系統(tǒng) UMLS.隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的發(fā)展,醫(yī)學(xué)知識(shí)自動(dòng)抽取的效率越來(lái)越高,但不利于自動(dòng)化抽取的數(shù)據(jù),人工抽取也是必不可少的.接下來(lái)本文將從實(shí)體抽取、關(guān)系抽取和屬性抽取3 個(gè)方面介紹自動(dòng)抽取技術(shù).

3.2.1 實(shí)體抽取

實(shí)體抽取又稱為命名實(shí)體識(shí)別(named entity recognition),旨在從醫(yī)學(xué)信息源中識(shí)別出特定的醫(yī)學(xué)實(shí)體.實(shí)體抽取是醫(yī)學(xué)信息抽取中至關(guān)重要的一環(huán).醫(yī)學(xué)實(shí)體抽取主要有3 種方法.

(1)基于醫(yī)學(xué)規(guī)則和醫(yī)學(xué)詞典的方法

早期醫(yī)學(xué)實(shí)體抽取研究的主要方向是從醫(yī)學(xué)信息文本中識(shí)別出疾病、癥狀、治療、專家這些關(guān)鍵的實(shí)體信息,為后續(xù)實(shí)體關(guān)系抽取奠定基礎(chǔ).Friedman 等[14]開(kāi)發(fā)了一種通用的自然語(yǔ)言處理器來(lái)識(shí)別敘事報(bào)告中的臨床信息并將其映射為包含臨床術(shù)語(yǔ)的結(jié)構(gòu)化表示形式.基于醫(yī)學(xué)規(guī)則和醫(yī)學(xué)詞典的實(shí)體抽取方法需要大量的人醫(yī)學(xué)專家編寫提取規(guī)則.但是這些規(guī)則往往依賴于具體語(yǔ)言和文本風(fēng)格,這就造成了系統(tǒng)的可移植性不好,限制了其使用,現(xiàn)在這種方法逐漸被另外兩種方法取代[3].但在文獻(xiàn)[15]中,提出了一種將令牌級(jí)詞典功能整合到神經(jīng)模型中以進(jìn)行命名實(shí)體識(shí)別的方法,使基于詞典的實(shí)體抽取方法得到發(fā)展.

(2)基于機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)算法結(jié)合的方法

機(jī)器學(xué)習(xí)誕生后,研究者嘗試通過(guò)使用機(jī)器學(xué)習(xí)中的監(jiān)督算法結(jié)合一些醫(yī)學(xué)規(guī)則從醫(yī)學(xué)數(shù)據(jù)源中提取實(shí)體.這種方法取得了不錯(cuò)的效果,其中最具代表性的是2010年美國(guó)國(guó)家集成生物與臨床信息學(xué)研究中心(I2B2)給出的電子病歷命名實(shí)體語(yǔ)料標(biāo)注.除此之外,文獻(xiàn)[16]中提到Azalia 使用樸素貝葉斯分類器的命名實(shí)體識(shí)別,對(duì)圣訓(xùn)的印度尼西亞語(yǔ)翻譯中的名稱索引.使用機(jī)器學(xué)習(xí)從帶有命名實(shí)體的手動(dòng)注釋的語(yǔ)料庫(kù)中學(xué)習(xí).但是,手動(dòng)注釋語(yǔ)料庫(kù)非常昂貴且費(fèi)力.文獻(xiàn)[17]中提出了一種無(wú)需任何人工注釋即可用于訓(xùn)練臨床NER 系統(tǒng)的新穎方法.它僅需要原始文本語(yǔ)料庫(kù)和諸如UMLS之類的資源,即可提供命名實(shí)體及其語(yǔ)義類型的列表.使用這兩個(gè)資源,將自動(dòng)獲取注釋以訓(xùn)練機(jī)器學(xué)習(xí)方法.該方法在i2b2 2010 和SemEval 2014 的NER 共享任務(wù)數(shù)據(jù)集上進(jìn)行了評(píng)估.其精度可以與過(guò)去使用人工注釋進(jìn)行訓(xùn)練的許多監(jiān)督系統(tǒng)相媲美.

(3)基于深度學(xué)習(xí)的方法

深度學(xué)習(xí)方法是當(dāng)前使用很廣泛的實(shí)體抽取方法,該方法的思路是從目標(biāo)數(shù)據(jù)集中將有相似上下文特征的實(shí)體進(jìn)行聚類操作.這個(gè)方法的缺陷是需要使用大量的標(biāo)準(zhǔn)語(yǔ)料進(jìn)行模型訓(xùn)練,當(dāng)給定的實(shí)體實(shí)例較少時(shí)將面臨困難.在智能醫(yī)療領(lǐng)域,在這個(gè)問(wèn)題上取得比較好的突破的是哥倫比亞大學(xué)的Zhang CW 和騰訊的Li YL[18].他們?cè)?018年引入了一種生成式的視角來(lái)研究關(guān)系醫(yī)學(xué)實(shí)體對(duì)發(fā)現(xiàn)問(wèn)題,旨在在最小化數(shù)據(jù)需求的同時(shí),擴(kuò)大高質(zhì)量而又新穎的結(jié)構(gòu)化新醫(yī)學(xué)知識(shí)的規(guī)模.基于此提出了(CRVAE)模型,通過(guò)利用已標(biāo)注的實(shí)體三元組在自然語(yǔ)言表述上的特點(diǎn),將醫(yī)學(xué)實(shí)體和關(guān)系輸入編碼器,通過(guò)訓(xùn)練模型,對(duì)每一種醫(yī)療關(guān)系的不同實(shí)體對(duì)進(jìn)行編碼,再通過(guò)解碼器進(jìn)行共同訓(xùn)練,重建實(shí)體對(duì),最后得到未被標(biāo)注的實(shí)體三元組.這種方法即使在僅有少量外部資源的情況下也能有不錯(cuò)的判別效果.Zhang 等的實(shí)驗(yàn)表明:該方法能夠在降低外部資源的條件下,以92.91%的支持度生成屬于某個(gè)特定醫(yī)療關(guān)系的實(shí)體三元組,其結(jié)果產(chǎn)生了61.93%的新樣本,準(zhǔn)確率也達(dá)到了77.17%.要正確地識(shí)別實(shí)體,形態(tài)分析(MA)是必不可少的步驟.文獻(xiàn)[19]提出了同時(shí)執(zhí)行MA 和NER 的集成神經(jīng)網(wǎng)絡(luò)模型,重新設(shè)計(jì)了MA 和NER 的執(zhí)行順序,該模型優(yōu)于獨(dú)立的MA 模型和獨(dú)立的NER 模型,可以有效緩解流水線架構(gòu)中經(jīng)常發(fā)生的錯(cuò)誤傳播問(wèn)題.

3.2.2 關(guān)系抽取

RDF 知識(shí)表示方式中包含(實(shí)體,關(guān)系,實(shí)體)格式的三元組,其中的關(guān)系就有關(guān)系抽取產(chǎn)生.醫(yī)學(xué)關(guān)系抽取就是從醫(yī)學(xué)數(shù)據(jù)中抽取兩實(shí)體關(guān)系以實(shí)現(xiàn)實(shí)體間語(yǔ)義聯(lián)結(jié).早期的醫(yī)學(xué)關(guān)系抽取方法類似于“實(shí)體抽取中基于醫(yī)學(xué)規(guī)則和醫(yī)學(xué)詞典的方法”,通過(guò)人工構(gòu)造規(guī)則和模板進(jìn)行關(guān)系抽取.現(xiàn)階段醫(yī)學(xué)領(lǐng)域關(guān)系抽取方法有3 種.

(1)基于機(jī)器學(xué)習(xí)的方法

基于機(jī)器學(xué)習(xí)的方法是通過(guò)解決分類問(wèn)題實(shí)現(xiàn)關(guān)系抽取,常用的分類方法有基于特征和基于核兩種.

基于特征的方法是從文本中生成句法和語(yǔ)義等特征向量,分類器接受向量并判斷實(shí)體對(duì)之間關(guān)系.基于核的方法是根據(jù)某種結(jié)構(gòu)(比如序列、樹(shù)、圖、依存關(guān)系路徑等)來(lái)表示實(shí)體關(guān)系,通過(guò)函數(shù)來(lái)計(jì)算對(duì)象相似度,并稱這種函數(shù)為核.

基于特征分類的方法抽取效果較好、速度很快,但是選擇合適的特征的會(huì)耗費(fèi)許多時(shí)間和精力,而選取特征的好壞關(guān)系著關(guān)系抽取的質(zhì)量.基于核的分類方法特征選取很靈活,但關(guān)系抽取速度慢,不適合大數(shù)據(jù)集的關(guān)系抽取.

(2)基于深度學(xué)習(xí)的方法

基于深度學(xué)習(xí)的關(guān)系抽取方法是目前醫(yī)學(xué)關(guān)系抽取主要的方法.常見(jiàn)的深度學(xué)習(xí)模型有卷積神經(jīng)

網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN).卷積神經(jīng)網(wǎng)絡(luò)依靠卷積核獲取局部特征,適用于短句子實(shí)體關(guān)系抽取;遞歸神經(jīng)網(wǎng)絡(luò)善于學(xué)習(xí)長(zhǎng)期依賴特征,適合處理長(zhǎng)句子,文獻(xiàn)[20]中提出了一種結(jié)構(gòu)塊驅(qū)動(dòng)的卷積神經(jīng)學(xué)習(xí)的新型輕量級(jí)關(guān)系提取方法,通過(guò)在兩個(gè)數(shù)據(jù)集SemEval2010 和KBP37 上的實(shí)驗(yàn),證明了該方法的顯著優(yōu)勢(shì).

(3)基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合的方法

近年來(lái),為了充分發(fā)揮機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)勢(shì),醫(yī)學(xué)專家們將兩種關(guān)系抽取方法結(jié)合起來(lái),以實(shí)現(xiàn)更高效的關(guān)系抽取.李智恒等設(shè)計(jì)的從化學(xué)文獻(xiàn)中抽取化學(xué)物質(zhì)致病關(guān)系的系統(tǒng)-CDRExtractor,就是將基于特征的分類方法和基于核的分類方法結(jié)合起來(lái)進(jìn)行CID 關(guān)系抽取.該系統(tǒng)在BioCreative V CDR 測(cè)評(píng)任務(wù)CID 子任務(wù)提供的測(cè)試集上達(dá)到了67.72% 的F 值[21].Zhang Y 等[22]提出了一種混合模型,采用RNN和CNN 相結(jié)合的方式,實(shí)現(xiàn)檢測(cè)和提取生物醫(yī)學(xué)關(guān)系,實(shí)驗(yàn)結(jié)果表明,RNNs 和CNNs 在生物醫(yī)學(xué)關(guān)系提取中的優(yōu)勢(shì)是互補(bǔ)的.針對(duì)處理長(zhǎng)句子和句子中的多個(gè)實(shí)體時(shí)當(dāng)前模型出現(xiàn)問(wèn)題較多的情況,文獻(xiàn)[23]中使用具有分段注意力和實(shí)體描述的循環(huán)神經(jīng)網(wǎng)絡(luò),有效的克服了上述兩個(gè)問(wèn)題,并將F1 分?jǐn)?shù)提高約3%.

屬性抽取的主要任務(wù)是獲取(實(shí)體,屬性,屬性值)類型三元組中的屬性和屬性值.對(duì)于醫(yī)學(xué)實(shí)體,藥品的規(guī)格、劑量、用法用量等都可以看作藥品實(shí)體的屬性.通過(guò)屬性抽取建立完整的實(shí)體描述.由于實(shí)體的屬性可以看成是實(shí)體和屬性值之間的一種名稱性關(guān)系,因此可以將實(shí)體屬性的抽取問(wèn)題轉(zhuǎn)換為關(guān)系抽取問(wèn)題.比如張?jiān)┰谖墨I(xiàn)[24]中探索到屬性及其屬性值存在共同特征,采用基于特征的機(jī)器學(xué)習(xí)方法來(lái)實(shí)現(xiàn)醫(yī)學(xué)實(shí)體的屬性提取.

3.3 醫(yī)學(xué)知識(shí)融合

醫(yī)學(xué)知識(shí)融合的目的是將醫(yī)學(xué)信息抽取中獲得的不同來(lái)源、不同結(jié)構(gòu)、不同表示方式的數(shù)據(jù)進(jìn)行整合,最終將這些異構(gòu)醫(yī)學(xué)數(shù)據(jù)實(shí)現(xiàn)在同一框架下的規(guī)范表示[7],如圖3所示.知識(shí)融合分為共指消解和實(shí)體消歧.

圖3 不同數(shù)據(jù)轉(zhuǎn)化為三元組示意圖

3.3.1 共指消解

共指消解的主要目的是當(dāng)多個(gè)名稱對(duì)應(yīng)同一實(shí)體的時(shí)候,將這些名稱對(duì)應(yīng)到正確的規(guī)范化的實(shí)體上,也就是解決異名同物問(wèn)題.比如撲熱息痛片又名泰諾林、必理通等,它們都指的是學(xué)名為對(duì)乙酰氨基酚的藥物.在信息抽取完后產(chǎn)生了這些別名,這時(shí)候就需要共指消解技術(shù)把它們關(guān)聯(lián)到對(duì)乙酰氨基酚實(shí)體上.共指消解問(wèn)題可以通過(guò)把其看作聚類問(wèn)題來(lái)求解.該方法以規(guī)范化的實(shí)體為中心,通過(guò)實(shí)體聚類實(shí)現(xiàn)規(guī)范實(shí)體與它的別名實(shí)體的匹配[25].這方面的研究有:在文獻(xiàn)[26]中,提出了一種獲取健康消費(fèi)者術(shù)語(yǔ)并將其與標(biāo)準(zhǔn)醫(yī)學(xué)術(shù)語(yǔ)保持一致的方法.2015年,在文獻(xiàn)[27]中提出了結(jié)合奇異值分解和多分類器針對(duì)共指消解問(wèn)題的新方法,該方法可以獲得72.1 的平均準(zhǔn)確率.

3.3.2 實(shí)體消歧

實(shí)體消歧是專門用于解決異構(gòu)數(shù)據(jù)的實(shí)體產(chǎn)生歧義問(wèn)題的技術(shù),也就是針對(duì)同名異物問(wèn)題.比如止吐藥dogmatilum(舒必利,止吐靈)叫“舒寧”,而抗焦慮藥oxazepam(N-去甲羥基安定)也叫“舒寧”,這種問(wèn)題不加以解決會(huì)造成嚴(yán)重的后果.實(shí)體消歧的主要思想是聚類,基本過(guò)程如圖4所示.關(guān)鍵在于評(píng)估實(shí)體和指標(biāo)的相似度,度量實(shí)體對(duì)象與指稱項(xiàng)之間相似度的常用的方法有4 種:空間向量模型(實(shí)體的上下文),語(yǔ)義模型(實(shí)體的上下文語(yǔ)義),社會(huì)網(wǎng)絡(luò)模型(利用關(guān)聯(lián)實(shí)體的關(guān)系構(gòu)建指標(biāo)網(wǎng)絡(luò)),百科知識(shí)模型(網(wǎng)站超鏈接)[25].

圖4 實(shí)體消歧的基本方法過(guò)程

近年來(lái),實(shí)體消歧技術(shù)也與深度學(xué)習(xí)相結(jié)合.比如在文獻(xiàn)[28]中,將實(shí)體消歧定義為分類任務(wù),開(kāi)發(fā)了一種新的基于LSTM 的體系結(jié)構(gòu),結(jié)果表明與其他方法(例如文獻(xiàn)[29]的HAC)相比,基于RNN 對(duì)句子含義進(jìn)行編碼更適合于實(shí)體消歧的任務(wù).

水是基礎(chǔ)性自然資源和戰(zhàn)略性經(jīng)濟(jì)資源。水利是國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的重要基礎(chǔ)設(shè)施和基礎(chǔ)產(chǎn)業(yè)。在新的發(fā)展階段,如何更好地發(fā)揮水利行業(yè)的支撐和保障作用,是擺在我們面前重大而緊迫的課題。

3.3.3 知識(shí)合并

知識(shí)合并的主要任務(wù)是把結(jié)構(gòu)化的知識(shí)或者第三方知識(shí)庫(kù)的知識(shí)整合到知識(shí)圖譜中.結(jié)構(gòu)化的知識(shí)符合知識(shí)規(guī)范,實(shí)用度高.第三方知識(shí)庫(kù)也能為知識(shí)圖譜構(gòu)建提供可靠的知識(shí)來(lái)源,像WebMD、“好醫(yī)生”智能醫(yī)學(xué)數(shù)據(jù)庫(kù)、家庭醫(yī)生在線等都可以看作是第三方醫(yī)學(xué)知識(shí)庫(kù),其中包含高質(zhì)量、規(guī)范化的醫(yī)學(xué)知識(shí).

本文參考Mendes 等對(duì)LOD 進(jìn)行知識(shí)合并的方法[30],把合并第三方知識(shí)庫(kù)的流程歸類為:獲取知識(shí);概念匹配;實(shí)體匹配;知識(shí)評(píng)估.其中概念匹配和實(shí)體匹配都是對(duì)第三方數(shù)據(jù)庫(kù)中獲得知識(shí)的概念和實(shí)體進(jìn)行歸一化處理,知識(shí)評(píng)估是對(duì)新獲得知識(shí)一致性和準(zhǔn)確性的檢測(cè)[25].

將原有的關(guān)系數(shù)據(jù)庫(kù)轉(zhuǎn)化為知識(shí)圖譜的知識(shí)表示也是知識(shí)合并的重要任務(wù).在圖數(shù)據(jù)庫(kù)未使用之前,使用比較普遍的都是關(guān)系型數(shù)據(jù)庫(kù).W3C 的RDB2RDF小組制定了direct mapping 和R2RML 兩個(gè)標(biāo)準(zhǔn),用于將關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換為RDF 格式的數(shù)據(jù).Direct mapping 采用直接映射的方式,實(shí)現(xiàn)表→類、列→屬性、行→實(shí)例、單元格值→屬性值的映射.Direct mapping不能將數(shù)據(jù)庫(kù)的數(shù)據(jù)映射到我們自己定義的本體上,R2RML 通過(guò)自主編輯和設(shè)置映射規(guī)則解決了這個(gè)問(wèn)題.從RDB 到RDF 的常用轉(zhuǎn)化工具有D2RQ、SquirrelRDF、OpenLink Virtuoso 等.

3.4 醫(yī)學(xué)知識(shí)加工

醫(yī)學(xué)知識(shí)加工的目的是把信息抽取和知識(shí)融合中獲得的知識(shí)加工成高質(zhì)量的知識(shí).知識(shí)加工包括本體構(gòu)建、質(zhì)量評(píng)估和知識(shí)推理3 部分[25].

3.4.1 醫(yī)學(xué)本體構(gòu)建

醫(yī)學(xué)本體是對(duì)于醫(yī)學(xué)領(lǐng)域之中醫(yī)學(xué)概念及其相互之間關(guān)系的形式化表達(dá).醫(yī)學(xué)本體可以通過(guò)人工方法構(gòu)建也可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)自動(dòng)構(gòu)建.人工方法構(gòu)建的本體很適應(yīng)目前大數(shù)據(jù)的形式,所以本文著重介紹下自動(dòng)化的本體構(gòu)建技術(shù).

自動(dòng)化構(gòu)建本體的方法主要包括中心擴(kuò)展法、由局部到全體、直接抽取文檔構(gòu)建本體等方法[31].本文將不同的本體構(gòu)建方法匯總在表3.

表3 不同的本體構(gòu)建方法比較[31]

就醫(yī)學(xué)知識(shí)圖譜的本體構(gòu)建來(lái)看,目前存在一些問(wèn)題:①醫(yī)學(xué)領(lǐng)域本體的構(gòu)建需要醫(yī)學(xué)專家的參與,并沒(méi)有實(shí)現(xiàn)真正的自動(dòng)化,還是以半自動(dòng)化為主;②醫(yī)學(xué)領(lǐng)域本體自動(dòng)化構(gòu)建具體實(shí)現(xiàn)較少,大多數(shù)研究還是理論研究;③語(yǔ)言分析軟件較少,不能滿足現(xiàn)在大規(guī)模醫(yī)學(xué)圖譜構(gòu)建的需求.目前來(lái)看本體構(gòu)建技術(shù)的發(fā)展和知識(shí)圖譜的發(fā)展熱度不匹配,本體構(gòu)建也應(yīng)該盡快實(shí)現(xiàn)理論到實(shí)踐的轉(zhuǎn)換,以適應(yīng)構(gòu)建大規(guī)模知識(shí)圖譜的需求.

3.4.2 質(zhì)量評(píng)估

質(zhì)量評(píng)估的主要目的是量化知識(shí)的可信度,舍棄置信度低的知識(shí)才能保證知識(shí)圖譜中知識(shí)的質(zhì)量[32].為了促進(jìn)知識(shí)選擇,應(yīng)該使用系統(tǒng)來(lái)自動(dòng)(或半自動(dòng)化)用于特定目的的最佳知識(shí)的選擇.這需要基于一組特定標(biāo)準(zhǔn)來(lái)評(píng)估本體質(zhì)量的方法.這些標(biāo)準(zhǔn)必須是可量化的,以便系統(tǒng)而不是人來(lái)完成它.文獻(xiàn)[33]研究提出并開(kāi)發(fā)了一種基于符號(hào)學(xué)的分層本體度量標(biāo)準(zhǔn)套件,它可以為有效屬性提供總體得分的度量,可以結(jié)合使用手動(dòng)計(jì)算和自動(dòng)化來(lái)計(jì)算指標(biāo),盡管只有某些指標(biāo)可以完全自動(dòng)化的方式計(jì)算.該文章中提到,此套件已正式確定并在由模塊組成的排名系統(tǒng)中實(shí)現(xiàn).

3.4.3 醫(yī)學(xué)知識(shí)推理

知識(shí)推理是根據(jù)已有知識(shí)庫(kù),采用相關(guān)算法,實(shí)現(xiàn)對(duì)知識(shí)圖譜的探索和挖掘.在醫(yī)學(xué)知識(shí)圖譜中,知識(shí)推理要有搜集數(shù)據(jù)、診斷疾病、提供治療方法的功能.而在醫(yī)學(xué)方面,病情往往因人而異,對(duì)于具體疾病的診斷往往是依靠醫(yī)生的從醫(yī)經(jīng)驗(yàn),所以醫(yī)學(xué)知識(shí)推理的構(gòu)建難度還是很高的.

傳統(tǒng)的知識(shí)推理方法包括基于描述邏輯的推理、基于規(guī)則的推理、基于分布式的知識(shí)推理等,各方法的比較見(jiàn)表4.

表4 推理方法的比較[34]

這些方式很難滿足醫(yī)學(xué)大數(shù)據(jù)下的快速推理和對(duì)于增量知識(shí)和規(guī)則的快速加載,所以現(xiàn)在應(yīng)用更為廣泛的是結(jié)合人工智能技術(shù)的知識(shí)推理模型,常見(jiàn)的有人工神經(jīng)網(wǎng)絡(luò)模型(artificial neural netword model)、遺傳算法(genetic algorithm)和反向傳播網(wǎng)絡(luò)模型(back propagation)等.文獻(xiàn)[35]中就提出了一種表示本體,以將文獻(xiàn)抽象數(shù)據(jù)表征為4 個(gè)知識(shí)元素(背景,目標(biāo),解決方案和發(fā)現(xiàn)).案例研究表明,所提出的本體模型可以用來(lái)表示嵌入在文獻(xiàn)摘要中的知識(shí),并且可以通過(guò)NLP 模型自動(dòng)提取本體元素.所提出的框架可以增強(qiáng)文獻(xiàn)計(jì)量分析,以從文獻(xiàn)中探索更多知識(shí),實(shí)現(xiàn)知識(shí)推理的功能.

無(wú)論是傳統(tǒng)的知識(shí)推理方法還是人工智能技術(shù)的推理方法都是以知識(shí)圖譜作為數(shù)據(jù)源進(jìn)行推理,而圖挖掘計(jì)算則是基于圖論的相關(guān)算法,把知識(shí)圖譜看作圖,把醫(yī)學(xué)實(shí)體看作節(jié)點(diǎn),實(shí)體間的關(guān)系看作邊,實(shí)現(xiàn)對(duì)圖譜的探索和挖掘,更有利于解決大規(guī)模的圖數(shù)據(jù)分析問(wèn)題[36].基于此,Jagvaral 于2019年提出具有注意機(jī)制的CNN-BiLSTM 方法用于知識(shí)圖譜基于路徑的推理[37].論文中提到,他們研發(fā)的路徑編碼器從大型圖形的路徑中提取特征更有效,更是說(shuō)明了應(yīng)用多步推理在基于路徑的推理中可能會(huì)有用.此項(xiàng)研究只使用一種類型來(lái)表示實(shí)體,而大多數(shù)知識(shí)圖譜中的實(shí)體具有多種類型,因此,多種類型合并到路徑編碼中的路徑推理推理還有待研究.

以上為比較具體的領(lǐng)域知識(shí)圖譜構(gòu)建流程,雖然領(lǐng)域知識(shí)圖譜應(yīng)用比較廣,但目前還尚未實(shí)現(xiàn)自動(dòng)構(gòu)建,而在2018年,清華大學(xué)知識(shí)工程實(shí)驗(yàn)室發(fā)表一篇名為“一種準(zhǔn)確而高效的領(lǐng)域知識(shí)圖譜構(gòu)建方法”的文章[38],介紹了一種快速構(gòu)建較高質(zhì)量的領(lǐng)域知識(shí)圖譜的方法,為領(lǐng)域知識(shí)圖譜構(gòu)建提供另一種思路,該方法稱為“四步法”:①領(lǐng)域本體構(gòu)建;②眾包半自動(dòng)語(yǔ)義標(biāo)注;③外源數(shù)據(jù)補(bǔ)全;④信息抽取.在領(lǐng)域知識(shí)圖譜構(gòu)建過(guò)程中,權(quán)衡效率和準(zhǔn)確率,平衡自動(dòng)化和人工構(gòu)建,以高效地構(gòu)建圖譜,這是當(dāng)前面臨的一個(gè)很大問(wèn)題.

3.5 知識(shí)圖譜繪制工具

圖5是以心律失常為關(guān)鍵詞繪制的醫(yī)學(xué)領(lǐng)域知識(shí)圖譜,它展現(xiàn)了知識(shí)圖譜力導(dǎo)向布局圖的視圖形式.

圖5 醫(yī)療領(lǐng)域知識(shí)圖譜舉例

知識(shí)圖譜的繪制工具可分為兩大類:通用軟件,如SPSS、Ucinet、PajekWordsmithTools 和GIS 等.另一類是專門用于知識(shí)圖譜繪制的軟件,也有許多類型,有些是針對(duì)某些特定領(lǐng)域,有些是個(gè)人未公開(kāi)的.表5對(duì)知識(shí)圖譜繪制工具做一個(gè)匯總.

表5 知識(shí)圖譜繪制工具[32]

4 領(lǐng)域知識(shí)圖譜的現(xiàn)狀和應(yīng)用

4.1 領(lǐng)域知識(shí)圖譜的現(xiàn)狀

隨著近幾年知識(shí)圖譜技術(shù)的發(fā)展,知識(shí)圖譜研究與落地發(fā)生了一些轉(zhuǎn)向.其中一個(gè)重要變化就是領(lǐng)域知識(shí)圖譜的建設(shè)成為主流.知識(shí)圖譜技術(shù)與各行業(yè)的深度融合已經(jīng)成為一個(gè)重要趨勢(shì)[4].

接下來(lái),本文對(duì)搜索、醫(yī)療、電商、社交、教育這幾個(gè)熱門領(lǐng)域規(guī)模比較大的知識(shí)圖譜進(jìn)行匯總,見(jiàn)表6.

表6 熱門領(lǐng)域知識(shí)圖譜匯總

醫(yī)療領(lǐng)域是當(dāng)前建設(shè)很火熱的領(lǐng)域,僅是對(duì)中文醫(yī)學(xué)知識(shí)圖譜的相關(guān)檢索就達(dá)200 多條,大到中文疾病知識(shí)圖譜,小到甲狀腺知識(shí)圖譜,醫(yī)療領(lǐng)域知識(shí)圖譜的理論實(shí)踐化是有原因的:(1)醫(yī)療信息化浪潮.步入信息化社會(huì)以來(lái),醫(yī)療信息化的發(fā)展從未停歇過(guò),從最初的醫(yī)院信息系統(tǒng)開(kāi)始,電子病歷、臨床智慧醫(yī)療等技術(shù)層出不窮.(2)龐大的醫(yī)學(xué)數(shù)據(jù).除醫(yī)院提供的病例信息,基因?qū)W研究,蛋白組學(xué)也給醫(yī)療領(lǐng)域貢獻(xiàn)了大量的數(shù)據(jù).(3)人工智能出現(xiàn)后,為體量龐大的醫(yī)學(xué)數(shù)據(jù)處理提供方向.知識(shí)圖譜正是作為大數(shù)據(jù)到人工智能的理想橋梁.整合異構(gòu)數(shù)據(jù),建立語(yǔ)義關(guān)系,最重要的是知識(shí)推理,醫(yī)療知識(shí)圖譜在智慧醫(yī)療的建設(shè)中起到越來(lái)越重要的作用,通過(guò)知識(shí)問(wèn)答,知識(shí)推理將更好的為社會(huì)服務(wù).所以醫(yī)療知識(shí)圖譜發(fā)展迅速.與之相似,教育領(lǐng)域同樣具有數(shù)據(jù)量大,面臨信息化建設(shè)等優(yōu)點(diǎn),相信教育知識(shí)圖譜也將會(huì)得到越來(lái)越多的關(guān)注.

4.2 領(lǐng)域知識(shí)圖譜的應(yīng)用

知識(shí)圖譜作為近十年內(nèi)新興的概念,其可以將各種信息和數(shù)據(jù)整合為知識(shí),為各研究領(lǐng)域提供可視化分析,各類大規(guī)模知識(shí)圖譜在智能搜索、智能問(wèn)答、智能推薦、情報(bào)分析等方面發(fā)揮了重要作用.

4.2.1 智能搜索

基于知識(shí)圖譜的智能搜索可以直接給出知識(shí)卡片而不是給出相關(guān)的鏈接序列.在知識(shí)圖譜的幫助下,搜索引擎可以將搜索關(guān)鍵詞映射到知識(shí)圖譜中匹配度較高的一個(gè)或一組概念上,最后以知識(shí)卡片的形式展現(xiàn)給用戶.知識(shí)卡片可以以3 種形式展示知識(shí)[3]:①對(duì)于單一關(guān)鍵詞的搜索,返還用戶查詢的實(shí)體的結(jié)構(gòu)化摘要.比如搜索姚明,將給出姚明的身份介紹以及主要關(guān)系介紹;②對(duì)于問(wèn)題類的搜索,知識(shí)卡片直接給出答案.比如搜索“姚明的身高是多少?”,搜索結(jié)構(gòu)將是顯示226.0 cm 的知識(shí)卡片;③對(duì)于模糊類的查詢,將給出相關(guān)網(wǎng)頁(yè)列表.例如搜索“姚明最近的活動(dòng)有哪些?”,搜索結(jié)果是包含姚明活動(dòng)的新聞網(wǎng)頁(yè).

4.2.2 智能問(wèn)答

Gowild 狗尾草的AI 虛擬生命“琥珀虛顏”和蘋果的智能語(yǔ)音助手Siri 都是知識(shí)圖譜應(yīng)用于智能問(wèn)答方面的實(shí)例.智能問(wèn)答是信息檢索系統(tǒng)的一種高級(jí)形式,能夠用自然語(yǔ)言為用戶提供問(wèn)題的解答或者實(shí)現(xiàn)人機(jī)交流.目前,語(yǔ)音助手研發(fā)十分火熱,比如百度自然語(yǔ)言部開(kāi)發(fā)的小度機(jī)器人,阿里巴巴人工智能實(shí)驗(yàn)室研發(fā)的天貓精靈,亞馬遜Alexa 語(yǔ)音服務(wù)等都是為智能問(wèn)答更加智能、準(zhǔn)確做出地探究.

4.2.3 智能推薦

電商、教育、社交等行業(yè)都需要借助大數(shù)據(jù)行為分析進(jìn)行用戶畫像,以指導(dǎo)廣告投放和提高用戶體驗(yàn).相較于原先對(duì)關(guān)聯(lián)性較差的數(shù)據(jù)進(jìn)行用戶行為分析,知識(shí)圖譜一個(gè)天然的優(yōu)勢(shì)就是更突出數(shù)據(jù)之間的關(guān)系,這樣就能根據(jù)知識(shí)關(guān)聯(lián)關(guān)系獲得更加精確的用戶畫像,有助于精準(zhǔn)營(yíng)銷、精細(xì)化運(yùn)營(yíng).除了用戶畫像,智能推薦還要依靠商品之間的關(guān)聯(lián)提供使用建議、搭配等.

4.2.4 情報(bào)分析

江蘇大學(xué)劉桂峰利用CiteSpace 軟件信息可視化方法,對(duì)1990-2010年間來(lái)自Web of Science (SCIE)數(shù)據(jù)庫(kù)的太赫茲技術(shù)領(lǐng)域研究的文獻(xiàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和可視化分析,揭示出該領(lǐng)域的領(lǐng)軍人物、知識(shí)基礎(chǔ)和研究前沿等信息[43].趙蓉英等[44]利用CiteSpace Ⅱ的爆發(fā)詞探測(cè)方法繪制知識(shí)圖譜,并繪制爆發(fā)詞隨時(shí)間演化的學(xué)科前沿發(fā)展趨勢(shì)圖,進(jìn)而發(fā)現(xiàn)學(xué)科前沿.胡澤文等在文獻(xiàn)[28]中借助通過(guò)CiteSpace Ⅱ界定了改革開(kāi)放來(lái)情報(bào)學(xué)的3 個(gè)發(fā)展階段.CiteSpace 是一款應(yīng)用于科學(xué)文獻(xiàn)中識(shí)別并顯示科學(xué)發(fā)展新趨勢(shì)和新動(dòng)態(tài)的軟件,通過(guò)它繪制知識(shí)圖譜,能夠發(fā)現(xiàn)經(jīng)典文獻(xiàn)、研究熱點(diǎn)和研究前沿.可見(jiàn)知識(shí)圖譜用于情報(bào)分析方面有很大的發(fā)展?jié)摿?

除此之外,知識(shí)圖譜應(yīng)用于醫(yī)學(xué)、教育等領(lǐng)域,對(duì)于建設(shè)智能醫(yī)療、智慧教育起著支撐作用.

5 結(jié)語(yǔ)

知識(shí)圖譜從最初作為輔助Google 搜索的技術(shù)被提出,到現(xiàn)在很多行業(yè)都在建設(shè)自己的知識(shí)圖譜,它的價(jià)值正在被慢慢挖掘出來(lái).知識(shí)圖譜不是知識(shí)的終點(diǎn),但是它確實(shí)能解決很多學(xué)科領(lǐng)域的瓶頸問(wèn)題,成為智能化建設(shè)的基石.

結(jié)合醫(yī)學(xué)知識(shí)圖譜的構(gòu)建和發(fā)展,本文認(rèn)為信息抽取技術(shù)仍是當(dāng)前的研究熱點(diǎn),最理想的信息抽取方式是結(jié)合實(shí)體抽取、關(guān)系抽取和屬性抽取三者的聯(lián)合抽取,但該技術(shù)還沒(méi)有典型代表.而知識(shí)推理作為知識(shí)圖譜最大的亮點(diǎn)和功能,將其技術(shù)發(fā)展成熟還需要付出很大地努力.在人工智能還有很大發(fā)展?jié)摿Φ慕裉?借助人工智能技術(shù)實(shí)現(xiàn)知識(shí)推理有很大的發(fā)展前景.知識(shí)推理不僅是智能問(wèn)答、智能推薦等應(yīng)用的關(guān)鍵技術(shù),更是智能化建設(shè)的基石.

對(duì)于領(lǐng)域知識(shí)圖譜的發(fā)展方向,本文傾向于領(lǐng)域劃分更精細(xì),領(lǐng)域交互更頻繁的發(fā)展方向.類比于醫(yī)學(xué)領(lǐng)域中各種疾病的知識(shí)圖譜,也許教育領(lǐng)域會(huì)出現(xiàn)各種學(xué)科知識(shí)圖譜,因?yàn)樵骄?xì),專業(yè)性越強(qiáng),知識(shí)越準(zhǔn)確.這也是越來(lái)越多的人主張建立企業(yè)知識(shí)圖譜的原因.此外,各領(lǐng)域的知識(shí)圖譜不該是獨(dú)立存在的,領(lǐng)域知識(shí)圖譜之間有交互,才能真正地構(gòu)成知識(shí)網(wǎng).

知識(shí)圖譜仍在發(fā)展初期,筆者僅希望通過(guò)本文的寫作,能拋磚引玉,吸引更多人了解這門技術(shù)并投入到相關(guān)的研究中來(lái).

猜你喜歡
醫(yī)學(xué)知識(shí)本體圖譜
基于圖對(duì)比注意力網(wǎng)絡(luò)的知識(shí)圖譜補(bǔ)全
“植物界大熊貓”完整基因組圖譜首次發(fā)布
繼齊韻往昔,以今聲開(kāi)來(lái)——思考自五音戲主奏樂(lè)器的演變、本體及延伸
眼睛是“本體”
圖表
思維導(dǎo)圖在醫(yī)學(xué)中的應(yīng)用
加強(qiáng)班級(jí)凝聚力建設(shè),激發(fā)學(xué)生學(xué)習(xí)的積極性
新環(huán)境下《解剖學(xué)》教學(xué)資源開(kāi)發(fā)探討分析
衛(wèi)?;瘜W(xué)教學(xué)中滲透醫(yī)學(xué)知識(shí)的實(shí)踐
專題
石柱| 元谋县| 太和县| 永兴县| 长岭县| 城步| 永定县| 思南县| 司法| 米林县| 淮滨县| 榕江县| 湟源县| 锡林郭勒盟| 北海市| 秭归县| 铅山县| 宜昌市| 来安县| 连南| 桃江县| 铜陵市| 阜新| 松潘县| 阳信县| 鄂尔多斯市| 太谷县| 都江堰市| 简阳市| 丽水市| 昭平县| 利辛县| 内江市| 凌源市| 鹤壁市| 剑阁县| 高尔夫| 民丰县| 曲周县| 凉山| 盐边县|