劉 巍,陳 霄,陳 靜,周 覲,張 斌
(軍事科學(xué)院,北京 100091)
隨著人工智能、知識工程等技術(shù)的高速發(fā)展,知識圖譜在知識的自動獲取、知識表征和推理學(xué)習(xí)、基于圖的深度挖掘等方面取得了突破性進(jìn)展,知識圖譜相關(guān)技術(shù)已經(jīng)在智能語義搜索、問答系統(tǒng),以及公安、醫(yī)療、軍事等行業(yè)落地應(yīng)用[1-3]。知識圖譜涉及自然語言處理、機(jī)器學(xué)習(xí)、知識表示、圖數(shù)據(jù)庫等多方面的技術(shù)[4-5],隨著知識圖譜應(yīng)用日趨廣泛,相關(guān)技術(shù)研究已取得可喜的成果。文獻(xiàn)[6]將知識圖譜的技術(shù)架構(gòu)分為信息抽取層、知識融合層和加工層,并對涉及的關(guān)鍵技術(shù)進(jìn)行了綜述和分析。文獻(xiàn)[7]闡述了知識圖譜的實現(xiàn)流程,分析了其組織、存儲、管理和更新大規(guī)模知識的過程及相關(guān)技術(shù)。文獻(xiàn)[8]闡述了目前主流的通用和領(lǐng)域知識圖譜在構(gòu)建過程中的區(qū)別,分類討論了圖譜構(gòu)建過程中存在的問題和挑戰(zhàn),提出了解決措施。此外,文獻(xiàn)[9-10]分別對知識圖譜涉及的知識表示、抽取、融合、圖劃分算法、知識可視化等技術(shù)進(jìn)行了綜述和分析。上述研究均未對知識圖譜的架構(gòu)體系、生命周期、挑戰(zhàn)及發(fā)展趨勢等進(jìn)行系統(tǒng)性、總體性的闡述和歸納分析。本文首先系統(tǒng)地分析了知識圖譜的架構(gòu)和構(gòu)建方法,之后闡述了知識圖譜相關(guān)技術(shù)的國內(nèi)外研究進(jìn)展和其在不同領(lǐng)域的落地應(yīng)用,最后探討了知識圖譜未來發(fā)展趨勢和存在的諸多挑戰(zhàn)。
知識圖譜旨在描述各種概念、實體及其之間的關(guān)系。其中,實體是指客觀世界中存在的、具有可區(qū)別性的具體事物,如NBA球員科比、百歲山礦泉水等,某個時刻、某個地點、某個數(shù)值也可以作為實體。概念通常反映的是一組實體的種類或?qū)ο蟮念愋?如人、動物、氣候、組織機(jī)構(gòu)等。屬性(值)是指某個實體具有的特征及參數(shù),不同屬性對應(yīng)不同的邊。關(guān)系是指連接不同實體的“邊”,描述概念、實體之間客觀存在的關(guān)聯(lián),可以是組成關(guān)系、隸屬關(guān)系、因果關(guān)系、推論關(guān)系、相近關(guān)系等。
知識圖譜架構(gòu)包括邏輯架構(gòu)和技術(shù)架構(gòu)[11],分別如下。
1)邏輯架構(gòu)
邏輯架構(gòu)包括模式層和數(shù)據(jù)層。模式層是知識圖譜的邏輯基礎(chǔ)和概念模型,通常采用本體庫進(jìn)行管理,引入本體是為了知識的復(fù)用和共享,涉及的本體包括概念、屬性以及概念之間的關(guān)系,可以對知識結(jié)構(gòu)進(jìn)行描述。因此,本體庫可以看成結(jié)構(gòu)化知識庫的模板,具備精煉且標(biāo)準(zhǔn)的特點。
數(shù)據(jù)層是知識圖譜的基礎(chǔ),是在模式層的規(guī)范和約束下,對本體庫在實體層面的豐富和擴(kuò)充。數(shù)據(jù)層由一系列的事實組成,并以(實體-關(guān)系-實體)或(實體-屬性-屬性值)的三元組形式進(jìn)行存儲。知識圖譜的邏輯架構(gòu)如圖1所示。
圖1 知識圖譜的邏輯架構(gòu)
2)技術(shù)架構(gòu)
知識圖譜的技術(shù)架構(gòu)是指在構(gòu)建圖譜時選擇的模式結(jié)構(gòu),技術(shù)架構(gòu)如圖2所示,主要包括信息抽取、知識表示、知識融合、知識加工等過程。
圖2 知識圖譜的技術(shù)架構(gòu)
知識圖譜的構(gòu)建方法有兩種,即自底向上和自頂向下的構(gòu)建方法。
1)自底向上的構(gòu)建方法
如圖3所示,首先,從各類數(shù)據(jù)源中提取實體、關(guān)系和屬性,添加到圖譜的數(shù)據(jù)層;然后,對數(shù)據(jù)層知識進(jìn)行組織歸納并抽象為概念;最終,構(gòu)建模式層。
圖3 自底向上的構(gòu)建方法
2)自頂向下的構(gòu)建方法
如圖4所示,首先從頂層開始構(gòu)建本體概念,該階段通常由領(lǐng)域?qū)<医Y(jié)合經(jīng)驗和智慧從高質(zhì)量的數(shù)據(jù)源中提取和構(gòu)建本體,完成術(shù)語提取、規(guī)則定義等,即構(gòu)建圖譜的模式層。之后進(jìn)行實例填充,從各類數(shù)據(jù)源中進(jìn)行信息抽取,再經(jīng)過知識融合、知識加工、質(zhì)量評估等過程,將抽取的實體、屬性、關(guān)系等填充到模式層本體中,完成數(shù)據(jù)層的構(gòu)建。
圖4 自頂向下的構(gòu)建方法
本節(jié)從知識圖譜生命周期的視角,從知識獲取、表示、融合、推理和應(yīng)用等層面闡述了知識圖譜構(gòu)建過程中所涉及關(guān)鍵技術(shù)的國內(nèi)外研究進(jìn)展及優(yōu)缺點。
2.1.1 面向非結(jié)構(gòu)化數(shù)據(jù)源的知識獲取
1)實體抽取
文本數(shù)據(jù)的實體抽取主要包括三類方法:基于深度學(xué)習(xí)的方法、基于統(tǒng)計模型的方法、基于規(guī)則和詞典的方法。文獻(xiàn)[12]采用基于語言規(guī)則的方法對藥品說明書中的癥狀、疾病和致病菌進(jìn)行抽取并評價其準(zhǔn)確性,利用詞性標(biāo)注、術(shù)語表分詞實現(xiàn)實體抽取,并基于語言規(guī)則實現(xiàn)醫(yī)療實體識別,準(zhǔn)確率較高。文獻(xiàn)[13]提出了一種基于鍵規(guī)則的XML實體抽取算法,其核心是基于鍵規(guī)則中有關(guān)實體的語義信息和XML查詢提供實體的表示方法進(jìn)行實體抽取?;谝?guī)則和詞典的方法在少量數(shù)據(jù)集上能夠?qū)崿F(xiàn)較高的準(zhǔn)確率和召回率,但不適用于大量數(shù)據(jù)集下的實體識別。文獻(xiàn)[14]提出了一種融合最大熵和隱馬爾可夫模型的漢語命名實體識別法,該方法將詞性標(biāo)注和命名實體識別相結(jié)合,實驗結(jié)果表明針對地名、人名、組織名三種重要的命名實體有較好的效果。文獻(xiàn)[15]提出了一種基于改進(jìn)的規(guī)則和統(tǒng)計方法相結(jié)合的實體識別模型,核心是將規(guī)則引入自適應(yīng)統(tǒng)計識別模型,能夠有效修正基于統(tǒng)計模型識別的一些集中出現(xiàn)的識別錯誤。文獻(xiàn)[16]提出了一種基于堆疊神經(jīng)網(wǎng)絡(luò)的醫(yī)療命名實體識別法,利用多層堆疊的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對醫(yī)療文本進(jìn)行編碼,使用條件隨機(jī)場選取最優(yōu)序列標(biāo)注路徑,識別準(zhǔn)確率較高。文獻(xiàn)[17]給出了一種基于條件隨機(jī)場和殘差空洞卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全實體識別模型。通過BERT模型對字符級的特征向量進(jìn)行訓(xùn)練和表示,之后,利用殘差卷積與空洞神經(jīng)網(wǎng)絡(luò)模型提取安全實體的重要特征,最后,通過條件隨機(jī)場模型獲得每個字符的BIO標(biāo)注,識別效果比傳統(tǒng)模型效果更佳。
2)關(guān)系抽取
目前,關(guān)系抽取的方法可分為基于模板的方法、基于監(jiān)督學(xué)習(xí)的方法和基于弱監(jiān)督學(xué)習(xí)的方法。早期的實體關(guān)系抽取方法多數(shù)基于模板匹配,優(yōu)點是模板構(gòu)建簡便,在小規(guī)模數(shù)據(jù)集上可以實現(xiàn)快速關(guān)系抽取,但是隨著數(shù)據(jù)規(guī)模的增大,手工構(gòu)建模板需要耗費領(lǐng)域?qū)<掖罅康臅r間,模板的數(shù)量有限,覆蓋范圍可能不夠,并且可移植性較差。
基于監(jiān)督學(xué)習(xí)的方法步驟包括預(yù)定義關(guān)系類型、人工標(biāo)注數(shù)據(jù)、定義關(guān)系識別所需的特征、選擇分類模型、模型訓(xùn)練、模型評估。隨著人工智能技術(shù)的發(fā)展,研究人員提出基于深度學(xué)習(xí)的關(guān)系抽取方法,主要包括流水線法和聯(lián)合抽取法[18-22]。文獻(xiàn)[18]提出了一種基于分解標(biāo)注策略的聯(lián)合抽取模型,將實體和關(guān)系聯(lián)合抽取轉(zhuǎn)化為頭實體識別、尾實體和關(guān)系抽取兩個子任務(wù),并且,在訓(xùn)練階段引入偏置權(quán)重緩解了標(biāo)注策略帶來的類別不平衡問題,在預(yù)測階段基于句子語義關(guān)系對模型結(jié)果進(jìn)行修正,提高了模型的性能。文獻(xiàn)[19]從數(shù)據(jù)和聯(lián)合模型兩個角度提出了四種實體關(guān)系抽取聯(lián)合模型,并且分別探究了所提出模型的優(yōu)勢和不足。
當(dāng)訓(xùn)練數(shù)據(jù)較少時,弱監(jiān)督學(xué)習(xí)法能夠基于少量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型,包括遠(yuǎn)程監(jiān)督法和Bootstrapping法。文獻(xiàn)[20]提出了深度殘差網(wǎng)絡(luò)來解決深層網(wǎng)絡(luò)在實體關(guān)系識別提取過程中噪聲增大的問題。針對弱監(jiān)督錯誤標(biāo)注問題,文獻(xiàn)[21]給出了一種基于權(quán)衡機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取神經(jīng)網(wǎng)絡(luò)框架,該框架在句子層級上結(jié)合文本語句與實體對的嵌入詞向量表示所包含的語義信息以預(yù)測關(guān)系事實。
3)屬性抽取
屬性抽取的目標(biāo)是補全實體信息,通過從樣本源中獲取實體屬性信息或?qū)傩灾?。文獻(xiàn)[22]提出了一種基于雙向長短時記憶模型和隨機(jī)場模型的實體屬性抽取方法,該方法不依賴于規(guī)則和特征工程,利用雙向長短時記憶模型從原始文本中自動地學(xué)習(xí)語句的語義表示,通過對有標(biāo)注訓(xùn)練數(shù)據(jù)的學(xué)習(xí),獲得了屬性的語義表示和上下文關(guān)系,然后,利用隨機(jī)場模型對屬性進(jìn)行分類,將文本中每一個短語或者詞匯按照對應(yīng)的標(biāo)簽分類。
2.1.2 面向結(jié)構(gòu)化數(shù)據(jù)源的知識獲取
目前,已有一些標(biāo)準(zhǔn)和工具支持將結(jié)構(gòu)化數(shù)據(jù)庫轉(zhuǎn)化為RDF數(shù)據(jù)、OWL本體等。W3C于2012年發(fā)布了兩個RDB2RDF映射語言[23]:DM(Direct Mapping)直接映射和R2RML。兩種語言均能夠定義關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為RDF數(shù)據(jù)的各類規(guī)則,如URI的生成、RDF類和屬性、空節(jié)點的處理、關(guān)聯(lián)關(guān)系表達(dá)等。
2.1.3 面向半結(jié)構(gòu)化數(shù)據(jù)源的知識獲取
半結(jié)構(gòu)化數(shù)據(jù)源主要包括百科類和網(wǎng)頁類數(shù)據(jù)。從百科類數(shù)據(jù)中獲取知識通過知識提取器實現(xiàn),目前已有較為成熟的知識圖譜,如DBpedia和Zhishi.me。從網(wǎng)頁中獲取結(jié)構(gòu)化信息一般通過包裝器實現(xiàn),包裝器的生成方法有三類:手工法、包裝器歸納法和自動抽取法。
手工法需查看網(wǎng)頁結(jié)構(gòu)和代碼,經(jīng)人工分析,手工編寫出適合當(dāng)前網(wǎng)站的抽取表達(dá)式。包裝器歸納法是利用有監(jiān)督學(xué)習(xí)方法從已標(biāo)注的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)抽取的規(guī)則,然后,對相同模板的其他網(wǎng)頁進(jìn)行信息抽取。以上兩種方法的缺點在于對不同結(jié)構(gòu)的網(wǎng)頁要制定不同的抽取規(guī)則。自動抽取法首先對相似網(wǎng)頁進(jìn)行聚類分組,然后,挖掘同組中相似網(wǎng)頁的重復(fù)模式,可以生成適用于該組網(wǎng)頁的包裝器。文獻(xiàn)[24]提出一種商品規(guī)格信息的無監(jiān)督學(xué)習(xí)自動抽取算法,該算法以網(wǎng)頁標(biāo)題為種子,結(jié)合自然語義、統(tǒng)計特征等,在減少工作量的同時,達(dá)到了較高的準(zhǔn)確率,并且,具有一定的擴(kuò)展性。
知識表示可分為人工智能早期的知識表示、互聯(lián)網(wǎng)時代的語義網(wǎng)知識表示以及知識圖譜的表示學(xué)習(xí)。人工智能早期的知識表示主要有命題邏輯、謂詞邏輯、產(chǎn)生式表示、框架和語義網(wǎng)絡(luò)等。語義網(wǎng)知識表示與人工智能中提出的語義網(wǎng)絡(luò)不同,語義網(wǎng)的概念來源于萬維網(wǎng),最初是為了使萬維網(wǎng)能夠更加有效地組織和檢索信息功能以提高其智能程度。隨著深度學(xué)習(xí)模型的應(yīng)用日益廣泛,如何將深度學(xué)習(xí)模型用于知識圖譜的表示學(xué)習(xí)成為當(dāng)前知識圖譜領(lǐng)域研究的熱點問題之一。其核心是為知識圖譜中實體和關(guān)系求得最優(yōu)化的向量表示,以支持大數(shù)據(jù)下知識的快速計算。知識圖譜的表示學(xué)習(xí)主要包括勢能函數(shù)和張量重構(gòu)[25-28]的方法。前者認(rèn)為,關(guān)系是頭實體到尾實體的平移變換。文獻(xiàn)[25]提出的TransE模型是平移模型的代表。在此基礎(chǔ)上,大量學(xué)者對TransE進(jìn)行改進(jìn)和應(yīng)用,如結(jié)合文本等外部信息、應(yīng)用邏輯推理規(guī)則等,提升表示學(xué)習(xí)效果來表示更復(fù)雜的關(guān)系。張量重構(gòu)能夠綜合全部知識圖譜的信息,但數(shù)據(jù)集較大時,張量維度激增,計算效率降低。
知識融合主要包括實體鏈接和知識合并。前者指將不同數(shù)據(jù)源中抽取的實體鏈接到知識庫中對應(yīng)的正確實體上,主要包括實體消歧和共指消解。實體消歧用于解決同名實體產(chǎn)生的歧義問題,主要采用聚類法,核心是準(zhǔn)確定義實體與指稱項間的相似度,包括空間向量模型、語義模型、社會網(wǎng)絡(luò)模型、百科知識模型、文本相似度模型等。文獻(xiàn)[29]采用基于空間向量模型的實體消歧方法在MUC6 (Message Understanding Conference)數(shù)據(jù)集上進(jìn)行了試驗驗證,消歧精度較高,但是沒考慮上下文的語義信息,不適用于短文本分析。文獻(xiàn)[30]基于聚類法設(shè)計了一種人名消歧系統(tǒng),其將從文本中提取實體之間的個人屬性和社會關(guān)系映射到一個無向加權(quán)圖,使用聚類算法對圖進(jìn)行聚類,其中,每個聚類包含指向一個人的所有web頁面。文獻(xiàn)[31]利用維基百科條目間的關(guān)聯(lián)關(guān)系計算實體間的相似度,實現(xiàn)了較高精度的實體消歧。文獻(xiàn)[32]以維基百科作為知識庫,基于實體所在內(nèi)容的上下文信息和空間向量模型,實現(xiàn)了較高精度的實體消歧。
共指消解技術(shù)用于解決多個指稱項對應(yīng)于同一實體對象的問題,其發(fā)展歷程可分為五個階段:第一階段始于1978年,主要基于句法分析和淺層語言學(xué)規(guī)則,包括Hobbs算法、中心理論等;第二階段始于1995年,主要是基于排序?qū)W習(xí)和二元分類的機(jī)器學(xué)習(xí)方法,包括決策樹模型、最大熵、支持向量機(jī)等。此外,還有基于無監(jiān)督和半監(jiān)督學(xué)習(xí)的方法,如聚類、圖劃分、協(xié)同訓(xùn)練等;第三階段始于21世紀(jì)初,共指消解技術(shù)引入了全局最優(yōu)化的模型,主要有整數(shù)規(guī)劃法、啟發(fā)式篩法等;第四階段始于2011年前后,共指消解引入開放知識庫作為額外的特征,包括基于眾包系統(tǒng)、百科知識等。第五階段始于2017年前后,引入深度學(xué)習(xí)技術(shù),并取得了當(dāng)前最好的效果,主要包括基于RNN、強化學(xué)習(xí)、End-to-end等,例如文獻(xiàn)[33]構(gòu)造了神經(jīng)網(wǎng)絡(luò)共指消解模型,無須命名實體識別、句法分析,且性能優(yōu)于過去所有模型的效果。文獻(xiàn)[34]將深度上下文詞向量加入端到端神經(jīng)網(wǎng)絡(luò)共指消解模型中,通過動態(tài)生成詞向量,克服了傳統(tǒng)詞向量技術(shù)無法解決的“一詞多義”的問題。文獻(xiàn)[35]在端到端神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了由粗到細(xì)的推斷策略,首先基于簡單的打分函數(shù)求解共指概率最高的前M個先行語,之后基于復(fù)雜的打分函數(shù)對這M個先行語進(jìn)行排序,截至目前該方法可獲得最好的共指消解效果。
知識合并作為知識融合的一種重要手段,需要解決兩個層面的問題:不同知識源的數(shù)據(jù)層合并和模式層合并。數(shù)據(jù)層合并包括實體對齊、屬性對齊以及沖突檢測與解決。模式層合并包括概念、概念上下位關(guān)系以及概念的屬性定義合并。為推進(jìn)知識庫融合的標(biāo)準(zhǔn)化,文獻(xiàn)[36]設(shè)計了開放數(shù)據(jù)集成框架和流程,主要包括獲取知識、概念匹配、實體匹配、知識評估等。對于合并關(guān)系數(shù)據(jù)庫,通常利用資源描述框架(RDF)作為數(shù)據(jù)模型,實質(zhì)是將關(guān)系數(shù)據(jù)庫映射成RDF的三元組,經(jīng)實體鏈接后,加入知識圖譜中。目前較為常用的包括DM(Direct Mapping)直接映射和R2RML。
信息抽取能夠從數(shù)據(jù)源中獲取實體、屬性、關(guān)系等,再利用知識融合消解指稱項與實體對象間的歧義,獲得事實的表達(dá)。但是事實不等于知識,若要建立網(wǎng)絡(luò)化、結(jié)構(gòu)化的知識體系,必須進(jìn)行知識的加工,包括本體構(gòu)建、知識推理、質(zhì)量評估和知識更新。
2.4.1 本體構(gòu)建
本體構(gòu)建方法主要包括兩類:一是專家手動構(gòu)建;二是利用數(shù)據(jù)驅(qū)動自動構(gòu)建。自動化本體構(gòu)建步驟包括:計算實體并列關(guān)系相似度、實體上下位關(guān)系抽取和本體的生成。文獻(xiàn)[37]基于主題層次聚類的方法構(gòu)建了本體結(jié)構(gòu),提出了基于上下位詞抽取模型和單詞共現(xiàn)網(wǎng)絡(luò)的主題聚類算法,克服了主題模型在短文本類型數(shù)據(jù)上抽取效率和準(zhǔn)確率低的問題。
2.4.2 知識推理
知識推理指基于已有的實體關(guān)系,經(jīng)機(jī)器推理構(gòu)建實體間的新關(guān)聯(lián),進(jìn)而豐富和拓展知識網(wǎng)絡(luò),主要包括基于邏輯的推理與基于圖的推理[38-41]。文獻(xiàn)[38]將內(nèi)容豐富的符號邏輯推理與泛化能力較強的神經(jīng)網(wǎng)絡(luò)相結(jié)合,訓(xùn)練出了一個單一的高能力RNN。該方法在多跳關(guān)系推理的基礎(chǔ)上進(jìn)行改進(jìn),綜合考慮了多條路徑上的關(guān)系和中間實體信息,使預(yù)測結(jié)果更加準(zhǔn)確。文獻(xiàn)[39]將圖譜中的實體表達(dá)為詞向量,再利用神經(jīng)張量網(wǎng)絡(luò)模型實現(xiàn)實體之間關(guān)系的推理,在FreeBase和WordNet上對未知關(guān)系推理的準(zhǔn)確率分別為90.0%和86.2%。文獻(xiàn)[40]將基于潛在特征模型和圖推理法相結(jié)合,探索了路徑排序算法中不同的特征抽取和特征值計算策略對整體效率以及性能的影響。文獻(xiàn)[41]在路徑排序算法的基礎(chǔ)上,定義了一個子圖特征提取算法,可以提取到比兩個節(jié)點之間的路徑更豐富的特征。然而,路徑排序算法的計算復(fù)雜度較高,無法滿足大規(guī)模知識圖譜的應(yīng)用需求。
2.4.3 質(zhì)量評估
質(zhì)量評估通常與實體對齊同時開展,實現(xiàn)對知識的可信度的量化,通過保留可信度較高、舍棄可信度較低的知識,保證知識庫質(zhì)量。文獻(xiàn)[42]依據(jù)不同業(yè)務(wù)的需求來設(shè)計評估函數(shù),并綜合考慮多種評估方法來對知識進(jìn)行最終的質(zhì)量評估。文獻(xiàn)[43]依據(jù)指定信息的抽取頻率對其可信度評分,在此基礎(chǔ)上,基于先驗知識修正可信度,在一定程度上降低了錯誤判斷信息的風(fēng)險。
2.4.4 知識更新
知識更新可分為數(shù)據(jù)層和模式層的更新。數(shù)據(jù)層更新指實體、屬性、關(guān)系的刪除、修改、增加等;模式層更新指本體層面概念的刪除、修改、增加等。
知識存儲方式主要分三類:基于關(guān)系數(shù)據(jù)庫的存儲方案、RDF數(shù)據(jù)庫和圖數(shù)據(jù)庫?;陉P(guān)系數(shù)據(jù)庫的存儲方案包括水平表、屬性表、六重索引、垂直劃分和DB2RDF等。RDF格式存儲就是以三元組的形式存儲數(shù)據(jù),常用的開源RDF數(shù)據(jù)庫包括RDF4j、Marklogic等?;趫D的存儲以屬性圖為基本的表示形式,圖數(shù)據(jù)庫可以提供完善的查詢語言,有利于實現(xiàn)在圖上的高效查詢和搜索,更容易表達(dá)現(xiàn)實的業(yè)務(wù)場景,常用的圖數(shù)據(jù)庫包括Neo4j、OrientDB、gStore等。
知識圖譜能夠賦予信息明確的結(jié)構(gòu)和語義,使計算機(jī)可以直觀地理解、處理、整合和顯示這些信息,更加接近于人類的認(rèn)知思維。目前已在智能語義搜索、知識問答系統(tǒng)以及各類垂直行業(yè)中落地實踐。
在智能語義搜索應(yīng)用中,當(dāng)用戶輸入搜索內(nèi)容時,搜索引擎會提取搜索內(nèi)容中涉及的實體和屬性并在知識圖譜中查找相關(guān)的實體和屬性值,并將其映射到圖譜的一個或一組概念上,之后依據(jù)概念層次結(jié)構(gòu),返回圖形化的知識結(jié)構(gòu),即知識卡片。如谷歌、必應(yīng)、百度、搜狗等。
問答系統(tǒng)可分為兩類:基于深度學(xué)習(xí)和基于語義分析的問答系統(tǒng)。對于基于語義分析的問答系統(tǒng),系統(tǒng)首先依據(jù)規(guī)則將問題中的實體、關(guān)系詞、疑問詞映射成圖譜中的實體和關(guān)系謂詞,之后將相鄰的實體、關(guān)系謂詞橋接,產(chǎn)生新的謂詞,最后將問題中的所有謂詞取交集形成一個精確的查詢語句,再直接利用該查詢得到答案。對于基于深度學(xué)習(xí)的問答系統(tǒng),系統(tǒng)利用循環(huán)神經(jīng)和卷積神經(jīng)網(wǎng)絡(luò)將一個問句轉(zhuǎn)換成向量的形式,同時通過表示學(xué)習(xí)把圖譜中所有實體或者關(guān)系表示成向量形式。使用問句的向量在這個知識圖譜向量中查詢,找到距離最近的實體或者關(guān)系向量,對應(yīng)的實體就是當(dāng)前問句的答案。
知識圖譜技術(shù)與行業(yè)應(yīng)用結(jié)合后,其價值得到更大的發(fā)揮。下面以其在軍事中的應(yīng)用為例,闡述其可能的落地應(yīng)用。
針對軍事領(lǐng)域多業(yè)務(wù)數(shù)據(jù)異構(gòu)化、難關(guān)聯(lián)的問題,可以利用知識圖譜技術(shù),對氣象、情報、后勤、裝備等領(lǐng)域信息進(jìn)行抽取、表示、映射等標(biāo)準(zhǔn)化和工程化處理,構(gòu)建多業(yè)務(wù)綜合化知識圖譜關(guān)系網(wǎng)絡(luò),輔以強大的交互可視化設(shè)計,向作戰(zhàn)人員提供跨域關(guān)聯(lián)、多維立體的信息服務(wù)支撐能力。
針對軍事斗爭中網(wǎng)絡(luò)攻擊數(shù)據(jù)碎片化、溯源線索難提取、攻擊鏈條難關(guān)聯(lián)等難題,可以將網(wǎng)絡(luò)安全知識圖譜作為底層技術(shù)支撐,根據(jù)網(wǎng)絡(luò)威脅情報真實數(shù)據(jù)的特點和相關(guān)標(biāo)準(zhǔn),建立網(wǎng)絡(luò)威脅情報實體、屬性和關(guān)系,并基于網(wǎng)絡(luò)威脅情報關(guān)聯(lián)分析技術(shù),深入挖掘各要素之間潛在的關(guān)聯(lián)關(guān)系,進(jìn)而對攻擊者進(jìn)行追蹤,最終形成溯源定性的重要依據(jù)[44]。
軍事裝備領(lǐng)域數(shù)據(jù)包括兩個方面:一是裝備自身數(shù)據(jù);二是日常管理和任務(wù)產(chǎn)生的數(shù)據(jù)。由于各類裝備種類多、業(yè)務(wù)類型繁雜、用戶眾多等特點,裝備大數(shù)據(jù)十分復(fù)雜、龐大,裝備數(shù)據(jù)的管理和使用效率較低。文獻(xiàn)[46]將知識圖譜技術(shù)用于解決裝備數(shù)據(jù)管理的相關(guān)難題,通過構(gòu)建裝備大數(shù)據(jù)知識圖譜,將多模態(tài)、多領(lǐng)域的數(shù)據(jù)層層分解,建立關(guān)聯(lián),將離散的、分段的、不同層面的數(shù)據(jù)進(jìn)行整合,提高裝備數(shù)據(jù)管理統(tǒng)籌能力。
知識圖譜在軍事方面的應(yīng)用還體現(xiàn)在軍事領(lǐng)域知識庫的構(gòu)建方面,能夠為態(tài)勢認(rèn)知、作戰(zhàn)籌劃、行動控制以及輔助決策等典型作戰(zhàn)過程提供有力支撐。例如,通過將戰(zhàn)場實時態(tài)勢、戰(zhàn)法規(guī)則、各類作戰(zhàn)條令、動向活動等信息進(jìn)行自動抽取、知識表示、關(guān)聯(lián)關(guān)系分析、知識推理等,形成基于戰(zhàn)場實時態(tài)勢數(shù)據(jù)和部隊作戰(zhàn)經(jīng)驗知識的輔助決策模型,輔助指揮員實現(xiàn)對戰(zhàn)場多維度、多層次的理解和認(rèn)知[45]。
此外,知識圖譜技術(shù)還可支撐軍事智能問答系統(tǒng)以及指揮員個性化需求分析等典型應(yīng)用。在軍事智能問答方面,通過知識圖譜構(gòu)建典型問答知識體系,使機(jī)器能夠從“關(guān)系”的角度出發(fā),分析理解作戰(zhàn)人員提出的自然語句問題,并能夠從海量的信息中,快速準(zhǔn)確地搜尋最佳答案,實現(xiàn)高效人機(jī)交互。在指揮員個性化需求分析方面,可以利用知識圖譜技術(shù),收集指揮員操作習(xí)慣、常見搜索詞、重點關(guān)心問題等,結(jié)合深度學(xué)習(xí)等智能算法,不斷完善形成對指揮員畫像的精準(zhǔn)描述,從而為作戰(zhàn)人員提供更加智能、聚焦的知識服務(wù)。
隨著知識圖譜的關(guān)注度越來越高,其發(fā)展正呈現(xiàn)諸多趨勢。一是知識圖譜與機(jī)器學(xué)習(xí)等人工智能技術(shù)相互滲透融合。目前大量的機(jī)器學(xué)習(xí)模型能夠有效實現(xiàn)實體識別、關(guān)系補全等,有力支撐了知識圖譜的快速構(gòu)建和豐富,并且各類智能算法和知識圖譜的有效結(jié)合,能夠?qū)崿F(xiàn)知識推理向高效化、精確化的方向不斷發(fā)展。二是知識圖譜的模態(tài)趨于多樣化。多模態(tài)知識圖譜將多模態(tài)知識(例如文本、圖片和音視頻等)進(jìn)行關(guān)聯(lián)整合,能夠為用戶提供立體式、多維度的知識服務(wù),將有力支撐用戶進(jìn)行相關(guān)信息分析和知識挖掘。三是知識圖譜的質(zhì)量評估越來越受重視。無論是知識覆蓋面廣、學(xué)科眾多的通用知識圖譜,還是知識專業(yè)性強、深度高的垂直知識圖譜,要想為用戶提供高質(zhì)量、高精準(zhǔn)的知識服務(wù),前提是必須構(gòu)建高質(zhì)量的知識庫,質(zhì)量評估作為高質(zhì)量知識體系構(gòu)建過程中的重要一環(huán),其發(fā)展和完善必將加速知識圖譜技術(shù)體系的成熟和在各行各業(yè)的落地應(yīng)用。四是知識圖譜從學(xué)術(shù)界向產(chǎn)業(yè)界轉(zhuǎn)移。隨著大眾的廣泛關(guān)注,知識圖譜已經(jīng)從學(xué)術(shù)研究逐步向相關(guān)產(chǎn)業(yè)轉(zhuǎn)移,目前已有越來越多的知識圖譜在電商、醫(yī)療、制造等場景的落地案例,為各行各業(yè)提供高效、精準(zhǔn)的信息服務(wù)。但是,知識圖譜的大規(guī)模應(yīng)用還面臨著一些挑戰(zhàn),具體如下:
一是知識獲取效率較低。已有的知識元素抽取方法受限于數(shù)據(jù)源,擴(kuò)展性、通用性不強,需要針對數(shù)據(jù)源進(jìn)行適應(yīng)性調(diào)整,而調(diào)整方法和過程通常需耗費大量人力,效率較低。
二是知識精確融合和圖譜動態(tài)更新困難。從不同數(shù)據(jù)源抽取的知識沒有統(tǒng)一的發(fā)布規(guī)范,數(shù)據(jù)質(zhì)量參差不齊,從中挖掘的知識也會有大量的噪聲以及冗余,針對這些問題,目前的研究主要集中在開發(fā)并行與分布式的對齊算法、眾包算法以及跨語言知識庫對齊,但是要構(gòu)建高效的知識圖譜,目前的知識質(zhì)量評估仍然過多地依賴人工,圖譜的自動化更新以及確保動態(tài)更新的有效性具有挑戰(zhàn)性。
三是知識推理的適應(yīng)性和準(zhǔn)確率較差。當(dāng)前知識推理學(xué)習(xí)和推理方法大多基于通用知識圖譜,在實際應(yīng)用中,利用舊關(guān)系推導(dǎo)出新關(guān)系只能在很小范圍內(nèi)、明確規(guī)則下進(jìn)行嘗試,并且關(guān)系的精度難以得到保證,尤其是在構(gòu)建大規(guī)模知識圖譜中,預(yù)測準(zhǔn)確率低、效率低的問題有待于進(jìn)一步深入研究。
四是目前大規(guī)模知識圖譜的應(yīng)用場景和應(yīng)用模式還比較有限,如何高效地構(gòu)建、靈活地實現(xiàn)知識圖譜的有效落地應(yīng)用,提高大規(guī)模知識圖譜的知識計算效率和推理準(zhǔn)確度,需要廣大科研工作者和相關(guān)領(lǐng)域技術(shù)人員不斷銳意發(fā)掘用戶需求,探索更重要的應(yīng)用場景,提出新的應(yīng)用算法。
知識圖譜是典型的學(xué)科交叉領(lǐng)域,涉及機(jī)器學(xué)習(xí)、知識表示、圖數(shù)據(jù)庫等多種學(xué)科,其構(gòu)建及應(yīng)用涉及知識建模、表示、存儲、加工、語義搜索、智能問答等多種關(guān)鍵技術(shù)。利用知識圖譜技術(shù),人們可以對各類數(shù)據(jù)源進(jìn)行結(jié)構(gòu)化、語義化的智能處理,構(gòu)建大規(guī)模的專業(yè)知識庫,并支撐業(yè)務(wù)應(yīng)用,使得機(jī)器能夠更好地理解網(wǎng)絡(luò)、資源、用戶,為用戶提供新型智能服務(wù)。本文針對知識圖譜的架構(gòu)體系、生命周期、典型應(yīng)用、面臨的挑戰(zhàn)及發(fā)展趨勢等進(jìn)行系統(tǒng)性、總體性的闡述和歸納分析,期望所做的工作可以為知識圖譜技術(shù)的發(fā)展和普及貢獻(xiàn)一份力量。