王智悅,于 清,王 楠,王耀國
1.新疆大學 信息科學與工程學院,烏魯木齊 830046
2.新疆自治區(qū)人民醫(yī)院 信息中心,烏魯木齊 830001
智能問答是自然語言處理中非常重要的研究內(nèi)容,具體指計算機通過對人類語言的自動分析,回復用戶所詢問的問題。為了更精準回答用戶提問,現(xiàn)通常采用對問句進行深層次語義分析,獲取問句豐富內(nèi)涵信息,再反饋接近用戶需要的答案,由此體現(xiàn)計算機智能性。
知識圖譜又稱科學知識圖譜,在圖書情報界叫做知識域可視化或知識領域映射地圖,用可視化技術描述知識資源及其載體。知識圖譜構建需要挖掘、分析、繪制和顯示知識及知識之間的相互關系,讓原本知識庫更具智能。結合知識圖譜智能問答,通過知識圖譜中實體間存在的直接聯(lián)系,挖掘推理出潛在關系,與傳統(tǒng)搜索引擎比較,基于知識圖譜的信息檢索,不再是反饋簡單排序的文檔結果,而是通過智能語義分析,反饋接近用戶需要的問題答案。本文綜述近年來基于知識圖譜的智能問答技術研究與發(fā)展狀況,為更多研究者提供信息參考。
智能問答最早追溯到人工智能誕生時期,阿蘭·圖靈[1]1950 年提出通過觀察機器是否具備正確回答問題的能力,從而驗證機器是否具有智能。不久后,麻省理工學院Weizenbaum在1966年設計了名為ELIZA的聊天機器人[2],實現(xiàn)了與人簡單交流,不過,并不意味著機器對自然語言真正理解。隨后又有大量研究成果如:Colby 設 計 的 Parry[3]、ALICE[4]、Jabberwacky[5];2011 年IBM 公司設計研發(fā)了超級計算機“沃森”,“沃森”在美國知識競賽節(jié)目《危險邊緣》中上演了“人機大戰(zhàn)”,戰(zhàn)勝兩位頂尖人類選手,被視為人工智能發(fā)展又一里程碑;華盛頓大學Etzioni 教授2011 年在Nature上發(fā)表文章Search needs a shake-up指出:“以直接而準確的方式回答用戶自然語言提問的自動問答系統(tǒng)將構成下一代搜索引擎的基本形態(tài)”[6]。因此,問答系統(tǒng)被看作未來信息智能服務關鍵性技術之一,是人機交互的重要手段。
知識圖譜于2012 年由谷歌公司首次提出,具體是將獨立的知識轉化為三元組形式,形成龐大的知識網(wǎng)絡。知識圖譜屬于人工智能重要研究領域知識工程研究范疇,是利用知識工程建立大規(guī)模知識資源的重要應用之一。知識圖譜可以理解為一種語義網(wǎng)絡[7]結構的知識庫。在問答系統(tǒng)[8]中,自然語言通過語義網(wǎng)絡來表達和存儲十分的方便。21世紀后,語義網(wǎng)絡進入新的應用場景即語義Web[9],這種允許上傳圖結構(W3C 的標準RDF),實現(xiàn)數(shù)據(jù)之間鏈接就是知識圖譜的雛形[10],并且知識圖譜又不同于早期的語義網(wǎng)絡,知識圖譜更加強調實體之間的關系或者實體的屬性值。知識圖譜研究的內(nèi)容包括知識獲取、知識融合、知識計算與應用三大主要步驟[11]。最具代表性的大規(guī)模網(wǎng)絡知識圖譜包括DBpedia[12]、Freebase[13]、KnowItAll[14]、WikiTaxonomy[15]和 YAGO[16]、以及 BabelNet[17]、ConceptNet[18]、DeepDive[19]、NELL[20]、Probase[21]、Wikidata[22]、XLore[23]、Zhishi.me[24]等 。這些知識圖譜遵循RDF 三元組數(shù)據(jù)結構,包含數(shù)千萬級或者億級規(guī)模實體,以及數(shù)十億或百億事實(即屬性值和與其他實體的關系),這些實體被組織在成千上萬由語義體現(xiàn)的客觀世界概念結構中。圖1 展示了一個簡單的知識圖譜。
圖1 簡單的知識圖譜
近年來,伴隨用戶對智能應用方面的強大需求,許多公司及機構如Google、百度、維基等對獲得的高質量數(shù)據(jù),采用自動或半自動化方法設計了一系列完備的知識圖譜。例如 DBpedia[12]、Freebase[13]、YAGO[16]等,這類圖譜由大批量實體、關系及屬性構成。同時機器學習與深度學習發(fā)展,為智能問答奠定研究基礎。例如Baseball[25]、Lunar[26]實現(xiàn)了限定域的智能問答,Paralex[27]、SEMPRE[28]、ParaSEMPRE[29]、STAGG[30]嘗試更具挑戰(zhàn)性的開放域智能問答研究。
大量文獻圍繞研究智能問答展開,如:鄭實福等人[31]對早期自動問答做了比較全面的綜述,另有研究者針對限定域問答進行全面總結[32],還有針對Web的智能問答,以及研究自然語言處理技術自動問答實現(xiàn)等[33]。然而,基于知識圖譜的智能問答還沒有敘述全面的綜述類文章,在此對基于知識圖譜的智能問答做全面介紹,吸引更多研究者投身該領域研究。
同時,問答系統(tǒng)實現(xiàn)離不開數(shù)據(jù)集,重點介紹當前較成熟的英文問答數(shù)據(jù)集有Simplequestion[34]、Webquestions[28]、WebquestionsSP[35]、QALD[36]、CSQA[37]等,如表1。Simplequestions是一種大規(guī)模問答數(shù)據(jù)集,這個數(shù)據(jù)集中的問題可以用一個三元組進行回答,并且數(shù)據(jù)集包含查詢語句。該數(shù)據(jù)集包含了10 萬多條問答對,但是簡單問題占很大比例,簡單問題即由一條三元組就可以回答的問題,也叫single-relation 問題,在該數(shù)據(jù)集上大部分研究者采用向量建模與深度學習相結合的方法并取得了很好的效果。Webquestions是Berant等人借助Google Suggest 生成了5 810 條問答對,提供了每個答案對應知識庫的主題節(jié)點。Webquestions 數(shù)據(jù)集更加偏向自然語言,但是同樣存在缺點,只是提供了答案而沒有對應的查詢語句,這就對生成邏輯表達式的模型訓練造成了困難,其次是復雜問句較少。Yih等人對Webquestions 改進后提出 WebquestionsSP,WebquestionsSP是Webquestions的子集,補全了相應的查詢語句。QALD是一種開放域問答數(shù)據(jù)集且表達更加復雜、更加口語化,除了包含問句與答案之外,QALD 還為每個問答對配置了關鍵詞以及對應的SPARQL 語句。CSQA 主要是用于知識圖譜序列問答(多輪問答)的數(shù)據(jù)集,其中每個數(shù)據(jù)樣本均由具有共享上下文的一系列QA 對組成。在這些數(shù)據(jù)集中,盡管序列中的單個問題通常很短,但具有上下文相關性。中文數(shù)據(jù)集有NLPCC 評測(NLPCC2016 評測數(shù)據(jù)包含14 609 個問答對的訓練集和包含9 870 個問答對的測試集。并提供一個知識庫,包含6 502 738 個實體、587 875 個屬性以及43 063 796個三元組)以及CCKS評測(CCKS2018測評數(shù)據(jù)集包括2 298 條問答對,其中有約1 000 條金融領域問答對,并提供三元組數(shù)據(jù))等,隨著智能技術發(fā)展,研究者們繼續(xù)嘗試構建更高標準的數(shù)據(jù)集,Liu 等人構建了一個開源的跨語言OpenQA數(shù)據(jù)集XQA[38],包含英語訓練集以及英語、法語、德語、葡萄牙語、波蘭語、中文、俄語、烏克蘭語和泰米爾語驗證集和測試集。Xiong等人[39]收集新聞文本,構建了社交問答數(shù)據(jù)集。
表1 知識圖譜問答數(shù)據(jù)集
構建模板的問答方法通過構造一組模板參數(shù),形成查詢表達式,對問題文本進行匹配。整個過程不涉及問句分析,通過預設查詢模板替代相關實體關系映射。優(yōu)點:簡潔、準確性高,巧妙避開語義解析等難題,適用于簡單查詢,在實際中應用廣泛。
AskJeeves 是國外使用模板庫較成功的例子,其中問題理解部分由幾百名專家對相關問題構建問題模板手工完成,耗費大量人力,借助模板庫返回相關文檔鏈接或者一段文本,回答用戶問題,回答方式多樣。缺點是后期維護依然需要人工,工作量巨大。
2010 年TrueKnowledge[40]模板問答方法被提出,核心思想是:首先使用已知模板成分匹配句子中的內(nèi)容,例如一些疑問詞,其次按照順序匹配相應模板,一個模板可以覆蓋多個問題。例如問題“What is the capital of France?”首先匹配疑問詞,如WhatWhich,這些反映問題意圖的疑問詞又生成“whatwhich a y”,其中a與y是問題中內(nèi)容的映射,確定好這樣的待填充結構后,最后繼續(xù)根據(jù)已定義模板將“is the capital of”映射到變量a,將“France”映射到變量y。模板針對不同問題可以復用,但缺點也十分明顯,需要大量人工處理形成模板,成本昂貴。同時,生成的模板對數(shù)據(jù)庫依賴性大。
文獻[41]構建了基于汽車領域的智能問答系統(tǒng),針對原有問答模板方法進行了改進,結合汽車領域知識庫提出模板自動生成方法,提前將復雜自然語言處理,預備在模板庫構建中取得較好效果。同時,該文獻還介紹了模板庫自動生成系統(tǒng)結構以及相關開發(fā)工具。
Cui等人[42]針對簡單事實問答,在大規(guī)模模板自動化生成方面,提出優(yōu)化方案。Abujabal等人[43]提出QUINT模型,通過語料自動學習模板,借助生成的模板將自然語言問句轉化為知識庫查詢。Cocco等人[44]提出基于面向對象的問答系統(tǒng),借助RDF 形式的LinkedSpeding 數(shù)據(jù)集,在現(xiàn)有訓練集(相互配對的問答對)上,通過機器學習方法學習SPARQL模板。
總而言之,基于模板的問答方法屬于比較傳統(tǒng)的方法,設計者需要提前設定模板,依據(jù)問題相關部分,選取不同模板,生成答案。這種方法優(yōu)點是:可以獲得比較準確的答案,回答響應速度快。缺點:需要耗費大量人力進行模板校對,以及模板庫維護。但是,針對問答領域多跳復雜問題,最新的模板方法也能提供解決思路,當前該方法研究重點更側重于模板自動生成,克服耗時耗力難題。
語義解析與基于模板的方法最明顯的區(qū)別是邏輯表達式。模板方法需要預設固定表達方式,語義解析方法關鍵在于對自然語言問句成分進行解析,將查詢轉化成邏輯表達式,再利用知識圖譜的語義信息將邏輯表達式轉換成知識圖譜查詢,最終得到相應結果。邏輯表達式用于面向知識圖譜的結構化查詢,查找知識庫中的實體以及與實體相關的知識,在結構化形式的知識圖譜上進行查詢,最高效的方法是利用結構化查詢語句,類似SQL、SPARQL語句等,然而對普通用戶來說,設計規(guī)范的查詢語句存在困難。基于知識圖譜的語義解析問答系統(tǒng)實現(xiàn),需要兩個關鍵步驟:(1)使用語義解析器將問題轉換成機器能夠理解和運行的語義表示;(2)使用該語義產(chǎn)生結構化查詢語言,對知識圖譜進行查詢,并從返回的實體集合中尋找答案,如圖2所示。
圖2 基于語義解析的知識圖譜問答過程
常用語義解析方法又有三類:基于詞典-文法的語義解析、基于語義圖構建的語義解析、基于神經(jīng)網(wǎng)絡的語義解析。
該方法由Berant[28]提出,它依靠組合文法,其中組合范疇文法(CCG)[45]由ACL 終身成就獎獲得者Steedman提出,后由Zettlemoyer與Collins[46]應用于對問句成分進行語義解析。Kwiatkowski 等人提出改進規(guī)則方法[47],有效提升了CCG 句法分析器魯棒性;Artzi 等人[48]使用AMR(Abstract Meaning Representation)替換λ-算子,表示CCG 語義規(guī)則中語義類型部分,同樣取得不錯效果。語義解析方法還有很多,例如同步上下文無關文法(SCFG)[49],以及組合語義法(DCS)[28],DCS擁有和λ-算子相似的表示能力,但該方法定義的語義結構更貼近知識圖譜的存儲結構。
基于詞典-文法的語義解析方法可解釋性很強,結構清晰,在限定領域問答方面達到很好效果。但是很多重要組成部分(比如CCG 中的詞匯表和規(guī)則集)都需人工編寫。面對大規(guī)模多源異構知識庫,該方法存在以下不足:(1)資源(例如詞匯表、規(guī)則集)標注費時費力,在訓練數(shù)據(jù)有限情況下,性能大打折扣;(2)語義表示與知識庫聯(lián)系不緊密,無法在解析過程中利用知識約束;(3)大規(guī)模知識庫開放域特性使文本歧義問題嚴重。
Reddy[50]提出與基于詞典-文法的語義解析方法不同的新方法。通過對問句分析,構建相對應的語義圖,語義圖由節(jié)點(實體、變量或者類型)、邊(關系)、操作符(count、argmax 等)構成,被看作知識圖譜子圖,實現(xiàn)將問句映射到知識圖譜中,再通過圖匹配完成問題回答,該方法即是基于語義圖的語義解析方法。較有代表性的是Reddy 等人[51]設計的從依存樹到語義圖的轉換文法,將樹結構轉化為知識圖譜的子圖結構再結合知識圖譜進行匹配;Yih[52]提出分步驟構建文法,便于理解,可解釋性強,提高了語義圖構建的準確性;Bast 等人[53]從另一方面構建了一種基于模板的語義圖生成方法。構建語義圖的方法不僅針對簡單問題,Hao等人[54]還嘗試構建復雜語義圖解決復雜問題,效果明顯,尤其問句中存在多個實體時,更便于語義圖構建。
基于語義圖的問句解析方法關鍵技術在于語義圖表示,以及語義圖構建。語義圖結構與自然語言句子結構具有相似性,故使用語義圖作為目標語義表示有顯著優(yōu)點,語義解析過程充分利用知識庫的知識約束,由組合文法轉換為語義圖構建,減少了搜索空間。但是基于語義圖的語義解析方法也存在問題,該方法依賴于一些啟發(fā)式方法構建語義圖,導致缺乏通用性。
該方法將自然語言及對應的語義看作是兩種不同語言,語義分析任務被看做類似于機器翻譯任務,利用端到端模型,實現(xiàn)將問句翻譯成對應語義的表示序列。
Dong等[55]和Jia等[56]用基于attention機制的encoderdecoder 模型(如圖3),將自然語言作為輸入,得到適用于機器處理的邏輯表示作為輸出。Xiao 等人[57]結合符號先驗知識,利用RNN 模型實現(xiàn)語義解析。Chen 等人[58]提出Sequence-to-Action 模型,用語義圖表示語義信息。也有研究者在基于神經(jīng)網(wǎng)絡的方法上進行擴展。Krishnamurthy 等人[59]考慮到目標語言是形式化語言,需要嚴格條件約束,對比機器翻譯的decoder,語義解析中使用了嚴格約束條件。Dong 等人[60]提出用兩級encoder->decoder 改進機器翻譯端到端模型,有效解決自然語言與語義表示之間跨度大問題,通過問題分解,提升性能。Chen 等人[61]不僅考慮從問句中提取相關特征做語義分析,同時結合知識圖譜中實體類型、關系路徑、上下文關系等,借助注意力機制方法,在Webquestions數(shù)據(jù)集上實驗,準確性提高。Lukovnikov等人[62]設計了一種端到端基于字符級別的問題編碼器,可以處理詞庫以外的文字問題,捕獲文字水平的語義。
圖3 encoder-decoder模型示意圖
基于神經(jīng)網(wǎng)絡方法,相比其他兩種方法,模型簡單,但是可解釋性差,還需要預先準備相應的訓練語料,對模型進行訓練時,訓練過程較長,還需要調整參數(shù)。對基于語義解析的三類方法,進一步歸納總結,得到如表2。
綜上所述,基于語義解析的知識圖譜問答方法,核心任務是將自然語言轉化成機器能夠理解和執(zhí)行的語義表示。通常基于符號邏輯的語義表示,缺乏靈活性,在分析問句語義過程中,還容易受到符號間語義鴻溝影響,同時從自然語言問句得到結構化語義表示需要許多步操作,多步間誤差傳遞對問答準確度造成影響?;谏窠?jīng)網(wǎng)絡的方法,需要大量標注數(shù)據(jù),然而帶有標注的數(shù)據(jù)集非常有限,加上現(xiàn)有知識圖譜覆蓋度較低。因此,目前基于語義分析的問答系統(tǒng)在開放域上取得的效果還不近人意。由于基于符號的方法和基于神經(jīng)網(wǎng)絡的方法各具優(yōu)缺點,所以今后可以考慮兩種方法結合,此外,無論是基于符號方法需要構建規(guī)則集,還是基于神經(jīng)網(wǎng)絡的方法需要標注語料,都耗費大量人工,因此構建低成本的模型也是研究方向之一。
表2 語義解析方法比較
2006 年Hinton 等人[63]在神經(jīng)網(wǎng)絡模型基礎上提出深度學習,如今海量數(shù)據(jù)積累、計算力提升、算法模型改進,促成深度學習迅猛發(fā)展。深度學習方法也已應用于問答系統(tǒng)各項任務實現(xiàn)。例如實體識別采用的經(jīng)典BILSTM+CRF 方法,如圖4 所示,谷歌提出BERT[64]模型;關系分類、意圖分類,采用基于字級別的深度學習方法;實體消歧采用深度學習排序方法,判斷語義匹配性等。
圖4 BILSTM+CRF實體識別模型示意圖
當今,在基于知識圖譜的問答研究領域,大部分研究者把目光從傳統(tǒng)或規(guī)則的方法轉向深度學習方法。以下章節(jié)將重點介紹基于深度學習的知識圖譜問答。
采用深度學習的方法需要將問題以及知識圖譜中包含的豐富的語義信息(字、詞語、上下文關系,知識圖譜中的實體、關系以及屬性),投射到一個高維向量空間,獲得字向量或者詞向量,通過深度學習模型對向量進行相似度計算,再通過相應打分機制獲得候選排序,得出最終問答結果。如圖5所示。
圖5 基于深度學習的答案排序方法典型流程
其中,Bordes[65]在文獻[66]基礎上提出的方法比較經(jīng)典,首先對問句中實體準確定位,將問句中的實體抽取出來,再將實體連接到知識庫,以該實體為起點,查找與其關系相連的實體作為候選答案。其次計算這些實體關系的組合與問句之間的相似度,通過打分排序,選擇相似度最大的候選項返回答案,取得很好效果。Hao等人[67]針對前人工作中沒有充分考慮候選答案相關信息訓練question representation,提出Cross-Attention機制的神經(jīng)網(wǎng)絡模型,訓練知識庫全局信息,一定程度上減輕了the Out of Vocabulary(OOV)問題,在Webquestions數(shù)據(jù)集上取得不錯效果。Hao等人[68]在問句實體鏈接方面提出改進方案,同時利用多級編碼及多維信息增強效果。Zhang 等人[69]在原有APVA 模型上改進,提高關系預測準確性。此外,也有學者嘗試將問句實體鏈接與關系鏈接合并抽取[70]。
Bordes 等人[71]還設計了一種基于記憶網(wǎng)絡的問答系統(tǒng),在多個數(shù)據(jù)集上驗證了系統(tǒng)設計的優(yōu)越性,具備遷移學習能力。Dong等人[72]設計了一種多列卷積神經(jīng)網(wǎng)絡,根據(jù)知識圖譜特點,定義答案路徑、上下文路徑、答案類型,作為參考特征,并且每個特征對應一個已經(jīng)訓練的卷積神經(jīng)網(wǎng)絡,用于捕獲問句中語義信息,再通過計算問句與答案之間的相似度,對結果打分排序,排名第一的作為最終答案。為更好捕獲問句與答案間的交互信息,以及保留更多原始信息,Qu等人[73]提出了一種基于相似矩陣的遞歸神經(jīng)網(wǎng)絡(AR-SMCNN)模型,利用RNN 順序建模特性捕獲語義級相關性,使用注意機制跟蹤實體和關系重要部分,并制定了一種準確確定問句中主實體的方法。Lan 等人[74]創(chuàng)新地將“matchingaggregation”框架用于匹配候選項,增強候選實體表示,充分利用問題特有語境關系,提升在公開數(shù)據(jù)集Webquestions、Simplequestion 上的效果。Krishna 等人[75]將問答與實際生活聯(lián)系起來,將問答過程比作老師與學生之間的關系,學生問題寬泛,同時使用分類方法,由大到小,由粗到細,定位問題意圖,最終由老師回答。
以上是國外學者在研究基于知識圖譜問答方面,采用深度學習方法取得的成果。國內(nèi)也有許多研究者,致力于構建領域知識圖譜及設計問答系統(tǒng),將基于知識圖譜的單一事實問答拆解成兩部分任務,一是實體鏈接,二是關系識別。羅達等人[76]按照這一思路提出了一種基于多角度注意力機制的單一事實知識庫問答方法,關系識別率達到93.5%。曹明宇等人[77]構建了一種針對原發(fā)性肝癌的知識圖譜問答系統(tǒng)。張楚婷[78]在旅游方面展開知識圖譜問答系統(tǒng)研究。張崇宇[79]設計了關于醫(yī)療領域的知識圖譜問答系統(tǒng)。史夢飛[80]設計了一種分布式的問答系統(tǒng),將問題句進行分類,提高下游任務的準確性,通過構建基于深度學習的End2End 問答模型,同時考慮中文問句的復雜性,提出結合語義依存分析的剪枝算法及自動化模板的方法。童培豪[81]針對復雜問題進行優(yōu)化,將系統(tǒng)分為三個步驟,實體識別、關系發(fā)現(xiàn)、系統(tǒng)整合,并在每一個步驟中實現(xiàn)優(yōu)化。國內(nèi)眾多評測會議,進一步促進問答系統(tǒng)發(fā)展。Lai 等人[82]在NLPCC2017比賽中設計了一種深度卷積神經(jīng)網(wǎng)絡實體謂詞重排序配對方法,取得第一名。Zhou 等人[83]將規(guī)則與神經(jīng)網(wǎng)絡相結合,在2019 年CCKS 評測中,取得第一名。
在基于深度學習答案排序的方法中,計算輸入問題和候選答案實體之間的相關性是核心任務。當前采用問題與答案對直接訓練的問答模型取得較好效果。Costa 等人[84]針對當前多領域多知識圖譜發(fā)展,提出針對開放域的基于知識圖譜的問答框架,嘗試設計一個高效且高質量的問答系統(tǒng),實現(xiàn)在任何領域對任何類型問題都有效的問答系統(tǒng)。
知識圖譜嵌入(Knowledge Graph Embedding,KGE)學習是針對知識圖譜中的三元組做word embedding操作,在一般的自然語言處理任務中,將文本的表述轉化為word2vec這種產(chǎn)物,KGE不同于普通的詞向量表示,知識圖譜嵌入學習面向知識庫中的實體和關系進行表示學習,從而更為直接地構造實體與關系之間的語義相關性。相比于普通的詞向量,KGE 更能反映相近的實體以及關系間的相似程度,KGE 的目的是為了保存知識圖譜中原有的信息,并將知識圖譜用連續(xù)向量空間中的低維密集向量或者矩陣來表示,可以有效解決數(shù)據(jù)稀疏問題,使知識獲取、融合、推理的性能得到顯著提升?,F(xiàn)有研究已經(jīng)提出了許多的KGE,如線性映射方法DistMult[85]、基于平移的TransE[86]、基于張量因子化的RESCAL[87]、神經(jīng)張量網(wǎng)絡NTN[88]等,并被證明在知識圖譜補全、問答系統(tǒng)和關系抽取等許多應用中都是有效的。
Wang 等人[89]借助知識圖譜的嵌入學習,提出了一種解決通過SPARQL查詢沒有答案的方法。Wang針對一些在知識圖譜中可以找到答案,但是通過SPARQL匹配時,要求每個指定的查詢項都需要匹配,從而無法找到正確答案的問題,通過專門為SPARQL查詢匹配設計的保留實體上下文的轉化模型,將知識圖譜三元組映射到連續(xù)的向量空間中,使得語義相似的實體在向量空間中接近。這樣的模型框架可以方便地生成高質量的近似答案。
Huang等人[90]設計了一種基于知識圖譜嵌入的問答系統(tǒng),針對謂詞在問題中的不同表達和實體被識別后的消歧等問題,Huang等人結合知識圖譜嵌入學習在問答系統(tǒng)的優(yōu)點來解決,知識圖譜嵌入學習表示圖譜中的每個謂詞/實體為低維向量,給定一個簡單問題,目標是找到謂詞嵌入空間的一個點作為謂詞的表示向量,并在實體嵌入空間中找到一個點作為頭實體的表示向量。對于所有知識圖譜可以解答的問題,它們的謂詞向量必然在謂詞嵌入空間中。因此,作者設計謂詞與頭實體學習模型,將問題作為輸入,并返回盡可能接近于問題的謂詞/實體嵌入表示的向量,確定謂詞與頭實體,最終找到尾實體,完成問答。
Hamilton 等人[91]認為知識圖譜是一張有關系和實體組成的一張圖,通過學習實體低緯度嵌入表示,可以預測潛在或者缺失的邊。目前知識圖譜查詢的難點在于處理更為復雜的邏輯查詢,因為這涉及多個未發(fā)現(xiàn)的邊、實體和屬性。針對這一問題,Hamilton 等人設計了一種框架,實現(xiàn)在不完整知識圖譜上有效地對連接邏輯查詢進行預測,在低維空間中對圖譜節(jié)點embedding操作,并在這個embedding space中將邏輯運算符表示為學習過的幾何運算(例如平移、旋轉)。通過在低維embedding space中執(zhí)行邏輯運算,可以預測圖譜中的關系。
知識圖譜問答中一種有效的方法就是將自然語言問句轉化為圖結構的查詢,最為重要的過程就是將實體/關系映射到知識圖譜的點與邊,從而構造結構查詢。Wang 等人[92]考慮到語言的靈活性以及模糊性,映射的過程存在挑戰(zhàn)性,提出了一種新的問答框架KemQA,嘗試去解決自然語言問題的映射問題和構造結構查詢,通過大量的實驗,證明框架的有效性。
知識圖譜的嵌入學習方法是將知識圖譜中的每個對象編碼到連續(xù)向量空間,這樣的做法能夠反映出關系密切的實體以及關系的相似程度,保存了知識圖譜中的重要信息。這樣的做法為問答的實現(xiàn)做了很好的鋪墊。知識圖譜嵌入式學習的問答方法具有很好的可行性以及魯棒性。如何能讓知識圖譜嵌入學習學到更多更細致的知識圖譜信息是這種方法的關鍵。
近年來,有論文指出KGQA任務中的簡單問題已經(jīng)基本被解決[93]。從知識圖譜的發(fā)展來看,當前學術界更關注解決包含多跳、組合或者需要借助推理解決的復雜問題,由于問題和知識的多樣性和復雜性,知識圖譜問答仍然是一項具有挑戰(zhàn)的任務,尤其是在多跳的問答中,許多研究者在這方面進行了許多嘗試。
多跳問題主要分為兩類,一類是路徑問題,另一類是聯(lián)合問題。路徑問題指的是問題中只包含一個主題實體,但是含有多個關系,這類問題的解決需要沿著圖譜中的某些線路遍歷才能找到問題的答案(借助一些關系和中間實體);聯(lián)合問題則是包含多個主題實體,這類問題的答案可能是多個路徑問題結果的交集。語義解析方法、深度學習答案排序以及知識圖譜嵌入的方法不能有效地解決多條復雜問題,如圖6。
圖6 多跳問題
Zhang 等人[94]的方法是將多跳問答分為兩個步驟:一是通過概率模型來識別問句中的實體(得到圖譜中每個實體是問句中實體的概率);二是設計了一種邏輯推理模型,提出了一種嵌入推理圖的體系結構,其中包含了所有推理規(guī)則及其復雜性,在知識圖譜上做邏輯推理。Zhou 等人[95]針對多跳提出了一種新的可解釋推理網(wǎng)絡模型,該模型采用可解釋的逐跳推理過程來回答問題。該模型動態(tài)地決定輸入問題的某部分應該對應圖譜中的某一跳進行分析;預測與當前解析結果相對應的關系;利用預測的關系更新問題表示和推理過程的狀態(tài);然后驅動下一跳推理。Vakulenko 等人[96]提出了一種新的方法使用無監(jiān)督消息傳遞(Message passing)來解決復雜問題,首先識別實體、關系和類名,并將其映射到圖中的對應項,從而定位答案實體。最后,根據(jù)確定的問題類型對這些問題進行聚合。這種方法可以借助一系列稀疏矩陣乘法來模擬小型局部子圖上的連接實現(xiàn)。
多跳推理的問答是當前的研究難點與熱點問題,還有許多的工作需要去做。
問答系統(tǒng)早就存在,從2011年Siri,到Google Now、語音助手、智能音箱等本質上都是問答系統(tǒng)。問答系統(tǒng)在日常生活中幫人們導航、搜索問題,偶爾與用戶交互聊天,讓生活越來越方便。智能時代職業(yè)場所及公共場所中人們每天面對大量數(shù)據(jù)、海量信息及知識更新,“懂行”的“專家助手”成為剛需。知識圖譜用于描述真實世界中存在的實體和概念,以及實體和概念之間的關系,可通過人工方式構建或定義行業(yè)領域的知識體系,基于此開發(fā)各種高級應用,智能問答便是應用之一。
基于知識圖譜的問答系統(tǒng),研究方法很多,其中基于深度學習的答案排序法略顯優(yōu)勢。但是依然存在不足:缺乏泛化性、可解釋性,對時序性問題不能很好回答,例如:“現(xiàn)在誰統(tǒng)治丹麥?”。本章結合智能問答系統(tǒng)研究中遇到的問題,總結尚需解決的關鍵問題。
現(xiàn)有的基于知識圖譜的問答技術,在單一問題上已取得非常好的效果,如:BERT模型實驗。然而,在實際問答場景下,用戶的問題往往復雜,現(xiàn)有的基于深度學習的知識圖譜問答方法受到挑戰(zhàn),復雜問題研究仍有很大提升空間。一旦問題中存在多種關系與實體,或者存在潛在關系,甚至在開放性領域,如CCKS 評測中的一個問題“我現(xiàn)在餓了,數(shù)據(jù)庫里有什么吃的?”,現(xiàn)有的方法的效果不盡人意。
現(xiàn)有的知識圖譜規(guī)模日趨龐大,能覆蓋多個領域,但是仍面臨信息缺失問題,知識圖譜構建是項大工程。面向問答的深度推理顯示出作用,傳統(tǒng)的基于符號的推理需要嚴格符號匹配,推理規(guī)則有限,以致領域適應性差,無法實現(xiàn)大規(guī)模推理。但是,深度學習作用于分布式語義表示,可以利用語義空間中的相似度計算,彌補符號推理需要嚴格規(guī)則的缺陷。所以,如何利用深度學習的大規(guī)模、可學習優(yōu)點、融入傳統(tǒng)邏輯推理規(guī)則,構建精準的大規(guī)模知識推理引擎是自動問答系統(tǒng)迫切需要解決的又一個熱點問題。
傳統(tǒng)的問答系統(tǒng)大多采用一問一答的形式,但是現(xiàn)實應用場景中,用戶與機器之間需要多輪交互,由此反饋給用戶的答案不只是單一的實體、概念、關系等形式,需要考慮到先前的對話對即將發(fā)生的對話的影響或者當前的對話可能對后續(xù)對話造成的影響。除此之外,還需要采用用戶理解的自然語言形式回復問題。在這一過程中,如何結合知識庫,將知識庫問答的答案加入自然語言回復中,是亟待解決的問題。
問句的長尾(long tail)的問題也是近年來研究的熱點問題,長尾問句是指在問答數(shù)據(jù)上,少量表示相同意思,出現(xiàn)頻率高的問句在整個數(shù)據(jù)集中占有大部分的比例。將問句以柱狀圖的形式展示就會有很長的“尾巴”,尾巴上都是一些出現(xiàn)頻率不高的問句。例如在數(shù)據(jù)集中與“ehr系統(tǒng)包含什么功能”意思相近的問句有“ehr系統(tǒng)有哪些功能”“ehr 系統(tǒng)有什么功能”“ehr 系統(tǒng)能實現(xiàn)什么功能”。如果數(shù)據(jù)集大部分都是相似的問句,這就會導致數(shù)據(jù)集的特征比較單一,學習的模型泛化能力不強。這就可能需要使用一些其他的算法來增強模型的泛化能力。
智能時代來臨,海量信息充斥在社會每個角落,用戶對自動問答需求越來越強烈,現(xiàn)有的問答系統(tǒng)還處在起步階段,僅具備最基本的智能與推理能力。人工智能專家在智能問答領域的研究從未中斷過,基于知識圖譜的問答系統(tǒng)作為自動問答研究的重要方向,其技術發(fā)展趨勢從限定領域向開放領域發(fā)展,從單一數(shù)據(jù)源向多元數(shù)據(jù)源發(fā)展,從淺層語義分析向深度推理發(fā)展。本文關于知識圖譜智能問答研究綜述期望相關技術早突破,開拓不同行業(yè)智能問答應用需求。