鄭泳智,朱定局,吳惠粦,彭小榮
1(華南師范大學 計算機學院,廣州 510631)
2(廣州國家現代農業(yè)產業(yè)科技創(chuàng)新中心,廣州 510520)
3(廣州市增城區(qū)文化館,佛山511300)
知識圖譜(knowledge graph,KG)源自于1960年提出的語義網絡,有著源自于NLP、Web、AI 等方面的基因,它通過結合數學與信息科學等學科理論與方法,以可視化形式描述其資源與載體,應用于問答、推薦等領域,其概念演化如圖1所示.
圖1 知識圖譜概念演化
語義網絡是用圖表示知識的方式,圖2 是一個語義網絡示例,信息被表達為一組節(jié)點,節(jié)點間以有向直線相連表示關系,其優(yōu)點在于表達直接且清晰明確,可用于檢索與推理,但不適用于定量動態(tài)的知識.
圖2 語義網絡示例
本體(ontology)一詞起源于希臘語,是一個哲學術語,在哲學的角度,它關注的是“存在”,而本體論則是對世界任意領域內的存在作客觀描述.例如,世界是什么?太陽是什么?星星是什么?1980年,McCarthy[1]提出以邏輯概念為基礎的智能系統(tǒng)需列出所有存在的事物并構建一個本體描述我們的世界.至此,人工智能領域開始引入哲學本體論思想內涵用于刻畫知識.1989年,Berners-Lee 發(fā)明了萬維網(World Wide Web,WWW),它作為視頻、圖片等媒體信息的最深遠、最廣泛媒介,標志著信息共享進入了新時代.1998年,依托萬維網的語義網(semantic web)誕生,這一概念旨在將萬維網上的文檔添加為可被理解的語義元數據,即文檔組織形式轉變?yōu)橐訳RI 標識的更小的數據碎片,同時建立本體庫表征數據,使互聯(lián)網成為通用信息交換媒介.2006年,Berners-Lee 提出鏈接數據(linked data),鼓勵各信息源從文檔組織形式向這種最小數據碎片形式遷移并發(fā)布這些數據作為開放數據,且盡量參考已知本體進行建模并賦予其唯一URI 用以標識,較有名的項目有DBpedia、Freebase 等.2012年,谷歌為了優(yōu)化其搜索引擎提出知識圖譜的概念,知識圖譜由一些相互連接的實體以及它們的屬性構成[2],其基礎是語義網和本體論,其本質是表示實體聯(lián)系的語義網絡.其中,每個實體或概念用一個全局唯一ID 標識,每個屬性值用于刻畫實體內在特性,而關系(relation)用來連接兩個實體,刻畫它們之間的關聯(lián).通俗而言,知識圖譜是一張巨大的圖,圖中的節(jié)點表示實體或概念,而圖中的邊則由屬性或關系構成,這種圖模型可用W3C 提出的資源描述框架(resource description framework,RDF)[3]表示.
知識圖譜按問題領域劃分,可分為通用領域和垂直領域,垂直領域知識圖譜是基于特定行業(yè)數據構建的,規(guī)模雖小,但知識質量高,精度高.而通用領域知識圖譜覆蓋面更廣,規(guī)模更大,自動化程度更高.本文歸納整理了近些年通用領域知識圖譜的項目,如表1所示.
表1 開放領域知識圖譜項目
通用知識圖譜為了融合規(guī)模更龐大的實體,通常采用自底向上方式構建,而垂直領域知識圖譜的構建對領域知識的深度和精度有很高的要求,需要有完善的本體模式層.如圖3所示,知識圖譜的構建,首先需要不斷的采集數據、包括結構化、半結構化、非結構化數據,知識是日新月異的,通用領域的知識圖譜需要不斷的擴充其實體庫就需要不斷的采集數據.采集得到的數據通常需要進行數據清洗、缺失值處理、異常值處理等,然后使用自然語言處理的手段提取數據中的實體、關系、屬性.目前主流的實體識別方法通常使用結合BERT 和BiLSTM+CRF 的變式模型提取實體,使用基于卷積神經網絡模型(CNN)來抽取關系.得到的實體詞通常需要進行對齊操作,包括實體消歧和共指消歧.例如“我的手機是蘋果”和“我喜歡吃蘋果”中都有“蘋果”一詞,但所指意思不一致,這就需要進行實體消歧處理,消歧方法包括基于規(guī)則的方法、機器學習的方法、全局最優(yōu)方法、基于知識庫的方法、深度學習算法.抽取得到的可靠三元組數據將導入存儲知識的數據庫,目前主流的圖數據庫有Neo4j[12]、Jena[13]等.
圖3 知識圖譜的構建過程
智能問答是自然語言處理中的重要分支,通常以一問一答的人機交互形式定位用戶所需知識并提供個性化信息服務.它能讓計算機自動并以精準自然語言形式回答用戶所提出的問題且不同于搜索引擎.
如表2所示,智能問答的歷史可以追溯至1950年,計算機科學之父阿蘭·圖靈為了檢驗計算機是否具備精準應答問題的能力,提出機器能否思考的判斷方案——圖靈測試,自此翻開了自然語言人機交互的篇章.20世紀60年代前后,首批問答系統(tǒng)問世,Green 等人[14]設計的Baseball 程序可用普通英語回答有關棒球比賽的問題,1971年月球科學大會上,LUNAR 系統(tǒng)[15]首次亮相,它可以回答月巖樣本分析的相關問題,但這一時期的QA 系統(tǒng)只停留在處理領域結構化數據層面上.20世紀70年代前后,語言學的興起、馬爾科夫假設等理論的提出、數據庫構建成本降低,使得問答系統(tǒng)構建難度也因此而降低.該時期的問答系統(tǒng)集成自然語言處理、知識表示等方法分析用戶問題,耶魯大學開發(fā)的SAM 系統(tǒng)[16]便是這一時期的產物,它引入計劃的概念并使用腳本來理解問題,但是其缺點在于腳本未就緒則系統(tǒng)將無法工作.20世紀90年代,計算機運算能力提升,基于機器學習的自然語言處理誕生,智能問答進入了開放領域、自由文本時期.智能問答研究熱點轉向基于大規(guī)模文檔集的問答、研究領域從限定領域延展至開放領域,研究對象從固定語料庫延伸至互聯(lián)網.2002年,密歇根大學開發(fā)了一個支持多語言的WQA 系統(tǒng)[17],用戶可以使用多語言提問.同時期有影響力的問答系統(tǒng)還有Webclopedia[18]、LAMP[19]等.2009年,Wolfram Research 公司推出的Wolfram Alpha在線自動問答系統(tǒng)能給出答案與答案相關的所有信息,這一時期的系統(tǒng)越漸成熟,涵蓋多領域多語言的知識數據,配有相應的可視化界面.當2011年IBM 公司研發(fā)的“沃森”在美國知識競賽節(jié)目《危險邊緣》中戰(zhàn)勝兩位頂尖人類選手后,基于深度學習的智能問答再次成為研究熱點.
表2 智能問答項目
近年來,隨著知識圖譜概念滲透到各領域,基于知識圖譜的智能問答逐漸成為焦點之一,在金融、醫(yī)療、旅游、農業(yè)、電商等垂直領域,都不乏相關研究,例如李賀等人[20]構建的基于疾病知識圖譜的問題系統(tǒng),杜澤宇等人[21]的電商知識圖譜的問答系統(tǒng),由于醫(yī)療和電商等領域對該類系統(tǒng)的需求較大,因此完善程度也較好.這些基于知識圖譜的問答系統(tǒng),或利用當中的知識數據結合深度學習構建問答系統(tǒng);或利用圖譜的推理能力理解問題;或融合問題與三元組的信息編碼至向量空間,在向量空間內完成問題相關的相似度計算任務,得出用戶所需近似答案.歸結基于知識圖譜問答系統(tǒng)的構建方法有3 種,即語義解析(semantic parsing,SP)、信息檢索(information retrieval,IR)、向量建模(vector modeling,VM).學術界有一種說法稱主流方法只分為語義解析和信息檢索,只是近年來將深度學習應用于兩種傳統(tǒng)的方法,更將VM 歸結一種類似IR 的方法.在該領域,一些研究者旨在深入研究KBQA 的子任務,例如問題實體檢測、關系抽取、多跳推理等,一些研究者則研究整體的通用框架,如Pei 等人[22]設計基于TransE 的中文領域知識圖問答通用框架,涉及多模型融合.本文以這些任務中使用到的關鍵技術為側重點對該領域技術現狀以及展開闡述.
研究KBQA 離不開數據集,而不同數據集通常針對不同QA 任務,包括簡單問題和復雜問題.一些研究者為達成研究目的還需要擴充公共數據集或獨自構建數據集,如Miller 等人[23]為了驗證其網絡功能而提出MovieQA 數據集.但大多數研究者會選擇使用公共基準數據集,既省去構建時間而專注于算法模型的設計,又便于對比同類模型.而人工標注數據集往往需要高成本人力物力,因此數據集的構建者會使用模版構建問答數據集,但僅使用模版生成問題的數據集缺乏多樣性,而缺乏多樣性的數據集作為訓練數據時通常會降低模型對復雜問題的泛化能力,因此近年來數據集的構建者會以構建高質量數據集為目標.本文歸納整理了近些年來具有代表性數據集,如表3所示.從體量上看,數據集的規(guī)模已從千級別擴展至百萬級別,其中含有復雜問題的數據集體量往往較小.從基于的知識庫看,早期數據集一般基于Freebase 構建,2016年Freebase 被收購后,KGQA 數據集大多基于Wikidata和DBpedia.近3年,數據集的問題焦點放在了多樣性、SPARQL 以及推理過程上.考慮到以往的數據集很少有推理過程,2021年,Shi 等人[24]基于Wikidata數據加入推理過程構建KQA Pro,它包含了多樣的簡單問題與復雜問題,且保證了其規(guī)模與質量,無疑是近年來高質量的數據集之一.
表3 基于知識圖譜的問答數據集
本節(jié)對目前主流的基于模板的語義解析方法、基于語義查詢圖的方法、基于編碼解碼的方法、基于檢索的方法進行介紹,并對其進行歸納總結如表4所示.基于模板的語義解析方法其核心在于模板于規(guī)則的制定、語義查詢圖的核心在于如何用語義圖來表示自然語言的句子結構、編解碼的方法的核心在于構建編碼模型捕獲句子特征、基于檢索的方法其核心在于句法的信息如何映射為特征圖或句子特征轉為空間向量.
表4 構建方法對比分析
語義解析方法是一種語言學方法,其思想是將非結構化的自然語言問題映射為一系列結構化邏輯形式,例如語義圖和高級查詢語言(如SPARQL,Cypher 等).而基于模版的語義解析方法其思想在于將問題先轉換為人為預定義的規(guī)則或模版,再轉換為可執(zhí)行的查詢.如圖4所示,輸入的問題首先被映射為邏輯形式,該過程通過預定義模版規(guī)則進行映射,得到實體與關系<E1,Relation,E2>,再進一步轉化為圖數據庫的可執(zhí)行查詢得到知識圖譜中的相應的答案.本文歸納整理了近年來在這方面的研究如表5所示.
表5 基于模板的語義解析方法的研究
圖4 基于模板的語義解析流程
依賴于人工標注的邏輯形式對于大規(guī)模KBQA 任務而言成本很高,Berant 等人[27]實現了一個標準的自底向上解析器.首先利用知識庫和大型文本語料庫建立從問題短語到知識庫實體或關系的粗映射;然后使用橋接操作基于相鄰謂詞生成其他謂詞,將問題短語映射到知識庫實體和關系.該解析器依賴于一個對數線性模型來覆蓋手工構建的特性,減少了搜索的空間,并在Cai等人[43]的數據集上得到了驗證.Bast 等人[44]提出了一個基于模板的模型Aqqu,該模型將問題映射到3 個模板,先從知識庫中識別出與該問題的一部分匹配的所有實體,匹配可以是文字匹配,也可以是實體名稱的別名.然后,Aqqu 實例化3 個模板,其中知識圖譜子圖以匹配的實體為中心,根據基于手工特征的排序模型,輸出最佳實例以查詢知識庫并獲得答案.然而,Aqqu 中的3 個模板對復雜問題的覆蓋范圍有限.為處理更多問題,研究人員嘗試從數據集中自動或半自動地學習模板.Abujabal 等人[45]提出了一種名為QUINT 的自動模板生成模型,自動模版分為查詢模板和問題模板.其中查詢模版負責從知識庫中提取規(guī)則,問題模版則依靠解析給定問題中的依賴關系產生.在運行過程中,首先將問題查詢映射到一些問題模版,然后將相應的查詢模版實例化為候選結果,最后在排序后輸出得分最高的查詢即為最終答案.為保證自動創(chuàng)建的問題模版的質量并得以商用,Spiegel 等人[46]提出一個模塊化的MK-SQuIT 框架,通過生成和優(yōu)化問題模板和查詢模板自動合成數據集.Abujabal 等人[47]提出的NEQA 類似于TeBaQA[48],同樣是基于模板的KBQA 系統(tǒng),均使用連續(xù)學習范式回答未知領域問題.但除了使用基于相似度的模板匹配方法之外,它還依賴于用戶反饋并隨著時間推移而改進.另外,TeBaQA 還可以僅使用基準數據集就能輕松地應用到新的領域,在可擴展性上與之前的方案相比更有優(yōu)勢.
基于模板的語義解析方法其核心在于模板的構建,其優(yōu)點在于過程清晰,可解釋性強,但此類方法需要結合語言學的知識,無論是自動或半自動的構建方案都需要一定的工作量.
依賴于預定義模版的方法可擴展性有限,而且需要較專業(yè)的語言學知識,無疑帶來大量的工作量,因此出現了基于神經語義分析的方法(neural semantic parsing,NSP).它以增強解析能力和可擴展性為目的,將非結構化問題映射為語義圖這種中間邏輯形式,然后再將其轉換為SPARQL 查詢.
圖5 展示了問題“小明去過廣州最高的建筑物是什么?”的一個簡單的查詢圖結構,此類查詢圖通常由4 種類型的節(jié)點組成、用圓角矩形表示的主題實體、用圓表示的已存在變量、用陰影圓表示變量,用菱形表示聚合函數.其中主題實體是知識圖譜中的現有實體,陰影圓節(jié)點x也稱為答案節(jié)點,用于映射請求檢索得到的實體,菱形節(jié)點限制了答案必須是最高的建筑物.得到如下邏輯形式:
圖5 語義查詢圖示例
執(zhí)行該查詢(不包含聚合函數)將會匹配到“國際金融中心”“廣州塔”等實體,再結合聚合函數可得到最終答案為“廣州塔”.
本文歸納整理了近年來此類研究的內容及特點[49-60],如表6所示.
表6 基于語義查詢圖方法的研究
Reddy 等人[49]提出了一種基于圖的語義解析器GraphParser,使用組合范疇語法(combinatory categorial grammar,CCG)將句子轉換為語義查詢圖,通過語義查詢圖表示自然語言時可將圖的邊映射為知識圖譜的關系,圖的節(jié)點映射到知識圖譜實體或類型等,并采用集束搜索方法得出最佳語義查詢圖.
2013年Kwiatkowski 等人[50]曾經指出當邏輯形式使用與知識圖譜中定義的謂詞不相同時,可能會存在本體匹配問題.因此他構建的解析器是從問題-答案對中學習的,使用CCG 構建語言動機的邏輯形式,改進本體匹配的準確性.后來,Zou 等人[51]提出以結構化的方式對自然語言問題的查詢意圖進行建模,在此基礎上,將QA 任務簡化為子圖匹配問題,他們考慮到在線QA 系統(tǒng)的查詢對系統(tǒng)成本較高,考慮改進消歧方法,便采用一種惰性方法,將歧義消除推到了查詢評估階段以提升整體性能.
為使得知識圖譜的知識利用率更高,而且受到文獻[49]的啟發(fā),Yih 等人[52]在Kwiatkowski 研究的基礎上提出了一個名為分階段查詢圖生成框架(staged query graph generation,STAGG).框架將其分解為3 個階段的搜索問題,第1 階段,利用實體鏈接工具獲取候選實體及其得分;第2 階段,STAGG 找到主題實體和答案節(jié)點之間的所有關系路徑,但為了限制搜索空間,僅當中間存在變量可被固定到復合值類型節(jié)點(compound value type,CVT)時才探索長度2 的路徑,否則探索長度1 的路徑;第3 階段,根據啟發(fā)式規(guī)則將約束節(jié)點附加到關系路徑上.每一個階段均利用對數線性模型對當前部分查詢圖進行評分,并輸出最佳的最終查詢圖來查詢知識庫.STAGG 在WebQuestion 基準數據集上進行實驗并驗證了其語義空間裁剪的有效性,不僅簡化了任務難度,更提高了查詢效率.但是為了限制搜索空間,STAGG 只探索有限長度關系路徑,因此難以處理多跳等復雜問題.考慮到文獻[52]提出的STAGG 暫不能覆蓋某些復雜的約束,Bao 等人[31]在2016年提出在STAGG的基礎上擴展了約束類型和算子,包括類型約束和顯式與隱式時間約束,并提出了多約束的語義查詢圖(multiple constraint query graph,MultiCG)來解決這些復雜問題.但MultiCG 仍然在整體上繼承了STAGG 框架,只是提供了更多的規(guī)則來涵蓋復雜問題.為了得到更高的精度,Yu 等人[53]在STAGG 框架基礎上,提出使用深度殘差雙向LSTM 模型(hierarchical residual-BiLSTM)來編碼問題和關系路徑,并計算所有問題的相似性得分,使得實體鏈接和關系路徑兩個分量相互增強以提高精度.其中關系路徑是指在單詞級別和短語級別與候選主題實體關聯(lián)的所有關系路徑,最后只保留候選主題實體中得分較高的.
只將關注點放在實體鏈接或約束而忽視組合語義通常不利于解決復雜問題.Luo 等人[54]認為語義圖中的各語義成分只傳遞部分信息,即現有方法無法捕獲組合語義,這是由于對不同的組件進行單獨編碼造成的.因此,文獻[54]首次從局部和全局的角度對語義圖和問題進行編碼,生成全局統(tǒng)一的表示向量.文獻[54]指出統(tǒng)一的矢量表示形式可以順利地捕獲了復雜問題中各語義成分信息,他們的實驗在ComplexQuestion 等數據集上便驗證了這一點.后來,有不少研究者在此基礎上做出了改進,其中Maheshwariet 等人[55]除了對該類模型的排序方法進行了實證研究以外,還提出了一種基于自注意力機制的模型;Zhu 等人[56]提出了一種樹到序列算法,考慮了實體和關系的順序,并使用基于樹的LSTM 對語義圖進行編碼;為了適應更多類型的復雜問題,例如具有更多隱含關系的問題,Hu 等人[57]提出了一個結合了GraphParse 和STAGG的狀態(tài)轉換框架(STF),以更靈活的策略來回答復雜問題,雖優(yōu)于STAGG,但仍缺乏處理復雜聚合問題的能力.
基于語義查詢圖的方法其核心在于如何將自然語言問句用語義圖來表示并映射至知識圖譜的查詢,優(yōu)點在于能充分利用知識,但這些方法都依賴特定構建手段,在通用性上還有待提高.
除了使用基于語義圖的方法,還有一種常用的語義解析方法,即基于編解碼的方法.如圖6所示,自然語言問題輸入編碼器和解碼器后,得到適用于數據庫處理的邏輯表示作為輸出.
圖6 基于編解碼模型的方法
近年來,基于遞歸神經網絡的編解碼模型已成功應用于各種NLP 任務,如語法解析[58],因此研究者開始嘗試將編解碼模型也運用于KBQA 中的語義解析方法.本文整理近年來的相關研究對比如表7所示.
表7 基于編解碼的方法研究
Dong 等人[59]在2016年提出的一種基于注意力機制的增強型編解碼模型,學習自然語言和邏輯形式之間的對齊方式,將問題轉換為邏輯形式.但其中存在一些問題,例如解碼過程中可能會忽略較長的疑問詞,而這是編解碼模型的常見問題,可以通過Tu 等人[60]提出的顯式建模解決.Xu 等人[61]指出了使用普通的序列編碼器提取詞序通常會忽略一些有價值的句法信息.因此,他們采用圖序模型來編碼句法圖,而句法圖表示了詞序、依存關系等特征,用于捕獲一些通常被忽略的句法信息.但是這種方法需要大量訓練材料,不適用于多數KBQA 場景.
為了增強問題的語義,一些研究人員會把關注點放在義素上.義素是詞義的最小意義單位,他們希望以更細的粒度來捕獲信息以增強語義.例如,Wu 等人[62]提出一種基于義素的語義解析方法,對問題中的義素級別的信息進行編碼以減少噪聲,并引入了一種層次表示法對關系進行編碼,盡可能的消除詞語歧義.為了更高效的消除歧義并豐富問題的信息,Wu 等人[63]利用外部知識,將義素級別的信息和注釋都集成到詞語中,增強了模型對問題的理解.
近年來,神經機器翻譯模型NMT 也被考慮應用到KBQA 的任務中,Ji 等人[64]提出結合語義相似度模型和神經機器翻譯模型,將復雜問題轉化為子查詢,將并行執(zhí)行子查詢的結果組裝成完整SPARQL 查詢.類似的,Wang 等人[65]構建了4 種基于神經機器翻譯的模型將問題轉換為SPARQL 查詢.
KBQA 任務往往分為多個子任務,但是為每個任務的樣本做標注不僅是高成本的做法,而且存在上游任務到下游任務的傳播誤差問題,因此端到端的模型成為了研究的熱點之一.與Lukovnikov 等人[66]和Huang等人[67]提出僅解決單跳推理的模型不同的是,Srivastava等人[68]提出一種基于BERT 模型的多任務神經網絡機器翻譯模型(CQA-NMT),可以應對實體鏈接、 多跳推理等多個子任務的挑戰(zhàn).他們以擴展的BERT 模型作為編碼器,以Transformer 作為解碼器,更好的解決了多跳問題.而且在MetaQA 數據集上進行的實驗均優(yōu)于PullNet[69]、EmbedKGQA[70].
當研究者將關注點放在為問題選擇正確語義關系的時候往往會忽略語義解析的結構,即實體之間的連接和關系的方向.這些信息通常是解決復雜問題的關鍵,Sorokin 等人[71]提出GGNN 架構,使用門控圖神經網絡對語義解析的結構進行編碼,利用Bi-GRUs 提取問題中的語義特征,匹配得出相關語義部分,再利用CNN 模型學習問題與關系之間的相似度,這種使用門控圖神經網絡的新穎方法有效提升了回答復雜問題的效果.
基于檢索的方法旨在將自然語言問題和知識庫中的實體和關系映射為同一低維空間中的特征向量,將任務轉化為問題向量與知識圖譜中對應關系向量之間的相似度匹配任務.根據其特征表示技術的不同,又分為基于特征工程的方法和基于表示學習的方法.本文整理近年來的相關研究對比如表8所示.
表8 基于檢索的方法研究
基于特征工程的方法特點是從依存句法分析結果提取問題詞等特征并轉化為問句特征圖后,組合主題實體子圖的候選特征圖,將權重偏向于關聯(lián)度較高的特征.例如Yao 等人[72]提出的模型則是基于此類方法.但該方法除了對復雜問題的支持度較差以外,還需要自行定義并抽取特征,而且容易造成維度太高,計算效率低等問題.而基于表示學習方法為了解決該類問題,將問句和候選答案轉換為同一語義空間的向量,將該問題轉換為問句與答案的向量匹配計算問題.
Bordes 等人[73]首次提出將問句和圖譜中候選實體映射至同一向量空間,但該模型忽略了詞序對句子的影響,Dong 等人[74]提出的MCCNNs 模型則考慮到詞序、答案類型等特征,但也存在問句向量轉換為定長向量的問題,容易忽略了隱含的問句信息.因此Hao等人[75]和Qu 等人[76]利用帶有注意力機制的模型來捕獲隱含信息,盡管效果有所提升,但在處理復雜問題上仍有進步的空間.Bordes 等人[25]采用記憶網絡(memory network)模型將問題和圖譜的知識等信息存于記憶網絡中,在記憶槽中選取一些相關度高的信息通過響應模塊來得到答案,實驗證明該方案比大多數的檢索方法好.
而基于檢索的方法離不開實體識別與檢索.近年來,越來越多的實體檢索模型比傳統(tǒng)方法有顯著改進.Naseri 等人[77]提出利用相關實體信息豐富實體的表示.Kadilierakis 等人[78]在ElasticSearch 的基礎上支持了對RDF 數據集的關鍵字搜索.Gerritse 等人[79]利用Wikipedia2Vec[80]展開實體排名的研究.Nikolaev 等人[81]實現了名為Kewer 的系統(tǒng),可以通過使用聯(lián)合詞和實體嵌入來對實體進行排序,并且不需要大量的文本語料庫.后來,Esmeir 等人[82]基于Kewer 系統(tǒng)提出了SERAG,其任務是從阿拉伯知識圖譜中檢索語義實體.由于具有多跳推理功能,SERAG 明顯優(yōu)于經典的BM25 模型[83].
當前KBQA 的發(fā)展向著結合深度學習模型的方法靠攏,以解決多跳推理問題、提高模型的解釋性為主要目標.
KBQA 中的多跳推理問題一直都是亟待解決的問題,解決方法往往是結合多元的信息來增強模型的理解力,例如Shi 等人[84]提出了TransferNet,在統(tǒng)一的框架中解決兩種不同形式的多跳問題,且在MetaQA 數據集中實現了2 跳3 跳問題的100%準確性;Qin 等人[85]提出利用多個推理路徑信息來解決多跳問題;Wu 等人[86]結合知識圖譜中的數據作為上下文信息,結合注意力機制構建REN 模型.但面對不同的問題數據集時,解決多跳問題的模型在數據集上的擴展性仍是需要考慮的問題.
隨著近年來深度學習的發(fā)展,基于語義解析的方法和基于檢索的方法正逐漸走向組合化,以STAGG為例,近年來出現的許多KBQA 算法都試圖將這兩種范式進行組合,從而使它們能夠兼具兩者的優(yōu)點.信息抽取方式中提出的主題子圖的概念與人類思維方式相似,語義解析方式可以更好地把握問題中的約束信息.因此,如何設計一個可以更好地整合這兩種范式的優(yōu)秀神經網絡是未來的趨勢.
KBQA 的性能在很大程度上取決于知識圖譜的質量和問題數據集的質量,但是現有開放式知識圖譜的大小和完整性依然需要與時俱進.因此,知識圖譜高效自動化建設將是KBQA 領域重要的研究方向之一.具備自動挖掘隱藏關系的能力將有助于系統(tǒng)及時準確地更新內容.另外,近年來流行的記憶網絡,也證明了充分利用知識圖譜先驗知識也是重點研究方向之一.
盡管端到端模型的引入降低了人工成本,但是在端到端模型中,許多方法通常會忽略模型預測的不確定性,因為基于端到端的方法將所有決策留給模型本身,其中的不可解釋性可能會使高性能KBQA 系統(tǒng)也變得不可靠,Zhang 等人[87]提出了一種基于貝葉斯神經網絡(BNN)的端到端KBQA 模型,實體及其上下文和候選謂詞均由Bayesian-BiLSTM 編碼,其實驗取得的成效說明在未來提高模型的魯棒性,增強模型的可解釋性也是該領域的一個必不可少的研究方向.
知識圖譜囊括的知識數據與日俱增,自動問答需求充斥著社會各個領域,然而基于知識圖譜的問答系統(tǒng)仍有許多技術難點亟待攻破.未來,基于知識圖譜的問答系統(tǒng)應以構建回答準確率高、可解釋性強、穩(wěn)定可靠的模型為目標,不斷迭代更新KBQA 領域的技術.