陳子睿,王 鑫,2+,王 林,徐大為,賈勇哲,
1.天津大學 智能與計算學部,天津 300350
2.天津市認知計算與應(yīng)用重點實驗室,天津 300350
3.天津泰凡科技有限公司,天津 300457
問答系統(tǒng)(question answering,QA)能夠自動回答用戶提出的自然語言問題,是信息檢索和自然語言處理的交叉研究方向[1]。知識庫(knowledge base,KB)是用于存儲計算機所使用的結(jié)構(gòu)化及非結(jié)構(gòu)化知識的數(shù)據(jù)管理系統(tǒng)。早期知識庫問答多以限定領(lǐng)域知識庫為信息源的專家系統(tǒng)為主,允許非專業(yè)用戶使用自然語言檢索由專家構(gòu)建的限定領(lǐng)域知識庫并獲得所需領(lǐng)域問題的答案,而無需使用數(shù)據(jù)庫查詢語言(如SQL)來構(gòu)建查詢。代表性系統(tǒng)包括BASEBALL[2]和LUNAR[3]。
近年來,隨著語義網(wǎng)(semantic web)[4-5]、知識圖譜(knowledge graph,KG)[6]、信息檢索及深度學習等技術(shù)的發(fā)展,F(xiàn)reebase[7]、DBpedia[8]、YAGO[9]等通用領(lǐng)域知識圖譜及開放領(lǐng)域問答數(shù)據(jù)集被提出,使用限定領(lǐng)域知識庫回答單一領(lǐng)域問題已不能滿足用戶對多領(lǐng)域問題解答的需求。知識圖譜問答(knowledge graph question answering,KGQA)作為限定領(lǐng)域知識庫問答的發(fā)展,如何通過使用諸如Freebase 等通用領(lǐng)域知識圖譜的知識作為KGQA 系統(tǒng)的信息源,以回答開放領(lǐng)域的問題,即開放領(lǐng)域知識圖譜問答,開始受到學術(shù)界和工業(yè)界的廣泛關(guān)注。
開放領(lǐng)域知識圖譜問答的實際應(yīng)用十分廣泛:可作為搜索引擎的組成部分,將問答系統(tǒng)所得答案與搜索引擎所得結(jié)果同時進行展示;還可用于智能對話、智能客服、智能助理[10]等系統(tǒng),幫助人們獲取知識[11]、執(zhí)行任務(wù),或利用多輪對話補全用戶意圖[12]。
為了實現(xiàn)開放領(lǐng)域知識圖譜問答,問答系統(tǒng)需要利用問題的語義信息深入理解自然語言問題,并從通用領(lǐng)域知識圖譜中獲取答案。然而,隨著知識圖譜數(shù)據(jù)規(guī)模的增長以及人們對直接獲得問題答案的需求不斷增加,現(xiàn)有的開放領(lǐng)域知識圖譜問答研究常常面臨如下挑戰(zhàn):
(1)提取問題的語義信息。無論對于語義解析還是信息檢索方法而言,都需要系統(tǒng)充分理解并利用用戶所提問題的語義信息,定位KG 中與問題高度相關(guān)的子知識圖譜以避免龐大的搜索空間,但如何在自然語言問題中充分獲取語義信息是KGQA 面臨的一大挑戰(zhàn)。
(2)充分利用知識圖譜信息。通用領(lǐng)域KG 的規(guī)模通常較為龐大,其中不乏大量長尾關(guān)系及同名不同義實體。如何訓(xùn)練系統(tǒng),使得系統(tǒng)對KG 信息進行充分的掌握與利用是KGQA 面臨的又一挑戰(zhàn)。
(3)答案可解釋性。對于整個KGQA 系統(tǒng)而言,通過將自然語言作為輸入,用戶可以直接得到答案輸出。而對于答案具體如何產(chǎn)生,系統(tǒng)應(yīng)如何為用戶解釋答案的來源也是KGQA 要解決的重要問題。
目前,已有大量開放領(lǐng)域知識圖譜問答的方法被提出,但尚無同時涵蓋開放領(lǐng)域知識圖譜問答全部方法,并用相同基線評測分析不同方法運行效果的綜述工作。文獻[13]針對2016 年以前的方法進行綜述,選擇2 個經(jīng)典問答數(shù)據(jù)集作為基線,對比不同方法的運行效果,進而衡量不同方法的有效性,但該綜述認為開放領(lǐng)域知識圖譜問答的所有方法皆由流程相同的5 個子任務(wù)組成,忽略了流程多樣性。文獻[14]將基于神經(jīng)網(wǎng)絡(luò)的方法作為綜述內(nèi)容,缺少基于規(guī)則模板方法的綜述。文獻[15]的方法內(nèi)容相對完善,但仍缺少對傳統(tǒng)語義解析方法的論述。文獻[16]更側(cè)重于對方法的簡要論述,對開放領(lǐng)域知識圖譜問答相關(guān)資源及方法實現(xiàn)原理缺乏詳細描述。文獻[14-16]皆未在相同基線上統(tǒng)一評測不同方法的運行效果。本文詳細介紹了開放領(lǐng)域知識問答的各類方法及實現(xiàn)原理,并在3 個經(jīng)典問答數(shù)據(jù)集上分別評測不同方法的運行效果,整體框架如圖1 所示。
Fig.1 Framework of knowledge graph question answering methods圖1 開放領(lǐng)域知識圖譜問答方法框架
圖2 按照時間順序列出本文進行綜述的主要方法,方法間的箭頭表示方法的演變方向。從圖中可以看出,在深度學習技術(shù)得到廣泛應(yīng)用之前,開放領(lǐng)域知識圖譜問答以人工因素占主導(dǎo)的規(guī)則模板方法為主。最初通過詞匯表、依存分析等方法構(gòu)建查詢語句,進而檢索KG 獲得問題答案的傳統(tǒng)語義解析方法較多;基于語義解析方法,傳統(tǒng)信息檢索形成了以查詢圖為中間結(jié)構(gòu)的話語(utterance)模板方法。在此期間,三元組匹配方法和查詢模板方法同樣有所發(fā)展。隨著深度學習技術(shù)的不斷發(fā)展,傳統(tǒng)基于規(guī)則模板的方法由于系統(tǒng)的人工因素占比較高、通用性與遷移能力較低、準確率等性能指標提升瓶頸等原因,導(dǎo)致該類方法的研究熱度逐漸減低;而同期,基于深度學習方法在人為因素占比、通用性、遷移能力、準確率方面具有較好潛力及表現(xiàn),導(dǎo)致目前KGQA 的研究全面轉(zhuǎn)向基于深度學習的方法。在基于深度學習方法的部分,基于低維向量空間的知識圖譜嵌入方法率先產(chǎn)生;隨后以知識圖譜嵌入為基礎(chǔ)的記憶網(wǎng)絡(luò)方法被提出;接著是利用諸如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)、注意力機制(attention mechanism)、圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)等神經(jīng)網(wǎng)絡(luò)模型,對傳統(tǒng)基于規(guī)則模板方法流程各環(huán)節(jié)的性能提升工作,諸如實體關(guān)系抽取、候選排序等工作,包括基于神經(jīng)網(wǎng)絡(luò)的語義解析、查詢圖和信息檢索方法,其中基于神經(jīng)網(wǎng)絡(luò)的信息檢索方法近幾年得到了廣泛關(guān)注。
本文的目標在于對開放領(lǐng)域知識圖譜問答的最新研究進展提供全面深入的文獻綜述,以便人們對該研究領(lǐng)域有快速深刻的理解。具體來說,本文的貢獻在于:
Fig.2 Timeline of knowledge graph question answering methods圖2 開放領(lǐng)域知識圖譜問答方法時間軸
(1)從開放領(lǐng)域知識圖譜問答的技術(shù)角度出發(fā),基于方法使用的核心技術(shù),以規(guī)則模板與深度學習技術(shù)為分類依據(jù),對現(xiàn)有各類開放領(lǐng)域知識圖譜問答方法進行全面而深入的綜述。
(2)概述用于開放領(lǐng)域知識圖譜問答的主要資源,包括通用領(lǐng)域知識圖譜及開放領(lǐng)域問答數(shù)據(jù)集。
(3)以3 個經(jīng)典問答數(shù)據(jù)集為基線,評測不同方法的實驗效果并進行分析。
(4)總結(jié)開放領(lǐng)域知識圖譜問答的多種挑戰(zhàn),指出未來的研究方向。
知識圖譜:目前沒有一個統(tǒng)一的嚴格定義。知識圖譜主要有以下4 種類型:資源描述框架(resource description framework,RDF)圖、屬性圖、異構(gòu)信息網(wǎng)絡(luò)和有向標簽圖[44]。這里以KGQA 最常用的知識圖譜Freebase 為例(RDF 圖)進行定義,如圖3 所示,給出一個KG 實例,其中圓角矩形表示實體e,有向邊表示謂語p。
Fig.3 Example of knowledge graph圖3 知識圖譜示例
定義1(知識圖譜)令E為實體集合,P為謂詞集合。知識圖譜G是事實三元組(s,p,o)∈E×P×E的有限集合,其中s是主語,p是謂語,o是賓語。
知識圖譜問答:由于不同方法使用的訓(xùn)練數(shù)據(jù)、元素定義及實現(xiàn)的功能不同,知識圖譜問答沒有統(tǒng)一的嚴格定義。根據(jù)知識圖譜問答系統(tǒng)獲得答案的不同方式,知識圖譜問答主要有語義解析和信息檢索兩種解決方法,兩者對應(yīng)不同的知識圖譜問答定義,與知識圖譜問答的關(guān)系如圖4 所示??梢钥闯?,語義解析與信息檢索細化了知識圖譜問答的流程,在獲得正確答案集A前分別增加了查詢語句及候選答案部分,這也是兩類方法的區(qū)別所在。開放領(lǐng)域知識圖譜問答,則是知識圖譜G為通用領(lǐng)域知識圖譜,問題q為開放領(lǐng)域問題的知識圖譜問答情況。
Fig.4 Two methods of knowledge graph question answering圖4 知識圖譜問答的兩種方法
定義2(知識圖譜問答)給定知識圖譜G,自然語言問題q,返回正確答案集A,其中A為E的子集。
語義解析(semantic parsing,SP):得到查詢語句或查詢語句的邏輯形式,在KG 上執(zhí)行所得結(jié)果間接獲得正確答案集。查詢語句常用SPARQL 查詢語言,表達邏輯形式的邏輯語言常用λ-DCS(λdependencybased compositional semantic)[45]和λ-calculus[46]。
定義3(語義解析)給定知識圖譜G,自然語言問題q,將q映射為可在G上執(zhí)行并返回正確答案集A的查詢語句y或查詢語句的邏輯形式z。
信息檢索(information retrieval,IR):獲得問題相關(guān)的候選答案集,通過排序獲得正確答案集。
定義4(信息檢索)給定知識圖譜G,自然語言問題q,在G中檢索與問題q所含主題實體(topic entity)e的在數(shù)跳(hop)關(guān)系內(nèi)的實體集作為候選答案集A′,通過排序獲得最終正確答案集A。
圖5 給出兩種方法的示例,對于相同的問題“Who is Obama’s wife?”,圖中的上下兩部分,分別對應(yīng)語義解析和信息檢索兩種方法的回答流程,語義解析將問題映射為SPARQL 查詢語句并檢索KG 獲得最終答案;信息檢索將問題所含主題實體Barack Obama 在KG 中的鄰近實體作為候選答案集,并根據(jù)特征或相似度排序獲得最終答案集。
Fig.5 Example of comparison between semantic parsing and information retrieval methods圖5 語義解析與信息檢索兩種方法對比示例
表1 給出KGQA 方法中的一些常用符號。
Table 1 Notation used in this paper表1 常用符號
無需人工定義特征的深度學習方法在KGQA 領(lǐng)域得到廣泛應(yīng)用之前,KGQA 主要依賴各類人工定義的規(guī)則、特征和模板回答問題。這些方法實現(xiàn)性能提升主要依靠傳統(tǒng)語言學及人工經(jīng)驗,而非深度學習模型自行抽取的高維特征。
開放領(lǐng)域問題集從技術(shù)角度出發(fā),可分別根據(jù)解答問題所需跳數(shù)與模型訓(xùn)練監(jiān)督方法的不同,將數(shù)據(jù)集分為簡單問題數(shù)據(jù)集(答案僅涉及單個三元組)與復(fù)雜問題數(shù)據(jù)集(答案涉及多個三元組,即復(fù)雜多跳問題;涉及多個限制條件,即復(fù)雜多限制問題),邏輯形式數(shù)據(jù)集(監(jiān)督學習方法)與問答對形式數(shù)據(jù)集(遠程監(jiān)督學習方法)?;谀0逡?guī)則的工作主要集中在簡單問題數(shù)據(jù)集的處理上。
傳統(tǒng)語義解析是一種將NLP 領(lǐng)域的語義解析應(yīng)用于KGQA 問題翻譯的方法,主要基于詞匯表映射完成對KG 信息的利用,可通過系統(tǒng)生成的查詢語句或邏輯形式解釋系統(tǒng)的答案來源,可解釋性較高。傳統(tǒng)語義解析共有直接映射和復(fù)述(paraphrase)兩種方法。直接映射方法由結(jié)構(gòu)表示、詞匯映射和消歧排序3 個步驟組成,將問題直接映射為邏輯形式;復(fù)述方法使用人工定義的規(guī)則,將自然語言問題改寫為中間形式,然后基于中間形式的各類特征進行打分排序,將最佳中間形式對應(yīng)的邏輯形式作為輸出。
2.1.1 直接映射
直接映射方法采用語義解析常用的語法工具完成結(jié)構(gòu)表示,如組合范疇語法(combinatory categorial grammar,CCG),并使用語法工具附帶的詞匯表完成短語—實體/關(guān)系的映射,產(chǎn)生多種邏輯形式,通過排序選出最佳邏輯形式作為結(jié)果。
最初,直接映射的傳統(tǒng)語義解析[47-48]作為NLP 領(lǐng)域的傳統(tǒng)方法,用于將自然語言轉(zhuǎn)換為某種邏輯語言的表達形式。Berant 等人[17]將直接映射的傳統(tǒng)語義解析融入KGQA 作為解決方法,解決了兩個主要問題:訓(xùn)練語義解析器需要人工標記的邏輯形式數(shù)據(jù)作為監(jiān)督和詞匯表覆蓋面窄的問題,并提出了著名的WebQuestions[17]數(shù)據(jù)集基線。
該KGQA 系統(tǒng)分為兩個階段:構(gòu)造邏輯形式和打分。
(1)構(gòu)造邏輯形式階段。生成問題可能構(gòu)成的所有邏輯形式。構(gòu)造邏輯形式階段可細分為謂詞產(chǎn)生與謂詞組合兩個子任務(wù)。
①謂詞產(chǎn)生子任務(wù)。將問題短語通過詞匯表或橋接組合規(guī)則轉(zhuǎn)換為對應(yīng)Freebase 謂詞。詞匯表L的形式如圖6 所示,其中w為自然語言短語,通過詞匯表L(w)映射得到一組條目(z,s),z為短語對應(yīng)謂詞,s為謂詞z的一組特征值,用于模型排序使用。
②謂詞組合子任務(wù)。使用人工定義的4 類組合規(guī)則——連接、交集、聚合與橋接,將謂詞隨機組合,生成所有可能的邏輯形式。使用交集+連接組合規(guī)則、橋接組合規(guī)則所得的邏輯形式如圖7 所示。
Fig.6 Lexicon圖6 詞匯表
Fig.7 Logic form圖7 邏輯形式
(2)打分階段。根據(jù)邏輯形式各類人工特征,諸如規(guī)則應(yīng)用總數(shù)、連接與橋接過程中的跳過詞(skipped work)POS(part-of-speech)標記、邏輯形式的長度等,使用對數(shù)線性模型對邏輯形式進行打分排序,得到正確的邏輯形式用于檢索Freebase 獲得答案。特征權(quán)重通過模型訓(xùn)練學習得到,訓(xùn)練數(shù)據(jù)使用問答對數(shù)據(jù)集,目標是最大化正確答案的對數(shù)概率。
后來對直接映射方法的研究可細分至直接映射流水線的不同環(huán)節(jié)。
詞匯映射+消歧排序環(huán)節(jié)。DEANNA 系統(tǒng)[49]與Yahya等人[50]著重研究短語映射環(huán)節(jié)的消歧工作。前者采用整數(shù)線性規(guī)劃(integer linear programming,ILP)模型,提升效果不明顯;后者為三元組增加文本描述內(nèi)容X形成四元組(S,P,O,X),并利用X信息進行短語消歧。該方法修改元組結(jié)構(gòu),采用此思路的方法較少。
僅詞匯表映射環(huán)節(jié)。AGENDAIL 系統(tǒng)[51]將模仿學習結(jié)合進語義解析器的訓(xùn)練過程中,使得所生成邏輯形式減少一個數(shù)量級,在保持精度的同時提高運行速度;Reddy 等人[52]將結(jié)構(gòu)表示的依存解析樹先轉(zhuǎn)換為其二值表示形式s-expression,后轉(zhuǎn)換為λcalculus 表達式;UDepLambda 系統(tǒng)[53]以Reddy 等人的系統(tǒng)為基礎(chǔ),將s-expression 替換為通用依賴樹庫(universal dependencies,UD),實現(xiàn)跨語言解析性能。
2.1.2 復(fù)述
復(fù)述方法采用各類人工模板或規(guī)則,將問題改寫為中間形式打分得到最優(yōu)改寫。
PARASEMPRE 系統(tǒng)流程圖如圖8 所示,其中粗線和細線分別表示正確與錯誤的答案生成路線。PARASEMPRE 系統(tǒng)[23]使用5 個人工定義模板將問題轉(zhuǎn)換為邏輯形式z,后使用預(yù)先定義好的規(guī)則和詞匯表將每個邏輯形式z轉(zhuǎn)換為一組自然語言c,后使用聯(lián)合模型與向量空間模型作為復(fù)述模型對自然語言-邏輯形式元組(c,z)打分,使用得分最高元組的邏輯形式z檢索KG 獲得答案。
Fig.8 Workflow of PARASEMPRE system圖8 PARASEMPRE 系統(tǒng)流程圖
OQA 系統(tǒng)[54]使用預(yù)先定義的操作符與模板,將用戶問題提煉為語法正確、用詞準確的標準問題,并將該標準問題轉(zhuǎn)換為相應(yīng)結(jié)構(gòu)的SPARQL 查詢,后將該查詢語句中的詞語重新改寫為KG 中存在的相似實體關(guān)系名并進行打分排序。該系統(tǒng)可使得問題更標準,SPARQL 查詢更貼近KG 內(nèi)容,但該方法使用的操作符與模板需線下構(gòu)建,如KG 或問題集變動,則無法實現(xiàn)在線動態(tài)更新。
傳統(tǒng)信息檢索以信息抽取的視角重新構(gòu)思解決KGQA 的方案,通過提取問題主題實體的KG 子圖,從中抽取出與主題實體數(shù)跳內(nèi)的相關(guān)節(jié)點作為候選答案集,通過提取問題和答案等信息的人工特征,作為答案排序依據(jù)以獲得最優(yōu)答案。該方法與傳統(tǒng)語義解析方法無直接關(guān)聯(lián),但傳統(tǒng)語義解析受到該方法的啟發(fā),對技術(shù)演變方向產(chǎn)生重大影響。通過指定的查詢語句模板完成自然語言到查詢語句的轉(zhuǎn)換,對KG 信息的利用主要基于詞匯表映射,但可解釋性較低,答案節(jié)點主要通過結(jié)合權(quán)重的人工特征進行提取。
該方法最初通過JACANA 系統(tǒng)[20]實現(xiàn),依次得到問題特征與答案特征來獲得答案。
(1)問題特征。對問題執(zhí)行依存分析,將分析結(jié)果轉(zhuǎn)化為問題圖(question graph)。問題圖共有問題詞(qword)、問題焦點(qfocus)、問題動詞(qverb)和問題主題(qtopic)4 個特征[20],其中問題主題即主題實體,用于尋找相關(guān)Freebase 網(wǎng)頁頁面以構(gòu)成該系統(tǒng)主題圖(topic graph)。以問題“What is the name of Justin Bieber brother?”為例,該問題對應(yīng)的問題圖如圖9 所示,每個圓角矩形代表一個單詞,單詞特征通過等號對應(yīng)標記,其中justin 和bieber為問題主題。
Fig.9 Question graph generated by Freebase圖9 Freebase生成的問題圖
(2)答案特征。在Freebase 內(nèi)檢索問題圖中主題實體數(shù)跳內(nèi)的所有節(jié)點,包括實體、屬性兩類節(jié)點,形成主題圖。其中,一個重要的特征是關(guān)系與問題的相關(guān)度,該特征值通過檢索人工收集Reverb 謂詞與Freebase 關(guān)系的映射所得的關(guān)系表ReverbMapping獲得;其次,將屬性和帶方向的關(guān)系也作為各節(jié)點的特征類型。(1)中舉例的問題所得主題圖如圖10 所示,主題實體為Justin Bieber,圓角矩形代表實體,矩形代表屬性,有向邊代表關(guān)系。
獲得問題圖、主題圖特征后,將問題圖所有特征與主題圖中每個節(jié)點的特征成對連接形成特征集,捕獲問題與答案節(jié)點的關(guān)聯(lián)信息。使用L1 正則化邏輯回歸模型對主題圖中的每個節(jié)點進行二分類,提取答案節(jié)點。
Fig.10 Topic graph generated by dependency parsing圖10 依存分析生成的主題圖
因KG 為KGQA 的信息源,該方法通過聚焦在可能性較高的節(jié)點,減小搜索空間,提高問答效果。該思想對KGQA 方法的發(fā)展具有深遠影響。
三元組匹配方法最初由AquaLog[55-56]、FREyA[57]為代表的早期RDF 問答系統(tǒng)[58-59]提出,將自然語言問題映射為三元組表示,后通過相似性度量從RDF 數(shù)據(jù)檢索相似三元組得到答案?,F(xiàn)經(jīng)過轉(zhuǎn)變,分別形成以問題拆分和問題復(fù)述為首要環(huán)節(jié)的兩類流水線方法,并應(yīng)用于開放領(lǐng)域知識圖譜問答。但三元組匹配方法在簡單問題上的效果并不理想,在Web-Questions 基線上的最高精確度指標沒有超過37.5%,通過人工指定的多個查詢語句模板完成自然語言問題到查詢語句的轉(zhuǎn)換,而對KG 信息的利用僅通過人為定義的模板及表達式進行實體關(guān)系匹配。三元組匹配方法可通過三元組形式解釋系統(tǒng)的答案來源,采用該方法的系統(tǒng)較少,未形成大規(guī)模應(yīng)用。
2.3.1 問題拆分+翻譯+三元組排序流水線
Bao等人[22]以問題拆分為首要環(huán)節(jié),將三元組匹配方法細化為3個步驟:問題拆分、翻譯和三元組排序。
(1)問題拆分環(huán)節(jié)。使用圖11 的4 類依存解析樹模板完成問題拆分,通過子問題答案取交集作為最終答案。
(2)翻譯環(huán)節(jié)。將步驟(1)所得子問題或原問題使用圖12所示的CYK(Cocke-Younger-Kasami)算法[60],結(jié)合人工給定的4 764個問題模式模板與133 445個關(guān)系字符串表達式,按照跨度(span)由小至大的順序,將自然語言問題翻譯為對應(yīng)跨度對應(yīng)的答案三元組。
Fig.11 Dependency parsing tree template圖11 依存解析樹模板
Fig.12 CYK translation process圖12 CYK 翻譯過程
(3)三元組排序環(huán)節(jié)。根據(jù)特征,將步驟(2)所得的KG 三元組進行排序。使用的特征包括:答案包含原問題的單詞個數(shù)、問題包含的疑問詞數(shù)量、三元組轉(zhuǎn)換成功的跨度個數(shù)、翻譯所得的三元組總個數(shù)等。將上述特征結(jié)合最小錯誤率訓(xùn)練算法(minimum error rate training,MERT)[61]調(diào)節(jié)特征權(quán)重訓(xùn)練模型。
2.3.2 問題復(fù)述+翻譯+三元組排序流水線
TAQA 系統(tǒng)[62]以問題復(fù)述為首要環(huán)節(jié),將第一類方法的環(huán)節(jié)(1)改為問題復(fù)述環(huán)節(jié)。使用人工預(yù)定義模板對自然語言問題進行改寫,表述為與KG 三元組具有相似詞匯、語法結(jié)構(gòu)的多個新問題。目的是解決用戶的口語詞匯及表達方式給系統(tǒng)帶來的解析匹配困難。
傳統(tǒng)語義解析方法同時考慮詞匯、結(jié)構(gòu)信息,并完成詞匯映射工作,而本節(jié)話語模板則先構(gòu)造語義結(jié)構(gòu)的中間形式,后將詞匯形式映射結(jié)果嵌入語義結(jié)構(gòu)中。
該方法核心思想在于問題與邏輯形式間建立一個如圖13 所示的表示問題語義結(jié)構(gòu)的中間形式,之后使用KG 數(shù)據(jù)實例化該中間形式,得到對應(yīng)的邏輯查詢。中間形式可分為語義結(jié)構(gòu)模板與查詢圖兩種。傳統(tǒng)語義解析復(fù)述方法的中間形式為同時包含語義結(jié)構(gòu)與詞匯映射的完整結(jié)構(gòu),而本節(jié)的中間形式則單純?yōu)檎Z義結(jié)構(gòu)。
Fig.13 Two forms of utterance-query template圖13 話語模板的兩種形式
2.4.1 語義結(jié)構(gòu)模板
語義結(jié)構(gòu)模板使用包含占位符的SPARQL 模板或包含變量的領(lǐng)域獨立邏輯形式,表示問題語義結(jié)構(gòu),并分別使用KG 數(shù)據(jù)實例化占位符或變量直接得到檢索答案的查詢語句或邏輯形式。
Kwiatkowski 等人[18]實現(xiàn)領(lǐng)域獨立邏輯形式的語義結(jié)構(gòu)模板,如圖14 所示。自然語言問題首先使用CCG 與Wikitionary 的詞信息構(gòu)建包含變量的領(lǐng)域獨立邏輯形式,以密切反映句子結(jié)構(gòu),之后使用本體常量將變量映射到最終的邏輯形式,最后使用手工指定的算法計算線性模型參數(shù),排序生成最終邏輯形式并檢索KG 獲得答案。
Fig.14 Transformation process of domain-independent logical form圖14 領(lǐng)域獨立邏輯形式轉(zhuǎn)換流程
2.4.2 查詢圖
語義結(jié)構(gòu)模板方法受傳統(tǒng)信息檢索方法的啟發(fā),轉(zhuǎn)向以查詢圖為中間形式,系統(tǒng)性能得到提升。
查詢圖使用無根據(jù)圖(ungrounded graph)表示問題語義結(jié)構(gòu),實例化后的圖結(jié)構(gòu)稱為有根據(jù)圖(grounded graph)或語義查詢圖(semantic query graph),將語義查詢圖轉(zhuǎn)換為邏輯形式。
GRAPHPARSER 系統(tǒng)[26]率先引入查詢圖方法,如圖15 所示。以問題“What is the capital of Texas?”為例,系統(tǒng)獲得問題后使用CCG 解析工具中的C&C解析器[63]獲得問題結(jié)構(gòu);根據(jù)解析結(jié)果,各詞匯的POS 標簽及詞間關(guān)系,依據(jù)人工規(guī)則轉(zhuǎn)換為表示問題結(jié)構(gòu)的無根據(jù)圖,該圖與Freebase 不產(chǎn)生直接映射關(guān)系;之后再將無根據(jù)圖的邊與節(jié)點映射至所有可能的Freebase 關(guān)系與實體,得到語義查詢圖,此類多為一對多映射,故將產(chǎn)生多種語義查詢圖;最后利用模型從問題、無根據(jù)圖、語義查詢圖和KG 中抽取特征進行排序,將得分最高的語義查詢圖轉(zhuǎn)換為邏輯查詢表達式,檢索KG 獲得答案,由此將語義解析問題變?yōu)閳D匹配問題。
之后,Zou 等人[64]通過依存樹而非CCG 創(chuàng)建查詢圖,獲得更優(yōu)的結(jié)構(gòu)表示;SINA[65]通過問題關(guān)鍵字與KG 節(jié)點標簽的字符串匹配獲得資源并構(gòu)建查詢圖完成消歧任務(wù),性能相對于GRAPHPARSER 系統(tǒng)沒有顯著提升;Zheng等人[66]通過計算查詢圖與SPARQL查詢的圖編輯距離計算相似性,自動生成話語模板,但KG 與問題數(shù)據(jù)集變動時系統(tǒng)無法動態(tài)更新的問題依舊沒有得到解決。
查詢模板方法是話語模板工作的簡化,模板的選擇不由問題的話語結(jié)構(gòu)決定,而是所有模板都嘗試進行匹配,對KG 信息的利用主要基于詞匯表映射,所得結(jié)果即為查詢語句,可解釋性較高。使用預(yù)先定義的高通用性查詢模板,填充實體、關(guān)系占位符以獲得查詢語句,檢索KG 獲得答案。模板匹配流水線由實體鏈接、模板匹配和關(guān)系匹配3 個環(huán)節(jié)組成。
2.5.1 模板匹配流水線+候選排序
Aqqu 系統(tǒng)[25]率先使用模板匹配流水線+候選排序完成KGQA。
Fig.15 Question answering process of query graph method圖15 查詢圖方法問答流程
(1)實體鏈接環(huán)節(jié)。獲得問題詞語可匹配的所有KG 實體及其置信度(在判斷是否匹配的二分類任務(wù)中類別為true的概率值)打分,打分通過CrossWikis數(shù)據(jù)集提供的實體別名概率分布值獲得。
(2)模板匹配環(huán)節(jié)。令所得候選實體集充分填充圖16 中3 類模板的實體占位符ei。模板涵蓋單實體一跳、單實體二跳和二實體二跳三種情況。
Fig.16 Query statement template圖16 查詢語句模板
(3)關(guān)系匹配環(huán)節(jié)。根據(jù)模板的關(guān)系數(shù),檢索KG對應(yīng)實體的所有關(guān)系,以填充模板關(guān)系占位符ri。
(4)候選排序環(huán)節(jié)。對環(huán)節(jié)(3)得到的候選查詢集進一步提取字面匹配值、派生匹配值、同義詞匹配值和上下文匹配值4 類模板特征值,結(jié)合環(huán)節(jié)(1)的實體置信度等特征,一并輸入隨機森林,選出最優(yōu)模板進行檢索。
2.5.2 模板匹配流水線+候選排序+外部知識
Text2KB 系統(tǒng)[67]受Aqqu 及結(jié)合外部知識思想的啟發(fā),將Aqqu 各步驟改寫為結(jié)合外部文本信息的方法以提升性能,即利用搜索引擎所得結(jié)果增強實體鏈接環(huán)節(jié)的性能;通過挖掘CQA(community question answering)數(shù)據(jù)來改進關(guān)系匹配環(huán)節(jié)的性能表現(xiàn);通過加入文本語料庫統(tǒng)計值來優(yōu)化候選查詢的排名效果。
由于一跳、二跳查詢基本可覆蓋簡單問題和部分復(fù)雜問題,使得該方法評測效果處于規(guī)則模板所有方法前列,但對于含有豐富語義限制的復(fù)雜問題效果依舊不佳[67]。
表2 給出了基于規(guī)則模板方法的小結(jié)。3 類語義解析方法皆具有良好的可解釋性。前3 類方法僅對簡單問題具有較好的處理能力,涉及復(fù)雜多跳問題,后2 類方法效果較好。傳統(tǒng)語義解析依賴人工指定的詞匯表,短語映射結(jié)果的好壞與數(shù)據(jù)的質(zhì)量密切相關(guān);話語模板方法受到傳統(tǒng)信息檢索方法的啟發(fā)而產(chǎn)生,確立縮小搜索空間的重要性;三元組匹配方法對復(fù)雜問題的處理能力由問題分解的好壞決定;話語模板綜合能力最強,對于復(fù)雜問題同樣具有解決能力;查詢模板則對人工設(shè)定的模板通用性要求較高。
Table 2 Summary of rule template based methods表2 基于規(guī)則模板的方法小結(jié)
基于規(guī)則模板方法所含的人工干預(yù)較多,導(dǎo)致系統(tǒng)通用性差,無法方便擴展至其他本體或擁有更廣泛詞匯的新KG 上。但基于規(guī)則模板的方法有較強的可解釋性,部分方法的評測結(jié)果同樣優(yōu)于其他基于深度學習方法的基線指標。
隨著深度學習不斷發(fā)展,各類基于深度學習的KGQA 方法逐漸被提出和發(fā)展。初期階段,在排序環(huán)節(jié)會采用基于規(guī)則或模板的方法進行實現(xiàn),之后則由深度學習方法所取代?;谏疃葘W習的方法通過神經(jīng)網(wǎng)絡(luò)模型抽取問題特征完成問答任務(wù),對KG信息的利用率較高,主要通過監(jiān)督和遠程監(jiān)督的方式完成對KG 的學習。知識圖譜嵌入及記憶網(wǎng)絡(luò)的可解釋性較差,基于神經(jīng)網(wǎng)絡(luò)的語義解析、查詢圖、信息檢索方法可通過問答流程子環(huán)節(jié)所得的中間結(jié)果推斷答案的來由,具有一定的可解釋性,可獲得比知識圖譜嵌入和記憶網(wǎng)絡(luò)方法更高的性能表現(xiàn)。
知識圖譜嵌入方法作為最基礎(chǔ)的深度學習方法,無需使用規(guī)則、詞匯表、語法工具等額外內(nèi)容,直接將問題映射為向量特征表示,將候選答案映射到相同向量空間進行相似度比較,獲得最終答案。知識圖譜嵌入方法常作為其他神經(jīng)網(wǎng)絡(luò)模型組成環(huán)節(jié)的一部分。
最基本的知識圖譜嵌入方法TransE 由Bordes 等人[75]首次提出。TransE 的改進版本[19]將問題答案路徑及周圍子圖編碼為嵌入向量。如圖17 所示,問題與答案皆用Rk×N的矩陣W表示,其中k為預(yù)先指定的嵌入空間維度。
候選答案的得分通過問題表示f(q)與候選答案表示g(a)的點積獲得,訓(xùn)練目標是使正確答案的得分最高。
Fig.17 Working process of improved TransE圖17 TransE 改進版本工作流程
由于KG 信息量巨大,EmbedKGQA 系統(tǒng)[42]借鑒PullNet 算法[41],針對文獻[75]候選答案集合進行縮減的需求,提出一種簡單的縮減方法,并實現(xiàn)利用知識圖譜嵌入解決復(fù)雜多跳問題的功能,效果提升明顯。
VRN[33]、IRN[76]與EmQL[77]系統(tǒng)將知識圖譜嵌入完成知識圖譜補全的方法應(yīng)用至KGQA。其中,EmQL 首次將KG 實體與查詢語句同時嵌入相同空間,提高系統(tǒng)在不完整KG 中的推理問答能力。
本節(jié)方法基于知識圖譜嵌入方法疊加記憶組件來實現(xiàn)。
為了讓模型能夠具有像人類一樣的記憶機制,人們創(chuàng)造了諸如記憶網(wǎng)絡(luò)(memory network)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)特殊變體的長短時記憶模型(long short-term memory,LSTM),其中記憶網(wǎng)絡(luò)模型類似于計算機外存,能夠長期存取大量信息。該框架率先由Weston 等人[78]提出并命名為MemNN——以可讀寫記憶組件為核心的學習系統(tǒng),通過將KG 的所有內(nèi)容嵌入至向量空間來確定系統(tǒng)輸入輸出的自然語言與KG 查詢語言間的關(guān)系。
MemNNs 系統(tǒng)[24]則將MemNN 記憶網(wǎng)絡(luò)框架應(yīng)用于開放領(lǐng)域知識圖譜問答,并提出了重要的簡單問題數(shù)據(jù)集SimpleQuestions[24]。
MemNNs 系統(tǒng)通過圖18 中的記憶(M)、輸入(I)、輸出(O)、響應(yīng)(R)、泛化(G)共5 個模塊的組合完成架構(gòu)。記憶模塊M 用于存儲KG 三元組,并被剩余4 個模塊讀寫;輸入模塊I 用于預(yù)處理外部輸入,包括KG 三元組及自然語言問題的預(yù)處理;輸出模塊O用于在M 中選擇與I 的輸出最相關(guān)的記憶,并對所得候選記憶進行打分排序;響應(yīng)模塊R 用于將O 提供的記憶以對應(yīng)格式輸出最終結(jié)果;泛化模塊G 用于導(dǎo)入外部知識更新記憶模塊M 的內(nèi)容。整體工作流程如圖18 所示。
Fig.18 Workflow of MemNNs framework圖18 MemNNs框架流程圖
Jain 等人[79]以MemNNs 為基 礎(chǔ),在KG 預(yù)處 理環(huán)節(jié)舍去合并相同主謂三元組的過程,但使用詞袋結(jié)合位置編碼的方法表示問題q,在WebQuestions數(shù)據(jù)集上獲得了更優(yōu)的效果;Xu 等人[39]以KV-MemNN 為基礎(chǔ),通過引入STOP 策略,設(shè)計一種新式查詢更新策略,屏蔽已尋址的內(nèi)存信息,使得KV-MemNN 能夠處理復(fù)雜問題。
本節(jié)方法使用神經(jīng)網(wǎng)絡(luò)模塊對傳統(tǒng)語義解析、話語模板的查詢圖、傳統(tǒng)信息檢索方法的各環(huán)節(jié)進行提升。除本節(jié)程序歸納子方法用于處理復(fù)雜問題外,其他子方法皆用于簡單問題的處理。
3.3.1 神經(jīng)網(wǎng)絡(luò)+知識圖譜嵌入
對于簡單問題的詞匯映射部分,主要通過使用神經(jīng)網(wǎng)絡(luò)模塊替換傳統(tǒng)方法的詞匯表完成性能升級。Golub 等人[80]的方法如圖19 所示,根據(jù)實體提及召回的候選實體結(jié)果,將流行度最高的10 個候選實體作為候選實體集E,接著檢索候選實體集E在KG中的所有一跳關(guān)系作為候選關(guān)系集P。將問題q的獨熱向量輸入LSTM 獲得問題編碼,候選實體集E、候選關(guān)系集P作為輸入,系統(tǒng)分別從E、P集合選取最優(yōu)實體、關(guān)系作為輸出,并分別使用一個CNN 網(wǎng)絡(luò)以字符為單位進行編碼,獲得固定長度的向量表示;然后使用注意力機制解碼與問題最相關(guān)的實體與關(guān)系,通過語義相似度函數(shù)計算解碼器所得實體向量與候選實體對應(yīng)向量的余弦相似度,選出相似度乘積最大的e、p作為輸出,用于填充邏輯查詢語句的實體關(guān)系占位符。ISS-NR 系統(tǒng)[81]則通過神經(jīng)推理預(yù)訓(xùn)練模型和GCN 分別獲得事實三元組和問題對應(yīng)KG 子圖的嵌入,同時判斷事實三元組的實體關(guān)系與問題對應(yīng)KG 子圖的相似度。
Fig.19 Neural network models to complete lexical mapping圖19 神經(jīng)網(wǎng)絡(luò)模型完成詞匯映射工作
3.3.2 神經(jīng)網(wǎng)絡(luò)+候選排序
提升簡單問題的排序打分工作,主要通過神經(jīng)網(wǎng)絡(luò)模型替換傳統(tǒng)方法的統(tǒng)計學習模型來完成。Yavuz 等人[82]對傳統(tǒng)語義解析系統(tǒng)AGENDAIL 進行改進,使用BiLSTM(bi-directional long short-term memory)模型對實體前后內(nèi)容進行向量表示并用于預(yù)測實體的正確類型,排序部分則以實體類型相似度打分作為重要特征。
3.3.3 神經(jīng)網(wǎng)絡(luò)+復(fù)述+候選排序
對于簡單問題的排序部分,復(fù)述方法同樣有所涉及。Dong等人[83]先對問題生成多個改寫q′,對所得改寫使用BiLSTM 模型得到向量表示,獲得改寫問題與原問題的相似度打分P(q′|q),后使用另一個BiLSTM模型編碼答案a,獲得答案與改寫問題的相似度打分P(a|q′),最終答案的打分P(a|q)通過P(a|q′)?P(q′|q)計算。
3.3.4 程序歸納
對于復(fù)雜多關(guān)系問題部分,諸如SSRP[84]、CIPITR[85]、MRL-CQA[86]、NS-CQA[87]等系統(tǒng),將問題轉(zhuǎn)換為可在KG 上執(zhí)行并獲得答案的程序序列,而非語義解析的邏輯形式。
3.3.5 神經(jīng)網(wǎng)絡(luò)模塊組合
本類方法也有諸如Andreas 等人[31]的特殊實現(xiàn)。該工作針對不同的問題,組合神經(jīng)網(wǎng)絡(luò)子模塊,對應(yīng)形成特定的神經(jīng)網(wǎng)絡(luò)模型,用于獲得問題的答案,常規(guī)對多個候選邏輯形式的排序,轉(zhuǎn)換為對多種不同組合模型的排序。
回顧查詢圖方法,其關(guān)鍵步驟在于無根據(jù)圖到語義查詢圖的實例化轉(zhuǎn)換,排序多個語義查詢圖并轉(zhuǎn)換最優(yōu)語義查詢圖為邏輯形式得到結(jié)果?;谏窠?jīng)網(wǎng)絡(luò)的方法在上述實例化轉(zhuǎn)換和排序環(huán)節(jié)均有涉及。
3.4.1 神經(jīng)網(wǎng)絡(luò)+答案特征
針對無根據(jù)圖到語義查詢圖的映射環(huán)節(jié),最先由STAGG 系統(tǒng)[27]使用CNN 模型完成關(guān)系映射;STF系統(tǒng)[88]與STAGG 系統(tǒng)的不同在于使用MCCNN 完成關(guān)系映射,實驗證明MCCNN 比CNN 更適合關(guān)系的特征抽取。
3.4.2 神經(jīng)網(wǎng)絡(luò)+問題特征+圖特征
針對語義查詢圖的排序環(huán)節(jié),Bao 等人[89]使用CNN 對問題和語義查詢圖進行編碼并完成相似度分析;Luo 等人[90]使用BiGRU(bi-directional gate recurrent unit)完成上述工作;Maheshwari等人[40]使用自注意力的槽位匹配方法進行排序。
GGNN(gate graph neural networks)系統(tǒng)[36]使用與STAGG 完全相同的圖生成框架,但在STAGG 基礎(chǔ)上使用CNN 與GGNN 分別對問題和語義查詢圖進行向量化,使用所得兩向量乘積代表的相似度打分作為排序依據(jù)。
以問題“What was the first Taylor Swift album?”為例,如圖20 所示,CNN 將問題映射到長度固定為dw的向量表示。在問題序列首尾加入特殊開始和結(jié)尾標記<s>和<f>,使用|Lw|×dw矩陣W將問題序列轉(zhuǎn)換為嵌入向量,其中Lw為詞匯表,以后各詞嵌入向量輸入雙層CNN+Pooling 層,連接全連接層H得到最終表示向量vq。
GGNN 如圖21 所示抽取圖中各節(jié)點與邊的類型標簽,將它們切分為字符序列,并使用矩陣W獲得標簽的詞向量表示hl。
之后使用矩陣A∈R|V|×2|V|與A′∈R|V|×2|R|表示圖信息,其中V為節(jié)點集合,R為關(guān)系集合,A表示節(jié)點間的連接信息,A′表示邊的方向類型信息。獲得這些信息后,首先將每個節(jié)點和邊的向量表示求和,然后使用非線性變換,迭代得到圖中代表答案的變量節(jié)點向量表示,將結(jié)果輸入全連接層及線性整流函數(shù)(rectified linear unit,ReLU),獲得答案節(jié)點的最終向量表示vg。
Fig.20 Mapping structure of CNN圖20 CNN 映射結(jié)構(gòu)
Fig.21 Representation of label vector圖21 標簽詞向量表示
在獲得答案節(jié)點向量表示vg與問題向量表示vq后,通過余弦相似度分析得到最優(yōu)語義查詢圖,并轉(zhuǎn)換為相應(yīng)的查詢語句。
Xu 等人[91]在編碼端進行改進,同時結(jié)合問題的詞序、依存句法以及成分句法的分析結(jié)果作為輸入,對問題進行編碼并獲得性能提升。
3.4.3 剪枝+集束搜索
此方法為一類特殊的實現(xiàn)。Lan 等人[43]通過控制查詢圖的生成過程處理復(fù)雜多約束、多關(guān)系問題。對于單關(guān)系多約束問題,在查詢圖生成階段,每獲得一個約束就對應(yīng)進行圖剪枝操作;對于復(fù)雜多關(guān)系問題,則使用集束搜索在擴展關(guān)系時僅考慮最佳關(guān)系而非全部關(guān)系,進而減少搜索空間。
該類方法主要使用神經(jīng)網(wǎng)絡(luò)模型完成候選答案排序和關(guān)系匹配,或使用外部知識完成候選答案排序。
3.5.1 神經(jīng)網(wǎng)絡(luò)+候選排序
傳統(tǒng)信息檢索方法的核心要點是檢索主題實體在KG 上的相鄰實體作為候選答案,通過排序獲得最終答案。
本小節(jié)所述系統(tǒng)使用神經(jīng)網(wǎng)絡(luò)模型提升排序環(huán)節(jié)的性能。其中MCCNNs 系統(tǒng)[92]使用MCCNN 卷積得到問題答案路徑、類型、上下文3 類特征,并學習候選答案的嵌入向量表示,將兩者同時作為評分函數(shù)的輸入獲得相似度評分;Hao 等人[93]使用交叉注意力機制表示問題與候選答案。實驗結(jié)果顯示交叉注意力機制的效果優(yōu)于MCCNN。
3.5.2 神經(jīng)網(wǎng)絡(luò)+關(guān)系匹配
神經(jīng)網(wǎng)絡(luò)模型同樣可用于傳統(tǒng)信息檢索中的關(guān)系匹配環(huán)節(jié)。
Yu 等人[35]將關(guān)系名以關(guān)系名本身與組成關(guān)系的單詞兩級表示,使用BiLSTM 進行編碼并排序。
本小節(jié)模型較為多樣,模型呈現(xiàn)出復(fù)雜度遞增的趨勢。Mohammed 等人[94]評測深度學習與傳統(tǒng)方法的效果差異,探尋深度學習對KGQA 的有效貢獻,關(guān)注簡單問題的回答,將問題處理環(huán)節(jié)分解為實體檢測、實體鏈接、關(guān)系預(yù)測與特征組合4 步。
接著使用SimpleQuestions 數(shù)據(jù)集對各子環(huán)節(jié)及系統(tǒng)整體組合效果進行評測。整體流程如圖22 所示。實體檢測環(huán)節(jié),BiLSTM與條件隨機場(conditional random fields,CRF)分別實現(xiàn)93.1%與90.2%的F1值;結(jié)合實體鏈接方法后,兩者整體R@1 分別為67.8%與66.6%;關(guān)系預(yù)測環(huán)節(jié),BiGRU、CNN 與邏輯回歸(logical regression,LR)的R@1 分別為82.3%、82.8%和74.7%;系統(tǒng)整體的預(yù)測準確率中,BiLSTM+BiGRU 的表現(xiàn)最好,為74.9%,CRF+BiGRU 的表現(xiàn)次之,為73.7%,而CRF+LR 的準確率為69.9%。
Fig.22 Evaluation flow圖22 評測流程
由上可知,對于簡單問題的KGQA 而言,傳統(tǒng)規(guī)則模板方法有能力取得與深度學習方法相近的準確率,深度學習方法的實驗結(jié)果更優(yōu),但沒有與傳統(tǒng)規(guī)則模板方法拉開明顯的差距。
3.5.3 神經(jīng)網(wǎng)絡(luò)+候選排序+外部信息
本小節(jié)介紹使用外部知識回答問題的方法。MCCNN 系統(tǒng)[28]結(jié)合主題實體對應(yīng)的維基百科(Wikipedia)頁面信息,過濾系統(tǒng)返回的不正確答案;Talmor 等人[38]使用計算樹(computation tree)分析問題語義并分解為多個子問題,同時從KG 和搜索引擎中提取子問題答案,最后將各子問題答案取交集獲得最終答案;GRAFTNet 系統(tǒng)[37]提出問題表示圖,用于確定答案在KG 與文本數(shù)據(jù)中的存在情況。
表3 給出了基于深度學習方法的小結(jié)。知識圖譜嵌入方法作為所有深度學習方法的基礎(chǔ),對簡單問題使用問題答案相似度比對的方法獲得答案;記憶網(wǎng)絡(luò)方法通過記憶模塊與知識圖譜嵌入的結(jié)合,實現(xiàn)簡單問題問答性能的進一步提升,記憶網(wǎng)絡(luò)結(jié)構(gòu)具有較大的擴展性;基于神經(jīng)網(wǎng)絡(luò)的語義解析與信息檢索方法在簡單問題處理方面的性能基本接近,區(qū)別在于是否可生成查詢語句,在復(fù)雜問題方面,基于神經(jīng)網(wǎng)絡(luò)的語義解析在近幾年產(chǎn)生了程序歸納方法,而基于神經(jīng)網(wǎng)絡(luò)的信息檢索在該方向目前進展較少;基于神經(jīng)網(wǎng)絡(luò)的查詢圖目前為較理想的方法,可同時處理簡單問題與復(fù)雜問題,但其在搜索空間的縮減方面仍有待提高。
表4 匯總了本文介紹的所有知識圖譜問答方法,包括每種方法的文獻和原理描述。
Table 3 Summary of deep learning based methods表3 基于深度學習的方法小結(jié)
Table 4 Summary of open-domain knowledge graph question answering methods表4 開放領(lǐng)域知識圖譜問答方法總結(jié)
本章首先介紹作為KGQA 信息源的常用通用領(lǐng)域知識圖譜,然后介紹基于這些通用領(lǐng)域知識圖譜的信息構(gòu)建而成的開放領(lǐng)域問答數(shù)據(jù)集。
通用領(lǐng)域知識圖譜作為問答系統(tǒng)的信息源,是整個系統(tǒng)的核心組件,問答效果與知識圖譜的信息質(zhì)量直接關(guān)聯(lián)。下述4 個通用領(lǐng)域知識圖譜是開放領(lǐng)域知識圖譜問答常用的KG。
Freebase 是一個開放共享、協(xié)同構(gòu)建的大規(guī)模數(shù)據(jù)庫,基于RDF 三元組模型構(gòu)建并采用圖數(shù)據(jù)庫進行底層存儲。其知識表示框架主要包含對象、事實、類型和屬性4 個要素,使用復(fù)合值類型(compound value types,CVT)來處理多元關(guān)系。
DBpedia 是世界上最大的多領(lǐng)域知識本體之一,也是語義網(wǎng)應(yīng)用的一個典型范例。它從維基百科詞條中提取結(jié)構(gòu)化資源,增強維基百科搜尋功能,并將其他數(shù)據(jù)集聯(lián)結(jié)至維基百科。通過語義技術(shù),使維基百科頁面信息獲得更多的語義應(yīng)用。
YAGO 是一個三元組質(zhì)量高、概念覆蓋廣的鏈接數(shù)據(jù)庫,其核心同為維基百科,卻以較高的準確率將維基百科與WordNet[102]兩個數(shù)據(jù)源進行連接,以三元組的關(guān)系類型為單位,計算連接所得的三元組準確率平均達97%。這使得YAGO 本體既從維基百科的海量數(shù)據(jù)獲益,又利用了WordNet清晰的概念分類。
Wikidata[103]的目標是構(gòu)建一個免費開放、多語言、任何人或機器都可以編輯修改的大規(guī)模鏈接知識圖譜。Wikidata 起源于維基百科,已作為維基百科的后臺支持知識庫使用,同樣以頁面作為基本組織單元,實體代指最頂層的對象。
開放領(lǐng)域問答數(shù)據(jù)集隨著知識圖譜問答技術(shù)的發(fā)展而不斷被開發(fā),數(shù)據(jù)集間的比較如表5 所示。
Free917[50]的問題類型沒有限制,但以房地產(chǎn)領(lǐng)域為主,數(shù)據(jù)形式為(問題,λ-calculus 表達式),數(shù)據(jù)集的問題通過將Freebase 的某個屬性作為答案,人工提出與之相關(guān)的自然語言問題獲得。
WebQuestions 使用Google Suggest API 隨機獲取以Wh 疑問詞開頭并僅含單個實體的10 萬個問題,由AMT(Amazon mechanical turk)工人通過Freebase 實體頁面的內(nèi)容回答。由于采用先提問后解答的問題構(gòu)建流程,該數(shù)據(jù)集的問題完全獨立于Freebase,相比Free917 更加自然多樣化,但僅提供問題答案,不提供檢索出答案的查詢語句。
SimpleQuestions 以研究系統(tǒng)覆蓋面為目的,收集一個純簡單問題的數(shù)據(jù)集。數(shù)據(jù)由統(tǒng)一資源標志符(uniform resource identifier,URI)標識,數(shù)據(jù)形式為(主語URI,關(guān)系URI,賓語URI),每個問題與知識圖譜Freebase2M[19]的一個事實三元組匹配。
FactoidQuestions[104]以SimpleQuestions 作為訓(xùn)練數(shù)據(jù),將Freebase 中的三元組通過神經(jīng)網(wǎng)絡(luò)模型自動轉(zhuǎn)換為自然語言問題,得到問答對數(shù)據(jù)。該方法所得問題質(zhì)量優(yōu)于模板方法所得質(zhì)量,數(shù)據(jù)的形式為((主語URI,關(guān)系URI,賓語URI),問題)。
ComplexQuestions[105]的目標是構(gòu)建一個多限制問題數(shù)據(jù)集,測試KGQA 系統(tǒng)在復(fù)雜多限制問題上的能力。創(chuàng)建者分別從WebQuestions 的訓(xùn)練集和測試集選取596 和326 個問題,從搜索引擎得到878 個問題,從文獻[106]獲得300 個問題組成該數(shù)據(jù)集。該數(shù)據(jù)集不提供查詢語句。
Table 5 Comparison of open-domain question answering dataset表5 開放領(lǐng)域問答數(shù)據(jù)集的比較
WebQuestionsSP[107]重新審視語義解析邏輯形式數(shù)據(jù)的價值,證明邏輯形式數(shù)據(jù)有助于KGQA 性能提升,并以WebQuestions 數(shù)據(jù)集為基礎(chǔ)進行創(chuàng)建。其中共有1 073 個WebQuestions 問題無法提供對應(yīng)答案的完整解析。
ComplexWebQuestions[108]從WebQuestionsSP 數(shù) 據(jù)集中檢索符合條件的SPARQL 查詢,據(jù)此自動創(chuàng)建更復(fù)雜的查詢,生成AMT 工人可以理解的查詢語句,并由AMT 工人將查詢語句解釋為自然語言問題。
GraphQuestions[109]是首個具有明確特征的問題集,用于考察不同問題特征對問答過程的影響。問題通過KG 創(chuàng)建的多個查詢模板生成對應(yīng)查詢圖,保留高質(zhì)量的查詢圖交由眾包轉(zhuǎn)換為問題。
PathQuestion[110]以Freebase 為KG,提取彼此為2至3 跳關(guān)系的實體及對應(yīng)路徑,利用模板生成問題。為提高生成問題的多樣性,構(gòu)建者搜索互聯(lián)網(wǎng)、WebQuestions 和WikiAnswers[69]數(shù)據(jù)集確定Freebase內(nèi)的同義關(guān)系詞,改寫模板生成的問題,以豐富所生成問題的詞匯豐富度。
QALD[111-115]是CLEF(Conference and Labs of the Evaluation Forum)的一項評估子任務(wù),CLEF 從2011年開始每年舉辦一次,每次提供多個訓(xùn)練集和測試集。所提供的問題中,復(fù)雜多關(guān)系和多限制問題約占38%。
LC-QuAD[116-117]創(chuàng)建一組SPARQL 模板和種子實體,提取種子實體對應(yīng)的DBpedia 子圖,每個子圖均包含RDF 圖中距離種子實體兩跳范圍內(nèi)的所有三元組,使用這些三元組實例化SPARQL 模板來創(chuàng)建SPARQL 查詢。
本章首先介紹評測KGQA 系統(tǒng)常用的指標類型,然后選取3 個經(jīng)典的數(shù)據(jù)集對比不同方法間的性能差異并進行分析。
對知識圖譜問答系統(tǒng)進行評測時,通常使用4 種指標:準確率、精度、召回率和F1。其中除準確率是以問題集整體為單位進行計算外,其他3 個指標均以單個問題為計算單位。
設(shè)系統(tǒng)針對單個問題返回的答案集內(nèi)存在多個正確答案,令Q為問題集,q為問題集內(nèi)的單個問題,t為系統(tǒng)預(yù)測正確的問題總數(shù),ranki為第i個問題對應(yīng)答案集中第一個正確答案的排名;對單個問題q而言,令A(yù)為系統(tǒng)返回答案集,G為黃金標準答案集(每個問題對應(yīng)的一組預(yù)期正確答案),precj為系統(tǒng)返回的答案列表中,自頂向下以第j個正確答案為下界,取下界以上部分為子答案集計算所得的精度。
5.1.1 準確率
準確率(accuracy)表示系統(tǒng)回答正確的問題數(shù)占問題總數(shù)的比例,若單個問題同時擁有多個正確答案,則視系統(tǒng)同時返回全部答案為正確。其計算公式如下:
Hits@K是一個基于準確率進行定義的指標。若按某順序排列答案列表,前K個答案中至少存在一個正確答案則為1 hit,反之沒有正確答案則為0 hit,最終計算整個問題集的hit平均值。K值大小由任務(wù)具體需求人工定義。
5.1.2 精度
精度(precision)表示對于單個問題而言,系統(tǒng)返回的正確答案數(shù)占系統(tǒng)返回的總答案數(shù)的比例。其計算公式如下:
5.1.3 召回率
召回率(recall)表示對于單個問題而言,系統(tǒng)返回的正確答案數(shù)占系統(tǒng)返回的黃金標準答案的比例。其計算公式如下:
5.1.4 F1
F1 值表示精度與召回率的加權(quán)平均值,是系統(tǒng)性能總體水平的綜合體現(xiàn)。其計算公式如下:
對于上述3 種指標,有分別對應(yīng)的precision@K、recall@K和F1@K指標,計算方式同Hits@K,考察范圍K由人為指定,皆以系統(tǒng)返回答案列表的前K個答案作為考察范圍進行計算。
系統(tǒng)的F1 有兩種計算方法micro-F1 和macro-F1,區(qū)別在于計算時是否將問題集中尚未回答的問題的指標考慮在內(nèi)。micro-F1 通過計算已回答問題的精度與召回率的平均值獲得;macro-F1 則通過同時計算未回答問題的精度和召回率并取平均值獲得。本文使用marco-F1 值作為評測指標。
除了上述4種指標外,還有兩種用于衡量系統(tǒng)返回答案集優(yōu)劣的評測指標mAP(mean average precision)與MRR(mean reciprocal rank),答案集的優(yōu)劣通過正確答案在答案列表中的相對位置評價。
5.1.5 mAP
mAP 計算系統(tǒng)返回的答案集內(nèi),自頂向下分別以各正確答案所在位置為下界,取下界以上部分為子答案集計算所得精度的平均值。其計算公式如下:
5.1.6 MRR
MRR 計算答案集內(nèi)第一個正確答案所在位置的倒數(shù)平均值。其計算公式如下:
假設(shè)以“三原色是哪幾種?”和“德國三大汽車品牌是什么?”兩個問題構(gòu)成一個問題集,問題的黃金標準答案分別是“綠色”“紅色”“藍色”和“奔馳”“寶馬”“大眾”。這兩個問題與問題集的評測指標值如圖23所示。
通過對主流數(shù)據(jù)集的篩選分析,本文選取3 個數(shù)據(jù)集進行評測。通過4.2 節(jié)的描述可知,3 個數(shù)據(jù)集各具特點:SimpleQuestions 為簡單問題數(shù)據(jù)集,通過單個三元組即可解答,系統(tǒng)僅需給定候選實體與候選關(guān)系中置信度最高的一個實體和一個關(guān)系,即可構(gòu)成查詢語句并獲得賓語答案;WebQuestions 含84%的簡單問題與16%的復(fù)雜問題,可視為復(fù)雜問題與簡單問題的折衷;而ComplexQuestions 全部為復(fù)雜問題,涉及多跳關(guān)系與多限制條件,回答難度較大。
5.2.1 SimpleQuestions
在SimpleQuestions 數(shù)據(jù)集上進行實驗的系統(tǒng),所得指標如圖24 所示。
記憶網(wǎng)絡(luò)早期方法受記憶網(wǎng)絡(luò)結(jié)構(gòu)的限制,僅能解決簡單問題且效果一般。MemNN[78]的設(shè)計初衷并非用于解決開放領(lǐng)域問題;MemNNs[24]對MemNN 進行修改使得系統(tǒng)更適配于Freebase及SimpleQuestions數(shù)據(jù)集,但提升效果一般;對于不使用KG 預(yù)處理技術(shù)的記憶網(wǎng)絡(luò)方法[79],其性能指標甚至低于最初的MemNN 方法。可見,將KG 存儲于記憶模塊整體檢索的實際效果并不理想。
如圖24 所示,剩余方法皆與神經(jīng)網(wǎng)絡(luò)模型進行結(jié)合且準確率均高于70.9%。根據(jù)編碼器分別在問題的詞級和字符級構(gòu)建表示的研究可知[80,96],令編碼器在字符級與詞級分別構(gòu)建問題表示,并分別用于實體鏈接與關(guān)系抽取環(huán)節(jié)的效果,比單純在字符級構(gòu)建問題表示完成上述任務(wù)的效果好。
基于神經(jīng)網(wǎng)絡(luò)的查詢圖方法,準確率上限為72.8%;單純使用知識圖譜嵌入方法回答問題的準確率上限為75.4%;其余基于神經(jīng)網(wǎng)絡(luò)的信息檢索方法,效果普遍更優(yōu)。將神經(jīng)網(wǎng)絡(luò)模型抽取的特征用于候選排序環(huán)節(jié)或用于實體、關(guān)系抽取環(huán)節(jié),對系統(tǒng)準確率的提升效果相近,對于排序環(huán)節(jié),使用MCCNN[28]抽取特征的效果較好;對于實體和關(guān)系抽取環(huán)節(jié),將實體鏈接與關(guān)系抽取視為兩個獨立環(huán)節(jié)的方法[71]普遍沒有聯(lián)合抽取方法[98](即同時考慮實體和關(guān)系兩者與原問句相似度)的效果好。
Fig.23 Example of evaluation metric圖23 評測指標示例圖
Fig.24 Accuracy of SimpleQuestions related systems圖24 SimpleQuestions相關(guān)系統(tǒng)精確率
5.2.2 WebQuestions
在WebQuestions 數(shù)據(jù)集上進行實驗的系統(tǒng),所得指標如圖25 所示。
Fig.25 F1 of WebQuestions related systems圖25 WebQuestions相關(guān)系統(tǒng)F1 值
使用直接映射的傳統(tǒng)語義解析方法與傳統(tǒng)信息檢索方法作為系統(tǒng)實現(xiàn)的性能,基本作為KGQA 在此數(shù)據(jù)集的最低指標;使用復(fù)述方法的傳統(tǒng)語義解析可提升一定的效果,但相比深度學習方法對系統(tǒng)的提升而言,提升幅度較小。
若單獨使用知識圖譜嵌入作為KGQA 的核心方法進行實現(xiàn),其效果處于傳統(tǒng)語義解析方法中的較高位置,雖相比傳統(tǒng)語義解析方法而言性能提升幅度不大,但省去了人工參與特征設(shè)置的步驟,證明了深度學習方法的有效性。
如圖25所示,剩余方法的F1指標皆不低于40.8%?;谀0逡?guī)則的查詢模板方法仍能與基于深度學習的方法性能相比較,F(xiàn)1 最高可取得52.2%的成績,想繼續(xù)提升性能則可嘗試使用神經(jīng)網(wǎng)絡(luò)模塊。
在基于神經(jīng)網(wǎng)絡(luò)的信息檢索方法中,若神經(jīng)網(wǎng)絡(luò)模型處理短語映射,則對應(yīng)的性能指標介于40.8%~42.9%之間,想獲得更大的提升,需要使用基于神經(jīng)網(wǎng)絡(luò)的查詢圖方法,可獲得至少52.5%的F1 值。其中使用CNN 結(jié)合問題特征與圖特征排序語義查詢圖的方法[89]可獲得本類方法目前的最高性能。
可獲得更優(yōu)效果的方法包括MCCNN[28]系統(tǒng),該系統(tǒng)使用維基百科頁面的信息去除候選答案中的不正確項。其次,包括兩種基于神經(jīng)網(wǎng)絡(luò)的語義解析方法。Yavuz等人[82]將實體類型打分作為一個重要的排序因素;Dong 等人[83]使用復(fù)述方法,先對改寫問題與原問題的相似度打分,之后對答案與相應(yīng)改寫問題的相似度打分,兩者相乘作為最終的排序依據(jù)。
記憶網(wǎng)絡(luò)在實現(xiàn)多跳查詢后[39],性能得到極大提升,接近于該數(shù)據(jù)集的最佳值。
5.2.3 ComplexQuestions
在ComplexQuestions 數(shù)據(jù)集上進行實驗的系統(tǒng),所得指標如圖26 所示。
Fig.26 F1 of ComplexQuestions related systems圖26 ComplexQuestions相關(guān)系統(tǒng)F1 值
有效用于解決復(fù)雜問題的方法并不多,主要以基于神經(jīng)網(wǎng)絡(luò)的查詢圖方法為主,該方法可對復(fù)雜多跳和多限制問題進行很好的圖形化描述。一種可用于解決復(fù)雜問題的基于神經(jīng)網(wǎng)絡(luò)的信息檢索方法[38],將復(fù)雜問題分解為多個子問題逐個解決,子問題通過同時檢索KG 與搜索引擎獲得答案,問題最終的答案通過子問題答案取交集獲得。
對于基于神經(jīng)網(wǎng)絡(luò)的查詢圖方法,以神經(jīng)網(wǎng)絡(luò)模塊抽取的問題特征和圖特征作為語義查詢圖的排序依據(jù)的方法[36],不如在語義查詢圖的構(gòu)建階段就采用低召回、高精度方式完成的方法效果好[43]。例如因問題增加限制條件或關(guān)系個數(shù)而需要對語義查詢圖進行擴展時,僅選擇語義查詢圖的最佳擴展方向而非所有可能的方向進行擴展,可減輕排序模型的負擔,以提高問答效果。
通過上述分析比較可以看出,開放領(lǐng)域知識圖譜問答已經(jīng)取得一定進展,但現(xiàn)存的開放領(lǐng)域知識圖譜問答方法仍有許多局限性,面臨許多挑戰(zhàn)。本章給出開放領(lǐng)域知識圖譜問答的一些未來研究方向。
由于通用領(lǐng)域KG 的內(nèi)容通常是稀疏且不完整的,導(dǎo)致系統(tǒng)無法從通用領(lǐng)域KG 獲得足夠的信息以回答問題。對此,人們試圖引入外部文本語料庫作為開放領(lǐng)域知識庫問答系統(tǒng)的另一信息源;或根據(jù)KG 目前已有的知識推理得到KG 缺失的知識,以解決KG 不完整的問題。
目前有兩種與外部文本語料庫結(jié)合的方式:一種是語料庫所提供的數(shù)據(jù)作為KGQA 各環(huán)節(jié)所利用的特征信息,提高KGQA 各環(huán)節(jié)的性能表現(xiàn);另一種是將語料庫提供的數(shù)據(jù)作為KGQA 系統(tǒng)的答案來源,補充KG 所缺失的實體信息。但目前已有的利用外部文本語料庫的方法通常僅將外部文本語料庫作為系統(tǒng)的唯一KG,或?qū)G 與外部文本語料庫信息視為單個KG 整體,如何更加充分利用彼此獨有的信息,以更巧妙的方式將KG 與外部文本語料庫進行結(jié)合,是未來需要研究的內(nèi)容。
對于KG 推理方法,目前常使用知識圖譜嵌入完成事實三元組的推理工作,但使用該技術(shù)預(yù)測缺失事實的效果不佳,尤其對于包含長尾關(guān)系的三元組。而目前知識圖譜推理的工作除了知識圖譜嵌入方法外,還有使用GNN 模型和統(tǒng)計關(guān)系學習(statistical relational learning,SRL)等方法,這些工作都可作為KGQA 結(jié)合的方向進行探究。如何充分利用已有的三元組獲得高置信度的推理結(jié)果,仍需進一步研究。
由于KGQA 處理的問題通常是一句簡短且語義信息有限的自然語言問題,抽取出豐富且精確的語義信息具有一定難度。對此,人們通常采用傳統(tǒng)的實體關(guān)系抽取流水線方法或預(yù)訓(xùn)練模型來提高語義信息的提取能力。
針對實體關(guān)系抽取流水線方法,人們常通過提高候選實體與候選關(guān)系的召回率,而將消歧選優(yōu)工作統(tǒng)一交給單個模型來實現(xiàn)。這種方法不僅會造成含有噪聲的巨大搜索空間,降低系統(tǒng)精度,還將大幅提高問答所需時長。如何在保證結(jié)果高精度的同時保持實體關(guān)系的高召回率是未來需要解決的問題之一。
針對預(yù)訓(xùn)練模型,其高效的實體關(guān)系抽取表現(xiàn)得益于預(yù)訓(xùn)練過程中海量的文本訓(xùn)練數(shù)據(jù),使得預(yù)訓(xùn)練模型在KGQA 問答訓(xùn)練數(shù)據(jù)較少的情況下,仍可獲得相對傳統(tǒng)實體關(guān)系流水線方法更優(yōu)的性能體現(xiàn)。但如何更加充分地結(jié)合KGQA 系統(tǒng),利用好預(yù)訓(xùn)練模型內(nèi)的先驗知識,同樣是待研究的一個方向。
由于復(fù)雜問題涉及多跳關(guān)系或多限制條件,導(dǎo)致用戶提高了對系統(tǒng)語義分析能力的要求。針對復(fù)雜問題語義分析難度大的情況,人們通常采用基于神經(jīng)網(wǎng)絡(luò)的查詢圖方法和基于神經(jīng)網(wǎng)絡(luò)的信息檢索方法進行解決。
對于基于神經(jīng)網(wǎng)絡(luò)的查詢圖方法,目前主要通過提高語義查詢圖的召回率后進行排序的方法,或在語義查詢圖生成過程中及時完成剪枝工作的方法,得到復(fù)雜問題的語義解析結(jié)果。但如5.2.3 小節(jié)ComplexQuestions 數(shù)據(jù)集的實驗結(jié)果所示,這些方法的效果與較為成熟的簡單問題KGQA 方法相比,仍有較大差距。如何在語義查詢圖生成過程中減少候選數(shù)量,提高語義查詢圖的生成質(zhì)量,是需要進一步研究的問題。
對于基于神經(jīng)網(wǎng)絡(luò)的信息檢索方法,目前主要通過將單個復(fù)雜問題分解為多個子問題,各子問題使用基于神經(jīng)網(wǎng)絡(luò)的信息檢索方法進行解答,問題最終的答案通過子問題答案取交集獲得。但應(yīng)如何合理地完成子問題分解,并充分結(jié)合基于神經(jīng)網(wǎng)絡(luò)的信息檢索方法在簡單問題上的有效性,是未來的一個研究方向。
問答系統(tǒng)能自動回答人類提出的自然語言問題,開放領(lǐng)域知識圖譜問答作為問答系統(tǒng)與通用領(lǐng)域知識圖譜的融合,具有十分重要的意義。本文對開放領(lǐng)域知識圖譜問答進行了研究綜述,介紹了5 種基于規(guī)則模板的知識圖譜問答方法,描述了5 種基于深度學習的知識圖譜問答方法,對知識圖譜問答常用的4 個知識圖譜及11 個問答數(shù)據(jù)集進行了介紹,在3 個問答數(shù)據(jù)集上比較了不同方法間的性能差異,最后展望了開放領(lǐng)域知識圖譜問答的未來研究方向。