国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識(shí)表示學(xué)習(xí)的KBQA答案推理重排序算法

2024-08-17 00:00晉艷峰黃海來(lái)林沿錚王攸妙

摘 要:現(xiàn)有的知識(shí)庫(kù)問(wèn)答(KBQA)研究通常依賴于完善的知識(shí)庫(kù),忽視了實(shí)際應(yīng)用中知識(shí)圖譜稀疏性這一關(guān)鍵問(wèn)題。為了彌補(bǔ)該不足,引入了知識(shí)表示學(xué)習(xí)方法,將知識(shí)庫(kù)轉(zhuǎn)換為低維向量,有效擺脫了傳統(tǒng)模型中對(duì)子圖搜索空間的依賴,并實(shí)現(xiàn)了對(duì)隱式關(guān)系的推理,這是以往研究所未涉及到的。其次,針對(duì)傳統(tǒng)KBQA在信息檢索中常見(jiàn)的問(wèn)句語(yǔ)義理解錯(cuò)誤對(duì)下游問(wèn)答推理的錯(cuò)誤傳播,引入了一種基于知識(shí)表示學(xué)習(xí)的答案推理重排序機(jī)制。該機(jī)制使用偽孿生網(wǎng)絡(luò)分別對(duì)知識(shí)三元組和問(wèn)句進(jìn)行表征,并融合上游任務(wù)核心實(shí)體關(guān)注度評(píng)估階段的特征,以實(shí)現(xiàn)對(duì)答案推理結(jié)果三元組的有效重排序。最后,為了驗(yàn)證所提算法的有效性,在中國(guó)移動(dòng)RPA知識(shí)圖譜問(wèn)答系統(tǒng)與英文開(kāi)源數(shù)據(jù)集下分別進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,相比現(xiàn)有的同類(lèi)模型,該算法在hits@n、準(zhǔn)確率、F1值等多個(gè)關(guān)鍵評(píng)估指標(biāo)上均表現(xiàn)更佳,證明了基于知識(shí)表示學(xué)習(xí)的KBQA答案推理重排序算法在處理稀疏知識(shí)圖譜的隱式關(guān)系推理和KBQA答案推理方面的優(yōu)越性。

關(guān)鍵詞:知識(shí)庫(kù)問(wèn)答; 知識(shí)圖譜; 知識(shí)表示學(xué)習(xí); 答案推理

中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-009-1983-09

doi:10.19734/j.issn.1001-3695.2023.11.0545

KBQA answer inference re-ranking algorithm based onknowledge representation learning

Abstract:Existing research on knowledge base question answering(KBQA) typically relies on comprehensive knowledge bases, but often overlooks the critical issue of knowledge graph sparsity in practical applications. To address this shortfall, this paper introduced a knowledge representation learning method that transforms knowledge bases into low-dimensional vectors. This transformation effectively eliminated the dependence on subgraph search spaces inherent in traditional models and achieved inference of implicit relationships, which previous research had not explored. Furthermore, to counter the propagation of errors in downstream question-answering inference caused by semantic understanding errors of questions in traditional KBQA information retrieval, this paper introduced an answer inference re-ranking mechanism based on knowledge representation learning. This mechanism utilized pseudo-twin networks to represent knowledge triplets and questions separately, and integrated features from the core entity attention evaluation stage of upstream tasks to effectively re-rank the answer inference result triplets. Finally, to validate the effectiveness of the proposed algorithm, this paper conducted comparative experiments on the China Mobile RPA knowledge graph question-answering system and an English open-source dataset. Experimental results demonstrate that, compared to existing models in the same field, the proposed method performs better in multiple key evaluation indicators such as hits@n, accuracy, and F1-scores, proving the superiority of the proposed KBQA answer inference re-ranking algorithm based on knowledge representation learning in handling implicit relationship inference in sparse knowledge graphs and KBQA answer inference.

Key words:knowledge graph question answering; knowledge graph; knowledge representation learning; answer reasoning

0 引言

知識(shí)庫(kù)問(wèn)答(KBQA)基于實(shí)體和實(shí)體間關(guān)系構(gòu)建,可以更好地理解用戶的語(yǔ)義意圖。相比于輸入查詢返回文檔或頁(yè)面形式的基于搜索引擎的傳統(tǒng)問(wèn)答系統(tǒng),KBQA可提供更精確的個(gè)性化回復(fù)。另外基于知識(shí)庫(kù)存儲(chǔ)的關(guān)系和規(guī)則,KBQA可以進(jìn)行某種程度的邏輯推理,從而為用戶提供更深層次的信息和答案。

現(xiàn)有KBQA的理論研究往往基于完善的知識(shí)庫(kù),在標(biāo)注了核心實(shí)體的復(fù)雜問(wèn)句上進(jìn)行問(wèn)答,忽略了實(shí)際應(yīng)用場(chǎng)景中知識(shí)圖譜的稀疏性,以及實(shí)際場(chǎng)景中用戶提問(wèn)形式的復(fù)雜多樣性。于是,本文針對(duì)企業(yè)合作項(xiàng)目中國(guó)移動(dòng)RPA業(yè)務(wù)場(chǎng)景下的KBQA問(wèn)題進(jìn)行研究,引入知識(shí)表示學(xué)習(xí),在復(fù)數(shù)空間中對(duì)知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行嵌入,依據(jù)ComplEx算法的評(píng)分函數(shù)評(píng)估三元組存在的合理性,從而實(shí)現(xiàn)對(duì)隱性關(guān)系的推理。另外KBQA的傳統(tǒng)pipeline,實(shí)體識(shí)別、實(shí)體鏈接、答案推理通常會(huì)被視為一個(gè)完整的pipeline,實(shí)體識(shí)別、實(shí)體鏈接的結(jié)果僅保留得分最高項(xiàng),一旦獲取到了錯(cuò)誤的實(shí)體項(xiàng),則必然導(dǎo)致下游問(wèn)答推理任務(wù)的錯(cuò)誤。基于此,本文引入答案推理重排序機(jī)制,將上游任務(wù)核心實(shí)體關(guān)注度與實(shí)體鏈接得分結(jié)果作為重要特征融入到答案重排序模型中,基于偽孿生網(wǎng)絡(luò)對(duì)知識(shí)三元組和問(wèn)句分別進(jìn)行表征,對(duì)答案實(shí)體集進(jìn)行重排序,剔除實(shí)體所在的錯(cuò)誤三元組,糾正上游問(wèn)句語(yǔ)義理解階段任務(wù)中可能存在的錯(cuò)誤。

回溯KBQA解決方案,已經(jīng)提出了基于語(yǔ)義解析(SP)的方法和基于信息檢索(IR)的方法兩種主流方法?;赟P的方法首先利用自然語(yǔ)言理解模型識(shí)別出問(wèn)題中的核心實(shí)體,并利用實(shí)體鏈技術(shù)映射到知識(shí)庫(kù)中真正實(shí)體(topic entity),然后將查詢轉(zhuǎn)換為一個(gè)或多個(gè)邏輯形式或中間表示,在知識(shí)庫(kù)上執(zhí)行轉(zhuǎn)換得到的查詢,檢索相關(guān)信息[1]?;贗R的方法首先識(shí)別問(wèn)句中的主題實(shí)體,再在知識(shí)圖譜庫(kù)中構(gòu)建與一個(gè)特定于問(wèn)題和主題實(shí)體的子圖,該子圖包含了與主題實(shí)體或問(wèn)題相關(guān)的全部信息,最后通過(guò)子圖與問(wèn)題的相關(guān)性進(jìn)行排序,獲取得分最優(yōu)的子圖,從而檢索到答案[2,3]。

基于SP的方法,將自然語(yǔ)言查詢或問(wèn)題轉(zhuǎn)換為某種形式的邏輯表示,可進(jìn)一步用于數(shù)據(jù)庫(kù)查詢、知識(shí)圖譜檢索等。然而,面對(duì)復(fù)雜的KBQA問(wèn)題,這些方法在復(fù)雜語(yǔ)義的理解、知識(shí)庫(kù)的實(shí)例化搜索以及弱監(jiān)督信號(hào)下的訓(xùn)練等方面遇到了很大挑戰(zhàn)。

為了應(yīng)對(duì)這些挑戰(zhàn),許多現(xiàn)有基于SP的方法依賴于句法分析技術(shù),例如通過(guò)抽象意義表示(abstract meaning representation,AMR),以圖形結(jié)構(gòu)捕捉句子核心意義的表示方式,旨在簡(jiǎn)潔且清晰地呈現(xiàn)自然語(yǔ)言句子的語(yǔ)義內(nèi)容,從而避免涉及到與該內(nèi)容不直接相關(guān)的句法細(xì)節(jié)[4,5]。另外利用依存關(guān)系,表示單詞之間的句法和語(yǔ)義關(guān)系,以在問(wèn)題成分和邏輯元素(例:實(shí)體、屬性、關(guān)系和實(shí)體類(lèi)型)之間提供更高精度的對(duì)齊[6,7]。然而對(duì)于復(fù)雜問(wèn)題,生成式句法分析的準(zhǔn)確率表現(xiàn)一般。為了減弱從句法分析階段到下游語(yǔ)義分析階段的錯(cuò)誤傳播,Sun等人[8]提出了一種基于骨架的句法分析方法,首先通過(guò)識(shí)別句子的核心結(jié)構(gòu),對(duì)復(fù)雜問(wèn)題的主干進(jìn)行解析,然后再補(bǔ)充其他詳細(xì)的句法信息。另外在實(shí)際應(yīng)用中發(fā)現(xiàn),大量精確標(biāo)注的行業(yè)數(shù)據(jù)往往是有限的、不完美的,常包含噪聲和錯(cuò)誤。進(jìn)而研究者提出了弱監(jiān)督訓(xùn)練,弱監(jiān)督訓(xùn)練提供了一種更靈活、成本效益更高的方式來(lái)訓(xùn)練模型,尤其適用于數(shù)據(jù)標(biāo)注成本高、數(shù)據(jù)不完美的實(shí)際應(yīng)用問(wèn)題。弱監(jiān)督通常依賴于噪聲較大或不完整的標(biāo)注,與全監(jiān)督學(xué)習(xí)相比,弱監(jiān)督提供的反饋信號(hào)更加稀疏,這可能會(huì)導(dǎo)致學(xué)習(xí)算法很難找到穩(wěn)健的模型參數(shù)。KBQA也常常遇到訓(xùn)練數(shù)據(jù)有限或未標(biāo)注的問(wèn)題,語(yǔ)義解析的輸出空間通常很大,導(dǎo)致在弱監(jiān)督的情況下找到正確的解析結(jié)果特別困難。為了應(yīng)對(duì)這些挑戰(zhàn),研究者嘗試了多種方法,如數(shù)據(jù)增強(qiáng)、多任務(wù)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)等。文獻(xiàn)[4,9]通過(guò)采用基于強(qiáng)化學(xué)習(xí)的方法來(lái)獲得最大的預(yù)期回報(bào)。針對(duì)弱監(jiān)督訓(xùn)練可能無(wú)法為模型提供明確的反饋以及稀疏正反饋問(wèn)題,Saha等人[10]提出,當(dāng)基本事實(shí)類(lèi)型與預(yù)測(cè)的答案類(lèi)型相同時(shí),將會(huì)附加反饋獎(jiǎng)勵(lì)模型,通過(guò)智能體與環(huán)境的交互學(xué)習(xí),以使累積獎(jiǎng)勵(lì)最大化。Li等人[11]采用類(lèi)似的思路,通過(guò)將語(yǔ)義解析生成的邏輯形式與前階段緩存的高反饋邏輯形式進(jìn)行對(duì)比,從而實(shí)現(xiàn)對(duì)生成的邏輯形式的評(píng)估。在語(yǔ)義解析的上下文中,除了對(duì)整個(gè)過(guò)程的反饋?zhàn)罱K評(píng)價(jià)之外,弱監(jiān)督信號(hào)下,中間反饋可以為模型提供更詳細(xì)的指導(dǎo)。Qiu等人[9]提出了一種基于層次化強(qiáng)化學(xué)習(xí)的框架,利用中間反饋機(jī)制為模型訓(xùn)練提供了更細(xì)粒度的階段性指導(dǎo),從而起到了增強(qiáng)監(jiān)督信號(hào)的目的,也有助于模型更快地收斂。

基于IR的方法,在處理查詢或問(wèn)題時(shí),不需要大量標(biāo)注數(shù)據(jù),可擴(kuò)展性高,其流程主要包括問(wèn)題轉(zhuǎn)換、子圖生成、子圖評(píng)估、答案提取等核心環(huán)節(jié)。問(wèn)題先被轉(zhuǎn)換為一個(gè)或多個(gè)實(shí)體和與其相關(guān)的關(guān)系。接著在知識(shí)庫(kù)中探索與其直接或間接相關(guān)的實(shí)體和關(guān)系,生成一個(gè)或多個(gè)候選子圖,最后采用圖匹配、語(yǔ)義相似性進(jìn)行子圖評(píng)估。選擇得分最高的子圖,從中提取出實(shí)體、關(guān)系或一個(gè)更復(fù)雜的子圖答案。對(duì)于復(fù)雜的KBQA問(wèn)題,基于IR的方法主要面臨不完整的知識(shí)庫(kù)推理、弱監(jiān)督信號(hào)下的訓(xùn)練策略等方面的挑戰(zhàn)。

簡(jiǎn)單的KBQA問(wèn)題,往往只需要在中心實(shí)體的單跳子圖上進(jìn)行推理,采用基于IR的方法對(duì)知識(shí)庫(kù)的完全性要求不是很?chē)?yán)格[12]。而對(duì)于復(fù)雜問(wèn)題,答案可能涉及多個(gè)實(shí)體及實(shí)體間關(guān)系,知識(shí)庫(kù)的不完整,可能造成整個(gè)推理鏈的斷裂,另外這種不完整性減少了核心實(shí)體的鄰域信息,給推理過(guò)程造成困難。所以針對(duì)復(fù)雜問(wèn)題,為了確保子圖搜索能夠提供準(zhǔn)確和有洞察力答案,對(duì)知識(shí)庫(kù)的完整度具有較高的要求。

實(shí)際應(yīng)用中,知識(shí)庫(kù)往往是不完整的。或者現(xiàn)有知識(shí)庫(kù)的收集和構(gòu)建過(guò)程可能存在遺漏。因此,對(duì)不完整知識(shí)庫(kù)的推理是目前的一個(gè)重要研究領(lǐng)域。研究人員利用輔助文本,為知識(shí)庫(kù)提供有價(jià)值的背景信息和上下文,填補(bǔ)知識(shí)的空白和推理過(guò)程。Sun等人[13]提出使用問(wèn)題相關(guān)的文本語(yǔ)料,通過(guò)提取新的實(shí)體、關(guān)系和屬性,對(duì)不完備知識(shí)庫(kù)進(jìn)行補(bǔ)充,并將其與知識(shí)圖譜結(jié)合為一個(gè)異構(gòu)圖,并基于該圖進(jìn)行推理。文獻(xiàn)[14,15]在實(shí)體表示中融合額外的非結(jié)構(gòu)化文本,來(lái)取代直接將非結(jié)構(gòu)化文本作為知識(shí)節(jié)點(diǎn)補(bǔ)充到圖中的做法。除了引入額外的文本語(yǔ)料外,還可以采用知識(shí)圖譜嵌入的方法,通過(guò)鏈接預(yù)測(cè)(linking prediction)對(duì)缺失和隱含的關(guān)系進(jìn)行表示。Saxena等人[16]通過(guò)先獲取預(yù)先訓(xùn)練的相似領(lǐng)域知識(shí)圖譜嵌入,再融合嵌入到目標(biāo)知識(shí)圖譜中,來(lái)彌補(bǔ)當(dāng)前特定業(yè)務(wù)知識(shí)圖譜的不完整性。

基于IR的方法,在弱監(jiān)督信號(hào)下的訓(xùn)練策略方面,與基于IR的方法類(lèi)似,也是一個(gè)端到端模型,整個(gè)問(wèn)答過(guò)程中,模型直到推理結(jié)束才能收到反饋。研究者們發(fā)現(xiàn),這種情況可能導(dǎo)致虛假推理[17]。為了緩解上述問(wèn)題,Qiu等人[9]采用獎(jiǎng)勵(lì)形成策略提供中間獎(jiǎng)勵(lì),通過(guò)計(jì)算推理路徑和問(wèn)題表征之間的語(yǔ)義相似性,有效地引導(dǎo)模型在復(fù)雜推理任務(wù)中作出正確的決策。另外,除了在中間步驟對(duì)推理過(guò)程進(jìn)行評(píng)估外,還能通過(guò)推斷偽中間狀態(tài),來(lái)增強(qiáng)模型訓(xùn)練中的信號(hào)。受雙向搜索算法的啟發(fā),He等人[18]提出了基于圖的雙向搜索算法,同時(shí)從源點(diǎn)和目標(biāo)點(diǎn)進(jìn)行搜索,通過(guò)同步雙向推理過(guò)程來(lái)學(xué)習(xí)中間推理實(shí)體分布,提供了一種有效的方式來(lái)優(yōu)化和加速?gòu)?fù)雜圖結(jié)構(gòu)上的推理任務(wù)。實(shí)體鏈接過(guò)程中,使用離線工具進(jìn)行定位,可能導(dǎo)致上游任務(wù)的錯(cuò)誤傳播到下游的推理任務(wù)中。在未標(biāo)注主題實(shí)體的問(wèn)句中,為了對(duì)核心實(shí)體準(zhǔn)確定位,Zhang等人[19]提出了利用基于知識(shí)庫(kù)的核心實(shí)體識(shí)別和推理階段的聯(lián)合學(xué)習(xí)算法來(lái)訓(xùn)練實(shí)體鏈接,以優(yōu)化整個(gè)問(wèn)答方法流程。

通過(guò)技術(shù)的不斷改進(jìn),基于SP和基于IR的技術(shù),已經(jīng)在一定程度上滿足了用戶個(gè)性化問(wèn)答需求。但是基于SP的方法在關(guān)系分類(lèi)的標(biāo)注上需要投入大量的人力資源,對(duì)訓(xùn)練集中未出現(xiàn)過(guò)的關(guān)系預(yù)測(cè)能力有限。另外基于SP的方法,在問(wèn)答知識(shí)庫(kù)關(guān)系不完善時(shí)會(huì)對(duì)問(wèn)答系統(tǒng)準(zhǔn)確率和hits@1指標(biāo)造成較大影響?;贗R的方法相比于基于SP的方法,在生成路徑方面具有更強(qiáng)的泛化能力,能夠更有效地處理多跳查詢問(wèn)題。在現(xiàn)實(shí)業(yè)務(wù)場(chǎng)景中,知識(shí)圖譜通常處于不斷完善的過(guò)程中,經(jīng)常表現(xiàn)為每個(gè)實(shí)體節(jié)點(diǎn)平均僅與三條邊相連。在本次企業(yè)合作項(xiàng)目中國(guó)移動(dòng)RPA知識(shí)圖譜中,關(guān)系與實(shí)體節(jié)點(diǎn)的比例接近1∶1,而較為豐富的知識(shí)圖譜其實(shí)體節(jié)點(diǎn)與關(guān)系的比例往往在3∶1以上,這顯著低于其他較為豐富的知識(shí)圖譜。這種稀疏性會(huì)導(dǎo)致問(wèn)題理解和答案生成的精確度降低,知識(shí)庫(kù)中的信息不足以支撐復(fù)雜的查詢和推理。然而,現(xiàn)有研究通?;谕晟频闹R(shí)庫(kù),這導(dǎo)致對(duì)語(yǔ)義關(guān)系信息利用不足,同時(shí)忽視了知識(shí)圖譜稀疏性和實(shí)體節(jié)點(diǎn)間可能存在的隱含關(guān)系。對(duì)三元組信息檢索和問(wèn)答推理構(gòu)成了挑戰(zhàn)。

針對(duì)以上問(wèn)題,本文的研究建立在中國(guó)移動(dòng)知識(shí)圖譜項(xiàng)目上,該項(xiàng)目針對(duì)機(jī)器流程自動(dòng)化(robotic process automation,RPA)領(lǐng)域構(gòu)建知識(shí)圖譜,并依據(jù)該圖譜進(jìn)行知識(shí)檢索與知識(shí)推理。本文主要目標(biāo)是提出一套知識(shí)庫(kù)問(wèn)答方法,完成基于RPA領(lǐng)域知識(shí)圖譜的知識(shí)推理問(wèn)答。首先,在知識(shí)表示學(xué)習(xí)與答案初篩階段,引入了知識(shí)表示學(xué)習(xí)方法,學(xué)習(xí)知識(shí)圖譜在嵌入空間中的表示(SubGraph embedding),建立兩個(gè)知識(shí)節(jié)點(diǎn)之間的聯(lián)系,使得KBQA流程能完成隱式關(guān)系的推理,彌補(bǔ)實(shí)際業(yè)務(wù)中知識(shí)圖譜不完善問(wèn)題。此外,還訓(xùn)練了一個(gè)排序函數(shù),用于實(shí)現(xiàn)答案三元組范圍的初步篩選。特別地,為了解決KBQA傳統(tǒng)流程中問(wèn)句語(yǔ)義理解階段的潛在錯(cuò)誤傳播問(wèn)題,基于偽孿生網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)答案推理重排序模型。該模型不僅保留了上游任務(wù)的輸出結(jié)果,并將其作為重要特征輸入到答案推理重排序模型中,進(jìn)一步利用核心實(shí)體關(guān)注度與實(shí)體鏈接得分標(biāo)注后續(xù)的推理過(guò)程。最后,分別在中國(guó)移動(dòng)RPA知識(shí)圖譜問(wèn)答系統(tǒng)與英文開(kāi)源數(shù)據(jù)集下進(jìn)行了對(duì)比實(shí)驗(yàn),通過(guò)與其他模型的橫向比較和消融實(shí)驗(yàn),證明了本文算法的有效性。本文的創(chuàng)新之處在于有效解決了知識(shí)圖譜稀疏性問(wèn)題,并提高了KBQA系統(tǒng)在處理復(fù)雜查詢時(shí)的準(zhǔn)確性和效率。這為實(shí)際業(yè)務(wù)場(chǎng)景下知識(shí)圖譜問(wèn)答系統(tǒng)的構(gòu)建提供了新的視角和解決方案。

1 問(wèn)題定義

本章將對(duì)文中提及的幾個(gè)核心概念進(jìn)行形式化定義。這些定義結(jié)合了現(xiàn)有研究中的理論基礎(chǔ)和本文提出的基于知識(shí)表示學(xué)習(xí)的KBQA答案推理重排序算法在該領(lǐng)域的創(chuàng)新點(diǎn)。

定義1 核心實(shí)體。一個(gè)問(wèn)句中可能存在多個(gè)實(shí)體,核心實(shí)體是指問(wèn)題真正意圖,也就是用戶詢問(wèn)的真實(shí)焦點(diǎn)。該定義融合了現(xiàn)有文獻(xiàn)中的概念和本研究對(duì)問(wèn)句意圖理解的深化。

定義2 核心實(shí)體關(guān)注度。對(duì)多實(shí)體問(wèn)句,通過(guò)核心實(shí)體關(guān)注度模型計(jì)算每個(gè)實(shí)體的關(guān)注度得分,評(píng)估自然語(yǔ)言問(wèn)題中各實(shí)體的重要性,旨在解決多實(shí)體和多意圖問(wèn)句理解問(wèn)題。該定義基于現(xiàn)有理論,并結(jié)合了本文在處理復(fù)雜問(wèn)句方面的創(chuàng)新方法。

定義3 知識(shí)表示學(xué)習(xí)與答案初篩。通過(guò)學(xué)習(xí)知識(shí)圖譜在低維的嵌入空間表示(SubGraph embedding),捕獲實(shí)體和關(guān)系之間的語(yǔ)義信息供下游推理任務(wù)使用。并利用知識(shí)表示學(xué)習(xí)的結(jié)果,基于信息檢索方式,使用答案初篩模型完成對(duì)答案實(shí)體節(jié)點(diǎn)所在的top-k三元組集合的初步篩選和保存。該定義是基于現(xiàn)有知識(shí)表示學(xué)習(xí)方法的擴(kuò)展,以及對(duì)本文答案檢索過(guò)程中創(chuàng)新模型的定義。

定義4 答案推理重排序。旨在弱監(jiān)督情況下,通過(guò)考慮問(wèn)題中核心實(shí)體周?chē)恼Z(yǔ)義分布和核心實(shí)體到答案實(shí)體的關(guān)系路徑來(lái)提高推理的精度。對(duì)候選答案集合中的三元組鏈路進(jìn)行關(guān)系表征,并融合核心實(shí)體關(guān)注度評(píng)估階段的特征,進(jìn)行答案推理結(jié)果三元組的重排序。該定義基于現(xiàn)有弱監(jiān)督學(xué)習(xí)、知識(shí)表示學(xué)習(xí)、答案排序等機(jī)器學(xué)習(xí)知識(shí),對(duì)本研究在提高推理精度方面的創(chuàng)新方法定義。

2 模型設(shè)計(jì)與實(shí)現(xiàn)

KBQA解決方案中,基于IR的推理方法通常在完善的知識(shí)圖譜(如FreeBase和Wikipedia)中表現(xiàn)出色。然而,在實(shí)際業(yè)務(wù)應(yīng)用中,知識(shí)圖譜常處于不斷完善的狀態(tài),實(shí)體之間的關(guān)系通常稀疏且不完整。圖譜中的關(guān)系的豐富程度不如Freebase等知識(shí)庫(kù)。知識(shí)圖譜的隱式關(guān)系指的是那些在知識(shí)圖譜中沒(méi)有直接表示或顯式列出的關(guān)系,但可以通過(guò)推理、分析或推斷從已有的知識(shí)和關(guān)系中間接地推斷出來(lái)的關(guān)聯(lián)。隱式關(guān)系的發(fā)現(xiàn)和推理對(duì)于知識(shí)圖譜的應(yīng)用非常重要,可以通過(guò)隱式推理來(lái)填補(bǔ)知識(shí)圖譜中的空白和缺失。

知識(shí)圖譜隱式推理時(shí),需要考慮知識(shí)的可信度、不確定性和可能的錯(cuò)誤。受之前EmbedKGQA的啟發(fā),通過(guò)知識(shí)表示學(xué)習(xí)方法,實(shí)現(xiàn)復(fù)數(shù)空間中對(duì)圖譜實(shí)體和關(guān)系的嵌入表示,進(jìn)而發(fā)現(xiàn)圖譜中隱含的關(guān)聯(lián)和模式,可以有效地解決稀疏知識(shí)圖譜推理問(wèn)題[16]。據(jù)此,本文引入知識(shí)表示學(xué)習(xí)來(lái)實(shí)現(xiàn)隱式關(guān)系推理。使用complex embedding將知識(shí)圖譜中的實(shí)體和關(guān)系映射到低維向量空間,然后利用ComplEx的復(fù)數(shù)域得分函數(shù)評(píng)估構(gòu)成三元組的合理性;同時(shí)基于答案初篩模型訓(xùn)練了一個(gè)排序函數(shù),基于該函數(shù)給出的得分進(jìn)行答案三元組范圍的大致篩選。

2.1 核心實(shí)體關(guān)注度計(jì)算

核心實(shí)體關(guān)注度計(jì)算,主要包括命名實(shí)體識(shí)別和實(shí)體關(guān)注度計(jì)算兩個(gè)階段。命名實(shí)體識(shí)別采用了基于規(guī)則和基于BERT預(yù)訓(xùn)練模型的組合方法。前者根據(jù)領(lǐng)域和特定任務(wù)定義實(shí)體類(lèi)型、上下文關(guān)鍵詞、實(shí)體位置等語(yǔ)義規(guī)則,再使用模式匹配技術(shù)來(lái)識(shí)別和提取符合規(guī)則的實(shí)體,得到的候選實(shí)體Mention存儲(chǔ)至集合Ce1中。該方法可解釋性強(qiáng),在特定任務(wù)和領(lǐng)域內(nèi)提取實(shí)體具有較高的準(zhǔn)確性。

基于BERT預(yù)訓(xùn)練語(yǔ)言模型提取Mention實(shí)體,首先,將每個(gè)字(詞)通過(guò)BERT預(yù)訓(xùn)練模型向量化表示,將問(wèn)句文本轉(zhuǎn)換為token序列,再經(jīng)過(guò)模型嵌入層,token序列被轉(zhuǎn)換為多維向量。最后通過(guò)全連接層對(duì)每個(gè)token進(jìn)行二分類(lèi)表示,判斷每個(gè)token是否可能是一個(gè)實(shí)體mention。若是,token被標(biāo)注為1;若不是,則標(biāo)注為0。該實(shí)體抽取方法能夠提供深入的語(yǔ)義理解和捕獲豐富的上下文信息,有助于更準(zhǔn)確地識(shí)別語(yǔ)境中的實(shí)體。得到的候選實(shí)體mention存儲(chǔ)至集合Ce2中。對(duì)候選實(shí)體集合Ce1,Ce2取并集,即得到最終的實(shí)體mention集合Ce。

獲取到實(shí)體mention之后,將進(jìn)行實(shí)體關(guān)注度計(jì)算。首先對(duì)問(wèn)句文本Q進(jìn)行tokenize,使用RoBERTa模型完成詞嵌入,獲取問(wèn)句token的embedding,記作Q′。接著對(duì)句子中的每個(gè)實(shí)體,使用注意力打分函數(shù)來(lái)計(jì)算其與整個(gè)句子的相關(guān)性,打分函數(shù)采用神經(jīng)網(wǎng)絡(luò)加性實(shí)現(xiàn)。注意力分?jǐn)?shù)ei計(jì)算公式為

ei=vTtanh(WqQ′+WkCei+b)(1)

其中:Wq、Wk、v和b為可學(xué)習(xí)參數(shù);Q′表示問(wèn)題向量;Cei表示實(shí)體mention向量。

使用softmax函數(shù)對(duì)注意力分?jǐn)?shù)進(jìn)行歸一化,使得所有實(shí)體的注意力分?jǐn)?shù)之和為1。得到歸一化的注意力權(quán)重值αi,再通過(guò)maxpooling和avgpooling的拼接池化層,以盡可能保留注意力信息,獲取每個(gè)mention的注意力分布。最終映射至句子長(zhǎng)度同維度的向量,根據(jù)每個(gè)實(shí)體的注意力分?jǐn)?shù),對(duì)所有實(shí)體的特征向量加權(quán)組合,進(jìn)而得到最終的加權(quán)特征表示,在加權(quán)組合的特征表示中,權(quán)重最大的實(shí)體被視為句子的核心實(shí)體。

考慮到缺乏專(zhuān)業(yè)知識(shí)的用戶在輸入問(wèn)句時(shí),可能會(huì)出現(xiàn)簡(jiǎn)寫(xiě)、誤寫(xiě)、漏寫(xiě),導(dǎo)致模型得到的實(shí)體是不規(guī)范的或者一個(gè)實(shí)體mention對(duì)應(yīng)多個(gè)實(shí)體項(xiàng)。為了解決這個(gè)問(wèn)題,在識(shí)別到問(wèn)句的核心實(shí)體后,會(huì)基于同義實(shí)體庫(kù)進(jìn)行實(shí)體鏈接。通過(guò)計(jì)算問(wèn)句中實(shí)體與同義實(shí)體庫(kù)的相似性得到實(shí)體鏈接得分,作為特征值傳輸?shù)较掠稳蝿?wù)中。實(shí)體鏈接語(yǔ)義相似度得分計(jì)算公式為

score(Cei)=similarity(Q′,vec(E))(2)

其中:相似度計(jì)算采用BERT+FC模型;Cei表示得到的每個(gè)實(shí)體mention;vec(E)表示知識(shí)庫(kù)中的實(shí)體向量。為減弱下游任務(wù)對(duì)上游實(shí)體識(shí)別、實(shí)體鏈接任務(wù)輸出的依賴,取模型score得分最高的五個(gè)實(shí)體mention作為候選實(shí)體,當(dāng)實(shí)體鏈接模型出錯(cuò)時(shí),依然可以通過(guò)答案推理重排序模型予以糾正,返回正確的推理結(jié)果。

2.2 知識(shí)表示學(xué)習(xí)與答案初篩

答案初篩模型基于知識(shí)表示學(xué)習(xí)的結(jié)果對(duì)相關(guān)的子圖依據(jù)問(wèn)題的表征進(jìn)行答案三元組的初步篩選?;谖墨I(xiàn)[20]直接篩選top1候選三元組作為答案返回的做法,考慮到上游問(wèn)句理解任務(wù)的錯(cuò)誤可能會(huì)對(duì)答案實(shí)體造成影響,本文引入了答案推理重排序機(jī)制,不完全信任于pipeline上游問(wèn)句語(yǔ)義理解任務(wù)的輸出,而是將上游任務(wù)的輸出作為特征融入到下游問(wèn)答推理階段的模型中,基于偽孿生網(wǎng)絡(luò)對(duì)知識(shí)三元組和問(wèn)句分別進(jìn)行表征,實(shí)現(xiàn)答案推理結(jié)果三元組的重排序,對(duì)實(shí)體所在的錯(cuò)誤三元組進(jìn)行篩選和剔除。從而使得正確的三元組作為答案項(xiàng)返回。該部分框架如圖1所示。

2.2.1 知識(shí)表示學(xué)習(xí)

知識(shí)表示學(xué)習(xí)的目的是將知識(shí)圖譜中的實(shí)體和關(guān)系嵌入到連續(xù)的低維空間中。常用的模型有complex embeddings(ComplEx)[21]、TransE、全息嵌入(HolE)和RESCAL等。TransE模型簡(jiǎn)單,計(jì)算高效,但是對(duì)一對(duì)多、多對(duì)一、多對(duì)多的關(guān)系建模存在困難[22]。HolE模型,參數(shù)量上更加高效,但是往往不如其他復(fù)雜模型的表現(xiàn)力[23]。RESCAL在捕獲復(fù)雜關(guān)系上更具表現(xiàn)力,但是需要的參數(shù)量大,易容易導(dǎo)致過(guò)擬合和計(jì)算上的開(kāi)銷(xiāo)[24]。ComplEx是一個(gè)復(fù)數(shù)嵌入模型,可以很好地處理對(duì)稱、反對(duì)稱、傳遞等多種關(guān)系,模型在語(yǔ)義匹配方面通常能獲得更好的結(jié)果。另外與其他模型相比,它有更少的參數(shù),更方便工程實(shí)踐。因此本文采用ComplEx算法,將實(shí)體和關(guān)系表示為復(fù)數(shù)向量,在連續(xù)的低維向量空間進(jìn)行嵌入。對(duì)每個(gè)候選三元組,記作(h,r,t),h,t∈E,r∈R(E為知識(shí)圖譜中的實(shí)體節(jié)點(diǎn)集,R為邊的集合),并定義一個(gè)得分函數(shù)(score funcJssN+hUNlrh4ICs5UkcyGSTFv4qh/m0JYvtHS1SGDq8=tion),如式(3)所示。

其中:νh,νr,νt∈Cd,分別表示頭實(shí)體、關(guān)系和尾實(shí)體的復(fù)數(shù)向量嵌入;d表示嵌入的維度;Re表示取復(fù)數(shù)的實(shí)部。若是一個(gè)真實(shí)的三元組,則socre(h,r,t)其得分應(yīng)該相對(duì)高;否則得分相對(duì)低。

2.2.2 答案初篩

在答案初篩模型中,首先根據(jù)問(wèn)句理解核心實(shí)體關(guān)注度模型得到的實(shí)體,通過(guò)知識(shí)表示學(xué)習(xí)模型,獲得實(shí)體子圖,從而輸出實(shí)體節(jié)點(diǎn)以及所有可能答案實(shí)體節(jié)點(diǎn)在連續(xù)的低維向量空間的嵌入集合,分別記作核心實(shí)體向量h和候選答案實(shí)體向量t。核心實(shí)體向量h代表問(wèn)句中核心實(shí)體的嵌入向量,用于捕獲問(wèn)題的主要焦點(diǎn)。候選答案實(shí)體向量t(其中t∈T),代表知識(shí)庫(kù)中可能的答案實(shí)體的嵌入向量。另外通過(guò)組合網(wǎng)絡(luò)對(duì)question進(jìn)行問(wèn)題表示,以獲取關(guān)系表示向量r。

問(wèn)題表示網(wǎng)絡(luò)由一個(gè)RoBERTa語(yǔ)義表示層、一個(gè)BiLSTM層和一個(gè)注意力計(jì)算層構(gòu)成,共同實(shí)現(xiàn)對(duì)問(wèn)題的深度理解和有效的關(guān)系表征。RoBERTa作為預(yù)訓(xùn)練模型,融合了先驗(yàn)的自然語(yǔ)言特征,借助Transformer強(qiáng)大特征抽取能力,通過(guò)上下文語(yǔ)境實(shí)現(xiàn)相應(yīng)字符的動(dòng)態(tài)嵌入向量表示。為BiLSTM層提供一個(gè)可靠高質(zhì)量,具有豐富語(yǔ)義信息的輸入向量。BiLSTM作為一種特殊的RNN,憑借其特殊的門(mén)控機(jī)制以及細(xì)胞結(jié)構(gòu),能夠有效捕獲長(zhǎng)距離依賴關(guān)系,這對(duì)理解長(zhǎng)問(wèn)句中的復(fù)雜語(yǔ)義非常重要。尤其在處理包含多個(gè)實(shí)體的問(wèn)句時(shí),BiLSTM的雙向結(jié)構(gòu)能夠同時(shí)考慮前后文信息,從而在理解問(wèn)句的整體含義方面表現(xiàn)更佳。在BiLSTM層之后,引入了一個(gè)注意力機(jī)制層來(lái)捕獲更有價(jià)值的特征。通過(guò)注意力機(jī)制能夠賦予不同語(yǔ)言單元不同的權(quán)重,聚焦于問(wèn)句中最關(guān)鍵的部分,能夠更有效地捕獲與問(wèn)句關(guān)系表征相關(guān)的特征,進(jìn)而提升復(fù)雜自然語(yǔ)言問(wèn)句中關(guān)系抽取的精確度和效率。通過(guò)結(jié)合RoBERTa、BiLSTM和注意力機(jī)制,問(wèn)題表示網(wǎng)絡(luò)不僅能夠提供豐富的語(yǔ)義理解,還能夠精確地抽取與問(wèn)題相關(guān)的關(guān)鍵信息。模型的組合有效提升了自然語(yǔ)言處理任務(wù)中的性能,尤其是在理解復(fù)雜問(wèn)句和抽取關(guān)系方面。該網(wǎng)絡(luò)獲取到關(guān)系向量r的過(guò)程如式(4)所示。

r=SelfAttention(BiLSTM(RoBERTa(Q)))(4)

將得到的問(wèn)句關(guān)系表示向量r,綜合上游問(wèn)題理解任務(wù)得到的核心實(shí)體向量h以及候選答案實(shí)體向量t,通過(guò)式(3)的score評(píng)分函數(shù),來(lái)評(píng)估三元組的合適程度。得分越高意味著核心實(shí)體、問(wèn)題中隱含的關(guān)系和候選答案節(jié)點(diǎn)更可能組成一個(gè)三元組。即向量t對(duì)應(yīng)的實(shí)體是正確答案的概率就較大。相對(duì)地,得分較低則意味著候選答案節(jié)點(diǎn)與實(shí)體和問(wèn)題關(guān)系的關(guān)聯(lián)較弱,不太可能形成三元組。通過(guò)學(xué)習(xí)一個(gè)得分函數(shù)rank(t)來(lái)計(jì)算候選答案的得分,損失函數(shù)采用二元交叉熵(binary crossentropy),最大化正確答案實(shí)體得分,最小化錯(cuò)誤答案實(shí)體以及無(wú)關(guān)實(shí)體得分,如式(5)所示。

上游問(wèn)句理解階段,可能會(huì)出現(xiàn)實(shí)體識(shí)別的錯(cuò)誤。因此在這一環(huán)節(jié)中并不直接返回得分最高的答案實(shí)體節(jié)點(diǎn),而是選擇得分位于top-k的答案實(shí)體節(jié)點(diǎn),將這k個(gè)得分最高的實(shí)體節(jié)點(diǎn)作為潛在的答案節(jié)點(diǎn),實(shí)現(xiàn)三元組的粗過(guò)濾。接下來(lái),在答案推理重排序模型中進(jìn)行再次篩選。

2.3 答案推理重排序

KBQA的傳統(tǒng)pipeline中,實(shí)體識(shí)別、實(shí)體鏈接、答案推理通常會(huì)被視為一個(gè)完整的pipeline。一般研究中,實(shí)體識(shí)別、實(shí)體鏈接階段的結(jié)果僅保留得分最高項(xiàng),但如果該階段得到了錯(cuò)誤的實(shí)體項(xiàng),則必然導(dǎo)致下游問(wèn)答推理任務(wù)的錯(cuò)誤。根據(jù)中國(guó)移動(dòng)業(yè)務(wù)場(chǎng)景下的實(shí)際用戶查詢,發(fā)現(xiàn)用戶的問(wèn)題往往是復(fù)雜多樣的,經(jīng)常會(huì)出現(xiàn)一個(gè)問(wèn)題中有多個(gè)實(shí)體項(xiàng)。若參照文獻(xiàn)[20]直接篩選top1候選三元組作為答案返回,該三元組的頭實(shí)體可能并非用戶所提問(wèn)的核心意圖。另外雖然中文pipeline中實(shí)體識(shí)別和實(shí)體鏈接都采用了深度學(xué)習(xí)模型,模型準(zhǔn)確率較高,但仍可能得到錯(cuò)誤的實(shí)體項(xiàng),將會(huì)導(dǎo)致下游推理任務(wù)的錯(cuò)誤[25,26]。故而引入答案推理重排序階段,以融合上游任務(wù)中的輸出信息,進(jìn)一步對(duì)答案初篩模型輸出的答案實(shí)體集合進(jìn)行篩選。

基于此,本文將上游任務(wù)的輸出結(jié)果進(jìn)行保留,并作為特征輸入到答案推理重排序模型中,使用核心實(shí)體關(guān)注度與實(shí)體鏈接得分對(duì)后續(xù)的推理過(guò)程進(jìn)行標(biāo)注,對(duì)答案初篩模型得到的候選答案實(shí)體集合進(jìn)行精排。即便上游任務(wù)中得到了錯(cuò)誤的實(shí)體項(xiàng),通過(guò)答案推理重排序模型,依然可以對(duì)這些實(shí)體所在的錯(cuò)誤三元組實(shí)現(xiàn)篩選和剔除。答案推理重排序模型使用偽孿生網(wǎng)絡(luò),通過(guò)兩個(gè)網(wǎng)絡(luò)分別對(duì)知識(shí)圖譜結(jié)果和問(wèn)句進(jìn)行處理,解決問(wèn)答領(lǐng)域相似度計(jì)算問(wèn)題。答案推理重排序模型的框架如圖2所示。

對(duì)問(wèn)句的表征向量表示,首先通過(guò)對(duì)RoBERTa微調(diào),實(shí)現(xiàn)問(wèn)句編碼的語(yǔ)義嵌入,BERT系列模型中,Token[CLS]蘊(yùn)涵了整句話的語(yǔ)義信息,因此取Token[CLS],代表整個(gè)句子信息,用于下游任務(wù)的輸入。接著引用BiLSTM,對(duì)向量Token[CLS]進(jìn)行特征增強(qiáng)。最后通過(guò)全連接層,將處理過(guò)的[CLS]向量壓縮到與KG處理部分輸出的向量具有相同的維度。問(wèn)句經(jīng)過(guò)該模型得到問(wèn)句向量的過(guò)程vq,如式(6)所示。

vq=FC(BiLSTM(RoBERTa(Q)))(6)

對(duì)知識(shí)圖譜的表征向量表示,首先使用知識(shí)表示學(xué)習(xí)模型中得到的實(shí)體和關(guān)系嵌入,對(duì)知識(shí)圖譜中三元組關(guān)系進(jìn)行embedding,接著送入BiLSTM表征層得到一個(gè)關(guān)系內(nèi)容向量,記作vrc,該過(guò)程如式(7)所示。Tri表示經(jīng)過(guò)答案初篩模型中獲取到的top-k三元組中的第i個(gè)三元組。

vrc=BiLSTM(KGEmbedding(Tri))(7)

接著,將該關(guān)系內(nèi)容向量vrc與核心實(shí)體關(guān)注度模型得到的前期特征共同進(jìn)行注意力計(jì)算。前期特征,主要包括核心實(shí)體關(guān)注度計(jì)算得分α以及實(shí)體鏈接得到的問(wèn)句中實(shí)體與知識(shí)庫(kù)中的實(shí)體語(yǔ)義相似度計(jì)算得分score。計(jì)算獲取到知識(shí)圖譜處理模型的輸出vt,該過(guò)程如式(8)所示。

vt=attention(vrc,(α,score))(8)

通過(guò)式(6)(8)兩個(gè)網(wǎng)絡(luò)編碼分別得到了三元組在問(wèn)句中的表征向量vq和在知識(shí)圖譜中的表征向量vt。通過(guò)歐氏距離對(duì)兩向量計(jì)算相似性,vt和vq的相似性越高,則最終輸出越接近于1,反之則越接近于0。為了將最終的輸出約束在(0,1],使用了以e為底數(shù)的函數(shù),如式(9)所示 。

反向傳播中使用constrastive loss作為損失函數(shù)。constrastive loss損失函數(shù)目標(biāo)是學(xué)習(xí)一個(gè)距離函數(shù),使得相似樣本之間的距離小,而不同樣本之間的距離大。constrastive loss損失函數(shù)的表達(dá)式如下:

通過(guò)距離計(jì)算方法,可以處理偽孿生神經(jīng)網(wǎng)絡(luò)中的paired data從而衡量成對(duì)樣本的匹配程度。其中y∈[0,1]為兩個(gè)樣本是否相似的標(biāo)簽,d代表兩個(gè)向量的歐氏距離,η為預(yù)先設(shè)定的閾值。y值越大,表示問(wèn)句表征的關(guān)系與知識(shí)圖譜三元組表征的關(guān)系匹配度越高。當(dāng)y=1,表示完全匹配,可以看出此時(shí)的損失僅跟距離d有關(guān),為了最小化損失函數(shù),d越小則表明當(dāng)前模型效果較好。當(dāng)y=0,則表示樣本不相似,損失函數(shù)只剩下L=max(η-d,0)2,此時(shí)為了最小化損失函數(shù),距離d反而應(yīng)該越大。符合偽孿生網(wǎng)絡(luò)需求。

最后,對(duì)偽孿生網(wǎng)絡(luò)中得到的各個(gè)三元組與原問(wèn)句Q的相似度得分進(jìn)行排序,選擇相似度得分最高的top1三元組中的答案節(jié)點(diǎn)實(shí)體作為最終答案輸出。完成基于偽孿生網(wǎng)絡(luò)對(duì)知識(shí)三元組和問(wèn)句分別表征的答案推理重排序。

2.4 遷移學(xué)習(xí)策略

實(shí)際業(yè)務(wù)全新領(lǐng)域下,數(shù)據(jù)規(guī)模往往較小,知識(shí)圖譜不夠完善。而本節(jié)涉及的模型都較為復(fù)雜,且每個(gè)模型的參數(shù)量都來(lái)到了億級(jí)別??梢?jiàn)基于有限的非結(jié)構(gòu)化語(yǔ)料實(shí)現(xiàn)精度較高的KBQA系統(tǒng),這是業(yè)界在KBQA方面落地的難點(diǎn)。中國(guó)移動(dòng)的業(yè)務(wù)場(chǎng)景下,僅僅提供了一個(gè)萬(wàn)級(jí)別字符長(zhǎng)度的用戶手冊(cè),以及百級(jí)別的QA對(duì),如果直接使用如此大參數(shù)量的模型進(jìn)行訓(xùn)練和預(yù)測(cè),加上KBQA模型中間的監(jiān)督信號(hào)比較弱,很大可能導(dǎo)致嚴(yán)重的過(guò)擬合或預(yù)測(cè)錯(cuò)誤。因此引入遷移學(xué)習(xí)來(lái)解決KBQA冷啟動(dòng)問(wèn)題。先基于外部語(yǔ)料庫(kù)CCKS2021生活服務(wù)領(lǐng)域知識(shí)圖譜萬(wàn)級(jí)別問(wèn)答數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。凍結(jié)部分網(wǎng)絡(luò)層后在中國(guó)移動(dòng)問(wèn)答語(yǔ)料上進(jìn)行模型微調(diào)。

采用遷移學(xué)習(xí)策略,對(duì)于那些難以獲取大量標(biāo)注數(shù)據(jù)的領(lǐng)域,遷移學(xué)習(xí)允許使用較少的標(biāo)注數(shù)據(jù)仍然獲得很好的性能。另外由于大部分權(quán)重都是從預(yù)訓(xùn)練模型中繼承的,所以只需要微調(diào)模型,從而節(jié)省了大量的計(jì)算資源和時(shí)間。預(yù)訓(xùn)練模型首先在多個(gè)任務(wù)和數(shù)據(jù)集上進(jìn)行訓(xùn)練,因此能夠捕獲更多的通用KBQA特征,再遷移至特定情景下的語(yǔ)料,有助于新任務(wù)的泛化,模型不僅能滿足通用的KBQA需求,也能預(yù)測(cè)RPA領(lǐng)域?qū)S械恼Z(yǔ)料。在商業(yè)應(yīng)用和實(shí)際場(chǎng)景下,往往有不斷擴(kuò)大語(yǔ)料甚至將系統(tǒng)遷移至其他領(lǐng)域的需求,快速得到一個(gè)可使用模型很關(guān)鍵。在預(yù)訓(xùn)練的策略下,將模型遷移至其他領(lǐng)域不需要付出過(guò)多的額外訓(xùn)練成本,可以迅速部署模型并對(duì)其進(jìn)行微調(diào)以滿足特定的業(yè)務(wù)需求。

英文問(wèn)答模型的部分,由于MetaQA語(yǔ)料本身訓(xùn)練集的數(shù)據(jù)條數(shù)已經(jīng)達(dá)到20萬(wàn)以上,故本文的英文問(wèn)答模型直接在MetaQA數(shù)據(jù)集上進(jìn)行訓(xùn)練。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

中文數(shù)據(jù)集采用企業(yè)合作伙伴中國(guó)移動(dòng)提供的RPA用戶指南數(shù)據(jù),指南以非結(jié)構(gòu)化文本的形式描述了用戶可能遇到的問(wèn)題、詳細(xì)描述、原因剖析和應(yīng)對(duì)措施。從RPA用戶指南抽取實(shí)體、屬性、屬性值174個(gè),考慮到RPA用戶指南數(shù)據(jù)量較少,通過(guò)內(nèi)部資源、外部資源等渠道對(duì)RPA用戶指南問(wèn)答數(shù)據(jù)進(jìn)行了整合和擴(kuò)充。內(nèi)部資源整合包括中國(guó)移動(dòng)內(nèi)部已有的RPA文檔、用戶案例研究文檔、最佳用戶實(shí)踐指南。外部資源匯集了來(lái)自RPA技術(shù)提供商、行業(yè)論壇、專(zhuān)業(yè)社區(qū)和用戶反饋的相關(guān)資料。整合后問(wèn)答數(shù)據(jù)擴(kuò)充至5 968條。

由于移動(dòng)方提供的數(shù)據(jù)資料有限,為防止出現(xiàn)嚴(yán)重的過(guò)擬合或預(yù)測(cè)錯(cuò)誤,所以結(jié)合了遷移學(xué)習(xí)的方法,采用CCKS2021移動(dòng)運(yùn)營(yíng)商知識(shí)圖譜問(wèn)答數(shù)據(jù)集作為補(bǔ)充。該數(shù)據(jù)集共計(jì)8 500條問(wèn)答數(shù)據(jù),包含問(wèn)題、對(duì)應(yīng)的實(shí)體節(jié)點(diǎn)、答案節(jié)點(diǎn)、供參考的SPARQL查詢(含實(shí)體、屬性等信息)。CCKS2021的移動(dòng)運(yùn)營(yíng)商知識(shí)圖譜問(wèn)答數(shù)據(jù)集為中間步驟提供了部分答案,有效地解決了KBQA端到端模型中中間監(jiān)督的不足,可以實(shí)現(xiàn)對(duì)pipeline中每個(gè)模塊的獨(dú)立訓(xùn)練。將CCKS2021移動(dòng)運(yùn)營(yíng)商知識(shí)圖譜問(wèn)答數(shù)據(jù)集按照80%、10%、10%進(jìn)行了訓(xùn)練集、驗(yàn)證集、測(cè)試集的劃分,以該語(yǔ)料下訓(xùn)練得到的模型作為初步的問(wèn)答模型,并遷移至RPA知識(shí)圖譜領(lǐng)域的問(wèn)答中。在5 968條中國(guó)移動(dòng)PRA用戶指南問(wèn)答數(shù)據(jù)上選取2 984條數(shù)據(jù)用于模型微調(diào),并選用2 984條數(shù)據(jù)進(jìn)行測(cè)試。

英文數(shù)據(jù)集采用開(kāi)源的MetaQA(movie text audio QA)數(shù)據(jù)集,MetaQA的數(shù)據(jù)主要來(lái)源于Facebook的MovieQA。該數(shù)據(jù)集中的問(wèn)題包含三種類(lèi)型,按問(wèn)題所涉及的知識(shí)圖譜跳數(shù),分為1-hop、2-hop和3-hop。回答1-hop的問(wèn)題,只需考慮一個(gè)實(shí)體和它的直接關(guān)系,而2-hop或3-hop問(wèn)題則涉及更復(fù)雜的關(guān)系鏈。

鑒于MetaQA數(shù)據(jù)集中的主題實(shí)體已有標(biāo)注,為了檢驗(yàn)本研究上游問(wèn)句理解任務(wù)中核心實(shí)體關(guān)注度評(píng)估模型的表現(xiàn),本文所用數(shù)據(jù)移除了MetaQA數(shù)據(jù)集中問(wèn)句實(shí)體的標(biāo)注,并基于字符串匹配規(guī)則將問(wèn)句轉(zhuǎn)換為陳述句,使用and、but、while連接前后句,共構(gòu)造了800 000條多實(shí)體問(wèn)句,按照80%、10%、10%劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。

3.2 對(duì)比實(shí)驗(yàn)

本節(jié)將利用上文描述的處理后的中英文數(shù)據(jù)集,與目前表現(xiàn)較好的PullNet、EmbedKGQA、TransferNet等模型進(jìn)行對(duì)比實(shí)驗(yàn)。評(píng)估指標(biāo)采用hits@1指標(biāo)進(jìn)行計(jì)算。hits@n指標(biāo)常用于知識(shí)圖譜補(bǔ)全和推薦系統(tǒng)等領(lǐng)域。該指標(biāo)衡量模型預(yù)測(cè)結(jié)果的前n個(gè)條目中是否包含正確的答案或項(xiàng)。若hits@3為0.9,表示在90%的測(cè)試樣本中,正確答案都位于模型預(yù)測(cè)的前三位。hits@n指標(biāo)的計(jì)算如式(11)所示。

其中:S為三元組集合;|S|表示三元組集合大??;Ⅱ(ranki≤n)為指示函數(shù),檢查第i個(gè)樣本的正確答案是否在前n個(gè)預(yù)測(cè)中。如果是,則該函數(shù)值為1;否則為0。

3.2.1 中文數(shù)據(jù)集

中文數(shù)據(jù)集部分,采用RPA知識(shí)圖譜問(wèn)答下的2 984條數(shù)據(jù)作為測(cè)試集語(yǔ)料,將本文提出的基于知識(shí)表示學(xué)習(xí)的KBQA答案推理重排序算法模型與傳統(tǒng)的pipeline、pipeline加特征融合方案,以準(zhǔn)確率作為評(píng)估指標(biāo),分別進(jìn)行測(cè)試,具體結(jié)果如表1,加粗?jǐn)?shù)值為列表中的最優(yōu)值(下同)。

從表1明顯看出,本文算法在RPA問(wèn)答數(shù)據(jù)集的預(yù)測(cè)性能更為優(yōu)秀,準(zhǔn)確率相較于傳統(tǒng)pipeline提高了12.8%。相較于特征融合方案提高了4.5%??紤]到RPA問(wèn)答數(shù)據(jù)集語(yǔ)料較少,可能存在實(shí)驗(yàn)結(jié)果的偶然性,又基于CCKS2021運(yùn)營(yíng)商知識(shí)圖譜問(wèn)答數(shù)據(jù)集,將本文提出的基于知識(shí)表示學(xué)習(xí)的KBQA答案推理重排序模型與傳統(tǒng)的pipeline及CCKS知識(shí)圖譜問(wèn)答競(jìng)賽的top3方案[25],以F1為評(píng)估指標(biāo),分別進(jìn)行了對(duì)比實(shí)驗(yàn)。結(jié)果如表2所示。

由表2中的預(yù)測(cè)結(jié)果可以看出,本文模型顯著超越傳統(tǒng)pipeline,F(xiàn)1值提高了21.9%,但相較于競(jìng)賽的top3方案有一定差距,與最優(yōu)的基于特征融合的中文知識(shí)庫(kù)問(wèn)答方法,F(xiàn)1值相差1.48%。分析原因如下:

a)在實(shí)體鏈接的過(guò)程中,部分?jǐn)?shù)據(jù)出現(xiàn)了異常。盡管鏈接到了正確的實(shí)體項(xiàng),但通過(guò)SPARQL查詢時(shí)無(wú)法找到這個(gè)實(shí)體的子圖。

b)數(shù)據(jù)集里有相當(dāng)一部分的問(wèn)句包含了特定的條件,比如“螞蟻金服最新的融資額是多少?”,含有限制條件的問(wèn)句占比為3%,在測(cè)試集中存在23個(gè)句子有限制條件。

c)數(shù)據(jù)集中與答案無(wú)關(guān)的干擾實(shí)體項(xiàng)較少,所鏈接的實(shí)體大多與答案實(shí)體存在三元組的聯(lián)系。

3.2.2 英文數(shù)據(jù)集

英文數(shù)據(jù)集部分,基于MetaQA原數(shù)據(jù)集和原知識(shí)庫(kù)構(gòu)造的多實(shí)體問(wèn)句,以hits@1作為評(píng)估指標(biāo),對(duì)多實(shí)體問(wèn)句數(shù)據(jù)集MetaQA測(cè)試集的1-hop、2-hop問(wèn)句分別進(jìn)行評(píng)估,評(píng)估結(jié)果如表3所示。

由表3可發(fā)現(xiàn)其他模型在處理含有多個(gè)實(shí)體和關(guān)系的復(fù)雜句子時(shí)性能明顯下降,尤其在2跳問(wèn)句的預(yù)測(cè)上更為明顯。這表明通過(guò)引入核心實(shí)體關(guān)注度評(píng)估,可以顯著提高問(wèn)答準(zhǔn)確率。1跳問(wèn)句中,核心實(shí)體關(guān)注度評(píng)估的引入使得hits@1值從81.3%提升到了90.5%。2跳問(wèn)句中,核心實(shí)體關(guān)注度評(píng)估的引入使得hits@1值從78.4%提升到了89.8%。原因在于,多實(shí)體關(guān)系會(huì)引入過(guò)多的實(shí)體關(guān)系信息,造成干擾并增加句子的語(yǔ)義復(fù)雜度。一般模型在區(qū)分多實(shí)體問(wèn)句中各實(shí)體的重要性和關(guān)聯(lián)度上存在局限,導(dǎo)致無(wú)法有效聚焦于關(guān)鍵實(shí)體。本文通過(guò)引入核心實(shí)體關(guān)注度計(jì)算模型,能夠更精確地理解句子的主要焦點(diǎn),提高實(shí)體識(shí)別的準(zhǔn)確率。尤其在復(fù)雜句子中,關(guān)注度評(píng)估有助于過(guò)濾掉不相關(guān)的信息,減少噪聲對(duì)實(shí)體識(shí)別的干擾,模型可以將更多資源集中于重要實(shí)體的識(shí)別上,從而提高整體處理效率。另外關(guān)注度評(píng)估的引入能夠增強(qiáng)模型對(duì)句子的上下文理解,以及復(fù)雜句子結(jié)構(gòu)的隱含語(yǔ)義理解。

為了驗(yàn)證本文模型在不完整知識(shí)圖譜上問(wèn)答推理的有效性,參照文獻(xiàn)[20],對(duì)MetaQA數(shù)據(jù)集進(jìn)行了50%的隨機(jī)移除,來(lái)模擬一個(gè)稀疏的知識(shí)圖譜(稱為50%KG)。分別在50%KG的MetaQA數(shù)據(jù)集下,與表現(xiàn)較好的KVMem[26]、GraftNet[27]、PullNet[13]、EmbedKGQA[16]、TransferNet[28]等模型進(jìn)行對(duì)比實(shí)驗(yàn)。表4中,括號(hào)內(nèi)的數(shù)值為50%KG圖譜下使用額外MetaQA文本對(duì)圖譜補(bǔ)充的預(yù)測(cè)結(jié)果(實(shí)驗(yàn)結(jié)果數(shù)據(jù)源于文獻(xiàn)[13,14,29,30]),括號(hào)外的數(shù)值為50%KG圖譜上預(yù)測(cè)的結(jié)果(實(shí)驗(yàn)結(jié)果數(shù)據(jù)源于文獻(xiàn)[20])。具體對(duì)比結(jié)果如表4所示。

由表4可見(jiàn),在非完整的50%KG下MetaQA數(shù)據(jù)集上,其他模型的準(zhǔn)確性均顯著降低,EmbedKGQA模型在hits@1的評(píng)估結(jié)果上,遠(yuǎn)高于除TransfetNet方案外的其他模型,同時(shí)本文模型相較于EmbedKGQA模型,在1-hop、2-hop、3-hop上均取得了更優(yōu)的效果。原因在于MetaQA的知識(shí)圖譜本身的KG較為稀疏,擁有43 000個(gè)實(shí)體,而三元組數(shù)量為135 000個(gè)。當(dāng)刪除了50%的三元組后,每個(gè)實(shí)體平均只與1.66條邊相連,圖譜變得更加稀疏。這導(dǎo)致很多問(wèn)題尋找答案實(shí)體的路徑更長(zhǎng)。KVMem模型雖然擅長(zhǎng)存儲(chǔ)和檢索信息,但在多跳推理和稀疏環(huán)境中面臨信息覆蓋不足的問(wèn)題。盡管GraftNet和PullNet模型擅長(zhǎng)整合文本和知識(shí)圖譜信息,但在稀疏知識(shí)圖譜上往往難以找到足夠的關(guān)聯(lián)信息,導(dǎo)致推理鏈路不完整,表現(xiàn)較差。相較于GraftNet和PullNet,EmbedKGQA模型在研究多路徑知識(shí)圖譜嵌入方面,不只關(guān)注了深度搜索路徑問(wèn)題,還兼顧了鄰居節(jié)點(diǎn)信息聚合的廣度路徑搜索。因此EmbedKGQA模型在執(zhí)行稀疏KG的多跳問(wèn)答任務(wù)上表現(xiàn)較優(yōu)。但是EmbedKGQA主要依賴知識(shí)圖譜的嵌入表示,稀疏圖譜存在嵌入質(zhì)量不佳問(wèn)題,進(jìn)而影響答案的準(zhǔn)確性。TransferNet模型專(zhuān)注于實(shí)體鏈接和關(guān)系預(yù)測(cè),它在處理具有明確實(shí)體和關(guān)系的問(wèn)題時(shí)表現(xiàn)良好,但在處理多跳問(wèn)題時(shí),由于每一跳都需要精確的實(shí)體和關(guān)系匹配,而稀疏圖譜導(dǎo)致關(guān)鍵信息的缺失。所以TransferNet在稀疏知識(shí)圖譜上的表現(xiàn)大幅度下降。

可見(jiàn)使用傳統(tǒng)的基于信息檢索的多跳推理方法,很多問(wèn)題的中心實(shí)體需要經(jīng)過(guò)更長(zhǎng)的路徑才能達(dá)到其答案節(jié)點(diǎn),問(wèn)答推理性能不佳。因此本文模型通過(guò)引入額外的文本語(yǔ)料對(duì)關(guān)系進(jìn)行補(bǔ)充,來(lái)提高模型性能。利用知識(shí)圖譜嵌入將實(shí)體和關(guān)系的豐富語(yǔ)義信息編碼為低維向量,能有效捕獲知識(shí)圖譜中的隱含信息。在稀疏知識(shí)圖譜環(huán)境下,脫離了子圖搜索空間的約束,即使直接的信息鏈路不完整,本文模型仍能利用這些嵌入來(lái)推理出問(wèn)題的答案。此外,嵌入方法還有助于減少對(duì)直接、顯式鏈接的依賴,從而在處理多跳問(wèn)答時(shí)更為靈活。

綜上,本文模型在多實(shí)體問(wèn)句上的表現(xiàn)顯著優(yōu)于其他先進(jìn)模型,說(shuō)明本文模型通過(guò)引入注意力機(jī)制的動(dòng)態(tài)聚焦能力,根據(jù)上下文變化動(dòng)態(tài)調(diào)整對(duì)不同實(shí)體的關(guān)注程度,進(jìn)而在處理多實(shí)體復(fù)雜句子時(shí),能夠更有效地識(shí)別出最關(guān)鍵的信息。另外,本文模型在50%KG的MetaQA知識(shí)庫(kù)上的預(yù)測(cè)結(jié)果也優(yōu)于先進(jìn)模型EmbedKGQA,說(shuō)明在不完整知識(shí)圖譜上本文模型具有更強(qiáng)的鏈接預(yù)測(cè)能力,能夠完成對(duì)缺失邊的隱式關(guān)系推理,進(jìn)而尋找到正確的三元組并提取答案。

3.3 模型選型實(shí)驗(yàn)

3.3.1 知識(shí)表示學(xué)習(xí)與答案初篩模型

本節(jié)對(duì)知識(shí)表示學(xué)習(xí)和答案初篩部分進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中經(jīng)過(guò)精細(xì)化調(diào)參,確定了知識(shí)表示學(xué)習(xí)模型和答案初篩模型的超參數(shù)。具體如表5、6所示。

答案初篩階段,使用hits@k和hits@1兩種評(píng)估指標(biāo)。hits@1主要目的是在消融實(shí)驗(yàn)中檢驗(yàn)答案推理重排序模型的性能。hits@k為模型篩選到top-k候選實(shí)體中包含答案實(shí)體的概率,為該模型的核心評(píng)估指標(biāo)。

在英文數(shù)據(jù)集MetaQA上1-hop訓(xùn)練數(shù)據(jù)上,取k=5,隨著epoch的增長(zhǎng)在訓(xùn)練集、檢驗(yàn)集和測(cè)試集上的hits@1和hits@5訓(xùn)練曲線圖,分別如圖3、4所示。

從訓(xùn)練圖表中可以觀察到,hits@5和hits@1的值在訓(xùn)練輪次epoch=10以前,有顯著的增長(zhǎng)。當(dāng)epoch超過(guò)10后,兩值的增長(zhǎng)開(kāi)始減緩并逐漸穩(wěn)定。因此,本研究選擇epoch=20時(shí)的模型作為該階段的最終模型。

對(duì)比epoch=20后的hits@5與hits@1指標(biāo),可發(fā)現(xiàn),在驗(yàn)證集和測(cè)試集上,hits@5與hits@1之間的差值介于(0.6%,1.1%)。平均來(lái)看,hits@5的表現(xiàn)超過(guò)hits@1約0.84%。具體如圖5所示。

通過(guò)實(shí)驗(yàn),發(fā)現(xiàn)在MetaQA上2-hop、3-hop數(shù)據(jù)集上有著類(lèi)似的訓(xùn)練曲線,具體結(jié)果指標(biāo)數(shù)據(jù),如表7所示。

答案初篩階段,需要選取top-k的三元組,將其作為潛在答案節(jié)點(diǎn),實(shí)現(xiàn)粗過(guò)濾。K的不同取值對(duì)top-k中的答案召回以及后續(xù)的重排序模型精度均有影響。本節(jié)取不同的k值,來(lái)對(duì)比具體實(shí)驗(yàn)效果。k=3、k=5、k=10時(shí)的hits@k,如表8所示。

由表8對(duì)比可知,在不同跳數(shù)MetaQA數(shù)據(jù)集上,k=5時(shí)的hits@k明顯高于k=3,可以判斷出部分正確三元組出現(xiàn)在答案初篩階段排序的第四和第五名,從而使得hits@k指標(biāo)在k=5時(shí)表現(xiàn)更優(yōu)。再對(duì)比hits@k在k=5和k=10時(shí)的表現(xiàn),發(fā)現(xiàn)最大差異0.3%,最小差異0%,差異不大。可以推斷出,由于問(wèn)句語(yǔ)義理解階段的錯(cuò)誤或問(wèn)句本身復(fù)雜難以理解,當(dāng)k繼續(xù)增大時(shí),hits@k的表示也無(wú)法再繼續(xù)顯著提升。另外考慮到k值越大,候選三元組保留越多,會(huì)降低答案推理重排序模型效率。為了兼顧模型的效率和表現(xiàn)效果,所以選擇k=5,作為該階段的最終模型參數(shù),即保留top-5三元組作為答案初篩模型的輸出。

3.3.2 答案推理重排序模型

本節(jié)對(duì)答案推理重排序模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中經(jīng)過(guò)精細(xì)化調(diào)參,確定了答案推理重排序模型的超參數(shù)。具體如表9所示。

答案推理重排序階段,使用hits@1作為最終的評(píng)估指標(biāo),將模型預(yù)測(cè)得到的最高排名答案實(shí)體id與知識(shí)庫(kù)中存儲(chǔ)的答案實(shí)體項(xiàng)進(jìn)行鏈接,并與正確答案進(jìn)行比對(duì),來(lái)驗(yàn)證問(wèn)答的準(zhǔn)確率。

以MetaQA上1-hop訓(xùn)練數(shù)據(jù)為例,隨著epoch的增長(zhǎng),hits@1在訓(xùn)練集、檢驗(yàn)集和測(cè)試集上的表現(xiàn)效果如圖6所示。圖6(a)(b)分別對(duì)應(yīng)訓(xùn)練100 epoch和20 epoch時(shí),hits@1指標(biāo)在訓(xùn)練集、驗(yàn)證集和測(cè)試集的變化。

從訓(xùn)練曲線可以看出,epoch=15之前,hits@1值有顯著的增長(zhǎng)。當(dāng)epoch值超過(guò)15后,hits@1增長(zhǎng)開(kāi)始減緩逐步趨于平緩。因此,本文選擇了epoch=20時(shí)的模型作為答案推理重排序階段的最終模型。同樣,在MetaQA的2-hop和3-hop訓(xùn)練數(shù)據(jù)中,也觀察到了相似的訓(xùn)練趨勢(shì),具體結(jié)果指標(biāo)數(shù)據(jù),如表10所示。

4 結(jié)束語(yǔ)

本文提出了基于知識(shí)表示學(xué)習(xí)的KBQA答案推理重排序算法,側(cè)重解決真實(shí)業(yè)務(wù)場(chǎng)景下由于知識(shí)圖譜稀疏,對(duì)問(wèn)題推理造成阻礙的問(wèn)題。常規(guī)基于信息檢索的推理模型往往從實(shí)體出發(fā),對(duì)實(shí)體所在知識(shí)庫(kù)中的子圖進(jìn)行檢索,對(duì)知識(shí)庫(kù)中的隱式關(guān)系缺少分析,造成主題實(shí)體到答案實(shí)體的路徑尋找缺失或與真實(shí)答案不相關(guān)。本文通過(guò)引入知識(shí)表示學(xué)習(xí),在復(fù)數(shù)空間實(shí)現(xiàn)知識(shí)圖譜中實(shí)體和關(guān)系的嵌入,依據(jù)ComplEx的復(fù)數(shù)域得分函數(shù)評(píng)估構(gòu)成三元組的合理性,實(shí)現(xiàn)對(duì)知識(shí)圖譜中的隱含關(guān)系推理。并基于答案初篩模型實(shí)現(xiàn)top-k候選答案三元組的粗篩。

此外創(chuàng)新性地基于偽孿生網(wǎng)絡(luò),實(shí)現(xiàn)了答案推理重排序。將上游核心實(shí)體識(shí)別任務(wù)的輸出作為特征融入到下游問(wèn)答推理階段的模型中,對(duì)答案實(shí)體集進(jìn)行重排序。解決了傳統(tǒng)pipeline中,問(wèn)句語(yǔ)義理解對(duì)下游問(wèn)答推理的錯(cuò)誤傳播。相較于直接計(jì)算三元組和問(wèn)題語(yǔ)義相似度,孿生網(wǎng)絡(luò)能夠同時(shí)表征兩者,將知識(shí)表示學(xué)習(xí)模型中得到的三元組嵌入與問(wèn)句語(yǔ)義解析得到的問(wèn)句低維向量實(shí)現(xiàn)更加精準(zhǔn)的距離計(jì)算,并且通過(guò)對(duì)模型的訓(xùn)練能夠充分保留三元組和問(wèn)題中原有的隱含語(yǔ)義、語(yǔ)境等特征。本文提出的基于知識(shí)表示學(xué)習(xí)的KBQA答案推理重排序模型,在CCKS2021運(yùn)營(yíng)商知識(shí)圖譜問(wèn)答數(shù)據(jù)集上的表現(xiàn)效果,相對(duì)于該競(jìng)賽的top方案,其性能略顯不足。經(jīng)分析發(fā)現(xiàn)多數(shù)bad case都分布在含有限制條件問(wèn)句的預(yù)測(cè)上,而模型中并沒(méi)有對(duì)限制條件進(jìn)行約束,對(duì)限制條件添加約束是本文模型未來(lái)需要繼續(xù)優(yōu)化研究的一個(gè)方向。另外,中國(guó)移動(dòng)方提供的非結(jié)構(gòu)化數(shù)據(jù)很有限,盡管模型訓(xùn)練過(guò)程中使用了遷移學(xué)習(xí),但是模型更多學(xué)習(xí)到的仍是通用KBQA屬性,而非RPA語(yǔ)料庫(kù)的專(zhuān)有問(wèn)答特征。如何快速調(diào)整模型以適應(yīng)各種業(yè)務(wù)環(huán)境的語(yǔ)境,以及在專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)稀缺的情況下如何實(shí)施小樣本學(xué)習(xí),也是未來(lái)研究需要改進(jìn)的方向。

參考文獻(xiàn):

[1]Ghorbanali A,Sohrabi M K,Yaghmaee F. Ensemble transfer learning-based multimodal sentiment analysis using weighted convolutional neural networks[J]. Information Processing & Management, 2022, 59(3): 102929.

[2]Fan Yixing, Xie Xiaohui, Cai Yinqiong, et al. Pre-training methods in information retrieval[J]. Foundations and Trends in Information Retrieval, 2022,16(3): 178-317.

[3]Lin J. A proposed conceptual framework for a representational approach to information retrieval[J]. ACM SIGIR Forum, 2022, 55(2): article No.4.

[4]Abbasiantaeb Z, Momtazi S. Text-based question answering from information retrieval and deep neural network perspectives: a survey[J]. Wiley Interdisciplinary Reviews: Data Mining and Know-ledge Discovery, 2021, 11(6): e1412.

[5]Venant A, Lareau F. Predicates and entities in abstract meaning representation[C]//Proc of the 7th International Conference on Depen-dency Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2023: 32-41.

[6]Luo Kangqi, Lin Fengli, Luo Xusheng, et al. Knowledge base question answering via encoding of complex query graphs[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 2185-2194.

[7]Kapanipathi P, Abdelaziz I, Ravishankar S, et al. Question answe-ring over knowledge bases by leveraging semantic parsing and neuro-symbolic reasoning[EB/OL]. (2020-12-03). https://arxiv.org/abs/ 2012.01707.

[8]Sun Yawei, Zhang Lingling, Cheng Gong, et al. SPARQA: skeleton-based semantic parsing for complex questions over knowledge bases[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 8952-8959.

[9]Qiu Yunqi, Wang Yuanzhuo, Jin Xiaolong, et al. Stepwise reasoning for multi-relation question answering over knowledge graph with weak supervision[C]//Proc of the 13th International Conference on Web Search and Data Mining. New York: ACM Press, 2020: 474-482.

[10]Saha A, Ansari G A, Laddha A, et al. Complex program induction for querying knowledge bases in the absence of gold programs[J]. Trans of the Association for Computational Linguistics, 2019, 7: 185-200.

[11]Li Tianle, Ma Xueguang, Zhuang A, et al. Few-shot in-context lear-ning for knowledge base question answering[EB/OL]. (2023-05-04). https://arxiv.org/abs/2305.01750.

[12]Gao Feng, Ping Qing, Thattai G, et al. Transform-retrieve-generate: natural language-centric outside-knowledge visual question answering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5057-5067.

[13]Sun Haitian, Bedrax-Weiss T, Cohen W W. PullNet: open domain question answering with iterative retrieval on knowledge bases and text [EB/OL]. (2019-04-21). https://arxiv.org/abs/1904.09537.

[14]Xiong Wenhan, Yu Mo, Chang Shiyu, et al. Improving question answering over incomplete KBS with knowledge-aware reader[EB/OL]. (2019-05-31). https://arxiv.org/abs/1905.07098.

[15]Han Jiale, Cheng Bo, Wang Xu. Open domain question answering based on text enhanced knowledge graph with hyperedge infusion[C]//Proc of Findings of Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 1475-1481.

[16]Saxena A, Tripathi A, Talukdar P. Improving multi-hop question answering over knowledge graphs using knowledge base embeddings[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 4498-4507.

[17]Han Jiale, Cheng Bo, Wang Xu. Two-phase hypergraph based reasoning with dynamic relations for multi-hop KBQA[C]//Proc of the 29th International Joint Conference on Artificial Intelligence. New York: ACM Press, 2020: 3615-3621.

[18]He Gaole, Lan Yunshi, Jiang Jing, et al. Improving multi-hop knowledge base question answering by learning intermediate supervision signals[C]//Proc of the 14th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2021: 553-561.

[19]Zhang Xiaoyu, Xin Xin, Li Dongdong, et al. Variational reasoning over incomplete knowledge graphs for conversational recommendation[C]//Proc of the 16th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2023: 231-239.

[20]Wang Yanda, Chen Weitong, Pi Dechang, et al. Adversarially regularized medication recommendation model with multi-hop memory network[J]. Knowledge and Information Systems, 2021, 63(1): 125-142.

[21]Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]//Proc of the 33rd International Conference on Machine Learning. [S.l.]: JMLR.org, 2016: 2071-2080.

[22]Bordes A, Usunier N, Garcia-Duran A, et al. Translating embeddings for modeling multi-relational data[C]//Proc of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013: 2787-2795.

[23]Nickel M, Rosasco L, Poggio T. Holographic embeddings of know-ledge graphs[C]//Proc of the 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 1955-1961.

[24]Nickel M, Tresp V, Kriegel H P. A three-way model for collective learning on multi-relational data[C]//Proc of the 28th International Conference on International Conference on Machine Learning. [S.l.]: Omnipress, 2011: 809-816.

[25]張鴻志, 李如寐, 王思睿, 等. 基于預(yù)訓(xùn)練語(yǔ)言模型的檢索-匹配式知識(shí)圖譜問(wèn)答系統(tǒng)[EB/OL]. (2021) [2024-01-02]. https://bj.bcebos.com/v1/conference/ccks2020/eval_paper/ccks2020_eval_paper_1_4_2.pdf. (Zhang Hongzhi, Li Rumei, Wang Sirui, et al. Retrieval-matching knowledge graph question answering system based on pre-trained language model[EB/OL]. (2021) [2024-01-02].https://bj.bcebos.com/v1/conference/ccks2020/eval_paper/ccks2020_eval_paper_1_4_2.pdf.)

[26]Xu Kun, Lai Yuxuan, Feng Yansong, et al. Enhancing key-value memory neural networks for knowledge based question answering[C]//Proc of Conference on North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2937-2947.

[27]Sun Haitian, Dhingra B, Zaheer M, et al. Open domain question answering using early fusion of knowledge bases and text[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 4231-4242.

[28]Shi Jiaxin, Cao Shulin, Hou Lei, et al. TransferNet: an effective and transparent framework for multi-hop question answering over relation graph[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 4149-4158.

[29]汪洲, 侯依寧, 汪美玲, 等. 基于特征融合的中文知識(shí)庫(kù)問(wèn)答方法[EB/OL]. (2021) [2024-01-02]. https://bj.bcebos.com/v1/conference/ ccks2020/eval_paper/ccks2020_eval_paper_1_4_1.pdf. (Wang Zhou, Hou Yining, Wang Meiling, et al. Chinese knowledge base question answering method based on feature fusion[EB/OL]. (2021) [2024-01-02]. https://bj.bcebos.com/v1/conference/ccks2020/eval_paper/ccks2020_ eval_paper_1_4_1. pdf.)

[30]Tan Yiming, Zhang Xinyu, Chen Yongrui, et al. CLRN: a reasoning network for multi-relation question answering over cross-lingual know-ledge graphs[J]. Expert Systems with Applications: An International Journal, 2023, 231(C): 120721.