国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文知識(shí)庫(kù)問(wèn)答中的路徑選擇

2021-10-19 08:46:58周夏冰李正華梁興偉陳文亮
中文信息學(xué)報(bào) 2021年9期
關(guān)鍵詞:知識(shí)庫(kù)實(shí)體語(yǔ)義

吳 錕,周夏冰,李正華,梁興偉,陳文亮

(1.蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2.康佳集團(tuán)股份有限公司,廣東 深圳 518000)

0 引言

知識(shí)庫(kù)問(wèn)答(Knowledge Base Question Answering,KBQA)是一項(xiàng)具有挑戰(zhàn)性的自然語(yǔ)言處理任務(wù),需要根據(jù)給定的自然語(yǔ)言問(wèn)句,通過(guò)檢索結(jié)構(gòu)化的知識(shí)庫(kù),返回事實(shí)性答案。國(guó)內(nèi)外已經(jīng)構(gòu)建起多個(gè)成熟的開(kāi)放域知識(shí)庫(kù),其中,面向英文的包括Freebase[1],DBpedia[2]等,面向中文的包括Zhishi.me[3],CNDBpedia[4]。知識(shí)庫(kù)作為KBQA的知識(shí)來(lái)源,是由大量結(jié)構(gòu)化的事實(shí)三元組(S,R,O)構(gòu)成,例如,在三元組(<莫妮卡·貝魯奇>,<代表作品>,<西西里的美麗傳說(shuō)>)中,<莫妮卡·貝魯奇>被稱(chēng)為主語(yǔ)(Subject,S),<代表作品>被稱(chēng)為關(guān)系(Relation,R),<西西里的美麗傳說(shuō)>被稱(chēng)為賓語(yǔ)(Object,O)。

自然語(yǔ)言問(wèn)句的結(jié)構(gòu)多種多樣,在知識(shí)庫(kù)問(wèn)答中,簡(jiǎn)單問(wèn)句指根據(jù)單個(gè)三元組能被準(zhǔn)確回答的問(wèn)句[5],如圖1左圖問(wèn)句“莫妮卡·貝魯奇的代表作?”,只需包含單個(gè)形如(<莫妮卡·貝魯奇>,<代表作品>,?)的三元組就能被回答;而復(fù)雜問(wèn)句則需要多個(gè)三元組,如圖1右圖問(wèn)句“林徽因的丈夫的父親是?”,需要兩個(gè)三元組(<林徽因_(中國(guó)建筑師、詩(shī)人、作家)>,<丈夫>,<梁思成>),(<梁思成>,<父親>,<梁?jiǎn)⒊琠(中國(guó)近代思想家、政治家、教育家)>)才能得到準(zhǔn)確的答案。相比簡(jiǎn)單問(wèn)句,復(fù)雜問(wèn)句的形式復(fù)雜多變,如何對(duì)其進(jìn)行區(qū)分和解答則十分具有挑戰(zhàn)性。

圖1 簡(jiǎn)單問(wèn)句(左)和復(fù)雜問(wèn)句(右)

Bordes等[6]將知識(shí)庫(kù)問(wèn)答的解決方法分為兩種,一種是基于語(yǔ)義解析的方法[7-9],另一種是基于信息檢索的方法[6,10-12]?;谡Z(yǔ)義解析的方法把問(wèn)句解析成由實(shí)體和關(guān)系構(gòu)成的語(yǔ)法樹(shù),根據(jù)語(yǔ)法樹(shù)生成查詢(xún)語(yǔ)句獲得最終答案。該方法需要大規(guī)模的形式語(yǔ)句的標(biāo)注數(shù)據(jù),并且經(jīng)常存在句子語(yǔ)法結(jié)構(gòu)和知識(shí)庫(kù)中三元組結(jié)構(gòu)不匹配的問(wèn)題[13]?;谛畔z索的方法則會(huì)先檢索知識(shí)庫(kù)獲得答案對(duì)應(yīng)的候選路徑(圖),再計(jì)算其與問(wèn)句間的語(yǔ)義相似度,最后輸出最優(yōu)路徑(圖)及最終答案。該方法在構(gòu)造訓(xùn)練數(shù)據(jù)上相對(duì)容易,也更方便查詢(xún)答案[14],因而獲得了更多的關(guān)注,且在多個(gè)數(shù)據(jù)集上取得了更優(yōu)異的性能。本文的方法屬于基于信息檢索的方法。

對(duì)于知識(shí)庫(kù)問(wèn)答任務(wù),驗(yàn)證集和測(cè)試集中存在大量訓(xùn)練集中未見(jiàn)的實(shí)體、關(guān)系,對(duì)于它們的處理和建模成為模型性能提升的一個(gè)瓶頸。同時(shí),大部分中文知識(shí)庫(kù)問(wèn)答系統(tǒng)僅考慮簡(jiǎn)單問(wèn)句,不同問(wèn)句候選路徑數(shù)量差距較小。然而對(duì)于復(fù)雜問(wèn)題,候選路徑數(shù)量的組合爆炸是一個(gè)嚴(yán)重影響問(wèn)答系統(tǒng)效率和性能的問(wèn)題。在包含復(fù)雜問(wèn)題的數(shù)據(jù)集上,存在如下的挑戰(zhàn):

(1) 在大規(guī)模知識(shí)庫(kù)中,當(dāng)問(wèn)句的主題實(shí)體與答案間相連路徑的跳數(shù)(Hop)變多時(shí),候選路徑(圖)的數(shù)量會(huì)呈指數(shù)式增長(zhǎng)[15],如何控制搜索空間使得系統(tǒng)高效、高性能?

(2) 如何充分利用知識(shí)庫(kù)中關(guān)系的多樣性,使訓(xùn)練集中覆蓋更多驗(yàn)證集、測(cè)試集中存在的三元組關(guān)系,提高語(yǔ)義相似度模型的性能?

近年來(lái),一些中文知識(shí)庫(kù)問(wèn)答數(shù)據(jù)集也被建立起來(lái),包括簡(jiǎn)單問(wèn)答數(shù)據(jù)集NLPCC KBQA。針對(duì)復(fù)雜問(wèn)題集,本文在包含簡(jiǎn)單問(wèn)題和復(fù)雜問(wèn)題的CCKS 2019-CKBQA評(píng)測(cè)數(shù)據(jù)集上進(jìn)行了深入研究,做出了如下貢獻(xiàn):

(1) 探索了預(yù)訓(xùn)練語(yǔ)言模型BERT(Bidirectional Encoder Representations from Transformers)在復(fù)雜問(wèn)句知識(shí)庫(kù)問(wèn)答上的應(yīng)用;

(2) 采取了負(fù)例動(dòng)態(tài)采樣的模型訓(xùn)練方式,提高了訓(xùn)練集中關(guān)系的多樣性,顯著提升了語(yǔ)義相似度模型的性能;

(3) 比較了兩種應(yīng)對(duì)路徑爆炸的路徑剪枝方法,即基于分類(lèi)的方法和基于集束搜索的方法。

1 相關(guān)工作

1.1 開(kāi)放域知識(shí)庫(kù)問(wèn)答

開(kāi)放域知識(shí)庫(kù)問(wèn)答任務(wù)的解決方法可以歸為兩類(lèi):基于語(yǔ)義解析的方法和基于信息檢索的方法?;谡Z(yǔ)義解析的方法旨在將問(wèn)句轉(zhuǎn)換成規(guī)范語(yǔ)義表示。Berant等[7]利用語(yǔ)義解析技術(shù)構(gòu)造問(wèn)句對(duì)應(yīng)的語(yǔ)法樹(shù),并把語(yǔ)法樹(shù)轉(zhuǎn)化為邏輯形式表達(dá),再將邏輯形式轉(zhuǎn)化為查詢(xún)語(yǔ)句查詢(xún)答案?;谛畔z索的方法是另一種典型且應(yīng)用更廣泛的方法,實(shí)體對(duì)齊、路徑(圖)選擇是其中兩個(gè)主要步驟。實(shí)體對(duì)齊指的是找到知識(shí)庫(kù)中問(wèn)句涉及的實(shí)體。Bordes等[6]提取出問(wèn)句的N-grams詞,用于匹配知識(shí)庫(kù)中實(shí)體的別名,得到候選的實(shí)體集合。Mohammed等[10]利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,LSTM)[16]先對(duì)問(wèn)句進(jìn)行序列標(biāo)注,提取問(wèn)句中與答案相關(guān)的實(shí)體別名(實(shí)體提及),而后利用實(shí)體提及的N-grams詞來(lái)鏈接知識(shí)庫(kù)中的實(shí)體,得到實(shí)體的候選集合。路徑(查詢(xún)圖)選擇依據(jù)和問(wèn)句的相似度篩選最優(yōu)路徑(查詢(xún)圖)。在英文簡(jiǎn)單問(wèn)答中,Yu等[11]將問(wèn)句模式(實(shí)體提及被替換的問(wèn)句)和關(guān)系謂詞分別編碼,計(jì)算二者間的語(yǔ)義相似度。Wang等[12]將路徑選擇看作是序列到序列(Seq2Seq)的任務(wù),提出使用基于Seq2Seq的Encoder-Decoder模型。對(duì)于英文復(fù)雜問(wèn)句,Luo等[17]定義了包括時(shí)間、序數(shù)等模板限制去優(yōu)化候選查詢(xún)圖生成,再對(duì)問(wèn)句和圖分別進(jìn)行編碼,計(jì)算兩者的語(yǔ)義相似度。在訓(xùn)練集的負(fù)例選擇中,Yin等[9]和Luo等[17]對(duì)每個(gè)問(wèn)句抽取固定數(shù)量(k個(gè))的負(fù)例加入訓(xùn)練集,Bordes等[6]采用了多任務(wù)訓(xùn)練,在每輪迭代依據(jù)概率選擇主任務(wù)或者輔助任務(wù)的負(fù)例數(shù)據(jù)進(jìn)行訓(xùn)練。由于數(shù)據(jù)集中候選路徑數(shù)量有限,上述方法重點(diǎn)探索了問(wèn)題與路徑(圖)的匹配問(wèn)題。然而在一些包含復(fù)雜問(wèn)題的數(shù)據(jù)集上,路徑爆炸是一個(gè)關(guān)鍵問(wèn)題。

1.2 預(yù)訓(xùn)練語(yǔ)言模型

從ELMo[18]到GPT[19],預(yù)訓(xùn)練語(yǔ)言模型在多項(xiàng)自然語(yǔ)言處理任務(wù)上展現(xiàn)了它的優(yōu)勢(shì)。2018年,Devlin等[20]基于Transformer[21]模型提出BERT模型,利用了大規(guī)模文本,通過(guò)上下句判斷等任務(wù)進(jìn)行預(yù)訓(xùn)練,隨后根據(jù)不同的任務(wù)進(jìn)行微調(diào),在包括命名實(shí)體識(shí)別、閱讀理解問(wèn)答和自然語(yǔ)言推理等多項(xiàng)自然語(yǔ)言處理任務(wù)上取得了當(dāng)時(shí)最優(yōu)結(jié)果。預(yù)訓(xùn)練、微調(diào)的兩階段模式逐漸成為眾多自然語(yǔ)言處理任務(wù)的主流方法。例如,在與路徑選擇相關(guān)的答案句選擇任務(wù)中,Garg等[22]使用BERT序列對(duì)分類(lèi)結(jié)構(gòu)多次微調(diào)模型來(lái)挑選答案句,序列對(duì)分類(lèi)也是使用BERT計(jì)算序列相關(guān)度的標(biāo)準(zhǔn)結(jié)構(gòu)。

2 問(wèn)答系統(tǒng)構(gòu)建

本文構(gòu)建了完整的知識(shí)庫(kù)問(wèn)答系統(tǒng),路徑生成和路徑選擇是其最主要的兩個(gè)模塊。第一步,問(wèn)答系統(tǒng)先對(duì)問(wèn)句進(jìn)行命名實(shí)體識(shí)別得到實(shí)體提及,通過(guò)實(shí)體提及在知識(shí)庫(kù)中檢索得到主題實(shí)體,繼續(xù)搜索知識(shí)庫(kù)得到問(wèn)句答案的候選路徑。下一步,利用語(yǔ)義相似度模型對(duì)候選路徑進(jìn)行排序,得到最優(yōu)的候選路徑。最后,依據(jù)最優(yōu)候選路徑生成查詢(xún)語(yǔ)句進(jìn)行檢索得到問(wèn)句的答案。

2.1 路徑生成:實(shí)體對(duì)齊和問(wèn)句類(lèi)型定義

如圖2所示,實(shí)體對(duì)齊包括對(duì)問(wèn)句進(jìn)行實(shí)體識(shí)別和實(shí)體鏈接,得到問(wèn)題的主題實(shí)體。本文采用了BERT-BiLSTM的序列標(biāo)注模型進(jìn)行實(shí)體識(shí)別,并融入了知識(shí)庫(kù)術(shù)語(yǔ)信息來(lái)提高實(shí)體識(shí)別的召回率。

圖2 KBQA系統(tǒng)框架圖

在實(shí)體對(duì)齊模塊得到問(wèn)句的主題實(shí)體后,本文通過(guò)檢索知識(shí)庫(kù)得到主題實(shí)體相關(guān)聯(lián)的候選路徑。受Bao等[5]啟發(fā),本文根據(jù)標(biāo)注的查詢(xún)語(yǔ)句定義了表1中的單跳問(wèn)句、兩跳問(wèn)句和多限制問(wèn)句類(lèi)型,并增加了難以分類(lèi)的其他類(lèi)型問(wèn)句。在訓(xùn)練集中,主題實(shí)體兩跳范圍內(nèi)能找到答案的問(wèn)句占比超過(guò)89%。因此,考慮到候選路徑的規(guī)模,本文僅檢索主題實(shí)體兩跳范圍內(nèi)的路徑。

表1 問(wèn)句類(lèi)型定義

生成路徑時(shí),本文使用特殊符號(hào)“”替換答案位于三元組中的位置,幫助模型區(qū)別答案實(shí)體處于路徑中的不同位置。具體地,當(dāng)問(wèn)句中識(shí)別出一個(gè)主題實(shí)體時(shí),在一跳范圍內(nèi),主題實(shí)體與相連的一度關(guān)系組成單跳路徑,答案實(shí)體位于路徑終點(diǎn);在兩跳范圍內(nèi),主題實(shí)體與兩個(gè)連續(xù)的關(guān)系組成兩跳路徑,答案實(shí)體位于路徑終點(diǎn)。例如,對(duì)于識(shí)別出實(shí)體<瑞士>的問(wèn)句“瑞士國(guó)歌的發(fā)行時(shí)間?”,“<國(guó)籍><瑞士>”是其單跳路徑,“<瑞士><國(guó)歌><發(fā)行時(shí)間>”是其兩跳路徑。特別地,在兩跳范圍內(nèi),當(dāng)兩跳路徑終點(diǎn)的實(shí)體出現(xiàn)在問(wèn)句中時(shí),本文認(rèn)為答案實(shí)體更可能出現(xiàn)在路徑中間,并將兩跳路徑轉(zhuǎn)換為兩對(duì)實(shí)體—關(guān)系對(duì)組成的多限制路徑。當(dāng)問(wèn)句中識(shí)別出兩個(gè)甚至三個(gè)實(shí)體,共同相連的一跳范圍實(shí)體視為答案實(shí)體,知識(shí)庫(kù)子圖中多對(duì)實(shí)體—關(guān)系對(duì)組成多限制路徑。例如,問(wèn)句“北京大學(xué)出了哪些文學(xué)家?”,已知實(shí)體<北京大學(xué)>和<文學(xué)家>時(shí),“<北京大學(xué)><畢業(yè)院校><文學(xué)家><職業(yè)>”時(shí)是其多限制路徑。

2.2 路徑選擇:路徑剪枝與語(yǔ)義相似度模型

由于候選路徑規(guī)模龐大,路徑選擇模塊需要先對(duì)候選路徑進(jìn)行剪枝后,再使用語(yǔ)義相似度計(jì)算模型計(jì)算路徑與問(wèn)句的相似度,最后查詢(xún)知識(shí)庫(kù)得到問(wèn)題的最終答案。本文建立了基于預(yù)訓(xùn)練模型BERT的語(yǔ)義相似度模型進(jìn)行相似度計(jì)算,采用負(fù)例動(dòng)態(tài)采樣的訓(xùn)練方式擴(kuò)充了訓(xùn)練集中關(guān)系謂詞的多樣性;在路徑剪枝部分,討論了不同的路徑剪枝方案,即基于分類(lèi)的方案和基于集束搜索的方案,并對(duì)兩種方法進(jìn)行了比較。

3 路徑剪枝

在大規(guī)模知識(shí)庫(kù)中,問(wèn)句候選路徑的數(shù)量會(huì)隨著考慮的路徑跳數(shù)變化而呈指數(shù)式增長(zhǎng)。一旦候選路徑池的規(guī)模過(guò)大,計(jì)算所有可能路徑顯得低效且不實(shí)際。例如,對(duì)于CCKS 2019-CKBQA數(shù)據(jù)集內(nèi)的簡(jiǎn)單問(wèn)題“中國(guó)實(shí)行什么政治制度?”,主題實(shí)體<中華人民共和國(guó)>一跳范圍內(nèi)路徑數(shù)量為7 077 879,而兩跳范圍內(nèi)路徑數(shù)量更是達(dá)到了千萬(wàn)數(shù)量級(jí)。因此,對(duì)候選路徑進(jìn)行剪枝是在預(yù)測(cè)階段進(jìn)行語(yǔ)義相似度計(jì)算前的必要步驟。在CCKS 2019-CKBQA數(shù)據(jù)集上,本文比較了預(yù)測(cè)階段基于分類(lèi)和基于集束搜索進(jìn)行剪枝的路徑選擇方法。

3.1 基于分類(lèi)的路徑選擇方法

預(yù)測(cè)階段基于分類(lèi)的路徑選擇方法如圖3上圖所示,本文建立了基于BERT的分類(lèi)模型,依據(jù)上文定義的問(wèn)句類(lèi)型進(jìn)行問(wèn)句分類(lèi),并根據(jù)分類(lèi)結(jié)果搜索對(duì)應(yīng)類(lèi)型的候選路徑。

圖3 基于分類(lèi)的路徑選擇方法(上)和問(wèn)句分類(lèi)模型(下)

本文問(wèn)句分類(lèi)采用常用的BERT Max-Pooling模型。如圖3所示,BERT模型用以提取問(wèn)句的字級(jí)特征,經(jīng)過(guò)Max pooling池化層得到整個(gè)句子的表示,最后經(jīng)過(guò)線性層輸出每個(gè)類(lèi)別的得分。損失函數(shù)采用了對(duì)數(shù)似然函數(shù),如式(1)、式(2)所示。

其中,k為問(wèn)句類(lèi)別的數(shù)量,si代表問(wèn)句屬于第i個(gè)類(lèi)別的得分,qi為問(wèn)句屬于第i個(gè)類(lèi)別的概率。

3.2 基于集束搜索的路徑選擇方法

集束搜索(Beam Search)是神經(jīng)機(jī)器翻譯(Nerual Machine Translation,NMT)中常用的解碼方法,當(dāng)字典過(guò)大時(shí)能有效提高解碼的效率。如圖4所示,在集束搜索過(guò)程中,每一步會(huì)搜索序列中該位置的所有可能值,最后保留已搜索序列得分最高的前k個(gè)結(jié)果(k也被稱(chēng)為束寬)。

圖4 束寬為2的集束搜索過(guò)程

本文將集束搜索的方法應(yīng)用于預(yù)測(cè)階段多跳路徑剪枝中,其路徑選擇方法如圖5所示。先搜索主題實(shí)體相關(guān)的第一跳(單跳)路徑,利用問(wèn)句和單跳路徑的語(yǔ)義相似度得分,保留得分最高的前k的一跳路徑G1和一跳相關(guān)實(shí)體;生成第二跳(兩跳)路徑時(shí),僅搜索與一跳相關(guān)實(shí)體相連的第二跳路徑作為兩跳路徑G2,如此往下。為了便于與基于分類(lèi)搜索的方法相比較,這里僅考慮兩跳內(nèi)的路徑,生成兩跳范圍內(nèi)的候選路徑G=G1∪G2∪G3(單跳路徑G1、兩跳路徑G2和多限制問(wèn)句路徑G3)。最后對(duì)候選路徑G中的路徑得分進(jìn)行排序后選擇最優(yōu)路徑。該方案依賴(lài)束寬k能過(guò)濾掉大量無(wú)關(guān)路徑,顯著降低候選路徑的數(shù)量。

圖5 基于集束搜索的路徑選擇方法

相比于基于分類(lèi)的方法,基于集束搜索的方法中候選路徑的數(shù)量依賴(lài)束寬進(jìn)行動(dòng)態(tài)調(diào)整,當(dāng)搜索的路徑跳數(shù)達(dá)到三跳甚至四跳時(shí),集束搜索能更穩(wěn)定地控制候選路徑數(shù)量;同時(shí),產(chǎn)生的候選路徑中同時(shí)存在多種結(jié)構(gòu)的路徑,考慮了單個(gè)問(wèn)句屬于不同類(lèi)型的可能性。不過(guò)束寬作為一個(gè)重要的參數(shù),影響著系統(tǒng)的性能,需要根據(jù)數(shù)據(jù)集設(shè)置。

4 語(yǔ)義相似度模型

語(yǔ)義相似度模型用以計(jì)算問(wèn)句與路徑語(yǔ)義上的關(guān)聯(lián)程度。給定一個(gè)問(wèn)句Q和若干候選路徑的集合P,使用模型計(jì)算路徑的得分并尋找滿足下式的路徑,如式(3)所示。

(3)

本文采用了Luo等[17]使用的Encoding Comparing結(jié)構(gòu),使用預(yù)訓(xùn)練語(yǔ)言模型BERT作為編碼器,將定量的負(fù)例采樣作為基線。如圖6所示,BERT模塊對(duì)問(wèn)句端和路徑端分別編碼,將句首位置(特殊符號(hào)“[CLS]”)輸出的向量hQ和hp,分別作為問(wèn)句端和路徑端的表示,并使用向量間的余弦相似度作為問(wèn)句與路徑的相似度得分,記作S(Q,p)=cos(hQ,hp)。訓(xùn)練階段,采用Margin Loss來(lái)擴(kuò)大正確路徑p+與錯(cuò)誤路徑p-之間的得分差距,如式(4)所示。

圖6 基于BERT的語(yǔ)義相似度模型

losssim=max(0,γ+S(Q,p-)-S(Q,p+))

(4)

其中,γ是模型的一個(gè)超參。

在訓(xùn)練階段,需要從知識(shí)庫(kù)中選擇錯(cuò)誤路徑作為負(fù)例。負(fù)例路徑選擇時(shí)會(huì)存在兩個(gè)問(wèn)題:一是負(fù)例樣本均衡性問(wèn)題,對(duì)于不同的問(wèn)句,當(dāng)負(fù)例路徑數(shù)量差距很大時(shí)(如10 000∶1),訓(xùn)練樣本負(fù)例數(shù)量分布極其不均衡;二是負(fù)例樣本多樣性問(wèn)題,當(dāng)訓(xùn)練用的負(fù)例路徑固定時(shí),其他負(fù)例會(huì)被直接丟棄。Luo等[17]對(duì)每個(gè)問(wèn)句抽取k個(gè)固定負(fù)例作為訓(xùn)練集,舍棄了部分已有的負(fù)例路徑。當(dāng)訓(xùn)練集中負(fù)例固定時(shí),實(shí)體、關(guān)系數(shù)量固定,驗(yàn)證集和測(cè)試集中仍可能存在大量未見(jiàn)的實(shí)體和關(guān)系。為了緩解訓(xùn)練集中關(guān)系的單一性問(wèn)題,本文引入負(fù)例動(dòng)態(tài)采樣的訓(xùn)練方式,訓(xùn)練方法如下:

(1) 對(duì)訓(xùn)練集中的問(wèn)句{Qi},從知識(shí)庫(kù)中搜索所有的相關(guān)路徑{Gi},在除去正確路徑p+后得到負(fù)例路徑池{G′i|G′i=Gi-p+}。需要注意的是,這里的負(fù)例路徑池大小因問(wèn)句中主題實(shí)體的不同而不同,負(fù)例路徑池將主題實(shí)體相關(guān)的所有一跳、兩跳、多限制路徑包括進(jìn)來(lái)。

(2) 當(dāng)路徑池中路徑數(shù)量|G′i|未達(dá)到負(fù)例路徑最低數(shù)量k時(shí),隨機(jī)生成k-|G′i|個(gè)負(fù)例路徑進(jìn)行擴(kuò)充,得到負(fù)例路徑池G′i′;否則G′i′=G′i。

(3) 訓(xùn)練數(shù)據(jù)采樣階段,在任意第j輪中,從擴(kuò)充的訓(xùn)練路徑池中隨機(jī)進(jìn)行等量k的負(fù)例采樣,得到第j輪的訓(xùn)練路徑池{G″ij|G″ij?G″i,|G″ij|=k}, 作為當(dāng)輪的訓(xùn)練樣本。

負(fù)例動(dòng)態(tài)采樣訓(xùn)練保持了每個(gè)問(wèn)句的訓(xùn)練數(shù)據(jù)的均衡性,同時(shí)擴(kuò)充了訓(xùn)練集中關(guān)系謂詞的多樣性。相比于定量采樣的方法,動(dòng)態(tài)采樣使得訓(xùn)練集中的不同實(shí)體/關(guān)系的數(shù)量擴(kuò)充了數(shù)倍(與訓(xùn)練迭代的輪次和負(fù)例池大小相關(guān)),緩解了驗(yàn)證集和測(cè)試集中大量未見(jiàn)的實(shí)體/關(guān)系的問(wèn)題。

5 實(shí)驗(yàn)結(jié)果與分析

5.1 數(shù)據(jù)集介紹

本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自于CCKS 2019-CKBQA評(píng)測(cè)任務(wù)。該數(shù)據(jù)集包括3 000條左右來(lái)自開(kāi)放領(lǐng)域和1 000條左右來(lái)自金融領(lǐng)域的問(wèn)答數(shù)據(jù),既包含簡(jiǎn)單問(wèn)題,也包含復(fù)雜問(wèn)題,它們的數(shù)量比例大致為1∶1。每條問(wèn)答數(shù)據(jù)包含問(wèn)句、答案和查詢(xún)答案的SPARQL語(yǔ)句。表2給出了單條完整問(wèn)答數(shù)據(jù)的示例,表3給出了數(shù)據(jù)集的具體統(tǒng)計(jì)數(shù)據(jù)。

表2 一條問(wèn)答數(shù)據(jù)示例

表3 數(shù)據(jù)集相關(guān)數(shù)據(jù)統(tǒng)計(jì)

問(wèn)答系統(tǒng)須從給定知識(shí)庫(kù)PKUBASE中選擇若干實(shí)體或?qū)傩灾底鳛樵搯?wèn)題的答案。PKUBASE知識(shí)庫(kù)包含三個(gè)文件:pkubase-triples包含知識(shí)庫(kù)主要三元組,pkubase-types包含各實(shí)體的類(lèi)別三元組,pkubase-mention2ent可以用來(lái)輔助進(jìn)行實(shí)體鏈接,包含每個(gè)實(shí)體指向某個(gè)別名的優(yōu)先級(jí)。

5.2 評(píng)價(jià)指標(biāo)

問(wèn)答系統(tǒng)整體性能以官方規(guī)定的平均F1值為最終評(píng)價(jià)指標(biāo)。設(shè)Q為問(wèn)題集合,Ai為系統(tǒng)對(duì)第i個(gè)問(wèn)題給出的答案集合,Gi為第i個(gè)問(wèn)題的標(biāo)準(zhǔn)答案,相關(guān)計(jì)算如式(5)~式(7)所示。

5.3 實(shí)驗(yàn)參數(shù)設(shè)置

問(wèn)句分類(lèi)模型線性層輸出維度為4,語(yǔ)義相似度模型訓(xùn)練正負(fù)樣本比例為1∶5,損失函數(shù)參數(shù)γ為0.1,初始化學(xué)習(xí)率均為0.000 1,優(yōu)化器均使用Adam[23]優(yōu)化器,連續(xù)10次迭代性能不提升訓(xùn)練階段將提前停止。

5.4 路徑選擇方法結(jié)果與分析

本節(jié)對(duì)比了基于分類(lèi)和基于集束搜索進(jìn)行剪枝的路徑選擇方法對(duì)應(yīng)的系統(tǒng)整體性能,并分析了負(fù)例動(dòng)態(tài)采樣訓(xùn)練方法和BERT模型結(jié)構(gòu)的影響。

為了對(duì)比基于集束搜索的方法和基于分類(lèi)的方法,本文對(duì)前者方案中束寬不同取值進(jìn)行了實(shí)驗(yàn)。系統(tǒng)整體效率與數(shù)據(jù)集問(wèn)句平均候選路徑數(shù)正相關(guān),系統(tǒng)單句的處理速度與數(shù)據(jù)集單句候選路徑數(shù)正相關(guān)。表4中的結(jié)果表明,束寬k會(huì)影響系統(tǒng)性能。當(dāng)選擇合適的束寬(如15)時(shí),基于集束搜索方案能達(dá)到與基于分類(lèi)方案相當(dāng)?shù)男阅?,同時(shí)系統(tǒng)的整體效率也相當(dāng);當(dāng)束寬較小(如2、5)時(shí),基于集束搜索的方法性能下降1%~2%,不過(guò)系統(tǒng)的整體效率有顯著的提高;從最壞情況系統(tǒng)單句處理效率來(lái)看,基于集束搜索方案對(duì)單句的處理效率總是遠(yuǎn)優(yōu)于基于問(wèn)句分類(lèi)方案,束寬越小,單句處理效率越高。

表4 路徑剪枝方法結(jié)果對(duì)比

表5展示了問(wèn)句端和路徑端BERT結(jié)構(gòu)的影響。從表中可以看出,在兩類(lèi)系統(tǒng)中,共享BERT編碼在相似度模型上的性能均優(yōu)于獨(dú)立BERT編碼。當(dāng)使用獨(dú)立的BERT編碼后,兩類(lèi)路徑選擇方法分別有0.53%和0.86%的性能下降。本文認(rèn)為:盡管路徑的組成形式不同于問(wèn)句,與三元組更相似,但與問(wèn)句相關(guān)度更大的路徑,共享編碼器能得到更相近的表示。

表5 負(fù)例動(dòng)態(tài)采樣下的獨(dú)立和共享BERT編碼

表6展示了負(fù)例動(dòng)態(tài)采樣的效果。不使用負(fù)例動(dòng)態(tài)采樣方法后,整個(gè)問(wèn)答系統(tǒng)的性能明顯下降。負(fù)例動(dòng)態(tài)采樣方法在不影響訓(xùn)練速度的情況下,豐富了訓(xùn)練集中關(guān)系的多樣性,緩解了測(cè)試集中存在大量未見(jiàn)的關(guān)系的問(wèn)題,提高了語(yǔ)義相似度模型的性能,在基于分類(lèi)和基于集束搜索的路徑選擇方法中分別提升了2.03%和2.73%。在基于集束搜索的方法上提升更多,是因?yàn)樵摲椒ǘ啻问褂谜Z(yǔ)義相似度模型來(lái)搜索路徑。

表6 獨(dú)立BERT下的負(fù)例動(dòng)態(tài)采樣

5.5 系統(tǒng)融合性能

本節(jié)將本文系統(tǒng)性能與CCKS2019-CKBQA評(píng)測(cè)最終成績(jī)進(jìn)行了比較,結(jié)果如表7所示。

表7 不同系統(tǒng)性能對(duì)比

駱金昌等[24]在路徑選擇時(shí)融合了多個(gè)模型,定義了多達(dá)39個(gè)特征,主要包括路徑與問(wèn)題的字面匹配、路徑與問(wèn)題的語(yǔ)義匹配(包括BERT語(yǔ)義匹配)、答案類(lèi)型、實(shí)體鏈接的概率和候選路徑自身的特征,采用傳統(tǒng)的learn-to-rank模型對(duì)路徑進(jìn)行排序。大量的人工特征和多模型融合對(duì)整個(gè)系統(tǒng)性能有了巨大的提升,但也降低了系統(tǒng)的效率。

Zhang等[23]利用NLPCC數(shù)據(jù),采用規(guī)則和模型融合等方式實(shí)現(xiàn)了三個(gè)子系統(tǒng),最后對(duì)每個(gè)子系統(tǒng)輸出的路徑和答案進(jìn)行融合得到最后的答案。經(jīng)模型融合和數(shù)據(jù)增強(qiáng)的單系統(tǒng)最佳性能F1達(dá)到69.41,系統(tǒng)融合將三個(gè)系統(tǒng)優(yōu)勢(shì)互補(bǔ),最終性能得到顯著提升。不過(guò),大量的人工規(guī)則與三個(gè)子系統(tǒng)使得整個(gè)系統(tǒng)十分繁冗。

Yang等[25]直接使用了百度云和Paddle-Paddle平臺(tái)開(kāi)放的模型進(jìn)行實(shí)體識(shí)別,并就金融類(lèi)問(wèn)題專(zhuān)門(mén)搜集了該領(lǐng)域詞典提升實(shí)體識(shí)別效果,定義了包括BERT語(yǔ)義相似度模型等多個(gè)特征完成關(guān)系識(shí)別,最后根據(jù)設(shè)定的多個(gè)規(guī)則優(yōu)化答案選擇。直接引入外部模型進(jìn)行實(shí)體識(shí)別的方法巧妙利用了外部數(shù)據(jù),卻也帶來(lái)了很多噪聲,人工搜集的特定領(lǐng)域詞典針對(duì)性強(qiáng),但泛化程度低。

曹明宇等[26]訓(xùn)練了實(shí)體識(shí)別模型識(shí)別實(shí)體提及,定義了多個(gè)特征完成實(shí)體鏈接后,在路徑搜索時(shí)使用了橋接操作,并訓(xùn)練了基于序列對(duì)分類(lèi)結(jié)構(gòu)的路徑排序模型進(jìn)行路徑選擇。

本文僅考慮了兩跳范圍的路徑,路徑選擇模型未考慮任何額外數(shù)據(jù)及人工規(guī)則。兩個(gè)無(wú)人工特征、單模型的系統(tǒng)均達(dá)到了Zhang等[23]最優(yōu)的單系統(tǒng)性能,均可位列第四。為了進(jìn)一步提高系統(tǒng)的性能,本文繼續(xù)采用了系統(tǒng)融合的策略,將兩種路徑選擇方法得到的結(jié)果進(jìn)行系統(tǒng)融合。

互補(bǔ)融合兩個(gè)系統(tǒng)各自存在無(wú)法回答的問(wèn)題,簡(jiǎn)單的互補(bǔ)融合使最終系統(tǒng)性能F1達(dá)到70.68。

Jaccard距離使用問(wèn)句與路徑之間的Jaccard距離作為特征,系統(tǒng)融合性能F1提升到72.57。

答案類(lèi)型搜索知識(shí)庫(kù)中實(shí)體的類(lèi)型,繼續(xù)加上答案類(lèi)型特征后,系統(tǒng)性能F1達(dá)到了73.09。

最終,系統(tǒng)融合后的最終結(jié)果性能可以位列第二。

6 總結(jié)與展望

本文探究了中文知識(shí)庫(kù)問(wèn)答路徑選擇中的負(fù)例采樣和路徑爆炸的問(wèn)題,提出使用負(fù)例動(dòng)態(tài)采樣的方法訓(xùn)練語(yǔ)義相似度模型,并比較了基于分類(lèi)和基于集束搜索的路徑選擇方法。實(shí)驗(yàn)結(jié)果表明,負(fù)例動(dòng)態(tài)采樣的訓(xùn)練方式能顯著提升語(yǔ)義相似度模型的性能;基于分類(lèi)的路徑選擇方法類(lèi)性能稍?xún)?yōu),基于集束搜索的方法擁有更高的效率,但需要根據(jù)不同數(shù)據(jù)集調(diào)整集束束寬。與評(píng)測(cè)結(jié)果相比,無(wú)人工特征、單模型的系統(tǒng)的性能位列第四,使用了兩個(gè)關(guān)鍵特征進(jìn)行系統(tǒng)融合后,最終系統(tǒng)性能可以位列第二。

本文的問(wèn)答系統(tǒng)仍存在一些局限性,一些需要常識(shí)進(jìn)行推理的問(wèn)題仍然存在挑戰(zhàn),例如,通過(guò)<姚明><女兒><姚沁蕾>推理得到<姚沁蕾><父親><姚明>需要額外的親屬關(guān)系的常識(shí)等外部知識(shí)。未來(lái)的工作中,我們將探究上述更加復(fù)雜的問(wèn)題的解決方法。

猜你喜歡
知識(shí)庫(kù)實(shí)體語(yǔ)義
語(yǔ)言與語(yǔ)義
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
認(rèn)知范疇模糊與語(yǔ)義模糊
兰州市| 常德市| 开封市| 治县。| 杭锦后旗| 西乌珠穆沁旗| 东乌| 汕尾市| 志丹县| 锡林浩特市| 安仁县| 平凉市| 宿州市| 白朗县| 中西区| 顺昌县| 河池市| 娄底市| 河南省| 天等县| 安义县| 淮滨县| 河津市| 馆陶县| 个旧市| 如东县| 铜梁县| 晋城| 绵竹市| 射阳县| 蓝山县| 白沙| 永春县| 施秉县| 金平| 汶上县| 新竹县| 黄大仙区| 鄢陵县| 开封市| 石台县|