国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜、TF-IDF 和BERT 模型的冬奧知識問答系統(tǒng)

2021-09-11 03:14:00羅玲李碩凱何清楊騁騏王宇洋恒陳天宇
智能系統(tǒng)學(xué)報(bào) 2021年4期
關(guān)鍵詞:圖譜實(shí)體向量

羅玲,李碩凱,何清,楊騁騏,王宇洋恒,陳天宇

(1.中國科學(xué)院計(jì)算技術(shù)研究所 智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190;2.中國科學(xué)院大學(xué),北京 100049)

網(wǎng)絡(luò)是當(dāng)今世界人們獲取信息的一個(gè)重要途徑。隨著信息化時(shí)代的到來,網(wǎng)絡(luò)信息變得更龐大且雜亂無章,傳統(tǒng)的搜索引擎已經(jīng)難以滿足人們的需要。得益于人工智能技術(shù)的飛速發(fā)展,智能問答系統(tǒng)應(yīng)運(yùn)而生[1]。智能問答系統(tǒng)旨在幫助人們在海量信息中快速而準(zhǔn)確地找到自己需要的信息。智能問答系統(tǒng)響應(yīng)用戶提問的效果要明顯好于當(dāng)今流行的基于布爾檢索技術(shù)的搜索引擎,提供的回答也更加快捷準(zhǔn)確。智能問答是指通過人工智能、知識圖譜等技術(shù)建立的以一問一答形式精確定位網(wǎng)站用戶所需要的知識,通過與網(wǎng)站用戶進(jìn)行交互,為網(wǎng)站用戶提供個(gè)性化的信息服務(wù)的問答系統(tǒng)[2]。

自第一屆冬季奧林匹克運(yùn)動會于1924 年在法國的夏慕尼舉行以來,冬奧會至今已有近一百年的歷史。2022 北京冬奧會即將來臨,人們也都很想了解這一百年來冬奧會的舉辦和獲獎情況。但是由于參加冬奧會的運(yùn)動員數(shù)量大、比賽項(xiàng)目多導(dǎo)致人們獲取準(zhǔn)確答案變得不容易。為了解決這個(gè)問題,幫助人們快速高效地獲取需要的冬奧會的有關(guān)信息,本文提出了冬奧問答系統(tǒng)。該系統(tǒng)首先收錄了從第一屆冬奧會至今所有冬奧會的舉辦信息和獲獎信息,然后對比了3 種問答方法,并對其優(yōu)劣進(jìn)行了比較。本文的貢獻(xiàn)主要分為如下3 個(gè)部分:

1) 利用爬蟲爬取了有關(guān)冬奧會問答的事實(shí)性句子,包含運(yùn)動員的姓名、性別、年齡、身高、體重、國家、參與奧運(yùn)會的年份、參加奧運(yùn)會的項(xiàng)目、獲獎情況等信息。并自己定義模板,將事實(shí)性信息轉(zhuǎn)化為問答對,整合后提出了冬奧問答數(shù)據(jù)集,包含了冬奧會的事實(shí)性問題。

2)將智能問答系統(tǒng)應(yīng)用在冬奧項(xiàng)目數(shù)據(jù)上,分別基于知識圖譜、基于自注意力機(jī)制的雙向編碼表示(bidirectional encoder representation from transformers,BERT)模型和詞頻?逆文本頻率指數(shù)(term frequency-inverse document frequency,TFIDF)模型建立了冬奧問答系統(tǒng),根據(jù)用戶提供的自然語言形式的問題可以給出準(zhǔn)確的回答。

3)本文使用3 種模型建立冬奧問答系統(tǒng),并比較了3 種模型的正確率和優(yōu)缺點(diǎn),實(shí)驗(yàn)結(jié)果達(dá)到了預(yù)期目標(biāo)。

1 相關(guān)工作

1.1 對話系統(tǒng)

智能對話系統(tǒng)是人工智能領(lǐng)域的核心技術(shù),是人機(jī)交互的重要研究方向,對話系統(tǒng)的基礎(chǔ)是問答系統(tǒng)。問答系統(tǒng)是信息檢索系統(tǒng)的高級形式之一,采用自然語言處理技術(shù),可以實(shí)現(xiàn)對用戶疑問的理解,進(jìn)而完成答案的生成[3]。問答系統(tǒng)首先接受自然語言的問句輸入進(jìn)行問句分析,這一階段的主要任務(wù)是完成對問句語義的理解,將自然語言轉(zhuǎn)為邏輯語言,在問句分析后進(jìn)行信息檢索和直接答案輸出。問答系統(tǒng)主要分為信息檢索式問答系統(tǒng)和生成式的問答系統(tǒng)[4],前者通過判斷輸入問句在知識庫中匹配對應(yīng)答案,后者則基于模型訓(xùn)練生成答句。Yao 等[5]實(shí)現(xiàn)了一種實(shí)際工程應(yīng)用中的基于深度學(xué)習(xí)模型的任務(wù)導(dǎo)向型對話系統(tǒng)的通用框架。Feng 等[6]實(shí)現(xiàn)了一個(gè)不依賴語言的基于卷積神經(jīng)網(wǎng)絡(luò)的口語問答系統(tǒng),基于問題和訓(xùn)練集中距離的度量,返回度量值最高的問答對。Zhang 等[7]實(shí)現(xiàn)了一個(gè)基于知識庫的開放領(lǐng)域問答系統(tǒng),該系統(tǒng)采用自定義詞典分詞和條件隨機(jī)場模型CRF 相結(jié)合的方法識別問句中的主體,采用模糊匹配方法將問句中的主體和知識庫中的實(shí)體建立連接,系統(tǒng)平均F-Measure(F 值)達(dá)到0.695 6。Noraset 等[8]實(shí)現(xiàn)了一個(gè)基于泰語的問答系統(tǒng)。H?ffner 等[9]調(diào)查分析了62 個(gè)不同的語義問答(SQA)系統(tǒng)?;谒麄兊姆治?,本文選出3 種方法,在中文冬奧問答數(shù)據(jù)集上進(jìn)行比較。

1.2 知識圖譜

1977 年,知識工程概念在第五屆國際人工智能大會上被提出,隨即知識庫系統(tǒng)的研究開始進(jìn)入人們的視野[10]。Google 公司于2012 年11 月提出了知識圖譜概念,并表示在其搜索結(jié)果中加入知識圖譜功能。知識圖譜概念一經(jīng)提出,就逐漸成為熱門,進(jìn)入蓬勃發(fā)展階段。知識圖譜模型基于符號化通過三元組表達(dá)具體知識,并且以有向圖的形式進(jìn)行存儲鏈接,在問答系統(tǒng)、搜索、推薦等領(lǐng)域有著廣泛的應(yīng)用。Liu 等[11]從知識圖譜的定義和技術(shù)架構(gòu)出發(fā),對構(gòu)建知識圖譜涉及的關(guān)鍵技術(shù)進(jìn)行了自底向上的全面解析。Xu 等[12]探索了一種基于知識圖譜的多輪問答系統(tǒng)可實(shí)現(xiàn)方案。Chen 等[13]應(yīng)用知識圖譜通過結(jié)合其領(lǐng)域詞表、規(guī)范等內(nèi)容實(shí)現(xiàn)了一個(gè)可用于查詢數(shù)據(jù)、進(jìn)行知識問答的智能系統(tǒng)。Piotr[14]提出了一個(gè)開放域因子式問答系統(tǒng),引入并實(shí)現(xiàn)了深度實(shí)體識別。它允許基于先前組裝的實(shí)體庫,全面搜索與給定詞網(wǎng)WordNet 語法集匹配的所有形式的實(shí)體引用。Yih 等[15]提出了一個(gè)三階段的搜素方法,提高了知識圖譜搜素問題的準(zhǔn)確度。Jia 等[16]引用知識圖譜模型和用戶長短期偏好提出了一種個(gè)性化景點(diǎn)推薦方法,能夠預(yù)測并返回用戶可能感興趣的推薦列表。

1.3 TF-IDF 模型

TF-IDF 是一種針對關(guān)鍵詞的統(tǒng)計(jì)分析方法,旨在通過判斷某一詞匯在測試語句和語料庫中的出現(xiàn)次數(shù)來判斷詞的重要程度。

TF-IDF 是一種常用于信息檢索的加權(quán)技術(shù),有著廣泛的應(yīng)用:在對話領(lǐng)域,Lu 等[17]基于向量空間的TF-IDF 相似度模型,實(shí)現(xiàn)了面向服務(wù)機(jī)器人的口語對話系統(tǒng);在知識圖譜領(lǐng)域,Zhang 等[18]基于TF-IDF 模型通過關(guān)鍵詞特征分析和共現(xiàn)矩陣分析,從而更好地構(gòu)建全面從嚴(yán)治黨知識圖譜,加強(qiáng)對習(xí)近平新時(shí)代中國特色社會主義思想的學(xué)習(xí)與理解;在SQL 注入檢測領(lǐng)域,Su 等[19]基于TF-IDF 和N-Gram 提出了一種SQL 注入檢測方法,在保證召回率的基礎(chǔ)上,可接受率有所提高;在輿情挖掘領(lǐng)域,Liu 等[20]提出了基于TF-IDF權(quán)重分析法的網(wǎng)絡(luò)輿情信息挖掘技術(shù),提高了網(wǎng)絡(luò)輿情信息挖掘效果,增強(qiáng)輿情引導(dǎo)的準(zhǔn)確性;在垃圾短信分類領(lǐng)域,Wu 等[21]提出了一種結(jié)合TF-IDF 的基于自注意力機(jī)制的雙向長短期記憶網(wǎng)絡(luò)模型來進(jìn)行垃圾短信識別,這種模型相比于傳統(tǒng)分類模型的短信文本識別可接受率提高了2.1%~4.6%,運(yùn)行時(shí)間減少了0.6~10.2 s;在文本相似度度量領(lǐng)域,Li 等等[22]提出了一種運(yùn)用TF-IDF方法提取文本關(guān)鍵詞的文本相似性度度量方法,準(zhǔn)確率高,且時(shí)間效率比其他方法更高。

1.4 BERT 模型

BERT 是一種預(yù)訓(xùn)練語言表示的方法,在大量文本語料上訓(xùn)練了一個(gè)通用的“語言理解”模型,然后用這個(gè)模型去執(zhí)行具體的自然語言處理任務(wù)。BERT 可以通過加深網(wǎng)絡(luò)的方式增強(qiáng)對文本信息的挖掘能力。另外,BERT 基于無監(jiān)督的語料數(shù)據(jù)進(jìn)行學(xué)習(xí)的,可以減少數(shù)據(jù)搜集和人工標(biāo)注的成本。

BERT 在專利匹配、中文語義匹配、金融文本情感分析、中文地址分詞、問答等領(lǐng)域有著廣泛的應(yīng)用:在專利匹配領(lǐng)域,Cao 等[23]提出了一種基于BERT+注意力機(jī)制和基于密度聚類(DBSCAN)的長三角專利匹配算法,有助于分析和研究長三角地區(qū)的專利情況;在中文語義匹配領(lǐng)域,Wu 等[24]提出一種基于BERT 模型的用于問答系統(tǒng)的中文語義匹配算法,實(shí)現(xiàn)了高效準(zhǔn)確的語義匹配,顯著提高文本搜索、問答匹配的效率;在金融文本情感分析領(lǐng)域,Zhu 等[25]提出基于金融領(lǐng)域的全詞覆蓋與特征增強(qiáng)的BERT 預(yù)處理模型,顯著提高了金融文本情感分析的可接受率和召回率;在中文地址分詞領(lǐng)域,Sun 等[26]提出了一種基于BERT的中文地址分詞方法,將非行政級別的地址標(biāo)簽進(jìn)行重新設(shè)計(jì),將中文地址分詞任務(wù)轉(zhuǎn)換為命名實(shí)體識別任務(wù),提取出正確的地址級別;在問答領(lǐng)域,Peng 等[27]提出了基于BERT 的三階段式問答模型,該模型相較于同類基準(zhǔn)模型,抽取出的答案片段更加準(zhǔn)確。

不難看出,BERT 在自然語言處理領(lǐng)域有著十分廣泛的應(yīng)用,在各種任務(wù)上都有著不錯(cuò)的表現(xiàn)。

2 3 種模型的結(jié)構(gòu)

2.1 BERT 模型

BERT 模型由Google 公司在2018 年發(fā)布。BERT的網(wǎng)絡(luò)架構(gòu)使用的是《Attention is all you need》中提出的多層自注意力機(jī)制Transformer 結(jié)構(gòu),其最大的特點(diǎn)是拋棄了傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),通過注意力機(jī)制將任意位置的兩個(gè)單詞的距離轉(zhuǎn)換成1,有效地解決了自然語言處理中棘手的長期依賴問題。多層自注意力機(jī)制Transformer 的網(wǎng)絡(luò)架構(gòu)如圖1[28]所示,它是一個(gè)序列到序列的結(jié)構(gòu),由若干個(gè)編碼器和解碼器堆疊形成。

圖1 BERT 模型的網(wǎng)絡(luò)架構(gòu)Fig.1 Encoder-diverter-decoder with auxiliary information

模型的主要創(chuàng)新點(diǎn)在pre-train 方法上,使用了Masked LM 和Next sentence prediction 兩種方法分別捕捉詞語和句子級別的representation。圖2~4 給出了其模型結(jié)構(gòu)與另外兩種著名的模型:生成式預(yù)訓(xùn)練(Generative pre-training,GPT) 和從語言模型中學(xué)得詞嵌入(Embeddings from language models,ELMO)對比效果。其中Trm 表示Transformer,LSTM 表示長短期記憶網(wǎng)絡(luò),Ei 表示輸入,Ti 表示輸出。對比OpenAI GPT,BERT 是雙向的多層自注意力機(jī)制連接;就像單向循環(huán)神經(jīng)網(wǎng)絡(luò)和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的區(qū)別,直覺上來講效果會好一些。對比ELMo,雖然都是雙向,但是目標(biāo)函數(shù)是不同的。

圖2 BERT 模型結(jié)構(gòu)Fig.2 The architecture of BERT

本文的模型整體使用“檢索式對話系統(tǒng)”的思路,以關(guān)鍵詞和句子的相似度為指標(biāo)將測試集的問句與訓(xùn)練集的問句進(jìn)行匹配,并取和測試集問句“最相似”的問句的答案作為最終答案輸出。模型設(shè)計(jì)要點(diǎn)如下:

1)生成句向量

生成句向量由很多種方式,如使用sklearn 詞袋模型和word2vec 模型等,本文選擇了BERT 的簡單模型,調(diào)用BERT_serving.client 庫中的BERTClient函數(shù)對每個(gè)句子進(jìn)行特征提取,維度為768。

圖3 GPT 模型結(jié)構(gòu)Fig.3 The architecture of GPT

圖4 ELMo 模型結(jié)構(gòu)Fig.4 The architecture of ELMo

2)匹配特殊關(guān)鍵詞的數(shù)量

由于BERT 模型直接將輸入的句子進(jìn)行特征提取生成句向量,采用的語料庫不完全是冬奧問答領(lǐng)域的,因此在冬奧會的專業(yè)領(lǐng)域特征提取的結(jié)果可能不夠準(zhǔn)確。為了彌補(bǔ)這一缺陷,實(shí)驗(yàn)在匹配含有測試問句中關(guān)鍵詞的訓(xùn)練問題庫中的問題時(shí)加入了優(yōu)先特殊關(guān)鍵詞(人名、地名和時(shí)間)。

為了減少運(yùn)算量并減少問題句式的不同對結(jié)果造成的影響,實(shí)驗(yàn)時(shí)手動挑選了若干個(gè)特殊關(guān)鍵詞存在文件里,這些特殊關(guān)鍵詞包括人名、地名和時(shí)間。在匹配的最開始,對于問句中的每一個(gè)關(guān)鍵詞,查詢包含它的訓(xùn)練集句子,比對它和問句之間相同的特殊關(guān)鍵詞,并維護(hù)一個(gè)變量來表示當(dāng)前和問句的最大特殊關(guān)鍵詞匹配數(shù),同時(shí)將對應(yīng)的訓(xùn)練集問句存儲在列表L 中。如果存在多個(gè)和問句的特殊關(guān)鍵詞匹配數(shù)一樣的句子,那么就會進(jìn)入下一步的精細(xì)選擇:首先根據(jù)提問句子中的每一個(gè)關(guān)鍵詞item,查詢訓(xùn)練集中包含這個(gè)關(guān)鍵詞item 的句子的ID,再獲取這個(gè)句子的關(guān)鍵字?jǐn)?shù)組,然后將這個(gè)item 的關(guān)鍵詞匹配數(shù)置為0。如果這個(gè)item 在對應(yīng)的訓(xùn)練問句的關(guān)鍵字?jǐn)?shù)組里,就繼續(xù)判斷該item 是否是特殊關(guān)鍵詞,如果是就將它的關(guān)鍵詞匹配數(shù)加1。統(tǒng)計(jì)完之后判斷當(dāng)前的關(guān)鍵詞匹配數(shù)是否大于先前維護(hù)的最大關(guān)鍵詞匹配數(shù),如果的確更大那么就將最大匹配數(shù)更新并且清空存儲列表L,將當(dāng)前句子的ID 存儲到其中。這樣得到的存儲列表L 就是初次選擇的和問句“最像”的句子的集合。

3)取句向量相似度最大的句子作為結(jié)果

在初步選擇了特殊關(guān)鍵詞匹配度最高的一些句子之后,需要在這些句子中選出和問句“更像”的句子來提供最終的答案。所以需要將問句都轉(zhuǎn)化為特征向量,然后對特征向量采取一些運(yùn)算并比較后得到最終的結(jié)果,具體步驟為:對于存儲列表L 中每一個(gè)句子的ID,得到這個(gè)ID 對應(yīng)的句子的特征向量,與提問句的特征向量一起輸入得分函數(shù)計(jì)算兩個(gè)句子的相似度得分,之后循環(huán)統(tǒng)計(jì)最大的得分和對應(yīng)的訓(xùn)練集句子的ID,然后返回這個(gè)句子的ID。在這里本文設(shè)計(jì)了一個(gè)“門檻”來過濾掉無關(guān)的句子:如果最大的相似度計(jì)算出來都低于70%,那么就認(rèn)為這個(gè)句子不存在答案,返回“暫時(shí)沒有合適的答案”。

需要說明的是本文利用余弦函數(shù)計(jì)算句向量之間的相似度。對于向量來說,最大的相似度就是兩個(gè)向量是平行向量,所以整體來說,兩個(gè)向量的夾角越小,它就越相似。所以直接使用兩個(gè)向量的積除以它們的模長的積來計(jì)算它們夾角的余弦值,并以這個(gè)余弦值作為兩個(gè)句向量之間的相似度。得分函數(shù)值也取這個(gè)余弦值。

2.2 TF-IDF 模型

gensim 庫用于從原始的非結(jié)構(gòu)化的文本中,無監(jiān)督地學(xué)習(xí)到文本隱層的向量表達(dá)。gensim 庫有語料、向量和模型三大概念。語料是gensim 庫輸入一組語句的集合,即為問答對序列。由于漢語自身語言特點(diǎn),中文句子是由連續(xù)的詞和詞組組成,中間沒有空格,為了使機(jī)器理解,需要對中文句子進(jìn)行切分處理,因此在收集語料之后,把中文詞語切分成詞組,本文使用jieba 庫實(shí)現(xiàn)此功能。如果要對語句的隱含結(jié)構(gòu)進(jìn)行推斷,就需要使用適當(dāng)?shù)臄?shù)學(xué)模型:本文在使用的方法是doc2bow,也就是將語句轉(zhuǎn)化為詞袋。在詞袋向量中,每個(gè)句子被表示成一個(gè)向量,代表字典中每個(gè)詞出現(xiàn)的次數(shù)。例如,給定一個(gè)包含[‘2020’,‘冬奧會’,‘舉辦地’,‘金牌’]的字典,語句[‘2020’,‘冬奧會’,‘2020’] 字可以表示成向量[(0,2),(1,1)],表示‘2020’(編號0)出現(xiàn)了2 次、‘冬奧會’(編號1)出現(xiàn)了1 次。在向量化語料后,可以使用各種模型進(jìn)行訓(xùn)練,使用模型實(shí)質(zhì)上在兩個(gè)向量空間中進(jìn)行轉(zhuǎn)換。

TF-IDF 模型中需要計(jì)算詞頻(TF)和逆向文檔頻率(IDF),計(jì)算方式分別為

在得到TF 與IDF 之后將兩個(gè)值相乘就得到了一個(gè)詞的TF-IDF 值。某個(gè)詞對測試語句的重要性越高,TF-IDF 值就越大。TF-IDF 模型能有效避免常用詞對關(guān)鍵詞的影響,提高了關(guān)鍵詞與測試語句之間的相關(guān)性。

文章使用余弦相似度進(jìn)行TF-IDF 值的比較。對于訓(xùn)練集中的每一個(gè)問題,可以得到一個(gè)TF-IDF 向量,表示為

通過計(jì)算兩個(gè)向量的夾角余弦值來評估他們的相似度。余弦值的范圍為[?1,1],值越趨近于1,代表兩個(gè)向量的方向越接近,也就是相似度越高。之后利用相似度值來檢索最適合的答案。

2.3 知識圖譜

知識圖譜(Knowledge graph,KG)是一種有向圖。圖中的點(diǎn)代表實(shí)體,邊代表關(guān)系。一個(gè)邊(通常為謂詞)連接兩個(gè)實(shí)體,分別為頭部實(shí)體和尾部實(shí)體。這樣一個(gè)頭部實(shí)體、一個(gè)關(guān)系、一個(gè)尾部實(shí)體構(gòu)成了一個(gè)三元組,也被稱為事實(shí)。知識圖譜通常由數(shù)千萬乃至數(shù)十億個(gè)事實(shí)構(gòu)成。為了在如此龐大的數(shù)據(jù)中快速且準(zhǔn)確地獲取目標(biāo)信息,提出了知識圖譜問答。它的目標(biāo)是把自然語言轉(zhuǎn)換為結(jié)構(gòu)化查詢,且返回知識圖譜中的實(shí)體或謂詞為答案。

本文的基于知識圖譜嵌入的問答系統(tǒng)主要面向于簡單問題。對于簡單問題的定義是:如果一個(gè)自然語言問題只涉及知識圖譜中的一個(gè)頭部實(shí)體和一個(gè)謂詞,并以它們的尾部實(shí)體作為答案,那么這個(gè)問題稱為簡單問題。對于一個(gè)簡單問題,首先需要預(yù)測他的頭部實(shí)體和謂詞,即關(guān)系,再在知識圖譜中找到對應(yīng)的尾部實(shí)體,將之做為答案返回。

知識圖譜的嵌入:用(h,l,t) 代表一個(gè)三元組,用eh 代表預(yù)測頭實(shí)體表示,類似的,用et 代表尾實(shí)體表示。用Pl 代表一個(gè)預(yù)測謂詞表示。生成知識圖譜的時(shí)候,用(h,l,t)構(gòu)成高維知識圖譜,為了便于查詢,需要把這個(gè)高維知識圖譜轉(zhuǎn)換為形如(eh,Pl,et)的低維向量。這樣就把高維的知識圖譜嵌入到低維空間,而不會損失信息。

預(yù)測關(guān)系首先把句子進(jìn)行分詞,得到標(biāo)志(token)串,用LSTM 捕捉詞與詞之間的關(guān)系,并轉(zhuǎn)化為向量表達(dá)。對每個(gè)向量加權(quán)后,形成帶權(quán)向量。最后把一個(gè)標(biāo)志串的向量相加,形成預(yù)測關(guān)系表達(dá)。

預(yù)測實(shí)體對于預(yù)測實(shí)體,需要提前標(biāo)出哪個(gè)位置的詞是實(shí)體。然后類似于預(yù)測關(guān)系,先生成標(biāo)志串,輸入LSTM,形成向量表達(dá),輸入全連接層,最終輸出每個(gè)標(biāo)志的向量。再根據(jù)提前的標(biāo)注區(qū)分是否為實(shí)體。

嵌入空間的聯(lián)合搜索對于每一個(gè)問題,現(xiàn)已經(jīng)預(yù)測了它的謂詞表示和頭部實(shí)體表示。如果一個(gè)預(yù)測頭部實(shí)體表示在知識圖譜的三元組中,稱之為候選頭部實(shí)體;這個(gè)三元組稱之為候選事實(shí)。度量這個(gè)候選事實(shí)的謂詞與謂詞表示的距離,就可以搜素到尾部實(shí)體,并將尾部實(shí)體作為答案返回。

3 數(shù)據(jù)集、評估方法與實(shí)驗(yàn)結(jié)果

3.1 實(shí)驗(yàn)數(shù)據(jù)

為了得到問答數(shù)據(jù)集,我們上網(wǎng)爬取了1924 年以來的冬奧會賽事記錄48 563 條,數(shù)據(jù)中包含運(yùn)動員的姓名、性別、年齡、身高、體重、國家、參與奧運(yùn)會的年份、參加奧運(yùn)會的項(xiàng)目、獲獎情況等信息,然后通過腳本生成了對應(yīng)的“提問?回答對”,具體包括:

1)針對每一條冬奧會記錄,生成關(guān)于人物、獲獎時(shí)間、地點(diǎn)、獲獎項(xiàng)目、獲獎屆別、所屬參賽隊(duì)、獎牌情況的單項(xiàng)問答句。冬奧會紀(jì)錄共48 563條,生成單項(xiàng)信息問答句共265 757 對。

2) 關(guān)于運(yùn)動員個(gè)人情況的所有單項(xiàng)信息問句,如誰是男是女?身高多少?體重多少?是哪個(gè)國家的?獲獎牌那年多大年齡?參加過哪屆運(yùn)動會?獲得過什么獎牌?這些問題還更換了不同的問法,比如詢問運(yùn)動員的國籍有“運(yùn)動員是哪個(gè)國家的?”和“運(yùn)動員來自哪里?”兩種不同的問法。

3)生成2 000 對復(fù)合統(tǒng)計(jì)問答句,如問某國家獲得金牌總數(shù)、銀牌總數(shù)、銅牌總數(shù)是多少?問某人獲得金牌總數(shù)、銀牌總數(shù)、銅牌總數(shù)是多少?問某一地區(qū)獲得金牌總數(shù)、銀牌總數(shù)、銅牌總數(shù)是多少?問冬奧會舉行過多少屆?總共產(chǎn)生多少金牌、多少銀牌、多少銅牌?哪個(gè)國家獲得獎牌數(shù)最多,哪個(gè)國家獲得金牌數(shù)最多?哪位運(yùn)動員個(gè)人獎牌數(shù)最多?哪位運(yùn)動員個(gè)人金牌數(shù)最多?問某個(gè)國家在某一個(gè)項(xiàng)目上獲獎成績是不斷上升還是不斷下降,還是有升有降?

得到的問答對按照9∶1 的比例劃分訓(xùn)練集和測試集。

3.2 實(shí)驗(yàn)方法

考慮到BERT 模型和TDIDF 模型實(shí)現(xiàn)的時(shí)候是在所有可能的句子中尋找“最像”的句子并且輸出其對應(yīng)的答句,所以生成的答句應(yīng)全包含在訓(xùn)練集中,不會產(chǎn)生語義相同但表達(dá)方式不同的答句。因此,只需要將答句輸出與正確答句直接進(jìn)行對比,如果相同則可接受。為了進(jìn)行評估,在模型實(shí)現(xiàn)后添加對答句的判斷,輸出可接受率。在此理論基礎(chǔ)上,本文實(shí)現(xiàn)了測試BERT 模型和TF-IDF 模型實(shí)驗(yàn)結(jié)果的腳本。

對于知識圖譜模型,基于標(biāo)注好的問答對來構(gòu)建知識圖譜,用其中一部分作為test 和valid 集用于訓(xùn)練。最后用所有問答對來檢測知識圖譜模型的正確率。

3.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)的最后結(jié)果統(tǒng)計(jì)如表1 所示,這里分別列出每一類問答對的可接受率。

表1 3 種模型對于3 類問題的回答可接受率Table 1 Accuracy of three models for three types of questions %

上述實(shí)驗(yàn)結(jié)果表明BERT 模型的整體效果略優(yōu)于知識圖譜和TD-IDF 模型,BERT 模型對于3 類問題的回答可接受率都超過了96%,知識圖譜和TD-IDF 模型對于復(fù)合統(tǒng)計(jì)問答對的回答效果不如BERT 模型。

4 分析與對比

BERT 模型包含兩個(gè)預(yù)訓(xùn)練任務(wù):遮蓋部分詞的語言模型(masked language modeling)和下一個(gè)句子預(yù)測(next sentence prediction)。Masked language modeling 預(yù)訓(xùn)練過程可以看作是完形填空過程,這個(gè)過程使得模型在預(yù)測一個(gè)詞匯時(shí),模型并不知道輸入對應(yīng)位置的詞匯是不是正確的詞匯,所以模型會更多地根據(jù)上下文的信息來預(yù)測詞匯,并且具有一定的糾錯(cuò)能力;Next sentence prediction 與訓(xùn)練過程可以看作段落重排過程,這使得模型能夠更準(zhǔn)確地刻畫語句的語義信息。BERT 模型的這兩個(gè)預(yù)訓(xùn)練過程使得模型對于問答對特征向量的提取能夠做得很優(yōu)秀,提取出的向量都盡可能全面準(zhǔn)確地刻畫了輸入文本的整體信息。例如,對于問句“Christine Jacoba Aaftink的身高是多少?”和問句“Christine Jacoba Aaftink有多高?”,這兩個(gè)問句雖然提問方式不同,但是使用BERT 模型提取出的特征向量差別很小,也就是說BERT 模型對于提問方式的轉(zhuǎn)換能夠處理得不錯(cuò)。再比如對于問句“Christine Jacoba Aaftink參加過哪一年的冬奧會?”,BERT 模型會根據(jù)問題中的關(guān)鍵詞:“Christine Jacoba Aaftink”“參加”“年”“冬奧會”快速提取出正確的3 個(gè)答案:1988冬奧會,1992 冬奧會和1994 冬奧會。由于關(guān)鍵詞和特征向量的提取具有代表性,因此對于3 類問答對BERT 模型的實(shí)現(xiàn)可接受率都整體較高。但是BERT 模型在訓(xùn)練中的mask 標(biāo)記也可能會影響模型表現(xiàn),因?yàn)檫@個(gè)標(biāo)記在實(shí)際預(yù)測中不會出現(xiàn),所以對于個(gè)別問題BERT 模型回答的答案可能會有較大的失誤,甚至出現(xiàn)問答不符的現(xiàn)象。另外,BERT 模型結(jié)構(gòu)復(fù)雜,復(fù)現(xiàn)開銷較大。

TF-IDF 模型是建立在區(qū)別文檔有意義的詞語出現(xiàn)頻率一定高的假設(shè)上的,但顯然此理論并不是完全正確的,IDF 的簡單結(jié)構(gòu)并不一定能有效地反映單詞的重要程度以及特征詞的分布情況。因此TF-IDF 模型的精度比較受限,在實(shí)驗(yàn)中基于TF-IDF 的問答系統(tǒng)可接受率在很大程度上受限于輸入數(shù)據(jù)的影響。在輸入數(shù)據(jù)集有相似問答句時(shí),隨機(jī)算法生成的測試集與訓(xùn)練集可能有很大部分是重疊的,此時(shí)進(jìn)行測試時(shí)TF-IDF 模型往往能檢索到訓(xùn)練集中類似的問句并進(jìn)行正確輸出,可接受率最高可以達(dá)到99.8%。而在沒有重復(fù)問答句的數(shù)據(jù)集中進(jìn)行測試,訓(xùn)練集與測試集往往沒有共性,此時(shí)可接受率較低,是不可接受的。以實(shí)際數(shù)據(jù)集為例:在生成關(guān)于冬奧會記錄的問答對時(shí),對于同一語義的問題生成了許多替換類似表達(dá)法的問句,比如對于“Christine Jacoba Aaftink 的身高是多少厘米?”這個(gè)問句進(jìn)行表達(dá)法上的替換,生成了“Christine Jacoba Aaftink的身高是多少?”“Christine Jacoba Aaftink 有多高?”等許多同義問句;而這些同義問句都對應(yīng)著同樣的答案,使用這種問答對數(shù)據(jù)進(jìn)行測試就會得到較好的效果。反之,在對于“Christine Jacoba Aaftink 參加過哪一年的冬奧會?”這個(gè)問題上我們并沒有進(jìn)行替換表達(dá)法的完善,在這種每個(gè)問句語義都獨(dú)立的數(shù)據(jù)集上進(jìn)行測試,效果就較差。當(dāng)用于訓(xùn)練的數(shù)據(jù)趨于完備時(shí),生成的模型才是可接受的。

相比于上面兩種模型而言,三元組知識圖譜更加貼近實(shí)際語言的理解,回答方式有更多的調(diào)整空間。比如對于問句“Christine Jacoba Aaftink參加過哪一年的冬奧會?”,在知識圖譜模型中,搜索時(shí)會分3 次搜索到3 個(gè)實(shí)體:1988 冬奧會,1992 冬奧會,1994 冬奧會。我們可以在輸出答案的時(shí)候處理為:若識別到關(guān)系是 Athlete/參加/Game,則返回的答案形如:“Christine Jacoba Aaftink 參加過:”+“1988 冬奧會”+“1992 冬奧會”+“1994 冬奧會”這樣的結(jié)果,更加貼近于理解而不是機(jī)械返回已有答案。另外,三元組知識圖譜模型對于同一答案的不同提問方式能夠很方便地復(fù)用,例如問句“Christine Jacoba Aaftink 的身高是多少?”和“Christine Jacoba Aaftink 有多高?”,這兩個(gè)例子在詢問身高。在三元組知識圖譜模型中,僅需把這兩種問法對應(yīng)一個(gè)relation,就可以復(fù)用同一個(gè)三元組,節(jié)省空間,且能降低不同提問方式帶來的噪聲。但是目前來看,三元組知識圖譜仍然不能擺脫人工標(biāo)注數(shù)據(jù)。每個(gè)問答對的實(shí)體,關(guān)系需要人工標(biāo)注。在預(yù)訓(xùn)練時(shí),想復(fù)用同一關(guān)系,需要人工把多個(gè)關(guān)系合并為一個(gè)ID。與之相比,TF-IDF 模型只需要問答對而不需要標(biāo)注,BERT 模型更是想把每一篇文章,作為天生的訓(xùn)練語料,徹底擺脫人工標(biāo)注。而且,三元組知識圖譜面對多實(shí)體,多關(guān)系的問答對和推理類的問答對回答能力弱。如提問形如“xxx 的身高和體重”這樣的問題,往往只能搜索到身高或體重。提問形如“xxx 在某一屆冬奧會上是否獲得獎牌”。盡管知識圖譜中保存了運(yùn)動員獲得獎品的信息,但很難通過這些信息推理出答案。

5 結(jié)束語

本研究旨在形成冬奧會信息問答系統(tǒng)。我們在網(wǎng)上爬取、收集冬奧會相關(guān)信息,并處理成冬奧問答數(shù)據(jù)集。之后基于知識圖譜、TF-IDF 和BERT 模型分別訓(xùn)練得到3 種問答系統(tǒng)。本文在設(shè)計(jì)對話系統(tǒng)的基礎(chǔ)上,針對系統(tǒng)回答的可接受度進(jìn)行實(shí)驗(yàn),將自1924 年以來的冬奧會數(shù)據(jù)轉(zhuǎn)化為問答對形式,在模型上進(jìn)行訓(xùn)練,驗(yàn)證了這些回答的可接受率,對比了3 種方法的特點(diǎn)以及適用場景??傮w來講,BERT 模型的整體效果略優(yōu)于知識圖譜和TDIDF 模型,BERT 模型對于3 類問題的回答可接受率都超過了96%,知識圖譜和TD-IDF 模型對于復(fù)合統(tǒng)計(jì)問答對的回答效果不如BERT 模型。

猜你喜歡
圖譜實(shí)體向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
主動對接你思維的知識圖譜
向量垂直在解析幾何中的應(yīng)用
吴江市| 宝坻区| 南岸区| 石棉县| 丽水市| 桑日县| 尤溪县| 奇台县| 遂川县| 丹巴县| 视频| 石楼县| 鹤山市| 神木县| 大荔县| 广安市| 玛沁县| 札达县| 甘肃省| 六枝特区| 车致| 三门峡市| 平阴县| 沧州市| 宣汉县| 黑龙江省| 磴口县| 华蓥市| 阿巴嘎旗| 砚山县| 绥中县| 陆河县| 张北县| 临桂县| 墨玉县| 吉林市| 山东省| 花垣县| 南平市| 大同县| 灵石县|