譚紅葉,劉 蓓,王元龍
(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
機(jī)器閱讀理解旨在使機(jī)器像人類一樣能夠通過對(duì)文本的深入理解來回答一系列相關(guān)問題。近幾年機(jī)器閱讀理解受到了學(xué)術(shù)界和企業(yè)界的廣泛關(guān)注,已成為人工智能及NLP領(lǐng)域的一個(gè)研究熱點(diǎn)。如微軟、Facebook、Google DeepMind、百度、哈工大訊飛聯(lián)合實(shí)驗(yàn)室、Stanford University等頂級(jí)IT公司與大學(xué)分別展開相關(guān)研究,并創(chuàng)建公布了各自的閱讀理解數(shù)據(jù)集,提升了機(jī)器閱讀理解的研究水平,促進(jìn)了語言理解和人工智能的發(fā)展。
根據(jù)已有的閱讀理解數(shù)據(jù)集,從形式上看,閱讀理解問題可分為cloze問題、選擇題和問答題。針對(duì)cloze問題有CNN/Daily Mail[1]、漢語PeopleDaily/CFT[2]等數(shù)據(jù)集;選擇題有MCTest[3]、CLEF高考評(píng)測(cè)[4-5]等數(shù)據(jù)集;而問答題有SQuAD[6]、MS MARCO[7]、漢語DuReader[8]和CMRC2018評(píng)測(cè)任務(wù)5[注]http: //www.hfl-tek.com/cmrc2018/等數(shù)據(jù)集,根據(jù)這些數(shù)據(jù)集中答案的長短,又可將問答題分為YesNo問題、簡單事實(shí)類(實(shí)體類、短語類)問題和描述類問題。針對(duì)cloze問題和簡單事實(shí)類問題已提出了眾多的神經(jīng)網(wǎng)絡(luò)模型,而對(duì)問答題中的描述類問題(其問題語義概括程度高,答案(斜體字)也一般由多個(gè)句子組成,如表1所示)研究較少,但該類問題在現(xiàn)實(shí)生活中廣泛存在,百度對(duì)其搜索引擎上的日志進(jìn)行統(tǒng)計(jì)后,發(fā)現(xiàn)52.4%的問題都屬于描述類問題[8]。文獻(xiàn)[9]針對(duì)北京語文高考題中的概括題采用分步解答策略,先基于關(guān)鍵詞詞向量的句子相似度定位問句出處,然后利用CFN(Chinese FrameNet)進(jìn)行篇章框架標(biāo)注,并基于框架語義匹配及框架語義關(guān)系進(jìn)行答案候選句抽取,最后采用流行排序算法進(jìn)行排序得到最終的答案,由于高考題數(shù)據(jù)量的缺乏,無法訓(xùn)練端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型,且傳統(tǒng)方法容易帶來級(jí)聯(lián)錯(cuò)誤,所以本文采用端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型對(duì)描述類問題的解答進(jìn)行研究。
本文的貢獻(xiàn)主要有: 基于端對(duì)端的神經(jīng)網(wǎng)絡(luò)模型對(duì)閱讀理解中描述類問題的解答進(jìn)行了探索;在神經(jīng)網(wǎng)絡(luò)模型中融入了對(duì)問題的理解,即在模型的解題過程中考慮了問題類型、問題主題和問題焦點(diǎn)這三種信息;在模型的最后一層對(duì)答案進(jìn)行了后處理,即對(duì)答案進(jìn)行了噪音和冗余信息的識(shí)別與去除。
表1 描述類問題示例
數(shù)據(jù)來源: DuReader[注]http: //ai.baidu.com/broad/subordinate?dataset=dureader
目前閱讀理解的研究主要在CNN/Daily Mail[1]和SQuAD[6]數(shù)據(jù)集上進(jìn)行,基于這些數(shù)據(jù)集眾多神經(jīng)網(wǎng)絡(luò)模型被提出,模型的架構(gòu)一般包含: 嵌入層、編碼層、交互層和預(yù)測(cè)層。嵌入層對(duì)詞進(jìn)行分布式表示,編碼層使得每個(gè)詞具有上下文信息,交互層負(fù)責(zé)原文與問題比較,并更新二者表示,預(yù)測(cè)層根據(jù)交互層的輸出預(yù)測(cè)答案,但各個(gè)模型在每層的實(shí)現(xiàn)上又有所不同。
在嵌入層,F(xiàn)astQA[10]加入了原文詞是否出現(xiàn)在問題中的二值特征和原文詞與問題詞相似度的權(quán)值特征,加強(qiáng)了問題與文章的交互;jNet[11]使用TreeLSTM對(duì)問題進(jìn)行編碼,考慮了問題的句法信息,同時(shí)在模型中引入了問題類型(when、where等)標(biāo)簽,增強(qiáng)了模型對(duì)問題的理解。
在編碼層,大多數(shù)模型使用雙向的LSTM或GRU對(duì)原文和問題中的每個(gè)詞進(jìn)行編碼,使得每個(gè)詞都具有上下文信息,而QANET[12]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和自注意力機(jī)制對(duì)問題和原文進(jìn)行編碼,去除了LSTM和GRU的循環(huán)特性,提升了模型訓(xùn)練速度。
在交互層,模型大都引入注意力機(jī)制,即通過某種匹配函數(shù)計(jì)算文本中每個(gè)單詞與問題中每個(gè)詞(或問題整體語義)的匹配程度,Hermann等[1]提出的Attentive Reader模型采用tanh函數(shù)計(jì)算注意力值;Chen等[13]在該模型基礎(chǔ)上提出了Stanford Attentive Reader模型,采用bilinear函數(shù)計(jì)算注意力值;而Attention sum Reader[14]模型較簡潔,直接將問題和文檔的上下文表示進(jìn)行點(diǎn)積,并進(jìn)行softmax歸一化得到注意力值;Dhingra等[15]提出的Gated Attention Reader模型采用哈達(dá)馬積(hadamard product)計(jì)算注意力值,動(dòng)態(tài)更新注意力值,對(duì)文檔進(jìn)行多次表達(dá),對(duì)最后一層注意力值進(jìn)行歸一化,實(shí)驗(yàn)結(jié)果顯示該模型有更好的推理能力;相比以上模型,Cui等[16]提出了一種多重注意力機(jī)制(Attention over Attention),不僅考慮問題對(duì)文檔的注意力,也考慮文檔對(duì)問題的注意力,即實(shí)現(xiàn)問題和文檔的相互關(guān)注,實(shí)驗(yàn)結(jié)果相比以往有所提升;Seo等[17]提出的BIDAF模型也引入了雙向注意力機(jī)制,并基于該注意力得到query-aware的原文表示,再將其輸入建模層進(jìn)行語義信息的聚合,最終得到融合問題和上下文信息的一個(gè)表示;R-NET模型[18]引入了一種self-matching注意力機(jī)制,其可高效捕獲長距離依賴關(guān)系。
在預(yù)測(cè)層,對(duì)于cloze問題,模型利用交互層計(jì)算的注意力值進(jìn)行答案預(yù)測(cè),有的模型將具有最大權(quán)重的詞作為答案輸出[1,13],有的模型結(jié)合詞在原文中的出現(xiàn)頻次累加相應(yīng)權(quán)重,選擇累加權(quán)重最大的詞作為答案輸出[14-16];對(duì)于答案為一個(gè)片段的問答題,Match-LSTM模型[19]提出了兩種答案預(yù)測(cè)模式: Sequence Model和Boundary Model。前者輸出具有最大概率的位置序列,得到的答案可能是不連貫的,后者只輸出答案在原文中的開始和結(jié)束位置,實(shí)驗(yàn)顯示簡化的Boundary Model效果更好,而DCN模型[20]使用了一種多輪迭代預(yù)測(cè)機(jī)制。
以上神經(jīng)網(wǎng)絡(luò)模型在這兩個(gè)數(shù)據(jù)集上取得了不錯(cuò)的效果,但這些模型仍存在以下不足:
1) 僅能解決答案存在于原文中的問題,對(duì)需要生成答案的問題無能為力。
2) 模型中加入的問題特征過于表面,沒有將問題的理解融入到模型中。
3) 沒有達(dá)到對(duì)語言的真正理解,如Percy Liang等人[21]在SQuAD數(shù)據(jù)中加入了對(duì)抗語句,并對(duì)發(fā)布的16個(gè)模型進(jìn)行了測(cè)試,結(jié)果F1值普遍降低了40%左右。
針對(duì)第二點(diǎn),我們?cè)谀P椭胁粌H融入問題類型(Question Type),還融入問題主題(Question Topic)和問題焦點(diǎn)(Question Focus)信息,其中問題類型可以增強(qiáng)期望的答案類別標(biāo)識(shí)[22],問題主題表明問題的主要背景或約束條件,問題焦點(diǎn)表明問題主題的某個(gè)方面[23],識(shí)別這些信息,可以增強(qiáng)系統(tǒng)對(duì)問題的理解(Question Understanding),從而更準(zhǔn)確的找到答案。
我們將描述類問題的解答形式化定義為: 給定一個(gè)問題Q和一個(gè)候選文檔D,目標(biāo)是系統(tǒng)從文檔D中選擇一個(gè)與問題最相關(guān)的答案A={a1,a2,…,aj},其中aj為D中的一句話,在D中aj之間連續(xù)或不連續(xù)。本文假定aj之間在D中是連續(xù)的。
如圖1所示,我們使用框架為嵌入層、編碼層、交互層、預(yù)測(cè)層和答案后處理層的QU-NNs(Question Understanding-Neural Networks,即融入問題理解的神經(jīng)網(wǎng)絡(luò)模型)模型解答描述類問題。為了增強(qiáng)模型對(duì)問題的理解(QU),我們將問題類型、問題主題和問題焦點(diǎn)這三種特征融入模型中,正確的識(shí)別這三種特征能對(duì)問題進(jìn)行語義層面的理解,并對(duì)模型輸出的結(jié)果進(jìn)行噪音和冗余信息的識(shí)別,即答案后處理過程?;贐IDAF模型,我們對(duì)嵌入層和交互層進(jìn)行改進(jìn),并加入答案后處理層,所以著重對(duì)這三部分進(jìn)行說明。
圖1 基于QU-NNs的描述類問題解答框架
融入問題類型的詞嵌入層: 為了增強(qiáng)問題類型信息,將問題類型同問題一起作為輸入,即:Q={qt,q1,q2…qm},其中qt為問題類型,m為問題的詞數(shù),Q∈Rd×(m+1)。文檔D={p1,p2…pn},其中n為文檔的詞數(shù),D∈Rd×n(d為向量的維度)。
編碼層: 使用雙向LSTM(Bi-directional Long Short-Term Memory Network)分別對(duì)問題和文檔進(jìn)行編碼,將兩個(gè)方向上LSTM的輸出進(jìn)行拼接作為每個(gè)詞的表示,分別得到問題和文檔的表示:Qh∈R2d×(m+1),Dh∈R2d×n,其中每個(gè)詞都具有上下文信息。
融入問題主題和焦點(diǎn)的交互層: 即文檔與問題的信息交互層。與BIDAF不同的是,在計(jì)算文檔中第i個(gè)詞與問題中第j個(gè)詞之間的相似度Sij時(shí),我們考慮到每個(gè)問題詞的重要程度qimportance(相對(duì)于問題本身)對(duì)相似度的影響,該重要度由tf-idf值和問題主題與焦點(diǎn)信息共同決定。tf-idf是基于統(tǒng)計(jì)的方法評(píng)估一個(gè)詞的重要度,具有很好的泛化能力,但不適用于個(gè)別反常數(shù)據(jù)。問題主題和問題焦點(diǎn)是針對(duì)問題本身用規(guī)則的方法評(píng)估一個(gè)詞的重要度,這兩種信息共同作用可以更好地表示問題詞的重要度。
(1)
(2)
(3)
其中,Qj=q,qtf-idf為詞q對(duì)應(yīng)的tf_idf值(公式4),V為詞表,a,b,c為常數(shù),若q不在詞表中,且不存在于QTopic、QFocus和QType(QType∈{how,why,compare,explanation,evaluation,brief,other})中,則取0.001(該詞的重要性一般很低,為了平滑,取0.001)
(4)
其中,tf(q)是詞q在文檔D中的詞頻,|D|為文檔D的總詞數(shù),|AD|為所有的文檔(All Document),|AD(q)|即為包含詞q的文檔數(shù)。
基于相似矩陣S,計(jì)算雙向注意力(即文檔對(duì)問題的注意力(Context2Query)和問題對(duì)文檔的注意力(Query2Context)): 其中ai∈Rm+1(式(5),其中Si: 表示第i行)表示所有問題詞對(duì)文檔中第i個(gè)詞的注意力權(quán)重,b∈Rn[式(6),其中maxcol(S)表示取S矩陣中每行的最大值]表示所有文檔詞對(duì)問題中第i個(gè)詞的注意力權(quán)重,基于該注意力計(jì)算query-aware的原文表示,并使用雙向LSTM進(jìn)行語義信息的聚合,最終得到包含問題和文檔信息的語義矩陣。
預(yù)測(cè)層: 基于Boundary Model思想預(yù)測(cè)答案,即只預(yù)測(cè)答案開始和結(jié)束位置。模型輸出的是答案區(qū)間,其僅適應(yīng)答案連續(xù)的問題。
答案后處理層: 本文采用一個(gè)啟發(fā)式的方法檢索噪音和冗余信息,通過對(duì)比人工生成的答案和對(duì)應(yīng)的文本片段,構(gòu)建噪音詞表W,如標(biāo)簽詞“百度經(jīng)驗(yàn)”“經(jīng)驗(yàn)列表”等就為文本中的噪音。同時(shí),文本中存在重復(fù)片段(如網(wǎng)頁中會(huì)存在惡意復(fù)制現(xiàn)象等),系統(tǒng)輸出的答案中就可能包含重復(fù)信息。將噪音和重復(fù)信息刪除,可提高結(jié)果的簡潔性。
問題類型通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,問題焦點(diǎn)和問題主題通過句法分析獲取,具體細(xì)節(jié)見2.2節(jié)。
2.2.1 問題類型識(shí)別
問題類型可以增強(qiáng)期望的答案類別標(biāo)識(shí),對(duì)答案具有一定指導(dǎo)作用。本文為了探索問題類型對(duì)回答描述類問題的引導(dǎo)作用和防止細(xì)粒度分類錯(cuò)誤,我們將描述類問題分為以下四大類,如表2所示。
表2 問題分類及示例
續(xù)表
可見,漢語的提問方式復(fù)雜多變,經(jīng)常出現(xiàn): 同一問題,疑問詞不同;不同問題,疑問詞相同的現(xiàn)象,甚至有時(shí)問句不包含疑問詞,因此識(shí)別問題類型僅憑疑問詞是有一定難度的。本文采用目前在分類問題上應(yīng)用較多的CNN(Couvolutional Neural Networks)模型,對(duì)詞匯進(jìn)行語義層面的表示,完成對(duì)問題的有效分類。
本文采用CNN進(jìn)行問題類型的識(shí)別,即將問句以字的形式輸入模型中,通過卷積層、池化層和全連接層,最后通過softmax函數(shù)確定每個(gè)類別的概率,最終輸出問題類型。
由于“what”類問題較籠統(tǒng),我們進(jìn)一步根據(jù)關(guān)鍵字將該類問題分為“解釋”、“評(píng)價(jià)”、“簡述”和“其他”四種類型,如表3所示。至此,問題類型共有以下7類: 方式(how)、比較(compare)、原因(why)、解釋(explanation)、評(píng)價(jià)(evaluation)、簡述(brief)、其他(other)。
表3 “what”類問題分類
2.2.2 問題主題和問題焦點(diǎn)識(shí)別
問題主題和問題焦點(diǎn)是問題中的關(guān)鍵信息,問題主題表明問題的主要背景或約束條件,問題焦點(diǎn)表明問題主題的某個(gè)方面。如“西游記的結(jié)局是什么”中的“西游記”、“結(jié)局”分別為問題的主題和焦點(diǎn),識(shí)別這兩種信息,可加強(qiáng)系統(tǒng)對(duì)關(guān)鍵信息的關(guān)注,降低非重要詞的干擾,使系統(tǒng)更易找到正確答案。
通過句法分析獲取問題Q={w1,w2,…,wn}的主題和焦點(diǎn),預(yù)先構(gòu)建疑問詞表QW和虛詞、副詞(的,和,是,很,非常省略號(hào))等功能詞表T。
如果wi∈QW,(wj,wi)存在依存關(guān)系,則wj為問題焦點(diǎn),若wj∈T,則再找與wj存在依存關(guān)系的詞作為問題焦點(diǎn)。如果wk修飾(ATT)wj,則wk為問題主題,如圖2所示。(注: 若問句中不存在特殊疑問詞,則將句子的最后一個(gè)詞視為“疑問詞”,如問句“成都二手房交易流程”,將“流程”視為疑問詞)
如果Q為compare類問題,(wu,wv)存在并列(COO)關(guān)系,則wu和wv為問題主題,如圖3所示。
圖2 問題主題與焦點(diǎn)識(shí)別
圖3 Compare類問題主題識(shí)別
本文在具體實(shí)現(xiàn)時(shí)采用哈爾濱工業(yè)大學(xué)的LTP[注]https: //www.ltp-cloud.com/進(jìn)行句法依存分析。
3.1.1 問題類型識(shí)別
從Dureader數(shù)據(jù)集中抽取了2 150條描述類問題(訓(xùn)練集1 450條、驗(yàn)證集500條、測(cè)試集200條)對(duì)CNN進(jìn)行訓(xùn)練,經(jīng)過多次實(shí)驗(yàn)測(cè)試,模型參數(shù)設(shè)置為: 字向量維度為64,卷積核函數(shù)為ReLU,過濾器數(shù)量為256,優(yōu)化算法為Adam,批大小為32,迭代次數(shù)為40,學(xué)習(xí)率為0.001。
3.2.2 問題主題和問題焦點(diǎn)識(shí)別
從Dureader數(shù)據(jù)集中隨機(jī)抽取100個(gè)問題,對(duì)這些問題的主題和焦點(diǎn)進(jìn)行人工標(biāo)注。
3.2.3 QU-NNs模型
實(shí)驗(yàn)中采用的預(yù)訓(xùn)練詞向量是通過Word2Vec對(duì)中文維基百科數(shù)據(jù)進(jìn)行訓(xùn)練得到的。本文實(shí)驗(yàn)所用的數(shù)據(jù)集是Wei He[8]提出的Dureader數(shù)據(jù)集中的描述類數(shù)據(jù),因其沒有公開測(cè)試集的答案,為了方便評(píng)價(jià)實(shí)驗(yàn)結(jié)果,我們將驗(yàn)證集進(jìn)行了劃分,最終數(shù)據(jù)分布為: 訓(xùn)練集161 834篇、驗(yàn)證集4 378篇、測(cè)試集2 000篇;同時(shí)我們抽取了科大訊飛提出的CMRC2018閱讀理解中符合描述類問題的數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)(4 600條問答對(duì),其中驗(yàn)證集和測(cè)試集分別為200條、200條)。實(shí)驗(yàn)評(píng)價(jià)方法采用Wei He[8]在其數(shù)據(jù)集上實(shí)驗(yàn)時(shí)使用的Blue-4[24]和Rouge-L[25]評(píng)價(jià)方法。問題詞重要度中的參數(shù)在實(shí)驗(yàn)中經(jīng)過多次測(cè)試后,最終設(shè)定為a=3,b=0.5,c=1。模型參數(shù): 詞向量維度為300,隱層節(jié)點(diǎn)數(shù)為150,優(yōu)化算法為Adam,批大小為32,迭代次數(shù)為10,學(xué)習(xí)率為0.001。
3.2.1 問題類型識(shí)別
采用字符級(jí)CNN對(duì)問題進(jìn)行分類,實(shí)驗(yàn)結(jié)果如表4所示:
表4 問題類型識(shí)別結(jié)果
從表4可看出,Compare類問題準(zhǔn)確率達(dá)到了100%,而What類問題準(zhǔn)確率較低,分析數(shù)據(jù)發(fā)現(xiàn)Compare類問題較有標(biāo)志性,其一般都包含‘區(qū)別’、‘比’等詞,問句比較規(guī)范,而What類問題詢問方面很多且較多情況下不出現(xiàn)疑問詞,如“甲骨文的字形特點(diǎn)?”,正確識(shí)別較難。
3.2.2 問題主題和問題焦點(diǎn)識(shí)別
將系統(tǒng)自動(dòng)識(shí)別的問題主題和焦點(diǎn)與人工標(biāo)注數(shù)據(jù)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示,分析數(shù)據(jù)發(fā)現(xiàn)由分詞導(dǎo)致的識(shí)別錯(cuò)誤較多,但整體識(shí)別效果已滿足實(shí)驗(yàn)要求。
表5 問題主題和焦點(diǎn)識(shí)別結(jié)果
3.2.3 QU-NNs模型
為了驗(yàn)證本文所加特征的有效性,以不加任何特征的BIDAF模型作為實(shí)驗(yàn)的baseline。為了評(píng)價(jià)不同特征對(duì)實(shí)驗(yàn)結(jié)果的影響,我們?cè)O(shè)置了三組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6~7所示。
① 在baseline中融入問題類型特征(QType)
② 在baseline中融入問題主題和問題焦點(diǎn)(QTopic+QFocus)
③ 在baseline中融入問題類型、問題主題和問題焦點(diǎn)(QType+QTopic+QFocus)
由實(shí)驗(yàn)①②③可以看出,不同特征的融入對(duì)實(shí)驗(yàn)結(jié)果有一定影響,同時(shí)融入問題類型、問題主題、問題焦點(diǎn)這三種特征后實(shí)驗(yàn)結(jié)果最好。通過數(shù)據(jù)分析,發(fā)現(xiàn)加入問題類型后,答案區(qū)間定位更準(zhǔn)確,可見問題類型對(duì)識(shí)別正確答案具有一定引導(dǎo)作用;加入問題主題和問題焦點(diǎn)后,答案中減少了與問題無關(guān)的信息,答案更精準(zhǔn)。
④ 對(duì)加入三種特征后模型的輸出結(jié)果進(jìn)行后處理(Post-processing),即刪除噪音和冗余信息。實(shí)驗(yàn)結(jié)果如表6所示,ROUGE-L值和BLEU-4值明顯提高,因?yàn)閷?shí)驗(yàn)數(shù)據(jù)均來自百度搜索和百度知道,網(wǎng)頁上存在較多的噪音數(shù)據(jù)和重復(fù)信息,抽取的答案片段中自然也有較多的這些信息。CMRC2018是基于篇章片段抽取的閱讀理解數(shù)據(jù)集,數(shù)據(jù)集較為規(guī)范,本文提出的答案后處理策略對(duì)該類數(shù)據(jù)不奏效。
表6 DuReader數(shù)據(jù)實(shí)驗(yàn)結(jié)果
表7 CMRC2018數(shù)據(jù)實(shí)驗(yàn)結(jié)果
從表6和表7的實(shí)驗(yàn)結(jié)果看: 本模型在CMRC數(shù)據(jù)集上效果更明顯,分析數(shù)據(jù)發(fā)現(xiàn)CMRC數(shù)據(jù)集更加規(guī)范,問題表述較清晰,問題特征更易識(shí)別;融入所有問題特征的模型效果最好,可見加強(qiáng)問題的理解有助于系統(tǒng)找到正確答案。本文實(shí)驗(yàn)存在的不足有: (1)文本理解對(duì)回答問題很重要,實(shí)驗(yàn)中沒有對(duì)文本理解進(jìn)行建模。(2)由于語言表述復(fù)雜多變,簡單的噪音和冗余信息識(shí)別對(duì)于答案生成過于粗糙,應(yīng)該基于語義及篇章層面分析其中與問題無關(guān)的信息。
本文針對(duì)閱讀理解中的描述類問題,將對(duì)問題的理解融入了模型中,主要對(duì)問題類型、問題主題和問題焦點(diǎn)這三種問題特征進(jìn)行了建模,同時(shí)對(duì)模型輸出的答案進(jìn)行了噪音和冗余信息的去除,對(duì)實(shí)驗(yàn)結(jié)果有一定的提升作用。但沒有對(duì)文本的理解進(jìn)行建模,以及獲取答案的方式仍為抽取式的,直接從原文中抽取的答案含有與問題無關(guān)的信息,所以在今后的工作中,我們會(huì)從篇章層面對(duì)文本進(jìn)行理解并將篇章信息建模到模型中,以及答案的獲取考慮采用生成式方法,即對(duì)不同的句子進(jìn)行刪除、融合、改寫等策略或基于大數(shù)據(jù)學(xué)習(xí)這種生成模式,獲取最終的答案。