国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于顯式定位的機(jī)器閱讀理解方法

2021-07-26 02:34鄧超宇肖曉強(qiáng)蔡志平
關(guān)鍵詞:機(jī)器預(yù)測(cè)模型

鄧超宇,趙 山,肖曉強(qiáng),蔡志平

(國(guó)防科技大學(xué) 計(jì)算機(jī)學(xué)院 湖南 長(zhǎng)沙 410073)

0 引言

基于文檔的自動(dòng)問(wèn)答(document-based question-answering,DBQA),也稱(chēng)機(jī)器閱讀理解(machine reading comprehension, MRC),是自然語(yǔ)言處理領(lǐng)域一項(xiàng)十分重要的任務(wù)。機(jī)器閱讀理解旨在讓機(jī)器能像人類(lèi)一樣閱讀文章和理解其中的具體含義,并據(jù)此回答指定的相關(guān)問(wèn)題,以自然語(yǔ)言的形式給出答案[1]。早期因受數(shù)據(jù)集限制,機(jī)器閱讀理解一直被視為一種很困難的任務(wù)而沒(méi)有得到太大的發(fā)展。2013年左右,由于機(jī)器學(xué)習(xí)技術(shù)的迅速發(fā)展,出現(xiàn)了一批以MCTest[2]為代表的監(jiān)督數(shù)據(jù)集,許多機(jī)器學(xué)習(xí)模型也由此誕生。但是,一方面這些模型十分依賴(lài)基于規(guī)則手工構(gòu)造的特征,另一方面數(shù)據(jù)集本身規(guī)模不夠龐大,因此訓(xùn)練結(jié)果不佳且模型泛化能力較差。隨著深度學(xué)習(xí)技術(shù)的不斷成熟以及硬件技術(shù)進(jìn)步帶來(lái)的算力提升,機(jī)器閱讀理解技術(shù)在2015年出現(xiàn)了實(shí)質(zhì)性的突破進(jìn)展。從2015年開(kāi)始,機(jī)器閱讀理解的子任務(wù)體系逐步確立,針對(duì)各種特定任務(wù)的高質(zhì)量數(shù)據(jù)集也不斷涌現(xiàn)。

目前,機(jī)器閱讀理解一般被劃分為以下四個(gè)子任務(wù)。① 完形填空。該類(lèi)任務(wù)會(huì)從文章中挖去部分詞匯,通過(guò)訓(xùn)練模型去填補(bǔ)這些空缺。此任務(wù)相關(guān)數(shù)據(jù)集有CNN/Daily Mail[3],是從新聞報(bào)道中選取的文章。② 多項(xiàng)選擇。給定一篇文章,提供相關(guān)問(wèn)題并給出幾個(gè)候選答案,讓機(jī)器從中選擇正確答案。此任務(wù)相關(guān)數(shù)據(jù)集有RACE[4],文章與問(wèn)題從中學(xué)生英語(yǔ)考試閱讀理解題目中選取。③ 片段抽取。給定背景文章,提供相關(guān)問(wèn)題,要求從文章中抽取連續(xù)的詞匯序列作為答案。此任務(wù)相關(guān)數(shù)據(jù)集有SQuAD[5],由斯坦福大學(xué)研究人員基于維基百科詞條內(nèi)容手工構(gòu)造而成。④ 自由問(wèn)答。提供文章與相關(guān)問(wèn)題,要求機(jī)器自動(dòng)生成一段文本作為答案。由于沒(méi)有候選答案,最終答案也不一定能從文章中抽取,因此是目前最困難的子任務(wù)。此任務(wù)相關(guān)數(shù)據(jù)集有百度的DuReader[6]和微軟的MS MARCO,分別針對(duì)中文問(wèn)答與英文問(wèn)答,數(shù)據(jù)集基于搜索引擎與互聯(lián)網(wǎng)內(nèi)容生成。

片段選擇式閱讀理解是研究熱度較高的一項(xiàng)任務(wù),該任務(wù)對(duì)應(yīng)的SQuAD1.1及SQuAD2.0版本問(wèn)答數(shù)據(jù)集近年來(lái)獲得了大量關(guān)注,帶動(dòng)了一大批基于神經(jīng)網(wǎng)絡(luò)的機(jī)器閱讀理解模型的發(fā)展。然而,當(dāng)前的片段選擇式機(jī)器閱讀理解領(lǐng)域的通用方法框架及數(shù)據(jù)集存在以下問(wèn)題:SQuAD數(shù)據(jù)集中的大部分問(wèn)題只需要基于對(duì)應(yīng)文章中的某幾個(gè)甚至一個(gè)句子即可給出答案,而文章中的其余部分對(duì)于回答問(wèn)題并無(wú)必要。因此,本文對(duì)基于SQuAD數(shù)據(jù)集的片段選擇式閱讀理解任務(wù)進(jìn)行劃分,定位到文章中與問(wèn)題最相關(guān)的部分,在據(jù)此提升了文本的問(wèn)題相關(guān)度后,再進(jìn)行下一步的答案提取,研究機(jī)器閱讀理解模型在探究語(yǔ)義中所起到的具體作用。實(shí)驗(yàn)結(jié)果表明,在定位了相關(guān)句子后預(yù)測(cè)性能得到提升。

1 相關(guān)工作

片段選擇式閱讀理解任務(wù)發(fā)展至今,已經(jīng)有了相對(duì)較為統(tǒng)一的算法框架。圖1為片段選擇式機(jī)器閱讀理解模型框架,其中包括嵌入編碼層、上下文層、注意力層、答案預(yù)測(cè)層四個(gè)模塊。嵌入編碼層負(fù)責(zé)將自然語(yǔ)言轉(zhuǎn)化成可操作的向量,具體方法由早期的one-hot、word2vec[7]等逐漸發(fā)展為基于上下文訓(xùn)練的ELMo[8]、GPT[9]、Cove等模型;上下文層負(fù)責(zé)處理編碼層輸出的詞向量,抽取更多的上下文特征信息,該模塊常用的結(jié)構(gòu)包括CNN、RNN與Transformer[10]等;注意力層的主要作用是計(jì)算文章各部分與問(wèn)題之間的關(guān)聯(lián)度,該模塊是傳統(tǒng)框架主要?jiǎng)?chuàng)新工作所在,如今已發(fā)展了層次融合注意力、位置注意力等多種注意力機(jī)制;答案預(yù)測(cè)層負(fù)責(zé)輸出結(jié)果,為了便于訓(xùn)練及預(yù)測(cè),片段選擇式機(jī)器閱讀理解模型只負(fù)責(zé)輸出答案在文章中的起始位置與結(jié)束位置,這樣可以將該任務(wù)轉(zhuǎn)化為分類(lèi)問(wèn)題。

圖1 片段選擇式機(jī)器閱讀理解模型框架

文獻(xiàn)[3]基于CNN和Daily Mail構(gòu)建了完形填空式的機(jī)器閱讀理解數(shù)據(jù)集,并將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于機(jī)器閱讀理解任務(wù)中,開(kāi)啟了機(jī)器閱讀理解領(lǐng)域的新時(shí)代;文獻(xiàn)[11]提出BiDAF模型,構(gòu)建了片段選擇式閱讀理解模型的分層結(jié)構(gòu),即嵌入層、上下文層、注意力層與預(yù)測(cè)層;文獻(xiàn)[12]提出QANet模型,將自注意力和批次歸一化等技巧應(yīng)用到機(jī)器閱讀理解中。自2018年谷歌團(tuán)隊(duì)提出BERT模型開(kāi)始,多種預(yù)訓(xùn)練語(yǔ)言模型[13-14]在機(jī)器閱讀理解領(lǐng)域中取得了顯著的效果。本文對(duì)機(jī)器閱讀理解任務(wù)和數(shù)據(jù)集進(jìn)行層次劃分,將傳統(tǒng)算法的“文章-單詞”結(jié)構(gòu)變?yōu)椤拔恼?句子-單詞”結(jié)構(gòu)。

2 數(shù)據(jù)集處理與任務(wù)定義

原始的SQuAD1.1版本數(shù)據(jù)集是由文獻(xiàn)[5]提出的片段選擇式閱讀理解數(shù)據(jù)集。該數(shù)據(jù)集包含 10 萬(wàn)多個(gè)問(wèn)題,文本來(lái)自于 536 篇維基百科文章,而問(wèn)題和答案的構(gòu)建主要是通過(guò)眾包的方式,讓標(biāo)注人員提出最多 5 個(gè)基于文章內(nèi)容的問(wèn)題并提供正確答案,且答案出現(xiàn)在原文中。SQuAD 和其他類(lèi)別的機(jī)器閱讀理解數(shù)據(jù)集如 CNN/Daily Mail等最大的區(qū)別在于:SQuAD 中的答案并非一定是單個(gè)實(shí)體,也可能是一段短語(yǔ),這增加了答案預(yù)測(cè)的難度。正如上文所述,SQuAD數(shù)據(jù)集中的大多數(shù)問(wèn)題都可以基于文章中的某幾句甚至某一句即可作答。而當(dāng)前針對(duì)該數(shù)據(jù)集設(shè)計(jì)的機(jī)器閱讀理解模型,大多是基于整篇文章與問(wèn)題進(jìn)行答案預(yù)測(cè)的端到端系統(tǒng),即便文章中大多數(shù)內(nèi)容對(duì)于回答給定問(wèn)題并無(wú)意義。如此,這類(lèi)閱讀理解模型的發(fā)展方向與當(dāng)前階段的閱讀理解任務(wù)是存在出入的,當(dāng)給定的文章整體內(nèi)容和問(wèn)題高度相關(guān)時(shí),訓(xùn)練模型的語(yǔ)義分析和推理能力才更有價(jià)值。

本文出于以下兩點(diǎn)考慮將數(shù)據(jù)集重新整理。① 按人類(lèi)習(xí)慣進(jìn)行閱讀理解的過(guò)程中,往往會(huì)基于問(wèn)題迅速定位到文章中可能與之相關(guān)的句子。以此作為參考,可以設(shè)計(jì)與之近似的注意力機(jī)制。② 現(xiàn)有閱讀理解模型通常會(huì)將文章進(jìn)行令牌化處理從而形成令牌序列,這種將文章級(jí)別降維到詞級(jí)別的處理方式會(huì)導(dǎo)致所有單詞處于同等地位。事實(shí)上,處于不同句子中的單詞對(duì)于答案推斷的貢獻(xiàn)是不同的,雖然現(xiàn)有做法中后續(xù)也會(huì)通過(guò)注意力機(jī)制關(guān)注到文章中的相關(guān)部分,但卻會(huì)損失“句子”這個(gè)中間級(jí)別的語(yǔ)義信息。

圖2為SQuAD數(shù)據(jù)集的一個(gè)問(wèn)答示例。圖3為原始SQuAD數(shù)據(jù)集結(jié)構(gòu)及劃分后的兩個(gè)數(shù)據(jù)集結(jié)構(gòu)。在原始數(shù)據(jù)集中,每個(gè)樣本包含一篇文章全文P、據(jù)此提出的數(shù)個(gè)問(wèn)題Qi以及各自對(duì)應(yīng)的答案Ai,答案內(nèi)容包含其自然語(yǔ)言形式及其在文章中的位置Li。其中,答案位置指答案起始字符在全文字符序列中的順序值。劃分后的第1個(gè)數(shù)據(jù)集中,每個(gè)樣本包含一篇文章全文P、數(shù)個(gè)問(wèn)題Qi以及答案所在句子的位置L′i,并舍棄原本的答案內(nèi)容。其中,答案所在句子位置L′i的確定方式為:統(tǒng)計(jì)P中各個(gè)句子在字符層次的起始位置與結(jié)束位置,形成句子的區(qū)間集合,根據(jù)原數(shù)據(jù)集中的答案位置判定答案起始字符所處的區(qū)間,由此記錄答案所在句子的句子層次的順序值。劃分后的第2個(gè)數(shù)據(jù)集不再保留文章全文P,而是將針對(duì)每一個(gè)問(wèn)題提取出的答案相關(guān)內(nèi)容作為新的文章P′,考慮到原數(shù)據(jù)集中仍有少部分問(wèn)題需要不止一個(gè)相關(guān)句子作答,以答案所在句子為中心進(jìn)行不同程度的擴(kuò)展:各保留其左右n個(gè)句子(實(shí)驗(yàn)中n=0,1,2),以觀察不同規(guī)模的文章對(duì)于模型訓(xùn)練及預(yù)測(cè)的影響。進(jìn)而可以將原始規(guī)模的片段選擇式閱讀理解任務(wù)轉(zhuǎn)換成兩個(gè)新任務(wù):根據(jù)問(wèn)題選取文章中與之最相關(guān)的句子;根據(jù)預(yù)測(cè)的相關(guān)句子及其周?chē)舾删渥咏M成的相關(guān)內(nèi)容進(jìn)行答案的抽取。第1個(gè)任務(wù)可以形式定義為:給定一個(gè)問(wèn)題q和與之對(duì)應(yīng)的背景文章P={s1,s2,…,sn,…,st},s為文章的句子, 1≤n≤t,t為文章的句子數(shù),目標(biāo)是利用模型得到文章中句子與問(wèn)題的相關(guān)度ri(si,q),1≤i≤t,以及文章中的問(wèn)題最相關(guān)句子s=arg max(ri),并依據(jù)實(shí)驗(yàn)設(shè)置獲取其周邊句子與之共同構(gòu)成新的文章P′。第2個(gè)任務(wù)可以形式定義為:給定顯示定位到的答案相關(guān)內(nèi)容P′={p1,p2,…,pm,…,pu},pm是新文章的單詞,1≤m≤u,目標(biāo)是獲取每個(gè)單詞作為答案起始位置的概率start_pj和結(jié)束位置的概率end_pj,并從最優(yōu)結(jié)果獲得答案起點(diǎn)astart和終點(diǎn)aend,1≤astart≤aend≤u,進(jìn)而生成答案A={pastart,pastart+1,…,paend}。

圖2 SQuAD數(shù)據(jù)集的一個(gè)問(wèn)答示例

圖3 原始SQuAD數(shù)據(jù)集結(jié)構(gòu)及劃分后的兩個(gè)數(shù)據(jù)集結(jié)構(gòu)

3 實(shí)驗(yàn)結(jié)果分析

為探究將機(jī)器閱讀理解任務(wù)及其模型進(jìn)行分層后,在顯式定位了文章中與答案相關(guān)內(nèi)容的情況下模型的訓(xùn)練與預(yù)測(cè)效果,使用不同長(zhǎng)度的文章對(duì)模型進(jìn)行了訓(xùn)練,并測(cè)試了在給定不同長(zhǎng)度相關(guān)內(nèi)容的情況下模型的答案預(yù)測(cè)效果。使用QANet作為本實(shí)驗(yàn)的基礎(chǔ)模型,采用模糊匹配值F1_score與精確匹配值EM作為測(cè)試指標(biāo)。其中,每個(gè)問(wèn)題的EM值可以表示為

(1)

式中:strg指真實(shí)答案;strp指預(yù)測(cè)答案。將所有問(wèn)題的EM值相加除以問(wèn)題總數(shù)即為預(yù)測(cè)的總EM值。在使用EM指標(biāo)時(shí),只有當(dāng)預(yù)測(cè)答案與真實(shí)答案完全一致時(shí)才認(rèn)定預(yù)測(cè)成功。

F1_score可以表示為

(2)

式中:wp為預(yù)測(cè)答案片段所包含單詞數(shù)量;wg為真實(shí)答案片段所包含單詞數(shù)量;wc為預(yù)測(cè)答案與真實(shí)答案重合的單詞數(shù)量。不同規(guī)模訓(xùn)練樣本與測(cè)試樣本下模型的收斂過(guò)程如圖4所示。i_to_j(i,j∈{all,1,3,5})表示訓(xùn)練文本與測(cè)試文本的不同規(guī)模。其中:all表示用原文長(zhǎng)度進(jìn)行訓(xùn)練或預(yù)測(cè);1表示訓(xùn)練與測(cè)試所使用的文章中相關(guān)內(nèi)容只包含答案所在的句子;3表示答案的相關(guān)內(nèi)容包含答案所在句子及其左右的各一個(gè)句子;5表示答案的相關(guān)內(nèi)容包含答案所在句子及其左右的各兩個(gè)句子。當(dāng)答案所在句子位于文章起始或結(jié)束位置時(shí),則截去超出文章范圍的部分。從圖4可以看出,在使用原文本進(jìn)行訓(xùn)練后,預(yù)測(cè)時(shí)若界定了答案的相關(guān)內(nèi)容范圍,測(cè)試效果明顯要比不給定范圍時(shí)好,且界定范圍越小,預(yù)測(cè)越準(zhǔn)確。表1展示了不同規(guī)模樣本的預(yù)測(cè)性能結(jié)果。

圖4 不同規(guī)模訓(xùn)練樣本與測(cè)試樣本下模型的收斂過(guò)程

表1 不同規(guī)模樣本的預(yù)測(cè)性能結(jié)果

從表1可以看出,在all_to_1情況下,即預(yù)測(cè)時(shí)只給定答案相關(guān)句子,所得F1_score和EM值分別比all_to_all(原始的訓(xùn)練與測(cè)試)高出4.22%和3.72%。在同時(shí)縮短訓(xùn)練及預(yù)測(cè)文本的長(zhǎng)度時(shí),最終的預(yù)測(cè)效果同樣要比原文本好,其中預(yù)測(cè)準(zhǔn)確度最高的是3_to_3,而非1_to_1或5_to_5。該結(jié)果表明,SQuAD數(shù)據(jù)集中的確含有少量問(wèn)題只靠單個(gè)句子無(wú)法得出正確答案,需要聯(lián)動(dòng)其周邊的句子信息進(jìn)行簡(jiǎn)單的推理,而周邊句子范圍限定在3個(gè)時(shí)便足以保證預(yù)測(cè)效果;當(dāng)句子范圍上升為5個(gè)時(shí),因內(nèi)容整體相關(guān)度有所降低,反而對(duì)模型預(yù)測(cè)造成干擾,導(dǎo)致精度下降。上述實(shí)驗(yàn)結(jié)果證實(shí)了提高文章內(nèi)容與問(wèn)題相關(guān)度對(duì)于機(jī)器閱讀理解模型預(yù)測(cè)性能的提升,并且將傳統(tǒng)的端到端系統(tǒng)分為兩層后,提高了模型的可解釋性。未來(lái)機(jī)器閱讀理解研究可將重點(diǎn)放在如何迅速準(zhǔn)確地定位到文章的問(wèn)題相關(guān)內(nèi)容,以及如何在已知文本和問(wèn)題強(qiáng)相關(guān)時(shí)設(shè)計(jì)出能夠充分進(jìn)行語(yǔ)義分析和推理的閱讀理解模型。

4 小結(jié)

本文提出將傳統(tǒng)的機(jī)器閱讀理解任務(wù)劃分為兩個(gè)層次的子任務(wù),即根據(jù)所給文章和問(wèn)題選擇文章中與問(wèn)題相關(guān)的內(nèi)容,并根據(jù)縮小規(guī)模后的文章進(jìn)行答案的預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,在顯式界定了答案相關(guān)內(nèi)容后,機(jī)器閱讀理解模型的預(yù)測(cè)性能有所提升。此外,探究了不同規(guī)模訓(xùn)練文本和測(cè)試文本下模型的表現(xiàn)。未來(lái)將繼續(xù)研究利用基于本體的語(yǔ)義相似度等對(duì)文章中合適規(guī)模的答案相關(guān)內(nèi)容進(jìn)行準(zhǔn)確定位,并基于此探究SQuAD2.0版本中不可回答問(wèn)題的判定方式。

猜你喜歡
機(jī)器預(yù)測(cè)模型
無(wú)可預(yù)測(cè)
適用于BDS-3 PPP的隨機(jī)模型
機(jī)器狗
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2—2期中考試預(yù)測(cè)卷(A卷)
自制空間站模型
機(jī)器狗
未來(lái)機(jī)器城
模型小覽(二)
时尚| 宝坻区| 郯城县| 土默特左旗| 浑源县| 揭西县| 普兰县| 黄浦区| 横峰县| 麦盖提县| 杭州市| 抚松县| 松江区| 胶南市| 土默特右旗| 荣昌县| 汝南县| 宜城市| 惠东县| 蓬溪县| 略阳县| 龙陵县| 开江县| 隆昌县| 胶州市| 巴里| 温宿县| 酉阳| 台前县| 裕民县| 湖口县| 湾仔区| 炉霍县| 阿巴嘎旗| 绿春县| 即墨市| 开远市| 贡山| 姚安县| 读书| 青河县|