劉高軍,李亞欣,段建勇
(1.北方工業(yè)大學(xué) 信息學(xué)院,北京 100144;2.北方工業(yè)大學(xué)CNONIX 國(guó)家標(biāo)準(zhǔn)應(yīng)用與推廣實(shí)驗(yàn)室,北京 100144)
機(jī)器閱讀理解是自然語(yǔ)言處理領(lǐng)域的一個(gè)極具挑戰(zhàn)性的任務(wù),一直受到研究人員的關(guān)注。深度學(xué)習(xí)技術(shù)的成熟以及數(shù)據(jù)的多樣化推動(dòng)了機(jī)器閱讀理解技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)建立閱讀理解模型已成為目前普遍采用的方法。
機(jī)器閱讀理解是指讓機(jī)器通過(guò)閱讀文本回答相應(yīng)的問(wèn)題。機(jī)器閱讀理解技術(shù)通過(guò)訓(xùn)練模型幫助用戶(hù)從大量的文本中快速、準(zhǔn)確地找到答案。根據(jù)答案類(lèi)型的不同,機(jī)器閱讀理解任務(wù)可分為4類(lèi)[1]:完形填空式任務(wù)要求模型從候選答案集合中選擇一個(gè)正確的詞填至問(wèn)題句,使文章變得完整;抽取式任務(wù)要求模型能根據(jù)提出的問(wèn)題在文章中抽取一個(gè)連續(xù)片段作為答案,輸出答案在上下文中的起始位置和結(jié)束位置;多項(xiàng)選擇式任務(wù)需要從候選答案集合中挑選正確答案;在自由作答式任務(wù)中,答案的類(lèi)型不受限制。其中,抽取式閱讀理解任務(wù)的形式相對(duì)靈活,能夠適用于現(xiàn)實(shí)中大部分場(chǎng)景,如搜索引擎、智能問(wèn)答等。
預(yù)訓(xùn)練語(yǔ)言模型BERT[2]的出現(xiàn)使得一些模型在閱讀理解任務(wù)上的表現(xiàn)接近甚至超過(guò)了人類(lèi),推動(dòng)了機(jī)器閱讀理解的研究進(jìn)入到新的階段。BERT 模型優(yōu)秀的表現(xiàn)受到了眾多專(zhuān)家、學(xué)者的高度關(guān)注,近年涌現(xiàn)出了很多基于BERT 改進(jìn)的模型,如ALBERT[3]、RoBERTa[4]等,使用預(yù)訓(xùn)練模型已成為機(jī)器閱讀理解的發(fā)展趨勢(shì)。由于預(yù)訓(xùn)練模型只能學(xué)習(xí)到文本的淺層語(yǔ)義匹配信息,目前大多數(shù)模型都采取了預(yù)訓(xùn)練語(yǔ)言模型與注意力機(jī)制相結(jié)合的方式,即通過(guò)預(yù)訓(xùn)練模型獲取相應(yīng)表示,再使用注意力機(jī)制進(jìn)行推理,從而捕捉文本的深層語(yǔ)義信息,預(yù)測(cè)出更加準(zhǔn)確的答案。但原始的預(yù)訓(xùn)練模型是針對(duì)英文語(yǔ)言設(shè)計(jì)的,無(wú)法有效處理中文文本。
本文提出一種基于混合注意力機(jī)制的中文機(jī)器閱讀理解模型。該模型使用混合注意力機(jī)制進(jìn)行推理,并結(jié)合多重融合機(jī)制豐富序列信息,最終在CMRC2018 中文閱讀理解數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。
BAHDAUAU等[5]將注意力機(jī)制用于機(jī)器翻譯任務(wù),這是注意力機(jī)制第一次應(yīng)用于自然語(yǔ)言處理領(lǐng)域。引入注意力機(jī)制后,不同形式的注意力機(jī)制成為基于神經(jīng)網(wǎng)絡(luò)模型在閱讀理解任務(wù)上取得好成績(jī)的一個(gè)關(guān)鍵因素。
2015年,HERMANN等[6]提出The Attentive Reader和The Impatient Reader 兩個(gè)基于神經(jīng)網(wǎng)絡(luò)的模型,將注意力機(jī)制應(yīng)用于機(jī)器閱讀理解的任務(wù)中,通過(guò)注意力機(jī)制得到問(wèn)題和文章之間的交互信息。隨后提出的Attention Sum Reader 模型[7]以及The Stanford Attentive Reader 模型[8]均著重于提升注意力模型中問(wèn)題和文章的相似度計(jì)算能力。
在前期模型中使用的注意力機(jī)制大多較為簡(jiǎn)單,對(duì)文本理解能力不足,無(wú)法對(duì)文章和問(wèn)題進(jìn)行有效交互。針對(duì)這一問(wèn)題,研究人員在深層注意力機(jī)制方面做了大量的研究。BiDAF 模型[9]同時(shí)計(jì)算文章到問(wèn)題和問(wèn)題到文章兩個(gè)方向的注意力信息,捕獲問(wèn)題和文章更深層的交互信息。Document Reader 模型[10]將詞性等語(yǔ)法特征融入詞嵌入層,經(jīng)過(guò)模型處理得到答案。R-Net 模型[11]在計(jì)算問(wèn)題和文章的注意力之后加入自匹配注意力層,對(duì)文章進(jìn)行自匹配,從而實(shí)現(xiàn)文章的有效編碼。FusionNet 模型[12]融合多個(gè)層次的特征向量作為輸入。
2017 年,谷歌的研究人員提出了Transformer 模型[13],該模型僅依靠自注意力機(jī)制在多個(gè)任務(wù)上取得了較好結(jié)果,證明注意力機(jī)制擁有較強(qiáng)的提取文本信息的能力。2018 年,谷歌團(tuán)隊(duì)提出了基于雙向Transformer 的預(yù)訓(xùn)練語(yǔ)言模型BERT。這種雙向的結(jié)構(gòu)能夠結(jié)合上下文語(yǔ)境進(jìn)行文本表征,增強(qiáng)了模型的學(xué)習(xí)能力。BERT 的出現(xiàn)刷新了11 個(gè)自然語(yǔ)言處理任務(wù)的最好結(jié)果,使得預(yù)訓(xùn)練語(yǔ)言模型成為近年來(lái)的研究熱點(diǎn)。
中文機(jī)器閱讀理解由于起步較晚,缺少優(yōu)質(zhì)中文數(shù)據(jù)集,發(fā)展相對(duì)緩慢。在近年來(lái)發(fā)布的各種中文機(jī)器閱讀理解數(shù)據(jù)集的影響下,越來(lái)越多的研究人員致力于中文領(lǐng)域的探索。
2016 年,CUI等[14]發(fā)布了大規(guī)模填空型中文機(jī)器閱讀理解數(shù)據(jù)集People Daily and Children’s Fairy Tale,填補(bǔ)了大規(guī)模中文閱讀理解數(shù)據(jù)集的空白。2017 年,CUI等[15]在此數(shù)據(jù)集的基礎(chǔ)上提出了CMRC2017 數(shù)據(jù)集,作為第一屆“訊飛杯”中文機(jī)器閱讀理解評(píng)測(cè)比賽的數(shù)據(jù)集。
2018 年,CUI等[16]發(fā)布了抽取型中文機(jī)器閱讀理解數(shù)據(jù)集CMRC2018,該數(shù)據(jù)集作為第二屆“訊飛杯”中文機(jī)器閱讀理解評(píng)測(cè)比賽使用的數(shù)據(jù)集,也是本文實(shí)驗(yàn)使用的數(shù)據(jù)集。該數(shù)據(jù)集由近兩萬(wàn)個(gè)人工標(biāo)注的問(wèn)題構(gòu)成,同時(shí)發(fā)布了一個(gè)需要多句推理答案的挑戰(zhàn)集。
HE等[17]于2018 年提出DuReader 數(shù)據(jù)集,該數(shù)據(jù)集共包含20 萬(wàn)個(gè)問(wèn)題、100 萬(wàn)篇文章和超過(guò)42 萬(wàn)個(gè)人工總結(jié)的答案,數(shù)據(jù)來(lái)源更貼近實(shí)際,問(wèn)題類(lèi)型豐富,是目前最大的中文機(jī)器閱讀理解數(shù)據(jù)集。
徐麗麗等[18]搜集全國(guó)各省近10 年高考題及高考模擬題中的981 篇科技文章語(yǔ)料,構(gòu)建了4 905 個(gè)問(wèn)題,同時(shí)搜集5 萬(wàn)篇新聞?wù)Z料,構(gòu)造10 萬(wàn)個(gè)補(bǔ)寫(xiě)句子類(lèi)選擇題語(yǔ)料。SHAO等[19]提出了繁體中文機(jī)器閱讀理解數(shù)據(jù)集DRCD,該數(shù)據(jù)集包含從2 108 篇維基百科文章中摘取的10 014 篇段落以及超過(guò)3 萬(wàn)個(gè)問(wèn)題。中文機(jī)器閱讀理解領(lǐng)域受到研究人員越來(lái)越多的關(guān)注,不斷有優(yōu)秀的方法與模型被提出,呈現(xiàn)較好的發(fā)展趨勢(shì)。
為了提高模型對(duì)中文文本的理解能力,本文提出一種基于混合注意力機(jī)制的中文機(jī)器閱讀理解模型。首先經(jīng)過(guò)編碼層得到序列表示,使用混合注意力機(jī)制提取文本中可能與答案有關(guān)的關(guān)鍵信息,然后結(jié)合多重融合機(jī)制融合多層次的序列信息,經(jīng)過(guò)雙層BiLSTM建模后傳入輸出層,最終輸出正確答案所在位置。
本文模型包含編碼層、混合注意力層、融合層、建模層以及輸出層,其結(jié)構(gòu)如圖1 所示。
圖1 本文模型結(jié)構(gòu)Fig.1 The structure of the proposed model
編碼層通過(guò)中文預(yù)訓(xùn)練語(yǔ)言模型RoBERTa[18]對(duì)問(wèn)題和文章進(jìn)行編碼。RoBERTa 模型仍使用BERT 的基本結(jié)構(gòu),在模型訓(xùn)練時(shí)有以下4 個(gè)方面的差異:
1)使用動(dòng)態(tài)掩碼機(jī)制。
2)移除BERT 中采用的下一句預(yù)測(cè)訓(xùn)練任務(wù)。
3)使用更大Byte 級(jí)別的文本編碼方式。
4)使用更大批次以及更大規(guī)模的數(shù)據(jù)進(jìn)行訓(xùn)練。
可以看出,RoBERTa 模型在多個(gè)任務(wù)上的表現(xiàn)優(yōu)于BERT。
編碼層將問(wèn)題和文章拼接后的文本輸入到RoBERTa 模型中,經(jīng)過(guò)分詞器處理后的每一個(gè)詞稱(chēng)為token,最終RoBERTa 模型輸入的編碼向量為token 嵌入、位置特征嵌入以及用以區(qū)分問(wèn)題和文章的分割特征嵌入之和。本文使用的RoBERTa 模型由12 層Transformer 編碼器組成,該模型取最后一層編碼輸出作為文本嵌入表示,得到的向量表示H如式(1)所示:
其中:hi為序列中第i個(gè)token 經(jīng)過(guò)RoBERTa 編碼后的向量表示;N為序列長(zhǎng)度。
利用BiLSTM 進(jìn)一步加深文本的上下文交互,捕捉文本序列的局部關(guān)系,如式(2)所示:
混合注意力層基于混合注意力機(jī)制處理編碼層得到的上下文向量Hl,進(jìn)而學(xué)習(xí)文本中更深層次的語(yǔ)義信息,該層是模型的核心部分。該層的混合注意力機(jī)制由文獻(xiàn)[10]中提出的兩種自注意力機(jī)制的變體注意力Random Synthesizer 和Dense Synthesizer 組成。傳統(tǒng)的自注意力機(jī)制通過(guò)計(jì)算序列中每一個(gè)token 與序列中其他token 的相關(guān)度得到權(quán)重矩陣R,再將歸一化后的權(quán)重和相應(yīng)的鍵值進(jìn)行加權(quán)求和,得到最終的注意力表示。這里的相關(guān)度一般通過(guò)點(diǎn)積得分矩陣體現(xiàn),點(diǎn)積自注意力的主要作用是學(xué)習(xí)自對(duì)齊信息,即token對(duì)的交互信息。自注意力機(jī)制通過(guò)比較序列本身捕捉序列和全局的聯(lián)系,獲取文本特征的內(nèi)部相關(guān)性,其簡(jiǎn)化結(jié)構(gòu)如圖2 所示。
圖2 自注意力機(jī)制結(jié)構(gòu)Fig.2 Structure of self-attention mechanism
這種從token-token 交互中學(xué)習(xí)到的注意力權(quán)重有一定的作用,但也存在缺點(diǎn)。傳統(tǒng)自注意力機(jī)制中的權(quán)重包含實(shí)例中token 對(duì)的交互信息,通過(guò)計(jì)算點(diǎn)積的方式得到每個(gè)token 與序列其他token 的相對(duì)重要度。這種方式過(guò)度依賴(lài)特定實(shí)例,僅通過(guò)token 對(duì)之間的相關(guān)度決定答案的概率是不穩(wěn)定的,缺乏一致的上下文聯(lián)系,很大程度上會(huì)受不同實(shí)例影響,不能學(xué)習(xí)到更多的泛化特征。文獻(xiàn)[19]的實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)自注意力機(jī)制相比,Synthesizer 注意力機(jī)制得到的權(quán)重曲線(xiàn)更加平滑。受其啟發(fā),本文認(rèn)為這種合成權(quán)重矩陣的自注意力機(jī)制不會(huì)從特定的token 中獲益,可以在提取序列關(guān)鍵信息的同時(shí)減小因不同實(shí)例產(chǎn)生的影響,因此該層使用這種合成注意力來(lái)提取文本深層信息。這種合成矩陣的注意力與點(diǎn)積注意力或考慮上下文的注意力不同,它不依賴(lài)于token-token 交互的方式生成權(quán)重矩陣,受特定樣本的影響較小,能夠?qū)W習(xí)到較為穩(wěn)定的權(quán)重值。
1)Random Synthesizer 使用隨機(jī)值初始化權(quán)重矩陣R,并隨著模型一起訓(xùn)練這些值。這種方式下所有實(shí)例均使用相同的對(duì)齊模式,不依賴(lài)輸入的token,不會(huì)因特定實(shí)例而影響權(quán)重矩陣,因此Random 關(guān)注的是全局的注意力權(quán)重。
2)Dense Synthesizer 通過(guò)對(duì)輸入序列進(jìn)行線(xiàn)性變換得到權(quán)重矩陣R,序列中的每個(gè)token 為自己相應(yīng)位置的token獨(dú)立預(yù)測(cè)權(quán)重,即按序列順序處理每個(gè)向量。Dense 學(xué)習(xí)的是局部的注意力權(quán)重,權(quán)重矩陣的生成需要依賴(lài)樣本的每一個(gè)token,因此它能關(guān)注到序列中每一個(gè)token 攜帶的信息。線(xiàn)性變換方式如式(3)所示:
其中:參數(shù)化函數(shù)FN(·)由兩層前饋層和ReLU 激活函數(shù)組成;i為Hi,N的第i個(gè)token;N為序列長(zhǎng)度。
這兩種自注意力使用不同方法合成權(quán)重矩陣,分別從不同角度提升獲得信息的質(zhì)量。因此,該層采取兩種注意力混合使用的策略,能夠結(jié)合全局與局部注意力的優(yōu)勢(shì),不會(huì)過(guò)度依賴(lài)輸入樣本,既能從原始序列中獲取特征信息,又能減弱不同實(shí)例對(duì)模型的影響,可以更加有效地處理相關(guān)任務(wù)。
將上一層得到的向量Hl分別輸入到Random Synthesizer 和Dense Synthesizer 中,與權(quán)重矩陣R加權(quán)求和,得到兩組具有深層語(yǔ)義的向量表示和,如式(4)、式(5)所示:
其中:和分別為Random Synthesizer 和Dense Synthesizer 輸出的表示;和分別表示Random Synthesizer 和Dense Synthesizer 的權(quán)重矩陣;LN(·)為一層線(xiàn)性層;LN(HN)等同于注意力機(jī)制中的V矩陣。
為防止模型過(guò)于關(guān)注某一部分而過(guò)濾掉文本其他特征信息,融合層結(jié)合多重融合機(jī)制豐富序列表示。
首先,將上層得到的兩組注意力Hr和Hd分別與RoBERTa 模型得到的序列H進(jìn)行融合,如式(6)、式(7)所示,實(shí)現(xiàn)在不丟失原始信息的基礎(chǔ)上更加關(guān)注關(guān)鍵信息。
其次,對(duì)處理后的兩組序列進(jìn)行融合,得到混合語(yǔ)義表示,如式(8)所示:
在式(6)~式(8)中:α1、α2、α3均為模型訓(xùn)練參數(shù);分別為兩組注意力與序列H融合后的表示;為最終融合后的輸出表示。
最后,輸出結(jié)合全局和局部的注意力信息,融入一定比例的全局上下文信息,能夠有效降低實(shí)例不同對(duì)信息造成的影響。以上3 次均融合采用同一種策略。
輸出層將建模后的序列Hf輸入到線(xiàn)性層,得到針對(duì)答案開(kāi)始位置和結(jié)束位置預(yù)測(cè)的兩個(gè)輸出,由softmax 函數(shù)計(jì)算概率得到最終預(yù)測(cè)答案在文章中的起止位置s和e,如式(11)所示:
本文使用CMRC2018 評(píng)測(cè)任務(wù)數(shù)據(jù)集以及DRCD數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。兩個(gè)數(shù)據(jù)集的格式相同,均用于抽取式閱讀理解任務(wù)。其中,CMRC2018 數(shù)據(jù)集為簡(jiǎn)體中文數(shù)據(jù)集,DRCD 數(shù)據(jù)集為繁體中文數(shù)據(jù)集。除對(duì)比實(shí)驗(yàn)外,其余幾組實(shí)驗(yàn)均使用CMRC2018 數(shù)據(jù)集。以CMRC2018 數(shù)據(jù)集為例,數(shù)據(jù)集實(shí)例如下:
[Document]白蕩湖位于中國(guó)安徽樅陽(yáng)縣境內(nèi),緊鄰長(zhǎng)江北岸,系由長(zhǎng)江古河床擺動(dòng)廢棄的洼地積水而成。湖盆位置介于北緯30°47′~30°51′、東經(jīng)117°19′~117°27′。白蕩湖原有面積近100 km2,經(jīng)過(guò)近五十年的圍墾,目前面積縮小為39.67 km2,平均水深3.06 m,蓄水量1.21×109m3。通過(guò)白蕩閘與長(zhǎng)江連通,是長(zhǎng)江重要的蓄洪湖之一。湖水補(bǔ)給主要依賴(lài)降水與長(zhǎng)江倒灌,入流的羅昌河、錢(qián)橋河等均為季節(jié)性溪流,入水量較小。白蕩湖是重要的水產(chǎn)養(yǎng)殖基地,盛產(chǎn)各種淡水魚(yú)類(lèi)與水禽,其中以大閘蟹產(chǎn)量最大。每年冬季開(kāi)啟白蕩閘排干湖水捕魚(yú),次年5 月左右再引長(zhǎng)江水倒灌,水位至7 月、8 月份達(dá)到最高。
[Question]白蕩湖是怎樣形成的?
CMRC2018 數(shù)據(jù)集和DRCD 數(shù)據(jù)集由幾萬(wàn)個(gè)真實(shí)問(wèn)題組成,篇章均來(lái)自中文維基百科,問(wèn)題由人工編寫(xiě)。兩個(gè)數(shù)據(jù)集規(guī)模分別如表1、表2 所示。
表1 CMRC2018 數(shù)據(jù)集規(guī)模Table 1 CMRC2018 dataset size
表2 DRCD 數(shù)據(jù)集規(guī)模Table 2 DRCD dataset size
本文實(shí)驗(yàn)采用GPU 進(jìn)行訓(xùn)練,開(kāi)發(fā)語(yǔ)言為Python,深度學(xué)習(xí)框架為Pytorch。由于本文模型加入注意力層以及BiLSTM,增加了序列之間的交互過(guò)程,因此相比基線(xiàn)模型,本文模型的訓(xùn)練速度更加緩慢。實(shí)驗(yàn)參數(shù)如表3 所示。
表3 實(shí)驗(yàn)參數(shù)Table 3 Experimental parameters
本文采用EM 值和F1 值作為評(píng)價(jià)指標(biāo)。EM 值為精確匹配度,計(jì)算預(yù)測(cè)答案與真實(shí)答案是否完全匹配。F1 值為模糊匹配度,計(jì)算預(yù)測(cè)答案與標(biāo)準(zhǔn)答案之間的匹配程度。這兩個(gè)指標(biāo)通常作為抽取式機(jī)器閱讀理解的評(píng)價(jià)指標(biāo)。
3.4.1 對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文提出的模型在中文機(jī)器閱讀理解任務(wù)的有效性,將本文模型與以下模型進(jìn)行實(shí)驗(yàn)對(duì)比:
1)BERT-base(Chinese)和BERT-base(Multilingual)為CMRC2018 評(píng)測(cè)任務(wù)選用的基線(xiàn)模型。
播種兩周后,在田間按小區(qū)取水稻葉片混樣,并提取DNA。水稻基因組DNA的提取采用李進(jìn)波等[5]改進(jìn)的CTAB法。
2)RoBERTa-wwm-ext[21]為本文選取的基線(xiàn)模型,該模型針對(duì)中文改進(jìn)預(yù)訓(xùn)練模型中的全詞掩碼訓(xùn)練方法。
3)MacBERT-base 為文獻(xiàn)[22]提出的預(yù)訓(xùn)練模型,該模型主要針對(duì)mask 策略對(duì)RoBERTa 進(jìn)行改進(jìn)。
表4、表5所示為本文模型與其他模型在CMRC2018數(shù)據(jù)集與DRCD 數(shù)據(jù)集上的EM 值和F1 值。其中RoBERTa-wwm-ext(*)為本文復(fù)現(xiàn)的結(jié)果。
表4 不同模型在CMRC2018 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different models on the CMRC2018 dataset %
表5 不同模型在DRCD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of different models on the DRCD dataset %
本文模型在CMRC2018 數(shù)據(jù)集的EM 值和F1 值分別達(dá)到69.835%和88.037%,相比復(fù)現(xiàn)的基線(xiàn)模型分別提高了2.05 和0.465 個(gè)百分點(diǎn),在DRCD 數(shù)據(jù)集上的EM 值和F1 值分別達(dá)到89.049%和94.138%,相比基線(xiàn)模型分別提高了0.256 和0.113 個(gè)百分點(diǎn),在兩個(gè)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他對(duì)比模型。實(shí)驗(yàn)結(jié)果表明,本文模型在性能上有顯著提升,能夠?qū)W習(xí)到文本的深層語(yǔ)義信息,有效改進(jìn)了預(yù)訓(xùn)練語(yǔ)言模型。
3.4.2 消融實(shí)驗(yàn)
為研究混合注意力以及多重融合機(jī)制對(duì)模型的貢獻(xiàn),設(shè)計(jì)消融實(shí)驗(yàn)進(jìn)一步分析本文模型。由于多重融合機(jī)制需要混合注意力的輸出信息,因此本節(jié)實(shí)驗(yàn)考慮兩部分共同作用的影響,實(shí)驗(yàn)結(jié)果如表6所示。
表6 消融實(shí)驗(yàn)結(jié)果Table 6 Ablation experiment results %
從表6 可以看出,當(dāng)模型未使用混合注意力和多重融合機(jī)制時(shí),EM 值和F1 值分別下降了1.988 和0.064 個(gè)百分點(diǎn)。結(jié)果表明,使用混合注意力機(jī)制以及多重融合機(jī)制能夠加深對(duì)文本的理解,防止模型隨著訓(xùn)練遺失原有信息,使模型更好地預(yù)測(cè)答案。
3.4.3 不同注意力策略實(shí)驗(yàn)分析
為了驗(yàn)證變體注意力以及混合策略對(duì)模型的影響,本文針對(duì)傳統(tǒng)自注意力機(jī)制以及單一注意力機(jī)制兩個(gè)方面設(shè)計(jì)對(duì)比實(shí)驗(yàn),結(jié)果如表7 所示。
表7 不同注意力策略的實(shí)驗(yàn)結(jié)果Table 7 Experiment results of different attention strategies %
表7 所示為使用不同注意力方法對(duì)模型的影響,其中,Random 和Dense分別表示Random Synthesizer注意力和Dense Synthesizer 注意力,“+”表示混合使用兩種注意力,Self-Attention表示使用傳統(tǒng)自注意力機(jī)制。實(shí)驗(yàn)結(jié)果分析如下:
1)傳統(tǒng)自注意力的表現(xiàn)略低于Dense Synthesizer,證明以往利用token 對(duì)生成權(quán)重矩陣的方式并沒(méi)有合成矩陣有競(jìng)爭(zhēng)力,使用合成注意力能夠降低過(guò)多關(guān)注局部注意力的影響,提升模型性能。
2)綜合比較EM 值和F1 值,混合使用Random Synthesizer 注意力和Dense Synthesizer 注意力的方法效果最好。Random Synthesizer 與Dense Synthesizer兩種注意力在合成權(quán)重矩陣時(shí)輸入的信息不同,因此聯(lián)合使用這兩種方法可以學(xué)習(xí)到綜合注意力權(quán)重,能夠進(jìn)一步提升模型性能。對(duì)比結(jié)果發(fā)現(xiàn),使用單一Dense Synthesizer 注意力的F1 值最高,混合注意力加入一定比例的全局注意力,減少樣本不同導(dǎo)致的權(quán)重波動(dòng),因此會(huì)在一定程度上影響個(gè)別樣本的準(zhǔn)確度。
3.4.4 注意力層和融合層位置實(shí)驗(yàn)分析
為了研究混合注意力層和融合層加入位置的不同對(duì)模型的影響,本文設(shè)置了注意力層和融合層位置對(duì)比實(shí)驗(yàn)。RoBERTa+Att+BiLSTM 對(duì)應(yīng)于將注意力層和融合層加在RoBERTa 模型之后,實(shí)驗(yàn)結(jié)果如表8 所示。
表8 注意力層和融合層不同位置的實(shí)驗(yàn)結(jié)果Table 8 Experiment results of different positions of attention layer and fusion layer %
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),混合注意力層和融合層的位置在第1 個(gè)BiLSTM 和序列建模層之間表現(xiàn)更好,表明對(duì)使用BiLSTM 建模后的序列進(jìn)行自注意力處理,能較好地理解文章,更有效地預(yù)測(cè)答案。
本文對(duì)抽取式中文機(jī)器閱讀理解任務(wù)進(jìn)行研究,提出一種基于混合注意力機(jī)制的閱讀理解模型。該模型使用兩種自注意力機(jī)制的變體模型對(duì)序列進(jìn)行處理,加深對(duì)文本語(yǔ)義信息的理解,并對(duì)輸出的注意力進(jìn)行多層次的融合,使得輸出的序列攜帶更加豐富的信息。實(shí)驗(yàn)結(jié)果表明,本文方法提升了模型的理解能力,改進(jìn)了模型對(duì)語(yǔ)義的獲取方法,同時(shí)保留了原序列的信息特征,提高了預(yù)測(cè)答案的準(zhǔn)確率。目前的中文機(jī)器閱讀理解模型多數(shù)存在答案邊界不準(zhǔn)確的問(wèn)題,下一步通過(guò)使用分詞器優(yōu)化模型輸入,將分詞結(jié)果作為輸入特征加入到序列中,從而優(yōu)化答案邊界。此外,結(jié)合雙向注意力機(jī)制,融合文章到問(wèn)題以及問(wèn)題到文章雙向的注意力優(yōu)化模型結(jié)構(gòu),加深對(duì)文本的理解。