国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制的雙層LSTM自動(dòng)作文評分系統(tǒng)

2020-11-11 09:08夏林中羅德安管明祥張振久龔愛平
關(guān)鍵詞:子集雙層向量

夏林中,羅德安,劉 俊,管明祥,張振久,龔愛平

深圳信息職業(yè)技術(shù)學(xué)院人工智能技術(shù)應(yīng)用工程實(shí)驗(yàn)室,廣東深圳 518172

一篇高質(zhì)量作文不僅要關(guān)注單詞、短語、句子及句法結(jié)構(gòu)的使用,還要注重作文局部關(guān)鍵信息和上下文之間的邏輯結(jié)構(gòu)與關(guān)系[1].要寫出一篇高質(zhì)量作文,大量練習(xí)必不可少,由此產(chǎn)生了大量需要即時(shí)評價(jià)并反饋的作文練習(xí)稿,為作文評分員帶來極大的工作負(fù)擔(dān)[2].

為了解決上述問題,研究發(fā)明了許多基于機(jī)器學(xué)習(xí)的自動(dòng)作文評價(jià)方法[3-10].近些年出現(xiàn)的基于深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)的自動(dòng)作文評分(automatic essay scoring, AES)方法,在自動(dòng)作文評分領(lǐng)域取得了顯著成效.為了進(jìn)一步提升DNN處理AES任務(wù)的性能,研究也提出多種改進(jìn)的DNN方法[11-19].DONG等[20]提出一種基于詞向量的雙層卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)模型,該模型的第1個(gè)卷積層用來提取句子特征,第2個(gè)卷積層基于句子向量學(xué)習(xí)篇章級特征.TAGHIPOUR等[21]提出一種在本地?cái)?shù)據(jù)集上訓(xùn)練詞向量的基于雙層長短時(shí)記憶(two-layer long short-term memory, LSTM)和隱層輸出平均值(mean over time, MoT)的LSTM-MoT模型,本地?cái)?shù)據(jù)集僅包含最常用的4 000個(gè)詞匯,其他詞匯均被定義為停用詞,且該模型以所有LSTM隱藏單元輸出之和的平均值作為最終作文表示.DONG等[22]提出一種基于注意力(attention-based)的LSTM-CNN模型,該模型充分利用CNN和循環(huán)神經(jīng)網(wǎng)(recurrent neural network, RNN)的優(yōu)勢,并利用注意力機(jī)制(attention mechanism, AM)自動(dòng)學(xué)習(xí)不同詞或句子在作文中所占的相對權(quán)重,結(jié)果表明,該模型優(yōu)于未使用注意力機(jī)制的方法,從而證明注意力機(jī)制的有效性.TAY等[23]提出SKIPFLOW-LSTM模型,當(dāng)模型讀取作文的各個(gè)詞向量時(shí),SKIPFLOW機(jī)制可以捕捉不同時(shí)間步對應(yīng)的LSTM隱層輸出間的關(guān)系,從而為AES提供特征依據(jù).CHEN等[24]提出一種Topic-BiLSTM-attention模型,該模型不僅利用作文的主題相關(guān)性特征,還通過雙向LSTM捕捉作文的上下文依賴關(guān)系,更好地為AES提供依據(jù).LIANG等[25]提出一種連體雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(siamese bidirectional LSTM neural network architecture, SBLSTMA)模型,該模型能同時(shí)捕捉到作文的上下文語義和評分標(biāo)準(zhǔn)信息.

本研究為AES任務(wù)設(shè)計(jì)一種新穎的DNN結(jié)構(gòu),該DNN結(jié)構(gòu)是一種增強(qiáng)的LSTM結(jié)構(gòu),由word embedding 層(使用谷歌文本庫進(jìn)行word embedding預(yù)訓(xùn)練生成詞向量GWV)、雙層(two-layer)LSTM層和AM層構(gòu)成,稱為基于注意力機(jī)制雙層長短時(shí)記憶(attention-based two-layer LSTM with Google word vector as the input layer, GAT-LSTM)神經(jīng)網(wǎng)絡(luò)自動(dòng)作文評分模型.使用這種結(jié)構(gòu)的主要考慮如下:① 由于本地?cái)?shù)據(jù)集規(guī)模較小,進(jìn)行word embedding預(yù)訓(xùn)練生成的詞向量(名稱為LWV)在上下文語義信息表達(dá)能力上遠(yuǎn)弱于GWV,因此,本研究使用GWV作為雙層LSTM層的輸入,以提高上下文語義信息的表達(dá)能力;② 多層神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中學(xué)習(xí)有用特征的能力更強(qiáng)大[26],因此,雙層LSTM結(jié)構(gòu)的下層可以抽取上下文語義信息和隱藏的上下文依賴關(guān)系,上層可以捕獲更深層次的上下文依賴關(guān)系;③ 利用注意力機(jī)制增強(qiáng)對作文中關(guān)鍵字詞的關(guān)注,并為其分配更大的注意權(quán)重.本研究主要依據(jù)二次加權(quán)kappa系數(shù)分析模型性能.

1 自動(dòng)作文評分模型

基于GAT-LSTM 結(jié)構(gòu)的AES模型如圖1.該模型由word embedding層、雙層LSTM層、AM層和softmax層組成.Word embedding層將作文中的單詞轉(zhuǎn)換成詞向量,并將其作為LSTM層的輸入;雙層LSTM層用來抽取上下文語義信息和隱藏的上下文依賴關(guān)系;AM層自適應(yīng)關(guān)注不同局部信息對評分的影響,并依據(jù)影響大小為不同局部信息分布相應(yīng)注意權(quán)重,使作文特征在保留最有效局部信息的基礎(chǔ)上,最大程度解決信息冗余的問題;softmax層是分類層,此處不同類別對應(yīng)相應(yīng)的作文得分.圖1中,word embedding層的xt(t=1,2,…,L)代表輸入的單詞,et(t=1,2,…,L)代表對應(yīng)單詞的詞向量;雙層LSTM層中h1t代表雙層LSTM的下層隱藏狀態(tài),h2t代表雙層LSTM的上層隱藏狀態(tài); AM層中at代表每個(gè)隱藏狀態(tài)的注意力權(quán)重系數(shù),h′代表綜合計(jì)算后的注意力權(quán)重系數(shù);softmax層的yscore是模型最后預(yù)測的作文分?jǐn)?shù).

1.1 Word embedding

本研究中word embedding層分別生成LWV和GWV詞向量.其中,LWV通過word2vec方法使用skip-gram模型訓(xùn)練本地?cái)?shù)據(jù)集獲得,LWV向量維度取100;GWV通過word2vec方法使用skip-gram模型訓(xùn)練谷歌文本庫獲得, GWV向量維度取300.

圖1 GAT-LSTM結(jié)構(gòu)圖Fig.1 The architecture of the GAT-LSTM

1.2 長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)

RNN適于處理類似文本的序列信息,其不僅可以對上下文關(guān)系建模,還可處理長度可變的序列信息.但在實(shí)際應(yīng)用中,梯度消失導(dǎo)致RNN僅有短期記憶,無法實(shí)現(xiàn)信息的長期保存.LSTM是RNN的變體,通過添加內(nèi)部的門控機(jī)制維持信息的長期保存,從而解決信息的長期依賴問題.

LSTM單元包括輸入門it、 遺忘門ft及輸出門ot, 如圖2.LSTM隱藏層的輸入和輸出向量分別為xt和ht,記憶單元為Ct. 輸入門用于控制當(dāng)前輸入數(shù)據(jù)xt流入Ct的數(shù)量,即保存到Ct中的輸入信息數(shù)量;遺忘門控制信息的保留及遺忘,并以特定方式避免當(dāng)梯度隨時(shí)間反向傳播時(shí)引發(fā)的梯度消失問題,即上一時(shí)刻信息Ct-1對當(dāng)前時(shí)間步對應(yīng)Ct的影響;輸出門可以控制記憶單元Ct對當(dāng)前輸出值ht的影響,即在時(shí)間步t時(shí)控制記憶單元Ct的輸出信息.輸出ht不僅受Ct和xt的影響,還受ht-1的影響;記憶單元Ct不僅受ht-1和xt的影響,還受Ct-1影響.LSTM單元的計(jì)算方法為

it=σ(Wi·xt+Ui·ht-1+bi)

(1)

ft=σ(Wf·xt+Uf·ht-1+bf)

(2)

(3)

(4)

ot=σ(Wo·xt+Uo·ht-1+bo)

(5)

ht=ot*tanhCt

(6)

圖2 LSTM單元示意圖Fig.2 The LSTM cell

雙層LSTM網(wǎng)絡(luò)如圖3.雙層LSTM層的下層可以抽取上下文語義信息和隱藏的上下文依賴關(guān)系,上層可以捕獲更深層次的上下文依賴關(guān)系.下層的隱藏狀態(tài)h1t與上層的隱藏狀態(tài)h2t進(jìn)行全連接,最終可得上層隱藏狀態(tài)輸出為

h2t=Wm·h1t+bm

(7)

其中,Wm和bm分別是下層LSTM和上層LSTM之間的網(wǎng)絡(luò)全連接權(quán)重矩陣和偏置向量.

圖3 雙層LSTM模型示意圖Fig.3 The two-layer LSTM model

1.3 注意力機(jī)制

在自然語言處理中,基于LSTM隱藏狀態(tài)進(jìn)行作文分類的方法有兩種:一種是將LSTM最終隱藏狀態(tài)作為作文分類器的輸入,但會(huì)丟失部分遠(yuǎn)離最終隱藏狀態(tài)的信息;另一種是將所有時(shí)間步的隱藏狀態(tài)相加后取平均值作為作文分類器的輸入,但無法區(qū)分每個(gè)時(shí)間步的輸入信息對作文分類影響的大小.為此,本研究提出使用注意力機(jī)制學(xué)習(xí)每個(gè)時(shí)間步輸入信息的重要程度,從而捕獲作文中的關(guān)鍵詞語,并加大這些關(guān)鍵信息的注意力權(quán)重.

假設(shè)LSTM的輸入向量為x1,x2x2…xt, 對每個(gè)向量輸入對應(yīng)的LSTM隱藏狀態(tài)分別是h1,h2h2…h(huán)t, 則注意力機(jī)制的核心思想就是計(jì)算某個(gè)時(shí)間步對應(yīng)的隱藏狀態(tài)hi與最終隱藏狀態(tài)h′的相似度Si.

Si=tanh(Wn·hi+bn)

(8)

其中,Wn和bn為網(wǎng)絡(luò)的權(quán)重矩陣和偏置向量.每個(gè)時(shí)間步輸入信息的注意力權(quán)重ai為

(9)

其中,h′是被隨機(jī)初始化的超參數(shù),在訓(xùn)練過程中通過學(xué)習(xí)獲得.加入注意力權(quán)重后的LSTM隱藏狀態(tài)向量v為

(10)

最后,將v輸入分類層(作文不同得分對應(yīng)不同類別),即使用softmax函數(shù)對作文成績進(jìn)行預(yù)測,預(yù)測函數(shù)為

yscore=softmax(Ws·v+bs)

(11)

其中,Ws和bs為網(wǎng)絡(luò)權(quán)重矩陣和偏置向量.

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)設(shè)置

2.1.1 數(shù)據(jù)集

本研究所使用數(shù)據(jù)集由Hewlett基金會(huì)支持的學(xué)生作文自動(dòng)評分大賽(automated student assessment prize, ASAP)提供,將發(fā)布的數(shù)據(jù)集劃分為3部分:60%作為訓(xùn)練集;20%作為驗(yàn)證集;20%作為測試集.該數(shù)據(jù)集由8個(gè)子集組成,每個(gè)子集具體情況如表1.

表1 ASAP數(shù)據(jù)集概況

2.1.2 評估方式

實(shí)驗(yàn)結(jié)果及ASAP中均使用二次加權(quán)kappa(quadratic weighted kappa, QWK)系數(shù)κ進(jìn)行評估.κ定義為

(12)

(13)

其中,i和j代表不同的評分;N為評分等級數(shù);Oi, j表示被評分員1評為i分以及被評分員2評為j分的作文篇數(shù), {Oi, j}是一個(gè)N×N矩陣;假設(shè)評分之間不相關(guān),是隨機(jī)生成的,以相同方法可以構(gòu)造出另一個(gè)N×N的矩陣{Ei, j}.κ是評估作文不同評分之間一致性的重要系數(shù),其取值范圍為[-1, 1],當(dāng)κ=0時(shí),表示作文不同評分之間的一致性完全隨機(jī);當(dāng)κ=1時(shí),表示作文不同評分之間的一致性完全相同.

2.1.3 參數(shù)設(shè)置

本研究采用Adam隨機(jī)優(yōu)化器及交叉熵?fù)p失函數(shù).損失函數(shù)計(jì)算為

(1-y′)ln(1-yscore)}

(14)

其中,y′和yscore分別為作文的真實(shí)分?jǐn)?shù)和預(yù)測分?jǐn)?shù). GAT-LSTM模型的超參數(shù)設(shè)置見表2.

表2 超參數(shù)設(shè)置

2.2 基準(zhǔn)模型

采用表3的7種自動(dòng)作文評分模型作為基準(zhǔn)模型,對比研究GAT-LSTM模型性能.其中,所有基準(zhǔn)模型均使用ASAP提供的數(shù)據(jù)集;HR1-HR2代表由2個(gè)人工評分員進(jìn)行評分;DP+SCM模型[1]使用統(tǒng)計(jì)學(xué)方法抽取篇章級特征和語義連貫特征實(shí)現(xiàn)自動(dòng)評分;其他模型基于深度神經(jīng)網(wǎng)絡(luò)方法進(jìn)行自動(dòng)評分.

表3 基于ASAP數(shù)據(jù)集的不同模型的實(shí)驗(yàn)結(jié)果1)

2.3 實(shí)驗(yàn)結(jié)果

2.3.1 結(jié)果對比

表3的所有實(shí)驗(yàn)結(jié)果均使用二次加權(quán)kappa系數(shù)進(jìn)行評估,表中加粗字體代表最好的實(shí)驗(yàn)結(jié)果.對比HR1-HR2和DP+SCM,基于深度神經(jīng)網(wǎng)絡(luò)模型的最大優(yōu)勢是無需繁瑣的特征工程,就可以自動(dòng)學(xué)習(xí)到相應(yīng)的作文自動(dòng)評分特征.

對比6種基于深度神經(jīng)網(wǎng)絡(luò)的模型可見, GAT-LSTM模型的κ平均值最高;對于子集1~6,GAT-LSTM模型取得最好κ值;相對于Topic-BiLSTM-Att模型,GAT-LSTM模型在子集1~6上的κ值分別得到1.9%、0.8%、2.9%、1.0%、1.2%及1.0%的提升.但在子集7和8上,Topic-BiLSTM-Att和DP+SCM模型的κ值略優(yōu)于GAT-LSTM模型,主要原因是子集7和8的作文分值范圍太大(表1).可見,GAT-LSTM模型的κ平均值優(yōu)于其他基準(zhǔn)模型, GAT-LSTM模型自動(dòng)作文評分的整體性能優(yōu)于表3中的基準(zhǔn)模型.

2.3.2 GAT-LSTM模型各部分作用

為分析GAT-LSTM模型每個(gè)組成部分對模型性能提升的貢獻(xiàn),分別進(jìn)行以下對比研究:以LWV為輸入的LSTM(W-LSTM)模型;以LWV為輸入的雙層LSTM(WT-LSTM)模型;以LWV為輸入的基于注意力機(jī)制的雙層LSTM(WAT-LSTM)模型;以GWV為輸入的LSTM(G-LSTM)模型;以GWV為輸入的雙層LSTM(GT-LSTM)模型.針對數(shù)據(jù)集的8個(gè)子集分別繪制了G-LSTM、GT-LSTM和GAT-LSTM 模型的二次加權(quán)kappa系數(shù)值的對比圖,如圖4.其中,子集1~2比較的是前75個(gè)epoches的迭代結(jié)果;子集3~7比較的是前50個(gè)epoches的迭代結(jié)果;子集8比較的是前100個(gè)epoches的迭代結(jié)果. 基于上述不同模型所獲取的κ值如表4.可見,以GWV為LSTM層輸入模型的κ值得到提升;基于注意力機(jī)制的雙層LSTM模型結(jié)構(gòu)明顯優(yōu)于單純雙層LSTM模型結(jié)構(gòu).

圖4 模型G-LSTM、GT-LSTM 和GAT-LSTM分別在數(shù)據(jù)集不同子集時(shí)二次加權(quán)kappa系數(shù)的異同比較Fig.4 The QWK value of each prompt comparison under G-LSTM, GT-LSTM and GAT-LSTM

表4 不同模型的二次加權(quán)kappa系數(shù)值

由圖4可見,與G-LSTM和GT-LSTM相比,GAT-LSTM的κ值上升速度最快,并能快速達(dá)到穩(wěn)定狀態(tài).子集1與2的作文平均字?jǐn)?shù)為350,其對應(yīng)的迭代次數(shù)最大值是75;子集3至7的作文平均字?jǐn)?shù)為150或250,其對應(yīng)迭代次數(shù)最大值是50;子集8的作文平均字?jǐn)?shù)為650,其對應(yīng)的迭代次數(shù)最大值是100.由此推知,當(dāng)κ值上升到穩(wěn)定狀態(tài)時(shí),迭代次數(shù)值與作文字?jǐn)?shù)成正比.同樣,子集8的κ值上升速度和穩(wěn)定性比其他子集差,主要是因?yàn)樽蛹?所含作文數(shù)量最少、作文平均長度最長和評分范圍最廣(表1)導(dǎo)致.

結(jié) 語

本研究的AES模型通過使用GWV、雙層LSTM和注意力機(jī)制可以很好提升AES性能.與LWV相比,GWV包含更豐富的詞匯語義信息和上下文信息,實(shí)驗(yàn)結(jié)果表明,GWV對模型性能的提升具有重要作用.雙層LSTM結(jié)構(gòu)可實(shí)現(xiàn)在下層抽取上下文語義信息和隱藏的上下文依賴關(guān)系,在上層捕獲更深層次的上下文依賴關(guān)系.注意力機(jī)制可以識(shí)別作文中的關(guān)鍵信息,并為這些關(guān)鍵信息分配更多的權(quán)重.與基準(zhǔn)模型對比,GAT-LSTM模型不僅在大多數(shù)數(shù)據(jù)集的子集上取得最好評分效果,而且其整體評分效果優(yōu)于基準(zhǔn)模型.接下來的研究將著重在如何更有效地進(jìn)行詞向量生成,并設(shè)計(jì)出更高效、簡潔的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).

猜你喜歡
子集雙層向量
玫瑰小蛋糕
向量的分解
魅力無限的子集與真子集
拓?fù)淇臻g中緊致子集的性質(zhì)研究
聚焦“向量與三角”創(chuàng)新題
關(guān)于奇數(shù)階二元子集的分離序列
墨爾本Fitzroy雙層住宅
“雙層巴士”開動(dòng)啦
傾斜(歷史老照片)
向量垂直在解析幾何中的應(yīng)用
大关县| 巴东县| 伽师县| 安新县| 申扎县| 元谋县| 潍坊市| 定结县| 沛县| 绿春县| 濮阳县| 元谋县| 米泉市| 娄烦县| 珲春市| 榕江县| 石阡县| 株洲市| 蓬溪县| 紫阳县| 金昌市| 秦安县| 美姑县| 共和县| 宣恩县| 文化| 犍为县| 姜堰市| 亚东县| 金乡县| 达拉特旗| 阿拉尔市| 星子县| 侯马市| 湛江市| 高台县| 栾城县| 宁阳县| 横峰县| 沂源县| 龙游县|