国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)biLSTM網(wǎng)絡(luò)的短文本分類(lèi)方法

2020-04-24 03:08:00李文慧張英俊潘理虎
關(guān)鍵詞:數(shù)據(jù)量擾動(dòng)注意力

李文慧,張英俊,潘理虎

(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024)

0 引 言

短文本自身信息少、特征表示高維稀疏、語(yǔ)義分布不明顯、無(wú)序性、噪音嚴(yán)重等給信息抽取造成了一定的困擾[1],并且目前的文本分類(lèi)模型缺乏穩(wěn)健性、泛化能力差、易受干擾[2]。

繼圖像處理之后深度學(xué)習(xí)在自然語(yǔ)言處理(NLP)領(lǐng)域掀起了熱潮[3]。深度學(xué)習(xí)更深層次的表達(dá)文本信息,無(wú)需先驗(yàn)知識(shí),在訓(xùn)練過(guò)程中不僅容納海量數(shù)據(jù)還集特征提取和性能評(píng)價(jià)于一體,有極大優(yōu)越性。

深度學(xué)習(xí)中表現(xiàn)良好的文本分類(lèi)模型——長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[4],LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)中的一種,適合處理信息傳播過(guò)程中間隔和延遲相對(duì)較長(zhǎng)的信息,提取重要特征,LSTM在RNN的基礎(chǔ)上增加了神經(jīng)元中控制信息出入有記憶功能的處理器——門(mén)(gate)機(jī)制,解決長(zhǎng)短距離依賴(lài)的問(wèn)題;常見(jiàn)的LSTM文本分類(lèi)模型有多種,YL Ji等[5]提出將RNN和CNN(卷積神經(jīng)網(wǎng)絡(luò))相結(jié)合的短文本分類(lèi)模型,解決傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)(ANN)在短文本語(yǔ)料集上分類(lèi)效果不佳的問(wèn)題;F Li等[6]提出基于低成本序列特征的雙向長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)實(shí)體及其上下文的表示,并使用它們對(duì)關(guān)系進(jìn)行分類(lèi),解決關(guān)系分類(lèi)問(wèn)題;張沖[7]提出基于注意力機(jī)制的雙向LSTM模型,利用LSTM長(zhǎng)短距離依賴(lài)的優(yōu)勢(shì)降低文本向量提取過(guò)程中語(yǔ)義消失和特征冗余;謝金寶等[8]提出多元特征融合的文本分類(lèi)模型,由3個(gè)通路(CNN、LSTM、Attention)組成提取不同層級(jí)的特征,增強(qiáng)模型的辨別力。

1 相關(guān)工作

深度學(xué)習(xí)模型,包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò),即使性能表現(xiàn)優(yōu)越,但缺乏對(duì)噪音示例正確分類(lèi)的能力,特別是當(dāng)噪音被控制在人類(lèi)無(wú)法察覺(jué)的范圍內(nèi)時(shí),對(duì)噪聲樣本的辨別力不從心,模型的過(guò)擬合嚴(yán)重,泛化能力不夠;通常的解決辦法有:

(1)使用不同種類(lèi)的正則化方法簡(jiǎn)化模型,排除模型記憶訓(xùn)練數(shù)據(jù)導(dǎo)致泛化能力差的原因;

(2)結(jié)合多重神經(jīng)網(wǎng)絡(luò)提高泛化能力;

(3)均化或者加入更多噪聲樣本應(yīng)付敵對(duì)數(shù)據(jù);

(4)從數(shù)據(jù)、算法性能上優(yōu)化。

對(duì)抗訓(xùn)練[9]由Goodfellow提出,在深度學(xué)習(xí)模型訓(xùn)練方面扮演者一個(gè)很重要的角色,作為正則化方式之一,不但優(yōu)化了模型的分類(lèi)性能(提升準(zhǔn)確率),防止過(guò)擬合產(chǎn)生敵對(duì)樣本,還通過(guò)產(chǎn)生錯(cuò)誤分類(lèi)反攻模型讓錯(cuò)誤樣本加入訓(xùn)練過(guò)程中,提升對(duì)敵抗樣本的防備能力,使之擁有更好的泛化能力和魯棒性,并且模型的分類(lèi)準(zhǔn)確率的預(yù)測(cè)值在添加對(duì)抗性噪音前后盡可能變化范圍不大。

本文在雙向LSTM的基礎(chǔ)上結(jié)合對(duì)抗訓(xùn)練和注意力機(jī)制構(gòu)造一種神經(jīng)網(wǎng)絡(luò)模型(bi-LSTM based on adversarial training and attention,Ad-Attention-biLSTM);首先,利用雙向LSTM更加豐富的表達(dá)上下文信息,每個(gè)詞被embedding之后經(jīng)過(guò)時(shí)間序列學(xué)習(xí)長(zhǎng)遠(yuǎn)距離深層次的文本信息并提取特征;其次,利用注意力機(jī)制[10]計(jì)算詞級(jí)別的特征重要程度,為其分配不同的權(quán)重,增強(qiáng)具有類(lèi)別區(qū)分能力特征詞的表達(dá),弱化冗余特征對(duì)文本分類(lèi)的影響;然后,通過(guò)損失函數(shù)在LSTM輸入層詞向量上做很小的擾動(dòng),驗(yàn)證擾動(dòng)對(duì)短文本分類(lèi)效果的影響;在數(shù)據(jù)集DBpedia上利用本文提出的方法進(jìn)行實(shí)驗(yàn),與短文本分類(lèi)模型Attention-LSTM、Attention-biLSTM、CNN、CNN-lSTM、Word2vec的相比,從分類(lèi)準(zhǔn)確率、損失率方面進(jìn)行分析,本文構(gòu)建的模型在魯棒性、穩(wěn)健性、抗干擾性等方面表現(xiàn)較好。

2 短文本分類(lèi)模型

基于對(duì)抗訓(xùn)練和注意力機(jī)制的bi-LSTM文本分類(lèi)模型如圖1所示。

圖1 基于對(duì)抗訓(xùn)練和注意力機(jī)制的Bi-LSTM文本分類(lèi)模型

2.1 輸入層

現(xiàn)有的神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型不穩(wěn)定,看似不可察覺(jué)的輸入錯(cuò)誤可能導(dǎo)致模型受到影響,現(xiàn)實(shí)情境中如果發(fā)生錯(cuò)誤分類(lèi)代價(jià)將不可估量,比如郵件過(guò)濾系統(tǒng),錯(cuò)誤地對(duì)攻擊性郵件進(jìn)行分類(lèi);我們希望通過(guò)一些方法來(lái)計(jì)算得到對(duì)抗樣本,對(duì)數(shù)據(jù)集進(jìn)行小而故意的最壞情況的擾動(dòng)形成新的輸入,使其參與到訓(xùn)練過(guò)程中來(lái)提升模型的性能,進(jìn)而提升模型對(duì)抵抗樣本的防御能力,受擾動(dòng)的輸入導(dǎo)致模型輸出一個(gè)高置信度的錯(cuò)誤答案,這表明對(duì)抗性示例暴露了深度學(xué)習(xí)模型的盲點(diǎn),在高維空間中,深度學(xué)習(xí)模型缺乏抵抗對(duì)抗擾動(dòng)的能力容易導(dǎo)致錯(cuò)誤分類(lèi),淺層的softmax回歸模型也容易受到對(duì)抗性例子的影響,通過(guò)設(shè)計(jì)更強(qiáng)大的優(yōu)化方法來(lái)成功地訓(xùn)練出深層的模型,可以減少敵對(duì)樣本對(duì)模型的影響。

對(duì)抗訓(xùn)練是一種正則化的方法用于提高分類(lèi)模型的魯棒性。Ian J. Goodfellow等[11]認(rèn)為神經(jīng)網(wǎng)絡(luò)易受對(duì)抗性擾動(dòng)的主要原因是它們的線性特性,在MNIST圖像數(shù)據(jù)集增加擾動(dòng)進(jìn)行對(duì)抗訓(xùn)練,減少了數(shù)據(jù)集上最大輸出網(wǎng)絡(luò)的測(cè)試錯(cuò)誤;Takeru Miyato等[9]把對(duì)抗訓(xùn)練應(yīng)用于半監(jiān)督化的文本分類(lèi)中,并引入虛擬訓(xùn)練,實(shí)驗(yàn)結(jié)果表明詞嵌入質(zhì)量提高,而且模型不太容易過(guò)擬合;張一珂等[12]把對(duì)抗訓(xùn)練應(yīng)用于增強(qiáng)語(yǔ)言模型的數(shù)據(jù),通過(guò)設(shè)計(jì)輔助的卷積神經(jīng)網(wǎng)絡(luò)(CNN)識(shí)別生成數(shù)據(jù)的真假,該方法克服了傳統(tǒng)的缺陷,降低了錯(cuò)誤判別特征的錯(cuò)誤率。

文本中詞匯的表示方式一般為離散形式的,包括詞獨(dú)熱和向量表示,每個(gè)文本中T個(gè)詞匯的序列表示為{w(t)|t=1,…,T}, 其對(duì)應(yīng)的類(lèi)別為y,定義詞向量(word embeddings)矩陣V∈R(K+1)×D, 其中K是詞匯表中的詞匯數(shù);輸入層分為兩部分:普通的詞向量嵌入層和經(jīng)過(guò)擾動(dòng)后的詞向量嵌入層,擾動(dòng)后的輸入層如圖2所示,普通輸入層中vk是第i單詞的嵌入,為了將離散詞匯輸入轉(zhuǎn)變?yōu)檫B續(xù)的向量,擾動(dòng)輸入層用正則化嵌入vk′來(lái)替換嵌入vk,定義為

(1)

圖2 輸入層擾動(dòng)模型

在模型輸入擾動(dòng)層詞嵌入部分vk′做調(diào)節(jié),把擾動(dòng)radv添加到詞嵌入,然后將擾動(dòng)后的輸入重新喂給模型(biLSTM-Attention),其中radv是通過(guò)L2正則化約束和神經(jīng)網(wǎng)絡(luò)中的反向傳播梯度下降函數(shù)求得

(2)

(3)

2.2 Bi-LSTM層

在文本分類(lèi)任務(wù)中,每個(gè)特征詞存在序列關(guān)系且其表達(dá)受上下文不同距離特征詞的影響。雙向長(zhǎng)短時(shí)記憶時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)每個(gè)序列向前和向后分別是兩個(gè)LSTM層,彌補(bǔ)了LSTM缺乏下文語(yǔ)義信息的不足,每個(gè)LSTM層均對(duì)應(yīng)著一個(gè)輸出層,雙向結(jié)構(gòu)提供給輸出層輸入序列中每個(gè)時(shí)刻完整的過(guò)去和未來(lái)的上下文信息,門(mén)機(jī)制決定信息的傳輸,能夠?qū)W習(xí)到對(duì)當(dāng)前信息重要依賴(lài)的信息,遺忘門(mén)決定丟棄哪些對(duì)分類(lèi)不重要的信息,輸入門(mén)確定哪些信息需要更新,輸出門(mén)決定輸出哪些信息;其中遺忘門(mén)信息更新如式(4)所示,激活函數(shù)δ使用sigmoid

ft=δ(Wf·X+bf)

(4)

輸入門(mén)信息更新如式(5)所示

it=δ(Wi·X+bi)

(5)

輸出門(mén)信息更新如式(6)所示

ot=δ(Wo·X+bo)

(6)

單元狀態(tài)信息更新如式(7)所示

ct=ft⊙ct-1+it⊙tanh(Wc·X+bc)

(7)

t時(shí)刻隱層狀態(tài)信息更新如式(8)所示

h(t)=ot⊙tanh(ct)

(8)

2.3 注意力機(jī)制層

在短文本分類(lèi)過(guò)程中,傳統(tǒng)的方法直接把Bi-LSTM層每個(gè)時(shí)刻對(duì)應(yīng)的更新輸出向量求和取平均值,這樣就默認(rèn)為每個(gè)特征詞匯對(duì)于區(qū)分文本類(lèi)別有相同的貢獻(xiàn)程度,然而短文本特征向量表示高維稀疏,存在大量噪音和冗余特征,直接求和取平均值容易導(dǎo)致分類(lèi)精度不高,所以我們更期望冗余或者不重要的特征詞權(quán)重占比更小,而擁有強(qiáng)的類(lèi)別區(qū)分能力的特征詞權(quán)重占比更大;近年來(lái)注意力機(jī)制(Attention)被應(yīng)用在自然語(yǔ)言處理中,類(lèi)似于人腦注意力分配機(jī)制,通過(guò)視覺(jué)快速掃視眼前所見(jiàn)景象,聚焦需要重點(diǎn)關(guān)注的目標(biāo)景象,然后對(duì)這一目標(biāo)景象攝入大量的時(shí)間及注意力,以得到更多和目標(biāo)景象相關(guān)的細(xì)節(jié)信息,進(jìn)而抵觸其它無(wú)用信息,人類(lèi)注意力機(jī)制在很大程度上提高了視覺(jué)范圍內(nèi)信息加工的準(zhǔn)確性和效率;在自然于然處理文本分類(lèi)中借鑒注意力機(jī)制,對(duì)目前任務(wù)貢獻(xiàn)量不同的區(qū)域劃分不同的比例權(quán)重,目的是從大量的信息中篩選出對(duì)分類(lèi)更至關(guān)重要的信息,每個(gè)時(shí)刻的輸出向量可以理解為這個(gè)時(shí)刻的輸入詞在上下文的語(yǔ)境中對(duì)當(dāng)前任務(wù)的一個(gè)貢獻(xiàn),如圖3所示是注意力機(jī)制編碼模型,注意力機(jī)制分配權(quán)重的形式如式(9)、式(10)所示

ut=tanh(Wwh(t)+bw)

(9)

(10)

s=∑ta(t)ut

(11)

其中,h(t)是注意力機(jī)制層經(jīng)過(guò)Bi-LSTM層語(yǔ)義編碼得到的輸入,ut、Ww、bw是注意力機(jī)制層的參數(shù),a(t)是h(t)對(duì)應(yīng)特征詞對(duì)區(qū)分文本類(lèi)別貢獻(xiàn)程度的評(píng)分權(quán)重,s是輸出向量的加權(quán)值。

圖3 基于注意力機(jī)制編碼模型

2.4 模型優(yōu)化層

將輸入層的兩部分分別喂給模型進(jìn)行訓(xùn)練,經(jīng)由biLSTM層和注意力機(jī)制層后,通過(guò)softmax層計(jì)算模型的交叉熵?fù)p失函數(shù)loss如式(12)~式(14)所示

(12)

(13)

(14)

其中,loss1是輸入層沒(méi)有擾動(dòng)時(shí)模型的損失函數(shù),lossadv是嵌入層擾動(dòng)后模型的損失函數(shù),把loss1和lossadv取平均值計(jì)算總loss,然后經(jīng)過(guò)函數(shù)對(duì)loss進(jìn)行優(yōu)化,使其達(dá)到最小。

3 實(shí)驗(yàn)設(shè)置

3.1 實(shí)驗(yàn)數(shù)據(jù)設(shè)置與處理

本文文本分類(lèi)使用的語(yǔ)料來(lái)自于維基百科的DBpedia數(shù)據(jù)集,有56萬(wàn)數(shù)據(jù)訓(xùn)練集,7萬(wàn)測(cè)試集,共15個(gè)類(lèi)別,設(shè)置文本長(zhǎng)度不超過(guò)100個(gè)單詞,每個(gè)文本由結(jié)構(gòu)化的3部分組成包括文本類(lèi)別、標(biāo)題、內(nèi)容,由于是英文語(yǔ)料無(wú)需分詞處理,對(duì)其去停用詞處理。

3.2 實(shí)驗(yàn)環(huán)境設(shè)置

實(shí)驗(yàn)環(huán)境為python 3.5、64位,使用tensorflow框架,CPU處理器。

3.3 實(shí)驗(yàn)參數(shù)設(shè)置

通過(guò)預(yù)先訓(xùn)練好的biLSTM語(yǔ)言模型初始化詞向量嵌入矩陣和模型權(quán)重,正向和反向的LSTM均具有512個(gè)隱藏單元,兩個(gè)單向的LSTM共享詞嵌入,其它超參數(shù)和單向LSTM相同,在數(shù)據(jù)集上單詞嵌入維度256,帶有1024個(gè)候選樣本的softmax損失函數(shù)進(jìn)行訓(xùn)練,優(yōu)化函數(shù)使用AdamOptimizer,批量大小為256,初始學(xué)習(xí)率為0.001,每步訓(xùn)練的學(xué)習(xí)率為0.9999指數(shù)衰減因子,訓(xùn)練了 100 000 步,除了詞嵌入外,所有參數(shù)都采用范數(shù)為1.0的梯度裁剪,為了正則化語(yǔ)言模型,在嵌入層的詞嵌入部分中應(yīng)用了參數(shù)為0.5的信息丟失率,在目標(biāo)y的softmax層和biLSTM+Attention的最終輸出之間,添加了一個(gè)隱藏層,維度是128,隱藏層的激活函數(shù)使用ReLU。

3.4 實(shí)驗(yàn)結(jié)果分析

把本文提出的方法(Ad-Attention-biLSTM)和注意力機(jī)制的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Attention-LSTM)、注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Attention-biLSTM)在DBpedia數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),兩個(gè)對(duì)比實(shí)驗(yàn)的超參數(shù)與本文模型參數(shù)相同。每次訓(xùn)練測(cè)試集取1%,訓(xùn)練集分別取總訓(xùn)練集的1%、2%、3%、4%、5%、6%、7%、8%、9%、10%,不同百分比下訓(xùn)練集數(shù)據(jù)量見(jiàn)表1。

表1 訓(xùn)練集數(shù)據(jù)量比例

(1)不同數(shù)據(jù)量對(duì)模型分類(lèi)準(zhǔn)確性的影響

訓(xùn)練集數(shù)據(jù)量分別是5600、28 000、56 000下模型(Ad-Attention-biLSTM、Attention-biLSTM、Attention-LSTM)的分類(lèi)準(zhǔn)確率變化如圖4~圖6所示。

從圖4~圖6中可以看出,當(dāng)訓(xùn)練集數(shù)據(jù)從1%-10%變化的過(guò)程中,本文提出的方法準(zhǔn)確率較高,且都在80%-96%之間,波動(dòng)范圍不大,當(dāng)epoch大于5時(shí),準(zhǔn)確率均在90%以上,模型表現(xiàn)較好;而模型(Attention-biLSTM)的準(zhǔn)確率變化范圍在10%-95%之間,變化幅度較大,只有在epoch等于10時(shí),模型的分類(lèi)性能才較好,僅次于(Ad-Attention-biLSTM);模型(Attention-LSTM)的表現(xiàn)較差,準(zhǔn)確率波動(dòng)范圍較大在5%-90%之間,訓(xùn)練集數(shù)據(jù)量為5600時(shí)準(zhǔn)確率隨epoch變化不明顯且很低在5%以下,只有達(dá)到一定數(shù)據(jù)量56 000時(shí)隨著epoch改變分類(lèi)性能才有所提升;這是因?yàn)槟P?Attention-LSTM)雖然實(shí)現(xiàn)了文本序列化,并融入注意力機(jī)制用不同的權(quán)重大小區(qū)分文本特征,但由于單向的LSTM只有下文語(yǔ)義信息,缺乏上文語(yǔ)義信息,當(dāng)訓(xùn)練數(shù)據(jù)量較少時(shí),文本向量特征表示高維稀疏,模型學(xué)習(xí)能力差,為了提升模型學(xué)習(xí)能力,把單向LSTM轉(zhuǎn)變?yōu)殡p向LSTM即模型(Attention-biLSTM)時(shí),準(zhǔn)確率有了一定程度上得到改善,不僅學(xué)習(xí)到了不同距離的上下文語(yǔ)義依賴(lài)關(guān)系,模型的穩(wěn)定性得到加強(qiáng),但是以上兩個(gè)模型在訓(xùn)練數(shù)據(jù)集較小的情況下文本特征冗余對(duì)分類(lèi)性能仍有一定的影響,可能會(huì)導(dǎo)致分類(lèi)錯(cuò)誤,當(dāng)在訓(xùn)練過(guò)程中對(duì)輸入層詞嵌入部分加入擾動(dòng)進(jìn)行對(duì)抗訓(xùn)練后,模型趨于穩(wěn)定,在3個(gè)數(shù)據(jù)集下的準(zhǔn)確率均較高;在不同訓(xùn)練集數(shù)據(jù)量下模型預(yù)測(cè)的分類(lèi)準(zhǔn)確率見(jiàn)表2,本文提出的方法分類(lèi)準(zhǔn)確率在不同訓(xùn)練集下均在90%以上,優(yōu)于其它兩種基本方法及模型CNN、CNN-LSTM、Word2vec。

圖4 數(shù)據(jù)量為5600

圖5 數(shù)據(jù)量為28 000

圖6 數(shù)據(jù)量為56 000

表2 分類(lèi)預(yù)測(cè)準(zhǔn)確率隨訓(xùn)練集數(shù)據(jù)量的變化

(2)不同訓(xùn)練集數(shù)據(jù)量對(duì)模型收斂性的分析

本文通過(guò)計(jì)算擾動(dòng)radv,添加到連續(xù)的詞向量上得到新的詞嵌入,模型接收新的詞嵌入,得到擾動(dòng)后的損失函數(shù)值lossadv,通過(guò)和原來(lái)的loss相加求平均值并優(yōu)化,訓(xùn)練集數(shù)據(jù)量分別是5600、28 000、56 000時(shí)和模型(Attention-biLSTM、Attention-LSTM)的損失函數(shù)值變化對(duì)比如圖7~圖9 所示,當(dāng)訓(xùn)練集數(shù)據(jù)量是5600時(shí),Attention-LSTM的loss值變化較小隨著epoch的變化最終穩(wěn)定在0.20左右,Attention-biLSTM的loss值雖然一直處于下降趨勢(shì),epoch等于10時(shí)為0.15,但仍然很大,而本文提出的模型loss很小一直處于下降趨勢(shì);當(dāng)訓(xùn)練集數(shù)據(jù)量是 28 000 時(shí),Attention-LSTM的loss值沒(méi)有太大變化,Attention-biLSTM的loss值變化明顯,epoch等于10時(shí)為0.03,但是仍然高于本文提出的方法;當(dāng)訓(xùn)練集數(shù)據(jù)量是56 000時(shí),模型(Attention-biLSTM、Attention-LSTM)的loss下滑趨勢(shì)明顯且趨于穩(wěn)定,最終Attention-LSTM的loss值在0.04左右,Attention-LSTM的loss值在0.02左右,而本文優(yōu)化后的loss值最終越來(lái)越小趨于0;這是由于詞嵌入部分加入對(duì)抗訓(xùn)練即正則化的方式,提高了詞向量的質(zhì)量,避免過(guò)擬合,添加擾動(dòng)后會(huì)導(dǎo)致原來(lái)特征類(lèi)別區(qū)分度改變,導(dǎo)致分類(lèi)錯(cuò)誤,計(jì)算的lossadv很大,但是lossadv的部分是不參與梯度計(jì)算的,模型參數(shù)W和b的改變對(duì)lossadv沒(méi)有影響,模型會(huì)通過(guò)改變?cè)~向量權(quán)重來(lái)降低loss優(yōu)化模型,提升魯棒性。

圖7 數(shù)據(jù)量為5600

圖8 數(shù)據(jù)量為28 000

圖9 數(shù)據(jù)量為56 000

4 結(jié)束語(yǔ)

本文提出了一種多層次的文本分類(lèi)模型(Ad-Attention-biLSTM),在實(shí)驗(yàn)中,我們發(fā)現(xiàn)對(duì)抗性訓(xùn)練在文本分類(lèi)任務(wù)的序列模型中不僅具有良好的正則化性能,還提高了詞嵌入的質(zhì)量,經(jīng)過(guò)擾動(dòng)后的樣本參與到訓(xùn)練過(guò)程中,提升模型對(duì)擾動(dòng)的防御能力,具有更好的泛化能力,在少量數(shù)據(jù)集上成功高效地訓(xùn)練了網(wǎng)絡(luò)模型,有學(xué)者在訓(xùn)練過(guò)程中將隨機(jī)噪聲添加到輸入層和隱藏層,為了防止過(guò)擬合,而本文提出的方法優(yōu)于隨機(jī)擾動(dòng)的方法,但是仍然有不足之處。

本文只是在單一數(shù)據(jù)集DBpedia上驗(yàn)證了方法的有效性,后續(xù)研究考慮在不同的數(shù)據(jù)集上做實(shí)驗(yàn);由于加入了詞嵌入擾動(dòng)層,準(zhǔn)確率和損失值loss得到優(yōu)化的同時(shí),訓(xùn)練時(shí)間略高于其它方法。

猜你喜歡
數(shù)據(jù)量擾動(dòng)注意力
Bernoulli泛函上典則酉對(duì)合的擾動(dòng)
讓注意力“飛”回來(lái)
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計(jì)算Lyapunov指數(shù)的模糊C均值聚類(lèi)小數(shù)據(jù)量法
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
寬帶信號(hào)采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
電子制作(2019年13期)2020-01-14 03:15:18
(h)性質(zhì)及其擾動(dòng)
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
小噪聲擾動(dòng)的二維擴(kuò)散的極大似然估計(jì)
A Beautiful Way Of Looking At Things
汕尾市| 德庆县| 舟曲县| 娱乐| 扶风县| 信丰县| 石河子市| 东方市| 淮安市| 南溪县| 芮城县| 东阳市| 永仁县| 满城县| 鹿邑县| 嘉黎县| 苍山县| 丘北县| 九龙坡区| 师宗县| 门源| 上虞市| 武义县| 中阳县| 紫阳县| 岳阳县| 淮安市| 平谷区| 新龙县| 徐水县| 定安县| 沛县| 甘洛县| 衢州市| 梓潼县| 浮山县| 高淳县| 通山县| 梁山县| 贺兰县| 西贡区|