孟佳娜,單 明,孫世昶,姜笑君,劉玉寧,馬騰飛
(大連民族大學(xué) a.計(jì)算機(jī)科學(xué)與工程學(xué)院;b.文法學(xué)院,遼寧 大連 116650)
近年來社交網(wǎng)絡(luò)發(fā)展迅速,海量數(shù)據(jù)推動(dòng)著人機(jī)對話系統(tǒng)不斷的發(fā)展,促進(jìn)了數(shù)據(jù)驅(qū)動(dòng)的開放領(lǐng)域?qū)υ捪到y(tǒng)的研究[1]。如今,任務(wù)型人機(jī)對話系統(tǒng)[2]已經(jīng)在生活中被廣泛的應(yīng)用。但是在任務(wù)型人機(jī)對話系統(tǒng)研究歷程中,大多數(shù)的研究都是針對單輪對話開展的,并且意圖分類和語義槽填充單獨(dú)處理語句,傳統(tǒng)任務(wù)型對話面臨新的挑戰(zhàn)。
Sarikaya等[3]提出基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)合模型用于意圖識(shí)別和語義槽填充兩個(gè)任務(wù)。Tur等[4]使用了一種聯(lián)合模型,通過遞歸神經(jīng)網(wǎng)絡(luò)將離散的語法結(jié)構(gòu)和連續(xù)空間的單詞和短語表示合并到一個(gè)強(qiáng)大的合成模型中,用于執(zhí)行人機(jī)對話系統(tǒng)中的NLU任務(wù)。Zhang等[5]提出了基于膠囊的神經(jīng)網(wǎng)絡(luò)模型,通過動(dòng)態(tài)路由協(xié)議模式進(jìn)行聯(lián)合建模,從而使用推斷的意圖表示進(jìn)一步協(xié)同插槽填充提高模型性能。通常訓(xùn)練詞向量的方法都是使用 Word2Vec,但是Word2Vec主要是從詞義的分布式假設(shè)出發(fā),最終得到相應(yīng)的向量,其弊端就是它是靜態(tài)的,無法聯(lián)系上下文并且該技術(shù)不能從根本上解決一詞多義的問題。
針對上述問題,本文從聯(lián)合建模、引入歷史信息和預(yù)訓(xùn)練模型微調(diào)三個(gè)方面對自然語言理解任務(wù)進(jìn)行研究。實(shí)驗(yàn)結(jié)果表明,通過使用提出的基于多任務(wù)學(xué)習(xí)的聯(lián)合模型和微調(diào)預(yù)訓(xùn)練模型的方式,可以提升意圖識(shí)別和語義槽填充任務(wù)的效果。
BERT是用來處理詞向量的工具,2018年谷歌公司發(fā)布了全新的預(yù)訓(xùn)練模型BERT,在各大自然語言處理的比賽中脫穎而出。在BERT[6](Bidirectional Encoder Representations from Transformers)誕生之前,通常都是使用Word2Vec訓(xùn)練詞向量,但是Word2Vec所具有的泛化能力使其包含了某一個(gè)詞的全部含義,因此分布式的表示方法只能夠把兩種含義編碼成一種向量,無法很好地解決一詞多義的問題,這也是詞向量目前存在的問題。
而BERT的提出恰好解決了這一問題,通過尋找詞與詞之間的特征更好地表達(dá)句子的完整語義。BERT采用無監(jiān)督學(xué)習(xí)的方式使用Transformer模型的Encoder部分,同時(shí)也沿用了Transformer模型的多頭注意力機(jī)制,使得BERT能夠在訓(xùn)練的過程中能夠聯(lián)系上下文,解決一詞多義的問題。BERT模型圖如圖1。
圖1 BERT模型圖
為了使得模型能夠聯(lián)系上下文,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[7]應(yīng)運(yùn)而生。同時(shí)RNN的出現(xiàn)也很好的解決了全連接神經(jīng)網(wǎng)絡(luò)的弊端。但是在處理長句子時(shí)RNN容易丟失記憶信息,導(dǎo)致模型性能表現(xiàn)不佳。長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[8]的提出很好的解決了這些問題,LSTM實(shí)際上是RNN的一種變體,其實(shí)質(zhì)是將RNN的隱藏層變換成了一個(gè)長短期記憶的模塊,能有效解決長距離的依賴問題。Chuang等[9]通過比較了不同類型的RNN,在音樂建模和語音信號(hào)建模的任務(wù)上評估這些循環(huán)單元,證明了長短期記憶網(wǎng)絡(luò)比傳統(tǒng)的循環(huán)單元效果要好。
本文提出基于多任務(wù)學(xué)習(xí)的多輪對話語言理解聯(lián)合模型,該聯(lián)合模型的兩個(gè)任務(wù)分別是意圖識(shí)別和語義槽填充。代表當(dāng)前輪次的對話預(yù)測,歷史輪次的對話用到表示。同時(shí)模型的設(shè)計(jì)中添加LSTM模塊來引入歷史信息,其中LSTM1代表第一輪輸入的句子訓(xùn)練時(shí)使用的歷史信息編碼器,LSTMt代表當(dāng)前輪次LSTM的歷史編碼器模塊,此時(shí)的LSTM已經(jīng)融入了1到t-1輪次的對話歷史信息。
本文分別使用BERT和RoBERTa作為多輪對話的語義編碼器,以使用BERT模型作為語義編碼器為例,對于多輪對話任務(wù)一共有T輪次的對話,輸入每輪對話的文本M=(m1,m2,...,mn)首先送進(jìn)BERT訓(xùn)練其語義表示,計(jì)算之后合成ut,ut代表輸入文本中[CLS]位置,最后完成對輸入文本的分類,計(jì)算過程如下公式。
Xt=BERT(mt,1,mt,2,…mt,n)=(ut,xt,1,xt,2,…xt,n)。
(1)
式中:ut代表第t輪對話BERT輸出的[CLS]隱狀態(tài)向量;xt,n表示第t輪次對話的第n個(gè)詞所對應(yīng)的向量表示。
在多任務(wù)聯(lián)合模型基礎(chǔ)上,將預(yù)訓(xùn)練模型進(jìn)行進(jìn)一步訓(xùn)練,使得預(yù)訓(xùn)練模型更適應(yīng)此任務(wù)型人機(jī)對話任務(wù),提升模型的性能。通過采用三階段模式進(jìn)行進(jìn)一步預(yù)訓(xùn)練,選用預(yù)訓(xùn)練好的BERT和RoBERTa,然后用相關(guān)的小數(shù)據(jù)進(jìn)一步訓(xùn)練,保留訓(xùn)練后的權(quán)重,再對模型進(jìn)行微調(diào)得到更好的性能如圖2。
圖2 預(yù)訓(xùn)練模型進(jìn)一步預(yù)訓(xùn)練的方法圖
2.3.1 LSTM模型
圖3 LSTM模型
計(jì)算過程如下公式:
輸入門:it=σ(wi·[ht-1,ut]+bi),
(2)
遺忘門:ft=σ(wf·[ht-1,ut]+bf),
(3)
(4)
(5)
最后根據(jù)細(xì)胞的狀態(tài)得到輸出門輸出當(dāng)前值ht,如式:
ht=ot⊙tanh(ct)。
(6)
2.3.2 意圖識(shí)別和語義槽填充解碼器
通過全連接層映射標(biāo)簽,最后通過softmax得到意圖標(biāo)簽yI如式。
ytI=softmax(WIht+bI)(t∈1,2,…T)。
(7)
由于本文任務(wù)是多輪對話,其中模型中的第n次slot輸出狀態(tài)就是指當(dāng)前輪次的輸出狀態(tài)。因此直接將除CLS和SEP的當(dāng)前輪次的輸出狀態(tài)通過全連接層將其映射到標(biāo)簽集合,然后通過softmax層對每個(gè)詞處理后,得到每個(gè)維度的數(shù)值就是這個(gè)詞的標(biāo)簽概率,從而得出每個(gè)詞相應(yīng)的標(biāo)簽所屬的類別。將每一輪次的文本的長度設(shè)置為n,WS是語義槽任務(wù)的權(quán)重矩陣,bS是語義槽填充部分的偏置項(xiàng),xt,i是經(jīng)過BERT處理后代表當(dāng)前輪次的第i個(gè)文本向量輸入到softmax層。公式如下:
(8)
本模型采用多任務(wù)學(xué)習(xí)的方法,聯(lián)合訓(xùn)練意圖識(shí)別和語義槽填充任務(wù),通過使用交叉熵函數(shù)作為損失函數(shù),其中Number代表樣本的數(shù)量,類別的數(shù)量為ClassNumber,pik代表對樣本i預(yù)測為k的概率,yik代表當(dāng)k和樣本i是相同的種類時(shí),其值是1,其他的均為0。
(9)
由于意圖識(shí)別和語義槽填充這兩個(gè)任務(wù)有很明顯的聯(lián)系,在實(shí)際的訓(xùn)練當(dāng)中LossI,LossS分別代表意圖識(shí)別和語義槽填充的損失,LossJ代表整個(gè)聯(lián)合模型的整體損失。
(10)
聯(lián)合模型最終訓(xùn)練目標(biāo)損失函數(shù)如下所式:
(11)
2.5.1 Lookhead優(yōu)化器
想要在神經(jīng)網(wǎng)絡(luò)中獲得更好的性能,往往需要代價(jià)高昂的超參數(shù)調(diào)節(jié)。使用Lookahead[10]可以改進(jìn)內(nèi)部優(yōu)化器的收斂性,并經(jīng)常提高泛化性能,同時(shí)對超參數(shù)變化魯棒性很好,實(shí)驗(yàn)證明,Lookahead對內(nèi)循環(huán)優(yōu)化器的變化,快速權(quán)值更新的次數(shù)和慢的權(quán)重學(xué)習(xí)速率具有很強(qiáng)的魯棒性,因此本文選用Lookahead提升模型的性能。
2.5.2 自蒸餾微調(diào)策略
為了提升BERT的自適應(yīng)能力,提出了自蒸餾微調(diào)策略[11],進(jìn)一步對BERT的微調(diào)進(jìn)行了改進(jìn)。自蒸餾主要是采用了監(jiān)督學(xué)習(xí)的方式去進(jìn)行知識(shí)蒸餾。自蒸餾主要是采用了監(jiān)督學(xué)習(xí)的方式去進(jìn)行知識(shí)蒸餾。本文選用了SDA (Self-Distillation-Averaged)[12]的方法如圖4。先計(jì)算出過去K個(gè)time step參數(shù)的平均值作為教師模型,進(jìn)一步提升了模型的性能。
圖4 SDA微調(diào)的策略圖
2.5.3 對抗訓(xùn)練
對抗訓(xùn)練(adversarial training)是增強(qiáng)神經(jīng)網(wǎng)絡(luò)魯棒性一種的重要方式[13]。在自然語言處理領(lǐng)域中,在語言模型中使用對抗訓(xùn)練,既提高了魯棒性同時(shí)也提高了泛化能力。對抗訓(xùn)練的一般性原理其公式可以概括為如下的最大最小化公式:
(12)
實(shí)際上,對抗訓(xùn)練的研究基本上就是在尋找合適的擾動(dòng),使得模型具有更強(qiáng)的魯棒性。FGM(Fast Gradient Method)[14]采用了L2歸一化的方法。其核心思想就是通過利用梯度的每個(gè)維度的值除以梯度的L2范數(shù),保留梯度的方向可以使訓(xùn)練后模型的效果更好。FGM的公式如下:
(13)
式中,g代表損失函數(shù)L輸入x的梯度,公式如下:
g=▽xL(θ,x,y)。
(14)
本文選用三個(gè)數(shù)據(jù)量依次遞增的數(shù)據(jù)集,分別是KVRETA[15]、MultiWOZ[16]、DSTC8[17]。KVRET數(shù)據(jù)集是斯坦福自然語言處理小組收集的。斯坦福自然語言處理小組發(fā)布的這個(gè)數(shù)據(jù)集里面包含了3031段任務(wù)型多輪對話的數(shù)據(jù),主要里面包含了導(dǎo)航類,日程安排類和天氣搜索類。MultiWOZ采用的2.2版本的數(shù)據(jù)集,MultiWOZ一個(gè)大型多領(lǐng)域用于特定任務(wù)對話模型的人機(jī)對話實(shí)驗(yàn)數(shù)據(jù)集。該語料庫由Attraction、Hospital、Police、Hotel、Restaurant、Taxi、Bus和Train這8個(gè)領(lǐng)域組成。DSTC8是2019年第八屆對話系統(tǒng)挑戰(zhàn)賽發(fā)布的數(shù)據(jù)集,對話系統(tǒng)挑戰(zhàn)賽DSTC由微軟、卡內(nèi)基梅隆大學(xué)的科學(xué)家于2013年發(fā)起。實(shí)驗(yàn)所使用的數(shù)據(jù)集的具體描述見表1。
表1 KVRET、MultiWOZ和DSTC8數(shù)據(jù)集統(tǒng)計(jì)
3.2.1 基線模型
SDEN[18]:模型通過使用記憶網(wǎng)絡(luò)的方法,把記憶后的編碼存儲(chǔ),通過順序?qū)υ捑幋a網(wǎng)絡(luò),允許按時(shí)間順序從對話歷史中編碼上下文,在多域?qū)υ挃?shù)據(jù)集上的實(shí)驗(yàn)表明,該結(jié)構(gòu)降低了語義幀錯(cuò)誤率。
MNMDLJ[19]: 提出了一種新的對話邏輯推理(DLI)任務(wù),該任務(wù)在多任務(wù)框架下與SLU共同鞏固上下文記憶, 采用聯(lián)合學(xué)習(xí)的方法進(jìn)行訓(xùn)練。
CDS[20]:提出了模型采用基于方法的語義組合機(jī)制。
Joint BERT:基線模型,采用基于BERT意圖分類和語義槽填充的聯(lián)合學(xué)習(xí)模型。
Joint RoBERTa:將基線模型中的BERT模型換為RoBERTa意圖分類和語義槽填充的聯(lián)合學(xué)習(xí)模型。
Joint BERT+LSTM:本文提出的實(shí)驗(yàn)?zāi)P汀?/p>
Joint RoBERTa+LSTM:在本文Joint BERT-LSTM模型基礎(chǔ)上,將BERT換成RoBERTa模型。
本文模型基于Joint BERT再加入LSTM后,引入歷史信息之后意圖分類的準(zhǔn)確率達(dá)到99.9%,本文的模型捕捉詞語中的隱藏依賴關(guān)系,提升意圖識(shí)別的表現(xiàn),意圖識(shí)別表現(xiàn)的提升意味著模型對于意圖識(shí)別的困惑度降低,使該部分的訓(xùn)練的效率更高,同時(shí)由于本文的模型是聯(lián)合建模,BERT的訓(xùn)練效率的提高也就提升了槽填充的表現(xiàn)。在KVRET數(shù)據(jù)集上的實(shí)驗(yàn)的結(jié)果見表2。
表2 KVRET數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果 %
3.2.2 實(shí)驗(yàn)結(jié)果分析
在實(shí)驗(yàn)的訓(xùn)練過程中,以KVRET數(shù)據(jù)集和MultiWOZ數(shù)據(jù)集為例,對比Joint BERT+LSTM、Joint RoBERTa+LSTM、Joint BERT和Joint RoBERTa這四種模型的變化過程。KVRET數(shù)據(jù)集中Joint RoBERTa+LSTM模型收斂的更快,雖然意圖分類的準(zhǔn)確率略低于Joint BERT+LSTM模型,但是語義槽填充的F1值更高,整體來看Joint RoBERTa+LSTM模型在KVRET數(shù)據(jù)集上的效果更好。在KVRET數(shù)據(jù)集當(dāng)中,其loss下降的變化圖如圖5,意圖準(zhǔn)確率和語義槽填充的F1值如圖6。
圖5 KVRET數(shù)據(jù)集loss變化圖
a)Intent準(zhǔn)確率變化圖 b)Slot F1值變化圖圖6 KVRET數(shù)據(jù)集意圖準(zhǔn)確率和語義槽填充變化圖
在MultiWOZ數(shù)據(jù)集當(dāng)中,其loss下降的變化圖如圖7。意圖準(zhǔn)確率和語義槽填充的F1值分別如圖8。Joint BERT+LSTM模型收斂的更快,并且意圖分類的準(zhǔn)確率和語義槽填充的F1值最高,因此Joint BERT+LSTM模型在MultiWOZ數(shù)據(jù)集上效果更好。
圖7 MultiWOZ數(shù)據(jù)集的loss變化圖
a)Intent準(zhǔn)確率變化圖 b)Slot F1值變化圖圖8 MultiWOZ數(shù)據(jù)集意圖準(zhǔn)確率和語義槽填充變化圖
綜合以上兩個(gè)數(shù)據(jù)集的訓(xùn)練變化圖中可知,在模型引入LSTM之后,模型的在訓(xùn)練時(shí)收斂的更快,模型的性能也有了大幅的提升。
在這兩個(gè)數(shù)據(jù)集上實(shí)驗(yàn)的結(jié)果見表3,由于KVRET多輪對話中的數(shù)據(jù)較少,為了證明模型應(yīng)用在其他任務(wù)上仍然有效果,本文也選用了數(shù)據(jù)量較大的數(shù)據(jù)集,分別是超10 000段對話的跨越8個(gè)域的帶注釋對話數(shù)據(jù)集MultiWOZ和超16 000段對話覆蓋16個(gè)領(lǐng)域的數(shù)據(jù)集DSTC8??梢钥闯鍪褂孟嗤A(yù)訓(xùn)練模型加入LSTM融入歷史信息之后,意圖識(shí)別的準(zhǔn)確率都大幅提高,語義槽的F1值也有略微提升。
表3 MultiWOZ和DSTC8中的實(shí)驗(yàn)結(jié)果 %
綜上所述,在引入了LSTM對多輪對話的歷史信息進(jìn)行建模,并對意圖分類和語義槽填充任務(wù)進(jìn)行聯(lián)合建模后,無論是使用BERT和RoBERTa其模型性能都有所提升,同時(shí)也證明了引入歷史信息的預(yù)訓(xùn)練聯(lián)合模型具有較強(qiáng)泛化能力。
提出了一種基于預(yù)訓(xùn)練模型的多輪對話自然語言理解聯(lián)合建模的方法,將BERT和RoBERTa作為語義編碼器對意圖分類和語義槽填充進(jìn)行聯(lián)合建模,通過多任務(wù)學(xué)習(xí)共享特征的特性,聯(lián)合建模可以提升兩個(gè)任務(wù)的效果。同時(shí)本文加入BERT到多輪對話上,引入LSTM用歷史信息進(jìn)行多輪對話語言理解任務(wù)的聯(lián)合建模,輔助意圖識(shí)別任務(wù),在大幅度提高意圖識(shí)別準(zhǔn)確率的同時(shí),提高了槽填充任務(wù)的準(zhǔn)確率。