国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多任務(wù)的多標(biāo)簽文本分類

2021-07-09 17:19覃杰
現(xiàn)代計(jì)算機(jī) 2021年14期
關(guān)鍵詞:多任務(wù)標(biāo)簽注意力

覃杰

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

0 引言

隨著時(shí)代的飛速發(fā)展,人機(jī)對(duì)話技術(shù)變得愈發(fā)重要。對(duì)話意圖的識(shí)別是通過文本分類任務(wù)實(shí)現(xiàn)的,而普通的文本多分類任務(wù)不能滿足人機(jī)對(duì)話中復(fù)雜意圖的識(shí)別功能,取而代之的是多標(biāo)簽文本分類任務(wù)。與傳統(tǒng)的文本多分類不同的是,現(xiàn)實(shí)生活中存在的大量數(shù)據(jù)其實(shí)是對(duì)應(yīng)多個(gè)類別的。例如一篇文章可能涵蓋了文化、科技、教育相關(guān)多個(gè)類別。多標(biāo)簽文本分類任務(wù)較傳統(tǒng)的文本分類任務(wù)的計(jì)算更為復(fù)雜,主要表現(xiàn)在一個(gè)樣本的文本特征需要與多個(gè)標(biāo)簽產(chǎn)生關(guān)聯(lián),這就要求更精細(xì)化的特征抽取并且正確地映射到對(duì)應(yīng)的標(biāo)簽上。此外,標(biāo)簽附帶的額外信息應(yīng)該被充分的利用起來,而不能僅僅簡單的作為一個(gè)分類ID 處理。

早期的多標(biāo)簽文本分類任務(wù)一般將多標(biāo)簽問題轉(zhuǎn)化為各個(gè)標(biāo)簽的二分類問題[1],然而這種方法忽略了標(biāo)簽之間的關(guān)聯(lián)關(guān)系并且當(dāng)標(biāo)簽數(shù)量過大的時(shí)候,模型的數(shù)量呈線性增加。后來Read et al.(2011)提出了鏈?zhǔn)蕉诸惸P蛠斫?biāo)簽之間的高階關(guān)聯(lián)關(guān)系[2],但是計(jì)算復(fù)雜度依然十分龐大。隨著神經(jīng)網(wǎng)絡(luò)的興起,深度學(xué)習(xí)模型如CNN、LSTM 憑借其強(qiáng)大的特征抽取能力,在自然語言處理的眾多任務(wù)中成為主流模型。CNN[3](Kim,2014)采用多核卷積抽取文本特征,多個(gè)卷積核可以抽取不同窗口大小的文本特征,豐富了句子特征的表達(dá)。CNN-RNN[4](Chen et al.,2017)使用CNN和RNN 捕獲了局部和全局語義特征建模標(biāo)簽的內(nèi)在關(guān)聯(lián)關(guān)系。近期,SGM[5]模型,通過生成式seq2seq 結(jié)構(gòu),來建模標(biāo)簽間的依賴關(guān)系得到了很好的效果,但是標(biāo)簽之間的關(guān)系是復(fù)雜的,線性的標(biāo)簽解碼存在一定的不足。LSAN[6]模型,利用標(biāo)簽語義信息確定標(biāo)簽與文檔之間的語義聯(lián)系,構(gòu)造特定于標(biāo)簽的文檔特征表示,通過自注意力機(jī)制,捕獲屬于特定標(biāo)簽的文本信息,在多個(gè)數(shù)據(jù)集上獲得了優(yōu)異的成績。

本文基于LSAN 模型,引入多任務(wù)機(jī)制,通過計(jì)算文本與標(biāo)簽的相似度分?jǐn)?shù)作為輔助任務(wù),聯(lián)合相似度計(jì)算loss 和多標(biāo)簽分類loss 優(yōu)化模型,相關(guān)指標(biāo)得到進(jìn)一步提升。

1 算法實(shí)現(xiàn)

1.1 LSAN模型

LSAN 模型由三個(gè)主要部分構(gòu)成,第一部分是由Bi-LSTM 構(gòu)成的特征提取層,第二部分是由文本自注意力機(jī)制提取文本特征的嵌入表示和標(biāo)簽注意力機(jī)制提取標(biāo)簽特征嵌入表示組成。第三部分是融合文本和標(biāo)簽的嵌入特征進(jìn)行預(yù)測(cè)的全連接網(wǎng)絡(luò)。具體模型結(jié)構(gòu)如圖1 所示。

模型結(jié)構(gòu)不同層的相關(guān)定義和功能表達(dá)如下:

(1)Bi-LSTM

雙向LSTM 模型在LSAN 模型中主要用于提取文本的詞特征嵌入表示。為了解決傳統(tǒng)的RNN 的長期以來問題和梯度消失問題,Hochreiter 和Schmid huber提出了LSTM 模型。該模型引入了自適應(yīng)門控機(jī)制來決定LSTM 的狀態(tài)單元在某時(shí)刻保存多少上一個(gè)時(shí)刻的狀態(tài)信息,以及提取當(dāng)前輸入特征的程度。Bi-LSTM 在LSTM 的基礎(chǔ)上增加了反向的LSTM 單元,使得在正向提取特征的情況下,又能進(jìn)行逆序特征提取,從而獲得了更好的特征抽取能力。LSTM 由三部分組成:輸入門、忘記門、輸出門。所有門控單元使用當(dāng)前輸入和上一時(shí)刻的隱層狀態(tài)hi及當(dāng)前細(xì)胞單元狀態(tài)活值ci來計(jì)算下一時(shí)刻的細(xì)胞單元狀態(tài)。具體公式如下:

其中it,ft,ot分別對(duì)應(yīng)t時(shí)刻的輸入門、忘記門、輸出門的信息,Ct為t 時(shí)刻的細(xì)胞狀態(tài),W為對(duì)應(yīng)權(quán)重參數(shù),b為對(duì)應(yīng)的偏置項(xiàng)。

(2)Self-Attention[7]和Label-Attention

自注意力機(jī)制主要用于抽取文本的高階特征。自注意力機(jī)制是由(Lin et al.,2017)提出的,成功地在各種文本任務(wù)上取得了很好的表現(xiàn)。注意力機(jī)制的計(jì)算過程由信息輸入,計(jì)算注意力分布,根據(jù)注意力分布來計(jì)算輸入信息的加權(quán)平均組成。具體的公式如下:

A(s)是文本的自注意力得分矩陣,M(s)j是由注意力得分加權(quán)到文本隱層表征對(duì)應(yīng)的j類標(biāo)簽的結(jié)果。其中,W2∈Rc×da,k為embedding 維數(shù),c為標(biāo)簽數(shù)目,da為超參數(shù)可以調(diào)整。H∈R2k×n為Bi-LSTM 輸出的隱層張量,M(s)∈Rc×2k是通過自注意力機(jī)制進(jìn)行文本特征抽取的所有標(biāo)簽的具體化表示。

標(biāo)簽注意力機(jī)制主要是通過Bi-LSTM 的隱層張量與標(biāo)簽嵌入計(jì)算注意力得分然后將得分與Bi-LSTM輸出的隱層張量加權(quán)計(jì)算得到具有標(biāo)簽注意力分?jǐn)?shù)的文本特征的隱層表示。具體公式如下:

其中C是標(biāo)簽嵌入向量,A→為C與H→計(jì)算出的注意力分?jǐn)?shù),M?(l)為最終文本在標(biāo)簽注意力下的嵌入表示。

(3)基于注意力的適應(yīng)性融合策略

M(S)側(cè)重于文檔內(nèi)容,M(l)側(cè)重于文檔內(nèi)容與標(biāo)簽文本之間的語義關(guān)聯(lián)。通過一個(gè)全連接層經(jīng)過sig?moid 函數(shù)計(jì)算各自的分?jǐn)?shù),進(jìn)行適應(yīng)性加權(quán)得到最終的特定于標(biāo)簽的文檔特征表示。具體公式如下:

1.2 多任務(wù)實(shí)現(xiàn)

多任務(wù)機(jī)制是同時(shí)考慮多個(gè)相關(guān)任務(wù)的學(xué)習(xí)過程,目的是利用任務(wù)間的內(nèi)在關(guān)系來提高單個(gè)任務(wù)為學(xué)習(xí)的泛化性能。在多標(biāo)簽文本分類中,建模標(biāo)簽和文本的關(guān)系不僅可以通過上述注意力機(jī)制來實(shí)現(xiàn),也可以通過計(jì)算標(biāo)簽嵌入表示和文檔句向量表示的相似度來實(shí)現(xiàn)。假設(shè)某一訓(xùn)練樣本屬于A標(biāo)簽,那么A標(biāo)簽的嵌入表示和該樣本的句子表示就應(yīng)該比較接近。具體的公式如下:

訓(xùn)練文本對(duì)應(yīng)分類的標(biāo)簽嵌入向量與該文本嵌入向量的相似度較高,所以通過公式(15)計(jì)算得到的loss值相對(duì)較低,而不屬于該訓(xùn)練樣本的其他標(biāo)簽計(jì)算得到的相似度較低,則得到的loss值較高。

2 算法實(shí)現(xiàn)

2.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)

為了驗(yàn)證加入多任務(wù)相似度計(jì)算的有效性,本文在Ubuntu18 操作系統(tǒng),配備顯卡(NVIDIA GTX1660 6GB),以及深度學(xué)習(xí)框架PyTorch 的環(huán)境下進(jìn)行仿真實(shí)驗(yàn)。數(shù)據(jù)部分本文采用了Arxiv Academic Paper Da?taset 數(shù)據(jù)集,該數(shù)據(jù)是由Yan 論文中[5]提供,該數(shù)據(jù)集從包含了55840 每篇學(xué)術(shù)論文摘要以及對(duì)應(yīng)54 個(gè)不同的學(xué)科標(biāo)簽主題。一篇學(xué)術(shù)論文摘要可能對(duì)應(yīng)多個(gè)學(xué)科名稱。通過將該數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集。模型訓(xùn)練結(jié)束采用在驗(yàn)證集上模型效果最好的模型作為測(cè)試集的預(yù)測(cè)模型。其中訓(xùn)練集、驗(yàn)證集、測(cè)試集的大小分別設(shè)置為:53840、1000、1000。

2.2 數(shù)據(jù)預(yù)處理

對(duì)AAPD 數(shù)據(jù)集進(jìn)行簡要的數(shù)據(jù)分析,其中訓(xùn)練集和測(cè)試集的句子長度分別為163 和171。為了覆蓋大部分?jǐn)?shù)據(jù)集,我們將句子長度設(shè)定為500,不足部分進(jìn)行不全,超過的部分進(jìn)行截?cái)唷榱藢?shí)現(xiàn)相似度計(jì)算任務(wù),需要對(duì)句子真實(shí)長度進(jìn)行標(biāo)記,以便在實(shí)驗(yàn)的過程中,實(shí)現(xiàn)補(bǔ)全token 的掩碼,從而提取到句子真實(shí)長度的隱層向量特征的平均表達(dá)。

2.3 模型訓(xùn)練

數(shù)據(jù)經(jīng)過預(yù)處理后,使用Google Word2Vec 預(yù)訓(xùn)練詞向量(300 維),構(gòu)成文本的嵌入矩陣,得到Bi-LSTM的輸入embedding 特征。標(biāo)簽的嵌入向量維數(shù)也取300 維,通過隨機(jī)初始化生成。Bi-LSTM 中的隱層單元設(shè)置為500,批處理大?。╞atchsize)設(shè)置為64,每個(gè)樣本長度通過截?cái)嗪脱a(bǔ)齊固定為500,激活函數(shù)采用ReLU,學(xué)習(xí)率設(shè)定為0.001,da 參數(shù)設(shè)置為200,b 設(shè)置為256。模型訓(xùn)練損失函數(shù)采用BCE(Binary Cross En?tropy)loss。使用Adam 優(yōu)化器。模型訓(xùn)練過程中損失函數(shù)值以及P@1,P@2,P@3 指標(biāo)變化情如圖2 所示。

圖2 Loss及指標(biāo)變化

2.4 仿真實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)對(duì)比了對(duì)比加入了多任務(wù)相似度計(jì)算的LSAN 模型與未修改的模型訓(xùn)練結(jié)果。相關(guān)結(jié)果如表1 所示。定義改進(jìn)的方法名字為MT-LSAN。評(píng)估指標(biāo)采用Top-K 中的精確度。公式定義如下:

表1 對(duì)比實(shí)驗(yàn)結(jié)果

其中k表示取排名從高到底的前k個(gè)標(biāo)簽的預(yù)測(cè)值進(jìn)行精度計(jì)算,l表示對(duì)應(yīng)的標(biāo)簽類別。

通過對(duì)比實(shí)驗(yàn)可以發(fā)現(xiàn),加入多任務(wù)機(jī)制的模型,其精度得到了一定的提升,其中P@1 提高了0.26%,P@3 提高了0.29%。仿真實(shí)驗(yàn)結(jié)果表明,加入了多任務(wù)機(jī)制的模型試驗(yàn)結(jié)果得到了一定的提升。

3 結(jié)語

本文在LSAN 模型的基礎(chǔ)上通過引入標(biāo)簽與文本相似度計(jì)算的多任務(wù)機(jī)制,豐富了標(biāo)簽自身的隱含信息,使得文本內(nèi)容與標(biāo)簽的關(guān)聯(lián)關(guān)系變得更加緊密,在現(xiàn)有的實(shí)驗(yàn)結(jié)果上獲得了一定的提升。在現(xiàn)有的對(duì)話系統(tǒng)意圖識(shí)別中,多標(biāo)簽文本分類可以解決多意圖識(shí)別問題,該模型具有一定的應(yīng)用指導(dǎo)意義。

猜你喜歡
多任務(wù)標(biāo)簽注意力
數(shù)字時(shí)代的注意困境:媒體多任務(wù)的視角*
讓注意力“飛”回來
面向多任務(wù)的無人系統(tǒng)通信及控制系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
基于Reworks操作系統(tǒng)的信息交互軟件設(shè)計(jì)
A Beautiful Way Of Looking At Things
DSP多任務(wù)實(shí)時(shí)操作系統(tǒng)內(nèi)核設(shè)計(jì)
讓衣柜擺脫“雜亂無章”的標(biāo)簽
科學(xué)家的標(biāo)簽
科學(xué)家的標(biāo)簽
永济市| 巴中市| 昌平区| 家居| 兰坪| 东丰县| 枣强县| 江津市| 屏东市| 定西市| 靖安县| 宾川县| 沧州市| 阿拉善盟| 永川市| 阜康市| 泰来县| 南靖县| 高密市| 莱西市| 苏州市| 垦利县| 长乐市| 明水县| 建昌县| 新竹县| 内江市| 德令哈市| 萨嘎县| 双牌县| 建昌县| 左贡县| 临江市| 卫辉市| 天津市| 广宁县| 天气| 怀宁县| 靖宇县| 镇江市| 陈巴尔虎旗|