劉柏霆,管衛(wèi)利,2**,李陶深,2
(1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,廣西南寧 530004;2.南寧學(xué)院數(shù)字經(jīng)濟(jì)學(xué)院,廣西南寧 530299)
文本分類[1]是自然語(yǔ)言處理中的一項(xiàng)基本任務(wù),被廣泛應(yīng)用在垃圾郵件識(shí)別、情感分析、文檔主題分類等場(chǎng)景,提高其分類準(zhǔn)確率是人們研究的重點(diǎn)。在文本分類任務(wù)中,詞向量是深度學(xué)習(xí)模型中詞語(yǔ)的基本表達(dá)形式,詞向量語(yǔ)義的精確度直接影響文本最終的分類準(zhǔn)確率。此外,注意力機(jī)制是深度學(xué)習(xí)模型中常用的特征選擇工具,注意力打分的質(zhì)量會(huì)決定模型的側(cè)重點(diǎn),從而影響分類的準(zhǔn)確率。因此,本文擬從詞向量與注意力機(jī)制出發(fā),改進(jìn)文本分類模型中的詞嵌入模型與注意力機(jī)制,使模型的分類準(zhǔn)確率提高,對(duì)于提高文本檢測(cè)與分類任務(wù)的性能具有一定的現(xiàn)實(shí)意義。
對(duì)于現(xiàn)有的詞嵌入模型,其生成的詞向量分為靜態(tài)與動(dòng)態(tài)兩種形式,靜態(tài)的詞向量訓(xùn)練模型有Word2Vec (Word to Vector)[2]、GloVe (Global Vectors)[3]等。如方炯焜等[4]提出GloVe-GRU的模型結(jié)構(gòu),用GloVe作為詞嵌入模型,生成GloVe的全局靜態(tài)詞向量并降低向量空間維度,這種詞嵌入方式產(chǎn)生的靜態(tài)詞向量并不能處理一詞多義的問(wèn)題。動(dòng)態(tài)的詞向量嵌入模型是指模型生成的詞向量是動(dòng)態(tài)變化的,如果上下文改變,那么詞向量也會(huì)跟著改變,同一個(gè)單詞在語(yǔ)境中具有不同的詞向量表達(dá)。常用的動(dòng)態(tài)詞向量嵌入模型有ELMo(Embedding from Language Model)[5]、BERT[6]等。趙亞歐等[7]把ELMo與Transformer結(jié)合起來(lái),將ELMo作為詞嵌入模型,輸出詞向量到Transformer[8]模型中做文本分類,但是ELMo內(nèi)部采用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[9]結(jié)構(gòu)來(lái)提取特征信息,LSTM結(jié)構(gòu)在提取特征的能力上較弱,相比于具有注意力機(jī)制的Transformer結(jié)構(gòu)存在差距。除此之外,ELMo模型內(nèi)部只是將特征雙向地拼接在一起,這種拼接方式未能很好地融合文本的語(yǔ)義信息。后來(lái)人們開(kāi)始用BERT[10]作為詞向量預(yù)訓(xùn)練模型,如黃澤民等[11]用BERT作為詞向量嵌入模型,將靜態(tài)詞向量輸入到BERT中,利用BERT進(jìn)一步優(yōu)化靜態(tài)詞向量,賦予其動(dòng)態(tài)詞向量的特征,但是BERT也存在一些缺陷,如BERT在其訓(xùn)練階段會(huì)隨機(jī)遮掩掉一些詞,而在下游任務(wù)的微調(diào)中卻看不到這些被遮掩的詞,導(dǎo)致兩階段差異,致使BERT的性能有一定程度的下降。XLNet[12]針對(duì)BERT現(xiàn)有的問(wèn)題進(jìn)行了改進(jìn),采用XLNet能夠生成動(dòng)態(tài)的詞向量,同時(shí)也能生成比BERT更精準(zhǔn)的詞向量,因此本文采用XLNet作為詞嵌入模型。
注意力機(jī)制[13]是文本分類任務(wù)常用的方法,其能夠有效地根據(jù)文本信息的重要程度為文本分配權(quán)重。現(xiàn)有的文本分類模型所使用的注意力機(jī)制沒(méi)能利用好標(biāo)簽詞所蘊(yùn)含的語(yǔ)義信息,如楊興銳等[14]在BiLSTM-CNN混合模型的基礎(chǔ)上加入殘差連接與注意力機(jī)制,對(duì)卷積輸出的向量計(jì)算注意力得分。葉瀚等[15]融合注意力機(jī)制與句向量,將首句子向量作為查詢向量Query,將其余各句子向量作為待查向量Key。對(duì)BERT模型輸出的CLS向量進(jìn)行注意力點(diǎn)乘計(jì)算,通過(guò)注意力分?jǐn)?shù)得出的權(quán)重系數(shù)對(duì)各CLS向量序列求和再平均來(lái)達(dá)到壓縮編碼的目的。梁順攀等[16]提出一種基于混合神經(jīng)網(wǎng)絡(luò)的文本分類方法,對(duì)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),增強(qiáng)對(duì)文本局部特征的提取能力,采用普通的自注意力機(jī)制對(duì)最終的文本向量分配權(quán)重。以上模型在做注意力計(jì)算時(shí),均未利用標(biāo)簽詞提取特征。若能很好地利用標(biāo)簽詞,在注意力權(quán)重分配上就會(huì)更有目的性。如在新聞文本分類任務(wù)中,以“軍事”為標(biāo)簽詞樣本,文本里就會(huì)出現(xiàn)“坦克”“軍演”等詞語(yǔ);在情感分類任務(wù)中,以“積極”為標(biāo)簽詞樣本,文本中就會(huì)出現(xiàn)“開(kāi)心”“高興”等詞語(yǔ)。利用標(biāo)簽詞對(duì)比文本中的內(nèi)容,找出文本中與標(biāo)簽詞語(yǔ)義相近的部分并給其分配較高的權(quán)重,在分類層中使模型更關(guān)注這些重點(diǎn)部分,最后就能夠得到更準(zhǔn)確的分類預(yù)測(cè)。
通過(guò)以上對(duì)現(xiàn)有文本分類模型的分析,本文提出一種基于XLNet+BiGRU+Att (Label)的文本分類模型。首先,用XLNet代替BERT、GloVe、Word2Vec等模型作為預(yù)訓(xùn)練模型;然后,將標(biāo)簽詞與注意力機(jī)制相結(jié)合,充分利用標(biāo)簽詞的語(yǔ)義信息匹配出文本向量中的重點(diǎn)部分,以提高模型的分類性能。
XLNet+BiGRU+Att (Label)模型可大致分為文本預(yù)處理層、XLNet層、雙向門(mén)控循環(huán)單元(BiGRU)層、注意力(Attention)層、全連接層(Linear)+Softmax層。XLNet+BiGRU+Att (Label)模型結(jié)構(gòu)如圖1所示。模型的總體設(shè)計(jì)思想是采用XLNet生成文本序列與標(biāo)簽詞序列的動(dòng)態(tài)詞向量表達(dá);用BiGRU進(jìn)一步提取出文本向量的全局特征;根據(jù)全局特征選出當(dāng)前文本的傾向標(biāo)簽詞;在注意力機(jī)制的基礎(chǔ)上,根據(jù)傾向標(biāo)簽詞針對(duì)性地對(duì)文本的全局特征向量進(jìn)行重點(diǎn)劃分。
圖1 XLNet+BiGRU+Att (Label)模型結(jié)構(gòu)Fig.1 Structrue of XLNet+BiGRU+Att (Label) model
模型處理的步驟大致如下。
步驟1:進(jìn)行數(shù)據(jù)預(yù)處理操作,將每個(gè)訓(xùn)練樣本裁剪或填充為統(tǒng)一長(zhǎng)度,對(duì)文本數(shù)據(jù)進(jìn)行噪聲去除并調(diào)用Tokenizer工具分詞,經(jīng)過(guò)處理后的文本連同標(biāo)簽詞輸入到XLNet模型中。
步驟2:XLNet處理輸入的文本和標(biāo)簽詞序列,生成動(dòng)態(tài)詞向量的文本與標(biāo)簽詞序列,輸入的文本長(zhǎng)度為512,輸出的向量維度為768。將文本向量輸入BiGRU中。
步驟3:BiGRU將根據(jù)文本的上下文提取語(yǔ)義特征,將BiGRU最后時(shí)刻的隱藏層堆疊作為當(dāng)前文本的總結(jié)向量H,即考慮了文本里每個(gè)單詞語(yǔ)義的總結(jié)向量。將BiGRU的最后一層輸出拆分為前向輸出與反向輸出,并將其相加作為文本的內(nèi)容向量V。
步驟4:將總結(jié)向量H輸入到Linear+Softmax中,預(yù)測(cè)出當(dāng)前文本的傾向標(biāo)簽詞。將傾向標(biāo)簽詞與內(nèi)容向量V輸入Attention層,計(jì)算出內(nèi)容向量對(duì)應(yīng)傾向標(biāo)簽詞的注意力權(quán)重,根據(jù)注意力權(quán)重更新文本的內(nèi)容向量。
步驟5:根據(jù)更新后的內(nèi)容向量C得出文本的預(yù)測(cè)結(jié)果。
1.2.1 排列語(yǔ)言模型
自回歸語(yǔ)言(Autoregressive Language,AR)[17]模型只能實(shí)現(xiàn)單向的預(yù)測(cè),典型的代表就是生成式預(yù)訓(xùn)練模型(Generative Pre-Train Model,GPT)。自編碼語(yǔ)言(Autoencoder Language,AE)模型雖然實(shí)現(xiàn)了對(duì)文本的雙向預(yù)測(cè),但是其引入的MASK機(jī)制導(dǎo)致模型在預(yù)訓(xùn)練與微調(diào)階段存在不一致的問(wèn)題。針對(duì)以上兩個(gè)問(wèn)題,Yang等[12]在XLNet中引進(jìn)了兩個(gè)新的概念:排列語(yǔ)言模型(Permutation Language Model,PLM)與雙流自注意力機(jī)制(Two-Stream Self-Attention)。
PLM的編碼思想是把自回歸語(yǔ)言模型和自編碼語(yǔ)言模型結(jié)合起來(lái),在中間加入一個(gè)稱之為“排列(Permutation)”的步驟,該步驟使模型能夠?qū)ξ谋具M(jìn)行雙向預(yù)測(cè),具體實(shí)現(xiàn)方法是把文本序列打亂,然后將末尾若干個(gè)詞給遮掩掉。Yang等[12]通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)掩蓋掉的詞數(shù)接近文本的15%時(shí)效果最好,這恰恰對(duì)應(yīng)了BERT的15%掩蓋率。在計(jì)算時(shí),將詞按照打亂后的排列順序,采用自回歸的方式逐個(gè)預(yù)測(cè)。如圖2所示,假設(shè)原序列初始為[1,2,3,4],將該序列打亂后的排序方式為[2,4,3,1]與[4,3,1,2]。圖2(a)中,如果預(yù)測(cè)3,則根據(jù)排列順序在3前面的2和4來(lái)預(yù)測(cè),預(yù)測(cè)3的概率為p(3)=p(2)×p(2|4)×p(3|4,2)。同理預(yù)測(cè)圖2(b)中3的概率為p(3)=p(3|4)。由此可見(jiàn),簡(jiǎn)單的打亂排序方式使得同一序列從同樣的方向預(yù)測(cè)卻同時(shí)考慮到了前文與后文,這樣的處理方式保留了序列的上下文信息,也避免了采用[MASK]標(biāo)記位,解決了以往模型只能單向預(yù)測(cè)的問(wèn)題。PLM的打亂方式不是真正的將文本序列的排序打亂,而是生成一個(gè)掩碼矩陣,如圖3[12]中Attention Masks所示,在Transformer中的Attention計(jì)算時(shí)把不需要的信息掩蓋掉,相當(dāng)于在預(yù)測(cè)時(shí)有意地讓一些詞發(fā)揮作用或不發(fā)揮作用,來(lái)達(dá)到打亂順序的目的。
圖2 不同排列順序的預(yù)測(cè)過(guò)程Fig.2 Prediction process of different order
圖3 雙流自注意力機(jī)制實(shí)現(xiàn)圖[12]Fig.3 Implementation diagram of two-stream self attention[12]
對(duì)于長(zhǎng)度為T(mén)的輸入序列,其排列方式總共有T!種。如輸入長(zhǎng)度為5的序列,那么就會(huì)有5!共120種排列方式,當(dāng)序列過(guò)長(zhǎng)時(shí),就會(huì)導(dǎo)致模型的計(jì)算過(guò)于復(fù)雜。因此Yang等[12]通過(guò)式(1)對(duì)序列的各排列方式進(jìn)行挑選。
(1)
其中,ZT為輸入序列的所有排列方式;T為輸入序列的長(zhǎng)度;z為ZT中的排列方式之一;zt為在t位置上z對(duì)應(yīng)的值;Ez~ZT為對(duì)所有排列方式求期望;
pθ(xzt|XZ 基于式(1)對(duì)序列的所有排列方式求期望,根據(jù)期望值來(lái)選取模型中最優(yōu)的排列序列、去除不合適的排列序列,以降低模型的計(jì)算復(fù)雜度。 1.2.2 雙流自注意力機(jī)制 PLM的計(jì)算過(guò)程存在一個(gè)問(wèn)題,即由于輸入詞的順序被打亂,模型無(wú)法知道所預(yù)測(cè)詞對(duì)應(yīng)原始序列的位置。傳統(tǒng)的注意力機(jī)制把位置信息編碼在Token里,如果用傳統(tǒng)的注意力機(jī)制計(jì)算PLM,則模型就無(wú)法看到被遮掩的詞的位置信息?;诖耍琘ang等[12]提出一種雙流自注意力機(jī)制,將位置信息gθ加入AR模型的目標(biāo)函數(shù)中,如式(2)所示。 pθ(Xzt= (2) 其中,x表示當(dāng)前要預(yù)測(cè)的詞,X表示預(yù)測(cè)詞序列;e(x)T是當(dāng)前輸入的詞向量的轉(zhuǎn)置;gθ(xz “雙流”即Query stream和Content stream。Query stream可以看到當(dāng)前詞的位置信息,不能看到其內(nèi)容信息,而Content stream既可以看到當(dāng)前詞的內(nèi)容信息也可以看到其位置信息?!半p流”的更新公式如(3)和(4)所示。 (3) (4) 其中,g為查詢隱狀態(tài);h為內(nèi)容隱狀態(tài);m為XLNet的層數(shù);Q為查詢向量Query;K為待查向量Key;V為內(nèi)容向量Value。Q、K、V通過(guò)Linear得到其對(duì)應(yīng)的矩陣。完整的雙流自注意力機(jī)制實(shí)現(xiàn)原理如圖3所示。輸入序列是(x1,x2,x3,x4),采樣順序是3→2→4→1。圖3右邊Attention masks為掩碼矩陣,在注意力計(jì)算中有意讓某些值“看不見(jiàn)”,以此來(lái)實(shí)現(xiàn)MASK的目的。如圖3所示,模型從下往上計(jì)算,h初始化為e(xi),g初始化為w,然后根據(jù)掩碼矩陣進(jìn)行Content stream計(jì)算,預(yù)測(cè)x1時(shí)可以看到全部詞的信息,預(yù)測(cè)x2時(shí)只能看到x2、x3的信息,依此類推。 圖4 BiGRU模型網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of BiGRU model zt=σ(Wz·[ht-1,xt]), (5) rt=σ(Wr·[ht-1,xt]), (6) 其中,Wz和Wr為可學(xué)習(xí)矩陣,xt為t時(shí)刻的輸入。 (7) 其中,tanh為激活函數(shù),W為權(quán)重矩陣。由重置門(mén)決定ht-1中有多少信息能留下,再結(jié)合當(dāng)前輸入x計(jì)算出本時(shí)間步的待定集合。當(dāng)前時(shí)間步的狀態(tài)信息計(jì)算公式如下: (8) 由于網(wǎng)絡(luò)采用的是雙向的GRU,XLNet模型的輸出會(huì)從兩個(gè)方向輸入到BiGRU中,所以BiGRU會(huì)有兩個(gè)方向相反的輸出ht。將BiGRU正向的最后時(shí)刻輸出與反向的最初時(shí)刻輸出拼接起來(lái),作為當(dāng)前文本的總結(jié)向量H,利用該總結(jié)向量即可計(jì)算出當(dāng)前文本的傾向標(biāo)簽詞。向量拼接的公式如下: (9) 將當(dāng)前文本的BiGRU輸出值拆分為前向輸出和反向輸出,再將二者相加作為文本的內(nèi)容向量V,輸入注意力層。 結(jié)合標(biāo)簽詞的注意力機(jī)制的目標(biāo)是將標(biāo)簽詞與注意力機(jī)制結(jié)合,選出文本的傾向標(biāo)簽詞,計(jì)算傾向標(biāo)簽詞與文本向量的注意力得分,根據(jù)注意力得分更新文本向量。具體的處理過(guò)程如下。 步驟1根據(jù)BiGRU的總結(jié)向量H挑選出當(dāng)前文本的傾向標(biāo)簽詞,挑選的公式為 label_index=argmax(softmax(Linear(H))), (10) label=lables[label_index], (11) 其中,Linear為全連接層,argmax函數(shù)的作用是返回當(dāng)前集合的最大值下標(biāo),softmax為歸一化函數(shù)。將文本的總結(jié)向量輸入到Linear,得到當(dāng)前文本對(duì)應(yīng)各標(biāo)簽詞的分?jǐn)?shù);再將該分?jǐn)?shù)集輸入到softmax函數(shù)中,得到各標(biāo)簽詞的概率,通過(guò)argmax函數(shù)返回最大概率的標(biāo)簽詞下標(biāo)。式(11)中的labels為標(biāo)簽詞序列,序列長(zhǎng)度為標(biāo)簽詞個(gè)數(shù),如果是五分類任務(wù),那么標(biāo)簽詞個(gè)數(shù)就為5。將式(10)得出的標(biāo)簽詞下標(biāo)索引出其標(biāo)簽詞向量,將該標(biāo)簽詞向量作為當(dāng)前文本的傾向標(biāo)簽詞。 本文采用基于Scaled dot-product attention[8]的注意力機(jī)制,注意力a計(jì)算公式為 (12) 其中,Q為查詢向量,K為待查向量,d為歸一化參數(shù)。 步驟2將當(dāng)前文本的傾向標(biāo)簽詞作為查詢向量Q,將BiGRU層的輸出向量作為待查向量K。將輸入的文本與傾向標(biāo)簽詞進(jìn)行點(diǎn)乘運(yùn)算,計(jì)算出文本向量對(duì)應(yīng)標(biāo)簽詞語(yǔ)義的分值集合,將該分值集合通過(guò)softmax函數(shù)歸一化得到文本向量?jī)?nèi)容的注意力得分,根據(jù)注意力得分更新文本的內(nèi)容向量,更新的公式如下: C=A?V, (13) 其中,A為batch_size的注意力得分矩陣,V為batch_size的內(nèi)容向量,?為矩陣相乘符號(hào),C為經(jīng)過(guò)注意力權(quán)重更新后的內(nèi)容向量。將C輸入至網(wǎng)絡(luò)的下一層進(jìn)一步分類輸出。結(jié)合標(biāo)簽詞的注意力機(jī)制如圖5所示。 圖5 結(jié)合標(biāo)簽詞的注意力機(jī)制Fig.5 Attention mechanism of combined label words 本實(shí)驗(yàn)在PC設(shè)備上進(jìn)行,系統(tǒng)為Windows 10,GPU為RTX 2060 6 G,CPU為2.90 GHz,內(nèi)存為16 GB,硬盤(pán)為500 GB固態(tài)硬盤(pán)。實(shí)驗(yàn)開(kāi)發(fā)平臺(tái)為Pycharm,所用框架為Pytorch。 在英文數(shù)據(jù)集bbc以及IMdb數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。bbc數(shù)據(jù)集總共有2 225條新聞樣本,共分為5個(gè)類別,標(biāo)簽分別為“Business”“Technology”“Politics”“Entertainment”“Sport”,每個(gè)類別各有445條樣本,在每個(gè)類別中挑選245條樣本作為訓(xùn)練集,200條樣本作為測(cè)試集,設(shè)置每條樣本長(zhǎng)度為510。IMdb為二分類的影評(píng)數(shù)據(jù)集,標(biāo)簽為“Positive”和“Negative”。從IMdb數(shù)據(jù)集中隨機(jī)選取5 000條樣本作為訓(xùn)練集,選出1 000條樣本作為測(cè)試集,其中正、負(fù)標(biāo)簽的樣本個(gè)數(shù)相等,設(shè)置每條樣本長(zhǎng)度為510。 本文模型為XLNet+BiGRU+Att (Label),設(shè)置對(duì)比實(shí)驗(yàn)?zāi)P蜑镚love+BiGRU+Att、BERT+BiGRU+Att、XLNet+BiGRU+Att,其中BERT與XLNet均來(lái)自Huggingface。各模型在bbc數(shù)據(jù)集和IMdb數(shù)據(jù)集中的參數(shù)設(shè)置見(jiàn)表1。 表1 模型參數(shù)設(shè)置Table 1 Model parameter settings 采用準(zhǔn)確率作為評(píng)價(jià)指標(biāo),對(duì)比實(shí)驗(yàn)的結(jié)果見(jiàn)表2。由表2可知,與XLNet+BiGRU+Att模型相比,本文模型在bbc數(shù)據(jù)集和IMdb數(shù)據(jù)集上的準(zhǔn)確率分別提高0.7%和2.64%,說(shuō)明結(jié)合標(biāo)簽詞的注意力機(jī)制,能夠根據(jù)標(biāo)簽詞更有目的性地挑選出文本向量中的重要部分,給予重要文本內(nèi)容較高的注意力得分。在bbc數(shù)據(jù)集和IMdb數(shù)據(jù)集上,本文模型的準(zhǔn)確率比BERT+BiGRU+Att模型分別提高1.04%與4.02%,XLNet+BiGRU+Att的準(zhǔn)確率比BERT+BiGRU+Att分別提高0.34%與1.38%,說(shuō)明XLNet作為詞嵌入模型在性能上優(yōu)于BERT。這是由于XLNet中的編碼方式能有效緩解BERT模型存在的缺陷,不僅實(shí)現(xiàn)了對(duì)文本的雙向預(yù)測(cè),還解決了模型在預(yù)訓(xùn)練與下游任務(wù)之間的差異性,因此能產(chǎn)生比BERT更精確的詞向量。各模型的準(zhǔn)確率均比GloVe+BiGRU+Att高,說(shuō)明在文本分類任務(wù)中,動(dòng)態(tài)詞向量比靜態(tài)詞向量擁有更精確的語(yǔ)義表達(dá)。根據(jù)語(yǔ)境的不同生成不同的詞向量表達(dá),將XLNet作為預(yù)訓(xùn)練語(yǔ)言模型更適合文本分類任務(wù)。 表2 各模型在bbc與IMdb數(shù)據(jù)集上的準(zhǔn)確率(%)Table 2 Accuracy of each model on bbc and IMdb dataset (%) 本文提出了一種基于XLNet+BiGRU+Att(Label)的文本分類模型。研究結(jié)果表明,使用XLNet作為詞嵌入模型能夠解決靜態(tài)詞向量存在的問(wèn)題,XLNet利用PLM實(shí)現(xiàn)對(duì)詞序列的雙向預(yù)測(cè),在注意力計(jì)算時(shí)引入雙流機(jī)制實(shí)現(xiàn)位置編碼的嵌入,克服了以往模型只能單向預(yù)測(cè)的缺點(diǎn),因此生成的詞向量也就更精確。將標(biāo)簽詞與注意力機(jī)制結(jié)合起來(lái),能夠更精確地給文本向量分配權(quán)重,突出重點(diǎn)部分,從而提高模型分類的性能。本文的局限在于標(biāo)簽詞融于注意力機(jī)制,對(duì)某些分類任務(wù)不適用,如醫(yī)學(xué)疼痛等級(jí)分類、在線評(píng)論情感分級(jí),在這些分類任務(wù)中標(biāo)簽詞與文本語(yǔ)義沒(méi)有關(guān)聯(lián),發(fā)揮不出本文模型的優(yōu)勢(shì)。下一步工作將繼續(xù)研究在語(yǔ)義層面如何利用標(biāo)簽詞進(jìn)一步提升模型的分類性能。1.3 雙向門(mén)控循環(huán)單元(BiGRU)
1.4 結(jié)合標(biāo)簽詞的注意力機(jī)制
2 實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)環(huán)境
2.2 數(shù)據(jù)集
2.3 參數(shù)設(shè)置
2.4 結(jié)果與分析
3 結(jié)論