基于深度學(xué)習(xí)的中文文本分類算法*

2022-02-16 08:34:00薛興榮靳其兵

計(jì)算機(jī)與數(shù)字工程 2022年1期

薛興榮靳其兵

（北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院北京 100029）

1 引言

文本情感識(shí)別也稱為情感分析、意圖挖掘［3］，它是根據(jù)文本所表達(dá)的含義和情感信息將文本分為積極、消極的兩種或多種類型，它是特殊的文本分類問題［4］。通過分析和研究這些數(shù)據(jù)，挖掘出潛在的信息，以此來分析網(wǎng)民對(duì)社會(huì)熱點(diǎn)話題的關(guān)注度和情感傾，從而為相關(guān)部門的政策制定提供支持以及正確引導(dǎo)網(wǎng)民的情緒傳播［5～11］。

2 方法

本文提出了一種混合深度神經(jīng)網(wǎng)絡(luò)文本分類模型TBLC-rAttention，如圖1 所示。模型由七個(gè)部分組成：1）輸入層：獲取文本數(shù)據(jù)；2）預(yù)處理層：分詞并去除無關(guān)數(shù)據(jù)；3）詞嵌入層：把文本數(shù)據(jù)映射為詞向量；4）Bi-LSTM 層：提取文本數(shù)據(jù)的上下文語義特征；5）Attention 機(jī)制層：生成含有注意力概率分布的加權(quán)全局語義特征；6）CNN 層：在加權(quán)全局語義特征的基礎(chǔ)上進(jìn)行局部語義特征提?。?）輸出層：實(shí)現(xiàn)文本分類。

圖1 TBLC-rAttention文本分類模型

2.1 預(yù)處理層

對(duì)文本數(shù)據(jù)按照以下方式進(jìn)行預(yù)處理操作。

1）數(shù)據(jù)清，刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)以及處理異常和缺失數(shù)據(jù)；

2）進(jìn)行類別標(biāo)簽標(biāo)注；

3）使用jieba 進(jìn)行分詞和去停用詞，在分詞的過程中可以使用一些領(lǐng)域?qū)倜~以提高分詞的準(zhǔn)確度；

4）將預(yù)處理完成的文本數(shù)據(jù)分為訓(xùn)練集、測試集和驗(yàn)證集。

2.2 詞嵌入層

詞嵌入是把文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別和處理的過程［12］，如圖2所示。

在這樣的故事情節(jié)之中，小說的創(chuàng)作還體現(xiàn)出如下的特點(diǎn)：首先，小說具有歐·亨利特有的結(jié)尾方式。即，故事的結(jié)局既在人的預(yù)料之中又出乎人的意料。因而，它體現(xiàn)出了故事獨(dú)有的幽默，體現(xiàn)出了小說主題特有的諷刺。其次，小說語言與眾不同。在小說各種語言描寫中，作者不僅通過巧妙的修辭增強(qiáng)了文學(xué)語言的意蘊(yùn)性，還且通過對(duì)時(shí)弊的針砭產(chǎn)生了“含淚的微笑”。

圖2 文本數(shù)據(jù)向量化表示

通過詞嵌入矩陣Ew的映射，把按批次讀入帶有標(biāo)簽的文本數(shù)據(jù)映射為一個(gè)三維詞向量矩陣M，Ew可以通過Word2Vec 等方法得到。此時(shí)，一個(gè)包含n 個(gè)字的文本Dj=（x1，x2，…，xn）可以表示如下：

其中，M∈Rbatch×n×d，Ew∈Rvw×d，batch為每一批次讀入的文本數(shù)據(jù)條數(shù)，vw為字典大小，d 為詞向量維度，每個(gè)字在Ew中都有一個(gè)唯一的用于檢索其對(duì)應(yīng)詞向量的索引bxi。

2.3 Bi-LSTM 層

2.4 Attention機(jī)制層

在Bi-LSTM 網(wǎng)絡(luò)之后引入注意力機(jī)制［14～16］，對(duì)重要的信息給予較多的關(guān)注，模型如圖3所示。

圖3 多注意力機(jī)制

其中，V∈Rbatch×r*n×2d為加權(quán)全局語義特征，a∈Rbatch×r*n×2d為注意力概率分布，r 為每個(gè)文本的Attention 方案數(shù)，Wa1∈Rd×n是全局注意力權(quán)重矩陣，ba為全局注意力偏置矩陣，wa2∈Rr*n×d為每個(gè)文本不同的Attention 方案矩陣，m 值越大說明了該時(shí)刻的全局語義特征越重要。

得到每一時(shí)刻的ai后，將它們分別和該時(shí)刻對(duì)應(yīng)的hi相乘，得到第i 時(shí)刻的加權(quán)全局語義特征Vi。

2.5 CNN層

把V作為CNN的［17～18］輸入進(jìn)行局部特征提取，如圖4 所示。每一次卷積都通過一個(gè)固定大小的窗口來產(chǎn)生一個(gè)新的特征，經(jīng)過卷積后得到第j個(gè)文本包含局部和全局語義特征的Cj，接著采用最大池化方法得到每個(gè)文本的最終特征表示C。

圖4 CNN模型

其中，C ∈Rbatch×2d，Cj∈R(r*n-h+1)×2d，Wvi∈R2d×h為卷積核向量，h 和2d 分別為卷積核窗口的高和寬，Vi:h表示第i行到第h 行的加權(quán)全局語義特征值，bvi表示偏置。

2.6 輸出層

把C 作為分類層的輸入，分類層采用dropout方式將最佳特征Cd連接到Softmax 分類器中，并計(jì)算輸出向量p(y)：

其中，p(y)∈Rbatch×classes，Wc和bc分別表示分類器的權(quán)重參數(shù)和偏置項(xiàng)，classes表示文本的類別數(shù)，Cd為C通過dropout產(chǎn)生的最佳特征。

分類器用于計(jì)算出每個(gè)文本屬于每一類別的概率向量p(y)，然后選擇最大概率y對(duì)應(yīng)的類型作為文本分類的預(yù)測輸出，通過分類器層之后，整個(gè)模型就實(shí)現(xiàn)對(duì)文本的分類任務(wù)。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)語料

語料數(shù)據(jù)是利用爬蟲技術(shù)爬取某電商平臺(tái)上一種感冒藥銷售的評(píng)論數(shù)據(jù)，語料的一些基本信息如表1、圖5和圖6所示。

圖5 語料句子長度分布

圖6 語料詞云圖

表1 語料數(shù)據(jù)信息

3.2 實(shí)驗(yàn)設(shè)置

具體實(shí)驗(yàn)設(shè)置如表2和表3所示。

表2 實(shí)驗(yàn)環(huán)境

表3 實(shí)驗(yàn)參數(shù)設(shè)置

3.3 模型訓(xùn)練

其中，θ為模型當(dāng)前參數(shù)，α為學(xué)習(xí)率，N 為訓(xùn)練樣本大小，D 是訓(xùn)練樣本，L是樣本D 對(duì)應(yīng)的真實(shí)類別標(biāo)簽，Li∈L，y 為分類器的預(yù)測分類結(jié)果，p(Lj)表示正確分類結(jié)果，λ是L2正則項(xiàng)系數(shù)。

3.4 評(píng)價(jià)指標(biāo)

其中，TP 為真正率，TN 為真負(fù)率，F(xiàn)P 為假正率，F(xiàn)N為假負(fù)率。

4 結(jié)果與討論

模型訓(xùn)練過程的準(zhǔn)確度和損失值變化如圖7所示，為了比較本文提出的模型性能，選取了CNN、LSTM、Bi-LSTM、BiLSTM+Attention、RCNN 5 種模型作為比較基準(zhǔn)，比較結(jié)果如表4 所示，所有結(jié)果都是在訓(xùn)練的準(zhǔn)確度和測試準(zhǔn)確度都不再變化再循環(huán)1000次后得到的結(jié)果。

圖7 訓(xùn)練過程中個(gè)模型的準(zhǔn)確度和損失值變化

表4 各文本分類模型分類效果對(duì)比

在表4 中，通過LSTM 和Bi-LSTM 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，雖然Bi-LSTM 花費(fèi)的時(shí)間比LSTM 多，但是準(zhǔn)確度提高了約3%，這是由于Bi-LSTM 網(wǎng)絡(luò)通過正向和反向兩層網(wǎng)絡(luò)結(jié)構(gòu)來擴(kuò)展單向的LSTM 網(wǎng)絡(luò)的結(jié)果，這樣的網(wǎng)絡(luò)結(jié)構(gòu)可以充分提取文本的上下文信息，但是空間復(fù)雜度是LSTM 的2倍，所以花費(fèi)的時(shí)間比LSTM 略長；在Bi-LSTM 模型中引入Attention 機(jī)制準(zhǔn)確度提高了4%左右，說明Attention 機(jī)制的確可以有效識(shí)別出對(duì)分類影響較大的特征信息；只使用CNN 時(shí)，雖然準(zhǔn)確率不是最好的但大大的節(jié)省了訓(xùn)練時(shí)間；RCNN 汲取了RNN 和CNN 各自的優(yōu)勢，分類效果比單獨(dú)使用RNN、CNN 都好，與BiLSTM+Attention 效果相近；本文提出的模型分類準(zhǔn)確率達(dá)到了99%，在本次實(shí)驗(yàn)的所有模型中分類準(zhǔn)確度最高，模型在驗(yàn)證時(shí)以100%的準(zhǔn)確率實(shí)現(xiàn)了數(shù)據(jù)分類，值得注意的是當(dāng)消費(fèi)者沒有進(jìn)行評(píng)論，電商系統(tǒng)會(huì)默認(rèn)為好評(píng)，但模型將這類數(shù)據(jù)視為中評(píng)。

5 結(jié)語

本文提出了一種基于混合深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情識(shí)別方法，該方法先提取文本數(shù)據(jù)的上下文語義特征，再提取局部語義特征得到最終的特征表示，并通過實(shí)驗(yàn)驗(yàn)證了本文提出模型的有效性。未來的工作是如何對(duì)語料數(shù)據(jù)進(jìn)行更好的預(yù)處理操作，例如進(jìn)一步減少噪聲數(shù)據(jù)、更好地進(jìn)行精準(zhǔn)分詞等；同時(shí)，研究其他算法和模型，并進(jìn)行有效的融合和改進(jìn)，進(jìn)一步提高分類的準(zhǔn)確度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡