国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的中文文本分類算法*

2022-02-16 08:34:00薛興榮靳其兵
關(guān)鍵詞:準(zhǔn)確度語料全局

薛興榮 靳其兵

(北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院 北京 100029)

1 引言

文本情感識(shí)別也稱為情感分析、意圖挖掘[3],它是根據(jù)文本所表達(dá)的含義和情感信息將文本分為積極、消極的兩種或多種類型,它是特殊的文本分類問題[4]。通過分析和研究這些數(shù)據(jù),挖掘出潛在的信息,以此來分析網(wǎng)民對(duì)社會(huì)熱點(diǎn)話題的關(guān)注度和情感傾,從而為相關(guān)部門的政策制定提供支持以及正確引導(dǎo)網(wǎng)民的情緒傳播[5~11]。

2 方法

本文提出了一種混合深度神經(jīng)網(wǎng)絡(luò)文本分類模型TBLC-rAttention,如圖1 所示。模型由七個(gè)部分組成:1)輸入層:獲取文本數(shù)據(jù);2)預(yù)處理層:分詞并去除無關(guān)數(shù)據(jù);3)詞嵌入層:把文本數(shù)據(jù)映射為詞向量;4)Bi-LSTM 層:提取文本數(shù)據(jù)的上下文語義特征;5)Attention 機(jī)制層:生成含有注意力概率分布的加權(quán)全局語義特征;6)CNN 層:在加權(quán)全局語義特征的基礎(chǔ)上進(jìn)行局部語義特征提?。?)輸出層:實(shí)現(xiàn)文本分類。

圖1 TBLC-rAttention文本分類模型

2.1 預(yù)處理層

對(duì)文本數(shù)據(jù)按照以下方式進(jìn)行預(yù)處理操作。

1)數(shù)據(jù)清,刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù)以及處理異常和缺失數(shù)據(jù);

2)進(jìn)行類別標(biāo)簽標(biāo)注;

3)使用jieba 進(jìn)行分詞和去停用詞,在分詞的過程中可以使用一些領(lǐng)域?qū)倜~以提高分詞的準(zhǔn)確度;

4)將預(yù)處理完成的文本數(shù)據(jù)分為訓(xùn)練集、測試集和驗(yàn)證集。

2.2 詞嵌入層

詞嵌入是把文本數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別和處理的過程[12],如圖2所示。

在這樣的故事情節(jié)之中,小說的創(chuàng)作還體現(xiàn)出如下的特點(diǎn):首先,小說具有歐·亨利特有的結(jié)尾方式。即,故事的結(jié)局既在人的預(yù)料之中又出乎人的意料。因而,它體現(xiàn)出了故事獨(dú)有的幽默,體現(xiàn)出了小說主題特有的諷刺。其次,小說語言與眾不同。在小說各種語言描寫中,作者不僅通過巧妙的修辭增強(qiáng)了文學(xué)語言的意蘊(yùn)性,還且通過對(duì)時(shí)弊的針砭產(chǎn)生了“含淚的微笑”。

圖2 文本數(shù)據(jù)向量化表示

通過詞嵌入矩陣Ew的映射,把按批次讀入帶有標(biāo)簽的文本數(shù)據(jù)映射為一個(gè)三維詞向量矩陣M,Ew可以通過Word2Vec 等方法得到。此時(shí),一個(gè)包含n 個(gè)字的文本Dj=(x1,x2,…,xn)可以表示如下:

其中,M∈Rbatch×n×d,Ew∈Rvw×d,batch為每一批次讀入的文本數(shù)據(jù)條數(shù),vw為字典大小,d 為詞向量維度,每個(gè)字在Ew中都有一個(gè)唯一的用于檢索其對(duì)應(yīng)詞向量的索引bxi。

2.3 Bi-LSTM 層

2.4 Attention機(jī)制層

在Bi-LSTM 網(wǎng)絡(luò)之后引入注意力機(jī)制[14~16],對(duì)重要的信息給予較多的關(guān)注,模型如圖3所示。

圖3 多注意力機(jī)制

其中,V∈Rbatch×r*n×2d為加權(quán)全局語義特征,a∈Rbatch×r*n×2d為注意力概率分布,r 為每個(gè)文本的Attention 方案數(shù),Wa1∈Rd×n是全局注意力權(quán)重矩陣,ba為全局注意力偏置矩陣,wa2∈Rr*n×d為每個(gè)文本不同的Attention 方案矩陣,m 值越大說明了該時(shí)刻的全局語義特征越重要。

得到每一時(shí)刻的ai后,將它們分別和該時(shí)刻對(duì)應(yīng)的hi相乘,得到第i 時(shí)刻的加權(quán)全局語義特征Vi。

2.5 CNN層

把V作為CNN的[17~18]輸入進(jìn)行局部特征提取,如圖4 所示。每一次卷積都通過一個(gè)固定大小的窗口來產(chǎn)生一個(gè)新的特征,經(jīng)過卷積后得到第j個(gè)文本包含局部和全局語義特征的Cj,接著采用最大池化方法得到每個(gè)文本的最終特征表示C。

圖4 CNN模型

其中,C ∈Rbatch×2d,Cj∈R(r*n-h+1)×2d,Wvi∈R2d×h為卷積核向量,h 和2d 分別為卷積核窗口的高和寬,Vi:h表示第i行到第h 行的加權(quán)全局語義特征值,bvi表示偏置。

2.6 輸出層

把C 作為分類層的輸入,分類層采用dropout方式將最佳特征Cd連接到Softmax 分類器中,并計(jì)算輸出向量p(y):

其中,p(y)∈Rbatch×classes,Wc和bc分別表示分類器的權(quán)重參數(shù)和偏置項(xiàng),classes表示文本的類別數(shù),Cd為C通過dropout產(chǎn)生的最佳特征。

分類器用于計(jì)算出每個(gè)文本屬于每一類別的概率向量p(y),然后選擇最大概率y對(duì)應(yīng)的類型作為文本分類的預(yù)測輸出,通過分類器層之后,整個(gè)模型就實(shí)現(xiàn)對(duì)文本的分類任務(wù)。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)語料

語料數(shù)據(jù)是利用爬蟲技術(shù)爬取某電商平臺(tái)上一種感冒藥銷售的評(píng)論數(shù)據(jù),語料的一些基本信息如表1、圖5和圖6所示。

圖5 語料句子長度分布

圖6 語料詞云圖

表1 語料數(shù)據(jù)信息

3.2 實(shí)驗(yàn)設(shè)置

具體實(shí)驗(yàn)設(shè)置如表2和表3所示。

表2 實(shí)驗(yàn)環(huán)境

表3 實(shí)驗(yàn)參數(shù)設(shè)置

3.3 模型訓(xùn)練

其中,θ為模型當(dāng)前參數(shù),α為學(xué)習(xí)率,N 為訓(xùn)練樣本大小,D 是訓(xùn)練樣本,L是樣本D 對(duì)應(yīng)的真實(shí)類別標(biāo)簽,Li∈L,y 為分類器的預(yù)測分類結(jié)果,p(Lj)表示正確分類結(jié)果,λ是L2正則項(xiàng)系數(shù)。

3.4 評(píng)價(jià)指標(biāo)

其中,TP 為真正率,TN 為真負(fù)率,F(xiàn)P 為假正率,F(xiàn)N為假負(fù)率。

4 結(jié)果與討論

模型訓(xùn)練過程的準(zhǔn)確度和損失值變化如圖7所示,為了比較本文提出的模型性能,選取了CNN、LSTM、Bi-LSTM、BiLSTM+Attention、RCNN 5 種模型作為比較基準(zhǔn),比較結(jié)果如表4 所示,所有結(jié)果都是在訓(xùn)練的準(zhǔn)確度和測試準(zhǔn)確度都不再變化再循環(huán)1000次后得到的結(jié)果。

圖7 訓(xùn)練過程中個(gè)模型的準(zhǔn)確度和損失值變化

表4 各文本分類模型分類效果對(duì)比

在表4 中,通過LSTM 和Bi-LSTM 的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),雖然Bi-LSTM 花費(fèi)的時(shí)間比LSTM 多,但是準(zhǔn)確度提高了約3%,這是由于Bi-LSTM 網(wǎng)絡(luò)通過正向和反向兩層網(wǎng)絡(luò)結(jié)構(gòu)來擴(kuò)展單向的LSTM 網(wǎng)絡(luò)的結(jié)果,這樣的網(wǎng)絡(luò)結(jié)構(gòu)可以充分提取文本的上下文信息,但是空間復(fù)雜度是LSTM 的2倍,所以花費(fèi)的時(shí)間比LSTM 略長;在Bi-LSTM 模型中引入Attention 機(jī)制準(zhǔn)確度提高了4%左右,說明Attention 機(jī)制的確可以有效識(shí)別出對(duì)分類影響較大的特征信息;只使用CNN 時(shí),雖然準(zhǔn)確率不是最好的但大大的節(jié)省了訓(xùn)練時(shí)間;RCNN 汲取了RNN 和CNN 各自的優(yōu)勢,分類效果比單獨(dú)使用RNN、CNN 都好,與BiLSTM+Attention 效果相近;本文提出的模型分類準(zhǔn)確率達(dá)到了99%,在本次實(shí)驗(yàn)的所有模型中分類準(zhǔn)確度最高,模型在驗(yàn)證時(shí)以100%的準(zhǔn)確率實(shí)現(xiàn)了數(shù)據(jù)分類,值得注意的是當(dāng)消費(fèi)者沒有進(jìn)行評(píng)論,電商系統(tǒng)會(huì)默認(rèn)為好評(píng),但模型將這類數(shù)據(jù)視為中評(píng)。

5 結(jié)語

本文提出了一種基于混合深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情識(shí)別方法,該方法先提取文本數(shù)據(jù)的上下文語義特征,再提取局部語義特征得到最終的特征表示,并通過實(shí)驗(yàn)驗(yàn)證了本文提出模型的有效性。未來的工作是如何對(duì)語料數(shù)據(jù)進(jìn)行更好的預(yù)處理操作,例如進(jìn)一步減少噪聲數(shù)據(jù)、更好地進(jìn)行精準(zhǔn)分詞等;同時(shí),研究其他算法和模型,并進(jìn)行有效的融合和改進(jìn),進(jìn)一步提高分類的準(zhǔn)確度。

猜你喜歡
準(zhǔn)確度語料全局
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
落子山東,意在全局
金橋(2018年4期)2018-09-26 02:24:54
幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
建筑科技(2018年6期)2018-08-30 03:40:54
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
動(dòng)態(tài)汽車衡準(zhǔn)確度等級(jí)的現(xiàn)實(shí)意義
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
新思路:牽一發(fā)動(dòng)全局
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
姜堰市| 吴桥县| 宣恩县| 长岛县| 霍州市| 西林县| 伊春市| 精河县| 方城县| 内丘县| 郓城县| 大悟县| 红河县| 浦江县| 绥宁县| 开封县| 东方市| 广东省| 贵德县| 千阳县| 芒康县| 嘉峪关市| 永清县| 依安县| 吉安县| 桦川县| 西乌| 和平区| 永仁县| 乐陵市| 时尚| 寿光市| 襄汾县| 永顺县| 石林| 岳阳县| 桑日县| 保亭| 通海县| 六盘水市| 麻阳|