国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合BERT 詞嵌入和雙向循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類研究

2022-08-19 05:25李文杰舒宇杰趙旖旎通訊作者
信息記錄材料 2022年6期
關(guān)鍵詞:雙向準(zhǔn)確率卷積

任 鵬,李文杰,舒宇杰,孫 航,趙旖旎(通訊作者)

(1 西南交通大學(xué)希望學(xué)院 四川 成都 610500)

(2 四川大學(xué)外語語言訓(xùn)練中心 四川 成都 610065)

0 引言

在信息高速發(fā)展的今天,隨著各種社交媒體的大量涌現(xiàn),大量繁復(fù)的信息資料產(chǎn)生。在這些信息和社交媒體中充斥著不同種類的新聞,由于網(wǎng)絡(luò)用戶的數(shù)量過于龐大,導(dǎo)致新聞傳播速度過快,一旦有突發(fā)社會(huì)事件產(chǎn)生,輿情擴(kuò)散速度會(huì)非常迅速,如果事件是負(fù)面的,就會(huì)造成巨大的社會(huì)輿情,帶來負(fù)面影響。這些輿情主要以新聞文本為載體,在網(wǎng)絡(luò)中大肆傳播。因此,對(duì)新聞文本的分類工作顯得尤為重要,是相關(guān)部門監(jiān)督信息傳播的基礎(chǔ)。高效且精準(zhǔn)的新聞文本分類識(shí)別可以讓監(jiān)督部門及時(shí)關(guān)注某事件的發(fā)展趨勢(shì),一旦某新聞的報(bào)道頻率出現(xiàn)異常,會(huì)提醒監(jiān)督部門及時(shí)處理熱點(diǎn)事件,避免事件發(fā)酵造成社會(huì)負(fù)面影響。

目前,文本分類是自然語言處理的熱門方向[1],實(shí)用性較強(qiáng)。常用的文本分類方法大致可以分為3 類[2]:基于規(guī)則的分類系統(tǒng)、基于機(jī)器學(xué)習(xí)的分類系統(tǒng)和基于深度學(xué)習(xí)的分類系統(tǒng)?;谝?guī)則的分類系統(tǒng)表達(dá)上等同于決策樹,精度高,但是測(cè)試集小,泛化能力不夠?;跈C(jī)器學(xué)習(xí)的分類系統(tǒng)相比基于規(guī)則的分類系統(tǒng),泛化能力更強(qiáng),但是機(jī)器學(xué)習(xí)需要人工特征,并且訓(xùn)練結(jié)果會(huì)因?yàn)橛?xùn)練集的原因而導(dǎo)致偏差。伴隨著人工智能時(shí)代的到來,深度學(xué)習(xí)已經(jīng)在OPENCV、ASR、NLP 有著廣泛應(yīng)用。深度學(xué)習(xí)不需要進(jìn)行人工特征訓(xùn)練,可以使用更大的訓(xùn)練集,但是對(duì)模型的解釋性較差。考慮到是對(duì)新聞文本進(jìn)行精確分類,對(duì)模型的解釋性沒有太大要求。漢語是世界是使用最廣泛的語言,但是有關(guān)漢語的文本分類卻很少,一方面漢語比英文復(fù)雜,另一方面有關(guān)中文的語料庫太少,這些都是制約中文文本分類發(fā)展的主要原因。因此本文爬取網(wǎng)絡(luò)開源的新聞標(biāo)題文本,并將BERT、TEXTRCNN、BILSTM-CRF 組合來實(shí)現(xiàn)新聞標(biāo)題文本的多元化分類,該模型可以在各個(gè)領(lǐng)域起到重要作用。首先,由于傳統(tǒng)新聞文本分類算法使用RNN 進(jìn)行分類,對(duì)于大量且多元化的新聞文本來說,準(zhǔn)確率并不高,融合BERT、TEXTRCNN、BILSTM-CRF 模型能夠提高分類的準(zhǔn)確率;其次,該模型對(duì)情報(bào)部門進(jìn)行新聞文本的收集與判斷提高效率;最后,針對(duì)大規(guī)模的中文文本分類任務(wù)提供一種更優(yōu)的模型,推進(jìn)中文文本分類方法研究的發(fā)展。

1 結(jié)合BERT詞嵌入和雙向循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的新聞文本分類模型研究應(yīng)用

1.1 用于文本分類的BERT

詞嵌入是一種特殊的分布式詞表示,它是利用神經(jīng)網(wǎng)絡(luò)構(gòu)建的。BERT 詞嵌入算法是2018 年由Google 發(fā)布,BERT[3]是基于transformer 架構(gòu),但與同樣是使用transformer 架構(gòu)的GPT 而言,BERT 使用了多層雙向變換器,這能使其執(zhí)行對(duì)所有層聯(lián)合調(diào)節(jié)左右語境來處理未標(biāo)記的文本。與傳統(tǒng)嵌入方法相比,BERT 算法計(jì)算復(fù)雜度大大降低,精度得到提高。BERT 模型示意圖見圖1。本文利用BERT 模型作為句子編碼器,將新聞文本標(biāo)題使用one-hot 表達(dá)后輸入到經(jīng)過任務(wù)微調(diào)處理的BERT 模型進(jìn)行編碼,其中輸入BERT 中的編碼向量是WordPiece 嵌入、位置嵌入和分割嵌入這3 種特征的單位和[4]。由于新聞文本標(biāo)題詞與詞之間蘊(yùn)含意思豐富,故運(yùn)用大量語料訓(xùn)練的BERT 模型更能表示出詞嵌入的信息。

1.2 TEXTRCNN 模型

詞嵌入技術(shù)與深度學(xué)習(xí)網(wǎng)絡(luò)的快速發(fā)展,也為各種NLP 任務(wù)帶來了新的發(fā)展空間。在詞嵌入的幫助下,一些方法被提出來讀取文本特征,其中RecursiveNN 與RecurrentNN[5]備受關(guān)注。但是由于前者在讀取長(zhǎng)句子或文件的不足以及后者在讀取時(shí),后面的詞比前面的詞更占優(yōu)勢(shì),導(dǎo)致降低模型效果。為了解決以上模型的局限性,本文采用TEXTRCNN 模型以解決新聞文本分類問題。該模型采用雙向遞歸結(jié)構(gòu),與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,會(huì)引進(jìn)更少的噪音,并且在讀取特征時(shí),可以最大程度地捕獲上下文的信息。其中TEXTRCNN 模型使用雙向RNN 層來替代原來的卷積層,這樣會(huì)使整個(gè)模型效率提高,從而有利于對(duì)新聞文本標(biāo)題的分類。該模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見圖2。

1.3 BILSTM-CRF 模型

1.3.1 LSTM 模型

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[6]是專門設(shè)計(jì)用來避免長(zhǎng)期依賴問題的特殊的RNN。LSTM 的關(guān)鍵在于單元狀態(tài),LSTM是通過門的結(jié)構(gòu)來對(duì)單元狀態(tài)信息進(jìn)行增刪操作。一個(gè)LSTM 具有遺忘門、輸入門和輸出門,用以控制和保護(hù)單元狀態(tài)。模型的結(jié)構(gòu)見圖3。

其中3 個(gè)門通過Sigmoid 激活函數(shù)連接,值域被控制在[0,1]的區(qū)間內(nèi)。候選存儲(chǔ)單元由tanh 激活函數(shù)連接,區(qū)間控制在[-1,1]內(nèi)。該模型的計(jì)算步驟如下。

其中,分別代表遺忘門、輸入門、當(dāng)前輸入單元狀態(tài)、當(dāng)前時(shí)刻單元狀態(tài)、輸出門和最終的輸出結(jié)果。

BILSTM[7]是一個(gè)優(yōu)化的LSTM 模型,它結(jié)合了正向LSTM 和反向LSTM 來獲取信息。因此,BILSTM 可以向前和向后處理和整合數(shù)據(jù)。BILSTM 模型結(jié)構(gòu)見圖4。前進(jìn)層和后退層連接到輸出層,輸出層包含6 個(gè)共享權(quán)重。

在前向?qū)又?,從時(shí)間l 到時(shí)間t 進(jìn)行前向計(jì)算,獲得并且保存每個(gè)前向隱藏層的輸出。在后向?qū)又?,通過從時(shí)間t 到時(shí)間L 的反向計(jì)算,同樣獲得且保存每個(gè)時(shí)間段的后向隱藏層的輸出。最后,將前向?qū)雍秃笙驅(qū)釉诿總€(gè)時(shí)間段的輸出結(jié)果相結(jié)合,得到最終輸出。

1.3.3 BILSTM-CRF 模型

BILSTM-CRF[8]模型是在BILSTM 頂層上使用CRF 層進(jìn)行序列標(biāo)注。模型結(jié)構(gòu)見圖5。

首先給定一個(gè)句子,通過嵌入層,句子被表示為一個(gè)向量序列。然后,向量序列被輸入到BILSTM 層中。在BILSTM 層中,對(duì)于每一個(gè)詞t,序列從左到右,前向LSTM 計(jì)算出向量為,而后向LSTM 計(jì)算相同序列的反向表示,那么這個(gè)詞的表示方法為。然后在BILSTM 上的Tanh 層用來預(yù)測(cè)每個(gè)單詞對(duì)應(yīng)各個(gè)標(biāo)簽的分?jǐn)?shù),作為BILSTM 的輸出結(jié)果。

將BILSTM 輸出結(jié)果輸入到CRF[9]層,CRF 層將會(huì)添加到所有可能的標(biāo)簽序列中,并輸出一個(gè)序列中分?jǐn)?shù)最高的作為最終的輸出結(jié)果。此外,CRF 層可以在訓(xùn)練中增強(qiáng)序列的合法約束,降低非法序列的概率。

為了更好提高新聞文本分類的準(zhǔn)確率,本文采用BILSTM-CRF 模型能夠使得大量且多元化的新聞文本標(biāo)題的分類效果更好,提升分類的準(zhǔn)確性。

目前,經(jīng)性傳播已成為我國(guó)艾滋病傳播的主要方式,而家庭內(nèi)配偶間經(jīng)性傳播已成為艾滋病進(jìn)一步蔓延的重要因素之一,我國(guó)2011年估計(jì)的78萬艾滋病患者中經(jīng)異性傳播占46.5%,其中約1/4為配偶間性傳播[1]。因此,了解配偶間人類免疫缺陷病毒(human immunodeficiency virus,HIV)傳播狀況及其相關(guān)影響因素,采取相應(yīng)措施降低配偶間HIV傳播尤為重要,現(xiàn)將相關(guān)研究進(jìn)展綜述如下。

2 實(shí)驗(yàn)

2.1 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)估指標(biāo)

本文所使用的數(shù)據(jù)集是通過小組自行制作的爬蟲腳本從各大開源新聞網(wǎng)站之中爬取獲得,數(shù)量總共10 萬條左右,獲得的數(shù)據(jù)集在分類整理之后,分為8 個(gè)類別,分別為經(jīng)濟(jì)、軍事、教育、科學(xué)、社會(huì)、時(shí)政、體育、娛樂。并且我們將這10 萬條匯總數(shù)據(jù)分為3 個(gè)數(shù)據(jù)集,分別為訓(xùn)練集、測(cè)試集以及對(duì)最終模型進(jìn)行效果檢測(cè)的驗(yàn)證集,3 個(gè)數(shù)據(jù)集的比例是6 ∶2 ∶2,訓(xùn)練集擁有6 萬條數(shù)據(jù),測(cè)試集和驗(yàn)證集分別有兩萬條數(shù)據(jù)。數(shù)據(jù)集的劃分見表1。

表1 數(shù)據(jù)集的劃分

本文采用準(zhǔn)確率、召回率和F1 得分3 項(xiàng)作為此次的評(píng)估指標(biāo)。準(zhǔn)確率會(huì)顯示特征提取之后的效果,并且在后面F1 得分計(jì)算之中也會(huì)應(yīng)用。準(zhǔn)確率的公式如下:

召回率和準(zhǔn)確率一樣,在計(jì)算F1得分的時(shí)候需要使用。召回率的公式如下:

F1 得分能夠?qū)δP头诸悳?zhǔn)確性提供一個(gè)數(shù)字化的結(jié)果,以便于人們對(duì)于模型分類的準(zhǔn)確性有一個(gè)把握,以下是F1 得分的公式:

2.2 實(shí)驗(yàn)環(huán)境和模型參數(shù)設(shè)置

本文實(shí)驗(yàn)基于PyTorch 框架上,用到的軟件是pycharm 專業(yè)版,使用的GPU 是云服務(wù)器RTX3090。本文對(duì)整個(gè)模型的參數(shù)設(shè)置見表2。

表2 參數(shù)設(shè)置

2.3 實(shí)驗(yàn)結(jié)果分析

為了檢測(cè)Bert-BRNNText 的效果和運(yùn)行情況,本文引入了幾個(gè)經(jīng)典的文本分類模型,即TextCNN、TextRNN、DPCNN 和FastText 4 個(gè)模型。同時(shí),我們也引入了僅僅使用RNN 的Bert 詞嵌入模型。隨后將已經(jīng)分類完成的數(shù)據(jù)集導(dǎo)入到5 個(gè)模型之中進(jìn)行對(duì)比訓(xùn)練,以此測(cè)試本文模型效果。

首先將訓(xùn)練集分別導(dǎo)入到6 個(gè)模型之中,隨后將測(cè)試集分3 次引入到已經(jīng)完成訓(xùn)練的6 個(gè)模型之中。第1 次引入的結(jié)果見表3。

表3 第1 次測(cè)試結(jié)果

從第1 次的結(jié)果能夠清晰地看出,相比于傳統(tǒng)的分類模型,加入了Bert 詞嵌入的RNN 模型,無論是在準(zhǔn)確率上還是召回率上都更高,而在最終的F1 得分上更是達(dá)到了0.93,比TextCNN 模型高出了0.4 左右,而對(duì)比其他模型也有不小的差距。故Bert 詞嵌入對(duì)于文本分類有重要影響,而本文所設(shè)計(jì)的模型運(yùn)用的雙向循環(huán)卷積則進(jìn)一步提升了文本分類的效果。為了驗(yàn)證雙向循環(huán)卷積模型的高效性,再次進(jìn)行了兩次測(cè)試。表4、表5 是后兩次測(cè)試結(jié)果。

表4 第2 次測(cè)試結(jié)果

表5 第3 次測(cè)試結(jié)果

3 次測(cè)試結(jié)果之中,本文所使用模型的準(zhǔn)確率和召回率以及F1 得分都達(dá)到了0.95 以上,相比于只使用RNN 的詞嵌入模型來說,雙向循環(huán)卷積模型能夠有效提高文本分類的效率以及精準(zhǔn)度。

為了檢測(cè)BRNN 的分類效率,這里對(duì)比了Bert_RNN 以及Bert_CNN 的收斂速度。收斂速度見表6。

表6 收斂時(shí)間對(duì)比

由表6 可知,雙向循環(huán)卷積模型的收斂時(shí)間和正常的Bert 詞嵌入模型并沒有太大的差距,但相比于正常的模型來說,雙循環(huán)卷積模型大大提升了精準(zhǔn)度,由此看出雙向循環(huán)卷積模型的優(yōu)勢(shì)。

3 結(jié)語

本文使用了TextCNN、TextRNN、FastText 等方法對(duì)我們所獲取的新聞文本進(jìn)行分類訓(xùn)練,得到了不同的實(shí)驗(yàn)數(shù)據(jù)。其中,利用BERT 詞嵌入和雙向循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法得到的模型為最優(yōu)模型。模型使用BERT 詞嵌入將詞轉(zhuǎn)化為變量來表示,TextRCNN 獲取上下文本特征,BILSTM-CRF 在基礎(chǔ)的BILSTM 模型上添加了CRF 層,使得在捕捉上下文關(guān)系時(shí)更加準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明,結(jié)合BERT 詞嵌入和雙向循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型具有較高的效率和準(zhǔn)確率,其準(zhǔn)確率可以達(dá)到0.9551,驗(yàn)證了模型的有效性。該模型有效解決了在處理大量且多元化的中文文本分類問題中準(zhǔn)確率不佳的問題。在實(shí)際應(yīng)用中,能夠?yàn)橛嘘P(guān)部門實(shí)現(xiàn)準(zhǔn)確識(shí)別新聞?lì)悇e并維護(hù)網(wǎng)絡(luò)新聞環(huán)境提供理論依據(jù)。

猜你喜歡
雙向準(zhǔn)確率卷積
雙向度的成長(zhǎng)與自我實(shí)現(xiàn)
基于雙向GRU與殘差擬合的車輛跟馳建模
降低寄遞成本需雙向發(fā)力
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
從濾波器理解卷積
汉阴县| 陆良县| 山丹县| 康乐县| 屏山县| 涟水县| 汉寿县| 那曲县| 阳城县| 平江县| 余庆县| 鸡泽县| 巢湖市| 井冈山市| 思茅市| 名山县| 息烽县| 贵港市| 舞阳县| 德兴市| 蚌埠市| 黔西| 犍为县| 新野县| 尚志市| 新和县| 浦县| 通河县| 沾益县| 铁岭县| 榕江县| 娱乐| 金门县| 玉门市| 霍山县| 社旗县| 十堰市| 微山县| 金门县| 张家口市| 兴安盟|