卷積神經(jīng)網(wǎng)絡(luò)在微博反諷語句識別中的應(yīng)用

2021-07-20 08:54霍瑞雪白曉雷

中國新通信 2021年9期

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)

霍瑞雪白曉雷

【摘要】 ? ?隨著互聯(lián)網(wǎng)信息發(fā)布平臺日益增多，網(wǎng)民發(fā)表情感的方式也逐漸多元化，其中反諷這一特殊修辭手法得到了廣泛使用，對其的識別也變得日益迫切。為了更好的識別微博語料中的反諷語句，研究了一種改進(jìn)后卷積神經(jīng)網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的一個(gè)重要組成部分，應(yīng)用范圍極其廣泛，也是目前人工智能領(lǐng)域的研究重點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)憑借著特征自主學(xué)習(xí)的優(yōu)勢在自然語言處理方面有著出色的表現(xiàn)。通過實(shí)驗(yàn)，利用特征與詞向量雙輸入的卷積神經(jīng)網(wǎng)絡(luò)模型對反諷識別準(zhǔn)確率有了明顯提升。

【關(guān)鍵詞】 ? ?卷積神經(jīng)網(wǎng)絡(luò) ? ?機(jī)器學(xué)習(xí) ? ?反諷識別

引言：

隨著互聯(lián)網(wǎng)信息發(fā)布平臺的逐漸增加，網(wǎng)民的發(fā)布內(nèi)容也變得多樣化。其中反諷作為一種特殊的表達(dá)方式，也占有相當(dāng)大的比例。反諷通常是以一種正面的文字表達(dá)不屑、嘲笑等反面的信息內(nèi)容，為微博平臺自身管理帶來了一定的挑戰(zhàn)。本文基于卷積神經(jīng)網(wǎng)絡(luò)模型對反諷語句的識別展開研究，為微博等互聯(lián)網(wǎng)信息發(fā)布平臺開展內(nèi)容審核提供一種新的思路。

一、技術(shù)研究路線概述

本文的主要技術(shù)路線如圖1所示，首先是對實(shí)驗(yàn)數(shù)據(jù)的收集。該部分主要是對微博的數(shù)據(jù)進(jìn)行爬取，過濾，清洗、標(biāo)注形成初步的實(shí)驗(yàn)數(shù)據(jù)集。

其次對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行特征提取。特征主要包含兩方面，一是通過人工提取的方式，找到反諷語句共通的特征。例如：很好又要加班了，該句中的“很好……又”，就可以作為一種特征。二是通過卷積神經(jīng)網(wǎng)絡(luò)模型中獨(dú)特的卷積層和池化層，自主提取特征。

然后使用詞向量與特征共同融入至卷積神經(jīng)網(wǎng)絡(luò)模型。實(shí)現(xiàn)反諷特征、詞向量的雙輸入，提高卷積神經(jīng)網(wǎng)絡(luò)反諷識別的準(zhǔn)確性。

最后將經(jīng)過改善的卷積神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)機(jī)器模型進(jìn)行對比，并通過人工方式驗(yàn)證識別效果，并持續(xù)對模型進(jìn)行優(yōu)化，持續(xù)提高模型的反諷文本識別準(zhǔn)確率。

二、數(shù)據(jù)集建立與特征選擇

2.1 實(shí)驗(yàn)數(shù)據(jù)集建立

為了更好的進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練，提高準(zhǔn)確性，本研究明確了采用監(jiān)督學(xué)習(xí)的方式。監(jiān)督學(xué)習(xí)需要對訓(xùn)練樣本進(jìn)行標(biāo)注，反諷的標(biāo)注過程，主要是將反諷看做二分類，若為反諷則標(biāo)注為1，否則標(biāo)注為0。在標(biāo)注的同時(shí)對不符合要求的數(shù)據(jù)進(jìn)行清洗、擴(kuò)充、去噪等處理。另外為了保證標(biāo)注結(jié)果的準(zhǔn)確性，減少人工判定的偏差。在標(biāo)注完成后，又采用交叉檢驗(yàn)的方式，最終得到標(biāo)注后的反諷語句共2888條，為了防止實(shí)驗(yàn)數(shù)據(jù)集類別傾斜，影響分類的性能，需要把數(shù)據(jù)類別平衡化，又從非反諷中任意抽取了2888條語料，使得中文反諷數(shù)據(jù)集最終由反諷與非反諷各2888條語料，共5776條語料構(gòu)成了反諷平衡語料庫。

2.2 特征選擇

反諷語言特征的選擇好壞與最終識別結(jié)果有著緊密的聯(lián)系，為了提取最佳的語言特征，本研究利用在文本檢測方面有著較大優(yōu)勢的卡方統(tǒng)計(jì)法。卡方統(tǒng)計(jì)法首先假設(shè)特征和類別之間是相互獨(dú)立的，主要通過計(jì)算偏差來判斷相關(guān)性。當(dāng)卡方值較小時(shí)，說明二者相關(guān)性不大;當(dāng)卡方統(tǒng)計(jì)值較大時(shí)，說明選取的特征和類別相關(guān)性較高，可以作為該類別的特征。

反諷特征詞匯的選擇：

通過計(jì)算卡方值，人工提取了緊密度較高的反諷詞匯，如絕了、果然、就這、極好、不愧、牛逼、真有你的、你敢信、真是高啊等。

三、融合反諷特征的卷積神經(jīng)網(wǎng)絡(luò)

3.1 詞嵌入向量

詞向量技術(shù)是將自然語言中的詞語轉(zhuǎn)化為稠密的向量，相似的詞會有相似的向量表示，這樣的轉(zhuǎn)化方便挖掘文字中詞語和句子之間的特征。生成詞向量的方法從一開始基于統(tǒng)計(jì)學(xué)的方法到基于不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)的語言模型方法。到現(xiàn)在為止已經(jīng)有很多成熟的詞向量模型，本研究中采用的是TF-IDF模型來進(jìn)行詞向量的訓(xùn)練。

TF-IDF模型是一種統(tǒng)計(jì)方法，用來衡量字詞對于文本的重要程度。字詞的重要性隨著它在當(dāng)前文本中出現(xiàn)的頻率成正比，隨著它在語料庫中其他文本中出現(xiàn)的頻率成反比，因此TD-IDF也經(jīng)常被用來提取文本的特征。該模型的計(jì)算公式如下：

在實(shí)驗(yàn)中只要設(shè)置合適語料，就可以訓(xùn)練出高質(zhì)量的詞向量。

3.2 融合反諷特征與詞向量技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)模型

為了更好的提高反諷的識別精度，本研究采用詞向量與反諷特征雙輸入的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。具體流程：首先輸入語料，使用特征對語料進(jìn)行擴(kuò)展，再統(tǒng)一進(jìn)行分詞。之后使用詞向量模型對擴(kuò)展分詞后的進(jìn)行使用詞向量對融合特征的句子形成矩陣。最后將矩陣輸入至卷積神經(jīng)網(wǎng)絡(luò)模型，經(jīng)過卷積層、池化層自動(dòng)提取特征向量，并在全連接層進(jìn)行擬合，最后在輸出層分類器sigmoid分類器進(jìn)行輸出。

3.2.1輸入層

由于我們要進(jìn)行識別的是反諷語句，要想使用卷積層、池化層進(jìn)行特征的進(jìn)一步提取就需要把語句轉(zhuǎn)化為矩陣的形式。我們實(shí)驗(yàn)集的語句經(jīng)過詞向量的訓(xùn)練后，已經(jīng)形成矩陣。

首先使用分詞工具對句子進(jìn)行分詞，假設(shè)一個(gè)句子為“醉了，當(dāng)著這么多人也不臉紅，是真夠厲害的”使用分詞工具進(jìn)行分詞后得到的為“醉了，當(dāng)著這么多人也不臉紅，是真夠厲害的”。

3.2.2卷積層

卷積層的作用主要是用于特征的提取。和之前的人工特征提取不同，此處的特征提取是模型隨著訓(xùn)練次數(shù)的增多自主提取的?？紤]到本課題是對文本的識別，卷積神經(jīng)網(wǎng)絡(luò)的過濾器只能在矩陣的列上移動(dòng)才能正確的識別出特征。

3.3 具體實(shí)驗(yàn)過程與結(jié)果分析

為了進(jìn)一步驗(yàn)證融合特征與詞向量的卷積神經(jīng)網(wǎng)絡(luò)在反諷識別上的優(yōu)勢，采用keras 深度學(xué)習(xí)的框架，在GT740顯卡上展開了實(shí)驗(yàn)。

3.3.1評價(jià)指標(biāo)

本課題采用的是精確率、召回率、F值三個(gè)指標(biāo)作為實(shí)驗(yàn)結(jié)果的評判指標(biāo)。其中主要是以準(zhǔn)確率作為重要的整體評價(jià)指標(biāo)。

3.3.2參數(shù)設(shè)置

本課題反諷語料庫中20%用來做測試集。實(shí)驗(yàn)中卷積神經(jīng)網(wǎng)絡(luò)的卷積層的過濾器設(shè)置大小為[3，4，5]訓(xùn)練迭代次數(shù)為20次，batch size是32，dropout率設(shè)為0.5.

3.3.3實(shí)驗(yàn)結(jié)果

按照約定的把反諷語料數(shù)據(jù)劃分成了4：1的形式。實(shí)驗(yàn)主要過程是對比融合反諷特征以及詞向量后的卷積神經(jīng)網(wǎng)絡(luò)與融合反諷特征以及詞向量后詞袋模型在反諷識別上的主要差別。其中詞袋模型采用支持向量機(jī)（svm），樸素貝葉斯（NB）和隨機(jī)森林（rf）三種方法。

融合反諷特征與沒有融合詞袋模型的訓(xùn)練結(jié)果對比如下所示：

由此可見，融合了反諷特征后的，傳統(tǒng)的機(jī)器模型識別精確度都有所提升。可見融入反諷特征在對反諷識別上具有一定的積極作用。

將融合反諷特征以及詞向量技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)與融合反諷特征以及詞向量技術(shù)的傳統(tǒng)模型進(jìn)行對比，實(shí)驗(yàn)結(jié)果如下：

由此可見卷積神經(jīng)網(wǎng)絡(luò)在反諷識別上相比較傳統(tǒng)的機(jī)器學(xué)習(xí)模型的確優(yōu)勢較為明顯。

四、結(jié)束語

針對微博反諷語句識別，本文提出了一種融合反諷特征的深度學(xué)習(xí)的模型。該方法首先對微博的反諷語料數(shù)據(jù)進(jìn)行預(yù)處理，人工提取反諷語料中出現(xiàn)頻率較多的特征詞，之后采用分詞工具對語句、特征進(jìn)行分詞，再用詞向量進(jìn)行訓(xùn)練，轉(zhuǎn)換成矩陣模塊，最后再采用與卷積神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行訓(xùn)練與對比，得到最終實(shí)驗(yàn)結(jié)果相比較與傳統(tǒng)的分類器精確率有明顯提高，進(jìn)一步驗(yàn)證深度學(xué)習(xí)在反諷識別方面具有顯著優(yōu)勢。

參 ?考 ?文 ?獻(xiàn)

[1]盧欣. 基于深度學(xué)習(xí)的中文反諷識別及其情感判別研究[D]. ?山西大學(xué)， 2019.

[2] 羅婷. ?社交網(wǎng)絡(luò)評論中的反語識別研究[D]. ?云南：云南財(cái)經(jīng)大學(xué)， 2017.

[3] 羅觀柱. ?面向社交媒體的反諷識別[D]. ?哈爾濱工業(yè)大學(xué)， 2019.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

卷積神經(jīng)網(wǎng)絡(luò)在微博反諷語句識別中的應(yīng)用