国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融入情感信息詞向量的評(píng)論文本情感分析方法

2021-09-09 22:29呂妹園張永健張永強(qiáng)孫勝娟
關(guān)鍵詞:準(zhǔn)確率詞典副詞

呂妹園 張永健 張永強(qiáng) 孫勝娟

摘 要:為了解決分布式詞表示方法因忽略詞語(yǔ)情感信息導(dǎo)致情感分類(lèi)準(zhǔn)確率較低的問(wèn)題,提出了一種融入情感信息加權(quán)詞向量的情感分析改進(jìn)方法。依據(jù)專(zhuān)屬領(lǐng)域情感詞典構(gòu)建方法,結(jié)合詞典和語(yǔ)義規(guī)則,將情感信息融入到TF-IDF算法中,利用Word2vec模型得到加權(quán)詞向量表示方法,并運(yùn)用此方法對(duì)采集到的河北省旅游景點(diǎn)的評(píng)論文本與對(duì)照組進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果表明,與基于分布式詞向量表示的情感分析方法相比,采用融入情感信息加權(quán)詞向量的改進(jìn)方法進(jìn)行情感分析,積極文本的準(zhǔn)確率提高了6.1%,召回率提高了6.6%,F(xiàn)值達(dá)到了90.3%;消極評(píng)論文本的準(zhǔn)確率提高了6.0%,召回率提高了7.2%,F(xiàn)值達(dá)到了89.6%。因此,融入情感信息加權(quán)詞向量的情感分析改進(jìn)方法可以有效提高評(píng)論文本情感分析的準(zhǔn)確率,為用戶獲得更為準(zhǔn)確的評(píng)論觀點(diǎn)提供參考。

關(guān)鍵詞:自然語(yǔ)言處理;語(yǔ)義規(guī)則;情感信息;TF-IDF;Word2vec;加權(quán)詞向量;情感分析

中圖分類(lèi)號(hào):TP391.1?? 文獻(xiàn)標(biāo)識(shí)碼:A

doi:10.7535/hbkd.2021yx04008

收稿日期:2021-03-25;修回日期:2021-06-11;責(zé)任編輯:王淑霞

基金項(xiàng)目:河北省創(chuàng)新能力提升計(jì)劃項(xiàng)目(19456003D)

第一作者簡(jiǎn)介:呂妹園(1996—),女,山東濟(jì)南人,碩士研究生,主要從事自然語(yǔ)言處理方面的研究。

通訊作者:張永強(qiáng)教授。E-mail:120030009@qq.com

呂妹園,張永健,張永強(qiáng),等.融入情感信息詞向量的評(píng)論文本情感分析方法[J].河北科技大學(xué)學(xué)報(bào),2021,42(4):380-388.LYU Meiyuan,ZHANG Yongjian,ZHANG Yongqiang, et al.Sentiment analysis method of comment text based on word vector with sentiment information[J].Journal of Hebei University of Science and Technology,2021,42(4):380-388.

Sentiment analysis method of comment text based on word vector with sentiment information

LYU Meiyuan,ZHANG Yongjian,ZHANG Yongqiang,SUN Shengjuan

(School of Information and Electrical Engineering,Hebei University of Engineering,Handan,Hebei 056107,China)

Abstract:In order to solve the problem of low accuracy of sentiment classification caused by neglecting the sentiment information of words in distributed word representation method,an improved sentiment analysis method incorporating weighted word vectors of sentiment information was proposed.According to the exclusive domain sentiment dictionary,combined with the dictionary and semantic rules,the sentiment information is integrated into the TF-IDF algorithm,and the weighted word vector representation method is obtained by using word2vec model.The method is used to compare the collected comments of tourist attractions in Hebei Province with the control group.The results show that compared with the sentiment analysis method based on distributed word vector representation,the accuracy and recall rate of positive text are increased by 6.1% and 6.6%,and the Fvalue reached 90.3%,the accuracy and recall rate of negative text are increased by 6.0% and 7.2%,and the Fvalue reached 89.6% by using the improved method of sentiment analysis integrated with sentiment information weighted word vector.Therefore,the improved method of sentiment analysis integrated with sentiment information weighted word vector can effectively improve the accuracy of sentiment analysis of comment text,and provide valuable reference for users to obtain more accurate comments.

Keywords:

natural language processing;semantic rules;sentiment information;TF-IDF;Word2vec;weighted word vector;sentiment analysis

隨著互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的互聯(lián)網(wǎng)用戶開(kāi)始在線上發(fā)表自己的觀點(diǎn),如淘寶、攜程網(wǎng)等平臺(tái)上用戶對(duì)商品和景點(diǎn)的評(píng)論,情感分析技術(shù)可以讓用戶更便捷地獲取評(píng)論的情感傾向。情感分析的主要任務(wù)是對(duì)評(píng)論語(yǔ)料的情感傾向性進(jìn)行分析,本質(zhì)上是一種文本分類(lèi)[1],即對(duì)用戶的評(píng)論文本進(jìn)行積極、消極的情感傾向的分類(lèi)。

最早應(yīng)用于情感分析的方法是基于情感詞典[2-3]的方法。該方法的核心是利用情感詞典遍歷匹配旅客評(píng)論文本中的情感詞,并根據(jù)語(yǔ)義規(guī)則計(jì)算評(píng)論文本的情感傾向。文獻(xiàn)[4]—文獻(xiàn)[5]介紹了基于情感詞典的代表研究。基于情感詞典的旅游文本情感分析不需要提前對(duì)文本進(jìn)行標(biāo)注,操作簡(jiǎn)單易于實(shí)現(xiàn),但其太過(guò)于依賴情感詞典且目前大多數(shù)情感詞典不是專(zhuān)屬領(lǐng)域情感詞典,導(dǎo)致情感分類(lèi)的準(zhǔn)確率較低?;跈C(jī)器學(xué)習(xí)情感分析方法[6-9]最早是由PANG等[10]提出,使用最大熵算法和SVM算法進(jìn)行電影評(píng)論的情感分析。CHEN等[11]針對(duì)在線旅游情感分類(lèi)準(zhǔn)確率低的問(wèn)題,把情感分類(lèi)任務(wù)轉(zhuǎn)變成機(jī)器學(xué)習(xí)中的多分類(lèi)問(wèn)題,設(shè)計(jì)了基于知識(shí)圖譜的關(guān)鍵詞擴(kuò)展方法,增加了短文本的特征數(shù)量,利用機(jī)器學(xué)習(xí)構(gòu)建情感分類(lèi)模型進(jìn)行情感分析。VALDIVIA等[12]發(fā)現(xiàn)TripAdvisor中許多用戶的星級(jí)打分和評(píng)論文本的情感極性是不同的,研究了用戶情緒與自動(dòng)情緒檢測(cè)算法之間的匹配,利用機(jī)器學(xué)習(xí)模型識(shí)別負(fù)面意見(jiàn)并發(fā)現(xiàn)了負(fù)面評(píng)價(jià)背后的原因。YU等[13]為了對(duì)日本旅游網(wǎng)站4Traval景點(diǎn)的評(píng)論進(jìn)行情感分析,提出了3組基于統(tǒng)計(jì)的特征選擇函數(shù)和傳統(tǒng)的TF-IDF方法且制定了7組基于規(guī)則的方法。結(jié)果證明,特征選擇函數(shù)與權(quán)重結(jié)合能夠較好地提高算法的整體性能。YANG等[14]提出了以情感詞典為基礎(chǔ),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)和基于注意力的雙向門(mén)控回歸單元(BiGRU)模型(SICABG),SICABG模型結(jié)合了情感詞典和深度學(xué)習(xí)技術(shù)的優(yōu)點(diǎn),克服了現(xiàn)有產(chǎn)品評(píng)論情感分析模型的不足。

在基于機(jī)器學(xué)習(xí)的情感分析研究中,一般采用分布式詞向量表示方式,分布式的表示方式只考慮詞語(yǔ)的語(yǔ)義信息,忽視了詞語(yǔ)的情感信息,而在情感分析研究中,一個(gè)詞語(yǔ)所包含的情感傾向性信息非常重要。本文結(jié)合語(yǔ)義規(guī)則,利用情感詞典將情感信息融入到TF-IDF算法進(jìn)行加權(quán)詞向量計(jì)算,然后利用SVM算法進(jìn)行情感分析。由于同一個(gè)情感詞在不同領(lǐng)域文本中的情感傾向是不同的,因此研究建立一種情感種子詞的篩選標(biāo)準(zhǔn),并利用SO-PMI算法構(gòu)建專(zhuān)屬領(lǐng)域情感詞典,避免發(fā)生不包含情感信息的特征詞影響情感分析的準(zhǔn)確率等問(wèn)題。

1 融入情感信息的加權(quán)詞向量表示

1.1 Word2vec詞向量表示

在情感分析任務(wù)中,將詞語(yǔ)表示成低維、非稀疏的向量是關(guān)鍵。目前,詞向量表示方法主要有one-hot方法和分布式詞向量表示方法。one-hot方法中詞向量的維數(shù)是由詞典中詞語(yǔ)的個(gè)數(shù)決定的。該方法的缺點(diǎn)是如果詞典的詞語(yǔ)數(shù)目過(guò)多會(huì)導(dǎo)致詞向量的維數(shù)過(guò)大并且向量稀疏,另外該方法還忽視了詞語(yǔ)之間的語(yǔ)義關(guān)聯(lián)性。分布式詞向量表示方法可以把詞語(yǔ)表示成低維向量,將所有的詞向量構(gòu)成一個(gè)詞向量空間,并通過(guò)計(jì)算詞向量的距離來(lái)判斷詞語(yǔ)的語(yǔ)義相似度。

研究采用分布式方法中的Word2vec算法訓(xùn)練詞向量,Word2vec算法中包括2種詞向量訓(xùn)練模型:CBOW模型和Skip-Gram模型[15],Skip-Gram模型的訓(xùn)練準(zhǔn)確度更好,模型如圖1所示。

由圖1可知,在Skip-Gram模型中輸入中心詞語(yǔ)W(t)的one-hot編碼來(lái)預(yù)測(cè)中心詞的上下文詞語(yǔ)W(t-k),…,W(t-1),W(t+1),…,W(t+k)的概率模型。其中W(t)表示當(dāng)前句子中位置為t的詞語(yǔ),k表示與W(t)相鄰的上下文的窗口。

1.2 傳統(tǒng)TF-IDF特征權(quán)重算法

TF-IDF算法是文本分類(lèi)中常用的特征權(quán)重的計(jì)算方法,該方法考慮了詞語(yǔ)在文檔中的分布情況,可以衡量詞語(yǔ)對(duì)文本分類(lèi)的重要度。

傳統(tǒng)的TF-IDF公式如式(1)所示:

Wij=tfij×logNMj。(1)

式中:Wij表示評(píng)論文本Ti中詞語(yǔ)hij的權(quán)重值;tfij表示詞語(yǔ)hij在評(píng)論文本中的詞頻;N表示評(píng)論文本數(shù)量;Mj表示所有評(píng)論文本中出現(xiàn)詞語(yǔ)hij的評(píng)論文本的數(shù)量。將式(1)歸一化得到式(2):

Wij=tfij×logNMj∑hij∈Titfij×logNMj2。(2)

式中:hij表示評(píng)論文本Ti中的第i個(gè)特征詞。

1.3 融入情感信息的加權(quán)詞向量

通過(guò)將評(píng)論文本與情感詞典、程度副詞詞典相匹配,并結(jié)合語(yǔ)義規(guī)則將情感信息融入到特征權(quán)重的計(jì)算過(guò)程中。

情感詞在不同的修飾詞修飾下對(duì)文本情感傾向的貢獻(xiàn)是不同的,情感詞的修飾規(guī)則如下。規(guī)則1:由程度副詞修飾情感詞時(shí),句中存在關(guān)系(adv,STW),則Si=Di+m×Si。規(guī)則2:否定詞修飾情感詞時(shí),句中存在關(guān)系(negative,STW),如“不高興”,情感詞“高興”被否定詞“不”修飾后由積極情感傾向變成了消極情感傾向,因此Si=-1×Si。規(guī)則3:情感詞由否定詞和程度副詞共同修飾,句中存在2種關(guān)系:一種為(negative,adv,STW),如“不太滿意”,此時(shí)情感詞的情感傾向不改變,但情感詞對(duì)文本的情感傾向貢獻(xiàn)會(huì)被減弱,并參考文獻(xiàn)[3]得到Si=0.5×Di+m×Si;一種為(adv,negative,STW),如“太不滿意”,此時(shí)情感詞的情感傾向被改變,但情感詞“滿意”對(duì)文本的消極情感傾向的貢獻(xiàn)程度由程度詞決定,因此,Si=-1×Di+m×Si。式中:Si為情感詞的情感極性值;Di+m為程度副詞的程度極值;STW表示情感詞;negative表示否定詞;adv表示程度副詞,因此,融入情感信息的詞語(yǔ)權(quán)重計(jì)算分4種情況。

第1種 詞語(yǔ)hij為非情感詞

此種情況下,詞語(yǔ)hij的權(quán)重計(jì)算公式如式(3)所示:

Wij=tfij×logNMj∑hij∈Titfij×logNMj2。(3)

第2種 詞語(yǔ)hij為情感詞且無(wú)修飾詞修飾

此種情況下,詞語(yǔ)hij的權(quán)重計(jì)算公式如式(4)所示:

Wij=tfij×logNMj×Sj∑hij∈Titfij×logNMj×Sj2。(4)

式中:Sj為情感詞hij的情感極性值。

第3種 詞語(yǔ)hij為情感詞且滿足修飾規(guī)則(adv,STW),(negative,STW),(adv,negative,STW)

對(duì)于此種情況,藺璜等[16]提出程度副詞的粘著性與定位性強(qiáng),做狀語(yǔ)時(shí)不僅不可前移也不能后置,只能緊靠在謂語(yǔ)周?chē)?,程度副詞與情感詞的距離不超過(guò)3個(gè)詞。因此,當(dāng)單詞hij是情感詞且情感詞周?chē)谐潭雀痹~和否定詞修飾時(shí),則判斷詞語(yǔ)hij前后距離為3的6個(gè)詞語(yǔ)是否為程度副詞,并將非程度副詞的程度值設(shè)為1。因此,詞語(yǔ)hij的權(quán)重計(jì)算如式(5)所示:

Wij=tfij×logNMj×Sj×∏-3≤m≤3Dj+m∑hij∈Titfij×logNMj×Sj×∏-3≤m≤3Dj+m2。(5)

式中:m表示與詞語(yǔ)hij的間隔距離,范圍在[-3,3]之間;Dj+m表示距離單詞hij為m的詞語(yǔ)的程度值。

第4種 詞語(yǔ)hij為情感詞且滿足修飾規(guī)則(negative,adv,STW)

此種情況下,詞語(yǔ)hij的權(quán)重計(jì)算如式(6)所示:

Wij=tfij×logNMj×Sj×0.5×∏-3≤m≤3Dj+m∑hij∈Titfij×logNMj×Sj×0.5×∏-3≤m≤3Dj+m2。(6)

設(shè)hij為使用Word2vec訓(xùn)練得詞語(yǔ)hij的詞向量,則融入情感信息詞語(yǔ)的加權(quán)詞向量aij表示如式(7)所示。

aij=hij·Wij。(7)

設(shè)語(yǔ)料中第i條評(píng)論文本為T(mén)i=hi1,…,hij,…,hik,則文本Ti的向量表示如式(8)所示:

ti=∑kj=1hij·Wij。(8)

將向量ti作為特征輸入到SVM(支持向量機(jī))中,訓(xùn)練可得到情感分析的分類(lèi)模型。

2 專(zhuān)屬領(lǐng)域情感詞典的構(gòu)建及特征提取改進(jìn)方法

2.1 情感詞典的構(gòu)建

在計(jì)算詞語(yǔ)權(quán)重時(shí)需要使用情感詞典,中文文本語(yǔ)義博大精深,同一個(gè)情感詞在不同領(lǐng)域文本中出現(xiàn)時(shí),對(duì)文本的情感傾向貢獻(xiàn)是不同的,如,“股票跌了”和“票價(jià)跌了”,前一個(gè)句子中“跌”的情感傾向是消極的,后一個(gè)句子中“跌”的情感傾向是積極的,因此構(gòu)建專(zhuān)屬領(lǐng)域情感詞典是必須性的[17]。因此在進(jìn)行情感分析之前依據(jù)詞向量構(gòu)建了一個(gè)專(zhuān)屬領(lǐng)域情感詞典[18-19]。

2.1.1 情感種子詞典的構(gòu)建

從攜程網(wǎng)站上爬取到的15 000條河北省旅游景點(diǎn)的評(píng)論文本,使用jieba工具分詞后得到的評(píng)論文本詞集(TSet),與知網(wǎng)情感詞典(HowNet[20])取交集,得到一個(gè)情感詞集(TSSet={sij},sij指情感傾向?yàn)閕的j個(gè)情感詞語(yǔ)),利用Word2vec模型將情感詞集的詞變換為詞向量(ski),為了使情感種子詞有較好的聚類(lèi)效果,構(gòu)建了一個(gè)基于余弦相似度的種子詞集篩選標(biāo)準(zhǔn),如式(9)和式(10)所示。

ADIS(ski)=1n∑ij=1Dis(ski,skj)=1n∑ij=1ski·skj‖ski‖×‖skj‖。(9)

式中:ski和skj表示情感傾向?yàn)閗的2個(gè)不同的詞語(yǔ)的詞向量;ADIS(ski)表示情感傾向?yàn)閗的第i個(gè)情感詞的平均距離。

SThresholdk=1n∑ni=1ADIS(ski),(10)

式中:SThresholdk表示情感傾向?yàn)閗的情感詞的距離閾值。

當(dāng)ADIS(ski)>SThresholdk時(shí),將詞語(yǔ)ski存入種子情感詞典(SSDic)中,并標(biāo)注其情感傾向?yàn)閗。

2.1.2 專(zhuān)屬領(lǐng)域情感詞典的構(gòu)建

判斷詞語(yǔ)情感傾向的方法有SO-PMI算法(點(diǎn)互信息算法)和語(yǔ)義相似度算法。本文使用文獻(xiàn)[21]改進(jìn)后的SO-PMI算法計(jì)算詞集(TSet)的詞語(yǔ)與種子情感詞典(SSDic)中詞的SO-PMI值,以得到詞集(TSet)中詞語(yǔ)的情感傾向和情感極值。將SO-PMI值大于零的詞語(yǔ)及該詞語(yǔ)的SO-PMI值作為情感詞的情感極值存入積極情感詞典中,將SO-PMI值小于零的詞語(yǔ)及該詞語(yǔ)的SO-PMI值作為情感詞的情感極值存入消極情感詞典中,得到專(zhuān)屬領(lǐng)域情感詞典。

2.2 改進(jìn)的特征提取方法

2.2.1 語(yǔ)義規(guī)則分析

句子可以分為單句和復(fù)雜句。單句指直觀地表達(dá)對(duì)景點(diǎn)情感的句子,如“景點(diǎn)很美還會(huì)來(lái)!”,而復(fù)雜句是由多個(gè)單句以一定的邏輯結(jié)構(gòu)結(jié)合在一起,如“城墻不錯(cuò)其他就一般了,古城內(nèi)環(huán)境不好,衛(wèi)生狀況差,為什么不能搞得好一點(diǎn)呢?”,句中積極和消極的評(píng)論交織在一起,面臨這種情況,需要從句子本身出發(fā),弄清其邏輯結(jié)構(gòu),分析句子中對(duì)情感傾向有較大貢獻(xiàn)的部分以及貢獻(xiàn)較小或沒(méi)有貢獻(xiàn)的部分。將復(fù)雜句(C)表示為單句的集合,即C=c1,c2,…,ci,…,cn。將sci設(shè)置為單句ci對(duì)旅游評(píng)論文本的情感傾向貢獻(xiàn)值,若sci為零時(shí),單句ci對(duì)文本的情感傾向無(wú)貢獻(xiàn),因此在進(jìn)行文本情感分析時(shí)應(yīng)忽略單句ci。

1)總結(jié)詞情感規(guī)則

若評(píng)論文本這樣描述“一個(gè)四面環(huán)水的小村落,感覺(jué)還是不錯(cuò)的,但畢竟是有人居住的地方,所以不要四處亂轉(zhuǎn)??偨Y(jié)一下:家距離景點(diǎn)近的人可以去玩,里面挺好的?!边@條評(píng)論文本的最后一句含有總結(jié)詞“總結(jié)一下”,這表明該句為總結(jié)句,總之、總而言之、總結(jié)一下、反正、整體來(lái)說(shuō)、綜上所述、簡(jiǎn)而言之在一段文本中總結(jié)句起到點(diǎn)明中心的作用,則該評(píng)論文本的情感重心落在總結(jié)句上。因此,若復(fù)雜句C包含的單句ci中出現(xiàn)總結(jié)詞,則sck,sck+1,…,sci-1=0;sci,sci+1,…,scn=1?;诖?,構(gòu)建了總結(jié)詞詞典,其部分內(nèi)容如表1所示。

2)轉(zhuǎn)折詞情感規(guī)則

除了總結(jié)詞之外,轉(zhuǎn)折詞也會(huì)改變文本的情感重心,若復(fù)雜句C中的單句ci包含“雖然”“盡管”則單句ci對(duì)復(fù)雜句C的情感傾向無(wú)貢獻(xiàn),即sck,sck+1,…,sci-1=1;sci,sci+1,…,scj=0,因此該類(lèi)轉(zhuǎn)折詞其標(biāo)注為一類(lèi)轉(zhuǎn)折詞。若復(fù)雜句C中的單句ci包含“然而”等轉(zhuǎn)折詞,復(fù)雜句C的情感重心落在單句ci之后,因此將該類(lèi)轉(zhuǎn)折詞標(biāo)注為二類(lèi)轉(zhuǎn)折詞,則sck,sck+1,…,sci-1=0;sci,sci+1,…,scj=1?;诖?,構(gòu)建了轉(zhuǎn)折詞詞典,部分內(nèi)容如表2所示。

2.2.2 改進(jìn)特征提取

對(duì)于情感分類(lèi)的研究,若忽略文本中一些詞對(duì)情感極性大小的貢獻(xiàn)進(jìn)行無(wú)差別特征提取[22],勢(shì)必影響情感分類(lèi)的準(zhǔn)確性,增加實(shí)驗(yàn)工作量。本文針對(duì)復(fù)雜句式,通過(guò)對(duì)語(yǔ)義規(guī)則進(jìn)行分析,改進(jìn)了特征提取。判斷評(píng)論文本中是否存在總結(jié)詞。若存在,則直接提取包含總結(jié)詞句子的特征詞;若不存在,則判斷句子中是否存在轉(zhuǎn)折詞。若存在轉(zhuǎn)折詞,則繼續(xù)判斷此轉(zhuǎn)折詞是一類(lèi)詞還是二類(lèi)詞:若是一類(lèi)詞,則忽略該句;若是二類(lèi)詞則提取句子中的特征詞。若評(píng)論文本中不存在總結(jié)詞和轉(zhuǎn)折詞,則直接提取全句的特征詞。提取流程如圖2所示。

3 實(shí)驗(yàn)驗(yàn)證

實(shí)驗(yàn)硬件環(huán)境是ThinkPadE445,CPU主頻2.5 GHz,內(nèi)存16 GB;軟件環(huán)境是Windows 10操作系統(tǒng),開(kāi)發(fā)工具是PyCharm 2018.2.2,開(kāi)發(fā)語(yǔ)言是Python,分詞工具是jieba,分類(lèi)算法使用SVM(支持向量機(jī))算法。

3.1 程度副詞與停用詞詞典的處理

1)程度副詞預(yù)處理。使用的程度副詞來(lái)自HowNet詞典。依據(jù)陳羽等[23]對(duì)程度副詞的研究,“透頂”等詞語(yǔ)是形容詞,因此本文參考此標(biāo)準(zhǔn)刪除程度詞典中的此類(lèi)詞。

2)程度量化值的設(shè)定。根據(jù)張宗潔[24]對(duì)程度副詞的研究,將程度副詞按照修飾情感詞的強(qiáng)度分為極高、高、中、低4類(lèi)。文獻(xiàn)[25]利用MMTD算法和真值程度函數(shù)計(jì)算出了程度副詞的真值程度,本文參考文獻(xiàn)[25]計(jì)算程度值的方法以及文獻(xiàn)[26]—文獻(xiàn)[29]為程度副詞設(shè)置了程度量化值(表中用D表示):1.9,1.5,1.1,0.7。另外,否定詞能顛覆評(píng)論文本的情感傾向類(lèi)[21],將否定詞也存入到程度詞詞典中,量化值設(shè)為-1。程度詞詞典部分內(nèi)容如表3所示。

3)停用詞詞典處理。停用詞在文本中不會(huì)傳遞任何信息。去除停用詞詞典中所含有的轉(zhuǎn)折詞詞典和總結(jié)詞詞典中的詞,構(gòu)建適用于評(píng)論文本情感分析的停用詞詞典。

3.2 數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理

本文以旅游網(wǎng)站的游客評(píng)論文本作為情感分析數(shù)據(jù),對(duì)提出的改進(jìn)方法進(jìn)行實(shí)驗(yàn),驗(yàn)證方法的有效性。

1)數(shù)據(jù)獲取 從攜程網(wǎng)上爬取趙州橋、廣府古城、承德避暑山莊等河北省30個(gè)景點(diǎn)的游客評(píng)論文本數(shù)據(jù)。

2)數(shù)據(jù)清洗 分析后發(fā)現(xiàn),獲取到的游客評(píng)論文本中有一些是無(wú)用評(píng)論,評(píng)論文本不包含任何信息,還有一些評(píng)論文本是游客對(duì)網(wǎng)站服務(wù)質(zhì)量的評(píng)論,以及一些重復(fù)的文本,這些數(shù)據(jù)會(huì)影響最終情感分析結(jié)果的準(zhǔn)確性,因此手動(dòng)刪除此類(lèi)數(shù)據(jù)。最終獲取得到了15 000條數(shù)據(jù)。

3)數(shù)據(jù)標(biāo)注 對(duì)上述經(jīng)數(shù)據(jù)清洗后的攜程網(wǎng)用戶的評(píng)論數(shù)據(jù)進(jìn)行人工情感傾向標(biāo)注,為了標(biāo)注的準(zhǔn)確性,參考游客對(duì)景點(diǎn)的星級(jí)評(píng)價(jià),將星級(jí)評(píng)價(jià)為4星、5星并且評(píng)論文本明顯具有積極傾向的文本標(biāo)注為積極評(píng)論文本,將星級(jí)評(píng)價(jià)為0星和1星且評(píng)論文本具有明顯消極傾向的文本標(biāo)注為消極評(píng)論文本,最終獲取得到了10 000條數(shù)據(jù)標(biāo)注過(guò)的游客評(píng)論文本。

4)文本分詞 本文使用的分詞工具是jieba,在分詞前為了使分詞結(jié)果更適用于本文的游客評(píng)論情感分析研究,將情感詞典、程度副詞詞典以及轉(zhuǎn)折詞詞典導(dǎo)入jieba詞庫(kù)中。

3.3 旅游專(zhuān)屬領(lǐng)域詞典的構(gòu)建

將分詞后的攜程網(wǎng)上的游客評(píng)論文本按照語(yǔ)義規(guī)則分析進(jìn)行種子情感詞的構(gòu)建,最終得到89個(gè)積極傾向的種子情感詞和82個(gè)消極性傾向種子情感詞,然后將種子情感詞存入種子情感詞典(SSDic)。

利用詞典SSDic和專(zhuān)屬領(lǐng)域情感詞典方法構(gòu)建旅游專(zhuān)屬領(lǐng)域的情感詞典(STW)。STW詞典的部分內(nèi)容如表4所示。

3.4 實(shí)驗(yàn)評(píng)估指標(biāo)

以準(zhǔn)確率、召回率、F值作為評(píng)價(jià)指標(biāo),評(píng)價(jià)實(shí)驗(yàn)方法的有效性。

準(zhǔn)確率是指被正確分類(lèi)的評(píng)論文本數(shù)量占總評(píng)論文本數(shù)量的比值,如式(11)所示:

P=QirightQiright+Qiwrong,(11)

式中:P為準(zhǔn)確率;Qiright是屬于情感傾向類(lèi)別Ci被正確分類(lèi)的文本數(shù)量;Qiwrong是屬于情感傾向類(lèi)別Ci被錯(cuò)誤分類(lèi)的文本數(shù)量。

召回率是指屬于某情感傾向的文本Ci被正確分類(lèi)的文本數(shù)量與評(píng)論文本中真正屬于情感傾向Ci評(píng)論文本數(shù)量的比值,如式(12)所示:

R=QirightQiall。(12)

式中:R表示召回率;Qiall表示實(shí)際評(píng)論文本中屬于情感傾向類(lèi)別Ci的文本數(shù)量。

F值是準(zhǔn)確率和召回率的調(diào)和平均值,計(jì)算公式如式(13)所示:

F=2×P×RP+R。(13)

3.5 結(jié)果與分析

將旅客評(píng)論文本的加權(quán)詞向量作為特征向量,并使用SVM算法對(duì)本文采集到的數(shù)據(jù)進(jìn)行情感分析,為了測(cè)試本文所提方法的有效性,設(shè)置了4組對(duì)照實(shí)驗(yàn):第1組 基于情感詞典方法,利用HowNet詞典和語(yǔ)義規(guī)則計(jì)算游客評(píng)論文本的情感傾向;第2組 利用Word2vec詞向量表示方法和機(jī)器學(xué)習(xí)中SVM算法進(jìn)行游客評(píng)論文本的情感分類(lèi);第3組 利用HowNet詞典和文本提出的融入情感信息的加權(quán)詞向量表示方法和機(jī)器學(xué)習(xí)中SVM算法進(jìn)行游客評(píng)論文本的情感分類(lèi);第4組 使用本文提出的構(gòu)建專(zhuān)屬領(lǐng)域情感詞典方法,構(gòu)建旅游專(zhuān)屬領(lǐng)域情感詞典(STW),結(jié)合文本提出的融入情感信息的加權(quán)詞向量表示方法以及機(jī)器學(xué)習(xí)中SVM算法進(jìn)行游客評(píng)論文本的情感分類(lèi),實(shí)驗(yàn)結(jié)果如表5所示。

由表5及實(shí)驗(yàn)分析可知:

1)第4組實(shí)驗(yàn)比第1組實(shí)驗(yàn)的準(zhǔn)確率要高,其中積極評(píng)論文本的準(zhǔn)確率提高了17.2%,召回率提高了18%,F(xiàn)值提高了17.7%;消極評(píng)論文本的準(zhǔn)確率提高了17.4%,召回率提高了19.4%,F(xiàn)值提高了18.5%,因此,與基于情感詞典的方法相比,使用本文提出的方法進(jìn)行情感分析準(zhǔn)確率更高,克服了過(guò)于依賴情感詞典的缺點(diǎn)。

2) 第4組比第2組實(shí)驗(yàn)的準(zhǔn)確率要高,其中積極評(píng)論文本的準(zhǔn)確率提高了6.1%,召回率提高了6.6%,F(xiàn)值提高了6.4%;消極評(píng)論文本的準(zhǔn)確率提高了6.0%,召回率提高了7.2%,F(xiàn)值提高了6.6%。提出的方法在進(jìn)行詞向量表示時(shí)考慮了詞語(yǔ)的情感信息,提高了情感分析的準(zhǔn)確率。

3) 第4組比第3組實(shí)驗(yàn)的準(zhǔn)確率要高,其中積極評(píng)論文本的準(zhǔn)確率提高了1.3%,召回率提高了1.3%,F(xiàn)值提高了1.3%;消極評(píng)論文本的準(zhǔn)確率提高了1.5%,召回率提高了2.4%,F(xiàn)值提高了2.0%。實(shí)驗(yàn)表明,利用建立的專(zhuān)屬領(lǐng)域情感詞典方法結(jié)合本文提出的融入情感信息詞向量情感分析方法比利用公開(kāi)的情感詞典HowNet結(jié)合本文提出的融入情感信息詞向量情感分析方法更有效,可以提高積極和消極文本的準(zhǔn)確率、召回率和F值,因此本文建立的專(zhuān)屬領(lǐng)域情感詞典是有必要的。

4 結(jié) 語(yǔ)

本文提出了一種融入情感信息加權(quán)詞向量的情感分析方法,用以評(píng)論文本的情感傾向。對(duì)爬取的河北省游客的評(píng)論文本進(jìn)行情感分析實(shí)驗(yàn)。結(jié)果顯示,與傳統(tǒng)的分布式詞向量表示的情感分析方法相比,使用提出的改進(jìn)方法進(jìn)行情感分析,積極文本的準(zhǔn)確率提高了6.1%,召回率提高了6.6%,F(xiàn)值提高了6.4%;消極評(píng)論文本的準(zhǔn)確率提高了6.0%,召回率提高了7.2%,F(xiàn)值提高了6.6%。這表明使用提出的融入情感信息加權(quán)詞向量的情感分析方法可以有效提高情感分析的準(zhǔn)確度。

但是,本研究尚存在一些不足,所提方法無(wú)法對(duì)未登錄詞進(jìn)行識(shí)別,在進(jìn)行詞向量表示時(shí)沒(méi)有考慮到未登錄詞對(duì)文本情感傾向的貢獻(xiàn)。未來(lái)將就未登錄詞的識(shí)別算法進(jìn)行研究,利用專(zhuān)屬領(lǐng)域情感詞典構(gòu)建方法,將包含情感信息的未登錄詞加入到情感詞典中,以此獲得未登錄詞融入情感信息的詞向量表示,進(jìn)而提升文本庫(kù)情感分析的準(zhǔn)確性。

參考文獻(xiàn)/References:

[1] KHAN F H,BASHIR S,QAMAR U.TOM:Twitter opinion mining framework using hybrid classification scheme[J].Decision Support Systems,2014,57:245-257.

[2] 吳杰勝,陸奎.基于多部情感詞典和規(guī)則集的中文微博情感分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(9):93-99.

WU Jiesheng,LU Kui.Chinese weibo sentiment analysis based on multiple sentiment lexicons and rule sets[J].Computer Applications and Software,2019,36(9):93-99.

[3] 萬(wàn)巖,杜振中.融合情感詞典和語(yǔ)義規(guī)則的微博評(píng)論細(xì)粒度情感分析[J].情報(bào)探索,2020(11):34-41.

WAN Yan,DU Zhenzhong.Fine-grained sentiment analysis of microblog comments based on fusion of sentiment lexicon and semantic rules[J].Information Research,2020(11):34-41.

[4] 涂海麗,唐曉波.基于在線評(píng)論的游客情感分析模型構(gòu)建[J].現(xiàn)代情報(bào),2016,36(4):70-77.

TU Haili,TANG Xiaobo.Tourist sentiment analysis model building based on online reviews[J].Modern Information,2016,36(4):70-77.

[5] ZHANG S X,WEI Z L,WANG Y,et al.Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary[J].Future Generation Computer Systems,2018,81:395-403.

[6] 胡夢(mèng)雅,樊重俊,朱玥.基于機(jī)器學(xué)習(xí)的微博評(píng)論情感分析[J].信息與電腦(理論版),2020,32(12):71-73.

HU Mengya,F(xiàn)AN Chongjun,ZHU Yue.Emotional analysis of Weibo comments based on machine learning[J].China Computer & Communication,2020,32(12):71-73.

[7] KUMAR S,GAHALAWAT M,ROY P P,et al.Exploring impact of age and gender on sentiment analysis using machine learning[J].Electronics,2020,9(2):374.

[8] ALOQAILY A,ALHASSAN M,SALAH K,et al.Sentiment analysis for Arabic tweets datasets:Lexicon-based and machine learning approaches[J].Journal of Theoretical and Applied Information Technology,2014.doi:10.1504/IJSNM.2015.072280.

[9] YASIN S,ULLAH K,NAWAZ S,et al.Dual language sentiment analysis model for YouTube videos ranking based on machine learning techniques[J].Pakistan Journal of Engineering and Technology,2020,3(2):213-218.

[10]PANG B,LEE L,VAITHYANATHAN S.Thumbs up?sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10.USA:Association for Computational Linguistics,2020:79-86.

[11]CHEN W,XU Z Y,ZHENG X Y,et al.Research on sentiment classification of online travel review text[J].Applied Sciences,2020.doi:10.3390/app10155275.

[12]VALDVIA A,VICTORIA LUZON M,HERRERA F.Sentiment analysis in tripadvisor[J].IEEE Intelligent Systems,2017,32(4):72-77.

[13]YU C M,ZHU X Y,F(xiàn)ENG B L,et al.Sentiment analysis of Japanese tourism online reviews[J].Journal of Data and Information Science,2019,4(1):89-113.

[14]YANG L,LI Y,WANG J,et al.Sentiment analysis for E-Commerce product reviews in Chinese based on sentiment lexicon and deep learning[J].IEEE Access,2020,8:23522-23530.

[15]MILOLOV T,SUTSKEVER I,CHENK,et al.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems-Volume 2.Red Hook,NY,USA:Curran Associates Inc.2013:3000-3009.

[16]藺璜,郭姝慧.程度副詞的特點(diǎn)范圍與分類(lèi)[J].山西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2003,26(2):71-74.

LIN Huang,GUO Shuhui.On the characteristics,range and classification of adverbs of degree[J].Journal of Shanxi University(Philosophy & SociaL Science),2003,26(2):71-74.

[17]嚴(yán)仲培,陸文星,束柬,等.面向旅游在線評(píng)論情感詞典構(gòu)建方法[J].計(jì)算機(jī)應(yīng)用研究,2019,36(6):1660-1664.

YAN Zhongpei,LU Wenxing,SHU Jian,et al.Construction method of sentiment lexicon for online travel reviews[J].Application Research of Computers,2019,36(6):1660-1664.

[18],et al.Knu korean sentiment lexicon:Bi-LSTM-based method for building a korean sentiment lexicon[J].Journal of Intelligence and Information Systems,2018,24(4):219-240.

[19]趙天銳,劉晨陽(yáng).基于深度學(xué)習(xí)的韓國(guó)語(yǔ)影評(píng)情感詞典構(gòu)建[J].信息技術(shù)與信息化,2021(1):250-253.

ZHAO Tianrui,LIU Chenyang.A deep learning approach to the sentiment dictionary of korean film critics[J].Information Technology & Informatization,2021(1):250-253.

[20]韋婷婷,陳偉生,胡勇軍,等.基于句法規(guī)則和HowNet的商品評(píng)論細(xì)粒度觀點(diǎn)分析[J].中文信息學(xué)報(bào),2020,34(3):88-98.

WEI Tingting,CHEN Weisheng,HU Yongjun,et al.Fine-grained opinion analysis of product reviews based on syntactic rules and HowNet[J].Journal of Chinese Information Processing,2020,34(3):88-98.

[21]李凱.基于詞典與改進(jìn)信息增益的微博情感分析[D].淮南:安徽理工大學(xué),2019.

LI Kai.Weibo Sentiment Analysis Based on Dictionary and Improved Information Gain[D].Huainan:Anhui University of Science and Technology,2019.

[22]XU G X,MENG Y T,QIU X Y,et al.Sentiment analysis of comment texts based on BiLSTM[J].IEEE Access,2019,7:51522-51532.

[23]陳羽,徐素萍.論程度副詞在書(shū)面語(yǔ)和口語(yǔ)內(nèi)部的層級(jí)差異[J].文化創(chuàng)新比較研究,2019,3(22):92-96.

CHEN Yu,XU Suping.On the hierarchy difference between written and spoken adverbs of degree[J].Comparative Study of Cultural Innovation,2019,3(22):92-96.

[24]張宗潔.中英文程度副詞的等級(jí)數(shù)量含意對(duì)比[J].黃山學(xué)院學(xué)報(bào),2018,20(2):52-56.

ZHANG Zongjie.A comparative study of scalar of Chinese and English degree adverbs[J].Journal of Huangshan University,2018,20(2):52-56.

[25]何霞,杜國(guó)平,宗慧.基于中介真值程度度量的模糊語(yǔ)義翻譯研究[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,40(6):71-77.

HE Xia,DU Guoping,ZONG Hui.Research on fuzzy semantic translation based on intermediate truth degree measurement[J].Journal of Nanjing University of Posts and Telecommunications(Natural Science),2020,40(6):71-77.

[26]敦欣卉.張?jiān)魄铮瑮铈z西.基于微博的細(xì)粒度情感分析[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(7):61-72.

GUO Xinhui,ZHANG Yunqiu,YANG Kaixi.Fine-grained sentiment analysis based on weibo[J].Data Analysis and Knowledge Discovery,2017(7):61-72.

[27]李勇泉,李蕊,阮文奇.大型節(jié)慶活動(dòng)微博用戶情感態(tài)勢(shì)的時(shí)空規(guī)律——以故宮上元燈會(huì)為例[J].華僑大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2019(6):27-38.

LI Yongquan,LI Rui,RUAN Wenqi.Temporal and spatial law of microblog user's emotional state in large-scale festival activities:Taking the Lantern Festival in the Forbidden City as an example[J].Journal of Huaqiao University (Philosophy & Social Sciences),2019(6):27-38.

[28]樊振,過(guò)弋,張振豪,等.基于詞典和弱標(biāo)注信息的電影評(píng)論情感分析[J].計(jì)算機(jī)應(yīng)用,2018,38(11):3084-3088.

FAN Zhen,GUO Yi,ZHANG Zhenhao,et al.Sentiment analysis of movie reviews based on dictionary and weak tagging information[J].Journal of Computer Applications,2018,38(11):3084-3088.

[29]張青,韓立新,勾智楠.基于詞向量和變分自動(dòng)編碼器的短文本主題模型[J].河北工業(yè)科技,2018,35(6):441-447.

ZHANG Qing,HAN Lixin,GOU Zhinan.Short text topic model based on word vector and variational autoencoder[J].Hebei Journal of Industrial Science and Technology,2018,35(6):441-447.

猜你喜歡
準(zhǔn)確率詞典副詞
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
“大力士”紙片人
詞典使用與英語(yǔ)學(xué)習(xí)
短句—副詞+謂語(yǔ)
“函數(shù)及圖象”錯(cuò)解詞典
漫畫(huà)詞典
副詞和副詞詞組
临海市| 新疆| 长岭县| 菏泽市| 来安县| 宜兰市| 巴塘县| 富川| 荥阳市| 迭部县| 株洲县| 襄垣县| 辽阳县| 沂南县| 科技| 延庆县| 中卫市| 通海县| 惠东县| 青田县| 关岭| 扎囊县| 微山县| 庄河市| 渭南市| 安庆市| 抚宁县| 双峰县| 霸州市| 武夷山市| 宁蒗| 平阳县| 南丹县| 禄丰县| 辛集市| 涿州市| 肇源县| 苏州市| 辽阳市| 略阳县| 马龙县|