国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

經(jīng)濟(jì)評(píng)論情感分析與評(píng)分

2020-04-07 04:17劉志強(qiáng)余薇溫和銘孔樅李欣
關(guān)鍵詞:分詞詞組消極

◎劉志強(qiáng) 余薇 溫和銘 孔樅 李欣

一、引言

隨著人們參與經(jīng)濟(jì)活動(dòng)日益頻繁,人們每天會(huì)接觸到成百上千條經(jīng)濟(jì)評(píng)論文本數(shù)據(jù),評(píng)論者的情感傾向和態(tài)度往往會(huì)對(duì)讀者造成影響。有學(xué)者的研究表明人們?cè)谧龀鲞x擇或決策前,通常傾向于參考他人的評(píng)論信息。因此對(duì)經(jīng)濟(jì)評(píng)論文本中經(jīng)濟(jì)特征進(jìn)行情感分析及評(píng)分可謂頗具意義,它能較好地反映了人們對(duì)某經(jīng)濟(jì)事件的情感認(rèn)知傾向,在個(gè)人的經(jīng)濟(jì)決策,企業(yè)的經(jīng)營(yíng)決策,甚至國(guó)家的政治與經(jīng)濟(jì)政策中發(fā)揮一定的作用,以實(shí)現(xiàn)個(gè)人經(jīng)濟(jì)效用的最大化和社會(huì)經(jīng)濟(jì)資源的最優(yōu)配置。

文本情感分析,又稱為意見(jiàn)挖掘,是利用自然語(yǔ)言處理技術(shù)、數(shù)據(jù)挖掘算法等對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過(guò)程。目前情感分析的主要方法有:基于情感詞典的情感分析方法、基于機(jī)器學(xué)習(xí)的情感分析方法和基于深度學(xué)習(xí)的情感分析方法。賈春光在卷煙評(píng)論方面應(yīng)用基于情感詞典的方法進(jìn)行情感分析,實(shí)驗(yàn)明基于詞典的情感分析方法在具體領(lǐng)域文本情感分析中仍具有優(yōu)勢(shì)。李明等使用樸素貝葉斯、支持向量機(jī)(SVM)、決策樹、K 最鄰近算法(KNN)四種機(jī)器學(xué)習(xí)分類方法對(duì)商品評(píng)論進(jìn)行情感分析,比較結(jié)果之后發(fā)現(xiàn)支持向量機(jī)(SVM)算法具有較好的情感分類效果。高歡等在單一機(jī)器學(xué)習(xí)模型的基礎(chǔ)上使用集成學(xué)習(xí)進(jìn)行情感分析,將邏輯回歸、隨機(jī)森林、輕量梯度提升機(jī)三種分類方法聚集在一起,以提高情感分類準(zhǔn)確率。近年來(lái),深度學(xué)習(xí)方法在情感分析領(lǐng)域引起了許多關(guān)注。顧軍華等提出一種基于卷積注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型(CNN_attention_LSTM),能夠突出文本關(guān)注重點(diǎn)的情感詞與轉(zhuǎn)折詞,在具有轉(zhuǎn)折詞的文本中能更精確地判別文本情感傾向。楊善良等將條件隨機(jī)場(chǎng)模型與循環(huán)神經(jīng)網(wǎng)絡(luò)模型LSTM 相結(jié)合,形成基于注意力機(jī)制的LSTM-CRF-Attention 模型,能夠有效提高文本數(shù)據(jù)情感特征的抽取效果。Hossein Sadr 等將卷積和遞歸神經(jīng)網(wǎng)絡(luò)合并到一個(gè)新的魯棒模型中,捕捉了長(zhǎng)期的語(yǔ)句間語(yǔ)義依賴關(guān)系,并減少本地信息丟失,優(yōu)于基本的卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)模型。

本文將情感分析方法應(yīng)用于經(jīng)濟(jì)評(píng)論領(lǐng)域,考慮到經(jīng)濟(jì)評(píng)論中情感詞的領(lǐng)域性、評(píng)論文本長(zhǎng)度較短,采用基于情感詞典的情感分析方法。同時(shí),采用該方法人工提取情感特征能夠從一定程度上減少情感特征提取環(huán)節(jié)模型中的誤差。另外,本文在傳統(tǒng)基于情感詞典的情感分析方法的基礎(chǔ)上進(jìn)行改進(jìn),引入互信息和左右熵新詞發(fā)現(xiàn)方法提高分詞精度,將ITD*MI 算法[8]應(yīng)用于情感詞加權(quán),進(jìn)一步提高該方法情感分析準(zhǔn)確度,解決經(jīng)濟(jì)評(píng)論領(lǐng)域的情感分析問(wèn)題。

二、情感分析技術(shù)與方法

本文充分考慮經(jīng)濟(jì)評(píng)論文本較短、含有趨勢(shì)詞詞組、含有經(jīng)濟(jì)專業(yè)詞匯的特點(diǎn),構(gòu)建經(jīng)濟(jì)評(píng)論情感分析體系。對(duì)于文本數(shù)據(jù)的分詞問(wèn)題,采用中科院分詞系統(tǒng)NLPIR-ICTCLAS 進(jìn)行分詞,再使用互信息和左右熵新詞發(fā)現(xiàn)方法對(duì)分詞結(jié)果進(jìn)一步改進(jìn)。對(duì)于領(lǐng)域情感詞典構(gòu)建,本文在基礎(chǔ)情感詞、拓展情感詞的基礎(chǔ)上,加入人工篩選獲得的領(lǐng)域情感詞,共同構(gòu)建領(lǐng)域情感詞詞典。在情感分析中,對(duì)于情感詞的加權(quán)問(wèn)題,本文采用ITD*MI 方法對(duì)文本中的情感詞進(jìn)行加權(quán),對(duì)于趨勢(shì)詞詞組按該評(píng)論中的情感詞權(quán)重均值進(jìn)行加權(quán),將情感詞加權(quán)評(píng)分和趨勢(shì)詞詞組加權(quán)評(píng)分相加獲得該評(píng)論最終情感評(píng)分。

1.經(jīng)濟(jì)評(píng)論文本數(shù)據(jù)的特點(diǎn)。

經(jīng)濟(jì)評(píng)論文本數(shù)據(jù)具有文本句子短、包含大量經(jīng)濟(jì)趨勢(shì)詞、不完全遵循語(yǔ)法規(guī)則、難以通過(guò)有限句子信息在當(dāng)前句子的語(yǔ)境給出明確判斷的特點(diǎn),而且經(jīng)濟(jì)評(píng)論文本數(shù)據(jù)有別于一般的評(píng)論數(shù)據(jù)的一大顯著特點(diǎn)是它涉及經(jīng)濟(jì)金融領(lǐng)域各類專業(yè)術(shù)語(yǔ),講究不同的詞語(yǔ)搭配方法和句式結(jié)構(gòu)。

以下簡(jiǎn)要舉例說(shuō)明經(jīng)濟(jì)評(píng)論文本數(shù)據(jù)一些顯著特點(diǎn):

(1)經(jīng)濟(jì)評(píng)論文本數(shù)據(jù)一般句子較短,但包含眾多信息,需要在特定的語(yǔ)境下才能全面理解,其中包含的不同情感色彩因句而異。

(2)經(jīng)濟(jì)評(píng)論文本中有大量的專業(yè)術(shù)語(yǔ)有別于一般的評(píng)論文本,比如"做多"、"利好"、"通脹"等,這些專業(yè)詞匯在特定語(yǔ)境下都可以展示不同的情感色彩。

(3)經(jīng)濟(jì)評(píng)論文本數(shù)據(jù)中涉及眾多趨勢(shì)詞詞組,比如"再創(chuàng)新高"、"漲勢(shì)低迷"、"觸底反彈"、"成本降低"等等,它們?cè)诮?jīng)濟(jì)金融領(lǐng)域都涉及一定的情感色彩。

而且在經(jīng)濟(jì)評(píng)論文本的情感分析中存在一些特殊情況。因經(jīng)濟(jì)評(píng)論文本中有很多的特殊的詞語(yǔ)搭配,要結(jié)合語(yǔ)境分析情感傾向,如果通過(guò)分詞單獨(dú)分析個(gè)別詞語(yǔ)則會(huì)造成一定謬誤。因此注意不同詞語(yǔ)間的相互修飾,及詞語(yǔ)搭配,而不是單獨(dú)分析個(gè)別詞語(yǔ)的情感極性有助于提高文本情感分析的準(zhǔn)確度。另外,經(jīng)濟(jì)評(píng)論文本中否定詞也會(huì)影響分詞結(jié)果的情感傾向判斷,否定詞會(huì)改變整個(gè)句子的句意,如:"不 盡如人意",否定詞"不"將褒義詞"盡如人意"的反轉(zhuǎn)為貶義詞。

2.分詞方法。

對(duì)收集的語(yǔ)料進(jìn)行分詞,英文單詞是以空格作為分隔符,而漢字詞語(yǔ)之間沒(méi)有明顯標(biāo)記,因此中文分詞是文本情感分析不可或缺的一步。對(duì)比結(jié)巴分詞的效果,我們選擇使用中科院分詞系統(tǒng)NLPIR-ICTCLAS 進(jìn)行分詞工作。NLPIR 分詞系統(tǒng)含有中文分詞、新詞發(fā)現(xiàn)、詞性標(biāo)注等多種功能,可以較好得對(duì)我們的語(yǔ)料進(jìn)行分詞。經(jīng)濟(jì)領(lǐng)域內(nèi)專有名詞較多,為了提高分詞精確度,在NLPIR 分詞系統(tǒng)的基礎(chǔ)上,再利用互信息與左右熵來(lái)對(duì)分詞結(jié)果進(jìn)行完善?;バ畔⒅阁w現(xiàn)詞語(yǔ)間語(yǔ)義相關(guān)程度的量,其計(jì)算方法如公式(2-1)所示。

其中,MI(X,Y)指兩相鄰詞的互信息值,P(X)為詞X 出現(xiàn)的概率,P(Y)為詞Y 出現(xiàn)的概率,X 和Y 指兩相鄰詞,互信息值越高,表明兩相鄰詞相關(guān)性越高,其組成短語(yǔ)的可能性越大;同理,互信息值越低,則表明兩相鄰詞組成短語(yǔ)的可能性較小。

信息熵最初被定義為離散隨機(jī)事件的出現(xiàn)概率,左右熵則表示詞表達(dá)中左邊界的熵與右邊界的熵,用來(lái)體現(xiàn)詞表達(dá)中的自由程度。此處以左熵為例,其計(jì)算方法如公式(2-2)所示。

其中,EL(W)指預(yù)選詞左邊界的信息熵,W 指預(yù)選詞,aW 為位于預(yù)選詞左邊的詞匯,P(aW|W)為條件概率,即為預(yù)選詞為W時(shí),左邊界出現(xiàn)的aW 的概率,左右熵值越大,表明預(yù)選詞左邊與右邊更換的詞越多,則該預(yù)選詞越有可能是單獨(dú)的詞。利用互信息與左右熵來(lái)提高新詞發(fā)現(xiàn)效果,從而達(dá)到較好的分詞精度。

3.領(lǐng)域情感詞典構(gòu)建方法。

構(gòu)建情感詞典,目前的研究有兩種思路:一種是基于語(yǔ)義計(jì)算,一般可根據(jù)知網(wǎng)情感詞計(jì)算語(yǔ)義相似度,計(jì)算目標(biāo)詞語(yǔ)跟基準(zhǔn)詞之間的緊密程度,得以判定情感極性;另一種是基于統(tǒng)計(jì)分析,計(jì)算目標(biāo)詞語(yǔ)基準(zhǔn)詞之間的點(diǎn)互信息值,確定兩個(gè)詞之間的緊密程度,從而獲取目標(biāo)詞的情感傾向。

為了提高情感分類的準(zhǔn)確性,建立專門的經(jīng)濟(jì)領(lǐng)域情感詞典,本文選擇基于語(yǔ)義計(jì)算構(gòu)建情感詞典,該情感詞典由基礎(chǔ)詞和領(lǐng)域詞構(gòu)成?;A(chǔ)情感詞由現(xiàn)有的知網(wǎng)Hownet 情感詞典和臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典構(gòu)建。領(lǐng)域情感詞典是指用于某一特定領(lǐng)域文本語(yǔ)料進(jìn)行分詞的情感詞典。其在基礎(chǔ)情感詞典的基礎(chǔ)上采取人工提取情感特征的方法,構(gòu)建經(jīng)濟(jì)評(píng)論情感詞典,這類基礎(chǔ)情感詞必須要人工標(biāo)記,在基礎(chǔ)情感詞之上,配合爬取的經(jīng)濟(jì)評(píng)論進(jìn)行分詞、人工篩選劃分得到評(píng)論情感詞匯,將情感詞分類別歸納,得到適用于經(jīng)濟(jì)評(píng)論的情感詞典。

4.情感詞加權(quán)方法。

(1)ITD*MI 算法介紹。

在文本情感分析范疇,情感詞權(quán)重通??紤]兩個(gè)影響因素:該詞在文本中的重要性(ITD)和其在表達(dá)情感上的重要性(ITS)。Deng 等人在情感詞加權(quán)測(cè)試中,將ITD 和基于交互信息(MI)的ITS 結(jié)合的算法效果最佳,記為ITD*MI 算法。

(2)公式表示。

首先引入相關(guān)定義,將積極評(píng)論的集合記為V1,消極評(píng)論的集合記為V2。設(shè)X={X1,X2...,Xn}為V1_V2中的所有情感詞。設(shè)待分析的經(jīng)濟(jì)評(píng)論為Cj,情感詞Xi在經(jīng)濟(jì)評(píng)論Cj中的加權(quán)為Wij,則Cj可由特征向量Cj={W1,W2j...,Wnj}表示。加權(quán)Wij由兩部分構(gòu)成,一是ITD(Xi,Cj),表示情感詞Xi在經(jīng)濟(jì)評(píng)論Cj中的重要程度,計(jì)算方法如公式(3):

其中,Xij表示Xi在Cj中出現(xiàn)的次數(shù)。

Wij的另一組成是ITS(Xi),表示Xi在情感傾向表達(dá)上的重要性,在ITD*MI 算法中,用MI(Mutual Information,交互信息)表示,計(jì)算方法如公式(2-1)。

其中概率的解釋見(jiàn)表2-1。

表2-1 概率含義解釋

對(duì)于給定的情感詞Xi,其ITS(Xi)定義為:

綜上,得到情感詞Xi在經(jīng)濟(jì)評(píng)論Cj中的加權(quán):

三、數(shù)據(jù)與實(shí)證

根據(jù)以上分析,本文構(gòu)建經(jīng)濟(jì)評(píng)論情感分析體系(如圖3-1)。

圖3-1 經(jīng)濟(jì)評(píng)論情感分析流程圖

1.數(shù)據(jù)來(lái)源。(1)網(wǎng)站選擇。

Alexa 是世界權(quán)威的網(wǎng)絡(luò)流量統(tǒng)計(jì)機(jī)構(gòu),專業(yè)發(fā)布各大網(wǎng)站的世界排名,即Alexa 排名。本文考慮Alexa 排名,選擇排名較前的經(jīng)濟(jì)網(wǎng)站作為語(yǔ)料庫(kù)的原始文本數(shù)據(jù)來(lái)源。

(2)話題選擇。

百度指數(shù)(index。baidu。com)是一個(gè)數(shù)據(jù)分享平臺(tái),它以海量百度用戶的網(wǎng)絡(luò)行為作為基礎(chǔ)數(shù)據(jù),是當(dāng)今數(shù)據(jù)時(shí)代和互聯(lián)網(wǎng)十分重要的統(tǒng)計(jì)分析平臺(tái)之一??梢岳冒俣戎笖?shù)可以獲取當(dāng)期人們對(duì)經(jīng)濟(jì)熱詞的關(guān)心程度。近期由于豬肉價(jià)格的上漲人們對(duì)豬肉價(jià)格的關(guān)注度越來(lái)越高;國(guó)家對(duì)于發(fā)展區(qū)塊鏈技術(shù)高度重視,在未來(lái)的技術(shù)發(fā)展與產(chǎn)業(yè)變革中區(qū)塊鏈技術(shù)發(fā)揮著不容小視作用,是國(guó)內(nèi)經(jīng)濟(jì)發(fā)展的有效動(dòng)力;科創(chuàng)板的設(shè)立給股市中股民一個(gè)新的投資方向,所以話題會(huì)相對(duì)較多;對(duì)于直播經(jīng)濟(jì)來(lái)說(shuō),網(wǎng)絡(luò)直播在一定程度上能夠刺激公眾消費(fèi),帶動(dòng)經(jīng)濟(jì)發(fā)展,是一種新型的營(yíng)銷手段,這其中有利有弊,成為了人們?cè)u(píng)論的焦點(diǎn)。因此,本文選取豬肉價(jià)格、區(qū)塊鏈、科創(chuàng)板、直播經(jīng)濟(jì)這4個(gè)熱門話題進(jìn)行實(shí)驗(yàn)研究。

2.數(shù)據(jù)處理。

(1)數(shù)據(jù)獲得。

本文通過(guò)Alexa 綜合排名(2020 年3 月數(shù)據(jù))查詢經(jīng)濟(jì)評(píng)論類權(quán)威網(wǎng)站,最終選擇"財(cái)經(jīng)騰訊網(wǎng)"、"新浪財(cái)經(jīng)"、"搜狐財(cái)經(jīng)",作為經(jīng)濟(jì)評(píng)論原始文本數(shù)據(jù)來(lái)源。利用爬蟲獲得的原始評(píng)論分別為:區(qū)塊鏈1180 條、科創(chuàng)板1210 條、直播經(jīng)濟(jì)863 條、豬肉價(jià)格1384 條。

(2)數(shù)據(jù)清洗。

由于網(wǎng)絡(luò)爬蟲獲取的原始數(shù)據(jù)格式混亂,有部分原始數(shù)據(jù)由于評(píng)論主題偏移、非經(jīng)濟(jì)評(píng)論、重復(fù)等原因不可用。先對(duì)原始數(shù)據(jù)去重,再篩選關(guān)鍵詞,去掉不相關(guān)評(píng)論后,得到可用經(jīng)濟(jì)評(píng)論:區(qū)塊鏈1111 條、科創(chuàng)板1111 條、直播經(jīng)濟(jì)830 條、豬肉價(jià)格1359 條。

(3)分詞。

使用python 中的NLPIR 分詞包對(duì)文本數(shù)據(jù)進(jìn)行分詞,再利用左右熵互信息新詞發(fā)現(xiàn)算法對(duì)分詞結(jié)果進(jìn)一步細(xì)化。

3.經(jīng)濟(jì)評(píng)論情感詞典。

(1)基礎(chǔ)情感詞與拓展情感詞。

通用情感詞典的構(gòu)建主要通過(guò)現(xiàn)已開(kāi)源的基礎(chǔ)情感詞典來(lái)構(gòu)建,本文選擇知網(wǎng)Hownet 情感詞典以及臺(tái)灣大學(xué)簡(jiǎn)體中文情感極性詞典去重及刪除無(wú)用詞后整合構(gòu)建基礎(chǔ)情感詞典。Hownet 是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。

(2)經(jīng)濟(jì)領(lǐng)域情感詞。

領(lǐng)域情感詞典是指利用某一特定領(lǐng)域的大量語(yǔ)料所構(gòu)建的情感詞典,用來(lái)對(duì)這一領(lǐng)域的文本語(yǔ)料進(jìn)行分析。與通用情感詞典相比,領(lǐng)域情感詞典在用于特定領(lǐng)域的具體情感分析任務(wù)中精確度更高,總體更具實(shí)用性。本文通過(guò)分詞,人工篩選得到所選經(jīng)濟(jì)名詞的1.033 個(gè)常用情感詞匯。

4.經(jīng)濟(jì)評(píng)論情感詞加權(quán)。

為了直觀地反映情感詞的情感傾向,在爬取得到經(jīng)濟(jì)評(píng)論里,對(duì)抽取出來(lái)的1000 多個(gè)情感詞,對(duì)比所構(gòu)建的經(jīng)濟(jì)評(píng)論情感詞典,劃分積極傾向和消極傾向,再根據(jù)ITD*MI 算法得到的加權(quán)分別排名。積極情感加權(quán)排名前五的情感詞有"創(chuàng)新"、"發(fā)展"、"復(fù)蘇"、"可觀"、"歡迎",消極情感加權(quán)排名前五的情感詞有"悲觀"、"虧損"、"危機(jī)"、"非理性"、"風(fēng)險(xiǎn)"。

對(duì)比加權(quán)結(jié)果發(fā)現(xiàn),根據(jù)ITD*MI 算法,在經(jīng)濟(jì)評(píng)論中出現(xiàn)次數(shù)較多的情感詞ITD 較高,而在兩類經(jīng)濟(jì)評(píng)論頻率相差較大的情感詞普遍可以獲得更高的ITS,比如創(chuàng)新(973(積極評(píng)論頻率),13(消極評(píng)論頻率))、發(fā)展(658,9)、悲觀(18,834)、虧損(12,572)。綜合來(lái)看,加權(quán)較高的情感詞具有出現(xiàn)頻率高、情感極性明顯的特點(diǎn)。

5.趨勢(shì)詞詞組。

(1)名詞與趨勢(shì)詞詞典。

經(jīng)濟(jì)評(píng)論中含有大量趨勢(shì)詞詞組,這些詞組所包含的情感傾向不可忽略。因此,為了計(jì)算趨勢(shì)詞詞組的情感評(píng)分,本文構(gòu)建經(jīng)濟(jì)領(lǐng)域的名詞詞典與趨勢(shì)詞詞典。通過(guò)常見(jiàn)的趨勢(shì)詞查找其近義詞,共同構(gòu)成趨勢(shì)詞詞典。人工篩選曼昆《經(jīng)濟(jì)學(xué)原理》一書中的經(jīng)濟(jì)學(xué)名詞,結(jié)合語(yǔ)料庫(kù)中的經(jīng)濟(jì)名詞,共同構(gòu)成經(jīng)濟(jì)名詞詞典。其中,定義與"增"趨勢(shì)搭配表達(dá)積極情感傾向的名詞為積極名詞,反之為消極名詞。與"減"趨勢(shì)搭配表達(dá)積極情感傾向的名詞為消極名詞,反之為積極名詞。

(2)趨勢(shì)詞詞組情感評(píng)分。

定義"增"趨勢(shì)詞評(píng)分為1,"減"趨勢(shì)詞評(píng)分為-1,積極名詞評(píng)分為1,消極名詞評(píng)分為-1,計(jì)算趨勢(shì)詞詞組原始情感評(píng)分,計(jì)算方法如公式(3-1)所示。

其中OSij,(Original Score)是第i 條經(jīng)濟(jì)評(píng)論第j 個(gè)趨勢(shì)詞詞組的原始情感評(píng)分,TSij(Trend Score)是該詞組的趨勢(shì)詞評(píng)分,NSij(None Score)是該評(píng)論的名詞評(píng)分。

對(duì)趨勢(shì)詞詞組的原始評(píng)分進(jìn)行加權(quán),計(jì)算方法如公式(3-2)所示。

其中WTij,(Weighted Trend Score)為第i 條經(jīng)濟(jì)評(píng)論第j個(gè)趨勢(shì)詞詞組的加權(quán)后情感評(píng)分,WEij(Weighted Emotion Score)為公式(2-5)中計(jì)算所得第i 條經(jīng)濟(jì)評(píng)論第j 個(gè)情感詞加權(quán)情感評(píng)分,n 為該評(píng)論中的情感詞總數(shù)。

四、送結(jié)果與檢驗(yàn)

1.實(shí)驗(yàn)結(jié)果。

本文對(duì)經(jīng)濟(jì)評(píng)論情感評(píng)分采用二級(jí)分類,將第i 條評(píng)論的情感詞和趨勢(shì)詞詞組加權(quán)情感評(píng)分加總,得到第i 條評(píng)論的原始情感評(píng)分,將其0-1 標(biāo)準(zhǔn)化后與0.5 比較,大于0.5 分為積極情感,小于0.5 分為消極情感。對(duì)經(jīng)濟(jì)熱詞評(píng)論的情感傾向分類統(tǒng)計(jì)得到,區(qū)塊鏈的積極評(píng)論占68.95%,科創(chuàng)板的積極評(píng)論占64.81%,直播經(jīng)濟(jì)的積極評(píng)論占71.57%,豬肉價(jià)格的積極評(píng)論占32.89%。

2.結(jié)果檢驗(yàn)。

(1)檢驗(yàn)指標(biāo)。

精確率、召回率、F1 分?jǐn)?shù)是用來(lái)衡量二分類模型精確度的重要指標(biāo)。精確率將積極(消極)評(píng)論判定為積極(消極)評(píng)論的數(shù)量,即正確判定評(píng)論數(shù),占判定為積極(消極)的總評(píng)論數(shù)的比率。是指召回率是指正確判定積極(消極)評(píng)論數(shù),占實(shí)際總積極(消極)情感傾向評(píng)論數(shù)的比率。而F1 分?jǐn)?shù)兼顧了分類模型的精確率和召回率,可以看作兩者的一種調(diào)和平均數(shù)。

其中,P(Precision Ratio)為精確率,R(Recall Ratio)為召回率,F(xiàn)1(F1 Score)為F1 分?jǐn)?shù),TP(True Positive)為將積極評(píng)論判定為積極評(píng)論的數(shù)量,F(xiàn)P(False Positive)為將積極評(píng)論誤判為消極的數(shù)量,TN(True Negative)為將消極評(píng)論判定為消極的數(shù)量,F(xiàn)N(False Negative)為將消極評(píng)論誤判為積極的數(shù)量。

(2)檢驗(yàn)結(jié)果。

表4-1 經(jīng)濟(jì)評(píng)論情感分析精確度檢驗(yàn)結(jié)果表

從表4-1 可知上述經(jīng)濟(jì)評(píng)論情感分析體系在實(shí)踐中有較好效果,精確率平均能達(dá)90.6%,召回率平均可達(dá)91.1%,F(xiàn)1 值平均可達(dá)90.8%,但負(fù)向情感極性判別精確度的各項(xiàng)指標(biāo)基本低于正向情感極性判別,情感詞典中消極情感詞可能存在不完善等問(wèn)題。

五、結(jié)論

本文采用基于情感詞典的情感分析方法解決經(jīng)濟(jì)評(píng)論領(lǐng)域的情感分析與評(píng)分問(wèn)題,通過(guò)人工提取特征構(gòu)建經(jīng)濟(jì)評(píng)論情感詞典,引用互信息和左右熵新詞發(fā)現(xiàn)方法優(yōu)化分詞結(jié)果,引用ITD*MI 方法對(duì)情感詞加權(quán),同時(shí)考慮經(jīng)濟(jì)評(píng)論文本短和含有趨勢(shì)詞詞組特點(diǎn),計(jì)算經(jīng)濟(jì)評(píng)論綜合情感評(píng)分并進(jìn)行情感極性判別。使用精確率、召回率、F1 值3 個(gè)情感極性判別精確度評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證,各項(xiàng)指標(biāo)均高于90%,該方法較好地解決了經(jīng)濟(jì)評(píng)論領(lǐng)域的情感分析問(wèn)題。

本文將情感傾向簡(jiǎn)單地進(jìn)行二分類,評(píng)分并不能精確反映情感傾向程度,未來(lái)的研究重點(diǎn)是在完善經(jīng)濟(jì)評(píng)論情感詞典、進(jìn)一步提高判別精確度的基礎(chǔ)上,使情感評(píng)分能夠更好地反映文本的情感傾向程度。

本論文得到了江西財(cái)經(jīng)大學(xué)科研課題

猜你喜歡
分詞詞組消極
分詞在英語(yǔ)教學(xué)中的妙用
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
讓自己發(fā)光
家庭教育:你種的是積極樹還是消極樹?
“消極保護(hù)”不如“積極改變”
副詞和副詞詞組
論消極治理與農(nóng)民上訪
聚焦現(xiàn)在完成進(jìn)行時(shí)
四会市| 奉化市| 防城港市| 从江县| 郓城县| 基隆市| 凌云县| 烟台市| 陵川县| 秭归县| 广平县| 凤冈县| 景宁| 满洲里市| 安溪县| 射洪县| 天峻县| 澎湖县| 浙江省| 新龙县| 城口县| 商丘市| 嘉鱼县| 仙游县| 乌鲁木齐县| 佛教| 措美县| 罗山县| 卢龙县| 汨罗市| 体育| 夏津县| 鄂伦春自治旗| 垣曲县| 呈贡县| 嘉善县| 巴青县| 景宁| 离岛区| 红原县| 郸城县|