国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感詞組合模式的情感細(xì)分類研究?

2020-12-23 11:50:26
關(guān)鍵詞:博文詞典副詞

盧 莉 馬 力

(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710121)

1 引言

隨著Web2.0 的飛速發(fā)展,新型社交媒體已逐漸取代了傳統(tǒng)的社交方式,成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。人們通過一些新型社交媒體如微博、微信、論壇等交流溝通,表達(dá)自己的一些日常情感。微博成為眾多的新型社交媒體中應(yīng)用最廣泛的互聯(lián)網(wǎng)平臺之一。并結(jié)合手機(jī)等移動終端,方便用戶隨時(shí)隨地更新和獲取信息。

在這個(gè)開放的社交平臺上,通過網(wǎng)絡(luò)把認(rèn)識的和不認(rèn)識的人都聯(lián)系在一起,人們可以查找自己感興趣的人或事,跟蹤事情的發(fā)展動態(tài),也可以針對時(shí)下的熱點(diǎn)話題發(fā)表自己的看法或評論。

網(wǎng)絡(luò)平臺上的海量信息包含了日常生活中的方方面面,如社會民生、熱點(diǎn)新聞、購物、娛樂等。出于不同的出發(fā)點(diǎn)和個(gè)人愛好,每個(gè)人對生活中的各種現(xiàn)象所表達(dá)的態(tài)度和意見都存在極大差異,這種差異蘊(yùn)含著極大的商業(yè)價(jià)值和社會價(jià)值。因此,對微博文本進(jìn)行情感分析具有十分重要的意義和應(yīng)用價(jià)值。

2 相關(guān)研究

文本情感分析是利用自然語言處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù),通過對文本內(nèi)容分析作者的觀點(diǎn)、態(tài)度、情感或者情緒,分析的文本對象包括新聞、評論、微博等文本內(nèi)容[15~18]。

情感分析中一個(gè)重要的環(huán)節(jié)就是情感傾向性分類的研究[12],在情感傾向性分類研究中目前研究有兩類研究方向:一類是基于詞典和規(guī)則的文本傾向性研究,一類是基于機(jī)器學(xué)習(xí)的文本傾向性研究。

情感詞典作為一種重要的情感分類方法,能夠體現(xiàn)文本的非結(jié)構(gòu)化特征。Paltoglou等[1]采用基于情感詞典的情緒分類方法,該方法利用否定詞、大寫字母、情感增強(qiáng)減弱、情感極性等多種語言學(xué)預(yù)測函數(shù),對微博進(jìn)行情感分類。此后Qiu 等[2]提出一種基于句法分析和情感詞典相結(jié)合的情感分類方法,該方法利用情感詞典和從廣告上下文中識別情感句,根據(jù)主題和關(guān)鍵字提取消費(fèi)者的情感態(tài)度。

在中文情感分類的研究中,Wan[3]利用機(jī)器翻譯將中文商品評論翻譯為英文評論,在利用英文情感分析資源對翻譯后的評論進(jìn)行情感極性的分類,此后,Wei 等[19]通過引入多語言模型,利用結(jié)構(gòu)一致學(xué)習(xí)算法減少機(jī)器翻譯的噪聲,充分利用了已有的英文語料,取得了較好的成績。

由于某些情感詞在不同的領(lǐng)域或者語境中含義不同,有不同的情感傾向,Jo 等[4]提出一種基于“主題-句子”關(guān)系的情感分類方法。謝麗星等基于情感詞典根據(jù)情感詞的個(gè)數(shù)進(jìn)行文本的情感極性分類任務(wù)。

隨著互聯(lián)網(wǎng)中新型詞的不斷涌現(xiàn),基于詞典和規(guī)則的分類方法在分類時(shí)靈活度不夠,難以應(yīng)對不斷變化的詞性詞意,為了提高分類結(jié)果,研究者開始了基于機(jī)器學(xué)習(xí)的分類方法。

基于機(jī)器學(xué)習(xí)的分類方法是將情感分類作為一個(gè)模式分類問題,建立分類模型來判斷情感極性。Pang 等[5]通過對比一元特征、二元特征、形容詞打分、位置等多特征和特征權(quán)值和特征權(quán)重選擇策略,著重比較SVM、樸素貝葉斯和最大熵算法的分類效果。

Dong 等[6]提出一種基于自適應(yīng)遞歸神經(jīng)網(wǎng)絡(luò)的情感分類方法,該方法通過上下文和句法規(guī)則對詞的情感標(biāo)記進(jìn)行自適應(yīng)傳播,實(shí)現(xiàn)了目標(biāo)依賴的情感分類。

3 情感詞典的構(gòu)建

情感詞典是進(jìn)行情感分析的基礎(chǔ)[7],要判斷一個(gè)句子所包含的情感需要計(jì)算句子中所包含的各個(gè)情感單元。因此,情感詞典的質(zhì)量在很大程度上影響了情感分類的結(jié)果[8~10]。微博文本具有短小、口語化等特點(diǎn),如何判斷其情感類別,情感詞典的作用就顯得更加重要。情感詞典的收集整理是一個(gè)持續(xù)不斷的過程,本文在已有的情感詞匯本體庫的基礎(chǔ)上進(jìn)行擴(kuò)充,整理出一個(gè)適用于微博文本的情感詞典。

3.1 通用基礎(chǔ)詞典

本文基于微博文本的情感細(xì)分類使用中文情感詞匯本體庫作為基礎(chǔ)情感詞典,該詞典分別從情感類別、強(qiáng)度、極性分布和詞性對情感詞進(jìn)行了描述。

情感詞匯本體庫共包括情感詞27466 個(gè),將情感極性分為四類,中性用0 表示,褒義用1 表示,貶義用2表示,褒貶兩性用3表示;情感類別和詞語類型分別分為七類,情感強(qiáng)度有1、3、5、7、9 五檔,數(shù)字越大,情感強(qiáng)度越大。

情感詞匯本體庫雖然包含了許多詞匯,但很多都比較陳舊,如果使用此詞典進(jìn)行情感的細(xì)粒度分類其準(zhǔn)確率肯定會有很大程度的影響[13],因此需要對情感詞典進(jìn)行擴(kuò)充,以適應(yīng)微博文本的特點(diǎn)。

本文將情感詞匯本體庫中所有情感詞作為基準(zhǔn)詞,然后計(jì)算基準(zhǔn)詞與候選詞之間的語義相似度,這里采用PMI 算法,基本思想就是統(tǒng)計(jì)基準(zhǔn)詞和候選詞在文本中同時(shí)出現(xiàn)的概率,概率越大其關(guān)聯(lián)性就越高。通過式(1)進(jìn)行擴(kuò)展:

這些擴(kuò)展的基礎(chǔ)詞的情感類別為與其語義最相似的情感詞的情感類別,情感強(qiáng)度為情感詞強(qiáng)度與擴(kuò)展詞相似度的乘積。利用這種方法對通用基礎(chǔ)詞典進(jìn)行擴(kuò)展,得到最終通用基礎(chǔ)詞典。

3.2 輔助情感詞典

基于微博文本的特殊性,若是單純依靠情感詞典進(jìn)行情感分類,其分類結(jié)果不是十分精確。鑒于微博文本十分口語化并且包含很多網(wǎng)絡(luò)新型詞匯和表情符號等,這些詞語通常具有很強(qiáng)烈的情感極性但在情感詞典中是不存在的。基于此,在基礎(chǔ)情感詞典的基礎(chǔ)上添加輔助情感詞典。

1)網(wǎng)絡(luò)情感詞

網(wǎng)絡(luò)情感詞是通過網(wǎng)絡(luò)的發(fā)展流行起來的帶有情感傾向的新詞,網(wǎng)絡(luò)情感詞沒有固定的規(guī)律,具有多樣化,形象化等特點(diǎn)。如:“666”,“么么噠”,“呵呵噠”等。這些情感詞在基礎(chǔ)情感詞典中是沒有的,但在微博文本中應(yīng)用很多,對情感分類的準(zhǔn)確度有很大程度的影響。本文搜集的網(wǎng)絡(luò)情感詞來自搜狗網(wǎng)絡(luò)流行新詞,選擇當(dāng)下流行的網(wǎng)絡(luò)新詞人工賦予其情感類型及其權(quán)重。

2)表情符號

微博短文本還存在大量的表情符號,微博用戶喜歡在短文本中添加表情符號來直觀的表述自己的感情。這些表情符號在情感本體庫中并不存在,本文通過人工標(biāo)注的方法對常用的表情符號進(jìn)行情感相近的情感詞進(jìn)行代替,并賦予情感類別和情感強(qiáng)度。

3)程度副詞

程度副詞對情感強(qiáng)度有一定程度的影響,例如:“今天心情挺好的”和“今天心情超級好”,兩句話雖然都表達(dá)了“樂”這一情感,但情感強(qiáng)度完全不同,引入程度副詞對情感分類的準(zhǔn)確度進(jìn)行修正。

4)否定詞詞典

否定詞的出現(xiàn)會對整個(gè)句子的情感類別帶來很大程度的影響,特別是針對情感細(xì)分類的情況,情感遷移比較復(fù)雜。積極情感經(jīng)過否定詞修飾后可能會變成消極情感,而消極情感經(jīng)過否定詞修飾后也可能趨于積極情感。

5)特殊情感調(diào)節(jié)詞典

短文本中有時(shí)存在一些特殊的符號對句子的情感產(chǎn)生影響,例如“”中的情感詞可能取自相反的情感,感嘆號(?。┣暗那楦性~往往加重了情感程度。因此對一些特殊的符號當(dāng)做一種特殊的情感要素添加到情感輕度的計(jì)算當(dāng)中。本文收集一些對情感計(jì)算造成影響的特殊符號組成特殊情感調(diào)節(jié)詞典。

4 基于情感詞組合模式的微博情感細(xì)分類

微博文本一般較短,只含有少量情感詞,基于情感詞典對微博文本進(jìn)行情感分析時(shí)可以使用情感詞語義加權(quán)的分析方法。

謝麗星等[11]使用式(2)基于情感詞典根據(jù)情感詞的個(gè)數(shù)進(jìn)行文本的情感極性分類任務(wù)。

其中Ni表示某類情感詞總數(shù)。

這種方法簡單易行,在情感傾向性分類任務(wù)上取得了比較合理的分類結(jié)果,但是只計(jì)算情感詞個(gè)數(shù),忽略了情感詞的情感強(qiáng)度。這種方法用于情感的細(xì)粒度分類任務(wù)上會存在很多的問題。

因此,在式(2)的基礎(chǔ)上,引入情感詞權(quán)重進(jìn)行基于情感詞典的細(xì)粒度分類。如式(3)所示。

其中Wij表示第i類情感中第j個(gè)情感詞的權(quán)重。

4.1 情感詞搭配模式

在對微博文本進(jìn)行情感分類時(shí),不僅要考慮情感詞的權(quán)重大小,還需要考慮否定詞、程度副詞以及特殊符號對情感類別以及情感強(qiáng)度的影響。本文根據(jù)情感詞(包括網(wǎng)絡(luò)情感詞及微博表情)、否定詞和程度副詞的組合模式,給出組合情感詞的情感權(quán)重的計(jì)算方法。

通過觀察發(fā)現(xiàn),在微博中否定詞和程度副詞用來修飾情感詞是通常會出現(xiàn)以下的組合方式。

方式一:否定詞+情感詞,當(dāng)句子中否定詞的個(gè)數(shù)為偶數(shù)時(shí),情感類別不發(fā)生遷移,奇數(shù)則按一次遷移計(jì)算。如:“她不開心”,先取出“開心”這個(gè)情感詞,然后向前查詢否定詞的個(gè)數(shù),根據(jù)否定詞個(gè)數(shù)進(jìn)行情感遷移。

方式二:程度副詞+情感詞,此時(shí)句子的情感類別不變,情感強(qiáng)度是所修飾的情感詞強(qiáng)度的基礎(chǔ)上乘以程度詞的情感權(quán)重,得到組合情感詞的情感類別及強(qiáng)度。

方式三:否定詞+程度副詞+情感詞或程度副詞+否定詞+情感詞,由于否定詞與程度副詞的前后順序不同,組合情感詞的情感值也不一樣。當(dāng)否定詞位于前程度副詞后時(shí),先根據(jù)模式二進(jìn)行情感值的計(jì)算,把計(jì)算出的組合情感當(dāng)成一個(gè)情感詞,利用模式一計(jì)算遷移后的情感值;否定詞在后時(shí)同理。

方式四:情感詞+特殊符號,由于一些特殊的情感符號對文本的情感產(chǎn)生特殊的影響,會造成句子情感的遷移。如:我很“高興”,情感詞“高興”通過雙引號(“”)進(jìn)行情感遷移,變?yōu)閻骸?/p>

計(jì)算微博文本中所有情感組合模式的情感值,微博文本的總體情感類別及強(qiáng)度由文本中所有情感詞的情感值累加得到,取情感強(qiáng)度最大的情感類別作為該條微博的總體情感類別。

通常否定詞和程度副詞是用來修飾距離最近的情感詞,但是如果一個(gè)句子中存在多個(gè)修飾詞和情感詞,為了保證不出現(xiàn)修飾詞和情感詞互相交叉影響以確定情感詞組合單元,引入滑動窗口的概念。在分詞后的詞表W=(w1,w2,…,wn)中,令詞語wi為中心詞,Lwi和Rwi分別為詞wi左右兩側(cè)第i個(gè)詞?;瑒哟翱诘母拍羁杀硎緸?/p>

使用分詞及詞性標(biāo)注后的詞表表示文本,滑動窗口是以中心情感詞在上下詞語中向前或向后取n 個(gè)詞。窗口長度的確定需要一定的先驗(yàn)知識,如果窗口長度過大會影響分類的效率,過小則會影響分類準(zhǔn)確率。微博文本一般比較簡短,通過統(tǒng)計(jì)對比,將窗口大小設(shè)為3 可以得到比較好的分類效果。

4.2 情感詞語義加權(quán)分類算法

通過滑動窗口和情感詞組合模式,結(jié)合本文中的擴(kuò)充詞典提出就語義的情感強(qiáng)度加權(quán)計(jì)算算法:具體實(shí)現(xiàn)如表1所示。

表1 基于情感詞典的微博情感分析算法

對于文中的每個(gè)句子,通過以上的算法,首先需要進(jìn)行模式匹配后再計(jì)算所有情感詞的情感類別及強(qiáng)度,進(jìn)而得到整個(gè)文本的情感類別及強(qiáng)度。

5 實(shí)驗(yàn)結(jié)果與分析

本次實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)來源于CCF 舉辦的中文微博情緒識別比賽(NLP&CC2014)提供的公開數(shù)據(jù)集。該數(shù)據(jù)集內(nèi)容設(shè)計(jì)廣泛,并且每條微博及微博中的每個(gè)句子都進(jìn)行了情感類別的標(biāo)記,將14000 條微博按照情感類別不同分為了八類,分別是樂、好、怒、哀、懼、惡、驚和無情緒[14]。

本實(shí)驗(yàn)從14000 條微博文本中隨機(jī)抽取4000條,分別使用情感詞匯本體庫及本文構(gòu)建的微博情感詞典基于情感詞語義加權(quán)的情感分析方法進(jìn)行對比實(shí)驗(yàn),結(jié)果如表2所示。

表2 分類結(jié)果

從表中可以看出,用融合語義特征的情感詞搭配模式對微博文本進(jìn)行分類取得了不錯(cuò)的效果。說明從語義角度挖掘微博情感特征能更準(zhǔn)確的表達(dá)微博文本的情感。

同時(shí)還發(fā)現(xiàn)融合了語義特征的情感分類算法對客觀文本的分類準(zhǔn)確率有較大的提高。分析原因:在實(shí)驗(yàn)送發(fā)現(xiàn)情感類別“怒”、“懼”、“哀”在發(fā)生情感詞否定遷移后,均變?yōu)闊o情感傾向的客觀文本,這也可以解釋這三個(gè)情感類別在僅使用情感詞進(jìn)行分類時(shí)分類準(zhǔn)確率不高的原因。同時(shí)微博文本口語化嚴(yán)重,情感詞不明顯,且存在很多反轉(zhuǎn),對使用情感詞典進(jìn)行分類造成困難。

6 結(jié)語

本文為了更好地對微博短文本進(jìn)行分析,在基礎(chǔ)情感詞典的基礎(chǔ)上添加了輔助詞典對文博短文本的情感分類提供輔助作用,同時(shí)考慮到微博短文本的特點(diǎn),采用了四種情感詞組合模式,將程度副詞、否定詞、特殊符號以及情感詞的搭配模式描述出來,利用滑動窗口在情感詞的前后尋找程度副詞、否定詞和特殊符號,判斷短文本的情感傾向并計(jì)算出情感強(qiáng)度。

但是由于微博短文本的語句缺失比較嚴(yán)重,并且口語化嚴(yán)重,變化多端,在分類結(jié)果上不是特別理想。接下來在句法依存、上下文環(huán)境也要多加研究,同時(shí)要時(shí)時(shí)收錄網(wǎng)絡(luò)新型詞語和特殊符號。

猜你喜歡
博文詞典副詞
The Wheels on the Bus
第一次掙錢
副詞“好容易”及其詞匯化成因
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
誰和誰好
評《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
打電話2
副詞和副詞詞組
金堂县| 怀集县| 海淀区| 桐乡市| 山阴县| 托克逊县| 阿合奇县| 秭归县| 建水县| 曲沃县| 英山县| 宝坻区| 通城县| 炉霍县| 商城县| 临湘市| 钟山县| 南澳县| 崇仁县| 赣州市| 长岭县| 鄂托克前旗| 和平县| 安远县| 江阴市| 嘉义市| 四川省| 台安县| 喀什市| 邵阳县| 天镇县| 岳池县| 新巴尔虎左旗| 拉萨市| 阿拉善左旗| 华阴市| 襄汾县| 漳平市| 休宁县| 青冈县| 阿拉善右旗|