封二英 龐靈
摘 要:針對(duì)目前情感傾向分析過(guò)于依賴(lài)現(xiàn)有經(jīng)驗(yàn)和大規(guī)模語(yǔ)料庫(kù)的不足,本文提出基于弱監(jiān)督迭代法的情感傾向分析模型。本模型以較少的種子情感詞匯做引導(dǎo),通過(guò)弱監(jiān)督迭代計(jì)算,不斷更新、擴(kuò)充情感詞典。在此基礎(chǔ)上完成情感傾向分析任務(wù)。并將該模型應(yīng)用到評(píng)論情感傾向分析中,驗(yàn)證了方法的有效性。
關(guān)鍵詞:情感傾向分析;弱監(jiān)督;迭代模型;產(chǎn)品評(píng)論
1 相關(guān)工作
有監(jiān)督的機(jī)器學(xué)習(xí)方法,無(wú)監(jiān)督算法以及半監(jiān)督算法是目前情感傾向分析的主要方法。龐博[1]等使用標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)方法進(jìn)行文本情感分類(lèi)工作。宇弘[2]等選用若干極性較強(qiáng)的形容詞作為情感詞,構(gòu)成一個(gè)種子情感詞集合,采用無(wú)監(jiān)督算法判斷句子的情感傾向。唐輝豐[3]等利用基于EM的半監(jiān)督學(xué)習(xí)算法,對(duì)文本進(jìn)行分類(lèi)。
2 基于弱監(jiān)督迭代法的情感傾向分析模型
2.1 數(shù)據(jù)預(yù)處理模塊
首先對(duì)評(píng)論進(jìn)行分詞、詞性標(biāo)注、分句、劃分帶狀區(qū)域等預(yù)處理,然后選擇合適的候選情感詞(選取至少出現(xiàn)在兩篇或以上文章中、句子中或帶狀區(qū)域中的詞語(yǔ)),在此基礎(chǔ)上構(gòu)建情感詞典。其中,分詞基于簡(jiǎn)單的二元切分的方法,分別以結(jié)構(gòu)助詞、非漢字、標(biāo)點(diǎn)符號(hào)等作為分隔符;句子切分一般以標(biāo)點(diǎn)符號(hào)作為分隔符;帶狀區(qū)域的劃分以中英文逗號(hào)加上分句采用的標(biāo)點(diǎn)符號(hào)作為分隔符。
2.2 情感傾向分析模塊
首先根據(jù)情感詞典中情感詞的情感傾向判斷帶狀區(qū)域的情感傾向(如果該帶狀區(qū)域中積極的情感詞個(gè)數(shù)大于消極的情感詞個(gè)數(shù),則該帶狀區(qū)域?yàn)榉e極的,如果消極的情感詞個(gè)數(shù)大于積極的情感詞個(gè)數(shù),則該帶狀區(qū)域?yàn)橄麡O的);然后由一個(gè)句子所包含的所有帶狀區(qū)域的情感傾向判定出該句子的情感傾向;最后由該篇評(píng)論所包含句子的情感傾向判定得出整篇評(píng)論的情感傾向性。
2.3 情感詞典更新模塊
根據(jù)情感詞的出現(xiàn)頻率計(jì)算情感分?jǐn)?shù)。使用情感詞和情感分?jǐn)?shù)更新情感詞典。
①人工挑選出極少的情感詞作為種子情感詞匯,構(gòu)成最初的情感詞典。該步對(duì)情感詞典的更新工作只在初次計(jì)算評(píng)論文本情感傾向之前執(zhí)行一次。
②當(dāng)候選情感詞difference值符合閾值條件時(shí)成為情感詞,計(jì)算它的情感分?jǐn)?shù)。當(dāng)情感詞典中已存在該情感詞時(shí),直接更新該詞情感分?jǐn)?shù)。否則,將該情感詞和它的情感分?jǐn)?shù)同時(shí)存入情感詞典。當(dāng)候選情感詞difference值不符合閾值條件時(shí),查找該詞語(yǔ)是否存在情感詞典中,如果存在則從情感詞典中刪除該詞語(yǔ)和它的情感分?jǐn)?shù)。
2.4 迭代算法
本文提出以少量種子情感詞匯開(kāi)始,經(jīng)過(guò)迭代計(jì)算情感詞的情感分?jǐn)?shù),來(lái)不斷更新、擴(kuò)充和完善情感詞典。最終達(dá)到對(duì)評(píng)論進(jìn)行判定的目的。該算法主要包括以下幾個(gè)步驟:⑴讀取評(píng)論作為輸入數(shù)據(jù);⑵對(duì)評(píng)論進(jìn)行分詞、分句以及劃分帶狀區(qū)域操作;⑶選擇候選情感詞;⑷從候選情感詞中選擇種子情感詞匯,并設(shè)置情感分?jǐn)?shù),構(gòu)成最初的情感詞典;⑸迭代執(zhí)行以下步驟來(lái)訓(xùn)練情感傾向分析模型:1)由當(dāng)前的情感詞典計(jì)算出所有zone的情感傾向;2)由所有zone的情感傾向計(jì)算出所有句子的情感傾向;3)由所有句子的情感傾向計(jì)算出所有評(píng)論的情感傾向;4)通過(guò)統(tǒng)計(jì)候選情感詞的出現(xiàn)頻率,選擇符合條件的候選情感詞作為情感詞。計(jì)算情感詞的情感分?jǐn)?shù),并更新情感詞典;5)判斷是否滿(mǎn)足迭代終止條件,若不滿(mǎn)足則轉(zhuǎn)1);否則迭代終止。⑹輸出當(dāng)前情感傾向分析模型對(duì)所有評(píng)論的判定結(jié)果。
3 模型在產(chǎn)品評(píng)論中的應(yīng)用
本文采用的數(shù)據(jù)集是淘寶網(wǎng)上與連衣裙相關(guān)的中文評(píng)論性文章。本文對(duì)連衣裙數(shù)據(jù)集中的1489篇評(píng)論情感傾向進(jìn)行了人工標(biāo)注。其中1375篇為積極的評(píng)論,114篇為消極的評(píng)論。采用準(zhǔn)確率、精確度、召回率、三個(gè)指標(biāo)進(jìn)行性能評(píng)價(jià)。本文采用的迭代終止條件是迭代次數(shù)達(dá)到閾值。實(shí)驗(yàn)結(jié)果顯示:第1次迭代后三個(gè)指標(biāo)分別為0.68、0.91、0.72,隨著迭代次數(shù)的增加,三個(gè)指標(biāo)也隨著提高,當(dāng)?shù)螖?shù)達(dá)到閾值16次時(shí),準(zhǔn)確率為0.87、精確度為0.92、召回率為0.94。通過(guò)分析數(shù)據(jù)可得,該模型在評(píng)論文本中的表現(xiàn)較好,具有較高的準(zhǔn)確率。
[參考文獻(xiàn)]
[1]龐博,等.使用機(jī)器學(xué)習(xí)技術(shù)的情感分類(lèi)[C].自然語(yǔ)言處理中的實(shí)證方法,ACL-02會(huì)議,2002:79-86.
[2]宇弘,等.關(guān)于從觀點(diǎn)中分離事實(shí)的研究[C].EMNLP-03,2003:129-136.
[3]唐輝豐,等.使用標(biāo)注和未標(biāo)注文檔進(jìn)行文本分類(lèi)[J]2000,39(2-3):103-134.