桂 斌,楊小平,朱建林,張中夏,肖文韜
(1. 中國(guó)人民大學(xué) 信息學(xué)院, 北京 100872;2. 淮陰師范學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 淮安 223300)
?
基于意群劃分的中文微博情感傾向分析研究
桂 斌1,2,楊小平1,朱建林1,張中夏1,肖文韜1
(1. 中國(guó)人民大學(xué) 信息學(xué)院, 北京 100872;2. 淮陰師范學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 淮安 223300)
微博作為一種新興的社交網(wǎng)絡(luò)平臺(tái),逐漸成為公眾發(fā)布個(gè)人信息,獲取實(shí)時(shí)信息,表達(dá)個(gè)人觀點(diǎn)的新平臺(tái)。針對(duì)微博情感傾向判斷的問題,提出了一種基于意群劃分的中文微博情感傾向分析(STDSG)方法。引入意群的概念,提出微博意群劃分算法,根據(jù)意群間的關(guān)系,考慮否定詞、程度詞及標(biāo)點(diǎn)符號(hào)的對(duì)情感傾向分析的影響,提出計(jì)算微博意群情感傾向的方法。在給定的數(shù)據(jù)集上,實(shí)驗(yàn)結(jié)果準(zhǔn)確率達(dá)到了80.1%,總體性能優(yōu)于基于情感詞典的方法及基于支持向量機(jī)的方法。
微博; 意群; 情感傾向
近年來(lái),隨著互聯(lián)網(wǎng)的發(fā)展,論壇、博客等網(wǎng)絡(luò)交流平臺(tái)相繼出現(xiàn),人們?cè)絹?lái)越習(xí)慣于在網(wǎng)上發(fā)表主觀性的言論,形成了大量帶有情感傾向性的文本。微博作為一種新興動(dòng)態(tài)交流的多媒體博客,逐漸成為公眾發(fā)布個(gè)人信息,獲取實(shí)時(shí)信息,表達(dá)個(gè)人觀點(diǎn)的新平臺(tái)。
情感傾向分析是指利用計(jì)算機(jī)技術(shù)自動(dòng)分析帶有觀點(diǎn)信息的句子或文檔,從而提取出用戶感興趣的主題或特征,并分析其語(yǔ)義極性傾向(褒義、貶義或中性)和強(qiáng)度[1]。情感傾向性涉及人們的觀點(diǎn)、看法和評(píng)價(jià),包括人類行為相對(duì)于社會(huì)標(biāo)準(zhǔn)的評(píng)價(jià),產(chǎn)品相對(duì)于國(guó)家和行業(yè)強(qiáng)制標(biāo)準(zhǔn)、用戶偏好、審美觀的評(píng)價(jià)等。情感傾向包括文本所反映的情感的方向(褒或貶)及其強(qiáng)度。微博的傾向性分析可廣泛應(yīng)用于社會(huì)輿情分析、產(chǎn)品在線跟蹤與質(zhì)量評(píng)價(jià)、影視評(píng)價(jià)、博客聲譽(yù)評(píng)價(jià)、新聞報(bào)道評(píng)述、事件分析、股票評(píng)論、圖書推薦、企業(yè)情報(bào)系統(tǒng)、客戶關(guān)系管理(CRM)等方面,在社會(huì)經(jīng)濟(jì)和人民生活方面具有重要意義。
情感分析是近年來(lái)才興起的一個(gè)研究方向,是目前數(shù)據(jù)挖掘、文本挖掘、自然語(yǔ)言處理等領(lǐng)域的熱點(diǎn)研究課題之一,主要研究如何識(shí)別、分類、標(biāo)注和提取主觀文本及其所表達(dá)的情感、情緒和觀點(diǎn)。它也被稱為意見挖掘(Opinion Mining)、意見分析 (Opinion Analysis)、情感分類(Sentiment Classification)或者主觀性分析(Subjectivity Analysis)[2]。情感分析可分為詞語(yǔ)級(jí)、句子級(jí)、篇章級(jí)等幾個(gè)研究層次。詞語(yǔ)級(jí)語(yǔ)義傾向計(jì)算是句子級(jí)和篇章級(jí)語(yǔ)義傾向分析的基礎(chǔ)。Turney[3]將情感傾向量化為一個(gè)實(shí)數(shù)值測(cè)度,單個(gè)詞或短語(yǔ)的情感傾向可以進(jìn)一步被用來(lái)判斷整個(gè)句子或篇章的情感傾向,通過機(jī)器學(xué)習(xí)算法把整個(gè)文本區(qū)分為“贊揚(yáng)”和“批評(píng)”的情感傾向。Hatzivassiloglou[4]用詞語(yǔ)間的語(yǔ)義關(guān)系判斷詞語(yǔ)的情感傾向性。Kamps等人利用WordNet提供的詞語(yǔ)相似度進(jìn)行詞語(yǔ)語(yǔ)義傾向計(jì)算[5],但該方法只針對(duì)形容詞, 并只考慮了詞語(yǔ)間的同義關(guān)系。杜偉夫等提出一個(gè)可擴(kuò)展的詞匯語(yǔ)義傾向計(jì)算框架, 將詞語(yǔ)語(yǔ)義傾向計(jì)算問題歸結(jié)為優(yōu)化問題[6]。Meena[7]等則提出了針對(duì)句子的情感分析,不僅考慮單個(gè)詞語(yǔ)的情感傾向,還結(jié)合了句子的結(jié)構(gòu),語(yǔ)法以及其他語(yǔ)義信息。Wang 等[8]將啟發(fā)式規(guī)則和貝葉斯分類結(jié)合,將形容詞和副詞抽取出來(lái)作為特征詞來(lái)計(jì)算句子的情感傾向。王根等[9]將條件隨機(jī)場(chǎng)應(yīng)用于句子情感分析,提出基于多重冗余標(biāo)記的方法。楊超等[10]加入了句子出現(xiàn)的副詞的影響因子計(jì)算每個(gè)網(wǎng)絡(luò)評(píng)論中的每個(gè)句子的情感極性。Pang首次在篇章級(jí)情感分類任務(wù)中引入機(jī)器學(xué)習(xí)的方法[11],他們通過對(duì)比NB,ME和SVM三種分類模型,同時(shí)使用n-gram詞語(yǔ)特征和詞性特征,發(fā)現(xiàn)unigram特征效果最好。Cui的實(shí)驗(yàn)證明,unigram的效果只有在訓(xùn)練語(yǔ)料較少時(shí)較好;當(dāng)訓(xùn)練語(yǔ)料增多時(shí),n-gram(n>3)發(fā)揮了更大作用[12]
微博作為一種新興的網(wǎng)絡(luò)平臺(tái),從一誕生起就吸引了大批學(xué)者對(duì)其進(jìn)行研究。對(duì)于微博的情感分析的研究目前主要是以Twitter為研究對(duì)象,中文微博的情感分析研究正方興未艾。Davidiv等[13]利用Tweets中的標(biāo)簽中的標(biāo)簽和笑臉符號(hào)作為訓(xùn)練標(biāo)簽,訓(xùn)練出一個(gè)有監(jiān)督的類似KNN的分類器,然后應(yīng)用分類器對(duì)Tweets進(jìn)行情感分類。Barbosa等[14]針對(duì)Tweets的情感分類問題,采用了二步法: 他們首先采用抽象特征訓(xùn)練分類進(jìn)行主客觀分類,然后采用相同特征但修改詞的情感極性的權(quán)重來(lái)進(jìn)行情感極性分類。謝麗星等[15]提出了一種基于層次結(jié)構(gòu)的多策略中文微博情感方法,取得了較好的情感分析效果。
目前關(guān)于微博的情感傾向性分析的準(zhǔn)確率還比較低,與實(shí)際應(yīng)用的要求相比還有大的差距。我們認(rèn)為相比于新聞、博客等長(zhǎng)文本,微博內(nèi)容要短小精悍得多,也更加口語(yǔ)化和不規(guī)范,包含的信息量少,這些為微博的情感分析增加了難度。因此我們引入了意群的概念,對(duì)微博進(jìn)行意群劃分,在意群劃分的基礎(chǔ)上進(jìn)行微博情感傾向性分析,總體的分析處理流程如圖1所示。
圖1 總體分析流程
關(guān)于意群目前還沒有統(tǒng)一的定義,索翠萍[16]認(rèn)為意群是指復(fù)句中由意義和形式關(guān)系相對(duì)密切的兩個(gè)以上的分句所組成的結(jié)構(gòu)中心。周昌樂等[17]認(rèn)為所謂意群,指的是我們的語(yǔ)言所表達(dá)的思想都是通過一群相互關(guān)聯(lián)的意義單位體現(xiàn)出來(lái)的,而這些意義單元根據(jù)其所處語(yǔ)言片段的角色,有大有小,因此意群分割也就有一個(gè)多尺度問題。
句子是由詞語(yǔ)和短語(yǔ)組成的,是具有一定語(yǔ)調(diào)并表達(dá)一個(gè)完整意思的語(yǔ)言運(yùn)用單位。按照結(jié)構(gòu)來(lái)分,句子通常劃分為單句和復(fù)句。相對(duì)于復(fù)句,通常單句表達(dá)的結(jié)構(gòu)簡(jiǎn)單,意思簡(jiǎn)明。而復(fù)句是由兩個(gè)或以上意義相關(guān),結(jié)構(gòu)上互相不構(gòu)成句子成分的分句組成的句子。復(fù)句相對(duì)于單句來(lái)說(shuō)結(jié)構(gòu)更加復(fù)雜,句子表達(dá)的含義也更多。通常,復(fù)句都包含多個(gè)分句,每一個(gè)分句都表達(dá)了獨(dú)立的含義。我們比較認(rèn)同文獻(xiàn)[17]的觀點(diǎn),為了處理的方便,本文將句子中的分句作為意群,運(yùn)用逗號(hào)和分號(hào)作為句子意群的分隔符。
意群的情感傾向主要由帶有情感傾向的詞語(yǔ)決定,但如果只對(duì)情感詞進(jìn)行處理,忽略意群的內(nèi)部結(jié)構(gòu)以及上下文環(huán)境,會(huì)降低意群情感傾向分析的準(zhǔn)確率。例如,“好看卻很難吃”,如果只考慮情感詞,最后分析出來(lái)的情感傾向就是中性的,而實(shí)質(zhì)上意群所表達(dá)的意思是負(fù)向的,程度詞“很”在這里是加強(qiáng)了“難吃”的程度。為了提高意群情感傾向分析的準(zhǔn)確性本文將轉(zhuǎn)折詞也作為意群劃分的依據(jù)。換句話說(shuō),意群通常是復(fù)句中的分句,或者被轉(zhuǎn)折詞隔開的短語(yǔ)。劃分意群的算法如下所示。
算法1: 句子意群劃分算法
輸入: 句子
輸出: 意群
Step1 根據(jù)逗號(hào)和分號(hào)將句子劃分成一個(gè)個(gè)意群O
Step2 將意群進(jìn)行分詞,并逐個(gè)讀取劃分后的詞語(yǔ)word,若word屬于轉(zhuǎn)折詞,那么截取該意群
Step3 若所有句子處理完畢,則轉(zhuǎn)入Step4,否則轉(zhuǎn)入Step1
Step4 算法結(jié)束
對(duì)意群進(jìn)行情感傾向分析時(shí),情感詞是影響意群情感傾向的主要成分,但是僅考慮情感詞是不夠的。本文除了要考慮意群中出現(xiàn)的情感詞以外,還要考慮否定詞、程度詞及標(biāo)點(diǎn)符號(hào)。否定詞的出現(xiàn)能夠讓情感詞的情感傾向性反轉(zhuǎn),而程度詞則會(huì)影響情感詞表達(dá)的情感傾向的程度。一些標(biāo)點(diǎn)符號(hào)也會(huì)表現(xiàn)出情感傾向,起到加強(qiáng)意群或否定的作用。
如果在一個(gè)意群中,情感詞前面存在否定詞,那么該情感詞的傾向性反轉(zhuǎn)具體的辦法是對(duì)于一個(gè)情感詞,檢查它前面是否存在否定詞,并且兩個(gè)詞語(yǔ)的距離在一定范圍內(nèi),那么該否定詞有效,情感詞情感傾向反轉(zhuǎn),否則否定詞無(wú)效。這是中文中的“雙重否定”的現(xiàn)象。雙重否定就是存在兩次否定,表達(dá)的是肯定的意思。例如,“我不得不說(shuō)這件事情有問題?!本渥永锏摹安坏貌弧北硎镜木褪请p重否定,起到了肯定的作用,因此上句話的意思表達(dá)的是“我說(shuō)這件事情有問題”。對(duì)于一個(gè)否定詞,需要檢查它前面一個(gè)否定詞是否有效并且兩個(gè)詞在一定的距離以內(nèi),若滿足條件,則可以確定為“雙重否定”,兩個(gè)否定詞的效果消失。
程度詞對(duì)情感傾向性分析有著重要的作用,當(dāng)一個(gè)情感詞被程度詞修飾時(shí),它的情感傾向強(qiáng)度會(huì)被增強(qiáng)或者減弱。例如,“我非常喜歡這雙鞋子”和“我喜歡這雙鞋子?!北磉_(dá)的情感傾向強(qiáng)度就不一樣,雖然句子中同樣使用了情感詞語(yǔ)“喜歡”,但第一句中“喜歡”被程度詞“非常”修飾,“喜歡”所表達(dá)的正面情感傾向被加強(qiáng)。為了能夠準(zhǔn)確的識(shí)別程度詞,本文對(duì)知網(wǎng)提供的程度詞進(jìn)行修正,建立了程度詞表。按照程度詞表達(dá)的強(qiáng)烈程度,將程度詞劃分為: 最、很、較和弱四個(gè)級(jí)別。
標(biāo)點(diǎn)符號(hào)不僅能夠表達(dá)語(yǔ)法信息表示停頓信息以外,還能傳達(dá)情感信息。不同的標(biāo)點(diǎn)符號(hào)在語(yǔ)法上有不同的功能,在修辭上也表達(dá)不同的感情色彩。本文計(jì)算情感傾向時(shí),還考慮了標(biāo)點(diǎn)符號(hào)的作用,主要選取了感情色彩比較明顯的感嘆號(hào)“!”和“?”。通常,感嘆號(hào)能夠加強(qiáng)語(yǔ)氣,表示對(duì)前面所說(shuō)話語(yǔ)的肯定。問號(hào)多代表疑問語(yǔ)句,有懷疑的意思,有一定的否定意義在里面。但是否定的程度沒有直接使用否定強(qiáng)烈。本文分別給予感嘆號(hào)權(quán)重1.5,疑問號(hào)權(quán)重-0.5,其他符號(hào)權(quán)重1。
每個(gè)意群的情感傾向可按公式(1)計(jì)算。
(1)
其中n表示情感詞的個(gè)數(shù),αneg表示情感詞的否定權(quán)重,βadv表示情感詞的程度權(quán)重,γpun表示意群的標(biāo)點(diǎn)符號(hào)權(quán)重。
意群間通常有一定的關(guān)系,主要包括并列關(guān)系,遞進(jìn)關(guān)系和轉(zhuǎn)折關(guān)系。在遞進(jìn)關(guān)系中,后面的句子表達(dá)的意思比前一句更進(jìn)一層,表達(dá)的情感更強(qiáng)烈。轉(zhuǎn)折關(guān)系中,后一句的意思通常不是順著前一句說(shuō)的,而是做了轉(zhuǎn)折,表達(dá)相反的意思。在轉(zhuǎn)折關(guān)系中,通常前面的分句只是為了后面的分句做鋪墊,主要是為了突出轉(zhuǎn)折詞以后的概念。表示并列關(guān)系的詞語(yǔ): 和,跟,同時(shí),同,及,與,并,并且。表示遞進(jìn)關(guān)系的詞語(yǔ): 不但……而且……,況且,不僅……并且……;不僅……而且……,而且。表示轉(zhuǎn)折關(guān)系的詞語(yǔ): 但,但是,可是,然而,不過,雖然……但是……。根據(jù)意群間的關(guān)系,句子的情感傾向值計(jì)算公式如式(2)。
(2)
其中sensegroup表示意群,n表示意群的個(gè)數(shù),ai表示的是權(quán)重。在并列關(guān)系中,每個(gè)意群占相同的權(quán)重。在遞進(jìn)關(guān)系的意群中,a1 由于140字的限制,微博一般都比較短小,包含多個(gè)句子的微博較少。因此,本文計(jì)算微博的情感傾向時(shí)不考慮句子之間關(guān)系。根據(jù)公式(1)、(2),某條原創(chuàng)微博的情感傾向計(jì)算公式如式(3)所示。 (3) 根據(jù)公式(3)可以判斷微博的情感傾向?yàn)槭?4)。 (4) 5.1 實(shí)驗(yàn)數(shù)據(jù)及平臺(tái) 通過爬蟲程序從新浪微博上抓取了3 000條關(guān)于“京滬高鐵”事件的微博,人工標(biāo)注每條微博的情感傾向。為保證微博情感傾向標(biāo)注的可靠性,由三個(gè)標(biāo)注者分別對(duì)數(shù)據(jù)集進(jìn)行情感傾向標(biāo)注,然后應(yīng)用投票法確定情感的情感傾向。使用中科院分詞工具ICTCLAS對(duì)微博語(yǔ)料進(jìn)行分詞及詞性標(biāo)注,選用知網(wǎng)提供的情感詞典(HowNet)作為情感傾向分析的依據(jù)。實(shí)現(xiàn)程序使用JAVA語(yǔ)言并在eclipse平臺(tái)實(shí)現(xiàn),選擇的數(shù)據(jù)庫(kù)平臺(tái)是MYSQL5.0。 5.2 實(shí)驗(yàn)分析 為了更好地評(píng)價(jià)本文的實(shí)驗(yàn)結(jié)果,我們引入了準(zhǔn)確率和召回率及F-值作為評(píng)價(jià)指標(biāo)。準(zhǔn)確率是指算法分析準(zhǔn)確的某一傾向性的微博條數(shù)與進(jìn)行該傾向分析時(shí)分析到的微博總條數(shù)的比率;召回率是指算法分析準(zhǔn)確的某一傾向性的微博條數(shù)與所有該傾向微博總條數(shù)的比率;F-值是準(zhǔn)確率與召回率的調(diào)和值。在標(biāo)注的數(shù)據(jù)集中選取600條微博,其中包括正面微博210條,負(fù)面微博210條,中性微博180條。表1給出了本文算法的實(shí)驗(yàn)結(jié)果。 表1中給出了本文提出的基于微博話題的情感分析算法實(shí)驗(yàn)結(jié)果,其中正向情感傾向的準(zhǔn)確率為77.1%,召回率為91.4%;負(fù)向情感傾向的準(zhǔn)確率為92.1%,召回率為59.8%;中立情感傾向的準(zhǔn)確 表1 本文算法實(shí)驗(yàn)結(jié)果 率為71.2%,召回率為84.1%。從以上數(shù)據(jù)可以看出,負(fù)向情感傾向存在準(zhǔn)確率高,召回率相對(duì)較低的情況。負(fù)向情感傾向的召回率低,其原因我們分析主要有以下幾點(diǎn): (1)表達(dá)負(fù)向的情感詞不在情感詞典中。由于HowNet的并不能將所有的情感詞都囊括其中,以目前網(wǎng)絡(luò)中負(fù)面評(píng)論占主流的情況來(lái)看,負(fù)向情感詞要比其他情感詞要豐富得多。因此,有必要HowNet的情感詞典進(jìn)行擴(kuò)充,以提高情感分析的召回率;(2)中性詞表達(dá)負(fù)面傾向。中文表達(dá)的靈活性,使得許多詞義上的中性詞可以表達(dá)出情感傾向性,這是中文的優(yōu)越性所在,但也給文本情感傾向分析帶來(lái)了較大的困難;(3)反諷,人們使用帶有正面情感傾向的詞語(yǔ)來(lái)表示負(fù)面的意思。目前后兩種情況還比較難以解決,因?yàn)闋可娴秸Z(yǔ)義理解的問題。 5.3 實(shí)驗(yàn)對(duì)比 在標(biāo)注的數(shù)據(jù)集中選取2 400條微博,其中包括正面微博840條,負(fù)面微博840條,中性微博720條。在相同實(shí)驗(yàn)環(huán)境下,將本文的算法(STDSG)與基于情感詞典的情感傾向分析算法(SL)以及基于支持向量機(jī)(SVM)的情感傾向分析算法進(jìn)行對(duì)比分析。基于情感詞典的情感傾向分析算法(SL)是僅以HowNet作為微博情感傾向性判斷的依據(jù)?;谥С窒蛄繖C(jī)(SVM)的情感傾向分析算法,訓(xùn)練集與測(cè)試集的比例為4∶1,核函數(shù)選用最常用的徑向基核函數(shù):K(x,y)=e-‖x-y‖2/2σ2。運(yùn)用SVM進(jìn)行模式分類時(shí)需要確定兩個(gè)參數(shù): 懲罰因子C和RBF核函數(shù)中的半徑參數(shù)σ。通過網(wǎng)格搜索法來(lái)確定最佳的懲罰因子C和核半徑參數(shù)σ。圖2~4分別給出了不同算法的準(zhǔn)確率、召回率以及F-值結(jié)果。 從圖2~4的對(duì)比實(shí)驗(yàn)結(jié)果來(lái)看,本文的算法總體上要優(yōu)于其他兩種算法。 另外也可以看出,使用情感詞典的算法對(duì)微博進(jìn)行情感分析的準(zhǔn) 確 率要高于使用SVM機(jī)器學(xué)習(xí) 圖2 準(zhǔn)確率的對(duì)比實(shí)驗(yàn)結(jié)果 圖3 召回率的對(duì)比實(shí)驗(yàn)結(jié)果 圖4 F-值的對(duì)比實(shí)驗(yàn)結(jié)果 的方法。原因可能是微博中包含的信息量少,因此從微博中提取的特征會(huì)非常稀疏,高維的稀疏矩陣影響了機(jī)器學(xué)習(xí)的分類精度,同時(shí)機(jī)器學(xué)習(xí)方法比較適用于包含多個(gè)特征詞語(yǔ)的長(zhǎng)文本。在對(duì)微博進(jìn)行情感傾向分析時(shí),添加了否定詞,程度副詞等上下文信息的分類方法要優(yōu)于只使用情感詞語(yǔ)的方法,顯然否定詞、程度副詞等上下文信息對(duì)于微博情感傾向分析具有重要作用,是不可不考慮的語(yǔ)義信息。 本文引入意群的概念,將微博中句子結(jié)構(gòu)不單單是從句法結(jié)構(gòu)上加以劃分,而是在語(yǔ)義角度進(jìn)行劃分。將逗號(hào)、分號(hào)以及轉(zhuǎn)折詞均作為意群的分隔符,根據(jù)意群間的并列、遞進(jìn)、轉(zhuǎn)折等關(guān)系建立了基于意群的情感傾向計(jì)算公式。然后考慮否定詞、程度詞及標(biāo)點(diǎn)符號(hào)的影響,進(jìn)行微博情感傾向分析,提出了基于意群的微博情感傾向性算法。實(shí)驗(yàn)結(jié)果表明了該算法相對(duì)于基于情感詞典(SL)和基于SVM的情感傾向分析算法,具有較高的準(zhǔn)確率和召回率,能更加準(zhǔn)確地判斷出微博用戶的情感傾向。算法的不足之處在于,在負(fù)向情感的微博的召回率方面相對(duì)較低,有必要在意群的語(yǔ)義理解方面進(jìn)行更深一步的研究。 [1] 婁德成,姚天防.漢語(yǔ)句子語(yǔ)義極性分析和觀點(diǎn)抽取方法的研究[J].計(jì)算機(jī)應(yīng)用,2006, 26(11): 2622-2625. [2] B Pang, L Lee. Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval, 2008, 2(1-2):1-135. [3] Peter D Turney. Unsupervised Learning of Semantic Orientation from a Hundred-billion-word Corpus. Technical Report [ R ], National Research Council of Canada: M. L. Littman, 2002: 1-9. [4] Hatzivassiloglou,V, McKeown,K Predicting the semantic orientation of adjectives[J].In: ACL.1997:174-181. [5] Kamps J, Marx M, Mok ken R J, et al. Using WordNet to measure semantic orientation of adjectives[C]//Proceedings of LREC-04,4th Int Conf on Language Resources and Evaluation.Lisbon:LREC,2004: 1115-1118. [6] 杜偉夫,譚松波,云曉春,等.一種新的情感詞匯語(yǔ)義傾向計(jì)算方法[J].計(jì)算機(jī)研究與發(fā)展, 2009, 46(10): 1713-1720. [7] Meena,A,Prabhakar,T V. Sentence level sentiment analysis in the presence of conjuncts using linguistic analysis. In:Amat i,G.,Carp inet o, C.,Romano,G.(eds.)ECIR 2007.LNCS,vol. 4425: 573-580. [8] Wang Chao, Lu Jie, Zhang Guangquan.A semantic classification approach for online product reviews[C]//Proceedings of the 2005 IEEE/WIC/ACM International Conference on Web Intelligence (WI′5), 2005. [9] 王根,趙軍.基于多重冗余標(biāo)記CRF的句子情感分析研究[J].中文信息學(xué)報(bào), 2007, 21 (5): 51-55. [10] 楊超, 馮時(shí), 王大玲等. 基于情感詞典擴(kuò)展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2010,4:691-695. [11] B Pang,L Lee, S Vaithyanathan.Thumbs up?Sentiment classification using machine learning techniques[C]//Proceeding of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2002: 79-86. [12] Cui H,Mittal VO,Datar M.Comparative experiments on sentiment classification for online product revies[C]//Proceedings of the AAAI2006.2006: 1265-1270. [13] Dmitry Davidiv, Oren Tsur, Ari Rappoport. Enhanced Sentiment Learning Using Twitter Hash-tags and Smileys. In Coling 2010(poster paper), 2010: 241-249. [14] Luciano Barbosa, Junlan Feng. Robust Sentiment Detection on Twitter from Biased and Noisy Data.In Coling 2010(poster paper),2010: 36-44. [15] 謝麗星,周明,孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào), 2012,26(1):691-695. [16] 索翠萍.意群—一種劃分多層復(fù)句的好方法[J].職業(yè)技術(shù)教育,1999,18:25. [17] 周昌樂,丁曉君. 漢語(yǔ)機(jī)器理解的困難與對(duì)策一種意群動(dòng)力學(xué)的觀點(diǎn)[J].現(xiàn)代外語(yǔ), 2000,23 (2):195-201. Chinese Micro-blog Sentiment Orientation Identification Based on Sense Group Partition GUI Bin1,2, YANG Xiaoping1, ZHU Jianlin1, ZHANG Zhongxia1, XIAO Wentao1 (1. School of Information, Remin University of China, Beijing 100872, China; 2. School of Computer Science and Technology, Huaiyin Normal University, Huaian, Jiangsu 223300, China) Micro-blog as a new interaction social networking is rich in people’s opinions. Aiming at the Microblog sentiment orientation indetification,this paper proposes an algorithm based on the Sense Group partition.After an introduction to the concept of sense group, we propose the algorithm for the sense group partition. Then, together with the negative words, the degree words and punctuation, we establish the formula of sentiment identification based on the relationship between the sense groups. The experiments reveals an accuracy of 80.1%, outperformed the sentiment lexicon based approach and the SVM based method. Micro-blog; sense group; sentiment orientation 桂斌(1977—),博士,講師,主要研究領(lǐng)域?yàn)槲谋就诰?、智能信息處理。E?mail:guibin_163@163.com楊小平(1956—),博士,教授,主要研究領(lǐng)域?yàn)樾畔⑾到y(tǒng)工程。E?mail:yang@ruc.edu.cn朱建林(1979—),博士研究生,講師,主要研究領(lǐng)域?yàn)檎Z(yǔ)義分析、機(jī)器學(xué)習(xí)。E?mail:linjie_zhu@126.com 1003-0077(2015)03-0100-06 2013-04-08 定稿日期: 2013-07-15 國(guó)家自然科學(xué)基金項(xiàng)目資助(61203242) TP391 A5 實(shí)驗(yàn)結(jié)果及分析
6 結(jié)論