張麗軍 殷銘 王飛
【摘 要】網(wǎng)絡(luò)信息良莠不齊,如何充分利用成為當(dāng)今的研究重點(diǎn)。情感分析是其中重要的研究分支,通過對(duì)這些信息進(jìn)行深度分析挖掘,識(shí)別出用戶的情感趨向或得出其觀點(diǎn),甚至發(fā)現(xiàn)情感隨時(shí)間的演化規(guī)律,從而便于分析出用戶的消費(fèi)習(xí)慣,發(fā)掘出熱點(diǎn)輿情,給企業(yè)、政府等機(jī)構(gòu)提供重要的決策依據(jù)。本文側(cè)重于主觀性語言中句子級(jí)的情感研究,結(jié)合Bo Pang,Lillian Lee(2004)提出句子情感分析子任務(wù),本研究從兩個(gè)方面展開1)主觀句識(shí)別,提取文本中包含的主觀句;2)主觀句的情感分類,包含句子的褒貶分類和句子的褒貶強(qiáng)弱分類在內(nèi)。并在此基礎(chǔ)之上,總結(jié)情感分析未來的研究趨勢(shì)。
【關(guān)鍵詞】海量信息;主觀句;情感分析;研究趨勢(shì)
一、引言
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)信息呈指數(shù)級(jí)增長,如何從海量信息中提取出潛在的有價(jià)值的信息已經(jīng)成為迫切需要解決的問題。該問題也引起了各領(lǐng)域?qū)<液脱芯空叩淖⒁?,學(xué)者們從各個(gè)角度展開研究,嘗試給出解決方案。其中針對(duì)海量信息進(jìn)行情感分析也是很重要的一個(gè)研究分支,該研究方向通過對(duì)信息深度分析挖掘,識(shí)別用戶的情感或者觀點(diǎn)的趨向性,甚至從中分析出情感隨時(shí)間的變化規(guī)律,從而進(jìn)一步挖掘出用戶的消費(fèi)習(xí)慣、挖掘出當(dāng)前用戶關(guān)注的熱點(diǎn)、挖掘出輿情的動(dòng)態(tài),給各機(jī)構(gòu)、各企業(yè)、各級(jí)政府等提供重要的決策依據(jù)。而情感研究方向,根據(jù)研究對(duì)象粒度的不同,又可細(xì)分為詞語級(jí)、句子級(jí)以及篇章級(jí)的情感分析,其中句子級(jí)情感分析是目前的研究熱點(diǎn)之一。結(jié)合Bo Pang,Lillian Lee(2004)提出的句子情感分析子任務(wù)以及文獻(xiàn)[1]:句子的主觀分類、句子的褒貶分類以及句子的褒貶強(qiáng)弱分類,本研究將從如下兩個(gè)方面展開研究:
1)主觀語句的識(shí)別,從海量信息中提取出含有主觀傾向的語句。
2)主觀語句的情感分類,包括兩個(gè)子方面:語句的褒貶分類以及語句的褒貶強(qiáng)弱程度的分類。
此外,本研究在此基礎(chǔ)上,嘗試預(yù)測句子級(jí)情感分析的未來主流研究趨勢(shì)。
二、主客觀分析
所謂主客觀的分析,就是從雜亂的文本中將含有主觀語言的部分抽取出來,將不帶感情色彩的文本過濾掉。1)基于詞典的方法。利用預(yù)先建立的詞典(可以是人工標(biāo)注也可以是機(jī)器自動(dòng)獲取的,統(tǒng)計(jì)文本中出現(xiàn)的詞語是否具有情感信息, 進(jìn)而判斷其主客觀性。2)基于統(tǒng)計(jì)的方法。利用訓(xùn)練好的數(shù)據(jù), 采用某種機(jī)器學(xué)習(xí)方法(例如SVM,最大熵),判斷新數(shù)據(jù)應(yīng)該劃分為主觀還是客觀。3)基于圖的方法。利用求最小割的方法把文本在句子級(jí)別上切分為主客觀兩個(gè)部分[4]。
2.1基于詞典的方法
文獻(xiàn)[5]以SentiWordNet為基礎(chǔ),構(gòu)建一個(gè)中文傾向性詞表,其處理方法是:首先將一些不用的詞語即停用詞等從句子中剔除掉,在一定程度上降低句子向量的維度,也是的句子的向量化速度得到了很大的提高;其次,在利用SVM分類器來判斷句子的具體情感趨向。
文獻(xiàn)[6]則專注于研究各形容詞對(duì)于識(shí)別主觀性句子情感傾向的作用,主要研究“開心”、“很棒”等各種形容詞,發(fā)現(xiàn)具有情感傾向的形容詞對(duì)該研究做出了很大的貢獻(xiàn)。
文獻(xiàn)[7]提出在自動(dòng)識(shí)別主觀性句子要關(guān)注網(wǎng)絡(luò)非規(guī)范詞語,其把來自網(wǎng)絡(luò)的非規(guī)范漢語詞匯分為典型非規(guī)范漢語詞匯和歧義非規(guī)范漢語詞匯。針對(duì)兩類詞匯分別采用不同的算法進(jìn)行識(shí)別。
文獻(xiàn)[8]研究了基于HowNet的情感詞典的構(gòu)建,提出屬性加權(quán)的統(tǒng)計(jì)學(xué)習(xí)算法來進(jìn)行情感分析,增強(qiáng)情感詞在文本傾向性分類中的貢獻(xiàn),具體實(shí)現(xiàn)了屬性加權(quán)的樸素貝葉斯和屬性加權(quán)的評(píng)分算法。
2.2基于統(tǒng)計(jì)的方法
文獻(xiàn)[9]構(gòu)建了一個(gè)系統(tǒng),該系統(tǒng)可以講述事實(shí)的如新聞、公告等普通文本中挖掘出帶有情感傾向的主觀性的句子。
文獻(xiàn)[10]實(shí)現(xiàn)了一個(gè)基于主動(dòng)學(xué)習(xí)的漢語意見元素標(biāo)注工具,可以自動(dòng)識(shí)別句子中的主題、情感和意見持有者等意見元素。主動(dòng)學(xué)習(xí)算法具有需要訓(xùn)練樣例較少,受不平衡訓(xùn)練樣例干擾較小,分類性能較好等特點(diǎn)。
文獻(xiàn)[11]提出了一種中文的傾向性句子識(shí)別分類算法,該算法以N-gram超核為基礎(chǔ),首先構(gòu)造出一個(gè)結(jié)合句子的具體特征N-gram超核函數(shù),再以該函數(shù)為基礎(chǔ)結(jié)合SVM分類器對(duì)識(shí)別出其中具有中文傾向性的句子。通過對(duì)比實(shí)證發(fā)現(xiàn),該算法比多項(xiàng)式核、N-gram核等單核函數(shù)更能有效識(shí)別出帶有情感傾向的主觀語句。
文獻(xiàn)[12]則構(gòu)建了一個(gè)Opinion Finder系統(tǒng),該系統(tǒng)在結(jié)合必要的上下文信息前提下,借助目前主流的自然語言處理工具,對(duì)句子先后進(jìn)行:對(duì)不同句子標(biāo)記不同記號(hào)、標(biāo)注詞語詞性、對(duì)句子中的修飾詞進(jìn)行修剪等操作,然后將處理后的句子利用NB分類器來識(shí)別。
文獻(xiàn)[4]通過試驗(yàn)說明了上下文信息對(duì)句子情感分析的重要性,而CRF(條件隨機(jī)場)模型能有效的利用上下文信息。
2.3基于圖的方法
文獻(xiàn)[12]利用以往的一個(gè)工作,假定主客觀屬性相同的句子,位置分布上也會(huì)比較接近,從而把候選的句子構(gòu)成了一幅圖,然后利用求圖最小割的方法來分類主、客觀句子。
三、情感分類
在識(shí)別出主觀性評(píng)價(jià)文本之后,下一步工作就是判斷主觀性句子的傾向了。接下來的部分,本研究將主要梳理一下目前主觀性句子的傾向性研究現(xiàn)狀。
學(xué)者姚天昉等[14]給出一套解決方案,該方案以領(lǐng)域本體和句法分析中的依存關(guān)系為基礎(chǔ),識(shí)別出句子的主題,計(jì)算出主題與情感描述項(xiàng)之間的關(guān)系、以及主題的情感極性。
徐琳宏等人則提出了一種基于語義理解的漢語文本極性自動(dòng)識(shí)別機(jī)制[15]。
此外,學(xué)者們[16] [17]還提出了基于HowNet的詞匯語義傾向性分析法以及基于同義詞詞林的方法等。除此之外,也有使用機(jī)器學(xué)習(xí)等統(tǒng)計(jì)的方法來獲取詞語的語義傾向性的研究。
李娟等[18]以同義詞詞典、褒貶義詞典為基礎(chǔ),實(shí)現(xiàn)主觀性詞語傾向性的自動(dòng)判別。先前很多研究只以褒貶義詞典為基礎(chǔ),而該方法在此基礎(chǔ)上還加入了同義詞詞典,從很大程度上擴(kuò)大了褒貶義詞典的范圍。此外,該方法使用了N元語法模型,克服了一詞多極性不可判定傾向的困難。該研究也通過實(shí)證對(duì)比驗(yàn)證了該思路的可行性和有效性。
王根[19]則將褒貶標(biāo)記間的冗余關(guān)系納入了考慮范圍,給出了一種以CRF為基礎(chǔ)的一體式框架。該框架中通過模型嵌入了潛在的、冗余的狀態(tài)標(biāo)記,從而便顯出不同標(biāo)記之間的層級(jí)關(guān)系。但是,由于這些標(biāo)記的存在,使得算法復(fù)雜度大大提高,另一方面,由于在每一個(gè)層級(jí)中有可觀標(biāo)記,使得分類的精度也有一定程度的降低。
劉康等[20]把句子的褒貶度分析問題看作一個(gè)序列標(biāo)注的問題,給出了一種基于層級(jí)CRFs模型的文本傾向性分析方法,利用從粗到細(xì)的策略,在CRFs框架下,充分考慮上下文信息的影響,把句子褒貶度分類和褒貶強(qiáng)度分類進(jìn)行區(qū)分,利用多個(gè)CRFs模型分開處理。較標(biāo)準(zhǔn)CRFs減少了兩個(gè)任務(wù)之間的影響,較好的改善了冗余標(biāo)記的標(biāo)注精度。作者利用CRFs定義句子情感分類的上下文依賴和標(biāo)識(shí)冗余,文章利用句子級(jí)的觀點(diǎn)分類問題的兩個(gè)特點(diǎn),第一個(gè)特點(diǎn),把文章觀點(diǎn)看作是一個(gè)序列標(biāo)記問題并且利用條件隨機(jī)場(CRFs)模型來表示文章中兩個(gè)相鄰句子之間的關(guān)系,第二個(gè)特點(diǎn),提出了一個(gè)基于CRF模型的方法原來的工作成為把它分為一個(gè)層次結(jié)構(gòu),由原始的標(biāo)記集和一些傳統(tǒng)的隱含標(biāo)記,在層次分析框架中,因?yàn)檫@些特征與原始的標(biāo)記有關(guān)但是還沒有,這些“冗余標(biāo)記”能夠用來表示不同情感分類的冗余和層次關(guān)系,在這個(gè)方面,不僅情感強(qiáng)弱排序能夠提升,主客觀分類的準(zhǔn)確度和傳統(tǒng)的情感分析方法相比也有了提升,對(duì)比層次方法,提出的方法能夠有效的減少錯(cuò)誤增長。這種方法最大的特點(diǎn)是考慮了不同級(jí)別情感分析之間難得相互影響,但是其編碼和解碼過程比較復(fù)雜。
四、研究趨勢(shì)
通過如上研究可知,目前對(duì)于情感分析越來越熱,在巨大商業(yè)利益的驅(qū)動(dòng)和廣大研究先行者的不懈努力下,句子級(jí)情感分析也取得了相當(dāng)?shù)难芯砍晒?,為進(jìn)一步的研究提供了理論支撐與實(shí)證支持:從技術(shù)上來看,目前已經(jīng)研究出結(jié)合多領(lǐng)域技術(shù)的各種分類方法和特征選取方案;從效果上來看,在保證文本來源可信可靠的前提下,在分析對(duì)象清洗的基礎(chǔ)之上,很多準(zhǔn)確率高的模型、產(chǎn)品甚至系統(tǒng)已經(jīng)相繼出現(xiàn)。
結(jié)合技術(shù)與效果的成效來看,在接下來的研究中,情感分析可能有如下發(fā)展趨勢(shì),詳見表2。
相信,隨著技術(shù)的不斷進(jìn)步和學(xué)者們的不斷探索,情感分析將會(huì)出現(xiàn)更大的突破,更多更先進(jìn)更成熟的產(chǎn)品和系統(tǒng)。
參考文獻(xiàn):
[1]周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用,2008,28(11):2725-2728
[2]Bo Pang and Lillian Lee.2005.Seeing stars:Exploiting class relationships for sentiment categorization with respect to rating scales[A].In:Proceedings of the ACI 2005[c].115.
[3]Y. Mao, G. Lebanon, 2O07. Isotonic Conditional Random Fields and Local Sentiment Flow[A].In:The Neural Information Processing Systems(NIPS1 9)[c].2007
[4]蒙新泛,王厚.主客觀識(shí)別中的上下文因素的研究[J]. 清華大學(xué)出版社,2009: 594-599
[5]李藝紅,蔣秀鳳.中文句子傾向性分析[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2010(04): 504-508
[6]HATZIVASSILOGLOUV, WIEBE JM. Effects ofadjective orienta-tion and gradability on sentence subjectivity[C]//Proceedingsof the 18th Conference on Computational Linguistics. Morristown, NJ,USA: Association forComputationalLinguistics, 2000: 299-305.
[7]姚天昉,張霄凱. 一種網(wǎng)絡(luò)非規(guī)范漢語詞匯的識(shí)別方法[J]. 清華大學(xué)出版社, 2009: 540-545.
[8]周德友. 基于HoWNet的中文語義傾向性分析技術(shù)研究[D].東北大學(xué)碩士論文
[9]YUH, HATZIVASSILOGLOU V. Towards answering opinion ques-tions: Separating facts from opinions and identifying the polarity opinion sentences[C]//Proceedings of the 2003 Conference on EmpiricalMethods in Natural Language Processing. Morristown, NJ,USA: Association forComputationalLinguistics, 2003: 129-136.
[10]宋鴻彥, 基于主動(dòng)學(xué)習(xí)的語料自動(dòng)標(biāo)注方法研究. 上海交通大學(xué)碩士論文, 2010(10).
[11]廖祥文,李藝紅.基于N-gram超核的中文傾向性句子識(shí)別[J].中文信息學(xué)報(bào),2011(05): 第89-93,100頁.
[12]WILSON T, HOFFMANN P, SOMASUNDARAN S,etal.Opinion-Finder: A system for subjectivity analysis[C]// Proceedings of the 2005 Human Language Technology Conference and Conference on EmpiricalMethods in Natural Language Processing. Morristown, NJ, USA: Association for Computational Linguistics, 2005: 34-35.
[13]PANG B, LEE L. A sentimental education: Sentiment analysis u-sing subjectivity summarization based on minimum cuts[C]// Pro-ceedingsof the 42ndAnnualMeeting of theAssociation forComputa- tionalLinguistics. Morristown, NJ, USA: Association forComputa-tionalLinguistics, 2004: 271-278.
[14]姚天昉,婁德成.漢語語句主題語義傾向分析方法的研究.中文信息學(xué)報(bào).2007.21(5)
[15]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007, 21(1): 96-100.
[16]朱嫣嵐,閔錦,周雅倩.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.
[17]婁德成,姚天昉.漢語句子語義極性分析和觀點(diǎn)抽取方法的研究[J].計(jì)算機(jī)應(yīng)用,2006,26(11):2622-2625.
[18]李娟,張全.賈寧.中文詞語傾向性分析處理.計(jì)算機(jī)工程與應(yīng)用2009,45(2)131-133
[19]王根,趙軍.基于多重冗余標(biāo)記RF的句子情感分析研究[A].全國第九屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)與[c].2007:600-605
[20]劉康,趙軍.基于層疊CRFs模型的句子褒貶度分析研究[J].中文信息學(xué)報(bào), 2008.22(1).123-128