◆閆婷婷 王恒
中文情感分析研究
◆閆婷婷 王恒通訊作者
(寧夏大學信息工程學院 寧夏 750000)
情感分析作為自然語言處理領域比較熱門的研究方向,備受研究人員的關注。本文從情感分析的任務出發(fā),對情感分類、情感信息抽取、情感信息的檢索與歸納三個任務進行了介紹,重點闡述了情感分類研究中基于詞典、基于機器學習的情感分類方法,最后本文介紹了情感分析的應用和情感分析的研究難點。
情感分析;情感分類;情感信息抽?。磺楦行畔⒌臋z索與歸納
隨著互聯(lián)網(wǎng)技術的快速發(fā)展,我國逐步向全面互聯(lián)網(wǎng)時代邁進,根據(jù)2020年4月中國互聯(lián)網(wǎng)絡信息中心發(fā)布的第45次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[1]顯示,截至2020年3月,我國網(wǎng)民規(guī)模達9.04億,互聯(lián)網(wǎng)普及率達64.5%。越來越多的人喜歡在微博、貼吧、論壇上對熱點話題、國家政策、產(chǎn)品服務等內(nèi)容進行交流討論,發(fā)表個人意見、觀點,表達情緒,從而產(chǎn)生了大量的主觀性文本。對這些文本捕捉進行分析從而得到公眾對事件或事物的看法,能夠幫助政府部門獲得相關輿情信息,消費者也能在購買產(chǎn)品時將獲取相關評價內(nèi)容作為參考依據(jù)。因此有效挖掘此類文本信息對輿情監(jiān)控、電子商務、信息預測具有重要價值。文本情感分析成為目前學術界研究的一個熱點。
文本情感分析是指對用戶表示的主觀性文本進行分析和挖掘,是對網(wǎng)上各種新聞資訊、社會媒體和用戶評論內(nèi)容進行提取、分析、處理、歸納和推理的過程。根據(jù)處理文本粒度的不同,情感分析可分為詞語級、短語級、句子級、篇章級等研究內(nèi)容;根據(jù)情感分析研究的任務類型可分為情感信息提取、情感分類以及情感信息的檢索和歸納等問題[2]。
情感分類又稱情感傾向性分析,主要用來判別文字中所表達的觀點、喜好等相關信息。情感分類按照不同的劃分方法導致劃分結果也不同,可分為主、客觀類,褒、貶類。按照分類粒度進行劃分,可分為詞語級、段落級和篇章級。本文主要從基于詞典和語義規(guī)則的情感分類方法以及基于機器學習的情感分類方法進行說明。
2.2.1基于詞典和語義規(guī)則的情感分類方法
基于詞典和語義規(guī)則的情感分類結合語法結構、設計的判別規(guī)則以情感詞典作為判斷情感傾向的主要依據(jù)。基于詞典和語義規(guī)則的情感分類對文本進行情感分析的主要思路[3]是首先對文本進行預處理,使用標點符號進行分割,得到分句,經(jīng)過設定好的情感詞典、否定詞典、程度副詞詞典,在不同的分句中,標注這些詞出現(xiàn)的位置。按照不同的組合方式制定不同的權值計算方法。分析句間關系,通過對不同句型的處理強化情感分析的合理性,最終得到整體的情感分值,根據(jù)閾值來對文本分類?;谠~典的情感分類關鍵在于詞典的構建,目前國內(nèi)外的情感詞典的構建方法主要是在已有的情感詞典的基礎上擴充所需要的情感詞典。顧宇杰在論文[4]中提到爬取微博評論數(shù)據(jù)進行過濾、分詞、詞性標注,其從微博評論數(shù)據(jù)中提取一部分詞建立適合對明星微博評論進行情感分析的基礎情感詞典、程度副詞詞典和否定詞詞典,并設計了一套情感打分規(guī)則。從微博評論中選取1000條進行人工標注,使用詞典和打分規(guī)則進行情感打分,通過計算正確率、召回率和F-測度值來驗證文中構建的情感詞典以及打分規(guī)則的有效性。
2.2.2基于機器學習的情感分類方法
基于機器學習的情感分類關鍵在于特征選擇、特征權重量化以及分類模型等要素。常用的特征選擇方法有信息增益法、基于文檔頻率的特征提取法、主成分分析法等。常用的特征量化方法有熵權重、布爾權重、TF-IDF方法等。常用的分類器模型有樸素貝葉斯、支持向量機、K近鄰等。張柳等人[5]基于詞云統(tǒng)計對文本內(nèi)容進行特征分析,獲取用戶評論高頻詞,通過對高頻詞的降維高效訓練樸素貝葉斯分類器,完成文本情感分類。最后展示出微博環(huán)境下的高校輿情情感演化圖譜。
隨著深度學習理論的不斷發(fā)展,基于深度學習的算法被應用在各種領域,許多學者也將其用在文本處理中來試圖提高文本分類的效果。深度學習是機器學習中發(fā)展的新領域。深度學習通過構建網(wǎng)絡模型對文本分析、自動學習文本特征,優(yōu)化模型輸出來提高文本分類的準確性。秦欣在其論文[6]情感分析中對N-Gram切詞生成的元組使用鄰接熵和互信息進行邊界自由度以及內(nèi)部凝固度度量后得到的候選詞集,使用詞典過濾后得到新詞集,將新詞加入分詞系統(tǒng)中來提高分詞的準確性,基于BERT詞向量改善語義欠缺和文本特征稀疏的問題,提出基于注意力機制的BiGUR-Att模型并進行情感分析,為進一步強化文本情感特征,引用注意力機制對BiGUR層輸出結果分配權重,從而提高對微博文本情感分類的準確率。
情感信息抽取是情感分析的底層任務,抽取情感評論文本中有意義的信息單元。情感信息抽取主要研究的問題包括觀點持有者的抽取、評論對象的抽取和評論詞語的抽取和判別。觀點持有者的抽取目的在于辨別情感文本的意見主體。在產(chǎn)品評論以及社交媒體的評論中,觀點持有者通常是評論員或者作者,可以查看其登錄賬號,所以觀點持有者的抽取相對簡單。
評價對象是指某段評論中所討論的主題,是評論文本中評價詞語修飾的對象。蔣盛益[7]等人在評論對象研究綜述中對評價對象方法進行了歸納、總結,并對基于模板規(guī)則、基于頻率、基于圖論和基于深度學習的評價對象抽取等方法進行重點分析,對評價對象抽取的評測情況以及可用資源進行回顧,對評價對象抽取的難點從跨句子評價對象和隱式評價對象兩個角度進行了討論。評價詞語的抽取和判別是對評價詞語的識別和極性的判斷。
情感信息檢索是為用戶檢索出主題相關且蘊含情感信息的文檔,情感信息歸納是為減少用戶瀏覽相關文檔的事件,針對大量主題相關含有情感信息的文檔進行分析和整理,將情感分析的結果提供給客戶作為參考。因此情感信息歸納是對情感信息檢索的進一步加工。
文本情感分析根據(jù)文本數(shù)據(jù)所提供的特征信息來計算文本的情感傾向,從而為決策的制定提供有力的依據(jù)。文本情感分析作為自然語言處理的基本任務,是人工智能的關鍵技術之一,被廣泛用于醫(yī)療衛(wèi)生、輿情分析、政府管理、國防建設等領域。例如隨著電子商務的高速發(fā)展,在線商品的評論數(shù)量急劇增加,商品評論中蘊含著具有商業(yè)價值的用戶偏好信息,對這些具有主觀性評論信息進行挖掘和分析,消費者可以了解到商品的詳細信息以便更好做出選擇,生產(chǎn)商和銷售商也可以通過消費者反饋過來的信息掌握自己的優(yōu)劣勢,通過改進產(chǎn)品或服務贏得競爭優(yōu)勢。
情感分析作為自然語言處理的子領域,其研究難點有著自然語言處理的共性及其自身的特殊性。情感分析的研究難點有分詞歧義、詞性標注歧義和情感語義歧義等[8]。分詞需要面臨歧義切分以及新詞發(fā)現(xiàn)的問題。歧義切分是指在分詞時面臨多種分詞方式,可以根據(jù)詞語在字典中出現(xiàn)的概率等方法來進行判斷,但新詞不存在字典當中可能會導致切分錯誤。詞性標注歧義,詞性標注產(chǎn)生的歧義問題是同一個詞語在不同的句子中有著不同的詞性類別。情感語義歧義有一詞多義和反義表達等,一詞多義是指相同的詞語在不同的語境下所表達的情感傾向并不相同,并且詞性相同、語法相近,所以通過句法分析很難識別詞語本義。反義表達是指貶義詞褒用、褒義詞貶用的表達方式。
隨著互聯(lián)網(wǎng)和自媒體時代的到來,網(wǎng)上出現(xiàn)了大量的帶有主觀性的文本,對這些文本進行分析,能夠為個人生活、企業(yè)運行、社會改革以及國家政策的制定提供支持。情感分類按照不同的劃分方法劃分結果也不同,本文從情感分析的任務出發(fā),對情感分類、情感信息抽取、情感信息的檢索與歸納三個任務進行了介紹。對情感分析的應用現(xiàn)狀進行了總結。同時情感分析的研究中依然存在著許多問題和挑戰(zhàn),值得我們進一步進行研究。
[1]中國互聯(lián)網(wǎng)絡信息中心(CNNIC).第45次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告,2020(4).
[2]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(08):1834-1848.
[3]孔杏,林慶.主觀性文本情感分類研究綜述[J].信息技術,2018,42(08):126-130+134.
[4]顧宇杰.面向微博評論的中文文本情感分類研究[D].云南財經(jīng)大學,2018.
[5]張柳,王晰巍,王鐸,韋雅楠.微博環(huán)境下高校輿情情感演化圖譜研究——以新浪微博“高校學術不端”話題為例[J].現(xiàn)代情報,2019,39(10):119-126+135.
[6]秦欣.基于深度學習的微博短文本情感分析技術研究[D].西安建筑科技大學,2020.
[7]蔣盛益,郭林東,王連喜,符斯慧.評價對象抽取研究綜述[J].自動化學報,2018,44(07):1165 -1182.
[8]薛益定.中文情感分析研究綜述[J].電腦編程技巧與維護,2016(05):22-24.