潘云仙, 袁 方
(1.河北大學 計算機科學與技術學院 河北 保定 071000;2.河北大學 數(shù)學與信息科學學院 河北 保定 071000)
?
基于JST模型的新聞文本的情感分類研究
潘云仙1, 袁 方2
(1.河北大學 計算機科學與技術學院 河北 保定 071000;2.河北大學 數(shù)學與信息科學學院 河北 保定 071000)
使用JST模型對中文新聞文本進行情感分析,相對于評論文本,新聞文本主觀性比較弱,而且大多是長文本,會影響JST模型的分類性能.給出一種抽取情感主題句的方法,將抽取得到的情感主題句結合現(xiàn)有的JST模型對新聞文本的情感傾向進行了分析.實驗表明,使用情感主題句進行情感分析,避免了與主題情感無關的句子對分析結果的影響,提高了分類準確率.
情感分析; JST模型; 褒貶義詞典; 情感主題句抽取
文本情感分析是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程[1].情感分析的主要任務是處理網(wǎng)絡上用戶主動發(fā)布的與主題相關的文本,識別出文本中所包含的主觀性句子,并對其情感趨勢進行判斷[2].這就引申出情感分析的研究重點:主客觀文本分類和主觀性文本的情感傾向性分類.文本的主客觀分類是將文本分為主觀文本和客觀文本兩類.主觀文本帶有感情色彩,客觀文本陳述事實.Yu Hong等[3]提出了一個以詞語為特征的樸素貝葉斯分類器來完成篇章級的主客觀文本分類.Pang Bo等[4]采用基于圖的最小割分類算法完成句子級的主客觀分類.姚天昉等[5]對中文的主客觀文本分類進行了研究分析.林慧恩等[6]初步探索了中文文本的主觀性信息提取方法,采用了主觀線索和主觀模式相結合的方法來提取主觀信息.
目前,主觀性文本的情感傾向性分類主要有基于規(guī)則的方法和基于統(tǒng)計的方法.基于規(guī)則的情感分析方法,成本高、工作量大,并且由于新詞的不斷出現(xiàn)和表達方式的變化,使得這種方法可擴展性差.因此基于統(tǒng)計的情感分析方法更多地被學者采用.文[7]采用機器學習方法對電影評論進行分類,比較了樸素貝葉斯、最大熵、支持向量機方法的分類準確率,實驗結果顯示支持向量機取得了最佳分類效果,分類準確率最高達到82.9%.文[8]使用樸素貝葉斯和最大熵方法進行了基于情感的新聞文本分類研究,其中最大熵方法的準確率在多數(shù)情況下要高于貝葉斯方法.文[9]給出了一種新的基于網(wǎng)絡評論語言學結構的固定情感詞元模型,較為明顯地提高了情感分類的效率和準確率.文獻[10]在LDA模型基礎上提出了聯(lián)合情感/主題模型(joint sentiment/topic model,JST),對每個詞采集情感標簽和主題標簽,最終得到文本的情感分類和潛在主題下的情感詞匯.
樸素貝葉斯、支持向量機等方法是有監(jiān)督的,而JST模型是無監(jiān)督的.在有監(jiān)督的機器學習方法中,分類器的訓練需要一定數(shù)量經(jīng)過標注的訓練樣本,然而人工標注過程相對耗時費力,成本高,而無監(jiān)督的機器學習則無需標注訓練樣本.另外,有監(jiān)督的學習方法構造的分類器依賴于訓練樣本, 當將一個領域中訓練的情感分類器轉移到另一個領域后,常常無法產(chǎn)生滿意的效果,因為在不同的領域,情感的表達是不同的,對于待分類的新聞文本,往往不知道其所屬的領域,無法事先用有監(jiān)督的學習方法構造適應性良好的分類器.無監(jiān)督的學習方法是對所有樣本數(shù)據(jù)進行分析,不存在領域轉移問題.樸素貝葉斯、支持向量機等方法只關注文檔的整體情感,沒有進行深入分析去探究潛在的主題和相關主題的情感.JST模型是主題情感混合模型,可以對文本進行情感分類和主題識別.因此,本文選用JST模型進行情感分析.
1.1 模型簡介
圖1 JST模型框圖
JST是文[10]提出的一種基于LDA的新型概率建模框架.JST模型是一個4層盤子模型:文檔與情感標簽關聯(lián),主題與情感標簽關聯(lián),詞與情感標簽和主題標簽關聯(lián),如圖1所示.JST模型應用在評論數(shù)據(jù)集上有不錯的效果,但是,目前還未見有人將其應用在新聞文本的情感分析中.本文使用JST模型對中文新聞文本進行情感分析.
JST模型的基本思想:假設語料庫中有D個文檔,記為C={d1,…,dD};語料庫中每個文檔用Nd個詞的序列表示,記為d=(w1,w2,…,wNd);記語料庫中去重后的詞匯表中的詞匯數(shù)量為V,則文檔中每個詞對應V中的一個索引項;不同的主題個數(shù)為T,不同的情感個數(shù)為S.生成文檔中一個詞的過程可歸結為3個階段:① 從帶有情感的文檔分布πd中選擇一個情感標簽l;② 在情感標簽為l的主題分布θl,d中隨機選擇一個主題;③ 從帶有主題和情感標簽的詞語分布φ中生成一個詞語.
對應圖1所示的層次貝葉斯模型,詞的生成過程如下[10]:
1) 對每個文檔,從參數(shù)為γ的狄利克雷分布中抽取多項式分布πd,即采樣πd~Dir(γ);
2) 對文檔d每一個情感標簽,從參數(shù)為α的狄利克雷分布中抽取多項式分布θd,l,即采樣θd,l~Dir(α);
3) 對文檔中的每個詞語wi:① 從πd中選擇一個情感標簽li,即采樣li~πd;② 從θd,li中隨機選擇一個主題標簽zi,即采樣zi~θd,li;③ 從主題為zi,情感為li的分布φli,zi中選擇一個詞語wi.
1.2 結合褒貶義詞典的JST模型
為了改善JST模型的分類性能, 文[10]通過種子情感詞、極性詞典等先驗知識來提高文檔情感分類的準確性.本文采用褒貶義情感詞典作為JST模型的先驗知識,詞典使用HowNet情感詞語集,其中中文正面情感詞語836個,中文負面情感詞語1 254個.
JST算法步驟[10]:
1) 初始化矩陣φ(詞語×主題×情感,V×T×S)、矩陣θ(主題×情感×文檔,T×S×D)和矩陣π(情感×文檔,S×D);
2) 從m=1至M執(zhí)行吉布斯抽樣迭代:
① 從文檔中讀取一個詞,隨機賦給詞主題標簽和情感標簽;② 根據(jù)
計算情感標簽為k和主題標簽為j的詞語wi的概率;③ 根據(jù)②中估計的概率,重新選擇一個主題標簽j;④ 選擇一個情感標簽k;⑤ 根據(jù)新的抽樣結果,更新矩陣φ、θ和π;⑥ 返回執(zhí)行①,直到處理完所有的詞.
采用褒貶義詞典作為先驗知識后,算法中步驟2)的①變?yōu)椋簭奈臋n中讀取一個詞,隨機賦給詞主題標簽,將詞與褒貶義詞典比對,若詞與褒貶義詞典中的某個詞相同,則賦給詞相應的情感標簽;若不同,則隨機賦給詞情感標簽.
為去除與情感主題無關的句子對分析結果的影響,本文給出一種針對新聞文本的情感主題句抽取方法.① 給出適用于新聞的主觀線索,對文檔中每個句子進行主觀句評分;② 使用主題句識別方法,對文檔中每個句子進行主題句評分;③ 綜合句子的主觀句與主題句評分,抽取得分最高的前k個句子,作為此文檔的情感主題句.
2.1 主觀句評分
新聞具有主觀性,是指在再現(xiàn)生活中真實發(fā)生的事件過程中,敘述者在新聞事件中表現(xiàn)出來的立場、態(tài)度和情感[11].由于受“真實性原則”的制約,新聞敘事總體表現(xiàn)出“低主觀度”的特征.文[5]對中文的主客觀文本分類進行了研究分析,總結出7條主觀線索:情感形容詞;第一或第二人稱代詞;不規(guī)范的標點符號;帶有感情色彩的標點符號;感嘆詞;發(fā)表意見或看法的動詞;不精確的數(shù)字和日期.由于新聞敘事的“低主觀度”,使得這7條線索并不完全適用于新聞的情感分析.
通過對新聞句子的觀察,參考文[11]對新聞敘事的主觀性研究,總結出3條適用于新聞的主觀線索:
1) 情感形容詞集
在《漢語形容詞用法詞典》中所列的1 063個形容詞的基礎上,去除主觀性強、主觀量大的形容詞(如卑鄙、自私、慈祥、豪爽等),剩余的707個形容詞作為符合新聞特征的情感形容詞集.
2) 情態(tài)詞
情態(tài)與主觀性是兩個密不可分的概念,因此將情態(tài)詞作為新聞主觀線索之一,主要包括以下30個情態(tài)詞:幸虧、可惜、多虧、竟然、居然、本來、怪不得、難怪、原來、其實、碰巧、偏偏、仿佛、好像、似乎、大概、或許、恐怕、一定、務必、必須、畢竟、反正、當然、的確、果然、確實、到底、千萬、難道.
3) 人稱指示詞
受新聞“還原事實的真實性”要求的制約,新聞中人稱指示詞“我”的使用受到限制,而代之以第一人稱第三人稱化的詞語“記者”、“采訪者”、“目擊者”等詞語.
采用以上主觀線索來對句子進行評分,步驟如下:
1) 對于給定的待測試的句子si,先對其進行分詞和詞性標注.本文所采用的分詞和詞性標注工具是由哈爾濱工業(yè)大學信息檢索實驗室開發(fā)的LTP中分詞及詞性標注IRLAS模塊;
2) 計算句子si的主觀得分.句子si的主觀得分等于句子中包含的每一個主觀線索的權重之和,
其中,wk表示主觀線索k的權重,nk表示句子si中含主觀線索k的詞匯數(shù).
2.2 主題句評分
使用王偉等人[12]對中文新聞關鍵事件的主題句識別方法,對主題句進行評分.設新聞中有n個句子, 首先分別計算出特征分量為相對詞頻(term)、句子位置(loc)、句子長度(len)、命名實體(ne)、句子與標題重合度(ht)的得分.假設句子的特征相互獨立,每個句子si(i≤n)的總分是各個特征分量的線性組合.
其中,Scoreht(si)和wht分別是句子與標題重合度的得分和權重,參數(shù)λ表示標題分類的結果,它作為開關決定是否使用標題特征.Scorek(si)和wk分別是各個特征分量的得分和權重,其中k∈{term,loc,len,ne}.
2.3 抽取情感主題句
綜合主觀句與主題句的評分情況,得到句子的最終得分,選取每篇文章中得分最高的前k個句子代替該篇文章,進行情感分析,
Score(si)=μScores(si)+νScoret(si).
3.1 數(shù)據(jù)集
由于目前沒有針對中文新聞文本進行情感分析評測的標準數(shù)據(jù)集, 所以本文從網(wǎng)易新聞中下載了400篇關于動物、兒童、環(huán)境、教育的新聞,并采用人工標注的方法對這400篇新聞進行情感標注,構造了本文的評測數(shù)據(jù)集.評測數(shù)據(jù)集包含正面新聞265篇,負面新聞135篇.
3.2 情感分類
本文實驗的情感只考慮褒義和貶義兩種,不考慮中性情感.
根據(jù)多次實驗觀察:
當參數(shù)α=50/主題數(shù),β=0.01,γ=0.01時,正面效果最好.
當參數(shù)α=50/主題數(shù),β=0.01,γ=5時,負面效果最好.
完整文檔的語料庫中,不同的詞語總數(shù)為13 471;抽取情感主題句后,語料庫中不同詞語的總數(shù)降為8 675.在沒有任何先驗知識的情況下,全文和情感主題句的情感分類的正面準確率分別為60.4%和63.9%,負面準確率分別為70.4%和72.2%.將褒貶義詞典作為先驗知識與JST結合后,全文和情感主題句的正面準確率分別為80.9%和82.3%,負面準確率分別為85.6%和89.0%.從以上數(shù)據(jù)可以看出,抽取情感主題句后的文檔在分類準確率上都有了一定的提高.將抽取得到的情感主題句代替全文進行分析,實際只是保留每篇文檔的帶有情感的并且與主題相關的句子,故準確率有了提高.
3.3 主題情感發(fā)現(xiàn)
發(fā)現(xiàn)文本中的主題情感詞,根據(jù)這些詞可以推測潛在的主題和情感,了解語料庫中的主題情感分布情況.新聞語料的主題情感發(fā)現(xiàn),不僅可以幫助人們從海量的互聯(lián)網(wǎng)新聞數(shù)據(jù)中找到所關注的信息,也可以宏觀掌握某段時間的新聞主題和情感傾向,為正確決策提供參考.
使用抽取情感主題句后的文檔進行實驗,根據(jù)詞屬于相應主題情感標簽的概率,分別選取主題1和主題2排名前15的正面詞語和負面詞語,并給出其對應的概率,見表1.從表1中的詞語可以看出,主題1是關于環(huán)境的,正面描述詞多與環(huán)保相關,負面描述詞多與污染相關;主題2是關于動物的,正面描述詞多與動物保護相關,負面描述詞多與動物傷害相關.
表1 主題情感詞匯表Tab.1 Topic/sentiment vocabulary table
本文給出一種新聞文本的情感主題句抽取方法,針對抽取得到的情感主題句,結合JST模型對新聞文本進行了情感分類和主題識別.實驗驗證了JST模型在中文新聞數(shù)據(jù)集上的可用性,使用抽取到的情感主題句進行情感分析,避免了與主題情感無關的句子對分析結果的影響,有效提高了新聞情感分析的準確性.
[1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848.
[2] 周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計算機應用,2008,28(11):2725-2728.
[3] Yu Hong,Hatzivassiloglou V. Towards answering opinion questions:separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing.USA:Morristown,2003:129-136.
[4] Pang Bo,Lee L. A sentimental education:sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. USA: Stroudsburg,2004:271-278.
[5] 姚天昉,彭思崴.漢語主客觀文本分類方法的研究[C]//第三屆全國信息檢索與內(nèi)容安全學術會議.蘇州,2007:117-123.
[6] 林慧恩,林世平.中文情感傾向分析中主觀句子抽取方法的研究[C]//全國第20屆計算機技術與應用學術會議(CACIS·2009)暨全國第1屆安全關鍵技術與應用學術會議.南寧,2009:379-384 .
[7] Pang Bo,Lee L,Vaithyanathan S. Thumbs up? sentiment classification using machine learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.USA:Philadelphia,2002:79-86.
[8] 徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007,21(6):95-100.
[9] 張素智,樊得強,李寶燕.基于網(wǎng)絡評論語言學結構的情感傾向識別模型[J].鄭州大學學報:理學版,2011,43(1):80-84.
[10] Lin Chenghua,He Yulan. Joint sentiment/topic model for sentiment analysis[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. USA: New York,2009:375-384.
[11] 李凌燕.新聞敘事的主觀性研究[D].上海:復旦大學,2010.
[12] 王偉,趙東巖,趙偉.中文新聞關鍵事件的主題句識別[J].北京大學學報:自然科學版,2011,47(5):789-796.
News-text Sentiment Classification Research Based on JST Model
PAN Yun-xian1, YUAN Fang2
(1.SchoolofComputerScienceandTechnology,HebeiUniversity,Baoding071000,China;2.CollegeofMathematicsandInformation,HebeiUniversity,Baoding071000,China)
JST model was used to analyze sentiment of Chinese news text. Compared with that of comment text, the subjectivity of news text was relatively weak. And most of the news text was long.To meet these challenges in the classification performance of JST model, a method was presented to extract the sentiment topic sentence, and then combined the extracted sentences with the existing JST model to analyze sentiment tendencies of news texts.The experimental results showed that analyzing sentiment in the extracted sentences avoided the influence of irrelevant sentences. Therefore, precision of classification was improved.
sentiment analysis; JST model; appraise dictionary; sentiment topic sentence extraction
2014-11-08
國家自然科學基金資助項目,編號61170039;河北省軟科學研究計劃項目,編號12457206D-11, 12457202D-63.
潘云仙(1989-),女,河北鹿泉人,碩士研究生,主要從事數(shù)據(jù)挖掘研究,E-mail:panyunxian@126.com;通訊作者:袁方(1965-),男,河北安新人,教授,博士,主要從事數(shù)據(jù)挖掘、社會計算研究,E-mail:yuanfang@hbu.edu.cn.
TP181
A
1671-6841(2015)01-0064-05
10.3969/j.issn.1671-6841.2015.01.014