張曉梅,李 茹,2,王 斌,吳 迪,高俊杰
(1.山西大學 計算機與信息技術(shù)學院,山西 太原 030006;2.山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
微博作為一種新型的社交媒體平臺,為用戶提供了更加迅速、便捷的網(wǎng)絡(luò)社交服務(wù),尤其是面對一些突發(fā)事件時,微博起著至關(guān)重要的作用。例如,雅安地震中,以新浪微博為代表的社交媒體凸顯了強大的平臺影響力和號召力,極大地提升了災(zāi)難救助的效率。地震發(fā)生后,救援人員、網(wǎng)友、公眾人士、媒體等均第一時間在微博上發(fā)出相關(guān)的震災(zāi)信息。然而,微博的海量信息中還包含有大量話題不相關(guān)亦或客觀描述等其他無用信息,這就為政府部門等從微博中快速查找有用信息帶來了巨大困難。因此,如何從微博中自動獲取話題相關(guān)的有價值信息成為一個亟待解決的問題。
微博中與影視、期刊、產(chǎn)品、新政策等話題密切相關(guān)的主觀性文本,不僅有助于影視公司進行作品銷量分析,而且有利于產(chǎn)品公司進行質(zhì)量提高,同時,對于政府部門進行輿情監(jiān)督等工作也有重要價值。因此,本文將微博中話題相關(guān)的主觀性文本稱為有用信息,其他話題不相關(guān)或者話題相關(guān)但屬于客觀描述的文本稱為無用信息。本文面向微博的主客觀分類研究旨在將微博中有用信息與無用信息進行區(qū)分,即針對限定話題下的相關(guān)微博文本進行分類研究,進而從微博中提取有用信息。此外,微博的主客觀分類研究在自然語言處理領(lǐng)域中也具有重要意義,它不僅是情感分析[1-2]和觀點摘要[3]等研究領(lǐng)域的基礎(chǔ),也是觀點檢索系統(tǒng)[4]等研究的重要內(nèi)容。
近年來,面向微博的主客觀分類研究引起了眾多研究者的關(guān)注。其中,使用機器學習方法解決這一問題是當前主流[5-7],這種方法在性能上比基于規(guī)則的方法有明顯優(yōu)勢[8]。然而,在機器學習方法中,特征的選擇對分類的準確性起著至關(guān)重要的作用,因此,為了提高分類性能,需要選取有效的特征選擇方法。文獻[9]通過計算特征項n-gram在不同情感類中出現(xiàn)的概率熵來進行特征選擇,文獻[10]則通過對三種特征選擇方法(信息增益、卡方統(tǒng)計和文檔頻率)的性能進行比較,選擇效果最好的作為最終特征選擇方法。然而,衡量某個特征項的重要程度需要從類別關(guān)聯(lián)度和類別區(qū)分度兩方面來判斷,上述文獻均采用單一方法進行特征選擇,僅從某方面衡量特征的重要程度,同時,這些分類方法均未考慮特征之間的冗余性以及特征選擇方法之間的互補性。
因此,為了克服現(xiàn)有分類方法的缺點,綜合不同特征選擇方法的優(yōu)勢,進一步提高微博主客觀分類的準確性,本文提出了一種基于融合特征的微博主客觀分類方法,該方法研究了不同特征選擇方法對微博主客觀分類的影響,并利用特征融合算法將兩類特征選擇方法進行有效組合,考察組合后得到的融合特征能否獲得比最好特征選擇方法所得特征更好的分類效果。
本文的組織結(jié)構(gòu)如下: 第2節(jié)給出主客觀分類方法;第3節(jié)是實驗結(jié)果和分析;最后一節(jié)是本文的結(jié)論和將來的一些工作。
面向傳統(tǒng)文本的主客觀分類問題一般不考慮話題相關(guān)性,而實際應(yīng)用中話題相關(guān)的主觀性文本倍受關(guān)注且更具有潛在商業(yè)價值,因此,本文針對限定話題下的相關(guān)微博進行了主客觀分類研究。用一個三元組(ti,W,C)表示微博數(shù)據(jù),其中,ti表示微博中某個熱門話題,W表示該話題下的微博文本集合,C表示微博文本類別集合。因此,本文面向微博的主客觀分類問題可以形式化為: 給定微博熱門話題t1,t2,…,tn,以及相關(guān)微博文本集Wti,目標是從Wti中將隸屬于類別Cj的微博文本識別出來。
本文同時考慮了微博的話題相關(guān)性和主客觀性兩個層面的特征,并將該問題看成一個二分類問題,即針對限定話題以及相關(guān)微博文本集,將話題相關(guān)的主觀性微博即有用信息的類別標記為“1”,話題無關(guān)或話題相關(guān)但屬于客觀描述等無用信息的類別標記為“0”,進而通過機器學習方法構(gòu)建微博主客觀分類模型來解決此二分類問題。
最大熵(Maxent,簡稱ME)相對其他機器學習方法,其最大特點是不需要滿足特征與特征之間的條件獨立。因此,該方法適合融合各種不一樣的特征,而無需考慮它們之間的影響,故本文首選最大熵分類器作為微博主客觀分類工具。同時,支撐向量機(Support Vector Machine,簡稱SVM)也是當前較為流行的一種機器學習方法,而且在情感分類任務(wù)中取得了不錯的效果[10-11],因此,本文也使用SVM分類器對微博主客觀分類進行了對比研究。
機器學習方法的學習效果很大程度上依賴于特征的選擇,但在進行特征選擇前,需要先確定基本特征。本文根據(jù)微博語言特點以及對傳統(tǒng)文本的研究經(jīng)驗,提出了更加全面的基本特征,并在此基礎(chǔ)上,對兩類不同特征選擇方法進行組合,有效地選擇出相對最好特征選擇方法更優(yōu)的融合特征,進而結(jié)合該融合特征,利用機器學習方法對已標注微博進行建模,從而對未標注微博進行類別預(yù)測。
雖然中文微博限制用戶輸入的文本不超過140個中文字符,但與英文微博相比,中文微博包含了更豐富的語義信息,所以,對于中文微博的主客觀分類研究更為復(fù)雜。此外,微博文本也區(qū)別于普通文本,微博文本有其專屬的特征,因此,本文通過總結(jié)相關(guān)研究工作[11-12],并結(jié)合微博自身特點,提取了4大類共22個特征,如表1所示。
雖然所有的基本特征都可以作為分類器的輸入,但不相關(guān)或者冗余的特征可能會造成負面影響從而降低分類器的識別性能,因此,在分類前進行特征選擇是必要的。本文目的就是從基本特征中選擇出包含豐富語義信息且能夠較好地對微博進行形式化描述的特征子集。本文利用表1中所述基本特征,通過對不同特征選擇方法的特點進行分析,提出一種特征融合算法對兩類特征選擇方法進行組合來獲取微博主客觀分類的融合特征。
表1 基本特征
注: 情感符號是標點符號和表情圖片的統(tǒng)稱;表情圖片中不包含表情符號(如: O(∩_∩)O)。
每個特征都不同程度的反映了所研究問題的部分信息,但特征太多會增加計算量和增加研究問題的復(fù)雜性,因此,希望通過定量分析,用較少的特征子集表達較多的信息量,特征選擇方法正是基于這樣的目的而提出的。本文為了充分利用各特征選擇方法的優(yōu)勢,提出了一種特征融合算法,通過對兩類特征選擇方法(詳細內(nèi)容如2.4.1所述)進行組合來獲取有效融合特征。
2.4.1 特征選擇方法
特征選擇方法可以分為兩類: 有監(jiān)督的特征選擇方法和無監(jiān)督的特征選擇方法。常用有監(jiān)督特征選擇方法包括: 文檔頻率(Document Frequency,DF)、信息增益(Information Gain,IG)、平方統(tǒng)計(Chi-Square Statistic, CHI)和互信息(Mutual Information,MI)等方法[13]。其中,IG、CHI和MI是以關(guān)聯(lián)度來衡量特征項的重要程度,但IG是針對類別整體來考慮某特征項的重要性。而DF方法則通過閾值來選取具有代表性和類區(qū)分能力強的特征,即以類別區(qū)分度來衡量特征的重要性。這4種方法都可以從不同層面來獲取對分類有重要影響的特征,但其缺點是度量值的計算均與語料庫類別標注相關(guān)。
無監(jiān)督的特征選擇方法主要是指主成分分析法(Principal Components Analysis,PCA),該方法已廣泛應(yīng)用于所有科學領(lǐng)域的數(shù)據(jù)集上[14],其基本思想是: 設(shè)法將原來多個具有一定相關(guān)性的特征集,重新組合成一組新的互相無關(guān)的綜合特征子集來代替原來的特征集。它是考察多個特征間相關(guān)性一種多元統(tǒng)計方法,研究如何通過少數(shù)幾個主成分來揭示多個特征間的內(nèi)部結(jié)構(gòu),即從原始特征中導出少數(shù)幾個主成分,使它們盡可能多地保留原始特征的信息,且彼此間互不相關(guān)。該方法的優(yōu)點是所得特征子集可以有效降低特征之間的冗余度,但該方法也有不足,其容易忽略那些不相關(guān)的但類別區(qū)分度較高的特征。同時,該方法進行特征選擇時不考慮語料庫類別標注情況,所以,它受語料庫中類別標注的主觀因素影響較小,但其無法衡量特征與類別的關(guān)聯(lián)程度。
因此,為了充分利用不同類型特征選擇方法的優(yōu)勢,本文在上述兩類特征選擇方法的基礎(chǔ)上,提出了一種基于融合特征的微博主客觀分類方法。該方法主要是利用一種特征融合算法來獲取融合特征,其核心思想是: 利用上述兩類特征選擇方法,在降低原基本特征冗余度的同時考慮特征的類別關(guān)聯(lián)度和類別區(qū)分能力,即將這兩類特征選擇方法進行互補和組合,從而獲取最佳融合特征。這樣不僅可以降低原基本特征的維數(shù)和冗余度,而且保留了重要的基本特征,同時,相對平衡了語料庫標注穩(wěn)定性對特征選擇的影響。
從理論上講,如果把一條微博文本看作一個實體,則其可由多個屬性來描述,每個屬性又可以具化到多個實例(即特征項),文中有監(jiān)督的特征選擇方法僅是對基本特征項的單純組合,即在特征層面對微博文本進行描述,而無監(jiān)督的特征選擇方法PCA則可以看作對特征項進行了加權(quán)組合,即在屬性層面來描述微博文本,本文通過對這兩種不同類型的特征選擇方法進行組合,從而可以融合不同層面的信息來對微博文本進行形式化描述,進而獲取更佳分類效果。
2.4.2 特征融合算法
本文特征融合算法的基本思路: 利用無監(jiān)督特征選擇方法即PCA對原基本特征進行特征選擇,獲取冗余度低且互不相關(guān)的綜合性特征子集;將有監(jiān)督特征選擇方法中的四種方法分別對原基本特征進行特征選擇,并利用Feature Bagging算法(簡稱FB)對四種特征選擇方法進行有效組合,即將其選擇的特征子集進行融合,從而從原基本特征集中選擇出類別關(guān)聯(lián)度高且類別區(qū)分度高的特征子集;將前面兩種特征子集進行融合從而得到最佳融合特征。本文將該特征融合算法稱為PFB融合算法,其具體內(nèi)容如圖1所示。
Input:特征選擇方法集合methodSet={firstMethodSet,secondMethodSet},基本特征集合featureSetOutput:融合特征集合subFSetInit:subFSet←?;Step1:用methodSet集合中secondMethodSet集合的無監(jiān)督特征選擇方法PCA對featureSet中的基本特征進行選擇,獲取第一類加權(quán)綜合性特征子集subFSet1;Step2:用methodSet集合中firstMethodSet集合的的四種有監(jiān)督的特征選擇方法分別對featureSet中的特征進行選擇,并利用FB算法將各特征選擇結(jié)果進行融合,從而獲取第二類最佳特征子集subFSet2;Step3:將Step1和Step2中的兩類型子集進行合并,獲取融合特征子集,即:subFSet2subFSet1∪subFSet2。圖1 PFB算法總體流程
其中,F(xiàn)B算法是用來處理多特征選擇方法組合問題,其基本思想是: 選擇R個特征選擇方法Mi(i=1,2,...,R)分別對N個基本特征Fj(j=1,2,...,N)進行特征選擇,其中,Mi屬于第一類有監(jiān)督的特征選擇方法,F(xiàn)j是根據(jù)語料庫中的數(shù)據(jù)預(yù)定義的基本特征。對于基本特征集合中的每個特征Fj,用這R個特征選擇方法分別對其進行打分,最終,將得分最高的特征作為最終特征子集,其具體內(nèi)容如圖2所示。
Input:firstMethodSet,featureSet,thresholdKOutput:subFSet2Init:subFSet2←?,特征得分featureScore[featureSetSize]←{0};Step1:Forallmi∈firstMethodSet 特征統(tǒng)計值featureStatisticValue[featureSetSize]←{0}; Forallfj∈featureSet featureStatisticValuej←getStatisticValue(mi,fj); EndFor featureLocNumdescSort(featureStatisticValue,featureSet); Forallfj∈featureSet 特征位置編號fLocj←getNum(featLocNum,fj); IffLocj<=thresholdK featureScorej←featureScorej+1; Else featureScorej←featureScorej+0; EndForEndForStep2:featureScore←descSort(featureScore);Step3:subFSet2←getHighestScoreFeatureSet(featureScore,featureSet)。圖2 FB算法過程
本文針對新浪微博熱門話題應(yīng)用,對某熱門話題的相關(guān)微博文本進行主客觀分類研究。為了實驗方便,本文所用數(shù)據(jù)集來自于數(shù)據(jù)堂(http://www.datatang.com/),人工從中篩選了10個話題以及相關(guān)的9 268條微博評論。為了減少語料粗糙對微博主客觀分類準確率的影響,本文對語料進行了預(yù)處理,包括: 去掉轉(zhuǎn)發(fā)等不規(guī)則符號以及重復(fù)內(nèi)容、剔除并存儲微話題和鏈接、剔除表情符號等工作,最終保留了5 618條微博,詳細內(nèi)容如表2所示。
表2 數(shù)據(jù)集的統(tǒng)計信息
續(xù)表
話題類別標號話題主觀/條客觀/條全部/條影視7愛情公寓 2453315768藍精靈 286277563書刊9北京青年 24312436710平凡的世界260293553總計289927195618
經(jīng)統(tǒng)計,語料庫中主觀性微博所占全部微博的51.6%,即語料庫中主觀性微博和客觀微博數(shù)量相對均衡。另外,詞庫的構(gòu)建也是微博主客觀分類至關(guān)重要的內(nèi)容[15],本文構(gòu)建了7個詞庫,包括: 觀點詞庫、否定詞庫、程度副詞庫、轉(zhuǎn)折詞庫、感嘆詞庫、網(wǎng)絡(luò)俗語詞庫以及縮略詞庫。其中,觀點詞庫整合了常用的兩大知識庫,即由董振東等人提出建立的HowNet知識系統(tǒng)[16]和由大連理工大學建立的情感詞匯本體[17],并綜合了由山西大學建立的漢語框架網(wǎng)(Chinese FrameNet,CFN)的詞元庫[18];網(wǎng)絡(luò)俗語詞庫和縮略詞庫主要參照大連理工大學的情感詞匯本體,否定詞庫等其他詞庫均利用網(wǎng)絡(luò)資源總結(jié)所得。詞庫規(guī)模以及樣例如表3所示。
本實驗通過計算正確率(A)指標來評測微博主客觀自動分類的效果,具體定義如下:
表3 詞庫的統(tǒng)計信息
此外,本文還通過計算準確率(P)、召回率(R)、F-測試值(F1)三個指標對主觀性微博的識別效果進行了評測,具體定義如下:
在實現(xiàn)基于融合特征的微博主客觀分類時,本文選用五折交叉驗證(five-fold cross-validation)作為評測方法,并分別使用材智仁設(shè)計的SVM和張樂博士編寫的ME分類器對微博進行主客觀分類。
3.3.1 不同特征選擇方法的主客觀分類結(jié)果對比
本文先對所有基本特征直接進行分類,并在此基礎(chǔ)上,分別采用7種不同特征選擇方法(其中包括兩種特征融合算法)進行特征選擇而后結(jié)合不同分類器進行主客觀分類。不同特征選擇方法的分類結(jié)果如表4所示(均使用正確率A來評價)。
從表4可以發(fā)現(xiàn), 本文提出的PFB融合算法在不同分類器中均獲得了最佳分類結(jié)果,但結(jié)合ME分類器的結(jié)果相對較好。同時,PFB融合算法比單獨的PCA和FB算法的結(jié)果均有很大提高。此外,本文也得出了與文獻[10]一致的結(jié)果,即就單一特征選擇方法而言,使用IG進行特征選擇的分類結(jié)果最好。
表4 不同特征選擇方法的分類結(jié)果
3.3.2 主觀性微博的識別結(jié)果對比
實際應(yīng)用中主觀性微博的價值更大,因此,本文通過使用F1值來進一步衡量不同特征選擇方法結(jié)合不同分類器對主觀性微博的識別效果,如圖3所示。
圖3 主觀性微博的識別結(jié)果
圖3表示分別使用SVM和ME分類器時,不同特征選擇方法對主觀性微博的識別結(jié)果。通過對圖3中兩種不同分類器的識別結(jié)果進行對比,可以發(fā)現(xiàn)本文數(shù)據(jù)以及方法結(jié)合張樂博士編寫的ME分類器的主觀性微博識別結(jié)果相對較好。同時,從圖3中可以看出,相比其他特征選擇方法,PFB特征融合算法結(jié)合兩種不同分類器的主觀性微博識別結(jié)果均是最好的。因此,本文提出的PFB融合算法在主觀性微博識別方面依然可以取得最佳效果。
3.3.3 不同類型話題的實驗結(jié)果對比
為了觀察不同類型微博語料對于本方法的影響,本實驗采用實驗3.3.2中效果最好的PFB融合算法,并結(jié)合ME分類器對語料庫中不同類型話題下的主觀性微博進行識別。如圖4所示(均以F1值為評價標準),從圖中結(jié)果可以發(fā)現(xiàn)本文特征結(jié)合PFB融合算法對這三類不同類型語料的主觀性微博識別性能波動較小,初步說明本文方法較為穩(wěn)定,但“民生”話題的主觀性微博識別結(jié)果相對較低。通過分析,話題相關(guān)性特征對主觀性微博的識別結(jié)果具有重要影響,文中“民生”話題的相關(guān)微博文本中所包含話題較為靈活,因此,本文實驗對微博的話題相關(guān)性判斷還有待進一步提高。
圖4 不同類型話題的識別結(jié)果
3.3.4 單特征的IG值對比
信息增益可以根據(jù)某個特征項為整個類別提供的信息量多少來對特征性的重要程度進行判定,它能夠考察特征對整個系統(tǒng)的貢獻,IG值越大,說明該特征越重要。本文通過計算每個特征項的IG值來比較各特征項的重要性,結(jié)果如圖5所示。(通過觀察語料,發(fā)現(xiàn)在本實驗中不適合使用句子個數(shù)、內(nèi)容重復(fù)度和鏈接特征,故實驗前已將其剔除。圖5橫坐標中編號F1~F19分別與表1中其余19個特征按順序一一對應(yīng))通過比較,可以發(fā)現(xiàn)每個特征對微博主客觀分類均有效果,但個別特征未被充分利用,例如,觀點詞特征F1,根據(jù)經(jīng)驗,F(xiàn)1是非常重要的特征,但在本實驗中效果較差,因此,觀點詞特征有待進一步研究。
圖5 不同特征的信息增益值
最后,本文對微博主客觀分類研究進行了錯誤分析,發(fā)現(xiàn)實驗對兩種類型的微博不能準確識別。
① 隱性話題相關(guān)的主觀性微博。例如,“我也要!(話題“婚紗照”)”。該微博并沒有顯性包含話題詞,也沒有Hashtags,本文實驗對這種隱性話題相關(guān)的微博不能準確識別。
② 包含新型網(wǎng)絡(luò)詞匯的主觀性微博。例如,“《愛情公寓2》重口味宣傳片。太重了。太重了。(話題“愛情公寓”)”。由于網(wǎng)絡(luò)俗語更新速度快以及本文對網(wǎng)絡(luò)術(shù)語收集較少,對該類型微博也不能準確識別。
本文提出了一種面向微博主客觀分類的PFB特征融合算法,該算法綜合了不同特征選擇方法的優(yōu)勢,并通過對不同特征選擇方法進行有效組合來獲取融合特征。本文利用該算法,同時結(jié)合機器學習方法對新浪微博熱門話題中的微博數(shù)據(jù)進行了主客觀分類研究。實驗結(jié)果表明該融合算法能夠獲得比最好基特征選擇方法更佳的分類效果。在下一步的研究工作中,將考慮加入更多微博特征,例如,用戶名、轉(zhuǎn)發(fā)和回復(fù)等,并進一步對隱性話題相關(guān)的主觀性微博進行研究。
[1] Jiang L,Yu M,Zhou M,et al. Target-dependent Twitter Sentiment Classification[C]//Proceedings of the AMACL,2011:151-160.
[2] Barbosa L,Feng J L. Robust Sentiment Detection on Twitter from Biased and Noisy[C]//Proceedings of the COLING,2010: 36-44.
[3] Hu M Q, Liu B. Opinion Extraction and Summarization on the Web[C]//Proceedings of the AAAI,2006:1621-1624.
[4] Yu H, Hatzivassiloglou V. Towards Answering Opinion Question:Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]//Proceedings of the EMNLP, 2003: 129-136.
[5] Go A,Bhayani R, Huang L. Twitter Sentiment Classification Using Distant Supervision[R]. Technical report, Stanford Digital Library Technologies Project, 2009.
[6] Pak A,Paroubek P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining[C]//Proceedings of LREC,2010: 1320-1326.
[7] Davidov D,Tsur O,Rappoport A. Enhanced Sentiment Learning Using Twitter Hashtags and Smileys[C]//Proceedings of the COLING,2010:241-249.
[8] 李壽山,黃居仁. 基于Stacking組合分類方法的中文情感分類研究[J].中文信息學報,2010,24(5):56-61.
[9] 張珊,于留寶,胡長軍. 基于表情圖片與情感詞的中文微博情感分析[J].計算機科學,2012,39(z3): 146-148,176.
[10] 劉志明,劉魯. 基于機器學習的中文微博情感分類實證研究[J].計算機工程與應(yīng)用,2012,48(1):1-4.
[11] 謝麗星,周明,孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學報,2012,26(1):73-83.
[12] 姚天防,彭思崴. 漢語主客觀文本分類方法的研究[C]//第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集,2007:117-123.
[13] Yang Y M,Pedersen J O. A Comparative Study on Feature Selection in Text Categorization[C]//Proceedings of the ICML,1997: 412-420.
[14] Boutsidis C, Mahoney M W,Drineas P. Unsupervised Feature Selection for Principal Components Analysis[C]//Proceedings of the KDD,2008:61-69.
[15] Shen Y,Li S C,Zheng L,et al. Emotion Mining Research on Micro-blog[C]//Proceedings of the SWS,2009: 71-75.
[16] Dong Z D, Dong Q. HowNet. http://www.keenage.com/, 2005.
[17] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報學報, 2008, 27(2): 180-185.
[18] You L P, Liu K Y. Building Chinese FrameNet Database[C]//Proceedings of the IEEE NLP-KE,2005:301-306.