王素格,楊安娜
(1. 山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 山西 太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室, 山西 太原 030006)
有些詞具有明顯的語義傾向,如“優(yōu)秀、聰明、漂亮、狡猾、妖艷、頑固”等,有些詞語盡管其本身是中性的,但在具體的語言環(huán)境中通過與帶有情感傾向或中性的其他詞語組合搭配,即可表現(xiàn)出強(qiáng)烈的情感傾向。比如,在汽車評論文本中,有些中性形容詞(如“大、小、高、低、松、緊”等)與一些帶有情感傾向的詞語組合后便具有傾向性,如“噪聲大/小、缺點(diǎn)(損失)大/小、樂趣大/小、優(yōu)勢大/小”等,與某些中性詞組合也可產(chǎn)生情感傾向,如“水平高/低、標(biāo)準(zhǔn)高/低、配置高/低”等。然而,在詞語級語言粒度下,這些具有情感傾向的詞語組合得不到充分挖掘與表征,獲得這種比詞匯粒度更大的具有情感傾向的詞語搭配是進(jìn)行句子的情感分類和觀點(diǎn)挖掘的前提[1-5]。
搭配被認(rèn)為是一種具有任意性、重復(fù)出現(xiàn)的詞語組合[6-7]。根據(jù)這個一般性搭配的定義,有些學(xué)者針對搭配的識別與獲取已做了相關(guān)研究工作[8-9]。隨著文本傾向性分析研究的深入,不僅需要獲取詞語搭配,更重要是判別其情感傾向。文獻(xiàn)[2]采用情感特征分析方法,提出了基于詞匯特征、修飾特征、句子特征以及文檔特征的短語極性判別方法。文獻(xiàn)[3]提出了統(tǒng)一搭配框架(UCF)的搭配獲取和搭配驅(qū)動(UCD)方法,但對于搭配傾向性判別仍采用了規(guī)則的方法。文獻(xiàn)[1]采用文獻(xiàn)[8]中一般性的搭配方法獲取了搭配,但并沒有考慮具有情感傾向性的詞語搭配的特點(diǎn),而文獻(xiàn)[5]在一般詞匯特征的基礎(chǔ)上,加入了否定短語,用于文本的情感分類。文獻(xiàn)[3,5]采用基于規(guī)則的方法,但僅考慮了搭配中詞匯的靜態(tài)情感傾向信息,并沒有對搭配詞的語義信息給出充分利用。文獻(xiàn)[6]采用概率潛在語義模型對“n+a”模式的短語情感傾向判別進(jìn)行了研究,并沒有對潛在語義塊的確定以及其他搭配模式的情感傾向判別給出更深入的研究。由于概率潛在語義模型屬于概率統(tǒng)計(jì)方法,當(dāng)樣本包含較少的搭配時(shí),會出現(xiàn)數(shù)據(jù)稀疏問題,為了解決這個問題,本文增加了詞匯的靜態(tài)信息,以提高系統(tǒng)的性能。
在文獻(xiàn)[4]中,我們考察了十種模式的詞語搭配,研究發(fā)現(xiàn)有一些副詞可以加強(qiáng)或者減弱它所修飾詞的傾向程度,也有一些副詞可以用于改變它所修飾詞的傾向,因此,對于“cd+a”、“cd+v”、“fd+a”和“fd+v”這四種模式的搭配的正反兩類情感傾向的判別僅僅采用規(guī)則的方法便可以得到相當(dāng)高的F值[4]。對于“v+n”、“v+v”、“a+n”、“n+a”、“a+v”和“a+a”六種模式的情感傾向,僅僅使用規(guī)則判斷其傾向有一定的局限性,因?yàn)樵~語搭配的傾向并不總是組成詞語傾向的簡單相加,尤其對于搭配中不含情感傾向性詞語的搭配時(shí),例如,“空間大”、“標(biāo)準(zhǔn)高”和“安全性高”等。雖然在文獻(xiàn)[4]中采用了一些個性規(guī)則進(jìn)行判斷,但個性規(guī)則建立比較耗時(shí),因此,本文重點(diǎn)研究“v+n”、“v+v”、“a+n”、“n+a”、“a+v”和“a+a”六種模式的情感傾向。首先構(gòu)建六種模式的概率潛在語義模型,通過搭配的特點(diǎn),確定各模式潛在語義塊聚類的詞語,并確定出各模式潛在語義塊的大小。然后根據(jù)問題構(gòu)造出似然函數(shù),采用EM算法估計(jì)各模式對應(yīng)模型中的參數(shù)值,最后,通過確定的參數(shù)值判斷各模式對應(yīng)搭配的情感傾向。為了解決數(shù)據(jù)稀疏帶來的性能下降,利用搭配詞語的靜態(tài)信息,構(gòu)造搭配情感傾向判別規(guī)則,將其作為概率潛在語義模型判別搭配情感標(biāo)注傾向的修正。
本文主要對搭配的正面、中立和反面三類情感傾向判別方法進(jìn)行研究,這三類分別記為1、0、-1。
概率潛在語義分析(Probabilistic Latent Semantic Analysis, PLSA)[10-12]是由Hoffmann提出了一種新的分析文檔的潛在語義模型,它是一種基于生成概率的模型,不同于潛在語義分析(SVD)是一種滿足最小方差原則的方法(映射前后能保持原向量和投影向量之間的方差最小),而是遵循最大可能性的原則,其核心叫做Aspect Model的統(tǒng)計(jì)模型。
根據(jù)文獻(xiàn)[6]的討論,圖1中模型(a)為原始的概率潛在語義模型,由于缺少語義傾向變量,因此不能用于搭配的傾向判別。模型(b)可顯示出具有統(tǒng)計(jì)基礎(chǔ)的潛在語義模型,X、Y分別表示詞類1、詞類2的詞語集合,Z為詞類1中詞語集合的潛在語義塊,C為X和Y構(gòu)成搭配的傾向集。通過概率p(C|YZ)直接影響到搭配(x,y)的語義傾向,在這個模型中只有詞語x被聚類。當(dāng)兩個詞語構(gòu)成搭配時(shí),有時(shí)雖然它們詞形不同,但構(gòu)成搭配的語義傾向有時(shí)會表現(xiàn)出相同的傾向,例如,“動力差、內(nèi)飾差、性能差”等。為了判斷搭配的語義傾向可以采用(b)圖模型,此時(shí)將y看成目標(biāo)詞“差”,x看成搭配詞“動力、內(nèi)飾、性能”。
圖1 模型表示
算法思想:在E步中按照當(dāng)前矩陣U和矩陣Vl的值,用式(1)計(jì)算每一個三元組(x,y,c)在產(chǎn)生潛在語義塊zk的條件下的先驗(yàn)概率;在M步中使用式(2)和式(3)分別對矩陣U和矩陣Vl中的概率值進(jìn)行重新估計(jì),交替進(jìn)行E步和M步,直至收斂為止。具體如下:
E步驟:對每一個三元組(x,y,c),計(jì)算產(chǎn)生潛在語義z條件下的先驗(yàn)概率:
(1)
M步驟:使用式(2)和式(3)對模型中的p(c|yz)和p(z|x)重新估計(jì)。
(2)
(3)
經(jīng)E步和M步迭代,當(dāng)似然函數(shù)E[θ]的增加量小于一個閾值θ時(shí)停止迭代,此時(shí)得到一個最優(yōu)解。
(4)
其中,fxyc表示的是數(shù)據(jù)集中三元組(x,y,c)的頻率。
搭配(x,y)的語義情感傾向判定: 通過E步和M步得到式(5),再利用式(6)可以得到搭配(x,y)相對于語義傾向?yàn)镃的概率值。最后,利用式(7)得到搭配(x,y)的情感傾向O(x,y)的判別。
(5)
(6)
(7)
概率潛在語義模型的本質(zhì)是統(tǒng)計(jì)方法,但統(tǒng)計(jì)方法本身有其不足,會掩蓋小概率事件的發(fā)生。當(dāng)搭配詞語中含有明確的語義情感傾向詞時(shí),可以使用規(guī)則的方法作為統(tǒng)計(jì)方法的補(bǔ)充。由文獻(xiàn)[4]可知,具有情感詞語搭配的構(gòu)成有兩種情況,一是搭配中不包含任何情感詞語,二是至少包含一個情感詞語。當(dāng)搭配中的詞語僅有一個情感詞語或兩個具有相同語義情感傾向的詞語時(shí),利用于規(guī)則方法進(jìn)行搭配情感傾向判別,其測試的可信度可達(dá)94%以上[4]。因此,本文構(gòu)造出如下規(guī)則并給出其可信度CF(Ri)(i=1,2,3,4):
這里,x,y分別表示左右搭配詞,F(xiàn)words為否定詞集,O(x),O(y),RO(x,y)分別為左搭配詞、右搭配詞以及搭配(x,y)的情感傾向。對于給定搭配,按照公式(8)進(jìn)行判別。
(8)
這里的Ωi為滿足規(guī)則Ri的搭配集合。
由于規(guī)則具有較高的可信度,本文將基于規(guī)則(靜態(tài)信息)作為概率潛在語義模型判別搭配情感傾向的修正?;旌险Z言信息的情感傾向判別公式見公式(9)。
O(x,y)=sgn(α·PO(x,y)+β·RO(x,y))
α+β=1
(9)
當(dāng)α=1,β=0時(shí),搭配(x,y)的情感傾向僅由概率潛在語義模型判斷,當(dāng)α=0,β=1時(shí),搭配(x,y)的情感傾向僅由規(guī)則方法進(jìn)行判斷。
設(shè)X,Y分別為詞語搭配中左右詞語集合。Z={
根據(jù)第2節(jié)公式(7),需要確定U-型模型的潛在語義塊,即確定搭配模式中詞類對應(yīng)的語義塊。由于篇幅所限,我們僅探討了“a+n”和“a+a”兩種模式。兩種模式得到聚類傾向性判別結(jié)果見表1。
表1 采用不同聚類詞集的語義塊得到搭配傾向判別的F值
由表1可知,對名詞集N聚類出的語義塊得到的搭配情感傾向各指標(biāo)均優(yōu)于采用形容詞集A聚類的結(jié)果;對形容詞集A1聚類出的語義塊反面F值和宏平均均優(yōu)于形容詞集A2聚類的結(jié)果。說明詞集基數(shù)較多的詞類,成為聚類的對象得到搭配的傾向判別結(jié)果較好。
對上述模式的搭配詞語傾向判別結(jié)果發(fā)現(xiàn):(1)在模式“a+n”中,一個形容詞可以修飾許多名詞,如:“大”就可以修飾名詞“空間、功率、市場、噪聲、噪音、風(fēng)噪、胎噪”等等,而“大”和“空間、功率、市場”搭配是褒義的,和“噪聲、噪音、風(fēng)噪、胎噪”是貶義的,這樣便把“空間、功率、市場”歸為一類,“噪聲、噪音、風(fēng)噪、胎噪”為另一類。(2)在模式“a+a”中,雖然具有相同的詞類,但由于修飾關(guān)系不同,得到的搭配傾向判別結(jié)果的也不同。
根據(jù)上述分析,本文采用以下策略進(jìn)行聚類潛在語義塊:
設(shè)R為聚類語義塊的詞語集合,若card(X)≥card(Y),則R=X,否則R=Y。
利用上述策略得到六種模式的模型如下:
圖2 六種搭配模式的U-型模型圖
由3.2節(jié)可知,對于聚類潛在語義塊的選取與搭配中詞語集的基數(shù)有關(guān),而語義塊數(shù)K的多少會直接影響系統(tǒng)性能與計(jì)算的復(fù)雜度。若K較大時(shí),接近標(biāo)準(zhǔn)模型,將會減弱詞語間的相關(guān)性;若K較小時(shí),會導(dǎo)致一些重要信息丟失。因此,并非語義塊數(shù)越多越好。我們對各種模式進(jìn)行了實(shí)驗(yàn)測試,得到最佳搭配傾向判別結(jié)果的K值,見表2。
表2 六種搭配模式的K值
概率潛在語義模型的作用是能聚類出詞語隱藏的語義信息,根據(jù)圖2各個模式的模型以及表2的K值,得到詞語在數(shù)據(jù)集中出現(xiàn)次數(shù)不小于2,并且按照序列p(z|x)排在前20位的部分聚類語義塊結(jié)果,見表3。
表3 不同模式下的聚類語義塊例子
表3所示的詞語聚類語義塊,較符合人們的認(rèn)知,例如,模式“a+n”中的名詞聚類塊C1與形容詞“大”搭配傾向?yàn)橘H義的后驗(yàn)概率為p(貶義|大,C1)=0.997 5,而模式“v+n”中的名詞聚類塊C1與動詞“解決”搭配傾向?yàn)榘x的后驗(yàn)概率為p(褒義|解決,C1)=0.999 8。因此,通過詞語聚類,可以獲得更多搭配的情感傾向。
為了驗(yàn)證基于潛在語義模型、規(guī)則方法和混合語言信息的詞語搭配情感傾向判別,本節(jié)采用公式(9),以及第三節(jié)介紹的語義塊的確定結(jié)果,進(jìn)行了如下三個實(shí)驗(yàn)。
實(shí)驗(yàn)1:基于概率潛在語義模型的詞語搭配傾向判斷,即α=1,β=0。
實(shí)驗(yàn)2:基于規(guī)則的詞語搭配傾向判斷,即α=0,β=1。
實(shí)驗(yàn)3:基于混合語言信息的詞語搭配傾向判別,即0≤α<β≤1。
上述三個實(shí)驗(yàn)的結(jié)果見表4。
由表4可知:
(1) 對于模式“a+n”、“n+a”,采用概率潛在語義模型的各項(xiàng)指標(biāo)普遍高于規(guī)則方法,說明這兩類模式的聚類效果比較好。而模式“v+n”采用規(guī)則方法的各項(xiàng)指標(biāo)普遍高于概率潛在語義模型方法,說明該模式構(gòu)成的搭配滿足本文構(gòu)造的規(guī)則較多。
(2) 對于模式“v+v”、“a+v”,采用規(guī)則方法的正面、中性的F值普遍高于概率潛在語義模型方法,而反面的F值則相反,說明滿足規(guī)則的兩類模式的正面、中性搭配較多,而滿足反面搭配的規(guī)則較少。
(3) 對于所有模式,混合語言信息的詞語搭配的各項(xiàng)指標(biāo)普遍高于其他兩種方法,說明該方法采用規(guī)則的方法去修正了概率潛在語義模型的判別的搭配種包含具有情感傾向詞語的結(jié)果。例如,“意外事故、噪音高”原為褒義,修正為貶義,“毛病多、存在毛病、產(chǎn)生懷疑”原為中性,修正為貶義,“帶來精神、沒事故、表示滿意”原為中性,修正為褒義。
(4) 對于模式“a+a”,由于符合該模式的搭配較少,規(guī)則作為概率潛在語義模型修正的結(jié)果不太穩(wěn)定,導(dǎo)致其性能不太理想。
(5) 在混合的語言信息的詞語搭配的傾向判別方法中,有些詞語搭配,如“保養(yǎng)里程、保養(yǎng)費(fèi)用、碰撞標(biāo)準(zhǔn)、碰撞程度、碰撞數(shù)據(jù)、碰撞測試、銷售服務(wù)、售后服務(wù)、投訴中心、投訴結(jié)果”等等本身是中性,卻被混合的語言信息方法判別為具有情感傾向的詞語搭配,而這些搭配本身應(yīng)為一個事件或被評價(jià)的對象,不具有傾向性。
表4 詞語搭配傾向性判別F值
本文在已抽取的“a+n”、“n+a”、“a+v”、“a+a”、“v+v”和“v+n”六種模式的詞語搭配基礎(chǔ)上,研究了其情感傾向分類。針對這六種模式的詞語搭配,提出了混合語言信息的詞語搭配情感傾向判別方法,并與基于概率潛在語義模型和基于規(guī)則的判斷詞語搭配情感傾向方法進(jìn)行了比較分析,實(shí)驗(yàn)結(jié)果表明前者優(yōu)于后者。但混合語言信息的詞語搭配的情感傾向判別方法主要是采用了規(guī)則修正概率潛在語義模型的判別結(jié)果,因此,有時(shí)會產(chǎn)生修正錯誤,而錯誤的部分原因是將一些事件或評價(jià)對象仍按詞語搭配進(jìn)行了傾向性判別,若能事先將些搭配識別為對象或者事件,可以避免此類問題的發(fā)生。另外,本文僅僅考慮了兩個詞語間搭配的情感傾向判別,對于多個詞語間的搭配的情感傾向判別應(yīng)是下一步研究的重點(diǎn)。
致謝:感謝哈爾濱工業(yè)大學(xué)信息檢索研究室提供的“語言技術(shù)平臺LTP”中的《同義詞詞林?jǐn)U展版》;感謝董振東先生提供的HowNet的情感詞匯和評價(jià)詞匯。
[1] Faye Baron and Graeme Hirst. Collocations as Cues to Semantic Orientation [C]// Poceedings of the AAAI Spring Symposium on Exploring Attitude and Affect in Text. Theories and Application. 2004. http//citeseer.ist.psu.edu/683844.html.
[2] T.Wilson, J.Wiebe, and P.Hoffmann. Recognizing Contextual Polarity in Phrase-level Sentiment Analysis [C]// Proceeding of the HLT/EMNLP, 2005.
[3] Xia Yunqing, Xu Ruifeng, Wong Kamfai, et al. The Unified Collocation Framework for Opinion Mining [C]//Proceeding of the Sixth International Conference on Machine Learning and Cybernetics, Hong Kong, 2007: 844-850.
[4] 王素格. 基于Web的評論文本的情感分類問題研究[D].上海:上海大學(xué)2008年度博士學(xué)位論文
[5] Na Jin Cheon, Khoo Christopher, Wu Paul Horng Jyh. Use of Negation Pphrases in Automatic Sentiment Classification of Product Reviews[J]. Library Collections, Acquisitions &Technical Services, 2005, 29:180-191.
[6] Hiroya Takamura, Takashi Inui. Latent Variable Models for Semantic Orientations of Phrases[C]//Proceedings of the 11thConference of the European Chapter of the Association for Computational Linguistics. Trento, Italy,2006:201-208.
[7] Benson Morton. The Structure of the Collocation Dictionary[J]. International Journal of Lexicography, 1989,2: 1-14.
[8] F. Smadja. Retrieving Collocations from Text: Xtract[J]. Computational Linguistics, 1993, 19(1): 143-177.
[9] 王素格, 楊軍玲, 張武. 自動獲取漢語詞語搭配[J].中文信息學(xué)報(bào),2006; 20(6): 31-37.
[10] T.Hofmann. Probabilistic Latent Semantic Indexing[C] //Poceedings of the 22nd International Conference on Research and Development in Information Retrieval. Berkeley, California: [s. n.], 1999: 50-57.
[11] T.Hofmann. Probabilistic Latent Semantic Analysis[C]//Proceedings of the 15th Conference on Uncertainty in Artificial Intelligence. Stockholm: [s. n.], 1999: 289-296.
[12] T.Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis[J]. Machine Learning, 2001, 42(1): 177-196.