廖祥文,李藝紅
(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州350108)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,特別是進(jìn)入Web 2.0時(shí)代,越來越多網(wǎng)民通過網(wǎng)絡(luò)來表達(dá)自己的觀點(diǎn)、意見或看法。例如,人們不僅可以在網(wǎng)絡(luò)購物時(shí)對商品做出評論,也可以在論壇、博客等媒介上對某些熱點(diǎn)話題發(fā)表自己看法。因此,網(wǎng)絡(luò)已成為人們表達(dá)意見的重要渠道,如何分析人們的這些觀點(diǎn)、看法變得至為重要。對觀點(diǎn)、看法等傾向性信息分析可廣泛應(yīng)用于市場調(diào)查、商品比價(jià)等相關(guān)領(lǐng)域,有著重要的實(shí)用價(jià)值。
文本傾向性分析就是對文本中評價(jià)者所表達(dá)出的觀點(diǎn)態(tài)度進(jìn)行分析,已經(jīng)引起了國內(nèi)外研究人員的廣泛關(guān)注:國際檢索評測會議(Text REtrieval Conference,TREC)連續(xù)三年舉辦了博客傾向性檢索評測[1];國內(nèi)連續(xù)組織了針對中文的中文傾向性分析評測(COAE)[2]。傾向性句子識別是文本傾向性分析的重要組成部分,其目的是判斷一篇文章中的句子對評價(jià)對象是否持有情感傾向。目前國內(nèi)外關(guān)于傾向性句子識別的研究工作主要分為以下兩類:(1)基于語義規(guī)則的方法;(2)基于機(jī)器學(xué)習(xí)的方法。基于語義規(guī)則的方法雖然在特定的語料取得不錯(cuò)的效果,但是由于規(guī)則構(gòu)造不完備,泛化能力較差?;跈C(jī)器學(xué)習(xí)的方法把傾向性句子識別看成是二分類問題,從傾向性特征選擇出發(fā),采用SVM 等分類器識別傾向性句子,取得較好的效果。目前傾向性特征選擇主要集中在傾向詞詞頻統(tǒng)計(jì)、特殊符號等。然而,句子的傾向性不僅與傾向詞有關(guān),而且還跟句法、語義等因素有關(guān)[3]。如何融合這些特征構(gòu)造分類器,將有助于提高分類精度。本文提出了一種基于N-gram超核的中文傾向性句子識別算法。該算法從詞語的上下文信息及句法層面捕獲句子的傾向性信息,構(gòu)造N-gram超核函數(shù),最后采用支持向量機(jī)分類器識別中文傾向性句子。實(shí)驗(yàn)結(jié)果表明,基于N-gram超核的中文傾向性句子識別算法在一定程度上能有效識別傾向性句子。
本文主要結(jié)構(gòu)如下:第2節(jié)介紹了國內(nèi)外的相關(guān)工作;第3節(jié)是基于N-gram超核的中文傾向性句子識別;第4節(jié)給出實(shí)驗(yàn)方法和實(shí)驗(yàn)結(jié)果;第5節(jié)對本文的主要工作進(jìn)行總結(jié)。
文本傾向性分析[4](Sentiment Analysis)就是分析用戶對文本中某種事件的看法或評論,從而得到該看法或評論對事件是屬于積極或消極的意見。傾向性句子識別是文本傾向性分析的重要組成部分,其目的是判斷一篇文章中的句子的評價(jià)者對評價(jià)對象是否持有情感傾向。目前國內(nèi)外關(guān)于傾向性句子識別的研究工作主要分為以下兩類。
(1)基于語義規(guī)則方法。該方法主要有兩種,第一種是先抽取分析文本中的形容詞或能夠體現(xiàn)主觀色彩的短語,然后對抽取出來的形容詞或短語逐一進(jìn)行傾向性判斷并賦予一個(gè)傾向值,最后將所有傾向值累加起來得到文本的總體傾向性,比較具有代表性的工作是Hatzivassiloglou[5];第二種是預(yù)先建立一個(gè)傾向性語義模式庫,有時(shí)還會附帶一個(gè)傾向性字典,然后將待評估文檔參照語義模式庫做模式匹配,最后累加所有匹配模式對應(yīng)的傾向性值從而得到整個(gè)文檔的傾向性,主要代表性的工作是Yi等[6]。
(2)基于機(jī)器學(xué)習(xí)的方法。該方法先人工標(biāo)注一些文檔的傾向性,然后將這些文檔作為訓(xùn)練集,再通過機(jī)器學(xué)習(xí)的方法構(gòu)造一個(gè)褒貶兩類分類器,最后使用構(gòu)造好的分類器對待評估文本進(jìn)行分類,即識別出該文本的傾向性。Pang等人[7]分別使用樸素貝葉斯(Native Bayes)、最大熵(Maximum Entropy)及支持向量機(jī)[8](Support Vector Machines,SVM)方法進(jìn)行文本傾向性研究,并對三種方法作了比較分析,發(fā)現(xiàn)三者的效果差別并不太大,SVM的效果稍微比前兩種方法好一些。徐琳宏等人[9]就是選取褒貶傾向性比較強(qiáng)烈的詞作為特征項(xiàng),構(gòu)造了一個(gè)SVM褒貶兩類分類器來進(jìn)行文本傾向性分析的。
姚天昉等人[3]以詞語的原始字符串、詞性、有無傾向性三個(gè)特征來設(shè)計(jì)詞語的相似性核,以此引出短語集合的相似性核,繼而設(shè)計(jì)出核函數(shù)。這樣的算法比較直觀,但不夠全面:(1)其抽取的短語集合不夠全面;(2)核函數(shù)缺乏考慮不同傾向詞的傾向性強(qiáng)度。針對句子層的傾向性問題,本文提出了一種基于N-gram超核的中文傾向性句子識別算法。該算法從詞語的上下文信息及句法層面捕獲句子的傾向性信息,構(gòu)造N-gram超核函數(shù),最后采用支持向量機(jī)分類器識別中文傾向性句子。
本文提出的N-gram超核較之姚天昉等[3]提出的N-gram核,更能融合了中文句子語法、上下文信息等特征,能更有效地識別中文傾向性句子。下面介紹如何構(gòu)造N-gram超核來識別中文傾向性句子。
對于中文文本,漢字是最基本的語言單位,詞或短語是最小具有語義的語言單位。因而在中文傾向性句子識別中可以采用詞或者短語作為中文句子的特征。詞語一般具有三個(gè)特征:原始字符串、詞性及傾向性。姚天昉等人[3]以詞之間三個(gè)特征直接比較相同與否,來設(shè)計(jì)詞相似性核,很直觀,但較缺乏詞的傾向性信息。我們可以充分利用傾向性詞表的信息,構(gòu)建句子的向量空間模型。
這里我們定義t表示一個(gè)詞,它是一個(gè)三元組:
其中w為詞權(quán)重;pos為詞語t的詞性權(quán)重;s為詞語t的傾向性強(qiáng)度。
本文翻譯SentiWordNet并擴(kuò)展性地添加同義詞,以原有的傾向性評分作為傾向性詞的傾向性程度。詞權(quán)重是刻畫該詞出現(xiàn)時(shí)該句子具有傾向性的可能性,以詞語與傾向詞的相關(guān)度來計(jì)算。同時(shí),為了度量各種不同詞性在傾向性句子的不同作用,我們以詞性與傾向性句子的相關(guān)度來計(jì)量詞性的權(quán)重。
3.1.1 詞語與傾向詞的相關(guān)度
設(shè)句子中的詞集合T={ti|i=1,2,…,n},給定傾向性詞集合D={di|i=1,2,…,m},互信息是計(jì)算相關(guān)性的常用統(tǒng)計(jì)量,我們定義詞 a,b的相關(guān)度為:
其中p(a),p(b)分別表示出現(xiàn)詞a,b的概率。p(a,b)表示詞a,b在句子中同時(shí)出現(xiàn)的概率,采用拉普拉斯平滑后為:
這樣我們定義詞權(quán)重為:
3.1.2 詞性與傾向性句子的相關(guān)度
給定詞性集合P=pi|i=1,2,…,n和句子集合S=si|i=1,2,…,m,根據(jù)文檔中詞頻(Term Frequency)和逆文檔頻率(Inverse Document Frequency)的定義,我們可以相應(yīng)的給出句子中詞性頻率和逆句子頻率的定義,并以此來計(jì)算詞語詞性與傾向性句子之間的相關(guān)性強(qiáng)度:
核函數(shù)方法[10]是目前常用的分類算法,該方法在不增加計(jì)算復(fù)雜度的前提下可以有效地提高分類性能。核函數(shù)方法善于將樣本經(jīng)非線性映射到特征空間,而核函數(shù)能在特征空間中變換成內(nèi)積表達(dá)形式。
在滿足Mercer[11]條件下,核函數(shù)可以有多種形式供選擇[12-13]。目前常用的核函數(shù)主要有三種:多項(xiàng)式核函數(shù)、高斯核函數(shù)和sigmoid核函數(shù)。多項(xiàng)式核函數(shù)學(xué)習(xí)能力強(qiáng),但泛化能力較弱,而高斯核函數(shù)泛化能力強(qiáng),但學(xué)習(xí)能力較弱。因此可以用高斯核較強(qiáng)的泛化能力這一優(yōu)點(diǎn),來彌補(bǔ)多項(xiàng)式核學(xué)習(xí)能力強(qiáng)但泛化能力弱的缺陷。Smitsgt等[14]把高斯核和多項(xiàng)式核組合起來,組成的超核函數(shù)具有更好的學(xué)習(xí)能力和泛化能力。
為了能夠更好地融合反映句子傾向性的句法、語義等特征,本文利用超核函數(shù)的良好學(xué)習(xí)能力和泛化能力,提出了一種N-gram超核函數(shù)。具體構(gòu)造過程如下:
核函數(shù)反映的是輸入數(shù)據(jù)間的相似性,則設(shè)定詞語ti、tj,可以定義詞語相似性核為:
其中,ρ∈[0,1]是調(diào)節(jié)多項(xiàng)式核函數(shù)與高斯核函數(shù)之間的比例系數(shù)。
在傾向性句子中,傾向性詞、形容詞、動(dòng)詞的貢獻(xiàn)較大,但副詞也起了一定的作用,例如:屢次、終于、必定、的確、尤其。設(shè)傾向性詞、形容詞、動(dòng)詞及副詞[15]的 n-元短語模式為 phr=(t1,…tkey,…tn),則短語間的相似性核為:
傾向性句子由傾向性詞、形容詞、動(dòng)詞及副詞來體現(xiàn)出傾向性,我們可以利用句子中的傾向性詞、形容詞、動(dòng)詞及副詞的短語集信息來計(jì)算句子間的相似性。短語集合間的相似性核可以定義為:
其中,phri∈U1,1≤i≤n1,phrj∈U2,1≤j≤n2,n1為U1的元素個(gè)數(shù),n2為U2的元素個(gè)數(shù)。
這樣可以定義N-gram超核函數(shù)為:
語料采用第二屆中文傾向性分析評測(COAE2009)任務(wù)三“中文觀點(diǎn)句子抽取”的評測結(jié)果7335句以及從百度、Google的新聞、論壇、博客等網(wǎng)頁中抽取的句子2059句,總共9394句:其中有5975個(gè)傾向性句子和3419個(gè)非傾向性句子。
為了驗(yàn)證N-gram超核算法的優(yōu)越性,在算法之間的比較實(shí)驗(yàn)中,本文設(shè)計(jì)了三個(gè)實(shí)驗(yàn):第一個(gè)是單核函數(shù)與超核函數(shù)之間的學(xué)習(xí)結(jié)果比較,以驗(yàn)證超核函數(shù)的學(xué)習(xí)能力;第二個(gè)是姚天昉提出的N-gram核[3]與加進(jìn)副詞短語集的N-gram核之間學(xué)習(xí)結(jié)果的比較,驗(yàn)證副詞在傾向性句子中的作用;第三個(gè)是N-gram核與N-gram超核之間的比較,以驗(yàn)證N-gram超核的有效性。
實(shí)驗(yàn)以微F1值(MicroF1)和宏F1值(MacroF1)作為評價(jià)標(biāo)準(zhǔn),采用三份交叉驗(yàn)證:首先把整個(gè)語料分成三份,然后取其中的兩份進(jìn)行訓(xùn)練,另一份作為測試數(shù)據(jù),再把這三次的平均結(jié)果作為實(shí)驗(yàn)結(jié)果。
此外,本文采用了大小為5234的傾向性詞表,其中褒義詞2418個(gè),貶義詞2816個(gè)。分句、分詞采用哈爾濱工業(yè)大學(xué)信息檢索研究室提供的LTP分句工具和中國科學(xué)院計(jì)算技術(shù)研究所提供的ICTCAS分詞工具。
4.2.1 召回率和準(zhǔn)確率
其中,A表示正確地分配到該類別的句子數(shù);B表示不正確地分配到該類別的句子數(shù);C表示被該類別不正確拒絕的句子數(shù)。為了便于理解,我們在表1中給出了A,B,C三者之間的關(guān)系。
表1 鄰接表
4.2.2 微F1和宏F1
為了驗(yàn)證超核函數(shù)是否比單核函數(shù)具有更好的學(xué)習(xí)能力,首先基于4.1節(jié)介紹的語料,采用多項(xiàng)式核函數(shù)、徑向基核函數(shù)和Smitsgt等[14]設(shè)計(jì)的超核函數(shù)進(jìn)行分類比較,實(shí)驗(yàn)結(jié)果如表2和表3所示。
表2 Smitsgt超核函數(shù)與單核函數(shù)的微F1值/%
從表2和表3可以看出,三種核的微F1值都在60%左右,宏F1值都在53%左右,說明超核函數(shù)繼承了多項(xiàng)式核函數(shù)學(xué)習(xí)能力強(qiáng)的優(yōu)點(diǎn),具備了良好的學(xué)習(xí)能力。同時(shí),如果不充分考慮數(shù)據(jù)特征,只是把超核函數(shù)直接應(yīng)用于同樣的特征矩陣,超核優(yōu)越性不能得到很好的體現(xiàn)。
表3 Smitsgt超核函數(shù)與單核函數(shù)的宏F1值/%
在3.2節(jié)中提到,副詞在傾向性句子中也起到一定的作用,例如:
“人民終于創(chuàng)立了自己的基業(yè),奪取了政權(quán)。”
“她們的敬業(yè)精神尤其值得我們學(xué)習(xí)。”
在例句中副詞:“終于”、“尤其”雖不帶有傾向性,卻提升了傾向性句子的傾向程度。因此在該比較實(shí)驗(yàn)中,本文在姚天昉等[3]提出的N-gram核基礎(chǔ)上,在短語集中加入副詞短語集構(gòu)成Adv+N-gram核與N-gram核進(jìn)行微F1值和宏F1值的比較,驗(yàn)證添加副詞短語集的合理性。同時(shí),為了驗(yàn)證本文所提出的改進(jìn)算法是否有效,基于4.1節(jié)介紹的語料,以微F1值與宏F1值作為評價(jià)指標(biāo),將N-gram核與N-gram超核進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表4和表5所示。
表4 N-gram核、Adv+N-gram核和N-gram超核的微F1值/%
表5 N-gram核、Adv+N-gram核和N-gram超核的宏F1值/%
從表4和表5中,可以看出:
?Adv+N-gram核的微F1值和宏F1值都比N-gram核的稍高,這表明中傾向性句子識別中加入副詞短語集是有效的,Adv+N-gram核比N-gram核更能消除傾向性詞表覆蓋率不足的影響;
?N-gram超核的微F1值和宏F1值比N-gram核的都來得高,這表明設(shè)計(jì)的N-gram超核更具有捕獲上下文信息和句法信息的能力,能更有效的提高分類的精度;我們設(shè)計(jì)的N-gram超核能有效擴(kuò)張傾向性詞表,彌補(bǔ)傾向性詞表覆蓋率不足的缺陷,更能從語義層面判斷中文句子的傾向性。
綜合以上實(shí)驗(yàn)結(jié)果,基于N-gram超核的方法是一種有效的傾向性句子識別方法。它不僅考慮了傾向詞并且考慮了句中的形容詞、動(dòng)詞和副詞,從一定程度上彌補(bǔ)了傾向性詞表覆蓋率不足的缺陷。通過N-gram超核函數(shù)的定義,超核的方法能夠從上下文信息和語義層面上捕獲傾向信息,提高分類的準(zhǔn)確率。
針對中文句子的句法、語義及上下文信息,本文提出了一種基于N-gram超核函數(shù)的中文傾向性句子識別算法。該方法考慮句子的句法、語義等特征,利用超核函數(shù)構(gòu)造N-gram超核函數(shù),最后采用支持向量機(jī)識別中文傾向性句子。實(shí)驗(yàn)結(jié)果表明,與單核函數(shù)和姚天昉等提出的N-gram核[3]相比,N-gram超核從上下文信息和和語義層面上捕獲傾向信息,提高傾向性句子識別的精度。
致謝
感謝中國科學(xué)院計(jì)算技術(shù)研究所為我們提供ICTCLAS分詞工具和哈爾濱工業(yè)大學(xué)信息檢索研究室為我們這個(gè)任務(wù)提供LTP分句工具。
[1]C.Macdonald,I.Ounis,I.Soboroff.Overview of the TREC-2007 Blog Track[C]//The sixteenth International Text REtrieval Conference,2007.
[2]許洪波,姚天昉,黃萱菁.第二屆中文傾向性分析評測[C]//(COAE2009),上海,2009.
[3]Linlin Li,Tianfang Yao.A Kernel-based Sentiment Classification Approach for Chinese Sentences[C]//Sixth International Conference on Advanced Language Processing and Web Information Technology,IEEE,2009.
[4]Peter D.Turney,Michael.Littman.Measuring Praise and Criticism[C]//Inference of Semantic Orientation from Association,ACM Transactions on Information Systems,2003:315-346.
[5]Hatzivassiloglou,V,McKeown,K.R.Predicting the semantic orientation of adjectives[C]//Proceedings of the Eighth Conference on European Chapter of the Association For Computational Linguistics.European Chapter Meeting of the ACL.Association for Computational Linguistics,Morristown,NJ,1997:174-181.
[6]Yi,J.,Nasukawa,T.,Bunescu,R.,Niblack,W.Sentiment analyzer:Extracting sentiments about a given topic using natural language processingtechniques[C]//The Third IEEE International Conference on Data Mining,November 2003,.IEEE Computer Society Press,Los Alamitos,2003:427-434.
[7]BoPang,Lillian Lee,Shivakumar Vaithyanathan,Thumbs up?Sentiment Classification using Machine Learning Techniques[C]//Conference on Empirical Methods in Natural Language Processing.2002:79-86.
[8]L.Mangasarian,D.R.Musicant.Lagrangian support vector machines[J].Journal of Machine Learning Research,2001,1:161-177.
[9]徐琳宏,林鴻飛,楊忠豪.基于語義理解的文本傾向性識別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):96-100.
[10]Aizerman M,Braverman E,Rozonoer L.Theoretical foundations of the potential function method in pattern recognition learning[J].Automation and Remote Control,1964,25:821-837.
[11]Mercer J.Functions of positive and negative type and their connection with the theory of integral equations[J].Philosophical T ransactions of the Royal Society of London,1909,A209:415-446.
[12]Chapelle O,Vapnik V N,Bacsquest O,et al.Choosing multiple parameters for support vector machine[J].Machine Learning.2002,46:131-159.
[13]Cucker F,Smole S.On the mathematical foundations of learning[J].Bulletin of the American Mathematical Society,2001:1-49.
[14]Smithsgf,Jordaanem.Improved SVM regression using mixtures of kernels[C]//Proceedings of the 2002 International Joint Conference on Neural Networks.Washington,DC:IEEE,2002,3:2785-2790.
[15]Turney P,Littman M..Measuring praise and criticism:Inference of semantic orientation from association[J].ACM Transactions on Information Systems,2003,21(4):315-346.