王巍 趙鐵軍 徐冰 鄭德權(quán)
摘 要:評價文本的比較句識別是比較句情感分析的一項基礎(chǔ)任務(wù),具有重要的研究價值。提出中文比較句自動識別的方法,首先對包含至少一個關(guān)鍵詞的候選比較句進(jìn)行抽取,從而形成候選比較句集合,而后通過對候選比較句集合采用多特征融合的分類方法進(jìn)行分類。實驗結(jié)果表明比較句識別的性能達(dá)到87.26%的F1值。
關(guān)鍵詞:評價文本;情感分析;比較句識別;多特征融合
中圖分類號: TP391 文獻(xiàn)標(biāo)識碼: A 文章編號:2095-2163(2015)04-
Automatic Identify Chinese Comparative Sentences
WANG Wei, ZHAO Tiejun, XU Bing, ZHENG Dequan
(Machine Intelligence and Translation Laboratory, Harbin Institute of Technology, Harbin 150001, china)
Abstract: Comparative sentence identification in evaluative text is an essential task in comparative sentiment analysis, which has important research value. This paper proposes a comparative sentence identification method in Chinese. First, extract comparative candidates which contain at least a keyword to form a set of comparative candidates. Then identify comparative sentences from the set of candidates based on feature fusion. The experiment result shows the F1-score is 87.26%.
Key words: Evaluative Text; Sentiment Analysis; Comparative Sentence Identification; Feature Fusion
0 引 言
比較是一種重要的觀點表達(dá)方式和具有一定價值的認(rèn)知方式。人們可以通過比較來認(rèn)識未知事物,通過比較判斷多種相似事物的高下優(yōu)劣,以及通過比較獲取各種決策的依據(jù),比較影響著日常生活。在Web2.0時代,隨著網(wǎng)絡(luò)社會化媒體的快速發(fā)展,越來越多的用戶已經(jīng)從單純的網(wǎng)絡(luò)信息的閱讀者轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)信息的創(chuàng)造者和參與者。這些用戶在博客、微博、論壇、討論組等社會媒體中發(fā)表評論和比較觀點,創(chuàng)造了大量的主觀性文本,對這些主觀性文本、尤其是其中的比較文本進(jìn)行挖掘,可以更快速地獲取有價值的信息,更真實地了解社情民意,具有重要的現(xiàn)實和研究意義。
比較句識別的處理對象是用戶的評論文本,其任務(wù)就是從評論文本中識別出具有比較含義的句子,可以將該任務(wù)看作比較句和非比較句的二元分類任務(wù)。一些典型的比較句通常含有指示比較的關(guān)鍵詞,如“比”,“相似”,“不同”等,這些詞能夠表達(dá)實體之間的比較關(guān)系,在比較句識別中起著重要的作用。然而,含有這些指示詞的句子未必都是比較句,如“A的性能比較好”,類似地,不含指示詞的句子也可能是比較句,如“手機A有GPS功能,而手機B沒有該功能”。因此,提出有效的方法實現(xiàn)比較與非比較信息的分類,是比較句情感分析的一項重要任務(wù)。
本文嘗試使用有監(jiān)督方法對比較與非比較信息進(jìn)行分類。具體地,討論了如何根據(jù)比較的類別提取候選比較句,以及如何利用句子內(nèi)部的詞語和模式特征進(jìn)行分類?;诤蜻x比較句的識別結(jié)果,對比較與非比較句進(jìn)行分類,從而識別出比較句。實驗表明,比較信息分類能夠達(dá)到87.26%的F1值,基于支持向量機的方法可以有效識別出比較信息,同時基于比較句候選識別的方法可以有效平衡分類數(shù)據(jù)。
1 相關(guān)工作
與比較觀點相關(guān)的工作主要集中于語言學(xué)和計算語言學(xué)兩個領(lǐng)域。在語言學(xué)領(lǐng)域,一些研究者對中文比較句的指示詞、句法形式、語義含義和分類體系等方面進(jìn)行了研究。SHANG Ping[1]對現(xiàn)代漢語中比較句的各種分類體系進(jìn)行了總結(jié),認(rèn)為比較句的研究需要堅持語義與句法形式的充分結(jié)合,同時采用簡單明了的分類體系劃分方法。CHEN[2]等人研究了比較句中語法項目的選取與排序,同時對常用的20種漢語比較句句式進(jìn)行了總結(jié),并對每一種句式的使用頻率及該句式的語法項目選擇及排列情況進(jìn)行了統(tǒng)計。CHE Jing[3]對現(xiàn)代漢語比較句的句式范圍進(jìn)行了界定,并探討了比較句的結(jié)構(gòu)類型、語義類型和句法標(biāo)志詞等。這些研究從語言學(xué)的角度對比較句的語義和句法形式進(jìn)行了考察,為比較句的計算機自動識別工作奠定了基礎(chǔ)。
在計算語言學(xué)領(lǐng)域,比較句的自動識別方法主要有兩種:機器學(xué)習(xí)和模式匹配方法。一些研究者采用了機器學(xué)習(xí)的方法并獲得了較好的性能,比較句自動識別的課題首先由Jindal和Liu[4]提出,通過采用有監(jiān)督學(xué)習(xí)的方法對每一個英文句子進(jìn)行分類,在模型的訓(xùn)練過程中引入了類別序列規(guī)則特征,相應(yīng)的實驗則獲得了79%的準(zhǔn)確率和81%的召回率。Huang[5]等人在Jindal工作的基礎(chǔ)上,使用3種有監(jiān)督學(xué)習(xí)方法來識別中文比較句。Park[6]等人研究了科學(xué)文章中的比較句識別問題,通過使用3種分類器(樸素貝葉斯、支持向量機和貝葉斯網(wǎng)絡(luò))來識別比較句,而且在模型的訓(xùn)練過程中引入了詞法、依存句法等35種特征。Yang[7]等人針對韓語比較句的識別問題進(jìn)行研究,通過在候選比較句集合上使用有監(jiān)督學(xué)習(xí)方法來識別比較句。LI Jianjun[8]基于統(tǒng)計特征和序列特征,采用支持向量機和樸素貝葉斯模型來識別中文比較句。模式匹配是一種無監(jiān)督的學(xué)習(xí)方法,該方法依賴于所使用的模式庫。SONG Rui[9]等手工構(gòu)建了中文比較模式庫并利用該模式庫識別中文比較句??傮w而言,機器學(xué)習(xí)方法的性能好于模式匹配方法。
2 中文比較句的識別
2.1 基于關(guān)鍵詞查找獲取比較句候選
大多數(shù)比較句含有指示比較的關(guān)鍵詞,如“相似”、“不如”等,為了得到這些關(guān)鍵詞,本文將比較句劃分為5種類型,如表1所示。
研究中,很容易為前四類句子找到顯式的比較詞,基本方法是基于同義詞擴展。首先,利用語言學(xué)文獻(xiàn)構(gòu)建一個初始的關(guān)鍵詞集合 ,然而,初始關(guān)鍵詞集合無法覆蓋所有的比較表達(dá),因此基于同義詞的擴展,即將初始的關(guān)鍵詞集合 擴展為候選關(guān)鍵詞集合:
(1)
而后,從候選比較句集合中刪除那些頻率值低于指定閾值的詞語。對于第5類句子(隱式比較句),顯然無法為其找到任何的顯式比較詞,如
例1: “X手機有藍(lán)牙,而Y手機沒有?!?/p>
這類句子通常由兩個表達(dá)對比的短句組成,基于此,本文提出可為其構(gòu)建了詞-詞性序列,這些序列用來充當(dāng)比較詞的作用,如“
(2)
研究中的比較詞典共包含102個關(guān)鍵詞,30個序列。比較詞典構(gòu)建完成后,則使用該詞典提取比較句候選,具體地,如果一個句子包含一個或多個比較詞或序列,則該句子作為候選比較句。
2.2 基于多特征融合的候選比較句分類
為了從候選比較句集合中過濾掉非比較句,在此采用了多特征融合的方法,使用支持向量機算法融合多種特征,進(jìn)行二元分類。
2.2.1術(shù)語特征集合
一些詞語頻繁出現(xiàn)在一個類別中,但很少出現(xiàn)在另一個類別中,這些詞語對句子有一定的區(qū)分作用。因此,可以采用信息增益的方法來提取這些詞語(特征)。信息增益(IG)法依據(jù)某特征項 為整個分類系統(tǒng)提供的信息量的多少來衡量其重要程度。某個特征項 的信息增益是指有該特征或沒有該特征時,為整個分類系統(tǒng)所提供的信息量的差別。令 代表目標(biāo)空間中類別的集合,一個特征項 相對于一個分類系統(tǒng) 的信息增益量定義如下:
(3)
其中, 代表特征項 出現(xiàn),而 代表特征項 不出現(xiàn)。公式(3)中第一項是初始分類系統(tǒng)的熵值,第二項是當(dāng)給定一個特征項時,系統(tǒng)條件熵的預(yù)期值。兩項的差即為某個特征項帶給分類系統(tǒng)的信息增益量。 表示 類句子在語料中出現(xiàn)的概率, 表示語料中包含特征項 的句子的概率, 表示句子包含特征項 時屬于 類的條件概率, 表示語料中不包含特征項 的句子的概率, 表示句子不包含特征項 時屬于 類的條件概率。
對于訓(xùn)練數(shù)據(jù)中的每一個詞語,則需計算其信息增益值,并且選擇那些增益值高于指定閾值的術(shù)語。
2.2.2關(guān)鍵詞特征集合
同2.2.1節(jié)。
2.2.3 序列模式特征集合
比較句的語言模式不同于非比較句,這些模式可以用作機器學(xué)習(xí)的特征。為了挖掘比較句的序列模式,首先基于訓(xùn)練數(shù)據(jù)構(gòu)建了序列數(shù)據(jù)庫,該數(shù)據(jù)庫構(gòu)建的過程如下:
(1) 將訓(xùn)練數(shù)據(jù)中的每個句子分解為若干子句,標(biāo)記每一個子句為比較或非比較。
(2) 對于每一個包含關(guān)鍵詞(一個或多個關(guān)鍵詞)的子句,以其中每個關(guān)鍵詞為中心生成一個序列,具體地,以關(guān)鍵詞為中心,將關(guān)鍵詞半徑為5的范圍內(nèi)的詞和詞性標(biāo)記作為一個序列。對于關(guān)鍵詞本身,使用實際詞作為一項。
(3) 每一個序列被分類為或者比較或者非比較,根據(jù)生成該序列的子句的類別。
序列數(shù)據(jù)庫準(zhǔn)備好以后,即使用具有多個最小支持度的PrefixSpan[10](Prefix-projected Sequential pattern mining)算法挖掘頻繁序列。設(shè)置多個最小支持度是因為一些關(guān)鍵詞在比較句中頻繁出現(xiàn),而另一些關(guān)鍵詞卻很少出現(xiàn),具體地,將在某一詞頻范圍內(nèi)的關(guān)鍵詞設(shè)置成相同的最小支持度。算法的結(jié)果需要滿足最小置信度閾值(在本文的實驗中,最小置信度閾值設(shè)置為0.7,取得了最好的效果)。
例 2:“寶馬/NR 的/DEG 發(fā)動機/NN 最/AD 棒/JJ !/ PU”
例2有關(guān)鍵詞“最”,一個以“最”為中心的序列如下:
<{NR} {DEG} {NN} {最} {JJ}>
3實驗結(jié)果與分析
3.1 實驗數(shù)據(jù)
實驗采用2012年第四屆中文傾向性分析評測[12](COAE: Chinese Opinion Analysis Evaluation)提供的評測數(shù)據(jù)2 作為訓(xùn)練集和測試集。其中選用的語料來自兩個產(chǎn)品領(lǐng)域,汽車和電子產(chǎn)品,共計9 600個句子,其中包含1 624個比較句,7 976個非比較句。這些句子大多數(shù)是含有比較關(guān)鍵詞的典型比較句,也包含少量的隱式比較句。語料的詳細(xì)統(tǒng)計數(shù)據(jù)如表2所示。
3.2 實驗結(jié)果與分析
3.2.1 比較句候選識別的實驗結(jié)果
利用2.1節(jié)構(gòu)建的比較詞詞典搜索語料庫,找到所有包含關(guān)鍵詞的句子,將這些句子加入候選比較句集合中。經(jīng)統(tǒng)計,采用關(guān)鍵詞匹配方法識別比較句的準(zhǔn)確率是41.68%,召回率是97.29%。如此高的召回率和接近50%的準(zhǔn)確率使得該方法適合作為候選比較句的識別方法。
使用關(guān)鍵詞查找識別比較句候選獲得了非常高的召回率,這一方面說明了大多數(shù)比較句中含有關(guān)鍵詞,另一方面說明本文所構(gòu)建的關(guān)鍵詞詞典能夠覆蓋大部分的比較表達(dá);而該方法獲得了較低的準(zhǔn)確率,這表明不僅大多數(shù)比較句含有關(guān)鍵詞,而且大量的非比較句也含有關(guān)鍵詞。
3.2.2 比較句候選分類的實驗結(jié)果
在比較句候選分類的實驗中采用了10折交叉驗證(10-fold cross-validation)的實驗方法,取10次結(jié)果的平均值作為算法精度的估計。實驗使用了由臺灣大學(xué)開發(fā)的LIBSVM工具包,選用的SVM核函數(shù)是RBF核函數(shù)。模型訓(xùn)練后得到的最優(yōu)參數(shù)是gamma = 0.007 813 and C = 32。
研究設(shè)計的比較句候選分類實驗如下:
為了確定哪些特征能夠為分類系統(tǒng)提供更多的信息,為此比較了單一特征和幾種特征組合的分類性能,這些分類特征包括術(shù)語(TM),比較關(guān)鍵詞(CK),序列模式(PS)等,最終所有特征的組合表現(xiàn)出了最好的性能。表3顯示了比較句候選分類的實驗結(jié)果。結(jié)果顯示召回率顯著低于準(zhǔn)確率,對于單一特征,比較關(guān)鍵詞和序列模式獲得了更好的分類性能;對于組合特征,關(guān)鍵詞加術(shù)語特征的性能稍好于序列模式特征的性能,當(dāng)使用所有詞語和序列模式作特征時,系統(tǒng)獲得了最佳的性能,F(xiàn)1值為87.26%。
4結(jié)束語
本文提出了中文文本的比較句識別方法,該方法由兩個步驟組成,(1) 基于關(guān)鍵詞查找方法識別候選比較句;(2)對候選比較句使用支持向量機模型進(jìn)行分類。在分類的過程中引入了關(guān)鍵詞、術(shù)語、序列模式等特征,實驗結(jié)果表明本文的比較句識別方法是有效的。
參考文獻(xiàn):
[1] SHANG Ping. A Review on the system of comparative sentence. Applied Linguistics[J], 2006, (S2): 77-80.
[2] CHEN Jun, ZHOU Xiaobing. The selection and arrangement of grammatical items concerning comparative sentences[J]. Language Teaching and Research, 2005, (2): 22-33.
[3] CHE Jing. A brief analysis of comparative sentences in modern Chinese[J]. Journal of Hubei Normal University, 2005, 25(3): 60-63.
[4] JINDAL N, LIU Bing. Identifying comparative sentences in text documents[C]∥Proceedings of SIGIR06, Seattle, WA, USA: ACM, 2006: 244-251.
[5] HUANG Xiaojiang, WAN Xiaojun, YANG Jianwu, et al. Learning to identify comparative sentences in Chinese Text[C]∥Proceedings of PRICAI08, Hanoi, Vietnam: Springer, 2008: 187-198.
[6] PARK D, BLAKE C. Identifying comparative claim sentences in full-text scientific articles[C]∥Proceedings of ACL12, Jeju Island, Korea: Association for Computational Linguistics, 2012: 1-9.
[7] YANG S, KO Y. Finding relevant features for Korean comparative sentence extraction[J]. Pattern Recogn. Lett.,—PRL, 2011, 32(2): 293-296.
[8] LI Jianjun. Research on the Identification of Comparative Sentences and Relations and Its Application [D]. Chongqing:Chongqing University, 2011.
[9] SONG Rui, LIN Hongfei, CHANG Fuyang. Chinese comparative sentences identification and comparative relations extraction[J]. Journal of Chinese Information Processing, 2009, 23(2): 102-107.
[10] LIU Bing. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data[M]. Second Edition. Berline:Springer, 2011.
[11] LIU Kang, Wang Suge, Liao Xiangwen, et al. Overview of Chinese opinion analysis evaluation 2012[C]∥Proceedings of the 4st Chinese Opinion Analysis Evaluation, NanChang, China: The Professional Committee of Information Retrieval, 2012: 1-32.