基于詞項(xiàng)共現(xiàn)關(guān)系圖模型的中文觀點(diǎn)句識(shí)別研究

2015-04-12 11:30王明文付翠琴徐凡洪歡

中文信息學(xué)報(bào) 2015年6期

王明文，付翠琴，徐凡，洪歡

（江西師范大學(xué)，計(jì)算機(jī)信息工程學(xué)院，江西南昌330022）

1 引言

隨著Web 2.0應(yīng)用的普及，用戶生成內(nèi)容（User－generated content，簡(jiǎn)稱UGC）與日俱增。通常，這些論壇、貼吧、博客、微博等新型媒介的內(nèi)容蘊(yùn)含著大量的用戶觀點(diǎn)信息，這些觀點(diǎn)信息存在巨大的潛在價(jià)值。例如，生產(chǎn)商通過UGC中的產(chǎn)品評(píng)論信息獲取用戶對(duì)產(chǎn)品的情感傾向，并依此作為更新產(chǎn)品的依據(jù)。此外，電影投資者通過電影評(píng)論來(lái)預(yù)測(cè)電影票房，政府機(jī)構(gòu)根據(jù)UGC中的事件評(píng)論來(lái)分析輿情動(dòng)態(tài)等等。

觀點(diǎn)句識(shí)別（或情感句識(shí)別）是情感分析的一個(gè)子任務(wù)，其旨在從文檔中準(zhǔn)確抽取出帶有情感傾向的觀點(diǎn)句子和不帶情感傾向的句子，可以被廣泛應(yīng)用于產(chǎn)品調(diào)查、市場(chǎng)預(yù)測(cè)和輿情分析等諸多領(lǐng)域。

主流的觀點(diǎn)句識(shí)別方法采用有監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)，利用向量空間模型（Vector Space Model，簡(jiǎn)稱VSM）來(lái)表示文檔，即把每篇文檔表示成一個(gè)詞項(xiàng)向量或特征向量。這種文檔特征向量的表示方法基于詞項(xiàng)間強(qiáng)獨(dú)立性假設(shè)，并未考慮詞項(xiàng)與詞項(xiàng)之間的順序和依賴關(guān)系。在英文觀點(diǎn)句識(shí)別中，采用基于VSM的有監(jiān)督機(jī)器學(xué)習(xí)的分類方法可以取得不錯(cuò)的識(shí)別性能。然而，由于中文微博、論壇、貼吧等評(píng)論信息都是口語(yǔ)化的文本，表達(dá)方式多樣，而且評(píng)論的長(zhǎng)度一般有限，這些缺點(diǎn)導(dǎo)致手工構(gòu)建語(yǔ)法庫(kù)不僅工作量大，而且與日常口語(yǔ)的表達(dá)方式仍然存在差異，采用基于SVM的有監(jiān)督機(jī)器學(xué)習(xí)方法進(jìn)行中文觀點(diǎn)句識(shí)別并不能取得較好的性能?；趫D模型的文本表示方法［1－3］可以很好地捕捉中文文本中詞項(xiàng)的依賴和句法關(guān)系，該方法在信息檢索、文檔摘要和詞義消歧等已取得較好的效果。鑒于此，本文將一種新型的基于詞項(xiàng)共現(xiàn)關(guān)系的圖模型方法應(yīng)用于中文觀點(diǎn)句識(shí)別中。該方法通過構(gòu)建詞項(xiàng)共現(xiàn)關(guān)系有向圖模型，利用詞項(xiàng)與詞項(xiàng)之間的共現(xiàn)性和句法關(guān)系來(lái)描述詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句集合中的分布差異，同時(shí)采用基于入度的詞項(xiàng)權(quán)重計(jì)算方法來(lái)計(jì)算詞項(xiàng)特征值。本文的方法能夠有效地捕捉到中文句子中的語(yǔ)法信息，從而免去了昂貴的手工建立語(yǔ)法庫(kù)的工作；同時(shí)本文結(jié)合基于信息檢索的復(fù)雜特征值計(jì)算模型，將詞項(xiàng)分布特征及詞項(xiàng)間的語(yǔ)法信息融入分類器的訓(xùn)練過程中。上述研究在基準(zhǔn)語(yǔ)料上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)表明采用基于詞項(xiàng)關(guān)系圖模型方法后，中文觀點(diǎn)句識(shí)別準(zhǔn)確率相比目前基于詞袋的方法得到顯著提升。

本文后續(xù)內(nèi)容組織如下：第二節(jié)介紹觀點(diǎn)句識(shí)別的相關(guān)工作；第三節(jié)重點(diǎn)介紹本文提出的詞項(xiàng)共現(xiàn)關(guān)系圖模型方法和相應(yīng)的特征值計(jì)算方法；并在第四節(jié)給出了實(shí)驗(yàn)設(shè)置及詳細(xì)的結(jié)果分析；最后，第五節(jié)是本文的結(jié)論和將來(lái)工作部分。

2 相關(guān)工作

Pang等［4］首次將文本中的一元詞、二元詞作為特征，并且采用布爾值（二元值）和詞頻等特征值計(jì)算方法，通過訓(xùn)練樸素貝葉斯（Naive Bayes，簡(jiǎn)稱NB）、支持向量機(jī)（Support Vector Machine，簡(jiǎn)稱SVM）、最大熵模型（Maximum Entropy，簡(jiǎn)稱ME）三種分類器對(duì)電影評(píng)論進(jìn)行情感分類，實(shí)驗(yàn)結(jié)果表明使用一元詞作為特征和二元值作為特征值訓(xùn)練的SVM分類器的觀點(diǎn)句識(shí)別效果最好。隨后，相關(guān)文獻(xiàn)分別圍繞觀點(diǎn)句的特征提取、多分類器的融合和特征值計(jì)算等多個(gè)方面展開研究。

針對(duì)特征提取方面，Kushal等［5］從統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)的角度提取文本中的特征，并融入N－grams、文本子串和詞的鄰近性關(guān)系等多種有效的特征。Pang和Lee［6］通過建立句子和句子、句子和類別之間的關(guān)系圖，利用圖的最小切割算法來(lái)識(shí)別文檔的主觀性部分。徐軍等［7］選擇具有語(yǔ)義傾向的詞匯作為特征項(xiàng)、對(duì)否定詞正確處理和采用二元值作為特征項(xiàng)權(quán)重提高分類的準(zhǔn)確。謝麗星等［8］對(duì)鏈接、表情符號(hào)、情感詞典等進(jìn)行了多重特征選擇，結(jié)合主題相關(guān)特征訓(xùn)練SVM情感分類器，以此提高性能。

針對(duì)多分類器融合方面，Prabowo等［9］構(gòu)建有監(jiān)督的分類器時(shí)融入規(guī)則方法，并用于文本的傾向性分類任務(wù)。Qiu等［10］提出了一個(gè)自學(xué)習(xí)的分類模型，該模型分成兩個(gè)階段（自學(xué)習(xí)和分類），通過不斷的迭代以增強(qiáng)自學(xué)習(xí)的性能。徐睿峰等［11］采用多分類器表決的方法進(jìn)行觀點(diǎn)句抽取，表明具有與領(lǐng)域相關(guān)的大規(guī)模和高質(zhì)量的標(biāo)注訓(xùn)練數(shù)據(jù)為提高分類器的性能提供了重要的保證。呂云云等［12］提出基于自舉（BootStrapping，簡(jiǎn)稱BS）的集成分類器的中文觀點(diǎn)句識(shí)別方法，利用Fisher線性辨別器提取特征并計(jì)算特征值，訓(xùn)練了NB，SVM和ME三種分類器，同時(shí)將集成分類器具有高置信度的分類結(jié)果用于分類器的循環(huán)訓(xùn)練過程。

針對(duì)特征值計(jì)算方面，Justin等［13］提出了一種專門用于情感分析的Delta Term Frequence－Inverse Document Frequence（D－TFIDF）特征值計(jì)算方法，通過分別計(jì)算詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句中的分布來(lái)提高分布差異性大的詞項(xiàng)的重要性，減弱分布均衡的詞項(xiàng)的影響。在Justin的工作基礎(chǔ)上，Georgios等［14］將信息檢索中的詞項(xiàng)權(quán)重計(jì)算方法首次應(yīng)用于英文文本情感分析中，實(shí)驗(yàn)證明了基于D－TFIDF的BM25的方法具有最好的情感分類性能。Deng等［15］提出了基于詞的重要性（importance of a term in a document，簡(jiǎn)稱TID）和詞的情感值（importance of a term for expressing sentiment，簡(jiǎn)稱TIS）的特征值計(jì)算方法，實(shí)驗(yàn)表明在分類性能上要優(yōu)于基于D－TFIDF的BM25方法。這些特征值計(jì)算方法對(duì)應(yīng)的情感分類實(shí)驗(yàn)結(jié)果均優(yōu)于Pang提出的用二元值方法，說明了采用不同的特征值計(jì)算方法會(huì)對(duì)觀點(diǎn)句識(shí)別效果產(chǎn)生較大影響。

綜合以上觀點(diǎn)句識(shí)別模型所述，傳統(tǒng)詞袋模型驅(qū)動(dòng)的方法依賴于詞項(xiàng)間的強(qiáng)獨(dú)立性假設(shè)，忽略了詞項(xiàng)之間的依賴關(guān)系。因此，本文通過構(gòu)建詞項(xiàng)共現(xiàn)關(guān)系圖模型，著重考慮了詞項(xiàng)間的共現(xiàn)性和句法關(guān)系，同時(shí)研究和擴(kuò)充了多種基于信息檢索的詞項(xiàng)特征計(jì)算方法。

3 基于詞項(xiàng)共現(xiàn)關(guān)系圖模型的中文觀點(diǎn)句識(shí)別方法

本節(jié)主要闡述本文提出的新型中文觀點(diǎn)句識(shí)別方法，主要包括詞項(xiàng)共現(xiàn)關(guān)系圖構(gòu)建和特征值計(jì)算兩個(gè)方面的內(nèi)容。

3.1 詞項(xiàng)共現(xiàn)關(guān)系圖構(gòu)建

已有研究［16－17］表明形容詞、動(dòng)詞和名詞對(duì)句子的觀點(diǎn)表達(dá)影響更大，而且觀點(diǎn)句的表達(dá)方式也存在一定的模式，例如，形容詞＋名詞、動(dòng)詞＋形容詞等結(jié)構(gòu)的句子是觀點(diǎn)句的概率更大。然而，微博、論壇、貼吧等評(píng)論信息都是口語(yǔ)化的文本，表達(dá)方式多樣，而且評(píng)論的長(zhǎng)度一般有限。這些缺點(diǎn)導(dǎo)致了手工構(gòu)建語(yǔ)法庫(kù)不僅工作量大，而且與日?？谡Z(yǔ)的表達(dá)方式仍然存在差異。

基于此，本文分別構(gòu)建基于觀點(diǎn)句集和非觀點(diǎn)句集的詞項(xiàng)有向圖，自動(dòng)學(xué)習(xí)詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句中的分布，獲得詞項(xiàng)之間共現(xiàn)和鄰近關(guān)系。在有向圖中，頂點(diǎn)代表詞項(xiàng)，有向邊代表詞項(xiàng)與詞項(xiàng)的共現(xiàn)和鄰近關(guān)系。若在一個(gè)固定窗口中兩個(gè)詞項(xiàng)同時(shí)出現(xiàn)，則建立一條詞項(xiàng)到詞項(xiàng)的有向邊，邊的方向由詞在原文中出現(xiàn)的順序決定。采用前者指向后者構(gòu)建的圖為前向圖（Forward Graph，簡(jiǎn)稱FG），采用后者指向前者構(gòu)建的圖為后向圖（Backward Graph，簡(jiǎn)稱BG）。本文以句子為單位來(lái)構(gòu)建詞項(xiàng)的有向圖，即窗口只在一句話中進(jìn)行滑動(dòng)，這是因?yàn)橐痪湓捲趦?nèi)容上比較相近，同時(shí)表達(dá)的語(yǔ)義也更為完整。我們通過固定窗口大小，并設(shè)定邊的方向，構(gòu)建出每句話的詞項(xiàng)有向圖，然后將所有句子的有向圖進(jìn)行合并得到相應(yīng)的詞項(xiàng)共現(xiàn)關(guān)系圖模型。

為了清晰起見，下面通過觀點(diǎn)句例1和例2來(lái)說明FG模型的構(gòu)建過程。

例1 總體感覺還是不錯(cuò)，看世界杯挺爽。

例2 效果非常不錯(cuò)，感覺就像真的一樣。

首先對(duì)每個(gè)句子進(jìn)行預(yù)處理，包括分詞、刪除標(biāo)點(diǎn)符號(hào)和一些無(wú)用字符等步驟。得到觀點(diǎn)句例1的預(yù)處理結(jié)果為：“總體感覺還是不錯(cuò)看世界杯挺爽”，觀點(diǎn)句例2的預(yù)處理結(jié)果：“效果非常不錯(cuò) 感覺就像真的一樣”；

然后以句子為單位，按固定窗口進(jìn)行滑動(dòng)，窗口內(nèi)共現(xiàn)的詞項(xiàng)之間建立一條邊，詞項(xiàng)在原文中出現(xiàn)的順序即為邊的方向；

最后將上述句子的有向圖進(jìn)行合并，得到最終的FG模型。

圖1顯示了窗口大小為3時(shí)，例句1和例句2合并后的FG模型。

圖1 FG模型實(shí)例

根據(jù)圖1所示的詞項(xiàng)共現(xiàn)關(guān)系圖模型，我們可以計(jì)算出每個(gè)詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句中的分布情況，分布差異大的詞項(xiàng)比分布均衡的詞項(xiàng)對(duì)觀點(diǎn)句的判定影響更大。另外，根據(jù)詞的共現(xiàn)性和鄰近性，使用頻率高的短語(yǔ)及語(yǔ)法結(jié)構(gòu)也會(huì)更加突出。例如，圖1中，帶有明顯觀點(diǎn)傾向的詞項(xiàng)“感覺”和“不錯(cuò)”所連接的邊數(shù)相對(duì)較多，同時(shí)與這兩個(gè)詞項(xiàng)有直接連接邊的詞項(xiàng)也是常用的搭配。

3.2 特征值計(jì)算

本節(jié)首先介紹已有的基于信息檢索的特征值計(jì)算方案，然后將重點(diǎn)介紹基于上述詞項(xiàng)共現(xiàn)圖模型文本表示形式下的特征值計(jì)算方法。

3.2.1 基于信息檢索的特征值計(jì)算

在信息檢索中，公式（1）是經(jīng)典的詞項(xiàng)權(quán)重計(jì)算方法，其中tfij表示詞項(xiàng)i在文檔j中出現(xiàn)的次數(shù)，dfi表示整個(gè)文檔集合中出現(xiàn)詞項(xiàng)i的文檔數(shù)，N表示整個(gè)文檔集合的文檔數(shù)。式（1）包含了詞頻tf和逆文檔頻率idf兩部分。

結(jié)合上述信息檢索的詞項(xiàng)權(quán)重計(jì)算方法，本文將特征值的計(jì)算分成了詞項(xiàng)的權(quán)重（term weighting，簡(jiǎn)稱tw）和詞項(xiàng)的分布（inverse document frequence，簡(jiǎn)稱idf）兩部分，根據(jù)已有信息檢索模型的得分函數(shù)，給出了表1和表2所示的改進(jìn)后的特征值計(jì)算方法。其中dlj表示文檔j的長(zhǎng)度，ave＿dl表示文檔集的平均文檔長(zhǎng)度。

3.2.2 基于入度的詞項(xiàng)共現(xiàn)圖模型的特征值計(jì)算

現(xiàn)有的權(quán)重計(jì)算方法如TF－IDF和BM25均以詞袋模型的形式表示文檔，其詞項(xiàng)權(quán)重的計(jì)算都是基于詞頻。然而，本文通過頂點(diǎn)的入度數(shù)確定每個(gè)詞項(xiàng)的權(quán)重。如果指向某個(gè)頂點(diǎn)的邊數(shù)越多，則說明詞項(xiàng)的共現(xiàn)次數(shù)越多。基于入度的權(quán)重計(jì)算方法不僅計(jì)算簡(jiǎn)單，而且能更好的捕捉詞項(xiàng)與詞項(xiàng)之間的關(guān)系。已有的工作表明［1－2］，采用基于入度的詞項(xiàng)權(quán)重可以很好的找到文檔的中心（重要詞項(xiàng)），相應(yīng)地，在中文觀點(diǎn)句識(shí)別時(shí)，找到圖模型中帶有觀點(diǎn)傾向的詞項(xiàng)（即中心）。

表1 詞項(xiàng)權(quán)重計(jì)算方案

表2 詞分布計(jì)算方案

本文分別構(gòu)建了基于觀點(diǎn)句集和非觀點(diǎn)句集的詞項(xiàng)共現(xiàn)圖模型，模型中邊的方向定義有兩種：FG和BG。因此，本文計(jì)算詞項(xiàng)在兩個(gè)圖模型中的權(quán)重值時(shí)，分別采用以下兩種方法。

1）基于FG模型的詞項(xiàng)權(quán)重稱為前向詞權(quán)重（Forward Term Weighting，簡(jiǎn)稱FTW）。由兩部分組成：基于主觀句集FG模型上詞項(xiàng)的權(quán)重ftw（s）和基于非主觀句集FG模型上詞項(xiàng)的權(quán)重ftw（n）。

2）基于BG模型的詞項(xiàng)權(quán)重稱為后向詞權(quán)重（Backward Term Weighting，簡(jiǎn)稱BTW）。由兩部分組成：基于主觀句集BG模型上詞項(xiàng)的權(quán)重btw（s）和基于非主觀句集BG模型上詞項(xiàng)的權(quán)重btw（n）。

在上述構(gòu)建的詞項(xiàng)共現(xiàn)圖模型中，我們已經(jīng)分別計(jì)算了詞項(xiàng)權(quán)重FTW和BTW，得到公式（2）和公式（3）所示的基于圖模型的權(quán)重計(jì)算方法。其中，ftw（i）是詞項(xiàng)i在文檔集構(gòu)建FG模型中的權(quán)重，btw（i）是詞項(xiàng)i在文檔集構(gòu)建BG模型中的權(quán)重。

結(jié)合基于信息檢索的權(quán)重計(jì)算方法，本文針對(duì)FTW和BTW分別給出了八種基于圖模型的詞項(xiàng)權(quán)重計(jì)算方案，具體如表3所示。詞項(xiàng)分布的計(jì)算方案仍采用表2一致的計(jì)算方法。

表3 基于圖模型的詞項(xiàng)權(quán)重計(jì)算方案

4 實(shí)驗(yàn)及結(jié)果分析

本節(jié)將通過實(shí)驗(yàn)驗(yàn)證詞項(xiàng)共現(xiàn)圖模型在中文觀點(diǎn)句識(shí)別任務(wù)中的有效性，并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)的分析。

4.1 實(shí)驗(yàn)設(shè)置

本文采用第三屆中文傾向性分析評(píng)測(cè)①http：／／www.ir－china.org.cn／所發(fā)布的電子產(chǎn)品評(píng)論作為語(yǔ)料集，該語(yǔ)料共包括2 000篇電子產(chǎn)品領(lǐng)域的文檔，去噪后語(yǔ)料包含觀點(diǎn)句5 662條，非觀點(diǎn)句9 266條。為了取得平衡的數(shù)據(jù)，我們采用了隨機(jī)裁剪的方法，使得觀點(diǎn)句和非觀點(diǎn)句在數(shù)量上相當(dāng)。同時(shí)，使用中國(guó)科學(xué)院的分詞與詞性標(biāo)注軟件①http：／／ictclas.org對(duì)語(yǔ)料進(jìn)行分詞預(yù)處理，采用LIBSVM②http：／／www.csie.ntu.edu.tw／～cjlin／libsvm／作為分類器（參數(shù)均取默認(rèn)值），并采用十折交叉驗(yàn)證方法獲取實(shí)驗(yàn)結(jié)果，詞項(xiàng)滑動(dòng)窗口的取值范圍為2至6。

為了驗(yàn)證基于詞項(xiàng)共現(xiàn)圖模型的中文觀點(diǎn)句識(shí)別方法的有效性，本文將已有的基于信息檢索（IRM）的中文觀點(diǎn)句識(shí)別方法和呂云云等［11］提出的基于BootStrapping的集成分類器（BSM）的中文觀點(diǎn)句識(shí)別方法作為Baseline。BSM是采用Bootstrapping的方法擴(kuò)展訓(xùn)練語(yǔ)料，分別訓(xùn)練貝葉斯、支持向量機(jī)和最大熵分類器。然后，通過給三個(gè)訓(xùn)練好的分類器賦權(quán)獲得一個(gè)集成分類器。此外，本文還將通過設(shè)置兩個(gè)對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證，在中文觀點(diǎn)句識(shí)別當(dāng)中，基于FG模型和基于BG模型的性能。

4.2 實(shí)驗(yàn)結(jié)果及分析

4.2.1 Baseline實(shí)驗(yàn)結(jié)果

圖2顯示了IRM和BSM模型的中文觀點(diǎn)句識(shí)別性能。在IRM模型中，tw有五種計(jì)算方法，idf有三種計(jì)算方法，共有15種計(jì)算方案，實(shí)驗(yàn)參數(shù)取值采用已有文獻(xiàn)中求得的經(jīng)驗(yàn)參數(shù)值k＝1.2和b＝0.75。在BSM模型中，語(yǔ)料標(biāo)注率在0.05和1之間以0.05的步長(zhǎng)進(jìn)行平滑，在標(biāo)注率分別為0.4和1時(shí)，訓(xùn)練的集成分類器的效果達(dá)到最好，分別為0.778 6和0.772 4。因此，本文只取bsm0.4和bsm1的實(shí)驗(yàn)結(jié)果作對(duì)比。

圖2 Baseline實(shí)驗(yàn)結(jié)果

圖2數(shù)據(jù)表明：

1）在英文觀點(diǎn)句識(shí)別中，僅使用二元特征值就可以取得很好的效果，分類精度通?？梢赃_(dá)到82.9%，但該方法在中文觀點(diǎn)句識(shí)別中效果并不好，圖2中tw0＊idf1的精度只有63.37%，這一實(shí)驗(yàn)結(jié)果說明了簡(jiǎn)單的二元特征值計(jì)算方法不適合于中文觀點(diǎn)句識(shí)別任務(wù)；

2）在計(jì)算特征值時(shí)僅考慮詞項(xiàng)權(quán)重總體識(shí)別效果都不太好，其中tw1×idf1、tw2×idf1、tw3× idf1和tw4×idf1的分類精度分別為60.10%、69.37%、58.74%和69.59%，精度均低于70%。相比較而言，僅用詞項(xiàng)分布來(lái)計(jì)算特征值的方法分類效果具有顯著提升，識(shí)別性能均在77%以上，其中在tw0×idf2和tw0×idf3方案中，精度分別高達(dá)到78.01%和77.92%，這一實(shí)驗(yàn)結(jié)果說明詞項(xiàng)在語(yǔ)料中的分布情況對(duì)于觀點(diǎn)句的識(shí)別具有重要的作用。同時(shí)，BM25模型（tw5×idf3方法）可以取得更好的識(shí)別效果，分類精度達(dá)到最高（78.28%）。

3）整體上來(lái)說，在中文觀點(diǎn)句識(shí)別中，IRM模型可以顯著提升中文觀點(diǎn)句識(shí)別效果，甚至可以取得比BSM模型訓(xùn)練的集成分類器更好的分類性能。

4.2.2 基于FG模型的特征值計(jì)算

圖3顯示了窗口大小為3時(shí)的FG模型中特征值計(jì)算下的中文觀點(diǎn)句識(shí)別性能。圖中實(shí)驗(yàn)結(jié)果表明：使用基于FG模型的特征值計(jì)算方法，分類性能都有較大幅度的提升。在不考慮詞項(xiàng)分布的ftw1×idf1、ftw1×idf2、ftw1×idf3和ftw1×idf4方案中，分類性能分別達(dá)到了75.98%、66.55、71.68%和 69.98%，與基于信息檢索的同等條件下的方案相比，性能都有所提升，這一實(shí)驗(yàn)結(jié)果充分說明本文構(gòu)建的FG圖模型可以捕捉到更多的觀點(diǎn)句和非觀點(diǎn)句中詞項(xiàng)間的依賴及語(yǔ)法關(guān)系，并用于分類器的訓(xùn)練?；贐M25模型的ftw4×idf2方案可以達(dá)到最好的性能81.22%，ftw3×idf2、ftw3×idf3的分類性能也都在80%以上。但是，ftw1×idf3和 ftw2×idf3方案與同等條件下的基于信息檢索的方案相比，性能會(huì)有所降低（僅有73.07%和75.18%），原因在于一些非觀點(diǎn)詞的共現(xiàn)頻率過高，導(dǎo)致分類器引入更多的噪音。

另外，基于FG模型的觀點(diǎn)句識(shí)別方法也可以獲得比基于BSM模型更好的分類性能。

圖3 基于FG的特征值計(jì)算

4.2.3 基于BG模型的特征值計(jì)算

圖4顯示了窗口大小為3時(shí)的BG模型中特征值計(jì)算下的中文觀點(diǎn)句識(shí)別性能。

圖4 基于BG的特征值計(jì)算

實(shí)驗(yàn)結(jié)果表明，基于BG模型的分類性能與基于FG的方法的分類性能總體相差不大。分析圖3和圖4可得，采用ftw3×idf3、ftw4×idf3和btw3× idf3、btw4×idf3方案計(jì)算特征值的性能較好，而且也較穩(wěn)定。其中，最好的模型分類性能是方案bw1× idf3，高達(dá)80.24%，比基于FG的方法最好的性能稍差。ftw2×idf1的性能最差，只有66.31%，分析原因是在計(jì)算詞項(xiàng)權(quán)重時(shí)用文檔集中最大的權(quán)重值進(jìn)行了平滑，導(dǎo)致部分觀點(diǎn)詞的影響減弱。

通過上述分析可得，基于FG和BG模型采用不同的特征值計(jì)算方案，得到的觀點(diǎn)句識(shí)別性能會(huì)有相對(duì)較大的浮動(dòng)，原因在于信息檢索模型均以詞袋（Bag－Of－Words，簡(jiǎn)稱BOG）的形式表示文檔，其特征值計(jì)算方案都依賴于詞項(xiàng)獨(dú)立性假設(shè)，即并未考慮詞項(xiàng)之間的依賴關(guān)系。相反，本文是通過構(gòu)建詞項(xiàng)共現(xiàn)關(guān)系圖來(lái)表示每篇文檔，因此信息檢索中性能較好的特征值計(jì)算方法不太適用于本文構(gòu)建的模型中，同時(shí)更加適合中文觀點(diǎn)句識(shí)別這一任務(wù)的特征值計(jì)算方案也將作為我們未來(lái)的研究工作之一。

4.2.4 窗口大小的選擇

圖5顯示了在FG模型中，ftw4×idf2特征值計(jì)算方法在不同的詞項(xiàng)滑動(dòng)窗口下的分類性能。實(shí)驗(yàn)表明詞項(xiàng)滑動(dòng)窗口大小與分類精度并不是簡(jiǎn)單線性關(guān)系。例如：在窗口大小為2時(shí)，分類精度為80.3161%；在窗口大小為3時(shí)，分類精度達(dá)到最大81.2169%。該實(shí)驗(yàn)結(jié)果可以很好的總結(jié)漢語(yǔ)表達(dá)的語(yǔ)法習(xí)慣，即在中文表達(dá)觀點(diǎn)時(shí)，作者傾向于采用三元成分結(jié)構(gòu)。當(dāng)窗口逐漸增加，分類精度卻有逐漸下降，原因在于隨著窗口大小的增大，很多非合法語(yǔ)法搭配結(jié)構(gòu)被當(dāng)作有用的特征來(lái)計(jì)算詞項(xiàng)的FTW和BTW值，即加入了很多噪音特征，從而導(dǎo)致分類精度下降。

圖5 FG模型中調(diào)整詞項(xiàng)滑動(dòng)窗口大小對(duì)性能的影響

5 總結(jié)與展望

針對(duì)傳統(tǒng)的詞項(xiàng)間強(qiáng)獨(dú)立性假設(shè)的詞袋模型驅(qū)動(dòng)的中文觀點(diǎn)句識(shí)別方法的不足，本文提出了一種新型的基于詞項(xiàng)共現(xiàn)關(guān)系的圖模型方法。該方法通過構(gòu)建詞項(xiàng)共現(xiàn)關(guān)系有向圖模型，利用詞項(xiàng)與詞項(xiàng)之間的共現(xiàn)性和句法關(guān)系來(lái)描述詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句集合中的分布差異。同時(shí)，在構(gòu)建的圖模型上，本文采用基于入度的詞項(xiàng)權(quán)重計(jì)算方法計(jì)算每個(gè)頂點(diǎn)（詞項(xiàng)）的權(quán)重，并結(jié)合基于信息檢索的特征值計(jì)算方案計(jì)算特征向量的特征值。上述研究在基準(zhǔn)語(yǔ)料上進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)表明采用基于詞項(xiàng)關(guān)系圖模型方法后，中文觀點(diǎn)句識(shí)別準(zhǔn)確率相比目前基于詞袋的方法得到顯著提升。

將來(lái)工作主要包括以下兩個(gè)方面：（1）在跨領(lǐng)域數(shù)據(jù)集上驗(yàn)證本文提出的模型性能；（2）將本文提出基于詞項(xiàng)共現(xiàn)圖模型的特征計(jì)算方法與目前已有的特征計(jì)算方法進(jìn)行結(jié)合，以體現(xiàn)方法的協(xié)同性。

［1］ Rousseau F，Vazirgiannis M.Graph－of－word and TWIDF：new approach to ad hoc IR［C］／／Proceedings of the 22nd ACM International Conference on Information and Knowledge Management.ACM，2013：59－68.

［2］ Mihalcea R，Tarau P.TextRank：Bringing order into texts［C］／／Proceedings of the 2004Conference on Empirical Methods in Natural Language Processing（EMNLP）.2004，4（4）：275.

［3］洪歡，王明文，萬(wàn)劍怡，等.基于迭代方法的多層Markov網(wǎng)絡(luò)信息檢索模型［J］.中文信息學(xué)報(bào)，2013，27（5）：122－128.

［4］ Pang B，Lee L，Vaithyanathan S.Thumbs up？：sentiment classification using machine learning techniques［C］／／Proceedings of the Associate Computational Linguistics 02Conference on Empirical Methods in Natural Language Processing－Volume 10.Association for Computational Linguistics，2002：79－86.

［5］ Dave K，Lawrence S，Pennock D M.Mining the peanut gallery：Opinion extraction and semantic classification of product reviews［C］／／Proceedings of the 12th International Conference on World Wide Web.ACM，2003：519－528.

［6］ Pang B，Lee L.A sentimental education：Sentiment analysis using subjectivity summarization based on minimum cuts［C］／／Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics，2004：271.

［7］徐軍，丁宇新，王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類［J］.中文信息學(xué)報(bào)，2007，21（6）：95－100.

［8］謝麗星，周明，孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽?。跩］.中文信息學(xué)報(bào)，2012，26（1）：73－83.

［9］ Prabowo R，Thelwall M.Sentiment analysis：A combined approach［J］.Journal of Informetrics，2009，3（2）：143－157.

［10］ Qiu L，Zhang W，Hu C，et al.Selc：a self－supervised model for sentiment classification［C］／／Proceedings of the 18th ACM Conference on Information and Knowledge Management.ACM，2009：929－936.

［11］徐睿峰，王亞偉，徐軍，等.基于多知識(shí)源融合和多分類器表決的中文觀點(diǎn)分析［C］／／第三屆中文傾向性分析評(píng)測(cè)論文集，2011：77－87.

［12］呂云云，李旸，王素格.基于BootStrapping的集成分類器的中文觀點(diǎn)句識(shí)別方法［J］.中文信息學(xué)報(bào)，2013，27（5）：84－92.

［13］ Martineau J，F(xiàn)inin T.Delta TFIDF：An Improved Feature Space for Sentiment Analysis［C］／／Proceedings of the 3rd International Conference on Weblogs and Social Media（ICWSM）.2009：258－261.

［14］ Paltoglou G，Thelwall M.A study of information retrieval weighting schemes for sentiment analysis［C］／／Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics，2010：1386－1395.

［15］ Deng Z H，Luo K H，Yu H L.A study of supervised term weighting scheme for sentiment analysis［J］.Expert Systems with Applications，2014，41（7）：3506－3513.

［16］ Riloff E，Wiebe J.Learning extraction patterns for subjective expressions［C］／／Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing（EMNLP）.Association for Computational Linguistics，2003：105－112.

［17］ Kim S M，Hovy E.Determining the sentiment of opinions［C］／／Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics，2004：1367.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡