王明文,付翠琴,徐凡,洪歡
(江西師范大學(xué),計(jì)算機(jī)信息工程學(xué)院,江西南昌330022)
隨著Web 2.0應(yīng)用的普及,用戶生成內(nèi)容(User-generated content,簡(jiǎn)稱UGC)與日俱增。通常,這些論壇、貼吧、博客、微博等新型媒介的內(nèi)容蘊(yùn)含著大量的用戶觀點(diǎn)信息,這些觀點(diǎn)信息存在巨大的潛在價(jià)值。例如,生產(chǎn)商通過UGC中的產(chǎn)品評(píng)論信息獲取用戶對(duì)產(chǎn)品的情感傾向,并依此作為更新產(chǎn)品的依據(jù)。此外,電影投資者通過電影評(píng)論來(lái)預(yù)測(cè)電影票房,政府機(jī)構(gòu)根據(jù)UGC中的事件評(píng)論來(lái)分析輿情動(dòng)態(tài)等等。
觀點(diǎn)句識(shí)別(或情感句識(shí)別)是情感分析的一個(gè)子任務(wù),其旨在從文檔中準(zhǔn)確抽取出帶有情感傾向的觀點(diǎn)句子和不帶情感傾向的句子,可以被廣泛應(yīng)用于產(chǎn)品調(diào)查、市場(chǎng)預(yù)測(cè)和輿情分析等諸多領(lǐng)域。
主流的觀點(diǎn)句識(shí)別方法采用有監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),利用向量空間模型(Vector Space Model,簡(jiǎn)稱VSM)來(lái)表示文檔,即把每篇文檔表示成一個(gè)詞項(xiàng)向量或特征向量。這種文檔特征向量的表示方法基于詞項(xiàng)間強(qiáng)獨(dú)立性假設(shè),并未考慮詞項(xiàng)與詞項(xiàng)之間的順序和依賴關(guān)系。在英文觀點(diǎn)句識(shí)別中,采用基于VSM的有監(jiān)督機(jī)器學(xué)習(xí)的分類方法可以取得不錯(cuò)的識(shí)別性能。然而,由于中文微博、論壇、貼吧等評(píng)論信息都是口語(yǔ)化的文本,表達(dá)方式多樣,而且評(píng)論的長(zhǎng)度一般有限,這些缺點(diǎn)導(dǎo)致手工構(gòu)建語(yǔ)法庫(kù)不僅工作量大,而且與日常口語(yǔ)的表達(dá)方式仍然存在差異,采用基于SVM的有監(jiān)督機(jī)器學(xué)習(xí)方法進(jìn)行中文觀點(diǎn)句識(shí)別并不能取得較好的性能?;趫D模型的文本表示方法[1-3]可以很好地捕捉中文文本中詞項(xiàng)的依賴和句法關(guān)系,該方法在信息檢索、文檔摘要和詞義消歧等已取得較好的效果。鑒于此,本文將一種新型的基于詞項(xiàng)共現(xiàn)關(guān)系的圖模型方法應(yīng)用于中文觀點(diǎn)句識(shí)別中。該方法通過構(gòu)建詞項(xiàng)共現(xiàn)關(guān)系有向圖模型,利用詞項(xiàng)與詞項(xiàng)之間的共現(xiàn)性和句法關(guān)系來(lái)描述詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句集合中的分布差異,同時(shí)采用基于入度的詞項(xiàng)權(quán)重計(jì)算方法來(lái)計(jì)算詞項(xiàng)特征值。本文的方法能夠有效地捕捉到中文句子中的語(yǔ)法信息,從而免去了昂貴的手工建立語(yǔ)法庫(kù)的工作;同時(shí)本文結(jié)合基于信息檢索的復(fù)雜特征值計(jì)算模型,將詞項(xiàng)分布特征及詞項(xiàng)間的語(yǔ)法信息融入分類器的訓(xùn)練過程中。上述研究在基準(zhǔn)語(yǔ)料上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)表明采用基于詞項(xiàng)關(guān)系圖模型方法后,中文觀點(diǎn)句識(shí)別準(zhǔn)確率相比目前基于詞袋的方法得到顯著提升。
本文后續(xù)內(nèi)容組織如下:第二節(jié)介紹觀點(diǎn)句識(shí)別的相關(guān)工作;第三節(jié)重點(diǎn)介紹本文提出的詞項(xiàng)共現(xiàn)關(guān)系圖模型方法和相應(yīng)的特征值計(jì)算方法;并在第四節(jié)給出了實(shí)驗(yàn)設(shè)置及詳細(xì)的結(jié)果分析;最后,第五節(jié)是本文的結(jié)論和將來(lái)工作部分。
Pang等[4]首次將文本中的一元詞、二元詞作為特征,并且采用布爾值(二元值)和詞頻等特征值計(jì)算方法,通過訓(xùn)練樸素貝葉斯(Naive Bayes,簡(jiǎn)稱NB)、支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)、最大熵模型(Maximum Entropy,簡(jiǎn)稱ME)三種分類器對(duì)電影評(píng)論進(jìn)行情感分類,實(shí)驗(yàn)結(jié)果表明使用一元詞作為特征和二元值作為特征值訓(xùn)練的SVM分類器的觀點(diǎn)句識(shí)別效果最好。隨后,相關(guān)文獻(xiàn)分別圍繞觀點(diǎn)句的特征提取、多分類器的融合和特征值計(jì)算等多個(gè)方面展開研究。
針對(duì)特征提取方面,Kushal等[5]從統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)的角度提取文本中的特征,并融入N-grams、文本子串和詞的鄰近性關(guān)系等多種有效的特征。Pang和Lee[6]通過建立句子和句子、句子和類別之間的關(guān)系圖,利用圖的最小切割算法來(lái)識(shí)別文檔的主觀性部分。徐軍等[7]選擇具有語(yǔ)義傾向的詞匯作為特征項(xiàng)、對(duì)否定詞正確處理和采用二元值作為特征項(xiàng)權(quán)重提高分類的準(zhǔn)確。謝麗星等[8]對(duì)鏈接、表情符號(hào)、情感詞典等進(jìn)行了多重特征選擇,結(jié)合主題相關(guān)特征訓(xùn)練SVM情感分類器,以此提高性能。
針對(duì)多分類器融合方面,Prabowo等[9]構(gòu)建有監(jiān)督的分類器時(shí)融入規(guī)則方法,并用于文本的傾向性分類任務(wù)。Qiu等[10]提出了一個(gè)自學(xué)習(xí)的分類模型,該模型分成兩個(gè)階段(自學(xué)習(xí)和分類),通過不斷的迭代以增強(qiáng)自學(xué)習(xí)的性能。徐睿峰等[11]采用多分類器表決的方法進(jìn)行觀點(diǎn)句抽取,表明具有與領(lǐng)域相關(guān)的大規(guī)模和高質(zhì)量的標(biāo)注訓(xùn)練數(shù)據(jù)為提高分類器的性能提供了重要的保證。呂云云等[12]提出基于自舉(BootStrapping,簡(jiǎn)稱BS)的集成分類器的中文觀點(diǎn)句識(shí)別方法,利用Fisher線性辨別器提取特征并計(jì)算特征值,訓(xùn)練了NB,SVM和ME三種分類器,同時(shí)將集成分類器具有高置信度的分類結(jié)果用于分類器的循環(huán)訓(xùn)練過程。
針對(duì)特征值計(jì)算方面,Justin等[13]提出了一種專門用于情感分析的Delta Term Frequence-Inverse Document Frequence(D-TFIDF)特征值計(jì)算方法,通過分別計(jì)算詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句中的分布來(lái)提高分布差異性大的詞項(xiàng)的重要性,減弱分布均衡的詞項(xiàng)的影響。在Justin的工作基礎(chǔ)上,Georgios等[14]將信息檢索中的詞項(xiàng)權(quán)重計(jì)算方法首次應(yīng)用于英文文本情感分析中,實(shí)驗(yàn)證明了基于D-TFIDF的BM25的方法具有最好的情感分類性能。Deng等[15]提出了基于詞的重要性(importance of a term in a document,簡(jiǎn)稱TID)和詞的情感值(importance of a term for expressing sentiment,簡(jiǎn)稱TIS)的特征值計(jì)算方法,實(shí)驗(yàn)表明在分類性能上要優(yōu)于基于D-TFIDF的BM25方法。這些特征值計(jì)算方法對(duì)應(yīng)的情感分類實(shí)驗(yàn)結(jié)果均優(yōu)于Pang提出的用二元值方法,說明了采用不同的特征值計(jì)算方法會(huì)對(duì)觀點(diǎn)句識(shí)別效果產(chǎn)生較大影響。
綜合以上觀點(diǎn)句識(shí)別模型所述,傳統(tǒng)詞袋模型驅(qū)動(dòng)的方法依賴于詞項(xiàng)間的強(qiáng)獨(dú)立性假設(shè),忽略了詞項(xiàng)之間的依賴關(guān)系。因此,本文通過構(gòu)建詞項(xiàng)共現(xiàn)關(guān)系圖模型,著重考慮了詞項(xiàng)間的共現(xiàn)性和句法關(guān)系,同時(shí)研究和擴(kuò)充了多種基于信息檢索的詞項(xiàng)特征計(jì)算方法。
本節(jié)主要闡述本文提出的新型中文觀點(diǎn)句識(shí)別方法,主要包括詞項(xiàng)共現(xiàn)關(guān)系圖構(gòu)建和特征值計(jì)算兩個(gè)方面的內(nèi)容。
已有研究[16-17]表明形容詞、動(dòng)詞和名詞對(duì)句子的觀點(diǎn)表達(dá)影響更大,而且觀點(diǎn)句的表達(dá)方式也存在一定的模式,例如,形容詞+名詞、動(dòng)詞+形容詞等結(jié)構(gòu)的句子是觀點(diǎn)句的概率更大。然而,微博、論壇、貼吧等評(píng)論信息都是口語(yǔ)化的文本,表達(dá)方式多樣,而且評(píng)論的長(zhǎng)度一般有限。這些缺點(diǎn)導(dǎo)致了手工構(gòu)建語(yǔ)法庫(kù)不僅工作量大,而且與日??谡Z(yǔ)的表達(dá)方式仍然存在差異。
基于此,本文分別構(gòu)建基于觀點(diǎn)句集和非觀點(diǎn)句集的詞項(xiàng)有向圖,自動(dòng)學(xué)習(xí)詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句中的分布,獲得詞項(xiàng)之間共現(xiàn)和鄰近關(guān)系。在有向圖中,頂點(diǎn)代表詞項(xiàng),有向邊代表詞項(xiàng)與詞項(xiàng)的共現(xiàn)和鄰近關(guān)系。若在一個(gè)固定窗口中兩個(gè)詞項(xiàng)同時(shí)出現(xiàn),則建立一條詞項(xiàng)到詞項(xiàng)的有向邊,邊的方向由詞在原文中出現(xiàn)的順序決定。采用前者指向后者構(gòu)建的圖為前向圖(Forward Graph,簡(jiǎn)稱FG),采用后者指向前者構(gòu)建的圖為后向圖(Backward Graph,簡(jiǎn)稱BG)。本文以句子為單位來(lái)構(gòu)建詞項(xiàng)的有向圖,即窗口只在一句話中進(jìn)行滑動(dòng),這是因?yàn)橐痪湓捲趦?nèi)容上比較相近,同時(shí)表達(dá)的語(yǔ)義也更為完整。我們通過固定窗口大小,并設(shè)定邊的方向,構(gòu)建出每句話的詞項(xiàng)有向圖,然后將所有句子的有向圖進(jìn)行合并得到相應(yīng)的詞項(xiàng)共現(xiàn)關(guān)系圖模型。
為了清晰起見,下面通過觀點(diǎn)句例1和例2來(lái)說明FG模型的構(gòu)建過程。
例1 總體感覺還是不錯(cuò),看世界杯挺爽。
例2 效果非常不錯(cuò),感覺就像真的一樣。
首先對(duì)每個(gè)句子進(jìn)行預(yù)處理,包括分詞、刪除標(biāo)點(diǎn)符號(hào)和一些無(wú)用字符等步驟。得到觀點(diǎn)句例1的預(yù)處理結(jié)果為:“總體感覺還是不錯(cuò)看世界杯挺爽”,觀點(diǎn)句例2的預(yù)處理結(jié)果:“效果 非常 不錯(cuò) 感覺就像真的一樣”;
然后以句子為單位,按固定窗口進(jìn)行滑動(dòng),窗口內(nèi)共現(xiàn)的詞項(xiàng)之間建立一條邊,詞項(xiàng)在原文中出現(xiàn)的順序即為邊的方向;
最后將上述句子的有向圖進(jìn)行合并,得到最終的FG模型。
圖1顯示了窗口大小為3時(shí),例句1和例句2合并后的FG模型。
圖1 FG模型實(shí)例
根據(jù)圖1所示的詞項(xiàng)共現(xiàn)關(guān)系圖模型,我們可以計(jì)算出每個(gè)詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句中的分布情況,分布差異大的詞項(xiàng)比分布均衡的詞項(xiàng)對(duì)觀點(diǎn)句的判定影響更大。另外,根據(jù)詞的共現(xiàn)性和鄰近性,使用頻率高的短語(yǔ)及語(yǔ)法結(jié)構(gòu)也會(huì)更加突出。例如,圖1中,帶有明顯觀點(diǎn)傾向的詞項(xiàng)“感覺”和“不錯(cuò)”所連接的邊數(shù)相對(duì)較多,同時(shí)與這兩個(gè)詞項(xiàng)有直接連接邊的詞項(xiàng)也是常用的搭配。
本節(jié)首先介紹已有的基于信息檢索的特征值計(jì)算方案,然后將重點(diǎn)介紹基于上述詞項(xiàng)共現(xiàn)圖模型文本表示形式下的特征值計(jì)算方法。
3.2.1 基于信息檢索的特征值計(jì)算
在信息檢索中,公式(1)是經(jīng)典的詞項(xiàng)權(quán)重計(jì)算方法,其中tfij表示詞項(xiàng)i在文檔j中出現(xiàn)的次數(shù),dfi表示整個(gè)文檔集合中出現(xiàn)詞項(xiàng)i的文檔數(shù),N表示整個(gè)文檔集合的文檔數(shù)。式(1)包含了詞頻tf和逆文檔頻率idf兩部分。
結(jié)合上述信息檢索的詞項(xiàng)權(quán)重計(jì)算方法,本文將特征值的計(jì)算分成了詞項(xiàng)的權(quán)重(term weighting,簡(jiǎn)稱tw)和詞項(xiàng)的分布(inverse document frequence,簡(jiǎn)稱idf)兩部分,根據(jù)已有信息檢索模型的得分函數(shù),給出了表1和表2所示的改進(jìn)后的特征值計(jì)算方法。其中dlj表示文檔j的長(zhǎng)度,ave_dl表示文檔集的平均文檔長(zhǎng)度。
3.2.2 基于入度的詞項(xiàng)共現(xiàn)圖模型的特征值計(jì)算
現(xiàn)有的權(quán)重計(jì)算方法如TF-IDF和BM25均以詞袋模型的形式表示文檔,其詞項(xiàng)權(quán)重的計(jì)算都是基于詞頻。然而,本文通過頂點(diǎn)的入度數(shù)確定每個(gè)詞項(xiàng)的權(quán)重。如果指向某個(gè)頂點(diǎn)的邊數(shù)越多,則說明詞項(xiàng)的共現(xiàn)次數(shù)越多。基于入度的權(quán)重計(jì)算方法不僅計(jì)算簡(jiǎn)單,而且能更好的捕捉詞項(xiàng)與詞項(xiàng)之間的關(guān)系。已有的工作表明[1-2],采用基于入度的詞項(xiàng)權(quán)重可以很好的找到文檔的中心(重要詞項(xiàng)),相應(yīng)地,在中文觀點(diǎn)句識(shí)別時(shí),找到圖模型中帶有觀點(diǎn)傾向的詞項(xiàng)(即中心)。
表1 詞項(xiàng)權(quán)重計(jì)算方案
表2 詞分布計(jì)算方案
本文分別構(gòu)建了基于觀點(diǎn)句集和非觀點(diǎn)句集的詞項(xiàng)共現(xiàn)圖模型,模型中邊的方向定義有兩種:FG和BG。因此,本文計(jì)算詞項(xiàng)在兩個(gè)圖模型中的權(quán)重值時(shí),分別采用以下兩種方法。
1)基于FG模型的詞項(xiàng)權(quán)重稱為前向詞權(quán)重(Forward Term Weighting,簡(jiǎn)稱FTW)。由兩部分組成:基于主觀句集FG模型上詞項(xiàng)的權(quán)重ftw(s)和基于非主觀句集FG模型上詞項(xiàng)的權(quán)重ftw(n)。
2)基于BG模型的詞項(xiàng)權(quán)重稱為后向詞權(quán)重(Backward Term Weighting,簡(jiǎn)稱BTW)。由兩部分組成:基于主觀句集BG模型上詞項(xiàng)的權(quán)重btw(s)和基于非主觀句集BG模型上詞項(xiàng)的權(quán)重btw(n)。
在上述構(gòu)建的詞項(xiàng)共現(xiàn)圖模型中,我們已經(jīng)分別計(jì)算了詞項(xiàng)權(quán)重FTW和BTW,得到公式(2)和公式(3)所示的基于圖模型的權(quán)重計(jì)算方法。其中,ftw(i)是詞項(xiàng)i在文檔集構(gòu)建FG模型中的權(quán)重,btw(i)是詞項(xiàng)i在文檔集構(gòu)建BG模型中的權(quán)重。
結(jié)合基于信息檢索的權(quán)重計(jì)算方法,本文針對(duì)FTW和BTW分別給出了八種基于圖模型的詞項(xiàng)權(quán)重計(jì)算方案,具體如表3所示。詞項(xiàng)分布的計(jì)算方案仍采用表2一致的計(jì)算方法。
表3 基于圖模型的詞項(xiàng)權(quán)重計(jì)算方案
本節(jié)將通過實(shí)驗(yàn)驗(yàn)證詞項(xiàng)共現(xiàn)圖模型在中文觀點(diǎn)句識(shí)別任務(wù)中的有效性,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)的分析。
本文采用第三屆中文傾向性分析評(píng)測(cè)①http://www.ir-china.org.cn/所發(fā)布的電子產(chǎn)品評(píng)論作為語(yǔ)料集,該語(yǔ)料共包括2 000篇電子產(chǎn)品領(lǐng)域的文檔,去噪后語(yǔ)料包含觀點(diǎn)句5 662條,非觀點(diǎn)句9 266條。為了取得平衡的數(shù)據(jù),我們采用了隨機(jī)裁剪的方法,使得觀點(diǎn)句和非觀點(diǎn)句在數(shù)量上相當(dāng)。同時(shí),使用中國(guó)科學(xué)院的分詞與詞性標(biāo)注軟件①http://ictclas.org對(duì)語(yǔ)料進(jìn)行分詞預(yù)處理,采用LIBSVM②http://www.csie.ntu.edu.tw/~cjlin/libsvm/作為分類器(參數(shù)均取默認(rèn)值),并采用十折交叉驗(yàn)證方法獲取實(shí)驗(yàn)結(jié)果,詞項(xiàng)滑動(dòng)窗口的取值范圍為2至6。
為了驗(yàn)證基于詞項(xiàng)共現(xiàn)圖模型的中文觀點(diǎn)句識(shí)別方法的有效性,本文將已有的基于信息檢索(IRM)的中文觀點(diǎn)句識(shí)別方法和呂云云等[11]提出的基于BootStrapping的集成分類器(BSM)的中文觀點(diǎn)句識(shí)別方法作為Baseline。BSM是采用Bootstrapping的方法擴(kuò)展訓(xùn)練語(yǔ)料,分別訓(xùn)練貝葉斯、支持向量機(jī)和最大熵分類器。然后,通過給三個(gè)訓(xùn)練好的分類器賦權(quán)獲得一個(gè)集成分類器。此外,本文還將通過設(shè)置兩個(gè)對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證,在中文觀點(diǎn)句識(shí)別當(dāng)中,基于FG模型和基于BG模型的性能。
4.2.1 Baseline實(shí)驗(yàn)結(jié)果
圖2顯示了IRM和BSM模型的中文觀點(diǎn)句識(shí)別性能。在IRM模型中,tw有五種計(jì)算方法,idf有三種計(jì)算方法,共有15種計(jì)算方案,實(shí)驗(yàn)參數(shù)取值采用已有文獻(xiàn)中求得的經(jīng)驗(yàn)參數(shù)值k=1.2和b=0.75。在BSM模型中,語(yǔ)料標(biāo)注率在0.05和1之間以0.05的步長(zhǎng)進(jìn)行平滑,在標(biāo)注率分別為0.4和1時(shí),訓(xùn)練的集成分類器的效果達(dá)到最好,分別為0.778 6和0.772 4。因此,本文只取bsm0.4和bsm1的實(shí)驗(yàn)結(jié)果作對(duì)比。
圖2 Baseline實(shí)驗(yàn)結(jié)果
圖2數(shù)據(jù)表明:
1)在英文觀點(diǎn)句識(shí)別中,僅使用二元特征值就可以取得很好的效果,分類精度通??梢赃_(dá)到82.9%,但該方法在中文觀點(diǎn)句識(shí)別中效果并不好,圖2中tw0*idf1的精度只有63.37%,這一實(shí)驗(yàn)結(jié)果說明了簡(jiǎn)單的二元特征值計(jì)算方法不適合于中文觀點(diǎn)句識(shí)別任務(wù);
2)在計(jì)算特征值時(shí)僅考慮詞項(xiàng)權(quán)重總體識(shí)別效果都不太好,其中tw1×idf1、tw2×idf1、tw3× idf1和tw4×idf1的分類精度分別為60.10%、69.37%、58.74%和69.59%,精度均低于70%。相比較而言,僅用詞項(xiàng)分布來(lái)計(jì)算特征值的方法分類效果具有顯著提升,識(shí)別性能均在77%以上,其中在tw0×idf2和tw0×idf3方案中,精度分別高達(dá)到78.01%和77.92%,這一實(shí)驗(yàn)結(jié)果說明詞項(xiàng)在語(yǔ)料中的分布情況對(duì)于觀點(diǎn)句的識(shí)別具有重要的作用。同時(shí),BM25模型(tw5×idf3方法)可以取得更好的識(shí)別效果,分類精度達(dá)到最高(78.28%)。
3)整體上來(lái)說,在中文觀點(diǎn)句識(shí)別中,IRM模型可以顯著提升中文觀點(diǎn)句識(shí)別效果,甚至可以取得比BSM模型訓(xùn)練的集成分類器更好的分類性能。
4.2.2 基于FG模型的特征值計(jì)算
圖3顯示了窗口大小為3時(shí)的FG模型中特征值計(jì)算下的中文觀點(diǎn)句識(shí)別性能。圖中實(shí)驗(yàn)結(jié)果表明:使用基于FG模型的特征值計(jì)算方法,分類性能都有較大幅度的提升。在不考慮詞項(xiàng)分布的ftw1×idf1、ftw1×idf2、ftw1×idf3和ftw1×idf4方案中,分類性能分別達(dá)到了75.98%、66.55、71.68%和 69.98%,與基于信息檢索的同等條件下的方案相比,性能都有所提升,這一實(shí)驗(yàn)結(jié)果充分說明本文構(gòu)建的FG圖模型可以捕捉到更多的觀點(diǎn)句和非觀點(diǎn)句中詞項(xiàng)間的依賴及語(yǔ)法關(guān)系,并用于分類器的訓(xùn)練?;贐M25模型的ftw4×idf2方案可以達(dá)到最好的性能81.22%,ftw3×idf2、ftw3×idf3的分類性能也都在80%以上。但是,ftw1×idf3和 ftw2×idf3方案與同等條件下的基于信息檢索的方案相比,性能會(huì)有所降低(僅有73.07%和75.18%),原因在于一些非觀點(diǎn)詞的共現(xiàn)頻率過高,導(dǎo)致分類器引入更多的噪音。
另外,基于FG模型的觀點(diǎn)句識(shí)別方法也可以獲得比基于BSM模型更好的分類性能。
圖3 基于FG的特征值計(jì)算
4.2.3 基于BG模型的特征值計(jì)算
圖4顯示了窗口大小為3時(shí)的BG模型中特征值計(jì)算下的中文觀點(diǎn)句識(shí)別性能。
圖4 基于BG的特征值計(jì)算
實(shí)驗(yàn)結(jié)果表明,基于BG模型的分類性能與基于FG的方法的分類性能總體相差不大。分析圖3和圖4可得,采用ftw3×idf3、ftw4×idf3和btw3× idf3、btw4×idf3方案計(jì)算特征值的性能較好,而且也較穩(wěn)定。其中,最好的模型分類性能是方案bw1× idf3,高達(dá)80.24%,比基于FG的方法最好的性能稍差。ftw2×idf1的性能最差,只有66.31%,分析原因是在計(jì)算詞項(xiàng)權(quán)重時(shí)用文檔集中最大的權(quán)重值進(jìn)行了平滑,導(dǎo)致部分觀點(diǎn)詞的影響減弱。
通過上述分析可得,基于FG和BG模型采用不同的特征值計(jì)算方案,得到的觀點(diǎn)句識(shí)別性能會(huì)有相對(duì)較大的浮動(dòng),原因在于信息檢索模型均以詞袋(Bag-Of-Words,簡(jiǎn)稱BOG)的形式表示文檔,其特征值計(jì)算方案都依賴于詞項(xiàng)獨(dú)立性假設(shè),即并未考慮詞項(xiàng)之間的依賴關(guān)系。相反,本文是通過構(gòu)建詞項(xiàng)共現(xiàn)關(guān)系圖來(lái)表示每篇文檔,因此信息檢索中性能較好的特征值計(jì)算方法不太適用于本文構(gòu)建的模型中,同時(shí)更加適合中文觀點(diǎn)句識(shí)別這一任務(wù)的特征值計(jì)算方案也將作為我們未來(lái)的研究工作之一。
4.2.4 窗口大小的選擇
圖5顯示了在FG模型中,ftw4×idf2特征值計(jì)算方法在不同的詞項(xiàng)滑動(dòng)窗口下的分類性能。實(shí)驗(yàn)表明詞項(xiàng)滑動(dòng)窗口大小與分類精度并不是簡(jiǎn)單線性關(guān)系。例如:在窗口大小為2時(shí),分類精度為80.3161%;在窗口大小為3時(shí),分類精度達(dá)到最大81.2169%。該實(shí)驗(yàn)結(jié)果可以很好的總結(jié)漢語(yǔ)表達(dá)的語(yǔ)法習(xí)慣,即在中文表達(dá)觀點(diǎn)時(shí),作者傾向于采用三元成分結(jié)構(gòu)。當(dāng)窗口逐漸增加,分類精度卻有逐漸下降,原因在于隨著窗口大小的增大,很多非合法語(yǔ)法搭配結(jié)構(gòu)被當(dāng)作有用的特征來(lái)計(jì)算詞項(xiàng)的FTW和BTW值,即加入了很多噪音特征,從而導(dǎo)致分類精度下降。
圖5 FG模型中調(diào)整詞項(xiàng)滑動(dòng)窗口大小對(duì)性能的影響
針對(duì)傳統(tǒng)的詞項(xiàng)間強(qiáng)獨(dú)立性假設(shè)的詞袋模型驅(qū)動(dòng)的中文觀點(diǎn)句識(shí)別方法的不足,本文提出了一種新型的基于詞項(xiàng)共現(xiàn)關(guān)系的圖模型方法。該方法通過構(gòu)建詞項(xiàng)共現(xiàn)關(guān)系有向圖模型,利用詞項(xiàng)與詞項(xiàng)之間的共現(xiàn)性和句法關(guān)系來(lái)描述詞項(xiàng)在觀點(diǎn)句和非觀點(diǎn)句集合中的分布差異。同時(shí),在構(gòu)建的圖模型上,本文采用基于入度的詞項(xiàng)權(quán)重計(jì)算方法計(jì)算每個(gè)頂點(diǎn)(詞項(xiàng))的權(quán)重,并結(jié)合基于信息檢索的特征值計(jì)算方案計(jì)算特征向量的特征值。上述研究在基準(zhǔn)語(yǔ)料上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)表明采用基于詞項(xiàng)關(guān)系圖模型方法后,中文觀點(diǎn)句識(shí)別準(zhǔn)確率相比目前基于詞袋的方法得到顯著提升。
將來(lái)工作主要包括以下兩個(gè)方面:(1)在跨領(lǐng)域數(shù)據(jù)集上驗(yàn)證本文提出的模型性能;(2)將本文提出基于詞項(xiàng)共現(xiàn)圖模型的特征計(jì)算方法與目前已有的特征計(jì)算方法進(jìn)行結(jié)合,以體現(xiàn)方法的協(xié)同性。
[1] Rousseau F,Vazirgiannis M.Graph-of-word and TWIDF:new approach to ad hoc IR[C]//Proceedings of the 22nd ACM International Conference on Information and Knowledge Management.ACM,2013:59-68.
[2] Mihalcea R,Tarau P.TextRank:Bringing order into texts[C]//Proceedings of the 2004Conference on Empirical Methods in Natural Language Processing(EMNLP).2004,4(4):275.
[3] 洪歡,王明文,萬(wàn)劍怡,等.基于迭代方法的多層Markov網(wǎng)絡(luò)信息檢索模型[J].中文信息學(xué)報(bào),2013,27(5):122-128.
[4] Pang B,Lee L,Vaithyanathan S.Thumbs up?:sentiment classification using machine learning techniques[C]//Proceedings of the Associate Computational Linguistics 02Conference on Empirical Methods in Natural Language Processing-Volume 10.Association for Computational Linguistics,2002:79-86.
[5] Dave K,Lawrence S,Pennock D M.Mining the peanut gallery:Opinion extraction and semantic classification of product reviews[C]//Proceedings of the 12th International Conference on World Wide Web.ACM,2003:519-528.
[6] Pang B,Lee L.A sentimental education:Sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics.Association for Computational Linguistics,2004:271.
[7] 徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J].中文信息學(xué)報(bào),2007,21(6):95-100.
[8] 謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽?。跩].中文信息學(xué)報(bào),2012,26(1):73-83.
[9] Prabowo R,Thelwall M.Sentiment analysis:A combined approach[J].Journal of Informetrics,2009,3(2):143-157.
[10] Qiu L,Zhang W,Hu C,et al.Selc:a self-supervised model for sentiment classification[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management.ACM,2009:929-936.
[11] 徐睿峰,王亞偉,徐軍,等.基于多知識(shí)源融合和多分類器表決的中文觀點(diǎn)分析[C]//第三屆中文傾向性分析評(píng)測(cè)論文集,2011:77-87.
[12] 呂云云,李旸,王素格.基于BootStrapping的集成分類器的中文觀點(diǎn)句識(shí)別方法[J].中文信息學(xué)報(bào),2013,27(5):84-92.
[13] Martineau J,F(xiàn)inin T.Delta TFIDF:An Improved Feature Space for Sentiment Analysis[C]//Proceedings of the 3rd International Conference on Weblogs and Social Media(ICWSM).2009:258-261.
[14] Paltoglou G,Thelwall M.A study of information retrieval weighting schemes for sentiment analysis[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics,2010:1386-1395.
[15] Deng Z H,Luo K H,Yu H L.A study of supervised term weighting scheme for sentiment analysis[J].Expert Systems with Applications,2014,41(7):3506-3513.
[16] Riloff E,Wiebe J.Learning extraction patterns for subjective expressions[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing(EMNLP).Association for Computational Linguistics,2003:105-112.
[17] Kim S M,Hovy E.Determining the sentiment of opinions[C]//Proceedings of the 20th International Conference on Computational Linguistics.Association for Computational Linguistics,2004:1367.