張 鵬,王素格,2,李德玉,2
(1. 山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
一種策略融合的跨語言文本情感傾向判別方法
張 鵬1,王素格1,2,李德玉1,2
(1. 山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)資源呈現(xiàn)領(lǐng)域開放性和語言多樣性的特點(diǎn)。而語言多樣性將造成網(wǎng)絡(luò)信息交流上的障礙,整合多語言數(shù)據(jù)資源讓用戶快速了解其他語言信息具有重要的應(yīng)用價值和現(xiàn)實(shí)意義。該文結(jié)合跨語言情感傾向判別的特點(diǎn),提出策略融合的跨語言文本情感傾向判別框架。通過跨語言一致文本和跨語言混合概念空間的文本兩種策略,構(gòu)建基于雙語協(xié)同文本情感傾向判別框架和基于跨語言特征混合文本情感傾向判別框架。在兩種判別框架的基礎(chǔ)上,融合兩種框架判別結(jié)果,給出文本整體情感傾向性。實(shí)驗(yàn)表明,該文提出的融合策略在跨語言文本情感傾向判別上是有效的。
跨語言;傾向分類;多策略融合
互聯(lián)網(wǎng)絡(luò)以及基于互聯(lián)網(wǎng)的電子商務(wù)、社會網(wǎng)絡(luò)等開放應(yīng)用發(fā)展迅速,網(wǎng)絡(luò)資源全球化進(jìn)程加快,因特網(wǎng)所提供的資源呈現(xiàn)多語言化和跨語言的特點(diǎn)。網(wǎng)絡(luò)資源的多語言特點(diǎn)給普通用戶獲取非母語網(wǎng)絡(luò)信息造成語言障礙。如何整合多語言傾向信息,以通用的數(shù)據(jù)形式讓用戶了解多語言數(shù)據(jù)對某個對象的評價,具有重要的應(yīng)用價值和現(xiàn)實(shí)意義。
在跨語言情感傾向分析任務(wù)中,由于語言習(xí)慣差異,不同語言表述相同對象、相近情感傾向所使用的表達(dá)方式和詞匯差別較大,導(dǎo)致同義詞匯在不同語言間分布差異較大。因此,跨語言情感傾向分析目的是利用源語言帶情感傾向標(biāo)簽訓(xùn)練數(shù)據(jù),克服詞匯跨語言分布差異,對目標(biāo)語言數(shù)據(jù)實(shí)現(xiàn)情感傾向分類。多語言環(huán)境下的跨語言情感傾向分析面臨的主要困難有以下兩點(diǎn):
(1) 不同語言在詞匯使用和句法結(jié)構(gòu)上差異巨大,跨語言詞匯特征的對應(yīng)關(guān)系難于發(fā)現(xiàn),導(dǎo)致不同語言數(shù)據(jù)表示特征對齊困難,使得多語言數(shù)據(jù)缺少一致的表示空間;
(2) 情感傾向觀點(diǎn)本身具有分散性質(zhì),正面觀點(diǎn)與負(fù)面觀點(diǎn)判別性能差異較大,判別效果不穩(wěn)定。
針對跨語言情感傾向分類任務(wù),本文采用了兩種跨語言情感傾向分析策略,一種是半監(jiān)督框架的跨語言情感傾向判別方法,它通過調(diào)整原始特征空間方式實(shí)現(xiàn)跨語言情感傾向判別;另一種是基于詞匯特征概念空間抽取策略的跨語言情感傾向判別方法,將特征一致性擴(kuò)展到具有相似分布的潛層語義一致層面,抽取分布相近的情感傾向特征作為概念空間,在概念空間上實(shí)現(xiàn)跨語言情感傾向判別,以彌補(bǔ)原始特征稀疏分散的問題,這也是本文的主要創(chuàng)新。在這兩種策略的基礎(chǔ)上,本文提出了融合兩種策略判別結(jié)果的框架,通過COAE2014任務(wù)2的實(shí)驗(yàn),最終給出情感傾向在參賽的提交結(jié)果,得到了較好成績。
針對文本情感傾向判別分析,常采用機(jī)器學(xué)習(xí)方法,利用訓(xùn)練數(shù)據(jù)獲得判別分類器,再對目標(biāo)數(shù)據(jù)進(jìn)行情感傾向分類。文獻(xiàn)[1]首先使用了三種機(jī)器學(xué)習(xí)方法對文本情感傾向進(jìn)行了判別,文本的傾向判別性能劣于傳統(tǒng)話題分類任務(wù),說明文本內(nèi)容的構(gòu)成對分類效果的影響至關(guān)重要。對于情感傾向判別任務(wù),需要找到合理的與文本情感傾向相關(guān)的特征,以構(gòu)建有效的數(shù)據(jù)表示空間。文獻(xiàn)[2]利用了Fisher線性判別準(zhǔn)則用于度量特征類別區(qū)分能力,從而獲得類內(nèi)聚集、類間分散的特征表示空間。實(shí)驗(yàn)表明,基于Fisher的特征選擇方法可以在評論文本上獲得更好的情感傾向分類效果。特征選擇方法所確定的特征是單個詞語,在數(shù)據(jù)量較大而文本篇幅較短時面臨數(shù)據(jù)空間維度高而數(shù)據(jù)表示稀疏的問題,可利用數(shù)據(jù)壓縮方法獲得低維表示空間。文獻(xiàn)[3]采用了潛層語義分析(Latent Semantic Analysis)方法,對原始數(shù)據(jù)進(jìn)行降維表示,將原始數(shù)據(jù)表示在概念空間上。
對于特征對應(yīng)關(guān)系發(fā)現(xiàn)任務(wù),結(jié)構(gòu)一致學(xué)習(xí)(SCL, Structural Correspondence Learning)[4]是一種較好的針對相同語言發(fā)現(xiàn)對應(yīng)情感傾向特征對的方法。SCL通過發(fā)現(xiàn)相同語法結(jié)構(gòu)和語義結(jié)構(gòu)來構(gòu)建特征對應(yīng)橋梁。文獻(xiàn)[5-6]則針對多語言任務(wù)提取高度相關(guān)的跨語言特征對。文獻(xiàn)[7]則利用文本中常出現(xiàn)的情感表情符號網(wǎng)絡(luò)建立情感傾向一致特征映射關(guān)系。本文借鑒了SCL發(fā)現(xiàn)一致語義結(jié)構(gòu)的思想,通過特征融合方式表示跨語言情感傾向語義。另外,文本中存在“Great!”,“Fantastic!”,“Poor!”等獨(dú)詞句情況。而這些獨(dú)詞句含義單一、準(zhǔn)確,具有類似于文獻(xiàn)[7]中表情符號的性質(zhì),本文的特征將這些獨(dú)詞句作為特征。文獻(xiàn)[8]則在已有基礎(chǔ)上首次采用聯(lián)合策略,將文本極性、表情符號和詞語強(qiáng)度相結(jié)合,協(xié)同篩選主客觀分類和情感傾向分類特征。
跨語言情感分類任務(wù)處理的對象是不同語種的語言,該任務(wù)可以通過語言自動翻譯技術(shù)在目標(biāo)語言和源語言上建立相同目標(biāo)的任務(wù)數(shù)據(jù)集,這樣便可以采用雙語協(xié)同方式進(jìn)行文本情感傾向判別[9]。文獻(xiàn)[9]提出一種雙語協(xié)同策略,針對源語言有少量可用標(biāo)記樣本點(diǎn),而目標(biāo)語言又有大量未標(biāo)記樣本點(diǎn)的情況,采用雙語協(xié)同方式在源語言和目標(biāo)語言上學(xué)習(xí)對等的分類器,對大量未標(biāo)注樣本點(diǎn)進(jìn)行標(biāo)注,之后利用一定的整合策略將源語言和目標(biāo)語言上的預(yù)測結(jié)果整合在一起。在迭代過程中逐步將預(yù)測置信度較高的未標(biāo)注樣本點(diǎn)加入已知標(biāo)記集合,這樣便可逐步判別目標(biāo)語言樣本點(diǎn),達(dá)到逐步引入目標(biāo)語言樣本和詞匯特征的目的。文獻(xiàn)[10]則介紹了編輯距離概念,本文利用編輯距離對齊誤拼的西文單詞。
在跨語言的文本情感傾向分類任務(wù)中,一般給定兩部分?jǐn)?shù)據(jù)集,即帶有情感傾向標(biāo)注的源語言訓(xùn)練數(shù)據(jù)集和未標(biāo)注目標(biāo)語言數(shù)據(jù)集。兩部分?jǐn)?shù)據(jù)集的情感傾向表示空間是不同的,因此,本文采用雙語協(xié)同跨語言文本情感傾向判別策略,將情感傾向一致樣本點(diǎn)作為載體,采用半監(jiān)督學(xué)習(xí)方法在源語言和目標(biāo)語言候選特征的并集中,建立情感傾向一致的表示空間。
用SO標(biāo)記源語言數(shù)據(jù)集,用ST標(biāo)記目標(biāo)語言數(shù)據(jù)集。情感傾向標(biāo)簽y∈γ={-1,1},1表示正面情感傾向標(biāo)簽,-1表示負(fù)面情感傾向標(biāo)簽。SO和ST表示如下:
SO={(xi,yi)|i=1...M},F(xiàn)O={O1,O2,...,Om}。其中,SO為文本xi與標(biāo)簽yi映射對集合,F(xiàn)O為特征向量。ST={xj|j=1...N},F(xiàn)T={T1,T2,...,Tn},其中,ST為未標(biāo)記文本點(diǎn)集合,F(xiàn)T為特征詞向量。
為了建立FO和FT的部分語義映射關(guān)系,本文利用自動翻譯技術(shù)實(shí)現(xiàn)FO和FT的語言互譯,令FInt=FO∩FT,且FO∩FT≠?。
跨語言文本情感傾向分類任務(wù)的目標(biāo)是利用源語言數(shù)據(jù)集SO的情感傾向標(biāo)簽,預(yù)測ST中未標(biāo)注樣本點(diǎn)的情感傾向標(biāo)簽,即學(xué)習(xí)跨語言函數(shù)pSO(y|x)→pST(y|x)。為了構(gòu)造跨語言函數(shù),需要定義以下概念。
定義1 一致語言樣本點(diǎn)是指在源語言和目標(biāo)語言上具有相同的情感傾向性的樣本點(diǎn),即pO(y|x)和pT(y|x)是一致的,用Ssame表示。
根據(jù)定義1有Ssame?ST,即一致語言樣本點(diǎn)集Ssame是目標(biāo)數(shù)據(jù)的子集。這樣,Ssame包含了ST上與SO一致的情感傾向信息。因此,Ssame可以由SO上的判別模型給出正確情感傾向標(biāo)簽,同時Ssame還包含了ST的情感傾向判別信息。通過Ssame上的判別模型還可以正確給出ST的情感傾向標(biāo)簽。
令S_train=SO∪Ssame,S_train為跨語言情感傾向判別數(shù)據(jù)集。在S_train上訓(xùn)練情感傾向判別模型,即為跨語言情感傾向判別模型。為了獲得S_train,本文設(shè)計了雙語協(xié)同跨語言情感傾向判別框架,整體過程如圖1所示。
圖1 雙語協(xié)同半監(jiān)督文本情感傾向判別
圖1中的高置信度樣本即為在源語言和目標(biāo)語言上具有一致情感傾向性的樣本點(diǎn),即源語言模型和目標(biāo)語言模型的判別結(jié)果是一致的。當(dāng)無法發(fā)現(xiàn)新的高置信度樣本點(diǎn)時,則迭代停止,此時獲得的訓(xùn)練數(shù)據(jù)集即為S_train。
在整個文本情感傾向判別過程中,高置信度樣本點(diǎn)的情感傾向在半監(jiān)督訓(xùn)練過程中已被確定下來,剩余目標(biāo)數(shù)據(jù)樣本點(diǎn)情感傾向性需要最終判別結(jié)果確定。
高置信度樣本點(diǎn)作為跨語言情感傾向信息的載體,可以看作包含源語言與目標(biāo)語言共享的情感傾向觀點(diǎn)詞,同時包含部分目標(biāo)語言常使用而源語言較少使用的情感傾向觀點(diǎn)詞。其中,共享情感傾向觀點(diǎn)詞數(shù)量已可以保證樣本點(diǎn)被正確判別,且具有較高的置信度。如圖2所示。
隨著高置信度樣本點(diǎn)逐步加入訓(xùn)練數(shù)據(jù)集中,目標(biāo)語言上的情感傾向觀點(diǎn)詞被逐漸引入S_train中,從而實(shí)現(xiàn)跨語言情感傾向判別。
在半監(jiān)督訓(xùn)練過程中,高置信度樣本是跨語言情感傾向判別的橋梁,其核心問題是如何選擇高置信度樣本點(diǎn)。
3.1 高置信度樣本選擇
在單一語言上,判別模型對一個樣本x給出的結(jié)果有如式(1)所示的約束。
(1)
即樣本x屬于正面概率P+(x)與屬于負(fù)面概率P-(x)和為1。類別概率值的大小,反映了樣本x屬于正類或者負(fù)類的可能性。因此,屬于正類和負(fù)類概率差值越大, 則說明判別結(jié)果越可靠。在判別概率基礎(chǔ)上,定義置信度計算公式為式(2)。
(2)
Cfd(x)∈[-1,1],|Cfd(x)|越大,說明置信度越高,signal(Cfd(x))標(biāo)記了樣本x屬于正類(正號)或負(fù)類(負(fù)號)。
在目標(biāo)語言和源語言上同時具有較高可信度的樣本能夠?qū)ふ业礁咧眯哦鹊臉颖军c(diǎn),因此,設(shè)置高置信度樣本的選擇條件如下:
圖2 高置信度樣本點(diǎn)包含的情感傾向觀點(diǎn)詞
其中,α為選擇閾值。滿足以上條件的樣本x應(yīng)在源語言和目標(biāo)語言上的判別結(jié)果同屬正面或者負(fù)面,且置信度應(yīng)同時高于閾值α。
3.2 雙語情感傾向判別結(jié)果融合算法
通過半監(jiān)督訓(xùn)練得到的訓(xùn)練數(shù)據(jù)集,包含原始訓(xùn)練數(shù)據(jù)和部分目標(biāo)語言數(shù)據(jù)。在融合兩種語言判別結(jié)果時,需要平衡目標(biāo)語言與源語言判別結(jié)果的置信度。本文采用置信度加權(quán)疊加方式計算雙語融合置信度,表示為式(3)。
(3)
其中,權(quán)重β調(diào)節(jié)源語言結(jié)果與目標(biāo)語言結(jié)果對最終結(jié)果的影響程度,β的選擇原則為偏向正確率較高的一方,若無法預(yù)知哪一方正確率較高時可以設(shè)置為相等權(quán)重。利用L(x)可以為樣本x標(biāo)記情感傾向標(biāo)簽。若L(x)≥0,則x為正面情感傾向,否則x為負(fù)面情感傾向。
綜合上述高置信度樣本點(diǎn)選擇策略和雙語情感傾向判別結(jié)果融合原則,基于雙語協(xié)同策略的半監(jiān)督情感傾向判別算法框架表述如下:
輸入:Oo,Do,Od,Dd;//Od和Dd分別表示目標(biāo)語言訓(xùn)練數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集,Od和Dd分別表示源語言的訓(xùn)練集和未標(biāo)注數(shù)據(jù)集,N為高置信度樣本
輸出:最終判別結(jié)果RF
Step 1分別在Oo,Od上,進(jìn)行特征選擇;
Step 2 在Oo和Od上分別訓(xùn)練分類器So和Sd;
Step 3 利用So和Sd,分別對Do和Dd進(jìn)行情感傾向判別,得到帶類別標(biāo)簽結(jié)果集為Ro和Rd;
Step 4若Ro∩Rd=?,則轉(zhuǎn)Step 8;
Step 5 若Ro∩Rd≠? ,則對每個x∈Ro∩Rd,若signal[CfdO(x)]=signal[CfdT(x)],|CfdO(x)|≥α,|CfdT(x)|≥α,則N=N∪{x};
Step 6 若N≠?,則Oo=Oo∪N,Od=Od∪N,Do=Do-N,Dd=Dd-N;
Step 7 轉(zhuǎn)Step 1;
Step 8 輸出結(jié)果To=Ro,Td=Ed;
在雙語協(xié)同跨語言文本情感傾向判別中,是以原始候選特征的子集作為表示特征用于文本表示,而原始詞語作為空間表示仍然面臨表示稀疏問題,本文采用跨語言情感傾向特征混合壓縮的思想,抽取跨語言情感傾向特征。
在語言學(xué)上,詞語具有同義關(guān)系,在概念上它們表達(dá)同一含義,這樣使用多個同義詞語作為特征會導(dǎo)致表示空間冗余、相同概念分散在多個特征詞上,使得文本表示出現(xiàn)特征稀疏現(xiàn)象。情感傾向特征混合策略核心思想為將數(shù)據(jù)集映射到概念空間中,從而疊加原始特征信息,解決共享特征和樣本點(diǎn)稀少問題。本質(zhì)上,人對事物的認(rèn)知具有一致性,因此,在文本中分布相似的詞匯特征具有相近或相同的語義,本文采用提取同分布特征的方法獲得概念空間。
設(shè)Sall=SO∪ST,Sall的特征詞集為Fall=FO∪FT,Sall在Fall上的數(shù)據(jù)矩陣為Xall,其概念空間可以由奇異值分解(SVD)求得,如式(4)所示。
(4)
其中,U和V為兩個單位正交矩陣,∑為正實(shí)數(shù)奇異值對角陣,奇異值按降序排列,即σ1≥σ2≥…≥σl。V中第i列向量對應(yīng)表示重要程度為σi。選擇奇異值最大的k(k≤l)個主成分作為語義空間,令P為V的前k列部分,即為式(5)。
(5)
則數(shù)據(jù)在概念空間映射為式(6)。
(6)
圖3 跨語言特征混合
由圖3可知,目標(biāo)數(shù)據(jù)與訓(xùn)練數(shù)據(jù)混合后,混合情感傾向主成分會沿著混合數(shù)據(jù)分開的方向,同時較好地區(qū)分訓(xùn)練數(shù)據(jù)和目標(biāo)數(shù)據(jù)。此時,訓(xùn)練集與目標(biāo)數(shù)據(jù)集上的情感傾向信息同時被投影到主成分方向上,使得主成分綜合了源語言數(shù)據(jù)和目標(biāo)語言數(shù)據(jù)上的情感傾向信息。而混合后的主成分方向,它又位于訓(xùn)練數(shù)據(jù)和目標(biāo)數(shù)據(jù)的主成分方向之間,是由源語言和目標(biāo)語言所共享的情感傾向信息構(gòu)成,因此,主成分可以強(qiáng)化不同語言間的情感傾向語義映射關(guān)系。
使用PCA混合情感傾向特征時,可將源語言和目標(biāo)語言兩種數(shù)據(jù)的并集作為PCA的輸入,跨語言情感傾向特征混合判別的整體框架如圖4所示。
圖4 PCA跨語言特征混合
圖4中所選取一致語言可以是目標(biāo)語言或者源語言,也可以是其他中間語言。經(jīng)過PCA跨語言特征混合后,選擇一定數(shù)量的主成分作為混合特征空間,它的維度遠(yuǎn)小于輸入原始數(shù)據(jù)維度,因此,通過PCA壓縮后數(shù)據(jù)表示可以更加緊湊,從而減小了數(shù)據(jù)在高維空間中的稀疏性。
基于跨語言情感傾向特征混合策略的半監(jiān)督跨語言學(xué)習(xí)過程,是將情感傾向特征混合方法替代雙語協(xié)同分類過程,算法框架如下:
輸入:一致語言訓(xùn)練集O,一致語言目標(biāo)數(shù)據(jù)集D輸出:最終判別結(jié)果RF1 在O∪D上進(jìn)行PCA操作,獲得混合空間H2 在H上O表示為Oh,D表示為Dh3 在Oh上,訓(xùn)練分類器S4 利用S對Dh進(jìn)行情感傾向判別,獲得結(jié)果集R5 利用第3.1節(jié)的高置信度選擇條件,選擇R上高置信度樣本N6 若N≠?,則Oh=Oh∪N,轉(zhuǎn)Step37 在Oh上訓(xùn)練分類器Fd8 利用Fd對Dd進(jìn)行情感傾向判別,得到結(jié)果集RF
在雙語協(xié)同和跨語言情感傾向特征混合兩種策略基礎(chǔ)上,本文提出融合兩種結(jié)果的多策略跨語言情感傾向判別框架,框架結(jié)構(gòu)如圖5所示。
圖5中,數(shù)據(jù)預(yù)處理是基本的語言翻譯、去停用詞等操作;詞語校準(zhǔn)步驟用于對齊誤拼的單詞,以進(jìn)一步對齊多語言詞匯。融合操作是該框架的核心步驟,目的是將兩種策略的判別結(jié)果合成為一個最終結(jié)果。
圖5 多策略跨語言情感傾向判別框架
5.1 詞語校準(zhǔn)
由于目標(biāo)數(shù)據(jù)為互聯(lián)網(wǎng)數(shù)據(jù),存在較多的拼寫錯誤,所以需要對錯誤拼寫進(jìn)行校準(zhǔn),將誤拼的單詞統(tǒng)一為相同的拼寫方式,這樣可以增加一致特征數(shù)量,減小語言障礙。
根據(jù)拉丁語系語言特點(diǎn),單詞以字母編碼表示,個別字母有拼寫錯誤或誤用的情況。較短的單詞便于記憶,因此,通常不會被寫錯,而生僻的長單詞錯誤率較高。通過計算編輯距離(edit distance /Levenshtein distance)可以度量兩個字符串的最小差異, 文獻(xiàn)[10]介紹了學(xué)習(xí)字符串間編輯距離的相關(guān)方法。
定義2 定義兩個字符串a(chǎn)與b間的誤拼距離如式(7)所示。
(7)
(8)
公式(8)中l(wèi)en(a)表示字符串a(chǎn)的長度,a[i]為字符串a(chǎn)的第i個字符。
由定義2中的ED(a,b)可以看出,若ED值越小(但不為0),a與b誤拼的可能性越大。若a和b完全相同,ED值為零;在不同字母個數(shù)相同時,長字符串更容易為誤拼字符串。通過對ED(a,b)設(shè)置一定的篩選條件和閾值,可以有效發(fā)現(xiàn)數(shù)據(jù)中誤拼詞對。再對數(shù)據(jù)中出現(xiàn)的誤拼詞進(jìn)行合并操作,使它們具有相同拼寫方式。
5.2 多策略結(jié)果融合
設(shè)雙語協(xié)同策略判別作為第一個結(jié)果,記為result1;以特征混合策略作為第二個結(jié)果,記為result2。根據(jù)第三節(jié)樣本置信度計算公式(1),設(shè)計樣本整體置信度如式(9)所示。
(9)
由于樣本整體置信度所屬的區(qū)間不同,可能導(dǎo)致不同的判別結(jié)果,因此,設(shè)置如下融合策略:
(1) 若|cfd(x)|≥1,則說明兩種策略判別結(jié)果相同,因此,直接將判別結(jié)果作為最終結(jié)果;
(2) 若 1>|cfd(x)|≥0.5,則說明兩種策略判別結(jié)果不同,但結(jié)果區(qū)分度較大,以signal(cfd(x))作為最終結(jié)果;
(3) 若|cfd(x)|<0.5,兩種策略區(qū)分度較小,此時以詞語特征作為判別依據(jù)的結(jié)果1更為直接,所以將signal(cfdresult1(x))為最終結(jié)果。
本文實(shí)驗(yàn)針對COAE 2014的跨語言情感傾向分析任務(wù)(任務(wù)2)。實(shí)驗(yàn)數(shù)據(jù)包括四種語言,分別為德語(2 000篇)、英語(4 000篇)、西班牙語(2 000篇)、法語(2 000篇),共10 000篇。所有數(shù)據(jù)均為從互聯(lián)網(wǎng)獲得的原始文本數(shù)據(jù)。訓(xùn)練數(shù)據(jù)集為中科院計算所公開的帶情感傾向標(biāo)注的中文語料(2 000篇)。
對于COAE 2014的跨語言情感傾向分析任務(wù)(任務(wù)2)數(shù)據(jù),進(jìn)行以下預(yù)處理:
利用Google在線翻譯器將訓(xùn)練數(shù)據(jù)和目標(biāo)數(shù)據(jù)翻譯為英文和中文兩種表示形式,去除文本中的虛詞、標(biāo)點(diǎn)符號、數(shù)字和無法識別的符號。對于英語文本利用NLTK工具包進(jìn)行詞根化和詞干化操作,將變形后的單詞還原為其詞根原形形式。
根據(jù)5.1節(jié)公式(7),給定三個誤拼篩選條件:
(1) len(a)=len(b);
(2) len(a)>7,len(b)>7;
(3) B(a,b)≤3。
依據(jù)以上篩選條件,在任務(wù)數(shù)據(jù)集中共選擇出1 856個誤拼詞對。經(jīng)過語言處理和誤拼詞語校準(zhǔn)后,在評測任務(wù)提供的數(shù)據(jù)集上共保留8 826個不同的英文單詞,將其作為候選特征集,其他語言特征與英語相對應(yīng)。外文文本翻譯為中文后,錯誤拼寫的單詞無法被正確翻譯,全部作為停用詞去除。
采用LibSVM作為分類模型,采用線性核函數(shù),其他訓(xùn)練參數(shù)為軟件默認(rèn)設(shè)置;文本特征權(quán)重采用Boolean方法,即特征詞語是否出現(xiàn)。實(shí)驗(yàn)性能分析選用的評價指標(biāo)為COAE 2014評測任務(wù)提供的評判指標(biāo)。
為了驗(yàn)證本文提出的三種策略的有效性,設(shè)置三個實(shí)驗(yàn)。
(1) 雙語協(xié)同策略實(shí)驗(yàn):利用第三節(jié)介紹的方法,可實(shí)現(xiàn)從原始候選特征空間選擇跨語言特征子集作為表示空間;
(2) 情感傾向特征混合策略實(shí)驗(yàn):利用第四節(jié)介紹的方法,將得到的概念空間作為表示空間;
(3) 多策略結(jié)果融合實(shí)驗(yàn),利用第五節(jié)介紹情感傾向判別框架,融合(1)和(2)兩種實(shí)驗(yàn)結(jié)果作為最終結(jié)果。
6.1 雙語協(xié)同策略實(shí)驗(yàn)
本實(shí)驗(yàn)使用文獻(xiàn)[2]提出的Fisher線性判別作為特征選擇方法,特征維度選100到1 500區(qū)間。雙語判別結(jié)果融合的權(quán)重β=0.3,樣本點(diǎn)置信度閾值α=0.95。實(shí)驗(yàn)結(jié)果為不同特征維度下性能指標(biāo)的均值和浮動范圍,見表1。
表1 雙語協(xié)同策略實(shí)驗(yàn)結(jié)果
由表1可知,四種語言上正面觀點(diǎn)判別性能(F1+)遠(yuǎn)超過負(fù)面觀點(diǎn)判別性能(F1-),而且正面觀點(diǎn)判別性能隨特征數(shù)量浮動較小、較為穩(wěn)定,負(fù)面觀點(diǎn)判別性能浮動明顯。主要原因如下:
(1) 由于正面觀點(diǎn)較為集中,其特征容易被特征選擇方法提取,在較少的特征區(qū)間上即可包含足夠數(shù)量的正面觀點(diǎn)特征,因此,正面觀點(diǎn)判別性能隨特征區(qū)間變化浮動較小。
(2) 負(fù)面觀點(diǎn)相對較為分散,特征在不同數(shù)量的特征區(qū)間上分布不均勻,負(fù)面情感傾向判別性能變化幅度較大。互相沖突的負(fù)面觀點(diǎn)特征可能會產(chǎn)生相互抵消的效果。
在酒店的評論數(shù)據(jù)中,正面評論集中在位置、服務(wù)、環(huán)境、交通、早餐等粗類別上,若沒有什么明顯缺陷之處時,評價通常不會太過于仔細(xì),因此,正面評論原始特征相對集中;負(fù)面評價往往會指出具體不滿意之處,如房間隔音差、地毯破舊、寵物限制、床太小、床單污染、清掃拖延等細(xì)類上,所以負(fù)面評論原始特征相對分散。
6.2 情感傾向特征混合策略實(shí)驗(yàn)
利用情感傾向特征混合策略替代特征選擇方法,采用英語作為中間語言,主成分維度選擇1 000維,以保持95%以上的樣本方差,其他設(shè)置與雙語協(xié)同策略實(shí)驗(yàn)相同。實(shí)驗(yàn)結(jié)果如表2所示。
表2 情感傾向特征混合策略實(shí)驗(yàn)結(jié)果
從表2結(jié)果可以看出:
(1) PCA跨語言特征混合方法在德語、西班牙語和法語上獲得較好的結(jié)果,僅在英語上結(jié)果較差;
(2) 與表1結(jié)果對比可知,在德語、西班牙語和法語上,特征混合判別對負(fù)面情感傾向的判別性能有顯著提高,正負(fù)面情感傾向差距減小。這是由于PCA特征混合有效地融合了較為分散的負(fù)面情感觀點(diǎn),有助于加強(qiáng)跨語言間的情感傾向關(guān)聯(lián);
(3) 在英語上面情感傾向的判別性能較表1下降。這是由于在PCA特征混合方法在選取主成分時,是以數(shù)據(jù)方差作為主成分重要性度量的。因此,PCA選取的混合特征與數(shù)據(jù)量有直接關(guān)系,數(shù)據(jù)量大的方向方差也大。實(shí)驗(yàn)英語數(shù)據(jù)集數(shù)據(jù)量遠(yuǎn)大于中文訓(xùn)練數(shù)據(jù)集,因而削弱了訓(xùn)練數(shù)據(jù)的指導(dǎo)性,使得判別性能下降。
6.3 多策略結(jié)果融合實(shí)驗(yàn)
對雙語協(xié)同策略實(shí)驗(yàn)結(jié)果和多策略結(jié)果融合實(shí)驗(yàn)進(jìn)行融合,并以評測任務(wù)作為橫向比較平臺。結(jié)果表明本文與其他單位的提交結(jié)果相比,取得較好的跨語言情感傾向判別性能。COAE2014任務(wù)2給出的性能指標(biāo)與中位數(shù)、最好結(jié)果的比較如表3所示[11]。
表3 評測任務(wù)結(jié)果
從表3可知,提交的評測結(jié)果的整體性能,在西班牙語和法語兩種語言上均達(dá)到了最高準(zhǔn)確率,在德語上略低于最高水平,在英語上達(dá)到平均水平。對比兩種策略融合后的結(jié)果與單獨(dú)采用兩種策略的結(jié)果見圖6所示,可以看出:
(1) 使用多策略融合框架提高了法語的判別性能,主要是在法語上各單獨(dú)策略結(jié)果之間具有互補(bǔ)性;
(2) 在德語、英語和西班牙語三種語言上,兩種策略的判別結(jié)果不具有互補(bǔ)性,融合后為兩種策略的平均化。
圖6 結(jié)果準(zhǔn)確度對比
本文提出采用多策略跨語言情感傾向判別框架,利用情感傾向一致點(diǎn)和情感傾向特征混合兩種方式進(jìn)行跨語言情感傾向判別。本文采用的方法可以有效地獲取多語言情感傾向語義信息,并在評測任務(wù)中取得了較好的整體準(zhǔn)確度。通過實(shí)驗(yàn)驗(yàn)證了情感傾向特征分布具有分散和聚集效應(yīng),說明了提出的特征混合策略在平衡情感傾向特征差異和緩解數(shù)據(jù)稀疏性上是有作用的。
情感傾向特征混合的目標(biāo)是發(fā)現(xiàn)源語言與目標(biāo)一致的跨語言情感傾向概念空間。在一致概念空間內(nèi),源語言與目標(biāo)語言的情感傾向語義是獨(dú)立同分布的,因而可以實(shí)現(xiàn)跨語言情感傾向判別。由于源語言與目標(biāo)語言詞匯的分布差異,從源語言和目標(biāo)語言到一致情感傾向概念空間的變換方式應(yīng)該是不同的。本文提出的特征混合方式則是采用相同方式將源語言和目標(biāo)語言數(shù)據(jù)變換到相同的概念空間,且主成分特征提取方法受數(shù)據(jù)量大小的影響很大。因此,實(shí)驗(yàn)結(jié)果表現(xiàn)出了針對不同語言和不同數(shù)據(jù)量的判別性能存在差距的局限性。說明本文提出的線性組合的特征混合方法還沒有反映出跨語言任務(wù)的本質(zhì),跨語言情感傾向判別任務(wù)具有多語言上和概念上的內(nèi)在潛層語義結(jié)構(gòu)。今后工作應(yīng)從跨語言情感傾向概念空間結(jié)構(gòu)以及多種語言到情感傾向概念空間的變換結(jié)構(gòu)繼續(xù)深入開展研究。
對于多策略方法融合而言,有效的融合集成需要基分類器具有效性和基分類器之間必要的差異性。如何針對跨語言任務(wù)設(shè)計一組好的基分類器仍有待進(jìn)一步研究。基分類器需要針對跨語言任務(wù)從不同角度理解數(shù)據(jù),這需要在對跨語言任務(wù)本質(zhì)充分認(rèn)識的基礎(chǔ)上設(shè)計有效的融合集成策略。
[1] BoPang, Lillian Lee, Shivakumar Vaithyanathan. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing, 2002,10: 79-86.
[2] Suge Wang, Deyu Li, Xiaolei Song, et al. A feature selection method based on improved fisher’s discriminant ratio for text sentiment classification[J]. Expert Systems with Applications, 2011, 38(7): 8696-8702.
[3] Thomas K Landauer, Susan T Dumais. Latent semantic analysis[J]. Annual Review of Information Science and Technology, 2004, 38(1): 188-230.
[4] John Blitzer, Ryan McDonald, Fernando Pereira. Domain adaptation with structural correspondence learning[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006: 120-128.
[5] Peter Prettenhofer, Benno Stein. Cross-language text classification using structural correspondence learning[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 2010: 1118-1127.
[6] Peter Prettenhofer, Benno Stein.Cross-lingual adaptation using structural correspondence learning[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 3(1):338-343.
[7] Lumin Zhang, Shaojie Pei, Lei Deng, et al. Microblog sentiment analysis based on emoticon networks model[C]//Proceedings of the Fifth International Conference on Internet Multimedia Computing and Service, 2013: 134-138.
[8] Felipe Bravo-Marquez, Marcelo Mendoza, Barbara Poblete. Combining strengths, emotions and polarities for boosting Twitter sentiment analysis[C]//Proceedings of the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining, 2013,2:1-9.
[9] Xiaojun Wan. Co-training for cross-lingual sentiment classification[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP,2009,1:235-243.
[10] Tric Sven Ristad, Peter N Yianilos. Learning string-edit distance[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(5): 522-532.
[11] 譚松波,王素格,徐蔚然,等. 第六屆中文傾向性分析評測總體報告[R],第六屆中文傾向性分析評測會議(COAE2014),昆明,2014:5-25.
A Multi-strategy Approach to Cross-Lingual Sentiment Analysis
ZHANG Peng1, WANG Suge1, 2, LI Deyu1, 2
(1.School of Computer and Information Technology, Taiyuan, Shanxi 030006, China; 2. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Taiyuan, Shanxi 030006, China)
The rapid development of Internet has built up a large number of cyber sources. This multi-lingual information come from a global environment with diversification. Considering the characteristics of cross-language sentiment identification, this paper proposes multi-strategy approach to perform cross-language sentiment analysis. The linguistic consistent sample and hybrid concept space are used to construct a bilingual cooperative framework and a sentiment feature mixture framework, respectively. Then results of tow framework are combined to decide the final sentiment label for a single sample. Experiments show that our strategy works well on cross-language sentiment analysis tasks.
cross-language; sentiment classification; multi strategy integration
張鵬(1988—),博士研究生,主要研究領(lǐng)域?yàn)槲谋厩楦蟹治?。E?mail:zhpeng@sxu.edu.cn王素格(1964—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理與文本情感分析。E?mail:wsg@sxu.edu.cn李德玉(1965—),博士,教授,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘與社會網(wǎng)絡(luò)。E?mail:lidy@sxu.edu.cn
1003-0077(2016)02-0032-09
2014-05-20 定稿日期: 2014-09-08
國家863高技術(shù)研究發(fā)展計劃基金(2015AA01407);國家自然科學(xué)基金(61175067, 61272095,61573231,61432011,U1435212);山西省科技基礎(chǔ)條件平臺計劃(2015091001-0102);山西省回國留學(xué)人員科研項目(2013-014).
TP391
A