孟佳娜,于玉海,趙丹丹,孫世昶
(大連民族大學(xué) 計算機科學(xué)與工程學(xué)院,遼寧 大連 116600)
?
特征和實例遷移相融合的跨領(lǐng)域傾向性分析
孟佳娜,于玉海,趙丹丹,孫世昶
(大連民族大學(xué) 計算機科學(xué)與工程學(xué)院,遼寧 大連 116600)
在情感傾向性分析中,經(jīng)常會發(fā)生由于領(lǐng)域知識的變化引起的分類精度下降的問題。為解決此類問題,該文提出了一種基于實例和特征相融合的知識遷移方法,首先通過三部圖構(gòu)建了源領(lǐng)域和目標(biāo)領(lǐng)域的領(lǐng)域依賴特征詞之間的關(guān)聯(lián),并得到一個公共的語義空間來對原有的向量空間模型進行重建,然后再通過帶偏置的馬爾科夫模型,建立源領(lǐng)域和目標(biāo)領(lǐng)域?qū)嵗g的關(guān)聯(lián),從而有效的將源領(lǐng)域?qū)W習(xí)到的情感傾向性知識遷移到目標(biāo)領(lǐng)域中,高于其它方法的實驗結(jié)果驗證了算法的有效性。
跨領(lǐng)域傾向性分析;遷移學(xué)習(xí);偏置的馬爾科夫模型
隨著互聯(lián)網(wǎng)進入Web2.0時代,Internet逐步地從靜態(tài)的信息載體變成人們表達意見、交流情感的平臺,近些年對于主觀性信息的檢索和利用日益受到重視,這項技術(shù)的關(guān)鍵是如何識別人們的主觀意見,其中的核心技術(shù)就是文本情感傾向性分析。文本情感傾向性分析的研究已經(jīng)在理論研究和應(yīng)用方面取得了許多進展,然而,Web網(wǎng)頁更新速度快,用來進行訓(xùn)練的數(shù)據(jù)隨著時間的變化已經(jīng)過時,而重新標(biāo)注新得到的數(shù)據(jù)又耗時耗力。由于訓(xùn)練集與測試集的數(shù)據(jù)分布不同,分類器的分類準(zhǔn)確率就會降低。我們希望分類器能夠具有較好的領(lǐng)域適應(yīng)性,這樣就出現(xiàn)了跨領(lǐng)域情感傾向性分析問題。研究人員在該領(lǐng)域取得了一些成果,Blitzer等[1]利用來自源領(lǐng)域和目標(biāo)領(lǐng)域樞軸特征和未標(biāo)記數(shù)據(jù)找到兩個領(lǐng)域里特征的相關(guān)性,并學(xué)習(xí)一個低維、共享的特征向量映射,在新空間上解決文本情感傾向性分析問題。Pan等[2]提出了SFA算法,根據(jù)互信息得到樞軸特征,構(gòu)造樞軸特征和非樞軸特征的共現(xiàn)矩陣并分解在此基礎(chǔ)上得到拉普拉斯矩陣,然后構(gòu)造一個新的低維空間,在這個空間上進行文本的分類。Jiang等[3]提出一種統(tǒng)一的樣本權(quán)重框架,該方法移除源領(lǐng)域中對分類產(chǎn)生誤導(dǎo)的樣本,對目標(biāo)領(lǐng)域的樣本賦予比源領(lǐng)域樣本更高的權(quán)重。Wu等[4]在解決中文文本評論傾向性分析中提出將圖排序與跨領(lǐng)域情感傾向性分析相結(jié)合的方法。
通過以上分析發(fā)現(xiàn),在跨領(lǐng)域的文本情感傾向性分析中,基于特征和基于實例的知識遷移是兩種主要的方法,即分別通過尋找兩個領(lǐng)域的共同特征空間和樣本權(quán)重的重采樣, 使知識得到遷移。對于基于特征表示的知識遷移方法,常用的方法是通過構(gòu)造新的公共的低維空間來進行領(lǐng)域知識的遷移[1-2]?;趯嵗闹R遷移主要通過構(gòu)建源領(lǐng)域和目標(biāo)領(lǐng)域?qū)嵗g的關(guān)系達到知識遷移的目的[3]。
本文從結(jié)合基于特征和實例的知識遷移方法的角度,提出了一種基于特征和實例相融合的知識遷移方法,該方法主要分兩個步驟,第一步我們建立一種基于三部圖的源領(lǐng)域特征和目標(biāo)領(lǐng)域特征之間的關(guān)聯(lián),在這種關(guān)聯(lián)下對原有的源領(lǐng)域和目標(biāo)領(lǐng)域的實例進行重建。第二步我們利用一種帶偏置的馬爾科夫隨機游走模型,得到目標(biāo)領(lǐng)域?qū)嵗母怕史植碱A(yù)測值,當(dāng)算法收斂時得到目標(biāo)領(lǐng)域每個實例的最終的概率分布值,從而判斷其情感傾向性。
2.1 情感傾向性分析
文本情感傾向性分析主要是從文本情感的表達角度來對相關(guān)文本進行情感類別的分類。通常情感傾向性分析將一個文本按照情感類別分成兩類:褒(積極的)和貶(消極的)。目前,文本情感傾向性分析的方法主要是面向監(jiān)督學(xué)習(xí)[5]和半監(jiān)督學(xué)習(xí)[6],Pang等[5]首次將機器學(xué)習(xí)的方法應(yīng)用于篇章級的情感分類任務(wù)中,Rao等[6]利用語料庫和詞典抽取和判別極性詞,徐琳宏等[7]通過建立情感詞匯本體的方法,利用支撐向量機進行文本傾向性分析,趙妍妍等[8]提出基于句法路徑的情感評價單元自動識別方法。王素格等[9]利用特征傾向強度定義賦權(quán)粗糙隸屬度,提出了基于情感傾向強度序的屬性離散化方法。
2.2 遷移學(xué)習(xí)
目前,機器學(xué)習(xí)方法一般假設(shè)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布相同,然而這一假設(shè)在許多實際應(yīng)用中往往并不成立。當(dāng)分布發(fā)生改變時,需重新訓(xùn)練模型,代價會很高。將其他任務(wù)(源任務(wù))或其他領(lǐng)域(源領(lǐng)域)中學(xué)習(xí)到的知識,遷移應(yīng)用到目標(biāo)任務(wù)或領(lǐng)域中,使之有利于目標(biāo)任務(wù)或領(lǐng)域的完成,減少對目標(biāo)任務(wù)或領(lǐng)域訓(xùn)練數(shù)據(jù)依賴的學(xué)習(xí)方式就是遷移學(xué)習(xí)[10]。最近,遷移學(xué)習(xí)技術(shù)已經(jīng)成功地應(yīng)用于很多研究領(lǐng)域,如文本數(shù)據(jù)挖掘、自然語言處理、計算機輔助設(shè)計和圖形/圖像處理等。
Dai等[11]、Meng等[12]分別提出使用遷移學(xué)習(xí)技術(shù)來學(xué)習(xí)跨領(lǐng)域文本數(shù)據(jù),Arnold等[13]提出使用遷移學(xué)習(xí)方法解決命名實體識別問題,Wu等[14]提出既使用不充分的目標(biāo)領(lǐng)域的數(shù)據(jù),又使用大量低質(zhì)量的源領(lǐng)域的數(shù)據(jù)解決圖像分類問題,Raykar等[15]提出一個新的貝葉斯多重樣本學(xué)習(xí)方法,該方法能夠自動識別相關(guān)的特征子集并為學(xué)習(xí)多樣性使用歸納遷移。
3.1 問題描述
一個領(lǐng)域D包含了兩個組成部分: 特征空間χ和邊緣概率分布P(X),這里χ是所有特征向量組成的空間,X是某個學(xué)習(xí)樣本,如果源領(lǐng)域和目標(biāo)領(lǐng)域不同,它們將具有不同的邊緣概率分布或特征空間。本文定義源領(lǐng)域數(shù)據(jù)為DS={(XS1,YS1),…,(XSn,YSn)},其中XSi∈XS,YSi∈Y是對應(yīng)的類標(biāo)簽。在產(chǎn)品評論的例子中,DS是評論文本的集合,Y∈{1,-1}是標(biāo)簽集合,標(biāo)簽為1表示該評論是正面的,標(biāo)簽為-1表示該評論是負(fù)面的。定義目標(biāo)領(lǐng)域數(shù)據(jù)為DT={(XT1,YT1),…,(XTm,YTm)},Yi∈Y是輸入值XTi∈XT對應(yīng)的輸出。
3.2 基于特征的知識遷移
3.2.1 特征關(guān)聯(lián)的三部圖描述
對于跨領(lǐng)域傾向性分析問題,由于源領(lǐng)域和目標(biāo)領(lǐng)域特征分布的差異性,造成源領(lǐng)域訓(xùn)練的分類器不能很好地應(yīng)用于目標(biāo)領(lǐng)域。深入地分析源領(lǐng)域和目標(biāo)領(lǐng)域的特征可以發(fā)現(xiàn),在這兩個領(lǐng)域之間存在很多共同的特征, 這些特征在遷移學(xué)習(xí)中具有潛在作用。除了這些公共的特征之外,源領(lǐng)域和目標(biāo)領(lǐng)域還存在著大量的領(lǐng)域特有特征,建立這些領(lǐng)域特有特征之間的聯(lián)系,將對不同領(lǐng)域知識的遷移起到很重要的作用。文獻[1]將這種不同領(lǐng)域特征的共現(xiàn)關(guān)系用一個二部圖來描述,在此基礎(chǔ)上對特征進行聚類?;谶@種考慮,本文使用了一種基于三部圖的方法分析了特征之間的關(guān)系,并在此基礎(chǔ)上進行特征的變換。
互聯(lián)網(wǎng)產(chǎn)品評論文本中的特征可以分為兩類: 一類是源領(lǐng)域和目標(biāo)領(lǐng)域的特有特征,這些特征具有領(lǐng)域相關(guān)性,是在某一領(lǐng)域多次出現(xiàn)而在另一領(lǐng)域很少出現(xiàn)或不出現(xiàn)的特征,將這些特征定義為領(lǐng)域依賴詞。另一類是源領(lǐng)域和目標(biāo)領(lǐng)域中的公共特征,這些特征同時高頻出現(xiàn)在源領(lǐng)域和目標(biāo)領(lǐng)域中,能夠表示兩個領(lǐng)域的一些公共知識,因此將這些特征定義為領(lǐng)域獨立詞。例如,“bad”,“good”等詞匯在不同領(lǐng)域中所表達的情感是相似的,在AmazonReviews的商品評論中,無論是在源領(lǐng)域還是在目標(biāo)領(lǐng)域都高頻出現(xiàn),這些詞匯稱之為領(lǐng)域獨立詞。表1給出了在AmazonReviews的商品評論中,DVD和Electronic兩個領(lǐng)域的評論。
表1 DVD和Electronic兩個領(lǐng)域的評論
在這兩個評論中,“+”表示后面的實例具有正面的推薦,“-”表示后面的實例具有負(fù)面的推薦。將帶下劃線的詞標(biāo)記為領(lǐng)域獨立詞(love、bad),這些詞無論在何種領(lǐng)域當(dāng)中都具有極性,而將標(biāo)記為斜體的詞標(biāo)記為領(lǐng)域依賴詞(funny、quality等),這些詞在某個領(lǐng)域具有極性,而在其他領(lǐng)域可能不具有極性,領(lǐng)域依賴詞在源領(lǐng)域和目標(biāo)領(lǐng)域的詞頻的差異導(dǎo)致了領(lǐng)域之間的差別。而對目標(biāo)領(lǐng)域文本的傾向性進行分類時,目標(biāo)領(lǐng)域的情感極性詞作用是關(guān)鍵的,因此需要通過領(lǐng)域獨立詞將兩個領(lǐng)域的領(lǐng)域依賴詞建立起對應(yīng)關(guān)系,圖1是一個用來表示這種關(guān)聯(lián)性的三部圖。
圖1 特征關(guān)聯(lián)性的三部圖描述
3.2.2 特征變換
本文首先計算出源領(lǐng)域和目標(biāo)領(lǐng)域的領(lǐng)域獨立詞,為了建立不同領(lǐng)域之間的領(lǐng)域依賴詞的關(guān)聯(lián)構(gòu)造一種特征變換方法。然后,求得源領(lǐng)域和目標(biāo)領(lǐng)域的領(lǐng)域依賴詞與每個領(lǐng)域獨立詞之間的關(guān)聯(lián)度值,與某個領(lǐng)域獨立詞關(guān)聯(lián)度值越高的特征,與其相關(guān)性越高,特征之間的關(guān)聯(lián)度值用式(1)計算:
(1)
其中freq(xi)表示詞特征xi在樣本集中出現(xiàn)的次數(shù),freq(xi,xj)表示詞特征xi和xj在樣本集中共同出現(xiàn)的次數(shù),t為特征總數(shù)。顯然,wij取值區(qū)間為[0,1],等于0時說明這兩個特征之間沒有相關(guān)性;等于1時說明這兩個特征之間相關(guān)性最高。
假設(shè)xk為某個領(lǐng)域獨立詞,通過式(1)計算出的與其關(guān)聯(lián)度最高的源領(lǐng)域和目標(biāo)領(lǐng)域的領(lǐng)域獨立詞分別是xi和xj,則xi與xj之間的關(guān)系通過領(lǐng)域獨立詞xk進行了建立,這樣我們可以建立如下的特征變換方法: 對于源領(lǐng)域中的某篇評論文本X={x1,…,xi,…,xt},則將xi和xj加入到評論文本X中,這樣評論文本X的向量空間模型變?yōu)閄={x1,…,xi,…,xj,…,xt}或X={x1,…,xj,…,xi,…,xt},對于目標(biāo)領(lǐng)域中的評論文本也做類似變換。
3.3 基于實例關(guān)聯(lián)性分析的知識遷移
3.3.1Markov鏈模型
Markov鏈模型是馬爾科夫過程的模型化,它把一個總隨機過程看成一系列狀態(tài)的不斷轉(zhuǎn)移。馬爾科夫鏈模型的特征主要用“轉(zhuǎn)移概率”來表示,后一狀態(tài)出現(xiàn)的概率決定于其前出現(xiàn)過的狀態(tài)次序。即: 狀態(tài)q(t)出現(xiàn)的概率為Pr[q(t-1),q(t-2),…,q1]。馬爾科夫隨機游走根據(jù)轉(zhuǎn)移矩陣來判斷下一個要發(fā)生狀態(tài)的概率分布,該概率分布刻畫了圖中每一個頂點被訪問到的概率。用這個概率分布作為下一次游走的輸入并反復(fù)迭代這一過程。當(dāng)滿足一定前提條件時,這個概率分布會趨于收斂,收斂后,即可以得到一個穩(wěn)定的概率分布。隨機游走模型廣泛應(yīng)用于數(shù)據(jù)挖掘和互聯(lián)網(wǎng)領(lǐng)域,PageRank算法[16]可以看作是隨機游走模型的一個實例。鄭偉等[17]將文本用隨機游走圖中的一個結(jié)點表示,當(dāng)輸入一個未分類文本時,對圖系列中的每個圖應(yīng)用隨機游走模型,得到文本的最終概率分布。
本文借鑒文獻[17]的思想,將一個文本實例用馬爾科夫隨機游走圖中的一個結(jié)點表示,結(jié)點之間的邊的權(quán)重表示了兩個實例之間的距離,顯然,兩個實例越相似,其結(jié)點之間連接的邊的權(quán)重越小。本節(jié)中所說的圖指的是同一類型的圖模型。
3.3.2 基于偏置的Markov鏈的實例關(guān)聯(lián)性分析
(2)
(3)
(4)
(5)
式(2)中的β為源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)之間的相似性在求輸出概率分布向量中所占的比例,其取值區(qū)間為(0,1],在式(2)中,1-β為目標(biāo)領(lǐng)域的數(shù)據(jù)之間的相似性在求輸出概率分布向量中所占的比例。在改進的帶偏置的馬爾科夫隨機游走計算中,源領(lǐng)域的實例的標(biāo)注信息將對目標(biāo)領(lǐng)域中的實例標(biāo)簽的預(yù)測產(chǎn)生一定的指導(dǎo)作用,而目標(biāo)領(lǐng)域數(shù)據(jù)自身也會將自己的預(yù)測標(biāo)簽的信息進行傳播。
3.4 算法描述
本文提出的算法步驟如下:
輸入: 源領(lǐng)域已標(biāo)注數(shù)據(jù)集{(XS,YS)},目標(biāo)領(lǐng)域未標(biāo)注數(shù)據(jù)集{(XT)},參數(shù)α和β。
輸出: 目標(biāo)領(lǐng)域數(shù)據(jù)的標(biāo)簽YT。
1 計算出領(lǐng)域獨立詞,將領(lǐng)域獨立詞按在源領(lǐng)域和目標(biāo)領(lǐng)域出現(xiàn)的次數(shù)和從高到低排序,按閾值α截??;
2 根據(jù)式(1)分別計算出源領(lǐng)域和目標(biāo)領(lǐng)域與領(lǐng)域獨立詞關(guān)聯(lián)度高的領(lǐng)域依賴詞;
3 建立新的特征語義空間,并將源領(lǐng)域和目標(biāo)領(lǐng)域中的每個實例進行變換,得到源領(lǐng)域和目標(biāo)領(lǐng)域的新的數(shù)據(jù)集;
4 在新數(shù)據(jù)集上使用某種分類器進行分類,得到目標(biāo)領(lǐng)域數(shù)據(jù)的預(yù)測標(biāo)簽。
5 利用公式分別計算出初始相似性矩陣和分布向量的值。
6do
7 根據(jù)參數(shù)β的值迭代地計算目標(biāo)領(lǐng)域?qū)嵗妮敵龇植几怕省?/p>
8while算法收斂。
9得到最終的目標(biāo)領(lǐng)域?qū)嵗妮敵龈怕史植枷蛄?,確定其標(biāo)簽。
4.1 語料來源
本文在實驗中主要采用Blitzer等[1]提出的來自于AmazonReviews的語料,該語料包含了四個領(lǐng)域的產(chǎn)品評價:Book,DVD,Electronic,Kitchen。實驗中每次挑選兩個領(lǐng)域, 其中一個作為源領(lǐng)域, 另外一個作為目標(biāo)領(lǐng)域。表2列出了語料中包含的領(lǐng)域信息,表2中,“DVDvsBook"表示源領(lǐng)域為DVD,目標(biāo)領(lǐng)域為Book,其他與此類似。每個領(lǐng)域中的實例個數(shù)為2 000。
4.2 實現(xiàn)細(xì)節(jié)
實驗中使用了傳統(tǒng)的Bag-of-Word的文本表示方法,并對語料進行了數(shù)據(jù)預(yù)處理,過濾掉了語料中的低頻詞。本文使用精度(Accuracy) 作為傾向性分析系統(tǒng)的評價標(biāo)準(zhǔn),其定義如下:
(6)
實驗中使用SVM_light[18]作為Baseline算法,使用線性核,并將所有參數(shù)設(shè)為缺省值,Baseline是指只使用源領(lǐng)域?qū)嵗鶠橛?xùn)練集。實驗中進行了特征選擇,按詞頻從高到低選擇了原特征總數(shù)的30%的特征。
表2 語料描述
4.3 實驗結(jié)果及分析
實驗中參數(shù)α取值分別為0.01、0.02、0.03、0.04和0.05,β取值從0.1至1,每次增加0.1。我們首先利用算法1至4步得到α取不同值時實例的預(yù)測標(biāo)簽,取其最好的結(jié)果進行基于實例的遷移,即算法中的5至9步。圖2給出了最終算法在各個語料集上β取不同值時的最優(yōu)結(jié)果。其中橫軸為β值,縱軸為分類精度。我們使β在0.1到1之間變化,每一次增加0.1。當(dāng)β設(shè)置為1時,意味著我們的算法僅使用源領(lǐng)域的實例,不包括目標(biāo)領(lǐng)域的信息。我們能夠從圖2發(fā)現(xiàn),在大多數(shù)語料集上,當(dāng)β值為1時精度最低,這說明由于目標(biāo)領(lǐng)域中的實例都是未標(biāo)注的,在馬爾科夫隨機游走圖中,只有目標(biāo)領(lǐng)域?qū)嵗g的鏈接,沒有目標(biāo)領(lǐng)域到源領(lǐng)域?qū)嵗g的任何鏈接,造成源領(lǐng)域已標(biāo)注信息沒有利用上,所以分類的結(jié)果最差。當(dāng)β值為0.1時,分類結(jié)果也很差,這主要是因為源領(lǐng)域中的實例與目標(biāo)領(lǐng)域?qū)嵗姆植疾煌搭I(lǐng)域的信息對于分類是不充分的。在大多數(shù)語料集上,當(dāng)β逐漸增大時,精度變大,當(dāng)β=0.5 或0.6時,精度最大,當(dāng)β>0.5或0.6后,精度逐漸變小。β=0.5時,源領(lǐng)域和目標(biāo)領(lǐng)域在最終的輸出概率向量中占相同的比例,這說明源領(lǐng)域數(shù)據(jù)和目標(biāo)領(lǐng)域數(shù)據(jù)之間存在大量的公共知識,從源領(lǐng)域向目標(biāo)領(lǐng)域遷移足夠的知識可以幫助分類,同時目標(biāo)領(lǐng)域中的實例具有相同的特征分布,未標(biāo)注的實例的信息對于分類同樣非常重要,源領(lǐng)域和目標(biāo)領(lǐng)域的實例基本平衡時,既最大化的應(yīng)用了源領(lǐng)域?qū)嵗臉?biāo)注信息,又最大化的使用了目標(biāo)領(lǐng)域未標(biāo)注實例之間關(guān)系信息,所以能夠取得最好的結(jié)果。綜上所述,β是一個重要的參數(shù),精度會根據(jù)它取不同的值而隨之變化,這說明算法對于β是敏感的。
圖2 β取不同值時各個語料集上最優(yōu)結(jié)果的變化曲線
我們將本文方法的最好結(jié)果與其他方法的最好結(jié)果進行了對比,其他的主要方法包括:SCL以及SCL-MI算法[1]、SFA算法[2]。表3列出了本文算法與這些算法的結(jié)果對比。其中,第5列的“算法1”表示只使用本文算法的1至4步的結(jié)果,第6列的“算法2”表示只使用本文算法的5至9步的結(jié)果,最后一列的結(jié)果為本文算法的最終結(jié)果。表3中第1行至第4行為每個領(lǐng)域的平均結(jié)果,例如第1行表示目標(biāo)領(lǐng)域為Book時的結(jié)果,即DvsB、EvsB和KvsB的平均結(jié)果,其他行相類似。從表3可以看出,本文算法在所有數(shù)據(jù)集上的結(jié)果顯著的優(yōu)于SCL、SCL-MI和SFA算法,這也說明了該方法的有效性。同時,只使用算法1或算法2的結(jié)果都要差于本文最終結(jié)果,這也說明基于特征和實例相結(jié)合的知識遷移方法要優(yōu)于單一的使用一種知識遷移方法。
表3 本文結(jié)果與其他算法結(jié)果的對比(粗體表示最好值)
本文提出了一種解決跨領(lǐng)域產(chǎn)品評論情感傾向性分析的基于實例和特征相融合的知識遷移方法,該方法首先通過領(lǐng)域獨立詞建立了源領(lǐng)域和目標(biāo)領(lǐng)域中的領(lǐng)域依賴詞之間的關(guān)聯(lián),得到了一種特征變換的方法,從而得到了變換后的數(shù)據(jù)集,然后再通過帶偏置的馬爾科夫圖模型,建立源領(lǐng)域和目標(biāo)領(lǐng)域?qū)嵗g的關(guān)聯(lián)進行知識的遷移。實驗結(jié)果說明了兩種方法相結(jié)合要好于單一的一種知識遷移方法,同時也驗證了本文提出方法的有效性。
[1] John Blitzer, Mark Dredze, Fernando Pereira. Biographies, Bollywood, Boomboxes and Blenders: Domain Adaptation for Sentiment Classification[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007: 432-439.
[2] Sinno Jialin Pan, Xiaochuan Ni, Jiantao Sun, et al.. Cross-domain Sentiment Classification via Spectral Feature Alignment[C]//Proceedings of the 19th International World Wide Web Conference-Raleigh, North Carolina USA, 2010.
[3] Jiang Jing, Zhai Chengxiang. Instance weighting for domain adaptation in NLP[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, 2007: 264-271.
[4] Wu Qiong, Tan Songbo, Zhai Haijun et al. SentiRank: Cross-Domain Graph Ranking for Sentiment Classification[C]//Proceedings of the IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology. 2009.
[5] Bo Pang, Lillian Lee, Shivakumar Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2002: 79-86.
[6] Delip Rao, Deepak Ravichandran. Semi-supervised Polarity Lexicon Induction[C]//Proceedings of 12th Conference of the European Chapter of the Association for Computational Linguistics. 2009: 675-682.
[7] 徐琳宏,林鴻飛,潘宇,情感詞匯本體的構(gòu)造[J],情報學(xué)報,2008,(27):180-185.
[8] 趙妍妍,秦兵,車萬翔,劉挺, 基于句法路徑的情感評價單元識別[J], 軟件學(xué)報. 2011(22):887-898.
[9] 王素格, 李德玉, 魏英杰. 基于賦權(quán)粗糙隸屬度的文本情感分類方法[J], 計算機研究與發(fā)展, 2011,48(5):855-861.
[10] Sinno Jialin Pan, Yang Qiang. A survey on transfer learning[J], IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10):1345-1359.
[11] Dai Wenyuan, Xue Guirong, Yang Qiang, et al. Transferring naive bayes classifiers for text classification[C]//Proceedings of the 22nd AAAI Conference on Artificial Intelligence, Canada, 2007:540-545.
[12] Meng Jiana, Lin Hongfei, Li Yanpeng. Knowledge transfer based on feature representation mapping for text classification [J], Expert Systems with Applications, 2011, 38(8): 10562-10567
[13] Andrew Arnold, Ramesh Nallapati, William W. Cohen. A comparative study of methods for transductive transfer learning[C]//Proceedings of the 7th IEEE International Conference on Data Mining Workshops. Omaha, Nebraska, USA: IEEE Computer Society, 2007: 77-82.
[14] Pengcheng Wu, Thomas G. Dietterich. Improving svm accuracy by training on auxiliary data sources[C]//Proceedings of the 21st International Conference on Machine Learning, Morgan Kaufmann,2004: 871-878.
[15] Vikas C. Raykar, Balaji Krishnapuram, Jinbo Bi, et al. Bayesian multiple instance learning: automatic feature selection and inductive transfer[C]//Proceedings of the 25th International Conference on Machine learning. 2008: 808-815.
[16] Lawrence Page, Sergey Brin, Rajeev Motwani, et al. The PageRank citation ranking: bringing order to the web, Technical Report[R], Stanford University, Stanford, CA, 1998.
[17] 鄭偉,王朝坤,劉璋等,一種基于隨機游走模型的多標(biāo)簽分類算法[J], 計算機學(xué)報,2010,33(8):1418-1425
[18] Thorsten Joachims. Text Categorization with Support Vector Machines: Leaning with Many Relevant Features[C]//Proceedings of the 10th European Conference on Machine Learning, 1998: 137-142.
Cross-domain Sentiment Analysis Based on Combination of Feature and Instance -transfer
MENG Jiana, YU Yuhai, ZHAO Dandan, SUN Shichang
(School of Computer Science and Engineering, Dalian Nationalities University, Dalian, Liaoning 116600 ,China)
The accuracy decrease across different domains is commor in current sentiment analysis. To solve the problem, this paper presents a knowledge transferring approach based on the combination of the features and the instancetransfer. Firstly, the proposed approach builds the relevance of the domain dependent features between the source domain and the target domain via a tripartite graph so that a common semantic space is projected to rebuild the original vector space model. Then the proposed approach builds the relevance of the instances between the source domain and the target domain via a biased Markov model. This approach transfers sentiment analysis knowledge from the source domain to the target domain. The enhanced experimental performance confirms the effectiveness of the approach.
cross-domain sentiment analysis; transfer learning; biased Markov model
孟佳娜(1972—),博士,教授,主要研究領(lǐng)域為自然語言處理及文本挖掘。E-mail:mengjn@dlnu.edu.cn于玉海(1980—),碩士,講師,主要研究領(lǐng)域為深度學(xué)習(xí)及情感計算。E-mail:yuyh@dlnu.edu.cn趙丹丹(1975—),碩士,講師,主要研究領(lǐng)域為自然語言處理及機器學(xué)習(xí)。E-mail:zhaodd@dlnu.edu.cn
1003-0077(2015)04-0074-06
2013-07-18 定稿日期: 2015-04-03
國家自然科學(xué)基金(61202254); 高校自主科研基金(DC201502030202, DC201502030405)
TP391
A