呂韶華,楊 亮,林鴻飛
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連116024)
隨著Web2.0的快速發(fā)展,主觀文本數(shù)量呈指數(shù)增長,對主觀文本進(jìn)行傾向性判斷是情感計(jì)算領(lǐng)域的熱點(diǎn)問題。傳統(tǒng)的傾向性分析[1-2]均是判斷特定領(lǐng)域的情感傾向性,投入大量時(shí)間和資金對文本進(jìn)行標(biāo)注,然后利用監(jiān)督分類方法對標(biāo)注后的文本進(jìn)行訓(xùn)練,得到傾向性分析的模型,然后用此模型來對新的文本進(jìn)行傾向性判斷。但是面對不同領(lǐng)域的文本,如果直接利用由監(jiān)督分類方法實(shí)驗(yàn)所得出的模型進(jìn)行傾向性分析,準(zhǔn)確率偏低。面臨這個(gè)難題,各種跨領(lǐng)域情感傾向性分析方法應(yīng)運(yùn)而生。
跨領(lǐng)域情感傾向性分析是指利用源領(lǐng)域中已標(biāo)注情感傾向性的文本,得到新目標(biāo)領(lǐng)域中未標(biāo)注情感傾向性的文本的傾向性。文獻(xiàn)[3]利用圖排序算法處理跨領(lǐng)域情感傾向性分析問題,文中同時(shí)考慮了新舊兩個(gè)領(lǐng)域之間文檔的相似度從而對其進(jìn)行賦值:首先,在舊領(lǐng)域和新領(lǐng)域文本之間建立內(nèi)容相似矩陣;再對該矩陣進(jìn)行標(biāo)準(zhǔn)化后得到與新領(lǐng)域每個(gè)文檔的相似度最大的前K個(gè)舊領(lǐng)域中的文檔;然后,使用同樣的方法找到新領(lǐng)域中文檔內(nèi)容之間相似的文檔;最后,依據(jù)標(biāo)注文本的傾向性和得到的K個(gè)相似文檔,計(jì)算各個(gè)文檔的情感傾向性分?jǐn)?shù),對上述兩個(gè)分?jǐn)?shù)進(jìn)行線性加和后得到文檔的最后情感分,進(jìn)而依據(jù)最后的得分確定新領(lǐng)域中各個(gè)文本的情感傾向性。但該方法在多個(gè)實(shí)驗(yàn)中所得到的結(jié)果相比于本文提出的方法所得到的實(shí)驗(yàn)結(jié)果好。文獻(xiàn)[4]借助與領(lǐng)域相獨(dú)立的詞語作為連接源領(lǐng)域和目標(biāo)領(lǐng)域的橋梁,運(yùn)用文中所提出的SFA算法,把不同領(lǐng)域的詞語映射到統(tǒng)一的潛在空間,從而對目標(biāo)領(lǐng)域的文本進(jìn)行情感傾向性判斷??墒?,其處理的文本僅包括英語語料,未考慮中文文本的情感傾向性分析問題。文獻(xiàn)[5]利用基于圖的算法判斷不同語言中詞語的傾向性,實(shí)驗(yàn)表明文中的方法比傳統(tǒng)的SO-PMI方法效果好,但是該方法只考慮了形容詞的傾向性,處理的是跨語言的情感傾向性分析問題,與本文中處理的跨領(lǐng)域情感傾向性不同。
本文在前人工作的基礎(chǔ)上,提出基于SimRank的跨領(lǐng)域情感傾向性分析算法,具體步驟如下:首先,參照文獻(xiàn)[4],將源領(lǐng)域和目標(biāo)領(lǐng)域中的詞語分為領(lǐng)域相關(guān)詞和領(lǐng)域無關(guān)詞,并把領(lǐng)域無關(guān)詞作為兩個(gè)領(lǐng)域情感傾向判定的種子詞;然后,利用Sim-Rank算法和情感詞典,計(jì)算領(lǐng)域相關(guān)詞與種子詞的相似度并擴(kuò)展種子詞的規(guī)模,從而找出潛在情感空間;最后得到的潛在情感空間中的詞作為特征詞,借助SVM對已經(jīng)標(biāo)注情感傾向性的源領(lǐng)域文本進(jìn)行訓(xùn)練,利用得到的模型對未知情感傾向性的目標(biāo)領(lǐng)域文本進(jìn)行情感傾向性判定。
本文的組織結(jié)構(gòu)如下:第2節(jié)是相關(guān)工作介紹;第3節(jié)介紹基于SimRank的跨領(lǐng)域情感傾向性分析算法;第4節(jié)是本文的實(shí)驗(yàn)結(jié)果計(jì)算及分析;最后一節(jié)對本研究進(jìn)行了總結(jié)和展望。
有關(guān)情感傾向性分析的研究成果眾多[1-2,6],但是,當(dāng)面對不同的領(lǐng)域文本,如果直接利用有監(jiān)督模型進(jìn)行傾向性分析,準(zhǔn)確率不高,因?yàn)椴煌I(lǐng)域的文本在詞的分布上難以一致,這就造成在訓(xùn)練階段得到的模型難以用于預(yù)測新的領(lǐng)域的文本的情感傾向性。例如,文獻(xiàn)[1]利用句子之間的連詞等信息作為突破口來判定詞語的情感傾向性;文獻(xiàn)[2]把傳統(tǒng)的有監(jiān)督分類方法用在情感傾向性分析方面,利用多種分類器對文本的傾向性進(jìn)行判斷,并在電影語料上做實(shí)驗(yàn),結(jié)果表明有監(jiān)督的方法得到的準(zhǔn)確率最高達(dá)到82.9%;文獻(xiàn)[6]則利用 WordNet中形容詞的同義詞集和反義詞集判斷情感詞的傾向性,進(jìn)而在句子級(jí)別上判定情感傾向性。
雖然實(shí)驗(yàn)結(jié)果表明有監(jiān)督的方法對情感傾向性判定比較有效,但是該方法需要大量的標(biāo)注語料,耗時(shí)費(fèi)事,代價(jià)頗大,且其準(zhǔn)確性難以保證。同時(shí),當(dāng)面對不同的領(lǐng)域文本,如果直接利用有監(jiān)督模型進(jìn)行傾向性分析,準(zhǔn)確率不高,因?yàn)椴煌I(lǐng)域的文本在詞的分布上難以一致,這就造成在訓(xùn)練階段得到的模型難以用于預(yù)測新的領(lǐng)域的文本的情感傾向性。
SCL[7]算法是一種有效的跨領(lǐng)域情感傾向性分析算法。它的主要思想是:利用源領(lǐng)域和目標(biāo)領(lǐng)域中多次出現(xiàn)的帶有明確情感傾向性的種子詞作為樞紐特征,然后通過訓(xùn)練得出非樞紐特征與樞紐特征的權(quán)值模型,最后利用所得到的模型對目標(biāo)領(lǐng)域的文本進(jìn)行情感傾向性預(yù)測分析。
遷移學(xué)習(xí)是指把源領(lǐng)域的知識(shí)遷移到相關(guān)的目標(biāo)領(lǐng)域。許多文獻(xiàn)對此問題進(jìn)行了研究[8-10],文獻(xiàn)[8]采用重新對源領(lǐng)域的實(shí)例進(jìn)行賦予權(quán)值的方法,達(dá)到對目的領(lǐng)域遷移的目的;文獻(xiàn)[9]用新的特征表示來處理遷移學(xué)習(xí)問題;文獻(xiàn)[10]提出一種“兩段法”來解決遷移學(xué)習(xí)問題。廣義上,本文的跨領(lǐng)域情感傾向性分析研究也屬于遷移學(xué)習(xí),所以近年來出現(xiàn)一些用遷移學(xué)習(xí)的方法來解決跨領(lǐng)域情感傾向性分析研究成果[7,11]。
SimRank[12]是利用圖模型計(jì)算圖上各點(diǎn)之間的相似度,其主要思想是:一個(gè)點(diǎn)與其本身的相似度最高,相同或相似的節(jié)點(diǎn)的鄰節(jié)點(diǎn)也相似。具體定義如下:
對圖G上的任意兩點(diǎn)a和b,假定相似度為s(a,b),那么
其中C(0<C<1)為衰減系數(shù),表示相似度在傳遞過程中的衰減速度。I(V)表示節(jié)點(diǎn)V的入度集,Ii(V)表示第i個(gè)入邊相鄰節(jié)點(diǎn)。
SimRank算法及其改進(jìn)算法已廣泛應(yīng)用于計(jì)算對象之間的相似性[13]。本文把源領(lǐng)域和目標(biāo)領(lǐng)域文本中包含的所有詞視為圖上的節(jié)點(diǎn),并分別構(gòu)建由源領(lǐng)域和目標(biāo)領(lǐng)域的詞組成的圖,若兩個(gè)詞語在一個(gè)句子中共現(xiàn),那么兩者之間就存在一條邊,利用SimRank算法計(jì)算該圖上任意兩個(gè)點(diǎn)之間的相似度。
SimRank算法及其改進(jìn)算法已廣泛應(yīng)用于計(jì)算對象之間的相似性[13]。文獻(xiàn)[12]的實(shí)驗(yàn)顯示SimRank算法在挖掘節(jié)點(diǎn)相似性的結(jié)果相對于對比實(shí)驗(yàn)?zāi)軌蛱岣?6%到45%。本文把源領(lǐng)域和目標(biāo)領(lǐng)域文本中包含的所有詞作為圖的節(jié)點(diǎn),借助潛在情感空間,利用SimRank算法計(jì)算該圖上任意兩個(gè)點(diǎn)之間的相似度,從而實(shí)現(xiàn)源領(lǐng)域到目標(biāo)領(lǐng)域的情感傾向性分析。
為了后文敘述方便,把基本術(shù)語在此做集中介紹。
源領(lǐng)域(Ds):已經(jīng)標(biāo)注情感傾向性的文本,可以利用這些標(biāo)注信息作為跨領(lǐng)域情感傾向性分析進(jìn)行訓(xùn)練;
目標(biāo)領(lǐng)域(Dt):未標(biāo)注情感傾向性文本,即待判定情感傾向性文本,且該領(lǐng)域的文本與源領(lǐng)域(Ds)不屬于同一領(lǐng)域;
種子詞(Seeds):在源領(lǐng)域和目標(biāo)領(lǐng)域出現(xiàn)次數(shù)最多的情感詞,這些種子詞有明確的傾向性,它們需要借助情感詞典進(jìn)行判斷,這些種子詞對計(jì)算SimRank有重要影響;
潛在情感空間(Latent Emotional Space):在源領(lǐng)域和目標(biāo)領(lǐng)域中,獲取與同一個(gè)種子詞的Sim-Rank最大的詞,將這些詞構(gòu)成詞空間,該空間中的這些“詞”即可作為連接源領(lǐng)域和目標(biāo)領(lǐng)域的橋梁,這就解決了2.1節(jié)提到的跨領(lǐng)域情感傾向性分析中源領(lǐng)域和目標(biāo)領(lǐng)域不同而引起的問題。例如,若源領(lǐng)域和目標(biāo)領(lǐng)域中與種子詞w的SimRank值最大的詞分別是ws和wt,那么ws_wt即為潛在空間里的一個(gè)詞,可用作分類特征;
情感詞典(Dic):用于判定詞的傾向性,從而形成種子詞,判定的方法為:正向?yàn)?,負(fù)向?yàn)椋?,無情感為0。
具體而言,跨領(lǐng)域情感傾向性分析問題可用上述術(shù)語表達(dá)如下:對給定的源領(lǐng)域Ds和目標(biāo)領(lǐng)域Dt,有
其中Ds由ns對標(biāo)注情感傾向性的評(píng)論組成,xsi是第i個(gè)文本內(nèi)容,ysi是xsi對應(yīng)的情感傾向性,其取值范圍為{1,0,-1},分別表示評(píng)論的情感傾向性為正向、無情感和負(fù)向,Dt僅由nt個(gè)文本組成。
跨領(lǐng)域情感傾向性分析的任務(wù)是利用Ds中的文本和情感傾向性標(biāo)注信息,預(yù)測Dt中每個(gè)文本的傾向性。相對于特定領(lǐng)域的情感傾向性分析研究,跨領(lǐng)域情感傾向性分析涉及的難點(diǎn)有以下兩點(diǎn)。
1)同一個(gè)詞語在一個(gè)領(lǐng)域中的情感傾向性相對固定,但是它在不同領(lǐng)域中表達(dá)的情感傾向性不一定相同。這類問題與詞所在的領(lǐng)域相關(guān),所以不能直接使用傳統(tǒng)的情感傾向性分析方法。比如表1所示的關(guān)于酒店評(píng)論和電子產(chǎn)品評(píng)論。
表1 評(píng)論舉例
在這兩個(gè)出自不同領(lǐng)域的句子中“小”在各自領(lǐng)域中的傾向性比較固定,但是當(dāng)它出現(xiàn)在不同的領(lǐng)域中的時(shí)候,則表達(dá)了兩種相反的傾向性,前者表示否定,而后者表示肯定。如何在跨領(lǐng)域情感傾向性分析中準(zhǔn)確判斷領(lǐng)域內(nèi)的詞語的情感傾向,并把它遷移到不同領(lǐng)域是跨領(lǐng)域情感傾向分析的一個(gè)難點(diǎn)。
2)一些詞語只在特定領(lǐng)域中有情感傾向,在不同領(lǐng)域中可能不包含情感,甚至不出現(xiàn),這樣也導(dǎo)致了傳統(tǒng)的情感傾向性分析方法無法判斷傾向性,因?yàn)檫@兩個(gè)領(lǐng)域的詞空間分布不同。例如,針對電子產(chǎn)品的評(píng)論——“這個(gè)相機(jī)很好,耐用”,“耐用”在電子產(chǎn)品評(píng)論中經(jīng)常出現(xiàn),表示評(píng)論者認(rèn)為該產(chǎn)品結(jié)實(shí),表達(dá)肯定情感,但是在酒店領(lǐng)域的評(píng)論中出現(xiàn)的幾率很小,如果直接使用特定領(lǐng)域中情感傾向性分析的方法,那么會(huì)丟失很多特征,準(zhǔn)確率也隨之降低。
類似SCL,本文的算法也同樣利用多次出現(xiàn)的帶有明確情感傾向性的種子詞作為連接源領(lǐng)域和目標(biāo)領(lǐng)域的樞紐特征,進(jìn)而構(gòu)建由這兩個(gè)領(lǐng)域中樞紐特征和非樞紐特征形成的圖,計(jì)算圖中所有點(diǎn)之間的SimRank值,從而找到潛在情感空間,最后,把潛在情感空間中的詞語作為特征,對源領(lǐng)域中已經(jīng)標(biāo)注情感傾向性的全部文本和目標(biāo)領(lǐng)域中未標(biāo)注情感傾向性的部分文本進(jìn)行訓(xùn)練,得到傾向性分類模型,再利用此模型對目標(biāo)領(lǐng)域中未標(biāo)注情感傾向性的文本進(jìn)行傾向性分析判斷。下面通過例句具體說明一下:
Elec領(lǐng)域:“Nokia 8800外觀漂亮,十分大氣”
Stock領(lǐng)域:“綜合看今天強(qiáng)勢的反彈,筆者認(rèn)為節(jié)前的調(diào)整已經(jīng)全部結(jié)束,多頭將在最后一個(gè)交易日展開全面反擊,以一個(gè)漂亮的紅色周K線迎接國慶的可能很大?!?/p>
來自不同領(lǐng)域的傾向性詞匯“大氣”和“強(qiáng)勢”在“漂亮”作為樞紐特征即種子詞的“鏈接”下,通過SimRank方法計(jì)算相似度,用于分析未標(biāo)注文本的情感傾向性。
具體算法如下:
(1)構(gòu)造樞紐特征集合P以及Ds和Dt的詞語組成的圖G。
tf(w)為詞語在某個(gè)領(lǐng)域中出現(xiàn)次數(shù),Maxk表示出現(xiàn)次數(shù)最多的前k個(gè)詞。源領(lǐng)域和目的領(lǐng)域的圖G中節(jié)點(diǎn)代表詞語,同時(shí)出現(xiàn)在一個(gè)句子中的各個(gè)詞語之間存在一條邊。
(2)選擇種子詞Seeds。利用Dic標(biāo)注出P中有明顯情感傾向性的詞作為Seeds。本文所用的Dic是由文獻(xiàn)[14]的情感詞匯本體和 HowNet[15]中情感詞構(gòu)成。
(3)計(jì)算圖G中的各個(gè)詞語之間的SimRank值,構(gòu)建潛在情感空間。
LES表示潛在情感空間,其是由滿足上式的ws和wt詞語對ws_wt組成,MaxSim(i,j)表示與詞語i的SimRank值最大的詞。
(4)把LES和Seeds中的詞語作為特征詞,對Ds的文本和部分Dt文本進(jìn)行SVM訓(xùn)練,Seeds中的權(quán)值為1,LES的權(quán)重為其所屬領(lǐng)域的SimRank值,利用得到的模型對Dt中的文本進(jìn)行傾向性預(yù)測。
(5)該算法能夠解決前文提到的兩個(gè)問題。對于第一個(gè)問題,在酒店領(lǐng)域的評(píng)論“我很討厭這個(gè)酒店,房間太小”中,“小”與具有否定傾向的“討厭”共現(xiàn),根據(jù)算法判斷其傾向性為否定,同理,在電子領(lǐng)域的評(píng)論“我就喜歡這么小的電池”中,“小”的傾向性為肯定。同樣,由于上述算法計(jì)算了所有共現(xiàn)詞之間的SimRank值,在選擇特征時(shí)能夠考慮到特定領(lǐng)域的詞,從而解決(1)提到的第二個(gè)問題。例如,在如圖1所示中,Ds表示對酒店的評(píng)論文本,Dt表示電子產(chǎn)品的評(píng)論文本,由算法所得到的源領(lǐng)域和目標(biāo)領(lǐng)域中與種子詞“完美”的SimRank最大的詞分別是“不錯(cuò)”和“耐用”,故“不錯(cuò)_耐用”成為潛在情感空間中的一個(gè)詞,可以用在后續(xù)的分類特征。
圖1 LES示意圖
實(shí)驗(yàn)語料來自文獻(xiàn)[3],該語料的規(guī)模如表2所示(“詞典長度”表示數(shù)據(jù)集中不同詞的數(shù)量),語料中包括三個(gè)領(lǐng)域的評(píng)論,分別是:電子評(píng)論Elec(來源于:http://detail.zol.com.cn/),財(cái)經(jīng)評(píng)論Stock(來源于:http://blog.sohu.com/stock/)及酒店評(píng)論 Hotel(來源于:http://www.ctrip.com/)。所有評(píng)論均已由專家進(jìn)行了傾向性標(biāo)注。
表2 實(shí)驗(yàn)語料規(guī)模
本文對實(shí)驗(yàn)語料所包括的三個(gè)領(lǐng)域,兩兩之間分別作跨領(lǐng)域傾向性分析實(shí)驗(yàn),共計(jì)6組實(shí)驗(yàn)。本文的實(shí)驗(yàn)進(jìn)行了如下的預(yù)處理:首先,使用中國科學(xué)院ICTCLAS分詞系統(tǒng)[16]對所有語料文本進(jìn)行分詞,然后去停用詞,并針對各領(lǐng)域進(jìn)行詞頻統(tǒng)計(jì),去除出現(xiàn)次數(shù)小于3次的低頻詞。最后利用詞頻統(tǒng)計(jì)結(jié)果和Dic得到Seeds。
本文所用的Dic的規(guī)模如表3所示。
分別計(jì)算Ds和Dt中經(jīng)處理后得到的詞之間的SimRank值,按照本文上述算法,得到LES。對Ds和部分Dt文本使用SVM-light工具包[17]進(jìn)行訓(xùn)練,使用其中的線性核,所有參數(shù)都使用默認(rèn)值。針對Dt文本,利用訓(xùn)練后得到的模型進(jìn)行傾向性預(yù)測。
表3 Dic的規(guī)模
本文使用準(zhǔn)確率(Accuracy)作為評(píng)價(jià)指標(biāo),準(zhǔn)確率是指預(yù)測的文本傾向性和經(jīng)專家標(biāo)注的文本的傾向性一致的文本數(shù)目占所預(yù)測文本總數(shù)的比例。
文獻(xiàn)[3]中把用SVM訓(xùn)練分類作為Baseline,同時(shí)使用SCL和文中算法進(jìn)行了實(shí)驗(yàn),本文以文獻(xiàn)[3]的實(shí)驗(yàn)結(jié)果作為對比實(shí)驗(yàn)。本文實(shí)驗(yàn)結(jié)果如表4所示。
表4 實(shí)驗(yàn)結(jié)果對比
本文提出的基于SimRank的方法(以下簡稱SR算法)在實(shí)驗(yàn)(1)(2)(3)(5)中取得了最佳的結(jié)果,體現(xiàn)了本文方法的有效性及魯棒性,但在實(shí)驗(yàn)(4)(6)中沒有文獻(xiàn)[3]中的SentiRank方法突出,以下部分將對實(shí)驗(yàn)結(jié)果進(jìn)行深入的分析。
SentiRank方法以SCL算法作為對比算法,結(jié)果顯示:在(1)(2)(3)上使用SCL算法得到的結(jié)果都優(yōu)于SentiRank方法,可見種子詞即同時(shí)出現(xiàn)在源領(lǐng)域和目標(biāo)領(lǐng)域的高頻詞匯對跨領(lǐng)域情感分析起著重要作用。
正如第3節(jié)所述,本文的算法本質(zhì)上和SCL算法的思想一致,均是利用兩個(gè)領(lǐng)域中與領(lǐng)域無關(guān)的詞語作為橋梁,從而解決跨領(lǐng)域情感傾向性分析問題,但是原始的SCL算法考慮的較為簡單,僅僅是對矩陣進(jìn)行SVD分解,不能夠準(zhǔn)確、深入地挖掘出兩個(gè)領(lǐng)域的潛在情感空間,進(jìn)而影響了實(shí)驗(yàn)結(jié)果的準(zhǔn)確度,SR算法是對其的一個(gè)改進(jìn),考慮到利用SimRank算法挖掘共現(xiàn)的詞語的相似性,將源領(lǐng)域及目標(biāo)領(lǐng)域中與種子詞SimRank值最大的詞形成詞對,從而更準(zhǔn)確地構(gòu)成潛在情感空間,實(shí)現(xiàn)了利用種子詞把兩個(gè)領(lǐng)域更好地聯(lián)系了起來,所以在實(shí)驗(yàn)(1)(2)(3)中都取得了最好的效果,從實(shí)驗(yàn)結(jié)果我們可以看到,本文使用SimRank算法進(jìn)行潛在情感空間的選擇在一定程度上能夠提高SCL算法的性能,因此本文的SR算法在這個(gè)三組實(shí)驗(yàn)的結(jié)果要優(yōu)于SCL算法。
文獻(xiàn)[3]的實(shí)驗(yàn)結(jié)果表明SentiRank方法在實(shí)驗(yàn)(4)(5)(6)中得到的結(jié)果好于SCL算法,分析原因可知,由于SCL算法的思想主要考慮詞匯的共現(xiàn)信息且分析對象粒度為整個(gè)篇章(在本文實(shí)驗(yàn)中即為整條評(píng)論),很大程度上會(huì)受到低頻詞及數(shù)據(jù)集大小影響,同時(shí)樞紐特征的選擇也對SCL算法有至關(guān)重要的影響。
而本文的SR算法同時(shí)也有一定局限性,在后三個(gè)實(shí)驗(yàn)中只有一組結(jié)果優(yōu)于對比實(shí)驗(yàn)的結(jié)果,即在(5)上結(jié)果要好于SCL及SentiRank方法,而在實(shí)驗(yàn)(4)(6)中的結(jié)果沒有SentiRank方法表現(xiàn)的好,分析原因可知,從另一個(gè)方面是因?yàn)镾R算法類似于SCL算法,但是要優(yōu)于SCL算法,其同樣會(huì)受到低頻詞、數(shù)據(jù)集大小及種子詞選擇的方面的影響,這一點(diǎn)可以從三個(gè)數(shù)據(jù)詞典的長度得出(Elec:6 200,Stock:13 012,Hotel:11 336)。在實(shí)驗(yàn)(4)(6)中都是由于Stock和Hotel領(lǐng)域的數(shù)據(jù)詞典長度都約為Elec的2倍,其不可避免的引入了一定的噪音,影響了實(shí)驗(yàn)的結(jié)果,而實(shí)驗(yàn)(5)由于Hotel與Stock領(lǐng)域數(shù)據(jù)大小相似,故SR方法的結(jié)果在三種方法中表現(xiàn)最好。
同時(shí)較之SentiRank提出的方法,未考慮源領(lǐng)域和目標(biāo)領(lǐng)域之間文本的相似性,也是SR算法的結(jié)果在(4)(6)兩組實(shí)驗(yàn)上不如SentiRank結(jié)果的原因之一,其也是以后的研究中進(jìn)一步需要考慮的問題,將SR算法結(jié)合不同領(lǐng)域間文本相似性這一重要信息深入挖掘跨領(lǐng)域文本的情感傾向性。
本文提出一種基于SimRank的跨領(lǐng)域傾向性分析算法用于解決不同領(lǐng)域中情感傾向性分析的問題。該算法使用源領(lǐng)域和目標(biāo)領(lǐng)域中出現(xiàn)次數(shù)最多的情感詞作為連接兩者的樞紐特征,利用兩個(gè)領(lǐng)域中詞語構(gòu)成的圖上計(jì)算這些樞紐特征的SimRank值,進(jìn)而構(gòu)建潛在情感空間,把潛在情感空間中的詞語作為分類特征,使用SVM分類器對源領(lǐng)域進(jìn)行訓(xùn)練,用得到的分類模型對目標(biāo)領(lǐng)域的文本進(jìn)行情感傾向性判斷。6組實(shí)驗(yàn)的結(jié)果表明本文算法是有效的。下一步的工作可以考慮融入語法分析,對算法加入與領(lǐng)域相關(guān)的情感傾向性判定因素,同時(shí),本文僅僅考慮兩個(gè)領(lǐng)域之間的情感傾向性遷移問題,以后的工作可以在多個(gè)領(lǐng)域間進(jìn)行情感傾向性判定。
[1]V.Hatzivassiloglou,K.R.McKeown.Predicting the semantic orientation of adjectives[C]//Proceedings of ACL97,Madrid,ES,1997:174-181.
[2]Pang B,Lee L,Vaithyanathan S.Thumbs up?Sentiment classification using machine learning techniques[C]//Proceedings of EMNLP2002, Philadelphia,USA,2002:79-86.
[3]Qiong Wu,Songbo Tan,et al.SentiRank:Cross-Domain Graph Ranking for Sentiment Classification[C]//2009IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology,Milano,Italy,2009:309-314.
[4]S.J.Pan,X.C.Ni,J.T.S,et al.Cross-domain sentiment classification via spectral feature alignment[C]//Proceedings of the 19th International Conference on World Wide Web,Raleigh NC,USA,2010:751-760.
[5]Christian Scheible.Sentiment Translation through Lexicon Induction[C]//Proceedings of the ACL 2010 Student Research Workshop,Uppsala,Sweden,2010:25-30.
[6]Hu M,Liu B.Mining and summarizing customer reviews[C]//Proceedings of the 2004ACM SIGKDD,Washington,USA,2004:168-177.
[7]J.Blitzer,M.Dredze,F(xiàn).Pereira.Biographies,bollywood,boom-boxes and blenders:domain adaptation for sentiment classification[C]//Proceedings of the 45th Annual Meeting of the Association for Computa-tional Linguistics,Prague,Czech Republic,2007:440-447.
[8]W.Dai,Q.Yang,G.Xue,et al.Boosting for transfer learning[C]//Proceedings of the 24th International Conference on Machine Learning,Corvallis,OR,2007:193-200.
[9]S.-I.Lee,V.Chatalbashev,D.Vickrey,et al.Learning a meta-level prior for feature relevance from multiple related tasks[C]//Proceedings of the 24th International Conference on Machine Learning,Corvallis,OR,2007:489-496.
[10]J.Jiang,C.X.Zhai.A two-stage approach to domain adaptation for statistical classifiers[C]//Proceedings of the 16th ACM Conference on Information and Knowledge Management ,Lisboa,Portugal,2007:401-410.
[11]Aue,Anthony,Gamon,et al.Customizing Sentiment Classifiers to New Domains:a Case Study[C]//Proceedings of the International Conference on Recent Advances in Natural Language Processing,Borovets,BG,2005.
[12]Glen Jeh,Jennifer Widom.SimRank:A Measure of Structural-Context Similarity[C]//Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Alberta,Canada,2002:538-543.
[13]許晟,李亞楠,王斌.基于加權(quán)SimRank的中文查詢推薦研究[C]//第五屆全國信息檢索學(xué)術(shù)會(huì)議(CCIR2009),上海,中國,2009:242-251.
[14]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185.
[15]http://www.keenage.com/
[16]http://ictclas.org/
[17]Vapnik V.The nature of statistical learning theory[M].New York:Springer-Verlag,1995.