琚春華+鄒江波+傅小康
摘要:[目的/意義]跨領(lǐng)域情感分類(lèi)仍是亟需重點(diǎn)研究的問(wèn)題之一。[方法/過(guò)程]借助情感無(wú)關(guān)詞,通過(guò)譜聚類(lèi)算法構(gòu)建源領(lǐng)域與目標(biāo)領(lǐng)域的跨域情感特征詞簇,將譜聚類(lèi)得到的情感詞特征與位置特征、關(guān)鍵詞特征、詞性特征融入邏輯回歸分類(lèi)算法中,實(shí)現(xiàn)基于多特征融合的跨領(lǐng)域情感分類(lèi)算法;并以用戶評(píng)論數(shù)據(jù)進(jìn)行驗(yàn)證。[結(jié)果/結(jié)論]研究結(jié)果表明,CDFF(Cross Domain pulse Four Factor)算法可有效實(shí)現(xiàn)跨域用戶的情感分類(lèi),為跨領(lǐng)域情感分類(lèi)研究提供借鑒。
關(guān)鍵詞:跨域情感分類(lèi) 多特征融合 譜聚類(lèi) 遷移學(xué)習(xí)
分類(lèi)號(hào):TP391
引用格式:琚春華, 鄒江波, 傅小康. 基于多特征融合的跨域情感分類(lèi)模型研究[J/OL]. 知識(shí)管理論壇, 2016, 1(6): 464-470[引用日期]. http://www.kmf.ac.cn/p/1/83/.
1 引言
互聯(lián)網(wǎng)用戶的交互行為產(chǎn)生了大量評(píng)論數(shù)據(jù),如客戶購(gòu)買(mǎi)某商品后的評(píng)論、微博用戶針對(duì)熱點(diǎn)話題的評(píng)論等。這些交互數(shù)據(jù)中隱含著用戶對(duì)某類(lèi)事物的情感傾向,它對(duì)構(gòu)建用戶興趣模型、產(chǎn)生推薦結(jié)果具有重要實(shí)踐意義。情感分類(lèi)即根據(jù)評(píng)論數(shù)據(jù)將用戶情感分為兩類(lèi):積極和消極,雖然人們可以很容易從某條評(píng)論數(shù)據(jù)中推測(cè)出當(dāng)時(shí)評(píng)論者的情感,但對(duì)于機(jī)器來(lái)說(shuō)并非易事,并且一些評(píng)論數(shù)據(jù)中并沒(méi)有顯性的表達(dá)出用戶情感,這更增大了機(jī)器學(xué)習(xí)的難度。
國(guó)內(nèi)外已有許多學(xué)者通過(guò)半監(jiān)督學(xué)習(xí)的方法對(duì)情感分類(lèi)問(wèn)題進(jìn)行了研究[1-3],有研究者為了更好地利用關(guān)鍵句和細(xì)節(jié)句之間的差異性和互補(bǔ)性,將抽取的關(guān)鍵句分別用于有監(jiān)督和半監(jiān)督的情感分類(lèi)中[2],但如何準(zhǔn)確判斷出評(píng)論的關(guān)鍵句仍是需要繼續(xù)深入研究的問(wèn)題。有研究者使用大規(guī)模未標(biāo)記數(shù)據(jù)和少量情緒詞實(shí)現(xiàn)了情感分類(lèi)[3],雖然降低了人工標(biāo)記數(shù)據(jù)的成本,但模型不能重復(fù)在其他領(lǐng)域中使用,仍需針對(duì)特定領(lǐng)域進(jìn)行情感分類(lèi)學(xué)習(xí)。在情感分類(lèi)研究中也有針對(duì)如何計(jì)算情感詞的情感度,有學(xué)者針對(duì)情感詞的情感度確定問(wèn)題進(jìn)行研究[4],提出了模糊層次分析法來(lái)度量情感詞的情感度。這些方法的分類(lèi)結(jié)果依賴于手工標(biāo)識(shí)的訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)好的分類(lèi)準(zhǔn)確率也高,但實(shí)際情況卻是每個(gè)領(lǐng)域中手工標(biāo)識(shí)形成分類(lèi)訓(xùn)練數(shù)據(jù)的代價(jià)是很高的,如果對(duì)每個(gè)領(lǐng)域都進(jìn)行手工數(shù)據(jù)標(biāo)識(shí)也是不現(xiàn)實(shí)的,因此有研究者考慮到情感分類(lèi)任務(wù)的領(lǐng)域相關(guān)性[5],通過(guò)跨領(lǐng)域?qū)W習(xí)減少情感分類(lèi)的數(shù)據(jù)標(biāo)記,提出一種基于評(píng)價(jià)對(duì)象類(lèi)別的跨領(lǐng)域?qū)W習(xí)方法,但評(píng)價(jià)對(duì)象類(lèi)別粒度較粗,不適合跨多個(gè)領(lǐng)域的情感分類(lèi)[6]。由此可見(jiàn),在某一個(gè)領(lǐng)域情感訓(xùn)練產(chǎn)生的分類(lèi)準(zhǔn)確的分類(lèi)器未必能在另一個(gè)領(lǐng)域中表現(xiàn)出同樣的準(zhǔn)確性。為了解決情感分類(lèi)算法領(lǐng)域依賴性高、人工數(shù)據(jù)標(biāo)記成本大等問(wèn)題,本文對(duì)跨域情感分類(lèi)進(jìn)行了深入研究,發(fā)現(xiàn)通過(guò)譜聚類(lèi)可縮短不同領(lǐng)域間情感詞的距離,在已有研究的基礎(chǔ)上,本文希望借助情感無(wú)關(guān)詞來(lái)橋接源領(lǐng)域與目標(biāo)領(lǐng)域,再利用譜聚類(lèi)算法將不同領(lǐng)域的情感詞聚集到一起,并考慮相關(guān)特征進(jìn)行融合,以此實(shí)現(xiàn)跨領(lǐng)域情感分類(lèi)。
2 概念定義與問(wèn)題描述
本節(jié)對(duì)領(lǐng)域、情感詞、跨域情感分類(lèi)等相關(guān)概念做出了相關(guān)定義。
定義1領(lǐng)域:一個(gè)領(lǐng)域D代表現(xiàn)實(shí)世界中一類(lèi)實(shí)體或概念的集合。
可理解為超市中不同的產(chǎn)品區(qū)域,有食品、文具、家電等,圖書(shū)館中不同學(xué)科領(lǐng)域,領(lǐng)域的粒度可抽象或細(xì)分,具體需根據(jù)實(shí)際情況而定。
定義2情感詞:給定一個(gè)特定的領(lǐng)域,情感詞是那些能夠反映用戶情感傾向的詞語(yǔ)。
這些情感詞與用戶短語(yǔ)表達(dá)出來(lái),通過(guò)語(yǔ)句拆分可組成情感詞序列[w1,w2,w3…wn],本研究中沒(méi)有考慮情感詞在語(yǔ)句的排序?qū)ψ罱K情感分類(lèi)的影響,但考慮了情感詞在語(yǔ)句中的位置對(duì)最終情感分類(lèi)的影響,每個(gè)特定的領(lǐng)域D有屬于本領(lǐng)域的情感詞庫(kù)W(wi?W),借鑒bag-of-words的思想,將c(wi,xj)表示為情感詞wi在語(yǔ)句xj中出現(xiàn)的頻率。
定義3情感分類(lèi):給定領(lǐng)域,根據(jù)語(yǔ)句xi整體語(yǔ)義表達(dá)劃分情感類(lèi)別yi(正面yi=1或負(fù)面yi=-1)將已標(biāo)記情感類(lèi)別的語(yǔ)句組成情感分類(lèi)中的訓(xùn)練數(shù)據(jù)(xi,yi),將未被標(biāo)記情感類(lèi)別的語(yǔ)句稱為預(yù)測(cè)數(shù)據(jù)。
定義4跨域情感分類(lèi):給定兩個(gè)不同的領(lǐng)域,源領(lǐng)域(Dsrc)和目標(biāo)領(lǐng)域(Dtar),假定源領(lǐng)域中含已標(biāo)記數(shù)據(jù)集([xsrci,ysrci],i?1,2…nsrc),目標(biāo)數(shù)據(jù)集含未標(biāo)記數(shù)據(jù)集([xtarj],j?1,2…ntar),如果某個(gè)分類(lèi)器能通過(guò)在源領(lǐng)域訓(xùn)練學(xué)習(xí)準(zhǔn)確預(yù)測(cè)目標(biāo)領(lǐng)域中未標(biāo)記的數(shù)據(jù)集,那么將這樣的分類(lèi)稱為跨域情感分類(lèi)。
跨域情感分類(lèi)需要解決領(lǐng)域依賴的問(wèn)題,即相鄰領(lǐng)域情感詞的表達(dá)是相近的,而實(shí)際情況中,用戶通常會(huì)針對(duì)不同的領(lǐng)域發(fā)表與領(lǐng)域相關(guān)的評(píng)論語(yǔ),如表1列舉了新浪微博中用戶對(duì)電影和社會(huì)兩大類(lèi)別中相關(guān)熱點(diǎn)微話題的評(píng)論,用戶評(píng)語(yǔ)短語(yǔ)顯性或隱性地表達(dá)了評(píng)論主體的某些情感,由此看出用戶對(duì)當(dāng)前話題的情感傾向,具有情感傾向的情感詞已在表中用黑體標(biāo)出,如正面情感詞“激動(dòng)”“激烈”“給力”等,負(fù)面情感詞“痛苦”“折磨”等。但每個(gè)領(lǐng)域中的情感詞卻存在區(qū)別,如電影領(lǐng)域中的負(fù)面情感詞 “俗套”“凌亂”等,社會(huì)領(lǐng)域中正面情感詞“合理” 等,其中的“俗套” “凌亂”“合理”屬于領(lǐng)域相關(guān)詞,“既然”“畢竟” 屬于領(lǐng)域無(wú)關(guān)詞。
除此之外,位置特征、關(guān)鍵詞、詞性特征也是情感分類(lèi)中需要考慮的問(wèn)題,一般評(píng)論語(yǔ)句的最后幾個(gè)情感特征最能表達(dá)評(píng)論者的情感,其次,如果出現(xiàn)如“但是”“畢竟”“我認(rèn)為”等轉(zhuǎn)折關(guān)鍵詞,評(píng)論者的情感表達(dá)可能發(fā)生轉(zhuǎn)變,最后,大多數(shù)能表達(dá)用戶情感的都是形容詞或副詞,因此在情感分類(lèi)時(shí),除情感特征外,也需要考慮上述特征因素對(duì)情感分類(lèi)的影響。
因此,結(jié)合國(guó)內(nèi)外相關(guān)研究,給出了跨領(lǐng)域的情感分類(lèi)框架,如圖1所示:
其中目標(biāo)領(lǐng)域情感特征詞根據(jù)標(biāo)識(shí)數(shù)據(jù)獲得,但實(shí)際情況是該標(biāo)識(shí)數(shù)據(jù)量較少或沒(méi)有現(xiàn)成的標(biāo)識(shí)數(shù)據(jù),或需要人工標(biāo)識(shí)部分?jǐn)?shù)據(jù)。借助情感無(wú)關(guān)詞,通過(guò)譜聚類(lèi)算法構(gòu)建了源領(lǐng)域與目標(biāo)領(lǐng)域的跨域情感特征詞簇,將譜聚類(lèi)得到的情感詞特征與位置特征、關(guān)鍵詞特征、詞性特征等4種因子融入邏輯回歸分類(lèi)算法中,實(shí)現(xiàn)基于多特征融合的跨領(lǐng)域情感分類(lèi)算法。
3 跨域情感分類(lèi)模型
本文借鑒了林政等基于情感關(guān)鍵句抽取的情感分類(lèi)方法[2],但不是為了抽取關(guān)鍵句,而是將文獻(xiàn)中的特征得分用于最終情感分類(lèi),考慮了情感特征(即領(lǐng)域情感詞)、位置特征、關(guān)鍵詞特征及詞性特征,其中的情感特征通過(guò)多領(lǐng)域譜聚類(lèi)得到,詞性特征剔除與情感分類(lèi)無(wú)關(guān)的詞,以此達(dá)到跨領(lǐng)域情感分類(lèi)的目的。因此,考慮上述4個(gè)特征的情感分類(lèi)可用公式(1)表示,此時(shí)每一條評(píng)論數(shù)據(jù)共4屬性特征,都是通過(guò)計(jì)算特征的得分進(jìn)行分類(lèi),削弱了特征空間對(duì)跨領(lǐng)域分類(lèi)的影響。p0是偏置項(xiàng),p1、p2、p3、p4參數(shù),它們可通過(guò)訓(xùn)練數(shù)據(jù)訓(xùn)練得出。
通過(guò)公式(1)計(jì)算的值并不能表達(dá)情感分類(lèi)(正面或負(fù)面),因此加入公式(2),達(dá)到對(duì)跨領(lǐng)域情感分類(lèi)的目的。
此時(shí)函數(shù)?將f(xi)的值域映射到0和1上,這樣便可達(dá)到情感分類(lèi)的目的。
3.1 情感特征詞
通過(guò)評(píng)論短語(yǔ)的情感特征詞大體可以判斷評(píng)論者的情感傾向,通常在情感分類(lèi)時(shí)情感特征詞的權(quán)重較大,跨領(lǐng)域分類(lèi)遇到的關(guān)鍵問(wèn)題就是不同領(lǐng)域中的情感特征空間不同,最終導(dǎo)致源領(lǐng)域訓(xùn)練的分類(lèi)器不能很好的應(yīng)用到目標(biāo)領(lǐng)域中。因此本文借助領(lǐng)域無(wú)關(guān)詞作為橋梁[6],通過(guò)譜聚類(lèi)方法實(shí)現(xiàn)跨領(lǐng)域的情感詞轉(zhuǎn)換,得到新的情感詞特征空間,在該空間里通過(guò)公式(3)計(jì)算評(píng)論短語(yǔ)xi的情感特征詞的得分。
每條評(píng)論短語(yǔ)xi需要分詞并剔除停頓詞,其中positive(wij)表示第i條評(píng)論語(yǔ)句的第j個(gè)詞在譜聚類(lèi)集中對(duì)應(yīng)情感詞,該詞在聚類(lèi)中代表正面情感特征傾向;negative(wij)表示第i條評(píng)論語(yǔ)句的第j個(gè)詞在譜聚類(lèi)集中對(duì)應(yīng)情感詞,該詞在聚類(lèi)中代表負(fù)面情感特征傾向,n 是該評(píng)論短語(yǔ)中剔除停頓詞后的總詞數(shù)。
3.2 詞性特征
詞性特征屬于領(lǐng)域無(wú)關(guān)的特征,雖然每個(gè)領(lǐng)域都有其特定的特征空間,但這些特征空間的詞性都是相同的,有文獻(xiàn)指出形容詞和副詞往往最能代表了跨領(lǐng)域評(píng)論的情感傾向[7],而名詞則和領(lǐng)域相關(guān),因此考慮目標(biāo)領(lǐng)域的詞性特征進(jìn)行情感分類(lèi),參照B. Pang等學(xué)者的方法[1]首先對(duì)評(píng)論短語(yǔ)進(jìn)行 POS 詞性標(biāo)注;再按照預(yù)定義的規(guī)則抽取目標(biāo)領(lǐng)域評(píng)論短語(yǔ)中的形容詞和副詞詞語(yǔ);最后使用公式(4)計(jì)算每條評(píng)論短語(yǔ)的詞性比重得分。
其中wi等于按照預(yù)定義規(guī)則抽取的第i條評(píng)論短語(yǔ)中形容詞和副詞詞語(yǔ)總數(shù),n等于第i條評(píng)論短語(yǔ)中提出評(píng)論短語(yǔ)后的總詞數(shù)。該公式表示形容詞和副詞在評(píng)論短語(yǔ)中所占的比重,即形容詞和副詞對(duì)情感分類(lèi)的影響程度。
3.3 位置特征
一條評(píng)論語(yǔ)句中可能包含多個(gè)正面情感詞和負(fù)面情感詞,但通常最可能表達(dá)評(píng)論者情感的情感詞出現(xiàn)在評(píng)論的開(kāi)始或結(jié)尾,需考慮情感評(píng)論中的位置特征對(duì)情感分類(lèi)的影響,因此,位置特征的得分可通過(guò)公式(5)計(jì)算得出。
pos(wij)表示第j個(gè)詞在第i條評(píng)論語(yǔ)句中的位置,可看出位置特征服從一元二次函數(shù),即拋物線圖像,以此達(dá)到凸顯句前和句尾詞在情感分類(lèi)中重要性的目的,但也不能與中間位置差異過(guò)大,因此拋物線的開(kāi)口應(yīng)該大,防止兩端值對(duì)情感分類(lèi)的影響過(guò)大。
其中滿足:
M表示xi中的總字?jǐn)?shù),中間位置是函數(shù)的最低點(diǎn),此處計(jì)算的情感詞得分較低,而位于評(píng)論開(kāi)頭和結(jié)尾的情感詞得分較高。由于針對(duì)短評(píng)數(shù)據(jù),句中特征詞數(shù)據(jù)較少,難以判斷情感分類(lèi),此時(shí)位置特征的影響力削弱,可適當(dāng)調(diào)整c的取值,調(diào)整位置特征的得分。
3.4 關(guān)鍵詞特征
情感分類(lèi)中,評(píng)價(jià)短語(yǔ)中的關(guān)鍵詞能夠反映出評(píng)論這情感傾向的變化,因此需考慮關(guān)鍵詞特征對(duì)情感傾向性的影響,本文歸納了多領(lǐng)域中的20個(gè)常用關(guān)鍵詞用于實(shí)驗(yàn),這些情感詞包括:總之、我認(rèn)為、然而、畢竟、但是、既然等,這里不再一一列出。關(guān)鍵詞特征的計(jì)算如公式(6)所示:
其中:
3.5 基于多特征融合的跨域情感分類(lèi)算法
為了實(shí)現(xiàn)跨領(lǐng)域情感分類(lèi),本算法除了通過(guò)譜聚類(lèi)算法將情感詞特征空間進(jìn)行映射以外,還融入了詞性特征、位置特征、關(guān)鍵詞特征,在新的特征空間上訓(xùn)練得到邏輯回歸分類(lèi)器,具體算法步驟如下:
算法1:基于多特征融合的跨域情感分類(lèi)算法
輸入:源領(lǐng)域訓(xùn)練數(shù)據(jù),少量目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù),聚類(lèi)個(gè)數(shù)k;
輸入:邏輯回歸分類(lèi)器。
算法步驟:
步驟(1) 剔除訓(xùn)練數(shù)據(jù)集停頓詞;
步驟(2) 針對(duì)源領(lǐng)域訓(xùn)練數(shù)據(jù)和少量目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù)采用譜聚類(lèi)算法得到k個(gè)聚類(lèi);
步驟(3) 根據(jù)譜聚類(lèi)結(jié)果通過(guò)公式(3)計(jì)算訓(xùn)練數(shù)據(jù)集的情感特征詞的得分;
步驟(4) 通過(guò)公式(4)計(jì)算詞性特征得分;
步驟(5) 通過(guò)公式(5)計(jì)算訓(xùn)練數(shù)據(jù)集的位置特征得分;
步驟(6) 根據(jù)關(guān)鍵詞詞典通過(guò)公式(6)計(jì)算訓(xùn)練數(shù)據(jù)集的關(guān)鍵詞特征得分;
步驟(7) 對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行詞性標(biāo)注,抽取訓(xùn)練數(shù)據(jù)集中的副詞和形容詞;
步驟(8) 將訓(xùn)練數(shù)據(jù)集進(jìn)行轉(zhuǎn)換,以情感詞、位置、關(guān)鍵詞、詞性、情感為特征,構(gòu)建新的訓(xùn)練數(shù)據(jù)集Dnew;
步驟(9) 根據(jù)新的訓(xùn)練數(shù)據(jù)集通過(guò)梯度下降法學(xué)習(xí)得到公式(1)中參數(shù)p0,p1,p2,p3,p4的值;
步驟(10)將參數(shù)帶入公式(2)輸出邏輯回歸分類(lèi)器。
算法2:譜聚類(lèi)算法[8]:
輸入:源領(lǐng)域訓(xùn)練數(shù)據(jù),目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù),聚類(lèi)個(gè)數(shù)k;
輸出:k個(gè)聚類(lèi)。算法步驟:
步驟(1) 根據(jù)領(lǐng)域無(wú)關(guān)和領(lǐng)域相關(guān)詞語(yǔ)構(gòu)造雙向圖G(VDS∪VDI,E),計(jì)算圖雙向圖的帶權(quán)領(lǐng)接矩陣WRn×n,如果i≠j,Wij=mij,否則Wij=0;
步驟(2) 計(jì)算對(duì)角矩陣D,其中Dii=ΣjWij,構(gòu)建圖的拉普拉斯矩陣L=D–1/2WD–1/2;
步驟(3) 計(jì)算拉普拉斯矩陣L的前k個(gè)最大特征值對(duì)應(yīng)的特征向量并構(gòu)建成特征矩陣U=[u1, u2…uk]?Rn×k;
步驟(4) 標(biāo)準(zhǔn)化特征矩陣U,
步驟(5) 在矩陣U上使用K-means算法,將n個(gè)點(diǎn)聚類(lèi)到k個(gè)聚類(lèi)中;
步驟(6) 返回k個(gè)聚類(lèi)。
4 實(shí)驗(yàn)分析與結(jié)果
4.1 實(shí)驗(yàn)設(shè)置
為了驗(yàn)證模型的有效性,本文采用Java語(yǔ)言,基于weka的邏輯回歸源代碼實(shí)現(xiàn)了算法CDFF。針對(duì)了數(shù)據(jù)集,采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的分詞軟件接口ICTCLAS(http://ictclas.org)和開(kāi)源項(xiàng)目IKAnalyzer,加入了搜狗實(shí)驗(yàn)室中的互聯(lián)網(wǎng)詞庫(kù)(http://www.sogou.com/labs/resources.html)和本文搜集整理的停頓詞典,實(shí)現(xiàn)了對(duì)文本進(jìn)行分詞及詞性附加操;SVM算法使用的是標(biāo)準(zhǔn)工具包light-SVM(http://svmlight.joachims.org)采用線性核函數(shù);通過(guò)譜聚類(lèi)算法實(shí)現(xiàn)跨領(lǐng)域情感詞的轉(zhuǎn)換,由于情感特征的得分依賴于聚簇,因此實(shí)驗(yàn)中會(huì)調(diào)整聚類(lèi)參數(shù)k的值來(lái)比較跨領(lǐng)域情感分類(lèi)的效果。
4.2 實(shí)驗(yàn)結(jié)果與分析
本文用到的數(shù)據(jù)集來(lái)自網(wǎng)絡(luò)用戶對(duì)酒店、電腦(筆記本)與書(shū)籍3個(gè)領(lǐng)域的短評(píng)平衡數(shù)據(jù)(http://www.searchforum.org.cn/tansongbo/corpus-senti.htm),其中每個(gè)領(lǐng)域的正負(fù)類(lèi)各2 000篇,共12 000條平衡評(píng)論數(shù)據(jù),數(shù)據(jù)集的具體組成如表2所示:
數(shù)據(jù)集上領(lǐng)域的相關(guān)度并不是很大,為了驗(yàn)證本算法的有效性,采用6個(gè)跨領(lǐng)域情感分類(lèi)任務(wù)方案:酒店→電腦,酒店→書(shū)籍,電腦→酒店,電腦→書(shū)籍,書(shū)籍→酒店,書(shū)籍→電腦;其中箭頭前表示源領(lǐng)域,箭頭后表示目標(biāo)領(lǐng)域。采用支持向量機(jī)(SVM)、SFA(Spectral Feature Alignment)、SCL(Structural Correspondence Learning)[13]3種算法與本文算法CDFF作對(duì)比,針對(duì)每個(gè)算法的實(shí)驗(yàn)都采用五折交叉驗(yàn)證,即隨機(jī)劃分每一領(lǐng)域數(shù)據(jù)為5份,每次取其中4份進(jìn)行訓(xùn)練,一份進(jìn)行測(cè)試,然后把5次分類(lèi)結(jié)果的平均結(jié)果作為最終結(jié)果。
考慮到譜聚類(lèi)中聚簇的個(gè)數(shù)會(huì)影響情感特征詞的得分,因此在實(shí)驗(yàn)中分別設(shè)置簇的個(gè)數(shù)為5、10、15來(lái)度量其對(duì)情感分類(lèi)的影響。具體如表3所示:
從表3的跨領(lǐng)域平均準(zhǔn)確值中可以看出本算法的實(shí)驗(yàn)結(jié)果較SFA算法高,高出情感分類(lèi)的準(zhǔn)確率隨聚簇的個(gè)數(shù)增加而增加,但當(dāng)k=15時(shí),準(zhǔn)確率增加的效果已不明顯,但從5個(gè)簇到10個(gè)簇時(shí),分類(lèi)準(zhǔn)確率提高,由此可見(jiàn)譜聚類(lèi)個(gè)數(shù)會(huì)影響跨領(lǐng)域情感分類(lèi)的結(jié)果。
本算法除考慮情感特征詞外還加入了位置特征、關(guān)鍵詞特征、詞性特征,為了驗(yàn)證加入這些特征的有效性,通過(guò)固定聚簇的個(gè)數(shù)(k=10),逐次加入這些特征后對(duì)比算法準(zhǔn)確性,來(lái)觀察不同特征對(duì)跨領(lǐng)域情感分類(lèi)的影響,具體如表4所示:
從表4中可以看出依次分別加入詞性特征、位置特征、關(guān)鍵詞特征后跨領(lǐng)域情感分類(lèi)的準(zhǔn)確率均有所提高,但是每個(gè)特征的貢獻(xiàn)率不同,從表4中可看出,位置特征和關(guān)鍵特征的貢獻(xiàn)率平均大于詞性特征的貢獻(xiàn)率。因此通過(guò)上述兩個(gè)實(shí)驗(yàn)驗(yàn)證了基于多特征融合的跨領(lǐng)域分類(lèi)算法可提高情感分類(lèi)準(zhǔn)確率。
5 總結(jié)與展望
雖然人們可以很容易的從某條評(píng)論數(shù)據(jù)中推測(cè)出當(dāng)時(shí)評(píng)論者的情感,但對(duì)于機(jī)器來(lái)說(shuō)并非易事,本文借助情感無(wú)關(guān)詞搭建源領(lǐng)域與目標(biāo)領(lǐng)域的橋梁,通過(guò)譜聚類(lèi)算法將不同領(lǐng)域的情感詞聚集到一起,應(yīng)用譜聚得到的特征集計(jì)算目標(biāo)領(lǐng)域測(cè)試數(shù)據(jù)的情感得分,與傳統(tǒng)譜聚類(lèi)算法不同,本文在跨領(lǐng)域情感分類(lèi)時(shí)還考慮了位置特征、詞性特征、關(guān)鍵詞特征對(duì)最終情感分類(lèi)的影響,將譜聚類(lèi)得到聚類(lèi)中的特征與位置、詞性、關(guān)鍵詞特征融合以此實(shí)現(xiàn)跨領(lǐng)域情感分類(lèi)。通過(guò)在用戶評(píng)論數(shù)據(jù)上對(duì)本算法進(jìn)行實(shí)驗(yàn),驗(yàn)證了本算法在跨域用戶情感分類(lèi)時(shí)的有效性。由于本文選擇的數(shù)據(jù)集較為標(biāo)準(zhǔn),但微博評(píng)論數(shù)據(jù)中存在很大的隨意性,領(lǐng)域相關(guān)詞也比較新穎,因此針對(duì)微博數(shù)據(jù)特性的跨領(lǐng)域情感分類(lèi)將是未來(lái)研究的重點(diǎn)。
參考文獻(xiàn):
[1] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques[EB/OL].[2015-10-12].http://www.cs.cornell.edu/home/llee/papers/sentiment.pdf.
[2] 林政, 譚松波, 程學(xué)旗. 基于情感關(guān)鍵句抽取的情感分類(lèi)研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2012, 9(11): 2376-2382.
[3] 代大明,王中卿,李壽山,等. 基于情緒詞的非監(jiān)督中文情感分類(lèi)方法研究[J]. 中文信息學(xué)報(bào), 2012, 26(4): 103-108.
[4] 李綱, 王忠義, 寇廣增. 情感分類(lèi)中情感詞的情感傾向度的計(jì)算方法研究[J]. 情報(bào)學(xué)報(bào), 2011, 28(3): 292-298.
[5] 張慧, 李壽山, 李培峰,等. 基于評(píng)價(jià)對(duì)象類(lèi)別的跨領(lǐng)域情感分類(lèi)方法研究[J]. 計(jì)算機(jī)科學(xué), 2013,40(1): 229-233.
[6] Pan S J, NI X c, Sun J T, et al. Cross-domain sentiment classification via spectral feature alignment[EB/OL].[2015-10-18].https://www.microsoft.com/en-us/research/wp-content/uploads/2010/04/Cross-Domain-Sentiment-Classification-via-Spectral-Feature-Alignment.pdf.
[7] Rui X, Cheng q Z. A POS-based ensemble model for cross-domain sentiment classification[EB/OL].[2015-10-26].https://www.researchgate.net/publication/228841203_A_POS-based_Ensemble_Model_for_Cross-domain_Sentiment_Classification.
[8] 張志武. 跨領(lǐng)域遷移學(xué)習(xí)產(chǎn)品評(píng)論情感分析[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù), 2013(6): 49-54.
[9] 馬鳳閘, 吳江寧, 楊光飛. 基于雙重選擇策略的跨領(lǐng)域情感傾向性分析[J]. 情報(bào)學(xué)報(bào), 2012, 31(11): 1202-1209.
[10] 張迪. 基于跨領(lǐng)域分類(lèi)學(xué)習(xí)的產(chǎn)品評(píng)論情感分析[D]. 上海:上海交通大學(xué), 2010.
[11] Danushka B, David W, John C. Cross-domain sentiment classification using a sentiment sensitive thesaurus[J]. IEEE transactions on knowledge and data engineering, 2013, 25(8): 1719-1731.
[12] TAN S B,CHENG X Q, GHANEM M M,et al. A novel refinement approach for text categorization[EB/OL].[2015-11-02]. http://dl.acm.org/citation.cfm?id=1099554.1099687.
[13] Blitzer J, Dredze M, Pereira F. Biographies, bollywood, boom-boxes and blenders: domain adaptation for sentiment classification[EB/OL].[2015-11-11].http://www.cs.jhu.edu/~mdredze/publications/sentiment_acl07.pdf.
Cross-domain Emotion Classification Model Based on the Multi-feature Fusion
Ju Chunhua1,2 Zou Jiangbo1,3 Fu Xiaokang2
1School of Management Science & E-commerce, Zhejiang Gongshang University, Hangzhou 310018
2Center for Studies of Modern Business, Hangzhou 310000
3School of Business Administration,, Zhejiang Gongshang University, Hangzhou 310018
Abstract: [Purpose/significance] The sentiment classification is still one of the cross-cutting issues needed to focused on. [Method/process] With the help of emotion unrelated words, by the spectral clustering algorithm, the authors constructed a cross-domain feature words emotion cluster in the source and target areas of the field. The position of the features and characteristics of emotional words, keyword features, and POS features were integrated into the logic of the regression classification algorithm to achieve a cross-cutting emotion classification algorithm based on the multi-feature fusion. [Result/conclusion] Research results show that CDFF (Cross-domain pulse Four Factors) algorithm is effective when the cross-domain user emotion is classified and its provide reference for same study.
Keywords: cross-domain sentiment classification multi-feature fusion spectral clustering transfer learning
知識(shí)管理論壇2016年6期