国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向短文本的跨領域情感分類算法

2018-07-04 13:28李鼎宇胡學鋼
小型微型計算機系統(tǒng) 2018年5期
關鍵詞:極性短文聚類

李鼎宇,胡學鋼

(合肥工業(yè)大學 計算機與信息學院,合肥 230009)

1 引 言

短文本[15-18]數(shù)據(jù)的最大特點就是文本篇幅簡短,通常在50詞以內,包含的有效信息較少、特征稀疏且上下文依賴性強.雖然目前很多成功的情感分類技術[1,2]被提出,但都是針對長文本數(shù)據(jù)集的,直接用于短文本的分類效果并不理想.傳統(tǒng)的情感分類要求源領域和目標領域屬于同一領域且數(shù)據(jù)分布一致,而在實際應用中此假設難以成立.直接利用某一領域數(shù)據(jù)訓練的分類器對不同領域的數(shù)據(jù)進行分類預測,由于領域之間數(shù)據(jù)的差異會使其分類精度降低.而重新對測試集進行大量標記,耗時費力且易出錯.標記信息的缺失使得跨領域情感分類[9-12]成為一種有效的解決方法,同時也可稱為遷移學習[3-5].

隨著移動互聯(lián)的發(fā)展,情感數(shù)據(jù)以短文本的形式呈現(xiàn)不斷增長,且數(shù)據(jù)只有少量是標記的.面向短文本的跨領域情感分類成為一個新的而具有挑戰(zhàn)的課題.然而,短文本數(shù)據(jù)在跨領域情感分類技術上存在一些難題:

1)短小而特征稀疏的數(shù)據(jù)特點:采用傳統(tǒng)的詞袋模型進行文本數(shù)據(jù)的特征表示時,特征稀疏性問題嚴重,使得其分類性能顯著下降;

2)短文本中的多詞同義和共現(xiàn)關系的缺少給跨領域情感分類帶來挑戰(zhàn),主要表現(xiàn)在相同情感傾向的多種詞匯表達會使短文本中特征的極性不顯著,同時降低了作為領域間橋梁的共享特征和特有特征的共現(xiàn)頻率,加大了領域間遷移的難度.

因此,本文提出一種面向短文本的跨領域情感分類算法.該算法基于譜圖理論[6]、領域共享特征和特有特征的共現(xiàn)關系,利用譜聚類[7,8]依次對領域共享特征、特有特征進行聚類,根據(jù)所得的聚類信息進行特征擴展,特征擴展有效地降低了短文本的特征稀疏性,而源和目標領域的特有特征擴展可以減小領域間數(shù)據(jù)分布的差異,提升分類效果.大量實驗表明:與同類算法相比,該算法可以有效提高跨領域短文本的情感分類準確率.

2 相關工作

目前,跨領域情感分類算法主要分為三類:基于特征的跨領域情感分類、基于主題模型的跨領域情感分類和基于極性的跨域情感分類.本文算法屬于基于特征的跨領域情感分類.

2.1 基于特征的跨領域情感分類

基于特征的跨領域情感分類是該領域內的重要模型之一,主要通過特征映射的方式實現(xiàn)知識遷移.代表工作包括:Blitzer[9]等人提出SCL算法通過對輔助任務聯(lián)合學習得到一個潛在特征空間,將不同領域的特征映射到該特征空間中減小領域間的差異從而進行分類.該算法非常依賴于這一潛在空間的質量,輔助學習任務的數(shù)量和質量,局限性顯著.在此基礎上,Pan[11]等人提出SFA算法以領域無關特征作為橋梁通過譜聚類將源和目標領域的獨有特征映射起來,以此降低領域間特征分布的差異.Zhang[12]等人針對特征的一詞多義和多詞同義問題提出一種特征極性遷移算法TPF,以共享特征為橋梁,將原始領域中的特征極性通過該橋梁傳遞至目標領域,達到跨領域情感分類的目的,該算法一定程度上解決了特征極性的歧義問題.然而,上述的算法都是基于原始的特征空間實現(xiàn)知識遷移,容易出現(xiàn)特征稀疏問題且未考慮應用短文本數(shù)據(jù),短文本的固有特點使得上述SCL,SFA和TPF中特征間的共現(xiàn)相對較少.同時,也會對領域間的知識遷移造成困難,降低算法的精度.

2.2 譜聚類

圖論中的譜圖理論已被廣泛應用于降維和聚類分析等難題.在譜圖理論中,主要有兩種觀點:

1)若圖中的兩個點連接到許多公共點,它們應該是非常相似的(或相當相關);

2)復雜的圖形背后隱藏一個低維潛在空間.

其中,兩個點彼此相似,那么在原始圖中也是類似的.以上的觀點對跨領域情感分類中特征間的共現(xiàn)關系同樣成立,本文將在下一節(jié)詳細介紹.譜聚類算法建立在譜圖理論基礎上,其本質是將聚類問題轉化為圖的最優(yōu)劃分問題,是一種點對聚類算法.該算法首先根據(jù)給定的樣本數(shù)據(jù)集定義一個描述成對數(shù)據(jù)點的相似矩陣,并計算矩陣的特征向量,然后選擇合適的特征向量聚類不同的數(shù)據(jù)點.譜聚類算法具有堅實的理論基礎,并且在很多領域取得了成功應用.

3 面向短文本的跨領域情感分類

表1 常用符號及其含義Table 1 Common symbols and their meanings

該算法分為3個步驟:

1)在原始數(shù)據(jù)集上,對領域共享特征進行譜聚類,得到共享特征聚類簇.遍歷數(shù)據(jù)集,對每一個實例的共享特征進行擴展;

2)在共享特征擴展后的數(shù)據(jù)集上,基于特征的共現(xiàn)關系對特有特征進行譜聚類特征擴展;

3)在擴展后新的特征空間,構建分類器,實現(xiàn)跨領域情感分類.

3.1 領域共享特征選擇

首先,需要選擇源和目標領域的共享特征.如上文所述,領域共享特征在源和目標領域都高頻率出現(xiàn)且具有較強的情感極性.在SFA中基于詞頻和互信息列舉了3種特征選擇方法,3種特征選擇方法在分類任務中各有優(yōu)勢,然而并沒有較大的差異.本文先基于詞頻選取源領域和目標領域都至少出現(xiàn)k次的候選共享特征集,與SFA的特征選擇方法1相同,保證候選共享特征在兩個領域都具有較高的詞頻,然后用OR選取候選共享特征集中情感極性較強的特征作為領域共享特征,去除部分弱極性的特征.篩選后的領域共享特征與特有特征可以形成更簡潔的共現(xiàn)關系.因此,選擇領域共享特征如公式(1)所示.

ΦDI={DIi‖OR(DIi)>ε}

(1)

OR(DIi)=log(pipos(1-pineg)/pineg(1-pipos))

其中,ε表示能夠在候選集中選擇l個領域共享特征的最大值,pipos和pineg分別表示候選共享特征DIi在源領域正類和負類中出現(xiàn)的概率.

3.2 基于特征共現(xiàn)的譜聚類

基于上節(jié)所述,對于已經(jīng)選定的領域共享特征和領域特有特征,可以構建圖G=(VDS∪VDI∪VDT,E).在圖G中,VDS的一個點對應源領域的一個特有特征,VDT的一個點對應目標領域的一個特有特征,VDI的一個點對應一個領域共享特征.此外,在E中的每一條邊eij都有一個相關的非負權值mij,mij的值對應著共享特征DIi和特有特征DSj的共現(xiàn)次數(shù).本文以MetaShare上的restaurant和laptops領域的簡單例子說明,由圖1可知,在三分圖G中,領域的特有特征和共享特征的內在聯(lián)系符合上述的譜圖理論,而領域間數(shù)據(jù)分布的差異主要在于領域特有特征的不同.

圖1 領域共享和特有特征關系三分圖Fig.1 Tripartite graph of domain independent and specific features

本文認為,在基于特征共現(xiàn)的譜聚類中:

1)如果兩個領域的特有特征和許多共同的領域共享特征共現(xiàn),那么它們可能非常相關并被劃分到相同類中;

2)譜聚類可以找到特征的一個更簡潔和有意義的表示,減少兩個領域的差異.如圖1所示:特征never_work,still_wait有共同的特征hate,worst;類似的,特征very_light,delicious有共同的特征great,satisfied.因此,基于特征共現(xiàn),特有特征never_work,still_wait可能極性相似并被劃分到相同類中.同樣,對very_light,delicious也成立.上述源和目標領域間特有特征的對齊,減小了領域間特有特征的不同.特征擴展可以有效降低文本的特征稀疏性,領域共享特征的擴展增強了文本的情感極性且提高了領域共享和特有特征的共現(xiàn)次數(shù),有利于下一步的特有特征擴展.而基于特征共現(xiàn)的特有特征擴展,降低了領域間數(shù)據(jù)分布的差異.

進而,本文將說明在跨領域情感分類上如何對領域的特征聚類.首先,對領域共享特征進行譜聚類[5,6],因為在原始的數(shù)據(jù)集上,特征間的共現(xiàn)次數(shù)較少,不足以基于特征共現(xiàn)對共享特征進行譜聚類,而共享特征經(jīng)常組合出現(xiàn)且都具有較高的詞頻,使其更適合基于自身進行譜聚類特征擴展.共享特征的特征擴展增加了源和目標領域特有特征和共享特征的共現(xiàn)次數(shù).因此,可依據(jù)共享特征和特有特征的共現(xiàn)對特有特征進行譜聚類特征擴展.基于特征共現(xiàn)的譜聚類算法,具體如下:

1.構建權重矩陣M∈R(m-l)×l,其中Mij對應領域特有特征DSi和領域共享特征DIj的共現(xiàn)次數(shù);

3.構建一個對角線矩陣:D,其中Dii=∑jAij,計算矩陣L=D-1/2AD-1/2;

4.找出L的k個最大特征向量,u1,u2,…,uk,選擇前m-l行構建矩陣U=[u1,u2…uk]∈R(m-l)×k;

6.利用K-means聚類算法對U進行聚類,將m-l個領域特有特征聚成k類.

3.3 領域共享特征和特有特征的特征擴展

從短文本自身的稀疏性出發(fā),基于上述得到的聚類信息,對領域共享和特有特征進行特征擴展,可以有效提高跨領域短文本的情感分類準確率.但是,在實驗中完全正確地選擇共享特征和基于特征的共現(xiàn)實現(xiàn)譜聚類特征擴展是不現(xiàn)實的.因此,本文算法的特征擴展權重計算采用均值法,如公式(2)所示:

(2)

其中,nclu為每個類中的特征數(shù)目,wi,wj是同一類中的特征,p(wi)和p(wj)是特征的權重.最后,本文提出的算法框架如下:

算法:面向短文本的跨領域情感分類算法

輸出:分類器f:X→Y

2.基于ΦDI構建領域共享特征的權重矩陣M∈Rl×l,其中Mij對應領域共享特征DIi和共享特征DIj的共現(xiàn)次數(shù);

4.依據(jù)領域共享特征的聚類簇,對源和目標領域進行共享特征的特征擴展;

5.基于ΦDI和ΦDS構建領域特有特征的權重矩陣M∈R(m-l)×l,其中Mij對應領域特有特征DSi和領域共享特征DIj的共現(xiàn)次數(shù);

7.依據(jù)領域特有特征的聚類簇,對源和目標領域進行特有特征的特征擴展;

4 實驗結果與分析

4.1 實驗數(shù)據(jù)集

本文的實驗數(shù)據(jù):短文本數(shù)據(jù)集MetaShare*http://metashare.ilsp.gr:8080/repository/search和文[11,12]中的亞馬遜數(shù)據(jù)集RevDat.數(shù)據(jù)集MetaShare來自國外的數(shù)據(jù)交流共享平臺Meta-Share,包括laptop(L)、movies(M)和 restaurant(R)三個不同領域的評論,每個領域有1000個正類和1000個負類.在該數(shù)據(jù)集上可以構建L->M,L->R等6個跨領域情感分類任務,前面的字母代表源領域,后面的字母代表目標領域.數(shù)據(jù)集RevDat被廣泛用于跨領域情感分類中,包括四種不同類型的產(chǎn)品評論:Books(B),DVDS(D),Electronics(E)和 Kitchen (K).每個領域有1000個正類和1000個負類.在該數(shù)據(jù)集上可以構建12個跨領域情感分類任務.

借鑒文[13,14]的短文本數(shù)據(jù)預處理方法,本文所使用的短文本數(shù)據(jù)集,都進行了Bi-gram處理,采用詞袋模型并在分類前對每一個實例標準化.關于實驗數(shù)據(jù)集的具體描述見表2.

表2 數(shù)據(jù)集RevDat和MetaShare說明Table 2 Dataset description:RevDat and MetaShare

為了說明本文算法的有效性,本文采用如下的基準算法進行對比.

1)NoTransf:源領域訓練的分類器,直接用于目標領域分類.

2)SCL:構建樞紐特征,并利用樞紐特征構建2個領域特征間的映射關系.

3)SFA:基于特征的共現(xiàn)關系,通過譜聚類將源和目標領域的領域獨有特征映射起來,以此降低領域間特征分布的差異.

4)TPF:以共享特征為橋梁,將原始領域中的特征極性通過該橋梁傳遞至目標領域,使目標領域專有特征具有極性標注,從而進行分類.

4.2 參數(shù)討論

下面我們討論本文參數(shù)的最優(yōu)值,領域共享特征的數(shù)目m,領域共享特征和領域特有特征的譜聚類參數(shù)kDI,kDS,為了簡明起見,圖中的分類精度以數(shù)據(jù)集MetaShare上的所有情感分類任務為標準,展示實驗結果和參數(shù)的相關關系.領域共享特征數(shù)目m在算法中是一個重要參數(shù),我們固定kDI=0.4,kDS=0.5,給出在不同m下的分類任務的精度.由圖2可知:領域共享特征的最優(yōu)值m在[250,350]時,分類任務達到最好的精度,m過小,則容易導致共現(xiàn)矩陣稀疏;m過大,則領域共享特征情感傾向不強.因此,本文將m設為300.

圖2 不同共享特征數(shù)目下的分類精度Fig.2 Accuracy of varying with the number of independent features

圖3 不同共享特征聚類比例下的分類精度Fig.3 Accuracy of varying with clustering proportion of independent features

圖4 不同特有特征聚類比例的分類精度對比Fig.4 Accuracy of varying with clustering proportion of specific features

kDI,kDS是關于領域共享特征和領域特有特征的譜聚類比例參數(shù),它們的取值范圍是(0,1).固定m=300,kDS=0.5,分類任務的精度隨參數(shù)kDI的變化情況如圖3所示:當kDI在0.4左右,實驗效果最好.最后,圖4給出分類任務的精度隨參數(shù)kDS的變化情況,其中m=300,kDI=0.4,當kDS在0.5左右,實驗效果最好.

4.3 跨領域情感分類精度對比

為了證明本文算法的有效性,將本文的算法與基準算法分別在數(shù)據(jù)集MetaShare和數(shù)據(jù)集RevDat上進行對比.圖5是在MetaShare上的各算法的實驗精度對比.從實驗結果可知:本文算法在MetaShare上分類精度相對其他基準算法有2%-4% 的提升.分析原因如下:Notransf,SCL,SFA和TPF算法都是基于特征層面,容易受文本稀疏性影響.而TPF在一定程度上解決了源領域和目標領域的特征極性分歧問題,在若干分類任務中要優(yōu)于SFA算法,但TPF對領域間特有特征的極性遷移同樣依賴于特征間的共現(xiàn)關系.與TPF算法相比,本文算法對領域特征間的共現(xiàn)關系進行了分析,并通過特征擴展提高特征間的共現(xiàn)次數(shù),減少了領域間數(shù)據(jù)分布的差異,在一定程度上解決了短文本的稀疏性,在短文本分類精度上具有很大的優(yōu)勢.

圖5 MetaShare上分類精度對比Fig.5 Comparison results on MetaShare

圖6 目標領域為D或B時分類精度對比Fig.6 Comparison results when target domain is D/B

圖7 目標領域為E或K時分類精度對比Fig.7 Comparison results when target domain is E/K

圖6和圖7是在亞馬遜數(shù)據(jù)集RevDat上各算法的實驗精度對比,與SFA一致,領域共享特征數(shù)m=500,共享和特有特征的譜聚類輸入?yún)?shù)分別為kDI=0.4,kDS=0.5.對于所有的基準算法,參數(shù)設置以算法最優(yōu)為準.由實驗結果可知:本文所提算法在其中的6個任務都優(yōu)于基準算法,這是因為在長文本中同樣也存在數(shù)據(jù)稀疏的問題,而本文所提算法可以有效地降低文本特征的稀疏性.與SFA相比,本文算法的精度在B->D,D->K和E->K三個任務中低于SFA,其主要原因是領域間的特征共現(xiàn)次數(shù)充分,不需要過多的特征擴展.與TPF相比,本文算法的精度在 K->D,K->B,D->E和D->K四個任務中低于TPF,其主要原因是在這些任務中,領域間的特有特征存在較多的極性分歧問題.

5 總 結

本文基于譜圖理論提出一種在短文本上的跨領域情感分類算法.該算法利用領域共享特征和特有特征的共現(xiàn)關系進行譜聚類特征擴展,彌補短文本的特征稀疏性,降低了域間數(shù)據(jù)分布的差異,從而提升跨領域情感分類在短文本上的適應性和效果.大量實驗表明:本文提出的算法分類效果優(yōu)于基準算法.

然而本文僅考慮了短文本情感數(shù)據(jù),未來的工作可從以下幾點展開:

1)除了情感數(shù)據(jù),目前還有很多其他類型的短文本數(shù)據(jù),如可在短文本上進行主題模型遷移學習;

2)在針對短文本數(shù)據(jù)特征稀疏性的同時,解決跨領域特有特征的極性分歧問題.

[1] Pang B,Lee L.Opinion mining and sentiment analysis [J].Foundations and Trends?in Information Retrieval,2008,2(1-2):1-135.

[2] Liu B,Zhang L.A survey of opinion mining and sentiment analysis [M].Mining Text Data,Springer US,2012:415-463.

[3] Bahadori M T,Liu Y,Zhang D.A general framework for scalable transductive transfer learning [J].Knowledge and Information Systems,2014,38(1):61-83.

[4] Pan S J,Yang Q.A survey on transfer learning [J].IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.

[5] Weiss K R,Khoshgoftaar T M.An investigation of transfer learning and traditional machine learning algorithms [C].Tools with Artificial Intelligence (ICTAI),2016 IEEE 28th International Conference on IEEE,2016:283-290.

[6] Chung F R K.Spectral graph theory [M].American Mathematical Soc,1997.

[7] Ng A Y,Jordan M I,Weiss Y.On spectral clustering:analysis and an algorithm [C].Advances in Nural Information Processing Systems (NIPS),2001,14(2):849-856.

[8] Von Luxburg U.A tutorial on spectral clustering [J].Statistics and Computing,2007,17(4):395-416.

[9] Blitzer J,McDonald R,Pereira F.Domain adaptation with structural correspondence learning [C].Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2006:120-128.

[10] Blitzer J,Dredze M,Pereira F.Biographies,bollywood,boom-boxes and blenders:domain adaptation for sentiment classification [C].Association of Computational Linguistics (ACL),2007,7:440-447.

[11] Pan S J,Ni X,Sun J T,et al.Cross-domain sentiment classification via spectral feature Alignment [C].Proceedings of the 19th International Conference on World Wide Web,ACM,2010:751-760.

[12] Zhang Y,Hu X,Li P,et al.Cross-domain sentiment classification - feature divergence,polarity divergence or both? [J].Pattern Recognition Letters,2015,65:44-50.

[13] Thelwall M,Buckley K,Paltoglou G,et al.Sentiment strength detection in short informal text[J].Journal of the American Society for Information Science and Technology,2010,61(12):2544-2558.

[14] Wang S,Manning C D.Baselines and bigrams:simple,good sentiment and topic classification [C].Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Short Papers-Volume 2,Association for Computational Linguistics,2012:90-94.

[15] Song G,Ye Y,Du X,et al.Short text classification:a survey [J].Journal of Multimedia,2014,9(5):635-643.

[16] Pak A,Paroubek P.Twitter as a corpus for sentiment analysis and opinion mining[J].Springer, New York, NY,DOIhttps://doi.org/10.1007/978-1-4614-6170-8,2010.

[17] Gao L,Zhou S,Guan J.Effectively classifying short texts by structured sparse representation with dictionary filtering [J].Information Sciences,2015,323:130-142.

[18] Wang M,Lin L,Wang F.Improving short text classification through better feature space selection [C].Computational Intelligence and Security (CIS),2013 9th International Conference on.IEEE,2013:120-121.

猜你喜歡
極性短文聚類
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
有機反應極性機理試劑分類的探索
跟蹤導練(四)
KEYS
面向WSN的聚類頭選舉與維護協(xié)議的研究綜述
Keys
改進K均值聚類算法
基于Spark平臺的K-means聚類算法改進及并行化實現(xiàn)
短文改錯
短文改錯