徐 旭, 胡學(xué)鋼, 張玉紅
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
?
一種快速的基于特征選擇的跨領(lǐng)域情感分類方法
徐旭,胡學(xué)鋼,張玉紅
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥230009)
摘要:已有的跨領(lǐng)域情感分類方法多通過(guò)抽取公共特征空間或建立領(lǐng)域特定特征間的映射關(guān)系來(lái)消減領(lǐng)域間的差異性,由于不考慮特征情感區(qū)分力的差異,使得公共特征空間及特征映射的求解往往不準(zhǔn)確。具有高區(qū)分力的特征對(duì)于文本情感分類具有重要的意義,但標(biāo)記的缺失使得已有的特征選擇方法難以應(yīng)用。文章基于特征選擇方法,提出一種快速的跨領(lǐng)域情感分類方法(cross-domain sentiment classification based on feature selection,CSFS),構(gòu)建源領(lǐng)域特征與目標(biāo)領(lǐng)域特征的詞共現(xiàn)矩陣,基于該矩陣對(duì)目標(biāo)領(lǐng)域特征的情感區(qū)分力進(jìn)行評(píng)估,在目標(biāo)領(lǐng)域中選擇出其中具有高情感區(qū)分力的特征;再利用源領(lǐng)域信息計(jì)算目標(biāo)領(lǐng)域特征的情感語(yǔ)義大小,從而構(gòu)建目標(biāo)領(lǐng)域分類器。實(shí)驗(yàn)結(jié)果表明,該方法在保證準(zhǔn)確率的前提下,大大提高了跨領(lǐng)域分類的效率。
關(guān)鍵詞:跨領(lǐng)域;特征選擇;情感分類
博客、商品評(píng)論等信息在網(wǎng)絡(luò)上大量涌現(xiàn)及其標(biāo)記信息的相對(duì)缺失使得跨領(lǐng)域情感分類成為一個(gè)重要且富有挑戰(zhàn)性的課題。當(dāng)前的跨領(lǐng)域情感分類方法大多以領(lǐng)域間的差異性為切入點(diǎn)展開(kāi)研究,通過(guò)特征提取構(gòu)建特征公共子空間,使不同領(lǐng)域在該子空間中的分布差異性降到最低。文獻(xiàn)[1-2]通過(guò)構(gòu)建一個(gè)樞紐特征空間解決領(lǐng)域中的特征不匹配問(wèn)題;文獻(xiàn)[3-4]以通用特征為橋梁,構(gòu)建通用特征和特定特征的共現(xiàn)矩陣,在此基礎(chǔ)上采用譜聚類和相似計(jì)算等方法建立領(lǐng)域特定特征間的映射關(guān)系,并利用這種映射關(guān)系將目標(biāo)領(lǐng)域特征擴(kuò)充至源領(lǐng)域,從而使得分類器適應(yīng)于目標(biāo)領(lǐng)域;文獻(xiàn)[5]以解決領(lǐng)域?qū)S性~和減弱領(lǐng)域分布差異性為目的實(shí)現(xiàn)跨領(lǐng)域分類;文獻(xiàn)[6]以通用特征為橋梁,將目標(biāo)領(lǐng)域的預(yù)標(biāo)記實(shí)例加入原始領(lǐng)域迭代訓(xùn)練;文獻(xiàn)[7]將Logistic回歸模型進(jìn)行擴(kuò)展,使原始領(lǐng)域訓(xùn)練的分類器適用于目標(biāo)領(lǐng)域。
然而這些方法基于詞頻、互信息選擇通用詞,并未考慮特征在目標(biāo)領(lǐng)域的區(qū)分力,使得共現(xiàn)矩陣中存在部分冗余和不相關(guān)的共現(xiàn)關(guān)系,導(dǎo)致特征映射關(guān)系求解結(jié)果不準(zhǔn)確。這在情感分類中尤為突出。如特征“good”、“excellent”,對(duì)文本的情感極性具有決定性的作用,而“said”并不具有很強(qiáng)的區(qū)分力,基于這些特征進(jìn)行公共特征空間求解和分類,往往導(dǎo)致部分不相關(guān)的特征共現(xiàn)關(guān)系和跨領(lǐng)域分類精度的降低。文獻(xiàn)[8-9]認(rèn)為形容詞相比于名詞更具情感區(qū)分力,但僅以詞性來(lái)區(qū)分,沒(méi)有考慮單個(gè)特征之間的差異性。文獻(xiàn)[10]提出一種特征加權(quán)實(shí)現(xiàn)源領(lǐng)域向目標(biāo)領(lǐng)域的投影。文獻(xiàn)[11]通過(guò)減弱差異大的特征、增強(qiáng)表現(xiàn)一致特征的方法,將2個(gè)領(lǐng)域關(guān)聯(lián)在一起。然而,這些方法以領(lǐng)域的差異性為目標(biāo)對(duì)特征進(jìn)行選擇或加權(quán),而忽視了特征本身的區(qū)分力。
由于目標(biāo)領(lǐng)域數(shù)據(jù)無(wú)標(biāo)記,采用傳統(tǒng)的特征選擇方法如信息熵、互信息(mutual information,MI)、優(yōu)勢(shì)比(odds ratio,OR)等難以直接在目標(biāo)領(lǐng)域中進(jìn)行特征選擇[12-13]。為此,本文提出一種基于特征選擇的跨領(lǐng)域情感分類方法(cross-domain sentiment classification based on feature selection,CSFS)。該方法利用源領(lǐng)域信息對(duì)目標(biāo)領(lǐng)域特征進(jìn)行評(píng)估,選擇出目標(biāo)領(lǐng)域中具有較高情感區(qū)分力的特征,并借助源領(lǐng)域計(jì)算目標(biāo)領(lǐng)域特征的情感語(yǔ)義,從而構(gòu)建目標(biāo)領(lǐng)域分類器。
1CSFS方法介紹
本文利用源領(lǐng)域特征FS對(duì)目標(biāo)領(lǐng)域特征FT的區(qū)分力進(jìn)行評(píng)估,并以此作為特征選擇的依據(jù)。
在標(biāo)記數(shù)據(jù)中,MI、OR、分類比例差(proportional difference,PD)等方法可用來(lái)計(jì)算特征的區(qū)分力,文獻(xiàn)[14]認(rèn)為在文本分類中PD方法要優(yōu)于其他方法。本文考慮到取值范圍和正負(fù)向傾向值的對(duì)應(yīng)性,采用PD表示特征的情感語(yǔ)義值,具體計(jì)算公式為:
(1)
其中,hS+(f)和hS-(f)分別表示特征詞f在領(lǐng)域DS中正向和負(fù)向文本中出現(xiàn)的概率。
PD的取值范圍為[-1,1],正值表示特征傾向于正向情感,負(fù)值表示特征傾向于負(fù)向情感,絕對(duì)值越大表示其與該方向情感相關(guān)度越大。PD可用于衡量特征的情感區(qū)分力,在二類情感分類問(wèn)題中,也可表示情感語(yǔ)義值。
根據(jù)源領(lǐng)域的特征FS′對(duì)目標(biāo)領(lǐng)域特征的區(qū)分力進(jìn)行評(píng)估,FS′的計(jì)算公式如下:
(2)
如果某特征與正語(yǔ)義特征和負(fù)語(yǔ)義特征的相似性差異越大,則其區(qū)分力也越大。目標(biāo)領(lǐng)域特征fT的區(qū)分力定義為:
(3)
(4)
盡管特征選擇方法對(duì)目標(biāo)領(lǐng)域特征的區(qū)分力進(jìn)行了評(píng)估,然而領(lǐng)域差異性在一定程度上影響了評(píng)估結(jié)果的準(zhǔn)確性。為此,本文通過(guò)綜合考慮特征在2個(gè)領(lǐng)域的區(qū)分力來(lái)進(jìn)行特征選擇,強(qiáng)化在2個(gè)領(lǐng)域分類表現(xiàn)一致的特征,減弱不一致的特征,從而消減部分領(lǐng)域敏感特征在跨領(lǐng)域分類時(shí)的影響。特征最終的評(píng)估公式為:
(5)
表1所列為books領(lǐng)域到kitchen領(lǐng)域的部分特征選擇示例。對(duì)于eT(fT)、pS(fT)表現(xiàn)一致的特征,通過(guò)相加后,其絕對(duì)值與eT(fT)相比變大,排序上升;而表現(xiàn)不一致的特征恰恰相反。表1中,特征annoying的排序靠前,而特征said-i的排序靠后,這與詞語(yǔ)在分類中的實(shí)際情況相符。
表1 特征選擇示例
(6)
CSFS方法如下:
輸入:源領(lǐng)域DS,目標(biāo)領(lǐng)域DT,參數(shù)α、k。
輸出:目標(biāo)領(lǐng)域分類器C。
(1) 提取特征。
(2) 依據(jù)(3)式評(píng)估目標(biāo)領(lǐng)域特征的情感區(qū)分力eT(fT)。
(5) 根據(jù)(6)式建立目標(biāo)領(lǐng)域分類器。
2實(shí)驗(yàn)結(jié)果與分析
本文采用的跨領(lǐng)域數(shù)據(jù)集[2]被廣泛用于跨領(lǐng)域情感文本分類中,包含亞馬遜4個(gè)領(lǐng)域產(chǎn)品評(píng)價(jià):books(B)、dvd(D)、electronics(E)、kitchen(K)。每個(gè)領(lǐng)域有1 000個(gè)正類和1 000個(gè)負(fù)類。在該數(shù)據(jù)集上可構(gòu)造D→B、E→B等12個(gè)跨領(lǐng)域情感分類任務(wù),前面的字母代表源領(lǐng)域,后面的字母代表目標(biāo)領(lǐng)域。為了說(shuō)明CSFS方法的有效性,本文采用如下4個(gè)基準(zhǔn)方法進(jìn)行對(duì)比。
(1) NoTrans:在源領(lǐng)域訓(xùn)練分類器,直接用于目標(biāo)領(lǐng)域分類。
(2) LLRTF:該方法選取在源領(lǐng)域極性強(qiáng)的并且在目標(biāo)領(lǐng)域出現(xiàn)頻率大的特征。
(3) SCL-MI:利用MI構(gòu)建樞紐特征,并利用樞紐特征構(gòu)建2個(gè)領(lǐng)域特征間的映射關(guān)系。
(4) SFA:基于共現(xiàn)關(guān)系構(gòu)建領(lǐng)域特定詞和通用詞的二分圖,在二分圖上進(jìn)行譜聚類得出特征簇,從而得到了特征簇內(nèi)的特征間的對(duì)應(yīng)關(guān)系。
本文參數(shù)主要有初始特征FS′的語(yǔ)義門(mén)檻α和最終選取的特征數(shù)目k。為了簡(jiǎn)明起見(jiàn),以12個(gè)跨領(lǐng)域遷移實(shí)驗(yàn)的平均結(jié)果為標(biāo)準(zhǔn),展示實(shí)驗(yàn)結(jié)果與參數(shù)的相關(guān)關(guān)系。無(wú)遷移和遷移方法分類精度隨α參數(shù)的變化情況如圖1所示,從圖1可以看出α值為0.2~0.6為宜。α值太大則選取的特征數(shù)目過(guò)少,α值太小則會(huì)包含一些區(qū)分力不強(qiáng)的特征,2種情況都會(huì)影響實(shí)驗(yàn)的結(jié)果。
圖1 參數(shù)α對(duì)分類精度影響
圖2 參數(shù)k對(duì)分類精度的影響
本文CSFS方法中涉及特征情感語(yǔ)義計(jì)算和特征相似度計(jì)算。為驗(yàn)證該方法的通用性,將特征情感語(yǔ)義計(jì)算方法擴(kuò)展為OR,特征相似度的計(jì)算擴(kuò)展為點(diǎn)互信息(point mutual information,PMI),如圖3所示。圖3中的分類精度為D→B,E→B等12個(gè)任務(wù)的平均精度,SIM-PD-Dall表示基于DS∪DT文檔集用sim計(jì)算特征相似性,用PD計(jì)算情感語(yǔ)義值;PMI-PD-DT為基于DT文檔集用PMI計(jì)算特征相似性,用PD計(jì)算語(yǔ)義值。其他方法說(shuō)明類似。由圖3可見(jiàn),基于Dall計(jì)算相似度結(jié)果低于其他基于DT的方法,由此可見(jiàn),僅在目標(biāo)數(shù)據(jù)上進(jìn)行相似度計(jì)算使得計(jì)算結(jié)果更符合目標(biāo)領(lǐng)域數(shù)據(jù)分布;相同數(shù)據(jù)集上,采用PMI和SIM計(jì)算特征相似度對(duì)方法影響不大,同樣采用OR和PD計(jì)算語(yǔ)義大小其結(jié)果也相當(dāng),說(shuō)明CSFS方法具有一定的穩(wěn)定性和擴(kuò)展性。
圖3 方法擴(kuò)展性驗(yàn)證
CSFS方法與其他跨領(lǐng)域方法的分類精度對(duì)比結(jié)果見(jiàn)表2所列,CSFS方法的分類精度為SIM-PD-DT的實(shí)驗(yàn)結(jié)果。從表2可見(jiàn),CSFS方法總體上優(yōu)于其他方法。這是由于SFA和SCL在特征求解過(guò)程中均未考慮特征的區(qū)分力,選取的共現(xiàn)特征存在部分與分類無(wú)關(guān)的特征,從而影響求解結(jié)果。而CSFS方法通過(guò)特征選擇篩除了無(wú)關(guān)特征,僅保留了具有較高區(qū)分力的特征,從而提高了分類精度。
表2 各跨領(lǐng)域情感分類方法精度對(duì)比
由表2可知,僅在B→D和K→E任務(wù)上,SFA和SCL具有一定的優(yōu)勢(shì),尤其是B→D任務(wù)上。其原因主要是由于B和D的領(lǐng)域差異較大,共現(xiàn)特征較少,導(dǎo)致共現(xiàn)矩陣較為稀疏,造成統(tǒng)計(jì)過(guò)程中的偏差,這將作為進(jìn)一步工作的重點(diǎn)。
各跨領(lǐng)域分類方法的時(shí)間開(kāi)銷對(duì)比見(jiàn)表3所列。由于SFA實(shí)驗(yàn)平臺(tái)不同,故沒(méi)有給出其運(yùn)行時(shí)間。假設(shè)通用特征和特定特征個(gè)數(shù)分別為m和n,一般來(lái)說(shuō),SCL-MI和SFA需要對(duì)m×n階矩陣進(jìn)行奇異值分解和譜聚類,其方法的時(shí)間復(fù)雜度在串行環(huán)境下大約為O(n3)[15]。CSFS和LLRTF屬于特征選擇方法,其時(shí)間復(fù)雜度主要在特征排序上,約為O(nlbn),所需時(shí)間較短。兩者分別需要對(duì)每一個(gè)特征求對(duì)數(shù)似然比和評(píng)估特征區(qū)分力,但由于CSFS方法采用特征選擇方法,特征數(shù)目逐級(jí)降低,且只使用目標(biāo)領(lǐng)域數(shù)據(jù)來(lái)計(jì)算特征相似度,數(shù)據(jù)規(guī)模較小,因此在時(shí)間效率上優(yōu)于其他方法。
表3 各方法的時(shí)間性能對(duì)比 s
3結(jié)束語(yǔ)
具有較高情感區(qū)分力的特征對(duì)情感分類有重要的影響,因此,本文提出一種特征選擇的跨領(lǐng)域情感分類方法,利用源領(lǐng)域信息對(duì)目標(biāo)領(lǐng)域特征進(jìn)行評(píng)估和選擇,從中選取區(qū)分力較大的特征,并過(guò)濾其中不適用于目標(biāo)領(lǐng)域的特征,利用源領(lǐng)域信息計(jì)算特征的語(yǔ)義值來(lái)構(gòu)建目標(biāo)領(lǐng)域分類器。本文以特征為表示主體,直接進(jìn)行特征的選擇和標(biāo)記,具有較好的效率和分類精度。由于本文方法中的特征相似性是由貢獻(xiàn)比例計(jì)算所得,因此該方法實(shí)際上具有隱含的假設(shè),即訓(xùn)練數(shù)據(jù)正負(fù)文本要大致保持平衡。
[參考文獻(xiàn)]
[1]Blitzer J,McDonald R,Pereira F.Domain adaptation with structural correspondence learning[C]//Proceedings of Empirical Methods in Natural Language Processing.Sydney,Australia,2006:120-128.
[2]Blitzer J,Dredze M,Pereira F.Biographies,Bollywood,boom-boxes and blenders domain adaptation for sentiment classification[C]//Proceedings of the 45th Association for Computational Linguistics,Prague Czech Republic,2007:440-447.
[3]Pan S J,Ni X C,Sun J T,et al.Cross-domain sentiment classification via spectral feature alignment[C]//Proceedings of the 19th International World Wide Web Conference.Raleigh,North Carolina,USA:ACM,2010:751-760.
[4]Bollegala D,Weir D,Carroll J.Cross-domain sentiment classification using a sentiment sensitive thesaurus[J].IEEE Transactions on Knowledge and Data Engineering,2013,25(8):1719-1731.
[5]Liu K,Zhao J.Cross-domain sentiment classification using a two-stage method[C]//Proceedings of the 18th ACM conference on Information and Knowledge Management,Hong Kong,China,2009:1717-1720.
[6]歐倩倩,張玉紅,胡學(xué)鋼.基于實(shí)例重構(gòu)的多領(lǐng)域快速適應(yīng)方法[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2014,37(7):794-797,844.
[7]胡學(xué)鋼,方玉成,張玉紅.基于Logistic回歸分析的直推式遷移學(xué)習(xí)[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2010,33(12):1797-1801,1810.
[8]Xia R,Zong C Q.A pos-based ensemble model for cross-domain sentiment classification[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing,Chiang Mai,Thailand,2011:614-622.
[9]Shi Y,Sha F.Information-theoretical learning of discriminative clusters for unsupervised domain adaptation[C]//Proceedings of the 29th International Conference on Machine Learning,Edinburgh,Scotland,UK,2012:1079-1086.
[10]Arnold A,Nallapati R,Cohen W.A comparative study of methods for transductive transfer learning[C]//Proceedings of the Seventh IEEE International Conference on Data Mining Workshops,Washington,DC,USA,2007:77-82.
[11]Satpal S,Sarawagi S.Domain adaptation of Conditional probability models via feature subsetting[C]//Proceedings of the 11th European Conference on Principles and Practice of Knowledge Discovery in Databases.Berlin:Springer-Verlag,2007:224-235.
[12]Whitehead M,Yaeger L.Building a general purpose cross-domain sentiment mining model[C]//Proceedings of the Computer Science and Information Engineering,Los Angeles,CA,2009:472-476.
[13]Church K,Hanks P.Word association norms,mutual information and lexicography[J].Computational Linguistics,1990,16(1):22-29.
[14]Simeon M,Hilderman R.Categorical proportional difference:a feature selection method for text categorization[C]//The Australasian Data Mining Conference,2008:201-208.
[15]王玲,薄列峰,焦李成.密度敏感的譜聚類[J].電子學(xué)報(bào),2007,35(8):1577-1581.
(責(zé)任編輯閆杏麗)
齊美彬(1969-),男,安徽東至人,博士,合肥工業(yè)大學(xué)教授,碩士生導(dǎo)師.
A fast cross-domain sentiment classification based on feature selection
XU Xu,HU Xue-gang,ZHANG Yu-hong
(School of Computer and Information, Hefei University of Technology, Hefei 230009, China)
Abstract:Many existing cross-domain sentiment classification methods reduce the distribution difference between domains by extracting a common sub-space or establishing the mapping relationship between domain specific features, and do not consider the difference of features’ sentiment orientation. Some features with lower sentiment orientation will influence the result of sub-space and mapping relationship. Features with higher sentiment orientation are important for sentiment classification. However, it is difficult to apply existing feature selection methods on unlabeled data. In this paper, a fast cross-domain sentiment classification based on feature selection(CSFS) is proposed. Firstly, the word co-occurrence matrix between the source features and target features is constructed, the sentiment orientation of target domain features is evaluated, and then words with higher sentiment orientation are selected as the feature space of target domain. Secondly, the features in target domain are labeled using the source features, and then a classifier is created based on the labeled features. The empirical result shows that CSFS highly improves the time efficiency of cross-domain classification while maintaining the classification accuracy.
Key words:cross-domain; feature selection; sentiment classification
doi:10.3969/j.issn.1003-5060.2015.11.011
作者簡(jiǎn)介:侯建民(1988-),男,山西大同人,合肥工業(yè)大學(xué)碩士生;
基金項(xiàng)目:國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)資助項(xiàng)目(2011AA7054019)
收稿日期:2014-11-13;修回日期:2015-01-16
中圖分類號(hào):TP181
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003-5060(2015)11-1488-05
合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版)2015年11期