馬 力 李沙沙
(西安郵電大學(xué) 西安 710061)
隨著微博、微信等社交網(wǎng)絡(luò)的興起及迅速普及,社交網(wǎng)絡(luò)成為了人們表達(dá)情感和相互交流的主流方式之一。個(gè)人和組織越來越多地將網(wǎng)絡(luò)上情感觀點(diǎn)信息用于決策,情感分析技術(shù)應(yīng)運(yùn)而生[1]。
微博文本大多簡短,主要依靠詞語級的情感分析得出句子級的情感傾向,特征選擇是文本分類中非常重要的部分。Kim[2]等通過維基百科構(gòu)建擴(kuò)展詞表,將文本表示為概念向量,使用SVM進(jìn)行分類。Wang[3]利用知網(wǎng)確定文本中詞語的上下位關(guān)系,并利用其進(jìn)行特征擴(kuò)展。Meng[4]等將短文本作為查詢串提交給捜索引擎,取前N條返回結(jié)果作為短文本的背景知識,用來增強(qiáng)短文本的表達(dá)。Boyaziz[5]提出先利用LDA模型學(xué)習(xí)維基百科數(shù)據(jù)上的主題及主題在詞語上的分布,用這些擴(kuò)展短文本,再使用隨機(jī)森林對擴(kuò)展特征進(jìn)行選擇。
現(xiàn)有研究大多集中在提取詞匯特征和句法特征,忽略了詞語間的語義關(guān)系。近幾年深度學(xué)習(xí)模型在自然語言處理方面也有很多應(yīng)用[6~7],本文嘗試將深度學(xué)習(xí)工具Word2vec訓(xùn)練得到的詞向量應(yīng)用到傳統(tǒng)的特征選擇過程中,使用大規(guī)模語料訓(xùn)練高質(zhì)量的詞向量,提出一種改進(jìn)的特征選擇算法,結(jié)合實(shí)驗(yàn),所改進(jìn)的算法具有較好的性能。
文本情感分析[8]是指利用文本挖掘技術(shù)和自然語言處理技術(shù),對文本中的情感信息進(jìn)行提取的過程。文本分類大致可以分為訓(xùn)練和測試兩個(gè)階段,文本分類的基本流程如圖1所示。
圖1 文本分類流程圖
語料庫:準(zhǔn)備訓(xùn)練文本和測試文本是文本分類的第一步,本文收集的文本數(shù)據(jù)主要來自于NLP&CC2014中文微博情緒識別評測任務(wù)中帶標(biāo)簽的微博語料。
文本預(yù)處理,是濾除文本中的噪聲詞匯,準(zhǔn)備處理模型所需的文本格式,為后續(xù)的文本處理奠定基礎(chǔ),其中主要包括處理編碼格式、分詞、去停用詞等。本文分詞工具采用張華平博士提供的NLPIR/ICTCLAS分詞系統(tǒng)[9]。
特征表示[10~11],這個(gè)步驟處理結(jié)果會在很大程度上影響分類結(jié)果。文本的初始特征由文本中所有詞語組成,為了降低維度和減少存儲空間要選擇合適的特征擇方法來降維,同時(shí)提取到區(qū)分能力高的文本特征。本文主要工作就是對特征選擇算法的改進(jìn)。
分類器,經(jīng)典的分類方法由貝葉斯Bayes、支持向量機(jī)SVM[12]、決策樹、隨機(jī)森林[13]等,選擇合適的參數(shù),通過訓(xùn)練構(gòu)建分類器,對文本進(jìn)行分類。本文對分類器不做過多研究和對比,直接選擇性能較好的SVM對文本進(jìn)行分類。
性能評價(jià),針對文本分類問題提出性能評估的指標(biāo),對文本分類結(jié)果和分類器性能進(jìn)行評估,一般選擇正確率,召回率和F值。
如果把漢語詞匯直接用做文本特征進(jìn)行情感分類,其數(shù)據(jù)規(guī)模巨大,計(jì)算復(fù)雜度高。挑選具有強(qiáng)烈情感信息的特征詞匯作為分類的依據(jù),可以大幅度降低特征的維數(shù),并提高分類的準(zhǔn)確率。
TF-IDF是常見的權(quán)重計(jì)算方法,考慮了詞頻和反文檔頻率的影響,使文本中較高頻率的詞組有相對比較大的權(quán)重。但權(quán)重計(jì)算不包含分類的相關(guān)信息,沒有分辨哪個(gè)特征項(xiàng)在哪個(gè)類別中相對比較重要的功能,不能作為區(qū)分類別的方法,多數(shù)情況下是用來計(jì)算特征詞在文本中的重要與否或者說重要程度。通過詞頻和文檔頻率,我們可以用TF-IDF權(quán)重計(jì)算方法計(jì)算出特征詞在不同類別中的權(quán)重[14~15]。
文檔集合D有K個(gè)分類D={D1,…,Dk},k∈K,Dk屬于第k個(gè)分類的文檔數(shù)量,對于特征詞集T有:T={t1,…ti},i∈N(N個(gè)特征詞)。dik代表特征詞ti文檔集Dk中出現(xiàn)的文檔數(shù)量。tfik是特征詞ti在Dk中的出現(xiàn)次數(shù)。idfik表示特征詞的反文檔頻率。用式(1)進(jìn)行計(jì)算:
則特征詞ti在文檔集Dk中的權(quán)重為
權(quán)重計(jì)算方法是用來衡量特征項(xiàng)對文檔中來說是否重要,并不能作為文本分類的特征項(xiàng)去進(jìn)行文本分類。所以,我們用TF-IDF權(quán)重計(jì)算方法得出特征詞在各種文檔中的權(quán)重后,利用方差統(tǒng)計(jì)法和TF-IDF權(quán)重計(jì)算方法相結(jié)合。用方差的大小來表示數(shù)據(jù)是否平穩(wěn),方差小則數(shù)據(jù)平穩(wěn),方差大則數(shù)據(jù)不平穩(wěn)。選擇特征就是要選取具有明顯類別區(qū)分能力的詞匯,如果特征詞在不同分類中計(jì)算出的方差值大,就可以認(rèn)為這個(gè)被選擇出來的詞匯就是某種分類的代表。方差計(jì)算公式為如下:
對K類中的某特征詞xi的詞頻tfi計(jì)算其方差值,公式如下:
上式-tfi為特征詞xi在各個(gè)類別中的平均詞頻,其中。
結(jié)合TF-IDF權(quán)重計(jì)算方法得出特征詞在不同的類別中的權(quán)重wik。計(jì)算出其方差為
根據(jù)方差值的大小,將方差比較大、詞頻率高并且集中的特征詞選擇出來。影響這些詞匯權(quán)重的是特征詞的詞頻和分類中出現(xiàn)的文檔數(shù)。
通過詞頻(TF)來進(jìn)行情感傾向分析分類是最簡單直接的方法,哪個(gè)類別的特征詞在文本中的出現(xiàn)頻率最高,該文本就會被認(rèn)為是哪類情感。但由于訓(xùn)練文本的不完備性,這種方法的效果往往一般。我們選用TF-IDF權(quán)重計(jì)算方法計(jì)算特征詞在不同的類別所占權(quán)重大小,選擇權(quán)重最大的類別為該特征詞的情感傾向。
經(jīng)計(jì)算可以得出特征詞xi分別在K類中的TF-IDF權(quán)重Wij,選擇出權(quán)重最大的類別作為xi的情感傾向。情感傾向的計(jì)算公式如下:
TF方法:
TFIDF方法:
在傳統(tǒng)NLP中,常用的詞表示方法是One-hot Representation[16],這種方法把每個(gè)詞表示為一個(gè)很長的向量。向量的維度是詞表大小,只有一個(gè)維度的值為1,其余均為0,這個(gè)維度就代表了當(dāng)前的詞。這種方法非常簡潔,但存在很嚴(yán)重的“詞匯鴻溝”現(xiàn)象。在深度學(xué)習(xí)中,使用Distributed Representation表示一種低維實(shí)數(shù)向量,這種方法被稱為“詞向量”。
Word2vec,由Google的Tomas Mikolov團(tuán)隊(duì)提出并實(shí)現(xiàn),是一款將詞表征為實(shí)數(shù)值向量的高效工具,該算法能夠在較短的時(shí)間內(nèi),從大規(guī)模語料庫中學(xué)習(xí)到高質(zhì)量的詞向量。
Word2vec通過訓(xùn)練,可以把對文本內(nèi)容的處理簡化為K維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度,利用word2vec訓(xùn)練學(xué)習(xí)得到的詞向量表示,考慮了詞語之間的語義關(guān)聯(lián)關(guān)系,可以被用來做很多自然語言處理或者文本數(shù)據(jù)挖掘的工作與研究,比如找同義詞,聚類等。
使用Word2vec首先要針對自己的使用情景,準(zhǔn)備一個(gè)語料庫,然后對文本進(jìn)行預(yù)處理,把語料整理成Word2vec的輸入格式,然后對其進(jìn)行訓(xùn)練。得到模型后可以查看單詞的臨近項(xiàng),給定詞語w1的詞向量vw1和w2的詞向量vw2,定義兩個(gè)詞語的語義相似度為兩個(gè)詞向量的余弦相似性,計(jì)算公式為
其中vw1?vw2表示兩個(gè)向量的內(nèi)積,||vw1||表示向量vw1的模長度。
對Word2vec訓(xùn)練后對“干凈”一詞查看它的臨近項(xiàng)得到的結(jié)果如表1所示。
表1 詞向量最相關(guān)詞實(shí)例
在訓(xùn)練數(shù)據(jù)集數(shù)據(jù)量比較大的情況下,利用Word2vec訓(xùn)練學(xué)習(xí)得到的詞向量質(zhì)量較高,利用詞向量計(jì)算詞語的相似度準(zhǔn)確率很高,這為本文基于詞向量的文本特征選擇改進(jìn)算法提供了良好的保證。從表中結(jié)果可以初步判斷,通過詞向量進(jìn)行特征擴(kuò)展的想法是可行的。
得到詞向量是特征擴(kuò)展算法的第一步,詞向量的表示方式支持直接對詞語進(jìn)行語義相似度的計(jì)算,因此可以根據(jù)前面特征選擇的結(jié)果進(jìn)行基于詞向量的特征擴(kuò)展。
圖2 基于詞向量的特征擴(kuò)展流程
本文將詞向量存在語義關(guān)聯(lián)關(guān)系的特性應(yīng)用到文本特征選擇中,提出基于詞向量的特征選擇算法,對傳統(tǒng)特征選擇算法進(jìn)行改進(jìn),改進(jìn)的主要思想是基于詞向量之間的語義關(guān)聯(lián)性,對特征詞按照一定規(guī)則進(jìn)行擴(kuò)充,使得擴(kuò)充后的特征詞更有類別表征能力。基于詞向量的特征選擇算法改進(jìn)基于如下假設(shè):與具有較強(qiáng)類別表征能力的特征詞最相似的詞語,也同樣具有較強(qiáng)的類別表征能力。具體改進(jìn)步驟如表2所示。
表2 特征擴(kuò)展算法
利用上述擴(kuò)展方法對訓(xùn)練數(shù)據(jù)進(jìn)行處理,計(jì)算擴(kuò)充后的特征詞集合中特征詞的TF-IDF權(quán)值,得到擴(kuò)展結(jié)果后進(jìn)行分類。
本次實(shí)驗(yàn)數(shù)據(jù)選用微博語料庫(NLPIR)通過自然語言處理與信息檢索共享平臺予以公開共享的23萬條數(shù)據(jù)訓(xùn)練Word2vec工具,得到詞向量備用。然后從NLP&CC2014中文微博情緒識別評測任務(wù)語料中,抽取帶標(biāo)簽的微博語料用于實(shí)驗(yàn),其中包括2000條正面類別樣本和2000條負(fù)面類別樣本。分別使用文中介紹的特征提取方法和改進(jìn)的基于詞向量的文本特征擴(kuò)展方法進(jìn)行實(shí)驗(yàn)。
詞向量訓(xùn)練時(shí)語料庫的量級、向量維數(shù)等對分類性能都有影響,實(shí)驗(yàn)過程采用單一變量控制法進(jìn)行對比。
本文的文本分類實(shí)驗(yàn),首先對文本進(jìn)行預(yù)處理;然后采用方差統(tǒng)計(jì)和TF-IDF權(quán)重計(jì)算相結(jié)合的特征選擇算法進(jìn)行特征選擇,并根據(jù)每個(gè)特征詞的類別區(qū)分能力采用TF-IDF算法對其賦予相應(yīng)的權(quán)值;最后將選擇好的特征詞送入分類器進(jìn)行訓(xùn)練,這里的文本分類器采用的是SVM。對測試文本進(jìn)行分類測試,通過結(jié)果評價(jià)分類效果。通過取不同特征維數(shù)觀察分類器的分類效果如圖3所示。
特征向量通過3.1中介紹的特征選擇方法取得。由實(shí)驗(yàn)結(jié)果可以看出,特征維數(shù)較小時(shí),準(zhǔn)確率的波動(dòng)較大,當(dāng)特征維數(shù)在100左右時(shí)分類準(zhǔn)確率達(dá)到最大,當(dāng)特征維數(shù)大于100后準(zhǔn)確率又逐漸減小。分析原因可能是當(dāng)維度過大時(shí)會加入一些對類別區(qū)分能力有影響的詞,而維數(shù)過小又不能準(zhǔn)確概括類別,選擇合適的維數(shù)會對分類效果有一定的提升。
首先利用大量微博語料訓(xùn)練Word2vec工具得到詞向量,這里語料庫越大所得到的詞向量的相關(guān)性越準(zhǔn)確,當(dāng)然語料庫太大會導(dǎo)致訓(xùn)練時(shí)間過長。通過4.2中提出的特征擴(kuò)展算法觀察擴(kuò)展的特征詞個(gè)數(shù)對分類結(jié)果的影響,這里特征維數(shù)選擇100,分類準(zhǔn)確率如圖4所示。
圖4 不同擴(kuò)展特征詞個(gè)數(shù)分類準(zhǔn)確率
由實(shí)驗(yàn)結(jié)果可以看出,在基于詞向量的特征擴(kuò)展方法中,擴(kuò)展特征詞個(gè)數(shù)對分類結(jié)果有較為明顯的影響。當(dāng)加入的擴(kuò)展詞較少時(shí),那么加入的詞與短文本的內(nèi)容就越相關(guān),準(zhǔn)確率會得到提升,但提升效果有限。隨著擴(kuò)展詞加入的越多,這些擴(kuò)展的詞與原短文本的相關(guān)性就越難保障,這些噪音詞的引入會對文本的分類準(zhǔn)確率帶來負(fù)面影響。通過實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)特征擴(kuò)展個(gè)數(shù)為4時(shí)分類的準(zhǔn)確率達(dá)到最高。
圖5 不同特征選擇算法的分類準(zhǔn)確率
從圖5可以看出,在特征維數(shù)相同的條件下,改進(jìn)后的基于詞向量的特征擴(kuò)展算法的分類準(zhǔn)確率明顯高于原始提出的特征選擇算法,驗(yàn)證了本文所提方法的有效性。
實(shí)驗(yàn)結(jié)論:特征詞的質(zhì)量在很大程度上影響文本分類的準(zhǔn)確率,特征詞的個(gè)數(shù)及類別區(qū)分能力對分類結(jié)果有很大影響。通過實(shí)驗(yàn)發(fā)現(xiàn)選擇100維左右的特征詞并對這些類別區(qū)分能力較強(qiáng)的特征詞進(jìn)行擴(kuò)展,當(dāng)擴(kuò)展特征詞的個(gè)數(shù)為4時(shí)分類效果達(dá)到最優(yōu)。
本文基于深度學(xué)習(xí)的詞向量訓(xùn)練工具Word2vec的工作原理,將原始特征選擇算法忽略的詞語間的語義關(guān)系應(yīng)用到對原始特征選擇算法的改進(jìn)上,提出了一種基于詞向量的特征擴(kuò)展算法,通過對比實(shí)驗(yàn)驗(yàn)證了改進(jìn)算法的有效性。本文著重研究情感特征的量化,并研究其對情感極性分類的影響,對情感細(xì)粒度的分類將是下一步需要繼續(xù)研究的問題。