国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題聚類的短文本情緒分類方法*

2020-08-11 00:46:46林江豪顧也力周詠梅陽愛民
關(guān)鍵詞:語料類別短文

林江豪 顧也力 周詠梅,3 陽愛民,3 陳 錦

(1.廣東外語外貿(mào)大學(xué)語言工程與計(jì)算實(shí)驗(yàn)室 廣州 510006)

(2.廣東外語外貿(mào)大學(xué)東方語言文化學(xué)院 廣州 510420)

(3.廣東外語外貿(mào)大學(xué)信息科學(xué)與技術(shù)學(xué)院 廣州 510006)

1 引言

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,新聞在線評論、微博等社會(huì)化媒體(Social Media)成為了人們用來分享意見、觀點(diǎn)及經(jīng)驗(yàn)的工具和平臺(tái)。網(wǎng)民通過社會(huì)化媒體發(fā)表短文本,表達(dá)自己喜怒哀樂的各種情緒。對這些評論進(jìn)行情緒類別分類可應(yīng)用到輿情管理、民意調(diào)查、商業(yè)營銷情報(bào)等領(lǐng)域,有著廣闊的應(yīng)用空間和發(fā)展前景[1]。然而,面對每天產(chǎn)生的海量短文本,如果通過人工閱讀、理解和識(shí)別情緒類別,是不現(xiàn)實(shí)的,只有利用計(jì)算機(jī)技術(shù)才能實(shí)現(xiàn)海量短文本的情緒類別識(shí)別。因此,深入研究短文本情緒類別自動(dòng)分類方法是一項(xiàng)非常重要的工作。

現(xiàn)有的短文本情緒分類研究方法,主要包括基于知識(shí)庫、機(jī)器學(xué)習(xí)、主題模型等方法。文獻(xiàn)[2]基于多分類器集成的self-training的半監(jiān)督情感分類方法,利用分類器的情感貢獻(xiàn)權(quán)重作為置信度,以高置信度的樣本為訓(xùn)練集,來訓(xùn)練獲得更好的分類器,在微博短文本語料上進(jìn)行實(shí)驗(yàn)。陽愛民等提出了基于關(guān)鍵詞和概率計(jì)算的微博短文本情感類別自動(dòng)分類器,并采用方法集成和投票結(jié)合的算法,在中文微博語料上實(shí)現(xiàn)了分類準(zhǔn)確率可達(dá)到90%以上[3]。文獻(xiàn)[4]針對網(wǎng)絡(luò)新聞評論短文本的特性,在特征工程方便進(jìn)行改進(jìn),選擇不同的特征集合、多種特征維度表示、特征權(quán)重的計(jì)算方法和詞性,將這些特征因素融合,并應(yīng)用到情感自動(dòng)分類。文獻(xiàn)[5]也主要對特征提取對情感分類影響進(jìn)行研究,主要采用機(jī)器學(xué)習(xí)算法,最終發(fā)現(xiàn)詞匯的語義特征、否定詞對分類結(jié)果有較大影響,在考慮以上兩個(gè)方面的基礎(chǔ)上,采用二值作為特征項(xiàng)權(quán)重,分類的準(zhǔn)確率能達(dá)到90%。文獻(xiàn)[6]充分利用文本的語義計(jì)算,對微博短文本的情感類別實(shí)現(xiàn)自動(dòng)標(biāo)注。在利用情感知識(shí)庫方面,Moreo A等[7]使用情感詞典,網(wǎng)民的情感傾向進(jìn)行多維度分析。Penalver-Martinez I等[8]運(yùn)用本體論,提出了基于特征的觀點(diǎn)挖掘方法。Pang和Lee等在電影評論短文本語料中,設(shè)計(jì)了多種分類器NB,ME,SVM等,在不同的特征提取算法下,實(shí)現(xiàn)了較好的分類效果[9]。Ni等則選用CHI方法和信息增益方法對文本進(jìn)行特征提取,進(jìn)而基于NB,SVM和Rocchio算法設(shè)計(jì)文本情感分類器[10]。Wiebe利用一種相似度分布的詞聚類方法,標(biāo)記了形容詞極性詞及極性[11]。文獻(xiàn)[12]將基準(zhǔn)次與修飾詞的搭配視同為觀點(diǎn),在文本中自動(dòng)抽取這些搭配,實(shí)現(xiàn)從文本到觀點(diǎn)的轉(zhuǎn)化,基于嶺回歸模型對每個(gè)觀點(diǎn)詞進(jìn)行情感打分,進(jìn)而提出觀點(diǎn)袋(bag-of-opinion)模型,實(shí)現(xiàn)了商品評論短文本的情感極性分類方法。Thet等利用句法結(jié)構(gòu),首先將長句轉(zhuǎn)換為子句,基于規(guī)則的算法對子句進(jìn)行情感記性判斷,進(jìn)而計(jì)算子句的情感記性值,最后設(shè)計(jì)分類器在電影評論短文本中取得較好的情感分類效果[13]。Kaur,Dara&Matsakis在電影評論語料IMDB中驗(yàn)證了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和詞向量的情感分類可取得比其他機(jī)器學(xué)習(xí)方法較好的效果。

在現(xiàn)有短文本情緒類別分類研究中,更多是將文本分類結(jié)果設(shè)定為正向和負(fù)向來進(jìn)行研究,不適用于細(xì)粒度的文本情緒分析。因此,本文以短文本的樂、好、怒、哀、懼、惡、驚七類情緒作為情緒類別,提出一種基于主題聚類的短文本情緒分類方法。主要采用主題模型概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)與 K 均 值(K-means)聚類方法相結(jié)合,對短文本進(jìn)行情緒分類。通過利用PLSA計(jì)算獲得語料集的“文檔-主題”和“詞語-主題”概率矩陣。利用詞語在主題上的分布,對詞語進(jìn)行K-means聚類,進(jìn)而將相近主題進(jìn)行合并處理,基于情緒詞典對主題的情緒類別判定,最終以“文檔-主題”概率分布為基準(zhǔn),實(shí)現(xiàn)短文本的情緒分類。同時(shí),為了對比主題聚類和僅基于主題模型兩種方法下的實(shí)驗(yàn)結(jié)果。本文還基于PLSA主題模型的“詞語-主題-文檔”之間的概率轉(zhuǎn)換關(guān)系,認(rèn)為某一類情緒詞匯出現(xiàn)的概率最高的主題與詞匯的情緒類別相同,對主題進(jìn)行情緒類別分類;認(rèn)為出現(xiàn)在某一主題概率最高的文檔與主題的情緒類別相同,直接對文檔進(jìn)行情緒類別分類。

2 基于主題聚類的短文本情緒分類方法概述

基于主題聚類的短文本情緒分類過程如圖1所示,首先將評論短文本集進(jìn)行文本預(yù)處理,分詞后過濾掉停用詞和無用詞,進(jìn)行詞頻統(tǒng)計(jì),獲得“文檔-詞匯”矩陣;接著,利用PLSA模型計(jì)算,獲得“詞匯-主題”和“文檔-主題”概率矩陣;基于K-means算法和“詞匯-主題”概率分布對詞匯在主題上的概率分布進(jìn)行聚類,結(jié)合情感本體庫[15]和聚類結(jié)果,認(rèn)為同一簇中心共現(xiàn)情緒詞匯較多的主題為同一情緒主題,對主題進(jìn)行合并,即產(chǎn)生新的“詞匯-主題”和“文檔-主題”概率矩陣;對合并后的“詞匯-主題”,同樣基于情感本體庫,基于文獻(xiàn)[16]的觀點(diǎn),概率分布是主題與詞語之間的直接關(guān)聯(lián)關(guān)系,一個(gè)主題下出現(xiàn)同類情緒的詞語較多,可認(rèn)為該主題是屬于該類情緒;在主題的情緒確定后,“文檔-主題”的概率分布,某一主題下概率最高的文檔具有具有與主題相同的情緒,達(dá)到對短文本情緒類別的自動(dòng)分類。

根據(jù)圖1,用“詞匯-主題”矩陣Mwt和“文檔-主題”矩陣Mdt來表示主題數(shù)為k個(gè)的PLSA計(jì)算結(jié)果,其中Mwt表示詞匯在對應(yīng)主題中的概率,也即詞匯對主題的貢獻(xiàn)度,則詞匯wordj的主題概率分布為可認(rèn)為是詞匯的主題向量表示,并且采用K-means進(jìn)行聚類時(shí),將詞匯以主題向量表示輸入,進(jìn)行詞匯聚類,抽取聚類簇中心的詞匯,利用情感本體庫OL,認(rèn)為同類情緒詞匯聚集的主題具有相同的情緒類別;進(jìn)而對主題進(jìn)行合并,主要對相同主題下的詞匯概率和文檔概率進(jìn)行相加,得到合并后新的“詞匯-主題”矩陣M’wt和“文檔-主題”矩陣M’dt,合并后主題的數(shù)量k’≤k;利用M’wt分別對合并后每個(gè)主題下的詞語概率按照由大到小排序,基于情感本體庫OL,抽取概率高的情緒詞匯,對情緒詞匯的情緒強(qiáng)度直接加總計(jì)算,得到主題在每一類情緒中的強(qiáng)度,則主題在 m類情緒中的權(quán)重分布Et={e1,e2,e3,…,em},通過判斷Et中的最大值,獲得主題的情緒類別。同理,利用M’dt矩陣,認(rèn)為對主題貢獻(xiàn)度高的文檔與主題的情緒類別相同,對文檔的情緒類別進(jìn)行識(shí)別。具體算法如下:

算法1:基于主題聚類的短文本情緒分類算法

輸入:情感本體庫OL,短文本語料集Data_set

輸出:[doc,e]m

步驟1:初始化,設(shè)置主題數(shù)=k,聚類數(shù)=c;

步驟2:對Data_set進(jìn)行預(yù)處理,包括分詞、詞頻統(tǒng)計(jì)等,獲得“文檔-詞頻”矩陣Mdw;

步驟 3:計(jì)算 PLSA(Mt)→“詞匯-主題”矩陣 Mwt和“文檔-主題”矩陣Mdt;

步驟4:計(jì)算K-means(Mwt),并對主題進(jìn)行合并→“詞匯-主題”矩陣M’wt和“文檔-主題”矩陣M’dt;

步驟5:逐列對M’wt進(jìn)行排序,獲取每個(gè)主題zj中概率較高的情緒詞匯,得到Zk’={[w1,w2,…,wo]1,[w1,w2,…,wp]2,…[w1,w2,…,wq]k’};

步驟6:在情感本體庫OL中查詢情緒詞的權(quán)重,得到主題的情緒權(quán)重矩陣 EZk’={[wt1,wt2,wt3,…,wto]1,[wt1,wt2,wt3,…,wtp]2,…[wt1,wt2,wt3,…,wtq]k’};

步驟7:對每個(gè)主題zj的情緒權(quán)重進(jìn)行加總,得到Etk’={[e1,e2,…,em]1,[e1,e2,…,em]2,…[e1,e2,…,em]k’};

步驟8:對Etk'進(jìn)行依列按大小排序,獲得情緒強(qiáng)度最強(qiáng)的類別為對應(yīng)主題的情緒,主題情緒標(biāo)注結(jié)果為ZEk’;

步驟7:逐列對M’dw進(jìn)行排序,結(jié)合ZEk’,對主題貢獻(xiàn)度高文檔的情緒類別分類為主題的情緒類別,對每一個(gè)doc獲得對應(yīng)的情緒類別e;

結(jié)束:輸出[doc,e]m。

算法的最終輸出為[doc,e]m,為驗(yàn)證該分類結(jié)果的準(zhǔn)確性,在采集的鳳凰網(wǎng)涉及中日關(guān)系的新聞評論語料,選擇含有兩個(gè)情緒詞匯以上的評論短文本作為實(shí)驗(yàn)語料,對語料的情緒類別進(jìn)行人工標(biāo)注,作為本文算法分類結(jié)果驗(yàn)證語料庫,對[doc,e]m的精度進(jìn)行計(jì)算驗(yàn)證。

圖1 基于主題聚類的短文本情緒分類過程

3 基于PLSA的概率矩陣抽取方法

PLSA模型可用于對大量文本進(jìn)行“文檔-主題”和“詞語-主題”兩種概率矩陣的抽取[17]。具體計(jì)算時(shí),首先給定文檔集D={d1,d2,…,dn}和詞集W={w1,w2,…,wm},用freq(di,wj)表示詞wj在文檔di中出現(xiàn)的概率,則“文檔-詞語”共現(xiàn)矩陣MD-W=[freq(di,wj)]。假設(shè)主題類別Z={z1,z2,…,zk},k為主題個(gè)數(shù)。PLSA模型假設(shè)詞與文檔之間、話題與文檔或者詞之間的概率服從條件獨(dú)立,由此得到相應(yīng)的聯(lián)合分布概率為

P(di)表示選擇文檔di的概率,P(zk|di)表示某個(gè)主題zk在給定文檔di下出現(xiàn)的概率;P(wj|zk)表示詞wj在給定主題zk下出現(xiàn)的概率,本文基于該“詞語-主題”的概率分布獲取事件Evt,根據(jù)貝葉斯法則可得到:

采用最大期望算法(Expectation Maximization,EM)算法對潛在語義模型進(jìn)行擬合[13]。用隨機(jī)數(shù)初始化之后,交替執(zhí)行E步驟和M步驟進(jìn)行迭代計(jì)算。E步驟計(jì)算(di,wj)所產(chǎn)生的潛在語義zk的先驗(yàn)概率:

在M步驟中,根據(jù)P(z|d,w)對P(w|z)和P(z|d)矩陣重新估計(jì):

似然函數(shù)的對數(shù)如下。

當(dāng)似然函數(shù)L期望值的增加量小于閾值時(shí),迭代終止。此時(shí)得到一個(gè)最優(yōu)解P(w|z)=[P(wj|zk)]m×k和 P(z|d)=[P(zk|di)]k×n。

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)采集

實(shí)驗(yàn)采集了鳳凰網(wǎng)(http://www.ifeng.com/)涉及中日關(guān)系新聞“習(xí)近平應(yīng)約會(huì)見日本首相安倍晉三”,新聞為2014年APEC期間發(fā)布的,共有2346條新聞評論。由于本文采用情感本體庫作為情緒分類的情感知識(shí)庫,因此在語料處理過程中,對不含情緒詞匯和評論長度小于10的評論直接去掉,獲得語料1623條,隨機(jī)取其中1600條來進(jìn)行標(biāo)注。請3名研究人員對語料進(jìn)行人工標(biāo)注,標(biāo)注為7類情緒,對于標(biāo)注結(jié)果采用投票方式,有兩人標(biāo)注結(jié)果為一致,則認(rèn)為語料標(biāo)注有效,最終取1300條新聞評論作為本文的實(shí)驗(yàn)語料,語料的分布如表1所示。

表1 文本數(shù)量分布

4.2 聚類數(shù)和主題數(shù)的確定

基于主題聚類的短文本情緒分類方法,K-means聚類算法簇和主題模型PLSA主題的數(shù)量設(shè)定,均對分類效果結(jié)果有一定的影響。同時(shí),在對比實(shí)驗(yàn)中,僅基于主題模型PLSA的情緒分類過程,需要先設(shè)定主題的數(shù)量,而主題數(shù)的確定受到語料的規(guī)模和內(nèi)容的影響。設(shè)定了正確的算法參數(shù),能有效提升的主題的情緒標(biāo)注準(zhǔn)確性,進(jìn)而提高文檔的情緒分類準(zhǔn)確率。由于本文利用情感本體庫OL作為情緒標(biāo)注的基礎(chǔ),而本體庫中將情緒分為7類,分別是樂、好、怒、哀、懼、惡、驚。因此,本文主題的數(shù)量的設(shè)定從7類開始,一直增加到28類;聚類的數(shù)量也從7類開始,直到28類,探索最優(yōu)的參數(shù)組合。采用分類準(zhǔn)確率作為評價(jià)標(biāo)準(zhǔn),計(jì)算公式如式(7)所示。

根據(jù)式(7),在本文選定的語料集中,計(jì)算文本情緒分類的準(zhǔn)確率隨著主題數(shù)和聚類數(shù)增加的變化結(jié)果,最終得到的是“主題數(shù)-聚類數(shù)”下準(zhǔn)確率的矩陣。為方便顯示,這里只選擇某一主題數(shù)下,獲得最高分類準(zhǔn)確率的聚類數(shù)。如圖2所示,x軸的內(nèi)容為(聚類數(shù),主題數(shù)),表示在某一主題數(shù)和K-means算法簇?cái)?shù)下的可獲得的最高準(zhǔn)確率,y軸表示情緒分類的準(zhǔn)確率。

圖2 聚類數(shù)和主題數(shù)對情緒分類準(zhǔn)確率影響

實(shí)驗(yàn)結(jié)果表明,在(聚類數(shù),主題數(shù))設(shè)置為(12,19)時(shí),可達(dá)到最高準(zhǔn)確率95.23%。因此,本文在基于主題聚類的短文本情緒分類模型中,設(shè)置聚類數(shù)為12,主題數(shù)為19。

對比實(shí)驗(yàn)中,主題數(shù)的設(shè)定,也遵循該實(shí)驗(yàn)規(guī)則,最終發(fā)現(xiàn)設(shè)置主題數(shù)為17時(shí),可獲得最高準(zhǔn)確率89.17%。

4.3 基于主題聚類的評論文本情緒分類結(jié)果

將聚類數(shù)設(shè)置為12,主題數(shù)設(shè)置為19。對比實(shí)驗(yàn)中,主題數(shù)主題數(shù)為17。分布采用PLSA+K-means和PLSA兩種文本情緒類別分類方法,各類情緒下語料分類的準(zhǔn)確率如表2所示。

表2 評論文本情緒分類準(zhǔn)確率(100%)

從表2的實(shí)驗(yàn)結(jié)果可以看出,PLSA+K-means明顯比PLSA算法具有更高的準(zhǔn)確率,兩種方法的總體準(zhǔn)確率分別為95.23%和89.17%;平均準(zhǔn)確率分布為93.93%和87.80%。每一類情緒對應(yīng)的文檔自動(dòng)標(biāo)注準(zhǔn)確率均高于80%,最高準(zhǔn)確率達(dá)到96.88%。兩種方法均能實(shí)現(xiàn)短文本的細(xì)粒度情緒類別分類,并取得較好的分類效果,可應(yīng)用與大規(guī)模的短文本情緒分類。相比之下,采用基于PLSA+K-means方法具有更優(yōu)越的性能,充分說明本文提出方法的有效性。

我們對實(shí)際語料進(jìn)行觀察,發(fā)現(xiàn)多數(shù)評論對中日兩國友好關(guān)系和共同發(fā)展,呈現(xiàn)出樂和好的情緒。但由于日本與中國在歷史上千絲萬縷的關(guān)系,評論中對釣魚島、靖國神社、南京大屠殺等事件也表現(xiàn)出厭惡及其他負(fù)面的情緒?;诒疚牡姆椒?,融合主題詞抽取技術(shù),可深入研究不同主題內(nèi)容下的網(wǎng)民情緒分布,對中日關(guān)系的網(wǎng)絡(luò)輿情分析具有重要意義。

5 結(jié)語

本文提出一種基于主題聚類的短文本情緒分類方法,采用主題模型PLSA和聚類算法K-means相結(jié)合的技術(shù)方案,對“詞語-主題”概率矩陣中詞語進(jìn)行聚類后合并相似主題,以情感本體庫作為情緒知識(shí)支撐,確定合并后主題的情緒類別,利用“文檔-主題”概率矩陣,實(shí)現(xiàn)了短文本的細(xì)粒度情緒分類。通過實(shí)驗(yàn)表明,采用PLSA+K-means比PLSA具有更好的分類效果,對短文本的細(xì)粒度情緒平均準(zhǔn)確率可達(dá)93.93%,總體的準(zhǔn)確率是95.23%,可看出提出方法的有效性。

基于本文的方法,融合主題詞抽取技術(shù),可應(yīng)用到子話題識(shí)別、情緒分類、情緒強(qiáng)度計(jì)算等輿情關(guān)鍵技術(shù)中,對輿情分析具有重要的意義。同時(shí),可應(yīng)用到大規(guī)模短文本情緒類別自動(dòng)標(biāo)注中,對構(gòu)建細(xì)粒度情緒語料庫具有重要意義。

主題模型PLSA和K-means對語料的規(guī)模、語料中詞匯的范圍有一定的依賴,同時(shí)情感本體庫的覆蓋面也會(huì)對文本情緒分類結(jié)果產(chǎn)生一定影響。在今后的研究中,將探索基于詞向量等語義計(jì)算方法的情感本體庫擴(kuò)展技術(shù),擴(kuò)大情緒詞匯的覆蓋面;同時(shí),研究利用句法依存關(guān)系等抽取情緒特征詞匯,進(jìn)一步提升分類的準(zhǔn)確率。[1]Aimin Yang,Jianghao LIN,Yongmei ZHOU,et al.Research on Building a Chinese Sentiment Lexicon Based on SO-PMI[J].Applied Mechanics and Materials,2013:1688-1693.

猜你喜歡
語料類別短文
KEYS
Keys
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
短文改錯(cuò)
广安市| 西充县| 利辛县| 苍南县| 西盟| 泰来县| 谢通门县| 泰宁县| 南丰县| 凤凰县| 大渡口区| 伽师县| 外汇| 屯留县| 双辽市| 辰溪县| 岑巩县| 九寨沟县| 宾川县| 南召县| 濮阳市| 辉县市| 龙岩市| 涿鹿县| 镇宁| 汝城县| 电白县| 乌恰县| 信丰县| 米易县| 科技| 灵宝市| 蒲城县| 和顺县| 溧阳市| 五大连池市| 比如县| 紫金县| 马鞍山市| 乌拉特前旗| 鄂伦春自治旗|