劉玉文
〔摘 要〕網(wǎng)絡(luò)輿論主題情感在線分析對輿情研判與管理起著十分重要的作用,當(dāng)前的主題情感模型存在著主題與情感建模關(guān)系不緊密,情感挖掘偏斜等問題,容易造成輿情誤判。文本在OLDA(On-Line Latent Dirichlet Allocation,OLDA)模型的基礎(chǔ)上引入情感參數(shù),并提出情感遺傳思想,建立基于情感遺傳的在線主題情感混合模型OTSCM(On-Line Topic and Sentiment Combining Model)。該模型把t-1時(shí)間片內(nèi)的主題情感分布作為t時(shí)間片內(nèi)主題情感分布的先驗(yàn),通過構(gòu)造主題情感演化矩陣,生成t時(shí)間片內(nèi)文檔—主題、主題—特征詞以及主題—情感詞3個(gè)分布,最后使用交叉熵方法計(jì)算t時(shí)間片內(nèi)主題分布與t-1之前主題分布的相似度,得出t時(shí)間片內(nèi)主題情感演化結(jié)果。本文在5個(gè)數(shù)據(jù)集上對OTSCM進(jìn)行了驗(yàn)證,并與其它流行算法進(jìn)行了對比,實(shí)驗(yàn)表明,文本方法在主題情感在線識別方面達(dá)到了良好的效果。
〔關(guān)鍵詞〕OLDA模型;主題情感;情感遺傳;OTSCM模型;情感計(jì)算;情感演化
DOI:10.3969/j.issn.1008-0821.2017.12.006
〔中圖分類號〕G206.2 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2017)12-0035-07
〔Abstract〕The on-line sentiment analysis of network topic plays an important role in the evaluation and management of public opinion.The current topic and sentiment models have a problem that the relationship between the topic and sentiment is not closely,which likely cause the deviation of sentiment mining and misjudgment of public opinion.This paper introduced the sentiment parameter into OLDA model and proposed a On-Line Topic and Sentiment Combining Model (OTSCM) based on sentiment genetic.This model made the topic and sentiment distribution of the t-1 time slice as a priori of the topic and sentiment distribution of t time slice.By constructing the topic and sentiment evolutionary matrix,the document-topic,topic-word and topic-sentiment 3 distributions were generated.The cross entropy method was used to calculate the similarity between the topic distribution of the t time slice and the t-1 time slice for getting the evolutionary result of t time slice.At last,OTSCM were validated on 5 data sets and compared with other state-of-the-art algorithms.Experiments showed that our approach had better performance.
〔Key words〕OLDA model;topic sentiment;sentiment genetic;OTSCM model;sentiment computing;sentiment evolution
隨著我國網(wǎng)民數(shù)量的激增以及Web2.0的應(yīng)用,互聯(lián)網(wǎng)已成為社會熱點(diǎn)事件傳播及民眾意見表達(dá)的主要載體,任何社會事件的發(fā)生都會在網(wǎng)上引起熱烈的討論,且隨著時(shí)間的推移,民眾情感也會發(fā)生動態(tài)變化。網(wǎng)絡(luò)輿論已成為一支重要的社會參與力量,在一定程度上影響決策者的決策方向,所以網(wǎng)絡(luò)話題發(fā)現(xiàn)與跟蹤以及情感演化分析一直以來都是網(wǎng)絡(luò)輿情領(lǐng)域研究的熱點(diǎn),對及時(shí)掌握民眾社會心態(tài)從而制定合理的管理策略起著十分重要的作用。
主題檢測與跟蹤[1](Topic Detection and Tracking,TDT)研究始于1996年,目的在于發(fā)現(xiàn)網(wǎng)絡(luò)中潛在的主題并跟蹤其發(fā)展過程,其在社會熱點(diǎn)事件網(wǎng)絡(luò)輿情態(tài)勢監(jiān)控中應(yīng)用廣泛。2003年Blei等[2]提出隱狄利克雷分配模型(Latent Dirichlet Allocation,LDA),用于尋找語料庫中潛在的主題,LDA模型把文本從詞的多維空間降維到主題空間,用特征詞來表征語料庫中的主題。隨后,Alsumait等[3]提出在線LDA模型(On-Line Latent Dirichlet Allocation,OLDA),該模型融入了主題遺傳思想,把t-1時(shí)間片內(nèi)的主題分布后驗(yàn)作為t時(shí)間片內(nèi)主題分布的先驗(yàn),通過計(jì)算相鄰時(shí)間片內(nèi)主題相似度,在線跟蹤主題的演化過程。OLDA模型考慮了主題的延續(xù)性,但每個(gè)時(shí)間片內(nèi)的主題數(shù)K設(shè)置是固定的,沒有考慮到新話題產(chǎn)生、舊話題消亡以及話題分裂、合并等情況,致使主題挖掘精度與LDA模型相比并沒有得到明顯提高。針對這個(gè)問題,眾多學(xué)者提出了多種OLDA模型的改進(jìn)算法,其中,Hu等[4]提出了一種話題演化建模與分析方法,該方法采用模型選擇策略動態(tài)確定各時(shí)間片內(nèi)子話題數(shù),并對演化矩陣進(jìn)行動態(tài)增減,提高了各時(shí)間片內(nèi)話題識別精度,另外,該方法提出基于相對熵的子話題相似度計(jì)算方法,話題演化計(jì)算精度也得到了一定程度的提高。endprint
由于LDA模型在主題識別中的優(yōu)異表現(xiàn),很多學(xué)者在此基礎(chǔ)上添加了情感參數(shù),提出了基于LDA的主題情感模型,如:ASUM模型(Aspect and Sentiment Unification Model)[5]、TSM模型(Joint Sentiment/topic Model)[6]以及JST模型(Topic Sentiment Mixture)[7],這些模型把主題和情感進(jìn)行聯(lián)合建模,不僅能抽取語料庫中的主題詞,還能識別主題下的情感詞,通過計(jì)算主題下情感詞的綜合情感值,得出主題的情感傾向。上述主題情感模型有個(gè)共同的缺陷就是只能對靜態(tài)數(shù)據(jù)進(jìn)行建模,不能在線跟蹤主題的情感變化情況。Huang等[8]提出了一種基于概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)的網(wǎng)絡(luò)話題情感分析方法,該方法使用PLSA對不同時(shí)間片內(nèi)的主題進(jìn)行提取,并把主題詞細(xì)分為主題特征詞和主題情感詞,通過主題情感計(jì)算和主題相似度計(jì)算在線跟蹤話題及其情感的演化。該方法的缺陷是沒有對情感進(jìn)行單獨(dú)建模,情感詞只是從主題詞里分離出來的,使得情感詞來源受限,不能精確表達(dá)主題的情感。Li等[9]提出了動態(tài)主題情感模型(DTSCM),并應(yīng)用與微博主題情感演化挖掘。該方法使用主題情感模型分別對每個(gè)時(shí)間片內(nèi)的微博文本進(jìn)行建模,得出各時(shí)間片內(nèi)的主題詞和情感詞,通過主題間的相似度計(jì)算,得出微博情感演化圖。該方法與文獻(xiàn)[3]相似,沒有考慮到不同時(shí)間片中的主題變化,且沒有考慮到以前時(shí)間片內(nèi)主題情感分布對當(dāng)前時(shí)間片內(nèi)主題情感分布的影響。
針對當(dāng)前主題情感演化模型存在的問題,文本在OLDA模型的基礎(chǔ)上引入情感參數(shù),并融入情感遺傳思想,提出基于情感遺傳的在線主題情感跟蹤模型OTSCM。該模型借鑒OLDA模型中主題遺傳思想,認(rèn)為t時(shí)間片內(nèi)的主題—情感詞分布也只受到t-1時(shí)間片內(nèi)主題—情感詞分布的影響,把t-1時(shí)間片內(nèi)主題—情感詞分布后驗(yàn)當(dāng)作t時(shí)間片內(nèi)主題—情感詞分布的先驗(yàn)。t時(shí)間片內(nèi)的主題數(shù)量采用貝葉斯方法動態(tài)獲得,通過建模t時(shí)間片內(nèi)主題及其情感,得到主題—特征詞分布和主題—情感分布,最后通過計(jì)算t時(shí)間片主題與t-1之前主題相似度得出t時(shí)間片內(nèi)主題情感演化趨勢。
1 相關(guān)理論
1.1 LDA模型與OLDA模型
潛在隱狄利克雷分配[10](Latent Dirichlet Allocation,LDA)是由Blei等提出的用于尋找語料庫中潛在主題的概率生成模型。該模型假設(shè)每個(gè)文檔包含多個(gè)主題,每個(gè)主題包含多個(gè)特征詞,文檔以一定的概率選擇主題,主題以一定的概率選擇主題詞。LDA模型把文檔從N維詞分布降維到K維主題分布,生成文檔—主題θ和主題—詞匯φ兩個(gè)分布矩陣。在大數(shù)據(jù)環(huán)境下,LDA模型主題挖掘效果非常明顯[11],缺陷是只能對靜態(tài)數(shù)據(jù)進(jìn)行建模,不能識別主題在時(shí)間上的演化分布。
為了使LDA模型具備在線主題演化挖掘能力,Alsumait等[3]把時(shí)間粒度引入LDA模型[2],建立在線主題生成模型OLDA。該模型假設(shè)t時(shí)間片內(nèi)的主題—詞匯分布φt只受到t-1時(shí)間片內(nèi)φt-1分布的影響,不同時(shí)間片內(nèi)的主題—詞匯分布可以看成一個(gè)隱馬爾科夫鏈,采用t-1時(shí)間片內(nèi)的主題—詞匯后驗(yàn)分布φt-1作為t時(shí)間片內(nèi)φt的先驗(yàn),以此來保持主題的連續(xù)性,φt服從狄利克雷分布的公式如(1)所示。
OLDA模型采用增量Gibbs算法對t時(shí)間片內(nèi)的文本數(shù)據(jù)進(jìn)行采樣,反復(fù)迭代θt和φt,直至達(dá)到穩(wěn)定狀態(tài)為止。
雖然OLDA模型考慮了主題的延續(xù)性,但也存在著明顯的缺陷[8],即各時(shí)間片內(nèi)的主題數(shù)設(shè)置都是固定值,忽略了新主題的產(chǎn)生、舊主題消亡等動態(tài)變化情況,且主題數(shù)設(shè)置不合理容易導(dǎo)致主題挖掘的偏斜。
1.2 流文本情感詞典擴(kuò)充
通常文本包含情感特征詞,文本的情感計(jì)算可以轉(zhuǎn)化為對情感詞的情感計(jì)算[12],計(jì)算過程分為兩步:1)首先創(chuàng)建情感詞典;2)計(jì)算測試文本內(nèi)情感詞與情感詞典之間的語義關(guān)系,得出測試文本的情感值。情感詞典由3個(gè)數(shù)據(jù)表組成:情感詞表、程度副詞表和否定詞表。情感詞表包含4個(gè)屬性:詞、性質(zhì)(褒義或貶義)、情感值和位置;程度副詞表包含3個(gè)屬性:詞、強(qiáng)度值和位置;否定詞表也包括3個(gè)屬性:否定詞、否定值(否定一般設(shè)置為-1)和位置。
1.2.1 情感詞表在線擴(kuò)充
對于流文本而言,設(shè)t時(shí)間內(nèi)到達(dá)的文本集為Dt={ d1t,d2t,…,dnt},t時(shí)刻的文本情感通過計(jì)算文本內(nèi)情感詞與t-1時(shí)刻的情感詞典之間的相關(guān)關(guān)系得到。情感詞典的構(gòu)造包含以下步驟:當(dāng)t=1時(shí),統(tǒng)計(jì)并計(jì)算t時(shí)刻到達(dá)的文本集內(nèi)的情感詞,以此作為情感詞表Ws的初始值。當(dāng)t>1時(shí),利用t時(shí)間片內(nèi)的文本對情感詞典進(jìn)行擴(kuò)充,依次循環(huán),使得在每個(gè)時(shí)間片上Ws都會被擴(kuò)充一次。以下介紹情感詞表在t時(shí)間片內(nèi)的擴(kuò)充方法。
2 基于OTSCM模型的主題情感在線追蹤
由于OLDA模型只能在線識別流文本主題,不能識別主題下的情感,所以,文本把情感參數(shù)引入到OLDA模型中,參照OLDA模型中的主題遺傳思想,提出情感遺傳概念,建立在線主題情感混合模型OTSCM(Online Topic and Sentiment Combining Model)。模型的核心思想是:t時(shí)間片內(nèi)的流文本集Dt是多個(gè)主題和情感的混合,主題不僅以一定的概率選擇某個(gè)主題特征詞,而且以一定概率選擇某種情感特征詞,主題特征詞和情感特征詞均依賴與主題,而主題又依賴與文本。通過t-1時(shí)間片內(nèi)主題遺傳度和情感的遺傳度建立t時(shí)間片內(nèi)文檔、主題、情感和詞匯4個(gè)變量之間的聯(lián)合條件概率,再采用吉布斯增量采樣算法訓(xùn)練得到文檔—主題θt、主題—特征詞φt、主題—情感詞μt3個(gè)分布矩陣,最后計(jì)算t與t-1時(shí)間片之間主題相似度,得出主題及其情感的演化結(jié)果。endprint
2.1 模型描述
設(shè)t時(shí)間片內(nèi)的文本集Dt包含Kt個(gè)主題,OTSCM模型認(rèn)為文本是主題的混合,主題又是特征詞和情感詞的混合。模型生成文本的過程如下:首先從文本—主題分布θt中抽取一個(gè)主題,根據(jù)抽到的主題從話題—特征詞分布φt中抽取一個(gè)特征詞,從主題—情感分布μt中抽取一個(gè)情感,再從情感—詞匯分布中抽取一個(gè)情感詞。OTSCM模型是一個(gè)4層貝葉斯網(wǎng)絡(luò),其生成過程如圖1所示。
從表2中可以發(fā)現(xiàn)數(shù)據(jù)集中存在6個(gè)報(bào)道主題,主題1:各方救援,報(bào)道時(shí)間為t1~t5;主題2:挖掘到井底,但沒見到孩子,報(bào)道時(shí)間為t4~t5;主題3:警方帶走孩子父親和爺爺,報(bào)道時(shí)間為t4~t5;主題4:孩子找到,但無生命體征,報(bào)道時(shí)間為t5~t7;主題5:孩子爺爺磕頭致謝,報(bào)道時(shí)間為t6~t7;主題6:男童下葬,大坑回填,報(bào)道時(shí)間為t7~t8。根據(jù)主題—情感詞分布μt,表3顯示了在t=4時(shí)間片內(nèi)OTSCM模型識別出的主題下的情感詞,并通過公式(21)計(jì)算得出主題綜合情感值。由于篇幅限制,其他時(shí)間片內(nèi)的主題情感識別結(jié)果不再一一列出。
3.3 主題情感在線演化
為了清晰表達(dá)模型對新聞主題的輿論情感演化識別情況,根據(jù)主題演化計(jì)算結(jié)果和不同時(shí)間內(nèi)主題情感計(jì)算結(jié)果,可以描述出所有主題輿論情感演化過程,如圖2所示。
從圖2中可以得出,每個(gè)主題下的輿論情感都是動態(tài)變化的,其中主題1的輿論情感變化較大,范圍是(0.74,-0.35),原因是在救援初期民眾表達(dá)了強(qiáng)烈的正情感,但隨著救援時(shí)間的拉長,民眾開始質(zhì)疑救援方案,所以輿論情感逐漸降低,到t=5時(shí),小孩被救出時(shí)已死亡,民眾的負(fù)面情緒到達(dá)了最高值,出現(xiàn)了較強(qiáng)的負(fù)情感,分析原因是因?yàn)槊癖妼仍桨府a(chǎn)生質(zhì)疑。主題2和3的輿論情感在中性情感附近,體現(xiàn)了民眾復(fù)雜的心態(tài),即井下沒看到孩子,且警察又把孩子父母帶走了,民眾都在對最終答案進(jìn)行猜測,沒有明確的情感傾向。主題4和5下的輿論表現(xiàn)出了很強(qiáng)且穩(wěn)定的正情感,孩子被發(fā)現(xiàn)已死亡,且爺爺磕頭感謝,民眾的正面情緒占主導(dǎo),紛紛表達(dá)了對孩子的惋惜和對爺爺行為的尊重。主題6的輿論情感表現(xiàn)為低強(qiáng)度正情感,因?yàn)槊癖妼⒆酉略岜憩F(xiàn)出了正情感,但是對威脅兒童的安全隱患表示了擔(dān)憂,抵消了一部分正情感。
3.4 模型性能評價(jià)
為了驗(yàn)證本文算法的通用性,本文以“河北男童落井事件”、“山東辱母殺人事件”、“薩德入韓事件”,“徐玉玉事件”及“中印對峙”5個(gè)新聞數(shù)據(jù)集作為測試數(shù)據(jù),依次命名為DataSet1~DataSet5,以ASUM、TSM、JST、DTSCM 4個(gè)模型作為OTSCM的對比對象,分別進(jìn)行了實(shí)驗(yàn),各算法的準(zhǔn)確率對比結(jié)果如表4所示。
從表4中可以看出,文本算法的準(zhǔn)確率在各組數(shù)據(jù)集中均為最高,原因是ASUM、TSM和JST模型中主題數(shù)必須事先固定,受到人為經(jīng)驗(yàn)影響較大,容易造成主題識別模糊,且三者都是靜態(tài)模型,主題先驗(yàn)和情感先驗(yàn)設(shè)置固定,沒有考慮到在前后時(shí)間片內(nèi)的關(guān)聯(lián)。DTSCM模型雖然在不同時(shí)間片內(nèi)動態(tài)獲取主題數(shù)量,但是不同時(shí)間片內(nèi)的主題和情感不具有傳遞性,先驗(yàn)知識得不到有效利用,主題和情感的計(jì)算在各時(shí)間片內(nèi)都是孤立的。本文算法填補(bǔ)了上述算法的缺陷,每個(gè)時(shí)間片內(nèi)的主題和情感不僅具有遺傳性,而且不同時(shí)間片內(nèi)的主題數(shù)是動態(tài)獲取的,有效地提高了主題和情感的分類精度。
實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各算法之間的困惑度對比,困惑度是檢測聚類質(zhì)量的評價(jià)標(biāo)準(zhǔn),困惑度越小,算法性能越好,困惑度的計(jì)算公式如(22)所示。
其中,p(wi)表示詞wi在文檔d中出現(xiàn)的概率,Nd表示文檔d中詞的數(shù)量。試驗(yàn)中在每個(gè)數(shù)據(jù)集中隨機(jī)抽取70%的文本數(shù)據(jù)作為訓(xùn)練集,剩下的30%作為測試集,各算法的困惑度對比如圖3所示。
從圖3中可以得出,OTSCM算法的情感識別困惑度最低,情感聚類效果最好。
4 結(jié)束語
本文把情感信息引入OLDA模型中,并提出情感遺傳思想,建立了基于情感遺傳的在線主題情感跟蹤模型OTSCM。該模型把t-1時(shí)間片內(nèi)主題情感后驗(yàn)作為t時(shí)間片內(nèi)主題情感先驗(yàn),生成文檔—主題、主題—特征詞和主題—情感詞3個(gè)分布矩陣,再利用基于交叉熵的相似度計(jì)算方法判斷當(dāng)前t時(shí)間片內(nèi)主題情感的演化趨勢。實(shí)驗(yàn)結(jié)果表明:與其他最流行算法相比,OTSCM模型在主題情感在線演化分析中具有良好的性能。
參考文獻(xiàn)
[1]Li G,Jiang S,Zhang W,et al.Online web video topic detection and tracking with semi-supervised learning[J].Multimedia Systems,2016,22(1):115-125.
[2]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].JMLR.org,2003,3(9):993-1022.
[3]Alsumait L,Barbará D,Domeniconi C.On-line LDA:Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking[C]// Eighth IEEE International Conference on Data Mining.IEEE Computer Society,2008:3-12.
[4]HU Yan-Li,BAI Liang,ZHANG Wei-Ming.Modeling and Analyzing Topic Evolution[J].Journal of Automatica Sinica,2012,38(10):1690-1697.endprint
[5]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C]// ACM International Conference on Web Search and Data Mining.ACM,2011:815-824.
[6]Rao Y.Contextual Sentiment Topic Model for Adaptive Social Emotion Classification[J].IEEE Intelligent Systems,2016,31(1):41-47.
[7]Lin C,He Y,Everson R,et al.Weakly Supervised Joint Sentiment-Topic Detection from Text[J].IEEE Transactions on Knowledge & Data Engineering,2012,24(6):1134-1145.
[8]HUANG Wei-dong,LIN Ping,DONG Yi,et al.Analysis on the Feature Words Based Evolution of Netizens Sentiments in Network Public Topics[J].Journal of Intelligence,2015,(11):117-122.
[9]LI Chao-xiong,HUANG Fa-liang,WEN Xiao-qian,et al.Evolution analysis method of microblog topic-sentiment based on dynamic topic sentiment combining model[J].Journal of Computer Applications,2015,35(10):2905-2910.
[10]Rao Y,Li Q,Mao X,et al.Sentiment topic models for social emotion mining[J].Information Sciences,2014,266(5):90-100.
[11]Dermouche M,Kouas L,Velcin J,et al.A joint model for topic-sentiment modeling from text[J].2015:819-824.
[12]Rao Y.Contextual Sentiment Topic Model for Adaptive Social Emotion Classification[J].IEEE Intelligent Systems,2016,31(1):41-47.
[13]Zhao Y,Qin B,Liu T,et al.Social sentiment sensor:a visualization system for topic detection and topic sentiment analysis on microblog[J].Multimedia Tools & Applications,2016,75(15):8843-8860.
[14]Peng B,Li J,Chen J,et al.Trending Sentiment-Topic Detection on Twitter[J].2015,9042(2):66-77.
[15]Pinto M,Saleiro P,Teixeira J.SentiBubbles:Topic Modeling and Sentiment Visualization of Entity-centric Tweets[C]// International C* Conference on Computer Science & Software Engineering.ACM,2016:123-124.
(本文責(zé)任編輯:孫國雷)endprint