劉義紅,朱 琛,祝恒書
(1.淮南師范學(xué)院計(jì)算機(jī)學(xué)院,安徽 淮南232001;2.中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230027;3.百度研究院大數(shù)據(jù)實(shí)驗(yàn)室,北京100085)
在信息高速發(fā)展的今天,網(wǎng)絡(luò)已成為人們獲取信息的重要途徑并正在改變著人們的生活行為方式。特別是基于Web 2.0的互聯(lián)網(wǎng)技術(shù)更是提高了網(wǎng)絡(luò)終端用戶的個性化程度,允許人們在網(wǎng)絡(luò)上進(jìn)行各種各樣的社會互動,表達(dá)自己的情感。例如,新浪、人民網(wǎng)、雅虎等一些在線社會新聞網(wǎng)站,允許人們在閱讀一篇新聞后,通過標(biāo)注情感標(biāo)簽來表達(dá)個人的社會情感(如有趣、感動、憤怒等),這種人工標(biāo)注的情感標(biāo)簽顯然可以精確地反映讀者對新聞的態(tài)度。另一方面,對含有社會情感的文本詞序進(jìn)行分析和研究,能夠進(jìn)一步提高情感分析的準(zhǔn)確率,更好地挖掘出人們的社會情感演變趨勢,進(jìn)而可以輔助情感預(yù)測、異常診斷以及文本分類等等,為決策者提供服務(wù)。近年來基于社會情感的數(shù)據(jù)挖掘,以及如何提高其準(zhǔn)確率成為文本挖掘應(yīng)用研究的熱點(diǎn)[2~13]。
本文提出一種基于詞序的社會情感演變分析模型BTMESE(Bigram Topic Model for analyzing the Evolution of Social Emotion)。模型試圖通過引入新聞文檔中詞與詞之間的前后關(guān)聯(lián)性,將時間、文本、情感三種信息結(jié)合起來進(jìn)行綜合分析,探討它們之間的內(nèi)在聯(lián)系,追蹤社會情感演變趨勢,以期進(jìn)一步提高情感分析的準(zhǔn)確率。最后,我們在真實(shí)世界的數(shù)據(jù)集上對模型進(jìn)行了檢驗(yàn),結(jié)果表明該模型簡單有效,能夠較好地進(jìn)行社會情感分析。
本文第2節(jié)概要介紹與本研究內(nèi)容相關(guān)的工作;第3節(jié)詳細(xì)介紹一種基于詞序的社會情感演變分析模型;第4節(jié)給出該方法的實(shí)驗(yàn)結(jié)果及分析;最后進(jìn)行總結(jié)并對下一步工作進(jìn)行展望。
社會情感挖掘,簡單而言,就是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理,又稱情感分析。目前,研究者主要聚焦在情感信息特征抽取、情感分類和情感信息檢索與歸納上[1]。情感信息特征抽取,一般在詞、句子、段落或篇章級層面進(jìn)行,旨在抽取情感文本中有價值的情感信息,它是情感分析的基礎(chǔ)任務(wù)[2]。情感分類,則是利用情感信息特征抽取的結(jié)果,將情感文本單元分為若干類別(如喜、怒、哀、樂等),供用戶查看。情感信息檢索與歸納,則是情感信息特征抽取和分類后呈現(xiàn)的結(jié)果應(yīng)用,它是情感分析技術(shù)與用戶交互的集中體現(xiàn)。其中,情感信息檢索是為用戶檢索出包含情感信息且主題又相關(guān)的文檔;而情感信息歸納是針對大量主題相關(guān)的情感文檔,自動分析和歸納整理出情感分析結(jié)果,供用戶參考。本文主要探討情感分析中的分類方法。
早期的情感分類研究,主要是將情感形式化為分類任務(wù),把整個文檔看成正面或負(fù)面,或評級得分,然后采用機(jī)器學(xué)習(xí)的方法進(jìn)行分類[3]。例如,文獻(xiàn)[4]利用分類算法從股票市場意見留言板上提取情感,用于決定是否購買或出售股票。文獻(xiàn)[5]利用樸素貝葉斯、最大熵、支持向量機(jī)(SVM)等方法對電影評論進(jìn)行分類。然而,隨著研究的深入,研究者又提出了一些全新的跨領(lǐng)域的情感分類算法。文獻(xiàn)[6]設(shè)計(jì)了一種基于Web信息的標(biāo)題情感分類算法。文獻(xiàn)[7]設(shè)計(jì)了一個MoodLens系統(tǒng),將新浪微博上的95個表情符號映射分類到四類情感中。文獻(xiàn)[8]設(shè)計(jì)了一個ESLAM 模型,對Tiwtter信息進(jìn)行情感分析,它的基本思想是用手動標(biāo)記的數(shù)據(jù)訓(xùn)練一個語言模型,然后利用平滑技術(shù)去處理噪聲情感數(shù)據(jù)。文獻(xiàn)[9]提出了一個多標(biāo)簽情感分類系統(tǒng)。該系統(tǒng)由文本分割、特征提取和多標(biāo)簽分類三個部分組成,用于微博情感分類。這些工作大多數(shù)是直接從文檔(或詞語)中研究感情。
另一方面,主題模型作為一種有效的文本分析工具,在文本和離散型數(shù)據(jù)分析中被廣泛運(yùn)用。一些研究者認(rèn)為文檔是由一些隱含的主題構(gòu)成的,這些主題決定著構(gòu)成文檔的單詞。因此,他們開始采用主題模型來分析社會情感,取得了很好的效果。文獻(xiàn)[10]提出一個主題-情感混合模型,在博客上進(jìn)行情感分析。文獻(xiàn)[11]提出一個基于LDA(Latent Dirichlet Allocation)擴(kuò)展的情感主題模型,從文檔中獲取主題和情感關(guān)聯(lián)。然而,這些方法均需要滿足一個基本假設(shè),就是文本中的詞是相互獨(dú)立的,忽略了詞序相關(guān)信息,并且很少考慮時間對主題的影響。因此,人們提出了一些改進(jìn)方法,融入詞序和時間等信息。例如,文獻(xiàn)[12]提出了一種基于LDA 的N-gram 語言模型,用來捕捉詞與詞之間的依賴關(guān)系。文獻(xiàn)[13]利用Topical N-gram 模型,依據(jù)新聞主題背景下詞與詞之間的關(guān)聯(lián)性,提出了一種新聞線索提取方法。文獻(xiàn)[14]提出了一種基于主題相關(guān)類的N-gram 語言模型,揭示潛在的主題信息,從中提取詞與詞之間的關(guān)系。文獻(xiàn)[15]提出一個主題時間ToT(Topics over Time)模型,每個主題在時間上是一個連續(xù)概率分布。文獻(xiàn)[16]提出一個微博-主題時間MB-ToT(MicroBlog-Topics over Time)模型,在微博上進(jìn)行綜合主題分析。文獻(xiàn)[17]提出一個情感時間主題模型eToT(emotion ToT),分析時間情感主題之間的關(guān)聯(lián)性。
綜上所述,目前基于社會情感挖掘的理論方法及工程應(yīng)用很多,但很少有人將詞序信息引入到文本情感分析和情感演變趨勢的挖掘之中,忽略了文本中詞序、時間所隱含的重要信息。
現(xiàn)在許多在線新聞允許不同用戶閱讀后,通過增加評論或注釋來表達(dá)自己的情感,可以進(jìn)一步理解為,每一篇新聞(文檔)是由一個時間戳、一組詞和一組情感組成。因此,我們采用概率圖模型來分析在線新聞的社會情感。為了方便描述圖模型,我們在這里定義下列術(shù)語和符號:
定義1 語料庫W,形式化定義為:
W={(t1,W1,E1),…,
(td,Wd,Ed),…,(tD,WD,ED)}
其中,三元組(td,Wd,Ed)表示第d個文檔是由時間戳td、詞向量Wd和情感集合Ed三部分構(gòu)成,D表示文檔總數(shù)。
定義2 文檔d中詞向量Wd,形式化定義為:
Wd=(wd,1,wd,2,…,wd,i,…,wd,Nd)
其中,wd,i表示文檔d中第i個詞項(xiàng),Nd表示文檔d中詞項(xiàng)總數(shù)。
定義3 文檔d中社會情感Ed,形式化定義為:
Ed={ed,1,ed,2,…,ed,i,…,ed,E}
其中,ed,i表示文檔d中第i個情感,E表示文檔d中情感類別數(shù)。
定義4 時間戳td是將文檔d的原始時間數(shù)據(jù)按照給定的時間粒度(如,月份、年等)進(jìn)行離散化得到的一個時間片。
本文中使用的符號如表1所述。
Table 1 Notations used in this paper表1 文中使用的符號說明
我們提出的基于詞序的社會情感演變分析模型(BTMESE)如圖1 所示,通過文檔中隱含的主題可以有效地分析出時間、文檔和情感三者之間的潛在聯(lián)系。圖1中,陰影節(jié)點(diǎn)表示觀察數(shù)據(jù),空白節(jié)點(diǎn)表示隱含變量,箭頭表示依賴關(guān)系。BTMESE中的每個主題在詞、情感和時間上分別對應(yīng)著一個隱含的概率分布,而如何選擇這些分布則依據(jù)實(shí)際問題而定。這里,一篇文檔中所有的詞共享相同的情感分布和同一時間戳,為簡化參數(shù)估計(jì)過程,假設(shè)主題在情感上服從Dirichlet分布,在時間上服從Beta分布(注意,我們需要將時間戳歸一化到0~1)。BTMESE的參數(shù)化設(shè)定如下:
Figure 1 Model of BTMESE圖1 BTMESE圖模型
BTMESE 模型生成一篇文檔的過程描述如下:
(1)根據(jù)先驗(yàn)Dirichlet(α) 分布得到文檔的一個主題多項(xiàng)式分布θd。
(2)對于文檔d中第個i(i∈Nd)單詞:
①從Mult(θd)中隨機(jī)選擇一個主題zd,i;
②若i≠1,從中產(chǎn)生一個單詞wd,i;否則,從中產(chǎn)生一個單詞wd,i。
根據(jù)上述生成過程,整個語料庫的完全數(shù)據(jù),即隨機(jī)變量主題z、單詞w、情感e和時間戳t的聯(lián)合概率分布表示為:
其中,nz,v,j表示主題z上單詞v后面出現(xiàn)單詞j的頻次,md,z表示文檔d上出現(xiàn)主題z的頻次,α、β為超參數(shù)。Γ()為Gamma函數(shù)。
BTMESE參數(shù)估計(jì),我們采用基于Gibbs采樣的近似推理方法[18,19]。在Gibbs采樣過程中,需要計(jì)算每個詞wd,i的條件后驗(yàn)概率分布,即Gibbs采樣公式。其推理過程:
其 中*﹁d,i表 示 除 單 詞wd,i外 其 它 單 詞 對 應(yīng) 的 隨機(jī)變量。其它符號含義同式(1)或表1。
在每次Gibbs迭代采樣后,我們更新參數(shù)θ、ψ、δ:
BTMESE有許多潛在的應(yīng)用,如情感預(yù)測、時間預(yù)測等,還可以分析主題在時間、情感上的演變趨勢。下面以情感、時間預(yù)測為例,介紹BTMESE的應(yīng)用。
情感預(yù)測是情感分析中的分類問題,具體地說,就是給出文檔(如,一篇新聞),預(yù)測出具有最高生成概率的情感e*,即:
而
其中,P(w|z) 、P(e|z) 、P(z)均可通過 模型學(xué)習(xí)得到。
更進(jìn)一步,在給出文檔d和時間戳t下,可預(yù)測出具有最高生成概率的情感e*,即:
其中,P(e,d,t)可由式(1)計(jì)算得到。
類似地,時間預(yù)測問題可以描述為,給出文檔d(如,一篇新聞),預(yù)測出具有最高生成概率的時間戳t,即:
而
其中,P(t|z)、P(z|d)很容易通過模型學(xué)習(xí)得到。
此外,本模型所揭示的情感演變信息可以對諸如新聞推薦、文本信息異常診斷提供一定的幫助。
實(shí)驗(yàn)數(shù)據(jù)來源中國科學(xué)技術(shù)大學(xué)語義計(jì)算與數(shù)據(jù)挖掘?qū)嶒?yàn)室,數(shù)據(jù)采集于新浪門戶網(wǎng)站社會新聞欄目上的社會新聞和用戶閱讀該新聞標(biāo)注的社會情感,時間從2012年8月21日至2013年11月11日。經(jīng)過預(yù)處理后,數(shù)據(jù)集由7 504 篇新聞和4 844 594個情感注釋組成,情感注釋有高興、感動、憤怒、難過、新奇、震驚等6個類別,采用XML數(shù)據(jù)格式存儲[20]。為了保證模型的性能,實(shí)驗(yàn)時我們?nèi)コ藬?shù)據(jù)中所有無意義的停止詞和頻次低于5的詞。
圖2給出了數(shù)據(jù)集的一些簡單統(tǒng)計(jì)特性,圖2a展示了不同類別上的情感數(shù)量分布,從圖中我們可以發(fā)現(xiàn)“憤怒”的情感最多,說明多數(shù)人喜歡用憤怒來反映自己的情感。圖2b展示了不同時間片的新聞上社會情感的分布,可以觀察到社會情感隨時間的演變過程,反映社會情感容易受到不同時間段的新聞事件影響。具體來說,就是數(shù)據(jù)集中的時間、文本、情感之間存在潛在關(guān)聯(lián)。
Figure 2 Simple statistical properties of the dataset圖2 數(shù)據(jù)集的一些簡單統(tǒng)計(jì)特性
實(shí)驗(yàn)中,BTMESE 模型需要預(yù)先給定一個數(shù)值K來表示新聞主題的個數(shù),這里,我們利用經(jīng)典方法Perplexity[21,22]來估計(jì)K值,將主題數(shù)K設(shè)置為50。依據(jù)文獻(xiàn)[23],將模型超參數(shù)α、β分別設(shè)置為50/K、0.01。經(jīng)過500次迭代,Gibbs采樣收斂,得到實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)結(jié)果展示了基于詞序的時間、情感、文本和新聞主題之間的隱含關(guān)系。為簡單說明問題,我們只隨機(jī)選擇四個隱含主題來分析實(shí)驗(yàn)效果。圖3展示了四個不同新聞主題在時間上的概率分布,圖4展示了四個不同新聞主題上具有最高生成概率的情感分布。從結(jié)果中我們發(fā)現(xiàn),topic#2、#3有相似的概率分布,這里情感標(biāo)簽“憤怒”的概率最大,但是,它們又出現(xiàn)在不同的時間片上。這表明,時間對情感能產(chǎn)生重要影響,進(jìn)而可分析出社會情感的演變過程。
Figure 3 Distributions of four different news topics with respect to different time spans圖3 四個不同主題在時間上的概率分布
Figure 4 Distributions of emotions in four different news topics圖4 四個不同主題上的情感概率分布
表2給出了四個不同新聞主題上的排序較高的前10個關(guān)聯(lián)詞。我們通過這些關(guān)聯(lián)詞可以發(fā)現(xiàn)社會事件。例如,Topic#1 表明人們比較關(guān)注教育事件,Topic#2、#3 表明發(fā)生了重大交通事故和征地拆遷引發(fā)社會關(guān)注的突發(fā)事件,Topic#4表明人們比較關(guān)注家庭情感事件。同時,我們還能通過觀察這些主題上表現(xiàn)出來的情感分布和發(fā)生的時間分布,進(jìn)一步分析出新聞事件下的社會情感變化。
Table 2 Top 10words in four different topics表2 四個不同主題上前10個排序詞
在這部分,我們通過情感預(yù)測性能分析來評價BTMESE模型的有效性。檢驗(yàn)方法是,首先選擇兩 個 較 先 進(jìn) 的eToT[17]、ETM(Emotion-Topic Model)[15]方法和一個最大熵模型MEM(Maximum Entropy Model)方法作為實(shí)驗(yàn)的基準(zhǔn),然后通過評價準(zhǔn)則驗(yàn)證BTMESE 模型的有效性。情感預(yù)測可以看作一個多分類問題,利用上述模型計(jì)算給定新聞文檔的每個情感的后驗(yàn)概率P(e|d) ,而每個模型在計(jì)算P(e|d) 后得到一組情感排序序列。因此,我們使用流行的評價準(zhǔn)則NDCG(Normalized Discounted Cumulative Gain)來評價每個方法的性能。NDCG指標(biāo)表示一個方法返回的排序序列是否接近真實(shí)值,其值越大表示排序性能越好。這里,
而
式(13)中IDCG@N表示最佳排序結(jié)果的DCG@N取值。式(14)表示N個情感排序結(jié)果的得分,reli表示第i個情感得分,我們設(shè)reli取值為:第i個情感總數(shù)Ei/所有情感總數(shù)E。
實(shí)驗(yàn)中,我們采用五折交叉驗(yàn)證的方法,將數(shù)據(jù)隨機(jī)分成五份,其中一份作為測試數(shù)據(jù),其余四份作為訓(xùn)練數(shù)據(jù),最后將五次實(shí)驗(yàn)平均得到最終結(jié)果。表3展示了不同模型的NDCG@N性能,結(jié)果表明,我們提出了方法在NDCG評價指標(biāo)上相對于其他基準(zhǔn)方法的性能提升顯著。
Table 3 NDCG@Nperformance of different models表3 不同模型的NDCG@N 性能
本文研究的目的是通過分析新聞文檔中的詞序關(guān)系,追蹤社會情感演變趨勢,以期有效地解決網(wǎng)絡(luò)在線新聞的社會情感分析問題,進(jìn)一步提高情感分析的準(zhǔn)確率,為在線服務(wù)提供幫助。研究提出了一種基于詞序的社會情感演變分析模型BTMESE,內(nèi)容包括生成模型的構(gòu)建、參數(shù)估計(jì)、應(yīng)用領(lǐng)域和實(shí)驗(yàn)性能評價等四個方面。最后,通過在真實(shí)世界的數(shù)據(jù)集上實(shí)驗(yàn),結(jié)果證明該模型簡單有效,能夠較好地進(jìn)行社會情感分析,準(zhǔn)確率較高。但是,文中還有一些地方需要進(jìn)一步完善,如主題的動態(tài)變化、主題的相關(guān)性等問題,這將是未來工作的研究方向。
[1] Zhao Yan-yan,Qin Bing,Liu Ting.Sentiment analysis[J].Journal of Software,2010,21(8):1834-1848.(in Chinese)
[2] Xu Lin-h(huán)ong,Lin Hong-fei,Zhao Jing.Construction and analysis of emotional corpus[J].Journal of Chinese Information Processing,2008,22(1):116-122.(in Chinese)
[3] Cambria E,Schuller B,Liu Bing,et al.Knowledge-based approaches to concept-level sentiment analysis[J].IEEE Intelligent Systems,2013a,28(2):12-14.
[4] Das S,Chen Mike.Yahoo!for amazon:extracting market sentiment from stock message boards[C]∥Proc of the 8th Asia Pacific Finance Association Annual Conference,2001:1.
[5] Pang Bo,Lee Lilian,Vaithyanathan S,et al.Sentiment classification using machine learning techniques[C]∥Proc of the ACL-02Conference on Empirical Methods in Natural Language Processing,2002:79-86.
[6] Kozareva Z,Navarro B,Vazquez S,et al.Ua-zbsa:A headline emotion classification through web information[C]∥Proc of the 4th International Workshop on Semantic Evaluations,2007:334-337.
[7] Zhao Ji-chang,Dong Li,Wu Jun-jie,et al.Moodlens:An emoticon-based sentiment analysis system for chinese tweets[C]∥Proc of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2012:1528-1531.
[8] Liu Kun-lin,Li Wu-jun,Guo Min-yi.Emoticon smoothed language models for twitter sentiment analysis[C]∥Proc of 26th AAAI Conference on Artificial Intelligence and the 24th Innovative Applications of Artificial Intelligence Conference,2012:1678-1684.
[9] Liu Su-h(huán)ua,Chen Jiun-h(huán)ung.A multi-label classification based approach for sentiment classification[J].Expert Systems with Applications,2015,42(3):1083-1093.
[10] Mei Qiao-zhu,Ling Xu,Wondra M,et al.Topic sentiment mixture:Modeling facets and opinions in weblogs[C]∥Proc of the 16th International Conference on World Wide Web,2007:171-180.
[11] Lin Cheng-h(huán)ua,He Yu-lan.Joint sentiment/topic model for sentiment analysis[C]∥Proc of the 18th ACM Conference on Information and Knowledge Management,2009:375-384.
[12] Wang Xue-rui,McCallum A.Topics over time:A non-markov continuous-time model of topical trends[C]∥Proc of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2006:424-433.
[13] Liu Shao-peng,Yin Jian,Ouyang Jia,et al.MB-ToT:An effective model for topic mining in microblogs[J].Applied Mathematics &Information Sciences,2014,8(1):299-308.
[14] Naptali W,Tsuchiya M,Nakagawa S.Topic-dependentclass-based n-gram language model[J].IEEE Transactions on Audio Speech and Language Processing,2012,20(5):1513-1525.
[15] Bao Sheng-h(huán)ua,Xu Sheng-liang,Zhang Li,et al.Mining social emotions from affective text[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(9):1658-1670.
[16] Lau Raymond Y K,Xia Yun-qing,Ye Yun-ming.A probabilistic generative model for mining cybercriminal networks from online social media[J].IEEE Computational Intelligence Magazine,2014,9(1):31-43.
[17] Zhu Chen,Zhu Heng-shu,Ge Yong.Tracking the evolution of social emotions:A time-aware topic modeling perspective[C]∥Proc of IEEE International Conference on Data Mining(ICDM),2014:697-706.
[18] Lin Xiao-jun,Li Dan,Wu Xi-h(huán)ong.A joint topical N-gram language model based on LDA[C]∥Proc of 2010the 2nd International Workshop on Intelligent Systems and Applications(ISA),2010:381-384.
[19] Yan Ze-h(huán)ua,Li Fang.News thread extraction based on topical N-gram model with a background distribution[C]∥Proc of the 18th International Conference on Neural Information,2011:416-24.
[20] http://emotiondata.sinaapp.com/.
[21] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3(5):993-1022.
[22] Azzopardi L,Girolami M,VanRisjbergen K.Investigating the relationship between language model perplexity and IR precision-recall measures[C]∥Proc of the 26th Annual International ACM SIGIR Conferenceon Researchand Development in Informaion Retrieval,2003:369-370.
[23] Heinrich G.Paramter estimaion for text analysis[R].Saxony:University of Leipzig,2009.
附中文參考文獻(xiàn):
[1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
[2] 徐琳宏,林鴻飛,趙晶.情感語料庫的構(gòu)建和分析[J].中文信息學(xué)報(bào),2008,22(1):116-122.