李肇明,李 旸,孫 敏,張恩寶,李倩倩
(1.安徽國際商務(wù)職業(yè)學院,安徽 合肥 230031;2.安徽農(nóng)業(yè)大學信息與計算機學院,安徽 合肥 230036)
隨著移動互聯(lián)網(wǎng)的快速發(fā)展,越來越多的用戶通過電腦、手機訪問互聯(lián)網(wǎng)產(chǎn)生了大量的用戶行為數(shù)據(jù),其中在線社交網(wǎng)絡(luò)吸引和聚集了大量的用戶。如:新浪微博、微信、Twitter、FaceBook等國內(nèi)外知名的社交網(wǎng)絡(luò)平臺。在這些社交網(wǎng)絡(luò)平臺中每天有大量用戶在其中活躍,會產(chǎn)生體量十分龐大的社交網(wǎng)絡(luò)數(shù)據(jù)。以新浪微博為例,到2019年6月微博月活躍用戶達到4.86億,日活躍用戶已達到2億,每天會產(chǎn)生數(shù)十億條微博信息,可見新浪微博已經(jīng)成為了國內(nèi)最重要的社交網(wǎng)絡(luò)平臺。在網(wǎng)絡(luò)中的社交,用戶的行為模式復雜多樣。交互行為使得信息在網(wǎng)絡(luò)中快速傳播,其中對用戶行為的預測與分析已經(jīng)成為當下最熱門的研究課題。
在社交網(wǎng)絡(luò)中,各類推薦算法應用十分廣泛,國內(nèi)外學者在這方面做了很多工作。在理想的情況下,精準地推薦需要與用戶的實時興趣喜好相配對,用戶的實時喜好又決定了用戶實時的行為。在實際應用中,用戶的偏好變化受多個因素的影響,其中情感因素是用戶偏好的核心因素,情感強度的強弱又可以直接反映出用戶偏好的態(tài)度。本文通過文本挖掘來研究情感強度的強弱進而預測對用戶行為的影響。
在信息化高度發(fā)達的時代,微博已成為信息傳播最主要的社交網(wǎng)絡(luò)之一。分析微博用戶的行為習慣一方面不僅能夠更好地把握用戶的行為趨向,而且為推薦系統(tǒng)等研究提供理論基礎(chǔ);另一方面能夠預測微博信息的傳播途徑,對事件預警和輿情監(jiān)控起到重要的參考價值。目前國內(nèi)外學者對社交網(wǎng)絡(luò)行為的研究側(cè)重于用戶的瀏覽和轉(zhuǎn)發(fā)行為進行預測,但是經(jīng)常會忽略用戶自身情感的作用。心理學認為,用戶的行為舉止會直接受到情感的影響。情感分析在社交網(wǎng)絡(luò)中的應用也越來越普遍,一般來說,廣義的情感分析是指針對文本的觀點、情緒和態(tài)度的一種計算研究[1]。主要涵蓋情緒分析、態(tài)度分析以及emoji表情挖掘等一系列研究。本文圍繞著情感強度,從微博文本中提取用戶的情感信息建模研究,挖掘用戶的情感強度,分析用戶情感強度對用戶轉(zhuǎn)發(fā)行為的影響。
文本情感分析是指對帶有情感色彩的主觀性文本采用分析、概括和推理的過程。最開始的情感解析只是針對于感情色彩的詞語來進行分析。如:“喜歡”是帶有褒義色彩的詞語;“討厭”是帶有貶義色彩的詞語。但隨著社交網(wǎng)絡(luò)的發(fā)展,程度副詞以及emoji表情更能夠直觀地表達使用者的情感。國內(nèi)外專家在這個方向也開展許多的研究。李吉等[2]利用同義詞詞林擴展版和大連理工情感詞匯本體構(gòu)建情感詞典。使用PAD三維情感模型來計算情感強度,以此對商品評論所蘊含的情感狀態(tài)加以分析研究,并對網(wǎng)絡(luò)口碑輿情進行監(jiān)測評估。夏夢婷等[3]提出從語義角度分析網(wǎng)絡(luò)輿情評價事件中情感詞、短語、句子和篇章的情感強度。利用HowNet中文詞語相似度計算詞語的權(quán)值,并對網(wǎng)絡(luò)輿情中的多個對象采用計算情感強度的方法,最后計算出網(wǎng)絡(luò)輿情情感強度。Thelwall M等[4]使用SentiStrength算法從非正式英文文本中提取情感強度,挖掘網(wǎng)絡(luò)空間中的事實語法和拼寫風格,將sentistrength應用于myspace的評論,并使用機器學習優(yōu)化術(shù)語情感強度查找表。實驗表明sentistrength能夠以60.6%的準確率預測積極情緒;以72.8%的準確率預測消極情緒。Yangsen Zhang等[5]提出一種協(xié)調(diào)的CNN-LSTM-Attention(CCLA)模型。用CCLA單元學習句子的向量表示,句子的語義和情感信息及其關(guān)系被自適應地編碼為文檔的矢量表示。使用softmax回歸分類器來識別文本中的情緒傾向,與其他方法相比,CCLA模型可以很好地捕獲局部和長距離的語義和情感信息。
在線社交網(wǎng)絡(luò)的內(nèi)容中包含很多情感信息,這些信息表達了用戶對事物的情緒和態(tài)度,對用戶行為的預測有著重要的影響。秦鋒等[6]從用戶屬性、用戶興趣和用戶情緒三個方向,對影響微博用戶行為的原因進行深度解析,提取對用戶有影響的特征建立預測模型,實驗結(jié)果表明對用戶行為的預測準確率大大提高。Yanbing Liu等[7]針對用戶轉(zhuǎn)發(fā)的行為提出一種基于模糊理論和神經(jīng)網(wǎng)絡(luò)算法的用戶轉(zhuǎn)發(fā)熱點話題預測方法。該方法不僅能夠充分表達模糊性和隨機性,對非線性關(guān)系也有很好的逼近能力,還可以準確預測用戶行為,同時能夠動態(tài)感知熱點話題的變化。
綜上所述,目前學術(shù)界針對用戶轉(zhuǎn)發(fā)行為的預測很少考慮文本的情感強度,已有的研究多傾向于情緒和興趣上,涉及情感強度值的方面研究較少。因此提出基于文本情感強度的用戶轉(zhuǎn)發(fā)預測模型。該模型利用新浪微博真實文本數(shù)據(jù)通過情感詞典進行細粒度提取情感強度,實驗驗證了情感強度對用戶轉(zhuǎn)發(fā)行為的有效性。
提出基于文本情感強度的用戶轉(zhuǎn)發(fā)預測模型,該模型主要包括2個模塊:文本情感強度分析模塊和用戶轉(zhuǎn)發(fā)預測模塊。
參考大連理工大學情感詞匯本體庫[8],根據(jù)徐琳宏等[9]論文《情感詞匯本體的構(gòu)造》所述,將情感分為7大類和21小類。7大類分別對應:好、惡、樂、怒、哀、懼、欲。其中情感強度分為五檔,分別是1、3、5、7、9。強度最大的為9,強度最小的為1。考慮到情感強度具有模糊性,將情感強度劃分略作修改,由于用戶的情感具有正面情感、中性情感和負面情感的特點,將情感強度按權(quán)值分為-5、-3、-1、0、1、3、5七檔。其中,-5代表負面情感最大值;5代表正面情感最大值;0代表中立的情感強度,一般認為是中立的態(tài)度。如表1所示。
Tab.1 Classification of emotional intensity表1 情感強度級別劃分
情感強度分析的難度是如何確定文本中基準詞及它們的情感強度。引入情感詞模糊性規(guī)則,在情感詞權(quán)值的基礎(chǔ)上設(shè)計一個量化計算情感詞的方法。其主要思想為構(gòu)造一個情感強度計算公式,訓練出來的情感強度絕對值越大,所表示的情感就越劇烈,其情感傾向就越明確。具體方法如下:
提出模糊量化情感詞。根據(jù)訓練的語料庫找出情感詞,情感詞的選取標準按照高頻詞匯和情感詞強度權(quán)值來選取,其中情感強度權(quán)值采用人工標注的方式。設(shè)確定訓練樣本集為Dtraining={D,E}dj(j=1,2,…,m)-ei={o=1,2,…,k}_D_Dd__ei屬于情感詞類別文檔dj的概率為:
其中,P(ei|dj)表示情感ei為情感詞類別文檔dj的概率。count(eij)_ei在dj類別文檔的個數(shù)。
對于任意一個情感詞ei在訓練集的Dtraining情感強度為:
其中ID_Dd___
利用智能爬蟲軟件爬山虎采集器[11]收集新浪微博平臺的數(shù)據(jù)。采集特定用戶所有微博的內(nèi)容,包括發(fā)布時間、內(nèi)容、轉(zhuǎn)發(fā)、評論、點贊的個數(shù)。然后對用戶進行去重,過濾無效用戶,最后得到有效的用戶集合U。提取每個用戶12小時內(nèi)發(fā)布的微博內(nèi)容,包括原創(chuàng)和轉(zhuǎn)發(fā)的微博。對獲取的數(shù)據(jù)集先隨機選擇100位用戶,收集與他們相關(guān)聯(lián)的用戶,共有20000用戶,通過計算每個用戶平均有200個粉絲。然后根據(jù)轉(zhuǎn)發(fā)情況進行人工標注,并過濾掉無用的屬性,得到實驗數(shù)據(jù)集,共包含250000條數(shù)據(jù)。每條數(shù)據(jù)記錄屬性的用戶編號、微博內(nèi)容、轉(zhuǎn)發(fā)次數(shù)。
因為微博文本具有口語化,表達隨意性的特征,所以在試驗前需要進行相關(guān)的預處理:①分詞:使用情感分析工具SnowNLP[12]來分詞并提取關(guān)鍵詞。SnowNLP是一個python寫的類庫,可以方便地處理中文文本內(nèi)容。②詞性標注:提取完關(guān)鍵詞后,根據(jù)情感詞的規(guī)則,標注正向負向情感詞作為基準詞。③情感分析:根據(jù)上面公式計算出情感詞的強度。
為了評估用戶轉(zhuǎn)發(fā)行為的效果,采用準確率P(Precision)、召回率R(Recall)和F值(F-measure)作為評價指標,轉(zhuǎn)發(fā)行為實驗結(jié)果以表2的形式表示.
表2 實驗結(jié)果統(tǒng)計
那么,P、R、F計算公式分別如下:
為了證明所提模型的有效性,采用了3種主流的方法進行對比驗證:
方法1:使用KMeans算法對用戶的微博數(shù)據(jù)進行聚類,獲取用戶偏好的主題詞,再映射為用戶的特征向量,使用SVM實現(xiàn)微博轉(zhuǎn)發(fā)預測。
方法2:使用改進的TF-IDF結(jié)合用戶的情緒和興趣提取用戶的關(guān)鍵詞 ,映射為用戶的興趣特征向量,最后使用SVM實現(xiàn)微博轉(zhuǎn)發(fā)預測。
方法3:使用LDA從抓取的微博文本中抽取主題特征,實現(xiàn)文本內(nèi)容到主題向量的映射,使用SVM實現(xiàn)微博轉(zhuǎn)發(fā)預測。
方法4(本文方法):使用SnowNLP提取文本的關(guān)鍵詞,并計算情感強度,再映射為特征向量,最后使用LIBSVM軟件包實現(xiàn)微博轉(zhuǎn)發(fā)預測。
采用10次交叉驗證方式驗證各方法的有效性,即將數(shù)據(jù)集分成10份,輪流將其中9份作為訓練數(shù)據(jù),1份作為測試數(shù)據(jù)進行試驗。采用P、R、F值作為檢驗模型效果的評價指標。不同方法的實驗結(jié)果如表3所示。
表3 不同方法實驗數(shù)據(jù)
不同方法的實驗結(jié)果比較如圖1所示。
圖1 不同方法實驗結(jié)果
本研究提出基于文本情感強度的微博轉(zhuǎn)發(fā)預測模型。通過獲取用戶的情感關(guān)鍵詞并使用情感強度權(quán)值公式判斷情感強度更加的精確,同時降低了多維度分析情感差異的復雜性,提高情感分析對用戶轉(zhuǎn)發(fā)行為影響的準確性。在新浪微博真實數(shù)據(jù)集上進行對比實驗,實驗結(jié)果證明本方法在用戶轉(zhuǎn)發(fā)行為上的有效性。在未來研究中,將從以下二個方面進行改進:① 研究如何解決中性情感強度的判斷過于死板問題;② 研究運用知識圖譜和深度學習技術(shù)分析微博中圖片和視頻等信息如何加入到情感強度的模型中,從而進一步提高用戶轉(zhuǎn)發(fā)預測的準確率。