方茜
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)是人們獲取社會(huì)信息的重要途徑,已成為人們生活中不可缺少的一部分。他們通過(guò)各大網(wǎng)絡(luò)平臺(tái)發(fā)表個(gè)人觀點(diǎn),討論各種新鮮話題,話題的類型層出不窮,涉及國(guó)計(jì)民生、關(guān)乎群眾利益的突發(fā)性新聞話題。網(wǎng)絡(luò)平臺(tái)的自由性和多樣性已經(jīng)具有了引導(dǎo)輿論,影響受眾的能力。網(wǎng)絡(luò)輿情成為社會(huì)輿情的重要組成部分,由于網(wǎng)絡(luò)的傳播的隨機(jī)性、突發(fā)性、高速性,使得一些虛假及不良信息迅速上升為熱點(diǎn)話題,引起公眾的恐慌和不滿情緒,擾亂社會(huì)秩序。網(wǎng)絡(luò)輿情系統(tǒng)的研究與開(kāi)發(fā)已經(jīng)受到我國(guó)政府的高度重視,通過(guò)網(wǎng)絡(luò)輿情系統(tǒng)設(shè)置輿情監(jiān)測(cè)任務(wù),通過(guò)監(jiān)測(cè)與追蹤分析,對(duì)可能給社會(huì)帶來(lái)不利影響和風(fēng)險(xiǎn)的事件或者話題事先預(yù)測(cè),并進(jìn)行預(yù)警,對(duì)這類事件或者話題預(yù)先處置,以防止危機(jī)爆發(fā)。
目前已有很多網(wǎng)絡(luò)輿情系統(tǒng)產(chǎn)品,比較有名有清博輿情、新浪輿情通、林克輿情、樂(lè)思輿情等,這些產(chǎn)品能夠時(shí)時(shí)監(jiān)測(cè)到當(dāng)前網(wǎng)絡(luò)中發(fā)生的一些熱門話題,但是這些產(chǎn)品還存在一定的缺陷,第一,無(wú)法提供實(shí)時(shí)話題或文章的預(yù)警,需要輿情工作者手動(dòng)預(yù)警;第二,這些輿情產(chǎn)品未實(shí)現(xiàn)對(duì)輿情未來(lái)發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)。一個(gè)網(wǎng)絡(luò)輿情系統(tǒng)主要包含以下幾個(gè)主要功能:輿情監(jiān)測(cè)功能、輿情預(yù)測(cè)功能、輿情預(yù)警功能。在這些功能中涉及很多計(jì)算機(jī)領(lǐng)域技術(shù)方法及研究,本文主要綜述網(wǎng)絡(luò)輿情系統(tǒng)中這三個(gè)功能中的話題追蹤技術(shù)、情感極性判斷技術(shù)、輿情預(yù)測(cè)技術(shù)以及預(yù)警技術(shù)目前的研究現(xiàn)狀。
輿情監(jiān)測(cè)是網(wǎng)絡(luò)輿情系統(tǒng)的重要組成部分,通過(guò)輿情監(jiān)測(cè)技術(shù)能夠檢測(cè)話題,發(fā)現(xiàn)話題,追蹤話題,同時(shí)可以分析檢測(cè)話題下的文章情感極性,為系統(tǒng)的預(yù)警做鋪墊。輿情信息的采集是通過(guò)爬蟲(chóng)技術(shù)從各門戶網(wǎng)站各大平臺(tái)收集海量數(shù)據(jù),對(duì)這些海量數(shù)據(jù)進(jìn)行預(yù)處理、分類、聚類、存儲(chǔ)、統(tǒng)計(jì)分析,從而提取網(wǎng)絡(luò)輿情系統(tǒng)中用戶關(guān)注的信息為用戶提供服務(wù)。在輿情監(jiān)測(cè)技術(shù)中,本節(jié)主要闡述輿情話題追蹤技術(shù)和輿情情感極性判斷所用到的技術(shù)。
輿情話題追蹤的任務(wù)是跟蹤已知話題下的后續(xù)文章,若已知話題沒(méi)有明確描述時(shí),則需要由若干先驗(yàn)的文章聚類得到的。傳統(tǒng)方法主要使用文本分類的方法或者相似性方法,通過(guò)話題已有的文章訓(xùn)練樣本得到分類器,當(dāng)出現(xiàn)新文章時(shí)放入分類器,判斷是否屬于該類別話題。另一種方法是自適應(yīng)話題追蹤方法,其在分類過(guò)程中加入了學(xué)習(xí)機(jī)制,每判定完一篇文章后,如果該文章符合話題訓(xùn)練集的某一標(biāo)準(zhǔn),就將該文章加入訓(xùn)練集用以訓(xùn)練話題模型,不斷更新和調(diào)整話題追蹤訓(xùn)練模型,防止出現(xiàn)話題跟蹤不準(zhǔn)確和話題漂移現(xiàn)象。
表1 話題追蹤技術(shù)總結(jié)
在傳統(tǒng)話題追蹤中,話題模型得到后就不在進(jìn)行調(diào)整,從始用到終,然而隨著時(shí)間的發(fā)展,話題的側(cè)重點(diǎn)不斷發(fā)現(xiàn)變化,針對(duì)話題的演變,需要調(diào)整模型,才能更加準(zhǔn)確地進(jìn)行話題追蹤;而自適應(yīng)話題追蹤實(shí)現(xiàn)這個(gè)功能,會(huì)利用自學(xué)習(xí)的方法更新模型,能夠提高話題追蹤的準(zhǔn)確率。
網(wǎng)絡(luò)輿情系統(tǒng)中,在向用戶展示監(jiān)測(cè)到的某一話題的文章列表中會(huì)表示出每篇文章的情感極性,用于輿情管理工作者在監(jiān)測(cè)過(guò)程中做相應(yīng)的判斷。目前已有的研究中對(duì)輿情情感分析的研究主要分為基于文本分類的方法,將輿情情感極性作為分類處理,分類的結(jié)果為正中負(fù)三極,主要取決于分類器的選擇;其次是基于語(yǔ)義規(guī)則的情感分析識(shí)別,提取文章語(yǔ)義模式特征,對(duì)所有特征中語(yǔ)義傾向值求和作為該文章語(yǔ)義傾向值,與閾值比較得到情感極性;再次是基于情感詞典的情感極性識(shí)別,根據(jù)詞匯的傾向值來(lái)度量文本的傾向值,詞匯的傾向值通過(guò)計(jì)算詞匯與情感詞典中基準(zhǔn)詞之間的關(guān)聯(lián)度獲得,再求和文本所有詞匯傾向值與閾值比較得出情感傾向;最后是基于深度學(xué)習(xí)的情感極性識(shí)別。
表2 情感極性分析方法總結(jié)
基于本文分類、語(yǔ)義規(guī)則、情感詞典的方法存在訓(xùn)練集需要人工標(biāo)注,耗時(shí)耗力,且目前還沒(méi)有實(shí)現(xiàn)自動(dòng)抽取語(yǔ)義模式的方法,每個(gè)語(yǔ)義模式和語(yǔ)義傾向值需要人工完成,依賴專家知識(shí),同時(shí)對(duì)情感詞典的選擇要求也較高;而基于深度學(xué)習(xí)的方法能夠自動(dòng)提取特征,不依賴專家知識(shí),但需要大量的訓(xùn)練樣本。
網(wǎng)絡(luò)輿情系統(tǒng)中通過(guò)話題預(yù)測(cè)趨勢(shì),分析輿情未來(lái)趨勢(shì)才能做出合理的監(jiān)管和預(yù)警決策。網(wǎng)絡(luò)話題的傳播過(guò)程是一個(gè)基于時(shí)間序列的演化過(guò)程,其傳播呈現(xiàn)出不規(guī)則的趨勢(shì),且在話題的發(fā)展過(guò)程中常出現(xiàn)一些不確定影響因素,難以量化。盡管輿情話題傳播不是典型的時(shí)間序列,也沒(méi)有固定的演化模式,但利用時(shí)間序列的研究方法對(duì)網(wǎng)絡(luò)話題傳播趨勢(shì)依舊是可行的。最早提出的預(yù)測(cè)模型是線性預(yù)測(cè)模型,但在線話題傳播是一個(gè)相對(duì)復(fù)雜的過(guò)程,不僅包含線性機(jī)制,同時(shí)還包含非線性機(jī)制,因此有研究者提出非線性模型。然而話題的傳播過(guò)程中存在明顯的混沌特性,且存在很多不確定因素,因此預(yù)測(cè)模型需要自適應(yīng)調(diào)整,又提出自適應(yīng)模型。自適應(yīng)模型是在前兩種方法的基礎(chǔ)中加入自適應(yīng)規(guī)則動(dòng)態(tài)調(diào)整訓(xùn)練樣本,更新訓(xùn)練模型,有效地調(diào)整因輿情傳播過(guò)程中的隨機(jī)性和不確定性因素帶來(lái)的偏差,使得預(yù)測(cè)更加準(zhǔn)確。表3 列出目前對(duì)輿情話題預(yù)測(cè)的分類及每個(gè)分類下的方法。
表3 預(yù)測(cè)模型方法總結(jié)
網(wǎng)絡(luò)輿情系統(tǒng)實(shí)現(xiàn)預(yù)警功能的主要目的是為了持續(xù)監(jiān)測(cè)輿情信息,全面了解輿情的基本情況和發(fā)展態(tài)勢(shì),發(fā)現(xiàn)潛在問(wèn)題,做到危機(jī)事件爆發(fā)前對(duì)輿情進(jìn)行及時(shí)跟蹤處理,維護(hù)社會(huì)秩序和穩(wěn)定。現(xiàn)有的輿情預(yù)警研究大部分以我國(guó)為主,主要有兩類研究:一種是通過(guò)不同層次的預(yù)警指標(biāo)體系,建立預(yù)警模型,得到預(yù)警分級(jí);另一種是通過(guò)量化某些輿情數(shù)據(jù)的特征屬性(情感極性、態(tài)度等)進(jìn)行建模實(shí)現(xiàn)網(wǎng)絡(luò)輿情未來(lái)發(fā)展趨勢(shì)的預(yù)測(cè),并根據(jù)具體的預(yù)測(cè)結(jié)果進(jìn)行預(yù)警分級(jí)。
輿情指標(biāo)體系的建立是輿情預(yù)警的關(guān)鍵步驟,通過(guò)預(yù)警指標(biāo)能夠發(fā)現(xiàn)網(wǎng)絡(luò)輿情的潛在問(wèn)題,對(duì)輿情信息的判斷更加客觀。輿情指標(biāo)體系的建立主要有以下幾個(gè)組成:
(1)確定關(guān)鍵指標(biāo)的構(gòu)成
(2)指標(biāo)橫向維度
(3)指標(biāo)縱向?qū)哟?/p>
(4)指標(biāo)量化
在現(xiàn)有的研究中,確定關(guān)鍵指標(biāo)的構(gòu)成方法主要有專家問(wèn)卷調(diào)查法和文獻(xiàn)法。而指標(biāo)量化中指標(biāo)權(quán)重的確定相對(duì)較多,主要有:①問(wèn)卷法,在問(wèn)卷法中大部分使用德?tīng)柗品?,有少?shù)文章使用格柵法來(lái)為指標(biāo)打分;②層次分析法(AHP);③熵權(quán)法;④模糊德?tīng)柗坪湍:龑哟畏治龇?。這些方法確定指標(biāo)權(quán)重具有較強(qiáng)的主觀性,主要依賴于專家知識(shí),同時(shí)確實(shí)論證過(guò)程。第四種方法相對(duì)于前幾種加入模糊理論,引入一定的客觀性。如何去除指標(biāo)權(quán)重計(jì)算較強(qiáng)的主觀性和科學(xué)性是未來(lái)研究的方向。
預(yù)警模型的建立主要通過(guò)兩種方式,一種是通過(guò)指標(biāo)體系使用模糊理論建立預(yù)警模型,另一種是通過(guò)機(jī)器學(xué)習(xí)來(lái)建立預(yù)警模型,表4 列出目前的預(yù)警模型主要方法。
表4 預(yù)測(cè)模型方法總結(jié)
模糊理論建立的預(yù)警模型主要是建立隸屬度函數(shù),對(duì)各指標(biāo)因素進(jìn)行評(píng)判確定其隸屬度,將其與預(yù)先設(shè)置好的預(yù)警等級(jí)閾值進(jìn)行比較,得到相應(yīng)等級(jí)的預(yù)警。機(jī)器學(xué)習(xí)方法建立預(yù)警模型主要是通過(guò)將指標(biāo)量化,建立預(yù)警模型,輸入為量化后的指標(biāo),輸出為預(yù)警等級(jí)。目前針對(duì)輿情預(yù)警的研究相對(duì)較少,對(duì)輿情預(yù)警研究的主要來(lái)源于管理科學(xué)學(xué)科人員,極少部分來(lái)源計(jì)算機(jī)學(xué)科,將計(jì)算機(jī)領(lǐng)域知識(shí)運(yùn)用的輿情預(yù)警的準(zhǔn)確性是輿情預(yù)警研究的未來(lái)方向。
網(wǎng)絡(luò)輿情系統(tǒng)的功能構(gòu)建關(guān)乎到能否對(duì)輿情信息進(jìn)行監(jiān)測(cè),實(shí)現(xiàn)準(zhǔn)確分析,在輿情危機(jī)爆發(fā)前對(duì)其進(jìn)行處理,防止輿情危機(jī)爆發(fā),擾亂社會(huì)秩序,制造混亂。目前的網(wǎng)絡(luò)輿情系統(tǒng)還存在一定的缺陷,預(yù)測(cè)和預(yù)警不夠準(zhǔn)確?,F(xiàn)有的研究中在輿情話題追蹤技術(shù)和情感極性分析技術(shù)相對(duì)較為成熟,而對(duì)預(yù)測(cè)和預(yù)警技術(shù)還需加大研究力度,從而實(shí)現(xiàn)功能更加完備準(zhǔn)確有效的網(wǎng)絡(luò)輿情系統(tǒng)。