□馮子桓 梁 循 牛思敏
[中國人民大學(xué) 北京 100872]
隨著互聯(lián)網(wǎng)的快速發(fā)展和數(shù)字時代的到來,人們傳統(tǒng)地獲取、分享、交流信息的方式正在發(fā)生根本性的改變,人們可以很方便地獲取與共享網(wǎng)絡(luò)上的資源,自由地通過網(wǎng)絡(luò)進(jìn)行交流與溝通。人們通過互聯(lián)網(wǎng)的各種手段表達(dá)對社會事件的認(rèn)識、態(tài)度和情感,這些手段包括微博、微信、短視頻、新聞評論等形式。由于新技術(shù)、新應(yīng)用不斷出現(xiàn),其傳播途徑和傳播方式更加隱蔽和復(fù)雜,能否及時掌握網(wǎng)絡(luò)輿論的最新動向,對于國家安全和社會穩(wěn)定具有重要意義。
輿情主題圖譜是一種以大規(guī)模采集的社交網(wǎng)絡(luò)輿情數(shù)據(jù)為基礎(chǔ)并對其進(jìn)行語義抽取和標(biāo)注,而構(gòu)建的覆蓋大規(guī)模輿情事件和實體的語義關(guān)聯(lián)覆蓋網(wǎng)絡(luò)。它可以實現(xiàn)對輿情主題圖譜數(shù)據(jù)的采集和主題圖譜的構(gòu)建,為社交網(wǎng)絡(luò)輿情主題圖譜的挖掘提供依據(jù)和支撐,對現(xiàn)實輿情事件相關(guān)的一切事物及其相互關(guān)系進(jìn)行形式化的描述。
從輿情數(shù)據(jù)、輿情信息到輿情主題圖譜的流程中,社交輿情大數(shù)據(jù)作為互聯(lián)網(wǎng)大數(shù)據(jù)的一部分,具有其特殊性。社交網(wǎng)絡(luò)輿情資源具有海量、分布、異構(gòu)、多粒度等多種特性,為對其進(jìn)行有效的數(shù)據(jù)挖掘,就需要首先對這些海量、分布、異構(gòu)、多粒度的輿情資源進(jìn)行知識抽取,為輿情主題圖譜的構(gòu)建提供數(shù)據(jù)基礎(chǔ)。根據(jù)知識組織的相關(guān)性原理和有序性原理,社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的組織可以具體化為:社交網(wǎng)絡(luò)輿情大數(shù)據(jù)主題圖譜的構(gòu)建與社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的分析兩個主要方面。因此,如何構(gòu)建社交網(wǎng)絡(luò)輿情大數(shù)據(jù)主題圖譜并對其進(jìn)行有效分析便成為該領(lǐng)域需要解決的一個關(guān)鍵性問題。
本文以輿情和知識圖譜為關(guān)鍵研究領(lǐng)域,針對輿情大數(shù)據(jù)多源異構(gòu)性、多維關(guān)聯(lián)性、多重可用性的問題,挖掘輿情信息、構(gòu)建輿情主題知識圖譜,并利用輿情主題圖譜的應(yīng)用價值,自下而上地從理論和實踐多方面介紹大數(shù)據(jù)環(huán)境下社交網(wǎng)絡(luò)輿情主題圖譜的構(gòu)建和分析調(diào)控。
1. 社交網(wǎng)絡(luò)輿情
輿情是指在一定的時間空間范圍內(nèi),社會民眾對社會事件的產(chǎn)生與發(fā)展變化所持有的一種態(tài)度,是民眾對社會中出現(xiàn)的各種現(xiàn)象和問題集中表達(dá)出來的意見和態(tài)度的總和[1~3]。社交網(wǎng)絡(luò)輿情是指公眾在社交平臺上對某種社會公共問題、現(xiàn)象或具體事件公開表達(dá)的具有傾向性和一定影響力的言論、態(tài)度的集合。
對社交網(wǎng)絡(luò)輿情的有效掌控,是在新形勢下應(yīng)對社會新變化新發(fā)展的必然要求。但是,由于網(wǎng)絡(luò)存在一定程度的虛擬性且社交網(wǎng)絡(luò)的覆蓋范圍越來越大,輿情傳播的途徑和形式也越來越復(fù)雜,輿情管理面臨著不小的壓力和挑戰(zhàn)[4]。例如,在社交網(wǎng)絡(luò)上,“造謠一張嘴,辟謠跑斷腿”一直是辟謠者所面臨的現(xiàn)實困境。要想和虛假信息做斗爭,就必須對在線社會網(wǎng)絡(luò)謠言進(jìn)行實時檢測,針對不同類別和應(yīng)用場景的網(wǎng)絡(luò)謠言,還需要從目標(biāo)、對象和時間三個屬性入手,同時對謠言源進(jìn)行檢測[5],可見數(shù)據(jù)量之大,檢測難度之高。
2. 社交網(wǎng)絡(luò)輿情主題圖譜
知識圖譜是一個具有屬性的實體通過關(guān)系鏈接而成的網(wǎng)狀知識庫,以符號形式來描述現(xiàn)實世界中的實體及其相互關(guān)系[6]。其構(gòu)建有兩種方式:自頂向下構(gòu)建和自底向上構(gòu)建。其中最典型就是Google的Knowledge Vault[7]。
構(gòu)建知識圖譜的第一步是知識抽取,主要分為以下幾種方法。
(1)實體和主題抽取。實體抽取的方法分為三種[8]:基于規(guī)則和詞典的方法、基于統(tǒng)計機(jī)器學(xué)習(xí)的方法、混合法。面向開放域的實體抽取則是從大量的互聯(lián)網(wǎng)語料中采取一定的技術(shù)手段進(jìn)行實體抽取[9~11]。主題抽取也稱話題檢測,話題檢測的主要任務(wù)是檢測新話題,是一種無監(jiān)督聚類方法,如果爬取到的話題與之前產(chǎn)生的某個話題類別相關(guān),則將其融合;否則,產(chǎn)生一個新的話題類別[12]。
(2)概念和屬性抽取。屬性抽取的目標(biāo)是從不同信息源中采集特定實體的屬性信息。對于非結(jié)構(gòu)化的公開數(shù)據(jù),可以利用結(jié)構(gòu)化數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,再將訓(xùn)練出來的模型應(yīng)用于非結(jié)構(gòu)化的實體屬性抽取[13];還可以采用數(shù)據(jù)挖掘的方法從大量的數(shù)據(jù)中提取實體屬性與屬性值之間的關(guān)系模式[14]。
(3)情感關(guān)系抽取。對于情感關(guān)系抽取,學(xué)者們先后構(gòu)建了基于規(guī)則的Twitter情感分析系統(tǒng)[15]、基于層次結(jié)構(gòu)多策略的情感分析框架[16]、情感極性判別分析[17]等。
實體關(guān)系抽取是圖譜構(gòu)建的重要環(huán)節(jié)。關(guān)系抽取的主要方法有:基于模式匹配的方法[18~19]、基于語義詞典的方法[20~22]、基于有監(jiān)督的方法[23~24]、基于種子或自舉(bootstrapping)的方法、基于遠(yuǎn)程監(jiān)督(distant supervision)的方法[25~27]等。最后通過關(guān)聯(lián)關(guān)系將離散的命名實體聯(lián)系起來,形成網(wǎng)狀的知識結(jié)構(gòu)。
知識圖譜作為人類對理解認(rèn)識的一種結(jié)構(gòu)化模擬,不僅可以很好地幫助計算機(jī)進(jìn)行語義的理解,應(yīng)用于知識庫問答、文本生成、情感分析等多個方面,而且針對某一特定領(lǐng)域建立相關(guān)的知識圖譜也極大地提高了用戶的體驗。構(gòu)建具有領(lǐng)域特色的知識圖譜,可以很好地應(yīng)用于復(fù)雜分析和決策的場景,該技術(shù)在自然語言處理、推薦系統(tǒng)、預(yù)測分析、識別、分類等各種信息網(wǎng)絡(luò)中具有深厚而有影響力的應(yīng)用[28]。在此,我們著重介紹針對社交網(wǎng)絡(luò)輿情領(lǐng)域知識圖譜的構(gòu)建與分析。
1. 網(wǎng)絡(luò)輿情分析方面
在Web of Science中,檢索關(guān)鍵詞“public opinion OR public sentiment”,選擇范圍為網(wǎng)絡(luò)(web OR internet OR www OR network),時間跨度為1950年至今(2021-09-04),共檢索到9 965篇期刊論文和會議論文。
從學(xué)科分布來看,網(wǎng)絡(luò)輿情問題吸引了計算機(jī)科學(xué)、行為科學(xué)、社會學(xué)、心理學(xué)、工程、新聞與媒體等領(lǐng)域?qū)<覍W(xué)者的密切關(guān)注。
從研究者的分布情況來看,如圖1所示,相關(guān)研究者主要集中在中國、美國、英國、西班牙、加拿大、德國等國家。
圖1 關(guān)于網(wǎng)絡(luò)輿情研究的國家分布狀況
從時間分布來看,這幾年網(wǎng)絡(luò)輿情主題越來越受到國際學(xué)者的關(guān)注,如圖2所示,盡管2021年發(fā)文量暫時還未統(tǒng)計完,2011~2020年一直呈上升的態(tài)勢。
圖2 關(guān)于網(wǎng)絡(luò)輿情研究的時間分布狀況
國內(nèi)學(xué)者如蘭月新、陳福集、黃微、李國祥等對網(wǎng)絡(luò)輿情進(jìn)行了積極探索。研究主題主要集中在網(wǎng)絡(luò)輿情、網(wǎng)絡(luò)輿論、網(wǎng)絡(luò)輿情應(yīng)對的研究。新媒體與移動網(wǎng)絡(luò)的流行使輿情在豆瓣、微博、微信上傳播更加迅速,輿情往往會在多個社交平臺上聯(lián)動發(fā)酵。高校大學(xué)生作為活躍的網(wǎng)民群體引起了學(xué)者對高校網(wǎng)絡(luò)輿情的關(guān)注。“新媒體”“情感分析”“電子政務(wù)”等熱詞開始進(jìn)入網(wǎng)絡(luò)輿情的研究領(lǐng)域,推動該主題的研究往縱深方向發(fā)展。
2. 知識圖譜方面
在Web of Science中,檢索主題為“Knowledge Graph”,時間跨度為1950年至今(2021-09-04),共檢索到24 251篇期刊論文。
從學(xué)科分布來看,知識圖譜吸引了計算機(jī)科學(xué)、數(shù)學(xué)、工程、商業(yè)、經(jīng)濟(jì)學(xué)、醫(yī)學(xué)等領(lǐng)域?qū)<覍W(xué)者的密切關(guān)注。從研究者的分布情況來看,如圖3所示,相關(guān)研究者主要集中在中國、美國、德國、法國、西班牙、英國、加拿大等國家。
圖3 關(guān)于知識圖譜研究的國家分布狀況
從時間分布來看,這幾年知識圖譜主題越來越受到國際學(xué)者的關(guān)注,如圖4所示,2011~2019年一直呈上升的態(tài)勢,盡管2020年發(fā)文較少,但期刊發(fā)文數(shù)仍超過2 500篇。
圖4 關(guān)于知識圖譜研究的時間分布狀況
從中國知網(wǎng)中的知識圖譜主題發(fā)文量來看,從2014年開始,該主題成為國內(nèi)研究熱點領(lǐng)域之一,發(fā)文數(shù)持續(xù)攀升。目前,知識圖譜除了在圖書情報學(xué)領(lǐng)域得到廣泛和深入應(yīng)用外,正快速地向其他學(xué)科或領(lǐng)域(如計算機(jī)軟件、教育理論、自動化管理、企業(yè)經(jīng)濟(jì)、體育等)擴(kuò)散,并且取得了非常豐富的科研成果,且研究成果呈現(xiàn)遞增趨勢??傮w而言,知識圖譜當(dāng)前應(yīng)用主要集中在公開數(shù)據(jù)集的研究以及知識庫的構(gòu)建,同時對各學(xué)科的研究熱點與前沿、研究主題及研究基礎(chǔ)等進(jìn)行可視化分析。而利用知識圖譜原理和技術(shù)對網(wǎng)絡(luò)輿情信息進(jìn)行可視化關(guān)聯(lián)分析的研究比較少。
3. 基于社交網(wǎng)絡(luò)分析相關(guān)技術(shù)輿情主題圖譜挖掘方面
從學(xué)術(shù)研究方面來看,現(xiàn)有的人工智能技術(shù)大多以數(shù)據(jù)驅(qū)動為主,目前仍停留在計算智能和感知智能。通過一系列復(fù)雜算法和大規(guī)模的數(shù)據(jù)計算去得到規(guī)律進(jìn)行學(xué)習(xí)與決策,很容易造成數(shù)據(jù)依賴,導(dǎo)致模型的效果不佳[29],并且這種方式的可解釋性差,不可控性凸顯。同時,越來越多的學(xué)者意識到人類對于問題的解決思路,并不像現(xiàn)有的基于統(tǒng)計的機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)技術(shù)那樣需要經(jīng)過大規(guī)模的數(shù)據(jù)運(yùn)算,而是簡單的通過概念之間的關(guān)系進(jìn)行推理就可以得到答案。這使得研究者更加清晰地認(rèn)識到人工智能不應(yīng)該局限于計算智能與感知智能,要想實現(xiàn)智能、魯棒、可解釋、可推理多方完善的人工智能系統(tǒng),將現(xiàn)有的技術(shù)與基于知識規(guī)則的認(rèn)知智能相結(jié)合才是更好的選擇。例如,在進(jìn)行表征學(xué)習(xí)時,混合知識圖譜嵌入和卷積運(yùn)算或神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)勢,可以用于研究和提取社交網(wǎng)絡(luò)結(jié)構(gòu)中有意義的特征,以幫助節(jié)點分類,社區(qū)檢測和鏈接預(yù)測問題[30],并且使用這種融合技術(shù)進(jìn)行嵌入相較于傳統(tǒng)的節(jié)點嵌入性能更好,但計算成本相對而言更高[31];對于企業(yè)而言,結(jié)合知識圖譜與文本挖掘技術(shù),將其業(yè)務(wù)數(shù)據(jù)和互聯(lián)網(wǎng)輿情數(shù)據(jù)進(jìn)行對比、關(guān)聯(lián)分析,可發(fā)掘研判與應(yīng)對規(guī)律,利于輿論引導(dǎo)、輿情應(yīng)對的高效開展[32]。
4. 國內(nèi)外知名企業(yè)及學(xué)者相關(guān)研究方面
我們熟知的Facebook、騰訊、微博等,無論是企業(yè)本身在知識圖譜的構(gòu)建與應(yīng)用,還是眾多學(xué)者在此領(lǐng)域進(jìn)行的相關(guān)研究,都在進(jìn)行不斷地嘗試與突破。
早在2013年,F(xiàn)acebook就推出圖譜搜索(Graph Search),Graph Search不同于Google的基于關(guān)鍵字匹配的搜索方式,Graph Search更像語義識別搜索,將與個人直接相關(guān)的事物以搜索結(jié)果的形式呈現(xiàn),而非像Google搜索結(jié)果那樣僅展示相關(guān)網(wǎng)站鏈接。但Graph Search 還處于比較早期的開發(fā)階段,還有許多問題亟待解決。
騰訊作為國內(nèi)最大的關(guān)系社區(qū),在構(gòu)建多領(lǐng)域特色知識圖譜方面則顯得更有建樹。騰訊知識圖譜(Tencent Knowledge Graph,TKG)是一個集成圖數(shù)據(jù)庫、圖計算引擎和圖可視化分析于一體的一站式平臺。TKG擁有豐富的應(yīng)用場景,涉及金融、物聯(lián)網(wǎng)、安全等方方面面。例如在泛安全領(lǐng)域,我們可以處理結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)識別數(shù)據(jù)中隱藏模式和關(guān)系[33~34],將從大數(shù)據(jù)中深度挖掘關(guān)聯(lián)關(guān)系,轉(zhuǎn)化為關(guān)系圖譜數(shù)據(jù),進(jìn)行司法風(fēng)險與輿情風(fēng)險發(fā)現(xiàn)[35],有力支撐公安機(jī)關(guān)展開情報研判分析、犯罪團(tuán)伙跟蹤以及重大事情預(yù)警等,從而更好地提升警民良性互動與政府公信力[36]。
新浪微博相繼推出圖譜搜索體驗服務(wù)。與此同時,為解決微博搜索中存在的一些問題,使得結(jié)果中呈現(xiàn)更多知識,不少研究人員也進(jìn)行了多樣化的探索。例如,一些學(xué)者研究微博社區(qū)知識圖譜構(gòu)建方法并針對其構(gòu)建效果、演化特征、應(yīng)用效果進(jìn)行了多元分析[37];通過構(gòu)建微博輿情主題知識圖譜進(jìn)行主題挖掘,不僅可以有效識別出主題,還可以準(zhǔn)確定位每個主題下的意見領(lǐng)袖[38~39];在文獻(xiàn)[40]中,作者也進(jìn)一步構(gòu)建微博主題識別與演變知識圖譜,進(jìn)而發(fā)現(xiàn)微博主題演變路徑,揭示了微博輿情傳播中的主題演變情況以及發(fā)生演變的動態(tài)變化過程,可以更好地對微博輿情傳播進(jìn)行實時監(jiān)管;通過構(gòu)建面向社交網(wǎng)絡(luò)用戶意見的知識圖譜,用于理解不同的用戶意見,并以知識圖譜的形式識別復(fù)雜的關(guān)系,使得社會科學(xué)研究人員可以更輕松地獲取各種視角的意見,并對數(shù)據(jù)進(jìn)行進(jìn)一步分析[41]。
輿情主題圖譜的概念來源于知識圖譜,針對社交網(wǎng)絡(luò)輿情信息的大數(shù)據(jù)化、動態(tài)化、多維度等特征,從社交網(wǎng)絡(luò)輿情大數(shù)據(jù)獲取的新方法和新工具研究出發(fā),對社會安全、突發(fā)事件預(yù)警等某一特定領(lǐng)域、特定需求進(jìn)行實踐,就是本文探索構(gòu)建大數(shù)據(jù)驅(qū)動的社交網(wǎng)絡(luò)輿情主題圖譜的出發(fā)點所在。
輿情主題圖譜是輿情信息工作的有效方法體系,探索構(gòu)建大數(shù)據(jù)驅(qū)動的社交網(wǎng)絡(luò)輿情主題圖譜的構(gòu)建理論方法和技術(shù),以此為基礎(chǔ)研究基于社交網(wǎng)絡(luò)輿情主題圖譜的輿情分析和推理方法,進(jìn)而從輿情點、輿情鏈路、輿情主題、全局層面等多個維度討論社交網(wǎng)絡(luò)輿情主題圖譜的調(diào)控策略,實現(xiàn)社交網(wǎng)絡(luò)輿情的動態(tài)收集與監(jiān)控工作,編制行業(yè)輿情調(diào)研報告,為各級政府部門提供決策參考。
社會網(wǎng)絡(luò)中輿情傳播來源多、傳播速度快、傳播范圍廣,使得網(wǎng)絡(luò)中輿論的監(jiān)控和管理更加困難。大量積累的、復(fù)雜的數(shù)據(jù)也給查詢、處理等帶來了挑戰(zhàn),并且隨著時間的推移、數(shù)據(jù)的更新,圖中蘊(yùn)含的節(jié)點和邊的數(shù)量可能越來越龐大。任何一種復(fù)雜網(wǎng)絡(luò)圖系統(tǒng)都具有一定的特殊性,這給研究增加了難度。大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)中的節(jié)點數(shù)量已經(jīng)可以達(dá)到百萬甚至數(shù)億的級別,并且呈現(xiàn)多樣化、異質(zhì)化和動態(tài)性等特征[42]。這些特征豐富了表示學(xué)習(xí)的內(nèi)容。
知識表示學(xué)習(xí)的代表模型主要包括距離模型、雙線性模型、神經(jīng)張量神經(jīng)網(wǎng)絡(luò)模型、矩陣分解模型、翻譯模型等[43~47]。知識表示的方法主要是將實體與關(guān)系嵌入到低維向量空間中,如TransE模型。研究人員在TransE模型的基礎(chǔ)上進(jìn)行拓展或改進(jìn),從不同角度嘗試解決復(fù)雜關(guān)系建模問題[48~50],采用多種數(shù)學(xué)方法來表示實體及實體之間的關(guān)系,如使用高斯分布的均值表示實體或關(guān)系在語義空間中的中心位置,使用協(xié)方差表示實體或關(guān)系的不確定度[51]。
網(wǎng)絡(luò)輿情中存在的信息和知識量隨時間的變化呈指數(shù)式增長,因此輿情主題知識圖譜的內(nèi)容也需要不斷更新,與時俱進(jìn),其構(gòu)建過程是一個不斷迭代更新的過程。
從邏輯上看,知識庫的更新主要包括模式層的更新與數(shù)據(jù)層的更新。模式層的更新包括但不限于增加、刪除或修改本體中元素的概念,同時還需更新元素的概念屬性以及概念之間上下級關(guān)系等。其中,概念屬性的更新操作將直接影響到所有與實體有直接或間接聯(lián)系子概念和實體[52]。模式層的增量更新方式多數(shù)情況下是在人工干預(yù)的情況下完成的。數(shù)據(jù)層的更新指的是實體元素的更新,比如修改實體的基本信息和屬性值。由于數(shù)據(jù)層的更新一般影響面較小,因此通常以自動的方式完成。
知識推理是知識圖譜構(gòu)建與發(fā)展的重要手段和關(guān)鍵環(huán)節(jié)。知識推理是指從知識庫中已有的多對實體關(guān)系數(shù)據(jù)出發(fā),經(jīng)過計算機(jī)復(fù)雜推理,從舊知識中發(fā)現(xiàn)新的知識,發(fā)現(xiàn)并建立已有實體間的新聯(lián)系,形成新的三元組,從而拓展和豐富知識網(wǎng)絡(luò)。通過知識推理,不斷擴(kuò)大知識庫的覆蓋范圍。
知識庫推理可以分為基于符號邏輯的推理和基于圖的推理?;诜柕耐评硪话闶腔诮?jīng)典邏輯或者經(jīng)典邏輯的變體。基于符號的推理可以利用一定的規(guī)則從一個已有的知識圖譜中推理出新的實體間關(guān)系,還可以對知識圖譜進(jìn)行邏輯的沖突檢測?;趫D的推理方法主要基于神經(jīng)網(wǎng)絡(luò)模型或Path Ranking算法。例如,可以根據(jù)兩個實體間的連通路徑來判斷兩個實體是否屬于某個關(guān)系。
質(zhì)量評估也是知識庫構(gòu)建技術(shù)的重要組成部分。公開數(shù)據(jù)雜亂無規(guī)則,而且受當(dāng)前階段中文處理技術(shù)水平限制,有時從互聯(lián)網(wǎng)公開數(shù)據(jù)中抽取到的知識元素有可能存在一些問題,如數(shù)據(jù)錯誤,獲取到的知識元素準(zhǔn)確率并不高,經(jīng)過知識推理得到的知識同樣也是沒有質(zhì)量保證的。因此在將其加入知識庫之前,需要有一個質(zhì)量評估的過程。通過質(zhì)量評估,設(shè)定一定的規(guī)則量化圖譜中存在的知識可信度,舍棄置信度較低的知識,來保障知識庫的質(zhì)量以提高知識圖譜的推理能力[53]。隨著社交網(wǎng)絡(luò)復(fù)雜性的提高和實體數(shù)的增多,數(shù)據(jù)間的沖突日益增多,對圖譜質(zhì)量進(jìn)行評估,對于全局知識圖譜的構(gòu)建起著重要的作用。
圖譜構(gòu)建是大數(shù)據(jù)驅(qū)動的社會網(wǎng)絡(luò)輿情主題圖譜構(gòu)建和分析的起點,通過對社會網(wǎng)絡(luò)輿情大數(shù)據(jù)的語義揭示和語義關(guān)聯(lián),對社會網(wǎng)絡(luò)輿情大數(shù)據(jù)進(jìn)行知識組織,形成語義關(guān)聯(lián)的覆蓋網(wǎng)絡(luò),為圖譜挖掘提供高質(zhì)量的數(shù)據(jù)資源,為圖譜分析提供研究框架。以大規(guī)模采集的社交網(wǎng)絡(luò)輿情數(shù)據(jù)為基礎(chǔ),對輿情數(shù)據(jù)進(jìn)行語義抽取和標(biāo)注,構(gòu)建一個覆蓋大規(guī)模輿情事件和實體的語義關(guān)聯(lián)覆蓋網(wǎng)絡(luò),實現(xiàn)對輿情主題圖譜數(shù)據(jù)的采集和主題圖譜的構(gòu)建,為社交網(wǎng)絡(luò)輿情主題圖譜的挖掘提供依據(jù)和支撐。
借助行為追蹤法、增量獲得法、不同平臺匹配法等方法進(jìn)行數(shù)據(jù)的采集,為社交網(wǎng)絡(luò)輿情主題圖譜的構(gòu)建提供更為豐富、有效、及時的數(shù)據(jù)支撐。數(shù)據(jù)預(yù)處理后,應(yīng)用自然語言處理、文本挖掘、命名實體識別等方法和技術(shù),對基于頻繁詞組挖掘的命名實體的識別技術(shù)和概念描述方法進(jìn)行研究,以達(dá)到有效識別社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的實體名稱技術(shù)性、實體關(guān)系、實體類別等語義內(nèi)容。
其中,命名實體識別和分類是社交網(wǎng)絡(luò)輿情主題圖譜構(gòu)建過程中的關(guān)鍵性技術(shù)。英文的命名實體識別相對容易,實體邊界也比較容易確定,在英文文本中專有名詞的第一個字符一般為大寫。中文的專有名詞識別就存在很大的困難,中文中的專有名詞沒有特殊標(biāo)識。利用深度學(xué)習(xí)方法,盡可能地提取專有名詞的特點,同時利用上下文的知識,充分利用這些技術(shù)和資源解決中文實體邊界識別問題。
借助形式化描述、實體關(guān)聯(lián)、屬性映射、類映射和機(jī)器學(xué)習(xí)等方法和技術(shù),構(gòu)建社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的語義數(shù)據(jù),對社交網(wǎng)絡(luò)輿情事件中的實體、屬性等對象之間的順序關(guān)系、因果關(guān)系、時間關(guān)系、相似關(guān)系、參考關(guān)系等多類型邏輯關(guān)系進(jìn)行標(biāo)注。標(biāo)注完成后,基于相似度計算、規(guī)則推理等方法和技術(shù),根據(jù)語義標(biāo)注的結(jié)果,對社交網(wǎng)絡(luò)輿情大數(shù)據(jù)的語義關(guān)聯(lián)進(jìn)行研究,從而生成一個社交網(wǎng)絡(luò)輿情大數(shù)據(jù)關(guān)聯(lián)網(wǎng)絡(luò)。
圖譜分析是大數(shù)據(jù)驅(qū)動的社交網(wǎng)絡(luò)輿情主題圖譜構(gòu)建和調(diào)控策略的基礎(chǔ)環(huán)節(jié),主要通過對社交網(wǎng)絡(luò)輿情主題圖譜的分析和推理方法的研究,從關(guān)鍵節(jié)點、關(guān)鍵路徑、網(wǎng)絡(luò)結(jié)構(gòu)影響力分析和趨勢預(yù)測等多個維度對社交網(wǎng)絡(luò)輿情主題圖譜進(jìn)行全面深入的挖掘,達(dá)到將數(shù)據(jù)轉(zhuǎn)化為知識的目的。依據(jù)語義關(guān)聯(lián)覆蓋網(wǎng)絡(luò),在對社交網(wǎng)絡(luò)輿情主題圖譜關(guān)鍵節(jié)點、關(guān)鍵路徑、網(wǎng)絡(luò)結(jié)構(gòu)影響力分析和趨勢預(yù)測等多個維度進(jìn)行挖掘的基礎(chǔ)上,探索大規(guī)模輿情事件和實體的綜合分析和推理方法,達(dá)到面向大規(guī)模輿情事件和實體的、針對用戶需求的社交網(wǎng)絡(luò)輿情主題圖譜知識發(fā)現(xiàn)的目的。
政企對網(wǎng)絡(luò)輿情的及時發(fā)現(xiàn)與快速收集所需輿情信息并做出“適時、適實、適勢”的響應(yīng),離不開對輿情事件傳播過程中的關(guān)鍵節(jié)點的分析。準(zhǔn)確找到事件的核心并針對事件進(jìn)行有效引導(dǎo),以確保輿情傳播朝著健康的社會輿論方向發(fā)展是關(guān)鍵所在。
對于最常用的搜索引擎Google和Baidu來說,當(dāng)用戶在搜索引擎中查找某個具體人物或事件信息時,由于網(wǎng)絡(luò)上的信息龐雜,還存在著大量的虛假和垃圾信息,使得有價值的信息被湮沒,有時查詢到的結(jié)果并不理想。為了得到想要的信息,只能采取人工方式,逐個瀏覽搜索到的網(wǎng)頁,費(fèi)時又費(fèi)力。
將知識圖譜引入人物畫像分析,能夠自動地從大量的無規(guī)則互聯(lián)網(wǎng)數(shù)據(jù)中抽取和整理出人物的全局信息,將零散的、碎片化的數(shù)據(jù)匯集起來形成人物畫像,并以結(jié)構(gòu)化的形式存儲和顯示,極大地提高了研究人員分析人物全貌信息的效率,為精準(zhǔn)營銷、制定數(shù)據(jù)驅(qū)動產(chǎn)品提供了便利。Fader等以新聞文本為數(shù)據(jù)集,介紹了一種人物畫像挖掘技術(shù),從人物社會關(guān)系、參與事件、人物熱度及情感分析三個維度進(jìn)行研究,其研究成果可應(yīng)用于熱門人物探測、人物搜索和特定目標(biāo)追蹤等領(lǐng)域[54]。
針對關(guān)鍵節(jié)點進(jìn)行基于知識圖譜的人物畫像挖掘,便于對高輿情風(fēng)險人群進(jìn)行動態(tài)跟蹤。例如,從情感分析角度來看,通過聚類和分類得出個體情感傾向和群體情感傾向,便于政企掌握情感異動,以便及時采取相關(guān)措施,疏導(dǎo)負(fù)面輿情。
關(guān)鍵路徑分析主要指的是網(wǎng)絡(luò)路徑分析與網(wǎng)絡(luò)社區(qū)分析。社會網(wǎng)絡(luò)分析的核心是社會網(wǎng)絡(luò)中的節(jié)點,這些節(jié)點可以代表社會中的任何單位,例如個人、組織、群體等。節(jié)點之間的連接被稱為節(jié)點之間的關(guān)系,節(jié)點以及它們的關(guān)系就構(gòu)成了社會網(wǎng)絡(luò)。在社交網(wǎng)絡(luò)社區(qū)中,個人觀點會受到多個鄰居同時影響,但系統(tǒng)中所有節(jié)點的意見最終會趨向一致[55]。目前的研究中,既有探索如何讓算法更高效地對數(shù)據(jù)進(jìn)行處理,提高算法的執(zhí)行效率,也有考慮社交網(wǎng)絡(luò)節(jié)點和網(wǎng)絡(luò)連接中的社會屬性[56~58]。
常見的關(guān)鍵路徑分析場景有輿情事件傳播路徑分析、敏感信息溯源分析等。
社交網(wǎng)絡(luò)影響力可以通過用戶之間的社交活動體現(xiàn)出來,表現(xiàn)為用戶的行為和思想等受他人影響發(fā)生改變以及用戶行為和思想對他人的影響情況。在社交網(wǎng)絡(luò)分析中,引入社會屬性權(quán)重來表示節(jié)點的社會屬性差異,給節(jié)點和邊賦予相應(yīng)的屬性權(quán)重,來表示信息在社交網(wǎng)絡(luò)中傳播的特點和規(guī)律,可以提高關(guān)鍵節(jié)點挖掘算法執(zhí)行效率[59]。
網(wǎng)站影響力的評價方法可以分為定性和定量兩種。定性的評價方法主要有問卷調(diào)查法和效益評價。定量的評價方法主要有鏈接分析和流量分析兩種。一個站點被鏈接的次數(shù)越多,證明該站點影響越大。網(wǎng)站的訪問量越大,則網(wǎng)站影響力越大,該網(wǎng)站所蘊(yùn)含的信息價值越高。
借助輿情主題圖譜是進(jìn)行輿情預(yù)測的一種有效表現(xiàn)方式。對于網(wǎng)絡(luò)輿情信息進(jìn)行有效獲取,正確分析和統(tǒng)計、預(yù)測,對于政府應(yīng)對輿論危機(jī)將十分有利。網(wǎng)絡(luò)輿情的發(fā)展一般存在蟄伏期、爆發(fā)期、持續(xù)期、消亡期四個階段。對于網(wǎng)絡(luò)輿情的有效預(yù)測,協(xié)助政企準(zhǔn)確判定輿情走向,進(jìn)而制定相應(yīng)的應(yīng)對管理辦法。以企業(yè)輿情管理為例,傳統(tǒng)的輿情管理方式已不再適用,企業(yè)輿情也需要現(xiàn)代化的技術(shù)形式進(jìn)行管理。在新型的企業(yè)輿情管理中,企業(yè)輿情部門的決策必須緊緊結(jié)合社會網(wǎng)絡(luò)的結(jié)構(gòu)、內(nèi)容和用戶三個核心點,完善企業(yè)輿情管理制度,及時應(yīng)對突發(fā)事件。
有效的網(wǎng)絡(luò)輿情預(yù)測有利于輿情危機(jī)蟄伏期的預(yù)防預(yù)警、有利于輿情危機(jī)爆發(fā)期的應(yīng)急反應(yīng)和干預(yù)、有利于輿情危機(jī)持續(xù)期的信息分析與研判、有利于輿情危機(jī)消亡期的信息再跟蹤與反饋。
現(xiàn)有的網(wǎng)絡(luò)輿情預(yù)測分析,主要是在時間序列模型分析的基礎(chǔ)上,采用數(shù)學(xué)方法建立預(yù)測模型,是一種定量分析的方法。網(wǎng)絡(luò)輿情預(yù)測相關(guān)數(shù)學(xué)模型主要有基于統(tǒng)計學(xué)的預(yù)測模型和基于機(jī)器學(xué)習(xí)的預(yù)測模型兩種。圖5是網(wǎng)絡(luò)輿情預(yù)測分析遵循的主要路線。
圖5 網(wǎng)絡(luò)輿情預(yù)測分析路線圖
輿情調(diào)控是輿情主題圖譜構(gòu)建和調(diào)控策略的橋梁?;谏缃痪W(wǎng)絡(luò)輿情主題圖譜,動態(tài)提取社交網(wǎng)絡(luò)輿情特征,并構(gòu)建社交網(wǎng)絡(luò)輿情預(yù)警模型,然后針對不同的輿情主體、傳播路徑和輿情主題,提出自適應(yīng)的輿情點調(diào)控、輿情鏈路調(diào)控和輿情主題調(diào)控策略,并在三者的基礎(chǔ)上,提出輿情全局精準(zhǔn)調(diào)控策略。利用爬蟲、信息檢索以及專家知識庫等技術(shù),構(gòu)建輿情特征—調(diào)控策略知識庫,然后以此為基礎(chǔ),針對社交網(wǎng)絡(luò)輿情的不同特征,提出社交網(wǎng)絡(luò)輿情自適應(yīng)的點調(diào)控策略、鏈路調(diào)控策略和主題調(diào)控策略,最后在三者的基礎(chǔ)上提出全局精準(zhǔn)調(diào)控策略,達(dá)到對社交網(wǎng)絡(luò)輿情主題圖譜從點、線、面,全局精準(zhǔn)調(diào)控的目的。
與輿情圖譜結(jié)合,在信息推送和場景應(yīng)用等方面建立相應(yīng)的功能模塊,為個人用戶、企業(yè)和政府提供強(qiáng)大的輿情分析服務(wù)。以大數(shù)據(jù)思維檢測和分析海量的社交網(wǎng)絡(luò)上的海量輿情數(shù)據(jù),通過構(gòu)建社交網(wǎng)絡(luò)輿情主題圖譜,為各級政府或相關(guān)機(jī)構(gòu)提供民生熱點、熱點事件、熱點話題等重點關(guān)注輿情的發(fā)現(xiàn)與分析服務(wù),以幫助政府或相關(guān)機(jī)構(gòu)了解特定輿情事件的傳播路徑、傳播態(tài)勢并把握其發(fā)展趨勢。依據(jù)不同場景,可分為經(jīng)濟(jì)網(wǎng)絡(luò)監(jiān)控、面向輿情的政府知識管理、突發(fā)事件預(yù)警。
經(jīng)濟(jì)網(wǎng)絡(luò)輿情監(jiān)測的基本類別包括用戶消費(fèi)類、投資類、創(chuàng)業(yè)類、生態(tài)環(huán)保類。用戶消費(fèi)類主要包括線上消費(fèi)數(shù)據(jù)分析和市場價格分析,從網(wǎng)民反映的消費(fèi)問題、生活消費(fèi)等數(shù)據(jù)監(jiān)測反映當(dāng)?shù)匚飪r走勢,判斷當(dāng)前經(jīng)濟(jì)形勢和預(yù)測未來經(jīng)濟(jì)發(fā)展;投資類分析主要包括金融投資分析和房地產(chǎn)投資分析,從企業(yè)投資和投資金融服務(wù)等方面反映民眾對當(dāng)前投資環(huán)境的判斷和評價,監(jiān)測民眾最關(guān)注的住房、投資輿情;創(chuàng)業(yè)類分析主要是分析民眾對創(chuàng)新創(chuàng)業(yè)的熱情程度,以此反映整個社會創(chuàng)新創(chuàng)業(yè)的情況;生態(tài)環(huán)保監(jiān)測社交網(wǎng)絡(luò)上的生態(tài)環(huán)保熱點話題,從網(wǎng)民反映的生態(tài)環(huán)保問題、對環(huán)保關(guān)注程度等方面監(jiān)測生態(tài)環(huán)保情況。
政府輿情知識管理可以分為三個部分:事件知識管理、決策類知識管理和響應(yīng)類知識管理。事件知識管理主要針對網(wǎng)絡(luò)輿情本體,探究事件發(fā)生的性質(zhì),勾畫人物和相關(guān)機(jī)構(gòu)關(guān)系脈絡(luò)。大致相當(dāng)于給政府闡述“何人何地何時間發(fā)生何事”。在靜態(tài)描述完畢后,對輿情進(jìn)行跟蹤,持續(xù)跟進(jìn)事件發(fā)展動態(tài)和變化,讓政府可以獲取事件的演化機(jī)理和相關(guān)影響。決策類知識管理主要通過信息的收集、加工和分類,幫助政府做出決策和判斷。響應(yīng)類知識管理則包括政府針對事態(tài)變化需要進(jìn)行調(diào)度的機(jī)構(gòu),做出行動的部門和獲取的資源。構(gòu)建面向輿情的政府知識管理的目的在于引導(dǎo)和控制輿情變化,降低不良信息對社會造成的損害,防止別有用心之人對社會的正常秩序產(chǎn)生干擾。
社會突發(fā)事件可能會造成嚴(yán)重社會危害,需要實時對重點輿情話題進(jìn)行檢測,及時采取應(yīng)急處置措施予以應(yīng)對。輿情主題圖譜中的數(shù)據(jù)來源非常廣闊,因此能從中發(fā)掘出各種不同的事件和關(guān)系。針對突發(fā)事件的危害性,有必要專門將這一部分提取出來進(jìn)行相應(yīng)的分析和策劃。根據(jù)輿情主題敏感度、發(fā)展趨勢和危害程度等級,提前向有關(guān)部門發(fā)出實時預(yù)警。
本文首先對大數(shù)據(jù)時代的社交網(wǎng)絡(luò)輿情主題圖譜的研究現(xiàn)狀進(jìn)行了較為全面的總結(jié),并在研究基礎(chǔ)上對社交網(wǎng)絡(luò)輿情主題圖譜構(gòu)建、分析與調(diào)控等開展了詳細(xì)的介紹。從關(guān)鍵節(jié)點、關(guān)鍵路徑、趨勢模型等不同維度進(jìn)行社交網(wǎng)絡(luò)輿情主題圖譜的多元分析。挖掘更深層次的知識關(guān)聯(lián)與更廣范圍的知識范疇。對社交網(wǎng)絡(luò)輿情態(tài)勢感知與“適時、適實、適勢”的響應(yīng)與引導(dǎo)具有一定的理論意義和實用價值。
電子科技大學(xué)學(xué)報(社科版)2022年2期