文 | 林琳
社會媒體(Social Media)是一種在線交互媒體,具有廣泛的用戶參與性,允許用戶在線交流、協作、發(fā)布、分享、傳播信息,組成虛擬網絡社區(qū)。近年來,社會媒體呈現多樣化的發(fā)展趨勢,從早期的論壇、博客、播客、維基到風頭正勁的社交網站、微博,正在成為網絡技術發(fā)展的熱點和趨勢,并深刻影響著人類社會,同時也給世界各國的社會秩序帶來巨大沖擊。因此,基于社會媒體的虛擬社會管理是一個新時代互聯網大發(fā)展環(huán)境下政府面臨的突出挑戰(zhàn)。
社會媒體對世界的沖擊史無前例,從2009年的伊朗大選,到如今中東多國的政治動蕩,美國一次又一次看到了通過互聯網插手他國政局、改變他國政治走向的可能性。Facebook、Twitter等社會媒體為社會人群自發(fā)性群體聚集、活動提供了社區(qū)交流、信息傳播的網絡平臺,加速、擴大了這場中東地區(qū)的社會運動。
另一方面,從社會媒體對傳統企業(yè)的影響看,計算機網絡技術的發(fā)展有著很強的周期性。自1990年至2000年,PC機的普及,引發(fā)了傳統企業(yè)的自動化;自2000年至2010年,互聯網技術的普及,引發(fā)了傳統企業(yè)的網絡化;可以期待自2011至2020年,社會媒體技術的普及,將引發(fā)傳統企業(yè)的社交化。
從我國目前的實際情況看,我國已經成為全球最大的網絡人群(互聯網人群超過4.85億、手機網絡用戶3.18億),各種社會媒體形成的虛擬社區(qū),組成了巨大的虛擬社會,在眾多的社會媒體中,微博媒體是一種新型的信息發(fā)布、傳播媒體,近年來在網絡人群中迅速普及,目前Twitter、新浪微博和騰訊微博的用戶數分別突破了2億、1.4億和2億。微博媒體仿造了人類的社會結構,將用戶群體組織成社會網絡,滿足了用戶信息的個性化發(fā)布、社會性傳播、社交等需求。虛擬社會的社會網絡和現實社會的社會網絡相互作用,加速和擴大了虛擬的社會活動和現實的社會活動的相互影響。
相對于社會媒體數量眾多,網絡信息量大,信息來源復雜、更新快速、傳播廣泛的特點,目前社會媒體的虛擬社會管理技術落后。特別在應對網絡突發(fā)事件時,經常因為不能全面和及時掌握社會媒體的觀點表達而錯失處理的時機。因此,如何利用現代科技手段提升互聯網監(jiān)管效率,已成為互聯網各內容監(jiān)管部門面臨的突出問題。因此,在社會媒體當家,民意表達高漲的今天,基于社會媒體的虛擬社會管理成為必須研究的課題。
各種各樣的社會媒體社區(qū),組成了虛擬的社會網絡,形成了虛擬社會。虛擬社會管理的關鍵技術及其組成社會管理平臺的管理需要通過相應的信息技術加以解決。
虛擬社會管理首先需要解決虛擬社會的信息獲取和分析,社會媒體與傳統的Web1.0媒體主要區(qū)別在于:①媒體信息的來源不同。Web1.0媒體信息是由編輯人員發(fā)布;而社會媒體凝聚大眾的群體智慧。②媒體信息的類型不同。Web1.0媒體信息主要是資源(網頁);而社會媒體信息包括兩種實體(用戶、資源)。③媒體信息的網絡結構不同。Web1.0媒體的網絡結構是由大量的網頁及其鏈接構成的超鏈結構;而社會媒體的網絡結構更復雜,是由大量的用戶、資源及其關系(用戶之間、資源之間、用戶與資源之間)構成的社會網絡。④媒體挖掘的關鍵技術不同。Web1.0時期,Google挖掘了Web1.0媒體的網絡結構,以面向大規(guī)模網頁的超鏈分析技術引領了Web1.0信息服務的技術潮流;而社會媒體挖掘的關鍵技術是面向大規(guī)模用戶、資源組成的社會網絡的分析技術。
正是由于上述虛擬社會媒體的特點,使得虛擬社會信息分析技術包括以下幾個方面:
信息獲取、模型表示:社會媒體的兩種實體(用戶、資源)的模型表示分為幾個步驟:①分別獲取兩種實體的相關信息;②從原始的實體信息中提取特征;③選擇合適的模型表示實體,建立用戶模型、資源模型。根據指定的監(jiān)管主題,發(fā)現主題相關的敏感人物節(jié)點。
關系分析、網絡生成:在實體表示的基礎上,抽取實體的關系數據,計算節(jié)點之間的關系強度、相似度。將實體視為節(jié)點,實體之間的關系視為邊,實體及其相互關系就生成了社會網絡。
社會網絡挖掘:計算實體之間的相似性,挖掘社會網絡的團體(興趣相似的人群、主題相似的資源),發(fā)現與敏感節(jié)點相關的人群、團體,用于信息的聚合、推薦;計算實體的權威性,用于信息的檢索、推薦;信息擴散技術研究。
社會話題發(fā)現、跟蹤與預測是在自動分類和褒貶分析基礎上,建立多個話題刻畫指標,根據刻畫指標和話題分類的結果評估和分析當前的輿情態(tài)勢,并預測輿情走勢。
在日常監(jiān)測中,輿情主題和輿情事件需借助科學完備的指標體系來描述刻畫,在確定諸多輿情信息評價指標及其含義、不同指標權重后,才能系統化的構建輿情信息評價指標體系和評價模型,進而針對特定輿情計算指標值,得出量化評價結果。輿情評價是對輿情信息的危害性、關注度、擴散度等進行綜合判斷的過程。按對象可分為兩種,一種是針對特定輿情(輿情主題、輿情事件)進行評價,另一種是針對整個網絡輿情進行評價。
輿情預測等級劃分為紅、橙、黃、藍四級,從輿情敏感度和輿情熱度兩方面來衡量,每個方面都通過一系列指標來刻畫,采集并計算各指標值,最后加權處理后形成輿情指數,依據其取值分別對應四個預警級別。目的是改變被動處置的局面,形成積極主動應對的機制。
⑴特定話題發(fā)現、跟蹤與預測
特定話題包括日常監(jiān)測的輿情主題和實時跟蹤的輿情事件兩種情形,評價方法就是對監(jiān)測跟蹤、分析研判階段獲得的各統計指標進行加權處理,計算特定輿情綜合指數。為保證所有二級指標具有相同的統計特性,將定量指標轉換處理,按指標的閥值區(qū)間進行評分,最終轉換成離散的5分制序列型數據。所有二級指標的經驗值或閥值都是按輿情主題(三級分類項目)和輿情事件單獨構建。即不同的輿情主題和輿情事件,同一定量指標的閥值各不相同,同一定性指標的評估值也各不相同,閥值和評估值都通過德爾菲法(即專家經驗法)確定。
特定輿情事件評價指標體系是建立在事件的深度分析的基礎之上,將事件的分析結果加入到整體輿情評價指標體系當中。
首先需要對事件進行深度分析,已對指定關鍵詞、特定事件、特定文章完成跟蹤監(jiān)測和評價打分的任務。并設置了輕微、較小、中等、嚴重、危險等五個級別,每個級別定義重要程度,再乘以各自輿情影響值,得到該事件的輿情指數。所有關鍵詞、事件、文章的輿情指數相加得到整個事件級輿情指數。再根據輿情預警等級劃分標準,判定當前事件級輿情預警級別。
用戶可通過事件級輿情預警級別判斷當前是否有輿情事件發(fā)生,輿情事件密度、影響力、網民反應程度、網絡輿論噪聲程度等情況。
特定事件輿情指數分為特定事件綜合輿情和特定文章綜合輿情:
①特定事件綜合輿情
特定事件綜合輿情根據跟蹤監(jiān)測模塊當中事件跟蹤監(jiān)測的數據進行計算,首先需要對每一事件設定權重,再根據每一事件的權重和輿情指數(每一事件的輿情指數在事件跟蹤監(jiān)測模塊中設定),根據一定算法,計算出特定事件輿情指數。
②特定文章綜合輿情
特定文章綜合輿情根據跟蹤監(jiān)測模塊當中文章跟蹤監(jiān)測的數據進行計算,首先需要對每一文章設定權重,再根據每一文章的權重和輿情指數(每一文章的輿情指數在文章跟蹤監(jiān)測模塊中設定),根據一定算法,計算出特定文章輿情指數。
通過上述手段,可以描述事件在社會網絡上的傳播速度,定位敏感話題、尋找事件信息源頭、刻畫傳播軌跡(信息的傳播樹構成的森林)、傳播范圍以及跟蹤、預測該事件傳播的社會影響。
⑵全網社會媒體輿情預警預測
全網級社會媒體輿情預警預測指數是對整體輿情評價指標體系的具體實現,分為監(jiān)測范圍內和元搜索監(jiān)測兩個方面,全網輿情評價指標體系通過對監(jiān)測范圍內和元搜素的監(jiān)測結果進行分析、分類,將涉及敏感信息的數據專門歸類整理,并根據其涉及的信息的敏感程度設定權值,最終通過統計敏感信息的數量以及其敏感程度,從宏觀上反映當前輿情整體狀況。
每天的社會媒體活躍程度不同,根據監(jiān)測到的社會媒體活躍指標計算當天各分類的文章數,進而計算各分類得分,最終根據此分數得到今日監(jiān)測范圍內輿情指數和今日輿情等級。
根據跟蹤監(jiān)測模塊當中全網跟蹤監(jiān)測的結果,計算得到元搜索輿情指數以及信息增量變化率。
⑶總體輿情指數
總體輿情指數反映了當前互聯網輿情的總體狀況,是輿情監(jiān)測的最終成果之一。用戶可根據互聯網輿情的總體狀況,站在全局的高度把握互聯網輿情走勢,監(jiān)測互聯網輿情狀態(tài),進而為領導決策、工作部署提供可靠的依據。
總體輿情指數由監(jiān)測范圍內輿情指數、元搜索輿情指數、特定事件綜合輿情指數、特定文章綜合輿情指數4個方面決定。生成總體輿情指數在邏輯上有以下步驟:
第一、獲取范圍內輿情指數、元搜索輿情指數、特定事件綜合輿情指數、特定文章綜合輿情指數的監(jiān)測結果。
第二、將監(jiān)測結果乘以各部分所占權重值,得到總體輿情指數。
第三、根據輿情預警閥值,計算總體輿情預警級別。
總體輿情指數為用戶從宏觀了解總體輿情狀況提供參考,實現像天氣預報一樣預報網絡輿情的效果,通過查看明細,可以直觀、快速的發(fā)現當前互聯網輿情的構成,可以實時掌握互聯網輿情的整體狀況。
總體輿情指數由以上步驟計算得到總體輿情指數值,同時設定輿情預警閥值,在不同閥值內預警級別不同。其中,藍色表示網絡輿情總體平靜,沒有特殊事件發(fā)生,沒有輿情熱點;黃色表示網絡輿情總體略有起伏,局部有輿情熱點,或有小規(guī)模輿情事件發(fā)生;橙色表示網絡輿情總體較為嚴重,有大規(guī)模輿情事件發(fā)生,有大量輿情熱點;紅色表示網絡輿情總體非常危險,有大規(guī)模群體性事件發(fā)生,有重大輿情熱點,必須予以干預。
目前,國內外對于文本傾向性的研究大體上分為兩大類:基于語義的以及基于機器學習的文本傾向性研究。
基于語義的文本傾向性研究方法主要有兩種。第一種是先對分析文本中的形容詞或能夠體現主觀色彩的短語進行抽取,然后對抽取出來的形容詞或短語逐一進行傾向性判斷并賦予一個傾向值,最后將上述所有傾向值累加起來得到文章的總體文本傾向性。第二種研究方法是預先建立一個傾向性語義模式庫,有時還會附帶一個傾向性字典,然后將待評估文檔參照語義模式庫做模式匹配,最后累加所有匹配模式對應的傾向性值從而得到整個文檔的傾向性。
另一類文本傾向性研究方法是基于機器學習的傳統文本分類技術。其思想就是先通過人工標注一些文檔的傾向性,并將這些文檔作為訓練集,再通過機器學習的方法構造一個褒貶兩類分類器。最后使用構造好的褒貶兩類分類器對待評估文檔進行分類,即識別出該文檔的傾向性。
傾向性分析主要采用模式自動識別的方法,首先對未標注語料進行模式訓練,獲取模式模板;然后根據模式模板進行傾向性分析。
模式是待抽取信息的一種抽象表達方式,它體現了特定信息的組成元素,這些元素也是人們對信息的關注焦點。采用詞項作為模式的表達形式,模式的表示方式是一個N元組序列組合,其中包括如下幾類,主題類、情感詞類、否定詞類、轉折詞類、程度副詞類、上下文輔助類。
對同時包含主題詞和情感詞的句子獲取其實例模式,并考慮特殊主題詞的處理。對實例模式進行統計,統計實例模式的出現次數,將出現次數較高的實例模式進行人工分析,從而得到泛化模式。根據泛化模式的句型特征,以及主題詞極性,判斷泛化模式的極性,從而構成語義模式列表。
通過傾向性分析技術,將網民觀點歸納,根據網民觀點歸納的結果,對以事件為中心的內容進行友好度歸納,形成正負面判定結論。對于計算機無法判別的意識形態(tài)內容,再進行匯總、分析和反饋。
目前我國對社會媒體的研究剛剛起步,缺乏對虛擬社會管理的經驗。虛擬社會的管理對于我們而言會面臨諸多問題和挑戰(zhàn)。建立完善的基于社會媒體的社會管理的監(jiān)管技術平臺,用于識別敏感人物節(jié)點及其關系密切的社會人群,以及探測、追蹤敏感話題,從而對敏感的人群節(jié)點以及話題,能提供靈活多變的監(jiān)管方式,在各個不同時段、靈活設置可伸縮的調整監(jiān)控范圍,實現對敏感人物節(jié)點及其關聯的人群階段和敏感事件的有效監(jiān)管。對社會媒體的監(jiān)管,如果處置方法不當,會影響社會媒體在我國的良好發(fā)展勢頭。目前的簡單、從嚴監(jiān)管的方法往往以犧牲用戶體驗為代價,長期來看需要改變,要對社會媒體的監(jiān)管方式變“堵”為“疏”,借助網民的力量發(fā)現事實,鼓勵參與事件的調查,緩解網絡輿情,增強公信力。
因此,虛擬社會管理可以有效地改變社會媒體面對民意表達的姿態(tài)和主動性,切實與互聯網發(fā)展相結合,與時俱進,實現社會媒體的規(guī)范管理,服務于社會穩(wěn)定的大局。