周天墨 陳佳林 諸云強
1(中國科學院地理科學與資源研究所 北京 100101) 2(中國科學院大學 北京 100049) 3(應急管理部信息研究院 北京 100029)
信息技術的快速提升在為人們帶來便利的同時,也帶來了事故和災害負面輿情來源廣且不確定性強[1-2]、蔓延廣且傳播快[3-4]、數(shù)據(jù)量大且表述隨意性強不易甄別[5]等問題,為輿情管理工作帶來前所未有的挑戰(zhàn)。因此,如何從海量信息中快速獲取與處理事件信息是亟需優(yōu)化與解決的問題。
基于前人的研究可知:從系統(tǒng)角度[4,6-7],傳統(tǒng)輿情監(jiān)控系統(tǒng)主要依賴于工作站或服務器集群,受可擴展性差、單點通信故障等問題的約束,已不能很好地滿足信息快速捕獲與甄別的要求。從數(shù)據(jù)量角度[8-9]來看,隨著人們對于互聯(lián)網(wǎng)與移動終端依賴性的增加,網(wǎng)絡信息量每日均呈幾何級增長,不僅增加了輿情信息的檢索范圍與挖掘難度,也對海量數(shù)據(jù)的高效分類與處理能力提出了新的要求。從使用習慣角度[10-11]來看,企業(yè)微信因其針對工作場景的平臺架構與模塊設置,已成為協(xié)同辦公的主要方式之一,因此實現(xiàn)與企業(yè)微信的信息互通,也是當前輿情系統(tǒng)在研發(fā)過程中需要重點關注的內(nèi)容。
本文采用Hadoop分布式框架設計研發(fā)事故和災害網(wǎng)絡輿情監(jiān)控系統(tǒng),實現(xiàn)自然災害、事故災難、社會公共安全等領域網(wǎng)絡輿情信息的實時監(jiān)控、及時搜集、有效甄別、快速預警、果斷處理與動態(tài)分析。通過試運行,系統(tǒng)可準確快速地采集與甄別輿情信息,并自動生成熱點事件分析報告,對第一時間獲取突發(fā)事件信息、掌握事態(tài)進展、了解網(wǎng)友情緒動態(tài)、引導正確輿論導向等具有重要意義,可為實際工作提供有力支持。
本文系統(tǒng)基于Hadoop框架展開研發(fā),旨在解決多渠道網(wǎng)絡輿情信息獲取、快速篩選甄別、按權限分時自動推送、各層級用戶之間上傳下達、輿情動態(tài)分析等問題的基礎上,構建面向應急管理的事故和災害網(wǎng)絡輿情監(jiān)測與管理系統(tǒng)。著重解決自然災害、事故災難、社會公共安全等多領域事故與災害信息在網(wǎng)絡媒介中傳播時的實時挖掘與跟蹤。系統(tǒng)與實際業(yè)務關聯(lián),不同層級用戶可按照要求上報本地事故和災害信息或反饋由上級主管部門下發(fā)的輿情信息。通過系統(tǒng)的使用與推廣,依據(jù)指定關鍵詞、高發(fā)時段、高頻信息發(fā)布者管理、輿情傳播途徑與周期等特征,逐步優(yōu)化系統(tǒng)檢索與甄別模式,實現(xiàn)指定領域事故和災害網(wǎng)絡輿情信息的快速發(fā)現(xiàn)與推送。為進一步提升用戶信息接收與瀏覽的便捷性與使用感,系統(tǒng)與企業(yè)微信關聯(lián),并依據(jù)用戶權限進行操作,實現(xiàn)省、市、區(qū)三級用戶一體化應急管理。
通過前人的研究可知[7,12],新浪微博因其具有公開化轉發(fā)、評論、點贊,曝光量大,易引發(fā)熱議的特點,是很多熱點評論人與爆料愛好者的首選。但隨著微信的普及與深化,微信平臺逐步成為各類事故和災害零延遲展現(xiàn)與移動評論的新場所[11]。此外,百度貼吧、抖音、今日頭條等社交平臺也是當前輿情信息集中出現(xiàn)的媒介。因此,為提升系統(tǒng)檢索效率與信息提取精度,本文系統(tǒng)的研發(fā)采用“指定網(wǎng)站、逐步完善”的模式,以上述媒介為核心數(shù)據(jù)源,并依據(jù)實際使用情況逐步添加輿情信息高發(fā)的網(wǎng)站及論壇,共同組成系統(tǒng)數(shù)據(jù)源。
依據(jù)應急管理工作范圍,結合日常接警數(shù)據(jù),確定系統(tǒng)檢索范圍為火災(城市火災和森林火災)、交通事故、洪澇、地震、地質(zhì)災害(山體滑坡和泥石流)等領域,子類別按照高發(fā)以及社會影響大、損失傷亡重的類別進一步細化。由于多類事故會伴隨爆炸、濃煙等現(xiàn)象,故系統(tǒng)針對爆炸類網(wǎng)絡信息進行專題抓取。此外,添加政務類檢索主題,包含違規(guī)曝照、消防通道占用、作風規(guī)范等方面。
在明確檢索范圍后,基于Hadoop框架展開研發(fā),技術路線如圖1所示。采用API調(diào)用與網(wǎng)頁解析的方式,從新浪微博、今日頭條、微信公眾號、百度貼吧、主流媒體網(wǎng)站及重點關注站點等網(wǎng)絡媒介獲取原始數(shù)據(jù)。對于提供API接口的平臺服務商,通過API調(diào)用獲取JSON數(shù)據(jù)并存入HBase庫,未提供的則通過基于HTML的爬蟲技術抓取數(shù)據(jù)。
圖1 技術路線
獲取的數(shù)據(jù)經(jīng)清洗過濾等預處理,去除錯誤、重復或不一致的數(shù)據(jù)后存儲于分布式文件系統(tǒng)HDFS。然后利用MapReduce作為編程模型,使用K-means算法等實現(xiàn)輿情信息的快速分類,既滿足網(wǎng)絡數(shù)據(jù)實時檢索甄別、分布式管理與高效傳輸?shù)男枨?,又實現(xiàn)了對海量輿情信息高效存儲與挖掘分析的要求。
最后,按照用戶權限通過命令行交互實現(xiàn)系統(tǒng)可視化管理與操作,并通過API接口與模塊相關聯(lián)。包括輿情監(jiān)測、輿情處理、統(tǒng)計分析、企業(yè)微信管理等功能。
由于K-means方法具有相似簇間距離小、不同簇間距離大的特點,常被用于文本聚類,但同時具有聚類準確性受初始聚類數(shù)K值影響的缺點[13],故本文采用基于高頻詞的K-means方法[14-15],既優(yōu)化了初始聚類數(shù)的選擇,也避免了高維空間向量的處理問題。
基于獲取的文本集T={T1,T2,…,Tn},計算文本T1中各分詞的TF-IFD值,選取排名前5的分詞作為T1的關鍵詞。以此類推獲得每個文本的關鍵詞,排序后選取前k個形成文本集T的關鍵詞集W={W1,W2,…,Wk}。將詞集中的關鍵詞分別作為初始簇的聚類中心,逐個計算剩余樣本到聚類中心的距離,并將樣本賦給最近的簇。然后重新計算每個簇的平均值,不斷重復直到相鄰兩次調(diào)整沒有明顯變化,說明算法已收斂。其中,k值為每日動態(tài)變化的。通過前期工作積累可知,一般情況下每日事故和災害起數(shù)的波動范圍較為穩(wěn)定,因此采用從系統(tǒng)運行第一日起至運行當日0時前,所有經(jīng)確認的事件總量的平均值為當日輿情系統(tǒng)文本聚類的初始簇數(shù)量k。
本文基于MapReduce實現(xiàn)K-means聚類算法,即首先利用map函數(shù)計算每個樣本點與簇中心的距離,將其對應到最近的簇,并以
(1)Map部分如下:
輸入
部分代碼for(int i=1;i
(2)Reduce部分如下:
輸入
事件與災害網(wǎng)絡輿情監(jiān)管系統(tǒng)包括輿情監(jiān)測、輿情處理、統(tǒng)計分析、企業(yè)微信管理等四個模塊(如圖2所示),可實現(xiàn)輿情信息的自動監(jiān)測、熱點獲取、自主上報、反饋處置、綜合分析等功能性服務,以及信息檢索、列表導出、系統(tǒng)管理等輔助性服務。為簡化操作流程,以用戶易理解性與易用性為導向,對輿情監(jiān)測與輿情處置模塊的展示頁面進行合并,將系統(tǒng)入庫的全部網(wǎng)絡輿情信息按照時間順序統(tǒng)一展示在輿情列表中,通過加注標簽、按鈕及已讀信息顏色變化、彈框提示等方式明確表示輿情處置狀態(tài)與可進行的操作。
圖2 功能體系
(1)日常監(jiān)測?;陬A設的關鍵詞對指定網(wǎng)站開展爬蟲,并將規(guī)范化的數(shù)據(jù)按照類別、地域、標題、摘要、敏感度、傾向性、處置狀態(tài)、來源的形式進行展示。系統(tǒng)自動判斷與其匹配的地址標簽,并按照權限自動推送至相應省、市、區(qū)等不同層級的用戶界面中,實現(xiàn)輿情信息的實時推送與預警。
(2)熱點分析。因日常監(jiān)測范圍為特定領域事故和災害信息的實時監(jiān)測,故通過熱點分析模塊對話題進行識別與展示。采用K-means算法[2,11,16]將同一事件網(wǎng)絡信息匯總合并,熱點話題形成后,進入話題集的輿情信息不再重復推送,按時間順序依次排列在該話題的輿情列表中。
(3)自主上報。因自動監(jiān)測和熱點分析均為面向指定媒介事故和災害網(wǎng)絡輿情識別與監(jiān)測,為保證分散信息或非主流傳播途徑發(fā)布的輿情信息不被遺漏,平臺提供自主上報功能。各層級用戶均可通過該模塊錄入系統(tǒng)尚未發(fā)現(xiàn)的事故和災害信息,經(jīng)本級管理員審核后發(fā)布并按照報送流程推送至上級用戶界面。發(fā)布成功后,若系統(tǒng)后續(xù)再次監(jiān)測到該事件則自動歸類,不再單獨提醒與推送。
基于本功能可實現(xiàn)輿情信息的上傳下達、多級聯(lián)動與協(xié)同處置的目的。系統(tǒng)提供信息報送接口,上級單位可針對某一事件下達指導要求,下級部門逐一填報相應輿情信息現(xiàn)場或網(wǎng)絡核實與處置情況。若在規(guī)定時間內(nèi),事件當前主管層級未做出實質(zhì)性響應或反饋,系統(tǒng)可通過高亮閃爍、語音提醒、彈窗等方式進行提示,同時按照報送流程上報至上級單位,以提高協(xié)同應對效率。
(1)常規(guī)分析為系統(tǒng)自帶模板,依據(jù)用戶權限按照時間維度(周、月、季度、年)對指定區(qū)域在規(guī)定時間內(nèi),系統(tǒng)輿情監(jiān)測與管理的整體情況自動生成圖表形式的統(tǒng)計報告?;趫蟾?,用戶可直觀獲取目標區(qū)域在指定時間區(qū)間內(nèi),各類事故和災害輿情基本情況、時間特征、傳播媒介、反饋處理情況、本期重點輿情等,并按照權限推送至相應用戶系統(tǒng)界面中。
(2)專題分析只針對某一熱點或專題事件,基于系統(tǒng)入庫數(shù)據(jù)及熱點詞出現(xiàn)頻率,通過模型計算后獲取該事件概況信息、隨時間變化的走勢特征、熱度指數(shù)、地域分布、傳播脈絡、用戶與話題活躍度、話題敏感度與傾向性、情緒分析、事件延伸跟蹤等輿情要素的綜合分析結果,形成專題分析報告并按權限推送展示。
(3)定制分析則以大量輿情報告為基礎,綜合常規(guī)分析和專題分析框架,用戶可依據(jù)實際需求自行添加要素生成輿情簡報或專業(yè)化報告。
移動辦公已成為當前的主流辦公方式之一,故基于企業(yè)微信提供的二次開發(fā)平臺,研發(fā)實時輿情推送功能,以實現(xiàn)增強用戶粘性與信息送達準確度、降低部署成本等目的。本次在企業(yè)微信自帶的權限管理基礎上,按照信息推送層級、瀏覽權限等要求,進一步細化系統(tǒng)用戶權限層級。為更好地保障系統(tǒng)用戶的群組性、減少信息泄露的可能性,新增用戶只能通過定向邀請方式進入系統(tǒng)。用戶加入后,依據(jù)權限收取以鏈接方式實時推送的監(jiān)測信息。發(fā)送的信息包括標題、概要、正文、來源、發(fā)布時間、相關圖片影像資料等,可實現(xiàn)網(wǎng)絡輿情信息的及時瀏覽。
輔助性功能包括查詢、導出、系統(tǒng)管理等功能。為便于用戶快速查找感興趣的輿情信息,在輿情列表中提供多重檢索功能。用戶可設置一個或多個檢索條件,按照時間、地點、關鍵詞、敏感度、傾向性、處理狀態(tài)等進行復合查詢。針對用戶篩選后的輿情信息、統(tǒng)計分析結果、系統(tǒng)日志情況等,提供列表導出功能。系統(tǒng)管理主要對用戶權限、操作日志、個性化設置等提供需求提供支持。
系統(tǒng)已完成開發(fā),試運行期間共抓取火災(城市火災和森林火災)、交通事故、洪澇、地震、地質(zhì)災害(山體滑坡和泥石流)、爆炸、政務類等事故與災害信息95萬余條。通過數(shù)據(jù)預處理后,符合既定類別、滿足篩選條件且地址匹配正確的數(shù)據(jù)約83萬余條,在此基礎上經(jīng)文本聚類分析,最終獲取事故與災害15 974起。
通過人工優(yōu)化及系統(tǒng)自學習,每日事故和災害網(wǎng)絡輿情信息的抓取與分類準確度不斷提升,基本符合實際事發(fā)數(shù)量。以2018年10月任意一天數(shù)據(jù)為例:初始簇個數(shù)k通過計算設定為89。參考前人研究[17],采用錯誤率MR評測文本聚類的效果,指標定義為:
當日系統(tǒng)自動獲取并篩選有效輿情信息4 523條,經(jīng)過系統(tǒng)聚類分析,形成輿情事故共89起。另有5起事件(共5條)為非設定檢索范圍獲取的輿情信息,通過人工錄入方式加入系統(tǒng)。
因此,當日系統(tǒng)內(nèi)有效輿情信息合計4 528條,經(jīng)核對分類錯誤501條,錯誤率11.06%。造成這一情況的主要原因為部分輿情信息事發(fā)地點相同且關鍵詞相似度高。部分話題聚類評價結果如表1所示。
表1 部分輿情信息話題聚類結果
(1)系統(tǒng)基于Hadoop框架進行研發(fā),在保證海量多源數(shù)據(jù)處理效率的同時,保障了數(shù)據(jù)檢索的時效性與準確性,并通過對話題進行挖掘與分析,獲取輿情信息的敏感性與傾向性,為掌握該事故和災害網(wǎng)絡輿情動態(tài)提供支持。
(2)依據(jù)應急工作范圍,通過分析日常接警信息,確定系統(tǒng)檢索范圍,有針對性地對通過網(wǎng)絡途徑發(fā)布的事故和災害數(shù)據(jù)、持續(xù)熱點事件的動態(tài)進行辨析、歸類。
(3)通過對網(wǎng)絡媒介中輿情信息的自動檢索與甄別,發(fā)現(xiàn)最新事故信息、抽取熱點事件,值守人員可第一時間獲取“原生態(tài)”網(wǎng)絡輿情信息并跟蹤進展,有助于對異常增長的話題或事件信息,提前預警并啟動相應應對措施,減少因信息瞞報、誤報、遲報而導致的被動應對狀態(tài)。
(4)區(qū)別于以往的輿情監(jiān)測系統(tǒng),本文系統(tǒng)與實際業(yè)務相結合,構建省、市、區(qū)三級一體化的輿情監(jiān)測與處置體系,實現(xiàn)以事件為觸發(fā)點、快速聯(lián)通各級應急管理人員、多級協(xié)同響應的目標。采用一張表的展示形式,將與同一事件相關的輿情信息、現(xiàn)場核查情況、處置意見與狀態(tài)等情況綜合展示,實現(xiàn)不同層級用戶進入系統(tǒng)均可快速了解輿情狀態(tài)與處置情況。
(5)因系統(tǒng)會依據(jù)關鍵詞所屬的事故和災害類別,對檢索入庫的輿情信息進行自動標注與分類,故利用其統(tǒng)計分析功能,可獲得指定周期內(nèi)各地區(qū)高發(fā)事故與災害的類型、數(shù)量變化等特征,為事故與災害的防范與預警提供參考。