周奇,印鑒,張良均
(1.廣東開放大學(xué)信息與工程學(xué)院,廣州510630;2.中山大學(xué)數(shù)據(jù)科學(xué)與計算機學(xué)院,廣州510630;3.廣州泰迪智能科技有限公司,廣州510630)
自習(xí)近平主席在2013 年9 月和10 月分別提出共建“絲綢之路經(jīng)濟帶”和“21 世紀(jì)海上絲綢之路”(簡稱“一帶一路”)的重大倡議以來,絲路沿線國家及國際社會反響強烈。從國際輿論情況的來源看,既有來自政界、學(xué)界、商界、媒體的聲音,也有來自民間公眾的評價。從其性質(zhì)看,既有積極和充滿期待的一面,也有謹(jǐn)慎和疑慮的一面,還有反對、詆毀的雜音。從其認(rèn)知內(nèi)容看,既存在合作互信現(xiàn)象,又存在知之甚少現(xiàn)象,甚至不乏錯誤解讀現(xiàn)象。準(zhǔn)確把握相關(guān)國家的絲路觀、了解它們的利益與訴求,有助于我們科學(xué)研判與決策,講好絲路故事,克服認(rèn)知風(fēng)險,營造積極的國際輿論氛圍,順利推進與絲路經(jīng)濟帶國家的務(wù)實合作,實現(xiàn)共同發(fā)展、共同繁榮、合作共贏之目標(biāo)。
目前“一帶一路”已經(jīng)設(shè)計包括亞洲43 國、中東歐16 國、獨聯(lián)體4 國、非洲1 國在內(nèi)的共64 國。由于域內(nèi)民族眾多,教派林立,更有眾多歷史遺留問題,了解相關(guān)國家政府、民眾對“一帶一路”的態(tài)度,解讀相關(guān)地區(qū)和國家對“一帶一路”倡議的公共話語與基本認(rèn)知,才能更加有針對性地摸索對外傳播“一帶一路”倡議的重點,逐步降低和打消相關(guān)國家的疑慮;同時提升中國國際輿論話語權(quán),力避中國在全球輿論場中的失語問題。
2016 年10 月29 日,首屆中國國際輿論學(xué)年會在廣東外語外貿(mào)大學(xué)召開,華南首個新聞大數(shù)據(jù)聯(lián)合實驗室落戶廣外。在中國走出去融入國際社會的過程當(dāng)中,國際輿論以及通過國際輿情了解中國在國際的身份,中國怎么樣以更好的姿態(tài)更有效地走出去,如何更好地做好輿情分析的研究支持工作成為義不容辭的責(zé)任。
(1)信息獲取過于分散收集效率低
互聯(lián)網(wǎng)日益發(fā)達的今天,我們獲取信息的途徑也變得越來越豐富,足不出戶就能掌握全球資訊。資源越多意味著我們要收集這些信息需要花費的時間就越多,如“一帶一路”有來自各國政界、學(xué)界、商界、媒體的聲音,也有來自民間公眾的評價,而這些信息分布在國內(nèi)外各大主流網(wǎng)站、論壇、博客、貼吧、微信,等等,要進行這些信息的收集需要發(fā)大量的人力物力,同時信息完整度和時間得不到保證。
(2)獲取大量相關(guān)信息后無法進行處理和判斷
大量的各類信息收集完成后,需要根據(jù)需求進行信息處理,去除垃圾信息,并作出相應(yīng)判斷。面對這類重復(fù)性多且任務(wù)煩重的工作,少量人力短時間內(nèi)無法完成,同時得出來的數(shù)據(jù)偏向于個人情感。
(3)各信息間難以歸類分析
要準(zhǔn)確掌握資訊最新動向,需要結(jié)合前期資訊作出歸類分析,結(jié)合經(jīng)驗得出事件趨向,達到先知先斷的效果。而要做到信息歸類分析,需要作很多相應(yīng)工作,同樣費時費力。若這些工作不能按時完成,歸類出來的結(jié)果也失去了意義。
習(xí)近平總書記指出,互聯(lián)網(wǎng)是我們這個時代最具發(fā)展活力的領(lǐng)域?;ヂ?lián)網(wǎng)快速發(fā)展,給人類生產(chǎn)生活帶來深刻變化,也給人類社會帶來一系列新機遇新挑戰(zhàn)。新大型數(shù)據(jù)新聞節(jié)目——《數(shù)說命運共同體》,節(jié)目挖掘超過1 億GB 的數(shù)據(jù),分析發(fā)現(xiàn)“一帶一路”沿線國家40 多億百姓休戚相關(guān)的密切聯(lián)系。讓沉默的數(shù)據(jù)說話,它們呈現(xiàn)出來的,是“一帶一路”國家間前所未見的聯(lián)系圖景。
2017 年8 月24 日,中國電子信息產(chǎn)業(yè)發(fā)展研究院在工業(yè)和信息化部信軟司指導(dǎo)下發(fā)布了《中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展水平評估報告(2017 年)》(以下簡稱《評估報告》)。作為《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020 年)》頒布后的第一個年度大數(shù)據(jù)產(chǎn)業(yè)評估報告,為我國大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展和相關(guān)產(chǎn)業(yè)管理工作提供了有力支撐。
隨著互聯(lián)網(wǎng)的發(fā)展大數(shù)據(jù)不斷地向社會各行各業(yè)滲透,為每一個領(lǐng)域帶來變革性影響,并且正在成為各行業(yè)創(chuàng)新的原動力和助推器。互聯(lián)網(wǎng)社交互動技術(shù)的不斷發(fā)展創(chuàng)新,人們越來越習(xí)慣于通過微博、微信、博客、論壇等社交平臺去分享各種信息數(shù)據(jù)、表達訴求、建言獻策,每天傳播于這些平臺上的數(shù)據(jù)量高達幾百億甚至上千億條,這些數(shù)量巨大的社交數(shù)據(jù)構(gòu)成了大數(shù)據(jù)的一個重要部分,這些數(shù)據(jù)對于政府收集民意動態(tài)、企業(yè)了解產(chǎn)品口碑、公司開發(fā)市場需求等發(fā)揮重要作用。
輿情資訊信息涵蓋的內(nèi)容很多,對這些內(nèi)容分析需要一個專門的分析平臺做處理,以減輕人員工作量及數(shù)據(jù)準(zhǔn)確度,以極度的時間分析掌握各事件動態(tài),及發(fā)展趨勢為進一步推理提供數(shù)據(jù)基礎(chǔ)。
需要一個分析平臺去把事件歸類,以應(yīng)對不同的分析場景,如政策、經(jīng)濟、旅游、文化等為類分析,讓結(jié)果更有針對性,方便針對性的解析問題。
通過平臺實現(xiàn)對世界各國和地區(qū)宏觀經(jīng)濟、投融資環(huán)境、項目需求、項目進展、風(fēng)險評估等信息采集、解析和數(shù)據(jù)挖掘,直觀顯示信息變化。
圖1 展示了平臺基本建設(shè)流程。
圖1 平臺基本建設(shè)流程
信息采集、解析與轉(zhuǎn)換:進行網(wǎng)絡(luò)爬蟲,并解析網(wǎng)頁得到所需信息,通過語言轉(zhuǎn)換過程將解析后數(shù)據(jù)統(tǒng)一翻譯為中文,并存儲至業(yè)務(wù)庫;
數(shù)據(jù)預(yù)處理:針對每一個文章記錄,進行分詞、詞性標(biāo)識、實體識別等預(yù)處理過程,為后續(xù)的數(shù)據(jù)挖掘建模提供基礎(chǔ);
挖掘建模:針對不同的應(yīng)用場景,建立不同的模型,如文章分析、事件識別、事件分析、網(wǎng)民分析、輿情監(jiān)控預(yù)警等;
應(yīng)用:將模型預(yù)測的結(jié)果進行展示,為最終用戶提供可視化,包括事件統(tǒng)計、熱點分析、觀點分析、情感分析、監(jiān)測預(yù)警。
輿情大數(shù)據(jù)分析平臺的建設(shè)規(guī)劃是基于一網(wǎng)、二化、三庫、五應(yīng)用四個方面展開的。
(1)一網(wǎng)
即我們的輿情大數(shù)據(jù)分析平臺,利用數(shù)據(jù)采集、云計算、數(shù)據(jù)挖掘等技術(shù),構(gòu)造的一個應(yīng)用平臺,它通過一個入口,用戶通過瀏覽器即可訪問有權(quán)限的數(shù)據(jù)及分析結(jié)果。
(2)二化
即標(biāo)準(zhǔn)化和可控化。標(biāo)準(zhǔn)化即數(shù)據(jù)格式要標(biāo)準(zhǔn)化、處理流程標(biāo)準(zhǔn)化、分析過程標(biāo)準(zhǔn)化??煽鼗雌脚_將采集的數(shù)據(jù)從不同維度、不同密度進行分析,預(yù)測并發(fā)現(xiàn)熱點事件與負(fù)面輿情,對公共政策提供基于大數(shù)據(jù)的評估和建議。
(3)三庫
三庫即業(yè)務(wù)數(shù)據(jù)庫、媒體事件庫、主題分析庫。業(yè)務(wù)數(shù)據(jù)庫即從不同的網(wǎng)頁爬取“一帶一路”相關(guān)網(wǎng)頁信息,并通過排重、解析、翻譯等一系列過程將結(jié)果數(shù)據(jù)匯集而已。媒體事件庫即將業(yè)務(wù)數(shù)據(jù)進行預(yù)處理后,分解聚合為網(wǎng)民、評論數(shù)據(jù)、媒體事件等可供分析的數(shù)據(jù)庫。主題分析庫即將媒體事件庫數(shù)據(jù)從不同維度、不同密度進行分析挖掘形成的數(shù)據(jù)庫。通過建立關(guān)聯(lián)耦合的數(shù)據(jù)庫,因虛而實,形成持續(xù)數(shù)據(jù),實現(xiàn)超融合、超預(yù)期的工作支撐。
(4)五應(yīng)用
應(yīng)用即為展示給最終用戶的分析結(jié)果。包括事件統(tǒng)計、熱點分析、觀點分析、情感分析、監(jiān)測預(yù)警。
圖2 平臺網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
輿情大數(shù)據(jù)分析平臺在充分考慮業(yè)務(wù)的平穩(wěn)運行、滿足性能要求的前提下,從數(shù)據(jù)采集、支撐框架、大數(shù)據(jù)中心和綜合應(yīng)用等方面提供可行的應(yīng)用方案,其應(yīng)用架構(gòu)如圖3 所示。
圖3 平臺應(yīng)用架構(gòu)
(1)數(shù)據(jù)采集層
整個平臺通過數(shù)據(jù)采集層實現(xiàn)從不同網(wǎng)頁、不同終端數(shù)據(jù)的抓取及匯聚,形成集中統(tǒng)一的數(shù)據(jù)資源。這些數(shù)據(jù)資源是整個平臺所有功能模塊運行的核心基礎(chǔ),因此數(shù)據(jù)采集層也是整個平臺架構(gòu)中的基礎(chǔ)。輿情大數(shù)據(jù)分析平臺通過數(shù)據(jù)采集層和不同系統(tǒng)進行對接,獲取上層數(shù)據(jù)處理應(yīng)用所需的各種數(shù)據(jù),如媒體報道、網(wǎng)友評論、貼文等;也能夠支持不同數(shù)據(jù)類型的獲取,如各種主流數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)文件(如網(wǎng)頁數(shù)據(jù)等等)。
(2)數(shù)據(jù)處理層
在數(shù)據(jù)匯聚到融合平臺上以后,通過數(shù)據(jù)處理層實現(xiàn)對平臺數(shù)據(jù)的底層處理工作,為上層功能模塊提供有力的工具保障。可以說,數(shù)據(jù)處理層是整個大數(shù)據(jù)平臺的核心所在。應(yīng)該將完成業(yè)務(wù)信息庫、媒體數(shù)據(jù)庫和主題數(shù)據(jù)庫的整理,完成數(shù)據(jù)中心、綜合應(yīng)用中心、分析挖掘平臺所支撐的計算及分析處理。通過這層數(shù)據(jù)處理實現(xiàn)數(shù)據(jù)在整個生命周期內(nèi)的所有管理功能,并提供了完善的數(shù)據(jù)模型和開發(fā)接口,為上層應(yīng)用系統(tǒng)的功能模塊封裝了必要的、完善的實現(xiàn)手段。
(3)數(shù)據(jù)應(yīng)用層
數(shù)據(jù)應(yīng)用層是根據(jù)輿情大數(shù)據(jù)分析平臺的具體項目需求設(shè)計的具體功能模塊和展現(xiàn)效果,利用數(shù)據(jù)處理層提供的資源和接口,對數(shù)據(jù)采集層匯聚過來的數(shù)據(jù),按照不同的業(yè)務(wù)邏輯進行處理和展示,是整個數(shù)據(jù)綜合平臺的核心價值所在。本項目的目標(biāo)在于利用大數(shù)據(jù)的手段,通過對多源數(shù)據(jù)的融合和在分析平臺上進行配置及定制化開發(fā)。為更好的實現(xiàn)這一目標(biāo),在分析平臺上利用融合匯聚的各系統(tǒng)數(shù)據(jù),重新定義了新的業(yè)務(wù)系統(tǒng)。區(qū)別于傳統(tǒng)應(yīng)用系統(tǒng)各自獨立的設(shè)計方式,在綜合平臺中,我們將業(yè)務(wù)系統(tǒng)的上層展現(xiàn)與底層的功能模塊進行分離,通過對不同應(yīng)用子系統(tǒng)業(yè)務(wù)邏輯的深度分析和挖掘,開發(fā)出不同類型的功能子模塊,便于各個業(yè)務(wù)系統(tǒng)根據(jù)需要選擇接入點,應(yīng)用之間通過服務(wù)總線進行有效交互,以適應(yīng)未來業(yè)務(wù)發(fā)展的需求,實現(xiàn)信息、資源的共享和重用,提供數(shù)據(jù)共享及服務(wù)共享能力。
輿情大數(shù)據(jù)分析平臺主要從軟件層面提供平臺級的應(yīng)用支撐能力,基于最底層的Linux 集群基礎(chǔ)設(shè)施,提供PaaS 層的平臺服務(wù),在其之上提供SaaS 層應(yīng)用。
在PaaS 層提供數(shù)據(jù)采集服務(wù)、分布式文件存儲服務(wù)、分布式數(shù)據(jù)庫服務(wù)、數(shù)據(jù)搜索服務(wù)、分布式離線計算服務(wù)、實時計算服務(wù)、數(shù)據(jù)挖掘服務(wù)、分布式消息隊列服務(wù)、分布式協(xié)調(diào)服務(wù)、開放式監(jiān)控服務(wù)以及集群管理。
在DaaS 層構(gòu)建數(shù)據(jù)庫群,包括業(yè)務(wù)數(shù)據(jù)庫、媒體事件庫、主題數(shù)據(jù)庫。
在SaaS 層提供應(yīng)用級別的服務(wù):情感分析、觀點分析、熱點分析、監(jiān)測預(yù)警和事件統(tǒng)計。平臺技術(shù)架構(gòu)如圖4 所示。
圖4 平臺技術(shù)架構(gòu)
本文對輿情數(shù)據(jù)中心的基本建設(shè)流程、部署網(wǎng)絡(luò)拓?fù)鋱D、總體應(yīng)用架構(gòu)和系統(tǒng)技術(shù)架構(gòu)進行分析與設(shè)計,能對大量的輿情資訊信息進行科學(xué)有效處理,以減輕人員工作量及數(shù)據(jù)準(zhǔn)確度,以極短的時間分析掌握各事件動態(tài),及發(fā)展趨勢為進一步推理提供數(shù)據(jù)基礎(chǔ)。
通過對分析與設(shè)計平臺把事件歸類,以應(yīng)對不同的分析場景,如政策、經(jīng)濟、旅游、文化等歸類分析,讓結(jié)果更有針對性,方便針對性地解析問題,能對信息采集、解析和數(shù)據(jù)挖掘,直觀顯示信息變化。