肖卓明,吳 嫻
(南方報(bào)業(yè)傳媒集團(tuán) 南方輿情數(shù)據(jù)研究院,廣東 廣州 510601)
輿情監(jiān)測(cè)分析系統(tǒng)關(guān)鍵技術(shù)實(shí)現(xiàn)方案
肖卓明,吳 嫻
(南方報(bào)業(yè)傳媒集團(tuán) 南方輿情數(shù)據(jù)研究院,廣東 廣州 510601)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們獲取信息和相互交流的渠道與之前相比發(fā)生了根本性的變化。突發(fā)事件比以往更容易傳播,并引起了激烈的討論,進(jìn)而發(fā)展為輿情事件。網(wǎng)絡(luò)輿情的監(jiān)控和分析受到了前所未有的關(guān)注。輿情監(jiān)測(cè)分析系統(tǒng)涉及互聯(lián)網(wǎng)信息采集、海量數(shù)據(jù)分析、可視化展示等,其中,涉及的技術(shù)細(xì)節(jié)較為復(fù)雜,應(yīng)用環(huán)境多變,對(duì)系統(tǒng)的穩(wěn)定性、安全性、可靠性有較高的要求。簡(jiǎn)要分析了輿情監(jiān)測(cè)分析系統(tǒng)中需要使用到的通用關(guān)鍵技術(shù),以期為日后相關(guān)工作的順利進(jìn)行提供參考。
輿情監(jiān)測(cè);大數(shù)據(jù);信息采集;語(yǔ)義識(shí)別
穩(wěn)定性、安全性、可靠性有較高的要求。
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,越來(lái)越多的人通過(guò)網(wǎng)絡(luò)媒體獲取信息,并通過(guò)社交媒體發(fā)表言論,信息傳播的路徑和人們相互交流的渠道與之前有了根本性的變化。一些突發(fā)事件比以往更容易傳播,并會(huì)引起人們激烈的討論,經(jīng)過(guò)網(wǎng)絡(luò)發(fā)酵后,成為重要的新聞熱點(diǎn),甚至可以產(chǎn)生巨大的社會(huì)影響。對(duì)網(wǎng)絡(luò)輿情進(jìn)行適當(dāng)?shù)谋O(jiān)測(cè)和引導(dǎo),防止突發(fā)事件持續(xù)惡化,已經(jīng)成為當(dāng)前相關(guān)部門面臨的重要挑戰(zhàn)之一。各級(jí)政府希望通過(guò)對(duì)互聯(lián)網(wǎng)輿情的有效監(jiān)控和分析,快速發(fā)現(xiàn)相關(guān)的熱點(diǎn)事件,進(jìn)而有效引導(dǎo)網(wǎng)絡(luò)輿論,實(shí)現(xiàn)對(duì)社會(huì)的綜合治理,提高維護(hù)社會(huì)穩(wěn)定的能力。
傳統(tǒng)媒體作為新聞事件的發(fā)現(xiàn)者和傳播者,對(duì)熱點(diǎn)事件有極強(qiáng)的敏感性。又因?yàn)閷?duì)傳播機(jī)制的熟悉,傳統(tǒng)媒體在熱點(diǎn)發(fā)現(xiàn)、輿論引導(dǎo)、輿情處置上有天然的優(yōu)勢(shì);再加上媒體傳統(tǒng)業(yè)務(wù)的下滑,尋求新的利潤(rùn)增長(zhǎng)點(diǎn)和媒體融合發(fā)展雙動(dòng)力驅(qū)使,越來(lái)越多的傳統(tǒng)媒體開始在新型輿情智庫(kù)上展開探索,以期開辟一條媒體轉(zhuǎn)型的有效路徑。網(wǎng)絡(luò)輿情的監(jiān)控和分析涉及互聯(lián)網(wǎng)信息采集、海量數(shù)據(jù)分析、可視化展示等,其中,涉及的技術(shù)細(xì)節(jié)較為復(fù)雜,應(yīng)用環(huán)境多變,對(duì)系統(tǒng)的
輿情監(jiān)測(cè)分析系統(tǒng)一般由信源層、采集處理層、業(yè)務(wù)處理層和應(yīng)用層組成,每一層包括不同的功能模塊,涉及多種關(guān)鍵技術(shù)。輿情監(jiān)測(cè)分析系統(tǒng)總體架構(gòu)如圖1所示。
信源層負(fù)責(zé)解釋和獲取互聯(lián)網(wǎng)原始數(shù)據(jù),完成對(duì)原始網(wǎng)頁(yè)的數(shù)據(jù)抓取,網(wǎng)頁(yè)抓取是基于HTTP協(xié)議的。信源層的資源包括媒體數(shù)據(jù)、社交網(wǎng)站數(shù)據(jù)、博客數(shù)據(jù)、微博數(shù)據(jù)、微信公眾號(hào)數(shù)據(jù)、新聞客戶端數(shù)據(jù)、視音頻數(shù)據(jù)和搜索引擎數(shù)據(jù)等。信源層的數(shù)據(jù)被獲取后,會(huì)被傳輸?shù)讲杉幚韺舆M(jìn)行進(jìn)一步的存儲(chǔ)、分析和處理。信源層是整個(gè)系統(tǒng)的數(shù)據(jù)來(lái)源,提供大量豐富的原始數(shù)據(jù)。
信源層獲取到的原始數(shù)據(jù)來(lái)源多樣,格式復(fù)雜,且包含了大量無(wú)用冗余的垃圾信息,并不能被系統(tǒng)直接使用,因此,需要在采集處理層有效處理這些原始數(shù)據(jù),使之變成系統(tǒng)能夠識(shí)別的數(shù)據(jù)。采集處理層是整個(gè)系統(tǒng)的重要環(huán)節(jié),為系統(tǒng)提供穩(wěn)定的數(shù)據(jù)支撐。采集處理層主要分為采集架構(gòu)、云存儲(chǔ)體系、數(shù)據(jù)處理中心、采集數(shù)據(jù)庫(kù)、新聞快照庫(kù)、業(yè)務(wù)數(shù)據(jù)庫(kù)和擴(kuò)展信源通道等7個(gè)部分。
業(yè)務(wù)處理層主要建設(shè)分析處理引擎,包括各個(gè)應(yīng)用系統(tǒng)需要建設(shè)的業(yè)務(wù)處理部分,需要進(jìn)行全面的考量和建設(shè),設(shè)計(jì)出穩(wěn)定的業(yè)務(wù)處理支撐層,并為最上端的應(yīng)用層打下堅(jiān)實(shí)的基礎(chǔ)。
應(yīng)用層基于業(yè)務(wù)處理層提供的框架、平臺(tái)和工具,訪問(wèn)各類主題數(shù)據(jù)資源層的數(shù)據(jù)庫(kù),構(gòu)建面向用戶各環(huán)節(jié)的分析應(yīng)用。應(yīng)用層主要由一系列已經(jīng)封裝好的數(shù)據(jù)服務(wù)組成,整合不同來(lái)源的新聞數(shù)據(jù),借助平臺(tái)的大數(shù)據(jù)處理和指揮調(diào)度能力,完成一系列的數(shù)據(jù)分析輸出功能,為用戶提供一體化的監(jiān)測(cè)分析服務(wù)。
圖1 輿情監(jiān)測(cè)分析系統(tǒng)總體架構(gòu)
輿情監(jiān)測(cè)分析系統(tǒng)網(wǎng)絡(luò)規(guī)模大,運(yùn)行環(huán)境復(fù)雜,數(shù)據(jù)量龐大,涉及多系統(tǒng)、多數(shù)據(jù)庫(kù)和多應(yīng)用平臺(tái)?;ヂ?lián)網(wǎng)上采集的數(shù)據(jù)類型多樣,同時(shí)存在垃圾數(shù)據(jù),海量的數(shù)據(jù)信息需要通過(guò)聚類、分類、可視化才能直觀地表現(xiàn)出來(lái)。信息采集、信息處理、信息分析、信息檢索、文本分詞、文本分類聚類、系統(tǒng)的穩(wěn)定性和大數(shù)據(jù)的可讀性,等等,都需要采用特定的關(guān)鍵技術(shù)來(lái)解決實(shí)現(xiàn)。
輿情監(jiān)測(cè)分析系統(tǒng)的首要特點(diǎn)就是數(shù)據(jù)體量大、數(shù)據(jù)流量高、數(shù)據(jù)類型繁多,因此,海量的互聯(lián)網(wǎng)數(shù)據(jù)采集和處理是整個(gè)系統(tǒng)建設(shè)的基石,互聯(lián)網(wǎng)數(shù)據(jù)的快速、全面采集是決定輿情監(jiān)測(cè)工作成效的最直接因素。只有采集及時(shí),才能第一時(shí)間捕捉線索苗頭,不漏失重要信息,避免貽誤處理時(shí)機(jī);只有數(shù)據(jù)全面,才能充分發(fā)揮大數(shù)據(jù)挖掘的優(yōu)勢(shì),避免不同平臺(tái)的群體差異性帶來(lái)的抽樣偏頗,導(dǎo)致分析結(jié)果出現(xiàn)偏差。
當(dāng)系統(tǒng)出錯(cuò)時(shí),如何才能保證數(shù)據(jù)的完整性和一致性,同時(shí),互聯(lián)網(wǎng)上的數(shù)據(jù)無(wú)時(shí)無(wú)刻不在更新,如何采用冗余機(jī)制建立備份系統(tǒng),在系統(tǒng)發(fā)生故障時(shí)保證系統(tǒng)的不間斷運(yùn)行,互聯(lián)網(wǎng)海量信息的采集、處理、展示,對(duì)系統(tǒng)的穩(wěn)定性提出了更高的要求。
互聯(lián)網(wǎng)上采集的絕大部分?jǐn)?shù)據(jù)都是文本信息,需要對(duì)海量信息進(jìn)行自動(dòng)聚類分析,自動(dòng)根據(jù)信息主體所屬的領(lǐng)域判斷,對(duì)不同語(yǔ)種的內(nèi)容進(jìn)行自動(dòng)轉(zhuǎn)譯后分解,對(duì)主題事件的語(yǔ)義情緒傾向性進(jìn)行分析。這時(shí),人機(jī)語(yǔ)義的識(shí)別問(wèn)題就顯得尤為重要。
輿情大數(shù)據(jù),絕大部分都是非結(jié)構(gòu)化處理后形成的結(jié)構(gòu)化數(shù)據(jù),體量達(dá)到PB級(jí)。面對(duì)如此龐大的數(shù)據(jù),需要進(jìn)行數(shù)據(jù)元素分解,才能在業(yè)務(wù)層面進(jìn)行歸納,進(jìn)而對(duì)數(shù)據(jù)進(jìn)行深入透視,進(jìn)一步滿足日常的研判工作。如何將隱含在大數(shù)據(jù)中的輿情信息通過(guò)可被用戶簡(jiǎn)單閱讀和理解的方式表現(xiàn)出來(lái),是實(shí)現(xiàn)數(shù)據(jù)可閱讀性、可視化不得不考慮的問(wèn)題。
采用分布式多線程并發(fā)指令執(zhí)行體系結(jié)構(gòu)、增量實(shí)時(shí)索引、智能分詞等先進(jìn)技術(shù),基于爬蟲機(jī)制,對(duì)Web頁(yè)面信息進(jìn)行智能識(shí)別和資源抓取,能夠?qū)崿F(xiàn)網(wǎng)頁(yè)排重、垃圾過(guò)濾等預(yù)處理,實(shí)現(xiàn)分頁(yè)內(nèi)容自動(dòng)合并、動(dòng)態(tài)信息增量采集。另外,依托云計(jì)算平臺(tái),建立有效的采集調(diào)度規(guī)則,采用自適應(yīng)帶寬設(shè)計(jì),能夠達(dá)到分鐘級(jí)的實(shí)時(shí)采集效率和多個(gè)網(wǎng)站同時(shí)并發(fā)訪問(wèn),達(dá)到多點(diǎn)負(fù)載均衡的效果,提高信息抓取的效率和性能。
在做互聯(lián)網(wǎng)數(shù)據(jù)的采集時(shí),因?yàn)椴杉瘮?shù)據(jù)量大,需要進(jìn)行大量的I/O操作,如果按照常規(guī)串聯(lián)I/O讀取和分析,容易出現(xiàn)任務(wù)死鎖等假死狀況。采用分布式多任務(wù)并行處理技術(shù),是為了讓一份文件同時(shí)被多臺(tái)機(jī)器或進(jìn)程讀取計(jì)算,將2條或多條指令并行執(zhí)行,同時(shí)處理多個(gè)任務(wù)。這樣做,可以在提高運(yùn)算速率的基礎(chǔ)上保證采集系統(tǒng)的穩(wěn)定性。
高速度網(wǎng)頁(yè)實(shí)時(shí)增量采集技術(shù)實(shí)現(xiàn)分秒監(jiān)測(cè)網(wǎng)站信息變化動(dòng)態(tài),同時(shí),增量實(shí)時(shí)索引技術(shù)保證信息即時(shí)采集即時(shí)檢索,可以采集到最新的網(wǎng)站信息。另外,以先進(jìn)搜索技術(shù)為核心,可實(shí)現(xiàn)亞秒級(jí)的檢索速度和每秒上百次的并發(fā)檢索支持,保證全面快速的響應(yīng)用戶檢索需求。
如何發(fā)揮集群的最大效用,保證集群的整體穩(wěn)定性,是分布式計(jì)算中必須考慮的重要環(huán)節(jié)之一。采用集群性能均衡器技術(shù),即集群調(diào)度器定時(shí)掃描服務(wù)器節(jié)點(diǎn)性能占用情況、I/O負(fù)荷情況等,并調(diào)用操作系統(tǒng)日志進(jìn)行性能日志審計(jì),對(duì)異常節(jié)點(diǎn)進(jìn)行告警,將任務(wù)調(diào)度重新進(jìn)行哈希分配,重新平衡各任務(wù)節(jié)點(diǎn)的計(jì)算任務(wù)分配,可以極大地提高系統(tǒng)整體集群的工作效率和穩(wěn)定性。
用Rocchio算法可以解決文本分類問(wèn)題,將一個(gè)類別里的樣本文本各項(xiàng)取個(gè)平均值,可以得到一個(gè)新的向量,可以將其稱之為“質(zhì)心”,而“質(zhì)心”就成了這個(gè)類別最具代表性的向量表示。再有新文本需要判斷的時(shí)候,比較新文本與“質(zhì)心”相似度,就可以確定新文本屬不屬于這個(gè)類別。稍微改進(jìn)一點(diǎn)的Rocchio算法不僅考慮了屬于這個(gè)類別的文本(稱為正樣本),也考慮了不屬于這個(gè)類別的文本數(shù)據(jù)(稱為負(fù)樣本),計(jì)算出來(lái)的質(zhì)心盡量靠近正樣本,盡量遠(yuǎn)離負(fù)樣本。
貝葉斯算法解決的是文本屬于某類別的概率。文本屬于某個(gè)類別的概率等于文本中每個(gè)詞屬于該類別的概率的綜合表達(dá)式。而每個(gè)詞屬于該類別的概率又在一定程度上可以用這個(gè)詞在該類別訓(xùn)練文本中出現(xiàn)的次數(shù)(詞頻信息)來(lái)粗略估計(jì),因而使得整個(gè)計(jì)算過(guò)程變得可行。使用樸素貝葉斯算法時(shí),訓(xùn)練階段的主要任務(wù)就是估計(jì)這些值。
在kNN算法里,訓(xùn)練樣本代表了類別的準(zhǔn)確信息,而不管樣本是使用什么特征表示的。在給定新文本后,計(jì)算新文本特征向量和訓(xùn)練文本集中各個(gè)文本向量的相似度,得到K篇與該新文本距離最近、最相似的文本,根據(jù)這K篇文本所屬的類別判定新文本所屬的類別。這種判斷方法很好地克服了Rocchio算法中無(wú)法處理線性不可分問(wèn)題的缺陷,也適用于分類標(biāo)準(zhǔn)隨時(shí)會(huì)變化的需求——只要?jiǎng)h除舊訓(xùn)練文本,添加新訓(xùn)練文本,就改變了分類準(zhǔn)則。
SVM訓(xùn)練的本質(zhì)是解決一個(gè)二次規(guī)劃問(wèn)題(Quadruple Programming,指目標(biāo)函數(shù)為二次函數(shù),約束條件為線性約束的最優(yōu)化問(wèn)題),得到的是全局最優(yōu)解,這使它有著其他統(tǒng)計(jì)學(xué)習(xí)技術(shù)難以比擬的優(yōu)越性。SVM分類器的文本分類效果很好,是最好的分類器之一。同時(shí),使用核函數(shù)將原始的樣本空間向高維空間變換,能夠解決原始樣本線性不可分的問(wèn)題。
數(shù)據(jù)可視化技術(shù)主要包括5種,分別是標(biāo)準(zhǔn)2D/3D顯示技術(shù)、基于幾何的技術(shù)、基于圖標(biāo)的技術(shù)、基于層次的可視化技術(shù)和面向像素的可視化技術(shù)。運(yùn)用可視化技術(shù)能夠?qū)⑿侣劅岫?、事件發(fā)展趨勢(shì)、數(shù)據(jù)統(tǒng)計(jì)、傳播路徑、人物關(guān)系等通過(guò)圖形顯示出來(lái),以便人們更加直觀地了解輿情發(fā)展態(tài)勢(shì)。同時(shí),可以利用多種形式的圖表,包括全國(guó)地圖、曲線趨勢(shì)圖、樹狀圖、餅圖、柱形圖和星狀圖等,基于HTML5技術(shù)展現(xiàn)數(shù)據(jù)分析結(jié)果,呈現(xiàn)出更好的交互能力。
網(wǎng)絡(luò)輿情監(jiān)測(cè)分析系統(tǒng)具有復(fù)雜性,它涉及大數(shù)據(jù)、云計(jì)算、數(shù)據(jù)挖掘等多個(gè)技術(shù)領(lǐng)域,每一個(gè)技術(shù)細(xì)節(jié)都值得深入研究。本文簡(jiǎn)要分析了輿情監(jiān)測(cè)分析系統(tǒng)中使用到的通用關(guān)鍵技術(shù),拋磚引玉,以期為同行提供參考。
[1]周寶曜,范承工,劉偉.大數(shù)據(jù):戰(zhàn)略·技術(shù)·實(shí)踐[M].北京:電子工業(yè)出版社,2013.
[2]Anand Rajaraman,Jeffrey David Ullman.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].北京:人民郵電出版社,2012.
[3]劉毅.網(wǎng)絡(luò)輿情研究概論[M].天津:天津人民出版社,2007.
[4]馬明建.數(shù)據(jù)采集與處理技術(shù)[M].西安:西安交通大學(xué)出版社,2005.
TP393.09
A
10.15913/j.cnki.kjycx.2018.02.016
2095-6835(2018)02-0016-03
肖卓明(1981—),男,主要從事數(shù)據(jù)庫(kù)設(shè)計(jì)、網(wǎng)絡(luò)應(yīng)用方面的研究。吳嫻(1985—),女,主要從事自然語(yǔ)言處理、文本挖掘和模式識(shí)別方面的研究。
白潔〕