聶書江
國際輿情研判是指對(duì)國際輿論場中的輿情進(jìn)行價(jià)值和趨勢的一種分析與判斷過程,主要由兩部分構(gòu)成:一是對(duì)國際輿論場中輿情進(jìn)行日常性、持續(xù)性的跟蹤、收集,形成輿情庫,進(jìn)而提出報(bào)告;二是針對(duì)具體的國際危機(jī)或議題的輿情進(jìn)行針對(duì)性研判,形成報(bào)告。前者具有系統(tǒng)性、穩(wěn)定性和長期性,后者具有臨時(shí)性、突發(fā)性和專題性特征。
國際輿情研判是否準(zhǔn)確不但影響國際危機(jī)管理的水平,而且也影響國家決策的制定與執(zhí)行,在國際危機(jī)管理的過程中具有非常重要的作用。國際危機(jī)公關(guān)堅(jiān)持“決策未出,研判先行”就是對(duì)國際輿情研判的生動(dòng)說明。而在傳統(tǒng)意義上,國際輿情研判主要是通過人工瀏覽、文檔精選或案例庫比對(duì)等方法,不過,這些方法能夠奏效的一個(gè)前提是數(shù)據(jù)庫的可控性或者數(shù)據(jù)體量的可計(jì)算性。但是,在大數(shù)據(jù)時(shí)代,信息體量的幾何指數(shù)級(jí)增加意味著建立在可控假設(shè)的輿情研判方法難以解決大數(shù)據(jù)輿情狀況,因此,如何在大數(shù)據(jù)時(shí)代提升國際輿情的研判質(zhì)量就成為學(xué)界和業(yè)界思考的問題。
一、大數(shù)據(jù)時(shí)代傳統(tǒng)輿情研判的不足
20世紀(jì)90年代,面對(duì)紛繁復(fù)雜的國際輿論場,為了保證政策執(zhí)行的準(zhǔn)確性,我國國際輿情研判得到長足發(fā)展,當(dāng)時(shí)采取的主要手段是人海瀏覽法,即,通過對(duì)國際主流報(bào)刊和廣播進(jìn)行人工查閱以了解該國輿情的發(fā)展方向,然后撰寫報(bào)告,如國外動(dòng)態(tài)參考之類。21世紀(jì)初,隨著信息技術(shù)的發(fā)展,國際輿情研判手段發(fā)展到多文檔精選法和模板因子法。如今,基于網(wǎng)絡(luò)技術(shù)發(fā)展,又發(fā)展出關(guān)鍵詞搜索法、網(wǎng)絡(luò)實(shí)驗(yàn)法和數(shù)據(jù)庫比對(duì)法。以上各種方法,在輿情研判的工作中曾經(jīng)發(fā)揮著重要的作用,也取得了一定的成效。但是,新的大數(shù)據(jù)挖掘技術(shù)的發(fā)展,以上幾種方法在輿情研判上的不足逐漸暴露出來。
1.樣本代表性不足。傳統(tǒng)輿情研判的數(shù)據(jù)基礎(chǔ)思想是樣本的隨機(jī)性采集,但這些樣本并不是全樣本,而是小樣本,小數(shù)據(jù)量。之所以如此,一方面是受制于統(tǒng)計(jì)工具,另一方面是因?yàn)殡S機(jī)性統(tǒng)計(jì)方法認(rèn)為,采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅提高,這種提高跟樣本數(shù)量關(guān)系不大,也就是,樣本隨機(jī)性比樣本數(shù)量更加重要。然而,祝建華教授在一次討論中明確表示,如果抽樣的對(duì)象過于復(fù)雜,比如大數(shù)據(jù),那么,人們根本找不到一個(gè)最優(yōu)抽樣的標(biāo)準(zhǔn)。一旦隨機(jī)性出現(xiàn)偏差,分析結(jié)果就會(huì)相去甚遠(yuǎn)。2016年,美國總統(tǒng)大選,不但美國相關(guān)機(jī)構(gòu)預(yù)測失敗,而且我國的統(tǒng)計(jì)機(jī)構(gòu)也預(yù)測認(rèn)為候選人希拉里會(huì)獲勝,日本統(tǒng)計(jì)機(jī)構(gòu)甚至認(rèn)為希拉里大勝,從而建議首相提前結(jié)好希拉里。但是,印度的人工智能系統(tǒng)MogIA卻通過對(duì)Google、Facebook、Twitter等平臺(tái)上2000萬個(gè)數(shù)據(jù)點(diǎn)分析后認(rèn)為,特朗普能夠當(dāng)選美國總統(tǒng),于是我們看到,當(dāng)特朗普當(dāng)選后,日本首相不被待見,而印度總理卻很受美國總統(tǒng)特朗普歡迎。這一事例說明,小樣本已經(jīng)不能夠滿足大數(shù)據(jù)時(shí)代的輿情研判,如果還基于小樣本提供輿情研判,極易出現(xiàn)失誤。
2.缺乏包容性。在信息缺乏時(shí)代,信息的精確性就意味著研判的精確性。人們不但執(zhí)迷于獲取精確的信息,而且也為如何消除噪音而苦惱。在線性傳播模式中,噪音是一個(gè)影響傳播效果的主要因素,傳播學(xué)者為此制定出很多降噪的策略,如設(shè)備降噪、傳播重復(fù)、擴(kuò)大音量等。但是,信息爆炸的時(shí)代,噪音與數(shù)據(jù)并存,人們獲得有用數(shù)據(jù)的同時(shí),也就意味著噪音的獲得,“我們掌握的數(shù)據(jù)庫越來越全面,它不再只包括我們手頭現(xiàn)象的一點(diǎn)點(diǎn)可憐的數(shù)據(jù),而是包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)。我們不再需要那么擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價(jià)消除所有的不確定性?!雹俚?,小樣本為了精確性而排斥這些數(shù)據(jù)。
3.效率低下。無論是人工瀏覽法還是文檔精選法,它們不但耗費(fèi)巨大的人力物力,而且在面對(duì)危機(jī)事件時(shí),也不能立即總結(jié)出可行的報(bào)告,其效率低下的缺點(diǎn)暴露無遺。危機(jī)管理對(duì)時(shí)間的要求非常高,20世紀(jì)90年代,管理者提出24小時(shí)的黃金法則,后來針對(duì)新環(huán)境,又提出5小時(shí)原則,如今在社交媒體時(shí)代,5小時(shí)顯然不能適應(yīng)輿情處理的要求。但不管是5小時(shí),或者2小時(shí),傳統(tǒng)輿情研判的方法都不能滿足這些需求,而利用大數(shù)據(jù)挖掘技術(shù),卻能夠在極短的時(shí)間內(nèi),保質(zhì)保量地完成這些輿情分析和研判。
二、“臟數(shù)據(jù)”與數(shù)據(jù)清洗
雖然大數(shù)據(jù)在面對(duì)全樣本時(shí),比人工瀏覽法、文檔精選法等輿情研判更有優(yōu)勢,比如現(xiàn)在流行的Google搜索和百度搜索,但是,他們并不意味著大數(shù)據(jù)挖掘技術(shù)就一定能夠準(zhǔn)確預(yù)測輿情。因?yàn)?,在輿情產(chǎn)生的過程中,異常數(shù)據(jù)、不一致數(shù)據(jù)、重復(fù)數(shù)據(jù)、缺失數(shù)據(jù)等噪音數(shù)據(jù)和一些因數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)不合理和屬性約束不夠等產(chǎn)生的“臟數(shù)據(jù)”,也就是前文提到的包容性數(shù)據(jù),都能夠影響到輿情研判的精確度。所謂“臟數(shù)據(jù)”指的是在數(shù)據(jù)收集階段,源系統(tǒng)中的數(shù)據(jù)不存在給定范圍或?qū)?shí)際業(yè)務(wù)毫無意義,或是數(shù)據(jù)格式非法以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯。在國際輿情的收集過程中,由于語言邏輯的轉(zhuǎn)換、文化理解的不同,甚至數(shù)據(jù)源的獲取不正規(guī),噪音數(shù)據(jù)和“臟數(shù)據(jù)”普遍存在。從過去輿情研判失敗的案例中可以看出,如果無法對(duì)噪音數(shù)據(jù)或“臟數(shù)據(jù)”進(jìn)行清洗,這些獲得的輿情研判結(jié)果還需要人工進(jìn)行進(jìn)一步檢驗(yàn),這樣就浪費(fèi)人力物力。為了解決這個(gè)問題,數(shù)據(jù)清洗就成為解決“臟數(shù)據(jù)”的主要手段。
數(shù)據(jù)清洗技術(shù)主要應(yīng)用于數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)庫和數(shù)據(jù)挖掘三個(gè)方面,不同的應(yīng)用領(lǐng)域認(rèn)知不盡相同。到目前為止,數(shù)據(jù)清洗技術(shù)在學(xué)術(shù)界還沒有一個(gè)公認(rèn)的定義,但是其內(nèi)容已經(jīng)達(dá)成了初步共識(shí)。一般認(rèn)為,只要有助于解決數(shù)據(jù)質(zhì)量問題的處理過程就被認(rèn)為是數(shù)據(jù)清洗,其原理是通過分析“臟數(shù)據(jù)”的產(chǎn)生原因及存在形式,對(duì)數(shù)據(jù)流的過程進(jìn)行考察、分析,并總結(jié)出數(shù)理統(tǒng)計(jì)、數(shù)據(jù)挖掘或預(yù)定義規(guī)則等方法,從而將“臟數(shù)據(jù)”轉(zhuǎn)化成滿足數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。對(duì)于國際輿情研判而言,在國際輿情的大數(shù)據(jù)管理中,根據(jù)作者設(shè)置的定義、屬性、值域等對(duì)字段進(jìn)行語義分析,發(fā)現(xiàn)隱藏在字段間的關(guān)聯(lián)關(guān)系,并進(jìn)一步得到數(shù)據(jù)集中的字段存在的函數(shù)依賴關(guān)系,基于函數(shù)依賴發(fā)現(xiàn)數(shù)據(jù)集中的不一致值問題和隱藏的噪聲數(shù)據(jù)。然后根據(jù)函數(shù)依賴關(guān)系對(duì)數(shù)據(jù)集中的不一致值和缺失值進(jìn)行清洗和修復(fù)?;谧侄伍g的函數(shù)依賴關(guān)系還可以發(fā)現(xiàn)可信度較低的字段,通過分析可信度低的原因并反饋至數(shù)據(jù)采集階段,可以從數(shù)據(jù)源處減少國際輿情的“臟數(shù)據(jù)”。②具體見下圖:endprint
三、國際危機(jī)事件中的數(shù)據(jù)清洗
當(dāng)危機(jī)事件發(fā)生時(shí),能夠在時(shí)間壓力下獲取相對(duì)準(zhǔn)確的信息是危機(jī)管理者的核心需求。然而,國際危機(jī)事件的輿情往往通過新媒體在國際輿論場中快速傳播,這些信息能夠在瞬間傳播至全國范圍乃至全世界的各個(gè)角落,各種態(tài)度、觀點(diǎn)通過媒體在輿論場中傳播,其中既有主流輿情的因素,也有一些“臟數(shù)據(jù)”。在此過程中,能夠排除“臟數(shù)據(jù)”,準(zhǔn)確獲取國際危機(jī)事件中影響事件發(fā)展方向的輿情就成為數(shù)據(jù)挖掘的關(guān)鍵。
首先,數(shù)據(jù)清洗技術(shù)需要建立約束處理機(jī)制。約束處理機(jī)制是大數(shù)據(jù)清洗的準(zhǔn)備工作,也是數(shù)據(jù)清洗的開端。第一步是利用大數(shù)據(jù)技術(shù)對(duì)國際危機(jī)事件的所有數(shù)據(jù)進(jìn)行收集,這些數(shù)據(jù)也被稱為待清洗數(shù)據(jù)。需要注意的是,信息收集需要一個(gè)時(shí)間限制,雖然危機(jī)事件具有潛伏期、爆發(fā)期、蔓延期和恢復(fù)期四個(gè)階段的發(fā)展過程,但是,對(duì)于突發(fā)事件管理者而言,最重要的是爆發(fā)之后幾小時(shí)的數(shù)據(jù),這里參考我國發(fā)布的突發(fā)事件新聞發(fā)布要求中的5小時(shí)反應(yīng)規(guī)定。時(shí)間確定后,就需要根據(jù)大數(shù)據(jù)技術(shù)設(shè)置約束要素,如政治、經(jīng)濟(jì)、思想等。
其次,數(shù)據(jù)清洗設(shè)置。清晰設(shè)置就是根據(jù)約束處理機(jī)制對(duì)數(shù)據(jù)進(jìn)行辨析的過程。首先是對(duì)數(shù)據(jù)進(jìn)行解析,從傳播學(xué)的角度看,就是對(duì)數(shù)據(jù)進(jìn)行解碼,因?yàn)椋谒鸭降臄?shù)據(jù)中除了文字文檔外,還有圖片、視頻等多媒體文件,這些數(shù)據(jù)需要按照大數(shù)據(jù)挖掘格式進(jìn)行解析,否則,就會(huì)出現(xiàn)“臟數(shù)據(jù)”。數(shù)據(jù)解析后,通過規(guī)則邏輯如信息交互、重復(fù)識(shí)別和合并清洗等進(jìn)行計(jì)算機(jī)選擇,從而根據(jù)規(guī)則進(jìn)行清洗。該過程是一種技術(shù)處理的過程,既需要大數(shù)據(jù)的算法庫,也需要危機(jī)事件輿情的主體參與進(jìn)來。具體而言,就是在收集到危機(jī)事件的輿情數(shù)據(jù)后,針對(duì)“臟數(shù)據(jù)”進(jìn)行數(shù)據(jù)清洗,這種清洗的最終目的是保留清潔數(shù)據(jù),為輿情研判做好準(zhǔn)備。
最后,數(shù)據(jù)驗(yàn)證。數(shù)據(jù)清洗完畢后,并不能夠保證輿情研判的準(zhǔn)確性。為了保證數(shù)據(jù)清洗后的數(shù)據(jù)具有價(jià)值,還需要對(duì)這些數(shù)據(jù)進(jìn)行價(jià)值和趨勢的驗(yàn)證,如果發(fā)現(xiàn)數(shù)據(jù)清洗后出現(xiàn)缺失,就需要對(duì)數(shù)據(jù)進(jìn)行補(bǔ)全。然后,根據(jù)清洗后的數(shù)據(jù)進(jìn)行分析和研判,從而能夠最大程度地保證研判的準(zhǔn)確性。
四、小結(jié)
隨著大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)清洗技術(shù)也越來越成熟,如今已經(jīng)被谷歌、臉譜等公司應(yīng)用于輿情研判工作中。對(duì)于國際輿情研判工作來說,信息的復(fù)雜性、多樣性和全樣本性,又決定了傳統(tǒng)意義上信息處理方法的不適應(yīng)性,故而,數(shù)據(jù)清洗技術(shù)的使用顯得尤為必要。
「注釋」
①維克托·邁爾·舍恩伯格、肯尼思·庫克耶著,盛楊燕、周濤譯:《大數(shù)據(jù)時(shí)代》,浙江人民出版社2013年版,第56頁。
②譚暉、廖振松、周小翠、賀凡:《大數(shù)據(jù)的數(shù)據(jù)清洗方法研究》,《信息通信》2017年第1期。endprint