沈菲 王天嬌
【內容摘要】 本文通過對比傳統(tǒng)語境與大數(shù)據(jù)語境民意研究的異同,嘗試對大數(shù)據(jù)民意挖掘的主要路徑和趨勢進行梳理,認為,一方面,合理使用大數(shù)據(jù)可以提高政府的民意收集效率、提高政府效率和社會的開放度;另一方面,過度使用大數(shù)據(jù)榨取商業(yè)價值,可能會限制個體的選擇自由并侵犯個人隱私。總之,大數(shù)據(jù)是工具,如何使用才是關鍵。
【關鍵詞】 民意研究;大數(shù)據(jù);路徑;趨勢\
一、傳統(tǒng)語境中的民意研究
現(xiàn)代意義上的民意調查,普遍認為可追溯到19世紀20年代美國總統(tǒng)競選期間的“草根調查”(straw poll)①。早期美國的政黨政治孕育了各黨派內部在總統(tǒng)選舉前的投票意愿清點。但各自黨內的票數(shù)清點,無助于了解對手的民意支持情況,這就為媒體作為第三方機構介入民調領域提供了契機。
1824年,美國特拉華州當?shù)氐膬杉覉蠹堅谕柮黝D市展開了總統(tǒng)候選人的喜愛度調查。②此次調查的效果雖然并不理想,但它開啟了美國報業(yè)收集民意、預測選舉的時代。在此后的一個多世紀里,美國出現(xiàn)了大量調研機構,包括報紙、雜志等媒體,參與到政治態(tài)度、選民傾向的調查中來。③
最廣為人知的民意調查或許要數(shù)19世紀二三十年代美國《文學文摘》雜志對美國大選的一系列預測。當時,該雜志秉承“樣本量越大,調查結果越準確”的思路④,按汽車牌照和固定電話記錄中的郵寄地址,給上百萬人郵寄并回收了“模擬選票”?!段膶W文摘》雜志用這種方法多次成功預測了美國總統(tǒng)競選結果,確立了郵寄回收問卷方法在民意研究中的地位。然而,盲目追求大樣本的民意調研在1936年被證實存在嚴重缺陷。
1935年,蓋洛普博士成立了美國民意研究所(即蓋洛普民調公司的前身),并誓言該所的民意調查不接受任何利益集團的贊助。1936年,《文學文摘》雜志用200萬張模擬選票預測蘭登當選總統(tǒng)。蓋洛普則利用配額抽樣法,僅從全國抽取了1000個樣本就成功預測了羅斯福當選。⑤《文學文摘》雜志隨后停刊,而現(xiàn)代民調漸漸引入抽樣、統(tǒng)計推斷等概念,進入了使用小規(guī)模科學抽樣代表性數(shù)據(jù)的時代。
在過去的大半個世紀,隨著媒體技術的發(fā)展,基于問卷和抽樣的民意調研方法日趨便捷與多元。從早期的入戶面訪和郵寄問卷,到20世紀70年代中期隨著美國家庭電話擁有量激增而產生的電話調查⑥,再到計算機技術帶來的各種民調系統(tǒng),包括計算機輔助電話訪問系統(tǒng)(CATI),計算機輔助面訪系統(tǒng)(CAPI)、計算機輔助自主訪問系統(tǒng)(CASI)和計算機輔助網絡調查系統(tǒng)(CAWI)等。
問卷電話調查法對量化社會科學研究做出了巨大貢獻,不過這種數(shù)據(jù)收集方式正在受到多方面的挑戰(zhàn)。根據(jù)美國皮尤研究中心的統(tǒng)計,電話調查的接觸率從1997年的90%下降到2012年的62%,合作率從42%下降到14%,而應答率則從36%下降到9%。⑦除了應答率的大幅下降直接影響調查數(shù)據(jù)的質量,電話調查的數(shù)據(jù)收集成本也十分高昂。有研究指出,從2000年到2004年,在愛爾蘭進行電話調查一個有效樣本的成本已從4.48歐元飆升到15.65歐元。⑧
互聯(lián)網問卷調研的出現(xiàn),給傳統(tǒng)民調帶來了新的生機。網絡問卷調研成本低、回收快、資料匯總過程中不易出現(xiàn)人工誤差。特別是在敏感問題的數(shù)據(jù)收集上,網絡調研更具優(yōu)勢。克魯托(Kreuter)等人⑨發(fā)現(xiàn),相較于電話調查,人們更愿意在填答網絡問卷時回答令人尷尬的問題,也更易于承認自己做過的社會不良行為(socially undesirable behavior)。網絡調研平臺還能嵌入多媒體資料,利用后臺數(shù)據(jù)庫收集填答問卷的行為數(shù)據(jù)。這些功能不僅有助于鑒別問卷填答的質量,也可以直接服務于特定的研究主題。例如,格瑞特(Garrett)和斯特勞德(Stroud)⑩利用網絡實驗,復現(xiàn)了網民在網絡新聞接觸過程中的主動選擇行為——通過操縱人們“看到”的新聞內容,更清楚地了解了選擇性接觸行為及其背后的動機。
網絡調查雖然高效,但在樣本和成本兩方面也有其局限性。首先,大量網絡調研使用的是方便樣本,即在各種網絡空間設置問卷鏈接,等待感興趣及有時間的網民點擊填答。如此樣本未必符合目標人群的人口統(tǒng)計特征,且樣本框的缺失也使得應答率無從計算。更嚴謹?shù)淖龇梢允怯袃斀柚鷮I(yè)網絡調研網站的樣本庫(如問卷星、SurveyMonkey、SSI等),“配制”出符合特定人口統(tǒng)計特征的樣本(如性別比例、年齡分布、收入結構等)。但由于此類服務的費用往往隨配制條件的增加和樣本量的擴大而提高,因此要得到高質量的網絡調研樣本,成本依舊不菲。
隨著計算機硬件技術的發(fā)展,存儲、傳輸、處理數(shù)據(jù)的能力和速度與日俱增。今天的數(shù)據(jù)生產速度已經遠遠超過了人類歷史上的任何時期。 截至2012年,全球每天生產的數(shù)據(jù)量達2.5億字節(jié)(billion gigabytes),且當時人類90%的數(shù)據(jù)是在2010-2012年的兩年間產生的。有分析指出,海量數(shù)據(jù)約25%是結構化的,剩下的75%是非結構化的文本、音頻和視頻。人類社會生活產生的海量數(shù)據(jù)是否在民意研究方面有其價值?答案是肯定的。傳統(tǒng)的民意調研機構已經開始積極探討和嘗試使用互聯(lián)網社交媒體進行民意線索的收集;新興科技企業(yè)則更走在創(chuàng)新的前沿,提出大數(shù)據(jù)環(huán)境下民意研究的新理念。云計算服務提供商、大數(shù)據(jù)技術的領軍企業(yè)Cloudera,曾呼吁民意研究者“停止以提問方式獲取信息,而著手分析公眾在網絡上的表達和行為”。毫無疑問,大數(shù)據(jù)時代的到來重新提供了民意研究的思路、方法與手段的機遇。
二、“自然”數(shù)據(jù)和“被動”參與者
對大數(shù)據(jù)的定義,學界和業(yè)界一直爭議不斷。目前認可度較高的是源自3V理念的4V模型。微軟、IBM以及美國國家標準技術研究所目前均采用這一定義。早在2001年,道格·萊尼(Doug Laney)就以3V理念對大數(shù)據(jù)做了限定。3V指的是海量(volume)、快速(velocity)和多樣(variety)。其中,“海量”即數(shù)據(jù)的量級空前巨大;“快速”指的是數(shù)據(jù)產生的速度極快,這要求及時完成收集和分析工作,才能“抓住”源源不斷產生的新數(shù)據(jù);“多樣”意即數(shù)據(jù)類型的多樣化,這既包括了傳統(tǒng)研究中用到的結構化數(shù)據(jù),也包括了大量的半結構化 (semi-structured data)和非結構化的數(shù)據(jù)(unstructured data),如視頻、音頻、網絡文本等。
此后10年間,3V一直是微軟、IBM等公司沿用的大數(shù)據(jù)定義。直到2011年,國際數(shù)據(jù)資訊公司(IDC)在3V的基礎上提出了第四個V,即“價值”(value)。 “價值”強調的是通過快速抓取技術和分析技術,高效地從海量數(shù)據(jù)中提取有價值的信息。正如Facebook的副總工程師杰·帕瑞克(Jay Parikh)所言,能否提取到有實用價值的信息,也成為區(qū)別“大數(shù)據(jù)”(big data) 和“一大堆數(shù)據(jù)”(a bunch of data) 的主要依據(jù)。
無論是3V還是4V,都是自然科學和工程學界的定義視角。對社會科學研究者而言,大數(shù)據(jù)具有兩個極其重要卻常被忽視的特性。第一,大數(shù)據(jù)通常是二手數(shù)據(jù),數(shù)據(jù)挖掘者一般不參與數(shù)據(jù)的生產和設計。肖恩·泰勒(Sean Taylor)從概念上區(qū)分“找到的”數(shù)據(jù)和“制造的”數(shù)據(jù)之間的區(qū)別,并指出:大數(shù)據(jù)的產生不是以研究和數(shù)據(jù)挖掘為目的,而是用戶的行為、表達被研究者“找到”后形成的數(shù)據(jù)。第二,大數(shù)據(jù)研究的數(shù)據(jù)生產者是“被動”的研究參與者,這與傳統(tǒng)調研方式中,參與者有意識的參與特定研究的調研模式不同。對民意研究而言,被動式的數(shù)據(jù)采集方式(如內容分析與歷史文獻分析)并非在大數(shù)據(jù)時代才出現(xiàn)。
“第一次世界大戰(zhàn)”期間,法國通信管理局就曾經通過審閱士兵家書來探查士氣,以求把握戰(zhàn)場民意動態(tài)。歷史學家經常通過歷史材料梳理民情,理解特定的歷史事件。
1937年,在英國,一位記者、一位人類學家和一位紀錄片導演共同成立了“大量觀察法”(mass observation)社會研究小組,旨在記錄英國社會的各個角落在自然狀態(tài)下各類人物的對話。而傳統(tǒng)的民意調研,提問是數(shù)據(jù)收集的核心——研究者通過文字提問,參與者提供答案。大數(shù)據(jù)則需要研究者靈活使用“被動的”研究參與者,接受雜亂無章的數(shù)據(jù)和新的統(tǒng)計技術。(未完待續(xù))