国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)如何產(chǎn)生虛假的信心

2016-08-05 02:34費文緒編譯
世界科學(xué) 2016年7期
關(guān)鍵詞:流感研究

費文緒/編譯

?

大數(shù)據(jù)如何產(chǎn)生虛假的信心

費文緒/編譯

● 如果我聲稱美國人最近變得更加以自我為中心,你可能會把我視為一個愛發(fā)牢騷愛懷舊的倔老頭,但是如果我說通過分析1 500億個文本詞匯,我能支持這個斷言,你又會怎么看我呢?請看卡耐基梅隆大學(xué)計算機(jī)科學(xué)博士研究生杰西·杜尼艾茨(Jesse Dunietz)的分析。

幾十年前,這種規(guī)模的證據(jù)只是一個白日夢。而現(xiàn)在,1 500億個數(shù)據(jù)點實際上已經(jīng)過時了。一股對“大數(shù)據(jù)”分析的熱潮席卷了生物學(xué)、語言學(xué)、金融學(xué)以及它們之間的每個領(lǐng)域。

盡管對于如何定義“大數(shù)據(jù)”尚未達(dá)成完全的共識,不過一般的觀點認(rèn)為,數(shù)據(jù)集龐大,以致能揭示傳統(tǒng)數(shù)據(jù)查詢見不到的模式,這就是大數(shù)據(jù)。數(shù)據(jù)通常由數(shù)百萬現(xiàn)實世界中的用戶行為產(chǎn)生,比如Twitter文章或信用卡購買記錄,需要利用成千上萬臺計算機(jī)收集、儲存和分析這些大數(shù)據(jù)。不過,對很多公司和研究者而言,對大數(shù)據(jù)的投入是值得的,因為其模式能破譯關(guān)于任何事物的信息——從遺傳病到明天的股票價格。

但是有一個問題:人們想當(dāng)然地以為擁有如此海量的數(shù)據(jù)作為支撐、依賴于大數(shù)據(jù)的研究不會出錯。但是,數(shù)據(jù)量的巨大可能會為研究結(jié)果灌注一種虛假的確定性。很多基于大數(shù)據(jù)的研究很可能是虛假的——而其中的原因應(yīng)該讓我們對任何盲目相信大數(shù)據(jù)的研究有所質(zhì)疑。

在語言和文化研究方面,大數(shù)據(jù)于2011年大大露臉,當(dāng)時谷歌推出全球書籍詞頻統(tǒng)計工具Ngrams。在《科學(xué)》雜志上大張旗鼓地發(fā)布后,Google Ngrams允許用戶在谷歌圖書數(shù)據(jù)庫中檢索短語 (谷歌掃描的圖書數(shù)量大約占到現(xiàn)代印刷術(shù)發(fā)明以來人類已出版圖書總量的4%),然后看看這些短語出現(xiàn)的頻率是如何隨著時間變化的。這篇論文的作者們預(yù)示了“文化組學(xué)”(culturomics)的問世——這是一種基于大量數(shù)據(jù)的文化研究,從那以后,Google Ngrams很大程度上成為了娛樂的無盡源泉,同時也成為語言學(xué)家、心理學(xué)家和社會學(xué)家的金礦。他們遍覽數(shù)百萬冊書籍,最終得出一個研究結(jié)論,比如說,美國人確實變得越來越個人主義,“我們年復(fù)一年越來越快地忘記我們的過去,道德理想正從我們的文化自覺中消失?!?/p>

問題開始于Ngrams語料庫建立的方式。去年10月發(fā)表的一項研究中,佛蒙特大學(xué)的三位研究者指出,總體而言,谷歌書籍?dāng)?shù)據(jù)庫(Google Books)包括了每本書的一個副本。這對它創(chuàng)建的初衷而言非常有意義,那就是把這些書的內(nèi)容暴露于谷歌強(qiáng)大的搜索技術(shù)。但是,從社會學(xué)研究的角度而言,這使得語料庫被危險地歪曲了。

更逃避不了的事實是,Ngrams并不是正在出版書籍的一致而均衡的切片。同樣是佛蒙特大學(xué)的上述研究表明,在書籍結(jié)構(gòu)的變化中,尤為突出的是從20世紀(jì)60年代開始科學(xué)文章的顯著增長。所有這些因素都讓我們很難相信,谷歌Ngrams準(zhǔn)確反映出詞匯的文化流行度隨著時間的變化。

即便你不考慮數(shù)據(jù)來源,在解釋上仍然存在很多棘手的問題。的確,像“character”(性格)和“dignity”(尊嚴(yán))這樣的詞匯出現(xiàn)的頻率隨著時間在降低,但是這就意味著人們對道德的關(guān)注減少了嗎?不會這么快減少的,伊利諾伊大學(xué)厄巴納-香檳分校的英語教授泰德·安德伍德(Ted Underwood)提醒研究者下結(jié)論要慎重。20世紀(jì)末的道德概念很可能與我們現(xiàn)在的道德概念有很大的不同,他指出,“尊嚴(yán)”這個詞可能出于并非道德方面的原因而流行。所以,我們通過把現(xiàn)有的聯(lián)系映射到過去所得出的任何結(jié)論都是可疑的。

當(dāng)然,所有這些問題對于統(tǒng)計學(xué)家和語言學(xué)家而言,都算不上新鮮事。他們天天跟數(shù)據(jù)和解釋打交道,就像每天吃的面包和黃油,不過,谷歌Ngrams的不同之處在于,純粹的數(shù)據(jù)會產(chǎn)生一種誘惑,讓我們變得盲目,可能會讓我們誤入歧途。

這種數(shù)據(jù)的誘惑并不是Ngrams研究所獨有的,類似的錯誤也會損害所有類型的大數(shù)據(jù)研究項目。比如,我們看看谷歌流感趨勢(GFT)的案例。2008年發(fā)布的GFT研究在數(shù)以百萬計的谷歌搜索查詢中,統(tǒng)計了諸如“發(fā)燒”和“咳嗽”這樣的詞匯出現(xiàn)的頻度,用它們來映射到現(xiàn)在有多少人得了流感。如果采信GFT研究的估計,可能在疾病控制中心 (CDC)從醫(yī)生的報告中計算出真實數(shù)據(jù)之前兩周,公共衛(wèi)生官員們就會采取行動。

最初,GFT研究結(jié)果聲稱具有97%的準(zhǔn)確度,但是一項對美國東北大學(xué)文獻(xiàn)的研究表明,GFT研究的準(zhǔn)確度不過是僥幸。首先,GFT研究完全忽視了2009年春季和夏季爆發(fā)的“豬流感”。(原來GFT研究大部分預(yù)測的是冬季流感。)其次,該研究體系開始高估了流感案例。實際上,它夸大了2013年流感高峰期的數(shù)據(jù),比真實數(shù)據(jù)夸大了驚人的140%。最后,谷歌只好整體解散GFT研究項目。

那么,到底是哪里出錯了呢?對于Ngrams,人們并沒有認(rèn)真考慮其數(shù)據(jù)來源和解釋。數(shù)據(jù)來源——谷歌搜索,并不是一個靜態(tài)的野獸。當(dāng)谷歌開始自動完成查詢,用戶就開始接受建議的關(guān)鍵詞,而扭曲了GFT研究看到的搜索。在解釋方面,GFT研究的工程師們最初讓GFT采用了表面價值的數(shù)據(jù),幾乎任何搜索詞都被視為一個潛在的流感指示詞。采用數(shù)以百萬計的搜索詞,實際上保證了GFT過度解釋了具有季節(jié)性的詞匯,比如“雪”,將其視為流感證據(jù)。

我們正在失去希望:上圖是“希望”(hope)這個詞的Ngrams詞頻統(tǒng)計圖,這是xkcd網(wǎng)絡(luò)漫畫的創(chuàng)作者蘭德爾·門羅(Randall Munroe)發(fā)現(xiàn)的很多有趣的情節(jié)之一。如果Ngrams真的反映了我們的文化,那么我們將走向一個黑暗的地方

但是當(dāng)人們不把大數(shù)據(jù)視為萬能藥時,大數(shù)據(jù)就可能起到變革作用。有幾個研究團(tuán)隊,比如哥倫比亞大學(xué)杰弗里·沙曼(Jeffrey Shaman)研究團(tuán)隊,通過利用疾病控制中心的研究結(jié)果彌補(bǔ)GFT研究的偏差,得到了比兩者都更為準(zhǔn)確的流感預(yù)測。據(jù)CDC說,“沙曼的研究團(tuán)隊對該季節(jié)中已經(jīng)發(fā)生的實際的流感疫情測試了他們的模型?!蓖ㄟ^把剛剛發(fā)生的流感疫情考慮在內(nèi),沙曼及其研究團(tuán)隊精密調(diào)校了他們的數(shù)學(xué)模型,以更好地預(yù)測未來的流感疫情。研究團(tuán)隊們所需做的就是嚴(yán)格評估他們對數(shù)據(jù)的假設(shè)。

為了避免我看起來像是谷歌的冤家對頭,我會趕緊補(bǔ)充說,谷歌遠(yuǎn)不是唯一的罪魁禍?zhǔn)住N业钠拮邮且粋€經(jīng)濟(jì)學(xué)家,過去曾為一家公司工作,那家公司搜刮整個互聯(lián)網(wǎng)上的招聘信息,然后匯總成統(tǒng)計數(shù)據(jù)報告給國家勞動機(jī)構(gòu)。這家公司的經(jīng)理們鼓吹說他們分析了美國80%的工作,但是再一次,數(shù)據(jù)的數(shù)量讓他們變得盲目而誤入歧途。例如,當(dāng)?shù)氐奈譅柆敵锌赡軙l(fā)布一個與銷售相關(guān)的職位招聘信息,而實際上它可能想要招聘10個人,或是在招到人以后,讓招聘信息依然掛在網(wǎng)上數(shù)周不拿下來。

所以,與其屈服于“大數(shù)據(jù)的狂妄自大”,剩下的我們還不如保持質(zhì)疑態(tài)度,即便有人拿出數(shù)十億的詞頻分析作為結(jié)論支撐。

[資料來源:Nautilus][責(zé)任編輯:彥 隱]

猜你喜歡
流感研究
FMS與YBT相關(guān)性的實證研究
2020年國內(nèi)翻譯研究述評
遼代千人邑研究述論
冬春流感高發(fā) 加強(qiáng)防治最重要
視錯覺在平面設(shè)計中的應(yīng)用與研究
為什么兒童容易患“流感”
EMA伺服控制系統(tǒng)研究
新版C-NCAP側(cè)面碰撞假人損傷研究
秋季謹(jǐn)防牛流感
與流感作戰(zhàn)