十個段子反思大數(shù)據(jù)

2016-05-30 23:01張玉宏

廣告主·市場觀察 2016年3期

關(guān)鍵詞：預(yù)測

張玉宏

自2011年以來，大數(shù)據(jù)旋風(fēng)以“迅雷不及掩耳之勢”席卷中國。毋庸置疑，大數(shù)據(jù)已然成為繼云計算、物聯(lián)網(wǎng)之后新一輪的技術(shù)變革熱潮，不僅是信息領(lǐng)域，經(jīng)濟(jì)、政治、社會等諸多領(lǐng)域都“磨刀霍霍”向大數(shù)據(jù)，準(zhǔn)備在其中逐得一席之地。

中國工程院李國杰院士更是把大數(shù)據(jù)提升到戰(zhàn)略的高度，他表示數(shù)據(jù)是與物質(zhì)、能源一樣重要的戰(zhàn)略資源。從數(shù)據(jù)中發(fā)現(xiàn)價值的技術(shù)正是最有活力的軟技術(shù)，在數(shù)據(jù)技術(shù)與產(chǎn)業(yè)上的落后，將使我們像錯過工業(yè)革命機(jī)會一樣延誤一個時代。

在大數(shù)據(jù)熱火朝天前行的路上，多一點反思，多一份冷靜，或許能讓這路走的更好、更遠(yuǎn)？例如，2014年4月，大名鼎鼎的《紐約時報》發(fā)表題為《大數(shù)據(jù)帶來的八個（不，是九個?。﹩栴}》（Eight （No， Nine?。?Problems With Big Data）”的反思文章其中文中的第九個問題，就是所謂的“大數(shù)據(jù)的炒作（we almost forgot one last problem： the hype）”。同樣為重量級的英國報刊《財經(jīng)時報》（Financial Times，F(xiàn)T）也刊發(fā)了類似反思式的文章“大數(shù)據(jù)：我們正在犯大錯誤嗎？（Big data： are we making a big mistake？）”

在大數(shù)據(jù)熱炒之中，大數(shù)據(jù)的價值是否被夸大了？是否存在人造的“心靈雞湯”？大數(shù)據(jù)技術(shù)便利帶來的“收之桑榆”，是否也存在自己的副作用——“失之東隅”——個人的隱私何以得到保障？大數(shù)據(jù)熱炒的“繁華過盡”，數(shù)據(jù)背后的巨大價值是否還能“溫潤依舊”？在眾聲喧嘩之中，我們需要冷靜審慎地思考上述問題。

太多的“唐僧式”的說教，會讓很多人感到無趣。下文分享了10個從“天南地北”收集而來的小故事（或稱段子），從這些小故事中，可對熱炒的大數(shù)據(jù)反思一下，這或許能讓讀者更加客觀地看待大數(shù)據(jù)。有些小故事與結(jié)論之間的對應(yīng)關(guān)系，或許不是那么妥帖，諸位別太較真，讀一讀、樂一樂、想一想就好！

故事01

醉漢路燈下找鑰匙

——大數(shù)據(jù)的研究方法可笑嗎？

一天晚上，一個醉漢在路燈下不停地轉(zhuǎn)來轉(zhuǎn)去，警察就問他在找什么。醉漢說，我的鑰匙丟了。于是，警察幫他一起找，結(jié)果路燈周圍找了幾遍都沒找到。于是警察就問，你確信你的鑰匙是丟到這兒嗎？醉漢說，不確信啊，我壓根就不知道我的鑰匙丟到哪兒。警察怒從心中來，問，那你到這里來找什么？醉漢振振有辭：因為只有這里有光線??！

這個故事很簡單，看完這個故事，有人可能會感嘆醉漢的“幼稚”、“可笑”。但不好笑的是，“烏鴉笑豬黑，自己不覺得”，這個故事也揭示了一個事實：在面臨復(fù)雜問題時，我們的思維方式也常同這個醉漢所差無幾，同樣也是先在自己熟悉的范圍和領(lǐng)域內(nèi)尋找答案，哪怕這個答案和自己的領(lǐng)域“相隔萬里”！

還有人甚至認(rèn)為，醉漢找鑰匙的行為，恰恰就是科學(xué)研究所遵循的哲學(xué)觀。前人的研究成果，恰是是后人研究的基石，也即這則故事中的“路燈”。到路燈下找鑰匙，雖看來有些荒唐，但也是“無奈之下”的明智之舉。

數(shù)據(jù)那么大，價值密度那么低，你也可以去分析，但從何分析起？首先想到的方法和工具，難道不是當(dāng)下你最熟悉的？而你最熟悉的，就能確保它就是最好的嗎？

沃頓商學(xué)院著名教授、紐約時報最佳暢銷書作者喬納·伯杰（Jonah Berger）從另外一個角度，解讀這個故事在這里，浩瀚的黑夜就是如同全數(shù)據(jù)，“鑰匙”就好比是大數(shù)據(jù)分析中我們要找到的價值目標(biāo)，他認(rèn)為，“路燈”就好比我們要達(dá)到這個目標(biāo)的測量“標(biāo)尺”，如果這個標(biāo)尺的導(dǎo)向有問題，順著這個標(biāo)尺導(dǎo)引，想要找到心儀的“鑰匙”，是非常困難的！在我們癡迷于某項自己熟悉的特定測量標(biāo)尺之前，一定要提前審視一下，這個測量標(biāo)尺是否適合幫助我們找到那把“鑰匙”，如果不能，趕快換一盞“街燈”吧！

如果在黑暗中丟失的鑰匙，是大數(shù)據(jù)中的價值，那這個價值也太稀疏了吧。下面的故事，讓我們聊聊大數(shù)據(jù)的價值。

故事02

顛簸的街道

——對不起，“n=All”只是一個幻覺

波士頓市政府推薦自己的市民，使用一款智能手機(jī)應(yīng)用——“顛簸的街道（Street Bump，網(wǎng)站訪問鏈接：http：// www.streetbump.org/）”。這個應(yīng)用程序，可利用智能手機(jī)中內(nèi)置的加速度傳感器，來檢查出街道上的坑洼之處——在路面平穩(wěn)的地方，傳感器加速度值小，而在坑坑洼洼的地方，傳感器加速度值就大。熱心的波士頓市民們，只要下載并使用這個應(yīng)用程序后，開著車、帶著手機(jī)，他們就是一名義務(wù)的、兼職的市政工人，這樣就可以輕易做到“全民皆市政”。市政廳全職的工作人員就無需親自巡查道路，而是打開電腦，就能一目了然的看到哪些道路損壞嚴(yán)重，哪里需要維修。

波士頓市政府也因此驕傲地宣布，“大數(shù)據(jù)，為這座城市提供了實時的信息，它幫助我們解決問題，并提供了長期的投資計劃”。著名期刊《連線》（Wired）也毫不吝嗇它的溢美之詞這是眾包（Crowdsourcing）改善政府功能的典范之作。

眾包是《連線》雜志記者Jeff Howe于2006年發(fā)明的一個專業(yè)術(shù)語，用來描述一種新的商業(yè)模式。它以自由自愿的形式外包給非特定的大眾網(wǎng)絡(luò)的做法。眾包利用眾多志愿員工的創(chuàng)意和能力——這些志愿員工具備完成任務(wù)的技能，愿意利用業(yè)余時間工作，滿足于對其服務(wù)收取小額報酬，或者暫時并無報酬，僅僅滿足于未來獲得更多報酬的前景。

然而，從一開始，“顛簸的街道”的產(chǎn)品設(shè)計就是有偏的（bias），因為使用這款A(yù)pp的對象，“不經(jīng)意間”要滿足3個條件：（1）年齡結(jié)構(gòu)趨近年輕，因為中老年人愛玩智能手機(jī)的相對較少；（2）使用App的人，還得有一部車。雖然有輛車在美國不算事，但畢竟不是每個人都有；（3）有錢，還得有閑。前面兩個條件這還不夠，使用者還得有“閑心”，想著開車時打開“顛簸的街道”這個App。想象一下，很多年輕人的智能手機(jī)安裝的應(yīng)用程序數(shù)量可能兩位數(shù)以上，除了較為常用的社交軟件如Facebook或Twitter（中國用戶用得較多的是微博、微信等）記得開機(jī)運(yùn)行外，還有什么公益軟件“重要地”一開車就記得打開？

“顛簸的街道”的理念在于，它可以提供“n=All（所有）”個坑洼地點信息，但這里的“n=All（所有）”也僅僅是滿足上述3個條件的用戶記錄數(shù)據(jù)，而非“所有坑洼點”的數(shù)據(jù)，上述3個條件，每個條件其實都過濾了一批樣本，“n=All”注定是不成立的。在一些貧民窟，可能因為使用手機(jī)的、開車的、有閑心的App用戶偏少，即使有些路面有較多坑洼點，也未必能檢測出來。

《大數(shù)據(jù)時代》的作者舍恩伯格教授常用“n=All”，來定義大數(shù)據(jù)集合。如果真能這樣，那么就無需采樣了，也不再有采樣偏差的問題，因為采樣已經(jīng)包含了所有數(shù)據(jù)。

暢銷書《你的數(shù)字感：走出大數(shù)據(jù)分析與解讀的誤區(qū)》（Numbersense： How to Use Big Data to Your Advantage）的作者、美國紐約大學(xué)統(tǒng)計學(xué)教授Kaiser Fung，就毫不客氣地提醒人們，不要簡單地假定自己掌握了所有有關(guān)的數(shù)據(jù)：“N=All（所有）”常常僅僅是對數(shù)據(jù)的一種假設(shè)，而不是現(xiàn)實。

微軟-紐約首席研究員Kate Crawford也指出，現(xiàn)實數(shù)據(jù)是含有系統(tǒng)偏差的，通常需要人們仔細(xì)考量，才有可能找到并糾正這些系統(tǒng)偏差。大數(shù)據(jù)，看起來包羅萬象，但“n=All”往往不過是一個頗有誘惑力的假象而已。

“n=All”，夢想很豐滿，但現(xiàn)實很骨感！

但即使具備全數(shù)據(jù)，就能輕易找到隱藏于數(shù)據(jù)背后的有價值信息嗎？請接著看下面的故事。

故事03

人們在描述大數(shù)據(jù)時，通常表明其具備4個V特征，即4個以V為首字母的英文描述：Volume（體量大）、Variety（模態(tài)多）、Velocity（速度快）及Value（價值大）。前三個V，本質(zhì)上，是為第四個V服務(wù)的。試想一下，如果大數(shù)據(jù)里沒有我們希望得到的價值，我們?yōu)楹芜€辛辛苦苦這么折騰前3個V？

英特爾中國研究院院長吳甘沙先生說，“鑒于大數(shù)據(jù)信息密度低，大數(shù)據(jù)是貧礦，投入產(chǎn)出比不見得好?！薄都~約時報》著名科技記者Steve Lohr，在其采訪報道“大數(shù)據(jù)時代（The Age of Big Data）”中表明，大數(shù)據(jù)價值挖掘的風(fēng)險還在于，會有很多的“誤報”發(fā)現(xiàn)，用斯坦福大學(xué)統(tǒng)計學(xué)教授Trevor Hastie的話來說，就是“在數(shù)據(jù)的大干草垛中，發(fā)現(xiàn)有意義的“針”，其困難在于“很多干草看起來也像針（The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles）”

針對大數(shù)據(jù)的價值，李國杰院士借助中國傳統(tǒng)的寓言故事《園中有金》，從另外一個角度，說明大數(shù)據(jù)的價值，寓言故事是這樣的：

有父子二人，居山村，營果園。父病后，子不勤耕作，園漸荒蕪。一日，父病危，謂子曰：園中有金。子翻地尋金，無所得，甚悵然。是年秋，園中葡萄、蘋果之屬皆大豐收。子始悟父言之理。

人們總是期望，能從大數(shù)據(jù)中挖掘出意想不到的“大價值”?？衫顕茉菏空J(rèn)為，實際上，大數(shù)據(jù)的價值，主要體現(xiàn)在它的驅(qū)動效應(yīng)上，大數(shù)據(jù)對經(jīng)濟(jì)的貢獻(xiàn)，并不完全反映在大數(shù)據(jù)公司的直接收入上，應(yīng)考慮對其他行業(yè)效率和質(zhì)量提高的貢獻(xiàn)。

大數(shù)據(jù)是典型的通用技術(shù)，理解通用技術(shù)的價值，要懂得采用“蜜蜂模型”：蜜蜂的最大效益，并非是自己釀造的蜂蜜，而是蜜蜂傳粉對農(nóng)林業(yè)的貢獻(xiàn)——你能說秋天的累累碩果，沒有蜜蜂的一份功勞？

回到前文的小故事，兒子翻地的價值，不僅在于翻到園中的金子，更是在于翻地之后，促進(jìn)了秋天果園的豐收。在第03個小故事中，醉漢黑暗中尋找的鑰匙，亦非最終的價值，通過鑰匙打開的門才是。

對于大數(shù)據(jù)研究而言，一旦數(shù)據(jù)收集、存儲、分析、傳輸?shù)饶芰μ岣吡?，即使沒有發(fā)現(xiàn)什么普適的規(guī)律或令人完全想不到的新知識，也極大地推動了諸如計算機(jī)軟硬件、數(shù)據(jù)分析等行業(yè)的發(fā)展，大數(shù)據(jù)的價值也已逐步體現(xiàn)。

李國杰院士認(rèn)為，我們不必天天期盼奇跡出現(xiàn)，多做一些“樸實無華”的事，實際的進(jìn)步就會體現(xiàn)在扎扎實實的努力之中。一些媒體總喜歡宣傳一些抓人眼球的大數(shù)據(jù)成功案例。但從事大數(shù)據(jù)行業(yè)的人士，應(yīng)保持清醒的頭腦：無華是常態(tài)，精彩是無華的質(zhì)變。

如果把“大數(shù)據(jù)”比作農(nóng)夫父子院后的那片土地，那么土地的面積越大，會不會能挖掘出的“金子”就越多呢？答案還真不是，下面的故事我們說說大數(shù)據(jù)的大小之爭。

故事04

蓋洛普抽樣的成功——大小之爭，“大”數(shù)據(jù)一定勝過小抽樣嗎？

1936年，民主黨人艾爾弗雷德·蘭登（Alfred Landon）與時任總統(tǒng)富蘭克林·羅斯福（Franklin Roosevelt）競選下屆總統(tǒng)?！段膶W(xué)文摘》（The Literary Digest）這家頗有聲望的雜志承擔(dān)了選情預(yù)測的任務(wù)。之所以說它“頗有聲望”，是因為《文學(xué)文摘》曾在1920年、1924年、1928年、1932年連續(xù)4屆美國總統(tǒng)大選中，成功地預(yù)測總統(tǒng)寶座的歸屬。

1936年，《文學(xué)文摘》再次雄赳赳、氣昂昂地照辦老辦法——民意調(diào)查，不同于前幾次的調(diào)查，這次調(diào)查把范圍拓展得更廣。當(dāng)時大家都相信，數(shù)據(jù)集合越大，預(yù)測結(jié)果越準(zhǔn)確?！段膶W(xué)文摘》計劃寄出1000萬份調(diào)查問卷，覆蓋當(dāng)時四分之一的選民。最終該雜志在兩個多月內(nèi)收到了驚人的 240萬份回執(zhí)，在統(tǒng)計完成以后，《文學(xué)文摘》宣布，艾爾弗雷德·蘭登將會以55比41的優(yōu)勢，擊敗富蘭克林·羅斯福贏得大選，另外4%的選民則會零散地投給第三候選人。

然而，真實的選舉結(jié)果與《文學(xué)文摘》的預(yù)測大相徑庭：羅斯福以61比37的壓倒性優(yōu)勢獲勝。讓《文學(xué)文摘》臉上掛不住的是，新民意調(diào)查的開創(chuàng)者喬治·蓋洛普（George Gallup），僅僅通過一場規(guī)模小得多的問卷——一個3000人的問卷調(diào)查，得出了準(zhǔn)確得多的預(yù)測結(jié)果：羅斯福將穩(wěn)操勝券。蓋洛普的3000人“小”抽樣，居然挑翻了《文學(xué)文摘》240萬的“大”調(diào)查，實在讓專家學(xué)者和社會大眾跌破眼鏡。

顯然，蓋洛普有他獨到的辦法，而從數(shù)據(jù)體積大小的角度來看，“大”并不能決定一切。民意調(diào)查是基于對投票人的大范圍采樣。這意味著調(diào)查者需要處理兩個難題：樣本誤差和樣本偏差。

在過去的200多年里，統(tǒng)計學(xué)家們總結(jié)出了在認(rèn)知數(shù)據(jù)的過程中存在的種種陷阱（如樣本偏差和樣本誤差）。如今數(shù)據(jù)的規(guī)模更大了，采集的成本也更低了，“大數(shù)據(jù)”中依然存在大量的“小數(shù)據(jù)”問題，大數(shù)據(jù)采集同樣會犯小數(shù)據(jù)采集一樣的統(tǒng)計偏差。我們不能掩耳盜鈴，假裝這些陷阱都已經(jīng)被填平了，事實上，它們還都在，甚至問題更加突出。

蓋洛普成功的法寶在于，科學(xué)地抽樣，保證抽樣的隨機(jī)性，他沒有盲目的擴(kuò)大調(diào)查面積，而是根據(jù)選民的分別特征，根據(jù)職業(yè)、年齡、膚色等在3000人的比重，再確定電話訪問、郵件訪問和街頭調(diào)查等各種方式所在比例。由于樣本抽樣得當(dāng)，就可以做到“以小見大”、“一葉知秋”。

《文學(xué)文摘》的失敗在于，取樣存在嚴(yán)重偏差，它的調(diào)查對象主要鎖定為它自己的訂戶。雖然《文學(xué)文摘》的問卷調(diào)查數(shù)量不少，但它的訂戶多集中在中上階層，樣本從一開始就是有偏差的（sample bias），因此，推斷的結(jié)果不準(zhǔn)，就不足為奇了。而且民主黨人艾爾弗雷德·蘭登的支持者，似乎更樂于寄回問卷結(jié)果，這使得調(diào)查的錯誤更進(jìn)了一步。這兩種偏差的結(jié)合，注定了《讀者文摘》調(diào)查的失敗。

我們可以類比一下《文學(xué)文摘》的調(diào)查模式，試想一樣，如果在中國春運(yùn)來臨時，在火車上調(diào)查，問乘客是不是買到票了，即使你調(diào)查1000萬人，這可是大數(shù)據(jù)啊，結(jié)論毫無意外地是都買到了，但這個結(jié)果無論如何都是不科學(xué)的，因為樣本的選取是有偏的。

當(dāng)然，采樣也是有缺點的，如果采樣沒有滿足隨機(jī)性，即使百分之幾的偏差，就可能丟失“黑天鵝事件”的信號，因此在全數(shù)據(jù)集存在的前提下，全數(shù)據(jù)當(dāng)然是首選（但從第02故事中，我們可以看到，全數(shù)據(jù)通常是無法得到的）。對針對數(shù)據(jù)分析的價值，英特爾中國研究院院長吳甘沙先生給出了一個排序：全數(shù)據(jù)>好采樣數(shù)據(jù)>不均勻的大量數(shù)據(jù)。

大數(shù)據(jù)分析技術(shù)運(yùn)用得當(dāng)，能極大地提升人們對事物的洞察力（insight），但技術(shù)和人誰在決策（decisionmaking）中起更大作用？在下面的“點球成金”小故事，我們聊聊這個話題。

故事05

點球成金

——數(shù)據(jù)流PK球探，誰更重要？

《點球成金》（Moneyball）又是一例數(shù)據(jù)分析的經(jīng)典故事：

長期以來，美國職業(yè)棒球隊的教練們依賴慣例規(guī)則是，依據(jù)球員的“擊球率（Batting Average， AVG）”（其值等于安打數(shù)/打數(shù)），來挑選心儀的球員。而奧克蘭“運(yùn)動家球隊”的總經(jīng)理比利·比恩（Billy Beane）卻另辟新徑，采用上壘率指標(biāo)（On-Base Percentage， OBP）來挑選球員，OBP代表一個球員能夠上壘而不是出局的能力。采用上壘率來選拔人才，并非毫無根據(jù)。通過精細(xì)的數(shù)學(xué)模型分析，比利·比恩發(fā)現(xiàn)，高“上壘率”與比賽的勝負(fù)存在某種關(guān)聯(lián)（corelation），據(jù)此他提出了自己的獨到見解，即一個球員怎樣上壘并不重要，不管他是地滾球還是三跑壘，只要結(jié)果是上壘就夠了。在廣泛的批評和質(zhì)疑聲中，比恩通過自己的數(shù)據(jù)分析，創(chuàng)立了“賽伯計量學(xué)”（Sabermerrics）。據(jù)此理論，比恩依據(jù)“高上壘率”選取了自己所需的球員，這些球員的身價遠(yuǎn)不如其他知名球員，但比利·比恩卻能帶領(lǐng)這些球員在2002年的美國聯(lián)盟西部賽事中奪得冠軍，并取得了20場連勝的戰(zhàn)績。

這個故事講得是數(shù)量化分析和預(yù)測對棒球運(yùn)動的貢獻(xiàn)，吳甘沙先生認(rèn)為，它在大數(shù)據(jù)背景下出現(xiàn)了傳播的誤區(qū)：

第一，它頻繁出現(xiàn)在諸如舍恩伯格《大數(shù)據(jù)時代》之類的圖書中，其實這個案例并非大數(shù)據(jù)案例，而是早已存在的數(shù)據(jù)思維和方法。在“點球成金”案例中的數(shù)據(jù)，套用大數(shù)據(jù)的4V特征，基本上，無一符合。

第二，《點球成金》無論是小說，還是拍出來的同名電影，都刻意或無意忽略了球探的作用。從讀者/觀眾的角度來看，奧克蘭“運(yùn)動家球隊”的總經(jīng)理比利·比恩完全運(yùn)用了數(shù)據(jù)量化分析取代了球探。而事實上，在運(yùn)用這些數(shù)據(jù)量化工具的同時，比恩也增加了球探的費用，“軍功章里”有數(shù)據(jù)分析的一半，也有球探的一半。

目前的大數(shù)據(jù)時代，就有這么兩個流派，一派是技術(shù)主導(dǎo)派，他們提出“萬物皆數(shù)”，要么數(shù)字化，要么死亡（孫正義在對日本企業(yè)界的演講上所言），他們認(rèn)為技術(shù)在決策中占有舉足輕重地作用。另一派是技術(shù)為輔派，他們認(rèn)為，技術(shù)僅僅是為人服務(wù)的，屬于為人所用的眾多工具的一種，不可夸大其作用。

針對《點球成金》這個案例，比利·比恩的擁躉者就屬于“數(shù)據(jù)流黨”，而更強(qiáng)調(diào)球探作用的則歸屬于“球探黨”。

球探黨Bill Shanks在其所著的《球探的榮耀：論打造王者之師的最勇敢之路》（Scouts Honor： The Bravest Way To Build A Winning Ballteam）中，對數(shù)據(jù)流黨的分析做出了強(qiáng)有力地回應(yīng)。他認(rèn)為，球探對運(yùn)動員定性指標(biāo)（如競爭性、抗壓力、意志力，勤奮程度等）的衡量，是少數(shù)結(jié)構(gòu)化數(shù)據(jù)（如上壘率等）指標(biāo)無法量化刻畫的。

和《點球成金》觀點針鋒相對的是，Bill Shanks更認(rèn)可球探的作用，他把球探的作用命名為“勇士”哲學(xué)。對于勇士來說，數(shù)據(jù)分析只是眾多“刀槍棍棒”兵刃中的一種，無需奉之如圭臬，真正能“攻城略地”的還是需要勇士。比如說，運(yùn)動家棒球隊雖然在數(shù)據(jù)分析的指導(dǎo)下，獲得了震驚業(yè)界的好成績，然而他們并沒有取得季后賽的勝利，也沒有奪取世界冠軍，這說明，數(shù)據(jù)分析雖重要，但人的作用更重要！

從第01故事的分析中，我們知道，大數(shù)據(jù)分析的第一層作用就是，面向過去，發(fā)現(xiàn)潛藏在數(shù)據(jù)表面之下的歷史規(guī)律或模式，也就是說達(dá)到描述性分析。而為了讓讀者相信數(shù)據(jù)分析的能力，灌輸一些“心靈雞湯（或稱洗腦）”，是少不了的，哪怕它是假的！

故事06

大數(shù)據(jù)都是騙人的啊

——大數(shù)據(jù)預(yù)測得準(zhǔn)嗎？

從前，有一頭不在風(fēng)口長大的豬。自打出生以來，就在豬圈這個世外桃源里美滿地生活著。每天都有人時不時地扔進(jìn)來一些好吃的東西，小豬覺得日子愜意極了！高興任性時，可在豬圈泥堆里打滾耍潑。憂傷時，可趴在豬圈的護(hù)欄上，看夕陽西下，春去秋來，歲月不爭。“豬”生如此，夫復(fù)何求？

根據(jù)過往數(shù)百天的大數(shù)據(jù)分析，小豬預(yù)測，未來的日子會一直這樣“波瀾不驚”地過下去，直到它從小豬長成肥豬……在春節(jié)前的一個下午，一次血腥的殺戮改變了豬的信念：尼瑪大數(shù)據(jù)都是騙人的啊……慘叫嘎然而止。

這則“人造寓言”是由《MacTalk·人生元編程》一書作者池建強(qiáng)先生“杜撰”而成的。池先生估計是想用這個搞笑的小寓言“黑”一把大數(shù)據(jù)。

我們知道，針對大數(shù)據(jù)分析，無非有兩個方面的作用：（1）面向過去，發(fā)現(xiàn)潛藏在數(shù)據(jù)表面之下的歷史規(guī)律或模式，稱之為描述性分析（Descriptive Analysis）；（2）面向未來，對未來趨勢進(jìn)行預(yù)測，稱之為預(yù)測性分析（Predictive Analysis）。把大數(shù)據(jù)分析的范圍從“已知”拓展到了“未知”，從“過去” 走向 “將來”，這是大數(shù)據(jù)真正的生命力和“靈魂” 所在。

那頭“悲催”的豬，之所以發(fā)出“大數(shù)據(jù)都是騙人的啊”吶喊，是因為它的得出了一個錯誤的“歷史規(guī)律”：根據(jù)以往的數(shù)據(jù)預(yù)測未來，它每天都會過著“飯來張口”的豬一般的生活。但是沒想到，會發(fā)生“黑天鵝事件”——春節(jié)的殺豬事件。

黑天鵝事件（Black Swan Event）通常是指，難以預(yù)測的但影響甚大的事件，一旦發(fā)生，便會引起整個局面連鎖負(fù)面反應(yīng)甚至顛覆。讀者可閱讀納西姆·尼古拉斯·塔勒布（Nassim Nicholas Taleb）所著的暢銷書《黑天鵝》，來獲得對“黑天鵝事件”更多的理解。

其實，我們不妨從另外一個角度來分析一下，這個搞笑的小寓言在“黑”大數(shù)據(jù)時，也有失敗的地方。通過閱讀知道，舍恩伯格教授在其著作《大數(shù)據(jù)時代》的第一個核心觀點就是：大數(shù)據(jù)即全數(shù)據(jù)（即n=All，這里n為數(shù)據(jù)的大?。?，其旨在收集和分析與某事物相關(guān)的“全部”數(shù)據(jù)，而非僅分析“部分”數(shù)據(jù)。

那頭小豬，僅僅著眼于分析它“從小到肥”成長數(shù)據(jù)——局部小數(shù)據(jù)，而忽略了“從肥到?jīng)]”的歷史數(shù)據(jù)。數(shù)據(jù)不全，結(jié)論自然會偏，預(yù)測就會不準(zhǔn)。

要不怎么會有這樣的規(guī)律總結(jié)呢：“人怕出名，豬怕壯”。豬肥了，很容易先被抓來殺掉。這樣的“豬”血淚史，天天都上演的還少嗎？上面的小寓言，其實是告訴我們：數(shù)據(jù)不全，不僅坑爹，還坑命?。?/p>

那么，問題來了，大數(shù)據(jù)等于全數(shù)據(jù)（即n=All），能輕易做到嗎？

故事07

啤酒和尿布：經(jīng)典故事是偽造的，你知道嗎？

這是一個關(guān)于零售帝國沃爾瑪?shù)墓适隆?在一次例行的數(shù)據(jù)分析之后，研究人員突然發(fā)現(xiàn)：跟尿布一起搭配購買最多的商品，竟是啤酒！

尿布和啤酒，聽起來風(fēng)馬牛不相及，但這是對歷史數(shù)據(jù)進(jìn)行挖掘的結(jié)果，反映的是數(shù)據(jù)層面的規(guī)律。這種關(guān)系令人費解，但經(jīng)過跟蹤調(diào)查，研究人員發(fā)現(xiàn)，一些年輕的爸爸常到超市去購買嬰兒尿布，有30%～40%的新爸爸，會順便買點啤酒犒勞自己。隨后，沃爾瑪對啤酒和尿布進(jìn)行了捆綁銷售，不出意料，銷售量雙雙增加。

上面這個案例，出自于涂子沛先生的所著的大數(shù)據(jù)暢銷書《數(shù)據(jù)之巔》，在這個案例中，要情節(jié)有情節(jié)，要數(shù)據(jù)，有數(shù)據(jù)，誓言旦旦，不容你置疑。但是，這個故事雖經(jīng)典，但是讓你意想不到的是：

案例是編造的

這個經(jīng)典的“啤酒和尿布” （Beer and Diapers）的案例，不僅是《大數(shù)據(jù)》類圖書的常客，事實上，它更是無數(shù)次流連于“數(shù)據(jù)挖掘”之類的書籍中，特別是用來解釋“關(guān)聯(lián)規(guī)則（Association Rule）”的概念，更是“居家旅行，必備之良藥（周星馳語）”。當(dāng)前，基本上所有講大數(shù)據(jù)應(yīng)用，都會捎帶講上這個經(jīng)典案例，要求大家多研究“相關(guān)性”，少研究因果關(guān)系！但實在掃興的是，這個案例僅是一碗數(shù)據(jù)分析的“心靈雞湯”——聽起來很爽，但信不得！

實踐是檢驗真理的唯一標(biāo)準(zhǔn)。如果這個故事是真的，按理說，應(yīng)該給超級市場以無限啟發(fā)才對，可實際上，不管是中國，還是在美國，在超市里面觀察一下，就會發(fā)現(xiàn)，根本沒有類似的物品擺放，相近的都很少。

故事性強(qiáng)，事出有因。據(jù)吳甘沙先生透露，它是Teradata公司一位經(jīng)理編出來的“故事”，目的是讓數(shù)據(jù)分析看起來更有力，更有趣，而在歷史上從沒有發(fā)生過，感興趣的讀者可以自己參閱文獻(xiàn)。但公平地講，這個故事對數(shù)據(jù)挖掘的普及意義重大，僅從教育意義上看，仍不失為一個好故事。

相關(guān)性并非什么大事

即便真的有這個案例，也不說明數(shù)據(jù)分析出來的“相關(guān)性”，有什么特別的神奇之處。舍恩伯格教授的《大數(shù)據(jù)時代》核心觀點之一就是：趾高氣揚(yáng)的因果關(guān)系光芒不再，卑微的相關(guān)關(guān)系將被“翻身做主人”，知道“是什么”就夠了，沒必要知道“為什么”。但需要我們更為深入了解的事實是：“要相關(guān)，不要因果”，這個觀點其實并非舍恩伯格首先提出的。最早的提出者應(yīng)為《連線》（Wired）主編Chris Anderson ，2008年他在題為 “理論的終結(jié)：數(shù)據(jù)洪流讓科學(xué)方法依然過時（End of Theory： the Data Deluge Makes the Scientific Method Obsolete）”文章中，率先提出：在PB時代，我們可以說，有相關(guān)性足夠了（Petabytes allow us to say：“Correlation is enough）”。

“要相關(guān)，不要因果”的觀點，并不受學(xué)術(shù)界待見。甚至，《大數(shù)據(jù)時代》的中文版翻譯者周濤亦在序言里說，“放棄對因果關(guān)系的追求，是人類的墮落”。對于這個觀點，李國杰院士認(rèn)為：在大數(shù)據(jù)中，看起來毫不相關(guān)的兩件事同時或相繼出現(xiàn)的現(xiàn)象比比皆是，相關(guān)性本身并沒有多大價值，關(guān)鍵是找對了“相關(guān)性”背后的理由，才是新知識或新發(fā)現(xiàn)。

大數(shù)據(jù)分析的第二個功能，或者說更為的核心功能在于預(yù)測。預(yù)測主要用于對未來進(jìn)行籌劃，大到產(chǎn)業(yè)的布局，小到流感的預(yù)警，均可用預(yù)測。但是對未來的預(yù)測，能準(zhǔn)嗎？

故事08

谷歌流感預(yù)測：預(yù)測是如何失效的？

2009年2月，谷歌公司的工程師們在國際著名學(xué)術(shù)期刊《自然》上發(fā)表了一篇非常有意思的論文：《利用搜索引擎查詢數(shù)據(jù)檢測禽流感流行趨勢》，并設(shè)計了大名鼎鼎的流感預(yù)測系統(tǒng)（Google Flu Trends，GFT，訪問網(wǎng)址為：www. google.org/flutrends/）。

GFT預(yù)測H1N1流感的原理非常樸素：如果在某一個區(qū)域某一個時間段，有大量的有關(guān)流感的搜索指令，那么，就可能存在一種潛在的關(guān)聯(lián)：在這個地區(qū)，就有很大可能性存在對應(yīng)的流感人群，相關(guān)部門就值得發(fā)布流感預(yù)警信息。

GFT監(jiān)測并預(yù)測流感趨勢的過程僅需一天，有時甚至可縮短至數(shù)個小時。相比而言，美國疾病控制與預(yù)防中心（Center for Disease Control and Prevention，CDC）同樣也能利用采集來的流感數(shù)據(jù)，發(fā)布預(yù)警信息。但CDC的流感預(yù)測結(jié)果，通常需要滯后兩周左右才能得以發(fā)布。但對于一種飛速傳播的疾病（如禽流感等），疫情預(yù)警滯后發(fā)布，后果可能是致命的。

GFT一度被認(rèn)為是大數(shù)據(jù)預(yù)測未來的經(jīng)典案例，給很多人打開了一扇未來的窗口。根據(jù)這個故事，大數(shù)據(jù)的布道者們給出了4個令自己滿意的結(jié)論：

由于所有數(shù)據(jù)點都被捕捉到，故傳統(tǒng)的抽樣統(tǒng)計的方法完全可以被淘汰。換句話說，做到了“n=All”；

無需再尋找現(xiàn)象背后的原因，只需要知道某兩者之間的統(tǒng)計相關(guān)性就夠用了。針對這個案例，只需知道“大量有關(guān)流感的搜索指令”和“流感疫情”之間存在相關(guān)性就夠了。

不再需要統(tǒng)計學(xué)模型，只要有大量的數(shù)據(jù)就能完成分析目的，印證了《連線》主編Chris Anderson 提出的“理論終結(jié)”的論調(diào)。

大數(shù)據(jù)分析可得到驚人準(zhǔn)確的結(jié)果。GFT的預(yù)測結(jié)果和CDC公布的真實結(jié)果相關(guān)度高達(dá)96%。

但據(jù)英國《財經(jīng)時報》（FT）援引劍橋大學(xué)教授David Spiegelhalter毫不客氣地評價說，這四條 “完全是胡說八道（complete bollocks. Absolute nonsense）”。

針對前3條觀點的不足之處，前文故事已經(jīng)涉及到了，不再贅言。針對第4條，我們有必要再解析一下——GFT預(yù)測是如何失效的？

谷歌工程師們開發(fā)的GFT，可謂轟動一時，但好景不長，相關(guān)論文發(fā)表4年后，2013年2月13日，《自然》發(fā)文指出，在最近（2012年12月）的一次流感爆發(fā)中谷歌流感趨勢不起作用了。GFT預(yù)測顯示某次的流感爆發(fā)非常嚴(yán)重，然而疾控中心（CDC）在匯總各地數(shù)據(jù)以后，發(fā)現(xiàn)谷歌的預(yù)測結(jié)果比實際情況要夸大了幾乎一倍。

研究人員發(fā)現(xiàn)，問題的根源在于，谷歌工程師并不知道搜索關(guān)鍵詞和流感傳播之間到底有什么關(guān)聯(lián)，也沒有試圖去搞清楚關(guān)聯(lián)背后的原因，只是在數(shù)據(jù)中找到了一些統(tǒng)計特征——相關(guān)性。這種做法在大數(shù)據(jù)分析中很常見。為了提高GFT的預(yù)測準(zhǔn)確性，谷歌工程師們不斷地微調(diào)預(yù)測算法，但GFT每一次算法微調(diào)，都是為了修補(bǔ)之前的測不準(zhǔn)，但每次修補(bǔ)又都造成了另外的誤差。

谷歌疫情之所以會誤報，還因為大數(shù)據(jù)分析中存在“預(yù)測即干涉”的問題。量子物理創(chuàng)始人之一維爾納·海森堡（Werner Heisenberg），曾在1927年的一篇論文中指出，在量子世界中，測量粒子位置，必然會影響粒子的速度，即存在“測不準(zhǔn)原理”。也就是說，在量子尺度的微距世界中，“測量即干涉”。如今，在媒體熱炒的“大數(shù)據(jù)”世界中，類似于“測不準(zhǔn)原理”，即存在“預(yù)測即干涉”悖論。

這個“預(yù)測即干涉”悖論和“菜農(nóng)種菜”的現(xiàn)象有“曲藝同工”之處：當(dāng)年的大白菜賣價不錯（歷史數(shù)據(jù)），預(yù)計明年的賣價也不錯（預(yù)測），于是眾多菜農(nóng)在這個預(yù)測的指導(dǎo)下，第二年都去種大白菜（采取行動），結(jié)果是，菜多價賤傷農(nóng)（預(yù)測失?。?。

進(jìn)一步分析就可發(fā)現(xiàn)，GFT預(yù)測失準(zhǔn)在很大程度上是因為，一旦GFT提到了有疫情，立刻會有媒體報道，就會引發(fā)更多相關(guān)信息搜索，反過來強(qiáng)化了GFT對疫情的判定。這樣下去，算法無論怎么修補(bǔ)，都無法改變其愈發(fā)不準(zhǔn)確的命運(yùn)。

對GFT預(yù)測更猛烈的攻擊，來自著名期刊《科學(xué)》。2014年3月，該雜志發(fā)表由哈佛大學(xué)、美國東北大學(xué)的幾位學(xué)者聯(lián)合撰寫的論文“谷歌流感的寓言：大數(shù)據(jù)分析中的陷阱（The parable of Google Flu： traps in big data analysis）”，他們對谷歌疫情預(yù)測不準(zhǔn)的問題做了更為深入的調(diào)查，也討論了大數(shù)據(jù)的“陷阱”本質(zhì)?！犊茖W(xué)》一文作者認(rèn)為：大數(shù)據(jù)的分析是很復(fù)雜的，但由于大數(shù)據(jù)的收集過程，很難保證有像傳統(tǒng)“小數(shù)據(jù)”那樣縝密，難免會出現(xiàn)失準(zhǔn)的情況，作者以谷歌流感趨勢失準(zhǔn)為例，指出“大數(shù)據(jù)傲慢（Big Data Hubris）”是問題的根源。

《科學(xué)》一文還認(rèn)為，“大數(shù)據(jù)傲慢（Big Data Hubris）”還體現(xiàn)在，存在一種錯誤的思維方式，即誤認(rèn)為大數(shù)據(jù)模式分析出的“統(tǒng)計學(xué)相關(guān)性”，可以直接取代事物之間真實的因果和聯(lián)系，從而過度應(yīng)用這種技術(shù)。這就對那些過度推崇“要相關(guān)，不要因果”人群，提出了很及時的警告。畢竟，在某個時間很多人搜索“流感”，不一定代表流感真的暴發(fā)，完成有可能只是上映了一場關(guān)于流感的電影或流行了一個有關(guān)流感的段子。

果殼網(wǎng)有一篇對《科學(xué)》一文深度解讀的文章：“數(shù)據(jù)并非越大越好：谷歌流感趨勢錯在哪兒了？”，感興趣的讀者可以前去圍觀。

蘇萌、柏林森和周濤等人合著的《個性化：商業(yè)的未來》，他們強(qiáng)調(diào)，“個人化”服務(wù)是未來最有前途的商業(yè)模式?？蛇@里有個問題，提供“個人化”服務(wù)，就需要了解顧客的“個性化信息”，如果顧客許可使用個人信息的，那么這種個性化服務(wù)是貼心的，如果沒有許可呢？

下面這個故事就是一則有關(guān)商品個性化推薦的，但它體現(xiàn)出來的是數(shù)據(jù)分析的智慧，還是愚蠢呢？

故事09

Target超市預(yù)測女孩懷孕：“大數(shù)據(jù)”智慧，還是愚蠢？

2012年2月16日，《紐約時報》刊登了Charles Duhigg撰寫的一篇題為《這些公司是如何知道您的秘密的》（How Companies Learn Your Secrets）的報道。文中介紹了這樣一個故事：

一天，一位男性顧客怒氣沖沖地來到一家折扣連鎖店Target（中文常譯作“塔吉特”，為僅次于沃爾瑪?shù)娜赖诙罅闶凵蹋?，向?jīng)理投訴，因為該店竟然給他還在讀高中的的女兒，郵寄嬰兒服裝和孕婦服裝的優(yōu)惠券。

但隨后，這位父親與女兒進(jìn)一步溝通發(fā)現(xiàn)，自己女兒真的已經(jīng)懷孕了。于是致電Target道歉，說他誤解商店了，女兒的預(yù)產(chǎn)期是8月份。

一家零售商是如何比一位女孩的親生父親更早得知其懷孕消息的呢？這里就需要用到“關(guān)聯(lián)規(guī)則+預(yù)測推薦”技術(shù)。

事實上，每位顧客初次到Target刷卡消費時，都會自動獲得一個唯一顧客識別編號（ID）。以后，顧客再次光臨Target消費時，計算機(jī)系統(tǒng)就會自動記錄顧客購買的商品、時間等信息。再加上從其它管道取得的統(tǒng)計資料，Target便能形成一個龐大數(shù)據(jù)庫，運(yùn)用于分析顧客的喜好與需求。

有了數(shù)據(jù)，特別是有了“大”容量的數(shù)據(jù)，后面的問題就簡單了。Target的數(shù)據(jù)分析師，開發(fā)了很多預(yù)測模型，其中懷孕預(yù)測模型（pregnancy-prediction model）就是其中的一個。Target通過分析這位女孩的購買記錄——無味濕紙巾和補(bǔ)鎂藥品，就預(yù)測到了這為女顧客可能懷孕了，而懷孕了，未來就有可能需要購置嬰兒服裝和孕婦服裝，多么貼心的商店啊。但是需要我們注意的是：

這是“大”數(shù)據(jù)的傲慢，而非聰慧。

由于故事極其具戲劇性——親生爸爸居然比不上一臺電腦更了解自己的女兒，因此，這個故事往往被用來作為“數(shù)據(jù)比人更了解人”的證明，并在當(dāng)下，被用來論證大數(shù)據(jù)的功力。國內(nèi)有的新聞媒體，對大數(shù)據(jù)的理解似是而非，針對這個案例的報道標(biāo)題就是《大數(shù)據(jù)的功力：比父親更了解女兒沖擊大賣場》。大數(shù)據(jù)的無所不能的“傲慢”，躍然紙上。

或許“旁觀者清”，信息領(lǐng)域外的上海金融與法律研究院研究員劉遠(yuǎn)舉認(rèn)為，這案例并不能說明，數(shù)據(jù)比人更“聰慧”，更了解人，恰好相反，這證明計算機(jī)是“愚蠢的”：還在讀高中的女兒，顯然想保護(hù)自己的隱私，并不想父親知道，但“愚蠢的”計算機(jī)卻自作主張，把孕婦優(yōu)惠卷寄寄到了她家里，結(jié)果被爸爸逮個正著。

這正是（大）數(shù)據(jù)的另一種傲慢——好像有了（大）數(shù)據(jù)，就可以“君臨天下”，對顧客的理解就可做到出神入化，對顧客的隱私就可以肆無忌憚。

這并非大數(shù)據(jù)的案例

進(jìn)一步分析，我們可以發(fā)現(xiàn)，實際上這個例子并不屬于大數(shù)據(jù)的案例，它不需要太強(qiáng)的計算能力，甚至用一臺普通的電腦就能實施類似的關(guān)聯(lián)規(guī)則分析。很多有關(guān)大數(shù)據(jù)的圖書和文章都把這個案例當(dāng)作大數(shù)據(jù)的案例來講，其實是不恰當(dāng)?shù)摹?/p>

大數(shù)據(jù)一般要具備典型的4個V特征，Target收集的消費數(shù)據(jù)屬于典型的結(jié)構(gòu)化數(shù)據(jù)，即使數(shù)量再大，也僅僅滿足4V特征之一——Volume（體積大）。但是，“數(shù)據(jù)大”不等于“大數(shù)據(jù)”。如果光拼體積“大”，那么早在20年前，天文、物理和生物信息學(xué)的數(shù)據(jù)，也夠得上是“大數(shù)據(jù)”了?！都~約時報》的原文，非?！昂竦馈?，通篇沒有提及“big data（大數(shù)據(jù)）” 字樣。

更重要的是，這個神奇的數(shù)據(jù)預(yù)測故事被人為地灌入了很多“心靈雞湯”。

數(shù)據(jù)挖掘界的數(shù)據(jù)分析師、咨詢師們有時候同樣也需要 “心靈雞湯”，勵志自己，忽悠客戶。對此，美國紐約大學(xué)統(tǒng)計學(xué)教授Kaiser Fung認(rèn)為，很多人在看到這個故事時，都誤認(rèn)為Target的預(yù)測算法是非常可靠的——幾乎每個收到嬰兒連體服和濕紙巾優(yōu)惠券的人，都是孕婦。但這是不可能的！更為實際的情況是，孕婦之所以能收到這些購物券，是因為Target給非常多客戶都郵寄了這種購物券。在眾多客戶中，碰巧有那么一位高中女生“不太可能但卻又真地”懷孕了，碰巧那位父親發(fā)現(xiàn)并投訴了，碰巧那位父親發(fā)現(xiàn)自己錯了并道歉了，這么多巧合，“無巧不成書”。因為極具有故事性，所以大家都愛聽。

各位讀者在相信Target這類讀心術(shù)般的故事之前，首先應(yīng)該先想想，這類商家的預(yù)測命中率到底有多高。這里并不說，數(shù)據(jù)分析一無是處，相反，數(shù)據(jù)分析極具商業(yè)價值，即使能夠把“直郵（Direct Mail，DM）”的準(zhǔn)確度提高一點點，哪怕是1%，對商家而言，都將是有利可圖的。但能賺錢并不意味著這種工具無所不能、永遠(yuǎn)正確。

商家能夠提供個性化服務(wù)，確實很貼心，但倘若在利益的趨勢下，商家對顧客的個性化信息運(yùn)用不當(dāng)或越界，就會給顧客帶來不能承受的隱私之痛。下面我們聊聊有關(guān)大數(shù)據(jù)隱私的故事。

故事10

你的一夜情我知道

——大數(shù)據(jù)的隱私之痛

Uber（優(yōu)步，著名的打車軟件服務(wù)公司，乘客可以通過發(fā)送短信或是使用移動應(yīng)用程序來預(yù)約車輛，利用移動應(yīng)用程序時還可以追蹤車輛的位置）曾在官網(wǎng)上發(fā)布一篇題為“榮耀之旅（Rides of Glory，RoG）”的博客。文中寫到，“我知道，我們不是你們生命中唯一的愛人，我們也知道，你們會在別的什么地方尋找愛情（we know were not the only ones in your life and we know that you sometimes look for love elsewhere）?！盪ber稱作的“榮耀之旅（RoG）”——實際上就是所謂的一夜情（one-night stand）代名詞。

Uber利用數(shù)據(jù)分析技術(shù)，專門篩選出那些在晚上10點到凌晨4點之間的用車服務(wù)，并且這些客戶會在四到六小時之后（這段時間足夠完成一場快速的RoG），在距離上一次下車地點大約1/10英里（約160米）以內(nèi)的地方再次叫車。

根據(jù)對這些數(shù)據(jù)的分析，Uber推斷出那些發(fā)生一夜情的時間和地點，并將這些地點在紐約（NYC）、舊金山（SF）、波士頓（Boston）以及其他美ㄈ國城市的地圖上進(jìn)行標(biāo)注，得出一夜情頻繁的高發(fā)區(qū)。數(shù)據(jù)分析發(fā)現(xiàn)，波士頓位于美國“一夜情”之首，而紐約人則顯得比較保守，“一夜情”的比率僅僅為波士頓的1/5。在時間節(jié)點上，一夜情“發(fā)作”的高頻發(fā)段是在周五和周六晚上，如果你的另一半在這個時間點上說自己工作忙要加班，你就要“悠著點”相信。

當(dāng)然，Uber此處雖多為開玩笑之舉，但也確實嚴(yán)重侵犯了用戶的隱私，在遭到了很多用戶及媒體的的抗議，例如，《紐約時報》發(fā)表題為《我們不能信任優(yōu)步》。

在遭到用戶和媒體抗議以后，Uber迅速刪除了這篇博客，但在這個數(shù)字時代，一旦上網(wǎng)，“侯門一入深似?！保ぱo痕夢難成”。感興趣的讀者仍可訪問互聯(lián)網(wǎng)文檔收錄網(wǎng)站https：//archive.org/，找到這篇文章。

不可否認(rèn)的是，大數(shù)據(jù)時代的到來，為我們的學(xué)習(xí)、生活帶來諸多便利。但是，收之桑榆，失之東隅。任何事情都有兩面性。目前，人的行為（諸如購物、乘車、甚至游戲等）已經(jīng)被數(shù)字化了，隱私已經(jīng)無處可藏！不論是美國斯諾登“棱鏡門”監(jiān)聽項目的曝光，還是層出不窮的諸如Uber等公司企業(yè)泄露客戶資料事件，都向我們發(fā)出大數(shù)據(jù)時代下個人隱私保護(hù)的預(yù)警。

中國著名生命倫理學(xué)家邱仁宗先生認(rèn)為，大數(shù)據(jù)技術(shù)，與所有技術(shù)一樣它本身無所謂“好”“壞”，故它本身在倫理學(xué)上是中性的。然而使用它的個人、公司、機(jī)構(gòu)有價值取向的，大數(shù)據(jù)猶技術(shù)如一把雙刃劍，它可以給我們的生活、科研帶來便利，但也能帶來諸如侵犯隱私的消極影響。

完善的立法，對保護(hù)用戶隱私來說極其重要。例如，規(guī)定只有用戶需要個性化服務(wù)定制的時候，提出需求，大數(shù)據(jù)公司才能調(diào)用該用戶的信息，其他情況下的信息調(diào)用都采取匿名的方式，否則就視作侵犯隱私。

網(wǎng)上有個以“恐怖的大數(shù)據(jù)”為題的段子，用定披薩餅的流程，把用戶的隱私披露地“一覽無遺”，雖有夸張成分，但在大數(shù)據(jù)時代，隱私保護(hù)的必要性，已經(jīng)不容置疑了。

小結(jié)

《舊約·箴言篇》18章17節(jié)里有句話：“先訴情由的，似乎有理。但鄰舍來到，就察出實情”。

隨著諸如舍恩伯格教授的《大數(shù)據(jù)時代》、涂子沛先生的《數(shù)據(jù)之巔》等大作的面世，對世人帶來了“醍醐灌頂”式的教育洗禮，在教育民眾和政府官員接納大數(shù)據(jù)時代的普及意義上，這些著作，居功至偉。他們書中的很多思維，已被很多大數(shù)據(jù)的擁躉者奉為圭臬，但任何事情都有兩面性，一味的熱捧，就會帶來認(rèn)知的偏頗。

諸如《紐約時報》、《財經(jīng)時報》、《自然》及《科學(xué)》等重量級的反思“鄰舍”的到臨，能讓我們對“大數(shù)據(jù)”有更為客觀的認(rèn)知。從他們給出的一各個小故事（小案例或小段子）中，可以促使我們對大數(shù)據(jù)的熱炒有所反思，從而告誡我們之間，一定保持清醒頭腦，批判性地接受大數(shù)據(jù)布道者的思維，切不可將其當(dāng)作放之四海而皆準(zhǔn)的真理。對大數(shù)據(jù)的過分依賴，就有可能重蹈伊卡洛斯（Icarus）的覆轍。

在希臘神話中，伊卡洛斯是個自負(fù)的天神，他是代達(dá)羅斯的兒子，一天，在與父親代達(dá)羅斯使用蠟和羽毛制造的羽翼逃離克里特島時，由于他過分相信自己的飛行技，故而飛得太高，雙翼上的蠟在太陽照射下融化，羽翼脫落，最終導(dǎo)致自己葬身大海。

大數(shù)據(jù)技術(shù)就猶如那 “蠟和羽毛”做的翅膀，它可以助我們飛得更高，但倘若過分依賴它，就有葬身大海的風(fēng)險。我們要學(xué)會如何讓大數(shù)據(jù)為我所用，而不是成為大數(shù)據(jù)的奴隸。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

十個段子反思大數(shù)據(jù)