蔡運(yùn)磊
筆者小時(shí)候讀過(guò)一篇童話《獵人海力布》,故事說(shuō),海力布從龍王那里獲得了可以聽(tīng)懂飛禽走獸語(yǔ)言的寶石后,打的獵物就更多了。“人有人言,獸有獸語(yǔ)”,在信息大爆炸的今天,如何從海量的信息中獲得有價(jià)值的東西、摸索出規(guī)律來(lái)呢?關(guān)鍵在于大數(shù)據(jù)。
大數(shù)據(jù)并非現(xiàn)代文明的產(chǎn)物?!秴问洗呵铩酚涊d,東郭牙發(fā)現(xiàn)齊桓公口型“呿而不唫”,成功判斷出齊桓公“所言者‘莒也”,由此將齊桓公和管仲謀劃討伐莒國(guó)的事泄露了出去。如果缺乏足以觀察到規(guī)律的大數(shù)據(jù),東郭牙從何發(fā)現(xiàn)齊桓公的軍事機(jī)密呢?!
馬陵之戰(zhàn)中,孫臏抓住對(duì)手龐涓善于進(jìn)行數(shù)據(jù)分析的特點(diǎn),有意“使齊軍入魏地為十萬(wàn)灶,明日為五萬(wàn)灶,又明日為三萬(wàn)灶”,反其道而用之,終對(duì)龐涓成功實(shí)施誘殺。
1948年遼沈戰(zhàn)役打響后,林彪正是憑借對(duì)在胡家窩棚繳獲的短槍與長(zhǎng)槍的比例、繳獲和擊毀的小車(chē)與大車(chē)的比例、俘虜和擊斃的軍官與士兵的比例比其他戰(zhàn)斗略高的大數(shù)據(jù)分析,才確定了廖耀湘的兵團(tuán)指揮所。
數(shù)據(jù)是客觀的,但人是主觀的生物。面對(duì)大數(shù)據(jù),很多人甚至專(zhuān)業(yè)的分析師也會(huì)犯主觀錯(cuò)誤,甚至被數(shù)據(jù)迷惑,被數(shù)據(jù)牽著鼻子走。
富蘭克林·羅斯福是美國(guó)歷史上唯一連任四屆的總統(tǒng)。1936年羅斯福想競(jìng)選第二任總統(tǒng)時(shí),許多人預(yù)測(cè)羅斯福很難如愿。大名鼎鼎的《文學(xué)文摘》雜志,此前幾次對(duì)總統(tǒng)選舉結(jié)果的預(yù)測(cè)都成功了,如今它又如法炮制,搞了個(gè)240萬(wàn)人的調(diào)查統(tǒng)計(jì),具體方式就是在雜志里夾上關(guān)于總統(tǒng)選舉的調(diào)查問(wèn)卷,然后收集反饋。正是根據(jù)這個(gè)結(jié)果,《文學(xué)文摘》宣布蘭登將贏得大選。
當(dāng)時(shí)有個(gè)年輕人叫蓋洛普,其預(yù)測(cè)結(jié)果剛好跟《文學(xué)文摘》相反。但他財(cái)不大氣不粗,只訪問(wèn)調(diào)查了5000人?;趯?duì)這5000人的調(diào)查,蓋洛普預(yù)測(cè)羅斯福連任,結(jié)果應(yīng)驗(yàn)。蓋洛普也由此名聲大噪,并成立了一家民意調(diào)查公司—蓋洛普咨詢公司。
為什么會(huì)這樣?其實(shí)很簡(jiǎn)單,《文學(xué)文摘》調(diào)查的240萬(wàn)個(gè)用戶,家境一般都較好。也就是說(shuō),它調(diào)查的主要群體,其實(shí)相當(dāng)單一。但蓋洛普就完全不同了,他盡可能使抽樣調(diào)查符合當(dāng)時(shí)的選民結(jié)構(gòu)。
中國(guó)人民大學(xué)統(tǒng)計(jì)與大數(shù)據(jù)研究院副院長(zhǎng)朱利平認(rèn)為,數(shù)據(jù)分析離不開(kāi)兩個(gè)基本概念:相關(guān)與因果。人們常?;煜@兩個(gè)概念,常會(huì)把相關(guān)關(guān)系誤以為是因果關(guān)系。這就是“大數(shù)據(jù)病”的根源。
比如,我們看到每年冰淇淋銷(xiāo)量增加的同時(shí),各地不幸溺亡的人數(shù)也在增加。二者能否構(gòu)成因果關(guān)系呢?常識(shí)告訴我們,肯定不能。二者只是相關(guān)關(guān)系(都與氣溫升高有關(guān))。
約500年前,丹麥天文學(xué)家第谷連續(xù)20年觀察多顆行星的運(yùn)動(dòng)軌跡,在記錄、分析了海量數(shù)據(jù)后,依然未能取得成果。后來(lái),一個(gè)叫開(kāi)普勒的人決定另辟蹊徑:既然地球每隔365天會(huì)回到同一位置,如果把地球位置固定,再分析其他行星與地球的相對(duì)位置,是否就能成功得出其他行星的運(yùn)行軌跡呢?
果不其然,他發(fā)現(xiàn)如果地球位置不變,那么其他行星的20年運(yùn)行軌跡畫(huà)出后,顯示它們都是圍著太陽(yáng)轉(zhuǎn)的,并且運(yùn)行軌跡都是橢圓形。開(kāi)普勒就此發(fā)現(xiàn)了行星運(yùn)動(dòng)規(guī)律。
由此可見(jiàn),數(shù)據(jù)量大不一定就代表價(jià)值高,只有收集來(lái)的數(shù)據(jù)質(zhì)量好、有代表性,才有可能取得研究成果。
大數(shù)據(jù)正在完善我們的視聽(tīng)世界。不久前,古裝言情劇《東宮》第十集中,女主和男主相繼跳下忘川,形成首個(gè)劇情高峰。分析師對(duì)觀眾尤其是年輕觀眾的反饋進(jìn)行大數(shù)據(jù)分析后,認(rèn)為“跳忘川”的戲份沒(méi)配BGM(背景音樂(lè))太可惜,于是立馬聯(lián)系片方,加上了網(wǎng)友們最?lèi)?ài)的插曲作為背景樂(lè)。就為這段音樂(lè),不少觀眾甚至重刷了這一集。
據(jù)《人民日?qǐng)?bào)》報(bào)道,到2018年年底,我國(guó)數(shù)字經(jīng)濟(jì)規(guī)模達(dá)到31萬(wàn)億元,占GDP的1/3。全球IT研究與咨詢公司權(quán)威機(jī)構(gòu)Gartner預(yù)計(jì),2020年中國(guó)產(chǎn)生的數(shù)據(jù)量將是2013年的20倍。
萬(wàn)物有利有弊,大數(shù)據(jù)亦不例外。
2019年5月27日,2019年中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)貴州省貴陽(yáng)市開(kāi)幕
2018年,個(gè)人信息泄露事件接連發(fā)生:?jiǎn)螁?月,視頻網(wǎng)站AcFun對(duì)外宣稱(chēng)900萬(wàn)條用戶數(shù)據(jù)外泄,招聘網(wǎng)站“前程無(wú)憂”的195萬(wàn)條用戶求職簡(jiǎn)歷泄露,圓通快遞10億條快遞數(shù)據(jù)被售賣(mài)。而在7-9月,又傳出順豐快遞3億用戶數(shù)據(jù)被兜售,華住旗下酒店5億條客戶開(kāi)房數(shù)據(jù)被出售,萬(wàn)豪集團(tuán)5億名客人的信息被泄露……
最近被曝光的一份高達(dá)41GB的暗網(wǎng)中心交易數(shù)據(jù)文件,更是包含了14億用戶的用戶名及密碼,可能是迄今為止最大規(guī)模的數(shù)據(jù)泄漏事件。
這些個(gè)人信息成了明碼標(biāo)價(jià)、公開(kāi)兜售的商品,也意味著每一個(gè)個(gè)體將因此成為廣告、營(yíng)銷(xiāo)人員乃至不法分子的目標(biāo)與獵物。
今年“3·15”的熱門(mén)話題之一,是“瘋狂的營(yíng)銷(xiāo)電話”。北京市消協(xié)發(fā)布的調(diào)查結(jié)果顯示,56.92%的被調(diào)查者表示,有過(guò)被大數(shù)據(jù)“殺熟”的經(jīng)歷。有人說(shuō),全世界的企業(yè)可分為兩種:一種是數(shù)據(jù)已泄露的企業(yè),一種是將要發(fā)生數(shù)據(jù)泄露的企業(yè)。
童話里的海力布,掌握并成功分析了動(dòng)物們的“大數(shù)據(jù)”,但他一泄密,就變成了堅(jiān)硬的石頭。在5月末“2019中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)”現(xiàn)場(chǎng),我充分感受到了撲面而來(lái)的“數(shù)字壓力”。
論壇內(nèi)外探討的“數(shù)字壓力”,是如何突破大數(shù)據(jù)時(shí)代各種技術(shù)瓶頸的壓力,是擔(dān)心在新一代信息技術(shù)蓬勃發(fā)展中“掉隊(duì)”的壓力,是急切地想搶抓數(shù)字化、網(wǎng)絡(luò)化、智能化發(fā)展機(jī)遇的壓力,更是直面大數(shù)據(jù)時(shí)代法律、安全、政府治理等各方面挑戰(zhàn)的壓力。
56.92%的被調(diào)查者表示,有過(guò)被大數(shù)據(jù)“殺熟”的經(jīng)歷。
我們既要充分利用大數(shù)據(jù)的“矛”,也要制好防范大數(shù)據(jù)泄密的“盾”。2015年圖靈獎(jiǎng)獲得者惠特菲爾德·迪菲認(rèn)為,目前世界公認(rèn)的解決大數(shù)據(jù)安全問(wèn)題的最好辦法是密碼學(xué),即對(duì)數(shù)據(jù)進(jìn)行一定程度的加密,即使偷聽(tīng)者攔截到信息,如果沒(méi)有密鑰也無(wú)法破解,無(wú)法了解信息的具體內(nèi)容。
他認(rèn)為,數(shù)據(jù)量越大,安全保障的重要性就越大。比如大數(shù)據(jù)賦能的道路網(wǎng)絡(luò)管理和自動(dòng)駕駛,可以顯著提高生活質(zhì)量,但如果安全問(wèn)題沒(méi)解決好,或遭遇惡意攻擊,那將十分危險(xiǎn)。
其實(shí),大數(shù)據(jù)本身是可以幫助我們做好信息安全工作的。如在大數(shù)據(jù)場(chǎng)景中,我們可以根據(jù)用戶的訪問(wèn)行為,判斷他是否為異常用戶,可及時(shí)跟蹤、判斷其意圖,從而提前預(yù)警,防患于未然。
英國(guó)數(shù)學(xué)家托馬斯·克倫普在《數(shù)字人類(lèi)學(xué)》一書(shū)中指出,數(shù)據(jù)的本質(zhì)是人,分析數(shù)據(jù)就是在分析人類(lèi)族群自身。對(duì)公共部門(mén)和企業(yè)來(lái)說(shuō),在確保數(shù)據(jù)安全的前提下,將數(shù)據(jù)轉(zhuǎn)化為服務(wù)和產(chǎn)品,才能更加準(zhǔn)確地對(duì)接人們的需求和期待,從而讓數(shù)據(jù)更好地服務(wù)人類(lèi)社會(huì)。
在印度教中,宇宙由梵天睜眼之看產(chǎn)生;在佛教和耆那教中,這“看”應(yīng)是來(lái)自佛陀和大雄的智慧之眼。人的六根所感是劃了一個(gè)范圍的,宇宙的呈現(xiàn)也因人之感而有一個(gè)范圍。一人對(duì)宇宙不斷地感,就形成了此人的世界;更多人不斷地感,就形成了大數(shù)據(jù),形成了世界。
依據(jù)《人類(lèi)簡(jiǎn)史》的邏輯,大數(shù)據(jù)也可被認(rèn)為是人類(lèi)創(chuàng)造的“虛擬共同體”的一部分。當(dāng)我們依托大數(shù)據(jù)、對(duì)蕓蕓眾生有一個(gè)更為精準(zhǔn)的表達(dá)時(shí),我們也就成為了現(xiàn)代版的“獵人海力布”。