国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

失控的大數(shù)據(jù)

2018-07-06 15:01李斐然
人物 2018年6期

李斐然

我們的故事

北京城里有許多故事不為人所知,一個(gè)最容易被人忽視的真相是,在這里,總有人比你更了解自己。周一早高峰時(shí)間擠在地鐵里刷財(cái)經(jīng)新聞的一些人,會(huì)在周五下班路上收到系統(tǒng)為他們推送的八卦新聞,因?yàn)樗惴ㄖ肋@是他們此刻最想看到的內(nèi)容。做人臉識別的公司知道我們每天晚上什么時(shí)間卸妝,什么時(shí)候敷面膜,周末早上賴床到幾點(diǎn),因?yàn)樵谶@些時(shí)候,人臉識別通過率會(huì)驟然變低。

在真實(shí)世界里,性別只分男和女,但是原阿里巴巴集團(tuán)副總裁車品覺說,阿里巴巴曾經(jīng)就有18個(gè)性別標(biāo)簽,它知道有些賬號白天是男性用戶持有,而晚上使用的卻是女性。判斷依據(jù)是用戶資料、瀏覽商品類目、對話使用稱謂,以及那些我們自己或許都未曾察覺的訪問習(xí)慣——點(diǎn)擊屏幕的輕重,經(jīng)常輸錯(cuò)的錯(cuò)別字,在瀏覽器窗口是喜歡在新窗口打開、還是反復(fù)使用前進(jìn)后退鍵,正是它們告訴機(jī)器,此刻對著屏幕滑動(dòng)商品頁面的究竟是誰。

大數(shù)據(jù)里的我們,擁有異常真實(shí)的群體畫像。因?yàn)槲覀冊诿鎸κ謾C(jī)的時(shí)候非常誠實(shí),永遠(yuǎn)對它說真話。

世界上知道這些秘密的只有你,和機(jī)器另一端的數(shù)據(jù)科學(xué)家。在機(jī)器語言里,我們不止是一個(gè)名字、一個(gè)地址、一串設(shè)備識別符。它每秒鐘監(jiān)測超過400個(gè)變量,記錄每一個(gè)行為軌跡。

今年57歲的韋思岸(Andreas Weigend)知道無數(shù)這樣的故事。他出生在德國,原本在赫赫有名的歐洲粒子物理研究所(CERN)研究上帝粒子,但在2002年,他選擇投身大數(shù)據(jù)世界,成為了亞馬遜首席科學(xué)家,后來他曾任阿里巴巴數(shù)據(jù)顧問、人人網(wǎng)早期外部投資人,也曾為摩根大通、湯森路透、沃爾瑪、AT&T等機(jī)構(gòu)提供數(shù)據(jù)咨詢。

他教會(huì)機(jī)器一個(gè)理解人類的方法是:獲知一個(gè)用戶地址后,還要抓取這個(gè)地址周圍5公里內(nèi)的書店分布狀況,因?yàn)檫@決定了用戶有多大概率在亞馬遜買書、會(huì)在什么情況下買書。這條準(zhǔn)則后來被應(yīng)用到了阿里巴巴的數(shù)據(jù)分析實(shí)踐,所以當(dāng)淘寶知道你家5分鐘步行路程內(nèi)有超市的時(shí)候,它就不會(huì)頻繁向你推薦油鹽醬醋,但是它看到你的搜索記錄,獲知你皮膚敏感,而15分鐘路程內(nèi)的商場都沒有你習(xí)慣用的護(hù)膚品,那么,這些商品將會(huì)出現(xiàn)在你的屏幕上。

韋思岸將數(shù)據(jù)分析師每天的工作形容為“人性實(shí)驗(yàn)”,就像科學(xué)家通過實(shí)驗(yàn)探索物質(zhì)的本質(zhì),數(shù)據(jù)分析師通過程序研究人的行為特征。技術(shù)改變了人的物理概念。定義我們的不僅僅是賬戶和密碼,還有我們的愛好、情緒、行為習(xí)慣。不管我們在互聯(lián)網(wǎng)上如何偽裝,換新的名字、新的頭像,機(jī)器總能輕易識破。數(shù)據(jù)記錄下的習(xí)慣,是我們的另一個(gè)身份定義。

這些故事讓他興奮,同時(shí)讓他感到不安,韋思岸告訴《人物》,“我能看到最近十幾年我們的生活因?yàn)榧夹g(shù)發(fā)生了顛覆性變革。但是它真的讓我們變得更自在嗎?我沒有答案。”

在數(shù)據(jù)的世界里,我們面對手機(jī)的每一個(gè)舉動(dòng),都在成為機(jī)器學(xué)習(xí)的材料,訓(xùn)練人工智能更加理解人性。曾經(jīng)那些高深玄奧的人生命題一我們是誰?好朋友意味著什么?我們將會(huì)選擇什么樣的生活——這些答案都可以從搜索記錄、社交網(wǎng)絡(luò)的聊天記錄和手機(jī)傳感器里找到。

截止2018年第一季度,超過10億人每月使用微信及WeChat,6.17億人在淘寶購物,全國搜索引擎用戶達(dá)6.4億,他們時(shí)刻創(chuàng)造新的海量數(shù)據(jù),也在被勾畫著異常精準(zhǔn)的群體畫像,機(jī)器在一步步接近一張清晰的人性圖景。數(shù)據(jù)是這個(gè)時(shí)代最特別的商品,它的產(chǎn)生幾乎毫無成本,卻造就了無數(shù)科技獨(dú)角獸、日漸強(qiáng)大的上市公司,以及數(shù)以億計(jì)的產(chǎn)業(yè)利益。

大數(shù)據(jù)日漸了解我們,但是很少人知道,我們所做的事情會(huì)讓我們成為廣告主的商品、被人剖析個(gè)性的樣本、掌握我們的一舉一動(dòng),甚至能預(yù)測我們的未來軌跡。

“隱私”

不止一位數(shù)據(jù)科學(xué)家確信,隱私已經(jīng)是一件“算法上不成立”的事件。我們知道自己在分享數(shù)據(jù),但是大部分人并不知道,自己正在分享些什么,更不知道,這種分享將會(huì)意味著什么。

聽一個(gè)分析師講述數(shù)據(jù)挖掘過程,就像是見證了_一場懸疑推理,唯獨(dú)這一次,福爾摩斯活在大數(shù)據(jù)里。一切從手機(jī)App安裝軟件中的SDK開始,這是一個(gè)搭載在App中的軟件開發(fā)工具包,其中嵌入了統(tǒng)計(jì)分析工具,實(shí)時(shí)收集用戶信息。當(dāng)然,這是經(jīng)過你授權(quán)同意的,就在你可能從來沒有認(rèn)真讀完的用戶協(xié)議里。

從App下載到手機(jī)那一刻起,揣測人生的嘗試就開始了。僅僅是安裝過程中所抓取的硬件設(shè)備信息,App已經(jīng)對你有了一個(gè)大概印象——如果一臺手機(jī)一個(gè)月內(nèi)有10次連接同一個(gè)星巴克的WIFI,20次連接同一個(gè)定位在寫字樓的公共區(qū)域WIFI,30次連接一個(gè)家庭WIFI,再算上這些WIFI的地理位置,以及WIFI名里的關(guān)鍵詞,那么,一條幾近清晰的生活-T作的路線軌跡,get。

在學(xué)者的論文里,這被形容為一個(gè)“數(shù)據(jù)失控”的時(shí)代,沒有人能控制自己的數(shù)據(jù),我們的數(shù)據(jù)時(shí)刻被人監(jiān)視。

不過,實(shí)際經(jīng)手?jǐn)?shù)據(jù)的人并沒有這種感覺。人們擔(dān)憂自己的個(gè)人信息泄露,比如姓名、電話、地址。在業(yè)界,工程師給隱私下過一個(gè)最簡單的定義——隱私,就是那些不允許自由流動(dòng)的數(shù)據(jù),比如被法律禁止交易的身份證號、個(gè)人征信、醫(yī)療記錄,它們只能固定儲(chǔ)存,不允許隨意讀取。事實(shí)上,現(xiàn)在App收集信息也確實(shí)越來越受到限制,比如IOS10以后的系統(tǒng)已經(jīng)禁止讀取許多設(shè)備硬件信息,安卓系統(tǒng)也在逐步限制軟件能夠獲取的用戶信息范圍。

不過對公司來說,以上這些信息固然重要,但更值錢的是另一些數(shù)據(jù)——你的喜好、興趣、生活方式、行為習(xí)慣——而這些數(shù)據(jù)在很多人的概念里,還不屬于隱私。

“大數(shù)據(jù)能做很多事情,通過合理分析解釋世界。最好的事是,這些東西完全不觸及隱私?!贝蠛釉谝患夜镜臄?shù)據(jù)相關(guān)部門工作,她認(rèn)為,隱私是法律明令禁止收集和交易的身份證號、手機(jī)號、戶籍地址等個(gè)人身份信息,而她的工作完美避開了它們?!皠倓偡治龅倪@些畫像,我根本不知道他是誰,我看到的只是設(shè)備。比如我能看到一個(gè)在回龍觀的安卓設(shè)備,早上9點(diǎn)去了望京晚上9點(diǎn)又回來了。他的軌跡我都知道,但是我并不知道他是誰。所以它又能匿名,又很精準(zhǔn)?!?/p>

一個(gè)不愿意署名的數(shù)據(jù)工程師說,要說有問題,是那些私下倒賣個(gè)人身份信息的黑市有問題,20塊錢買一個(gè)人的征信報(bào)告,幾百塊錢就能買高凈值人群打包數(shù)據(jù),這些跟社會(huì)信息相關(guān)的是隱私,需要管。但是互聯(lián)網(wǎng)公司收集的都是“淺層信息”,這沒關(guān)系。

小喬曾經(jīng)在一家以“大數(shù)據(jù)分析”為主力業(yè)務(wù)的互聯(lián)網(wǎng)公司工作,她的工作就是利用公司通過大數(shù)據(jù)得到的用戶畫像,組織線下營銷活動(dòng)。她說,自己并不那么擔(dān)心習(xí)慣被人察覺,因?yàn)樵谒慕?jīng)歷里,好多都是“忽悠人用的,又不準(zhǔn),怕什么”?特別是在北上廣每個(gè)人都那么不一樣,用戶畫像根本行不通,也就在三四線城市,弄個(gè)噱頭忽悠一下人。

“(我們)什么信息都能得到,但是沒什么用,也懶得看?!币粋€(gè)不愿署名的程序員這樣說,“互聯(lián)網(wǎng)公司讓你感到害怕,只是因?yàn)槟阍贏pp里,沒有掩飾你是什么樣的人,而App把這些看在眼里——你不會(huì)出柜,但會(huì)偷偷在淘寶上搜索潤滑劑;你不會(huì)跟人說葷段子,但App上看到翹臀美女還是會(huì)點(diǎn)進(jìn)去;你對外痛擊侵犯版權(quán),但看到四位數(shù)價(jià)格的正版軟件,還是去搜了盜版的下載……”

實(shí)實(shí)在在的人民幣

對于掌握海量用戶數(shù)據(jù)的大公司,真實(shí)的人性畫像等于錢,因?yàn)樗麄兡苷业椒浅>珳?zhǔn)的目標(biāo)用戶,比如商家想要賣一款針對5歲以下孩子的推車,他們就可以提供“家里有5歲以下孩子、訂單中卻未發(fā)生過此類母嬰商品購買行為”的用戶群。他們將海量用戶喜好、興趣、習(xí)慣等數(shù)據(jù)組建成數(shù)據(jù)庫,這樣向品牌商和廣告主推銷:這些消費(fèi)者數(shù)據(jù)也是一種資產(chǎn),你知道他們習(xí)慣買什么、什么時(shí)候想買,它能如預(yù)知未來一樣,直觀看到未來可能收割的營業(yè)額,不是某種估計(jì)的指標(biāo)或指數(shù),而是“實(shí)實(shí)在在的人民幣”。

這大概是廣告主最喜歡的時(shí)代。Facebook曾推出一項(xiàng)行之有效的算法lookalike。比方說,一家公司想賣啤酒,它只需要提供100個(gè)曾經(jīng)購買過這款酒的用戶群體,數(shù)據(jù)會(huì)將它們視為種子用戶,尋找和種子用戶相似的另外500個(gè)人。他們有相似的興趣愛好,相似的行為習(xí)慣,他們可能并沒有買過啤酒,但是基于他們的行為特征相似性,該相似群體極有可能在推送后馬上得到轉(zhuǎn)化,買下這款啤酒。

并非所有人都對這些“隱私”的開放無感。武山在一家行業(yè)排名很高的互聯(lián)網(wǎng)公司工作,利用大數(shù)據(jù)進(jìn)行算法推薦。每天在工作的時(shí)候,他能夠看到全體用戶在App上的行為軌跡信息,包括電話、地址、搜索記錄、每一屏交互行為等等。這是他的工作內(nèi)容,可是他說,這也讓他不安。

“雖然都說數(shù)據(jù)開放、數(shù)據(jù)開放,但還是覺得,這些數(shù)據(jù)真是太開放了,沒有做好保護(hù)?。”热鐑?nèi)部員工可以查到用戶在App上的行為習(xí)慣啊,還有App收集用戶信息的時(shí)候,哪些該收集,哪些不該收集,在我看來也算隱私啊,應(yīng)該有一些機(jī)制保護(hù)吧?”武山說,“可我不知道有沒有行業(yè)標(biāo)準(zhǔn),現(xiàn)在我是全靠自律的。就是如果我想看,我隨便都能看到??!”

據(jù)《財(cái)經(jīng)》此前的報(bào)道,國內(nèi)個(gè)人信息泄露數(shù)達(dá)55.3億條,平均每個(gè)人有四條相關(guān)個(gè)人信息泄露,這些信息最終在黑市反復(fù)倒手,直至被榨干價(jià)值。其中,80%的數(shù)據(jù)泄露來自企業(yè)內(nèi)鬼,黑客僅占20%。去年6月,廣東蒼南警方發(fā)布通報(bào),有蘋果公司國內(nèi)員工涉嫌以非法手段獲取蘋果手機(jī)關(guān)聯(lián)的個(gè)人信息,包括用戶注冊蘋果賬戶時(shí)所填個(gè)人信息,涉案22人中有20人在蘋果國內(nèi)直銷公司及蘋果外包公司工作,每條以10元到180元不等的價(jià)格出售,非法倒賣個(gè)人信息至少20多萬條。

就在不久前,一名Facebook安全工程師被解雇,因?yàn)樵诰W(wǎng)上搭訕女性的時(shí)候吹噓,自己能夠看到所有人的信息,“我是一個(gè)專業(yè)的跟蹤狂”。而一位豆瓣用戶則發(fā)文稱,與前男友分手后遭到持續(xù)跟蹤騷擾,前男友利用某電商App登錄漏洞,查到了她家人、閨蜜、朋友的姓名、住址、電話,可是即便經(jīng)過投訴,最終也沒有阻止跟蹤狂的持續(xù)登錄。

現(xiàn)在,買東西需要填個(gè)注冊表,或者下載新App后需要關(guān)聯(lián)用戶信息,都會(huì)讓武山不舒服。他說,這可能是他的“職業(yè)病”。

在互聯(lián)網(wǎng)上,韋思岸做過的最瘋狂的人性實(shí)驗(yàn),是關(guān)于自己的。從2006年開始,他主動(dòng)將自己所有聯(lián)系信息公布在自己的網(wǎng)站上。在那里,任何人都可以看到他的實(shí)時(shí)地址、電話、郵箱、行程、工作日程、即將搭乘的航班號及座位號。他公布了自己在舊金山和上海的住址,精確到樓層房間號。

這和他的父親的經(jīng)歷有關(guān)。韋思岸的父親因?yàn)楸徽_陷是間諜,曾被強(qiáng)行關(guān)進(jìn)監(jiān)獄,坐了六年牢。后來,韋思岸查閱父親的個(gè)人檔案時(shí),意外地發(fā)現(xiàn),即便父親出獄后,安全部還在持續(xù)監(jiān)視他,還給身為兒子的自己建了檔案,收集信息。

這個(gè)經(jīng)歷極大影響了他的數(shù)據(jù)觀,“我們不能抱著一個(gè)天真浪漫的觀點(diǎn),還以為我們能夠擁有隱私。我見過數(shù)據(jù)是怎么對待我的父親的,我的父母曾經(jīng)一度一無所有,我們不應(yīng)該天真地以為,一切不會(huì)再重現(xiàn)?!?/p>

“我把聯(lián)系方式放在網(wǎng)上,可要是讓我公布我的搜索記錄,我絕對不愿意?!彼f,某種程度上來說,電話號或者住址并不是私密信息,你的朋友知道,你的同事也可能知道,但搜索記錄中所透露出的個(gè)人喜好、習(xí)慣,則是非常私密的個(gè)人信息。

一個(gè)安卓App開發(fā)者曾經(jīng)試圖跟女朋友解釋自己近乎無所不能的工作:在App安裝后,他能夠獲得大量授權(quán),推斷數(shù)據(jù)里的人群做什么工作、常去哪里、畢業(yè)于什么學(xué)校、有什么愛好、有沒有結(jié)婚、有沒有外遇、有沒有房、有沒有車、現(xiàn)在是外出度假還是在家呆著,甚至通過讀取銀行通知短信,推測實(shí)際收入。有時(shí)候?yàn)榱丝蛻粜枰€得推測人心,排除偽君子,比如如果手機(jī)里下載高端財(cái)經(jīng)App,打開頻率卻幾乎為零,那么這個(gè)人的標(biāo)簽要么是不小心下錯(cuò)了軟件,要么就是“比較裝”……

這些推測并不完全準(zhǔn)確,也沒有涉及身份信息,卻已經(jīng)讓身為普通用戶的女朋友感到冒犯,沖他大發(fā)脾氣:“你這人怎么這樣?你為什么要看我們這么多數(shù)據(jù)?。空l叫你拿這些授權(quán)的?是你老板逼你這么干的嗎?”

對抗

在技術(shù)的世界里,邊界是最難討論清楚的話題。大部分公司都在反復(fù)強(qiáng)調(diào),我們雖然收集大量數(shù)據(jù),但是十分重視隱私,絕對不會(huì)泄露你的名字。事實(shí)上,許多大公司的確是這樣做的,它們內(nèi)部有非常嚴(yán)格的數(shù)據(jù)保護(hù)措施,比如微信有比較復(fù)雜的ID體系,系統(tǒng)內(nèi)部有用戶的唯一ID標(biāo)識,但是第三方開發(fā)者不能獲得這個(gè)唯一ID,即便是同一個(gè)用戶,在不同公眾號下被第三方開發(fā)者收集到的ID都是完全不一樣的,這樣就完全阻止公眾號之間用戶數(shù)據(jù)的隨意買賣交易。

負(fù)責(zé)用戶挖掘的微信斑馬系統(tǒng)只支持一萬人以上的人群畫像分析,從而實(shí)現(xiàn)“分析一群人而不分析一個(gè)人”,而在分析過程中也會(huì)主動(dòng)控制精度,比如分析用戶住址時(shí),只定位到小區(qū),不再基于氣壓傳感器定位高度,做樓棟和樓層的定位。

在一次媒體采訪會(huì)上,阿里巴巴的一個(gè)技術(shù)負(fù)責(zé)人說:“數(shù)據(jù)肯定是往越來越嚴(yán)控的方向發(fā)展,我們采集信息的目的,其實(shí)還是為了更好地提升用戶體驗(yàn),所以一個(gè)基本原則是,這些信息的獲取要從提升產(chǎn)品的角度出發(fā)?!北热鐚τ械腁pp來說,獲取WIFI信息是為了挖掘用戶社交關(guān)系,這讓人感覺越界,但是對金融、支付類的App來說,知道WIFI地址可以快速判斷這是不是用戶常用地址,這筆交易有沒有可能是盜刷,它能有效防范資金風(fēng)險(xiǎn)。

不過,雖然花了兩個(gè)小時(shí)反復(fù)解釋現(xiàn)有隱私保護(hù)如何嚴(yán)格,臨走的時(shí)候,他還是忍不住補(bǔ)了一句:“不過啊,最近網(wǎng)上那種做個(gè)心理測試啊,點(diǎn)進(jìn)圖片生成自己的照片啊那種,我勸大家還是不要點(diǎn)了,那種背后一般都存在很大的信息收集的。”

這種看似無害的休閑App可能不會(huì)直接竊取手機(jī)號、身份證號等身份信息,但就在點(diǎn)擊授權(quán)、進(jìn)入游戲的那一瞬間,它很容易完全獲得你的社交關(guān)系和網(wǎng)絡(luò)行為習(xí)慣。今年3月份,F(xiàn)acebook被爆隱私丑聞,存在影響8700萬人的嚴(yán)重?cái)?shù)據(jù)隱私濫用,這些數(shù)據(jù)包括用戶的社交關(guān)系、興趣偏好、點(diǎn)贊記錄等個(gè)人信息,而這一切就是從類似的心理測試開始的。劍橋分析公司通過左右這些用戶在Facebook收到的推送,影響他們在美國大選中對候選人的態(tài)度,最終幫助特朗普當(dāng)選,這些數(shù)據(jù)也“不知道被復(fù)制了多少次”,甚至有可能存儲(chǔ)在俄羅斯。

并不是沒有技術(shù)辦法對抗這樣的數(shù)據(jù)危機(jī)。在英國,有專門保護(hù)個(gè)人隱私的公共機(jī)構(gòu),直接向英國國會(huì)報(bào)告。它提出了數(shù)據(jù)管理者登記制度,要求每個(gè)處理個(gè)人信息的機(jī)構(gòu)都要在信息專員辦公室登記,否則就算為刑事犯罪。很多公司也有謹(jǐn)慎的數(shù)據(jù)使用哲學(xué)。谷歌會(huì)把用戶的姓名、賬號、聯(lián)系方式、地址等信息,與行為數(shù)據(jù)完全分開,不會(huì)將兩者關(guān)聯(lián)使用。而雅虎會(huì)有專門的研究員,在實(shí)踐中界定數(shù)據(jù)搜集的隱私邊界。

許多數(shù)據(jù)科學(xué)家將自己設(shè)計(jì)的隱私保護(hù)對策詳細(xì)公布在論文中,有人將分散信息流控制和差分隱私保護(hù)技術(shù)應(yīng)用到云計(jì)算,還有人通過模糊處理(obfuscation)技術(shù)對用戶隱私全程加密,另一種有效的操作方法是制造噪聲,根據(jù)用戶歷史記錄制造等比例的行為噪音,這樣試圖解讀用戶行為的服務(wù)商就很難辨別哪個(gè)是用戶真實(shí)需求,哪個(gè)是系統(tǒng)制造的噪音,從而保護(hù)用戶真實(shí)的隱私。

但是,在真實(shí)的大數(shù)據(jù)前線,還輪不上這些對策上場,仗已經(jīng)敗了。技術(shù)理想的敵人其實(shí)比想象中更原始——嚴(yán)謹(jǐn)規(guī)則背后,不講規(guī)則的人。

程路從美國留學(xué)回來后,在國內(nèi)一家交友類社交平臺工作,負(fù)責(zé)大數(shù)據(jù)處理。運(yùn)營的同事要做市場推廣活動(dòng),要看用戶數(shù)據(jù),他想看用戶最近在聊什么,然后根據(jù)用戶喜好有針對性地開展活動(dòng)?!袄碚撋现v,這也是業(yè)務(wù)需求,他想抽樣,我也不介意?!背搪氛f,聊天記錄經(jīng)過加密處理,他很快做了抽樣,斷裂可追溯信息,對用戶信息做了脫敏。但是運(yùn)營同事不愿意,他要求看全量數(shù)據(jù)。

全量數(shù)據(jù)是什么概念?它是一個(gè)用戶在App上的所有數(shù)據(jù),能夠非常精準(zhǔn)地描述用戶,他的身份背景、興趣愛好、行為習(xí)慣,甚至每天的喜怒哀樂,都能從行為痕跡里推測出來,但是這是對隱私的極大挑戰(zhàn)。程路試著跟對方解釋,只是做市場推廣的話,使用脫敏后的抽樣樣本就可以了,沒有必要查看全量數(shù)據(jù)。

但意外的是,這個(gè)提議沒有得到理解。運(yùn)營的人不同意,公司CTO不同意,連CEO也不同意。他的一個(gè)同行說,“我挺驚訝的,做這一行的還有這種想法。”而另一個(gè)同行評價(jià)他,“心態(tài)這么不穩(wěn),怎么在中國生活?如果知道自己的房子、車子、保險(xiǎn)、信用卡、婚戀、酒店入住、戶籍信息、工作信息等等全部真實(shí)的信息每天都在各個(gè)公司的銷售那里買賣轉(zhuǎn)手百來次,你還會(huì)有什么感想?毫無心理波動(dòng)?!?/p>

可是,這對程路來說,違背了自己的技術(shù)理想。“這就好像借著你的手,把別人的日記挨頁翻給人看一樣。”他反問,“要是你的日記,你愿意嗎?”

最后,決定數(shù)據(jù)命運(yùn)的是來自CEO輕描淡寫的評論,“這有啥啊,你就給他唄!”

程路把全量數(shù)據(jù)給了業(yè)務(wù)部門,同一個(gè)禮拜,他辭職了,“一半的原因是這件事吧,道不同了。”在這里,他還時(shí)不時(shí)要面對數(shù)據(jù)交易,會(huì)有大公司的銷售人員拿著報(bào)價(jià)表找他談合作,表單上每一類用戶群體都有一個(gè)大概標(biāo)價(jià),愛旅游的、每天點(diǎn)外賣的、打游戲時(shí)長每天超過4小時(shí)的,每一個(gè)群體都有一批相對應(yīng)的廣告主喜歡。所以,只要細(xì)化出了用戶特征,就能有機(jī)會(huì)把它賣錢,這是一筆大生意,但這讓他感到很不舒服。

現(xiàn)在,他在一家外資游戲公司,選擇新工作有很多理由,其中一個(gè)考慮,現(xiàn)在的大環(huán)境里很難找到一個(gè)不越界的公司,那就找個(gè)沒那么強(qiáng)烈想要收集社交數(shù)據(jù)的地方。他說,這樣工作起來心里會(huì)舒服點(diǎn)。

韋思岸說,對抗隱私危機(jī),最有效的辦法只有嚴(yán)懲。“我們不能天真地期待數(shù)據(jù)公司能夠有足夠的自我驅(qū)動(dòng)力,替我們維護(hù)數(shù)據(jù)中的隱私部分。對這些公司而言,懲罰是它們唯一聽得懂的語言?!?/p>

數(shù)據(jù)未來

我們正在面對的數(shù)據(jù)未來是,人或許比想象中更容易預(yù)測,而算法可能比我們更了解世界。

2008年9月15日,美國雷曼兄弟公司宣告破產(chǎn),引發(fā)次貸危機(jī),而最早察覺到這件事的是Linkedin的數(shù)據(jù)科學(xué)家。他們注意到,9月14日明明是一個(gè)周末,網(wǎng)站數(shù)據(jù)卻十分活躍,不斷有人瘋狂聯(lián)系工作、更新簡歷、發(fā)送消息,而所有這些行為都來自雷曼兄弟的員工。

隨著技術(shù)優(yōu)化,現(xiàn)在甚至不需要成為專業(yè)人士,就能洞察真相。就在今年初,使用健身記錄軟件Strava的用戶發(fā)現(xiàn),仔細(xì)查看App所提供的跑步熱力圖,能輕易推測出美軍駐阿富汗軍事基地的具體位置。因?yàn)樗鼤?huì)實(shí)時(shí)追蹤用戶位置數(shù)據(jù),以高亮形式呈現(xiàn)在地圖上,而在當(dāng)?shù)赜脩艉苌俚膽?zhàn)亂地區(qū),每天集體跑步的美國士兵在熱力圖上圈出了異常明顯的行動(dòng)路線,基地位置、出勤時(shí)間、巡邏路線在圖上一目了然。

2012年,美國羅徹斯特大學(xué)教授亞當(dāng)·薩迪克(AdamSadilek)和微軟實(shí)驗(yàn)室的工程師約翰·克拉姆(John Krumm)共同發(fā)布了他們的研究,“如今已有大量研究能夠預(yù)測人的未來行程,比較典型的是可以預(yù)測一小時(shí)以后,人會(huì)去哪兒?!彼麄兊恼撐倪@樣寫道,“相反,我們著手解決的是更開放的難題——預(yù)測數(shù)月甚至數(shù)年后,人們會(huì)在哪兒?!?/p>

他們收集了32000天里307個(gè)人和396輛車的GPS數(shù)據(jù),構(gòu)建模型,準(zhǔn)確度高達(dá)80%。在他們的描述里,未來的營銷廣告甚至可以精確成這樣:“需要理發(fā)嗎?4天后,你將會(huì)出現(xiàn)在這家美發(fā)廳附近,到時(shí)候可以獲得5美元的折扣。”

大河說,有次數(shù)據(jù)團(tuán)隊(duì)私下聊天,聊著聊著突然有人問,一個(gè)人活一輩子,是不是也能用大數(shù)據(jù)分析出來?

結(jié)果,幾個(gè)人嘻嘻哈哈地開始推演,很快把自己嚇到了。在理想狀態(tài)下,一個(gè)人從生到死的每一個(gè)階段,還真有可能預(yù)測出來——出生在哪里,家庭背景什么樣,父母收入水平怎么樣,小時(shí)候的性格行為習(xí)慣,結(jié)合當(dāng)?shù)亟逃街笖?shù),再算上從新聞中提取的實(shí)時(shí)經(jīng)濟(jì)波動(dòng)曲線等等,很多以為是意外的東西,更多時(shí)候只是一種計(jì)算概率。

討論到最后,有人嚷嚷,那活著還有什么意思?。眶[了半天,活著就是一個(gè)數(shù)學(xué)概率問題?。?/p>

事實(shí)上,這是一部分?jǐn)?shù)據(jù)科學(xué)家的愿望。他們希望打通每個(gè)環(huán)節(jié)的數(shù)據(jù),獲得全域大數(shù)據(jù),開啟“上帝視角”,最大限度挖掘數(shù)據(jù)。在樂觀者的描述里,那會(huì)是一個(gè)奇妙的世界,機(jī)器會(huì)基于大數(shù)據(jù)替我們選擇最劃算的商品、最合適的醫(yī)生、最好的路徑,以后也不再會(huì)有交通堵塞,每個(gè)人的運(yùn)行軌跡會(huì)實(shí)時(shí)調(diào)整配置,一路綠燈……

但是,也會(huì)遇到另一種可能:你的健康數(shù)據(jù)顯示你的膽固醇過高,需要鍛煉,節(jié)制飲食,可是你的購物車?yán)锵聠瘟擞驼ㄊ称?,簽收人是你本人,運(yùn)動(dòng)傳感器顯示,你沒去跑步,還是窩在沙發(fā)上看電視劇,因此,潛在招聘官判定你的性格含有“意志薄弱”的標(biāo)簽,打算拒絕你的求職申請。

這是一家大公司技術(shù)負(fù)責(zé)人曾經(jīng)面對的一個(gè)真實(shí)的選擇。在他的故事里,數(shù)據(jù)研究者找到他,希望他打通數(shù)據(jù),利用用戶的購物數(shù)據(jù)輔助招聘決策。但是那一次,他選擇了放棄。一大理由是跨度太大,準(zhǔn)確率無法保證,另一個(gè)理由是,這樣做讓他多少感到倫理越界,“大數(shù)據(jù)亦有所不為”。

在大數(shù)據(jù)的世界里,依然有人相信,世界上總有數(shù)據(jù)沒有辦法解釋的那部分人性。韋思岸說,他依然更相信Serendipity,機(jī)緣巧合?!拔也幌氡欢ㄎ?、細(xì)分、轉(zhuǎn)化、分析,我可不想成為一個(gè)被大數(shù)據(jù)模型定義的人?!?/p>

盡管早已不是一名物理學(xué)家,但是他依然篤信許多物理學(xué)法則,比如能量守恒、關(guān)系反轉(zhuǎn)。大數(shù)據(jù)最美好的部分,不是最終發(fā)現(xiàn)了揭示人性的完美模型,而是不斷探索人性的過程。

他說,技術(shù)最美妙之處,就在于它能夠提供無數(shù)的可能性。技術(shù)挖掘用戶數(shù)據(jù),讓人感受到越界,但同樣地,它也能用來曝光那些封閉信息的官僚機(jī)構(gòu)和組織,用技術(shù)的方式打破他們的掩飾,讓數(shù)據(jù)完全透明,為公眾所用?,F(xiàn)在的關(guān)鍵,是展開公開的討論,找到這條邊界。

無論如何,我們依然生活在這個(gè)數(shù)字化包圍的世界,不愿意放手。統(tǒng)計(jì)顯示,人們平均每天要在手機(jī)屏幕上滑動(dòng)2617次,在睡不著覺的晚上,23%的受訪者會(huì)抱著手機(jī)睡覺,而其中的3%則強(qiáng)調(diào),自己必須要天天握著手機(jī),才能入睡。

光纖傳回?cái)?shù)據(jù)的時(shí)候沒有聲音,它不會(huì)提醒你,這里正在發(fā)生什么。在更好的規(guī)則到來前,大數(shù)據(jù)世界將依然是一個(gè)沒有警笛的沉默戰(zhàn)場。就像是這座城市里被忽視的周五晚高峰地鐵上的八卦、沒有打開的高端財(cái)經(jīng)App、被印在報(bào)價(jià)表上的個(gè)人喜好,還有那些為了它苦惱、爭吵、麻木、抗?fàn)幍娜祟惞适乱粯?,它們只存在在一串字符與另一串字符的連接中,極少為人們所知。

(本文部分?jǐn)?shù)據(jù)來源CNNIC、Quest Mobile、TalkingData、友盟、尼爾森、國家統(tǒng)計(jì)局等公開數(shù)據(jù)及上市公司公開年報(bào),尤榕萍、萬雨可、姚胤米對此文亦有貢獻(xiàn),文中提及的中國數(shù)據(jù)工作者均為匿名)

光泽县| 灌云县| 桐城市| 大庆市| 芜湖市| 收藏| 隆回县| 鄂伦春自治旗| 博客| 祁门县| 东方市| 佛坪县| 拜泉县| 周宁县| 安塞县| 内丘县| 郧西县| 潢川县| 南漳县| 邵阳县| 庆云县| 弋阳县| 阿鲁科尔沁旗| 福州市| 绥中县| 甘肃省| 惠东县| 长兴县| 搜索| 自贡市| 泰宁县| 沁源县| 隆安县| 威宁| 通山县| 仲巴县| 女性| 榆社县| 宝坻区| 娱乐| 麻阳|