蒂姆·哈福德
2009年,谷歌的一個研究小組在世界頂級科學期刊之一《自然》上宣布了一項了不起的成就。不用知道醫(yī)院的就診記錄,他們就能夠追蹤到流感在美國的傳播情況。更重要的是,他們的反應比美國疾控中心快,因為后者依賴醫(yī)生們上報的信息。谷歌的算法是在疾控中心2003年~2008年的病例中進行數(shù)據(jù)搜索,找出規(guī)律,看看流感暴發(fā)期間,流感地區(qū)的人們在網(wǎng)上搜索什么,以此來建立流感病例和搜索內(nèi)容之間的相關性。在發(fā)現(xiàn)了這種規(guī)律或模式之后,該算法就可以根據(jù)今天人們上網(wǎng)的搜索內(nèi)容來估計今天流感的發(fā)病人數(shù),這樣做比疾控中心發(fā)布官方消息要早至少一周的時間。
“谷歌流感趨勢預測”不僅快、準、省錢,還不需要高深的理論。谷歌的工程師們甚至懶得去篩選哪類搜索詞與疾病傳播有關聯(lián)。雖然,我們也想象得到,搜索“流感癥狀”或“我附近的藥店”是和流感沾邊的,但搜索“碧昂斯”就和流感毫無關系了,但在谷歌團隊眼里,這都無所謂,他們只管輸入流感期間網(wǎng)上最常被搜索的5,000萬個詞,然后讓算法自己去找規(guī)律。
谷歌流感趨勢預測一炮而紅,它的成功標志著商業(yè)、科技領域的熱門新趨勢——大數(shù)據(jù)和算法。大數(shù)據(jù)可以有很多種,我們把重點放在留痕數(shù)據(jù)上,它指的是人們在網(wǎng)絡上的各種搜索、信用卡支付和手機搜索附近連接熱點留下的上網(wǎng)痕跡,這還不算政府掌握的個人大數(shù)據(jù)。
留痕數(shù)據(jù)的類型可謂龐雜,數(shù)據(jù)收集起來成本較低,可以實時更新,但也雜亂無章。隨著我們的通信、休閑和商業(yè)走向互聯(lián)網(wǎng),而互聯(lián)網(wǎng)又正進入我們的手機、汽車甚至我們的眼鏡,生活可以被記錄和量化,而這種方式在10年前是很難想象的。商業(yè)和管理雜志上,鋪天蓋地都是關于這方面機會的文章。
除了這些“抓住機會上車”的口號外,大數(shù)據(jù)的擁躉根據(jù)谷歌流感趨勢預測的成功還提出了三個令人激動的觀點。第一,數(shù)據(jù)分析能做出精準的預測。第二,每一個數(shù)據(jù)點都可以被捕獲到,這就顯得統(tǒng)計抽樣模式過時了(這里指流感趨勢捕獲到每一次人們在網(wǎng)上的相關搜索)。第三,科學建模也已經(jīng)過時:根本沒有必要建立和驗證“流感癥狀”搜索或“碧昂斯”搜索可能與流感傳播相關或不相關的公式,因為,引用2008年《連線》雜志中一篇煽動性文章的話,“有了足夠的數(shù)據(jù),數(shù)字能說明一切問題”。
這種模式很有顛覆性。然而,在《自然》那篇文章發(fā)表4年后,《自然新聞》卻傳來一個不幸的消息:最近的流感暴發(fā)還造成了一個意外的受害者——谷歌流感趨勢預測。在準確地預報了幾個冬天的流感疫情后,這個無須建模、數(shù)據(jù)豐富的模型對流感突然失去了嗅覺。谷歌的模型預測了流感要大暴發(fā),但疾控中心不緊不慢,說它的數(shù)據(jù)證明谷歌高估了流感暴發(fā)的可能性,還有,谷歌的數(shù)據(jù)一度比真實數(shù)據(jù)大了一倍多。不久,谷歌流感趨勢項目團隊就解散了。
問題出在哪兒?部分原因在于上面說的第三個觀點:谷歌當時不知道,也不可能知道,它的算法中有哪些搜索詞是與流感暴發(fā)相關聯(lián)的。谷歌的工程師沒有自己做篩選,他們讓算法自己在數(shù)據(jù)中尋找流感暴發(fā)的相關統(tǒng)計模式。后來,谷歌的研究團隊分析了這些算法算出的模式,發(fā)現(xiàn)了一些明顯的錯誤相關性,而他們本可以指示算法剔除這些錯誤關聯(lián)。例如,算法會將“高中籃球賽”搜索與流感關聯(lián)起來。原因并不神秘:流感疫情和高中籃球賽都在11月中旬開始。但這意味著流感趨勢部分探查的是流感,部分探查的是冬季球賽。當2009年夏季流感暴發(fā)時,這又成了一個問題:谷歌流感趨勢預測仍然在搜索冬季球賽,自然一無所獲,也就沒預測出來這次非常規(guī)季節(jié)的疫情,導致他們預報的發(fā)病人數(shù)只是實際發(fā)病人數(shù)的20%。
有人說找出算法出錯的原因是不可能的。但是找出兩個東西是怎么關聯(lián)起來的不難。一些數(shù)據(jù)發(fā)燒友,比如《連線》雜志那篇煽動性文章的作者克里斯·安德森也說過,除了相關性,討論別的都沒意義。他寫道:“先從數(shù)學的角度處理好數(shù)據(jù),然后再為數(shù)據(jù)設定好語義環(huán)境就可以了。”數(shù)據(jù)自然會呈現(xiàn)一定的規(guī)律。如果真是這樣,我們是不是可以這樣解讀安德森的話,“如果高中球賽和流感疫情同時出現(xiàn)在搜索結果中,二者會關聯(lián)在一起的原因并不重要”。
但這當然很重要,因為這種沒有數(shù)學建模的簡單關聯(lián)明顯不堪一擊。所以如果我們不清楚建立關聯(lián)的邏輯,那么這種關聯(lián)遲早會出問題。
我書架上最顯眼的位置放了兩本很棒的書,講述的是我們對大數(shù)據(jù)的看法在短短幾年內(nèi)是如何演變的。
一本是2013年出版的《大數(shù)據(jù)時代》,作者是肯恩·庫克爾和維克托·邁耶·舍恩貝格。書中舉了許多例子,像物美價廉的傳感器、大數(shù)據(jù)集和模式識別算法,正如這本書的副標題所示,“大數(shù)據(jù)改變了我們的生活、工作和思維方式”。你猜作者在書中用的什么例子開篇?就是那個谷歌流感趨勢預測。不過兩位作者沒料到的是,這本書付印之后,谷歌算法就徹底失靈了。
《大數(shù)據(jù)時代》出版三年后,凱西·奧尼爾的《算法霸權:數(shù)學殺傷性武器的威脅與不公》于2016年問世。你可能也猜到了,作者對大數(shù)據(jù)非常不看好,書的副標題告訴我們大數(shù)據(jù)“加劇不平等,威脅民主”。
兩本書看大數(shù)據(jù)的視角不同:庫克爾和舍恩貝格的視角是數(shù)據(jù)時代人怎么利用數(shù)據(jù);奧尼爾的視角是數(shù)據(jù)時代人怎么被數(shù)據(jù)利用。視角不同,看法不同。這就好像一把榔頭,對木匠來說,它是個有用的工具;但對釘子來說,它就是敵人。
兩本書的不同觀點正好也反映了2013年~2016年人們對大數(shù)據(jù)看法的轉變。2013年,了解大數(shù)據(jù)的人還比較少,人們常常把自己想象成木匠,覺得可以利用大數(shù)據(jù),大有可為。到2016年,許多人意識到自己就是顆釘子,逃不出大數(shù)據(jù)的掌控。大數(shù)據(jù)從備受推崇的劃時代技術變成被人詛咒的技術災星,有些人甚至為此在報紙上大聲疾呼(比如美國有線電視新聞網(wǎng)上的一篇報道——“算法有種族主義”)。大數(shù)據(jù)還掀起了一場政治上的軒然大波。劍橋分析公司是一家和特朗普競選團隊有瓜葛的咨詢公司,它被指控利用臉書在用戶隱私規(guī)則方面的漏洞,在用戶不知情或未授權的情況下,竊取了大約5,000萬人的信息,并向他們精準投放拉票廣告。大吃一驚的評論員甚至懷疑就是這些精準投放的拉票廣告送唐納德·特朗普坐上了總統(tǒng)的寶座,盡管事后經(jīng)過冷靜分析,人們認定劍橋分析公司的能力還沒有達到精神控制的水平。
我們每個人都在網(wǎng)上留下了點點滴滴的數(shù)據(jù),而這些數(shù)據(jù)被悄悄地收集起來,匯成數(shù)據(jù)的海洋,這樣算法和大數(shù)據(jù)編織成了我們生活的天羅地網(wǎng),從匹配對象到法律援助,它們似乎都可以幫到我們。所以,我們需要了解這都是些什么樣的數(shù)據(jù),以及我們該怎么利用它們。我們到底應該喜歡大數(shù)據(jù)還是害怕大數(shù)據(jù)?我們想當個木匠,但會不會無意中成了釘子的角色?
答案是,這都取決于我們自身,我希望能告訴你怎么才能讓大數(shù)據(jù)為人所用。
2012年,人們還堅定地認為大數(shù)據(jù)給我們提供了無限遐想。記者查爾斯·杜希格敏銳地捕捉到這個跡象,他在《紐約時報》上發(fā)表了一個發(fā)生在美國塔吉特百貨公司的故事,為大數(shù)據(jù)時代的到來拉開了序幕。
在杜希格的報道中,他說塔吉特公司收集了客戶的大量數(shù)據(jù),而且會認真分析這些數(shù)據(jù),所以顯得這家公司特別能洞悉客戶需求。這個讓人印象深刻的故事是這樣開始的:一名男子沖進明尼阿波利斯附近的一家塔吉特公司,向經(jīng)理大發(fā)雷霆,問該公司給他十幾歲的女兒郵寄了婦嬰用品優(yōu)惠券是什么意思。經(jīng)理忙不迭地道歉,后來又專程打電話再次道歉,結果卻被告知女孩真的懷孕了。她父親當時不知情。
其實塔吉特在分析了她購買無味濕巾和維生素補充劑等數(shù)據(jù)后,就已經(jīng)洞悉這個事實。
統(tǒng)計真的這么神奇嗎?數(shù)據(jù)專家和統(tǒng)計學家聽了這個故事,眼皮都不抬,他們認為不用對此大驚小怪,這太稀松平常了。
首先,讓我們想一想,根據(jù)一個人在商場買的東西來推測她是否懷孕是不是件很難的事:應該不太難。請參考國家衛(wèi)生局關于維生素補充劑葉酸的建議:建議所有準備生育的女性在備孕期間和懷孕前12周每天補充400微克葉酸。如果你在懷孕前沒有服用葉酸補充劑,發(fā)現(xiàn)自己懷孕后請馬上開始服用。確保你攝入適量葉酸的唯一方法就是服用補充劑。
看到了嗎?有這個常識的人,如果聽說有個女人開始購買葉酸,除了她可能懷孕了,你還能聯(lián)想到什么?這很好猜出來,不需要大數(shù)據(jù)告訴你。所以大數(shù)據(jù)沒那么神。
杜希格關于塔吉特算法的故事以另一種方式讓我們認識到我們高估了計算機的數(shù)據(jù)分析能力。
數(shù)據(jù)學家馮啟思多年來就是為商超和廣告公司開發(fā)類似算法的專家,他說:“這個故事其實反映了一個似是而非的問題?!彼囊馑际怯行]懷孕的女性也收到了母嬰優(yōu)惠券,只是我們不知道而已。我們不能天真地認為塔吉特的電腦有讀心術,還需要想一想他們天女散花般地發(fā)優(yōu)惠券,射擊目標錯誤的太多了。
其實購買葉酸不一定懷孕:這個女人可能因為別的原因需要服用葉酸,或者她可能在替別人買,或者她可能懷孕了但孩子沒保?。ㄟ@樣的話她在看到母嬰優(yōu)惠券時該有多難過),或者她想懷孕,但沒懷上。你覺得塔吉特的算法能神機妙算到把這些例外都剔除掉的地步嗎?這是不可能的。
在查爾斯·杜希格的故事中,塔吉特商場提供的母嬰優(yōu)惠券里其實還混有其他商品的優(yōu)惠券,比如酒杯優(yōu)惠券。如果真有孕婦想喝酒,當意識到商場電腦連這個都能算出來,她們會不會感到害怕?但馮啟思是這樣解釋的:塔吉特給顧客寄某種優(yōu)惠券的同時還附帶上其他商品的優(yōu)惠券,不是因為給孕婦只寄一些母嬰優(yōu)惠券會顯得突兀,而是因為公司知道,收到母嬰優(yōu)惠券的未必都是孕婦。
所以,當時那個接待女孩父親的經(jīng)理應該這樣說:“您不用擔心,我們的很多顧客都會收到那樣的優(yōu)惠券,不是只針對您的孩子?!彼麤]那樣說,是因為他和我們普通人一樣,都不知道商場算法是怎么算的。
情況很有可能是這樣的:通過顧客購買的商品,懷孕的顧客很容易被甄別出來,因此塔吉特的大數(shù)據(jù)肯定比盲猜的準確率要高一些。然而,毫無疑問,它肯定不是百發(fā)百中。孕婦大概率出現(xiàn)在15~45歲的女性中,如果讓你盲猜誰是孕婦,你也有大約5%的命中率。如果塔吉特算法能把命中率提高到10%或15%,那也很值。因為即使某商品的優(yōu)惠券投放精準度提高一點,也有助于提高商場的利潤,但商場絕不應該為了利潤率去深挖顧客的隱私。
因此,有必要給這些炒作降降溫,不要認為劍橋分析公司已經(jīng)掌握了人的思想,然后以為機器統(tǒng)治世界的時代來了;也不要昏了頭,認為大數(shù)據(jù)輕松取代煩瑣的老式統(tǒng)計方法(如疾控中心對流感的調查)就萬事大吉了。
當我第一次與大數(shù)據(jù)打交道時,我給劍橋大學教授大衛(wèi)·史匹格哈特爵士打了個電話——他是英國頂尖的統(tǒng)計學家之一,也是一位杰出的統(tǒng)計知識傳播者。電話里,我總結了那些看好大數(shù)據(jù)的人的觀點:不可思議的準確性;全數(shù)據(jù)覆蓋把抽樣統(tǒng)計比了下去;建??梢話仐壛耍驗椤皵?shù)據(jù)自然會呈現(xiàn)一定的規(guī)律”。
他覺得沒有必要用專業(yè)術語來表述以顯得高大上。他說,那些說法都是胡扯,沒一句對的。要讓大數(shù)據(jù)發(fā)揮作用,說起來容易做起來難。200年來,統(tǒng)計學家們一直都很警惕,當我們試圖通過數(shù)據(jù)來了解世界時,數(shù)據(jù)會給我們設什么樣的誤區(qū)。如今數(shù)據(jù)更大、更快、更易得,我們不要以為誤區(qū)消失了。不,它們一直都在。
史匹格哈特說:“小的數(shù)據(jù)問題在大數(shù)據(jù)中比比皆是。并不是數(shù)據(jù)多就不會出問題,有時數(shù)據(jù)多了,問題更大?!?/p>
像查爾斯·杜希格寫的塔吉特商場精準投放母嬰優(yōu)惠券那個故事,讀者信了也就算了。但要是當權者也被他們不懂的算法嚇到,并依靠這些算法做關系民生的重大決定,那就麻煩大了。
凱西·奧尼爾在《算法霸權:數(shù)學殺傷性武器的威脅與不公》一書中列舉的最典型的例子之一是華盛頓特區(qū)用來評估教師教學質量的算法IMPACT。書中是這樣描繪的:該市各個學校中,許多受學生愛戴的教師因為在系統(tǒng)上打分很低,突然被解雇了。
IMPACT算法聲稱衡量的是教學質量,也就是以考試成績?yōu)闇剩瑱z查每個教師在班上帶的學生是進步了還是倒退了。其實,衡量教學質量很難,有時學生成績高低與老師無關,原因有二。第一,不管老師教得如何,學生的成績都會因人而異。所以一個班30個學生里,肯定有一些是算法應該排除的干擾項。又或者,如果有那么幾個孩子,在開學考試中,運氣好,蒙對不少答案,得到了高分,到了期末考試,運氣差,得分低了,就把老師坑了,因為這樣老師排名就會降低。所以,這種排名有運氣的成分在里面。還有一種情況,孩子的學習還受其他因素影響,這些因素也是老師不可控的。譬如,孩子生病了,或在學校里被人欺負了,或者家里爸爸媽媽因故被監(jiān)禁了,等等。這與學生運氣好、蒙對題得高分不同,這是由某些具體原因導致的,可能是造成學生成績下降的真正原因。所以,在評估老師的教育質量時,將這些課堂外的因素也考慮進來才是有意義的評估,而不分青紅皂白地把學生成績下滑都歸咎于老師,這種做法不僅愚蠢,而且不公平。
IMPACT算法不公平的第二個原因是,不想公平競爭的老師也可以用算法作弊,這樣就是老實人吃虧。譬如,六年級的老師在改卷時,如果故意給他的學生放水,那么他會得到嘉獎,但接班的七年級老師下一年就慘了,因為她的新班將都是些高分的孩子,除非她也找到作弊的方法,否則這些孩子的高分已經(jīng)沒有進步的空間了。
因此,奧尼爾的觀點是可信的,即如果數(shù)據(jù)里干擾項太多,我們不能指望算法可以公平地評估教師的教學質量。如果強行這么做,自然會出現(xiàn)算法結果和學生口碑結果不符的現(xiàn)象。但有什么用呢?華盛頓特區(qū)的教育局還是我行我素,2011年還是開除了206名未達到算法標準的教師。
到現(xiàn)在為止,我們講的問題主要是我們過于相信算法的結果了。其實還有一個相關的問題:我們也過于相信數(shù)據(jù)集的質量或完整性了。
谷歌流感趨勢預測記錄了谷歌上的每一個流感相關的搜索,但不是每個得流感的人都會在谷歌搜索。預測的準確性取決于流感患者“一定會上谷歌查流感知識”,但這是不可控的。
數(shù)據(jù)集因偏差導致統(tǒng)計失靈的問題很容易失察。2014年,世界上市值最高的公司之一亞馬遜開始用算法篩選簡歷,希望電腦對比以往錄取者的相似性,從大數(shù)據(jù)中找到模式,挑選出最適合的求職者。實際上,亞馬遜以前錄取的絕大多數(shù)是男性,可是算法不會意識到這個問題,它只會按程序來——找出模式并運行。所以算法找到的模式就是既然過去錄取的大多數(shù)是男性,那就優(yōu)先考慮男性吧。亞馬遜在2018年棄用了該算法。
還記得“算法有種族主義”的標題嗎?算法不會種族歧視,也不會厭惡女性,或仇視同性戀,或有其他偏見。倒是人會有這些偏見和歧視。人類現(xiàn)在正努力消除這些偏見,但如果電腦還在用那些含有偏見的舊數(shù)據(jù),這些偏見就會借尸還魂。
我希望我前面的例子已經(jīng)說服了你,就是我們不應該急于把我們的決定權托付給算法。但我也不希望矯枉過正,完全拒絕算法,因為我們現(xiàn)在還沒有找到可靠的替代方案來做決定。我們必須在算法和人類之間選擇,人會有偏見,會疲勞,會受到干擾,會力不從心,會受很多主觀因素的影響,這是人類的特性。
20世紀50年代,心理學家保羅·米爾做了一個實驗:電腦依據(jù)以往的數(shù)據(jù)統(tǒng)計,給人看病,看它的診斷準確率能否超過有經(jīng)驗的醫(yī)生。例如,一個病人到醫(yī)院時主訴胸痛,那這是消化不良還是心臟病引起的?電腦問診程序是這樣的:胸痛是主要癥狀嗎?有心臟病史嗎?以前用過硝酸甘油來緩解胸痛嗎?心電圖有異常嗎?米爾將有經(jīng)驗醫(yī)生的診斷結果和電腦這種簡單的層層排除法結果進行了比較。結果令人不安,電腦診斷得更準確。這不是唯一的例子,米爾發(fā)現(xiàn),與電腦的層層排除法相比,醫(yī)生們在大多數(shù)情況下,判斷得都不如電腦準確。
所以,看問題要公平,我們可以比較一下,同樣的情況下,現(xiàn)在的算法和人做出決定,哪個錯誤率更高。我們就以漢娜·弗萊的《你好,世界:在機器時代如何成為人類》一書中的一個例子開始。
故事發(fā)生在2011年倫敦騷亂期間。商店會在下午早早關門,守法的市民會趕緊回家,因為他們知道,隨著天色漸暗,趁火打劫者就會上街。在3天的騷亂中,警察逮捕了1,000多人,其中包括尼古拉斯·羅賓遜和理查德·約翰遜。在混亂中,羅賓遜順手從倫敦一家被敲碎玻璃的超市里拿了一包瓶裝礦泉水。而約翰遜開車去了一家游戲店,蒙了塊頭巾,跑進去抱了一大堆電腦游戲機出來。約翰遜盜竊的物品價值更高,而且是有預謀的,不是一時興起。然而,羅賓遜被判了6個月的徒刑,而約翰遜根本沒有入獄。這是法官做的奇葩裁決。
法官依據(jù)案件的一些情節(jié)做出不同判決也是常有的事,但對于這兩個人的不同處理,最有可能的原因是,羅賓遜是在騷亂發(fā)生兩周后被審的,當時大家都還神經(jīng)緊繃,政府要嚴懲騷亂分子,以起到警示作用。等幾個月后,約翰遜被審時,人們對騷亂的記憶已經(jīng)逐漸淡化,甚至都想不起來當初騷亂的起因是什么了。
但一個以數(shù)據(jù)為根據(jù)的算法會不會免除這些干擾,給出更公平的判決呢?我們無從得知,大概率會吧。有充分的證據(jù)表明,法官們的標準并不十分統(tǒng)一。有這樣一個測試,有人假設了一個案子,讓不同的法官審,看看他們的裁定是否一致。結果是:都不一樣。此外,法官甚至自己的標準都不能保證前后一致。2001年,在英國的一項研究中,被測試的法官被要求對各類不同案件做出判決。有些案件(為了掩蓋測試的真實目的,不同案件時間相隔很遠)其實是重復案件,就是把名字和不重要的細節(jié)改了。法官們毫不知情,對同一個案件,他們甚至做出了和自己之前完全不同的判決。這樣的失誤對計算機來說是不可想象的。
經(jīng)濟學家森迪爾·穆萊納坦和他的4位同事最近在美國進行了一項研究,他們分析了2008年~2013年紐約市的75萬多起案件。在一些案子中,一些被告被拘留,法官對這些被告做了不同的裁定,有些被釋放,有些被羈押,有些被允許取保候審。然后,研究人員核查了這些被告后來的犯罪情況。此后,他們利用這些案件中的其余一部分(22萬件)讓算法來裁定,看是釋放,還是羈押,或者保釋。他們用這些剩下的案例來檢驗算法相較于法官是否能做出更好的裁決。
結果是:機器再一次表現(xiàn)得更好。算法對一群被告裁定為羈押,這將犯罪率降低了近25%,因為案宗顯示,這群被告的確是釋放后馬上又犯案了。還有,算法也準確裁定了另一群人可以釋放或保釋,而這些人的確沒有再滋事端,也就是說,算法的準確率可以將拘留人員減少40%。以22萬件案件來算,意味著成千上萬宗的犯罪本來可以被提前終止,或者成千上萬的人提審前無須拘留。在這個例子里,算法的表現(xiàn)遠遠優(yōu)于法官。
法官們常犯的一個失誤是法學家卡斯·桑斯坦所說的“現(xiàn)行犯罪誤區(qū)”,也就是說,在是否允許犯罪嫌疑人取保候審時,法官們的注意力主要集中在被告目前被指控的罪行。即使被告的犯罪記錄表明他們是慣犯,但如果他們這次被指控的罪行輕微,那么法官仍把他們視為危害不大的罪犯,準予保釋;另一方面,如果一個被告當前罪行嚴重,但他的犯罪記錄不多,法官也仍視他為危險性大的罪犯,拒絕保釋。在判案時,算法會將一個案件的所有有用信息作為考慮因素,但是法官們,盡管他們訓練有素,有頭腦和經(jīng)驗,也往往會考慮不周。
考慮不周似乎是人類無法避免的。正如前文提到的尼古拉斯·羅賓遜和理查德·約翰遜的案子。我把兩個人的犯罪事實都說了,也沒有提供羅賓遜和約翰遜的其他信息?;蛟S,對你我來說,不用來龍去脈,長話短說,只要把他們兩人的犯案情況簡明扼要地說出來就好。但算法會去搜尋兩人更多的信息,并將其列為考量因素。人類可能做不到這樣。
對于重要的事,到底是相信算法,還是相信人類,許多人都有直覺的判斷。有些人對算法頂禮膜拜,有些人還是全然相信人類的智慧。事實是,有時算法會比人類做得更好,有時則不然。如果我們想釋放大數(shù)據(jù)的潛能,讓它更好地為人類服務,我們需要對具體算法具體評估。但實際操作的難度總是比我們想象的要大。
譬如這樣一個例子。警察局或社會救助機構接到某人的電話,稱有孩子處境危險,打電話者可能是孩子的鄰居、爺爺奶奶、醫(yī)生、老師,或其他擔心孩子的人。有時報的警是實情,有時是虛驚一場,有時是想象過頭,有時甚至是惡作劇。最好的情形是,警察對任何報警電話都不敢掉以輕心,他們會立即拉起警報出警。但現(xiàn)實是,警力有限,不可能每個報警都出警,所以就要考慮優(yōu)先出哪些警。這樣一來,他們對真正緊急的報警錯失率就很大了:美國官方數(shù)據(jù)顯示,2015年有1,670名兒童因父母虐待或失職而死亡。這個數(shù)字很驚人,但相較針對兒童的400萬人次報警電話,這只是個很小的比例。
那么到底哪些報警電話需要出警,哪些不用呢?許多警署和社會救助機構求助于算法來做決定。伊利諾伊州引進了這樣一種算法,叫作“Rapid Safety Feedback”(快速安全反饋,簡稱RSF)。它對每一次報警進行數(shù)據(jù)分析,和以前的案例結果進行比對,將兒童可能死亡或受到嚴重傷害的風險用百分比的形式做了預測。
預測效果很一般?!吨ゼ痈缯搲瘓蟆穲蟮勒f,該算法給369名兒童打了100%的概率,也就是說,這些兒童一定會受重傷甚至死亡。但是,我們說,即便一個家庭的環(huán)境很惡劣,如果算法預測兒童一定會死亡也過于悲觀了。這樣的算法還可能產(chǎn)生連帶的不良影響,譬如,無辜的父母被控虐童或失職,這對父母和孩子都會造成可怕的后果。
也許算法是出于謹慎,夸大了傷害的風險,目的是不遺漏任何一個可能的風險?并非如此。因為也存在一些可怕的案子,由于算法打的風險分值低,沒有出警,結果幼兒死了。所以,最后伊利諾伊州認定這項技術沒用,甚至會讓情況更糟糕,于是停止使用了。
這個故事的寓意并不是說算法不可以用來評估兒童傷害報警電話。我的意思是最后一定還是由人來做決定要不要出警。錯誤在所難免,為什么算法沒有比人工客服判斷的正確率高也無法解釋。這個故事的寓意在于,因為這個特定算法給出了明顯荒謬的數(shù)字,讓我們知道了這個算法的局限性,從而對它的正確性警覺起來。
統(tǒng)計學家安德魯·蓋爾曼解釋說:“算法給出的是數(shù)字概率,這是好事,因為這暴露了它判斷上的失誤,讓我們警惕起來。”
所以問題不在于算法,也不在于大數(shù)據(jù)集。問題是算法需要審查、有透明度和允許討論。
當錯誤的算法讓好教師丟了飯碗,將寶貴的救助服務資源導向錯誤的家庭,或者女性求職者被打分過低時,這就是大問題了,我們必須讓它們接受審查。
但是怎么做呢?
一種方法是由茱莉婭·安格溫領導的ProPublica調查記者團隊使用的。安格溫的團隊希望仔細研究一種被廣泛使用的算法,稱為COMPAS(罪犯懲戒管理分析,用于替代制裁)。COMPAS使用含有137個問題的問卷來評估罪犯再次犯罪的風險。它起作用了嗎?公平嗎?
調查困難重重。COMPAS的技術由一家叫Equivant的公司(前身為Northpointe)擁有,該公司沒有義務分享其工作原理和細節(jié)。因此,安格溫和她的調查小組不得不不辭勞苦地從佛羅里達州的布勞沃德縣警署調取資料,該州的警署很公開透明,安格溫的小組可以通過調取算法分析結果來判斷算法的公平性。
以下是“以人民的名義”調查小組如何開展工作的自述。
我們向佛羅里達州的布勞沃德縣警署申請調閱監(jiān)獄記錄并獲準。我們獲得了2013年和2014年兩年共計18,610人的COMPAS打分情況。COMPAS給每個被告出庭前打了至少三種分數(shù):“累犯風險”“暴力行為風險”和“拒不出庭風險”。每個被告的COMPAS分數(shù)是1到10之間,以10為最高風險。COMPAS將1到4分標記為“低風險”,5到7分標記為“中風險”,8到10分標記為“高風險”。從COMPAS得分數(shù)據(jù)庫開始,我們要評估的是每個被告在得分前后的表現(xiàn)和得分預判的一致性。我們又從布勞沃德縣警署辦公室網(wǎng)站下載了截至2016年4月1日本地所有的案件記錄,大約8萬宗犯案記錄,然后以姓名和出生日期為準,將我們數(shù)據(jù)中的被告和下載的犯案記錄進行比對。我們數(shù)據(jù)中的被告不在獄時間平均為622.87天(標準偏差為329.19)。
這項工作量很大的調查工作就按這樣的程序展開了。
調查結束后,他們發(fā)布了調查結果。盡管COMPAS算法沒有以違法者的種族作為預測指標,但是預測結果有明顯的差異性。算法更容易給黑人違法者打高分(預測他們會再次犯罪,但事實上他們沒有),而給白人違法者打低分(預測他們不會再次犯罪,但恰恰相反)。
這不免讓人擔憂:人類有種族歧視的劣根性,但已經(jīng)將其視為不道德也不合法的行為;如果算法也會導致這種行為,我們同樣不能容忍。
但隨后,四位專業(yè)技術人員薩姆·科貝特·戴維斯、艾瑪·皮爾森、阿維·費勒和沙拉德·戈爾指出,問題沒有那么簡單。他們利用ProPublica調查小組辛苦整理的數(shù)據(jù),通過另一個重要指標證明了算法是公平的,即如果算法給一個黑人、一個白人兩個違法者打的是相同的風險評級,而實際表現(xiàn)中,這兩個人的再次犯罪概率也的確是一樣的,從這個角度講,算法并沒有種族歧視。
此外,技術人員還指出,算法不可能同時在兩個方面對所有種族都公平,要么在錯誤率的比例上平等,要么在風險評分上平等,但不可能兩個同時兼顧:數(shù)據(jù)沒法平衡。
因此,要看這個算法打分是不是公平,唯一的方法是忽略違法者群體的年齡、性別、種族、發(fā)色、身高等差異,純粹看他們的實際行為和算法得分的匹配度。但算法如果以這種標準打分,出來的結果勢必在年齡、性別、種族、發(fā)色或身高等方面有不穩(wěn)定的表現(xiàn),就會被視為有失公允。所以,不管算法是否將以上因素考慮進去,都會顧此失彼,難以平衡,這是事實。換作法官也是如此,所以這是一個取舍的問題。
茱莉婭·德萊塞爾和漢尼·法里德都是計算機專家,他們一直關注這場COMPAS是否產(chǎn)生了有種族偏見結果的辯論。德萊塞爾對科普作家埃德·揚說:“大家在爭論COMPAS的時候,潛意識里似乎都認定這個算法比人預測得準,但我找不到任何證據(jù)證明這一點?!?/p>
由于有了ProPublica調查小組的基礎工作,德萊塞爾和法里德也可以就他們的疑惑展開調查。即使COMPAS的算法還是個秘密,但ProPublica已經(jīng)公布了足夠多的算法預測數(shù)據(jù),允許人們再調用它,用其他變量進行有意義的測試。其中之一是一個簡單的數(shù)學模型,只有兩個變量:罪犯的年齡和以前犯罪的次數(shù)。德萊塞爾和法里德發(fā)現(xiàn),雙變量模型和廣受吹捧的137個變量的COMPAS模型的準確率是一樣的。最后,他倆做了人與算法準確率對比的實驗。他們測試了一些普通人,給他們看了每個違法者的7條相關信息,讓他們預測這些違法者是否會在兩年內(nèi)再次犯罪,結果是其中一些普通人的預測平均值高于COMPAS算法。
這個結果有點讓人猝不及防。正如法里德說的,如果算法將一個違法者評為高風險者,法官可能會聽信,但如果我們告訴法官“我們在網(wǎng)上進行了20個人的采訪,他們都說這個違法者會再次犯罪”,法官不大可能會考慮我們的意見。
要求COMPAS算法的準確率高于20個來自互聯(lián)網(wǎng)隨機網(wǎng)民的判斷過分嗎?這個要求高嗎?然而COMPAS算法居然沒有達到這個水平。
既然COMPAS預測的公共數(shù)據(jù)已經(jīng)是公開的了,那么其他技術人員就可以對它進行技術解剖了,找出它的缺點也就不難了。
就像人一樣,算法也分可以相信的算法和不可輕信的算法。這與區(qū)別對待他人一樣,不要問:“我們應該相信算法嗎?”我們應該問:“我們可以信任哪些算法,我們可以把什么東西交給算法去做?”
奧諾拉·奧尼爾認為,如果算法要證明它的可信度,首先要證明“它的智能經(jīng)得起檢驗”。為此,她列了一個清單,即智能經(jīng)得起檢驗應該具備的四個屬性。首先,數(shù)據(jù)應該是可訪問的,這意味著它們不被深藏在某個秘密數(shù)據(jù)庫的深處而不能為公眾所用。其次,數(shù)據(jù)結果應該清晰易懂。再次,算法結果應該以可利用的形式呈現(xiàn),也就是說,結果應該是標準的數(shù)字格式的。最后,算法結果應該是可測評的,即任何有時間和專業(yè)知識的人想要嚴格測評算法有效性,都可以調取算法的詳細資料。
奧尼爾的原則很有道理,畢竟很多算法都事關人命,例如,是否應該釋放一個案犯,接到虐童的報警電話是否出警。所以我們應該引進外部的專家來測評算法的有效性。人類有法律保證,例如,禁止種族歧視和性別歧視,我們需要確保算法也不能出這樣的紕漏,至少在法庭上不會被找到這樣的漏洞。
《算法霸權:數(shù)學殺傷性武器的威脅與不公》的作者凱西·奧尼爾認為,數(shù)據(jù)專家應該像醫(yī)生一樣,成立一個專門的組織,來規(guī)范職業(yè)道德。至少,這可以為有問題要舉報的人提供一個去處。“這樣,當老板(比如臉書)要求我們做一些自己認為有違道德標準的事情,或者至少這種做法傷害了客戶對我們的信任,就有可以投訴之處了?!?/p>
算法與醫(yī)學實踐還有一點類似,重要的算法也應該使用隨機對照試驗進行測試。如果一個算法的程序員聲稱他的算法可以測評出老師是否應被解雇,或者犯罪嫌疑人是否應被保釋,我們的回答是“證明它”。醫(yī)學發(fā)展史告訴我們,很多理論聽起來無懈可擊,但操作起來就不是那么回事了。算法不是藥物,簡單地克隆FDA這樣的組織是行不通的;我們需要在更短的時間內(nèi)進行試驗,并從不同的角度看待知情同意(臨床試驗對于批準新藥用于人類的標準很高;我們也還不清楚能否將這些標準運用于教師或犯罪嫌疑人評估的算法上)。不過,任何對他們算法有信心的人都應該歡迎公眾的檢驗。所以,除非那些算法可以證明自己,否則我們是不能把學校和法院這樣重要機構的評估托付給算法的。
當然,不是所有的算法都值得被如此關注。讓外部專家去審核塔吉特母嬰用品優(yōu)惠券的算法,就小題大做了。需要審核哪個算法要看具體情況,對算法可信度和透明度的要求也要具體情況具體分析。
例如,我們對YouTube(油管)的視頻推薦算法和網(wǎng)飛的電影推薦算法要求就不一樣。YouTube上有大量不良視頻,其推薦引擎也因經(jīng)常推薦這些不雅或暗黑的視頻而遭人詬病。目前,是否有證據(jù)證明YouTube引擎的激進主義還是個未知數(shù),但如果沒有更多的算法透明度,就很難說清它不是這樣的。
網(wǎng)飛的問題是另一個類型的:擔心競爭。它的推薦算法是依據(jù)客戶以往觀看過哪些電影這樣巨大的秘密數(shù)據(jù)庫而搭建的,亞馬遜也有一個類似的巨型數(shù)據(jù)庫,但它們都不公開這些數(shù)據(jù)庫,這無助于算法的提高。假設我是一個很有想法的年輕企業(yè)家,想根據(jù)人們以前的觀影習慣,用一種新的算法來預測人們會喜歡哪些電影。如果沒有大數(shù)據(jù)來檢驗,我的好點子永遠無法付諸實踐。是的,亞馬遜和網(wǎng)飛的觀影推薦算法沒有什么可指責的,但是有沒有辦法強迫它們公開自己的數(shù)據(jù)庫,促成算法設計方面的競爭,最終讓消費者受益呢?
這當然涉及隱私問題。你可能認為這是一個很容易解決的問題:只需從記錄中刪除姓名,數(shù)據(jù)就成匿名的了。沒那么簡單:有了一個豐富的數(shù)據(jù)集,并通過與其他數(shù)據(jù)集進行關聯(lián),很容易就可以知道#961860384是誰了。網(wǎng)飛曾經(jīng)舉行了一個尋找更好推薦算法的競賽,為此向技術人員發(fā)布了一個匿名數(shù)據(jù)集。不幸的是,結果發(fā)現(xiàn)它的一個會員在網(wǎng)飛上發(fā)表了對一部家庭錄像的評論,但又以真實姓名將同一評論發(fā)布在互聯(lián)網(wǎng)電影數(shù)據(jù)庫網(wǎng)站(IMD)上。這樣網(wǎng)飛用戶就知道她是誰了,要命的是她的評論表明她是個女性同性戀者,這是她的死穴,也是不希望別人知道這事。
此事鬧得沸沸揚揚,她起訴網(wǎng)飛“暴露”了她的隱私,最后雙方私下和解了結了此事。
盡管公開數(shù)據(jù)庫這個問題十分棘手,但是必須找到解決方法。方法之一是允許被授權的技術人員接觸數(shù)據(jù)庫。另一種方法是發(fā)布“模糊”數(shù)據(jù),即所有單個數(shù)據(jù)都模糊處理,但不影響整個數(shù)據(jù)結構的完整性。因為不解決數(shù)據(jù)庫公開的問題,就難以保證商業(yè)上的公平競爭。像谷歌和臉書這樣的公司,因為它們擁有巨大的數(shù)據(jù)庫,從而獲得了絕對的競爭優(yōu)勢,可以輕易把小的競爭對手扼殺在萌芽狀態(tài),或者使用一個服務(如谷歌搜索)的數(shù)據(jù)來推廣另一個服務(如谷歌地圖或安卓系統(tǒng))。如果這些數(shù)據(jù)中的一部分被公開,其他公司就能夠從中學習借鑒,并提高或改善算法,以更好的服務向大公司發(fā)起挑戰(zhàn)。不僅商界人士,科學家和社會學家也可以從大數(shù)據(jù)庫中受益。一種可能的模式就是要求私人“大數(shù)據(jù)庫”在若干時間后公開,并提供適當?shù)哪涿Wo。三年前的數(shù)據(jù)對于許多商業(yè)用途來說是過時的,但對科學研究可能仍然具有巨大的價值。
這有一個先例可以借鑒一下:專利發(fā)明人必須先同意專利到期后開放其技術,才可以得到知識產(chǎn)權保護,也許對擁有大數(shù)據(jù)集的私有企業(yè)也可以用同樣的思路來要求它們公開數(shù)據(jù)庫。
大數(shù)據(jù)正在改變我們周圍的世界,如果電腦以人類不能理解的方式代替人類做決定或預判,自然會遭到排斥。我認為人類的擔心并不多余?,F(xiàn)代數(shù)據(jù)分析可以產(chǎn)生一些奇跡般的結果,但大數(shù)據(jù)往往不如小數(shù)據(jù)可信。小數(shù)據(jù)通常可以被核實,大數(shù)據(jù)往往被深藏在硅谷的地庫里。分析小數(shù)據(jù)的統(tǒng)計工具也容易檢驗,但模式識別算法則容易成為商業(yè)領域敏感的神秘黑匣子。
所以我認為我們既要抵制人們對大數(shù)據(jù)和算法的炒作,也要警惕對它們的全盤否定。涉及要緊的事情,我們應該就事論事地不停追問:底層數(shù)據(jù)是否可訪問?算法的性能是否進行了嚴格的評估?例如,通過隨機試驗,看看人們是否在沒有算法幫助的情況下做得更好。是否允許外部專家對算法進行評估?他們的結論是什么?我們絕不可以把算法和人都絕對化,認定一個怎么都比另一個好,這樣一刀切的想法才是個大大的陷阱。