盧昌海
本文是應(yīng)《科學(xué)畫報(bào)》雜志的約稿而寫的評(píng)論,所評(píng)的是美國(guó)的一份以探討技術(shù)影響力為主題的雜志《連線》(W ired)上的一篇有爭(zhēng)議的文章。
我最喜愛的作家之一是美國(guó)科幻及科普作家阿西莫夫(I.Asimov),他一生出版過約500本書——恐怕比我一生將會(huì)發(fā)表的文章數(shù)還多。我念中學(xué)時(shí)曾讀過他的很多書,其中有一本叫作《數(shù)的趣談》①,而那其中有篇文章叫做 “忘掉它!”(Forget It!),我到現(xiàn)在還沒忘掉。
阿西莫夫在那篇文章的開頭引用了一本生物教科書的前言片斷,大意是說我們的科學(xué)知識(shí)每隔一代就會(huì)增加五倍,以生物學(xué)為例,2000年的知識(shí)將是1900年的100倍。這段話讓阿西莫夫深感不安,甚至感到“世界好像在我身邊崩潰了”。為什么呢?因?yàn)樵诎⑽髂蚩磥?,像他這樣快速寫作的科普作家,幾乎是在職業(yè)性地追逐著科學(xué)的發(fā)展,可在一個(gè)信息爆炸的時(shí)代里,他有可能追得上形勢(shì)嗎?
阿西莫夫在那篇文章中為自己的問題找到了答案。不過,我們先不去看他的答案。阿西莫夫那篇文章發(fā)表于1964年,在那之前的1961年,“信息爆炸”(information explosion)這一用語(yǔ)首次出現(xiàn)在了IBM公司的一則廣告中。自那以后,信息爆炸一直撥動(dòng)著人們的心弦。也許很多人都>會(huì)產(chǎn)生與阿西莫夫同樣的擔(dān)憂:在一個(gè)信息爆炸的時(shí)代里,我有可能追得上形勢(shì)嗎?
如果我們把阿西莫夫時(shí)代的信息爆炸比作常規(guī)爆炸,那么由互聯(lián)網(wǎng)及信息數(shù)字化所帶來的當(dāng)代信息爆炸恐怕就是核爆炸了。因?yàn)槌R?guī)的信息爆炸只是書本知識(shí)的爆炸,而能在書本上占據(jù)一席之地的人畢竟是不多的。但互聯(lián)網(wǎng)時(shí)代幾乎讓每個(gè)人都擁有了發(fā)布信息的能力,由此帶來的信息爆炸無疑要驚人得多。據(jù)一家美國(guó)研究機(jī)構(gòu)統(tǒng)計(jì)②,截至2007年,人類擁有的數(shù)字化信息(文字和音像都算在內(nèi))約有225000億億比特 (2.25×1021bits),約合15000億億個(gè)漢字,而且這一數(shù)字幾乎每隔5年就增加一個(gè)數(shù)量級(jí)。在這些信息中,約百分之七十是個(gè)人創(chuàng)造的。以時(shí)下最流行的博客來說,其數(shù)量在過去幾年里幾乎每6個(gè)月就翻一番。到2008年底,僅中國(guó)網(wǎng)民開設(shè)博客者就超過了1.6億人③。
信息爆炸——尤其是互聯(lián)網(wǎng)上的信息爆炸——帶來了一系列深刻的社會(huì)變化,也使越來越多的人對(duì)信息爆炸的前景進(jìn)行著思考。不過與阿西莫夫當(dāng)年那種憂慮性的思考不同,當(dāng)代的思考者中有很多人全心地?fù)肀е@個(gè)信息爆炸的新時(shí)代,且對(duì)其前景作出了與前人截然不同的設(shè)想。2008年6月,美國(guó)的一位技術(shù)雜志主編發(fā)表了一篇標(biāo)新立異的文章,題目為“理論的終結(jié):數(shù)據(jù)洪流讓科學(xué)方法過時(shí)”(The End of Theory:The Data Deluge Makes the Scientific Method Obsolete)。
這份雜志名為《連線》(W ired),是一份以探討技術(shù)影響力為主題的雜志,創(chuàng)刊于1993年,訂閱人數(shù)約在50萬到100萬之間。而撰寫那篇文章的主編名叫安德森(Chris Anderson),是一位經(jīng)驗(yàn)豐富的傳媒人士,曾在《自然》(Nature)、《科學(xué)》(Science)及《經(jīng)濟(jì)學(xué)家》(The Econom ist)等著名刊物任職。安德森擔(dān)任主編期間,《連線》雜志曾多次獲獎(jiǎng),而安德森本人也在2005年獲得過一項(xiàng)年度最佳主編獎(jiǎng)。
安德森這篇文章的觀點(diǎn)標(biāo)新立異不說,就連標(biāo)題也相當(dāng)聳人聽聞,不僅預(yù)言科學(xué)理論將會(huì)終結(jié),而且宣稱科學(xué)方法將會(huì)過時(shí)。他的這一奇異想法從何而來呢?我們來簡(jiǎn)單介紹一下他那篇文章的思路。安德森的文章以著名統(tǒng)計(jì)學(xué)家博克斯(George Box)的一句引文作為開篇,那句引文是:“所有模型都是錯(cuò)誤的,但有些是有用的?!卑驳律岢?,雖然人們長(zhǎng)期以來一直在用模型——比如宇宙學(xué)模型——來解釋現(xiàn)象,但最近這些年里,像谷歌(Google)這樣扎根于信息時(shí)代最前沿的公司已經(jīng)采用了新的思路。
安德森舉了谷歌翻譯及谷歌廣告作為例子。我們知道,常規(guī)的機(jī)器翻譯是通過一系列靜態(tài)的規(guī)則,比如字典及語(yǔ)法規(guī)則,來把握文章的內(nèi)容。但谷歌翻譯另辟蹊徑,借助數(shù)以億計(jì)來自不同語(yǔ)言的語(yǔ)句之間的統(tǒng)計(jì)關(guān)聯(lián)來做翻譯。這種翻譯的最大特點(diǎn)是無需知道被翻譯文字的含義,而只關(guān)心兩種語(yǔ)言之間的統(tǒng)計(jì)關(guān)聯(lián)。類似地,使谷歌獲得巨大利潤(rùn)的谷歌廣告——那些當(dāng)你搜索東西時(shí)出現(xiàn)在結(jié)果右側(cè)的小廣告——也是建立在統(tǒng)計(jì)關(guān)聯(lián)之上的。谷歌既不在乎你搜索的東西的含義,也不關(guān)心它所顯示的廣告是什么,它之所以列出那些廣告,完全是因?yàn)榻y(tǒng)計(jì)關(guān)聯(lián)表明它們與你搜索的東西有關(guān)。
谷歌這種全面依賴統(tǒng)計(jì)分析的新思路幾乎體現(xiàn)在它的所有產(chǎn)品之中。據(jù)說谷歌的研究主管諾維格(Peter Norvig)曾在2008年3月的一次技術(shù)會(huì)議上,將安德森文章開頭所引的博克斯的話改成了“所有模型都是錯(cuò)誤的,沒有它們你也能日益成功”。谷歌這種新思路給了安德森很大的啟發(fā)。他做出了一個(gè)大膽的預(yù)測(cè):谷歌的新思路不僅適用于商業(yè),而且會(huì)越來越多地滲透到科學(xué)上,并如他文章標(biāo)題所說的那樣,最終取代現(xiàn)有的科學(xué)方法。在他看來,科學(xué)才是這種新思路的“大目標(biāo)”(big target)。
我們知道,科學(xué)研究的常規(guī)模式是從實(shí)驗(yàn)數(shù)據(jù)或觀測(cè)數(shù)據(jù)中提出假設(shè)、模型或理論,然后用新的實(shí)驗(yàn)或觀測(cè)來檢驗(yàn)它們。安德森認(rèn)為這種模式在信息時(shí)代的數(shù)據(jù)洪流中將會(huì)過時(shí),今后人們只需像谷歌那樣直接從大量數(shù)據(jù)的統(tǒng)計(jì)關(guān)聯(lián)中得出結(jié)論就行了。用他的話說:“關(guān)聯(lián)就已足夠,我們可以停止尋找模型。”按照安德森的設(shè)想,我們只需將大量數(shù)據(jù)扔進(jìn)巨型計(jì)算機(jī),讓它運(yùn)用統(tǒng)計(jì)算法去發(fā)現(xiàn)那些科學(xué)所無法發(fā)現(xiàn)的關(guān)聯(lián)。那些關(guān)聯(lián)將取代因果關(guān)系,科學(xué)將擺脫模型和理論而繼續(xù)前進(jìn)。
如果安德森的設(shè)想成為現(xiàn)實(shí),那么不僅今天的科學(xué)方法將成為歷史,甚至連科學(xué)家——起碼是理論科學(xué)家——這個(gè)職業(yè)也很可能會(huì)不復(fù)存在,因?yàn)槲覀兯枰膶⒅皇悄芙ㄔ旌途S護(hù)計(jì)算機(jī)的技術(shù)人員,以及懂得統(tǒng)計(jì)學(xué)原理的編程人員,我們將再也不需要理論。這樣的前景對(duì)科學(xué)家來說無疑是陌生的,但安德森認(rèn)為這是信息時(shí)代帶給我們的一種認(rèn)識(shí)世界的全新方法,它展示了巨大的機(jī)會(huì),科學(xué)家們不應(yīng)墨守傳統(tǒng)的科學(xué)方法,而應(yīng)該自問:科學(xué)能從谷歌中學(xué)到什么?
安德森對(duì)科學(xué)理論及科學(xué)方法的全面唱衰所帶來的爭(zhēng)議性是顯而易見的。他的文章一經(jīng)發(fā)表,立刻遭到了很多人的批評(píng),有人甚至遷怒于《連線》雜志(誰讓安德森是主編呢?)。比如卡內(nèi)基梅隆大學(xué)(Carnegie Mellow University)的一位助理教授在看過安德森的文章后,把自己前不久接受《連線》雜志的采訪稱為是一個(gè)錯(cuò)誤,而且是在試圖打發(fā)“等候室時(shí)間”(waitingroom time)時(shí)所犯的錯(cuò)誤,言下之意,哪怕是在等候室里無所事事的時(shí)候,也不值得為《連線》雜志浪費(fèi)時(shí)間。有意思的是,這位助理教授原本是物理學(xué)博士,目前則在統(tǒng)計(jì)系工作,如果安德森的觀點(diǎn)能夠成立,他的前景倒是蠻光明的。
當(dāng)然,對(duì)更多的人來說,安德森的觀點(diǎn)不過是一家之說,贊成也好,反對(duì)也罷,都可以平心靜氣地進(jìn)行分析。我們感興趣的問題是:安德森的觀點(diǎn)到底能不能成立?或者最低限度說,它有道理嗎?在本文接下來的篇幅里,我們就來稍稍分析一下。如我們?cè)谇懊嫠榻B,安德森的立論在很大程度上借鑒了谷歌翻譯及谷歌廣告的思路,從某種意義上講,他將這些谷歌技術(shù)當(dāng)成了未來科學(xué)方法的范例。既然如此,就讓我們先以谷歌翻譯為例考察一下,看看它是否有可能承載安德森賦予它們的重任。
常言道:是騾子是馬,拉出來遛遛??疾旃雀璺g的最佳辦法當(dāng)然是檢驗(yàn)它的翻譯效果。我們隨便舉幾個(gè)例子。其中最簡(jiǎn)單的例子是翻譯安德森這篇文章的標(biāo)題“理論的終結(jié):數(shù)據(jù)洪流讓科學(xué)方法過時(shí)”,谷歌翻譯給出的結(jié)果是“理論的終結(jié):數(shù)據(jù)洪水滔天使廢棄的科學(xué)方法”。這個(gè)例子雖然簡(jiǎn)單,卻很清楚地體現(xiàn)了谷歌翻譯的特點(diǎn)及缺陷。如我們?cè)谏衔闹兴f,谷歌翻譯的特點(diǎn)是以統(tǒng)計(jì)關(guān)聯(lián)而非語(yǔ)法為基礎(chǔ),上述譯文的不通順很清楚地顯示了這一特點(diǎn)帶來的缺陷。
谷歌翻譯的這種缺陷在更長(zhǎng)的句子中顯得更為清楚,比如牛頓(Isaac New ton)的那段名言:
我不知道我在別人眼里是怎樣的,但對(duì)我自己來說我只不過像是一個(gè)在海邊玩耍的男孩,因?yàn)闀r(shí)不時(shí)地找到一塊比通常更光滑的卵石或更漂亮的貝殼而興奮,卻全然沒有發(fā)現(xiàn)展現(xiàn)在我面前的偉大的真理海洋。
用谷歌翻譯的結(jié)果是④:
我不知道我可能會(huì)出現(xiàn)的世界,而是為了自己,我似乎已經(jīng)不僅就像一個(gè)男孩玩海上岸上,和挪用自己現(xiàn)在然后找到平滑卵石或比普通漂亮外殼,而大洋的真相躺在我面前的所有未被發(fā)現(xiàn)。
要看懂這種比繞口令還拗口的翻譯是需要毅力的。谷歌翻譯能作為未來科學(xué)方法的范例嗎?答案應(yīng)該是不言而喻的。
安德森所舉的谷歌技術(shù)的另一個(gè)例子,即谷歌廣告,也具有非常顯著的缺陷,事實(shí)上,利用谷歌廣告乃至整個(gè)谷歌系統(tǒng)的缺陷來提升自己網(wǎng)站的廣告效果早已是互聯(lián)網(wǎng)上公開的秘密。谷歌技術(shù)當(dāng)然不無優(yōu)越之處,比如它具有所謂的統(tǒng)計(jì)學(xué)習(xí)(statistical learning)功能(細(xì)心的網(wǎng)民會(huì)注意到,不同時(shí)候用谷歌做同樣的事情得到的結(jié)果通常會(huì)有一定的差異),但這種純粹建立在統(tǒng)計(jì)關(guān)聯(lián)之上的結(jié)果具有無可避免的模糊性,這種模糊性雖不足以妨礙商業(yè)上的成功,但它與科學(xué)理論之間的差距是巨大的,并且是本質(zhì)性的。
如果我們稍稍深入地思考一下,就會(huì)發(fā)現(xiàn)谷歌的思路人們?cè)谄渌鼒?chǎng)合也曾用過。舉個(gè)例子來說,密碼學(xué)中有一種簡(jiǎn)單的密碼叫做置換密碼(substitution cipher),它是通過對(duì)字母或其它文字單元進(jìn)行置換來達(dá)到加密的目的。破譯這種密碼的主要途徑就是統(tǒng)計(jì)分析。比如在英文中字母e是出現(xiàn)頻率最高的,如我們截獲了一份經(jīng)過字母置換加密的文件,我們就可以對(duì)文件中各符號(hào)的使用頻率進(jìn)行統(tǒng)計(jì),其中使用頻率最高的符號(hào)就很可能代表字母e。對(duì)其他字母也可如法炮制,這種方法類似于谷歌翻譯。但密碼學(xué)上的經(jīng)驗(yàn)告訴我們,單純使用統(tǒng)計(jì)方法是很難完全破譯一份密碼的,通常你會(huì)碰對(duì)一些字母或文字單元,就象谷歌翻譯會(huì)碰對(duì)一些單詞一樣,但完整的破譯往往需要輔以更仔細(xì)的分析和微調(diào)。更重要的是,這種方法只能破譯像置換密碼那樣初級(jí)的密碼,對(duì)于更復(fù)雜的密碼則完全無濟(jì)于事。
科學(xué)家們對(duì)自然規(guī)律的研究在一定程度上好比是在破譯大自然的密碼,但這種密碼顯然不像置換密碼那樣簡(jiǎn)單,因而絕不可能通過單純的統(tǒng)計(jì)分析來破譯。積累足夠多有關(guān)行星運(yùn)動(dòng)的數(shù)據(jù),我們也許能發(fā)現(xiàn)開普勒定律,但無論積累多少數(shù)據(jù),我們也不可能依靠單純的統(tǒng)計(jì)分析得到象愛因斯坦的廣義相對(duì)論那樣的理論。事實(shí)上,單純的統(tǒng)計(jì)分析至多能夠知其然,卻無法知其所以然,它甚至不能告訴我們行星的運(yùn)動(dòng)是不是因?yàn)橐粋€(gè)看不見的精靈在推動(dòng)??茖W(xué)是一項(xiàng)需要高度創(chuàng)造力的工作,科學(xué)上的很多成果,僅憑實(shí)驗(yàn)數(shù)據(jù)、發(fā)達(dá)的計(jì)算機(jī)和統(tǒng)計(jì)分析是永遠(yuǎn)也得不到的,這就好比用破譯置換密碼的方法永遠(yuǎn)也破譯不了更高級(jí)的密碼。
谷歌新思路的另一個(gè)問題,是不可避免地受到大量無效信息的干擾。這一點(diǎn)想必每位網(wǎng)民都有自己的切身體會(huì),互聯(lián)網(wǎng)既是信息庫(kù),也是垃圾場(chǎng),數(shù)據(jù)洪流必然攜帶泥沙。怎么辦呢?讓我們回過頭來看看本文開頭提到過的阿西莫夫?yàn)樽约簩?duì)信息時(shí)代的擔(dān)憂找到的答案。那答案就是他那篇文章的標(biāo)題:忘掉它!忘掉什么呢?忘掉那些無效信息。這位智商高達(dá)160的著名作家認(rèn)為,只要我們能足夠有效地忘掉所有的無效信息,信息爆炸就遠(yuǎn)沒有人們想象的那樣可怕。
如果數(shù)據(jù)洪流真的如安德森設(shè)想的那樣成為未來科學(xué)研究的主戰(zhàn)場(chǎng),那么對(duì)未來的研究者來說至關(guān)重要的一點(diǎn)就是阿西莫夫所說的忘掉無效信息,或者說去除數(shù)據(jù)洪流中的泥沙。要想做到這一點(diǎn),首先要能識(shí)別無效信息,而這種識(shí)別離不開模型或理論,甚至它本身就有可能是一種模型或理論。如果未來的科學(xué)研究真的摒棄了模型或理論,而只關(guān)心數(shù)據(jù)之間的關(guān)聯(lián),那它在泥沙俱下的數(shù)據(jù)洪流中不僅會(huì)遇到谷歌翻譯與谷歌廣告已經(jīng)遇到過的問題,甚至還可能產(chǎn)生出一些荒謬的結(jié)果,比如像很多偽科學(xué)人士所熱衷的那樣把金字塔的高度(曾經(jīng)為147米)與日地距離(1.49億公里)聯(lián)系起來,把金字塔的底邊周長(zhǎng)(36560英寸)與一年的天數(shù)(365.2)聯(lián)系在一起。這種純粹的數(shù)值巧合在科學(xué)研究單純依賴于數(shù)據(jù)分析的情形下將能夠輕易地登堂入室,混淆于科學(xué)成果之中。
我們?cè)?jīng)提到,安德森在文章開頭引用了博克斯的話:“所有模型都是錯(cuò)誤的,但有些是有用的”,他引用這句話顯然是要為自己的觀點(diǎn)作注解??上麖埞诶畲髁耍┛怂故且晃唤y(tǒng)計(jì)學(xué)家,他所說的模型并非泛指科學(xué)理論或科學(xué)模型,而是特指統(tǒng)計(jì)模型。因此博克斯的話與其說是能為安德森的觀點(diǎn)作注解,不如說恰恰是拆了他的臺(tái)。
不過另一方面,統(tǒng)計(jì)分析雖絕不可能如安德森預(yù)言的那樣成為一統(tǒng)天下的科學(xué)方法,但它作為科學(xué)方法的一種,在過去、現(xiàn)在及將來都將發(fā)揮積極的作用,這一點(diǎn)任何人也不會(huì)否認(rèn)。正如博克斯的后半句話所說的:有些模型是有用的。在數(shù)據(jù)總量空前膨脹的信息時(shí)代,統(tǒng)計(jì)分析的作用有可能得到局部的加強(qiáng);在某些理論性不很強(qiáng)的領(lǐng)域中,它甚至有可能成為主要方法,從這些意義上講,安德森的觀點(diǎn)雖失之偏頗,卻并非完全脫靶。不過我們可以肯定的是,面對(duì)滾滾而來的數(shù)字洪流,科學(xué)方法絕不是即將被沖離視野的竹筏,相反,它是幫助我們?cè)诤榱髦斜婷鞣较?,?/p>
讀寫新空間 鑒賞指南清未來的燈塔。
[注]①該書的英文名是《Asimov on Numbers》,確切譯名應(yīng)該是《阿西莫夫論數(shù)》,它匯集了阿西莫夫?yàn)?/p>
《The Magzine of Fantasy and Science Fiction》撰寫的17篇科學(xué)專欄文章。
②這家公司是InternationalData Corporation(IDC),該統(tǒng)計(jì)報(bào)告發(fā)布于2008年3月,標(biāo)題為“TheDiverse and Exploding Digital Universe”。
③該數(shù)據(jù)來自中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2009年初發(fā)布的第23次互聯(lián)網(wǎng)報(bào)告。
④這段話的英文是:“Idonotknow what Imay appear to theworld,but to myself Iseem to have been only like a boy playing on the sea-shore,and divertingmyselfin now and then finding a smoother pebble or a prettier shell than ordinary,whilst the great ocean of truth lay all undiscovered beforeme.”。需要提醒讀者的是,不同時(shí)候使用谷歌翻譯得到的結(jié)果會(huì)有一定的差異,本文引述的是作者寫作本文之時(shí)使用谷歌翻譯得到的結(jié)果。