陳婧
這是一個好玩到停不下來的搜索引擎。
Ngram Viewer是Google Labs和哈佛大學(xué)學(xué)者共同開發(fā)的成果,只要用這個工具進行搜索,就可以發(fā)現(xiàn)從公元1500年到現(xiàn)在的500多年里,社會的熱點如何不停地切換。谷歌在2004法蘭克福書展上開始啟動谷歌圖書館計劃,試圖掃描自現(xiàn)代印刷術(shù)發(fā)明以來全世界所有的印刷書籍。在此基礎(chǔ)上,通過OCR識別,建成了世界上最大的電子書數(shù)據(jù)庫。谷歌圖書館計劃與Google's Partner Program 共同組建成廣為人知的 Google Books。
至 2015年10月,這個項目已掃描超過2500萬本書,占人類歷史上所有出版書目總數(shù)的19.2%。Google 對書籍的處理不僅是掃描,還進行了數(shù)字化與數(shù)據(jù)化,通過一系列算法從萬億級別的原始數(shù)據(jù)中識別出單個的詞語和短語,建成了一個語料庫,這樣就巧妙地避開大多數(shù)國家的版權(quán)問題。
龐大的數(shù)據(jù)庫催生了一個新學(xué)科的成立——Google Ngram Viewer就是借用這個數(shù)據(jù)庫開發(fā)的新工具。Ngram Viewer支持8種語言的檢索,包括英語、法語、德語、意大利語、西班牙語、俄語、希伯來語、漢語,其中英語數(shù)據(jù)占到大約56%,漢語約占8%。
網(wǎng)友可輸入至多5個不同詞匯,透過Ngram Viewer顯示的趨勢線,觀察這些詞匯在不同年代出現(xiàn)的頻率。當(dāng)你輸入“莎士比亞”,搜索范圍設(shè)定在1500~2000年的英語書籍里,在他過世后的第92年,即1708年是“熱搜”莎士比亞的最高峰,之后1930~1953年,莎翁的著作又一次受到了追捧。與莎士比亞被引用熱度不分伯仲的還有福爾摩斯,這位虛構(gòu)的偵探人物在1971~1979年間,成了街談巷議的熱點。維多利亞時代英國最偉大的作家狄更斯在1917~1923年期間,獲得了空前的成功。那個年代大約萬分之三的書籍里,都會提到狄更斯的名字,這時候距離作家因為腦溢血和寫作疲勞去世,已經(jīng)過去了約半個世紀。
除了可以看到數(shù)據(jù)趨勢圖,原始數(shù)據(jù)還可從網(wǎng)頁免費下載,提供給語言學(xué)家、社會學(xué)家、人類學(xué)家等作進一步的資料分析和研究?!都~約時報》將Ngram Viewer這個全新的可視化工具,稱為“通向5000億單詞的文化視窗”。
數(shù)據(jù)可視化的意義
Ngram Viewer如同一個普通的搜索引擎,輸入一個“關(guān)鍵詞”,就可以查詢它在書籍中出現(xiàn)的頻率,而且可以依據(jù)年代時間線查詢。在搜索欄上方的“from the corpus”里可以切換要查詢哪種語言的書籍,其中支持簡體中文書籍的內(nèi)容統(tǒng)計分析。接著,可以在兩個年代之間查詢書籍?dāng)?shù)據(jù),時間跨度的范圍從1500年到2008年。用戶最多可以設(shè)定五組關(guān)鍵詞來對比,關(guān)鍵詞之間用逗號分隔。
我們可以在圖表里看到不同關(guān)鍵詞在不同年代里被書籍使用的頻率,這在統(tǒng)計分析上可以做出很多有趣的調(diào)查與申論。若是繼續(xù)點擊圖表下方的年代鏈接,就可以進入Google Books服務(wù),查詢指定條件的書籍,直接找到相關(guān)圖書。
參與設(shè)計項目的是來自哈佛大學(xué)的計量社會學(xué)教授讓-巴蒂斯塔·米歇爾(Jean-Baptiste Michel),他因為致力于人文數(shù)據(jù)的可視化研究而被譽為“數(shù)據(jù)的藝術(shù)家”。埃雷茲·李伯曼·艾登(Erez Lieberman Aiden)是計算機科學(xué)家、生物物理學(xué)家和應(yīng)用數(shù)學(xué)家,他們一直試圖找到一幅展現(xiàn)人類文明和人文歷史的“科學(xué)”畫面。
“人類在漫長歲月中寫了很多書,我們向他們學(xué)習(xí)的最佳方法,就是把那幾百萬本書全部讀完。當(dāng)然,這個可行性極低。人們不得不傾向于另一種做法,就是選擇幾本書進行精讀,可行性很高,但還不夠好?!碑?dāng)米歇爾和谷歌的數(shù)字化工程師進行交流時,他們找到了這個“既可行又很好的”方法。
自印刷機問世以來,寫書的過程變得簡單多了,據(jù)統(tǒng)計到2010年,全世界大約出版了1.29億本圖書,而這些書籍如果沒有隨著歲月遺失,就都在圖書館里存放著。谷歌已經(jīng)將圖書館中的書籍進行了數(shù)字化,掌握了這些書籍的出版地、作者、出版時間等信息,最終篩選出了5000億個高質(zhì)量的單詞。
Ngram Viewer 收錄的單詞或短語,需要滿足一項要求:這個詞組或者短語在某年出版的超過 40 本書中出現(xiàn)過,才會有該年該詞的數(shù)據(jù)點。同時,對數(shù)據(jù)進行標(biāo)準化處理,可以削弱某些年份某些書印數(shù)過多對結(jié)果的影響。當(dāng)這些數(shù)據(jù)加上時間和引用比例,就轉(zhuǎn)變成為一個具備XY軸的搜索服務(wù)。
據(jù)米歇爾透露,這5000億個單詞的長度連起來是人類基因組的1000倍,如果把這些單詞連續(xù)寫出來,長度相當(dāng)于在月球和地球間來回穿梭10次以上,而這僅僅是人類“文化基因組”的小小一段。谷歌向來是分析大數(shù)據(jù)的專家,它們企圖要將所有圖書數(shù)字化的努力,成就了現(xiàn)在的Ngram Viewer。
在工作原理上,Ngram將一個句子拆分成N個連續(xù)相鄰詞組成的詞組,從而用來猜測語言的可能性,谷歌將這個方法定義為“文化組學(xué)”?!拔幕M學(xué)”的方法最早出現(xiàn)在2010年《科學(xué)》雜志上一篇名為《使用數(shù)百萬本電子書對文化進行的計量分析》的文章里,現(xiàn)在指的是通過電子化文本的量化分析,研究人類行為、人類活動與文化趨勢的計算詞典學(xué)。
這個由谷歌定義的新詞,來源于“基因組學(xué)”——把人類基因作為研究對象,是生物學(xué)上觀察人類基因序列組的透鏡。文化組學(xué)與其非常類似,挖掘大量數(shù)字化信息,將數(shù)字化的歷史記錄片段作為透鏡,探尋反映在語言和文字中的社會文化現(xiàn)象。文化組學(xué)的優(yōu)點,就如同人類基因序列,“所有人都可以用上它。”
英語諺語說,“一幅畫面可以抵過1000個詞?!泵仔獱柋硎?,他們在邀請了來自哈佛大學(xué)、麻省理工大學(xué)、《英國大百科全書》、《美國傳統(tǒng)英語字典》的編委后,得出了一個驚人的結(jié)論,Ngram Viewer的一幅畫面抵過上億個詞。
從用字遣詞發(fā)現(xiàn)社會趨勢
Ngram Viewer已經(jīng)成了一些媒體人愛不釋手的玩具,美國最具影響力的商業(yè)雜志之一《快公司》比較了英語中報紙、雜志、英特網(wǎng)在不同年代的興衰,結(jié)果出人意料,不管哪個年代,報紙都是最受青睞的讀物,甚至在英特網(wǎng)風(fēng)靡的時代,報紙的流行度雖然不如鼎盛時期,但還在向上攀升。此外,《快公司》還對蒸汽、電力、原子能等三種不同能源的興衰做了比較,原子能自1945年迅速崛起,并在上世紀80年代成了最熱門的能源話題。
當(dāng)查找“流感”這個詞時,你會看到全球范圍內(nèi),1918~1920年在歐洲爆發(fā)的西班牙流感,成了人類歷史上最致命的自然事件之一。在之后的幾十年里,流感雖已平息,但人們的討論從未終止,它的熱度似乎不亞于一些文學(xué)暢銷書。
具有160多年歷史的《亞特蘭大》雜志收集了一系列有趣的趨勢比較,例如:在過去的200年里誰比較受歡迎,狗和貓?咖啡和茶?男性和女性?對比發(fā)現(xiàn),狗受到的寵愛始終多于貓;茶的流行度始終高于咖啡,直到上世紀70年代趨勢才被改變;女性在書籍里出現(xiàn)的概率逐漸走高,并與男性接近,性別平權(quán)的趨勢非常明顯。
廣告從業(yè)者希望通過一些敏感詞獲得用戶的關(guān)注度,使用Ngram Viewer也有助益。如果你想告訴大家“上帝死了”,那么該換一個說法了,自1968年這個說法達到鼎盛之后,關(guān)注度就一路下滑。但“氣候變化”的熱度卻在飛漲,從1970年后,很多書籍里都出現(xiàn)了“海平面正在上升”、“全球氣溫升高”、“二氧化碳濃度增加”這樣的詞匯,比起上世紀50年代,這些詞的使用增加了500倍。對廣告人來說,Ngram Viewer是一個把社會熱點切換成趨勢的關(guān)鍵工具。
Ngram Viewer雖然沒有公開全書的內(nèi)容,但是公開了書本的相關(guān)統(tǒng)計數(shù)據(jù),從而可監(jiān)測人們口語表述的變化情況,搜索者還可以透過數(shù)據(jù)本身,看到數(shù)據(jù)背后的故事。在搜索英文書籍?dāng)?shù)據(jù)庫時,如果檢索馬克·夏加爾這位定居在法國的俄裔超現(xiàn)實主義藝術(shù)家,是一條穩(wěn)步上升的曲線,知名度越來越高。
然而在德語書籍庫進行同樣的檢索時,你會看到非常奇怪的現(xiàn)象——聞所未聞。他先是名極一時,但突然之間名聲直線下落,1933年到1945年間達到了低谷,后來才回升。為什么呢?原來夏加爾因為猶太人的身份,而在納粹德國遭到了政治禁令,這幅圖反映了書籍記錄中的審查情況。
同樣,人們從上世紀60年代就開始展望“千禧年”,到了80年代中期關(guān)注度突然飛升,人們意識到2000年快要來了,各種書籍里都在討論,這樣的討論持續(xù)了整整十幾年,而到了2008年,大家醒悟過來2000年已成往事,一場關(guān)于千禧年大討論的泡沫就這樣破裂了。
通過Ngram Viewer,美國學(xué)者阿歷山大·彼得森發(fā)現(xiàn)了詞匯的產(chǎn)生和消亡的生命周期臨界點:在它產(chǎn)生30年到50年之后,要么寫入字典,要么消亡。詞匯的消亡速度,通常超過了新詞匯的產(chǎn)生速度。而且,通過這些漂亮的圖表也可以發(fā)現(xiàn),人類對過去的遺忘速度快得驚人。
關(guān)于準確性的質(zhì)疑
據(jù)參與Ngram Viewer開發(fā)的威爾·布魯克曼(Will Brockman)和喬恩·歐文特(Jon Orwant)表示,自上線以來,這個工具每分鐘的使用頻率至少達到50次,用戶生成的數(shù)據(jù)圖表超過了4500萬張,透過這些詞匯,人們發(fā)現(xiàn)文字背后的人類社會與歷史。其中,粘度非常高的用戶有語言學(xué)家、歷史學(xué)家、圖書學(xué)家。
除了發(fā)現(xiàn)過去,Ngram Viewer還有預(yù)測未來的功能:在文化組學(xué)2.0的項目里,卡列夫·利塔如(Kalev Leetaru)通過分析包含印刷品和媒體信息的數(shù)據(jù)庫,預(yù)測到了2011年的“阿拉伯之春”事件,并且成功地預(yù)測到了本·拉登生前的居住地,誤差在124英里范圍內(nèi)。
但是對于這個工具的準確性,各方依然有著不一致的評價。加州大學(xué)語言學(xué)教授杰奧夫·扭恩伯格(Geoff Nunberg)發(fā)現(xiàn),有很多無效的數(shù)據(jù):出版時間、作者、類型等等。由于OCR自動識別掃描的關(guān)系,因此可能帶來非常高的錯誤率。他在檢索中搜索了美國前總統(tǒng)巴拉克·奧巴馬的名字后,在他的出生年份之前,竟然有29條數(shù)據(jù)。不過谷歌很快就更正了這些錯誤。
也有評價認為,對于人名、概念熱門度的評估,不能僅僅依靠在書籍中被引用的數(shù)量計算得出——這樣的話,一本只被讀過一次的書和被瀏覽過數(shù)百萬次的書,具有相同的價值。這既不能反映出大家在熱議什么,也無法得出出版界在關(guān)心什么。
更多的評價則認為,Ngram Viewer建立在谷歌圖書館計劃掃描的圖書基礎(chǔ)之上,但是沒有人知道,谷歌是如何選擇和獲取這占到人類出版史約19.2%的圖書的。不確定是否會有系統(tǒng)性的選擇偏差,也不確定圖書的幸存者偏差有多嚴重,故而這些圖表得出的結(jié)論,并不能隨意外推。
圣迭戈州立大學(xué)的心理學(xué)家吉斯曾經(jīng)使用Ngram作為工具研究自戀,但他提醒“小心倒洗澡水的時候,把孩子一起倒掉”。因為這個工具的缺陷,在于無法衡量某一類著作在數(shù)量上的變化。比如一段時間“秋天”這個詞語的使用變少了,很難真正說清楚,到底是對秋天感興趣的人變少了,還是因為和“秋天”無關(guān)的詞匯變多了?
也有學(xué)者認為這個工具沒有將動詞、名詞、形容詞等做出有效區(qū)分,例如“Cheer”既可以是動詞,也可以是名詞。但在斯拉夫·比特羅夫(Slav Petrov)領(lǐng)導(dǎo)的谷歌自然語言處理小組的帶領(lǐng)下,彌補了這個缺陷,目前可以區(qū)分出這兩個不同類型詞語的頻度。
除此之外,目前Ngram Viewer收錄的數(shù)據(jù)還有一定滯后性和片面性——與Google Trends的高度實時性不同,圖書的滯后性較長,只能在比較大的尺度上看趨勢變化。數(shù)據(jù)庫的內(nèi)容完全來自出版圖書,而不包括未出版圖書或其他形式的文字,也不包括正在以指數(shù)級增長的網(wǎng)絡(luò)和電子信息。
由于英文圖書占到了數(shù)據(jù)庫的56%,而漢字書籍僅占其中的8%,英語的語料庫最大,且英語在最近幾百年來的圖書中的使用率總體看來看是最廣的,比較能夠反映真實世界的一些變化。
對漢語檢索的結(jié)果,需要更加謹慎的解讀。一方面是因為中文里,單詞和字符的概念是模糊的,如果分詞不當(dāng),就很難在Ngram Viewer里找到了。另一方面,漢語在不同時期,語義、用法和拼寫的差別比較大,文言文和現(xiàn)代漢語很多時候很難進行比較。而且Ngram Viewer目前只支持簡體中文的搜索,這也限制了對1950年前繁體漢字的搜索能力,不過近幾十年的漢語數(shù)據(jù)分析結(jié)果還是具有較高的可信度。
對此,項目發(fā)起人之一的艾登教授認為,Ngram Viewer和很多科學(xué)計量工具一樣,都存在著缺陷,但并不影響它的受歡迎程度,一個世紀以前,研究人員夢寐以求這個工具,現(xiàn)在它終于上線了,并不斷改進著。