2000萬本書的奧秘

2017-04-27 21:50:10陳婧

IT經(jīng)理世界 2017年8期

關(guān)鍵詞：書籍圖書

陳婧

這是一個好玩到停不下來的搜索引擎。

Ngram Viewer是Google Labs和哈佛大學(xué)學(xué)者共同開發(fā)的成果，只要用這個工具進行搜索，就可以發(fā)現(xiàn)從公元1500年到現(xiàn)在的500多年里，社會的熱點如何不停地切換。谷歌在2004法蘭克福書展上開始啟動谷歌圖書館計劃，試圖掃描自現(xiàn)代印刷術(shù)發(fā)明以來全世界所有的印刷書籍。在此基礎(chǔ)上，通過OCR識別，建成了世界上最大的電子書數(shù)據(jù)庫。谷歌圖書館計劃與Google's Partner Program 共同組建成廣為人知的 Google Books。

至 2015年10月，這個項目已掃描超過2500萬本書，占人類歷史上所有出版書目總數(shù)的19.2%。Google 對書籍的處理不僅是掃描，還進行了數(shù)字化與數(shù)據(jù)化，通過一系列算法從萬億級別的原始數(shù)據(jù)中識別出單個的詞語和短語，建成了一個語料庫，這樣就巧妙地避開大多數(shù)國家的版權(quán)問題。

龐大的數(shù)據(jù)庫催生了一個新學(xué)科的成立——Google Ngram Viewer就是借用這個數(shù)據(jù)庫開發(fā)的新工具。Ngram Viewer支持8種語言的檢索，包括英語、法語、德語、意大利語、西班牙語、俄語、希伯來語、漢語，其中英語數(shù)據(jù)占到大約56%，漢語約占8%。

網(wǎng)友可輸入至多5個不同詞匯，透過Ngram Viewer顯示的趨勢線，觀察這些詞匯在不同年代出現(xiàn)的頻率。當(dāng)你輸入“莎士比亞”，搜索范圍設(shè)定在1500～2000年的英語書籍里，在他過世后的第92年，即1708年是“熱搜”莎士比亞的最高峰，之后1930～1953年，莎翁的著作又一次受到了追捧。與莎士比亞被引用熱度不分伯仲的還有福爾摩斯，這位虛構(gòu)的偵探人物在1971～1979年間，成了街談巷議的熱點。維多利亞時代英國最偉大的作家狄更斯在1917～1923年期間，獲得了空前的成功。那個年代大約萬分之三的書籍里，都會提到狄更斯的名字，這時候距離作家因為腦溢血和寫作疲勞去世，已經(jīng)過去了約半個世紀。

除了可以看到數(shù)據(jù)趨勢圖，原始數(shù)據(jù)還可從網(wǎng)頁免費下載，提供給語言學(xué)家、社會學(xué)家、人類學(xué)家等作進一步的資料分析和研究?！都~約時報》將Ngram Viewer這個全新的可視化工具，稱為“通向5000億單詞的文化視窗”。

數(shù)據(jù)可視化的意義

Ngram Viewer如同一個普通的搜索引擎，輸入一個“關(guān)鍵詞”，就可以查詢它在書籍中出現(xiàn)的頻率，而且可以依據(jù)年代時間線查詢。在搜索欄上方的“from the corpus”里可以切換要查詢哪種語言的書籍，其中支持簡體中文書籍的內(nèi)容統(tǒng)計分析。接著，可以在兩個年代之間查詢書籍?dāng)?shù)據(jù)，時間跨度的范圍從1500年到2008年。用戶最多可以設(shè)定五組關(guān)鍵詞來對比，關(guān)鍵詞之間用逗號分隔。

我們可以在圖表里看到不同關(guān)鍵詞在不同年代里被書籍使用的頻率，這在統(tǒng)計分析上可以做出很多有趣的調(diào)查與申論。若是繼續(xù)點擊圖表下方的年代鏈接，就可以進入Google Books服務(wù)，查詢指定條件的書籍，直接找到相關(guān)圖書。

參與設(shè)計項目的是來自哈佛大學(xué)的計量社會學(xué)教授讓-巴蒂斯塔·米歇爾（Jean-Baptiste Michel），他因為致力于人文數(shù)據(jù)的可視化研究而被譽為“數(shù)據(jù)的藝術(shù)家”。埃雷茲·李伯曼·艾登（Erez Lieberman Aiden）是計算機科學(xué)家、生物物理學(xué)家和應(yīng)用數(shù)學(xué)家，他們一直試圖找到一幅展現(xiàn)人類文明和人文歷史的“科學(xué)”畫面。

“人類在漫長歲月中寫了很多書，我們向他們學(xué)習(xí)的最佳方法，就是把那幾百萬本書全部讀完。當(dāng)然，這個可行性極低。人們不得不傾向于另一種做法，就是選擇幾本書進行精讀，可行性很高，但還不夠好?！碑?dāng)米歇爾和谷歌的數(shù)字化工程師進行交流時，他們找到了這個“既可行又很好的”方法。

自印刷機問世以來，寫書的過程變得簡單多了，據(jù)統(tǒng)計到2010年，全世界大約出版了1.29億本圖書，而這些書籍如果沒有隨著歲月遺失，就都在圖書館里存放著。谷歌已經(jīng)將圖書館中的書籍進行了數(shù)字化，掌握了這些書籍的出版地、作者、出版時間等信息，最終篩選出了5000億個高質(zhì)量的單詞。

Ngram Viewer 收錄的單詞或短語，需要滿足一項要求：這個詞組或者短語在某年出版的超過 40 本書中出現(xiàn)過，才會有該年該詞的數(shù)據(jù)點。同時，對數(shù)據(jù)進行標(biāo)準化處理，可以削弱某些年份某些書印數(shù)過多對結(jié)果的影響。當(dāng)這些數(shù)據(jù)加上時間和引用比例，就轉(zhuǎn)變成為一個具備XY軸的搜索服務(wù)。

據(jù)米歇爾透露，這5000億個單詞的長度連起來是人類基因組的1000倍，如果把這些單詞連續(xù)寫出來，長度相當(dāng)于在月球和地球間來回穿梭10次以上，而這僅僅是人類“文化基因組”的小小一段。谷歌向來是分析大數(shù)據(jù)的專家，它們企圖要將所有圖書數(shù)字化的努力，成就了現(xiàn)在的Ngram Viewer。

在工作原理上，Ngram將一個句子拆分成N個連續(xù)相鄰詞組成的詞組，從而用來猜測語言的可能性，谷歌將這個方法定義為“文化組學(xué)”?！拔幕M學(xué)”的方法最早出現(xiàn)在2010年《科學(xué)》雜志上一篇名為《使用數(shù)百萬本電子書對文化進行的計量分析》的文章里，現(xiàn)在指的是通過電子化文本的量化分析，研究人類行為、人類活動與文化趨勢的計算詞典學(xué)。

這個由谷歌定義的新詞，來源于“基因組學(xué)”——把人類基因作為研究對象，是生物學(xué)上觀察人類基因序列組的透鏡。文化組學(xué)與其非常類似，挖掘大量數(shù)字化信息，將數(shù)字化的歷史記錄片段作為透鏡，探尋反映在語言和文字中的社會文化現(xiàn)象。文化組學(xué)的優(yōu)點，就如同人類基因序列，“所有人都可以用上它。”

英語諺語說，“一幅畫面可以抵過1000個詞?！泵仔獱柋硎?，他們在邀請了來自哈佛大學(xué)、麻省理工大學(xué)、《英國大百科全書》、《美國傳統(tǒng)英語字典》的編委后，得出了一個驚人的結(jié)論，Ngram Viewer的一幅畫面抵過上億個詞。

從用字遣詞發(fā)現(xiàn)社會趨勢

Ngram Viewer已經(jīng)成了一些媒體人愛不釋手的玩具，美國最具影響力的商業(yè)雜志之一《快公司》比較了英語中報紙、雜志、英特網(wǎng)在不同年代的興衰，結(jié)果出人意料，不管哪個年代，報紙都是最受青睞的讀物，甚至在英特網(wǎng)風(fēng)靡的時代，報紙的流行度雖然不如鼎盛時期，但還在向上攀升。此外，《快公司》還對蒸汽、電力、原子能等三種不同能源的興衰做了比較，原子能自1945年迅速崛起，并在上世紀80年代成了最熱門的能源話題。

當(dāng)查找“流感”這個詞時，你會看到全球范圍內(nèi)，1918～1920年在歐洲爆發(fā)的西班牙流感，成了人類歷史上最致命的自然事件之一。在之后的幾十年里，流感雖已平息，但人們的討論從未終止，它的熱度似乎不亞于一些文學(xué)暢銷書。

具有160多年歷史的《亞特蘭大》雜志收集了一系列有趣的趨勢比較，例如：在過去的200年里誰比較受歡迎，狗和貓？咖啡和茶？男性和女性？對比發(fā)現(xiàn)，狗受到的寵愛始終多于貓；茶的流行度始終高于咖啡，直到上世紀70年代趨勢才被改變；女性在書籍里出現(xiàn)的概率逐漸走高，并與男性接近，性別平權(quán)的趨勢非常明顯。

廣告從業(yè)者希望通過一些敏感詞獲得用戶的關(guān)注度，使用Ngram Viewer也有助益。如果你想告訴大家“上帝死了”，那么該換一個說法了，自1968年這個說法達到鼎盛之后，關(guān)注度就一路下滑。但“氣候變化”的熱度卻在飛漲，從1970年后，很多書籍里都出現(xiàn)了“海平面正在上升”、“全球氣溫升高”、“二氧化碳濃度增加”這樣的詞匯，比起上世紀50年代，這些詞的使用增加了500倍。對廣告人來說，Ngram Viewer是一個把社會熱點切換成趨勢的關(guān)鍵工具。

Ngram Viewer雖然沒有公開全書的內(nèi)容，但是公開了書本的相關(guān)統(tǒng)計數(shù)據(jù)，從而可監(jiān)測人們口語表述的變化情況，搜索者還可以透過數(shù)據(jù)本身，看到數(shù)據(jù)背后的故事。在搜索英文書籍?dāng)?shù)據(jù)庫時，如果檢索馬克·夏加爾這位定居在法國的俄裔超現(xiàn)實主義藝術(shù)家，是一條穩(wěn)步上升的曲線，知名度越來越高。

然而在德語書籍庫進行同樣的檢索時，你會看到非常奇怪的現(xiàn)象——聞所未聞。他先是名極一時，但突然之間名聲直線下落，1933年到1945年間達到了低谷，后來才回升。為什么呢？原來夏加爾因為猶太人的身份，而在納粹德國遭到了政治禁令，這幅圖反映了書籍記錄中的審查情況。

同樣，人們從上世紀60年代就開始展望“千禧年”，到了80年代中期關(guān)注度突然飛升，人們意識到2000年快要來了，各種書籍里都在討論，這樣的討論持續(xù)了整整十幾年，而到了2008年，大家醒悟過來2000年已成往事，一場關(guān)于千禧年大討論的泡沫就這樣破裂了。

通過Ngram Viewer，美國學(xué)者阿歷山大·彼得森發(fā)現(xiàn)了詞匯的產(chǎn)生和消亡的生命周期臨界點：在它產(chǎn)生30年到50年之后，要么寫入字典，要么消亡。詞匯的消亡速度，通常超過了新詞匯的產(chǎn)生速度。而且，通過這些漂亮的圖表也可以發(fā)現(xiàn)，人類對過去的遺忘速度快得驚人。

關(guān)于準確性的質(zhì)疑

據(jù)參與Ngram Viewer開發(fā)的威爾·布魯克曼（Will Brockman）和喬恩·歐文特（Jon Orwant）表示，自上線以來，這個工具每分鐘的使用頻率至少達到50次，用戶生成的數(shù)據(jù)圖表超過了4500萬張，透過這些詞匯，人們發(fā)現(xiàn)文字背后的人類社會與歷史。其中，粘度非常高的用戶有語言學(xué)家、歷史學(xué)家、圖書學(xué)家。

除了發(fā)現(xiàn)過去，Ngram Viewer還有預(yù)測未來的功能：在文化組學(xué)2.0的項目里，卡列夫·利塔如（Kalev Leetaru）通過分析包含印刷品和媒體信息的數(shù)據(jù)庫，預(yù)測到了2011年的“阿拉伯之春”事件，并且成功地預(yù)測到了本·拉登生前的居住地，誤差在124英里范圍內(nèi)。

但是對于這個工具的準確性，各方依然有著不一致的評價。加州大學(xué)語言學(xué)教授杰奧夫·扭恩伯格（Geoff Nunberg）發(fā)現(xiàn)，有很多無效的數(shù)據(jù)：出版時間、作者、類型等等。由于OCR自動識別掃描的關(guān)系，因此可能帶來非常高的錯誤率。他在檢索中搜索了美國前總統(tǒng)巴拉克·奧巴馬的名字后，在他的出生年份之前，竟然有29條數(shù)據(jù)。不過谷歌很快就更正了這些錯誤。

也有評價認為，對于人名、概念熱門度的評估，不能僅僅依靠在書籍中被引用的數(shù)量計算得出——這樣的話，一本只被讀過一次的書和被瀏覽過數(shù)百萬次的書，具有相同的價值。這既不能反映出大家在熱議什么，也無法得出出版界在關(guān)心什么。

更多的評價則認為，Ngram Viewer建立在谷歌圖書館計劃掃描的圖書基礎(chǔ)之上，但是沒有人知道，谷歌是如何選擇和獲取這占到人類出版史約19.2%的圖書的。不確定是否會有系統(tǒng)性的選擇偏差，也不確定圖書的幸存者偏差有多嚴重，故而這些圖表得出的結(jié)論，并不能隨意外推。

圣迭戈州立大學(xué)的心理學(xué)家吉斯曾經(jīng)使用Ngram作為工具研究自戀，但他提醒“小心倒洗澡水的時候，把孩子一起倒掉”。因為這個工具的缺陷，在于無法衡量某一類著作在數(shù)量上的變化。比如一段時間“秋天”這個詞語的使用變少了，很難真正說清楚，到底是對秋天感興趣的人變少了，還是因為和“秋天”無關(guān)的詞匯變多了？

也有學(xué)者認為這個工具沒有將動詞、名詞、形容詞等做出有效區(qū)分，例如“Cheer”既可以是動詞，也可以是名詞。但在斯拉夫·比特羅夫（Slav Petrov）領(lǐng)導(dǎo)的谷歌自然語言處理小組的帶領(lǐng)下，彌補了這個缺陷，目前可以區(qū)分出這兩個不同類型詞語的頻度。

除此之外，目前Ngram Viewer收錄的數(shù)據(jù)還有一定滯后性和片面性——與Google Trends的高度實時性不同，圖書的滯后性較長，只能在比較大的尺度上看趨勢變化。數(shù)據(jù)庫的內(nèi)容完全來自出版圖書，而不包括未出版圖書或其他形式的文字，也不包括正在以指數(shù)級增長的網(wǎng)絡(luò)和電子信息。

由于英文圖書占到了數(shù)據(jù)庫的56%，而漢字書籍僅占其中的8%，英語的語料庫最大，且英語在最近幾百年來的圖書中的使用率總體看來看是最廣的，比較能夠反映真實世界的一些變化。

對漢語檢索的結(jié)果，需要更加謹慎的解讀。一方面是因為中文里，單詞和字符的概念是模糊的，如果分詞不當(dāng)，就很難在Ngram Viewer里找到了。另一方面，漢語在不同時期，語義、用法和拼寫的差別比較大，文言文和現(xiàn)代漢語很多時候很難進行比較。而且Ngram Viewer目前只支持簡體中文的搜索，這也限制了對1950年前繁體漢字的搜索能力，不過近幾十年的漢語數(shù)據(jù)分析結(jié)果還是具有較高的可信度。

對此，項目發(fā)起人之一的艾登教授認為，Ngram Viewer和很多科學(xué)計量工具一樣，都存在著缺陷，但并不影響它的受歡迎程度，一個世紀以前，研究人員夢寐以求這個工具，現(xiàn)在它終于上線了，并不斷改進著。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

2000萬本書的奧秘