貝小戎
上初中的時(shí)候,自習(xí)課上我跟我的同桌玩過(guò)這樣一個(gè)游戲:輪流讓對(duì)方在地理課本里的地圖中找一個(gè)地名,或者在語(yǔ)文課本的某一篇文章中找一個(gè)詞。我記得有一次他讓我在一篇文章中找“活該”二字,我找了半天也沒(méi)找到——完全沒(méi)想到這兩個(gè)字在《論雷峰塔的倒掉》的結(jié)尾,獨(dú)立成段。
有了文本文檔和電子書后,捜索文本中某個(gè)詞的位置就非常容易了。畢業(yè)于哈佛大學(xué)的本·布拉特分析了各種文學(xué)經(jīng)典和暢銷書,他說(shuō)J.K.羅琳最常用的是“魔杖”“巫師”和“魔藥”,這顯而易見(jiàn)。比較新鮮的是,簡(jiǎn)·奧斯丁最常用的詞是“禮貌”“幻想”和“輕率”,海明威最常用的詞是“門房”“船尾”和“干邑”,譚恩美最常用的詞是“葫蘆”“花生”和“面條”,“007系列”小說(shuō)中最常出現(xiàn)的詞是“洗手間”“褲子”和“閃耀”。納博科夫最喜歡用的詞是mauve(淡紫色),其實(shí)他喜歡各種表示顏色的詞,因?yàn)樗且粋€(gè)聯(lián)覺(jué)者,他說(shuō)他聽(tīng)到聲音的同時(shí)還能看到其顏色:g和r是黑色的,藍(lán)色組有鋼鐵般的x、雷雨云z和藍(lán)莓k,綠色組有榿木葉f、生蘋果p和阿月渾子t……
布拉特大膽斷言,對(duì)作品用詞的統(tǒng)計(jì)能辨別出作者是男性還是女性。有些詞的性別特征很明顯,如“刮胡子”和“購(gòu)物”;有些不那么明顯,如“確實(shí)”和“有些”。他說(shuō),男性角色更有可能咕噥、咧嘴笑、輕聲笑、喊叫和殺人,女性角色注定要顫抖、哭泣、低語(yǔ)、尖叫和嫁人。根據(jù)他的統(tǒng)計(jì)和分析,托爾金的《霍比特人》的男性特質(zhì)占99.9%,《麥田里的守望者》則是經(jīng)典男性小說(shuō)中女性特質(zhì)最強(qiáng)的。
他還分析了作家使用標(biāo)點(diǎn)符號(hào)的情況。美國(guó)犯罪小說(shuō)家埃爾莫·倫納德在《寫作的10條守則》中說(shuō),每10萬(wàn)字使用的感嘆號(hào)不得超過(guò)2到3個(gè),而他自己并沒(méi)有遵守這一守則:他寫了40多部小說(shuō),總字?jǐn)?shù)有340萬(wàn),按照他提出的寫作建議,他在整個(gè)寫作生涯中使用的感嘆號(hào)應(yīng)該不超過(guò)102個(gè)。實(shí)際上,他用了1651個(gè),是他建議的數(shù)量的16倍——每10萬(wàn)字用了49個(gè)。不過(guò),相對(duì)來(lái)說(shuō),他使用的感嘆號(hào)數(shù)量確實(shí)是最少的,用得最多的是喬伊斯——每10萬(wàn)字1105個(gè)。狄更斯也是一個(gè)很吵的作家(713個(gè)),最安靜的作家除了埃爾莫·倫納德,還有海明威(59個(gè))、厄普代克(88個(gè))和??思{(108個(gè))。
讓人感到不可思議的是,文本分析還能用來(lái)看病和破案。有人發(fā)現(xiàn),英國(guó)前首相哈羅德·威爾遜在他的演講中表現(xiàn)出明顯的認(rèn)知能力損傷的跡象,后來(lái)他主動(dòng)辭職了。美國(guó)聯(lián)邦調(diào)査局雇用了許多電腦高手幫他們做文本分析,但幫助他們找到大學(xué)炸彈客的是莎士比亞研究專家唐·福斯特。近來(lái)有人說(shuō),在艾麗絲·默多克去世后出版的小說(shuō)中能看到她心智退化的表現(xiàn),她的文字中有些句子不夠連貫,用詞也不夠特別。所以,為了證明自己心智正常,你也要挖空心思地推敲用詞。endprint