大數(shù)據(jù)時代的文學經(jīng)典解讀*
——《羅密歐與朱麗葉》計量文體分析
當今時代,文體學研究范式正在發(fā)生轉變。單純的傳統(tǒng)范式有其不足之處,計量文體分析與傳統(tǒng)范式互補才能相得益彰。本文回顧計量文體分析的特點、手段及應用,并在此基礎上對莎士比亞戲劇《羅密歐與朱麗葉》中男女主角的臺詞進行量化分析,以love相關句式為文體探測點,發(fā)現(xiàn)他們愛意表達方式的差異。筆者認為,計量文體分析的核心環(huán)節(jié)是,選取恰當?shù)奈捏w探測點進行數(shù)據(jù)挖掘(data mining),提出假設并用數(shù)據(jù)驗證假設,最后結合數(shù)據(jù)對文學作品的風格進行解讀。
莎劇,文體學,計量文體學,大數(shù)據(jù)
“大數(shù)據(jù)”,就是難以用傳統(tǒng)軟件技術和方法分析的超大型復雜數(shù)據(jù)。關于對大數(shù)據(jù)的定量描述,最早是Laney (2013) 提出的三個維度描述——也稱3V(Volume, Velocity, Variety)。在此基礎上,IBM的研究人員作了補充,認為應當用4V——即容量、速度、多樣性和真實性(Veracity)等四個維度來描述大數(shù)據(jù)(祝智庭、沈德梅 2013)。
大數(shù)據(jù)會引起一系列的社會轉變。舍恩伯格(2013)前瞻性地指出,大數(shù)據(jù)帶來的信息風暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉型,在科學研究領域也會引起研究范式的轉變。過去,一個學者一條板凳坐十年做一件事啃一本書。這種情況之所以可能,是因為過去信息不均衡、不流通,信息壟斷(如這本書來路獨特、為其獨有)。在當今時代這種情況幾乎是不可能的。
當今時代,文體學研究范式正在發(fā)生轉變。傳統(tǒng)意義上的文體學是對交流過程中選取和運用的語言、超語言或者是藝術表達方式的研究。20 世紀末,文體學開始取代早期的修辭學,并在此基礎上不斷擴展。
從本質上說,文體學就是運用語言學中的方法對語篇進行分析,根據(jù)研究對象的不同,將文體學劃分為普通文體學和文學文體學。文學文體學被認為是語言學和文學批評的橋梁,是文學中語言使用的研究,Leech(1969: 2)說文體學是“語言學與文學交匯的地方”。Widdowson(1975)也將文學文體學定義為“從語言學方向對文學語篇的研究”。普通文體學,是對非文學類語篇的分析,如法律、科技、新聞報道、廣告、體育評論、商務報道等語篇的語言或語域特點。
本文中的文體學指的是文學文體學,目標是運用現(xiàn)代語言學的知識對文學作品的語言進行分析和研究,從而幫助讀者從語言技巧和思想內(nèi)容的關系角度去更深入地理解、合理地解釋。
文體學研究最早也是始于對文學文體的研究,文學研究有很長的歷史,所以研究方法非常豐富,過去對文學作品的分析主要采用定性的方法,定量的方法是近些年才逐步發(fā)展完善起來。
傳統(tǒng)的定性的文體分析,為了解讀不同的作家的風格,必定要從當時的文化、社會背景、作者的生活背景、性格特點等方面進行考慮,而這種分析也會因為不同時代不同人,得出不同的結論。
量化的分析減少對時代背景的考慮,通過統(tǒng)計詞匯、句法、篇章層面上的特點來總結得出其文體的特點。計量文體研究的特點是:文本自然真實,文本數(shù)量巨大,機器自動處理,定量數(shù)據(jù)分析(Biber, Conrad & Reppen 1998)。計量文本分析,用數(shù)據(jù)說話,有其獨特的優(yōu)勢:可以發(fā)現(xiàn)人們?nèi)庋郯l(fā)現(xiàn)不了的文本特質(Flanders 2005)。文本分析的(freq.)數(shù)據(jù)分兩類:出現(xiàn)頻數(shù)、共現(xiàn)頻數(shù)。
計量文體分析不能替代傳統(tǒng)范式,只是傳統(tǒng)范式的補充。數(shù)據(jù)自己不會說話,只能用數(shù)據(jù)說話,最終還是需要人來說話——對數(shù)據(jù)進行解讀。對于特定作品,采用何種特定計量分析手段?全面分析不太可行,必須有針對性地選擇分析對象和分析手段。
文體效果,觀察點文體標記(style marker)的選擇非常多,如句子長度、某個特定的或特定類別的詞(情態(tài)動詞、轉述動詞、修飾詞),或某種特定的句型等(不及物動詞句)。對應的文體效果也很復雜。盧衛(wèi)中、夏云(2010)從個體語言特征、主題、作家風格三方面綜述,闡明三者不是平行或遞進關系,有重疊和交叉,需要新的歸納方式。
Mahlberg(2014)認為,假如我們使用新型范疇(innovative categories)描述語言形式,那么凡是偏離這些形式的地方就會為文學文本的闡釋提供新的線索。
這些新型范疇就是語料庫相關的范疇,可以歸納為“三觀”(Jockers 2013)分析,即微觀、中觀、宏觀分析。但沒明確界定所指為何,只是把三個詞用于章節(jié)標題。根據(jù)章節(jié)的內(nèi)容,推斷其大致意思。微觀分析是詞語層面的,其對象是單個詞;中觀分析是短語層面的,其對象是多個詞,包括連續(xù)的和非連續(xù)的;宏觀分析是內(nèi)容層面的,其分析對象是主題詞。計量文體學的“三觀”分析分別如下:
計量文體學的微觀分析:詞表wordlist, 詞圖word plot,
計量文體學的中觀分析:詞叢word clusters, 搭配collocational analysis,
計量文體學的宏觀分析:主題詞keyword analysis, 主題建模topic modeling.
為實現(xiàn)上述任務,計量文體分析需要用到語料庫、自然語言處理、統(tǒng)計相關的工具和軟件,如WordSmith, AntConc, R語言,Python語言等。
圖1 語料分析工具(AntConc)
2.1 微觀分析——詞表(詞頻)
詞語是作品的最小單位,所以被稱作微觀層面。語料庫的詞表功能可以提供以下信息:作品總字數(shù),各章節(jié)字數(shù),句子長度,平均詞長。按字母個數(shù)排列,不同長度的單詞有哪些?每個詞的出現(xiàn)頻數(shù)?高頻詞有哪些?低頻詞有哪些?詞匯豐富性?(Lexical richness)
詞頻分布圖,看上去很像條形碼,提供的信息比較特別,顯示某個詞在文本中的分布情況。
圖2 詞頻分布圖
文體測量手段可以有效識別不同作家的風格和同一部小說中不同人物的風格,并能夠區(qū)分仿作 ( parody)與原作風格的異同。文體計量手段多用于著作權歸屬(authorship attribution)的識別,即通過文體特征的量化統(tǒng)計分析,對特定歷史時期由于缺乏外部證據(jù)而難以確定作者身份的作品進行甄別。有的研究根據(jù)情態(tài)動詞的使用來確認作品的歸屬,有的通過考察句長來確定作品的歸屬(Mannion 2004)。
2.2 中觀分析——詞叢、搭配
詞叢(clusters)是語言使用中的詞語聚合現(xiàn)象,在語料庫中頻率較高的多詞單位。Mahlberg借用語料庫工具對比分析了容量為四百五十萬詞的狄更斯的 23 部小說及相同容量的19世紀18個作家的29部小說中的詞叢,重點研究了前者語料中由五個詞組成的詞叢,探討了這些五詞詞叢突顯人物特點、突出時間和地點信息以及揭示上下文語境等語篇功能。
2.2.1 搭配分析與人物形象
Inaki & Okita(2006)分析了《愛麗絲漫游奇境》和《愛麗絲鏡中奇遇》這兩個童話故事中愛麗絲角色的轉變。他們通過提取轉述動詞(asked,replied)和“愛麗絲”一詞的修飾成分等來分析主人公的角色形象,提出假設,如果人物多用asked表示其角色是積極主動的,如果多用replied則表示被動。索引檢索結果顯示:前一部作品的主人公作為闖入仙境的不速之客,扮演的是一個小心翼翼的、處境被動的角色,而后一部作品的主人公則是一個積極樂觀的、獨立的探索者。
2.2.2 搭配分析與文體效果
詞語搭配是詞語的慣用的組合。在文學作品中,并不是所有的搭配都是循規(guī)蹈矩的,有時候非常規(guī)搭配能起到非常規(guī)的文體效果。Louw(1993)分析了《小世界》(Smallworld)中的搭配bent on self-improvement。
The modern conference resembles the pilgrimage of medieval Christendom in that it allows the participants to indulge themselves in all the pleasures and diversions of travel while apparently bent on self-improvement.
這短語的搭配比較特別,在英語語料庫中,bent on后面所接的詞語都有負面的意思。因此,bent on是貶義的。這里用的self-improvement,自然也就有了負面的意思,表達反諷的效果??勺g為:專注于(岌岌于)所謂的“個人發(fā)展”。
圖3 美國當代英語語料庫中搭配檢索結果
對于一般的外文讀者來說,這種現(xiàn)象可能不易被發(fā)覺,僅僅依賴字典,只能理解字面意義。只有高水平讀者(近似本族語者),對詞語用法掌握全面,才能體會到搭配的特殊性和文體效果的精妙之處。
圖4 朗文詞典中Bent on的釋義
2.3 宏觀分析
宏觀分析不是大而空的泛泛而談,而是基于數(shù)據(jù)的與主題內(nèi)容相關的分析,包括兩種分析手段,主題詞(Keyword)分析:主題建模。
宏觀分析一是主題詞(Keyword)分析,計算機能夠在瞬間“讀懂”大量的文本(幾百萬字以上),自動抽取出若干主題詞。其工作原理是把當前文本與通用語料庫中的詞頻進行對比,根據(jù)概率公式計算出每個詞的關鍵值(keyness),關鍵值較高的幾個詞就能體現(xiàn)其主題內(nèi)容,就是語料庫中的“主題詞”(Scott 2008)。Fischer-starcke (2009)通過比較《傲慢與偏見》與同時代的文學作品,發(fā)現(xiàn)比較顯著的主題詞主要與愛情、婚姻、家庭、女性相關,如family, marriage, sister, cousin。再觀察修飾family的人稱代詞,發(fā)現(xiàn)多為第三人稱。由此可以說明,說話人不是當前家庭的成員,是外人的身份。
宏觀分析之二,主題建?;谥黝}詞的分析。通常情況下,主題詞分析的結果是最顯著的幾個詞,但這些詞都是孤立的。為了進一步把握文本的主題,有必要在多個主題詞之間形成網(wǎng)絡。這一目標可通過主題建模實現(xiàn)。工作原理(Jockers 2014)是用概率公式計算每個詞的關鍵值,賦予不同的權重,結果形成可視化的詞云圖(word cloud)。下圖是用MALLET軟件Shawn Graham, Scott Weingart, and Ian Milligan’s online tutorial titled “Getting Started with Topic Modeling and MALLET.” http://programminghistorian.org/lessons/topic-modeling-and-mallet.和R語言的程序包,對43部小說的主題建模分析產(chǎn)生的詞云圖,可以看出主題是“在加州的愛爾蘭人”。
圖5 詞云圖
Culpeper (2009)用計量方法分析RomeoandJuliet中人物的特點。他把每個人物的臺詞抽取出來,建成對比語料庫。通過主題詞技術,即計算詞語的關鍵值(keyness),發(fā)現(xiàn)Juliet最顯著的主題詞的if,反映女主人公的心理狀態(tài):經(jīng)常猜測未來可能發(fā)生的事情,心里感到不確定性。Romeo最顯著的主題詞是love, beauty, blessed。詞頻分布(圖6)分析表明,love分布最廣,幾乎涵蓋每個場景,尤其集中于第一幕第一場和第二幕第二場。Beauty指的是兩個女性,而blessed用來專指Juliet。這些都是用于表達“概念功能”(ideational)的關鍵詞,其它功能(人際、語篇)的關鍵詞也適用于文體分析(Culpeper 2009)。
上述研究從中觀層面,用主題詞技術分析RomeoandJuliet,但是還不夠全面。還有若干問題尚未解決,如關鍵詞之間是如何關聯(lián)的(即有哪些顯著搭配詞)?Love是Romeo臺詞的關鍵詞,為什么不是Juliet的關鍵詞?本文在上述先行研究的基礎上繼續(xù)探討這些問題。
3.1 研究對象
《羅密歐與朱麗葉》的主題是愛情。本研究關注的問題是:男女主角的愛意如何表達?男女主角表達愛意有何異同?分別有什么文體效果?
表達愛意最常見的說法當然是“我愛你”。假設一個戀人從來不向對方說“我愛你”,是否表示不愛?所以,有必要調查戲劇人物臺詞中涉及“誰愛誰?”說法?!罢l愛誰?”的問題又可以分解成兩個:愛誰?誰愛?分別對應Love的對象和Love 的主體。在英語中l(wèi)ove的主體和對象一般用人稱代詞表達。
通過調查Love 與人稱代詞的共現(xiàn),可以知道“誰愛誰”。戲劇的視角一般是第一人稱。人物在對白或獨白的臺詞中,主要使用第一人稱和第二人稱,基本不涉及第三人稱視角。尤其是在愛情表達方面,必須是當事人親自面對面表白才有效。所以,本研究關注的love相關的人稱代詞也只限于第一人稱和第二人稱代詞。
3.2 研究方法與步驟
3.2.1 建立小型語料庫
語料是莎士比亞戲劇《羅密歐與朱麗葉》電子版,選自《英文世界名著1000部》(光盤版)。從詞語拼寫(Thou=you,你)和語法曲折形式(第三人稱單數(shù)-th=-s,)來看,這個版本是1595年的原版。手工把劇本中Romeo和Juliet的臺詞分別提取出來,存入單獨的純文本文件,分別命名為romeo.txt, juliet.txt。容量分別是4688, 4606。原始語料,未做詞原歸并處理(lemmatization)。
3.2.2 語料檢索
圖6 第一人稱代詞+Love的檢索式
為了調查love的表達,本研究用語料庫軟件AntConc,從兩個小語料庫中檢索love與人代稱詞共現(xiàn)情況。根據(jù)人稱代詞與love的位置,分別檢索love前的第一人稱代詞和love后的第二人稱代詞。以前者為例,搜索設置如下:在高級搜索界面,把I, my列入搜索詞表,把love加入語境詞,語境跨度設為0-3R。Love+第二人稱代詞的檢索式與此相似,只是把人稱代詞換成thee, thy,語境跨度改為3L-0。
3.3 數(shù)據(jù)分析
愛的對象——愛誰?根據(jù)語料庫中“Love+第二人稱代詞”的搜索結果,Juliet的臺詞中,love thee的字眼根本沒有,只有一例以第二人稱為love賓語,thy company。經(jīng)過重新搜索,卻發(fā)現(xiàn)Love me有三例,Love him有一例。而在Romeo的臺詞中,love與 thee共出現(xiàn)六次,其中無關的一次被剔除后還有五次(圖7)。由此可見,Romeo與Juliet在愛意的表達方面各有特色。Juliet沒有說愛“你”,只要求對方愛“我”,Romeo卻把愛“你”掛在嘴邊。
圖7 Romeo臺詞中l(wèi)ove與第二人稱代詞共現(xiàn)的索引行
愛的主體——誰愛?在戲劇的臺詞中,愛的主體默認是說話人,英語中對應的第一人稱代詞有兩種選擇:I或my。語料庫中“第一人稱代詞+Love”的搜索結果如表1所示。Romeo的兩個代詞(I, my)的使用頻數(shù)比較平均,分別是6次和7次。
表1 LOVE與第一人稱代詞的選擇
Juliet3(4.7)11(9.3)
*(括號內(nèi)的數(shù)字為理論頻數(shù))
Juliet與Romeo臺詞中的Love總頻數(shù)差不多,但Juliet更多地使用My love這種名詞短語(共11次)。而且,在Juliet的臺詞中,love前面多用修飾詞true (3次), sweet (2), only (1)(例句見圖8),這是與Romeo表達愛意的另一種差別。這些形容詞的使用,使感情表達顯得更為細膩和豐富。
圖8 Juliet臺詞中l(wèi)ove與第一人稱代詞共現(xiàn)的索引行
如何解讀這些愛意的表達的差異?從詞類看,love兼作動詞與名詞,都是“愛”的意思。戀人表達愛意時,可以說I love you,也可以說(you are) my love,似乎兩者的意思是等同的。實際上,效果略有不同。根據(jù)認知語法理論(Langacker 2008),動詞表示一種過程(process),名詞表示一種實體(entity)。過程是動態(tài)變化的,實體是相對靜態(tài)的永恒。所以,在表達愛情時,人們都希望愛情能夠持久永恒,所謂“天長地久”。相對于動詞的love而言,名詞短語my love更適合表達這種意思。而且,從字面上看,I love you中,我是我,你是你,我和你是兩個成分,是兩個彼此獨立的客體;在my love中,你已然是我的人,兩者在同一個短語中,句法距離更近,心理距離也更近。
這種愛意表達式及其意義的區(qū)別,是塑造人物性格的重要手段,也說明莎士比亞的語言駕馭能力之嫻熟。這種渾然天成的效果應該有一定的必然因素。
由于受制于劇本篇幅不長的客觀因素,本研究語料規(guī)模偏小,但采用的方法具有大數(shù)據(jù)的主要特點:機器自動處理;定量數(shù)據(jù)分析。計量文體分析不是為數(shù)據(jù)而數(shù)據(jù),其核心環(huán)節(jié)是選取恰當?shù)奈捏w標記或文體探測點,提出假設并用數(shù)據(jù)驗證假設,最后結合數(shù)據(jù)對文學作品的風格進行解讀。文體探測點尤其重要,是數(shù)據(jù)挖掘(data mining)的定位器,好比是采礦過程中的試金石。研究者需要結合當前語料,從復雜的語言系統(tǒng)中選擇特定的語言單位作為文體探測點,通過計量觀測,可以有效的揭示文學作品的文體風格。
本研究以love相關句式為文體探測點,對莎士比亞戲劇《羅密歐與朱麗葉》中男女主角的臺詞進行量化分析,發(fā)現(xiàn)他們愛意表達方式的差異。Romeo的愛是直接的、直白的,而Juliet的愛是間接的、深沉的、細膩的。這一結論符合男性和女性語言交際和表達的一般規(guī)律。雖然本文的結論算不上高大上,但研究的步驟和推理的過程比較嚴謹。如果學者認可這種基于數(shù)據(jù)得出結論的方法,可以推廣到長篇文學作品研究。
Biber,D., Conrad, S., & Reppen,R.1998.CorpusLinguistics:InvestigatingLanguageStructureandUse[M].Cambridge: Cambridge University Press.
Culpeper.I.2009.Keyness: Words, parts-of-speech and semantic categories in the character-talk of Shakespeare’sRomeoandJuliet[J].InternationalJournalofCorpusLinguistics(14):29-59.
Fischer-Starcke, B.2009.Keywords and frequent phrases of Jane Austen’sPrideandPrejudice: A corpus-stylistic analysis[J].InternationalJournalofCorpusLinguistics(14):492-523.
Flanders, Julia.2005,Detailism,digital texts, and the problem of pedantry[J].TEXTTechnology(2):41-70.
Inaki, A.&Okita.T .2006.A small-corpus-based approach to Alice’s roles[J].LiteraryandLinguisticComputing(3): 13-16.
Jockers, Matthew,L.2013.Macroanalysis:DigitalMethods&LiteraryHistory[M].UIUC Press.
Jockers, Matthew L.2014.TextAnalysiswithRforStudentsofLiterature[M].Springer.
Laney, Doug.3-D Data Management: Controlling data volume, velocity and variety[DB/OL].[2013-04-10].
Langacker,R.W.2008.CognitiveGrammar:ABasicIntroduction[M].Oxford University Press.
Leech, G.N.1969.ALinguisticGuidetoEnglishPoetry[M].London: Longman.
Louw.W.1993.Irony in the text or insincerity in the writer?The diagnostic potential of semantic prosodies [A].M.Baker, G.Francis & E.Tognini-Bonelli (Eds).TextandTechnology[C].Amsterdam: John Benjamins 157-176.
Mahlberg, M.2014.Corpus stylistics[A].M.Burke (Ed.),TheRoutledgeHandbookofStylistics[C].London & New York: Routledge.
Mahlberg,Michaela.2007.Clusters,key clusters and local textual functions in Dickens[J].Corpora(1): 1-31.
Mannion, D.2004.Sentence-length and authorship attribution:The case of Oliver Goldsmith[J].LiteraryandLinguisticComputing(4): 497-508.
Scott, M.R.2008.WordSmith tools help manual (version 5.0)[Z].Liverpool: Lexical Analysis Software.
Widdowson, H.G.1975.StylisticsandtheTeachingofLiterature[M].London: Longman.
編者,1999,《英文世界名著1000部》[Z]。上海:復旦大學出版社。
盧衛(wèi)中、夏云,2010,語料庫文體學:文學文體學研究的新途徑[J],《外國語》(1):47-53。
邁爾·舍恩伯格,2013,《大數(shù)據(jù)時代》[M]。杭州:浙江人民出版社。
祝智庭、沈德梅,2013,基于大數(shù)據(jù)的教育技術研究新范式[J],《電化教育研究》(10): 5-13。
(詹宏偉:杭州師范大學外國語學院教授,博士; 黃四宏:杭州師范大學外國語學院副教授)
通訊地址:311121浙江省杭州市杭州師范大學外國語學院
*本文系國家哲學社會科學基金青年項目的階段性成果,項目號:13CYY001。
詹宏偉
黃四宏
杭州師范大學
H06
A
2095-9648(2017)02-0056-06
2017-02-02