姜文東,任 娟
(中國科學(xué)院研究生院 外語系,北京 100049)
語料庫語言學(xué)是20世紀(jì)中后期興起的一門語言研究科學(xué),在近年來獲得了快速的發(fā)展。由于語料庫本身具有容量大、語料真實(shí)、檢索快捷準(zhǔn)確等獨(dú)特的優(yōu)勢(shì),其在許多領(lǐng)域獲得了應(yīng)用。
傳統(tǒng)文學(xué)文本分析,容易受到主觀因素影響,并且許多語言事實(shí)用傳統(tǒng)方法難以觀察到。而使用語料庫分析文本更加客觀精確,我們可將文學(xué)文本整理后作為語料進(jìn)行分析。
我國之前基于語料庫的文本分析多是通過語料庫軟件對(duì)相關(guān)文本的翻譯進(jìn)行研究,對(duì)多個(gè)譯本進(jìn)行對(duì)比分析,例如徐欣的《基于多譯本語料庫的譯文對(duì)比研究——對(duì)<傲慢與偏見>三譯本的對(duì)比分析》。而將語料庫用于文學(xué)文本本身分析的研究實(shí)例還相對(duì)較少,且這些研究多從文本總體特征、情節(jié)檢索、人物刻畫等方面分析,如任培紅《基于語料庫的<呼嘯山莊>檢索分析》。
本文采用語料庫的方法,使用Wordsmith和Antconc軟件,對(duì)小說《格列佛游記》的文本進(jìn)行檢索分析。通過詞長、詞匯密度、主題詞幾個(gè)方面分析該小說的詞匯特征。
Gulliver's Travels《格列佛游記》是Jonathan Swift(喬納森·斯威夫特)于1726年出版的一部杰出的游記體諷刺小說。為了方便檢索,筆者將小說的四個(gè)部分分別放到四個(gè)文本文件中,分別命名為1,2,3,4,使用 WordSmith軟件和Antconc軟件進(jìn)行檢索。WordSmith軟件是由英國利物浦大學(xué)Mike Scott設(shè)計(jì),牛津大學(xué)出版社出版的付費(fèi)軟件,Antconc軟件是日本早稻田大學(xué)Laurence Anthony博士編寫的免費(fèi)軟件。兩款軟件均被廣泛應(yīng)用于語料庫的檢索分析。
“詞長是決定文本難易程度的一個(gè)重要指標(biāo)。由2-5個(gè)字母組成的詞看作是小詞或常見詞,這些詞在整個(gè)語料庫中的比例越高,近似地反映出該語料庫中的語料使用的小詞或常見詞越多,文章就越淺顯。單詞越短小,文本越易理解,難度越低,文本的正式程度就越低;反之,單詞越長,文本越不易理解,難度越大,文本越正式。“(楊秀珍等,2010)
下文兩個(gè)圖表是通過運(yùn)行wordsmith軟件并匯總數(shù)據(jù)得出的??梢钥闯?,文本中2-5個(gè)字母的“小詞”比例最大,其中2個(gè)字母的詞數(shù)量最多。軟件運(yùn)行結(jié)果還得出文本的平均詞長(mean word length)是4個(gè)字母。這兩點(diǎn)都表明小說詞長較短,整體語言較為簡單。而我們知道,《格列佛游記》文中雖另有深意,卻是以是兒童讀物形式面世,語言比然簡單,和筆者所得結(jié)論契合。
圖表一
詞匯密度可以反應(yīng)小說用詞多樣性,類符/形符比(type-token ratio,TTR)常用來計(jì)算文本的詞匯密度。但文本越大,形符量越大,類符量卻不會(huì)等量增加?!俺S玫难a(bǔ)救方法是使用標(biāo)準(zhǔn)化類符/形符比(standardized typetoken ratio)來計(jì)算詞匯密度?!?梁茂成等,2010)
通過運(yùn)行wordsmith軟件,我們可以得出小說文本的類符、形符及標(biāo)準(zhǔn)化類符形符比。如下圖:
“形符(token)類似于我們?nèi)粘Kf的‘詞’(梁茂成等,2010),總形符數(shù)是原料庫容量的最常用的測(cè)量單位?!毙≌f總形符數(shù)為176371,可看出小說總詞匯量不大,篇幅并不算長,屬于短篇小說。
“類符(type)作為一個(gè)統(tǒng)計(jì)量,指語料庫文本中任何一個(gè)獨(dú)特的詞性。換言之,在一個(gè)文本中,重復(fù)出現(xiàn)的形符只能看做一個(gè)類符?!毙≌f的總類符數(shù)(types)為8057。
小說文本的標(biāo)準(zhǔn)化類符/形符比(standardized typetoken ratio),即文本每1000詞的類符/形符比為43.6。可以看出作者使用的詞匯變化并不大,用詞不算豐富。
“在單篇或多篇文本中具有超高復(fù)現(xiàn)率的詞稱做主題詞,可以發(fā)現(xiàn)某一給定文類或主題文本的詞語特征?!?梁茂成等,2010)本文以蘭卡斯特大學(xué)、奧斯陸大學(xué)、卑爾根大學(xué)共同創(chuàng)建的LOB語料庫做為對(duì)比語料庫。使用Antconc中的Keyword List功能,可以得出《格列佛游記》的主題詞表。結(jié)果顯示,排名前三位的主題詞均為表示第一人稱單數(shù)的代詞,這是因?yàn)樾≌f是主人公以第一人稱視角敘述的。
圖表五
這些主題詞大體可分為四類,分別反映了作品不同的主題信息。
(1)表航海的相關(guān)詞語:island,sea,ship,captain,表明小說主人公在小說中的活動(dòng)與航海密切相關(guān)。
(2)表王公貴族的詞語:majesty,emperor,king,court,queen ,honour,prince,kingdom,palace,表示在主人公的經(jīng)歷中,先后遇到了國王王后公主等皇室成員,且這些人在他的經(jīng)歷中扮演了重要角色。
(3)本文中出現(xiàn)的獨(dú)特專有名詞:glumdalclitch,yahoos,blefuscu,houyhnhnms,這些專有名詞有的是地名,有的是物種名。
(4)其他具有分析價(jià)值的詞語:master,reader,feet等。Master在文中出現(xiàn)多次,從索引行中可以看出是主人的意思,通過查看索引行,我們可以得知,主人公在小說中成為了俘虜,經(jīng)歷了不同的主人。Reader出現(xiàn)的頻率也很高,多為my dear reader,這是因?yàn)樾≌f是以第一人稱敘述,與前文I,my,me出現(xiàn)頻率高同理。而feet在文中出現(xiàn)的比較多的是英尺的意思,小說中主人公去了“大人國”“小人國”,文中有許多地方提及尺寸。
結(jié)合原文,可以發(fā)現(xiàn)以上主題詞分析結(jié)果和原文內(nèi)容吻合。
本文作者使用語料庫軟件,對(duì)《格列佛游記》文本從詞長、詞匯密度、主題詞三個(gè)角度進(jìn)行了分析,既從統(tǒng)計(jì)分析角度對(duì)該文本有了更深入的剖析,又從另一個(gè)角度印證了使用語料庫分析文學(xué)文本詞匯特征的可行性。
使用語料庫分析文學(xué)文本,可以減少研究者主觀因素對(duì)研究結(jié)果的影響,使研究結(jié)論更有依據(jù),更加精確可信。除了研究者進(jìn)行研究,在文學(xué)教學(xué)過程中,也可以引入語料庫軟件,采用本文使用的分析步驟,幫助學(xué)生理解文章。
語料庫語言學(xué)屬于應(yīng)用語言學(xué)的分支,將其用于文學(xué)文本的分析,給予我們啟示:在今后的研究中,更多利用跨學(xué)科的方法和工具,會(huì)為學(xué)科研究帶來新體驗(yàn)和新發(fā)展。
[1]Douglas Biber,Susan Conrad,Randi Reppen,Corpus Linguistics[M].Foreign Language Teaching and Research Press,2000.
[2]梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].北京:外語教學(xué)與研究出版社,2010.
[3]楊慧中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社,2004.
[4]盧衛(wèi)中,夏云.語料庫文體學(xué):文學(xué)文體學(xué)研究的新途徑[J].外國語,2010(1).
[5]任培紅.基于語料庫的《呼嘯山莊》檢索分析[J].沈陽大學(xué)學(xué)報(bào),2008(4).
[6]徐欣.基于多譯本語料庫的譯文對(duì)比研究——對(duì)《傲慢與偏見》三譯本的對(duì)比分析[J].外國語,2010(2).
[7]楊秀珍,續(xù)娜,劉美瑜.基于語料庫的《暮光之城》系列小說詞匯特點(diǎn)初探[J].長春理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2010(3).