代思師 蔡容齡 吳恒
一、語料庫的定義
在語言學(xué)中,語料庫是指大量文本的集合。在語料庫語言學(xué)中,他們是主要用來進(jìn)行統(tǒng)計(jì)分析與假設(shè)檢定,在某一領(lǐng)域中,測(cè)試語言規(guī)律的出現(xiàn)或有效性。語料庫可以是某一單獨(dú)語種的文本(單語語料庫),又或者是多種語言中的文本數(shù)據(jù)。
二、語料庫的分類
1.多語種語料庫
多語種語料(Multilingual corpora)經(jīng)常經(jīng)過格式特殊處理進(jìn)行比對(duì)研究,也被稱作平行語料庫。它是由大量的平行文本(parallel text)組成。平行文本通常是幾種語言放在一起,有原文有譯文,對(duì)齊放置。較為著名的平行文本有洛布古典叢書和克萊梵語叢書。平行文本不僅僅是兩種語言的平行,有時(shí)會(huì)有多種語言集合。如圣經(jīng)研究中,關(guān)于圣經(jīng)的譯文可以有多種版本。較為著名的便是俄利根的《圣經(jīng)六國(guó)譯文合璧》,其中為舊約提供了六個(gè)版本。
在多語種語料庫中,一定要注意多語種語義的平行對(duì)齊,這是保障語言學(xué)研究的前提條件。一般情況下,雙語平行語料庫中,主要有兩種類型,翻譯語料庫(translation corpus)和對(duì)比語料庫(comparable corpus)。在翻譯語料庫中,一種語言的文本會(huì)是另外語種語言文本的翻譯。在翻譯過程中,翻譯人員可以對(duì)句子進(jìn)行拆分、合并、刪除、插入或重新排列。翻譯語料庫現(xiàn)如今廣泛運(yùn)用于機(jī)器翻譯中,機(jī)器翻譯實(shí)際屬于計(jì)算機(jī)語言學(xué)中的一類,其方法是通過某種程序?qū)⒁环N語言翻譯成另外一種語言。借助語料庫,便可以提供大量準(zhǔn)確而地道的目標(biāo)語言文本,從而使計(jì)算機(jī)可以生成更加復(fù)雜的自動(dòng)翻譯,處理更復(fù)雜的語言翻譯。
在對(duì)比語料庫中,文本都是同種類型,覆蓋同種內(nèi)容,但是他們并不是互相翻譯的關(guān)系。為開發(fā)平行語料庫,有些文本需以一個(gè)短語或句子組成的語塊進(jìn)行匹配。其中,經(jīng)常會(huì)運(yùn)用由兩種語言語料庫組成的平行語塊對(duì)雙語的機(jī)器翻譯進(jìn)行訓(xùn)練。為使語料庫能夠?qū)φZ言學(xué)研究更能有用,他們通常會(huì)運(yùn)用到注釋程序,比如,對(duì)演講的部分內(nèi)容進(jìn)行注釋或是詞性標(biāo)注。
2.數(shù)圖資料庫
一些語料庫還可用于分析文本結(jié)構(gòu)水平。尤其是一些較小的語料庫,有可能全部都有解析。這些語料庫通常稱為數(shù)圖資料庫(Treebanks)或者解析語料庫(Parsed Corpora)。在語言學(xué)中,數(shù)圖資料庫就是一個(gè)文本的解析語料庫,對(duì)句法或語義結(jié)構(gòu)進(jìn)行注釋。在二十世紀(jì)九十年代初期的解析語料庫的建造使計(jì)算機(jī)語言學(xué)發(fā)生了翻天覆地的變化,使他們從大范圍經(jīng)驗(yàn)數(shù)據(jù)中獲益。世界上規(guī)模最大的數(shù)圖資料庫是賓夕法尼亞大學(xué)數(shù)圖資料庫(The Penn Treebank)。自從該資料庫建立以后,數(shù)圖資料庫的運(yùn)用便顯得十分重要。雖然該類型語料庫是源于計(jì)算機(jī)語言學(xué),但是其研究領(lǐng)域范圍已經(jīng)涉及整個(gè)語言學(xué)研究。在數(shù)圖資料庫中,會(huì)對(duì)所有文字進(jìn)行注解。
3.考古語料庫
考古語料庫(Archaeological corpora)被用作研究歷史文檔,破譯古老的文本,或運(yùn)用于宗教學(xué)領(lǐng)域研究??脊耪Z料庫并不是新興的產(chǎn)物,在考古學(xué)中,古時(shí)候存在的大量文字語言的書籍或材料便可組成一個(gè)考古語料庫,如前文所說的羅塞塔石碑。石碑制作于公元前一九六年,原本只是一塊刻有古埃及法老托勒密五世詔書的石碑,但由于這塊石碑同時(shí)刻有同一段內(nèi)容的三種不同語言版本,使得近代的考古學(xué)家得以有機(jī)會(huì)對(duì)照各語言版本的內(nèi)容后,解讀出已經(jīng)失傳千余年的埃及象形文之意義與結(jié)構(gòu),而是研究古埃及歷史的重要里程碑。
三、結(jié)語
對(duì)于英語學(xué)習(xí)者來講,語料庫的用途也十分廣泛??捎糜谀繕?biāo)語言的學(xué)習(xí),同時(shí)也可以用作外文寫作的輔助工具,通過語料庫呈現(xiàn)的權(quán)威文本來掌握目標(biāo)語言的語句形成習(xí)慣。
參考文獻(xiàn):
[1]王克非,秦洪武.論平行語料庫在翻譯教學(xué)中的應(yīng)用[J].外語教學(xué)與研究,2015(5).
[2]王克非.中國(guó)英漢平行語料庫的設(shè)計(jì)與研制[J].中國(guó)外語,2012(6).