国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談?wù)Z料庫分類及用途

2018-11-01 07:00代思師蔡容齡吳恒
求知導(dǎo)刊 2018年25期
關(guān)鍵詞:多語種資料庫語言學(xué)

代思師 蔡容齡 吳恒

一、語料庫的定義

在語言學(xué)中,語料庫是指大量文本的集合。在語料庫語言學(xué)中,他們是主要用來進(jìn)行統(tǒng)計(jì)分析與假設(shè)檢定,在某一領(lǐng)域中,測(cè)試語言規(guī)律的出現(xiàn)或有效性。語料庫可以是某一單獨(dú)語種的文本(單語語料庫),又或者是多種語言中的文本數(shù)據(jù)。

二、語料庫的分類

1.多語種語料庫

多語種語料(Multilingual corpora)經(jīng)常經(jīng)過格式特殊處理進(jìn)行比對(duì)研究,也被稱作平行語料庫。它是由大量的平行文本(parallel text)組成。平行文本通常是幾種語言放在一起,有原文有譯文,對(duì)齊放置。較為著名的平行文本有洛布古典叢書和克萊梵語叢書。平行文本不僅僅是兩種語言的平行,有時(shí)會(huì)有多種語言集合。如圣經(jīng)研究中,關(guān)于圣經(jīng)的譯文可以有多種版本。較為著名的便是俄利根的《圣經(jīng)六國(guó)譯文合璧》,其中為舊約提供了六個(gè)版本。

在多語種語料庫中,一定要注意多語種語義的平行對(duì)齊,這是保障語言學(xué)研究的前提條件。一般情況下,雙語平行語料庫中,主要有兩種類型,翻譯語料庫(translation corpus)和對(duì)比語料庫(comparable corpus)。在翻譯語料庫中,一種語言的文本會(huì)是另外語種語言文本的翻譯。在翻譯過程中,翻譯人員可以對(duì)句子進(jìn)行拆分、合并、刪除、插入或重新排列。翻譯語料庫現(xiàn)如今廣泛運(yùn)用于機(jī)器翻譯中,機(jī)器翻譯實(shí)際屬于計(jì)算機(jī)語言學(xué)中的一類,其方法是通過某種程序?qū)⒁环N語言翻譯成另外一種語言。借助語料庫,便可以提供大量準(zhǔn)確而地道的目標(biāo)語言文本,從而使計(jì)算機(jī)可以生成更加復(fù)雜的自動(dòng)翻譯,處理更復(fù)雜的語言翻譯。

在對(duì)比語料庫中,文本都是同種類型,覆蓋同種內(nèi)容,但是他們并不是互相翻譯的關(guān)系。為開發(fā)平行語料庫,有些文本需以一個(gè)短語或句子組成的語塊進(jìn)行匹配。其中,經(jīng)常會(huì)運(yùn)用由兩種語言語料庫組成的平行語塊對(duì)雙語的機(jī)器翻譯進(jìn)行訓(xùn)練。為使語料庫能夠?qū)φZ言學(xué)研究更能有用,他們通常會(huì)運(yùn)用到注釋程序,比如,對(duì)演講的部分內(nèi)容進(jìn)行注釋或是詞性標(biāo)注。

2.數(shù)圖資料庫

一些語料庫還可用于分析文本結(jié)構(gòu)水平。尤其是一些較小的語料庫,有可能全部都有解析。這些語料庫通常稱為數(shù)圖資料庫(Treebanks)或者解析語料庫(Parsed Corpora)。在語言學(xué)中,數(shù)圖資料庫就是一個(gè)文本的解析語料庫,對(duì)句法或語義結(jié)構(gòu)進(jìn)行注釋。在二十世紀(jì)九十年代初期的解析語料庫的建造使計(jì)算機(jī)語言學(xué)發(fā)生了翻天覆地的變化,使他們從大范圍經(jīng)驗(yàn)數(shù)據(jù)中獲益。世界上規(guī)模最大的數(shù)圖資料庫是賓夕法尼亞大學(xué)數(shù)圖資料庫(The Penn Treebank)。自從該資料庫建立以后,數(shù)圖資料庫的運(yùn)用便顯得十分重要。雖然該類型語料庫是源于計(jì)算機(jī)語言學(xué),但是其研究領(lǐng)域范圍已經(jīng)涉及整個(gè)語言學(xué)研究。在數(shù)圖資料庫中,會(huì)對(duì)所有文字進(jìn)行注解。

3.考古語料庫

考古語料庫(Archaeological corpora)被用作研究歷史文檔,破譯古老的文本,或運(yùn)用于宗教學(xué)領(lǐng)域研究??脊耪Z料庫并不是新興的產(chǎn)物,在考古學(xué)中,古時(shí)候存在的大量文字語言的書籍或材料便可組成一個(gè)考古語料庫,如前文所說的羅塞塔石碑。石碑制作于公元前一九六年,原本只是一塊刻有古埃及法老托勒密五世詔書的石碑,但由于這塊石碑同時(shí)刻有同一段內(nèi)容的三種不同語言版本,使得近代的考古學(xué)家得以有機(jī)會(huì)對(duì)照各語言版本的內(nèi)容后,解讀出已經(jīng)失傳千余年的埃及象形文之意義與結(jié)構(gòu),而是研究古埃及歷史的重要里程碑。

三、結(jié)語

對(duì)于英語學(xué)習(xí)者來講,語料庫的用途也十分廣泛??捎糜谀繕?biāo)語言的學(xué)習(xí),同時(shí)也可以用作外文寫作的輔助工具,通過語料庫呈現(xiàn)的權(quán)威文本來掌握目標(biāo)語言的語句形成習(xí)慣。

參考文獻(xiàn):

[1]王克非,秦洪武.論平行語料庫在翻譯教學(xué)中的應(yīng)用[J].外語教學(xué)與研究,2015(5).

[2]王克非.中國(guó)英漢平行語料庫的設(shè)計(jì)與研制[J].中國(guó)外語,2012(6).

猜你喜歡
多語種資料庫語言學(xué)
語聯(lián)世界,言通天下
70年,上外故事
語言學(xué)研究的多元化趨勢(shì)分析
實(shí)現(xiàn)科學(xué)教材中資料庫的教育價(jià)值
中國(guó)國(guó)際廣播電臺(tái)“ China ”系列 多語種移動(dòng)客戶端上線
走出教學(xué)盲區(qū) 填充智慧行囊
A Pragmatic Study of Gender Differences in Verbal Communication
大學(xué)生自建口譯資料庫初探
書訊《百年中國(guó)語言學(xué)思想史》出版
The Influence of Memetics for Language Spread