国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

英漢商務(wù)信函語料庫中語塊提取研究

2015-03-12 16:40:07張博
科技資訊 2015年24期
關(guān)鍵詞:語料庫

張博

摘 要:英漢商務(wù)信函語料庫中語塊提取研究在借鑒語塊理論研究的基礎(chǔ)上,提出商務(wù)信函中英語和漢語語塊的界定標(biāo)準(zhǔn),對其進(jìn)行了分類和形式化描述,提出了一種基于規(guī)則匹配的方案,通過自動在互聯(lián)網(wǎng)上采集網(wǎng)頁構(gòu)筑動態(tài)語料庫,利用英漢商務(wù)信函語塊的結(jié)構(gòu)、意義和功能等方面的特征制定英漢商務(wù)信函語塊自動提取規(guī)則,從而實(shí)現(xiàn)從未經(jīng)人工校對、自動分詞以及詞性標(biāo)注的生語料中自動提取英漢商務(wù)信函語塊的功能。該文依據(jù)語塊理論來探討英漢商務(wù)信函語料庫中語塊提取研究的研究目的,主要工作和研究成果。

關(guān)鍵詞:英漢商務(wù)信函 語料庫 語塊提取 研究目的

中圖分類號:F711 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2015)08(c)-0190-02

1 語塊理論

語塊研究在國內(nèi)外語言學(xué)界已引起廣泛的重視。該研究的熱潮可從2009年5月在對外經(jīng)濟(jì)貿(mào)易大學(xué)英語學(xué)院成功召開的“首屆全國語言語塊教學(xué)與研究學(xué)術(shù)研討會”得到印證。國內(nèi)的語塊研究越來越細(xì)致、深入,主要涉及搭配的研究;揭示詞塊運(yùn)用與英語口語和寫作之間的關(guān)系;強(qiáng)調(diào)詞塊學(xué)習(xí)在二語習(xí)得中的重要地位;語塊提取等。Sinclair(1991)認(rèn)為:那些出現(xiàn)頻率高的詞匯串成了英語中基本的語言單位,大約70%的英語語言由存儲于人體大腦的語言板塊構(gòu)成。由于商務(wù)信函中的語言大多是具有一定的言語程式或行話,如:Enclosed please find…(隨函附寄……,請查收),cash on delivery(貨到付款)等。此種言語程式或行話由于出現(xiàn)頻率很高, 并且形式和意義較固定, 使用的語境也較固定, 就像一個板塊一樣。可以預(yù)測,借助于語料庫、統(tǒng)計(jì)分析、認(rèn)知科學(xué)等方面的知識和方法,語塊理論應(yīng)用于語言教學(xué)、信息檢索和機(jī)器翻譯等方面的研究將更為明確化和具體化。因此,英漢商務(wù)信函語料庫的構(gòu)建及語塊提取具有重要意義。

國內(nèi)外學(xué)者對“語塊(chunks)”的表述有多種形式,如: “l(fā)exical phrases”(Nattinger & DeCarrico,1992),“formulaic sequence” (Wray,2002)。雖然名稱不同,且這些名稱所指的內(nèi)容也有一定的差別,但其探討的本質(zhì)基本相同。Lewis (1997) 認(rèn)為,語言不是由傳統(tǒng)的語法結(jié)構(gòu)與詞匯組成,而是由多詞的語塊組成的。Altenberg & Granger(2001)發(fā)現(xiàn),大約70%的日常口語都是由預(yù)制語塊構(gòu)成的。半固定化的結(jié)構(gòu)和其它預(yù)制語言或“板塊”結(jié)構(gòu)在語言習(xí)得和語言運(yùn)用中起十分重要的作用。因此,我們不應(yīng)該僅僅在課堂中提供給學(xué)生大量的抽象的語法結(jié)構(gòu)、孤立的單詞或者大段語篇的輸入,而應(yīng)該教給學(xué)生類似語塊這種結(jié)合了語法結(jié)構(gòu)、意義和功能的語言單位,且通過大量重復(fù)性的操練使這些語塊固定在學(xué)生的心理詞庫中。

關(guān)于語塊的研究方法,現(xiàn)有的研究主要使用了語法學(xué)方法、語料庫語言學(xué)方法、語言心理學(xué)研究方法以及近年來才出現(xiàn)的教學(xué)實(shí)驗(yàn)研究方法。語法學(xué)的研究方法出現(xiàn)得最早,這種方法強(qiáng)調(diào)要對語塊的定義和所包含的范圍進(jìn)行嚴(yán)格的界定。但從研究成果來看,語塊的名稱、定義和分類有很多種,沒有形成一個統(tǒng)一的受到普遍認(rèn)可的理論框架。且現(xiàn)有的對語塊的定義和分類都是在對英語這一語言進(jìn)行分析的基礎(chǔ)上進(jìn)行的,不能確定這種定義和分類方法也適合其他語言。并且,語塊的范圍是可變的,在不同的領(lǐng)域,如語言教學(xué)領(lǐng)域的語塊,就不同于文學(xué)創(chuàng)作領(lǐng)域的語塊。語料庫語言學(xué)方法注重通過考察在大規(guī)模語料庫中的出現(xiàn)頻率再加上常識判斷來識別多詞結(jié)構(gòu)、固定搭配和其他反復(fù)出現(xiàn)的語塊。在語料庫語言學(xué)的研究領(lǐng)域,語塊的提取一直是個難題?,F(xiàn)有的詞塊提取方法主要有搭配法、詞叢法和搭配——詞叢法,在此基礎(chǔ)之上,濮建忠(2007)獨(dú)辟蹊徑,構(gòu)建了語料庫數(shù)據(jù)驅(qū)動的連續(xù)詞塊自動提取模型,這不僅有效地排除了“結(jié)構(gòu)”和“意義”不完整的噪音序列,而且較好地避免了詞叢法選取的詞塊之間的重疊部分,提取出的詞塊準(zhǔn)確地反映了真實(shí)語言的使用情況(李晶潔,衛(wèi)乃興2010)。

筆者認(rèn)為,上述方法都有各自的優(yōu)點(diǎn)和不足之處。同時(shí),各種方法又相輔相成、互為依據(jù)、互相補(bǔ)充。語法學(xué)研究方法是所有其他研究之根本,不對語塊的概念進(jìn)行嚴(yán)格的定義,不按照統(tǒng)一標(biāo)準(zhǔn)對語塊進(jìn)行分類,就無法使用篩選、統(tǒng)計(jì)、分析等語料庫語言學(xué)方法; 不通過語言心理學(xué)的相關(guān)研究方法,使用語法學(xué)研究方法研究出的理論就會缺乏相應(yīng)的科學(xué)依據(jù);不通過教學(xué)實(shí)驗(yàn),使用語法學(xué)研究方法提出的關(guān)于語塊作用的理論也得不到驗(yàn)證。

總的來看,語塊研究在國內(nèi)剛起步,還有許多問題尚待研究,應(yīng)加強(qiáng)語塊本體和應(yīng)用的研究,特別是筆者關(guān)注的語言教學(xué)和翻譯領(lǐng)域。因此,英漢商務(wù)信函語料庫的構(gòu)建及語塊提取具有重要意義。

2 研究目的

到目前為止,國內(nèi)外鮮有學(xué)者專門針對英漢商務(wù)信函語料庫中的語塊提取展開研究。由于商務(wù)交往中有相當(dāng)?shù)囊徊糠謨?nèi)容是通過信函形式進(jìn)行,針對英漢商務(wù)信函語塊對商務(wù)英語教學(xué)、信息檢索和機(jī)器翻譯等方面工作造成的障礙,英漢商務(wù)信函語料庫中語塊提取研究在借鑒其他語塊研究的基礎(chǔ)上,提出了商務(wù)信函中英語和漢語語塊的界定標(biāo)準(zhǔn),對其進(jìn)行了分類和形式化描述并提出了一種基于規(guī)則匹配的方案,通過自動在互聯(lián)網(wǎng)上采集網(wǎng)頁構(gòu)筑動態(tài)語料庫,利用英漢商務(wù)信函語塊結(jié)構(gòu)、意義和功能等方面的特征制定英漢商務(wù)信函語塊自動提取規(guī)則,從而實(shí)現(xiàn)從未經(jīng)人工校對、自動分詞以及詞性標(biāo)注的生語料中自動提取英漢商務(wù)信函語塊的功能。

3 主要工作和研究成果

(1)在借鑒英語和漢語對語塊概念與分類研究的基礎(chǔ)上,將英漢商務(wù)信函語塊分為三種類型:全稱縮略語塊、慣用表達(dá)語塊、專業(yè)術(shù)語語塊。(2)為了制定英漢商務(wù)信函語塊自動提取規(guī)則,通過對大量英漢商務(wù)信函語料的分析,將基于規(guī)則的英漢商務(wù)信函語塊自動提取共包括三個步驟:文本預(yù)處理、英漢商務(wù)信函語塊識別和后期處理,并對其進(jìn)行了形式化描述,分析了基于規(guī)則的英漢商務(wù)信函語塊自動提取的關(guān)鍵技術(shù)。(3)設(shè)計(jì)制作英漢商務(wù)信函語塊自動提取實(shí)驗(yàn)系統(tǒng),通過“網(wǎng)頁自動下載模塊、語料信息抽取與格式化模塊、文本預(yù)處理模塊、英漢商務(wù)信函語塊識別模塊、后期處理模塊”五個模塊,采用基于規(guī)則的方法實(shí)現(xiàn)了從未經(jīng)人工校對、自動分詞以及詞性標(biāo)注的生語料文本中自動提取英漢商務(wù)信函語塊的功能,取得了較好的提取效果。

4 研究意義

語塊數(shù)量如此之多,僅靠死記硬背是不現(xiàn)實(shí)的,因此,研究如何利用語料庫進(jìn)行語塊的提取,在語言教學(xué)和機(jī)器翻譯等方面的研究中具有十分重要的意義。英漢商務(wù)信函語料庫中語塊提取研究是利用計(jì)算機(jī)進(jìn)行基于英漢商務(wù)信函雙語語料庫的語塊提取研究,具有多方面的重要意義:(1)該研究為開展對外經(jīng)貿(mào)交流和向國外有關(guān)企業(yè)機(jī)構(gòu)提供經(jīng)濟(jì)技術(shù)合作和貿(mào)易方面的信息咨詢服務(wù)并解決英漢商務(wù)信函中的語言溝通障礙。(2)英漢商務(wù)信函語塊自動提取的實(shí)現(xiàn)為英漢商務(wù)信函機(jī)器輔助翻譯系統(tǒng)的譯準(zhǔn)率提高起到關(guān)鍵作用,為研制在互聯(lián)網(wǎng)上進(jìn)行機(jī)器輔助英漢商務(wù)信函翻譯系統(tǒng)提供基礎(chǔ),為研制經(jīng)貿(mào)專業(yè)機(jī)器翻譯系統(tǒng)創(chuàng)造必要的條件。(3)英漢商務(wù)信函語塊自動提取方法對進(jìn)一步對大規(guī)模各種專業(yè)的雙語語料利用計(jì)算機(jī)自動提取語塊提供了思路。(4)構(gòu)建的一個規(guī)模為100萬詞次的英漢商務(wù)信函語料庫(包括四個子庫:英語商務(wù)信函語料庫,漢語商務(wù)信函語料庫,英漢商務(wù)信函平行語料庫,漢英商務(wù)信函平行語料庫)該庫為動態(tài)的,可以自動獲取服務(wù)于語塊自動提取的知識資源,是面向商務(wù)領(lǐng)域的一個特定的語料庫,它對商務(wù)英語學(xué)習(xí)者、商務(wù)漢語學(xué)習(xí)者、翻譯學(xué)習(xí)者及工作者的研究與學(xué)習(xí)起到指導(dǎo)作用。

參考文獻(xiàn)

[1] 濮建忠.英語詞匯教學(xué)中的類聯(lián)接、搭配及詞塊[J].外語教學(xué)與研究,2003(6):438-445.

[2] Wray, A. Formulaic Language and the Lexicon[M].Cambridge: Cambridge University Press,2002.

[3] Altenberg B.& Granger S.The Grammatical and Lexical Patterning of “Make”in Native and Non native Student Writing[J].Applied Linguistics,2001,22(2):173-194.

[4] 王立非,陳香蘭.語言語塊教學(xué)與研究在中國的進(jìn)展—— “首屆全國語言語塊教學(xué)與研究學(xué)術(shù)研討會”綜述[J].外國語,2009(6):90-94.

[5] 曹合建.基于語料庫的商務(wù)英語研究[M].北京:對外經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2008.

[6] 李晶潔,衛(wèi)乃興.學(xué)術(shù)英語文本中連續(xù)短語單位的提取方法[J].解放軍外國語學(xué)院學(xué)報(bào),2010(2):45-50.

猜你喜歡
語料庫
《語料庫翻譯文體學(xué)》評介
基于語料庫的“はずだ”語義用法分析
基于語料庫“隱秘”的詞類標(biāo)注初步探究
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
基于COCA語料庫的近義詞辨析 ——以choose和select為例
口譯不宜“任性”:基于語料庫的外事翻譯等效探索
語言與翻譯(2015年3期)2015-07-18 11:11:04
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
基于英漢雙語平行語料庫的無根回譯研究
基于語料庫的近義詞辨析研究——以suspect和doubt為例
低碳經(jīng)濟(jì)英語語料庫建設(shè)與應(yīng)用
方城县| 富顺县| 松溪县| 天门市| 南平市| 长泰县| 米林县| 阳谷县| 辛集市| 公安县| 临泽县| 遂昌县| 临桂县| 荃湾区| 临汾市| 榆树市| 民县| 北海市| 永善县| 资阳市| 临湘市| 山东省| 新乡县| 宁波市| 宣化县| 海晏县| 文昌市| 巢湖市| 精河县| 饶平县| 安泽县| 麻城市| 台中市| 汝城县| 南投市| 扎赉特旗| 丘北县| 高平市| 苗栗县| 巴楚县| 南部县|