小型商務(wù)文本英漢平行語料庫的建設(shè)與應(yīng)用

2023-01-02 14:28:14陳少琛

科教導(dǎo)刊·電子版 2022年28期

陳少琛

（寧波工程學(xué)院外國語學(xué)院，浙江寧波 315211）

0 引言

語料庫語言學(xué)的興起為翻譯研究提供了一個新的視角和方法，推動了翻譯相關(guān)的語料庫建設(shè)，為翻譯學(xué)開啟了新的研究范式。Baker[1]在1993年闡述了語料庫在譯學(xué)研究中的作用，為語料庫翻譯學(xué)研究開辟了新的天地。通過語料庫的方法，可對源語文本和翻譯語料進行統(tǒng)計、比較和分析，以研究翻譯語言特征、譯者風(fēng)格和翻譯規(guī)范，因此，語料庫翻譯學(xué)成為譯學(xué)研究的重要領(lǐng)域[2]。在各類語料庫中，與翻譯關(guān)系最為緊密的莫過于雙語平行語料庫。雙語平行語料庫被廣泛應(yīng)用于語言研究、翻譯研究、外語教學(xué)和跨語言信息檢索，可為翻譯教學(xué)和研究提供可靠的翻譯實例和量化數(shù)據(jù)[3]。國內(nèi)研發(fā)了多個通用雙語平行語料庫，包括中國科學(xué)院漢英平行語料庫、南京大學(xué)雙語詞典研究中心英漢雙語平行語料庫、清華大學(xué)中英平行語料庫、北京外國語大學(xué)雙語平行語料庫等，其在語言學(xué)研究和自然信息處理中的作用愈發(fā)重要[4]。

但是，目前的英漢平行語料庫多為通用語料庫，針對性不強，且大多無法公開訪問，難以滿足特定領(lǐng)域的翻譯教學(xué)和研究需求。因此，筆者特構(gòu)建小型商務(wù)文本英漢平行語料庫，以滿足商務(wù)領(lǐng)域翻譯資源建設(shè)、翻譯理論和技巧學(xué)習(xí)、翻譯實踐應(yīng)用等需求，可為商務(wù)文本的語言特征對比、文體風(fēng)格分析和翻譯研究提供可靠的數(shù)據(jù)，為學(xué)生的學(xué)習(xí)和實踐提供真實的語料。

1 語料庫的建設(shè)

1.1 語料庫的設(shè)計

本語料庫建設(shè)的目的是服務(wù)商務(wù)翻譯的教學(xué)和研究，因此在語料構(gòu)成方面依照商務(wù)文本的類型設(shè)定，分成幾大類：公司介紹、產(chǎn)品推介、貿(mào)易單證、企業(yè)年報、招股章程、行業(yè)報告、經(jīng)濟政策、商業(yè)新聞等。每一大類的語料規(guī)模盡量均衡，并兼顧英漢和漢英兩種方向，其中英漢約占1/3，漢英約占2/3。

語料選取把握三個原則：真實性、相關(guān)性和高質(zhì)量。本語料庫大部分語料都是在商務(wù)場景中被實際運用的語料，來源主要為企業(yè)網(wǎng)站、政府網(wǎng)站、經(jīng)濟論壇、新聞網(wǎng)站、權(quán)威教材等，確保語料的真實性。語料的選取嚴(yán)格依照語料庫的內(nèi)容分類進行采樣，每個大類確保一定的語料數(shù)量，保證語料內(nèi)容與商務(wù)主題高度相關(guān)。此外，為了確保譯文的質(zhì)量，在語料采集時嚴(yán)格控制語料來源，僅選擇權(quán)威網(wǎng)站或教材的雙語材料，比如，企業(yè)材料選擇大型跨國企業(yè)或在境外上市的中國公司的官網(wǎng)資源，從其中文網(wǎng)站和英文網(wǎng)站上獲取對應(yīng)的雙語語料，新聞?wù)Z料從提供雙語文本的網(wǎng)站獲取，如China Daily、Financial Times等。

所有語料實現(xiàn)源語和目的語文本句級對齊，并進行分詞和詞性標(biāo)注，便于考察文本特征、分析源語文本和目的語文本之間對應(yīng)關(guān)系、探討翻譯策略和方法，以滿足教學(xué)和研究的需要。

1.2 語料的加工

1.2.1 語料的采集

語料的采集分成三種類型：網(wǎng)頁抓取、文檔下載和紙質(zhì)教材。網(wǎng)頁語料主要從目標(biāo)站點抓取，保存為TXT文件。以文檔形式存在的語料從相關(guān)網(wǎng)站下載，多為PDF格式，使用PDF編輯器轉(zhuǎn)換為Word格式保存。紙質(zhì)教材通過掃描，保存為圖片格式，然后通過圖文識別軟件識別文字，導(dǎo)出保存為TXT文件。

1.2.2 語料的清洗

使用EmEditor對文本進行降噪處理，利用正則表達(dá)式和查找、替換的功能，去除多余的空行、回車、字符和其他不利于后期處理的干擾信息，添加必要的標(biāo)記符號，編輯后的文本統(tǒng)一保存為TXT文件，編碼為utf-8格式。

1.2.3 語料的對齊

語料的對齊使用ABBYY Aligner進行英漢雙語的自動對齊，再輔以人工校對和調(diào)整，依照原文句子對齊，進行適當(dāng)?shù)那蟹只蚝喜?。所有語料實現(xiàn)句級對齊，導(dǎo)出TMX格式文件和雙語對照的Word文件，TMX文件保存用于翻譯記憶庫，Word文件進一步轉(zhuǎn)換成TXT文件，原文和譯文分成兩個文檔，文件名相同，英文文檔文件名后添加“.EN”，中文文檔添加“.CN”。

1.2.4 語料的標(biāo)注

為了實現(xiàn)中文文本的檢索和統(tǒng)計，需要先進行分詞和詞性標(biāo)注。中文的分詞和詞性標(biāo)注使用NLPIR-Parser系統(tǒng)（ICTCLAS分詞系統(tǒng)）[5]，該系統(tǒng)分詞的準(zhǔn)確率較高。利用該分詞系統(tǒng)，完成對中文文本的分詞和詞性賦碼。英文文本的詞性標(biāo)注采用TreeTagger軟件。軟件標(biāo)注詞性后，進行人工檢查和調(diào)整。

1.3 語料的檢索

語料的檢索主要使用ParaConc和WordSmith。Para-Conc主要利用其平行文本的檢索功能，對某些字符匹配的對應(yīng)翻譯進行檢索，利用熱詞搜索功能，對字符常用的對應(yīng)譯詞進行統(tǒng)計，利用詞頻統(tǒng)計功能，對不同文本的詞頻進行統(tǒng)計和比較。WordSmith主要用于：統(tǒng)計語料的形符、類符、平均句長和詞長等數(shù)據(jù)，以分析語料的語言特征；進行某些詞匯的檢索，統(tǒng)計詞頻，制作關(guān)鍵詞詞表。

2 語料庫的主要應(yīng)用

目前本語料庫的規(guī)模約為100萬字詞，涵蓋八大商務(wù)主題，所有對齊語料各有三個版本，即tmx格式版本、未標(biāo)注詞性版本和完成分詞和詞性標(biāo)注版本，可滿足不同的需求。

2.1 商務(wù)文本的語言特征和文體分析

不同類型的商務(wù)文本有著不同的語言特征和文體風(fēng)格，這對翻譯策略和方法的選擇有著重要的意義，在商務(wù)翻譯教學(xué)中，需要提高學(xué)生的文體意識，確保譯文符合文體風(fēng)格方面的要求。因此，可以利用本平行語料庫，對不同類別的商務(wù)文本進行類符/形符比、詞匯密度、平均句長、高頻詞等方面進行統(tǒng)計和比較，以分析各類文本的語言特征，從而歸納總結(jié)特定文本類型的文體風(fēng)格，并可對原創(chuàng)文本和翻譯文本進行語言特征的對比，以考察翻譯文本特有的語言特征。

2.2 特定詞匯的運用和轉(zhuǎn)換

通過語料檢索，可以考察源語文本和翻譯文本在詞匯層面的對應(yīng)關(guān)系，統(tǒng)計特定詞匯的使用情況，包括詞頻、詞語搭配、語義韻等，加深學(xué)生對特定詞匯使用的認(rèn)識。還可以通過獲取具體的翻譯數(shù)據(jù)，統(tǒng)計特定詞匯對應(yīng)的常用譯詞，結(jié)合譯詞所在句子的上下文，分析翻譯中詞義選擇的考量因素，總結(jié)詞義選擇的方法。

2.3 翻譯策略和方法的分析

翻譯策略和方法的教學(xué)是商務(wù)翻譯教學(xué)的重點，在教學(xué)中可以利用本英漢平行語料庫，對特定商務(wù)術(shù)語、文化詞匯和修辭性表達(dá)的檢索，獲得大量的翻譯實例，結(jié)合例子，分析針對某些特定的表達(dá)，譯文中做出了哪些調(diào)整，采用何種翻譯策略和方法，分析其背后的原因，總結(jié)翻譯策略和方法使用的原則，以此提高學(xué)生的翻譯能力。

2.4 商務(wù)翻譯實踐練習(xí)的輔助

完成句級對齊的語料可以作為學(xué)生進行翻譯實踐練習(xí)的輔助材料，為學(xué)生的練習(xí)提供術(shù)語和翻譯實例參考?？山Y(jié)合Trados、Wordfast等機輔翻譯軟件，導(dǎo)入雙語對齊的語料，一方面可制作成術(shù)語表，規(guī)范術(shù)語的使用，另一方面導(dǎo)入記憶庫，輔助學(xué)生的翻譯過程，為學(xué)生掌握基礎(chǔ)的翻譯技術(shù)提供語料的支撐。

3 結(jié)語

商務(wù)翻譯是應(yīng)用翻譯的重要組成部分，商務(wù)翻譯的研究和教學(xué)需要跟上時代的發(fā)展。商務(wù)英漢平行語料庫的建設(shè)，可為商務(wù)翻譯研究提供真實的語言數(shù)據(jù)，對商務(wù)翻譯的語言特征進行充分的描述，揭示商務(wù)文本的文體特征和翻譯規(guī)律。利用語料庫的資源，可以改進商務(wù)翻譯教學(xué)的模式，為現(xiàn)有的教學(xué)內(nèi)容提供有效的補充，改變傳統(tǒng)基于教材的學(xué)習(xí)方式，融入語料庫手段，培養(yǎng)學(xué)生利用語言數(shù)據(jù)和語料庫技術(shù)的能力，以探索語言差異和語言轉(zhuǎn)換的規(guī)律。希望通過本語料庫的建設(shè)，幫助實現(xiàn)翻譯研究、翻譯教學(xué)和實踐的有機結(jié)合，為商務(wù)翻譯的研究和教學(xué)貢獻一份力量。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡