摘 要:在中國(guó)礦業(yè)積極學(xué)習(xí)借鑒西方國(guó)家先進(jìn)礦業(yè)技術(shù)的背景下,礦業(yè)文本的翻譯變得越發(fā)重要。但目前該領(lǐng)域翻譯人才缺乏,相關(guān)翻譯活動(dòng)有一定難度,故本文以Maptek公司礦業(yè)相關(guān)文本作為語料自建語料庫,從詞頻、詞匯密度、平均詞長(zhǎng)、平均句長(zhǎng)四個(gè)方面對(duì)礦業(yè)文本的特征進(jìn)行分析,以期為礦業(yè)領(lǐng)域的翻譯實(shí)踐提供些許建議。
關(guān)鍵詞:語料庫;礦業(yè);文本分析;翻譯實(shí)踐
1引言
近年來,隨著中國(guó)工業(yè)化、城鎮(zhèn)化進(jìn)程不斷加快,經(jīng)濟(jì)高速發(fā)展帶動(dòng)了礦產(chǎn)資源需求的高速增長(zhǎng),中國(guó)礦業(yè)展示出了前所未有的發(fā)展勢(shì)頭,2003—2011年,我國(guó)礦業(yè)產(chǎn)值從7357億元增長(zhǎng)到了5.86萬億元,增長(zhǎng)了7倍,年均增長(zhǎng)率為29.6%,但相較于西方發(fā)達(dá)國(guó)家,我國(guó)礦業(yè)發(fā)展仍處于一個(gè)初始階段,距資本—技術(shù)密集型相差很遠(yuǎn)。鑒于此,對(duì)西方發(fā)達(dá)國(guó)家礦業(yè)領(lǐng)域的文本進(jìn)行翻譯,有助于學(xué)習(xí)和借鑒其先進(jìn)的采礦技術(shù)和工藝,促進(jìn)中國(guó)礦業(yè)不斷發(fā)展。但由于多種原因,目前國(guó)內(nèi)該領(lǐng)域翻譯人才欠缺,礦業(yè)文本翻譯相關(guān)研究不足。
2介紹
當(dāng)譯者著手翻譯一篇文章時(shí),對(duì)文本的分析無疑是第一步。文本分析對(duì)于翻譯而言就如同臺(tái)階的第一步,萬丈高樓的基石。文本分析對(duì)譯者透徹理解原文、制定翻譯策略起著至關(guān)重要的作用。談及文本分析的方法,德國(guó)功能學(xué)派理論學(xué)家諾德所提出的文本分析模式(以下簡(jiǎn)稱“諾德”模式)無疑占據(jù)了很重要的位置。諾德認(rèn)為文本分析應(yīng)該從語言和非語言兩方面因素進(jìn)行,即文本內(nèi)因素和文本外因素,文本外因素包含文本發(fā)送者、發(fā)送者意圖、文本接受者、媒介等,文本內(nèi)因素則涉及篇章結(jié)構(gòu)安排、詞匯層面、句子結(jié)構(gòu)、超音段特征等方面。諾德模式無疑為文本特征分析提供了方向和角度,但其缺陷在于沒有提供分析文本內(nèi)外因素的具體方式和衡量標(biāo)準(zhǔn),比如分析詞匯層面的特定術(shù)語,該如何分析,有怎樣的指標(biāo),都沒有涉及,因而運(yùn)用諾德模式進(jìn)行文本分析會(huì)不好衡量和把握。但語料庫手段的引入無疑為進(jìn)行客觀的文本特征分析,尤其是文本內(nèi)因素的分析提供了一個(gè)很好的途徑。
3自建語料庫
當(dāng)前,基于語料庫的翻譯研究不斷增多,所建語料庫類型也是種類繁多,內(nèi)容日趨完善,但仍缺乏針對(duì)礦業(yè)文本專門建立的語料庫。自建語料庫大小比較靈活,可根據(jù)需要自行確定,但通常適用于沒有現(xiàn)成語料庫,現(xiàn)有語料庫不適用或不能滿足研究需求,需要對(duì)比語料庫以及需要特殊語料的情況。鑒于目前沒有直接可用的礦業(yè)文本語料庫,探尋礦業(yè)文本的文本特征以服務(wù)該領(lǐng)域翻譯實(shí)踐的需求又越發(fā)凸顯,故而本文作者專門建立了一個(gè)小型礦業(yè)文本語料庫,在此基礎(chǔ)上對(duì)礦業(yè)文本特征進(jìn)行分析。
3.1語料搜集
Maptek公司是澳大利亞一家全球領(lǐng)先的礦業(yè)創(chuàng)新軟件、硬件以及技術(shù)服務(wù)供應(yīng)商,本次自建語料庫所使用的語料是Maptek公司Vulcan軟件和I-Site軟件應(yīng)用于采礦作業(yè)的案例,內(nèi)容涵蓋整個(gè)采礦流程,涉及地質(zhì)勘探、品位控制、礦山優(yōu)化以及地質(zhì)建模等方面,語料字?jǐn)?shù)總計(jì)為105,430字。
3.2語料整理
語料整理對(duì)于自建語料庫而言十分關(guān)鍵,會(huì)直接影響語料的處理速度和結(jié)果。語料文本如不加以清理會(huì)導(dǎo)致詞匯分析、統(tǒng)計(jì)不準(zhǔn)確,詞性賦碼出錯(cuò)或分析無法進(jìn)行。此外,大多數(shù)語料庫軟件只能識(shí)別純文本類型的文件,不能識(shí)別其他編碼格式的文本,一些特殊格式標(biāo)識(shí)符號(hào)在讀取中會(huì)出現(xiàn)亂碼,因而影響處理結(jié)果。在語料整理過程中,為確保語料庫統(tǒng)計(jì)高效且準(zhǔn)確,預(yù)先使用了文本整理編輯器對(duì)文本進(jìn)行了清理,刪去了多余空行、段首尾空格、全角空格,統(tǒng)一了中英文標(biāo)點(diǎn)符號(hào)和文字格式,并保存成了純文本格式。
4礦業(yè)文本特征分析
利用Wordsmith和Concordance語料庫軟件從詞頻、詞匯密度、平均詞長(zhǎng)、平均句長(zhǎng)四個(gè)方面對(duì)語料進(jìn)行分析??紤]到語料來自于一家澳大利亞公司,因而選取了BNC(British National Corpus)語料庫以及FLOB(Freiburg-LOB Corpus of British English)語料庫作為參照語料庫,進(jìn)行礦業(yè)文本特征對(duì)比分析。
4.1詞頻
詞頻可以反映某類型文本或某個(gè)作品中的用詞傾向,進(jìn)而反映出文本的特征。在Concordance軟件中,去除功能詞后根據(jù)詞頻從高到低排序,前20位詞語分別是:data,Vulcan,mine,model,I-Site,Maptek,coal,mining,modelling,block,project,pit,grade,planning,3D,ore,laser,time,design,scanner,其中“Maptek”,“Vulcan”,“I-Site”三個(gè)詞代表的是該語料所涉及的產(chǎn)品名稱,本文不予考慮。通常詞表中排在前面的高頻詞是功能詞,或者說是表達(dá)語法意義的虛詞,接著是較抽象、概括的詞,然后逐漸過渡到具體、含有特定含有的詞,像“data”,“mine”,“model”,“pit”,“ore”這樣的詞出現(xiàn)在高頻詞范圍內(nèi)需要引起我們的關(guān)注。
語料庫軟件可以顯示出每個(gè)單詞在文章中使用頻次所占的百分比,從客觀數(shù)據(jù)上體現(xiàn)某個(gè)單詞對(duì)于整個(gè)語料庫的貢獻(xiàn)。以“mine”和“pit”為例,對(duì)比BNC語料庫中這兩個(gè)詞的使用頻率,按不同文本類型進(jìn)行統(tǒng)計(jì),結(jié)果如下:
圖1和圖2分別表示的是“mine”和“pit”兩詞在BNC語料庫中使用分布的文本類型及使用頻率,其中的“FREQ”表示的是出現(xiàn)頻數(shù),“PER MIL”是指語料庫中某一詞匯、短語每百萬詞(per million)出現(xiàn)的頻數(shù),又叫標(biāo)準(zhǔn)化頻數(shù)。結(jié)合詞頻統(tǒng)計(jì)中的百分比,利用“各自頻數(shù)/總字?jǐn)?shù)*100 million”,可以推算出在礦業(yè)類型文本中每一百萬字中這兩個(gè)詞的使用頻次分別約是6127次和2665次,高于BNC語料庫總計(jì)的使用頻次。此外,BNC語料庫中并沒有對(duì)兩詞不同詞義的使用頻次進(jìn)行區(qū)分,但通過Concordance軟件中的詞語語境篩查可以發(fā)現(xiàn)在礦業(yè)文本中這兩個(gè)詞都具有單一專業(yè)含義,分別表示“礦山”和“基坑”,因而就專業(yè)含義來講,自建語料庫中兩詞的使用頻次是遠(yuǎn)高于其在其他英語文本類型中的頻次。endprint
詞表前20位中多數(shù)詞都與采礦作業(yè)流程相關(guān),專業(yè)詞意明確,涉及地質(zhì)數(shù)據(jù)采集、塊體建模、基坑修建、礦床勘探等,如“model”,“block”,經(jīng)過比較,這些詞的使用頻次都高于其在其他單個(gè)英文文本類型中的使用頻次,因而這些詞可以反映礦業(yè)文本在用詞上的傾向。礦業(yè)涉及內(nèi)容多,涵蓋彈性力學(xué)、土力學(xué)、巖石力學(xué)、爆破工程等多方面知識(shí),在翻譯該類型文本時(shí)需要對(duì)涉及這些方面的專業(yè)詞匯有所重視。利用自建語料庫對(duì)礦業(yè)文本的詞頻進(jìn)行研究,明確礦業(yè)領(lǐng)域中的常用詞或通用詞匯,并基于詞頻建立起礦業(yè)領(lǐng)域的詞匯分級(jí),廣泛應(yīng)用于專業(yè)詞典編纂、專業(yè)教學(xué),這將推動(dòng)該領(lǐng)域的相關(guān)學(xué)習(xí)及翻譯實(shí)踐。
4.2詞匯密度
詞匯密度可以反映出某類文本用詞的多樣性、詞匯的豐富度。類符/形符比(type-token ratio,TTR)可以用來計(jì)算文本的詞匯密度,TTR比值越高,文本用詞越豐富,反之,則越貧乏。但若語料超過了1000字,類符數(shù)會(huì)隨著形符數(shù)的增加而增加,到后面類符數(shù)就會(huì)趨于穩(wěn)定,類符形符比就會(huì)不斷減小,所以需要采用標(biāo)準(zhǔn)類符形符比(standardized TTR)。經(jīng)語料庫軟件處理所得的標(biāo)準(zhǔn)類符形符比結(jié)果為41.43,F(xiàn)LOB語料庫的STTR值為39.03,相較而言可以發(fā)現(xiàn)礦業(yè)文本中詞匯的使用是靈活且豐富的。礦業(yè)涉及學(xué)科多,文本內(nèi)容廣而豐富,尤其是專業(yè)詞匯,多而細(xì)化,因而在翻譯過程中需要意識(shí)到礦業(yè)領(lǐng)域內(nèi)用詞的豐富性,注重積累。
4.3詞長(zhǎng)
詞長(zhǎng)在一定程度上代表了語言單位的復(fù)雜性,是反映文本閱讀難易程度的一個(gè)標(biāo)準(zhǔn)。通常由2~5個(gè)字母組成的詞看作是小詞或常見詞,這些詞在整個(gè)語料庫中的比例越高,近似地反映出語料使用的小詞或常見詞越多。單詞越短小,文本越易理解,難度越低,文本的正式程度就越低;反之,文本越不易理解,難度越大,文本越正式。語料庫統(tǒng)計(jì)得到的單詞詞長(zhǎng)分布結(jié)果如下:
根據(jù)表1的數(shù)據(jù)可以計(jì)算出5個(gè)字母以下單詞的總數(shù)為62,717個(gè),占全部語料文本的59.5%,按照楊秀珍等人的推論,礦業(yè)文本中使用的小詞多,文本閱讀起來應(yīng)該更為簡(jiǎn)單。由于人類的惰性、大腦信息處理能力的有限性乃至語言使用慣性,人們?cè)谘哉Z交際過程中傾向于選用短小、簡(jiǎn)單的詞匯表達(dá)特定意義以節(jié)省力量消耗,但礦業(yè)文本屬于專業(yè)領(lǐng)域的文本,語料所用文本來自于門戶網(wǎng)站,書面規(guī)范性強(qiáng),詞匯的選擇較之口語表達(dá)肯定是更為謹(jǐn)慎認(rèn)真的,但使用短小詞的占比那么高,不由得引人注意。
結(jié)合本文作者翻譯礦業(yè)文本的實(shí)踐,發(fā)現(xiàn)文本中有很多常見短小詞并非常見通用意義,而是具有特定含義,比如“pit”指的是“基坑”,“grade”代表的是“品位”,“block”代表的“塊體”。這從某種程度上可以說明即使從詞長(zhǎng)標(biāo)準(zhǔn)上來講礦業(yè)文本中使用的短小詞更多,但考慮到詞語含義非普遍意義,那么文本閱讀起來也并不一定容易。僅僅依據(jù)5個(gè)字母以下單詞的使用占比來判定文本難易程度是較為不當(dāng)?shù)摹?/p>
平均詞長(zhǎng)是指文本中詞的平均長(zhǎng)度,以字母數(shù)為單位。該指標(biāo)考量的是文本用詞的平均情況,是對(duì)文本整體用詞的評(píng)估。一般文本的平均詞長(zhǎng)為4個(gè)字母左右。語料庫統(tǒng)計(jì)得到的平均詞長(zhǎng)為5.23,而FLOB語料庫的平均詞長(zhǎng)為4.37,相較而言可以發(fā)現(xiàn)礦業(yè)文本在用詞上是較為復(fù)雜的。從表2也可以計(jì)算出5個(gè)字母以上詞匯(中長(zhǎng)詞)的使用占比達(dá)到了40%,這一比例是較高的,對(duì)于礦業(yè)類型文本而言中長(zhǎng)度詞語不僅具有專業(yè)意義,也更可能從長(zhǎng)度上反映詞匯的難易程度。
以上分析表明,雖然短小詞使用的占比一定程度上反映出了文本詞匯的難易度,但尤其是在專業(yè)領(lǐng)域中詞匯的難易度并不能單純地從詞長(zhǎng)進(jìn)行判定,往往短小詞匯所具有的專有意義是文本閱讀的一個(gè)困難。綜合詞長(zhǎng)和平均詞長(zhǎng)的數(shù)據(jù)結(jié)果,可以發(fā)現(xiàn)礦業(yè)文本閱讀起來較為不易,即使短小詞多,但意義可能并不常見。此外,礦業(yè)詞匯專業(yè)化強(qiáng),表達(dá)細(xì)節(jié)信息的詞數(shù)量多,還有很多派生詞和復(fù)合詞,如“geomorphological”,“auto-registration”,“back-transformation”,詞匯較為復(fù)雜。
4.4平均句長(zhǎng)
平均句長(zhǎng)是以句子所包含的詞數(shù)為依據(jù),是衡量文本難度的一個(gè)參數(shù)。句子長(zhǎng)度越長(zhǎng),句子越難理解;反之,理解則更為容易。句子長(zhǎng)短的判定遵循一定的標(biāo)準(zhǔn),根據(jù)句子長(zhǎng)度把句子分為三類:短句(1~9個(gè)詞)、中長(zhǎng)句(10~25個(gè)詞)和長(zhǎng)句(25個(gè)詞以上)。運(yùn)用語料庫軟件統(tǒng)計(jì)得到的平均句長(zhǎng)結(jié)果是48.59,結(jié)合詞頻表中that,which以及其他連接詞使用的頻次較高,我們可以合理地推測(cè)礦業(yè)文本句式較為復(fù)雜,多用從句、分句。這一方面符合英語傾向于用從句的特征,另一方面可能是礦業(yè)文本闡釋詳盡的一種體現(xiàn)。
從衡量句子的難易程度來講,其涉及的因素比較多。鄭錦全提出了句子閱讀難易度的三個(gè)考量因素:一是句子長(zhǎng)短;二是句中所有詞語在文本中出現(xiàn)頻率的高低;三是詞語語意類別的多少。就句子長(zhǎng)度而言,結(jié)合考量句內(nèi)使用的專業(yè)詞匯,礦業(yè)文本可以算得上較難,譯者在翻譯該類型文本時(shí),需要對(duì)長(zhǎng)句引起重視。但就句中詞語在文本中的出現(xiàn)頻率和詞語語意類別而言,由于詞語所屬領(lǐng)域較為單一,在文本中出現(xiàn)的頻率也高,因而只要接觸足夠多,就會(huì)更加容易。這一點(diǎn)無疑說明礦業(yè)文本的翻譯可能在入門時(shí)由于專業(yè)原因較為困難,但只要注重積累,后期就可以更加輕松。
5發(fā)現(xiàn)與展望
根據(jù)語料庫分析所得數(shù)據(jù)可以發(fā)現(xiàn)礦業(yè)因其涉及的知識(shí)廣泛、內(nèi)容眾多,使得該類型文本中詞匯使用靈活豐富,相關(guān)專業(yè)詞匯使用廣且使用頻次高,詞匯平均詞長(zhǎng)大,句子多用長(zhǎng)句,文本難度較大、專業(yè)性強(qiáng)。翻譯人員在從事礦業(yè)領(lǐng)域文本翻譯時(shí),需要對(duì)長(zhǎng)句予以重視,注重礦業(yè)學(xué)科專業(yè)詞匯的積累,尤其要對(duì)文本中常見短小詞的專業(yè)意義引起關(guān)注。但只要積累達(dá)到一定程度,礦業(yè)文本的翻譯是可行的且可以更為高效的。
對(duì)于專業(yè)領(lǐng)域的文本而言,由于詞匯的特定含義,單從5個(gè)字母以下單詞使用的頻次來判定文本用詞的難易程度有所局限性,而中長(zhǎng)詞往往可以從長(zhǎng)度上普遍反映出文本用詞的情況,故而分析文本特征時(shí)需要結(jié)合考量中長(zhǎng)詞的使用情況以及平均詞長(zhǎng)。
但本篇研究也有值得深入改進(jìn)和發(fā)展的地方,自建語料庫所用語料的數(shù)量還可以有所增加。此外,可以在自建語料庫基礎(chǔ)上,利用參照語料庫,制作出礦業(yè)領(lǐng)域的專業(yè)詞匯,服務(wù)于翻譯實(shí)踐。
參考文獻(xiàn):
[1]陳其慎,于汶加等.礦業(yè)發(fā)展周期理論與中國(guó)礦業(yè)發(fā)展趨勢(shì)[J].資源科學(xué),2015(05):891-899.
[2]Nord,Christiane.Translating as a Purposeful Activity:Functionalist Approaches Explained. Manchester:St Jerome,1997.
[3]鄧曉宇,胡小婕等.基于類比語料庫的紅色旅游文本語言分析研究[J]. 江西理工大學(xué)學(xué)報(bào),2015(06):102-106.
[4]梁茂成,李文中等.語料庫應(yīng)用教程[M].北京:外語教學(xué)與研究出版社,2010.
[5]楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社,2002.
[6]姜文東,任娟.基于語料庫的《格列佛游記》文本詞匯特征分析[J].山東廣播電視大學(xué)學(xué)報(bào),2013(02):55-56.
[7]楊秀珍,續(xù)娜等.基于語料庫的《暮光之城》系列小說詞匯特點(diǎn)初探[J].長(zhǎng)春理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2010(02):71-73.
[8]鄧耀臣,馮志偉.詞匯長(zhǎng)度與詞匯頻數(shù)關(guān)系的計(jì)量語言學(xué)研究[J].外國(guó)語(上海外國(guó)語大學(xué)學(xué)報(bào)),2013(03):29-39.
作者簡(jiǎn)介:
詹露(1994.03.08—),女,重慶人,同濟(jì)大學(xué)外國(guó)語學(xué)院英語語言文學(xué)2015級(jí)研究生,主要研究方向?yàn)榉g學(xué)。endprint