李詩品
摘 要 谷歌專利(Google Patent)為廣大用戶提供了便利的專利檢索和翻譯服務(wù),但其(Google Patent)翻譯文本仍然存在著一定的不足。本文基于谷歌專利(Google Patent)的檢索文本,探討美國專利局專利摘要在專利詞匯層面的差異,進(jìn)而探討計(jì)算機(jī)通信領(lǐng)域?qū)@写嬖诘姆g共性。本文從谷歌專利(Google Patent)中隨機(jī)選取100篇專利摘要文本,借助Antconc文本分析工具和微型平行語料庫探究其詞匯層面的翻譯共性。研究表明,谷歌專利(Google Patent)在術(shù)語的層面,雖然大多數(shù)核心詞能做到相對精確的對應(yīng),但仍存在著部分名詞的指代偏差、修飾詞搭配偏差和術(shù)語結(jié)構(gòu)順序偏差。在詞匯密度和類符比方面,美國專利局的專利摘要文本和谷歌專利摘體現(xiàn)著一定程度的翻譯共性。 關(guān)鍵詞 機(jī)器翻譯 專利摘要 平行語料庫 翻譯共性
中圖分類號:H315.9 文獻(xiàn)標(biāo)識碼:A DOI:10.16400/j.cnki.kjdks.2018.08.030
Abstract Google Patent provides a convenient patent search and translation service for users, but there are still some shortcomings in its translation. Based on the search text of Google Patent, this paper explores the differences in patent vocabulary between US Patent Office patent abstracts, and then explores the commonalities of translation in patent abstracts in computer communications. This paper randomly selects 100 patent abstract texts from Google Patent, and explores the commonality of translation at the lexical level by means of Antconc text analysis tools and micro-parallel corpus. Studies have shown that Google Patent at the level of terminology, although most of the core words can achieve a relatively accurate correspondence, there are still some nouns of the deviation of the reference, modifier collocation deviation and term structure order deviation. In terms of vocabulary density and class proportions, the US Patent Office's patent abstract text and Google patent abstracts reflect a certain degree of translation commonality.
Keywords machine translation; patent abstracts; parallel corpus; translation commonality
1 概述
通信互聯(lián)網(wǎng)行業(yè)作為21世紀(jì)的新興產(chǎn)業(yè),其專利需求量與日俱增。僅從2012年到2016年,世界范圍內(nèi)戰(zhàn)略性新興產(chǎn)業(yè)領(lǐng)域的專利數(shù)量激增,全球戰(zhàn)略性新興產(chǎn)業(yè)發(fā)明專利申請量達(dá)到357萬件,五年年均增長率為 5.8% 。[1]專利不僅承擔(dān)著向特定讀者群體傳播技術(shù)發(fā)明的作用,同時(shí)可以作為預(yù)防侵權(quán)的有力證據(jù)。作為記錄授予發(fā)明人一定時(shí)間的權(quán)利的法律文件,專利對保護(hù)知識產(chǎn)權(quán)的合法權(quán)利和生產(chǎn)起著至關(guān)重要的作用。[2]而專利翻譯摘要作為專利檢索的切入點(diǎn),可以助于專家總覽全文。谷歌專利(Google Patent)作為一個(gè)在線專利網(wǎng)站,其豐富的語庫可以實(shí)現(xiàn)一定程度的翻譯服務(wù),達(dá)到一定程度的翻譯對等。然而,這種對等仍然沒有實(shí)現(xiàn)賴斯 (Kantarlna Relss)所提出的功能對等。[3]在實(shí)際操作中,專利翻譯者需要注重翻譯細(xì)節(jié)和專利文獻(xiàn)的功能對等。隨著中國新興產(chǎn)業(yè)的迅速崛起,專利成為知識產(chǎn)權(quán)“走出去”的有力保障。探究中英文專利翻譯摘要文獻(xiàn)與谷歌專利(Google Patent)所生成的機(jī)器翻譯文本在術(shù)語層面的差異,不僅具有較高的學(xué)術(shù)價(jià)值,同時(shí)對實(shí)現(xiàn)專利的機(jī)助翻譯具有十分重要的意義。
2 文獻(xiàn)綜述
自20世紀(jì)50年代初,一些學(xué)者開始重視機(jī)器翻譯。江鎮(zhèn)化指出了潛在的困難,并提出了機(jī)器可用于翻譯活動(dòng)的假設(shè)。[4]機(jī)器翻譯在專利領(lǐng)域的研究始于2007年,劉韌介紹了第一個(gè)專利機(jī)器翻譯引擎。[5]2011年,中國專利信息中心——北京師范大學(xué)機(jī)器翻譯聯(lián)合實(shí)驗(yàn)室成立。
此后,越來越多的學(xué)者研究機(jī)器翻譯在專利翻譯領(lǐng)域的應(yīng)用以及專利機(jī)器翻譯的優(yōu)化。[6]隨著機(jī)器翻譯的興起,翻譯語料庫應(yīng)運(yùn)而生。
語料庫(corpus)是指按照一定的語言學(xué)原則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù)的語言運(yùn)用文本或話語片斷。[7]梁茂成指出,存在著“基于語料庫”的研究范式和“語料庫驅(qū)動(dòng)”兩研究模式。[8]前者只是將語料庫視為眾多數(shù)據(jù)種類中的一種,不排斥在必要時(shí)使用其他類型的數(shù)據(jù),而后者主張一切源自語料庫。其中,基于語料庫的翻譯語言研究十分活躍,就翻譯共性而言,胡顯耀、曾佳等發(fā)現(xiàn),翻譯語料與原創(chuàng)語相比,表現(xiàn)出明顯的簡化、顯化和范化特征;[9]而且,無論是文學(xué)還是非文學(xué)語料,翻譯語與原創(chuàng)語相比具有詞語變化度偏低、詞匯密度偏低、虛詞和指代方式顯化、常用詞頻率增加等特征。[10]
從文本量化層面,Tsai、Y.在專利翻譯詞匯層面研究對比了中英專利文獻(xiàn)的字長、詞頻、關(guān)鍵詞和類型標(biāo)記率。[11]她發(fā)現(xiàn),英文專利摘要更多的使用短句,而中文專利用詞更為多樣化。然而,她只是調(diào)查了中英文專利摘要的差異,兩者區(qū)別對于機(jī)助翻譯顯得并不是那么直觀。班尼特特別關(guān)注了翻譯的問題,他認(rèn)為學(xué)術(shù)文本的寫作慣例具有準(zhǔn)確、簡潔和清晰的特點(diǎn),這與專利文本的標(biāo)準(zhǔn)非常相似。[12]
3 研究方法
在文本選擇層面,美國專利局的專利包括實(shí)用專利、外觀設(shè)計(jì)專利和植物專利。[13]而我國將專利分為發(fā)明專利、實(shí)用新型專利和外觀設(shè)計(jì)專利。[14]因?yàn)槲覀兏鶕?jù)世界知識產(chǎn)權(quán)組織(WIPO)根據(jù)合作專利分類(CPC)章程,選定了隸屬于(H4)電力通信行業(yè)范疇的專利文本。
在語料庫層面,我們采用隨機(jī)選取的策略,在谷歌專利中設(shè)置了檢索限制。將專利文本限制在2013年1月1日到2017年12月30日。同時(shí)考慮到專利是否同時(shí)具有中英文版本,以及這些文本是否具有代表性。我們選擇了高通、華為、中興等通訊行業(yè)的巨頭作為研究對象。通過Excel 軟件做成標(biāo)題對齊、句子對齊和段落對齊的三種語料庫。
在量化層面,我們使用了美國當(dāng)代語料庫(COCA)。同時(shí),使用語料庫在線對于中文文本進(jìn)行標(biāo)注,進(jìn)而使用antconc和WordSmith探索中英文專利和機(jī)器翻譯文本在詞頻、詞密度、字長和類符比層面的差異,進(jìn)而研究其翻譯共性。
4 結(jié)果和討論
詞法分析旨在研究目標(biāo)語中的字長、詞頻、關(guān)鍵詞和類符比。單詞長度是指一個(gè)單詞中的字符數(shù),而詞頻為每個(gè)文本提供文體特征的統(tǒng)計(jì)證據(jù)。[15]使用語料庫工具可以搜索文本中的單詞或短語,進(jìn)而系統(tǒng)地展示其文本特征。
4.1 術(shù)語差異
專利摘要中的術(shù)語必須符合國家規(guī)定或行業(yè)內(nèi)的共識,因而其選擇是極為嚴(yán)格的,同時(shí)專利的術(shù)語通常集中在專利文摘的標(biāo)題中。[16]因此,我們隨機(jī)抽樣了100份專利摘要的標(biāo)題,并且對比了美國專利摘要和谷歌專利(Google Patent)翻譯文本的差異。實(shí)驗(yàn)表明:(Google Patent)可以實(shí)現(xiàn)37%標(biāo)題完全對等,這足以顯示機(jī)器翻譯在專利術(shù)語層面的準(zhǔn)確性較高。同時(shí)26%的標(biāo)題實(shí)現(xiàn)了名詞的完全對等、只有形容詞和動(dòng)詞的細(xì)微差別。
谷歌專利(Google Patent)可以在術(shù)語選擇方面實(shí)現(xiàn)較高的準(zhǔn)確度。與美國專利局專利相比,谷歌專利(Google Patent)在相同、相似和核心詞對等的百分比已達(dá)到90%。然而僅37%的完全對等并不能滿足翻譯的要求。術(shù)語的選擇可以反映專利寫作的準(zhǔn)確性。例如在“用戶設(shè)備”中,user device和user equipment表面上看都是可以接受的。但是,事實(shí)上,當(dāng)我們使用COCA進(jìn)行驗(yàn)證時(shí),結(jié)果表明user device比user equipment更容易接受。同時(shí),user device的MI值達(dá)到3.06,超過3.0這一搭配界限。
類似的例子,如在“系統(tǒng)裝置”中。其裝置可以通過COCA語料庫來驗(yàn)證。其結(jié)果是, apparatus指代需要裝配起來的裝置,device強(qiáng)調(diào)已經(jīng)裝配完整的裝置。除了以上的名詞差異外,在專利中delivery method 和 delivering method也有著一定的差異。delivery method這一術(shù)語在COCA語料庫中出現(xiàn)頻率較高。雖然可以將轉(zhuǎn)化為method of delivering,但鑒于專利撰寫的簡潔性而舍棄。
在術(shù)語層面,除了名詞術(shù)語的差異外,形容詞差異為另一個(gè)突出問題。如:
中文:RRS由遠(yuǎn)端接口單元、射頻收發(fā)單元(TRU)和天線
美國專利局:The RRS includes a remote interface unit, a RF transceiver unit (TRU) and an antenna
谷歌專利局:The RRS is composed of a far-end interface unit, a radio-frequency transceiver unit (TRU) and an antenna
三個(gè)版本除了遠(yuǎn)端 這一形容詞不同之外,其余術(shù)語基本一致。在美國專利局的摘要文本中,技術(shù)寫作者選用了remote而不是far-end。我們可以通過COCA語料庫進(jìn)行驗(yàn)證。結(jié)果表明,far-end一詞通常用于描述噪音,而remote多用于通信行業(yè)。而我們在COCA界面搜索remote,我們可以在5173個(gè)文本中搜索到多個(gè)MI值超過3.0的搭配。因此,遠(yuǎn)端接口中的remote更符合語料庫的表達(dá)習(xí)慣。
4.2 詞匯密度和類符比
詞匯密度指的是文本中實(shí)詞的數(shù)量。更準(zhǔn)確地說,詞匯密度可以反映詞匯在語境中的比例。較高的詞匯密度可以反映文本的簡潔度。另一個(gè)詞匯層面的衡量標(biāo)準(zhǔn)是類符比。類型是指文本中所有詞匯的數(shù)量,而形符是指文本中不同單詞的數(shù)量。詞匯密度和類符比可以反映文本單詞總數(shù)和樣本中使用的各種詞的數(shù)量之間的關(guān)系(見表1)。
將100隨機(jī)選取的專利摘要平行語料庫中。我們發(fā)現(xiàn)美國專利局的詞匯類型和符號數(shù)分別1310和12016,而谷歌專利翻譯所對應(yīng)單詞類型和符號數(shù)分別為1466和14139,美國專利局類符比為10.9%,而谷歌專利機(jī)器翻譯的類符比10.2%。而中文標(biāo)注之后的文本類型和符號數(shù)分別為1273和16882,漢語原文的類符比7.5%。根據(jù)貝克的在翻譯共性中提到的翻譯簡化理論,譯者會(huì)對原語文本中的“語言 / 信息下意識地簡單化”。[17]可以看出,美國專利局的翻譯文本和谷歌專利機(jī)器翻譯的翻譯文本相比,在句長和詞匯密度方面都更為精煉、簡潔。
結(jié)合上一具體事例,我們可以看出三種文本的情況。這從側(cè)面證實(shí)了谷歌專利翻譯在英文譯本中存在著一定的翻譯共性。即在谷歌專利(Google Patent)英文翻譯中,雖然存在著詞語變化度偏低、詞匯密度偏低、虛詞和指代方式顯化、常用詞頻率增加等特征。
5 總結(jié)
專利文獻(xiàn)摘要作為專利檢索的核心,有著舉足輕重的作用。其文本質(zhì)量不僅決定著文本能否通過,同時(shí)也決定著某一項(xiàng)創(chuàng)新能夠得以保護(hù)。盡管很多專家在專利翻譯的術(shù)語選擇方面進(jìn)行了一定的研究。但是結(jié)合語料庫從翻譯共性和文本量化層面的研究仍然不多。本文從詞匯入手,結(jié)合語料庫的工具,探索了谷歌專利在專利摘要詞匯層面的翻譯共性,得出谷歌專利在術(shù)語層面可以實(shí)現(xiàn)較為精準(zhǔn)的對應(yīng),但在限定詞層面需要使用語料庫進(jìn)行驗(yàn)證。同時(shí),在詞匯密度和類符比方面,美國專利局的專利摘要文本和谷歌專利摘雖然存在著一定的翻譯共性,但其文本詞匯密度比中文偏高。
綜上所述,中英文專利摘要文獻(xiàn)在寫作中存在著很多差異。考慮到現(xiàn)實(shí)的操作性和平行語料庫的嚴(yán)格要求,專利樣本并不大。但基于選擇專利摘要的隨機(jī)性原則,所選的專利文本和實(shí)驗(yàn)結(jié)果仍然具有一定的有效性。同時(shí),這一實(shí)驗(yàn)結(jié)果對我們進(jìn)一步探索中英文專利文獻(xiàn)的寫作特點(diǎn)和基于機(jī)器翻譯的后期編譯具有一定的參考價(jià)值。
參考文獻(xiàn)
[1] 楊國鑫,劉磊,王奕潔,等.戰(zhàn)略性新興產(chǎn)業(yè)發(fā)明專利授權(quán)報(bào)告(2009—2013)[J].科學(xué)觀察,2016(1):27-47.
[2] Marco A C,Toole A A, Miller R, et al. USPTO Patent Prosecution and Examiner Performance Appraisal[J].2017.
[3] 許慶華.功能對等理論在科技英語漢譯中的應(yīng)用研究[D].吉林大學(xué),2009.
[4] 胡韌奮.面向漢英專利機(jī)器翻譯的介詞短語自動(dòng)識別策略[J].語言文字應(yīng)用,2015(1):136-144.
[5] 江鎮(zhèn)華.怎樣閱讀及翻譯英文專利文獻(xiàn).知識產(chǎn)權(quán)出版社,2010.
[6] 薛寶.中國專利信息中心-北京師范大學(xué)機(jī)器翻譯聯(lián)合實(shí)驗(yàn)室揭牌[J].北京師范大學(xué)學(xué)報(bào):自然科學(xué)版,2011.47(2):137-137.
[7] Sinclair J.Corpus,concordance, collocation[M].Oxford University Press,1991.Chapter 1, pp 12-35.
[8] 梁茂成.語料庫語言學(xué)研究的兩種范式:淵源,分歧及前景[J].外語教學(xué)與研究:外國語文雙月刊,2012.44(3):323-335.
[9] 胡顯耀,曾佳.基于語料庫的翻譯共性研究新趨勢[J].解放軍外國語學(xué)院學(xué)報(bào),2011(1):56-62.
[10] 王克非,胡顯耀.基于語料庫的翻譯漢語詞匯特征研究[J].中國翻譯,2008.29(6):16-21.
[11] Tsai Y. Text analysis of patent abstracts[J].JoSTrans,2010.13:61-80.
[12] Bennett, G., & Jessani, N. (Eds.).The knowledge translation toolkit: Bridging the know-do gap: A resource for researchers[M].IDRC,2011.
[13] Leydesdorff L, Kushnir D, Rafols I. Interactive overlay maps for US patent (USPTO) data based on International Patent Classification (IPC)[J].Scientometrics, 2014.98(3):1583-1599.
[14] 董濤,賀慧.中國專利質(zhì)量報(bào)告——實(shí)用新型與外觀設(shè)計(jì)專利制度實(shí)施情況研究[J].科技與法律,2017.7(2):220-305.
[15] Popiolek M. Terminology management within a translation quality assurance process[J]. Handbook of Terminology,2015.1:341.
[16] Tsai Y. Linguistic evaluation of translation errors in Chinese–English machine translations of patent titles[C]//FORUM. Revue internationale dinterpr ation et de traduction/International Journal of Interpretation and Translation. John Benjamins Publishing Company, 2017.15(1):142-156.
[17] Mauranen A. Universal tendencies in translation[J]. Incorporating corpora: The linguist and the translator,2008:32-48.