王鈺
摘 要:機(jī)器翻譯是自然語言處理的一個(gè)重要分支,自然語言處理技術(shù)與機(jī)器翻譯研究的結(jié)合不僅為人們?nèi)粘9ぷ魃钪懈鞣N跨語言需求提供了便利,也對解決其他自然語言處理任務(wù)有著啟發(fā)與借鑒作用。首先概括了自然語言處理的一些基本概念,然后舉例說明自然語言處理在機(jī)器翻譯中的應(yīng)用,最后展望機(jī)器翻譯未來發(fā)展趨勢并進(jìn)行總結(jié)。這有助于加深對自然語言處理以及機(jī)器翻譯之間關(guān)系的認(rèn)識,旨在為后續(xù)的研究提供借鑒。
關(guān)鍵詞:自然語言處理;機(jī)器翻譯;機(jī)器學(xué)習(xí)
近年來,自然語言處理(natural language processing)作為根植于語言學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)等多種學(xué)科沃土而成長起來的多邊緣學(xué)科,成為人工智能中亟需解決的任務(wù)之一,同時(shí)也是該領(lǐng)域的一個(gè)重要研究方向。自然語言處理的飛速發(fā)展,為機(jī)器翻譯研究提供了強(qiáng)有力的支持。當(dāng)今世界,隨著通信技術(shù)與互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展、信息的急劇增加以及國際聯(lián)系愈加緊密,語言交流障礙問題也顯得愈加突出,對機(jī)器翻譯的潛在需求也在逐漸加大(John Hutchins,1986)。在目前人工智能(artificial intelligence)的浪潮下,機(jī)器翻譯理論、技術(shù)與未來發(fā)展趨勢越來越引人關(guān)注(李沐等,2018)。值得注意的是,對自然語言處理技術(shù)在機(jī)器翻譯中的應(yīng)用、機(jī)器翻譯是否會代替人工翻譯等問題,還存在著諸多片面的認(rèn)識。
有鑒于此,本文首先對自然語言處理的概念和主要內(nèi)容進(jìn)行簡要的介紹,在此基礎(chǔ)之上嘗試舉例說明自然語言處理技術(shù)在機(jī)器翻譯中的應(yīng)用。在對機(jī)器翻譯與人工翻譯之間的關(guān)系進(jìn)行簡要的梳理后提出本文的觀點(diǎn),最后對機(jī)器翻譯未來的發(fā)展趨勢進(jìn)行展望。
一、自然語言處理概述
(一)自然語言處理的概念
計(jì)算語言學(xué)(computational linguistics),也稱自然語言處理(natural language processing),是一門以計(jì)算為手段對自然語言進(jìn)行研究和處理的學(xué)科(劉穎,2014:1)。Bill Manaris(1998)曾在《計(jì)算機(jī)進(jìn)展》中給出這樣的定義:“自然語言處理可以定義為研究在人與人交際中以及在人與計(jì)算機(jī)交際中的語言問題的一門學(xué)科?!弊匀徽Z言處理要研制表示語言能力和語言應(yīng)用的模型,建立計(jì)算機(jī)框架來實(shí)現(xiàn)語言模型,提出相應(yīng)的方法對語言模型不斷地進(jìn)行完善,根據(jù)語言模型設(shè)計(jì)各種實(shí)用系統(tǒng),并探討這些實(shí)用系統(tǒng)的評測技術(shù)。自然語言處理的概念界定,可以參見圖1:
馮志偉(2010)、張政(2010:2)指出,為了實(shí)現(xiàn)計(jì)算機(jī)對現(xiàn)實(shí)生活中自然語言的研究和處理,在自然語言處理技術(shù)所應(yīng)用的各個(gè)領(lǐng)域中,一般需要根據(jù)具體要求經(jīng)過以下幾個(gè)過程:
1.從語言學(xué)角度把自然語言處理抽象為一個(gè)語言問題;
2.把這一問題在語言學(xué)上形式化,使之能以一定的數(shù)學(xué)形式,嚴(yán)密而規(guī)整地表示出來;
3.把這種嚴(yán)密而規(guī)整的數(shù)學(xué)形式表示為“算法”;
4.根據(jù)算法建立自然語言處理的“計(jì)算模型”,這樣能夠使它在計(jì)算機(jī)上得以實(shí)現(xiàn)。
總的來說,自然語言的具體處理過程可用圖2進(jìn)行展示:
如圖2所示,自然語言處理需要一系列的轉(zhuǎn)換加工過程。在自然語言處理中,不僅需要語言學(xué)方面的知識,而且還需要非語言學(xué)方面的知識,如心理學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、哲學(xué)、電子工程和生物學(xué)等??傊匀徽Z言處理是一門多邊緣交叉學(xué)科。
(二)自然語言處理的主要內(nèi)容
根據(jù)語言學(xué)的通常觀點(diǎn),語言可以分為以下幾個(gè)層次:語音、詞匯、語法、語義、語篇和語用。自然語言處理技術(shù)在以上各個(gè)層次的主要應(yīng)用,可以進(jìn)一步細(xì)分為下列內(nèi)容:機(jī)器翻譯(machine translation)、語音自動識別(sound recognition)、語言自動合成(sound synthesis)、自動文摘(automatic abstracting)、人機(jī)對話(man-machine dialogue)、信息自動檢索(automatic information retrieval)、術(shù)語數(shù)據(jù)庫(term database)、計(jì)算機(jī)輔助教學(xué)(computer-aided instruction)、電子詞典(electronic dictionary)、文字自動識別(optical character recognition)、文獻(xiàn)自動分類(information classification)等。
目前,無論是在理論基礎(chǔ)、語言資源,還是在關(guān)鍵技術(shù)等方面,自然語言處理都有了相當(dāng)豐富的積累(王萌等,2015)。應(yīng)當(dāng)說,上述應(yīng)用也都有了很大的發(fā)展。比如說語音自動識別,即利用計(jì)算機(jī)對語音作出明確辨認(rèn)。這一技術(shù)可用于翻譯的語音識別,也可以用于鐵路、民航等無人管理站的問訊系統(tǒng)。又如自然語言理解,也稱人機(jī)對話,是來研究如何利用計(jì)算機(jī)讓其理解并運(yùn)用人類語言,最后用自然語言以對話的方式回答人們所提出的問題。百度公司開發(fā)的“小度”、微軟的“小冰”等都實(shí)現(xiàn)了智能人機(jī)對話。再如文字自動識別技術(shù),它可以應(yīng)用到一些掃描軟件上,通過對印刷字體甚至是手寫的字體進(jìn)行識別,最終生成相應(yīng)的電子文檔。此外,自然語言處理在翻譯領(lǐng)域的應(yīng)用也越來越廣泛。我們知道,在應(yīng)用翻譯領(lǐng)域,人類面對的最迫切、最重大的任務(wù),就是如何解決計(jì)算機(jī)翻譯問題。這也是下文所著要探討的問題。
二、自然語言處理在機(jī)器翻譯中的應(yīng)用
(一)機(jī)器學(xué)習(xí)
自然語言處理的一大特點(diǎn)就是它現(xiàn)在越來越多地使用機(jī)器學(xué)習(xí)(machine learning)的方法來獲取語言知識(馮志偉,2010)。機(jī)器學(xué)習(xí)是用來研究如何通過計(jì)算的手段,利用經(jīng)驗(yàn)來改善系統(tǒng)自身性能的一門學(xué)科(周志華,2016:1)。具體來說,計(jì)算機(jī)從大量數(shù)據(jù)中得出“模型”的算法,也就是前面提到的“學(xué)習(xí)算法”,然后將經(jīng)驗(yàn)數(shù)據(jù)提供給計(jì)算機(jī),它就會從這些數(shù)據(jù)中產(chǎn)生新的模型。最后,當(dāng)有新數(shù)據(jù)出現(xiàn)時(shí),計(jì)算機(jī)就可以基于生成的模型幫助人類做出相應(yīng)的判斷??蓞⒁妶D3:
圖3給我們形象直觀地展現(xiàn)了機(jī)器學(xué)習(xí)的工作方式。從圖3可以看出,首先,要將大量的訓(xùn)練數(shù)據(jù)提供給計(jì)算機(jī),構(gòu)建一個(gè)初始模型,即模型1。然后,用測試數(shù)據(jù)對初始模型進(jìn)行檢查,并不斷對其進(jìn)行完善,接著會得到一個(gè)訓(xùn)練完好的模型,即模型2。最后,再將新數(shù)據(jù)提供給模型2,人類就可以通過計(jì)算機(jī)、利用模型2去作出判斷和預(yù)測。在此之后,更多的數(shù)據(jù),不同的特征,或調(diào)整過的參數(shù),都可以用來提升算法的性能表現(xiàn),使它不斷完善。
(二)機(jī)器翻譯
機(jī)器翻譯,就是使用計(jì)算機(jī)進(jìn)行翻譯,即把一種自然語言生成另一種自然語言而又無需人類幫助的計(jì)算機(jī)系統(tǒng)(Hutchins et al., 1992:3)。這里的自然語言區(qū)別于人工語言,如計(jì)算機(jī)編程語言等為實(shí)現(xiàn)某些特定目的而創(chuàng)造的語言。李沐等(2018:2)指出,機(jī)器翻譯是自然語言處理研究的一個(gè)分支,它在處理過程中會涉及到很多自然語言處理的經(jīng)典問題。如數(shù)據(jù)挖掘及清洗、詞字切分、詞性標(biāo)注、句法分析等。此外,機(jī)器翻譯還涉及機(jī)器學(xué)習(xí)算法中的應(yīng)用。就此而言,機(jī)器翻譯是一項(xiàng)復(fù)雜的系統(tǒng)工程。
機(jī)器翻譯大體可以分為基于規(guī)則的機(jī)器翻譯方法和基于語料庫的機(jī)器翻譯方法。根據(jù)建模的不同,基于語料庫的機(jī)器翻譯方法又可以分為基于實(shí)例的機(jī)器翻譯方法、統(tǒng)計(jì)機(jī)器翻譯方法和神經(jīng)機(jī)器翻譯方法。
在機(jī)器翻譯中,數(shù)據(jù)也稱語料(corpus),也就是說基于語料庫的機(jī)器翻譯都需要大量的語料作為訓(xùn)練數(shù)據(jù)來訓(xùn)練模型。不同的語料類型被用來訓(xùn)練不同的模型,如目標(biāo)語言語料用來訓(xùn)練語言模型(刻畫句子的流暢度),平行語料用來訓(xùn)練翻譯模型(學(xué)習(xí)、獲取翻譯知識)等。根據(jù)研究需要,本文對李沐等(2018:38)所繪制的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)框架圖進(jìn)行了改編。具體如圖4所示:
這里就以圖4中語言模型的構(gòu)建為例,來簡要說明該過程中自然語言處理的應(yīng)用。如圖4所示,首先,以目標(biāo)語言語料為訓(xùn)練數(shù)據(jù),計(jì)算機(jī)從中學(xué)習(xí)知識并根據(jù)這些知識建立語言模型。但由于訓(xùn)練數(shù)據(jù),也就是目標(biāo)語言語料的規(guī)模具有有限性,無法對所有真實(shí)樣例數(shù)據(jù)進(jìn)行覆蓋,所以通常會使用數(shù)據(jù)平滑(data smoothing)算法來對語言模型進(jìn)行完善,很多自然語言處理的應(yīng)用都使用語言模型產(chǎn)出文本,這些模型基于前面出現(xiàn)的單詞及語境,被專門訓(xùn)練來預(yù)測接下來要出現(xiàn)的單詞(Ranzato,M.et al.,2016)。最終語言模型建立后就可以用來估算自然語言中每個(gè)句子出現(xiàn)的可能性,從而提高最佳譯文的選擇質(zhì)量。
如前所述,無論是在模型訓(xùn)練還是在概率模型建立的過程中,都會涉及到機(jī)器學(xué)習(xí)算法。機(jī)器翻譯中各種模型的建立,也都需要各種參數(shù)特征來進(jìn)一步完善它們的算法。由此可見,機(jī)器翻譯是自然語言處理的一個(gè)重要研究方向。通過以上例子,也可以看出自然語言處理技術(shù)在機(jī)器翻譯中的地位可謂是舉足輕重。
三、機(jī)器翻譯研究的探討
(一)機(jī)器翻譯與人工翻譯
隨著人工智能與機(jī)器翻譯的發(fā)展,“機(jī)器翻譯是否會取代人工翻譯”這一話題也引起了熱議。胡開寶、李翼(2016)認(rèn)為,機(jī)器翻譯與人工翻譯之間的關(guān)系是互補(bǔ)與互動的關(guān)系。具體來說,機(jī)器翻譯以人工翻譯為基礎(chǔ),機(jī)器翻譯能協(xié)助人工翻譯,同時(shí)也需要人工翻譯來進(jìn)行譯后潤色。作者建議人工翻譯跟機(jī)器翻譯合理分工,并預(yù)測未來將是人機(jī)共存、人機(jī)互補(bǔ)的時(shí)代。祝朝偉(2018:101)指出,“機(jī)器取代人是一個(gè)偽命題”,機(jī)器在處理一些文本時(shí)始終離不開人的幫助,它的服務(wù)對象永遠(yuǎn)是人,機(jī)器翻譯“能夠譯”但未必像人那般“譯得好”,文學(xué)翻譯等是機(jī)器翻譯永遠(yuǎn)也無法勝任的。同時(shí),他也認(rèn)為,人機(jī)結(jié)合是未來人類需要努力的方向。
筆者認(rèn)為,“機(jī)器翻譯是否能代替人工翻譯”這一問題就像“人工智能是否能代替人類”一樣,值得深入探討。機(jī)器翻譯與人工智能幾乎同時(shí)產(chǎn)生,幾十年來同呼吸共命運(yùn),在各個(gè)學(xué)科的交匯合作下,在社會經(jīng)濟(jì)發(fā)展需求的推動下,人工智能已得到非常迅猛地發(fā)展。在這種時(shí)代背景下,機(jī)器翻譯也得到了很大發(fā)展并逐步走向商品化、實(shí)用化(馮志偉,2018)。然而,現(xiàn)在的人工智能僅擅長單項(xiàng)任務(wù),能執(zhí)行人類簡單的指令,即“弱人工智能”。在當(dāng)前的技術(shù)水平下,人工智能還遠(yuǎn)遠(yuǎn)不能超越人類。同樣,目前的神經(jīng)機(jī)器翻譯系統(tǒng)也只是在特定的應(yīng)用領(lǐng)域(如新聞翻譯、日常的會話等)翻譯效果較好,如果換到其他領(lǐng)域,效果未必盡如人意。因此,“機(jī)器翻譯將會取代人工翻譯,翻譯人員即將失業(yè)”這類話都是言過其實(shí),甚至可以說是危言聳聽。
誠如張政(2006:182)所言,機(jī)器翻譯是人類重建巴別塔的腳手架。機(jī)器翻譯扮演的只是一個(gè)工具的角色,它只是按照人類的意志,輔助人類減少翻譯工作的強(qiáng)度和量度的附庸產(chǎn)品。即便將來機(jī)器翻譯軟件的智能水平有了大幅度的飛躍,那也是人類認(rèn)知水平不斷提升的結(jié)果。未來要繼續(xù)促進(jìn)人文與科技的融合,提高翻譯效率,提升翻譯質(zhì)量,建立新型的機(jī)器翻譯與人工翻譯的關(guān)系。
四、自然語言處理應(yīng)用于機(jī)器翻譯的研究展望
從21世紀(jì)初,隨著電子科技的突飛猛進(jìn),機(jī)器翻譯也駛?cè)肓丝燔嚨?。在?shù)據(jù)和算法技術(shù)驅(qū)動下的機(jī)器翻譯已取得了巨大的成功?;谟?jì)算機(jī)技術(shù)、自然語言處理技術(shù)和機(jī)器學(xué)習(xí)算法的不斷發(fā)展,未來機(jī)器翻譯也會不斷革新。筆者將自然語言處理應(yīng)用于機(jī)器翻譯的未來趨勢總結(jié)如下:
第一,數(shù)據(jù)規(guī)模的變遷。雙語數(shù)據(jù)規(guī)模越大,翻譯質(zhì)量也就越高,由此構(gòu)建的模型就可以學(xué)習(xí)到更為豐富的翻譯知識。隨著科技的發(fā)展,更多的數(shù)據(jù)可以被收集,雖然這些數(shù)據(jù)可能并不代表馬上就可以用來做訓(xùn)練語料,但是它會給機(jī)器翻譯帶來更多的可能性,避免做更多的數(shù)據(jù)挖掘,可以利用機(jī)器半自動式對語料進(jìn)行篩選,讓技術(shù)不斷獲得提升。
第二,新算法的變革。算法的變革在機(jī)器翻譯發(fā)展中扮演了至關(guān)重要的角色。隨著人工智能的迅猛發(fā)展,深度學(xué)習(xí)在機(jī)器翻譯中也取得了很好的效果。應(yīng)用深度學(xué)習(xí)方法而構(gòu)造的神經(jīng)機(jī)器翻譯系統(tǒng)在譯文的準(zhǔn)確率和流暢度上都有了顯著的提高。陳俊龍、劉竹林(2017)提出了寬度學(xué)習(xí)系統(tǒng),可以提升訓(xùn)練速度并已呈現(xiàn)出一定的優(yōu)勢??傊?,可以看出,隨著大計(jì)算、大算法的不斷推進(jìn),神經(jīng)機(jī)器翻譯不會是機(jī)器翻譯的終極,接下來會產(chǎn)生更為先進(jìn)高效的機(jī)器翻譯方法。
第三,運(yùn)算的變化。高性能的計(jì)算研究與機(jī)器翻譯技術(shù)相融合,這樣翻譯質(zhì)量與翻譯性能就會進(jìn)一步得到提高。比如運(yùn)算的加速,可能就會縮短語音翻譯的延遲;再比如說更多的運(yùn)算定制就有可能實(shí)現(xiàn)更多的運(yùn)算任務(wù),這些運(yùn)算任務(wù)放到不同的機(jī)器翻譯產(chǎn)品上就有可能更加方便日常生活中翻譯的使用。
自然語言處理在機(jī)器翻譯中得到廣泛應(yīng)用,并不斷取得新的突破,這不僅為機(jī)器翻譯研究打開了更為廣闊的視野,還為其發(fā)展添入了更多的生機(jī)與活力,使巴別塔的重建成為可能。本文介紹了自然語言處理和機(jī)器翻譯的一些基本內(nèi)容,簡要舉例說明了自然語言處理在機(jī)器翻譯中的應(yīng)用,并對機(jī)器翻譯的研究進(jìn)行了探討。事實(shí)上,自然語言處理在其他領(lǐng)域也有著相當(dāng)多的應(yīng)用,比如在教育領(lǐng)域就取得豐碩的成果,而人們學(xué)習(xí)和使用語言的方法對自然語言處理的具體研究也有著相當(dāng)重要的啟示作用(俞士汶、柏曉靜,2006)。因此,在知識經(jīng)濟(jì)的時(shí)代背景下,自然語言處理技術(shù)在各個(gè)領(lǐng)域的研究應(yīng)相互借鑒,根據(jù)人類的不同需求,結(jié)合各種運(yùn)算任務(wù)應(yīng)用到產(chǎn)品當(dāng)中去,以更好地服務(wù)人類。此外,隨著對人類大腦認(rèn)知機(jī)制“黑箱”研究的不斷深入,相信機(jī)器翻譯的質(zhì)量與效率也會得到顯著提高。
參考文獻(xiàn):
[1]Chen,C.L.P. & Z.L.Liu.Broad Learning System: An Effective and Efficient Incremental Learning System Without the Need for Deep Architecture [J].IEEE Transactions on Neural Networks and Learning Systems,2017,(99).
[2]Hutchins,W.J.Machine Translation:Past,Present,F(xiàn)uture[M].Chichester: Ellis Horwood Limited,1986.
[3]Manaris,B.Natural Language Processing: A Human-Computer Interaction Perspective [J].Advances in Computers,1998,(8).
[4]Ranzato,M.,S.Chopra.,M.Auli. & W.Zaremba.Sequence Level Training with Recurrent Neural Networks[A].International Conference on Learning Representations[C].2016.
[5]馮志偉.自然語言處理的形式模型[M].合肥:中國科學(xué)技術(shù)大學(xué)出版社,2010.
[6]馮志偉.機(jī)器翻譯與人工智能的平行發(fā)展[J].外國語(上海外國語大學(xué)學(xué)報(bào)),2018,(6).
[7]胡開寶,李翼.機(jī)器翻譯特征及其與人工翻譯關(guān)系的研究[J].中國翻譯,2016,(5).
[8]李沐,劉樹杰,張冬冬,周明.機(jī)器翻譯[M].北京:高等教育出版社,2018.
[9]劉穎.計(jì)算語言學(xué)[M].北京:清華大學(xué)出版社,2014.
[10]王萌,俞士汶,朱學(xué)鋒.自然語言處理技術(shù)及其教育應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2015,(20).
[11]俞士汶,柏曉靜.計(jì)算語言學(xué)與外語教學(xué)[J].外語電化教學(xué),2006,(5).
[12]張政.計(jì)算機(jī)翻譯研究[M].北京:清華大學(xué)出版社, 2006.
[13]張政.計(jì)算語言學(xué)與機(jī)器翻譯導(dǎo)論[M].北京:外語教學(xué)與研究出版社,2010.
[14]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[15]祝朝偉.機(jī)器翻譯要取代作為人的譯者了嗎?——兼談翻譯人才培養(yǎng)中科技與人文的關(guān)系[J].外國語文, 2018,(3).