文/鄭州輕工業(yè)大學(xué) 戎璐
2022年是“十四五”規(guī)劃和向第二個百年奮斗目標(biāo)前進(jìn)的關(guān)鍵之年,我國正處于科技飛速發(fā)展的關(guān)鍵時期,也是大數(shù)據(jù)產(chǎn)業(yè)迅速發(fā)展的時期。大數(shù)據(jù)產(chǎn)業(yè)的快速發(fā)展與數(shù)據(jù)的不斷積累,引起了數(shù)據(jù)驅(qū)動方式與算法范式的變革熱潮,以機(jī)器學(xué)習(xí)、深度學(xué)習(xí)為支撐的人工智能技術(shù)發(fā)展得如火如荼,已經(jīng)廣泛應(yīng)用到社會生活的各個領(lǐng)域,引發(fā)各行各業(yè)向自動化、智能化改革。對圖書館而言,借助人工智能技術(shù)的有效應(yīng)用,推進(jìn)傳統(tǒng)服務(wù)模式創(chuàng)新發(fā)展,構(gòu)建智慧圖書館,不但能夠確保館藏資源的有效傳播與利用,還可以為廣大讀者帶來更加便捷、智能、精準(zhǔn)的服務(wù)。
機(jī)器翻譯是人工智能的終極目標(biāo)之一,被學(xué)術(shù)界視為人工智能研究皇冠上最耀眼的一顆明珠。機(jī)器翻譯肩負(fù)著架起語言溝通橋梁的重任,在促進(jìn)圖書館自動化、智慧化、未來化建設(shè)中具有重要實用價值。因而,越來越多的研究者紛紛將目光轉(zhuǎn)向機(jī)器翻譯在圖書館領(lǐng)域的研究,他們在跨語言檢索、多語言服務(wù)等方面展開研究,并取得階段性進(jìn)展。例如劉莉等人采用文獻(xiàn)分析法、案例分析法和網(wǎng)絡(luò)調(diào)查法等梳理機(jī)器翻譯在圖書館領(lǐng)域的發(fā)展現(xiàn)狀,并進(jìn)一步提出未來的應(yīng)用趨勢。同時還討論了機(jī)器翻譯研究的局限性,并立足于不同角度,試圖提出多語言自動翻譯平臺的構(gòu)建策略。
此外,就機(jī)器翻譯在圖書館的應(yīng)用現(xiàn)狀而言,國內(nèi)許多圖書館如南京圖書館、浙江大學(xué)圖書館、云南高校圖書館、江蘇大學(xué)圖書館都在探索機(jī)器翻譯在信息檢索、文獻(xiàn)翻譯等方面的優(yōu)化。但是通過反饋調(diào)查,發(fā)現(xiàn)仍然存在對縮寫詞、新生詞以及長難句等翻譯效果不佳的情況。就鄭州輕工業(yè)大學(xué)圖書館而言,網(wǎng)上圖書館已經(jīng)能夠進(jìn)行中英文檢索,構(gòu)建起了圖書雙語檢索平臺,這一點極大地方便了師生對館藏資源的利用。但是,如何將圖書館內(nèi)的數(shù)字資源與機(jī)器翻譯更好地結(jié)合,在搜索的同時還能準(zhǔn)確地對文獻(xiàn)進(jìn)行自動實時翻譯,以便能夠同時服務(wù)于不同專業(yè)學(xué)生的借閱需求、滿足不同層次學(xué)生的文獻(xiàn)檢索查閱需要,實現(xiàn)館藏資源的最大利用,還有待進(jìn)一步挖掘與探索。此外,機(jī)器翻譯在現(xiàn)有圖書館中應(yīng)用范圍與廣度的潛力還有待開發(fā)。
上述研究成果與應(yīng)用現(xiàn)狀推動了機(jī)器翻譯在圖書館中的研究,也鼓勵了本文的開展。但是,現(xiàn)有研究因其學(xué)科視角與切入點不同,導(dǎo)致其對機(jī)器翻譯的理解各異,尚未形成全面的視野。
針對此,本文立足于大數(shù)據(jù)時代背景,首先歸納機(jī)器翻譯的內(nèi)涵和發(fā)展脈絡(luò),梳理機(jī)器翻譯在圖書館領(lǐng)域的國內(nèi)外研究現(xiàn)狀。其次分析了領(lǐng)域內(nèi)主流研究方法的優(yōu)勢與不足,剖析目前存在的研究問題,并提出簡單的解決方案。最后展望未來可能的研究方向與設(shè)想,以期對機(jī)器翻譯在圖書館的應(yīng)用路徑提供新思考與啟發(fā)。
(一)機(jī)器翻譯的內(nèi)涵與發(fā)展。機(jī)器翻譯是人工智能的重要分支之一,旨在通過計算機(jī)與領(lǐng)域知識將一種語言自動轉(zhuǎn)換成另一種語言。機(jī)器翻譯綜合了計算機(jī)科學(xué)、信息學(xué)、語言學(xué)、統(tǒng)計學(xué)、社會學(xué)等各個學(xué)科知識,研究領(lǐng)域覆蓋深度學(xué)習(xí)、語法規(guī)則、俚語文化等多個主題,內(nèi)含多學(xué)科視角與跨學(xué)科本質(zhì)。機(jī)器翻譯的起源可以追溯至公元前8到9世紀(jì)的古希臘時期,Al-Kindi最早萌生語言翻譯的靈感,開發(fā)出系統(tǒng)語言翻譯技術(shù),包括機(jī)器翻譯中使用的密碼分析、概率和統(tǒng)計等規(guī)則。隨后,機(jī)器翻譯的概念出現(xiàn)于17世紀(jì),法國哲學(xué)家、數(shù)學(xué)家René Descartes提出一種設(shè)想:創(chuàng)建一種通用語言,使得不同語言的相同思想共享一個符號。
隨著科技與文明的不斷前進(jìn),自50年代至60年代,前蘇聯(lián)與美國紛紛加大對機(jī)器翻譯項目的資金支持,展現(xiàn)出一時的繁榮。受限于當(dāng)時計算機(jī)硬件水平,機(jī)器翻譯無法達(dá)到成熟且可被人接受的語言翻譯質(zhì)量,與人工翻譯標(biāo)準(zhǔn)相去甚遠(yuǎn),其經(jīng)歷短暫的繁榮期后進(jìn)入蕭條期。步入80年代后,隨著計算機(jī)硬件水平的提高和成本的降低,研究者對機(jī)器翻譯的統(tǒng)計模型表現(xiàn)出更多興趣并進(jìn)入實用化階段。自此,隨著計算機(jī)硬件與軟件的不斷提升,社交網(wǎng)絡(luò)的流行與數(shù)據(jù)量的激增,對機(jī)器翻譯的研究如火如荼。特別是深度學(xué)習(xí)提出以來,基于深度學(xué)習(xí)的機(jī)器翻譯更是勢如破竹,不僅質(zhì)量達(dá)到人工翻譯的水平,而且效率遠(yuǎn)超人工。機(jī)器翻譯真正走向?qū)嵱?,成功?yīng)用到政治、文化、經(jīng)濟(jì)等各行各業(yè)。
據(jù)《2022中國翻譯及語言服務(wù)行業(yè)發(fā)展報告》統(tǒng)計顯示,語言服務(wù)提供商和服務(wù)需求方均認(rèn)為機(jī)器翻譯前景廣闊,89%的語言服務(wù)企業(yè)希望投入更多的資金以支持本企業(yè)在機(jī)器翻譯領(lǐng)域的發(fā)展,92.9%的翻譯語言服務(wù)需求方認(rèn)為機(jī)器翻譯技術(shù)的使用可以提高翻譯質(zhì)量。此外,機(jī)器翻譯的研究成果也不斷涌現(xiàn),例如NiuTrans支持300種語言互譯,是全球支持語種對最多的供應(yīng)商。瀾舟科技在“漢語與15種語言”的機(jī)器翻譯上達(dá)到了世界領(lǐng)先水平。谷歌推出“一千種語言計劃”以支持全球1000種常用的語言模型。
(二)機(jī)器翻譯在圖書館的應(yīng)用研究現(xiàn)狀。隨著機(jī)器翻譯技術(shù)在圖書館自動化、智慧化、未來化建設(shè)方面展現(xiàn)的廣闊前景,越來越多的國內(nèi)外研究學(xué)者將目光聚焦于研究機(jī)器翻譯在圖書館中的應(yīng)用,本文將概述與總結(jié)目前國內(nèi)外本領(lǐng)域研究現(xiàn)狀。
1.國內(nèi)研究現(xiàn)狀。國內(nèi)主要以知網(wǎng)數(shù)據(jù)庫為文獻(xiàn)數(shù)據(jù)源,搜集了2012年至2022年近10年的相關(guān)研究。通過對文獻(xiàn)的梳理與分析,本文將目前的研究分為四個方面,分別是機(jī)器翻譯與跨語言服務(wù)、機(jī)器翻譯案例研究、機(jī)器翻譯與檢索模型構(gòu)建以及多語言翻譯平臺構(gòu)建。
在機(jī)器翻譯與跨語言服務(wù)方面,司莉等人立足于調(diào)研跨語言檢索視角,采用文獻(xiàn)調(diào)研法和網(wǎng)絡(luò)調(diào)研法,選取11個國內(nèi)外典型的跨語言檢索平臺進(jìn)行研究,提出多語種翻譯型數(shù)據(jù)庫的跨語言檢索功能開發(fā)策略;針對機(jī)器翻譯案例研究,陳江萍等以德州歷史數(shù)字圖書館作為研究案例,通過Google、Systran和Bing三個在線翻譯系統(tǒng)進(jìn)行人工評價,得出Google和Bing在未經(jīng)過任何語料庫訓(xùn)練情境下翻譯效果更好的結(jié)論,討論了借助Google翻譯融入數(shù)字化圖書館建設(shè);對于機(jī)器翻譯與檢索模型構(gòu)建,余如等針對傳統(tǒng)數(shù)字圖書館跨語言檢索的問題,提出了一種新穎的圖書館漢英跨語言信息檢索模型,該模型構(gòu)建了漢英查詢詞互譯關(guān)聯(lián)規(guī)則,最后改進(jìn)了現(xiàn)有圖書檢索系統(tǒng)的全面性與準(zhǔn)確性;對于多語言翻譯平臺構(gòu)建,徐莉等提出以機(jī)器翻譯技術(shù)為核心,將其融入智慧圖書館建設(shè),構(gòu)建一個多語言自動翻譯平臺,以服務(wù)于圖書館多語言檢索、多語言信息共享等。
2.國外研究現(xiàn)狀。國外主要以谷歌學(xué)術(shù)(Google scholar)和Scopus數(shù)據(jù)庫為文獻(xiàn)數(shù)據(jù)源,搜集了2012年至2022年近10年的相關(guān)外文文獻(xiàn),通過對文獻(xiàn)整合分析、歸納梳理,將其分為針對發(fā)展意義和問題探討兩類研究。針對機(jī)器翻譯在圖書館的發(fā)展意義研究,Bowker等將渥太華公共圖書館的借閱服務(wù)翻譯成西班牙語以滿足西班牙語新用戶的需求,他們通過對四個翻譯版本,分別是基礎(chǔ)機(jī)器翻譯、快速編輯的機(jī)器翻譯、最大限度人工編輯的機(jī)器翻譯和專業(yè)人工翻譯進(jìn)行人工評估,結(jié)果顯示,基礎(chǔ)機(jī)器翻譯無法滿足用戶的需求與標(biāo)準(zhǔn),但是經(jīng)過快速編輯后的機(jī)器翻譯已經(jīng)可以基本滿足用戶的查閱需求。他們認(rèn)為機(jī)器翻譯在圖書館中的研究可以有效提升圖書館自動化水平,提升不同語種用戶的滿意度,對新時代圖書館建設(shè)的發(fā)展路徑具有重要研究意義。針對機(jī)器翻譯在圖書館的問題研究,Bowker拋出機(jī)器翻譯在圖書館應(yīng)用的新問題:如何基于機(jī)器翻譯技術(shù)提升圖書館員翻譯素養(yǎng),以提升自身工作能力,滿足工作需要。對此問題,他們也給出了自己的答案,即與翻譯專家、語言學(xué)專家合作,請專家參與培訓(xùn)圖書館員以及定時改進(jìn)機(jī)器翻譯技術(shù)。他們同樣認(rèn)為機(jī)器翻譯是一把“雙刃劍”,翻譯人員有責(zé)任幫助非語言專業(yè)人員掌握機(jī)器翻譯,而與圖書館合作就是非常有效的一種方法,達(dá)到了普及機(jī)器翻譯的目的;Tripathi等則立足于社會倫理,提出獨特的社會問題:如何評判圖書館管理人員與機(jī)器翻譯技術(shù)的依賴關(guān)系?針對此問題,他們認(rèn)為圖書管理人員和其他信息專業(yè)人員對于現(xiàn)有的機(jī)器翻譯工具不可過分依賴,可以借助工具進(jìn)行初始分類,但對于文檔內(nèi)容分析,仍需要在語言專家的幫助下對內(nèi)容進(jìn)行分類或提供給用戶。
結(jié)合筆者日常工作而言,機(jī)器翻譯在圖書館中具有多方面的影響。首先,對信息資源智能化建設(shè)影響較為顯著,主要體現(xiàn)在可以基于查詢?nèi)藛T(一般是借閱者)的查詢詞精準(zhǔn)分析他們的需求,自動完成在線精確檢索多語種文獻(xiàn)資源,智能多語種標(biāo)引、智能多語種摘要、多語種學(xué)科導(dǎo)航、構(gòu)建多語種知識庫等知識組織工作。其次,是對圖書館服務(wù)的影響較為顯著。機(jī)器翻譯可以有效協(xié)助留學(xué)生、外籍人士等自助辦理借閱證、館內(nèi)導(dǎo)航、選座定座、檢索、借還,提高服務(wù)效率,降低人工成本,也可以基于機(jī)器翻譯技術(shù)舉辦多語種閱讀推廣、閱讀交流、多語種講座、展覽、文化休閑等活動。筆者所在的大學(xué)圖書館更是正在籌備實施館外智能中英文快遞文獻(xiàn)服務(wù),延伸服務(wù)范圍,服務(wù)于中文、英文借閱者。此外,機(jī)器翻譯對圖書館員的影響較為顯著,可以協(xié)助圖書館員完成多語種圖書咨詢,提升工作效率與質(zhì)量。但是機(jī)器翻譯的普及,也給圖書館員帶來壓力,使得館員也需要同時學(xué)習(xí)外語以及相應(yīng)的翻譯技巧,轉(zhuǎn)向?qū)W習(xí)型人才。
基于上述研究現(xiàn)狀與實際應(yīng)用分析,機(jī)器翻譯在圖書館中的應(yīng)用研究目前主要圍繞跨語言服務(wù)、機(jī)器翻譯質(zhì)量評估、解決對策設(shè)想等方面展開。其中仍然存在若干問題有待解決。
(一)機(jī)器翻譯技術(shù)適用范圍的局限性。首先,是機(jī)器翻譯和翻譯技術(shù)適用范圍有限,對文獻(xiàn)題材翻譯質(zhì)量良莠不齊,主要體現(xiàn)在對專業(yè)性較高的文檔,如新聞或者科技文獻(xiàn)等翻譯效果尚佳,對文學(xué)性、風(fēng)俗性題材則不盡人意。目前最先進(jìn)的神經(jīng)機(jī)器翻譯系統(tǒng)也只在對話和新聞翻譯方面取得較好效果。其次,是機(jī)器翻譯缺乏形象思維能力。翻譯作為人類最復(fù)雜的認(rèn)知活動之一,不僅需要邏輯思維能力,形象思維能力也必不可少,機(jī)器翻譯可以通過數(shù)據(jù)訓(xùn)練學(xué)習(xí)邏輯思維能力,但無法學(xué)習(xí)人類的形象思維,所以在處理文學(xué)性較強(qiáng)的文檔時翻譯效果較差。再次,機(jī)器翻譯對長句、難句翻譯會出現(xiàn)邏輯混亂的情況。機(jī)器翻譯以語句為單位進(jìn)行輸入,同樣以語句為單位進(jìn)行輸出。實驗證明,當(dāng)語句單詞數(shù)超過60個詞時,機(jī)器翻譯就很難厘清語句內(nèi)部的邏輯關(guān)系。最后,機(jī)器翻譯對文本的深層含義難以準(zhǔn)確翻譯,特別是一些隱晦性表達(dá),機(jī)器翻譯往往難以傳其神。
(二)機(jī)器翻譯數(shù)據(jù)庫建設(shè)規(guī)模不足。數(shù)據(jù)庫建設(shè)對機(jī)器翻譯的長期發(fā)展意義重大,是機(jī)器翻譯發(fā)展的驅(qū)動與保障,調(diào)查顯示語料庫規(guī)模需達(dá)到1500萬語句時,基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯性能才優(yōu)于統(tǒng)計翻譯。但在實際中發(fā)現(xiàn),主流語言如中文、英語、日語等數(shù)據(jù)庫資源比較豐富,而其他小語種資源則難以達(dá)到此規(guī)模。此外,主流語種之間的互譯也主要集中在新聞和科技文本數(shù)據(jù)庫中,其他領(lǐng)域例如文化類文檔語料庫相對缺乏。
(三)對最新成果關(guān)注度以及與圖書館發(fā)展契合度欠缺?!?020中國語言服務(wù)行業(yè)發(fā)展報告》顯示,語言服務(wù)研究大多關(guān)注學(xué)科前沿?zé)狳c,但對行業(yè)實際問題關(guān)注不足。雖然機(jī)器翻譯目前應(yīng)用到各個領(lǐng)域,但在圖書館應(yīng)用方面模式較為單一,圖書館其他方面的應(yīng)用還有待探索。此外,機(jī)器翻譯主要應(yīng)用于文本翻譯任務(wù),而語音翻譯方面則鮮有涉及。隨著圖書館智慧化建設(shè),如何將機(jī)器翻譯應(yīng)用到圖書館適合的應(yīng)用場景中還有待進(jìn)一步探索與發(fā)現(xiàn)。
(四)缺乏完善的理論指導(dǎo)。機(jī)器翻譯并沒有一種完善的方法或者成熟的理論去指導(dǎo)機(jī)器翻譯在圖書館中的發(fā)展與應(yīng)用。此外,在專業(yè)人員方面,圖書館缺乏具有機(jī)器翻譯素養(yǎng)的人才,導(dǎo)致機(jī)器翻譯在實際應(yīng)用中無法做到物盡其用,這些都將影響機(jī)器翻譯在圖書館的應(yīng)用潛力。
(一)人機(jī)合作新模式,提升翻譯質(zhì)量。據(jù)《2022中國翻譯及語言服務(wù)行業(yè)發(fā)展報告》統(tǒng)計顯示,91%的語言服務(wù)企業(yè)認(rèn)為采用“機(jī)器翻譯+譯后編輯”模式提高了翻譯效率。針對機(jī)器翻譯譯文本身質(zhì)量而言,采用人機(jī)合作可以更好地提升機(jī)器翻譯質(zhì)量,給用戶帶來更好的體驗。對譯文質(zhì)量要求不高的文本如網(wǎng)頁信息、郵件等可以采用機(jī)器翻譯;對譯文質(zhì)量要求適中的文本如法律文獻(xiàn)、醫(yī)學(xué)著作等可以采用人機(jī)結(jié)合的方式;對譯文要求質(zhì)量較高的文本如文學(xué)、哲學(xué)等文本則仍需要專業(yè)人工處理。針對不同的文本選擇不同的人機(jī)合作模式可以有效提升翻譯質(zhì)量,節(jié)省人力物力,促進(jìn)圖書館智慧化轉(zhuǎn)型。
(二)加強(qiáng)多語種數(shù)據(jù)庫構(gòu)建,推動多語言翻譯平臺建設(shè)。據(jù)《2022中國翻譯及語言服務(wù)行業(yè)發(fā)展報告》統(tǒng)計顯示,近年來,語言服務(wù)企業(yè)翻譯語種主要集中在英語、法語、日語等常用語種,但主要語種的業(yè)務(wù)比重明顯下降,其他小語種有所上升??傮w而言,語言服務(wù)企業(yè)語種業(yè)務(wù)呈多元化發(fā)展趨勢。加快構(gòu)建多語種數(shù)據(jù)庫對于機(jī)器翻譯的速度和質(zhì)量有著重要意義。此外,多語言翻譯平臺的構(gòu)建也勢在必行,越來越多的研究者試圖提出信息檢索模型和多語言自動翻譯平臺的設(shè)計構(gòu)想,以期推動多語言翻譯平臺的創(chuàng)建。
(三)加強(qiáng)最新成果轉(zhuǎn)化,尋求機(jī)器翻譯與圖書館的契合點。大數(shù)據(jù)背景下,圖書館正面臨從傳統(tǒng)圖書館向數(shù)字圖書館再到智慧圖書館的轉(zhuǎn)型,圖書館的服務(wù)內(nèi)容和服務(wù)方式正面臨重大的變革,圖書館不應(yīng)只將關(guān)注點放在跨語言服務(wù)中,還需要隨時關(guān)注機(jī)器翻譯的最新成果,例如將語音翻譯應(yīng)用到圖書館中以此來提高翻譯效率。此外,一些新型技術(shù)在圖書館中的應(yīng)用已經(jīng)取得一些成果,如AR和VR技術(shù)等,圖書館可以將機(jī)器翻譯與AR、VR技術(shù)結(jié)合使用,進(jìn)一步提升讀者的閱讀體驗。此外,機(jī)器翻譯在圖書排序、圖書組織、索引等方面的應(yīng)用也亟待探索。
(四)加大對機(jī)器翻譯理論的研究力度。單靠數(shù)據(jù)驅(qū)動的機(jī)器翻譯方式難以同時做到“信、達(dá)、雅”,本質(zhì)上還是要推動對語言翻譯、語言規(guī)則的研究,創(chuàng)建機(jī)器翻譯的理論體系,進(jìn)而衍生出機(jī)器翻譯在圖書館的理論指導(dǎo),例如圖書館文檔規(guī)則下的機(jī)器翻譯偏好等。應(yīng)當(dāng)以理論指導(dǎo)應(yīng)用,促使機(jī)器翻譯在圖書館發(fā)展中更完善、更嚴(yán)謹(jǐn)。
機(jī)器翻譯在推動圖書館向智慧化轉(zhuǎn)型方面的重要性已經(jīng)被各行各業(yè)所認(rèn)識,其在圖書館中的應(yīng)用已經(jīng)成為圖書館建設(shè)中的核心研究課題,受到學(xué)術(shù)界與工業(yè)界的共同關(guān)注。本文在上述章節(jié)中詳細(xì)描述了機(jī)器翻譯的各個方面,通過這些描述,對機(jī)器翻譯的研究背景、問題定義、發(fā)展脈絡(luò)與最新現(xiàn)狀、相關(guān)性工作及已存在的科學(xué)問題具備清晰的了解。針對現(xiàn)有工作的不足,試圖提出若干策略與設(shè)想。例如通過人機(jī)合作來提升翻譯質(zhì)量、提高效率、節(jié)約成本,推動多語言數(shù)據(jù)庫的建設(shè),加快多語言翻譯平臺的構(gòu)建,關(guān)注機(jī)器翻譯技術(shù)的最新成果,尋求在圖書館應(yīng)用中的契合點等。雖然機(jī)器翻譯在圖書館的應(yīng)用已經(jīng)取得階段性成果,但未來機(jī)器翻譯領(lǐng)域的發(fā)展還有待進(jìn)一步探索與研究。