国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多語種網(wǎng)站平行語料采集與對(duì)齊研究

2020-11-16 06:56劉佳雨程南昌
關(guān)鍵詞:機(jī)器翻譯多語種

劉佳雨 程南昌

摘要:豐富的平行語料庫(kù)對(duì)提升機(jī)器翻譯準(zhǔn)確度意義重大,然而目前研究中缺乏有效的平行語料獲取方法,本文提出一種從多語種網(wǎng)站中自動(dòng)獲取平行語料的方法,并且通過6個(gè)多語種網(wǎng)站的平行語料采集和對(duì)齊研究,驗(yàn)證通過多語種網(wǎng)站獲取大規(guī)模平行語料具有較高的可行性,這說明通過多語種網(wǎng)站獲取大規(guī)模平行語料具有較高的可行性。

關(guān)鍵詞:多語種;新聞網(wǎng)站;平行語料;篇章對(duì)齊;機(jī)器翻譯

中圖分類號(hào):TP391.2 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)09-0214-04

0 引言

統(tǒng)計(jì)機(jī)器翻譯通常需要大規(guī)模的平行語料來不斷提高翻譯的準(zhǔn)確度,因此語料庫(kù)的規(guī)模與持續(xù)擴(kuò)充是提高機(jī)器翻譯質(zhì)量的重要因素。平行語料的人工標(biāo)注難度很大,特別是小語種語料,而互聯(lián)網(wǎng)上存在著大量多語平行語料資源,并且這些語料是持續(xù)增長(zhǎng)的。如何通過網(wǎng)絡(luò)爬蟲技術(shù)和雙語自動(dòng)對(duì)齊技術(shù)從多語種網(wǎng)站采集并對(duì)齊語料,在機(jī)器翻譯領(lǐng)域是一件值得研究的事。

1 相關(guān)研究

1.1 機(jī)器翻譯的發(fā)展

Koehn[1]將機(jī)器翻譯的過程定義為計(jì)算機(jī)自動(dòng)將一種語言轉(zhuǎn)化成具有相同意義的其他語言,機(jī)器翻譯已經(jīng)逐漸成為了互聯(lián)網(wǎng)信息服務(wù)中不可或缺的一環(huán)。朱杰[2]指出人們普遍認(rèn)為基于規(guī)則的方法和基于語料庫(kù)的方法是機(jī)器翻譯最常用的兩大類方法。隨著研究的深入,基于規(guī)則的方法逐漸暴露出質(zhì)量低,成本高等缺點(diǎn),基于語料庫(kù)的方法開始流行?;谡Z料庫(kù)的方法又可分為基于統(tǒng)計(jì)和基于實(shí)例兩種,馮志偉[3]提到這兩種方法都需要將語料庫(kù)作為翻譯訓(xùn)練的來源,通過大量的語料統(tǒng)計(jì)來進(jìn)行翻譯學(xué)習(xí)的數(shù)據(jù)獲取。但在統(tǒng)計(jì)翻譯模型面世很長(zhǎng)一段時(shí)間內(nèi),語料的匱乏和缺失使得這種機(jī)器翻譯的人工成本增高。之后通過基于序列的遞歸神經(jīng)網(wǎng)絡(luò)自動(dòng)獲取并記錄詞匯特征的方法出現(xiàn),機(jī)器翻譯在深度學(xué)習(xí)的發(fā)展中取得了突破性進(jìn)展。

1.2 平行語料庫(kù)

機(jī)器翻譯相關(guān)的語料庫(kù)有平行語料、多語語料、可比語料這三種。平行語料指使用不同語言撰寫且存在對(duì)應(yīng)翻譯關(guān)系的文本數(shù)據(jù)集。肖維青[4]研究發(fā)現(xiàn)雙語平行語料庫(kù)在機(jī)器翻譯應(yīng)用中的作用越來越重要。目前用于機(jī)器翻譯的平行語料主要為多語或雙語平行句對(duì)。語料的規(guī)模影響著機(jī)器翻譯的質(zhì)量,另一個(gè)影響機(jī)器翻譯質(zhì)量的語料因素是語料的純凈度。邵健[5]將建立平行語料庫(kù)的方法總結(jié)為兩種:一是從數(shù)據(jù)庫(kù)或權(quán)威文檔中挖掘語料,二是從雙語網(wǎng)站獲取并整理生成平行語料。平行語料庫(kù)的建立主要是通過對(duì)已有數(shù)據(jù)庫(kù)的改造與處理,在權(quán)威的多語種文獻(xiàn)中提取可作為平行語料的語句。此外,隨著雙語網(wǎng)站的不斷增多,從互聯(lián)網(wǎng)獲取平行語料成為了語料擴(kuò)充的重要渠道。

1.3 語料對(duì)齊

王斌[6]將語料對(duì)齊定義為確定源文本和目標(biāo)文本是否互為翻譯關(guān)系的過程。對(duì)于獲取的原始語料存在噪音的問題,因?yàn)椴荒苤苯邮褂迷跈C(jī)器翻譯的模型訓(xùn)練中,所以需要通過篇章對(duì)齊等技術(shù)的處理,目前對(duì)齊主要思路是根據(jù)多語種語料間句子的特征尋找匹配度最高的句子,通過句子長(zhǎng)度,詞匯信息等因素來匹配最合適的句子。

2 實(shí)驗(yàn)過程

2.1 主要思路

選擇主流官方媒體人民網(wǎng),中國(guó)青年網(wǎng),外交部官方網(wǎng)站等擁有多語種的網(wǎng)站作為采集目標(biāo),官方新聞網(wǎng)站在不同語種頻道發(fā)布的新聞主要分為獨(dú)立編輯新聞和翻譯漢語新聞,根據(jù)需求進(jìn)行篇章對(duì)齊的是后者。通過網(wǎng)頁(yè)代碼制定抓取規(guī)則,使用數(shù)據(jù)采集系統(tǒng)分別對(duì)上述網(wǎng)站的新聞進(jìn)行抓取,分別選取其漢語、英語、日語、韓語、法語、俄語等多個(gè)不同語種頻道的新聞。抓取內(nèi)容包括標(biāo)題布時(shí)間、內(nèi)容等容易進(jìn)行匹配的特征。

2.2 互聯(lián)網(wǎng)平行語料調(diào)研

目前互聯(lián)網(wǎng)上的多語種平行語料主要有精準(zhǔn)翻譯語料、雙語詞條語料、多語種新聞網(wǎng)站平行語料。

精準(zhǔn)翻譯語料以雙語詞條語料多存在于網(wǎng)絡(luò)詞典中。詞典語料的優(yōu)點(diǎn)對(duì)齊精度最高,主要是對(duì)齊到詞匯一級(jí),但針對(duì)網(wǎng)絡(luò)詞典句子級(jí)采集有難度,而且例句之間有重復(fù)性,通過雙語詞典獲取的通常是一對(duì)多關(guān)系,其語料來源為已有實(shí)體詞典,更新頻率慢。

雙語詞條語料主要是發(fā)布的雙語對(duì)照新聞,以外交部發(fā)言人辦公室官方微信公眾號(hào)為例,在發(fā)布的例行記者發(fā)布會(huì)內(nèi)容中為一對(duì)一翻譯的雙語新聞,這種平行語料質(zhì)量高,可以直接作為機(jī)器翻譯的語料,但是這種平行語料較少且大部分只有中英對(duì)照,數(shù)據(jù)缺乏規(guī)模和普遍性。

多語種新聞網(wǎng)站平行語料是本次實(shí)驗(yàn)所探究采集的語料,在國(guó)家級(jí)政府機(jī)構(gòu)的新聞網(wǎng)站會(huì)分為不同的語種頻道,一些新聞報(bào)道會(huì)在間隔較短的時(shí)間內(nèi)以不同語言發(fā)布在對(duì)應(yīng)網(wǎng)站。這些語料雖然不是精確到一對(duì)一翻譯,但能夠從相同事件的文本中獲取機(jī)器翻譯語料,同時(shí)數(shù)據(jù)每天更新,可以不斷豐富平行語料庫(kù)。

2.3 平行采集

使用爬蟲技術(shù)對(duì)選擇的多語種網(wǎng)站進(jìn)行抓取,數(shù)據(jù)從互聯(lián)網(wǎng)采集到本地之后,將按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)分類,以.txt的格式存儲(chǔ)在對(duì)應(yīng)的文件夾中,通過設(shè)置對(duì)應(yīng)的路徑方便篇章對(duì)齊中文本數(shù)據(jù)的選取。

2.4 篇章對(duì)齊

對(duì)采集的語料進(jìn)行分類后開始篇章對(duì)齊處理。如果篇章處理后發(fā)現(xiàn)網(wǎng)站的不同語種新聞存在較高的相似度,就可以將這些語料用于機(jī)器翻譯的學(xué)習(xí)中。在篇章對(duì)齊的實(shí)現(xiàn)過程中主要接入百度通用翻譯API,在調(diào)入接口的過程中設(shè)置自動(dòng)識(shí)別語言,同時(shí)設(shè)置發(fā)送字符的換行符便于一次請(qǐng)求中翻譯多段文本。之前已經(jīng)對(duì)采集到的語料按照網(wǎng)站名稱和語種進(jìn)行了分類,因此在篇章對(duì)齊的過程中只需要選中需要進(jìn)行對(duì)齊操作的文件夾,通過采集新聞標(biāo)題中的時(shí)間進(jìn)行匹配,設(shè)置好相似度即可。設(shè)置相似度的目的是為了根據(jù)需求來調(diào)控所需語料的精確度,同時(shí)也為了驗(yàn)證選擇的網(wǎng)站在多語種頻道發(fā)布的新聞相關(guān)程度。

2.5 對(duì)齊質(zhì)量分析

采集對(duì)象主要是多語種網(wǎng)站,第一階段實(shí)現(xiàn)篇對(duì)篇對(duì)齊。第二階段開始考慮句子,詞匯。根據(jù)不同的相似度對(duì)采集的文本進(jìn)行篇章對(duì)齊,對(duì)齊后的多語種文本以其中第一篇新聞標(biāo)題為名稱歸類于同一文件夾,同時(shí)進(jìn)行漢語翻譯,用于判斷對(duì)齊質(zhì)量。篇章對(duì)齊后利用翻譯后的文本對(duì)比判斷多語種的新聞內(nèi)容關(guān)鍵詞是否相關(guān)。在本次實(shí)驗(yàn)中主要確定觀察篇章對(duì)齊后新聞文本是否滿足作為雙語語料的基本條件,具體的判斷標(biāo)準(zhǔn)分為以下幾個(gè)層次:(1)文章內(nèi)容大致相同,逐句對(duì)應(yīng)程度高;(2)文章內(nèi)容不同,但是主題相對(duì)應(yīng);(3)文章內(nèi)容與主題不相同,其中只有幾個(gè)關(guān)鍵詞可對(duì)應(yīng)。

3 實(shí)驗(yàn)結(jié)果分析

3.1 數(shù)據(jù)采集結(jié)果

本次實(shí)驗(yàn)使用正則采集規(guī)則,從互聯(lián)網(wǎng)中采集到人民網(wǎng)、外交部官網(wǎng)、新華網(wǎng)、國(guó)際在線、中國(guó)青年網(wǎng)、中國(guó)網(wǎng)六個(gè)網(wǎng)站的不同語種頻道(主要為英、法、德、俄、日、韓)共1987條新聞數(shù)據(jù)。每條新聞為單獨(dú)的一個(gè).txt文件,并按照來源、語種和時(shí)間進(jìn)行了分類處理。

3.2 篇章對(duì)齊結(jié)果

對(duì)收集到的語料進(jìn)行自動(dòng)篇章對(duì)齊,選取2019年9月1日-2019年10月20日的新聞文本為對(duì)齊對(duì)象,通過相似比得到不同的對(duì)齊結(jié)果,從而分析不同網(wǎng)站多語頻道的文本對(duì)齊程度。先通過人工翻譯將相似文章進(jìn)行人工對(duì)齊,然后導(dǎo)入軟件進(jìn)行自動(dòng)對(duì)齊,通過比較人工和軟件的篇章對(duì)齊結(jié)果,評(píng)測(cè)多語種網(wǎng)站是否具有作為平行語料的資質(zhì)。

3.2.1 人民網(wǎng)對(duì)齊結(jié)果分析

人民網(wǎng)采集數(shù)量如下:德語30篇、法語62篇、俄語85篇、韓語91篇、日語10篇、英語79篇。對(duì)人民網(wǎng)的新聞?wù)Z料進(jìn)行人工對(duì)齊,共計(jì)有11項(xiàng)新聞?wù)Z料使用不同語種陳述相同事情,在相似度0.9的情況下進(jìn)行篇章對(duì)齊,結(jié)果顯示在對(duì)齊的17項(xiàng)主題中,有4項(xiàng)主題與文本內(nèi)容一致,其余13項(xiàng)均為關(guān)鍵詞相同,與人工比對(duì)結(jié)果相比對(duì)齊效果較好,作為平行語料具有參考價(jià)值,文本對(duì)齊結(jié)果如表1所示。

3.2.2 外交部官網(wǎng)對(duì)齊結(jié)果分析

外交部官網(wǎng)采集數(shù)量如下:法語16篇、英語15篇、截止采集日期,外交部官網(wǎng)俄語頻道2018年3月份后無更新。人工對(duì)齊4篇相似主題新聞文章,在相似度比為0.9的情況下進(jìn)行自動(dòng)對(duì)齊結(jié)果為4篇同語種文章對(duì)齊,通過觀察發(fā)現(xiàn)原因是因?yàn)橥饨徊抗俜骄W(wǎng)站采集的語料較少,無法覆蓋自動(dòng)篇章對(duì)齊所需的數(shù)據(jù)量。但由于主要內(nèi)容針對(duì)的新聞方向是外交與國(guó)際,采集結(jié)果文本多以外交新聞為主,因此關(guān)鍵詞匹配度較高。

3.2.3 國(guó)際在線對(duì)齊結(jié)果分析

國(guó)際在線采集數(shù)量如下:德語26篇、法語37篇、俄語50篇、英語40篇。國(guó)際在線新聞文本人工對(duì)齊共8篇,4個(gè)主題。在相似度對(duì)為0.9的情況下使用軟件進(jìn)行篇章對(duì)齊結(jié)果在9項(xiàng)對(duì)齊結(jié)果中有2項(xiàng)主題和文本內(nèi)容一致,其余7項(xiàng)均為部分關(guān)鍵詞相同,新聞采集和初步篇章對(duì)齊結(jié)果顯示國(guó)際在線多語種新聞文本可作為平行語料。文本內(nèi)容對(duì)齊結(jié)果如表2所示。

3.2.4 新華網(wǎng)對(duì)齊結(jié)果分析

新華網(wǎng)共采集新聞348篇,采集語料數(shù)量如下:德語51篇、法語50篇、俄語51篇、韓語64篇、日語67篇、英語65篇。人工對(duì)齊結(jié)果為8個(gè)主題,共18篇文章在新聞內(nèi)容上一致。對(duì)數(shù)據(jù)進(jìn)行清洗后,在相似比為0.9的情況下對(duì)采集數(shù)據(jù)進(jìn)行自動(dòng)篇章對(duì)齊,在對(duì)篇章對(duì)齊結(jié)果進(jìn)行數(shù)據(jù)清理后得到13項(xiàng)結(jié)果,其中5項(xiàng)對(duì)齊程度高新聞主題和內(nèi)容相同,剩余8項(xiàng)為部分關(guān)鍵詞相同。在篇章自動(dòng)對(duì)齊結(jié)果中,新華網(wǎng)文本基本滿足了多語種語料篇章對(duì)齊的要求,對(duì)齊結(jié)果質(zhì)量較高,可以作為平行語料采用,具體對(duì)齊情況如表3所示。

3.2.5 中國(guó)青年網(wǎng)對(duì)齊結(jié)果分析

中國(guó)青年網(wǎng)共采集74篇,采集語料數(shù)量如下:法語20篇、俄語32篇、英語22篇。由于中國(guó)青年網(wǎng)部分網(wǎng)站運(yùn)營(yíng)出現(xiàn)問題,導(dǎo)致數(shù)據(jù)采集缺失。在后期人工對(duì)齊中,共有兩項(xiàng)主題內(nèi)容相同。通過軟件進(jìn)行自動(dòng)篇章對(duì)齊,無準(zhǔn)確結(jié)果,因此中國(guó)青年網(wǎng)不作為平行語料的采集對(duì)象。

3.2.6 中國(guó)網(wǎng)對(duì)齊結(jié)果分析

中國(guó)網(wǎng)共采集280篇,采集語料數(shù)量如下:德語44篇、法語60篇、俄語70篇、日語53篇、韓語54。人工對(duì)齊結(jié)果共有7項(xiàng),16篇文本。使用軟件進(jìn)行自動(dòng)篇章對(duì)齊結(jié)果一共有7項(xiàng),其中2項(xiàng)主題內(nèi)容相同,剩余5項(xiàng)為關(guān)鍵詞對(duì)齊。綜合對(duì)齊效果來看,中國(guó)網(wǎng)無論是從文章主題還是關(guān)鍵詞的角度對(duì)齊數(shù)量少,因此不適合作為平行語料的數(shù)據(jù)采集庫(kù)。

4 實(shí)驗(yàn)結(jié)果分析

本文通過對(duì)六個(gè)多語種網(wǎng)站(人民網(wǎng)、新華網(wǎng)、中國(guó)青年網(wǎng)、外交部官方網(wǎng)站、中國(guó)網(wǎng)、國(guó)際在線)的不同語言頻道新聞進(jìn)行采集和篇章對(duì)齊處理,得到以下結(jié)論:

(1)具備作為平行語料采集價(jià)值的多語種網(wǎng)站,其中人民網(wǎng)、新華網(wǎng)、外交部官網(wǎng)、國(guó)際在線這四個(gè)網(wǎng)站作為采集對(duì)象,通過篇章對(duì)齊后得到的文本對(duì)齊率高,自動(dòng)對(duì)齊的文本較精準(zhǔn),可作為平行語料。另外兩個(gè)網(wǎng)站由于更新問題,暫時(shí)還不具備作為多語種平行語料的價(jià)值。

(2)傳統(tǒng)的平行語料大多來源自雙語數(shù)據(jù)庫(kù),對(duì)擁有多語種頻道的新聞網(wǎng)站而言,通過篇章對(duì)齊獲得的平行語料相較傳統(tǒng)數(shù)據(jù)庫(kù)而言缺乏一定的精確性,但由于新聞需要每天更新,因此文本數(shù)據(jù)始終在增加,這樣平行語料就會(huì)處于一直增加的狀態(tài),同時(shí)多語種網(wǎng)站提供了不同的語種組合,所以可以獲得更多種語言的平行語料。下一步的工作主要是提高篇章對(duì)齊的準(zhǔn)確度,從篇章對(duì)齊延伸至句子對(duì)齊,同時(shí)從具有平行語料價(jià)值的網(wǎng)站中獲取更多的多語種文本。

參考文獻(xiàn)

[1] Koehn P.Statistical machine translation[M].Cambridge:Cambridge University Press,2010.

[2] 朱杰,古明.基于語料庫(kù)的機(jī)器翻譯[J].現(xiàn)代交際,2019(17):100-101.

[3] 馮志偉.基于語料庫(kù)的機(jī)器翻譯系統(tǒng)[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2010(1):28-35.

[4] 肖維青.平行語料庫(kù)與應(yīng)用翻譯研究[J].中國(guó)科技翻譯,2007(3):25-28.

[5] 邵健,章成志.從互聯(lián)網(wǎng)上自動(dòng)獲取領(lǐng)域平行語料[J].現(xiàn)代圖書情報(bào)技術(shù),2014(12):36-43.

[6] 王斌.漢英雙語語料庫(kù)自動(dòng)對(duì)齊研究[D].北京:中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),1999.

猜你喜歡
機(jī)器翻譯多語種
Haun Saussy, The Making of Barbarians: Chinese Literature and Multilingual Asia
青島市多語種應(yīng)急語言服務(wù)現(xiàn)狀與需求調(diào)查研究
語聯(lián)世界,言通天下
多語種《中級(jí)軍事漢語》教材的編寫思路與指導(dǎo)思想
互聯(lián)網(wǎng)+新時(shí)代下人機(jī)翻譯模式研究
“語聯(lián)網(wǎng)+行業(yè)” 助力中國(guó)偉大復(fù)興
北美“新清史”研究的基石何在——是多語種史料考辨互證的實(shí)證學(xué)術(shù)還是意識(shí)形態(tài)化的應(yīng)時(shí)之學(xué)?(上)
從英語碩士到法國(guó)博士——我的留學(xué)規(guī)劃和多語種學(xué)習(xí)之路