国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型設(shè)計(jì)與改進(jìn)

2018-07-27 06:50盧蓉
現(xiàn)代電子技術(shù) 2018年14期
關(guān)鍵詞:機(jī)器翻譯語料庫

盧蓉

摘 要: 針對傳統(tǒng)基于規(guī)則的機(jī)器翻譯模型存在英語翻譯結(jié)果不夠精確、難以準(zhǔn)確描述詞語間關(guān)系的弊端,設(shè)計(jì)并改進(jìn)基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型。該模型采用基于向量混合的短語合成語義統(tǒng)計(jì)英語機(jī)器翻譯方法,在翻譯相似度模型中,采用余弦相似度的方法獲取兩個(gè)向量的語義相似度,經(jīng)過帶權(quán)向量加法的計(jì)算極易辨別兩個(gè)相似向量的不同之處,獲取精準(zhǔn)的英語翻譯結(jié)果,對句子實(shí)施權(quán)值訓(xùn)練獲取構(gòu)成句子的主要短語,保證翻譯結(jié)果歸納出句子的中心思想。改進(jìn)基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型,針對用戶需求引入大數(shù)據(jù)的同時(shí)讓語言學(xué)家參與到機(jī)器翻譯的過程中,使得英語翻譯結(jié)果既能獨(dú)立進(jìn)行語義表達(dá),又能準(zhǔn)確描述詞語間關(guān)系。實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)的模型能夠精準(zhǔn)高效地進(jìn)行英語翻譯。

關(guān)鍵詞: 語義網(wǎng)絡(luò); 機(jī)器翻譯; 模型設(shè)計(jì); 語義相似度; 語料庫; 權(quán)重訓(xùn)練

中圖分類號: TN912.3?34; TP391.2 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2018)14?0126?04

Design and improvement of English machine translation model

based on semantic network

LU Rong

(Hainan University, Haikou 570028, China)

Abstract: In allusion to the deficiencies existing in the traditional rule?based machine translation model for its inaccurate English translation results and difficulty to accurately describe the relationship between words, an English machine translation model based on semantic network is designed and improved. In the model, the phrase semantic synthesis statistical English machine translation method based on vector hybrid is adopted. In the translation similarity degree model, the cosine similarity degree method is adopted to obtain the semantic similarity degree of two vectors. The differences between two similar vectors are very easy to be discriminated after addition calculation of weighted vectors, so as to obtain accurate English translation results. The weight training is conducted for sentences to obtain the main phrases that constitute sentences, so as to ensure that the central idea of the sentence is summarized in translation results. In the improved English machine translation model based on semantic network, big data is introduced to meet users′ needs and linguists are invited to participate in the machine translation process, so that not only can semantic expressions be independently conducted, but also the relationship between words can be accurately described in English translation results. The experimental results show that the designed model can conduct an accurate and efficient English translation.

Keywords: semantic network; machine translation; model design; semantic similarity; corpus; weight training

0 引 言

隨著我國綜合國力與國際競爭力的增強(qiáng),與世界各國的貿(mào)易往來、文化交流日益加深,英語作為應(yīng)用最為廣泛的語言成為我國與其他國家之間溝通的橋梁[1?2]。因此英語翻譯成其他語言的需求日益增強(qiáng),各種英語翻譯機(jī)器應(yīng)運(yùn)而生。英語機(jī)器翻譯的歷史可以追溯到20世紀(jì)80年代,而近十余年來,英語機(jī)器翻譯技術(shù)發(fā)生了翻天覆地的變化?,F(xiàn)有關(guān)于英語的翻譯模型設(shè)計(jì)數(shù)不勝數(shù),在某種程度可以滿足用戶的需求[3?4]。但同樣存在問題,大部分都是基于詞義排歧、語義角色標(biāo)注等進(jìn)行的英語機(jī)器翻譯模型,本文設(shè)計(jì)的基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型既能具備獨(dú)立進(jìn)行語義表達(dá)的能力,又能具備描述詞語間關(guān)系的能力,為各領(lǐng)域的用戶提供精確的翻譯服務(wù)。

1 英語機(jī)器翻譯模型的設(shè)計(jì)與改進(jìn)

1.1 基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型設(shè)計(jì)

語言學(xué)家嚴(yán)格分析翻譯結(jié)果并進(jìn)行知識庫更新,改善英語翻譯器的使用效果。計(jì)算機(jī)學(xué)家的功能是向機(jī)器輸入固定數(shù)值,系統(tǒng)設(shè)計(jì)成功后,對于翻譯結(jié)果的靈活度較低,不能進(jìn)行調(diào)整。因此,在基于規(guī)則的英語機(jī)器翻譯研究范式中融入語義網(wǎng)絡(luò),塑造基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型如圖1所示。

圖1引入了語義網(wǎng)絡(luò)部分,基于語義網(wǎng)絡(luò)的統(tǒng)計(jì)機(jī)器翻譯模型的翻譯結(jié)果更加精確,使得語言學(xué)習(xí)者的學(xué)習(xí)效果更加明顯,更能在有限時(shí)間內(nèi)高效率地學(xué)習(xí)英語。知識庫變成了包含大量信息的語料庫,計(jì)算機(jī)學(xué)家對于算法的設(shè)計(jì)也更加全面系統(tǒng)。

1.2 短語合成語義統(tǒng)計(jì)英語機(jī)器翻譯方法

1.2.1 翻譯相似度模型

相同語義空間中兩個(gè)不同多維向量[u],[v]的相似程度可以通過語義相似度來描述。向量[u],[v]相似度越大其所代表的向量[u],[v]描述的語義相似程度就越大。予以相似的實(shí)際應(yīng)用越來越廣泛,例如,在自然語言分析領(lǐng)域中也融入了語義相似度的概念。語義相似模型在統(tǒng)計(jì)機(jī)器翻譯中的具體表現(xiàn)是翻譯相似度模型[5]。在驗(yàn)證分析的過程中,可以通過多種方式獲取兩個(gè)向量[u],[v]的翻譯語義相似度,本文對最常用的方法余弦相似度進(jìn)行舉例說明。

1.2.2 余弦相似度

余弦相似度又稱為余弦距離,在多維空間中,用兩個(gè)向量夾角的余弦作為衡量這兩個(gè)向量間差異大小的標(biāo)準(zhǔn)。當(dāng)余弦值增大的情況下,兩個(gè)語義向量間的夾角會(huì)減小,那么兩個(gè)單詞的語義就越接近[6];當(dāng)余弦值減小的情況下,兩個(gè)語義向量間的夾角會(huì)變大,那么兩個(gè)單詞的語義就越不接近。雙語向量[u=a1,a2,…,an]以及[v=b1,b2,…,bn]的英語翻譯相似度為:[Simu,v=u·vu×v=i=1nai×bii=1na2i×i=1nb2i] (1)

1.2.3 帶權(quán)向量加法

通過式(2)能夠獲取相同語料庫中兩個(gè)單詞語義向量[u,v]的合成語義向量[p]:

[p=u+v=a1+b1,a2+b2,…,ai+bi]

(2)

設(shè)置單詞“機(jī)器”的語義向量為5維向量[u=2,6,8,7,1],單詞“翻譯”的語義向量為5維向量[v=1,3,4,5,6],那么根據(jù)式(2)得出合成短語“機(jī)器 翻譯”的語義向量[p=3,9,12,12,7]。

通過帶權(quán)向量加法獲取合成短語的合成語義向量的方式有效地解決前面的錯(cuò)誤[7?8],具體的公式如下:

[p=αu+βv] (3)

同樣分析合成語義“機(jī)器翻譯”的步驟,通過語料庫訓(xùn)練后得到的“機(jī)器翻譯”短語中“機(jī)器”的權(quán)重是[α=0.6],翻譯的權(quán)重[β=0.4],根據(jù)式(3)獲取“機(jī)器翻譯”的語義向量是[p=2.6,4.8,6.4,6.2,3.0]。

這種情況下,把短語“翻譯機(jī)器”當(dāng)成是新的短語,對“翻譯”“機(jī)器”實(shí)施新的權(quán)重訓(xùn)練,設(shè)置其權(quán)重分別是0.3,0.7,獲取“翻譯機(jī)器”的語義向量是[q=1.7,5.1,6.8,6.4,2.5]。再將兩者的語義向量結(jié)果進(jìn)行比較發(fā)現(xiàn),這次可以簡單地辨別兩個(gè)短語的不同之處。

通過式(4)可以得到多字短語的合成語義向量:

[p=i=1nλiwi] (4)

式中:多字短語各組合單元的單詞語義向量用[wi]表示;各組合單元單詞的權(quán)重用[λi]表示。

1.3 基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型改進(jìn)

上面對機(jī)器翻譯的現(xiàn)有水平進(jìn)行了探討研究,接下來對其未來發(fā)展趨勢進(jìn)行展望。

未來的研究中應(yīng)引進(jìn)更深層次的語言與知識儲備,更加精準(zhǔn)先進(jìn)的技術(shù)[9?10]。具體方法是讓語言學(xué)家參與到機(jī)器翻譯的過程中,增加新的語言信息、更新語料庫的知識儲備,以此改進(jìn)基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型流程,從科學(xué)、高效的角度調(diào)整研究范式的工作流程。獲取新的基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型如圖2所示。

2 實(shí)驗(yàn)分析

2.1 實(shí)驗(yàn)數(shù)據(jù)

為了驗(yàn)證本文設(shè)計(jì)的基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型能夠獲取精確的翻譯結(jié)果進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)的數(shù)據(jù)采用LDC語料的部分子集,包含400萬句平行句對;其中包括中文單詞9 890萬個(gè),英文單詞11 260萬個(gè)。實(shí)驗(yàn)的開發(fā)集是NIST 05,其中包括1 082個(gè)中文句子,每個(gè)中文句子下屬4個(gè)翻譯結(jié)果,也就是總計(jì)4 328個(gè)英文句子。實(shí)驗(yàn)測試集分別是NIST 06,NIST 08,測試集NIST 06包含1 664個(gè)句子,下屬4個(gè)英文句子,即6 656個(gè)英文句子;測試集NIST 06包含1 357個(gè)中文句子,下屬4個(gè)英文翻譯句子,即5 428個(gè)英文句子。

2.2 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)采用層次短語解碼器的C++實(shí)現(xiàn)版本作為解碼器。詳細(xì)操作步驟如下:英漢、漢英兩個(gè)方向的詞語信息對齊是通過GIZA++工具來實(shí)現(xiàn)的,發(fā)揮grow?diag?final?and的啟發(fā)作用達(dá)到多對多的詞語對齊的狀態(tài),翻譯結(jié)果中的詞對齊的交叉連接數(shù)越小說明系統(tǒng)的翻譯性能更好一些。通過采用SRILM工具的方式在Gigaword新華部分獲取四元英語語言模型。由于MERT的不穩(wěn)定性需利用Clark等人提出的方式重復(fù)實(shí)施實(shí)驗(yàn)3次,把最后的平均值當(dāng)作實(shí)驗(yàn)結(jié)果。

2.3 實(shí)驗(yàn)結(jié)果

1) 為了驗(yàn)證本文設(shè)計(jì)模型在英語翻譯方面的精確度,實(shí)驗(yàn)檢測層次短語翻譯模型、加入單詞分布語義信息模型以及本文模型,對不同數(shù)據(jù)集的翻譯結(jié)果見表1。

本次實(shí)驗(yàn)評價(jià)指標(biāo)為BLEU值,分析表1 可得,基于測試集NIST 06,NIST 08,本文模型獲取的翻譯結(jié)果比層次短語翻譯模型的翻譯結(jié)果分別增長了0.35,0.23。同樣基于測試集NIST 06,NIST 08,本文模型獲取的翻譯結(jié)果比加入單詞分布語義信息的層次短語翻譯模型的翻譯結(jié)果分別增長了0.12,0.03。說明采用本文模型獲取的英語翻譯結(jié)果更加準(zhǔn)確、科學(xué)。采用顯著性檢驗(yàn)的方式獲取本文模型翻譯結(jié)果符合[ρ<0.05]的條件,說明其翻譯結(jié)果的性能明顯的進(jìn)步。

語義信息的層次短語翻譯模型以及本文模型進(jìn)行英語翻譯,獲取三種模型在英語翻譯方面的性能。實(shí)驗(yàn)結(jié)果如表2所示,本次試驗(yàn)給出參考譯文進(jìn)行對比。

分析表2可得,在具體的翻譯過程中,三種模型對于“物價(jià)局”這一詞語均未翻譯,再分析“做出解釋”這一詞語,前兩者模型給出的翻譯結(jié)果是explained。本文模型給出的翻譯結(jié)果是gives explaination of,與參考譯文相一致,說明本文模型的英語翻譯結(jié)果更加精準(zhǔn)、正確率較高。

3) 實(shí)驗(yàn)設(shè)置提到,翻譯結(jié)果中的詞對齊的交叉連接數(shù)越小說明系統(tǒng)的翻譯性能更好。實(shí)驗(yàn)分別采用三種模型對英語翻譯結(jié)果的交叉連接數(shù)進(jìn)行實(shí)驗(yàn)分析。

分析表3可得,采用層次短語模型翻譯結(jié)果的交叉連接數(shù)是29.2,加入單詞分布語義信息的層次短語翻譯模型翻譯結(jié)果的交叉連接數(shù)比前者減少4.7,表明其翻譯結(jié)果性能有所提高;而本文模型翻譯結(jié)果的交叉連接數(shù)是16,比前面兩者明顯大幅縮減,說明本文模型具有較高的翻譯性能。

4 結(jié) 論

本文設(shè)計(jì)的基于語義網(wǎng)絡(luò)的英語機(jī)器翻譯模型具有較高的翻譯性能,既能獨(dú)立進(jìn)行語義表達(dá),又能在排除歧義的基礎(chǔ)上描述詞語間關(guān)系,最終給出精確的英語翻譯結(jié)果。狹義上來說,為用戶提供了英語翻譯參考介質(zhì),廣義上來說有利于促進(jìn)各國文化交流、貿(mào)易往來。在未來的發(fā)展中,英語機(jī)器翻譯會(huì)朝著大數(shù)據(jù)、多信息的方向發(fā)展。

參考文獻(xiàn)

[1] 劉宇鵬,馬春光,張亞楠.深度遞歸的層次化機(jī)器翻譯模型[J].計(jì)算機(jī)學(xué)報(bào),2017,40(4):861?871.

LIU Yupeng, MA Chunguang, ZHANG Yanan. Hierarchical machine translation model based on deep recursive neural network [J]. Chinese journal of computers, 2017, 40(4): 861?871.

[2] 李響,南江,楊雅婷,等.泛化語言模型在漢維機(jī)器翻譯中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2014,31(10):2994?2997.

LI Xiang, NAN Jiang, YANG Yating, et al. Application of generalization language model in Chinese?Uyghur machine translation [J]. Application research of computers, 2014, 31(10): 2994?2997.

[3] ZHANG J, LIU S, LI M, et al. Towards machine translation in semantic vector space [J]. ACM transactions on Asian and low?resource language information processing, 2015, 14(2): 9.

[4] MUZAFFAR S, BEHERA P, NATH G. A Pāniniān framework for analyzing case marker errors in English?Urdu machine translation [J]. Procedia computer science, 2016, 96(C): 502?510.

[5] 惠浩添,李云建,錢龍華,等.一個(gè)面向信息抽取的中英文平行語料庫[J].計(jì)算機(jī)工程與科學(xué),2015,37(12):2331?2338.

HUI Haotian, LI Yunjian, QIAN Longhua, et al. A Chinese?English parallel corpus for information extraction [J]. Computer engineering and science, 2015, 37(12): 2331?2338.

[6] 薛征山,張大鯤,王麗娜,等.改進(jìn)機(jī)器翻譯中的句子切分模型[J].中文信息學(xué)報(bào),2017,31(4):50?56.

XUE Zhengshan, ZHANG Dakun, WANG Lina, et al. An improved sentence segmentation model for machine translation [J]. Journal of Chinese information processing, 2017, 31(4): 50?56.

[7] ROMOOZI M, FATHY M, BABAEI H. A content sharing and discovery framework based on semantic and geographic partitioning for vehicular networks [J]. Wireless personal communications, 2015, 85(3): 1583?1616.

[8] 王俊華,左祥麟,左萬利.基于證據(jù)理論的單詞語義相似度度量[J].自動(dòng)化學(xué)報(bào),2015,41(6):1173?1186.

WANG Junhua, ZUO Xianglin, ZUO Wanli. Word semantic similarity measurement based on evidence theory [J]. Acta automatica sinica, 2015, 41(6): 1173?1186.

[9] MALLAT S, MOHAMED M A B, HKIRI E, et al. Semantic and contextual knowledge representation for lexical disambiguation: case of Arabic?French query translation [J]. Journal of computing & information technology, 2014, 22(3): 191?215.

[10] BOULARES M, JEMNI M. Learning sign language machine translation based on elastic net regularization and latent semantic analysis [J]. Artificial intelligence review, 2016, 46(2): 145?166.

猜你喜歡
機(jī)器翻譯語料庫
《語料庫翻譯文體學(xué)》評介
基于語料庫“隱秘”的詞類標(biāo)注初步探究
互聯(lián)網(wǎng)+新時(shí)代下人機(jī)翻譯模式研究
“語聯(lián)網(wǎng)+行業(yè)” 助力中國偉大復(fù)興
大數(shù)據(jù)背景下石油科技翻譯
大數(shù)據(jù)背景下石油科技翻譯
機(jī)器翻譯不可盲取
基于免費(fèi)在線翻譯工具的機(jī)器翻譯缺陷探討
漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
屏南县| 新营市| 永新县| 南部县| 衡阳县| 稷山县| 凤翔县| 靖安县| 岳普湖县| 广元市| 乌拉特前旗| 伊吾县| 启东市| 华池县| 定南县| 曲松县| 巍山| 孟村| 曲麻莱县| 福鼎市| 农安县| 巢湖市| 镇平县| 北票市| 本溪| 德保县| 利川市| 海宁市| 云龙县| 文成县| 岑巩县| 依兰县| 甘洛县| 女性| 株洲县| 沁水县| 滁州市| 宜阳县| 梁山县| 封丘县| 威远县|