国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

研究漢語語言模型的規(guī)模對統(tǒng)計機器翻譯系統(tǒng)的影響

2017-04-18 12:59:43劉林付琦武麗萍
電腦知識與技術 2016年35期
關鍵詞:語料短語語法

劉林+付琦+武麗萍

摘要:文章主要針對漢語語言模型規(guī)模大小的具體情況以及語法元數(shù)在英漢統(tǒng)計機器翻譯系統(tǒng)的影響進行研究分析。在研究過程中,主要是通過相應的模型進行實驗,通過相應的研究分析,最終表明層次短語的翻譯系統(tǒng)的翻譯效果明顯高于基于短語的翻譯系統(tǒng),對于不同語言的模型來說,其元數(shù)以及規(guī)模對具體的翻譯效果都具有很大的影響。

關鍵詞:語言模型;基于短語的統(tǒng)計機器翻譯系統(tǒng);層次短語

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)35-0198-02

在漢語言翻譯工作開展過程中,語言模型占據(jù)著重要地位,特別是在統(tǒng)計機器翻譯、語音識別、漢語分詞、自動糾錯過程中,其應用范圍十分廣泛。就現(xiàn)階段來說,機器翻譯過程中,主要使用的是n語言模型。此種模型在應用過程中,其結構較為簡單,人們在研究過程中只是知道其大小以及n語言的元數(shù)對翻譯的質量具有較大的影響,但是,并不知道造成影響的具體情況,因此,文章在研究過程中主要針對現(xiàn)階段較為流行短語的統(tǒng)計翻譯系統(tǒng)和基于層次短語的統(tǒng)計翻譯系統(tǒng)的影響。

1 英漢統(tǒng)計翻譯系統(tǒng)中漢語語言模型的應用分析

統(tǒng)計語言型根本目的是為了能夠對字符串s概率分布P(s)進行展示,假如讓w1l=(w1,…wl),表示長度為I根本字符,Wi代表一個重要元素,基本上都表示一個單詞。在漢語語言模型中,其主表示為一些以漢語句子為基礎所分離出的生詞。在翻譯工作不斷的發(fā)展過程中,短語統(tǒng)計機器翻譯系統(tǒng)代表著目前翻譯的發(fā)展方向,此系統(tǒng)在實際的利用過程中,基本上都是將某個短語看成一個翻譯單元,系統(tǒng)在翻譯中,首先都是把源語言的句子S拆分成j個短語:S1S2…Sj,在對每個Sk,k=1…j,利用翻譯模型,可以將翻譯目標轉變?yōu)門i。最后利用調序模型以及語言模型輸出翻譯結果,輸出n個翻譯較好的結果TI。短語翻譯模型在實際的翻譯應用過程中,能夠對翻譯過程中較短的句子進行翻譯。通過對P.Koehn等人的研究結果進行分析顯示;當語句長度能夠拓展到3個單詞以上,翻譯系統(tǒng)的整體性能性能沒有明顯的提升,并且相應的數(shù)據(jù)稀疏問題也逐漸增多。并且,在大多數(shù)情況下,簡單的語言翻譯模型不能對短語之間的順序進行有效的調整。

工作人員在研究過程中,為了解決短語的翻譯模型不能對短語之間的順序進行有效的調整的情況,筆者通過研究分析,提出了采用基于層次短語的翻譯模型嘗試解決短語的翻譯模型不能對短語之間的順序進行有效的調整的問題。主要的思路為:在研究過程中,不同的語言句子由相應的層次化短語組成,設定層次化短語主要由兩部分組成,即子短語與單詞,在實際訓練時借助同步上下文無關文法,從雙語對齊的語料中選擇相應的語言知識,進而獲得帶有相應變量的基本短語對以及短語結構。但是,本質內(nèi)容都一樣,都是SCFG形成的式子。翻譯系統(tǒng)模型中同步上下文無關文法的應用,能夠保證該翻譯模型最大化的接近語言翻譯要求。同時,在翻譯的過程中并不需要借助其他語言知識。因此,該翻譯模型在實際應用的過程中采用形式化語法。基于層次短語的統(tǒng)計機器翻譯系統(tǒng)實際應用的具體步驟為:首先,在實際的翻譯過程,需要借助層次化短語對部分語句進行層次化翻譯,并按照實際狀況將翻譯過后的語句進行連接,進而獲得完整的翻譯句子。

2 漢語語言模型的規(guī)模對統(tǒng)計機器翻譯系統(tǒng)的影響實驗分析

1)語料預處理及語言模型訓練

該實驗在實際的研究分析過程中,主要采用的是我國在2007年SSMT評測中的新聞領域英中翻譯測試集作為開發(fā)集,訓練數(shù)據(jù)采用全部語料(該語料由SSMT077評測以及NISTMT077提供),訓練實驗的主要數(shù)據(jù)來源為美國國家標準技術研究院(NIST)MT07評測和SSMT07評測提供的全部語料。全部語料中包含了四千萬句漢語單語語料,按照過濾原則(處理后語料中句子的全部詞匯是否全在SSMT07中出現(xiàn))對雙語對齊語料進行篩選,通過過濾選擇合適的雙語對齊語料。

在英文語料預處理的工作包括以下幾個方面:①詞串化、②亂碼過濾、③雙字節(jié)字符處理等,在預處理的過程中需要把全部的大寫字母都轉換成為小寫字母等。對于中文語料預處理工作內(nèi)容為:剔除亂碼,雙字節(jié)字母替換,分詞等工作內(nèi)容。在實際的工作開展過程中,分詞主要采用工具是計算過程中所研發(fā)的ICTCLAS3.0.

如果采用SRILM工具包訓練語言模型,語言模型都是根據(jù)訓練集規(guī)模實際情況以及n元語法的元數(shù)對其進行不同的劃分,在劃分過程中,根據(jù)語言模型的大小進行劃分,可以劃分成六種不同的元語法,分別為100、200、500、1000、2000、4000(萬句),對于小語言模型句子,全部是從最后一種大語料庫中選擇。依據(jù)不同的n元語法元數(shù),可以劃分成三種不同的元語法,分別為3、4、5元語法。所有語言模型的參數(shù)表示為:

該實驗所采用的翻譯系統(tǒng)是由基于層次短語和短語的統(tǒng)計機器翻譯系統(tǒng)組成。一方面,對于基于短語的統(tǒng)計機器翻譯系統(tǒng),能夠從大規(guī)模雙語預料中選取相應容量的短句,再采用GIZA++對齊訓練詞。解碼器在進行搜索時采用柱搜索法,搜索過程中利用以下特征:①IBM扭曲模型、②方向概率、③短語懲罰、④句子長度懲罰、⑤扭曲概率、⑥n元語法語言模型、⑦雙向詞匯化概率、⑧雙向短語翻譯概率。另一方面,對于基于層次短語的統(tǒng)計機器翻譯系統(tǒng),其主要作用是為系統(tǒng)提供參考,從大規(guī)模雙語預料中訓練出翻譯模型所需要的雙語預料。層次短語統(tǒng)計機器翻譯系統(tǒng)的概率計算需要借助短語系統(tǒng)的線性對數(shù),在實際計算過程中使用以下5個特征:①規(guī)則特征(如數(shù)字、時間以及人名規(guī)則等)、②句子長度懲罰、③N-gram語言模型、④兩個方向的詞匯概率、⑤兩個方向的短語概率。

3 實驗結果

在實驗過程中,根據(jù)不同大小、元數(shù)劃分的語言模型分別輸入到基于層次短語的統(tǒng)計機器翻譯系統(tǒng)以及基于短語的統(tǒng)計機器翻譯系統(tǒng)中進行解碼,在解碼時上述兩個系統(tǒng)中的參數(shù)配置不變,翻譯模型保持一致,實驗不需要對未登陸詞進行處理,選取SSMT2007新聞領域測試集為測試集。最后,對最終的翻譯結果進行BLEU打分,具體如下表所示:

在上述表格中,兩個英漢翻譯系統(tǒng)所選用的訓練數(shù)據(jù)一致,并且基于短語的英漢翻譯系統(tǒng)的打分值結果比基于層次短語英漢翻譯系統(tǒng)BLEU打分結果差。但是不管采用哪種系統(tǒng),當語言模型大小為4000萬句,元數(shù)為4元,其表現(xiàn)效果最好,具體的打分情況為0.3509 和 0.4331。通常來說,當增加語言模型規(guī)范時,將會提高BLEU打分,但是在實際應用中受到硬件條件的限制,尤其是在內(nèi)存相對較小的狀況下,將會增加訓練語料,會對系統(tǒng)造成一定的影響,訓練語料增加時應該做好剪裁工作。

4 結論

綜上所述,通過相應的實驗分析, 我們可以看出來,對于不同系統(tǒng),并不是擴大規(guī)?;蛘咴黾诱Z言模型元數(shù),就能夠獲得良好的翻譯效果。而是需要考慮數(shù)據(jù)稀疏、裁剪等因素,并且在硬件條件允許的條件下,解決數(shù)據(jù)稀疏問題,并不斷擴大語言模型規(guī)模,只有這樣才能保證翻譯結果的準確性。

參考文獻:

[1] 王韋華,徐波.漢語語言模型的規(guī)模對統(tǒng)計機器翻譯系統(tǒng)的影響[J].微計算機信息,2010,26(27):108-109.

[2] 銀花.基于短語的蒙漢統(tǒng)計機器翻譯研究[D].內(nèi)蒙古師范大學,2011.

[3] 奚寧,趙迎功,湯光超等.統(tǒng)計機器翻譯中多種語言模型的融合[C]//第七屆全國機器翻譯研討會論文集,2011:220-228.

[4] 米莉萬·雪合來提,麥熱哈巴·艾力,吐爾根·依布拉音等.維吾爾語詞尾對漢維統(tǒng)計機器翻譯影響的研究[J].計算機工程,2014(3):224-227.

[5] 董人菘,王華,張曉鐘等.依存句法語言模型對短語統(tǒng)計機器翻譯性能的影響[J].計算機科學,2014,41(2):99-101.

[6] Philipp Koehn, Amittai Axelrod, Alexandra Birch Mayne, et al.Edinburgh System Description forthe 2005 IWSLT Speech Trans-lation Evaluation. International Workshop on Spoken Language Translation. 2005.

猜你喜歡
語料短語語法
跟蹤導練(二)4
KEYS
Keys
Book 5 Unit 1~Unit 3語法鞏固練習
基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
《苗防備覽》中的湘西語料
國內(nèi)外語用學實證研究比較:語料類型與收集方法
都江堰市| 紫金县| 健康| 会东县| 哈密市| 新乐市| 赤壁市| 信阳市| 徐州市| 塔河县| 富川| 怀化市| 铜川市| 南汇区| 枣阳市| 安化县| 永靖县| 墨玉县| 鹰潭市| 高密市| 监利县| 德化县| 和平区| 洪雅县| 鄄城县| 泰宁县| 阿拉善盟| 阿勒泰市| 琼结县| 岐山县| 雷州市| 象山县| 高陵县| 冀州市| 甘孜县| 丰宁| 巫山县| 博湖县| 友谊县| 朔州市| 广德县|