国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于實例相似度檢測的算法分析及應用

2022-09-24 10:19:06胡晴云
關鍵詞:語料實例語料庫

胡晴云

(甘肅警察職業(yè)學院 網安教研部,甘肅 蘭州 730000)

0 引言

對于自然語言處理過程來說,其關鍵性內容為計算詞語相似度,在機器翻譯等方面有重要的應用價值[1].詞語相似度在不同應用中用途有所差異,就實例機器翻譯過程來說,詞語相似度能夠表現(xiàn)出文本中兩個詞語的可替換程度,詞語相似度在信息檢索中能夠將信息檢索召回率和準確率提高.在構造統(tǒng)計語言模型的過程中,由于數(shù)據稀疏等問題導致未登錄詞語統(tǒng)計信息的計算過程遭到阻礙,本文結合詞語相似度綜合計算詞語類聚,最終優(yōu)化統(tǒng)計語言模型,克服其中數(shù)據稀疏等問題,提高語言模型的表現(xiàn)力.

隨著現(xiàn)代交往進程的不斷加深,當前社會各界將研究重點著眼于翻譯系統(tǒng),從而生成多元化的在線翻譯系統(tǒng).當前,開發(fā)者思考的重點是提高在線翻譯質量和翻譯系統(tǒng)使用頻率[2].機器翻譯方法較多,主要分為基于實例、基于統(tǒng)計、基于規(guī)則3種.由于不同詞語的構造存在差異,可以將模型分為不同類型,包括基于詞、基于短語、基于句法等.基于短語的翻譯是指以短語為基本單元的模型,這種翻譯方式簡單且質量高,運行速度較快,因此成為當前階段機器翻譯研究進程中的重點.然而,基于短語機器翻譯過程中,精確匹配是短語構造當中最常使用的方法,這種方式會導致數(shù)據稀疏.所以,本文以實例相似度檢測為基礎展開算法,并進行相似度機器翻譯模型的構建,分析其在機器翻譯中的應用,并通過實際系統(tǒng)對其翻譯效果進行驗證.

1 相關研究工作

一般來講,可以使用兩種方法計算詞語語義的相似度:①基于語義知識的詞語相似度進行計算;②基于統(tǒng)計的詞語語義相似度進行計算[3],其中后者具有經驗主義的特征性,并以語言的可觀察性為基礎研究詞語的相似度,在研究過程中并不完全依靠語言學家的直覺.以兩個相似的詞語語義為基礎,在上下文環(huán)境中,基于相似度假設,在大規(guī)模語料庫的基礎上,綜合上下文并參照詞語信息的相關內容,計算語義相似度.沈潔等[4]針對中文短語相似度計算,通過模式匹配算法,從原始半結構化文本中進行中文短語的抽取,并結合領域依存關系,對短語相似度計算方法進行改進,從而提高短語相似度計算可靠性.張紹陽等[5]基于數(shù)學中的干擾修正思想,根據詞素和語素對相似度值進行計算,通過相同語素的個數(shù)修正相似度,從而綜合得出詞語相似度.費洪曉等[6]通過引入樹狀語料庫,對詞匯相似度進行精確定義和計算,并改進了基于抽取關鍵詞序列的中文短語相似度算法,在提高中文短語相似度計算準確率方面,該方法效果良好,符合人的直觀感覺.蘇依拉等[7]針對內蒙古地區(qū)機器翻譯技術落后、力量薄弱等現(xiàn)狀,提出一種以實例為基礎的翻譯方法,通過不同粒度的對齊技術,處理蒙漢雙語語料庫,并采用相似度算法進行匹配、重組,同時生成譯文,實驗表明,該方法對特定領域的蒙古語的翻譯比較有效,能在一定程度上提高翻譯質量.張睿[8]根據計算短語間的相似度方法,對傳統(tǒng)精確匹配方式進行改變,使用模糊匹配策略,從短語表中查找相似度較高的實例短語,進行漢英翻譯句子構造,結果表明翻譯質量得到大幅提高.

2 短語相似度翻譯模型構建

2.1 相似度計算

在計算相似度的過程中,衡量方法較多,例如根據詞語的詞義、信息、結構等信息進行衡量[9].一般來說,如果兩個短語中的相同詞概率較高,此時他們的相似度就越高.因此,本研究在進行相似度判定時,引入iDce系數(shù),見公式(1)、(2).

(1)

其中,

(2)

2.2 新短語構造

根據以上步驟構造的實例新短語如表1所列.

表1 實例新短語構造

由表1可知,新短語對的構造充分利用了實例短語對齊,保留了已匹配的詞語譯文,通過對齊信息實現(xiàn)單次調序的過程.通過部分替換和比較的方法,構建未登錄短語高質量譯文,克服數(shù)據系數(shù)造成的各種問題.由于一個短語可以擁有多個與之相適應的相似實例短語,一個單詞也可以擁有多個與之相適應的翻譯,所以對于一個短語應進行多個譯文的構造.

2.3 翻譯概率計算

(3)

3 英漢機器翻譯系統(tǒng)設計

3.1 基于實例相似度檢測的機器翻譯

基于實例的機器翻譯方法是對人工翻譯過程進行模仿,根據預先設定規(guī)則,系統(tǒng)切分源語句子,采取有效性比較的方法比對實例庫中的單詞、短語片段,最終得到相似度較高的匹配短語,對這些片段進行整合,構成相應的目標端語句,即目標譯文.綜合上述,就是在線性結構的基礎上排布實例機器翻譯方法,通過實例短語和切分短語進行匹配計算,獲得相應結果,找出雙語句子間各詞匯位置關系,整合計算獲取的信息,最終得到最高實例分數(shù)的目標語句.實例相似度檢測機器翻譯結構如圖1所示.

圖1 基于實例的機器翻譯

3.2 運行環(huán)境

本研究的運行環(huán)境選取Linux平臺,結合Moses工具開發(fā)英漢機器翻譯系統(tǒng).通過GIZA + +展開詞語對齊訓練,語言模型訓練通過SRILM進行,選取LDC發(fā)布的Gigaword語料庫作為訓練語料,語料庫中包含單詞量為195 M.設定抽取短語長度為7,選擇BLEU-4作為評價指標.

3.3 整體架構設計

機器翻譯系統(tǒng)整體架構如圖2所示.

圖2 機器翻譯整體架構

系統(tǒng)包括漢/英文本的輸入、文本預處理的輸入、解碼器、文本后處理的輸出、英/漢語言文本、英/漢單語語料、語言模型訓練、漢語語言模型、訓練語料庫、語料預處理、詞語對齊、短語抽取與相似度計算、短語翻譯概率表等內容.

4 實驗及結果分析

4.1 小規(guī)模語料實驗

在小規(guī)模語料實驗中,測試集為NIST2011,基線系統(tǒng)Moses的BLEU-4值為0.2 445,本研究系統(tǒng)Meneius的BLEU-4值為0.2 532,提高了3.56%,具體結果如圖3所示.

圖3 小規(guī)模實驗所用短語的BLEU-4值對比

在訓練中,從2.95萬句對中抽取短語對約1 M.Moses的短語采用精確匹配方法進行,用于翻譯測試集和開發(fā)集的短語對占21%,數(shù)量為0.21 M,說明精確匹配方法未能充分運用短語,存在較為嚴重的浪費現(xiàn)象.對0.21 M短語進行統(tǒng)計,結果顯示,當短語的長度>3時,其所占比例達到2.33%,即存在嚴重的數(shù)據稀疏問題.以短語相似度模型展開模糊匹配,從而在短語對的基礎上提高比例,達到0.865 M,占總數(shù)的86.5%,這表明通過相似度模型,短語利用率可提高,從而使數(shù)據稀疏問題得到緩解.小規(guī)模實驗的NIST2011測試集短語分布情況如圖4所示.

圖4 小規(guī)模實驗的NIST2011測試集短語分布

本研究以NIST2011測試集為基礎,分別分析了系統(tǒng)運行的兩個不同結果,短語分布統(tǒng)計情況如圖5所示.

圖5 小規(guī)模實驗所用短語的分布情況

Moses中所使用的短語數(shù)量為24 603個,而長度>3的短語占了0.42%,長度≤3的短語占了99.58%,這組數(shù)據說明在對Moses進行解碼時,長短語實際上很難通過精確匹配策略來實現(xiàn).Mecnins當中所適用的短語數(shù)量為21 211,而長度>3的短語占比為2.36%,長度≤3的短語占了97.64%,相似實例短語構造出來的短語在21 211個短語占14.27%,即模糊匹配.綜合上述內容可以看出,以短語相似度模型為基礎,可以緩解短語數(shù)據稀疏問題造成的缺陷.

4.2 大規(guī)模語料實驗

在大規(guī)模語料實驗中,基于NIST2011測試集,基線系統(tǒng)Moses的BLEU-4值為0.3 047,本研究系統(tǒng)Meneius的BLEU-4值為0.3 098,提高了1.67%,具體見圖6.

圖6 大規(guī)模實驗所用短語的BLEU-4值對比

通過將訓練語料庫規(guī)模加大,在一定程度上可使數(shù)據稀疏問題得到緩解,根據精確匹配策略,當短語長度較長時仍很難匹配.大部分短語很難被利用.本研究從245萬句對抽取短語對約109 M,用于翻譯測試集和開發(fā)集的短語對占6.61%,數(shù)量為7.2 M.在短語相似度模型中,可用短語的比例占51.5%,數(shù)量為56.1 M.這說明通過相似度模型,短語利用率可得到極大提高.在模糊匹配策略的基礎上,對較長的短語進行匹配,可以得到更優(yōu)質的譯文.使用Moses和Meneius進行翻譯時所得到的效果差異結果如表2所列.

表2 Moses和Meneius翻譯對比

在表2中,短語劃分用“-”表示,由表2知,在測試語料中,“經濟產出的長期趨勢”短語未出現(xiàn),Moses將其進行了拆分,形成“經濟的”“產出”“趨勢”“長期”4個短短語,并通過調序模型做相應的調序,如果調序不正確,就會導致譯文發(fā)生錯誤.本研究借助相似度模型模糊匹配的方法,在語料庫中可將實例短語“經濟發(fā)展的必然趨勢,the inevitable trend of economic development”找到,因此,可構造翻譯出“經濟產出的長期趨勢”,獲得“the long-term trend of economic output”的正確譯文.這說明采用模糊匹配策略,相似度模型可進行翻譯得到長短語構造,從而減輕短語調序模型的負擔,提高譯文質量.

5 結論

本文提出基于實例相似度檢測的算法,并進行相似度機器翻譯模型的構建,分析其在機器翻譯中的應用,通過實際系統(tǒng)對其翻譯效果進行驗證,實驗表明,與傳統(tǒng)的Moses短語系統(tǒng)相比,本研究提出的Meneius機器翻譯模型,翻譯質量得到明顯提高.在今后的研究中,可進一步對英文詞訓練語料進行擴展,并進行訓練語料的詞形還原,對訓練獲得的常用詞詞表進行過濾,進一步提高詞的計算效率.

猜你喜歡
語料實例語料庫
《語料庫翻譯文體學》評介
把課文的優(yōu)美表達存進語料庫
基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
《苗防備覽》中的湘西語料
國內外語用學實證研究比較:語料類型與收集方法
完形填空Ⅱ
完形填空Ⅰ
語料庫語言學未來發(fā)展趨勢
乌苏市| 九龙城区| 呼伦贝尔市| 鹿邑县| 桃源县| 连江县| 同仁县| 北安市| 澄城县| 莆田市| 英德市| 区。| 家居| 临西县| 丽水市| 含山县| 上栗县| 宜兴市| 宝应县| 扶余县| 紫云| 舟曲县| 会理县| 蓝山县| 尉氏县| 政和县| 崇礼县| 宣汉县| 上饶市| 确山县| 房产| 广东省| 吴江市| 清河县| 博爱县| 泽库县| 调兵山市| 广宁县| 临清市| 五河县| 九台市|