基于實例相似度檢測的算法分析及應用

2022-09-24 10:19:06胡晴云

蘭州文理學院學報(自然科學版) 2022年5期

胡晴云

(甘肅警察職業(yè)學院網安教研部，甘肅蘭州 730000)

0 引言

對于自然語言處理過程來說，其關鍵性內容為計算詞語相似度，在機器翻譯等方面有重要的應用價值[1].詞語相似度在不同應用中用途有所差異，就實例機器翻譯過程來說，詞語相似度能夠表現(xiàn)出文本中兩個詞語的可替換程度，詞語相似度在信息檢索中能夠將信息檢索召回率和準確率提高.在構造統(tǒng)計語言模型的過程中，由于數(shù)據稀疏等問題導致未登錄詞語統(tǒng)計信息的計算過程遭到阻礙，本文結合詞語相似度綜合計算詞語類聚，最終優(yōu)化統(tǒng)計語言模型，克服其中數(shù)據稀疏等問題，提高語言模型的表現(xiàn)力.

隨著現(xiàn)代交往進程的不斷加深，當前社會各界將研究重點著眼于翻譯系統(tǒng)，從而生成多元化的在線翻譯系統(tǒng).當前，開發(fā)者思考的重點是提高在線翻譯質量和翻譯系統(tǒng)使用頻率[2].機器翻譯方法較多，主要分為基于實例、基于統(tǒng)計、基于規(guī)則3種.由于不同詞語的構造存在差異，可以將模型分為不同類型，包括基于詞、基于短語、基于句法等.基于短語的翻譯是指以短語為基本單元的模型，這種翻譯方式簡單且質量高，運行速度較快，因此成為當前階段機器翻譯研究進程中的重點.然而，基于短語機器翻譯過程中，精確匹配是短語構造當中最常使用的方法，這種方式會導致數(shù)據稀疏.所以，本文以實例相似度檢測為基礎展開算法，并進行相似度機器翻譯模型的構建，分析其在機器翻譯中的應用，并通過實際系統(tǒng)對其翻譯效果進行驗證.

1 相關研究工作

一般來講，可以使用兩種方法計算詞語語義的相似度：①基于語義知識的詞語相似度進行計算；②基于統(tǒng)計的詞語語義相似度進行計算[3]，其中后者具有經驗主義的特征性，并以語言的可觀察性為基礎研究詞語的相似度，在研究過程中并不完全依靠語言學家的直覺.以兩個相似的詞語語義為基礎，在上下文環(huán)境中，基于相似度假設，在大規(guī)模語料庫的基礎上，綜合上下文并參照詞語信息的相關內容，計算語義相似度.沈潔等[4]針對中文短語相似度計算，通過模式匹配算法，從原始半結構化文本中進行中文短語的抽取，并結合領域依存關系，對短語相似度計算方法進行改進，從而提高短語相似度計算可靠性.張紹陽等[5]基于數(shù)學中的干擾修正思想，根據詞素和語素對相似度值進行計算，通過相同語素的個數(shù)修正相似度，從而綜合得出詞語相似度.費洪曉等[6]通過引入樹狀語料庫，對詞匯相似度進行精確定義和計算，并改進了基于抽取關鍵詞序列的中文短語相似度算法，在提高中文短語相似度計算準確率方面，該方法效果良好，符合人的直觀感覺.蘇依拉等[7]針對內蒙古地區(qū)機器翻譯技術落后、力量薄弱等現(xiàn)狀，提出一種以實例為基礎的翻譯方法，通過不同粒度的對齊技術，處理蒙漢雙語語料庫，并采用相似度算法進行匹配、重組，同時生成譯文，實驗表明，該方法對特定領域的蒙古語的翻譯比較有效，能在一定程度上提高翻譯質量.張睿[8]根據計算短語間的相似度方法，對傳統(tǒng)精確匹配方式進行改變，使用模糊匹配策略，從短語表中查找相似度較高的實例短語，進行漢英翻譯句子構造，結果表明翻譯質量得到大幅提高.

2 短語相似度翻譯模型構建

2.1 相似度計算

在計算相似度的過程中，衡量方法較多，例如根據詞語的詞義、信息、結構等信息進行衡量[9].一般來說，如果兩個短語中的相同詞概率較高，此時他們的相似度就越高.因此，本研究在進行相似度判定時，引入iDce系數(shù)，見公式(1)、(2).

(1)

其中，

(2)

2.2 新短語構造

根據以上步驟構造的實例新短語如表1所列.

表1 實例新短語構造

由表1可知，新短語對的構造充分利用了實例短語對齊，保留了已匹配的詞語譯文，通過對齊信息實現(xiàn)單次調序的過程.通過部分替換和比較的方法，構建未登錄短語高質量譯文，克服數(shù)據系數(shù)造成的各種問題.由于一個短語可以擁有多個與之相適應的相似實例短語，一個單詞也可以擁有多個與之相適應的翻譯，所以對于一個短語應進行多個譯文的構造.

2.3 翻譯概率計算

(3)

3 英漢機器翻譯系統(tǒng)設計

3.1 基于實例相似度檢測的機器翻譯

基于實例的機器翻譯方法是對人工翻譯過程進行模仿，根據預先設定規(guī)則，系統(tǒng)切分源語句子，采取有效性比較的方法比對實例庫中的單詞、短語片段，最終得到相似度較高的匹配短語，對這些片段進行整合，構成相應的目標端語句，即目標譯文.綜合上述，就是在線性結構的基礎上排布實例機器翻譯方法，通過實例短語和切分短語進行匹配計算，獲得相應結果，找出雙語句子間各詞匯位置關系，整合計算獲取的信息，最終得到最高實例分數(shù)的目標語句.實例相似度檢測機器翻譯結構如圖1所示.

圖1 基于實例的機器翻譯

3.2 運行環(huán)境

本研究的運行環(huán)境選取Linux平臺，結合Moses工具開發(fā)英漢機器翻譯系統(tǒng).通過GIZA + +展開詞語對齊訓練，語言模型訓練通過SRILM進行，選取LDC發(fā)布的Gigaword語料庫作為訓練語料，語料庫中包含單詞量為195 M.設定抽取短語長度為7，選擇BLEU-4作為評價指標.

3.3 整體架構設計

機器翻譯系統(tǒng)整體架構如圖2所示.

圖2 機器翻譯整體架構

系統(tǒng)包括漢/英文本的輸入、文本預處理的輸入、解碼器、文本后處理的輸出、英/漢語言文本、英/漢單語語料、語言模型訓練、漢語語言模型、訓練語料庫、語料預處理、詞語對齊、短語抽取與相似度計算、短語翻譯概率表等內容.

4 實驗及結果分析

4.1 小規(guī)模語料實驗

在小規(guī)模語料實驗中，測試集為NIST2011，基線系統(tǒng)Moses的BLEU-4值為0.2 445，本研究系統(tǒng)Meneius的BLEU-4值為0.2 532，提高了3.56%，具體結果如圖3所示.

圖3 小規(guī)模實驗所用短語的BLEU-4值對比

在訓練中，從2.95萬句對中抽取短語對約1 M.Moses的短語采用精確匹配方法進行，用于翻譯測試集和開發(fā)集的短語對占21%，數(shù)量為0.21 M，說明精確匹配方法未能充分運用短語，存在較為嚴重的浪費現(xiàn)象.對0.21 M短語進行統(tǒng)計，結果顯示，當短語的長度>3時，其所占比例達到2.33%，即存在嚴重的數(shù)據稀疏問題.以短語相似度模型展開模糊匹配，從而在短語對的基礎上提高比例，達到0.865 M，占總數(shù)的86.5%，這表明通過相似度模型，短語利用率可提高，從而使數(shù)據稀疏問題得到緩解.小規(guī)模實驗的NIST2011測試集短語分布情況如圖4所示.

圖4 小規(guī)模實驗的NIST2011測試集短語分布

本研究以NIST2011測試集為基礎，分別分析了系統(tǒng)運行的兩個不同結果，短語分布統(tǒng)計情況如圖5所示.

圖5 小規(guī)模實驗所用短語的分布情況

Moses中所使用的短語數(shù)量為24 603個，而長度>3的短語占了0.42%，長度≤3的短語占了99.58%，這組數(shù)據說明在對Moses進行解碼時，長短語實際上很難通過精確匹配策略來實現(xiàn).Mecnins當中所適用的短語數(shù)量為21 211，而長度>3的短語占比為2.36%，長度≤3的短語占了97.64%，相似實例短語構造出來的短語在21 211個短語占14.27%，即模糊匹配.綜合上述內容可以看出，以短語相似度模型為基礎，可以緩解短語數(shù)據稀疏問題造成的缺陷.

4.2 大規(guī)模語料實驗

在大規(guī)模語料實驗中，基于NIST2011測試集，基線系統(tǒng)Moses的BLEU-4值為0.3 047，本研究系統(tǒng)Meneius的BLEU-4值為0.3 098，提高了1.67%，具體見圖6.

圖6 大規(guī)模實驗所用短語的BLEU-4值對比

通過將訓練語料庫規(guī)模加大，在一定程度上可使數(shù)據稀疏問題得到緩解，根據精確匹配策略，當短語長度較長時仍很難匹配.大部分短語很難被利用.本研究從245萬句對抽取短語對約109 M，用于翻譯測試集和開發(fā)集的短語對占6.61%，數(shù)量為7.2 M.在短語相似度模型中，可用短語的比例占51.5%，數(shù)量為56.1 M.這說明通過相似度模型，短語利用率可得到極大提高.在模糊匹配策略的基礎上，對較長的短語進行匹配，可以得到更優(yōu)質的譯文.使用Moses和Meneius進行翻譯時所得到的效果差異結果如表2所列.

表2 Moses和Meneius翻譯對比

在表2中，短語劃分用“-”表示，由表2知，在測試語料中，“經濟產出的長期趨勢”短語未出現(xiàn)，Moses將其進行了拆分，形成“經濟的”“產出”“趨勢”“長期”4個短短語，并通過調序模型做相應的調序，如果調序不正確，就會導致譯文發(fā)生錯誤.本研究借助相似度模型模糊匹配的方法，在語料庫中可將實例短語“經濟發(fā)展的必然趨勢，the inevitable trend of economic development”找到，因此，可構造翻譯出“經濟產出的長期趨勢”，獲得“the long-term trend of economic output”的正確譯文.這說明采用模糊匹配策略，相似度模型可進行翻譯得到長短語構造，從而減輕短語調序模型的負擔，提高譯文質量.

5 結論

本文提出基于實例相似度檢測的算法，并進行相似度機器翻譯模型的構建，分析其在機器翻譯中的應用，通過實際系統(tǒng)對其翻譯效果進行驗證，實驗表明，與傳統(tǒng)的Moses短語系統(tǒng)相比，本研究提出的Meneius機器翻譯模型，翻譯質量得到明顯提高.在今后的研究中，可進一步對英文詞訓練語料進行擴展，并進行訓練語料的詞形還原，對訓練獲得的常用詞詞表進行過濾，進一步提高詞的計算效率.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡