胡晴云
(甘肅警察職業(yè)學院 網安教研部,甘肅 蘭州 730000)
對于自然語言處理過程來說,其關鍵性內容為計算詞語相似度,在機器翻譯等方面有重要的應用價值[1].詞語相似度在不同應用中用途有所差異,就實例機器翻譯過程來說,詞語相似度能夠表現(xiàn)出文本中兩個詞語的可替換程度,詞語相似度在信息檢索中能夠將信息檢索召回率和準確率提高.在構造統(tǒng)計語言模型的過程中,由于數(shù)據稀疏等問題導致未登錄詞語統(tǒng)計信息的計算過程遭到阻礙,本文結合詞語相似度綜合計算詞語類聚,最終優(yōu)化統(tǒng)計語言模型,克服其中數(shù)據稀疏等問題,提高語言模型的表現(xiàn)力.
隨著現(xiàn)代交往進程的不斷加深,當前社會各界將研究重點著眼于翻譯系統(tǒng),從而生成多元化的在線翻譯系統(tǒng).當前,開發(fā)者思考的重點是提高在線翻譯質量和翻譯系統(tǒng)使用頻率[2].機器翻譯方法較多,主要分為基于實例、基于統(tǒng)計、基于規(guī)則3種.由于不同詞語的構造存在差異,可以將模型分為不同類型,包括基于詞、基于短語、基于句法等.基于短語的翻譯是指以短語為基本單元的模型,這種翻譯方式簡單且質量高,運行速度較快,因此成為當前階段機器翻譯研究進程中的重點.然而,基于短語機器翻譯過程中,精確匹配是短語構造當中最常使用的方法,這種方式會導致數(shù)據稀疏.所以,本文以實例相似度檢測為基礎展開算法,并進行相似度機器翻譯模型的構建,分析其在機器翻譯中的應用,并通過實際系統(tǒng)對其翻譯效果進行驗證.
一般來講,可以使用兩種方法計算詞語語義的相似度:①基于語義知識的詞語相似度進行計算;②基于統(tǒng)計的詞語語義相似度進行計算[3],其中后者具有經驗主義的特征性,并以語言的可觀察性為基礎研究詞語的相似度,在研究過程中并不完全依靠語言學家的直覺.以兩個相似的詞語語義為基礎,在上下文環(huán)境中,基于相似度假設,在大規(guī)模語料庫的基礎上,綜合上下文并參照詞語信息的相關內容,計算語義相似度.沈潔等[4]針對中文短語相似度計算,通過模式匹配算法,從原始半結構化文本中進行中文短語的抽取,并結合領域依存關系,對短語相似度計算方法進行改進,從而提高短語相似度計算可靠性.張紹陽等[5]基于數(shù)學中的干擾修正思想,根據詞素和語素對相似度值進行計算,通過相同語素的個數(shù)修正相似度,從而綜合得出詞語相似度.費洪曉等[6]通過引入樹狀語料庫,對詞匯相似度進行精確定義和計算,并改進了基于抽取關鍵詞序列的中文短語相似度算法,在提高中文短語相似度計算準確率方面,該方法效果良好,符合人的直觀感覺.蘇依拉等[7]針對內蒙古地區(qū)機器翻譯技術落后、力量薄弱等現(xiàn)狀,提出一種以實例為基礎的翻譯方法,通過不同粒度的對齊技術,處理蒙漢雙語語料庫,并采用相似度算法進行匹配、重組,同時生成譯文,實驗表明,該方法對特定領域的蒙古語的翻譯比較有效,能在一定程度上提高翻譯質量.張睿[8]根據計算短語間的相似度方法,對傳統(tǒng)精確匹配方式進行改變,使用模糊匹配策略,從短語表中查找相似度較高的實例短語,進行漢英翻譯句子構造,結果表明翻譯質量得到大幅提高.
在計算相似度的過程中,衡量方法較多,例如根據詞語的詞義、信息、結構等信息進行衡量[9].一般來說,如果兩個短語中的相同詞概率較高,此時他們的相似度就越高.因此,本研究在進行相似度判定時,引入iDce系數(shù),見公式(1)、(2).
(1)
其中,
(2)
根據以上步驟構造的實例新短語如表1所列.
表1 實例新短語構造
由表1可知,新短語對的構造充分利用了實例短語對齊,保留了已匹配的詞語譯文,通過對齊信息實現(xiàn)單次調序的過程.通過部分替換和比較的方法,構建未登錄短語高質量譯文,克服數(shù)據系數(shù)造成的各種問題.由于一個短語可以擁有多個與之相適應的相似實例短語,一個單詞也可以擁有多個與之相適應的翻譯,所以對于一個短語應進行多個譯文的構造.
(3)
基于實例的機器翻譯方法是對人工翻譯過程進行模仿,根據預先設定規(guī)則,系統(tǒng)切分源語句子,采取有效性比較的方法比對實例庫中的單詞、短語片段,最終得到相似度較高的匹配短語,對這些片段進行整合,構成相應的目標端語句,即目標譯文.綜合上述,就是在線性結構的基礎上排布實例機器翻譯方法,通過實例短語和切分短語進行匹配計算,獲得相應結果,找出雙語句子間各詞匯位置關系,整合計算獲取的信息,最終得到最高實例分數(shù)的目標語句.實例相似度檢測機器翻譯結構如圖1所示.
圖1 基于實例的機器翻譯
本研究的運行環(huán)境選取Linux平臺,結合Moses工具開發(fā)英漢機器翻譯系統(tǒng).通過GIZA + +展開詞語對齊訓練,語言模型訓練通過SRILM進行,選取LDC發(fā)布的Gigaword語料庫作為訓練語料,語料庫中包含單詞量為195 M.設定抽取短語長度為7,選擇BLEU-4作為評價指標.
機器翻譯系統(tǒng)整體架構如圖2所示.
圖2 機器翻譯整體架構
系統(tǒng)包括漢/英文本的輸入、文本預處理的輸入、解碼器、文本后處理的輸出、英/漢語言文本、英/漢單語語料、語言模型訓練、漢語語言模型、訓練語料庫、語料預處理、詞語對齊、短語抽取與相似度計算、短語翻譯概率表等內容.
在小規(guī)模語料實驗中,測試集為NIST2011,基線系統(tǒng)Moses的BLEU-4值為0.2 445,本研究系統(tǒng)Meneius的BLEU-4值為0.2 532,提高了3.56%,具體結果如圖3所示.
圖3 小規(guī)模實驗所用短語的BLEU-4值對比
在訓練中,從2.95萬句對中抽取短語對約1 M.Moses的短語采用精確匹配方法進行,用于翻譯測試集和開發(fā)集的短語對占21%,數(shù)量為0.21 M,說明精確匹配方法未能充分運用短語,存在較為嚴重的浪費現(xiàn)象.對0.21 M短語進行統(tǒng)計,結果顯示,當短語的長度>3時,其所占比例達到2.33%,即存在嚴重的數(shù)據稀疏問題.以短語相似度模型展開模糊匹配,從而在短語對的基礎上提高比例,達到0.865 M,占總數(shù)的86.5%,這表明通過相似度模型,短語利用率可提高,從而使數(shù)據稀疏問題得到緩解.小規(guī)模實驗的NIST2011測試集短語分布情況如圖4所示.
圖4 小規(guī)模實驗的NIST2011測試集短語分布
本研究以NIST2011測試集為基礎,分別分析了系統(tǒng)運行的兩個不同結果,短語分布統(tǒng)計情況如圖5所示.
圖5 小規(guī)模實驗所用短語的分布情況
Moses中所使用的短語數(shù)量為24 603個,而長度>3的短語占了0.42%,長度≤3的短語占了99.58%,這組數(shù)據說明在對Moses進行解碼時,長短語實際上很難通過精確匹配策略來實現(xiàn).Mecnins當中所適用的短語數(shù)量為21 211,而長度>3的短語占比為2.36%,長度≤3的短語占了97.64%,相似實例短語構造出來的短語在21 211個短語占14.27%,即模糊匹配.綜合上述內容可以看出,以短語相似度模型為基礎,可以緩解短語數(shù)據稀疏問題造成的缺陷.
在大規(guī)模語料實驗中,基于NIST2011測試集,基線系統(tǒng)Moses的BLEU-4值為0.3 047,本研究系統(tǒng)Meneius的BLEU-4值為0.3 098,提高了1.67%,具體見圖6.
圖6 大規(guī)模實驗所用短語的BLEU-4值對比
通過將訓練語料庫規(guī)模加大,在一定程度上可使數(shù)據稀疏問題得到緩解,根據精確匹配策略,當短語長度較長時仍很難匹配.大部分短語很難被利用.本研究從245萬句對抽取短語對約109 M,用于翻譯測試集和開發(fā)集的短語對占6.61%,數(shù)量為7.2 M.在短語相似度模型中,可用短語的比例占51.5%,數(shù)量為56.1 M.這說明通過相似度模型,短語利用率可得到極大提高.在模糊匹配策略的基礎上,對較長的短語進行匹配,可以得到更優(yōu)質的譯文.使用Moses和Meneius進行翻譯時所得到的效果差異結果如表2所列.
表2 Moses和Meneius翻譯對比
在表2中,短語劃分用“-”表示,由表2知,在測試語料中,“經濟產出的長期趨勢”短語未出現(xiàn),Moses將其進行了拆分,形成“經濟的”“產出”“趨勢”“長期”4個短短語,并通過調序模型做相應的調序,如果調序不正確,就會導致譯文發(fā)生錯誤.本研究借助相似度模型模糊匹配的方法,在語料庫中可將實例短語“經濟發(fā)展的必然趨勢,the inevitable trend of economic development”找到,因此,可構造翻譯出“經濟產出的長期趨勢”,獲得“the long-term trend of economic output”的正確譯文.這說明采用模糊匹配策略,相似度模型可進行翻譯得到長短語構造,從而減輕短語調序模型的負擔,提高譯文質量.
本文提出基于實例相似度檢測的算法,并進行相似度機器翻譯模型的構建,分析其在機器翻譯中的應用,通過實際系統(tǒng)對其翻譯效果進行驗證,實驗表明,與傳統(tǒng)的Moses短語系統(tǒng)相比,本研究提出的Meneius機器翻譯模型,翻譯質量得到明顯提高.在今后的研究中,可進一步對英文詞訓練語料進行擴展,并進行訓練語料的詞形還原,對訓練獲得的常用詞詞表進行過濾,進一步提高詞的計算效率.