劉 昊,洪 宇,姚 亮,劉 樂,姚建民,周國棟
(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
基于HITS算法的雙語句對挖掘優(yōu)化方法
劉 昊,洪 宇,姚 亮,劉 樂,姚建民,周國棟
(蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)
識(shí)別和定位特定領(lǐng)域雙語網(wǎng)站,是基于Web自動(dòng)構(gòu)建特定領(lǐng)域雙語語料庫的關(guān)鍵。然而,特定領(lǐng)域雙語網(wǎng)站之間的句對質(zhì)量往往差異較大。相對于原有基于句對文本特征識(shí)別過濾質(zhì)量較差句對的方法。該文從句對的來源(即特定領(lǐng)域雙語網(wǎng)站)出發(fā),依據(jù)領(lǐng)域權(quán)威性高的網(wǎng)站往往蘊(yùn)含高質(zhì)量平行句對這一假設(shè),提出一種基于HITS算法的雙語句對挖掘優(yōu)化方法。該方法通過網(wǎng)站之間的鏈接信息建立有向圖模型,利用HITS算法度量網(wǎng)站的權(quán)威性,在此基礎(chǔ)上,僅從權(quán)威性高的網(wǎng)站中抽取雙語句對,用于訓(xùn)練特定領(lǐng)域機(jī)器翻譯系統(tǒng)。該文以教育領(lǐng)域?yàn)槟繕?biāo),驗(yàn)證“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量句對”假設(shè)的可行性。實(shí)驗(yàn)結(jié)果表明,利用該文所提方法挖掘雙語句對訓(xùn)練的翻譯系統(tǒng),相比于基準(zhǔn)系統(tǒng),其平均性能提升0.44個(gè)BLEU值。此外,針對HITS算法存在的“主題偏離”問題,該文提出基于GHITS的改進(jìn)算法。結(jié)果顯示,基于GHITS算法改進(jìn)的機(jī)器翻譯系統(tǒng),其性能繼續(xù)提升0.40個(gè)BLEU值。
統(tǒng)計(jì)機(jī)器翻譯;特定領(lǐng)域機(jī)器翻譯;特定領(lǐng)域雙語網(wǎng)站;權(quán)威性
面向特定領(lǐng)域的統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation, SMT)系統(tǒng)往往受制于目標(biāo)領(lǐng)域雙語語料的不足,難以充分學(xué)習(xí)相應(yīng)的領(lǐng)域翻譯知識(shí)和語言現(xiàn)象,導(dǎo)致翻譯性能普遍偏低。目前,借助檢索技術(shù),從大規(guī)模Web數(shù)據(jù)中自動(dòng)挖掘特定領(lǐng)域雙語語料,并用以擴(kuò)展翻譯系統(tǒng)雙語訓(xùn)練集的相關(guān)研究較多[1-3]。通常,基于Web自動(dòng)挖掘特定領(lǐng)域雙語語料的方法包含三個(gè)關(guān)鍵步驟: 1)識(shí)別和定位特定領(lǐng)域雙語網(wǎng)站; 2)識(shí)別平行網(wǎng)頁對; 3)抽取平行句對。其中,識(shí)別和定位特定領(lǐng)域雙語網(wǎng)站是基于Web自動(dòng)挖掘特定領(lǐng)域雙語語料的前提和關(guān)鍵。然而,自動(dòng)獲取的特定領(lǐng)域雙語網(wǎng)站之間句對質(zhì)量往往差別較大。Rarrick等[2]指出,英語、日語和德語等語言中,自動(dòng)獲取的平行網(wǎng)頁中15%的網(wǎng)頁是由機(jī)器翻譯產(chǎn)生(表1)。此類質(zhì)量較差的句對,無法為機(jī)器翻譯系統(tǒng)提供有效的翻譯知識(shí),甚至成為噪音。
表1 機(jī)器翻譯頁面所占比重
目前,解決上述問題的方法包括: 1)判定雙語句對是否由機(jī)器翻譯產(chǎn)生[4-5]; 2)利用句對的雙語特征和領(lǐng)域特征構(gòu)造模型,評價(jià)句對的平行性和領(lǐng)域性[6-7]等。上述方法僅從句對的文本特征評價(jià)句對質(zhì)量,忽略句對的來源信息;此外,上述方法需抽取目標(biāo)領(lǐng)域網(wǎng)站集合中蘊(yùn)含的所有句對,實(shí)現(xiàn)較為復(fù)雜,效率較低。例如,劉昊、洪宇等[8]指出,在電子器件領(lǐng)域共獲取領(lǐng)域雙語網(wǎng)站18 944個(gè)。
針對上述問題,本文提出基于HITS算法的雙語句對挖掘優(yōu)化方法。這一方法的設(shè)計(jì)源于如下經(jīng)驗(yàn)性的發(fā)現(xiàn):
? 特定領(lǐng)域雙語網(wǎng)站中,雙語句對的質(zhì)量與該網(wǎng)站在目標(biāo)領(lǐng)域的權(quán)威度直接相關(guān);
? 目標(biāo)領(lǐng)域權(quán)威度高的網(wǎng)站,其所含雙語句對的質(zhì)量較高,反之亦然。
如圖1所示,圖(a)和圖(b)表示的平行網(wǎng)頁來源于北京大學(xué)官方網(wǎng)站;圖(c)和圖(d)表示的平行網(wǎng)頁來源于山東省實(shí)驗(yàn)中學(xué)官方網(wǎng)站。通過觀察發(fā)現(xiàn),僅從用詞的角度分析,北京大學(xué)官方網(wǎng)站中蘊(yùn)含的單詞“delegation”、“outline”較山東省實(shí)驗(yàn)中學(xué)的單詞“guests”、“introduce”,用詞更為專業(yè),領(lǐng)域性更強(qiáng)。假設(shè)選取教育領(lǐng)域?yàn)槟繕?biāo)領(lǐng)域,則上述兩個(gè)網(wǎng)站均可被認(rèn)定為目標(biāo)領(lǐng)域雙語網(wǎng)站。但由于網(wǎng)站之間雙語句對質(zhì)量的差異,由其所訓(xùn)練翻譯系統(tǒng)的性能應(yīng)存在較大差異。相對地,圖1中所示的北京大學(xué)更權(quán)威,其網(wǎng)站中的雙語句對質(zhì)量較好。此例說明,特定領(lǐng)域雙語網(wǎng)站中,句對的質(zhì)量與該網(wǎng)站在目標(biāo)領(lǐng)域的權(quán)威度具有較大關(guān)系。
圖1 雙語平行網(wǎng)頁實(shí)例
針對上述現(xiàn)象,本文從句對的來源(即特定領(lǐng)域雙語網(wǎng)站)出發(fā),依據(jù)“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量平行句對”這一假設(shè),提出一種基于HITS算法評價(jià)特定領(lǐng)域雙語網(wǎng)站權(quán)威性,進(jìn)而獲取高質(zhì)量雙語句對的方法。本文開展了如下工作:
? 驗(yàn)證利用HITS算法評價(jià)網(wǎng)站權(quán)威性的有效性;
? 驗(yàn)證本文所提“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量平行句對”的假設(shè);
? 驗(yàn)證本文所提基于HITS算法的雙語挖掘優(yōu)化方法的有效性。
本文組織形式如下: 第二節(jié)介紹相關(guān)工作;第三節(jié)介紹HITS算法;第四節(jié)概述結(jié)合HITS算法的雙語句對挖掘方法框架;第五節(jié)詳述本文所提基于HITS算法的雙語挖掘優(yōu)化方法;第六節(jié)給出實(shí)驗(yàn)設(shè)置及結(jié)果分析;第七節(jié)總結(jié)全文并展望未來工作。
基于Web自動(dòng)獲取大規(guī)模雙語語料的方法可分為以下三類: 1)基于雙語網(wǎng)站自動(dòng)獲取雙語語料。比如,Resnik等[1]開發(fā)的STRAND系統(tǒng),該系統(tǒng)利用雙語網(wǎng)站的語言標(biāo)識(shí)作為啟發(fā)式信息,獲取平行網(wǎng)頁對。Nie等[2]開發(fā)了PTMiner系統(tǒng),該系統(tǒng)進(jìn)一步利用網(wǎng)頁html的結(jié)構(gòu)信息實(shí)現(xiàn)平行網(wǎng)頁對之間的句子對齊。Ma和Liberman[9]開發(fā)的BITS,利用雙語詞典,計(jì)算兩部分文本之間內(nèi)容的互譯度,提高了文本對齊的質(zhì)量。葉莎妮、呂雅娟等[10]提出自動(dòng)發(fā)現(xiàn)雙語網(wǎng)站中URL命名規(guī)律的方法。2)基于混合網(wǎng)頁自動(dòng)獲取雙語語料。Jiang等[3]提出一種基于自適應(yīng)模板挖掘雙語句對的方法。馮艷卉、洪宇等[11]提出一種從搜索引擎返回結(jié)果的網(wǎng)頁中獲取雙語混合網(wǎng)頁的方法3)利用可比較語料庫挖掘雙語平行語料。Smith等[12]提出一種排序模型在可比較文本中抽取平行句對。Bharadwaj等[13]利用SVM分類器在Wikipedia中抽取平行句對。面向特定領(lǐng)域雙語資源獲取方面,當(dāng)前研究相對較少。Pecina等[14]提出一種基于聚焦爬蟲的特定領(lǐng)域雙語語料獲取方法。劉昊、洪宇等[8]提出一種基于全局搜索和局部分類的特定領(lǐng)域雙語網(wǎng)站識(shí)別方法。然而,基于Web自動(dòng)獲取的領(lǐng)域雙語網(wǎng)站中句對的質(zhì)量往往差異較大。質(zhì)量差的雙語句對無法為翻譯系統(tǒng)提供有效的領(lǐng)域翻譯知識(shí)和語言現(xiàn)象,甚至成為噪音。
針對上述特定領(lǐng)域雙語網(wǎng)站質(zhì)量不平衡問題,解決方法大致可分為兩類: 1)機(jī)器翻譯句對識(shí)別。Rarrick等[4]提出一系列雙語平行性特征,通過此類特征識(shí)別機(jī)器翻譯產(chǎn)生的句對。Arase等[5]提出一系列單語特征,用于識(shí)別機(jī)器翻譯產(chǎn)生的句對。2)雙語句對選擇。黃瑾,呂雅娟等[15]提出基于信息檢索的統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練數(shù)據(jù)的選擇和優(yōu)化方法。Yasuda等[16]和Foster等[17]提出利用目標(biāo)領(lǐng)域語言模型困惑度計(jì)算雙語句對質(zhì)量的方法。Axelrod等[18]分別計(jì)算特定領(lǐng)域和通用領(lǐng)域的語言模型困惑度,并利用其差值評價(jià)句對質(zhì)量。Duh等[19]探索應(yīng)用神經(jīng)網(wǎng)絡(luò)語言模型計(jì)算困惑度。Liu等[7]提出一種結(jié)合翻譯模型和語言模型評價(jià)句對質(zhì)量的方法?,F(xiàn)有解決方法僅從句對內(nèi)部特征出發(fā)考慮句對的質(zhì)量,且難以有效融合句對平行性和領(lǐng)域性特征;若目標(biāo)領(lǐng)域雙語網(wǎng)站集合較大,利用上述方法,需抽取網(wǎng)站集合中蘊(yùn)含的所有句對,實(shí)現(xiàn)較復(fù)雜,效率較低。
本文所提基于HITS算法的雙語句對挖掘優(yōu)化方法,從句對的來源(即特定領(lǐng)域雙語網(wǎng)站)出發(fā),基于“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量句對”的假設(shè),利用網(wǎng)站之間的鏈接信息,對網(wǎng)站權(quán)威度進(jìn)行評價(jià)。最終,僅從權(quán)威度高的目標(biāo)領(lǐng)域雙語網(wǎng)站中抽取句對,訓(xùn)練特定領(lǐng)域機(jī)器翻譯系統(tǒng),從而有效解決上述特定領(lǐng)域雙語網(wǎng)站質(zhì)量不平衡的問題。
本文根據(jù)網(wǎng)站之間的鏈接關(guān)系,利用HITS算法評價(jià)網(wǎng)站領(lǐng)域權(quán)威度,HITS算法由Kleinberg等[20-21]提出。HITS算法可有效利用網(wǎng)頁之間的鏈接關(guān)系挖掘隱含信息(如: 權(quán)威度等),具有計(jì)算簡單且效率高的特點(diǎn)。
算法概述如下:
Hub值(表征網(wǎng)站的樞紐度)和Authority值(表征網(wǎng)站的權(quán)威度)是HITS算法最基本的兩個(gè)概念,通過Hub和Authority指標(biāo),HITS能夠?qū)W(wǎng)站的樞紐度和權(quán)威度進(jìn)行估計(jì)。下面首先給出HITS算法的基本概念*基本概念的定義源自維基百科,鏈接地址為“http://en.wikipedia.org/wiki/HITS_algorithm”。和應(yīng)用場景:
? “Hub”頁面,Hub值高的網(wǎng)頁,是指包含很多指向高質(zhì)量“Authority”頁面鏈接的網(wǎng)頁,即樞紐度高的網(wǎng)站。
? “Authority”頁面,Authority值高的頁面,是指與某個(gè)領(lǐng)域或者話題相關(guān)的高質(zhì)量網(wǎng)頁,即權(quán)威度高的頁面;
HITS算法的應(yīng)用場景如下圖2*圖2示例來源于博客“http://blog.csdn.net/hguisu/article/details/8013489”。所示,輸入查詢?yōu)椋?“Topautomobilemakers”,返回結(jié)果如圖所示。其中“CarRanking”、“CARMANUFACTURERWEBSITES”為“Hub”頁面(高樞紐度頁面),“Ferrai”、“Flat”、“Ford”等為“Authority”頁面(高權(quán)威度頁面)。
圖2 “Hub”和“Authority”頁面實(shí)例
圖3 Hub和Authority權(quán)值計(jì)算
HITS算法每次迭代時(shí),Authority值和Hub值的計(jì)算方法如圖3所示,圖中A(i)表示網(wǎng)頁i的Authority值(權(quán)威度),H(i)表示網(wǎng)頁i的Hub值(樞紐度)。圖3中,網(wǎng)頁1被網(wǎng)頁2、網(wǎng)頁3和網(wǎng)頁4所指向,并且網(wǎng)頁1又分別指向網(wǎng)頁5、網(wǎng)頁6和網(wǎng)頁7。則在HITS算法的每一輪迭代中,網(wǎng)頁1的Authority值等于網(wǎng)頁2、網(wǎng)頁3和網(wǎng)頁4(所有指向網(wǎng)頁1的網(wǎng)頁)的Hub值之和,網(wǎng)頁1的Hub值等于網(wǎng)頁5、網(wǎng)頁6和網(wǎng)頁7(所有網(wǎng)頁1指向的網(wǎng)頁)的Authority值之和。
本文提出的基于HITS算法的雙語句對挖掘方法框架如圖4所示,共包含兩個(gè)主要模塊,分別為網(wǎng)站質(zhì)量評價(jià)與雙語句對抽取,主要功能和組成如下:
? 網(wǎng)站權(quán)威度排序: 用于獲取專門從事某領(lǐng)域工作的專業(yè)性很強(qiáng)句對質(zhì)量很高的網(wǎng)站,即“領(lǐng)域?qū)<揖W(wǎng)站”。基本組成包括領(lǐng)域網(wǎng)站集合構(gòu)建、集合擴(kuò)展、HITS排序。Authority值高的網(wǎng)站即專門從事某領(lǐng)域工作的專業(yè)性很強(qiáng),權(quán)威度很高,句對質(zhì)量較好的網(wǎng)站。
? 雙語句對抽?。?用于在權(quán)威度高的雙語網(wǎng)站中獲取雙語平行句對?;窘M成包括平行網(wǎng)頁對識(shí)別、平行句對抽取。本文利用Ma和Liberman[9]所提方法實(shí)現(xiàn)雙語平行句對抽取。并將雙語句對用于擴(kuò)充特定領(lǐng)域機(jī)器翻譯系統(tǒng)訓(xùn)練集。
圖4 方法框架圖
5.1 構(gòu)建特定領(lǐng)域雙語網(wǎng)站集合
首先,利用劉昊、洪宇等[8]所提特定領(lǐng)域雙語網(wǎng)站識(shí)別方法,構(gòu)建特定領(lǐng)域雙語網(wǎng)站集合,作為根集合(Root Set)。其次,在根集合(Root Set)的基礎(chǔ)上進(jìn)行擴(kuò)展,擴(kuò)展原則為: 凡是與根集合網(wǎng)站有鏈接關(guān)系(包括鏈入和鏈出兩種關(guān)系)的網(wǎng)站都被添加到擴(kuò)展集合(Base Set)。擴(kuò)展集合仍為有向圖。
根集合(Root Set)和擴(kuò)展集合(Base Set)的對應(yīng)關(guān)系如圖5所示, 其中,節(jié)點(diǎn)1、節(jié)點(diǎn)2和節(jié)點(diǎn)3表示利用特定領(lǐng)域雙語網(wǎng)站識(shí)別方法,獲得的目標(biāo)領(lǐng)域雙語網(wǎng)站,本文將此類網(wǎng)站集合作為根集合(Root Set)。其次,依據(jù)擴(kuò)展原則將節(jié)點(diǎn)4-9加入根集合(Root Set),形成擴(kuò)展集合(Base Set)。具體的鏈接關(guān)系如黑色箭頭所示。
5.2 利用HITS算法優(yōu)化網(wǎng)頁挖掘
本文根據(jù)網(wǎng)站之間的鏈接關(guān)系,利用HITS算法進(jìn)行迭代,得到網(wǎng)站的Authority值和Hub值。其基本算法如下,對任意網(wǎng)站p,每次迭代時(shí)Authority值和Hub值可由式(1)(2)計(jì)算:
(1)
(2)
其中,auth(p)和hub(p)分別表示網(wǎng)站p的Authority值和Hub值,網(wǎng)站qi(i=1,2,…,n)表示指向p的網(wǎng)站,網(wǎng)站qj(j=1,2,…,m)表示p所指向的網(wǎng)站。算法收斂后,根據(jù)Authority值對根集合網(wǎng)站排序,并將排序結(jié)果返回。HITS算法的偽代碼如表2所示:
表2 HITS算法偽代碼
續(xù)表
5.3 利用GHITS算法優(yōu)化網(wǎng)頁挖掘
HITS算法僅考慮網(wǎng)站之間的鏈接關(guān)系,忽略了網(wǎng)站中的內(nèi)容信息,使得在HITS算法迭代過程中經(jīng)常出現(xiàn)主題偏離問題。主題偏離問題是指,當(dāng)擴(kuò)展集合中包含部分與查詢無關(guān)的網(wǎng)站,且這部分網(wǎng)站之間的互鏈關(guān)系較多時(shí),HITS算法可能為根集合中與目標(biāo)領(lǐng)域相關(guān)度較小的網(wǎng)站賦予較高的Authority值排名。針對此問題,范聰賢、徐汀榮等[22]提出將基于超鏈接的信息檢索方法與內(nèi)容相關(guān)性分析方法相結(jié)合的GHITS算法。
本文利用GHITS算法優(yōu)化網(wǎng)頁挖掘,具體描述如下:
? 首先,依照5.1節(jié)中所提方法構(gòu)建目標(biāo)領(lǐng)域雙語網(wǎng)站集合,并利用網(wǎng)站之間的鏈接關(guān)系建立有向圖模型,用符號G(V,E)表示。其中,V表示特定領(lǐng)域雙語網(wǎng)站節(jié)點(diǎn)的集合,E表示節(jié)點(diǎn)之間有向邊的集合。
(3)
對任意網(wǎng)站p,每次迭代時(shí)Authority值和Hub值可由式(4)、式(5)計(jì)算。
(4)
(5)
? 最后,GHITS算法迭代收斂后(收斂條件為: ‖at-at-1‖+‖ht-ht-1‖<ε,其中at表示第t次迭代后網(wǎng)站p的Authority值,ht表示第t次迭代后網(wǎng)站p的Hub值,ε為人為設(shè)定參數(shù)),根據(jù)Authority值對根集合網(wǎng)站排序,并將排序結(jié)果返回。GHITS算法的偽代碼如表3所示:
表3 GHITS算法偽代碼
5.4 雙語平行句對抽取
本文采用基于網(wǎng)頁結(jié)構(gòu)和內(nèi)容互譯度的方法識(shí)別平行網(wǎng)頁對。該方法首先基于URL地址的結(jié)構(gòu)相似性獲取候選平行網(wǎng)頁對,其次,計(jì)算候選平行網(wǎng)頁e和c之間的互譯度,通過設(shè)定閾值,過濾非平行網(wǎng)頁對,平行網(wǎng)頁互譯度的計(jì)算如式(6)所示。
(6)
其中,Scb(e,c)表示基于網(wǎng)頁內(nèi)容的互譯度,具體計(jì)算如式(7)所示;Sstruct(e,c)表示基于網(wǎng)頁結(jié)構(gòu)的互譯度,具體計(jì)算如式(8)所示;?為權(quán)重系數(shù),實(shí)驗(yàn)中設(shè)為0.5。
(7)
(8)
Length(e)表示網(wǎng)頁e中包含的單詞個(gè)數(shù);對于Translate(we),通過檢索雙語詞典,如果網(wǎng)頁e中單詞we在網(wǎng)頁c中存在翻譯項(xiàng),則Translate(we)的值為1,否則為0。ComSeq(etag,ctag)表示標(biāo)簽序列etag與ctag的公共子序列。
本實(shí)驗(yàn)分為三個(gè)部分: 1)驗(yàn)證HITS算法在評價(jià)網(wǎng)站領(lǐng)域權(quán)威性時(shí)的有效性; 2)驗(yàn)證“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量句對”的假設(shè); 3)驗(yàn)證基于HITS和GHITS算法優(yōu)化的雙語句對挖掘方法的有效性,并與Liu等[7]所提方法進(jìn)行對比。
6.1 實(shí)驗(yàn)設(shè)置
? 語料配置
本文選擇教育領(lǐng)域?yàn)槟繕?biāo)領(lǐng)域。首先,在2014年中國大學(xué)排行榜*http://www.cuaa.net/cur/2014/xjindex.shtml中隨機(jī)抽取30個(gè)雙語平行網(wǎng)站,建立對應(yīng)根集合(Root Set)的有向圖模型。其次,在根集合(Root Set)的基礎(chǔ)上進(jìn)行擴(kuò)展,擴(kuò)展集合(Base Set)仍為有向圖,本文所構(gòu)建的擴(kuò)展集合中包含57個(gè)網(wǎng)站(獲取到有效鏈接的數(shù)量為: 15,150個(gè))。利用5.4節(jié)所提雙語平行句對抽取方法,在根集合(Root Set)的雙語網(wǎng)站中抽取雙語平行句對。
為驗(yàn)證本文所提“權(quán)威度高的網(wǎng)站蘊(yùn)含高質(zhì)量雙語句對”的假設(shè),以及基于HITS和GHITS算法優(yōu)化的雙語句對挖掘方法的有效性,本文利用挖掘所得高質(zhì)量領(lǐng)域雙語平行句對,擴(kuò)充機(jī)器翻譯系統(tǒng)訓(xùn)練集,構(gòu)建特定領(lǐng)域中到英基于短語的機(jī)器翻譯系統(tǒng)。系統(tǒng)的訓(xùn)練語料設(shè)置如下:
1) 翻譯模型訓(xùn)練數(shù)據(jù)由通用領(lǐng)域雙語語料(規(guī)模100k,來源于機(jī)器翻譯系統(tǒng)NiuTrans中發(fā)布的雙語語料*http://www.niutrans.com/NiuTrans.ch.html)和利用HITS(GHITS)優(yōu)化算法挖掘所得領(lǐng)域雙語句對構(gòu)成;
2) 語言模型訓(xùn)練數(shù)據(jù)取自本地英語單語語料(規(guī)模為: 10k句);
3) 開發(fā)集源于人工標(biāo)注教育領(lǐng)域雙語語料(規(guī)模為1k),對應(yīng)4個(gè)參考集;
4) 測試集(1,2,3,4)源于人工標(biāo)注教育領(lǐng)域雙語語料(規(guī)模為2k,2k,2k,2k),對應(yīng)4個(gè)參考集。
機(jī)器翻譯系統(tǒng)的環(huán)境配置如下: 詞對齊工具使用GIZA++[23],語言模型為三元,參數(shù)訓(xùn)練方法使用最小錯(cuò)誤率[24]訓(xùn)練,系統(tǒng)采用對數(shù)線性模型進(jìn)行特征融合。
? 系統(tǒng)設(shè)置
本文分別設(shè)置如下系統(tǒng)進(jìn)行實(shí)驗(yàn):
1) HITS_TopN: 利用基于HITS的網(wǎng)頁挖掘優(yōu)化算法,對6.1節(jié)所提教育領(lǐng)域雙語平行網(wǎng)站(數(shù)量為: 30)進(jìn)行句對質(zhì)量排序;將排序Top-N網(wǎng)站中的雙語句對和通用領(lǐng)域雙語語料合并,作為翻譯模型訓(xùn)練集,訓(xùn)練所得系統(tǒng);
2) HITS_TailN: 將句對質(zhì)量排序Tail-N網(wǎng)站中的雙語句對和通用領(lǐng)域雙語語料合并,作為翻譯模型訓(xùn)練集,訓(xùn)練所得系統(tǒng);
3) GHITS_TopN: 將句對質(zhì)量排序Top-N網(wǎng)站中的雙語句對和通用領(lǐng)域雙語語料合并,作為翻譯模型訓(xùn)練集,訓(xùn)練所得系統(tǒng);
4) TM_LM_Method: 利用Liu等[7]所提雙語句對選擇方法,對6.1節(jié)所提教育領(lǐng)域雙語平行網(wǎng)站(數(shù)量為: 30)所包含的全部句對進(jìn)行排序,將排序Top-M的雙語句對和通用領(lǐng)域雙語語料合并,作為翻譯模型訓(xùn)練集,訓(xùn)練所得系統(tǒng)。
本文設(shè)置N=10,M=N×4k=40k(設(shè)定M為40k,以保證TM_LM_Method系統(tǒng)與其他系統(tǒng)的訓(xùn)練集規(guī)模一致);利用基于HITS和GHITS的網(wǎng)頁挖掘優(yōu)化算法迭代時(shí),設(shè)定參數(shù)ε=1.0×10-10作為迭代結(jié)束閾值。
? 評價(jià)標(biāo)準(zhǔn)
本文利用基于HITS的網(wǎng)頁挖掘優(yōu)化算法,對6.1節(jié)所提教育領(lǐng)域雙語平行網(wǎng)站進(jìn)行句對質(zhì)量排序,并將網(wǎng)站排序結(jié)果與2014年中國大學(xué)排行榜數(shù)據(jù)進(jìn)行對比,以驗(yàn)證HITS算法在評價(jià)網(wǎng)站領(lǐng)域權(quán)威性時(shí)的有效性。本文采用信息檢索中的NDCG值作為評價(jià)標(biāo)準(zhǔn),具體闡述如下:
將2014年中國大學(xué)排行榜的排名結(jié)果作為理想排序,將Top1-6排序結(jié)果的相關(guān)度設(shè)為31(25-1),Top7-12排序結(jié)果的相關(guān)度設(shè)為15(24-1),Top13-18設(shè)為7(23-1),Top19-24設(shè)為3(22-1),Top25-30設(shè)為1(21-1)。在第r位的NDCG值NDCG@r的計(jì)算公式如式(10)所示。
(10)
其中,r(j)表示第j個(gè)文檔的相關(guān)性,Nr為歸一化參數(shù),使得最優(yōu)排序的NDCG@r的值始終為1。本文采用BLEU-4[25]作為機(jī)器翻譯系統(tǒng)性能的評價(jià)標(biāo)準(zhǔn),BLEU-4的計(jì)算如式(11)所示。
(11)
其中,output-length表示翻譯系統(tǒng)輸出結(jié)果的長度,reference-length表示參考集中對應(yīng)句子的長度,presicioni表示基于i元文法的準(zhǔn)確率。
6.2 結(jié)果分析
本文利用基于HITS的網(wǎng)頁挖掘優(yōu)化算法,對6.1節(jié)所提教育領(lǐng)域雙語平行網(wǎng)站(數(shù)量為: 30)進(jìn)行句對質(zhì)量排序,并將網(wǎng)站排序結(jié)果與2014年中國大學(xué)排行榜排名結(jié)果(30所大學(xué)的相對排名)進(jìn)行比較,如表4所示。
表4 排序比較
續(xù)表
本文采用信息檢索中的NDCG值評價(jià)兩排序結(jié)果的一致性,具體結(jié)果如圖6所示。
圖6 排序結(jié)果比較
由表6可得,基于HITS的網(wǎng)頁挖掘優(yōu)化算法對網(wǎng)站權(quán)威性的預(yù)測結(jié)果與真實(shí)數(shù)據(jù)之間具有一定程度的一致性(NDCG值均在80%以上,當(dāng)r值取30時(shí),NDCG值最高為95%;當(dāng)r值取5時(shí),NDCG值最低為83%)。但仍存在一定誤差,原因在于: 基于HITS的優(yōu)化算法僅考慮網(wǎng)站之間的鏈接信息,而真實(shí)的大學(xué)排名則融合更多因素予以考慮。但本文所提基于HITS的優(yōu)化方法更具通用性,在很多其它領(lǐng)域(如: 電子器件、環(huán)保領(lǐng)域等),網(wǎng)站真實(shí)排名往往難以獲取,由此說明本文所提基于HITS的網(wǎng)頁挖掘優(yōu)化方法在預(yù)測網(wǎng)站權(quán)威度時(shí)的有效性。
為驗(yàn)證本文所提“領(lǐng)域權(quán)威度高的網(wǎng)站蘊(yùn)含高質(zhì)量雙語句對”的假設(shè),以及基于HITS和GHITS算法優(yōu)化的雙語句對挖掘方法的有效 性,本 文 利 用
挖掘所得高質(zhì)量領(lǐng)域雙語平行句對,擴(kuò)充機(jī)器翻譯系統(tǒng)訓(xùn)練集,構(gòu)建中到英的特定領(lǐng)域機(jī)器翻譯系統(tǒng)。并與Liu等[7]所提雙語句對選擇方法進(jìn)行對比。統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)在各測試集下未登錄詞數(shù)量統(tǒng)計(jì)如表5所示。
表5 機(jī)器翻譯未登錄詞數(shù)量統(tǒng)計(jì)
統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)在各測試集下的性能如下表6所示。
表6 機(jī)器翻譯系統(tǒng)性能
通過觀察表6數(shù)據(jù),HITS_TopN在4個(gè)測試集中的平均BLEU值(20.41%),較HITS_TailN(BLEU值為19.02%)提升個(gè)1.39個(gè)BLEU值;且由表5可知,翻譯系統(tǒng)的訓(xùn)練語料在4個(gè)測試集下覆蓋度大致相同(未登錄詞OOV的個(gè)數(shù)大體一致),該數(shù)據(jù)現(xiàn)象表明,HITS_TopN系統(tǒng)BLEU值提升的原因在于語料的質(zhì)量,即領(lǐng)域權(quán)威度高的網(wǎng)站中所蘊(yùn)含的雙語句對,包含更多有效的領(lǐng)域翻譯知識(shí)和語言現(xiàn)象。由此,證明本文所提“領(lǐng)域權(quán)威度高的網(wǎng)站蘊(yùn)含高質(zhì)量句對”的假設(shè)。
另一方面,通過觀察表6數(shù)據(jù),HITS_TopN在四個(gè)測試集的平均BLEU值(20.41%),較Tm_Lm_Method提升0.44個(gè)BLEU值。且由表5可知,翻譯系統(tǒng)的訓(xùn)練語料在四個(gè)測試集下覆蓋度大致相同(未登錄詞OOV個(gè)數(shù)大體一致),該數(shù)據(jù)現(xiàn)象表明,本文所提基于HITS網(wǎng)頁挖掘優(yōu)化算法與當(dāng)前基于句對內(nèi)部特征的雙語句對選擇方法相比,性能基本一致。但基于句對內(nèi)部特征的雙語句對選擇方法需抽取目標(biāo)領(lǐng)域網(wǎng)站集合中的全部句對,實(shí)現(xiàn)較為復(fù)雜;本文所提方法,實(shí)現(xiàn)簡單效率,效率較高。從而,進(jìn)一步證明本文所提基于HITS算法方法雙語挖掘優(yōu)化方法的有效性。
最后,通過觀察表6數(shù)據(jù),發(fā)現(xiàn)GHITS_TopN在四個(gè)測試集中的平均BLEU值,較HITS_TopN系統(tǒng)提升0.40個(gè)BLEU值,較Tm_Lm_Method提升0.84個(gè)BLEU值。且由表5可知,翻譯系統(tǒng)的訓(xùn)練語料在4個(gè)測試集下覆蓋度大致相同(未登錄詞OOV的個(gè)數(shù)大體一致),該數(shù)據(jù)現(xiàn)象表明表6中,GHITS_TopN系統(tǒng)BLEU值提升的原因在于語料質(zhì)量。由此,驗(yàn)證本文所提基于GHITS的雙語句對挖掘優(yōu)化方法的有效性。
綜上所述,本文所提基于HITS算法的雙語挖掘優(yōu)化方法,從句對的來源(即特定領(lǐng)域雙語網(wǎng)站)出發(fā),有效地利用網(wǎng)站之間的鏈接信息,判定句對的質(zhì)量。與基于文本特征的句對質(zhì)量評價(jià)方法相比,該方法無需抽取網(wǎng)站集合中蘊(yùn)含的所有雙語句對,實(shí)現(xiàn)簡單,效率較高。權(quán)威性高的網(wǎng)站蘊(yùn)含的句對,其領(lǐng)域性和平行性均較好,因此本文所提方法可以有效地融合領(lǐng)域性和平行性用于評價(jià)句對的質(zhì)量。此外,本文所提方法適用于任何領(lǐng)域,具有很好的通用性。
本文針對特定領(lǐng)域雙語網(wǎng)站句對質(zhì)量不平衡的問題,提出一種基于HITS算法優(yōu)化雙語網(wǎng)頁挖掘,并獲取高質(zhì)量雙語句對的方法。該方法通過網(wǎng)站之間的鏈接信息建立有向圖模型,利用HITS算法度量網(wǎng)站的權(quán)威性,在此基礎(chǔ)上,僅從權(quán)威性高的網(wǎng)站中抽取雙語句對,用于訓(xùn)練特定領(lǐng)域機(jī)器翻譯系統(tǒng)。
本文以教育領(lǐng)域?yàn)槟繕?biāo),通過實(shí)驗(yàn)驗(yàn)證所提“領(lǐng)域權(quán)威性高的網(wǎng)站蘊(yùn)含高質(zhì)量句對” 的假設(shè),且利用本文所提方法構(gòu)建的特定領(lǐng)域機(jī)器翻譯系統(tǒng)較對比系統(tǒng),平均性能提升0.44個(gè)BLEU值,從而驗(yàn)證本文所提方法的有效性。針對HITS算法存在的“主題偏離”問題,本文提出基于文本和鏈接信息相結(jié)合的GHITS改進(jìn)算法。實(shí)驗(yàn)中,基于GHITS算法的翻譯系統(tǒng)性能繼續(xù)提升0.40個(gè)BLEU值。
在未來工作中,將嘗試更多評價(jià)網(wǎng)站權(quán)威度的方法(如PageRank等),并嘗試句對的文本信息和來源信息相結(jié)合,提出更有效的高質(zhì)量雙語句對挖掘方法。
[1] Resnik Philip. Parallel strands: A preliminary investigation into mining the web for bilingual text[M]. Springer Berlin Heidelberg: 1998.
[2] Chen Jiang, JianYun Nie. Automatic construction of parallel English-Chinese corpus for cross-language information retrieval[C]//Proceedings of the 6th conference on Applied natural language processing(ANLC). 2000: 21-28.
[3] Long Jiang, Shiquan Yang, Ming Zhou et al. Mining Bilingual Data from the Web with Adaptively Learnt Patterns[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the AFNLP(ACL-IJCNLP). Suntec, Singapore, 2009, 2: 870-878.
[4] Rarrick, Spencer, Chris Quirk, et al. MT detection in web-scraped parallel corpora[C]//Rroceedings of The Thirteenth Machine Translation Summit(MT Summit XIII). Xiamen, China, 2011, 422-429.
[5] Arase, Yuki, Ming Zhou. Machine Translation Detection from Monolingual Web-Text[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics(ACL). Sofia, Bulgaria, 2013: 1597-1607.
[6] Munteanu, Dragos Stefan, Daniel Marcu. Improving machine translation performance by exploiting non-parallel corpora[J]. Computational Linguistics, 2005, 31(4): 477-504.
[7] Le Liu, Yu Hong, Hao Liu. Effective Selection of Translation Model Training Data[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics(ACL). Baltimore, Maryland, USA, 2014, 569-573.
[8] 劉昊,洪宇,劉樂等. 基于全局搜索和局部分類的特定領(lǐng)域雙語網(wǎng)站識(shí)別方法[C]//第二十屆全國信息檢索學(xué)術(shù)會(huì)議(CCIR). KunMing, China, 2014.
[9] Ma, Xiaoyi, and Mark Liberman. Bits: A method for bilingual text search over the web[C]//The eighth Machine Translation Summit(MT Summit VIII). 1999: 538-542.
[10] 葉莎妮,呂雅娟,黃赟等. 基于Web的雙語平行句對自動(dòng)抽取[J]. 中文信息學(xué)報(bào), 2008, 22(5): 67-73.
[11] 馮艷卉,洪宇,顏振祥,姚建民,朱巧明. 基于搜索引擎的雙語混合網(wǎng)頁識(shí)別新方法[J]. 中文信息學(xué)報(bào), 2011, 25(1): 71-78.
[12] Smith, Jason R., Chris Quirk, et al. Extracting parallel sentences from comparable corpora using document level alignment[C]//Proceedings of the Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics(NAACL). LOS ANGELES, USA, 2010, 403-411.
[13] Bharadwaj, Rohit G., and Vasudeva Varma. Language independent identification of parallel sentences using Wikipedia[C]//Proceedings of the 20th International Conference Companion on World Wide Web(WWW). Hyderabad, India. 2011, 11-12.
[14] Pavel Pecina, Vassilis Papavassiliou. Towards Using Web-Crawled Data for Domain Adaptation in Statistical Machine Translation[C]//Proceedings of the 15th Conference of the European Association for Machine Translation. Leuven, Belgium, 2011, 297-304.
[15] 黃瑾,呂雅娟,劉群. 基于信息檢索方法的統(tǒng)計(jì)翻譯系統(tǒng)訓(xùn)練數(shù)據(jù)選擇與優(yōu)化[J]. 中文信息學(xué)報(bào), 2008, 22(2): 40-46.
[16] Keiji Yasuda, Ruiqiang Zhang, Hirofumi Yamamoto, et al. Method of selecting training data to build a compact and efficient translation model[C]//Proceedings of the International Joint Conference on Natural Language Processing(IJCNLP). Hyderabad, India, 2008: 655-660.
[17] Foster, George, Cyril Goutte, et al. Discriminative Instance Weighting for Domain Adaptation in Statistical Machine Translation[C]//Proceedings of the Empirical Methods in Natural Language Processing(EMNLP). Massachusetts, USA, 2010: 451-469
[18] Axelrod, Amittai, Xiaodong He, et al. Domain adaptation via pseudo in-domain data selection[C]//Proceedings of the 2011 Conference on Empirical Method in Natural Language Processing(EMNLP). Scotland, UK, 2011, 355-362.
[19] Kevin Duh, Graham Neubig, Katsuhito Sudoh,et al. Adaptation Data Selection using Neural Language Models: Experiment in Machine Translation[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics(ACL).Sofia, Bulgaria, 2013, 678-683.
[20] Jon M. Kleinberg. Authoritative sources in a hyperlinked environment[J]. Journal of the ACM (JACM), 1999, 46(5): 604-632.
[21] Brin, Sergey, and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine[J]. Computer networks and ISDN systems, 1998, 30(1): 107-117.
[22] 范聰賢, 徐汀榮, 范強(qiáng)賢. Web 結(jié)構(gòu)挖掘中 HITS 算法改進(jìn)的研究[J]. 微計(jì)算機(jī)信息, 2010 (3): 160-162.
[23] Franz Joset Cch, Hermann Ney. A systematic comparison of various statistical alignment models[J]. Computational Linguistics, 2003,29(1): 19-51.
[24] Och, Franz Josef. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics(ACL). Association for Computational Linguistics, 2003, 160-167.
[25] Kishore Papineni, Salim Roukos, Todd Ward, et al. BLEU: a method for automatic evaluation of machine translation[C]//Proceedings of the 40th annual meeting on association for computational linguistics(ACL). Association for Computational Linguistics, 2002: 311-318.
HITS-Based Optimization Method for Bilingual Corpus Mining
LIU Hao, HONG Yu, Yao Liang, LIU Le, YAO Jianmin, ZHOU Guodong
(Provincial Key Laboratory of Computer Information Processing TechnologySoochow University, Suzhou, Jiangsu 215006, China)
Identifying and locating domain-specific bilingual websites is a crucial step for the Web-based bilingual resource construction. However, the quality of sentence pairs varies among different bilingual websites. In contrast to the existing method focusing only on the sentence internal features, we explore the sentence pairs' origin information for identifying and filtering the low-quality sentences pairs. We hypothesize that, if a website is authoritative in the target domain, it tends to contain more high-quality sentence pairs. Thus, we propose a HITS based optimization method for mining domain-specific bilingual sentence pairs. In this method, we first construct a directed-graph model based on the link-info among the websites. Secondly, we propose a HITS based method for evaluating the authority of websites. Finally, we only extract the sentence pairs from the authoritative websites, and use them to enlarge the training-set of our machine translation system. Experimented on the education domain, our system achieves improvements of 0.44% BLEU score compared with existing method. A further proposed GHITS method achieve additional improvements of 0.40% BLEU score.
statistical machine translation; specific-domain machine translation; specific-domain bilingual websites; authority; HITS
劉昊(1990—),碩士研究生,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器翻譯,自然語言處理。E?mail:liuhao19900412@gmail.com洪宇(1978—),博士后,副教授,主要研究領(lǐng)域?yàn)樵掝}檢測、信息檢索和信息抽取。E?mail:tianxianer@gmail.com姚亮(1993—),碩士研究生,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)機(jī)器翻譯,自然語言處理。E?mail:yaoliang310@163.com
2015-02-04 定稿日期: 2015-05-10
國家自然科學(xué)基金(61373097, 61272259, 61272260, 90920004);教育部博士學(xué)科點(diǎn)專項(xiàng)基金(2009321110006, 20103201110021);江蘇省自然科學(xué)基金(BK2011282);江蘇省高校自然科學(xué)基金重大項(xiàng)目(11KJA520003);蘇州市自然科學(xué)基金(SH201212)
1003-0077(2017)02-0025-11
TP391
A