王澍 鄭德權(quán) 趙鐵軍
摘要: 從互聯(lián)網(wǎng)上挖掘大量雙語(yǔ)平行句對(duì),可以快速有效地構(gòu)建大規(guī)模雙語(yǔ)資源,服務(wù)于統(tǒng)計(jì)機(jī)器翻譯。從挖掘?qū)ο蟮牟煌?,將網(wǎng)絡(luò)數(shù)據(jù)源分成對(duì)照網(wǎng)頁(yè)和平行網(wǎng)頁(yè)兩類,提出一種抽取雙語(yǔ)句對(duì)的方法。首先,從上述兩類網(wǎng)頁(yè)中分別抽取平行文本段,對(duì)照網(wǎng)頁(yè)文本段抽取的主要方法為頁(yè)面過濾和模板匹配,而平行網(wǎng)頁(yè)依賴于網(wǎng)頁(yè)結(jié)構(gòu)的相似,采用對(duì)應(yīng)節(jié)點(diǎn)匹配方法;其次,采用Gale-Church算法進(jìn)行句對(duì)齊,得到平行句對(duì);最后統(tǒng)一進(jìn)行后處理。實(shí)驗(yàn)結(jié)果表明,從對(duì)照網(wǎng)頁(yè)獲取平行句對(duì)的準(zhǔn)確率達(dá)到93.3%,平行網(wǎng)頁(yè)為93.5%。