国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于句法差異的漢-越平行句對(duì)抽取

2020-09-10 07:22于志強(qiáng)高明虎陳宇星
關(guān)鍵詞:句法語(yǔ)料平行

于志強(qiáng),高明虎,陳宇星

(云南民族大學(xué) 信息與網(wǎng)絡(luò)中心,云南 昆明 650500)

2014年以來(lái),神經(jīng)機(jī)器翻譯(neural machine translation)[1-2]得到了迅速發(fā)展.作為一種基于數(shù)據(jù)驅(qū)動(dòng)的新型翻譯方式,神經(jīng)機(jī)器翻譯對(duì)用于模型訓(xùn)練的平行語(yǔ)料有較高要求.在資源豐富型語(yǔ)言對(duì)上(如英-法、漢-英),神經(jīng)機(jī)器翻譯已經(jīng)全面超越統(tǒng)計(jì)機(jī)器翻譯,取得了更好的翻譯效果.然而,在低資源環(huán)境下,受制于平行語(yǔ)料的規(guī)模和質(zhì)量,神經(jīng)機(jī)器翻譯的效果欠佳[3].漢-越神經(jīng)機(jī)器翻譯作為典型的低資源型機(jī)器翻譯,同樣面臨平行語(yǔ)料匱乏問(wèn)題.然而由于地理及文化因素,兩國(guó)存在大量對(duì)同一事件進(jìn)行類(lèi)似敘述的文本,形成了較易獲取的可比語(yǔ)料資源,可比語(yǔ)料可被視為主題對(duì)齊但非句子對(duì)齊的文本集合.相較于成本較高的人工構(gòu)建等方式,利用機(jī)器學(xué)習(xí)方法從可比語(yǔ)料中抽取偽平行語(yǔ)料的方式更加可行.

針對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的研究表明,循環(huán)神經(jīng)網(wǎng)絡(luò)可以成功地學(xué)習(xí)從變長(zhǎng)序列到連續(xù)向量表示的復(fù)雜映射.許多自然語(yǔ)言處理任務(wù)已經(jīng)成功地應(yīng)用了循環(huán)神經(jīng)網(wǎng)絡(luò)模型,包括手寫(xiě)生成[4]到機(jī)器理解[5]等,在機(jī)器翻譯任務(wù)中,針對(duì)平行句對(duì)抽取問(wèn)題,一些研究者通過(guò)并行組合2個(gè)同構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò),形成孿生結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)[6],與文本相似度計(jì)算方法[7]結(jié)合后有效地改進(jìn)了平行句對(duì)抽取效率.

1 相關(guān)工作

傳統(tǒng)平行句對(duì)抽取方法通常使用多模型聯(lián)合方式.2005年,Munteanu等[8]以統(tǒng)計(jì)詞對(duì)齊模型和最大熵分類(lèi)器為基礎(chǔ),提出了基于統(tǒng)計(jì)的平行句對(duì)抽取模型,實(shí)現(xiàn)了從新聞文本中自動(dòng)抽取平行句對(duì),作者將其投入到統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練并獲得了性能提升.Adafre等[9]發(fā)現(xiàn)了維基百科上文章的平行特性,證明了可基于維基百科生成機(jī)器翻譯可用的平行語(yǔ)料.Smith等[10]對(duì)這2種方法進(jìn)行了擴(kuò)展,他們利用Wikipedia文章對(duì)的結(jié)構(gòu)和元數(shù)據(jù)引入了幾個(gè)新特性,隨后通過(guò)條件隨機(jī)場(chǎng)方法在20個(gè)手工注釋的Wikipedia文章對(duì)中應(yīng)用上述特性,取得了當(dāng)時(shí)最先進(jìn)的結(jié)果.Abdul-Rauf等[11]提出了1種不同的方法,他們不使用分類(lèi)器,而使用小規(guī)模平行語(yǔ)料庫(kù)構(gòu)建統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),通過(guò)其翻譯可比語(yǔ)料庫(kù)的源語(yǔ)言部分,以在目標(biāo)語(yǔ)言部分找到候選句子.針對(duì)上述方法中相似度計(jì)算復(fù)雜性較高的問(wèn)題,Azpeitia等[12]提出了1種簡(jiǎn)化方法,其中,2個(gè)句子之間的相似度定義為源與目標(biāo)詞之間的Jaccard相似系數(shù)的平均值.

隨著神經(jīng)機(jī)器翻譯研究的普及,近年來(lái),出現(xiàn)了一些基于神經(jīng)網(wǎng)絡(luò)的平行句對(duì)抽取研究.Chu等[13]訓(xùn)練神經(jīng)機(jī)器翻譯模型,基于模型的編碼器獲得句子的向量表示,將其作為額外特征輸入到Munteanu所提出的模型[8].與此類(lèi)似的是,Cristina等[14]同樣基于神經(jīng)機(jī)器翻譯模型的編碼端獲取句子的向量表示,但通過(guò)計(jì)算余弦相似度方式來(lái)判斷句對(duì)是否平行.Grover等[15]則提出了不同的方法,他們首先通過(guò)Luong等[16]的方法學(xué)習(xí)雙語(yǔ)詞向量表示,隨后使用基于相似矩陣的卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)平行句對(duì)判斷.近期,Gregoire等[17]提出了1種利用孿生神經(jīng)網(wǎng)絡(luò)抽取平行句對(duì)的方法,他們利用雙語(yǔ)平行語(yǔ)料訓(xùn)練得到句子的向量表示,建立前饋層,在其上通過(guò)改進(jìn)的相似度計(jì)算方法實(shí)現(xiàn)平行句對(duì)判斷.本文方法與其不同之處為:①不完全依賴雙語(yǔ)語(yǔ)料,利用低資源環(huán)境下更容易獲得的單語(yǔ)語(yǔ)料來(lái)首先產(chǎn)生句子的向量表示,利用雙語(yǔ)語(yǔ)料進(jìn)行微調(diào);②通過(guò)在詞嵌入層上疊加詞性嵌入層,將句法差異信息融入到詞嵌入過(guò)程,使其更加適用于漢-越平行句對(duì)抽取任務(wù).

2 漢-越平行句對(duì)抽取方法

2.1 漢越句法差異

1) 修飾名詞或名詞性短語(yǔ)的形容詞后置;

2) 修飾動(dòng)詞或形容詞的副詞后置;

3) 多個(gè)形容詞修飾同一名詞或名詞性短語(yǔ)時(shí),形容詞依次逆序(相對(duì)于漢語(yǔ)中的順序)后置排列.

表1 漢語(yǔ)-越南語(yǔ)間語(yǔ)言差異示例

2.2 模型

Gregoire等[17]于2018年提出了孿生神經(jīng)網(wǎng)絡(luò)雙語(yǔ)句對(duì)抽取方法,如圖1所示,該方法首先利用平行句對(duì)訓(xùn)練將雙語(yǔ)詞匯映射到統(tǒng)一的向量空間進(jìn)行表示,隨后利用孿生結(jié)構(gòu)[19]的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiRNN)將一對(duì)句子編碼成2個(gè)特征向量hS和hT,最后通過(guò)前饋網(wǎng)絡(luò)判斷特征向量間的相似性,得到句子是否平行的分類(lèi)結(jié)果(0代表不平行,1代表平行).

不同于Gregoire等方法的應(yīng)用場(chǎng)景,我們所面對(duì)的漢越翻譯場(chǎng)景下,平行語(yǔ)料比較匱乏,因此本文使用Zhang等[20]的方法,先利用單語(yǔ)語(yǔ)料來(lái)訓(xùn)練得到對(duì)齊的向量空間,通過(guò)其產(chǎn)生句子的向量表示,隨后使用Mikolov等[21]的方法,利用雙語(yǔ)語(yǔ)料進(jìn)行微調(diào).除此以外,通過(guò)在詞嵌入層上疊加詞性嵌入層,將能體現(xiàn)句法差異的詞性信息融入到詞嵌入層,使其更加適用于漢-越平行句對(duì)抽取任務(wù).

改進(jìn)后的模型詞嵌入層結(jié)構(gòu)如圖2所示,在傳統(tǒng)的詞嵌入(word embedding)層上,首先通過(guò)疊加位置嵌入層,使詞嵌入更好的體現(xiàn)位置特征.接著通過(guò)疊加詞性嵌入層,融入能夠體現(xiàn)漢越句法差異部分的詞性特征,主要為后置關(guān)系相關(guān)的動(dòng)詞、名詞、形容詞和副詞的詞性.最終的詞嵌入表示為:

W=We+WP+WPOS.

(1)

其中,We為傳統(tǒng)的詞嵌入,WP為位置嵌入,WPOS為詞性嵌入.

詞嵌入層之上,本文沿用Gregoire等[17]方法結(jié)構(gòu),利用孿生結(jié)構(gòu)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiRNN)將一對(duì)句子編碼成2個(gè)特征向量hS和hT,隨后通過(guò)前饋網(wǎng)絡(luò)判斷特征向量間的相似性,具體過(guò)程如下:

(2)

(3)

(4)

p(yi=1│hi)=σ(Vhi+bsigmoid).

(5)

其中,σ(·)為sigmoid函數(shù),W1、W2和V為可訓(xùn)練的參數(shù)矩陣,btanh和bsigmoid為偏置項(xiàng).

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)設(shè)置

漢越平行句對(duì)抽取問(wèn)題可視為二分類(lèi)問(wèn)題,因此構(gòu)建了平行句對(duì)庫(kù)和不平行句對(duì)庫(kù),規(guī)模均為10萬(wàn)對(duì).其中,平行句對(duì)庫(kù)來(lái)自于互聯(lián)網(wǎng)爬取的8萬(wàn)和亞洲語(yǔ)言樹(shù)庫(kù)(asian language treebank, ALT)提供的2萬(wàn)漢越平行句對(duì),不平行句對(duì)庫(kù)由隨機(jī)抽取于中文維基百科與越南語(yǔ)維基百科中的句子組合而成.句對(duì)庫(kù)中的每組句對(duì)后都添加了是否平行標(biāo)簽.測(cè)試集由 5 000 漢越句對(duì)組成,其中 2 500 句對(duì)為漢越平行句對(duì), 2 500 句對(duì)為不平行句對(duì).漢語(yǔ)詞性標(biāo)注采用結(jié)巴分詞工具進(jìn)行,越南語(yǔ)的詞性標(biāo)注采用VnCoreNLP工具進(jìn)行.

3.2 訓(xùn)練設(shè)置

本文使用基于Tensorflow深度學(xué)習(xí)框架所實(shí)現(xiàn)的BiRNN模型進(jìn)行實(shí)驗(yàn).BiRNN模型為單層雙向結(jié)構(gòu),使用LSTM作為基本網(wǎng)絡(luò)單元,詞向量維度設(shè)置為512,隱藏層節(jié)點(diǎn)數(shù)設(shè)置為512.前饋神經(jīng)網(wǎng)絡(luò)的隱藏層節(jié)點(diǎn)數(shù)設(shè)置為256.采用Adam作為優(yōu)化算法,學(xué)習(xí)率設(shè)置為0.002,批次大小設(shè)置為128.為了避免梯度爆炸,使用梯度剪枝,閾值設(shè)置為5.測(cè)試時(shí)利用集束搜索(beam search)算法進(jìn)行解碼,窗口寬度設(shè)置為4.

3.3 基線系統(tǒng)與評(píng)測(cè)標(biāo)準(zhǔn)

本文使用Gregoire等[17]所提方法作為基線系統(tǒng),為公平起見(jiàn),基線系統(tǒng)也采用本文得到的詞嵌入向量作為基礎(chǔ)的詞嵌入.抽取的句子質(zhì)量評(píng)測(cè)標(biāo)準(zhǔn)為準(zhǔn)確率.

3.4 候選句對(duì)篩選

真實(shí)抽取過(guò)程中,需要對(duì)可比語(yǔ)料庫(kù)中的待抽取句子進(jìn)行笛卡爾積操作,即將句子兩兩組合后輸入網(wǎng)絡(luò),通過(guò)前饋網(wǎng)絡(luò)層的sigmoid層輸出結(jié)果(0或1)來(lái)判斷是否平行.以規(guī)模為106句的可比語(yǔ)料庫(kù)為例,笛卡爾積操作后的待判斷句對(duì)數(shù)為106×106=1012,隨著句子規(guī)模的上升,帶來(lái)巨大的系統(tǒng)開(kāi)銷(xiāo).因此,本文構(gòu)建了候選句對(duì)篩選器,抽取之前,首先通過(guò)篩選器對(duì)平行概率過(guò)低的句子進(jìn)行排除.篩選器主要的過(guò)濾特征為:排除長(zhǎng)度比大于2的句對(duì);排除詞共現(xiàn)度小于50%的句對(duì);排除動(dòng)詞、名詞、形容詞和副詞數(shù)量差距大于2的句對(duì).

3.5 實(shí)驗(yàn)結(jié)果

句對(duì)抽取準(zhǔn)確度結(jié)果如表2所示,其中Ours(+P)表示在基礎(chǔ)的詞嵌入層上疊加了位置嵌入層后的結(jié)果,Ours(+POS)表示疊加詞性潛入層.可以觀察到,加入位置信息和詞性信息后,本文方法在漢越句對(duì)抽取任務(wù)上較基線系統(tǒng)提升了1.73個(gè)點(diǎn).

抽取得到的句對(duì)示例如表3所示,可以觀察到,在有易區(qū)分標(biāo)記的情況下,例如9.1%,方法抽取的句對(duì)效果較好.其他情況下則易存在一些噪聲,例如“經(jīng)常下雨”和“將迎來(lái)一輪降雨”在語(yǔ)義上有區(qū)別,但在主題(下雨)上基本保持一致.實(shí)驗(yàn)結(jié)果說(shuō)明,本文方法可以有效的從漢越可比語(yǔ)料中抽取平行句對(duì).

表2 句對(duì)抽取準(zhǔn)確度

4 總結(jié)

本文針對(duì)漢-越低資源環(huán)境下平行句對(duì)抽取效率的較低問(wèn)題,提出了一種基于句法差異的漢-越平行句對(duì)抽取方法,首先分析漢語(yǔ)和越南語(yǔ)間的句法差異,通過(guò)詞性標(biāo)簽對(duì)差異進(jìn)行表述;其次,我們利用孿生結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò),在編碼過(guò)程中融入句法差異信息,從句法規(guī)則角度更好的指導(dǎo)抽取過(guò)程.實(shí)驗(yàn)表明,本文所提方法能夠有效地基于漢越可比語(yǔ)料抽取出高質(zhì)量的漢越平行句對(duì).

猜你喜歡
句法語(yǔ)料平行
向量的平行與垂直
平行
逃離平行世界
述謂結(jié)構(gòu)與英語(yǔ)句法配置
面向低資源神經(jīng)機(jī)器翻譯的回譯方法
可比語(yǔ)料庫(kù)構(gòu)建與可比度計(jì)算研究綜述
句法二題
詩(shī)詞聯(lián)句句法梳理
再頂平行進(jìn)口
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
阳山县| 玉龙| 柘荣县| 达孜县| 鲁甸县| 新密市| 山阴县| 会东县| 德清县| 宁夏| 梧州市| 库伦旗| 仪陇县| 库车县| 威宁| 乌海市| 上犹县| 阳新县| 高台县| 明星| 固原市| 同心县| 罗江县| 谷城县| 山阴县| 镇康县| 桐城市| 土默特右旗| 珲春市| 隆尧县| 凌云县| 阿拉善盟| 陆丰市| 启东市| 丁青县| 古交市| 山东省| 宁远县| 湖北省| 鹤峰县| 商河县|