国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)述技術(shù)的漢語(yǔ)成語(yǔ)翻譯方法研究

2015-04-21 08:30陳毅東史曉東蘇勁松
中文信息學(xué)報(bào) 2015年4期
關(guān)鍵詞:漢英語(yǔ)料詞典

羅 凌,陳毅東,史曉東,蘇勁松

(1. 廈門(mén)大學(xué) 智能科學(xué)與技術(shù)系, 福建 廈門(mén) 361005;2. 廈門(mén)大學(xué) 軟件學(xué)院,福建 廈門(mén) 361005)

?

基于復(fù)述技術(shù)的漢語(yǔ)成語(yǔ)翻譯方法研究

羅 凌1,陳毅東1,史曉東1,蘇勁松2

(1. 廈門(mén)大學(xué) 智能科學(xué)與技術(shù)系, 福建 廈門(mén) 361005;2. 廈門(mén)大學(xué) 軟件學(xué)院,福建 廈門(mén) 361005)

漢語(yǔ)成語(yǔ)是漢語(yǔ)的精華,擁有特有的語(yǔ)言形式,并經(jīng)常出現(xiàn)在漢語(yǔ)中。但是由于漢英統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練語(yǔ)料中成語(yǔ)的稀疏性和現(xiàn)今大多機(jī)器翻譯系統(tǒng)并沒(méi)有對(duì)成語(yǔ)進(jìn)行特殊的處理和研究,在漢英機(jī)器翻譯中成語(yǔ)的翻譯并不理想。針對(duì)該問(wèn)題,本文提出了基于復(fù)述技術(shù)的兩種方法來(lái)提高漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中成語(yǔ)翻譯的能力。方法1: 測(cè)試集成語(yǔ)復(fù)述替換;方法2: 訓(xùn)練集成語(yǔ)復(fù)述替換。實(shí)驗(yàn)結(jié)果表明,方法1可以解決成語(yǔ)未登錄詞問(wèn)題,提高成語(yǔ)翻譯能力。方法2可以解決訓(xùn)練語(yǔ)料中成語(yǔ)稀疏問(wèn)題,改善翻譯訓(xùn)練模型。

統(tǒng)計(jì)機(jī)器翻譯;成語(yǔ)翻譯;復(fù)述

1 引言

漢語(yǔ)成語(yǔ)是漢語(yǔ)特有的語(yǔ)言形式,是一個(gè)固定短語(yǔ),一般表達(dá)一個(gè)固定的語(yǔ)義,它簡(jiǎn)短精辟,大多是約定俗成的四字結(jié)構(gòu),并且富有深刻的思想內(nèi)涵。漢語(yǔ)成語(yǔ)是漢語(yǔ)詞匯系統(tǒng)的重要組成部分,在漢語(yǔ)書(shū)面或者日常會(huì)話(huà)中經(jīng)常出現(xiàn),特別是在文學(xué)作品中尤為頻繁, 而在新聞?lì)I(lǐng)域中成語(yǔ)的使用頻率相對(duì)較低。盡管如此,經(jīng)劉長(zhǎng)征等人[1]調(diào)查,2005年全年15種報(bào)紙的語(yǔ)料共使用四字格成語(yǔ)915 533次,文本總數(shù)為591 315個(gè),平均每個(gè)文本使用成語(yǔ)1.5次。由此可見(jiàn)成語(yǔ)在漢語(yǔ)語(yǔ)句中出現(xiàn)地相當(dāng)頻繁。而在現(xiàn)今漢英統(tǒng)計(jì)機(jī)器翻譯研究中,漢語(yǔ)成語(yǔ)在統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中存在的問(wèn)題并沒(méi)有引起太多的關(guān)注,事實(shí)上,由于成語(yǔ)在翻譯訓(xùn)練語(yǔ)料中的稀疏性導(dǎo)致了翻譯系統(tǒng)對(duì)包含成語(yǔ)的句子的翻譯質(zhì)量比較糟糕。本文分別對(duì)Google在線(xiàn)機(jī)器翻譯系統(tǒng)*http://translate.google.cn/和使用開(kāi)源工具M(jìn)oses自行訓(xùn)練的短語(yǔ)機(jī)器翻譯系統(tǒng)進(jìn)

表1 成語(yǔ)翻譯出錯(cuò)實(shí)例

行了包含成語(yǔ)句子的翻譯測(cè)試,測(cè)試結(jié)果表明現(xiàn)今漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)對(duì)漢語(yǔ)成語(yǔ)這部分的翻譯還是存在不少問(wèn)題。

具體地,測(cè)試一,從成語(yǔ)詞典*http://cy.5156edu.com/中隨機(jī)抽取400條成語(yǔ),并從網(wǎng)絡(luò)上爬取包含該成語(yǔ)的句子作為測(cè)試集,對(duì)Google在線(xiàn)機(jī)器翻譯系統(tǒng)進(jìn)行測(cè)試,人工對(duì)翻譯結(jié)果進(jìn)行評(píng)測(cè),結(jié)果表明,400句測(cè)試集中,共143句成語(yǔ)翻譯存在問(wèn)題,占句子總數(shù)的35.75%;測(cè)試二,從NIST04,05,06中抽取包含成語(yǔ)的句子共352句作為使用FBIS訓(xùn)練的Moses短語(yǔ)系統(tǒng)測(cè)試集,人工對(duì)翻譯結(jié)果進(jìn)行評(píng)測(cè),結(jié)果表明,86句成語(yǔ)翻譯存在問(wèn)題,占句子總數(shù)的24.43%。根據(jù)觀察,這些問(wèn)題主要是: 第一,成語(yǔ)作為未登錄詞致使翻譯系統(tǒng)無(wú)法翻譯;第二,訓(xùn)練數(shù)據(jù)中部分成語(yǔ)比較稀疏,導(dǎo)致對(duì)齊和翻譯錯(cuò)誤。一些問(wèn)題實(shí)例可見(jiàn)表1,調(diào)查結(jié)果表明,現(xiàn)今的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)對(duì)成語(yǔ)的翻譯并不理想,并且這個(gè)問(wèn)題普遍存在。

針對(duì)該問(wèn)題,本文提出了基于復(fù)述技術(shù)的兩種方法來(lái)提高漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中漢語(yǔ)成語(yǔ)的翻譯能力,方法1: 測(cè)試集成語(yǔ)復(fù)述替換,用以解決成語(yǔ)作為未登錄詞的問(wèn)題。方法2: 訓(xùn)練集成語(yǔ)復(fù)述替換,用以解決訓(xùn)練集中成語(yǔ)稀疏問(wèn)題。

本文其他部分安排如下: 第二節(jié)闡述使用復(fù)述解決成語(yǔ)翻譯問(wèn)題的原因以及總體思路;第三節(jié)介紹如何獲取成語(yǔ)復(fù)述,并提出了復(fù)述替換選擇的方法;第四節(jié)提出了兩種將成語(yǔ)復(fù)述替換應(yīng)用到實(shí)際的漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的方法,并進(jìn)行了詳細(xì)描述;第五節(jié)給出相應(yīng)的實(shí)驗(yàn)結(jié)果及分析;第六節(jié)給出相關(guān)結(jié)論以及未來(lái)的研究方向。

2 總體思路

對(duì)于成語(yǔ)翻譯問(wèn)題首先最容易想到的解決辦法是構(gòu)建一個(gè)漢英成語(yǔ)翻譯詞典,當(dāng)待譯的語(yǔ)句中出現(xiàn)成語(yǔ)時(shí),直接通過(guò)查找詞典來(lái)進(jìn)行成語(yǔ)翻譯。

但是這樣的做法有以下三個(gè)弊端: 第一,現(xiàn)今并沒(méi)有一個(gè)公開(kāi)免費(fèi)的漢英成語(yǔ)翻譯型電子詞典,要編寫(xiě)一個(gè)這樣的漢英成語(yǔ)詞典需要大量的人力和物力;第二,詞典翻譯基本都是一對(duì)一,這樣相同的成語(yǔ)在不同句子中的翻譯都是同樣一個(gè)結(jié)果,結(jié)果單調(diào),也會(huì)影響句子的通順度;第三,如果要做漢語(yǔ)除英語(yǔ)以外其他語(yǔ)言的翻譯,那么又需要構(gòu)建其他語(yǔ)言的成語(yǔ)翻譯詞典。

在語(yǔ)言學(xué)界,漢語(yǔ)成語(yǔ)的翻譯已經(jīng)有不少研究,如果我們將語(yǔ)言學(xué)中的一些理論借鑒到機(jī)器翻譯中的成語(yǔ)翻譯問(wèn)題上,那么在很大程度上可以解決以上弊端。

從20世紀(jì)60年代起,國(guó)外已逐漸形成了較為系統(tǒng)的翻譯語(yǔ)言學(xué)理論。對(duì)等翻譯就是西方翻譯理論中的一個(gè)核心概念[2]。其中尤金奈達(dá)是西方語(yǔ)言學(xué)派翻譯理論的主要代表,提出了許多有著深遠(yuǎn)影響的翻譯理論,功能對(duì)等就是其中之一[3]。

功能對(duì)等理論主張翻譯時(shí)不求文字表面的死板對(duì)應(yīng),而要在兩種語(yǔ)言間達(dá)成功能上的對(duì)等。他強(qiáng)調(diào)譯文最基本的要求是使目標(biāo)語(yǔ)的讀者能理解和欣賞原文讀者對(duì)原文的理解和欣賞[4]。

在語(yǔ)言學(xué)界,已經(jīng)有不少研究證明了功能對(duì)等理論對(duì)漢語(yǔ)成語(yǔ)翻譯的適用性[2,5-6]。受功能對(duì)等理論的啟發(fā),我們可以在成語(yǔ)翻譯中利用自然語(yǔ)言處理領(lǐng)域中的復(fù)述技術(shù)來(lái)解決成語(yǔ)翻譯問(wèn)題。所謂復(fù)述(Paraphrases),主要是研究短語(yǔ)或者句子的同義現(xiàn)象[7]。本文使用復(fù)述來(lái)替換源語(yǔ)言端的成語(yǔ),以達(dá)到功能對(duì)等的效果,再進(jìn)行翻譯。

這種做法有三大優(yōu)點(diǎn):第一,將成語(yǔ)替換成了更常見(jiàn)的短語(yǔ),降低了翻譯難度;第二,獲取了成語(yǔ)復(fù)述庫(kù)后,對(duì)于漢語(yǔ)到其他語(yǔ)言的成語(yǔ)翻譯同樣可以進(jìn)行;第三,替換源語(yǔ)言端,翻譯結(jié)果仍依賴(lài)訓(xùn)練語(yǔ)料的統(tǒng)計(jì)結(jié)果,以致翻譯結(jié)果不至于單一。

由于復(fù)述現(xiàn)象的普遍性,在統(tǒng)計(jì)機(jī)器翻譯的各個(gè)階段復(fù)述研究已經(jīng)有著重要的應(yīng)用[8]。前人研究表明,復(fù)述可在多個(gè)方面改進(jìn)統(tǒng)計(jì)機(jī)器翻譯。首先,復(fù)述改善翻譯模型訓(xùn)練[9-12];其次,復(fù)述可以提高調(diào)參效果[13-15];再次,通過(guò)復(fù)述改寫(xiě)待譯語(yǔ)句來(lái)提高翻譯質(zhì)量,解決未登錄詞問(wèn)題[16-21];另外,復(fù)述還可以改善機(jī)器翻譯自動(dòng)評(píng)測(cè)[22-24]。

根據(jù)對(duì)等理論以及前人在機(jī)器翻譯中復(fù)述應(yīng)用的研究,本文提出了兩種基于復(fù)述技術(shù)的漢語(yǔ)成語(yǔ)翻譯方法。方法1: 測(cè)試集成語(yǔ)復(fù)述替換,將測(cè)試集中未登錄的成語(yǔ)進(jìn)行復(fù)述替換,再進(jìn)行解碼翻譯;方法2: 訓(xùn)練集成語(yǔ)復(fù)述替換,將訓(xùn)練集中分布稀疏的成語(yǔ)替換成相應(yīng)復(fù)述,改善翻譯訓(xùn)練模型。

3 成語(yǔ)復(fù)述的獲取及替換選擇

3.1 成語(yǔ)復(fù)述的獲取

要進(jìn)行成語(yǔ)復(fù)述的替換首先要構(gòu)建成語(yǔ)復(fù)述庫(kù),成語(yǔ)復(fù)述的獲取自然成為了首先要解決的問(wèn)題,它為后面的工作奠定了重要的基礎(chǔ)。近些年來(lái),復(fù)述作為自然語(yǔ)言處理的一個(gè)重要研究方向得到了學(xué)術(shù)界越來(lái)越多的重視,研究者們相繼提出了多種獲取復(fù)述的方法和模型[25-28]。本文對(duì)前人提出的最有效也最具代表性的幾種方法加以實(shí)現(xiàn)和改進(jìn)來(lái)獲取漢語(yǔ)成語(yǔ)復(fù)述,這其中包括:

方法1: 基于單語(yǔ)平行語(yǔ)料庫(kù)的成語(yǔ)復(fù)述抽取方法。

方法2: 基于雙語(yǔ)平行語(yǔ)料庫(kù)的成語(yǔ)復(fù)述抽取方法。

方法3: 基于詞典的成語(yǔ)復(fù)述抽取方法。

對(duì)于每種方法抽取出的成語(yǔ)復(fù)述,我們都進(jìn)行了人工評(píng)測(cè),并且計(jì)算了準(zhǔn)確率,本文還對(duì)每種方法的優(yōu)缺點(diǎn)進(jìn)行了分析和比較,特別注明,本文中的成語(yǔ)識(shí)別均基于在線(xiàn)詞典②中的成語(yǔ)匹配。

抽取復(fù)述短語(yǔ)的一個(gè)最直觀的想法便是從一個(gè)含有大規(guī)模復(fù)述句對(duì)的單語(yǔ)平行語(yǔ)料中提取復(fù)述短語(yǔ)。Barzilay和McKeown首先提出了利用單語(yǔ)平行語(yǔ)料獲取復(fù)述短語(yǔ)[25],他們獲得的復(fù)述對(duì)經(jīng)過(guò)人工評(píng)測(cè)準(zhǔn)確率達(dá)到85%。借鑒他們的研究,我們首先從網(wǎng)上收集了小說(shuō)《鋼鐵是怎樣煉成的》的兩本不同中文譯本。篩選出包含成語(yǔ)的句子,然后通過(guò)計(jì)算句對(duì)間同現(xiàn)詞的個(gè)數(shù)進(jìn)行句對(duì)齊,構(gòu)建平行句對(duì),總共748對(duì)。接著計(jì)算成語(yǔ)和相應(yīng)平行句中短語(yǔ)的上下文相似度,取其左右各四個(gè)詞作為上下文,最后取相似度最高的短語(yǔ)作為其復(fù)述。相似度計(jì)算均根據(jù)詞重疊率計(jì)算而得。

但由于可用的單語(yǔ)平行語(yǔ)料的規(guī)模限制以及單語(yǔ)文本類(lèi)型領(lǐng)域的限制,Bannard和Callison-Burch[27]提出了基于“樞軸法(pivot approach)”從雙語(yǔ)平行語(yǔ)料庫(kù)中抽取復(fù)述短語(yǔ),他們使用了統(tǒng)計(jì)機(jī)器翻譯的短語(yǔ)表,若采用自動(dòng)詞對(duì)齊,準(zhǔn)確率可達(dá)到64.5%。該方法的基本假設(shè)是:若兩個(gè)短語(yǔ)e1和e2對(duì)齊相同的外文翻譯短語(yǔ)f,則e1和e2便是一對(duì)復(fù)述短語(yǔ)。本文重現(xiàn)了該方法,具體地,本文使用了FBIS約20萬(wàn)句對(duì)雙語(yǔ)平行語(yǔ)料,首先經(jīng)過(guò)Giza++[29]對(duì)齊,并根據(jù)基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯方法[30]獲取了短語(yǔ)表。然后從短語(yǔ)表中查找與成語(yǔ)擁有相同外文翻譯的短語(yǔ),并取其中最大概率的短語(yǔ)作為該成語(yǔ)的復(fù)述。

由于上述兩種方法的資源比較有限,獲取的成語(yǔ)復(fù)述的數(shù)量較少,所以本文提出從成語(yǔ)詞典注釋中提取成語(yǔ)復(fù)述的方法,該方法可以得到大規(guī)模的成語(yǔ)復(fù)述?,F(xiàn)在網(wǎng)絡(luò)上電子成語(yǔ)詞典資源比較豐富并且容易獲取,經(jīng)過(guò)比較和分析,本文最終選擇在線(xiàn)成語(yǔ)詞典②用來(lái)抽取復(fù)述。該詞典與其他同類(lèi)詞典相比,收集的成語(yǔ)相對(duì)全面,現(xiàn)已經(jīng)收錄41 843條成語(yǔ),而且該詞典注釋簡(jiǎn)明扼要,更利于成語(yǔ)復(fù)述的抽取。經(jīng)過(guò)分析,本文編寫(xiě)了一些句子規(guī)則模板來(lái)從成語(yǔ)解釋中提取成語(yǔ)復(fù)述。

對(duì)于上述三種方法獲得的成語(yǔ)復(fù)述,我們都從中隨機(jī)抽出了200對(duì),進(jìn)行人工評(píng)測(cè)標(biāo)注,并計(jì)算了準(zhǔn)確率,為了更好地對(duì)每種方法加以比較,我們將各種方法使用的語(yǔ)料資源、抽取得到的成語(yǔ)復(fù)述規(guī)模及其準(zhǔn)確率進(jìn)行了總結(jié),詳見(jiàn)表2。

表2 成語(yǔ)復(fù)述獲取方法對(duì)比表

其中‘K’表示的是單位“千”

基于前人的復(fù)述抽取方法對(duì)于成語(yǔ)這個(gè)特殊短語(yǔ)來(lái)說(shuō)還是存在不少問(wèn)題。從語(yǔ)料資源獲取的難度上看,由于網(wǎng)絡(luò)上相同名著的不同漢語(yǔ)譯本比較少,基本都是同一版本,所以單語(yǔ)平行語(yǔ)料獲取的難度比雙語(yǔ)平行語(yǔ)料和成語(yǔ)詞典大得多;從獲取的成語(yǔ)復(fù)述規(guī)模來(lái)看,由于單語(yǔ)平行語(yǔ)料和雙語(yǔ)平行語(yǔ)料的規(guī)模、領(lǐng)域受限,從中獲取到的成語(yǔ)復(fù)述規(guī)模自然受限,而成語(yǔ)詞典包含了大量成語(yǔ),可以得到大規(guī)模的成語(yǔ)復(fù)述;從抽取成語(yǔ)復(fù)述結(jié)果的準(zhǔn)確率來(lái)看,由于單語(yǔ)平行語(yǔ)料中句子意思并不一定完全一致,所以獲取的成語(yǔ)復(fù)述準(zhǔn)確率比較低,雙語(yǔ)平行語(yǔ)料由于成語(yǔ)的稀疏性等問(wèn)題,導(dǎo)致成語(yǔ)對(duì)齊結(jié)果不準(zhǔn)確,由此獲得的成語(yǔ)復(fù)述準(zhǔn)確率也不高,而成語(yǔ)的解釋就是成語(yǔ)的意思,所以基于詞典方法準(zhǔn)確率可達(dá)到98.5%。

3.2 成語(yǔ)復(fù)述的替換選擇

通過(guò)上述不同方法,我們將獲取的復(fù)述整合成一個(gè)復(fù)述庫(kù)。表3展示了復(fù)述庫(kù)的一些實(shí)例。同一個(gè)成語(yǔ)可能會(huì)有多個(gè)不同的復(fù)述,這樣在進(jìn)行復(fù)述替換時(shí)就需要進(jìn)行復(fù)述選擇。

表3 成語(yǔ)復(fù)述實(shí)例

其中,1指基于單語(yǔ)平行語(yǔ)料的方法,2是基于雙語(yǔ)平行語(yǔ)料的方法,3是基于詞典的方法

通過(guò)對(duì)復(fù)述實(shí)例的觀察發(fā)現(xiàn)基于單語(yǔ)和基于雙語(yǔ)的方法抽取出來(lái)的復(fù)述基本是詞級(jí)別,而基于詞典的方法抽取出來(lái)的復(fù)述基本是短句級(jí)別。根據(jù)這些特點(diǎn)我們可以制定一些規(guī)則來(lái)進(jìn)行復(fù)述選擇。首先我們對(duì)待譯的句子進(jìn)行句法分析,然后根據(jù)句中的依存關(guān)系將成語(yǔ)進(jìn)行分類(lèi),再根據(jù)我們制定的規(guī)則進(jìn)行成語(yǔ)復(fù)述替換選擇。

由句法分析我們將成語(yǔ)分成四類(lèi): 名詞性成語(yǔ)、修飾性成語(yǔ)、動(dòng)詞性成語(yǔ)和其他成語(yǔ)。這里我們使用哈工大的依存句法分析工具LTP來(lái)進(jìn)行成語(yǔ)的分類(lèi),將滿(mǎn)足表4相應(yīng)依存關(guān)系的成語(yǔ)分到相應(yīng)的成語(yǔ)類(lèi)別中。

將成語(yǔ)進(jìn)行分類(lèi)后,我們使用如下的規(guī)則進(jìn)行復(fù)述替換選擇:

? 不選擇包含訓(xùn)練集中未登錄詞的復(fù)述。

表4 成語(yǔ)分類(lèi)規(guī)則表

? 對(duì)于動(dòng)詞性成語(yǔ)和其他成語(yǔ),我們使用基于詞典的方法抽取出來(lái)的復(fù)述。

? 對(duì)于名詞性成語(yǔ)和修飾性成語(yǔ),我們使用基于單語(yǔ)平行語(yǔ)料的方法和基于雙語(yǔ)平行語(yǔ)料的方法抽取出來(lái)的復(fù)述。如果同一個(gè)成語(yǔ)存在多個(gè)詞級(jí)別的復(fù)述時(shí),我們使用N元語(yǔ)言模型進(jìn)行打分,選取得分最高的作為該成語(yǔ)最終的復(fù)述替換。

由于基于詞典的方法抽取出來(lái)的復(fù)述多為短句級(jí)別,而且比較全面,準(zhǔn)確率也比較高,這樣適合作為獨(dú)立分句的動(dòng)詞性成語(yǔ)和其他成語(yǔ)的復(fù)述替換。而基于單語(yǔ)平行語(yǔ)料和雙語(yǔ)平行語(yǔ)料的方法抽取出來(lái)的復(fù)述基本都是詞級(jí)別,根據(jù)名詞性成語(yǔ)和修飾性成語(yǔ)在句子中充當(dāng)?shù)某煞?,詞級(jí)別的復(fù)述進(jìn)行替換比較合適。后面實(shí)驗(yàn)要進(jìn)行的成語(yǔ)復(fù)述替換選擇都是使用本節(jié)的方法。

4 漢英SMT中成語(yǔ)復(fù)述替換方法

受前人在機(jī)器翻譯中復(fù)述應(yīng)用的研究啟發(fā),針對(duì)成語(yǔ)在統(tǒng)計(jì)機(jī)器翻譯中存在的問(wèn)題,本文提出了兩種方法來(lái)提高漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中成語(yǔ)的翻譯能力,方法1: 測(cè)試集成語(yǔ)復(fù)述替換;方法2: 訓(xùn)練集成語(yǔ)復(fù)述替換。

下文將分別介紹兩種方法,包括方法的流程圖、詳細(xì)研究方法以及該方法的優(yōu)勢(shì)與不足。

4.1 方法1: 測(cè)試集成語(yǔ)復(fù)述替換

將測(cè)試集中的成語(yǔ)替換成相應(yīng)的復(fù)述,改寫(xiě)待譯語(yǔ)句,再進(jìn)行機(jī)器翻譯解碼。其流程圖如圖1所示。其中,機(jī)器翻譯訓(xùn)練部分包括獲取短語(yǔ)表和訓(xùn)練語(yǔ)言模型;解碼部分首先對(duì)待譯的測(cè)試集進(jìn)行成語(yǔ)復(fù)述的替換,然后再進(jìn)行統(tǒng)計(jì)機(jī)器翻譯解碼,得到譯文。

圖1 方法1流程圖

由于獲取的成語(yǔ)復(fù)述一般都是些常用詞匯,所以替換后可以解決未登錄詞的問(wèn)題,起到了降低翻譯難度的作用。但這樣的替換存在的缺陷是,由于沒(méi)有對(duì)替換后的句子進(jìn)行處理,在一些情況下,會(huì)影響句子的通順度。

4.2 方法2: 訓(xùn)練集成語(yǔ)復(fù)述替換

數(shù)據(jù)稀疏問(wèn)題一直是統(tǒng)計(jì)機(jī)器翻譯中的一個(gè)重要問(wèn)題,經(jīng)實(shí)驗(yàn),有一定數(shù)量的成語(yǔ)在訓(xùn)練集中比較稀疏,這對(duì)詞語(yǔ)對(duì)齊和短語(yǔ)概率計(jì)算都會(huì)有一定的影響。本文將對(duì)訓(xùn)練集中稀疏的成語(yǔ)進(jìn)行復(fù)述的替換,試圖改善模型訓(xùn)練,在解碼時(shí),為了防止產(chǎn)生未登錄詞,因此對(duì)測(cè)試集也做了相應(yīng)替換。其流程圖如圖2所示。其中,在訓(xùn)練模塊,把成語(yǔ)用它的所有

圖2 方法2流程圖

復(fù)述進(jìn)行替換,形成的句對(duì)集全部加入訓(xùn)練集(為了讓頻率不失真,我們將所有句子都統(tǒng)一放大相同倍數(shù)),得到新的訓(xùn)練語(yǔ)料,再進(jìn)行訓(xùn)練獲取短語(yǔ)表;在解碼模塊,首先對(duì)待譯的測(cè)試集做成語(yǔ)復(fù)述的選擇替換,然后再進(jìn)行解碼翻譯,得到譯文。

大部分成語(yǔ)由于稀疏性問(wèn)題在進(jìn)行詞對(duì)齊時(shí),常常會(huì)對(duì)空或者對(duì)錯(cuò),而成語(yǔ)復(fù)述大多是由常見(jiàn)的通俗詞語(yǔ)組成,經(jīng)過(guò)成語(yǔ)復(fù)述的替換,由訓(xùn)練過(guò)程來(lái)自動(dòng)選優(yōu),對(duì)詞對(duì)齊和短語(yǔ)概率計(jì)算會(huì)起到糾正作用,改善翻譯模型訓(xùn)練。

5 實(shí)驗(yàn)與討論

5.1 實(shí)驗(yàn)設(shè)置

我們把本文提出的方法應(yīng)用到實(shí)際的漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中來(lái)驗(yàn)證它們的有效性。本文實(shí)驗(yàn)中用到的系統(tǒng)都是基于開(kāi)源工具M(jìn)oses中的短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。

實(shí)驗(yàn)中我們使用的訓(xùn)練語(yǔ)料為FBIS語(yǔ)料,開(kāi)發(fā)集使用的是NIST MT 2002的測(cè)試集,測(cè)試集有使用到NIST MT 2005、NIST MT 2006的測(cè)試集,還有從NIST MT 2004~2006測(cè)試集中提取出包含成語(yǔ)的句子作為一個(gè)測(cè)試集,下面稱(chēng)作NIST-Idiom。實(shí)驗(yàn)中使用的語(yǔ)言模型是通過(guò)SRILM工具根據(jù)Gigaword語(yǔ)料訓(xùn)練出的四元語(yǔ)言模型。詞語(yǔ)對(duì)齊工具采用的是GIZA++。對(duì)于實(shí)驗(yàn)結(jié)果,我們采用大小寫(xiě)不敏感的BLEU[31]、GTM[32]、Meteor[33]和人工評(píng)測(cè)來(lái)評(píng)價(jià)翻譯質(zhì)量,其中人工評(píng)測(cè)是根據(jù)譯文結(jié)果按0~5分打分,然后將每句的得分相加除以測(cè)試集中句子總數(shù)作為該測(cè)試集譯文結(jié)果的分?jǐn)?shù),由三個(gè)不同的人打分最后取平均值作為最終分?jǐn)?shù)。表5展示了我們所用的實(shí)驗(yàn)數(shù)據(jù)。

表5 實(shí)驗(yàn)數(shù)據(jù)

其中‘K’表示的是單位“千”,‘M’表示的是單位“百萬(wàn)”

根據(jù)上一節(jié)提到的成語(yǔ)復(fù)述在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用,本文分別對(duì)方法1和方法2設(shè)置了性能測(cè)試實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果和分析將在下面詳細(xì)介紹。

5.2 方法1性能測(cè)試實(shí)驗(yàn)

由于網(wǎng)絡(luò)上漢英資源相對(duì)比較豐富,我們找到了一部英漢漢英詞典(73 003詞對(duì)),為了和利用詞典的方法進(jìn)行比較,我們?cè)O(shè)置了兩個(gè)Baseline(BL1和BL2)。BL1只用了FBIS進(jìn)行訓(xùn)練,BL2使用了FBIS和詞典資源進(jìn)行訓(xùn)練。我們將方法1在兩個(gè)Baseline上都進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)中不僅替換了測(cè)試集中的未登錄成語(yǔ),還根據(jù)成語(yǔ)在訓(xùn)練集中出現(xiàn)的次數(shù)進(jìn)行相應(yīng)的測(cè)試集成語(yǔ)復(fù)述替換對(duì)比實(shí)驗(yàn)。首先我們使用NIST05和NIST06作為測(cè)試集。但是由于NIST05和NIST06中包含成語(yǔ)的句子占整個(gè)測(cè)試集的比例太小,評(píng)測(cè)結(jié)果基本不變,表6給出了方法1在BL1上的結(jié)果,這樣的結(jié)果無(wú)法驗(yàn)證方法1的有效性。所以我們又構(gòu)建了NIST-Idiom測(cè)試集來(lái)進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果見(jiàn)表7。

表6 方法1在NIST05和NIST06上的結(jié)果

“Tn”表示將測(cè)試集里在訓(xùn)練集中出現(xiàn)次數(shù)小于等于n的成語(yǔ)替換成相應(yīng)復(fù)述。其中T0表示替換未登錄詞,TAll表示替換測(cè)試集中全部成語(yǔ)。

表7 方法1在NIST-Idiom上的結(jié)果

“Tn”表示將測(cè)試集里在訓(xùn)練集中出現(xiàn)次數(shù)小于等于n的成語(yǔ)替換成相應(yīng)復(fù)述。其中T0表示替換未登錄詞,TAll表示替換測(cè)試集中全部成語(yǔ)?!?”表示是在BL2上的實(shí)驗(yàn)結(jié)果。

從表7可以看出,無(wú)論是在BL1還是BL2上,使用方法1替換測(cè)試集中的未登錄詞,在GTM、Meteor和人工評(píng)測(cè)上都有所提升,在BLEU上略微有些下降。原因可能是BLEU方法是基于N元匹配,而替換成語(yǔ)復(fù)述后,替換部分往往會(huì)比原句長(zhǎng),導(dǎo)致得分偏低。通過(guò)對(duì)翻譯結(jié)果的查看分析發(fā)現(xiàn),盡管BL2中加入了詞典,但是該詞典包含的成語(yǔ)還是比較少,并未解決成語(yǔ)翻譯的問(wèn)題,方法1在BL2上也還是有效的。從實(shí)驗(yàn)結(jié)果還可以看出,對(duì)于訓(xùn)練集中出現(xiàn)次數(shù)小于等于10的成語(yǔ),在測(cè)試集中做相應(yīng)的替換,得到的Meteor和人工評(píng)測(cè)分?jǐn)?shù)最高。說(shuō)明方法1不僅能解決成語(yǔ)未登錄詞的問(wèn)題,還可以在一定程度上提高訓(xùn)練集中稀疏成語(yǔ)的翻譯能力。

表8展示了翻譯結(jié)果對(duì)比的一些示例,包括兩個(gè)正例和一個(gè)反例。從第一個(gè)正例來(lái)看,替換成語(yǔ)未登錄詞不僅可以解決未登錄詞無(wú)法翻譯的問(wèn)題,還對(duì)未登錄詞周邊的部分翻譯有所改進(jìn)。從第二個(gè)“1s”表示替換前的源語(yǔ)言句子,“1t”表示“1s”對(duì)應(yīng)的系統(tǒng)翻譯結(jié)果;“2s”表示成語(yǔ)復(fù)述替換后的源語(yǔ)言句子,“2t”表示“2s”對(duì)應(yīng)的系統(tǒng)翻譯結(jié)果。其中前兩個(gè)是正例,后一個(gè)是反例。

表8 方法1翻譯結(jié)果對(duì)比示例

正例可以看出,由于訓(xùn)練集中部分成語(yǔ)過(guò)于稀疏,對(duì)齊結(jié)果常常出錯(cuò)或者對(duì)空,該類(lèi)成語(yǔ)即使不是未登錄詞,也是無(wú)法正確翻譯,替換這類(lèi)成語(yǔ)可以提高其翻譯能力。但從反例可以看出,有些替換后的待譯句子并不通順或者出現(xiàn)句法錯(cuò)誤,這種情況下翻譯效果并沒(méi)有得到改善。

5.3 方法2性能測(cè)試實(shí)驗(yàn)

本實(shí)驗(yàn)將方法2用在BL1基線(xiàn)系統(tǒng)上,對(duì) NIST05、NIST06和NIST-Idiom測(cè)試集進(jìn)行測(cè)試。我們根據(jù)成語(yǔ)在訓(xùn)練集中出現(xiàn)次數(shù)來(lái)對(duì)訓(xùn)練集中該成語(yǔ)進(jìn)行復(fù)述替換,并按不同出現(xiàn)次數(shù)做了實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表9。

從表9中可以看出,盡管在不同的測(cè)試集,幾種評(píng)測(cè)方法并不完全一致,每個(gè)測(cè)試集的最佳替換效果也不是同一個(gè)頻數(shù)的替換,不過(guò)替換訓(xùn)練集中出現(xiàn)次數(shù)在20以下的成語(yǔ),在三個(gè)測(cè)試集上的翻譯結(jié)“Rn”表示將訓(xùn)練集中出現(xiàn)次數(shù)小于等于n的成語(yǔ)替換成相應(yīng)的成語(yǔ)復(fù)述。其中RAll表示替換訓(xùn)練集中全部成語(yǔ)。BL2是加入詞典資源的基線(xiàn)系統(tǒng)。

表9 方法2在NIST05、NIST06和NIST-Idioms上的結(jié)果

果相比基線(xiàn)系統(tǒng)各項(xiàng)指標(biāo)上都有所提高。和加入詞典資源的BL2相比,方法2在測(cè)試集上的最佳效果要優(yōu)于BL2。

對(duì)比方法2和方法1,方法2從訓(xùn)練集角度改善了翻譯模型訓(xùn)練,提高了模型的翻譯質(zhì)量,方法1從測(cè)試集的角度解決了未登錄成語(yǔ)的翻譯,在NIST-Idiom測(cè)試集上,方法2在自動(dòng)評(píng)測(cè)方法的優(yōu)勢(shì)比方法1大,方法1在人工評(píng)測(cè)上會(huì)有更大的優(yōu)勢(shì)。

實(shí)驗(yàn)結(jié)果表明,將訓(xùn)練集中出現(xiàn)次數(shù)較少的成語(yǔ)替換成其復(fù)述,使其轉(zhuǎn)換成了較常見(jiàn)的詞語(yǔ)組合,對(duì)詞對(duì)齊和短語(yǔ)計(jì)算概率有所影響,可以改善翻譯模型訓(xùn)練。相比之下,替換出現(xiàn)次數(shù)較高的成語(yǔ),翻譯結(jié)果概率相比基線(xiàn)系統(tǒng)有所下降,說(shuō)明出現(xiàn)次數(shù)較高的成語(yǔ)在訓(xùn)練時(shí)大多已經(jīng)能形成正確的對(duì)齊,而替換后產(chǎn)生了噪聲,反而影響了翻譯效果。

6 結(jié)論與未來(lái)工作

本文針對(duì)漢英統(tǒng)計(jì)機(jī)器翻譯中成語(yǔ)翻譯存在的問(wèn)題,引入了復(fù)述的方法,根據(jù)獲取復(fù)述的特點(diǎn)提出了復(fù)述替換擇優(yōu)的方法,并分別應(yīng)用在漢英統(tǒng)計(jì)機(jī)器翻譯測(cè)試集和訓(xùn)練集中,來(lái)改善成語(yǔ)翻譯問(wèn)題。實(shí)驗(yàn)結(jié)果表明,利用復(fù)述技術(shù)能夠有效提高漢英統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中的成語(yǔ)翻譯質(zhì)量。

由于現(xiàn)在基于詞典的成語(yǔ)復(fù)述抽取獲取的復(fù)述大多是短句級(jí)別,比較難擴(kuò)展,并且其他方法獲取的成語(yǔ)復(fù)述又很少,所以現(xiàn)在的成語(yǔ)復(fù)述庫(kù)比較單一,使得在復(fù)述替換時(shí)并沒(méi)有較多的復(fù)述進(jìn)行選擇。在未來(lái)的研究工作中,我們將研究如何改進(jìn)基于詞典的成語(yǔ)復(fù)述抽取,使該方法抽取的成語(yǔ)復(fù)述更為簡(jiǎn)潔扼要,這樣就可以使用一些基于語(yǔ)義的方法來(lái)擴(kuò)展成語(yǔ)復(fù)述,使其更加豐富而不至于單一。同時(shí),在成語(yǔ)復(fù)述的應(yīng)用研究中,除了在機(jī)器翻譯中的應(yīng)用,如何在自然語(yǔ)言處理其他領(lǐng)域有更好的應(yīng)用,也是我們下一步研究的方向。

[1] 劉長(zhǎng)征,秦鵬. 基于中國(guó)主流報(bào)紙動(dòng)態(tài)流通語(yǔ)料庫(kù)(DCC)的成語(yǔ)使用情況調(diào)查[J]. 語(yǔ)言文字應(yīng)用,2007, 8(3): 78-86.

[2] 衡孝軍. 從社會(huì)符號(hào)學(xué)翻譯法看漢語(yǔ)成語(yǔ)英譯過(guò)程中的功能對(duì)等[J]. 中國(guó)翻譯,2003,24(4): 23-25.

[3] 譚載喜. 新編奈達(dá)論翻譯[M]. 北京: 中國(guó)對(duì)外翻譯出版公司,1999.

[4] Eugene A Nida. Language, Culture and Translating[M]. Shanghai: Shanghai Foregin Language Education Press,1999.

[5] 謝媛媛. 功能對(duì)等和漢語(yǔ)成語(yǔ)翻譯[J]. 安徽農(nóng)業(yè)大學(xué)學(xué)報(bào),2007,16(2): 137-139.

[6] 王俊義. “功能對(duì)等”理論對(duì)成語(yǔ)翻譯的適用性[J]. 河北理工學(xué)院學(xué)報(bào),2001,1(3): 87-89.

[7] 劉挺,李維剛,張宇,等. 復(fù)述技術(shù)研究綜述[J]. 中文信息學(xué)報(bào),2006,20(4): 25-32.

[8] 胡金銘,史曉東,蘇勁松,等. 引入復(fù)述技術(shù)的統(tǒng)計(jì)機(jī)器翻譯研究綜述[J]. 智能系統(tǒng)學(xué)報(bào),2013,8(3): 199-207.

[9] F Bond,E Nichols,DS Appling,et al. Improving statistical machine translation by paraphrasing the training data[C]//Proceedings of the International Workshop on Spoken Language Translation. Waikiki,USA,2008: 150-157.

[10] P Nakov. Improved statistical machine translation using monolingual paraphrases[C]//Proceedings of the 18th Biennial European Conference on Artificial Intelligence. Patras,Greece,2008: 338-342.

[11] R Kuhn,B Chen,G Foster,et al. Phrase clustering for smoothing TM probabilities-or,how to extract paraphrases from phrase tables[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Beijing,China,2010: 608-616.

[12] A Max. Example-based paraphrasing for improved phrase based statistical machine translation[C]//Proceedings of the 2010 Conference in Empirical Methods in Natural Language Processing. MIT,USA,2010: 656-666.

[13] N Madnani,NF Ayan,P Resnik,et al. Using paraphrases for parameter tuning in statistical machine translation[C]//Proceedings of the Second Workshop on Statistical Machine Translation. Prague,The Czech Republic,2007: 120-127.

[14] N Madnani,P Resnik,BJ Dorr,et al. Are multiple reference translations necessary? Investigating the value of paraphrased reference translations in parameter optimization[C]//Proceedings of the 8th Conference of the Association for Machine Translation in the Americas,Waikiki,USA,2008: 993-1000.

[15] N Madnani,BJ Dorr. Generating targeted paraphrases for improved translation[J]. ACM Transactions on Intelligent Systems and Technology,2013,4(3): 1-26.

[16] T Mitamura,E Nyberg. Automatic rewriting for controlled language translation[C]//Proceedings of the NLPRS 2002 Workship on Automatioc Paraphrasing: Theories and Applications,Tokyo,Japan,2001: 1-12.

[17] K Yamamoto. Machine translation by interaction between paraphraser and transfer[C]//Proceedings of the 19th International Conference on Computational Linguistics,Taipei,China,2002: 1107-1113.

[18] Y Zhang,K Yamamoto. Paraphrasing of Chinese utterances[C]//Proceedings of the 19th International Conference on Computational Linguistics,Taipei,China,2002: 1163-1169.

[19] M Shimohata,E Sumita,Y Matsumoto. Building a paraphrase corpus for speech translation [C]//Proceedings of the 4th International Conference on Language Resources and Evaluation,Lisbon, Portugal,2004: 1407-1410.

[20] T Onishi,M Utiyama,E Sumita. Paraphrase lattice for statistical machine translation [C]//Proceedings of the ACL 2010 Conference Short Papres,Uppsala,Sweden,2010: 1-5.

[21] J Du,J Jiang,A Way. Facilitating translation using source language paraphrase lattices[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing,MIT,USA,2010: 420-429.

[22] Y Lepage,E Denoual. Automatic generation of paraphrases to be used as translation references in objective evaluation measures of machine translation[C]//Proceedings of the 2nd International Joint Conference on Natural Language Processing,Jeju Island,Korea,2005: 57-64.

[23] L Zhou,CY Lin,E Hovy. Re-evaluating machine translation results with paraphrase support[C]//Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,Sydney,Australia,2006: 77-84.

[24] G Russo-Lassner,J Lin,P Resnik. A paraphrased- based approach to machine translation evaluation[R]. College Park,USA: University of Maryland,2005.

[25] R Barzilay,K R McKeown. Extracting Paraphrases from a Parallel Corpus[C]//Proceedings of ACL/EACL. 2001:: 50-57.

[26] 李維剛,劉挺,李生. 基于雙語(yǔ)語(yǔ)料庫(kù)的短語(yǔ)復(fù)述實(shí)例獲取[J]. 中文信息學(xué)報(bào),2007,21(5): 112-117.

[27] C Bannard,C Callison-Burch. Paraphraseing with Bilingual Paraller Corpora[C]//Proceedings of ACL,2005: 597-604.

[28] R Higashinaka,K Nagao. Interactive Paraphrasing Based on Linguistic Annotation[C]//Proceedings of COLING,2002: 1218-1222.

[29] Franz Josef Och,Hermann Ney. Improved statistical alignment models[C]//Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics,Hong Kong,2000: 440-447.

[30] Philipp Koehn,F(xiàn)ranz Josef Och,,Daniel Marcu. Statistical phrase-based translation[C]//Proceedings of HLT-NAACL,2003: 127-133.

[31] Kishore Papineni,Salim Roukos,Todd Ward. BLEU: a Method for Automatic Evaluation of Machine Translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,Philadelphia,2002: 311-318.

[32] Joseph P.Turian,Luke Shen,I Dan Melamed. Evaluation of Machine Translation and its Evaluation[C]//Proceedings of MT Summit IX,New Orleans,LA. 2003: 386-393.

[33] Satanjeev Banerjee,Alon Lavie. METEOR: An automatic metric for MT evaluation with improved correlation with human judgement[C]//Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43th Annual Meeting of the Association of Computational Linguistics, Ann Arbor, Michigan, 2005: 65-72.

Chinese Idiom Translation Based on Paraphrasing

LUO Ling1, CHEN Yidong1*, SHI Xiaodong1, SU Jinsong2

(1. Cognitive Science Department, Xiamen University, Xiamen, Fujian 361005, China;2. Software School, Xiamen University, Xiamen, Fujian 361005, China)

Chinese idioms are frequently used in all kinds of Chinese texts. However, since Chinese idioms are relatively sparse in most training corpora for Chinese-English SMT systems, translation quality of the idioms are not satisfactory. And to the best of our knowledge, there is very little research on handling the translation of Chinese idioms. This paper proposes two methods to improve the translation of Chinese idioms by paraphrases in Chinese-English SMT. In the first method, we paraphrase the Chinese idioms in the test set, while in the second method, we paraphrase the Chinese idioms in the training set. The experimental results show that both methods could significantly improve the performance of the Chinese-English SMT system.

statistical machine translation; idioms; paraphrases

羅凌(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與機(jī)器翻譯。E-mail:robert_ai_xmu@163.com陳毅東(1977—)博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與機(jī)器翻譯。E-mail:ydchen@xmu.edu.cn史曉東(1966—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與機(jī)器翻譯。E-mail:mandel@xmu.edu.cn

1003-0077(2015)04-0166-09

2013-08-15 定稿日期: 2014-03-13

國(guó)家自然科學(xué)基金(61005052);國(guó)家科技支撐計(jì)劃(2012BAH14F03);中央高校基本科研業(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金(2010121068);福建省自然科學(xué)基金(2011J01369)

TP

A

猜你喜歡
漢英語(yǔ)料詞典
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱(chēng)漢英對(duì)照詞表
米蘭·昆德拉的A-Z詞典(節(jié)選)
米沃什詞典
詞典引發(fā)的政治辯論由來(lái)已久 精讀
對(duì)外漢語(yǔ)教學(xué)領(lǐng)域可比語(yǔ)料庫(kù)的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語(yǔ)義標(biāo)注及應(yīng)用研究為例
漢英中型語(yǔ)文詞典義項(xiàng)精細(xì)度對(duì)比研究
汽車(chē)德漢英圖解詞典(五)
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
漫畫(huà)詞典
浦江县| 阜平县| 芜湖市| 潢川县| 辽源市| 临洮县| 余姚市| 郁南县| 海淀区| 望江县| 奉节县| 子洲县| 寿阳县| 淳安县| 卢氏县| 泗水县| 莱阳市| 镇平县| 金寨县| 平阳县| 二连浩特市| 岗巴县| 鹤庆县| 嘉黎县| 常宁市| 云和县| 晋城| 尼玛县| 江西省| 同德县| 湖北省| 深水埗区| 增城市| 广平县| 福建省| 左贡县| 明光市| 宁乡县| 赣州市| 阿鲁科尔沁旗| 克山县|