国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨語(yǔ)言語(yǔ)料的漢泰詞分布表示*

2016-01-26 06:48:47張金鵬,周蘭江,線巖團(tuán)

?

基于跨語(yǔ)言語(yǔ)料的漢泰詞分布表示*

通信地址:650500 云南省昆明市昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院Address:School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,Yunnan,P.R.China

張金鵬1,2,周蘭江1,2,線巖團(tuán)1,2,余正濤1,2,何思蘭3

(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;

2.昆明理工大學(xué)智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500;3.昆明理工大學(xué)理學(xué)院,云南 昆明 650500)

摘要:詞匯的表示問(wèn)題是自然語(yǔ)言處理的基礎(chǔ)研究?jī)?nèi)容。目前單語(yǔ)詞匯分布表示已經(jīng)在一些自然語(yǔ)言處理問(wèn)題上取得很好的應(yīng)用效果,然而在跨語(yǔ)言詞匯的分布表示上國(guó)內(nèi)外研究很少,針對(duì)這個(gè)問(wèn)題,利用兩種語(yǔ)言名詞、動(dòng)詞分布的相似性,通過(guò)弱監(jiān)督學(xué)習(xí)擴(kuò)展等方式在中文語(yǔ)料中嵌入泰語(yǔ)的互譯詞、同類(lèi)詞、上義詞等,學(xué)習(xí)出泰語(yǔ)詞在漢泰跨語(yǔ)言環(huán)境下的分布。實(shí)驗(yàn)基于學(xué)習(xí)到的跨語(yǔ)言詞匯分布表示應(yīng)用于雙語(yǔ)文本相似度計(jì)算和漢泰混合語(yǔ)料集文本分類(lèi),均取得較好效果。

關(guān)鍵詞:弱監(jiān)督學(xué)習(xí)擴(kuò)展;跨語(yǔ)言語(yǔ)料;跨語(yǔ)言詞匯分布表示;神經(jīng)概率語(yǔ)言模型

1引言

詞匯表征問(wèn)題是自然語(yǔ)言處理的重要內(nèi)容,是信息檢索、數(shù)據(jù)挖掘、知識(shí)圖譜構(gòu)建等研究方向的重要技術(shù)支持?;诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的詞匯表征方法的目標(biāo)是從自然語(yǔ)言文本中學(xué)習(xí)出詞序列的概率表示函數(shù),其面臨的一個(gè)困難在于詞向量的維度災(zāi)難與數(shù)據(jù)稀疏問(wèn)題[1],在訓(xùn)練的過(guò)程中每一個(gè)詞序列與其它訓(xùn)練語(yǔ)料中的詞序列在離散空間表示時(shí)有很大的不同。在單語(yǔ)詞匯的空間表示過(guò)程中,一個(gè)傳統(tǒng)但有效的方法是n元語(yǔ)法模型,它通過(guò)學(xué)習(xí)目標(biāo)詞匯一個(gè)短的窗口信息來(lái)預(yù)測(cè)目標(biāo)詞匯出現(xiàn)的概率。它的缺點(diǎn)在于不能反映窗口以外的詞對(duì)序列生成概率的影響及相似詞序列的分布概率的相似性[2]。BengioY等人[2]在2001年提出的神經(jīng)概率語(yǔ)言模型在單語(yǔ)環(huán)境中較好地解決了這個(gè)問(wèn)題。神經(jīng)概率語(yǔ)言模型通過(guò)從自然語(yǔ)言文本中獲取句法語(yǔ)義信息學(xué)習(xí)出詞語(yǔ)的分布表示特征,對(duì)相似的詞序列有相似詞分布,CollobertR等[3]驗(yàn)證了詞分布能很好地應(yīng)用于詞性標(biāo)注、命名實(shí)體識(shí)別、語(yǔ)義角色標(biāo)注等自然語(yǔ)言問(wèn)題。雖然單語(yǔ)詞匯分布表示上取得了不錯(cuò)的效果,但在跨語(yǔ)言自然語(yǔ)言處理領(lǐng)域的國(guó)內(nèi)外研究稀少,目前主要有兩種方法:第一種是遷移學(xué)習(xí)[4~7],該方法將標(biāo)記學(xué)習(xí)信息從一種語(yǔ)言遷移到另一種語(yǔ)言,使得資源較少的語(yǔ)言獲得較好的處理效果。ZemanD等[4]在跨語(yǔ)言句法樹(shù)庫(kù)建設(shè)上驗(yàn)證了該方法,但該方法有較大的局限性,其效果直接依賴(lài)于知識(shí)轉(zhuǎn)移的過(guò)程,不同的跨語(yǔ)言自然語(yǔ)言處理任務(wù)有不同的遷移方法。第二種方法將兩種語(yǔ)言轉(zhuǎn)化為其中一種語(yǔ)言或第三方語(yǔ)言上,用一種語(yǔ)言表達(dá)跨語(yǔ)言信息[8~10]。SteinbergerR等[8]在跨語(yǔ)言文本相似度計(jì)算上應(yīng)用了該方法。但這些方法無(wú)一例外依賴(lài)已有的雙語(yǔ)翻譯概念詞典(如WordNet)的質(zhì)量或統(tǒng)計(jì)語(yǔ)料共現(xiàn)信息來(lái)計(jì)算跨語(yǔ)言詞之間的相似度,需要解決譯詞歧義問(wèn)題,過(guò)程復(fù)雜,效果有限。

以上方法在處理跨語(yǔ)言自然處理問(wèn)題上都取得了一定的效果,但都存在可移植性不強(qiáng)、算法過(guò)程復(fù)雜、準(zhǔn)確性存在提升空間的缺點(diǎn)。目前,主流的文本層面分析方法只考察名詞、動(dòng)詞的分布特征,借鑒這一思想,本文針對(duì)以上存在的問(wèn)題分析漢語(yǔ)、泰語(yǔ)名詞、動(dòng)詞的分布相似性,將泰語(yǔ)名詞、動(dòng)詞看做漢語(yǔ)名詞、動(dòng)詞,將泰語(yǔ)詞嵌入到漢語(yǔ)語(yǔ)料中,生成漢泰跨語(yǔ)言詞匯序列語(yǔ)料,通過(guò)神經(jīng)概率語(yǔ)言模型學(xué)習(xí)泰語(yǔ)名詞、動(dòng)詞在跨語(yǔ)言空間中的分布。通過(guò)這種方式將在跨語(yǔ)言語(yǔ)料中學(xué)習(xí)得到的漢泰跨語(yǔ)言詞向量分布表示,直接應(yīng)用到泰語(yǔ)文本,解決泰語(yǔ)學(xué)習(xí)語(yǔ)料資源缺少和跨語(yǔ)言文本分析問(wèn)題。本文基于漢語(yǔ)、泰語(yǔ)跨語(yǔ)言文本分類(lèi)和文本相似度實(shí)驗(yàn),驗(yàn)證了漢語(yǔ)、泰語(yǔ)跨語(yǔ)言詞匯分布表示的效果。

本文第2節(jié)介紹了神經(jīng)概率語(yǔ)言模型,第 3節(jié)介紹了漢語(yǔ)泰語(yǔ)跨語(yǔ)言語(yǔ)料生成方法,第4節(jié)對(duì)本文的方法進(jìn)行了測(cè)試與評(píng)價(jià)。

2神經(jīng)概率語(yǔ)言模型

神經(jīng)概率語(yǔ)言模型[2]由BengioY等人于2003年第一次提出,基于人工神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)一種語(yǔ)言的詞匯序列的聯(lián)合概率函數(shù),目前已經(jīng)在自然語(yǔ)言處理各個(gè)領(lǐng)域得到了廣泛應(yīng)用,并取得不錯(cuò)的效果。該模型同時(shí)學(xué)習(xí)每個(gè)詞的分布和表示詞序列的概率函數(shù)。模型可以得到泛化是因?yàn)橐粋€(gè)從未出現(xiàn)的詞序列,如果它是由與它相似的詞(在其附近的一個(gè)代表性的意義上)組成過(guò)已經(jīng)出現(xiàn)的句子的話,那么它獲得較高的概率。它有效地解決了詞典向量語(yǔ)言空間的維度災(zāi)難與數(shù)據(jù)稀疏問(wèn)題,同時(shí)解決了n元語(yǔ)法模型不能解決的分布相似問(wèn)題,從而相比詞典向量及n元語(yǔ)法模型可更好地表示詞匯的分布。

神經(jīng)概率語(yǔ)言模型的描述如下:

通過(guò)給定的詞序列w1,…,wt,其中wt∈V,V代表目標(biāo)語(yǔ)言所有的詞匯集,V雖然很大但有限,神經(jīng)語(yǔ)言模型的目標(biāo)是要學(xué)到一個(gè)好的函數(shù)來(lái)估計(jì)詞匯的條件概率:

(1)

公式(1)包括兩個(gè)過(guò)程:

(1)首先構(gòu)建映射C將詞匯集V中的任意元素映射到詞的特征向量C(i) ∈Rd,它代表關(guān)聯(lián)詞表中詞的分布特征向量,d代表特征向量的維度。實(shí)驗(yàn)中被表示為|V|*d的自由參數(shù)矩陣。

(2)

f由以上映射C與g組合而成,這兩個(gè)映射都關(guān)聯(lián)一些參數(shù)。映射C的參數(shù)就是特征向量本身,被表示成一個(gè)|V|*d的矩陣C,C的第i行是詞i的特征向量。函數(shù)g可由前饋神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。式(2)表明函數(shù)f通過(guò)上下文詞來(lái)預(yù)測(cè)詞表中第i個(gè)詞最終轉(zhuǎn)化為函數(shù)g通過(guò)上下文詞的分布特征向量來(lái)預(yù)測(cè)第i個(gè)詞的分布。

3漢泰跨語(yǔ)言詞分布表示

3.1 漢語(yǔ)與泰語(yǔ)的詞序列分布特點(diǎn)

漢語(yǔ)與泰語(yǔ)有較大程度的相似性,它們?cè)谡Z(yǔ)法上有很多共同點(diǎn)。例如針對(duì)同一句話:漢語(yǔ)的句法結(jié)構(gòu)為(+定語(yǔ))主語(yǔ)+(+狀語(yǔ))謂語(yǔ)+(+定語(yǔ))賓語(yǔ)(+補(bǔ)語(yǔ));而泰語(yǔ)的句法結(jié)構(gòu)為主語(yǔ)(+定語(yǔ))+謂語(yǔ)+賓語(yǔ)(+定語(yǔ))(+狀語(yǔ)或補(bǔ)語(yǔ)),兩種句子的主干:主謂賓序列關(guān)系完全一致,主要差異體現(xiàn)在泰語(yǔ)的定語(yǔ)、狀語(yǔ)必須放在中心詞之后,而漢語(yǔ)的定語(yǔ)、狀語(yǔ)必須放在中心詞之前。從句子的組成來(lái)講,主干反映句子的主要內(nèi)容,定狀補(bǔ)是枝葉成分可有可無(wú),兩種語(yǔ)言主干主謂賓成分是完全一致的,主謂賓對(duì)應(yīng)詞性中的名詞、動(dòng)詞,兩者句子主干結(jié)構(gòu)一致。兩種語(yǔ)言名詞、動(dòng)詞的詞序列的分布也應(yīng)該是有相似性的。

正是由于漢語(yǔ)與泰語(yǔ)在以上句子詞序列上的主干相似性決定在同一分布空間下用相同維度向量表征名詞、動(dòng)詞的分布成為可能,在自然語(yǔ)言處理中,文本分析只考察名詞、動(dòng)詞,解決了名詞、動(dòng)詞的跨語(yǔ)言詞分布問(wèn)題也就解決了跨語(yǔ)言文本分析問(wèn)題。

我們的目標(biāo)旨在忽略中泰兩種語(yǔ)言的差異,將泰語(yǔ)名詞、動(dòng)詞看做漢語(yǔ)名詞、動(dòng)詞,在漢語(yǔ)的語(yǔ)言環(huán)境下學(xué)習(xí)它們的分布,從而使較為成熟的漢語(yǔ)的文本分析方法可以直接應(yīng)用在泰語(yǔ)文本上。

3.2 平行語(yǔ)料預(yù)處理

我們選取從中國(guó)廣播電臺(tái)獲取并人工校正得到平行句對(duì)10 216對(duì)。盡管原始文本包含所有的文本信息,但是目前的自然語(yǔ)言處理技術(shù)無(wú)法完全處理這些文本信息,因此,需要對(duì)文本進(jìn)行預(yù)處理。傳統(tǒng)的文本預(yù)處理主要是去除停用詞,如“的”“地”等。由于本文的方法需要對(duì)詞的序列分布進(jìn)行學(xué)習(xí),所以我們沒(méi)有去除停用詞,但我們將一些與漢泰文本內(nèi)容無(wú)關(guān)的符號(hào)(“#、*”等)、無(wú)意義數(shù)字去除,并將一些人名等轉(zhuǎn)化為統(tǒng)一的符號(hào),避免因?yàn)槿嗣淖兓斐蓪?duì)詞序列分布學(xué)習(xí)的影響,減少噪聲干擾。

3.3 平行語(yǔ)料詞對(duì)齊

我們將以上處理后的平行語(yǔ)料輸入GIZA++[11]中,實(shí)現(xiàn)漢泰雙語(yǔ)詞對(duì)齊。GIZA++是包含IBM1-5訓(xùn)練模型及隱馬爾可夫模型的統(tǒng)計(jì)機(jī)器學(xué)習(xí)工具包。GIZA++有幾種詞對(duì)齊啟發(fā)式算法,我們主要使用交叉啟發(fā)式算法,通過(guò)運(yùn)行從漢語(yǔ)映射到泰語(yǔ)及從泰語(yǔ)映射到漢語(yǔ)兩個(gè)方向來(lái)獲取對(duì)齊詞對(duì)。我們只考慮在兩個(gè)方向都有的對(duì)齊詞對(duì)。通過(guò)詞對(duì)齊我們可以獲取一個(gè)詞語(yǔ)在平行語(yǔ)料中相應(yīng)的跨語(yǔ)言翻譯詞。

例句:

(1)今天/0 下午/1 我們/2 要/3 打/4 籃球/5

3.4 泰語(yǔ)詞與漢語(yǔ)詞相似關(guān)系替換

Figure 1 Word distribution example with word sequence similarity圖1 詞序列相似詞分布示例

雖然通過(guò)WordNet可以考察漢語(yǔ)詞與泰語(yǔ)詞之間的語(yǔ)義關(guān)系對(duì)齊,但我們將語(yǔ)義詞對(duì)齊泛化為更一般的情況,在自然語(yǔ)言詞的序列分布中,只要是相似的語(yǔ)法語(yǔ)義角色就會(huì)有相似的詞序列分布,即詞相似則詞在自然語(yǔ)言文本的詞序列中的分布也相似。例如有以下實(shí)例集:(1)很多游客在麗江品嘗麗江粑粑。(2)幾個(gè)姑娘在樹(shù)下享用普洱茶。(3)一群男人在河邊吃酸角。對(duì)以上三個(gè)實(shí)例可以進(jìn)行如圖1所示的轉(zhuǎn)化。

從圖1的三個(gè)實(shí)例句的成分可以看出,量詞“很多、一群、幾個(gè)”在句子集中可以相互替換位置,替換后它們各個(gè)句子的詞序列聯(lián)合概率分布仍是相似的。反映在神經(jīng)概率語(yǔ)言模型中條件概率表達(dá)為:

P(很多|游客,在,麗江,品嘗,麗江粑粑)≈P(幾個(gè)|姑娘,在,樹(shù)下,享用,普洱茶)≈P(一群|男人,在,河邊,吃,酸角)

同理,主語(yǔ)“姑娘、男人、游客”,狀語(yǔ)“麗江、樹(shù)下、河邊”,動(dòng)詞“吃、品嘗、享用”,賓語(yǔ)“酸角、麗江粑粑、普洱茶”都可以相互替換。替換過(guò)之后的句子詞序列聯(lián)合概率分布仍與原句子序列聯(lián)合概率分布相似,即兩個(gè)句子在神經(jīng)概率語(yǔ)言模型空間上的分布表示向量夾角余弦值接近于1或者歐氏距離較小。表達(dá)為如下公式:

V(很多|游客,在,麗江,品嘗,麗江粑粑)≈V(一群|姑娘,在,河邊,享用,酸角)

由于在平行句對(duì)中,與每句泰語(yǔ)平行對(duì)齊的漢語(yǔ)句子是其譯句,如果泰語(yǔ)句子中的泰語(yǔ)詞匯“thwordi”對(duì)應(yīng)的漢語(yǔ)譯句中的漢語(yǔ)詞“chwordi”,而漢語(yǔ)詞“chwordi”與其他漢語(yǔ)詞“chwordj”存在上例所說(shuō)的相似對(duì)齊,我們認(rèn)為泰語(yǔ)詞“thwordi”與漢語(yǔ)詞“chwordj”相似分布對(duì)齊。我們將“thwordi”與“chwordj”的這種對(duì)齊方式在本文中定義為原理1。

在神經(jīng)概率語(yǔ)言模型中,相近的詞序列會(huì)有相近的分布概率表示,由于模型的平滑性,分布的微小改變會(huì)造成詞的預(yù)測(cè)概率的微小改變,同時(shí)訓(xùn)練語(yǔ)料中任何一個(gè)實(shí)例句子的詞的出現(xiàn)不僅會(huì)影響這個(gè)詞所在句子的聯(lián)合概率分布,也會(huì)影響到所有相似(鄰近)實(shí)例句子的聯(lián)合概率分布[12]。例如,有以下三個(gè)實(shí)例句:

(1)很多游客在麗江喜歡品嘗麗江粑粑。

(2)游客在麗江喜歡品嘗麗江粑粑。

(3)很多游客在麗江品嘗麗江粑粑。

“游客”這個(gè)詞在實(shí)例句(1)中的分布概率改變會(huì)影響到游客在實(shí)例(2)、(3)中的分布概率表示。即“游客”這個(gè)詞在實(shí)例(1)~(3)中也是詞序列中分布概率表示相似的。實(shí)例(1)~(3)中的任何一個(gè)在訓(xùn)練語(yǔ)料中的詞序列變化都會(huì)影響到其余兩個(gè)實(shí)例最后的概率分布表示。我們認(rèn)為實(shí)例(1)中的“游客”跟實(shí)例(2)、(3)中的“游客”是相似的。因此,如果泰語(yǔ)句子對(duì)應(yīng)的漢語(yǔ)譯句為實(shí)例(1),泰語(yǔ)詞“thwordi”對(duì)應(yīng)實(shí)例(1)中的游客,則“thwordi”與實(shí)例(2)、(3)中的“游客”一詞也為相似分布對(duì)齊。我們?cè)诒疚闹卸x這個(gè)原理為原理2。

基于神經(jīng)概率語(yǔ)言模型的原理1與原理2,我們通過(guò)3.3節(jié)的工作可以獲得泰語(yǔ)句子中的每個(gè)泰語(yǔ)詞“thowrdi”對(duì)應(yīng)的漢語(yǔ)譯句對(duì)應(yīng)的漢語(yǔ)詞“chwordi”。我們將已經(jīng)通過(guò)神經(jīng)概率語(yǔ)言模型對(duì)平行句對(duì)中的漢語(yǔ)句子語(yǔ)料集進(jìn)行訓(xùn)練得到每個(gè)詞在漢語(yǔ)語(yǔ)料中的分布表示。如果泰語(yǔ)實(shí)例句中的泰語(yǔ)詞“thwordi”對(duì)應(yīng)的漢語(yǔ)詞“chwordi”的分布表示與其他漢語(yǔ)詞“chwordj”的分布表示相近,我們就認(rèn)為“thwordi”與“chwordj”在神經(jīng)概率語(yǔ)言模型中相似分布對(duì)齊(即它們扮演相似的語(yǔ)法語(yǔ)義角色)。我們把“chwordj”與“thowrdi”的這種相似傳播過(guò)程稱(chēng)為相似傳遞。

遍歷語(yǔ)料中所有漢語(yǔ)句子,本文通過(guò)相似傳遞統(tǒng)計(jì)出每個(gè)泰語(yǔ)詞“thwordi”與其它漢語(yǔ)詞“chwordj”(“chwordj”不為“thwordi”的互譯詞)的相似對(duì)齊實(shí)例。我們通過(guò)泰語(yǔ)詞“thwordi”與滿足相似對(duì)齊的其它漢語(yǔ)詞“chwordj”,在漢語(yǔ)實(shí)例中相應(yīng)位置的“chwordj”替換為泰語(yǔ)詞“thwordi”生成新的實(shí)例,對(duì)語(yǔ)料中的每個(gè)泰語(yǔ)名詞、動(dòng)詞重復(fù)以上過(guò)程,直到所有泰語(yǔ)名詞、動(dòng)詞都嵌入它們?cè)跐h語(yǔ)實(shí)例中應(yīng)有的位置,這個(gè)過(guò)程中我們不考慮已經(jīng)在3.3節(jié)中計(jì)算過(guò)的互譯對(duì)齊詞。如果泰語(yǔ)詞與漢語(yǔ)詞之間的替換衍生實(shí)例越多,則說(shuō)明它們之間的相似程度越高,最后通過(guò)神經(jīng)概率語(yǔ)言模型學(xué)習(xí)到的詞分布越接近。

我們將衍生實(shí)例與漢語(yǔ)實(shí)例一同作為學(xué)習(xí)語(yǔ)料進(jìn)行學(xué)習(xí),因?yàn)橥ㄟ^(guò)衍生實(shí)例我們可以學(xué)習(xí)到泰語(yǔ)名詞、動(dòng)詞在漢語(yǔ)語(yǔ)言環(huán)境下應(yīng)有的詞分布。通過(guò)這個(gè)過(guò)程使?jié)h語(yǔ)名詞、動(dòng)詞與泰語(yǔ)相似的名詞、動(dòng)詞有相近的分布,實(shí)現(xiàn)漢泰跨語(yǔ)言詞匯在同一模型空間下的分布表示。

3.5 大規(guī)模漢泰混合語(yǔ)料弱監(jiān)督學(xué)習(xí)擴(kuò)展過(guò)程

基于以上分析,我們?cè)诘谝淮慰缯Z(yǔ)言混合語(yǔ)料集中學(xué)習(xí)得到每個(gè)泰語(yǔ)詞相似度高于一定閾值的漢語(yǔ)詞,并對(duì)這些漢語(yǔ)泰語(yǔ)詞通過(guò)synset_id轉(zhuǎn)化為英文,在英語(yǔ)WordNet中進(jìn)行查詢,如果漢語(yǔ)詞與泰語(yǔ)詞屬于同類(lèi)關(guān)系或者直接上義詞,我們都將泰語(yǔ)詞替換漢語(yǔ)詞相應(yīng)的位置,生成新的衍生實(shí)例。這個(gè)閾值如果選取過(guò)高,將很難學(xué)習(xí)到新的漢語(yǔ)相似詞,如果閾值選取過(guò)低,則學(xué)習(xí)得到新的漢語(yǔ)詞相似度太低,很多情況下不能替換,我們把閾值設(shè)為0.5。

我們對(duì)包含泰語(yǔ)詞的語(yǔ)料進(jìn)行如下過(guò)程的弱監(jiān)督學(xué)習(xí)擴(kuò)展:

Figure 2 Learning flow chart of Chinese and Thai cross-lingual word distribution圖2 漢泰跨語(yǔ)言詞匯分布學(xué)習(xí)流程圖

(1)將泰語(yǔ)詞與漢語(yǔ)詞的相似度進(jìn)行比較,如果相似度高于閾值,我們把漢語(yǔ)詞放入候選替換詞集中。

(2)對(duì)泰語(yǔ)詞與候選替換詞集中的詞通過(guò)synset_id轉(zhuǎn)化為英語(yǔ),在英文Wordnet的is_a層級(jí)樹(shù)中查詢他們之間的語(yǔ)義關(guān)系,如果它們之間是同類(lèi)詞或者直接上義詞則可以直接替換,生成新的候選衍生實(shí)例。

(4)將篩選出的衍生實(shí)例加入語(yǔ)料集中,通過(guò)神經(jīng)概率語(yǔ)言模型學(xué)習(xí)新的漢泰詞匯跨語(yǔ)言分布,并跳轉(zhuǎn)到過(guò)程(1)。

(5)重復(fù)過(guò)程(1)~(4),直到學(xué)習(xí)不出新的漢語(yǔ)替換詞為止。

我們將整個(gè)漢泰跨語(yǔ)言詞匯分布學(xué)習(xí)過(guò)程總結(jié)如流程圖2所示。

我們把漢語(yǔ)神經(jīng)概率語(yǔ)言模型擴(kuò)展到漢泰跨語(yǔ)言詞匯分布表示上,由于在學(xué)習(xí)語(yǔ)料中合適的位置嵌入了泰語(yǔ)名詞、動(dòng)詞,所以我們的神經(jīng)概率語(yǔ)言模型經(jīng)過(guò)學(xué)習(xí),可以得到漢泰跨語(yǔ)言詞匯較為準(zhǔn)確的分布表示。

3.6 模型學(xué)習(xí)

神經(jīng)概率語(yǔ)言模型中用反向傳播算法[13]學(xué)習(xí)模型參數(shù)。目前針對(duì)反向傳播算法的參數(shù)改進(jìn)學(xué)習(xí)算法有很多,我們選用ZeilerMD等人[14]改進(jìn)的ADADELTA梯度下降算法來(lái)最優(yōu)化模型的參數(shù)集。該方法可以動(dòng)態(tài)地適應(yīng)一階信息,并對(duì)梯度下降有最小的計(jì)算開(kāi)銷(xiāo)。訓(xùn)練一次實(shí)例就更新一次參數(shù)。首先從神經(jīng)網(wǎng)絡(luò)的輸出層開(kāi)始,每一層的每個(gè)參數(shù)的梯度通過(guò)后一層的梯度來(lái)獲得,經(jīng)過(guò)網(wǎng)絡(luò)的每一層最后到達(dá)輸入層的詞的分布特征向量,不斷迭代直至誤差符合預(yù)期完成整個(gè)過(guò)程。

4實(shí)驗(yàn)及分析

4.1 文本相似度計(jì)算方法

我們首先用神經(jīng)概率語(yǔ)言對(duì)上述跨語(yǔ)言語(yǔ)料進(jìn)行學(xué)習(xí),得到漢泰詞匯的跨語(yǔ)言分布表示,基于經(jīng)驗(yàn),我們?cè)O(shè)定每個(gè)詞的向量維度為200,神經(jīng)概率語(yǔ)言模型隱藏層的神經(jīng)單元個(gè)數(shù)為64,允許誤差0.001,訓(xùn)練窗口為5。在語(yǔ)料集學(xué)習(xí)的過(guò)程中只考慮出現(xiàn)頻數(shù)大于或等于3次的漢泰詞匯。我們把學(xué)習(xí)得到的漢泰詞匯跨語(yǔ)言分布作為文本相似度計(jì)算的基礎(chǔ)。

我們通過(guò)tf-idf算法篩選出每篇文檔特征權(quán)重占前5位的特征詞,文本t的特征詞組為(vt1,vt2,…,vt5),權(quán)重為(wt1,wt2,…, wt5),同理文本k的特征詞組為(vk1,vk2,…,vk5),特征詞對(duì)應(yīng)tf-idf權(quán)重為(wk1, wk2,…,wk5)。兩篇文本間的相似度通過(guò)文本t中的每個(gè)特征詞與文本k中的每個(gè)特征詞的詞向量余弦相似度及各自特征權(quán)重的乘積累加求和除以總共相加次數(shù)25。詞vk1與vt1的詞向量余弦相似度表示為vk1&vt1。文本相似度計(jì)算公式為:

(3)

4.2 實(shí)驗(yàn)結(jié)果與分析

我們選用維基百科上的漢泰篇章對(duì)齊文本作為實(shí)驗(yàn)文本集,選取經(jīng)濟(jì)、政治、文化、科技、體育五類(lèi)漢泰平行文本各100篇。實(shí)驗(yàn)由兩部分組成:第一部分:漢泰平行文本相似度計(jì)算;第二部分:漢泰混合文本集中的文本隨機(jī)打亂順序后判斷它們?cè)谖宕箢?lèi)中的分類(lèi)。漢泰文本的相似性說(shuō)明兩者之間的同義詞的跨語(yǔ)言詞分布相似性,只有兩篇文本中的同義詞在一致的向量空間分布表示上的相似才能使文本相似度高。

維基百科上篇章平行文本都是針對(duì)同一詞條的描述,但它們?cè)诿枋錾嫌胁町?,很多情況下一種語(yǔ)言的描述很詳細(xì)而另外一種語(yǔ)言描述較簡(jiǎn)單,我們?nèi)斯ずY選漢泰平行文本描述一致、篇幅相當(dāng)?shù)奈恼?,?jīng)語(yǔ)言學(xué)家判定相似程度高于95%的平行文章。由于我們不追求單語(yǔ)言環(huán)境下的文本相似度效果,只追求在同種計(jì)算方式下的雙語(yǔ)平行文本相似性,因此采用上節(jié)描述的文本相似度計(jì)算方法計(jì)算相似性。實(shí)驗(yàn)結(jié)果如表1所示。

文本相似度實(shí)驗(yàn)表明,通過(guò)跨語(yǔ)言詞匯分布表示來(lái)表征漢泰文本相似度方面有一定的效果,針對(duì)平行文本均取得了69.84%以上的相似度。

漢泰文本混合文本集的文本分類(lèi)準(zhǔn)確性說(shuō)明漢泰詞在跨語(yǔ)言模型中的詞匯分布表征準(zhǔn)確性,如果詞匯的跨語(yǔ)言詞匯分布表示不準(zhǔn)確會(huì)導(dǎo)致文本分類(lèi)準(zhǔn)確率下降。我們的目的是檢驗(yàn)跨語(yǔ)言詞匯表示的準(zhǔn)確性,故我們采用KNN文本分類(lèi)算法,它是較理想的文本分類(lèi)算法。待分類(lèi)文本與訓(xùn)練文本相似度計(jì)算時(shí)采用上節(jié)的文本相似度計(jì)算方法。我們選取的漢泰文本都是單種分類(lèi)標(biāo)記的文本,不考慮多分類(lèi)標(biāo)記文本,并將我們的方法同跨語(yǔ)言文本分類(lèi)效果較好的模型翻譯[15](通過(guò)期望最大算法把源語(yǔ)言分類(lèi)標(biāo)記文本翻譯為目標(biāo)語(yǔ)言分類(lèi)標(biāo)記文本學(xué)習(xí)分類(lèi)知識(shí)后分類(lèi))、結(jié)合半監(jiān)督適應(yīng)的模型翻譯[15](模型翻譯同時(shí)結(jié)合半監(jiān)督學(xué)習(xí)更新目標(biāo)語(yǔ)言的分類(lèi)特征詞分布)及機(jī)器翻譯(兩種方法:(1)源語(yǔ)言分類(lèi)標(biāo)記文本翻譯為目標(biāo)語(yǔ)言,目標(biāo)語(yǔ)言待分類(lèi)文本學(xué)習(xí)分類(lèi)知識(shí)后分類(lèi);(2)目標(biāo)語(yǔ)言翻譯為源語(yǔ)言學(xué)習(xí)分類(lèi)知識(shí)后分類(lèi))的方法作對(duì)比。結(jié)果如表2所示。

Table 1 Cross-lingual text similarity

Table 2 Cross-lingual text classification accuracy

實(shí)驗(yàn)結(jié)果表明:相同語(yǔ)料規(guī)模情況下,跨語(yǔ)言詞分布在跨語(yǔ)言文本分類(lèi)方面較兩種機(jī)器翻譯方式效果較好,略差于基于期望最大算法翻譯分類(lèi)方式,與期望最大算法翻譯+半監(jiān)督適應(yīng)方式相比有一定的差距。原因在于跨語(yǔ)言詞匯分布可以反映跨語(yǔ)言詞匯相似程度,相比機(jī)器翻譯的翻譯結(jié)果提高了準(zhǔn)確性,但分類(lèi)效果略差于期望最大翻譯。因?yàn)槠谕畲笏惴紤]了在類(lèi)別信息下源語(yǔ)言詞翻譯為目標(biāo)語(yǔ)言詞的最大翻譯概率,相比跨語(yǔ)言詞匯相似度是所有類(lèi)別下的平均相似度,準(zhǔn)確性更高,而結(jié)合半監(jiān)督適應(yīng)后可以更新目標(biāo)語(yǔ)言文本分類(lèi)的特征詞,效果最好。實(shí)驗(yàn)說(shuō)明漢泰跨語(yǔ)言詞匯分布表示的準(zhǔn)確性,即詞匯意義的表達(dá)準(zhǔn)確性。本文的方法在跨語(yǔ)言文本分類(lèi)方面效果不是最佳但操作過(guò)程簡(jiǎn)單,沒(méi)有復(fù)雜的翻譯消歧過(guò)程,基于跨語(yǔ)言詞分布將源語(yǔ)言的分類(lèi)知識(shí)直接遷移到目標(biāo)語(yǔ)言,有一定效果的同時(shí)速度最快。

5結(jié)束語(yǔ)

本文為解決漢泰詞匯的跨語(yǔ)言分布表示問(wèn)題,忽略兩種語(yǔ)言的差異,將泰語(yǔ)名詞、動(dòng)詞嵌入到漢語(yǔ)語(yǔ)料的合適位置生成跨語(yǔ)言語(yǔ)料,并通過(guò)弱監(jiān)督學(xué)習(xí)擴(kuò)展語(yǔ)料規(guī)模,最終通過(guò)神經(jīng)概率語(yǔ)言模型學(xué)習(xí)得到漢泰詞匯的跨語(yǔ)言分布表示,使在漢語(yǔ)上應(yīng)用成熟的文本分析方法可以直接應(yīng)用到泰語(yǔ)文本上,且在跨語(yǔ)言文本分析上的應(yīng)用方法較為簡(jiǎn)單,沒(méi)有很復(fù)雜的消歧過(guò)程。實(shí)驗(yàn)通過(guò)文本相似度和文本分類(lèi)驗(yàn)證取得了一定效果。我們下一步期望對(duì)神經(jīng)概率語(yǔ)言模型進(jìn)行改進(jìn)(如增加隱藏層的層數(shù)等)來(lái)提高跨語(yǔ)言詞匯分布表示的準(zhǔn)確性,并進(jìn)一步探討跨語(yǔ)言詞匯的分布特征向量表示維數(shù)對(duì)跨語(yǔ)言詞匯分布表示的影響。

參考文獻(xiàn):

[1]Bengio S,Bengio Y.Taking on the curse of dimensionality in joint distributions using neural networks[J].IEEE Transactions on Neural Networks,2000,11(3):550-557.

[2]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research,2003,4(3):1137-1155.

[3]Collobert R,Weston J,Bottou L,et al.Natural language processing (almost) from scratch[J].Journal of Machine Learning Research,2011,12(1):2493-2537.

[4]Zeman D,Resnik P.Cross-language parser adaptation between related languages[C]∥IJCNLP,2008:35-42.

[5]S?gaard A.Data point selection for cross-language adaptation of dependency parsers[C]∥Proc of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies:Short Papers-Volume 2,2011:682-686.

[6]Ando R K,Zhang T.A framework for learning predictive structures from multiple tasks and unlabeled data[J]. Journal of Machine Learning Research,2005,6(6):1817-1853.

[7]Prettenhofer P,Stein B.Cross-language text classification using structural correspondence learning[C]∥Proc of the 48th Annual Meeting of the Association for Computational Linguistics,2010:1118-1127.

[8]Steinberger R,Pouliquen B,Hagman J.Cross-lingual document similarity calculation using the multilingual thesaurus eurovoc[C]∥Proc of CICLing’02,2002:415-424.

[9]Wu L,Huang X,Guo Y,et al.FDU at TREC-9:CLIR,filtering and QA tasks[C]∥Proc of the 9th Text Retrieval Conference,2000:1.

[10]Gao J,Nie J,Xun E,et al.Improving query translation for cross-language information retrieval using statistical models[C]∥ACM SIGIR,2001:96-104.

[11]Och F J,Ney H.Improved statistical alignment models[C]∥Proc of the 3th Annual Meeting of the Association for Computational Linguistics,2000:440-447.

[12]Emami A,Jelinek F.A neural syntactic language model[J].Machine Learning,2005,60(1-3):195-227.

[13]Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Nature,1986,323(6088):533-536.

[14]Zeiler M D.ADADELTA:An adaptive learning rate method[J].arXiv Preprint arXiv:1212.5701,2012.

[15]Shi L,Mihalcea R,Tian M.Cross language text classification by model translation and semi-supervised learning[C]∥Proc of the 2010 Conference on Empirical Methods in Natural Language Processing,2010:1057-106.

張金鵬(1989-),男,河南新密人,碩士生,研究方向?yàn)樽匀徽Z(yǔ)言處理。E-mail:939127870@qq.com

ZHANG Jin-peng,born in 1989,MS candidate,his research interest includes natural language processing.

周蘭江(1964-),男,云南昆明人,副教授,研究方向?yàn)樽匀徽Z(yǔ)言處理與嵌入式系統(tǒng)研究。E-mail:915090822@qq.com

ZHOU Lan-jiang,born in 1964,associate professor,his research interests include natural language processing, and embedded system.

DistributedrepresentationofChineseandThaiwordsbasedoncross-lingualcorpus

ZHANGJin-peng1,2,ZHOULan-jiang1,2,XIANYan-tuan1,2,YUZheng-tao1,2,HESi-lan3

(1.SchoolofInformationEngineeringandAutomation,KunmingUniversityofScienceandTechnology,Kunming650500;

2.TheKeyLaboratoryofIntelligentInformationProcessing,

KunmingUniversityofScienceandTechnology,Kunming650500;

3.SchoolofScience,KunmingUniversityofScienceandTechnology,Kunming650500,China)

Abstract:Word representation is the basic research content of natural language processing. At present, distributed representation of monolingual words has shown satisfactory application effect in some Neural Probabilistic Language (NPL) research, while as for distributed representation of cross-lingual words, there is little research both at home and abroad. Aiming at this problem, given distribution similarity of nouns and verbs in these two languages, we embed mutual translated words, synonyms, superordinates into Chinese corpus by the weakly supervised learning extension approach and other methods, thus Thai word distribution in cross-lingual environment of Chinese and Thai is learned. We applied the distributed representation of the cross-lingual words learned before to compute similarities of bilingual texts and classify the mixed text corpus of Chinese and Thai. Experimental results show that the proposal has a satisfactory effect on the two tasks.

Key words:weakly supervised learning extension;cross-lingual corpus;cross-lingual word distribution representations;neural probabilistic language model

作者簡(jiǎn)介:

doi:10.3969/j.issn.1007-130X.2015.12.025

中圖分類(lèi)號(hào):TP391

文獻(xiàn)標(biāo)志碼:A

基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61363044)

收稿日期:修回日期:2015-10-17

文章編號(hào):1007-130X(2015)12-2358-08

平泉县| 蓬溪县| 中西区| 庐江县| 淄博市| 重庆市| 乌苏市| 独山县| 扶余县| 互助| 吉安县| 乌拉特前旗| 天镇县| 屯昌县| 阿鲁科尔沁旗| 乾安县| 江陵县| 赤城县| 桐城市| 灵川县| 博野县| 利川市| 横山县| 南投市| 永吉县| 兴安盟| 清苑县| 肥东县| 象山县| 句容市| 迁安市| 琼结县| 正宁县| 清丰县| 广灵县| 咸阳市| 双桥区| 嘉定区| 临桂县| 商洛市| 高邑县|