国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蒙古語(yǔ)詞法分析的有向圖模型

2011-10-15 01:37:14姜文斌吳金星長(zhǎng)青那順烏日?qǐng)D劉群趙理莉
中文信息學(xué)報(bào) 2011年5期
關(guān)鍵詞:詞干詞法蒙古語(yǔ)

姜文斌,吳金星,,長(zhǎng)青,,那順烏日?qǐng)D,劉群,趙理莉,3

(1.中國(guó)科學(xué)院計(jì)算技術(shù)研究所,北京100190;2.內(nèi)蒙古大學(xué)蒙古學(xué)學(xué)院,內(nèi)蒙古呼和浩特010021;3.河南師范大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,河南新鄉(xiāng)453007)

1 引言

對(duì)漢語(yǔ)和許多民族語(yǔ)言來(lái)說(shuō),詞法分析是大多數(shù)自然語(yǔ)言處理任務(wù)的基礎(chǔ)。漢語(yǔ)的詞形較為簡(jiǎn)單,當(dāng)前的詞法分析已經(jīng)做到實(shí)際可用的水平[1-4],而對(duì)于形態(tài)復(fù)雜的民族語(yǔ)言如蒙古語(yǔ)和維吾爾語(yǔ),詞法分析的準(zhǔn)確率仍有較大的提升空間[5-11]。在民族交流與融合需求日益迫切的現(xiàn)階段,機(jī)器翻譯技術(shù)的重要作用越發(fā)凸顯。民族語(yǔ)言詞法分析作為機(jī)器翻譯的必備前提,需要得到研究者更多的關(guān)注。

與漢語(yǔ)的字符順次拼接的構(gòu)詞方式相比,蒙古語(yǔ)和維吾爾語(yǔ)等形態(tài)豐富的語(yǔ)言構(gòu)詞規(guī)律更加復(fù)雜。這類(lèi)語(yǔ)言的詞語(yǔ)通常由詞干和若干起修飾作用的詞綴組成樹(shù)狀結(jié)構(gòu),詞法分析的任務(wù)就是解析出詞語(yǔ)的詞干和詞綴構(gòu)成,并且標(biāo)定好它們的類(lèi)別標(biāo)注。這樣一來(lái),在漢語(yǔ)上效果良好的序列標(biāo)注模型[12-14]在這里變得不太適用,而研究者往往直接借用這些現(xiàn)成的線性序列模型,同時(shí)將任務(wù)限定為粗切分或標(biāo)注[7-10],這使得系統(tǒng)的理論價(jià)值和實(shí)用性大打折扣。另一方面,傳統(tǒng)的基于規(guī)則的詞法分析模式需要專(zhuān)門(mén)的語(yǔ)言學(xué)人才,往往耗費(fèi)大量的精力調(diào)試搭建后,準(zhǔn)確率和穩(wěn)定性并不盡人意。因此,我們有必要構(gòu)造更為恰當(dāng)?shù)慕y(tǒng)計(jì)模型,盡可能準(zhǔn)確地描述形態(tài)豐富語(yǔ)言的構(gòu)詞規(guī)律,從而快速搭建高性能的詞法分析系統(tǒng)。

我們?yōu)槊晒耪Z(yǔ)詞法分析建立了一種生成式的概率統(tǒng)計(jì)模型。該模型將蒙古語(yǔ)語(yǔ)句的詞法分析結(jié)果描述為有向圖結(jié)構(gòu),圖中節(jié)點(diǎn)表示分析結(jié)果中的詞干、詞綴及其相應(yīng)標(biāo)注,而邊則表示節(jié)點(diǎn)之間的轉(zhuǎn)移或生成關(guān)系,它們刻畫(huà)了詞干、詞綴及其相應(yīng)標(biāo)注連接成詞的規(guī)律。生成式概率統(tǒng)計(jì)模型為這些轉(zhuǎn)移或生成關(guān)系賦以合適的概率形式,詞法分析的過(guò)程就是尋找其所有概率乘積最大的有向圖。在本工作中我們刻畫(huà)了詞干到詞干轉(zhuǎn)移概率、詞綴到詞綴轉(zhuǎn)移概率、詞干到詞綴生成概率、相應(yīng)的標(biāo)注之間的三種轉(zhuǎn)移或生成概率以及詞干或詞綴到相應(yīng)標(biāo)注相互生成概率。這些轉(zhuǎn)移或生成概率以極大似然估計(jì)的方式從訓(xùn)練語(yǔ)料中統(tǒng)計(jì)得到。鑒于本工作的意圖在于統(tǒng)計(jì)建模,在為句中的每個(gè)詞枚舉可能的詞語(yǔ)結(jié)構(gòu)候選時(shí),我們并沒(méi)有利用人工標(biāo)注詞法分析語(yǔ)料庫(kù)之外的任何語(yǔ)言資源,也沒(méi)有設(shè)計(jì)專(zhuān)門(mén)的詞法和語(yǔ)法知識(shí)進(jìn)行指導(dǎo),而是依據(jù)從人工語(yǔ)料庫(kù)中抽取出的詞干表和詞綴表,通過(guò)遞歸搜索窮舉所有可能的構(gòu)詞方式。

我們?cè)趦?nèi)蒙古大學(xué)開(kāi)發(fā)的20萬(wàn)詞規(guī)模的三級(jí)標(biāo)注人工語(yǔ)料庫(kù)(內(nèi)蒙古大學(xué)拉丁語(yǔ)料)上進(jìn)行實(shí)驗(yàn)。我們隨機(jī)分割出5%和5%的句子分別作為開(kāi)發(fā)集和測(cè)試集,剩余的90%的句子全部作為訓(xùn)練集。在測(cè)試集上,該模型取得了詞級(jí)切分正確率95.1%,詞級(jí)聯(lián)合切分與標(biāo)注正確率93%的好成績(jī)。另外,整個(gè)系統(tǒng)的訓(xùn)練過(guò)程只需要幾十秒即可完成,解碼過(guò)程在PC機(jī)上也可達(dá)到幾百詞每秒的速度。而且,由于系統(tǒng)幾乎沒(méi)有借助任何語(yǔ)言學(xué)知識(shí),我們相信只需很少的改動(dòng)就可以應(yīng)用到其他形態(tài)豐富的語(yǔ)言上。

在以下的章節(jié)中,我們首先介紹蒙古語(yǔ)詞法分析的任務(wù)定義,然后描述我們的生成式概率統(tǒng)計(jì)模型,在展示該系統(tǒng)實(shí)驗(yàn)結(jié)果并進(jìn)行相應(yīng)的分析說(shuō)明后,我們與前人工作進(jìn)行對(duì)比,最后是總結(jié)和展望。

2 蒙古語(yǔ)詞法分析

同其他形態(tài)豐富的語(yǔ)言類(lèi)似,蒙古語(yǔ)的詞由詞干和可能的詞綴組成。不同的是,蒙古語(yǔ)詞干與詞綴的組合需要服從特有的約束:

a)詞干只能有一個(gè)且只能出現(xiàn)在最前面;

b)分寫(xiě)詞綴只能跟在連寫(xiě)詞綴之后;

c)同類(lèi)詞綴中不同詞綴須以特定的順序出現(xiàn)。

約束a)規(guī)定一個(gè)蒙古語(yǔ)詞只能有一個(gè)義項(xiàng)中心,這一點(diǎn)與維吾爾語(yǔ)不同;而約束b)和c)規(guī)定了不同詞綴的特定出現(xiàn)順序,這一點(diǎn)與朝鮮語(yǔ)又不相同。

以?xún)?nèi)蒙古大學(xué)拉丁語(yǔ)料中的蒙古語(yǔ)詞HUURNILDU/HU-DU為例,其在特定語(yǔ)境下的一種詞法分析結(jié)果為:

其中,“+”號(hào)和“-”號(hào)分別表示后面緊接著的是連寫(xiě)后綴和分寫(xiě)后綴。給定一個(gè)蒙古語(yǔ)詞,我們可以借助詞干表和詞綴表,以遞歸枚舉的方式把可能的詞法結(jié)構(gòu)羅列出來(lái)。在該語(yǔ)料庫(kù)中,分寫(xiě)后綴和一部分連寫(xiě)后綴在原始詞中已經(jīng)被標(biāo)識(shí)出來(lái)。所有的分寫(xiě)后綴都放在詞的尾部,且以“-”號(hào)分隔,例如詞尾的“-DU”;一部分連寫(xiě)詞綴位于分寫(xiě)詞綴之前,且以“/”號(hào)與前面部分分隔開(kāi)來(lái)。這部分連寫(xiě)詞綴前面的“/”號(hào)是內(nèi)蒙古大學(xué)拉丁語(yǔ)料在初步標(biāo)注過(guò)程中人工加進(jìn)去的詞干與變形附加成分之間的分隔符號(hào),因此我們?cè)谙到y(tǒng)測(cè)試之前將刪除輸入數(shù)據(jù)中的“/”號(hào),以模擬真實(shí)環(huán)境下的蒙古語(yǔ)語(yǔ)句反映詞法分析系統(tǒng)的真實(shí)性能。

許多蒙古語(yǔ)詞擁有不止一種詞法分析候選結(jié)構(gòu),在同時(shí)做詞干標(biāo)注和詞綴標(biāo)注的時(shí)候,候選結(jié)構(gòu)數(shù)量變得更為龐大。如果根據(jù)特定的上下文環(huán)境為蒙古語(yǔ)詞選擇正確的詞法分析結(jié)構(gòu),既是歧義排解的問(wèn)題,也是蒙古語(yǔ)詞法分析的難點(diǎn)所在?;谡Z(yǔ)言學(xué)規(guī)則的詞法分析系統(tǒng)能夠?yàn)槊總€(gè)單獨(dú)的詞高效地枚舉出盡可能精簡(jiǎn)的候選分析集合,卻不擅長(zhǎng)于根據(jù)上下文環(huán)境為每個(gè)詞選擇最恰當(dāng)?shù)暮蜻x。語(yǔ)言的統(tǒng)計(jì)建模恰好可以與規(guī)則方法實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。統(tǒng)計(jì)方法難以為每個(gè)詞確定一個(gè)精簡(jiǎn)的合法候選分析集,卻擅長(zhǎng)于高效地為整個(gè)句子選擇最可能的整體分析結(jié)果。本工作的重點(diǎn)即在蒙古語(yǔ)詞法分析的統(tǒng)計(jì)建模上。

3 有向圖概率模型

基于統(tǒng)計(jì)的有監(jiān)督建??傮w上可分為兩類(lèi):生成式統(tǒng)計(jì)建模和判別式統(tǒng)計(jì)建模。兩種模型體現(xiàn)了截然不同的建模思路。生成模型同時(shí)考查輸入和分析結(jié)果,旨在找出產(chǎn)生概率最高的輸入與分析結(jié)果的組合。因此,它有一部分概率知識(shí)用于描述輸入語(yǔ)句的生成規(guī)律。判別模型則立足于輸入考查分析結(jié)果,其目的在于找出已知輸入的情況下最優(yōu)的分析結(jié)果候選。與生成模型的理念相比,判別模型更符合人們分析解決問(wèn)題的方式。事實(shí)也證明了判別模型的優(yōu)勢(shì)。在序列標(biāo)注的經(jīng)典問(wèn)題詞性標(biāo)注上,判別模型在漢語(yǔ)和英語(yǔ)上都比生成模型有明顯進(jìn)步。

然而,判別模型用于蒙古語(yǔ)詞法分析還存在不少有待解決的關(guān)鍵問(wèn)題。一方面,與生成模型不同的是,判別模型的訓(xùn)練要設(shè)計(jì)大量的判別特征,并通常需要漫長(zhǎng)的多輪迭代過(guò)程。與形態(tài)簡(jiǎn)單的漢語(yǔ)和英語(yǔ)相比,蒙古語(yǔ)詞復(fù)雜的形態(tài)結(jié)構(gòu)使得模型的搜索空間要大的多,從而需要大的存儲(chǔ)占用和更久的訓(xùn)練時(shí)間;另一方面,判別模型通常僅適用于為搜索空間結(jié)構(gòu)固定的任務(wù)建模,如詞性標(biāo)注和依存分析,它們都有一個(gè)固定不變的詞語(yǔ)序列。而對(duì)于形態(tài)豐富語(yǔ)言的詞法分析來(lái)說(shuō)則不具備確定的搜索空間結(jié)構(gòu),因?yàn)槲覀冃枰杜e各種可能的候選詞語(yǔ)結(jié)構(gòu),并在選擇最佳候選結(jié)構(gòu)的同時(shí)確定該結(jié)構(gòu)內(nèi)詞干和詞綴的標(biāo)注。

目前,我們對(duì)于形態(tài)豐富語(yǔ)言詞法分析的判別式建模也構(gòu)想了幾套初步可行的方案,相關(guān)的研究已經(jīng)在有序的進(jìn)行。在本文中,我們僅專(zhuān)注于闡述已經(jīng)成型的生成式概率統(tǒng)計(jì)模型。

3.1 單純切分的模型結(jié)構(gòu)

同詞語(yǔ)形態(tài)簡(jiǎn)單的漢語(yǔ)或者英語(yǔ)相比,詞語(yǔ)形態(tài)豐富的蒙古語(yǔ)的詞法分析更像是一個(gè)對(duì)樹(shù)結(jié)構(gòu)進(jìn)行選擇并對(duì)樹(shù)中節(jié)點(diǎn)進(jìn)行標(biāo)注的過(guò)程,而不是一個(gè)簡(jiǎn)單的線性序列標(biāo)注問(wèn)題。這里,我們并不馬上介紹能夠同時(shí)進(jìn)行切分和標(biāo)注的最終詞法分析模型,而是先從較為簡(jiǎn)單的任務(wù)說(shuō)起,即單純切分的模型構(gòu)建。

我們把語(yǔ)句中各詞的分析結(jié)果定義為鏈狀結(jié)構(gòu),如圖1所示:

圖1 詞語(yǔ)內(nèi)部結(jié)構(gòu)表示

這里,S(Stem)表示詞干,A(Adjoin)表示連寫(xiě)詞綴,D(Disjoint)表示分寫(xiě)詞綴。我們用虛線連接的兩個(gè)A(或D)表示0或多個(gè)連寫(xiě)詞綴(或分寫(xiě)詞綴)。在詞干到詞綴之間以及詞綴到后續(xù)詞綴之間,箭頭表示生成或者轉(zhuǎn)移關(guān)系。對(duì)于整個(gè)語(yǔ)句,分析結(jié)果則可描述為樹(shù)狀結(jié)構(gòu),如圖2所示:

圖2 整句的詞語(yǔ)內(nèi)部結(jié)構(gòu)表示

與單個(gè)詞的分析結(jié)果結(jié)構(gòu)相比,整句分析結(jié)構(gòu)中增加了相鄰詞的詞干之間的生成或轉(zhuǎn)移關(guān)系,從而在所有詞干和詞綴之間形成一個(gè)拓?fù)溆行虻臉?shù)結(jié)構(gòu)。樹(shù)中節(jié)點(diǎn)即表示詞干或者詞綴,而節(jié)點(diǎn)之間的邊則表示詞干到詞干、詞干到詞綴以及詞綴到詞綴的生成或轉(zhuǎn)移關(guān)系。

概而言之,無(wú)論對(duì)于規(guī)則模型還是統(tǒng)計(jì)模型,建模的本質(zhì)都是在刻畫(huà)詞干、詞綴及其相應(yīng)標(biāo)注(如果同時(shí)也做標(biāo)注的話)之間的生成、轉(zhuǎn)移等約束規(guī)律。如果我們能為樹(shù)中的各種不同的邊設(shè)計(jì)相應(yīng)的權(quán)重,這些權(quán)重的度量反映了節(jié)點(diǎn)之間生成或轉(zhuǎn)移規(guī)律的強(qiáng)弱,那么,求解整句詞法切分結(jié)果的過(guò)程,即為在所有可能的候選樹(shù)中尋找權(quán)重之和最高的樹(shù)的過(guò)程。本模型中,我們用類(lèi)似于隱馬模型使用中的轉(zhuǎn)移概率來(lái)描述樹(shù)中邊的權(quán)重。根據(jù)邊指向?qū)ο蟮牟煌?我們?cè)O(shè)計(jì)以下兩種轉(zhuǎn)移概率:

a)P(S|S ngram)

詞干到詞干的轉(zhuǎn)移概率,類(lèi)似于ngram語(yǔ)言模型。

b)P(X|S/X ngram)

其他詞綴的生成概率,X代表詞綴,即A或者D。S/X ngram指當(dāng)前詞綴之前的詞干或詞綴組成的ngram歷史。

給定一個(gè)候選樹(shù)T,我們用這些概率的乘積表示該候選的整體生成概率:

為簡(jiǎn)潔起見(jiàn),公式中隱藏了兩個(gè)條件概率的歷史條件。容易看出,這可以理解為傳統(tǒng)的ngram語(yǔ)法模型向樹(shù)結(jié)構(gòu)的拓展。

3.2 聯(lián)合切分標(biāo)注的模型結(jié)構(gòu)

上面的模型僅考慮詞語(yǔ)的形態(tài)分析而不涉及詞干和詞綴的標(biāo)注。當(dāng)我們也需要詞干和詞綴的標(biāo)注信息時(shí),就必須同時(shí)對(duì)這些標(biāo)注成分進(jìn)行概率建模了。事實(shí)上,即使我們只需要進(jìn)行詞語(yǔ)形態(tài)分析,考慮到人工詞法分析語(yǔ)料庫(kù)規(guī)模不會(huì)很大,構(gòu)詞元素特別是詞干對(duì)現(xiàn)實(shí)世界中蒙古語(yǔ)語(yǔ)言的覆蓋面相當(dāng)有限,在語(yǔ)料庫(kù)提供標(biāo)注信息的情況下,盡可能的對(duì)標(biāo)注建模以利用這些標(biāo)注信息,也是緩解數(shù)據(jù)稀疏的重要手段。

對(duì)聯(lián)合切分和標(biāo)注進(jìn)行建模的關(guān)鍵在于如何讓標(biāo)注信息有效地參與描述句中各詞的形態(tài)結(jié)構(gòu)生成過(guò)程。本工作中,對(duì)應(yīng)于單純切分的模型結(jié)構(gòu),我們?yōu)闃?biāo)注信息設(shè)計(jì)了一個(gè)同步樹(shù)狀結(jié)構(gòu)以描述詞干和詞綴標(biāo)注之間的生成和轉(zhuǎn)換關(guān)系。所謂同步是指樹(shù)的結(jié)構(gòu)和單純切分模型的樹(shù)結(jié)構(gòu)完全一致,只不過(guò)樹(shù)中對(duì)應(yīng)節(jié)點(diǎn),對(duì)后者而言是詞干或詞綴,對(duì)前者而言是相應(yīng)的標(biāo)注。另外,我們?cè)O(shè)計(jì)兩項(xiàng)概率描述兩個(gè)平行的樹(shù)結(jié)構(gòu)中節(jié)點(diǎn)之間的映射關(guān)系:

a)P(X|t(X))

X代表詞干或詞綴,t(X)代表其標(biāo)注。此項(xiàng)概率可類(lèi)比于隱馬模型中狀態(tài)到觀察的生成概率。

b)P(t(X)|X)

此項(xiàng)概率代表詞干或詞綴X被賦予標(biāo)注t(X)的概率。此項(xiàng)概率參與建模使得模型傾向于為選擇常見(jiàn)的標(biāo)注。

這兩項(xiàng)條件概率在平行樹(shù)結(jié)構(gòu)的節(jié)點(diǎn)之間可表示為不同方向的有邊,從而建立起平行樹(shù)結(jié)構(gòu)之間的映射關(guān)系,構(gòu)建描述能力更強(qiáng)的有向圖模型(圖3)。

求解切分和標(biāo)注結(jié)果的過(guò)程,即為在候選有向圖中尋找概率最大的有向圖。有向圖G的概率定義為:

圖3 帶詞性表注的整句詞語(yǔ)內(nèi)部結(jié)構(gòu)表示

其中,P(t(T))表示標(biāo)注樹(shù)t(T)的概率,它和P(T)的定義一樣,只需把詞干和詞綴換成相應(yīng)的標(biāo)注。P(T,t(T))表示平行樹(shù)結(jié)構(gòu) T和t(T)的映射概率,它定義為平行樹(shù)中所有節(jié)點(diǎn)對(duì)的條件概率的乘積:

理論上,P(G)的三項(xiàng)乘子概率對(duì)于候選有向圖的優(yōu)選可能具有不同的決策力,故為它們賦予合適的相對(duì)加權(quán)有望提升模型性能。但在本工作中我們暫不考慮乘子加權(quán)問(wèn)題,這相當(dāng)于所有加權(quán)均為1。

3.3 訓(xùn)練與解碼

出現(xiàn)在單純切分模型和聯(lián)合切分與標(biāo)注模型的各項(xiàng)概率,均可以用極大似然估計(jì)的方式從人工標(biāo)注詞法分析語(yǔ)料庫(kù)中統(tǒng)計(jì)得來(lái)。其中對(duì)于詞干到詞干轉(zhuǎn)移概率、詞綴到詞綴轉(zhuǎn)移概率、詞干到詞綴生成概率、相應(yīng)的標(biāo)注之間的三種轉(zhuǎn)移或生成概率,可以借助成熟的工具包如SRI語(yǔ)言模型工具來(lái)實(shí)現(xiàn)[15],這將使我們不必理會(huì)概率的回退與平滑,而將精力集中在模型結(jié)構(gòu)的設(shè)計(jì)上。

模型訓(xùn)練完畢之后,解碼任務(wù)就是一個(gè)遞歸枚舉各詞的可能分析結(jié)果候選,并緊接著進(jìn)行動(dòng)態(tài)規(guī)劃搜索確定各詞最優(yōu)候選的過(guò)程。枚舉過(guò)程依據(jù)一個(gè)詞干表和一個(gè)詞綴表,遞歸的列舉出詞語(yǔ)所有可能的詞形。需要注意的是蒙古語(yǔ)詞的某些字符在特定情境下會(huì)發(fā)生變形,主要總結(jié)為以下兩種:

a)詞干詞綴劃分過(guò)程中,若 AYI、EYI、0YI、VYI、OYI或 UYI由非詞尾變?yōu)樵~尾,則刪掉字符Y。

b)詞干詞綴劃分過(guò)程中,若 GA、HA、YA、YE和RE由非詞尾變?yōu)樵~尾時(shí),需在中間添加下劃線“_” 。

動(dòng)態(tài)規(guī)劃的搜索過(guò)程就是自左到右的viterbi解碼過(guò)程??紤]文章篇幅限制,我們這里對(duì)這兩個(gè)過(guò)程不再展開(kāi)詳述。

4 實(shí)驗(yàn)

我們?cè)趦?nèi)蒙古大學(xué)蒙古學(xué)學(xué)院開(kāi)發(fā)的20萬(wàn)詞規(guī)模詞法分析語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn)。該語(yǔ)料庫(kù)共包括14115個(gè)完整的句子,我們從中隨機(jī)抽取出各5%的語(yǔ)句分別用做開(kāi)發(fā)集和測(cè)試集,各含705句,剩余90%的語(yǔ)句用做訓(xùn)練集,含12705句。模型各項(xiàng)概率均從訓(xùn)練集中以極大似然估計(jì)法統(tǒng)計(jì)得來(lái)。其中,詞干到詞干轉(zhuǎn)移概率、詞綴到詞綴轉(zhuǎn)移概率、詞干到詞綴生成概率、相應(yīng)的標(biāo)注之間的三種轉(zhuǎn)移或生成概率,我們直接借助成熟的語(yǔ)言模型工具包SRILM,以WB平滑方式訓(xùn)練三元模型。

蒙古語(yǔ)的詞法分析結(jié)果結(jié)構(gòu)遠(yuǎn)比漢語(yǔ)復(fù)雜,傳統(tǒng)的正確率、召回率和F值不能直接適用。本工作中我們定義和采納了多種指標(biāo),從不同角度和層面考量詞法分析器的性能。這些指標(biāo)包括:

a)詞級(jí)正確率Pw

以詞為單位計(jì)量,僅當(dāng)詞內(nèi)詞干、詞綴及其標(biāo)注均正確時(shí),該詞才是分析正確的。

b)詞干詞綴級(jí)正確率Psa,召回率Rsa和Fsa值

以詞干和詞綴為單位計(jì)量,僅當(dāng)詞干或詞綴及相應(yīng)標(biāo)注正確時(shí),該詞干或詞綴才是分析正確的。因此,詞干和詞綴可類(lèi)比為漢語(yǔ)詞法分析中的詞。此評(píng)價(jià)標(biāo)準(zhǔn)引自文獻(xiàn)[7]。

c)相應(yīng)的不考慮標(biāo)注信息的評(píng)測(cè)指標(biāo):Pw-t,Psa-t,Rsa-t和Fsa-t

表1 系統(tǒng)在測(cè)試集上的性能/%

表2 不同子模型組合在開(kāi)發(fā)集上的性能/%

表1展示了系統(tǒng)在測(cè)試集上以上述幾個(gè)評(píng)測(cè)指標(biāo)考量的最終性能。詞級(jí)正確率93%意味著系統(tǒng)對(duì)測(cè)試集中93%的詞都能夠分析出完全正確的詞形結(jié)構(gòu)和標(biāo)注信息。我們發(fā)現(xiàn),不論對(duì)于哪種評(píng)測(cè)指標(biāo),不考慮詞性標(biāo)注都要比考慮詞性標(biāo)注高1個(gè)百分點(diǎn)以上。這說(shuō)明聯(lián)合詞形分析與標(biāo)注的難度明顯高于單純的詞形分析,如何有效地聯(lián)合利用詞干、詞綴及其標(biāo)注信息進(jìn)行建模值得更加深入的探索。由于聯(lián)合切分和標(biāo)注的意義遠(yuǎn)高于單純切分,我們?cè)诤罄m(xù)的試驗(yàn)中僅報(bào)告考慮標(biāo)注的相關(guān)指標(biāo)分值。

下一步我們驗(yàn)證有向圖概率P(G)定義的有效性。如本文第2章中描述,P(G)由三個(gè)子模型概率累乘起來(lái),包括詞干詞綴樹(shù)概率P(T)、相應(yīng)標(biāo)注樹(shù)概率P(t(T))以及詞干詞綴樹(shù)與標(biāo)注樹(shù)之間的映射概率P(T,t(T))。此次試驗(yàn)在開(kāi)發(fā)集上進(jìn)行,我們分別嘗試不同的子模型組合的性能,以驗(yàn)證各個(gè)子模型發(fā)揮的作用。通過(guò)表2我們發(fā)現(xiàn),標(biāo)注樹(shù)概率P(t(T))發(fā)揮的作用最大,并且它和詞干詞綴樹(shù)到標(biāo)注樹(shù)的映射概率P(T,t(T))聯(lián)合使用時(shí),系統(tǒng)性能已經(jīng)趨近于完整系統(tǒng)了。

相比英語(yǔ)、漢語(yǔ)和其他資源豐富的語(yǔ)言來(lái)說(shuō),當(dāng)前蒙古語(yǔ)詞法分析人工標(biāo)注語(yǔ)料規(guī)模要小得多。通過(guò)模型改進(jìn)帶來(lái)的性能提升畢竟有限,要想大幅度提高蒙古語(yǔ)詞法分析的準(zhǔn)確率,必須有更大規(guī)模的人工標(biāo)注語(yǔ)料支持。在語(yǔ)料庫(kù)擴(kuò)建之前,我們可以先探索一下性能提升和語(yǔ)料規(guī)模擴(kuò)大的關(guān)系。為此,我們固定開(kāi)發(fā)集和測(cè)試集不變,而從訓(xùn)練集中每次提取不同規(guī)模的子集以訓(xùn)練系統(tǒng),并考查該系統(tǒng)在測(cè)試集上的表現(xiàn)。整個(gè)訓(xùn)練集含12705句標(biāo)注語(yǔ)句,我們從中隨機(jī)選取一系列不同規(guī)模的子集,分別含有6000,3000,1500,800,400,200和100個(gè)語(yǔ)句,并按照由小到大的次序畫(huà)出系統(tǒng)性能隨訓(xùn)練數(shù)據(jù)增加的變化曲線。

圖4 訓(xùn)練集規(guī)?!到y(tǒng)性能曲線圖

通過(guò)圖4所示的訓(xùn)練集規(guī)?!到y(tǒng)性能曲線我們發(fā)現(xiàn),隨著訓(xùn)練集語(yǔ)句數(shù)量的增加,系統(tǒng)性能持續(xù)變化。這在訓(xùn)練語(yǔ)料規(guī)模較小的時(shí)候尤其明顯,例如,訓(xùn)練集從100句擴(kuò)大到200句時(shí),系統(tǒng)的詞級(jí)正確率從67.5%上升到75%。隨著語(yǔ)料規(guī)模的繼續(xù)擴(kuò)大,系統(tǒng)性能的提升幅度趨于緩和,例如,訓(xùn)練集從6000句擴(kuò)大到 12000句時(shí),詞級(jí)正確率從92.2%提升到93.1%。這帶給我們兩方面的啟示:其一,鑒于現(xiàn)在蒙古語(yǔ)詞法分析語(yǔ)料規(guī)模仍然較小,通過(guò)進(jìn)一步擴(kuò)建語(yǔ)料庫(kù)以提升性能仍然是有意義的和必要的,畢竟接近1個(gè)百分點(diǎn)的絕對(duì)增長(zhǎng)量也是一個(gè)相當(dāng)可觀的性能提升;其二,語(yǔ)料規(guī)模繼續(xù)增加到一定程度后,統(tǒng)計(jì)模型通過(guò)語(yǔ)料擴(kuò)建提升性能的方案的性?xún)r(jià)比會(huì)越來(lái)越低,此時(shí),引入語(yǔ)言學(xué)知識(shí)來(lái)增強(qiáng)統(tǒng)計(jì)模型可能是最有希望的研究思路。

5 相關(guān)工作

蒙古語(yǔ)詞法分析的主要工作都是基于語(yǔ)言學(xué)規(guī)則的。統(tǒng)計(jì)知識(shí)的引入,是從侯宏旭等人借助語(yǔ)言模型對(duì)規(guī)則系統(tǒng)的提供的候選結(jié)果進(jìn)行擇優(yōu)排歧的工作[7]開(kāi)始的,該工作取得了94%的詞切分準(zhǔn)確率。而后又有一些工作也取得了較好的結(jié)果,例如,趙偉等人[8]取得了99.2%的詞切分準(zhǔn)確率,叢偉[9]取得了97.1%的詞切分準(zhǔn)確率,艷紅和王斯日古楞[10]取得了96.8%的詞性標(biāo)注準(zhǔn)確率。但上述工作都將任務(wù)限定為粗切分或標(biāo)注,且采用的數(shù)據(jù)集與我們不同,因此和我們目前工作缺乏可比性。這些工作一般直接借用現(xiàn)成的線性序列標(biāo)注模型,既沒(méi)有考慮黏著語(yǔ)的構(gòu)詞特性,也沒(méi)有采用嚴(yán)整精細(xì)的切分標(biāo)注標(biāo)準(zhǔn),從而使得系統(tǒng)的理論價(jià)值和實(shí)用性有所限制。與之相比我們工作的優(yōu)越性如下:

第一,我們的工作同步地實(shí)現(xiàn)了詞形分析和詞干詞綴的標(biāo)注,所采用的詞干、詞綴拆分標(biāo)準(zhǔn)也更加細(xì)致復(fù)雜;之前工作多專(zhuān)注于切分而很少給出標(biāo)注信息,并且詞語(yǔ)切分的粒度也很粗略。相比而言,我們解決的任務(wù)更為嚴(yán)整復(fù)雜,系統(tǒng)也相應(yīng)的更具實(shí)用價(jià)值。

第二,我們的工作針對(duì)詞干詞綴間的連接特性,建立更貼合黏著語(yǔ)構(gòu)詞規(guī)律的樹(shù)狀生成模型;而之前工作則通常借用現(xiàn)成的序列標(biāo)注模型,將句中所有詞干和詞綴視為單一線性的序列結(jié)構(gòu)。因此,我們對(duì)蒙古語(yǔ)詞法分析的建模更加科學(xué)有效。

第三,我們?yōu)槊晒耪Z(yǔ)的聯(lián)合切分和標(biāo)注任務(wù)建立了高度形式化的,基于由同步樹(shù)結(jié)構(gòu)組成的有向圖的概率生成模型。這是針對(duì)黏著語(yǔ)構(gòu)詞特性的嶄新的建模方式。因此,與以前工作相比我們的工作具有更好的擴(kuò)充性和提升空間,相應(yīng)地也更具理論價(jià)值。

6 總結(jié)與展望

本工作為蒙古語(yǔ)詞法分析建立了一種生成式的概率統(tǒng)計(jì)模型,將蒙古語(yǔ)語(yǔ)句的詞法分析結(jié)構(gòu)描述為有向圖結(jié)構(gòu),圖中節(jié)點(diǎn)表示分析結(jié)果中的詞干、詞綴及其相應(yīng)標(biāo)注,而邊則表示節(jié)點(diǎn)之間的轉(zhuǎn)移或生成關(guān)系。整體上,有向圖由同步的詞干詞綴樹(shù)和標(biāo)注樹(shù)以及樹(shù)間的映射關(guān)系組成,分別描述詞干詞綴的生成轉(zhuǎn)移關(guān)系、相應(yīng)標(biāo)注的生成轉(zhuǎn)移關(guān)系以及詞干詞綴與標(biāo)注間的生成關(guān)系。最終系統(tǒng)在內(nèi)蒙古大學(xué)開(kāi)發(fā)的20萬(wàn)詞規(guī)模的人工語(yǔ)料庫(kù)做到了較好的水平,詞級(jí)切分正確率為95.1%,詞級(jí)聯(lián)合切分與標(biāo)注正確率為93%。

然而,當(dāng)前模型還很初步,許多重要的方面仍有待改進(jìn)。首先,關(guān)于模型構(gòu)建,鑒于判別式模型普遍優(yōu)于生成式模型,如何為形態(tài)豐富語(yǔ)言建立有效的判別式詞法分析模型并設(shè)計(jì)相應(yīng)的特征表示,將是我們接下來(lái)的重要探索方向之一。再者,我們目前只是根據(jù)從訓(xùn)練集中自動(dòng)抽取出的詞干表和詞綴表,為每個(gè)待分析詞遞歸地窮舉可能的候選結(jié)構(gòu),這導(dǎo)致過(guò)多的非法候選,以致引入無(wú)謂的歧義。如何利用語(yǔ)言學(xué)規(guī)則約束候選生成甚至解碼過(guò)程,也是我們未來(lái)要進(jìn)行的重要研究?jī)?nèi)容。

[1]Hwee Tou Ng,Jin Kiat Low.Chinese part-of-speech tagging:One-at-a-time or all-at-once?Wordbased or character-based?[C]//Proceedings of EMNLP,2004:277-284.

[2]Wenbin Jiang,Liang Huang,Yajuan Lv,et al.A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging[C]//Proceedings of the 46th ACL,2008:897-904.

[3]Huaping Zhang,Qun Liu,Xueqi Cheng,Hao Zhang,et al.Chinese Lexical Analysis Using Hierarchical Hidden Markov Model[C]//Preceedings of Second SIGHAN workshop affiliated with 41th ACL,2003:63-70.

[4]米海濤,熊德意,劉群.中文詞法分析與句法分析融合策略研究[J].中文信息學(xué)報(bào),2008,22(2):10-17.

[5]那順烏日?qǐng)D,雪艷,葉嘉明.現(xiàn)代蒙古語(yǔ)語(yǔ)料庫(kù)加工技術(shù)的新進(jìn)展—新一代蒙古語(yǔ)詞語(yǔ)自動(dòng)切分與標(biāo)注系統(tǒng)[C]//第十屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì),2005.

[6]侯宏旭,劉群,那順烏日?qǐng)D,等.基于統(tǒng)計(jì)語(yǔ)言模型的蒙古文詞切分[J].模式識(shí)別與人工智能,2009,22:108-112.

[7]趙偉,侯宏旭,從偉,等.基于條件隨機(jī)場(chǎng)的蒙古語(yǔ)詞切分研究[J].中文信息學(xué)報(bào),2010,24(5):31-35.

[8]叢偉.基于層疊隱馬爾科夫模型的蒙古語(yǔ)詞切分系統(tǒng)的研究[D].內(nèi)蒙古大學(xué)碩士畢業(yè)論文,2009.

[9]艷紅,王斯日古楞.基于HMM的蒙古文自動(dòng)詞性標(biāo)注研究[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版),2010,39(2),206-209.

[10]古麗拉?阿東別克,米吉提?阿布力米提.維吾爾語(yǔ)詞切分方法初探[J].中文信息學(xué)報(bào),2004,18(6):61-65.

[11]Lawrence.R.Rabiner.A Tutorial on Hidden Markov M odels and Selected Applications in Speech Recognition[C]//Proceedings of IEEE,1989:257-286.

[12]John Lafferty,AndrewM cCallum,Fernando Pereira.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th ICML,2001:282-289.

[13]McCallum,A.,Freitag,D.,Pereira,F.Maximum entropy Markov models for informationextraction and segmentation[C]//Proc.ICM L,2000:591-598.

[14]Stolcke,Andreas.Srilm—an extensiblelanguage modeling toolkit[C]//Proceedings of the International Conference on Spoken Language Processing,2002:311-318.

猜你喜歡
詞干詞法蒙古語(yǔ)
含有“心”一詞蒙古語(yǔ)復(fù)合詞的語(yǔ)義
土默特地方蒙古語(yǔ)地名再探
論柯?tīng)柨俗握Z(yǔ)詞干提取方法
維吾爾語(yǔ)詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
論蒙古語(yǔ)中反映心理逆境傾向的某些字的含義
應(yīng)用于詞法分析器的算法分析優(yōu)化
談對(duì)外漢語(yǔ)“詞法詞”教學(xué)
俄語(yǔ)詞“Sherti”在蒙古語(yǔ)中的變義(蒙古文)
融合多策略的維吾爾語(yǔ)詞干提取方法
基于維吾爾語(yǔ)詞干詞綴粒度的漢維機(jī)器翻譯
江陵县| 蚌埠市| 梁平县| 湄潭县| 三明市| 河北省| 甘肃省| 周口市| 武强县| 西丰县| 泗水县| 湟中县| 容城县| 江阴市| 九龙县| 泰来县| 菏泽市| 开江县| 小金县| 博白县| 岳池县| 韶山市| 瑞昌市| 时尚| 马山县| 舞钢市| 兖州市| 米林县| 平阴县| 唐海县| 弥勒县| 讷河市| 赤水市| 青田县| 资阳市| 云林县| 南召县| 南澳县| 邹城市| 林口县| 海门市|