張海波,蔡洽吾,姜文斌,呂雅娟,劉 群
(中國科學(xué)院計(jì)算技術(shù)研究所 智能信息重點(diǎn)實(shí)驗(yàn)室,北京 100190)
黏著語是一種通過在詞干基礎(chǔ)上粘貼不同的詞綴來實(shí)現(xiàn)語法功能的語言類型。我國的很多少數(shù)民族語言,如維吾爾語、蒙古語、哈薩克語、朝鮮語等都屬于黏著語。黏著語在我國分布廣泛且使用人口眾多,分布地區(qū)具有較高的政治經(jīng)濟(jì)價(jià)值。黏著語每個(gè)詞的變化形式最多可達(dá)數(shù)百種,甚至上千種?,F(xiàn)有主流的機(jī)器翻譯方法基本上不考慮詞形變化,把每個(gè)不同詞形的詞都當(dāng)成獨(dú)立的詞語來考慮。但是對于黏著語而言,這種做法就會帶來比較嚴(yán)重的問題。因?yàn)檫@類語言的詞語變化非常靈活,形式多樣,這樣會導(dǎo)致機(jī)器翻譯時(shí)出現(xiàn)大量未登錄詞,嚴(yán)重影響機(jī)器翻譯的性能。
黏著語形態(tài)分析一般包含音變還原和形態(tài)切分兩個(gè)子任務(wù)。音變還原是黏著語形態(tài)分析中的重要基礎(chǔ)處理環(huán)節(jié)。音變現(xiàn)象是詞干與詞綴連接時(shí)發(fā)生弱化、增音、脫落等現(xiàn)象。據(jù)統(tǒng)計(jì)(表1),可以看出,音變現(xiàn)象在3種語言中廣泛存在。音變現(xiàn)象使形態(tài)分析工作變得更加困難,音變問題解決的好壞直接影響后續(xù)的形態(tài)分析工作。音變還原現(xiàn)象研究界關(guān)注較少,艾山·吾買爾等人[1]提出基于噪聲信道的識別模型,該模型以弱化的詞干詞尾的二個(gè)字符、3個(gè)字符以及最后音節(jié)作為上下文,建立相應(yīng)的語言模型以及似然度計(jì)算公式來解決音變現(xiàn)象問題。麥熱哈巴·艾力等人[2]提出了基于最大熵模型的音變還原模型,該模型主要基于詞性標(biāo)注工作的思想,首先找出每一個(gè)維吾爾語字母可能對應(yīng)的集合,然后通過維特比算法對維吾爾語字母進(jìn)行線性序列標(biāo)注,這種方法避開了總結(jié)和制定音變現(xiàn)象復(fù)雜的規(guī)則。然而上述方法只考慮了當(dāng)前字母的上下文環(huán)境,未考慮形態(tài)切分任務(wù)對于音變還原的影響,并且音變還原很難做到百分之百的準(zhǔn)確率,存在錯(cuò)誤傳播的問題。
表1 音變現(xiàn)象統(tǒng)計(jì)
形態(tài)切分是形態(tài)分析任務(wù)中重要的環(huán)節(jié),主要對黏著語單詞的各種切分方式進(jìn)行排歧,選擇最優(yōu)的切分方式。當(dāng)前很多形態(tài)切分都是以序列標(biāo)注模型求解的,典型的工作有趙偉[3]等提出的運(yùn)用條件隨機(jī)場解決蒙古語中的詞語切分問題,該工作將蒙古語詞內(nèi)的每一個(gè)字母看成最小的切分單元,對單詞內(nèi)的每一個(gè)字母進(jìn)行BMES標(biāo)注,B代表Begin, M代表Middle, E代表End, S代表Single,進(jìn)行標(biāo)注的時(shí)候只提取當(dāng)前字母左右的幾個(gè)字母窗口范圍內(nèi)的特征,然后運(yùn)用條件隨機(jī)場進(jìn)行判別式訓(xùn)練,然后采用維特比算法進(jìn)行求解出最優(yōu)的標(biāo)注序列,進(jìn)而得到蒙古語詞的切分結(jié)果。然而上述方法只考慮了當(dāng)前待標(biāo)注字母上下文的環(huán)境,并未考慮音變還原的相關(guān)信息,并且形態(tài)切分的輸入是音變還原之后的結(jié)果,音變還原性能的優(yōu)劣直接影響形態(tài)切分的效果。
為了解決音變還原任務(wù)中未考慮形態(tài)切分的信息,形態(tài)切分任務(wù)中未考慮音變還原的信息,以及音變還原和形態(tài)切分任務(wù)之間存在錯(cuò)誤傳播的問題。
本文提出了聯(lián)合音變還原與形態(tài)切分的模型進(jìn)行解決,該模型以序列標(biāo)注為基本框架,自動(dòng)地通過對齊發(fā)掘還原以及切分規(guī)律,在抽取的實(shí)例上訓(xùn)練感知機(jī)分類器,將音變還原以及形態(tài)切分融合在一個(gè)任務(wù)中完成,在復(fù)雜度變化不大的情況下,顯著地提高了形態(tài)分析的質(zhì)量。
實(shí)驗(yàn)結(jié)果表明,在維吾爾語、蒙古語以及韓語上顯示,聯(lián)合模型大幅度領(lǐng)先于傳統(tǒng)的先進(jìn)行音變還原后形態(tài)切分的模型以及有向圖模型[4]。文本組織結(jié)構(gòu)安排如下,第2部分闡述什么是黏著語的形態(tài)分析,第3部分闡述相關(guān)工作,第4部分闡述基于字符分類的音變還原,第5部分闡述基于字符分類的形態(tài)切分,第6部分闡述聯(lián)合音變還原及形態(tài)切分的模型,第7部分闡述相關(guān)實(shí)驗(yàn),最后對文章進(jìn)行總結(jié)。
黏著語是一種通過在詞干基礎(chǔ)上粘貼不同的詞綴來實(shí)現(xiàn)語法功能的語言類型。對于黏著語而言,由于詞語變化非常靈活,形式多樣,通過在詞干的基礎(chǔ)之上不斷添加詞綴來表達(dá)語法意義,詞的構(gòu)成方式如圖1所示。因此,黏著語形態(tài)分析的側(cè)重點(diǎn)在于詞干與詞綴的切分工作。以維吾爾語為例,說明黏著語的形態(tài)分析主要任務(wù)。如圖2所示,維吾爾語形態(tài)分析的輸入是維吾爾語單詞組成的句子,經(jīng)過形態(tài)分析之后,輸出詞干與詞綴切分之后的維吾爾語句子。
圖1 黏著語的單詞構(gòu)成方式
圖2 維吾爾語形態(tài)分析示意圖
黏著語的形態(tài)分析工作較為復(fù)雜,其困難主要表現(xiàn)在如下3點(diǎn)。
音變現(xiàn)象是詞干與詞綴連接時(shí)發(fā)生弱化、增音、脫落等現(xiàn)象。以維吾爾語為例,說明各種音變現(xiàn)象[4]。
(1) 弱化現(xiàn)象
弱化現(xiàn)象是詞干接詞綴時(shí)詞干中的某些字母會轉(zhuǎn)換成其他字母的現(xiàn)象。弱化現(xiàn)象不僅出現(xiàn)在元音上,也會出現(xiàn)在輔音上。當(dāng)詞綴層次多時(shí),弱化現(xiàn)象也會出現(xiàn)在詞綴所包含的字母上。例如,
mektep(學(xué)校,詞干)+im(第一人稱單數(shù),詞綴)=mektipim(我的學(xué)校)
其中詞干中的第二個(gè)元音e弱化為i。
(2) 增音現(xiàn)象
增音現(xiàn)象是詞干接詞綴時(shí),會增加一個(gè)字母的現(xiàn)象。
(3) 脫落現(xiàn)象
脫落現(xiàn)象是詞干接詞綴時(shí)有些字母會出現(xiàn)脫落的現(xiàn)象。
(4) 組合情況
組合情況是以上幾種情況會同時(shí)出現(xiàn)。
黏著語的音變現(xiàn)象較為嚴(yán)重,據(jù)統(tǒng)計(jì),韓語中發(fā)生音變的詞占總詞數(shù)的15%左右,維吾爾語中發(fā)生音變的詞占總詞數(shù)的13%左右。因此,黏著語的形態(tài)分析工作面臨的首要任務(wù)就是如何將發(fā)生音變現(xiàn)象的詞進(jìn)行還原,該問題統(tǒng)稱為音變還原問題。
黏著語的形態(tài)分析面臨詞干詞綴切分帶來的歧義,主要表現(xiàn)于如下兩個(gè)方面。
(1) 同一個(gè)詞提取的詞干具有歧義[4]
(2) 同一個(gè)詞提取的詞綴具有歧義
黏著語的形態(tài)分析任務(wù)面臨的第3點(diǎn)困難是缺乏語言資源,沒有大規(guī)模的形態(tài)分析標(biāo)注語料。在僅有的小規(guī)模標(biāo)注的形態(tài)分析語料上,并且沒有統(tǒng)一的標(biāo)注標(biāo)準(zhǔn),各單位、各組織根據(jù)自己制定的標(biāo)準(zhǔn)進(jìn)行標(biāo)注,造成資源的進(jìn)一步匱乏。如何在小規(guī)模語料資源上進(jìn)行黏著語的形態(tài)分析任務(wù)是一項(xiàng)具有挑戰(zhàn)的任務(wù)。
根據(jù)知識表示和知識獲取方式的不同,可以將形態(tài)分析的方法分成基于規(guī)則和基于統(tǒng)計(jì)兩類。根據(jù)學(xué)習(xí)方法的不同,后者還可以進(jìn)一步分為參數(shù)方法(或統(tǒng)計(jì)方法)等。
規(guī)則的方法主要是基于維吾爾語的特有語言學(xué)規(guī)則進(jìn)行音變還原、詞干詞綴切分等的方法,一般由語言學(xué)家根據(jù)每一種語言特點(diǎn),制定相應(yīng)的音變還原規(guī)則、詞干詞綴切分規(guī)則或者提取相應(yīng)的詞典,然后應(yīng)用于形態(tài)分析任務(wù)中。
古麗拉·阿東別克[5]提出了以“詞=詞根+附加成分”的結(jié)構(gòu),對維文詞的詞法和語法結(jié)構(gòu)進(jìn)行了歸納,提出了維吾爾語詞切分的一些規(guī)律和實(shí)現(xiàn)方法。維吾爾語相關(guān)語言學(xué)專家對維吾爾語名詞、動(dòng)詞等詞類的形態(tài)變化規(guī)律進(jìn)行總結(jié)[6],艾山·吾買爾[7]和早克熱·卡德爾[8]等人借鑒了這些已有的總結(jié)規(guī)律。
上述基于規(guī)則的形態(tài)分析方法,存在如下缺點(diǎn): 第一,必須依靠語言學(xué)家制定相關(guān)的語言學(xué)規(guī)則,耗費(fèi)了大量的人工成本,并且時(shí)間周期較長。第二,隨著規(guī)則的不斷增多,規(guī)則之間難免會發(fā)生顧此失彼的沖突現(xiàn)象,規(guī)則描述的粒度也會越來越細(xì),越來越不容易維護(hù)和管理。第三,規(guī)則難以解決存在的一些歧義現(xiàn)象,比如詞干切分引起的歧義。由于上述缺點(diǎn),基于規(guī)則方法的形態(tài)分析器性能比較低,而且難以維護(hù)。
基于統(tǒng)計(jì)模型的形態(tài)分析方法,利用標(biāo)注好的語料庫提取大量的特征或者統(tǒng)計(jì)相應(yīng)的概率,然后運(yùn)用最大熵模型、CRF模型、語言模型等進(jìn)行訓(xùn)練,通過維特比算法進(jìn)行解碼,從中求得一條最優(yōu)的路徑,該路徑即為最優(yōu)的形態(tài)分析路徑。
對于維吾爾語而言,麥熱哈巴·艾力[2]將音變還原問題轉(zhuǎn)化為單詞內(nèi)部字母的標(biāo)注問題,以單詞為單位,訓(xùn)練字母在音變后的字母候選規(guī)律及其概率,然后使用最大熵模型進(jìn)行訓(xùn)練,利用維特比算法進(jìn)行維吾爾語詞的標(biāo)注,從而得出音變還原之后的詞。麥熱哈巴·艾力[4]提出了有向圖模型運(yùn)用在維吾爾語形態(tài)分析的方法,該方法采用了兩個(gè)決定的關(guān)系,當(dāng)前的詞干僅由上一個(gè)詞干決定,當(dāng)前的詞綴僅由當(dāng)前詞上一個(gè)詞綴決定,首先通過已有的詞干詞綴詞典進(jìn)行枚舉詞的可能切分候選,然后采用雙層的語言模型進(jìn)行切分的排除歧義工作。
基于統(tǒng)計(jì)模型的形態(tài)分析方法有以下優(yōu)勢: 首先,由于直接從語料庫中獲取形態(tài)切分及音變還原的知識,不需要人工調(diào)試規(guī)則和詞典;其次,由于形態(tài)切分及音變還原的知識是直接來源于真實(shí)的標(biāo)注語料庫,所以與真實(shí)情況的切分盡量保持一致;最后,由于是帶參數(shù)的機(jī)器學(xué)習(xí),形態(tài)分析與語言本身無關(guān),所以形態(tài)分析模型可以迅速遷移到新的語言上。
然而,上述基于統(tǒng)計(jì)模型的方法存在如下缺點(diǎn)。在形態(tài)切分及排除歧義之前必須要進(jìn)行相應(yīng)的音變還原工作,音變還原工作的準(zhǔn)確率和速度直接影響下一步形態(tài)切分的性能,存在錯(cuò)誤不斷向下傳播的問題,如圖3所示。音變還原以及形態(tài)切分兩個(gè)任務(wù)沒有互相考慮對各自任務(wù)的影響。
圖3 傳統(tǒng)形態(tài)分析工作錯(cuò)誤傳播現(xiàn)象
鑒于上述基于統(tǒng)計(jì)模型的形態(tài)分析方法存在錯(cuò)誤傳播的問題,音變還原任務(wù)中未考慮 形 態(tài) 切 分 的信息,以及形態(tài)切分任務(wù)中未考慮音變還原的信息, 本文提出了聯(lián)合音變還原和形態(tài)切分的方法,能夠同時(shí)解決音變還原問題以及形態(tài)切分問題,不存在錯(cuò)誤傳播的問題。
本部分闡述基于感知機(jī)模型的音變還原工作。該模型以序列標(biāo)注為基本框架,自動(dòng)地通過對齊發(fā)掘還原以及切分規(guī)律,在抽取的實(shí)例上訓(xùn)練感知機(jī)分類器,實(shí)現(xiàn)音變還原任務(wù)。
傳統(tǒng)意義上的感知機(jī)常用于解決兩類的分類問題,然而,在自然語言處理任務(wù)中的分類種類通常大于兩類。對于音變還原任務(wù)而言,需要判斷詞內(nèi)每個(gè)字母的所屬分類,根據(jù)字母的分類情況,產(chǎn)生音變還原結(jié)果。我們可以通過詞內(nèi)字母對齊算法得到每一個(gè)字母可能的分類標(biāo)簽,關(guān)于詞內(nèi)字母對齊算法將在下一小節(jié)進(jìn)行論述。因此音變還原問題轉(zhuǎn)換為自然語言處理任務(wù)中常見的詞性標(biāo)注工作。對于單詞內(nèi)的每一個(gè)字母進(jìn)行分類標(biāo)注,然后組合標(biāo)注,即可得到音變還原的結(jié)果。如圖4所示,以維吾爾語單詞almisi為例,首先對該單詞進(jìn)行字符切分,變成由字符組成的序列,此時(shí)對該序列中的每一個(gè)字符進(jìn)行標(biāo)注,然后組合標(biāo)注后的結(jié)果即可,該結(jié)果就是音變還原的結(jié)果為almasi,可以發(fā)現(xiàn)i變成了a,發(fā)生了音變現(xiàn)象。
圖4 音變還原轉(zhuǎn)變成字符標(biāo)注問題
為解決傳統(tǒng)感知機(jī)的上述問題,可以對其進(jìn)行轉(zhuǎn)化成多元分類問題。對于每個(gè)字母,通過模型分別計(jì)算這字母在所屬所有類別時(shí)的模型得分,然后選擇最高分的類別作為這個(gè)字母的最終類別。序列標(biāo)注的權(quán)重需由感知機(jī)模型進(jìn)行訓(xùn)練得到。每次的解碼過程,我們采用維特比算法對基本字母序列進(jìn)行序列標(biāo)注。整個(gè)訓(xùn)練過程如圖5所示。
設(shè)輸入待分析的句子的原子序列為xi∈X,輸出標(biāo)注序列yi∈Y,X表示訓(xùn)練語料中的所有句子,Y表示對應(yīng)的標(biāo)注。其中GEN(x)采用維特比算法得到輸入句子xi的候選標(biāo)注結(jié)果,Φ(xi,z)為輸入句子的特征向量,然后計(jì)算Φ(xi,z)·w得分,選擇最高的標(biāo)注序列z。yi表示正確的標(biāo)注序列。
圖5 平均感知機(jī)訓(xùn)練算法
在形態(tài)豐富的音變還原工作過程中,我們需要提取到每一個(gè)字母對應(yīng)的標(biāo)注標(biāo)簽,換句話而言就是每一個(gè)字母對應(yīng)的tag的集合。我們需要設(shè)計(jì)一個(gè)算法抽取出每一個(gè)字母對應(yīng)的標(biāo)簽集合。該算法可以參照文獻(xiàn)[2]。
感知機(jī)訓(xùn)練的特征模板,如表2所示。其中,C0表示當(dāng)前字符,當(dāng)前字符左邊的第一個(gè)字符為C-1,同理,當(dāng)前字符右邊的第一個(gè)字符用C1表示。
表2 音變還原的特征模板
基于字符分類的形態(tài)切分,主要是基于線性詞語表示方法?;诰€性詞語表示方法,就是將每一個(gè)黏著語的單詞看成一個(gè)線性結(jié)構(gòu),句子中整個(gè)單詞序列也構(gòu)成一個(gè)線性序列。如圖6所示。
圖6 線性詞語表示
從圖6可以看出,w1到w2是一種線性結(jié)構(gòu),w1內(nèi)部的詞干到詞綴是一種線性結(jié)構(gòu)。線性結(jié)構(gòu)的優(yōu)點(diǎn)就是結(jié)構(gòu)簡單,容易進(jìn)行建模以及編程實(shí)現(xiàn)?;诰€性結(jié)構(gòu)表示方法的典型形態(tài)分析工作就是線性序列標(biāo)注模型。該線性序列標(biāo)注模型通常將單詞內(nèi)部的每一個(gè)字母看成是一個(gè)獨(dú)立的單元,通過提取每一個(gè)字母的上下文信息,對其進(jìn)行BMES標(biāo)注,進(jìn)而可以對該單詞進(jìn)行詞干以及詞綴的切分工作,最終得到形態(tài)分析的結(jié)果。其中,BMES代表的含義如表3所示。
表3 BMES含義表
我們以蒙古語句子為例,說明序列標(biāo)注模型,如圖7所示。
圖7 序列標(biāo)注模型過程示意圖
在上面這個(gè)圖中,輸入的是蒙古語的句子,首先需要進(jìn)行原子序列的切分,單詞之間加“#”,單詞內(nèi)的每一個(gè)字母之間加空格,進(jìn)而切分成一個(gè)線性的詞語表示結(jié)構(gòu),滿足單詞之間是線性結(jié)構(gòu),單詞內(nèi)部的字母之間是線性結(jié)構(gòu)。其次,在切分好的線性序列的基礎(chǔ)之上,對于每一個(gè)原子提取上下文特征信息,利用BMES進(jìn)行標(biāo)注,可以得到標(biāo)注的結(jié)果,結(jié)果是由BMES組成的一個(gè)序列。最后,通過BME或者BE或者S組成一個(gè)單元的方式進(jìn)行切分蒙古語句子。
在本部分我們用感知機(jī)模型進(jìn)行訓(xùn)練,采用表2的特征模板,解碼算法采用維特比算法。
聯(lián)合音變還原和形態(tài)切分方法,將音變還原問題和形態(tài)切分問題融合成一個(gè)序列標(biāo)注的問題。一次序列標(biāo)注既可以得到音變還原的結(jié)果,也可以得到形態(tài)切分的結(jié)果,解決了傳統(tǒng)的形態(tài)分析方法存在錯(cuò)誤傳播的問題。本部分首先闡述聯(lián)合音變還原和形態(tài)切分的方法的原理,然后闡述聯(lián)合方法的訓(xùn)練及解碼框架,最后闡述采用的特征模版。
聯(lián)合音變還原和形態(tài)切分的方法,同時(shí)進(jìn)行音變還原工作和形態(tài)切分工作,通過一次的序列標(biāo)注,達(dá)到雙重效果。該方法采用一種聯(lián)合標(biāo)簽,該標(biāo)簽具有音變還原的功能,同時(shí)也具有形態(tài)切分的功能。
圖8 詞內(nèi)字母對齊
以維吾爾語單詞“almisi”為例說明。首先,單詞“almisi”的原始形式為“almasi”,通過詞內(nèi)字母對齊算法[2],生成如下對應(yīng)關(guān)系,如圖8所示。
生成標(biāo)簽 。其次,通過單詞的形態(tài)分析形式“alma+si”,生成如下標(biāo)簽, 。
最后,進(jìn)行組合標(biāo)簽,如圖9所示,得到 。
圖9 聯(lián)合標(biāo)簽生成過程
該方法的訓(xùn)練流程如下: 首先,對于語料中的原始詞以及形態(tài)分析之后的詞,利用詞內(nèi)字母對齊算法進(jìn)行抽取對齊字母對,對齊字母對目標(biāo)端即為源端字母的標(biāo)注標(biāo)簽。其次,根據(jù)形態(tài)分析之后的詞,對于原始詞內(nèi)的每一個(gè)字母進(jìn)行BMES標(biāo)注。然后,將每一個(gè)字母的對齊字母對標(biāo)注以及BMES標(biāo)注進(jìn)行組合成新的標(biāo)注標(biāo)簽,該標(biāo)簽是音變還原以及切分標(biāo)注。BMES的組合,因此該標(biāo)簽具有雙重的功能。最后,提取單詞內(nèi)每一個(gè)字母的上下文信息,并生成相應(yīng)的特征文件,利用感知機(jī)進(jìn)行訓(xùn)練,得到模型文件。訓(xùn)練框架圖如圖10所示。
圖10 聯(lián)合模型的訓(xùn)練框架
特征設(shè)計(jì)是基于聯(lián)合音變還原和形態(tài)切分方法的關(guān)鍵因素。特征設(shè)計(jì)的優(yōu)劣直接影響系統(tǒng)的性能。本文采用的特征模版如圖11所示,其中,表示當(dāng)前考察的字母,表示當(dāng)前考察字母左邊第n個(gè)字母,表示當(dāng)前考察字母右邊第n個(gè)字母。
類型特征模板1元組Ci-4≤i≤42元組Ci-1Ci-3≤i≤43元組Ci-2Ci-1Ci-2≤i≤44元組Ci-3Ci-2Ci-1Ci-1≤i≤4
圖11 聯(lián)合模型系統(tǒng)采用的特征模板
聯(lián)合模型系統(tǒng)解碼框架示意圖如圖12所示。首先,按照相同的前處理,將輸入的句子處理成原子序列及“#”組成的序列,然后對該序列進(jìn)行相應(yīng)的聯(lián)合標(biāo)簽標(biāo)注。解碼算法采用維特比算法,得到最優(yōu)的形態(tài)切分的結(jié)果。在求得結(jié)果中,兩個(gè)“#”之間的部分是一個(gè)單詞,根據(jù)兩個(gè)“#”之間的BMES標(biāo)注可以對該單詞進(jìn)行切分,利用對齊對標(biāo)簽可以恢復(fù)單詞的準(zhǔn)確形式,進(jìn)而得到聯(lián)合音變還原和形態(tài)切分模型的形態(tài)分析的結(jié)果。
圖12 聯(lián)合模型系統(tǒng)解碼框架
本章的維吾爾語的語料資源是由新疆多語種重點(diǎn)實(shí)驗(yàn)室手工標(biāo)注的《維吾爾語百萬詞詞法分析語料庫》,此語料庫包括72 741個(gè)完整的句子,分別選擇1%作為開發(fā)集和測試集,開發(fā)集共包含727句,測試集包含727句。剩余的99%作為訓(xùn)練集,共包含71 290句。蒙語是由內(nèi)蒙古大學(xué)蒙古學(xué)學(xué)院開發(fā)的20萬詞規(guī)模詞法分析語料庫上進(jìn)行實(shí)驗(yàn)。該語料庫共包括14 115 個(gè)完整的句子,我們從中隨機(jī)抽取出各5%的語句分別用做開發(fā)集和測試集,各含705 句,剩余 90% 的語句用做訓(xùn)練集,含12 705 句。韓語語料由網(wǎng)絡(luò)資源以及與合作方共同開發(fā)的資源組成,共包含54 358句,分別選擇1%作為開發(fā)集和測試集,開發(fā)集共包含543句,測試集包含543句。剩余的99%做為訓(xùn)練集,共包含53 272句。
黏著語的詞法分析結(jié)果結(jié)構(gòu)遠(yuǎn)比漢語復(fù)雜,傳統(tǒng)的正確率、召回率和F 值不能直接適用。本工作中我們定義和采納了多種指標(biāo),從不同角度和層面考量詞法分析器的性能。
a) 詞級正確率
以詞為單位計(jì)量,僅當(dāng)詞內(nèi)詞干、詞綴及其標(biāo)注均正確時(shí),該詞才是分析正確的。
(1)
b) 詞干詞綴級正確率Psa,召回率Rsa和Fsa值
以詞干和詞綴為單位計(jì)量,僅當(dāng)詞干或詞綴及相應(yīng)標(biāo)注正確時(shí),該詞干或詞綴才是分析正確的。因此,詞干和詞綴可類比為漢語詞法分析中的詞。此評價(jià)標(biāo)準(zhǔn)引自文獻(xiàn)[9]。
本部分實(shí)驗(yàn)我們將在維吾爾語、蒙古語以及韓語3個(gè)語種上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果主要通過詞級的準(zhǔn)確率來進(jìn)行衡量,詞級準(zhǔn)確率是還原正確的詞數(shù)目與總詞數(shù)目的商得到。實(shí)驗(yàn)結(jié)果如表4所示。
表4 音變還原的性能
從上表中可以看出,在維吾爾語上,系統(tǒng)的準(zhǔn)確率達(dá)到了93.14%。對于蒙古語而言,基于平均感知機(jī)的音變還原模塊的準(zhǔn)確率為99.56%,識別的準(zhǔn)確率相當(dāng)高。對于韓語而言,基于平均感知機(jī)的音變還原模塊的準(zhǔn)確率為95.01%。
本文傳統(tǒng)的音變還原部分采用的方法類似于麥熱哈巴[2]的工作,麥熱哈巴在6萬多語料規(guī)模上,自動(dòng)還原模型對測試對象中整個(gè)詞的還原正確率達(dá)到了90%。本文在7萬多語料規(guī)模上,中綴音變還原模型對測試對象中整個(gè)詞的還原準(zhǔn)確率達(dá)到93.14%。從結(jié)果上可以看出,本文提出的方法相對于前人較好的音變還原工作具有可比性,并且能夠取得更為有效的性能。
此實(shí)驗(yàn)的目的是為了測試基于感知機(jī)的字符分類的形態(tài)切分的性能。該實(shí)驗(yàn)的輸入是經(jīng)過準(zhǔn)確音變還原之后的標(biāo)準(zhǔn)數(shù)據(jù),排除音變的影響,單獨(dú)測試形態(tài)切分的性能。系統(tǒng)的性能如表5所示,可以看出,形態(tài)切分的性能幾乎都能達(dá)到98%以上,達(dá)到了很高的性能。
表5 形態(tài)切分的系統(tǒng)性能
此實(shí)驗(yàn)的目是為了驗(yàn)證聯(lián)合音變還原和形態(tài)切分的形態(tài)分析性能要優(yōu)于傳統(tǒng)的形態(tài)分析方法?;€系統(tǒng)為先進(jìn)行音變還原,然后在進(jìn)行形態(tài)切分的系統(tǒng)?;€系統(tǒng)的音變還原將產(chǎn)生的1best結(jié)果輸出給形態(tài)切分系統(tǒng)?;€系統(tǒng)設(shè)置音變還原的1best結(jié)果,是通過實(shí)驗(yàn)進(jìn)行驗(yàn)證,隨著音變還原的nbest結(jié)果增多,系統(tǒng)逐漸下降,因此此處設(shè)置為1best。為了排除由于不同的特征模板帶來實(shí)驗(yàn)效果的差異,基于聯(lián)合方法采用的特征模板與基線系統(tǒng)采用的特征模板保持一致。測試結(jié)果如表6所示,可以看出,基于聯(lián)合方法的系統(tǒng),在維吾爾語上,詞級準(zhǔn)確率提升了0.64個(gè)點(diǎn),在蒙古語上,詞級準(zhǔn)確率提升了0.42個(gè)點(diǎn),在韓語上,詞級準(zhǔn)確率提升了5.89個(gè)點(diǎn)。測試結(jié)果表明,基于聯(lián)合音變還原和形態(tài)切分的形態(tài)分析方法要比傳統(tǒng)的先音變還原后形態(tài)切分的方法要好,可以很好地解決錯(cuò)誤傳播的問題,音變還原和形態(tài)切分兩個(gè)任務(wù)互相影響。
表6 聯(lián)合模型的系統(tǒng)性能
續(xù)表
在韓語上,系統(tǒng)的準(zhǔn)確率出現(xiàn)了大幅度上升,產(chǎn)生此種現(xiàn)象的主要原因是在韓語中大約30%以上的詞出現(xiàn)了音變現(xiàn)象,高度的音變現(xiàn)象導(dǎo)致了音變還原之后的結(jié)果有很多錯(cuò)誤,導(dǎo)致基線系統(tǒng)的系能很低。然而,聯(lián)合模型的系統(tǒng)由于將音變還原和形態(tài)切分兩個(gè)任務(wù)聯(lián)合起來實(shí)現(xiàn),解決了音變還原任務(wù)錯(cuò)誤傳播的問題,大幅度地提升了系統(tǒng)的性能。
對于速度而言,在3個(gè)語種上,聯(lián)合系統(tǒng)都明顯低于基線系統(tǒng)。通過研究,我們發(fā)現(xiàn),聯(lián)合系統(tǒng)由于將音變還原標(biāo)簽和形態(tài)切分標(biāo)簽聯(lián)合起來組成聯(lián)合標(biāo)簽的原因,導(dǎo)致了存在了大量的分類標(biāo)簽,這些大量的分類標(biāo)簽導(dǎo)致了大量的查詢以及增加解碼空間,從而導(dǎo)致速度明顯低于基線系統(tǒng)。
本文提出了一種聯(lián)合音變還原和形態(tài)切分的形態(tài)分析方法。該方法通過使用具有雙重功能的聯(lián)合標(biāo)簽,同時(shí)實(shí)現(xiàn)了音變還原及形態(tài)切分的功能。由于該方法不依賴于黏著語的特有的語言學(xué)規(guī)則,因此便于擴(kuò)展到新的語言上。實(shí)驗(yàn)結(jié)果表明,基于聯(lián)合音變還原和形態(tài)切分的形態(tài)分析方法要優(yōu)于傳統(tǒng)的先進(jìn)行音變還原后形態(tài)切分的形態(tài)分析方法,能夠很好地解決先音變還原后形態(tài)切分帶來的錯(cuò)誤傳播問題。
[1] 艾山·吾買爾,吐爾根·依布拉音. 基于噪聲信道模型的維吾爾語央音原音識別[J]. 中國計(jì)算機(jī)語言學(xué)研究前沿發(fā)展,2010,46(15):118-120.
[2] 麥熱哈巴·艾力,姜文斌,吐爾根·依布拉音. 維吾爾語詞法中音變現(xiàn)象的自動(dòng)還原模型[J].中文信息學(xué)報(bào),2012,26(1):91-96.
[3] 趙偉,侯宏旭,從偉,宋美娜. 基于條件隨機(jī)場的蒙古語詞切分研究[J]. 中文信息學(xué)報(bào), 2010,24(5):31-35.
[4] 麥熱哈巴·艾力,姜文斌,王志洋,吐爾根·依布拉音,劉群. 基于有向圖模型的維吾爾語詞法分析[J]. 軟件學(xué)報(bào),2012,23(12):3115-3129.
[5] 古麗拉·阿東別克,米吉提·阿不力米提. 維吾爾語詞切分方法初探[J].中文信息學(xué)報(bào)2004,18(6):61-65.
[6] 阿依克孜·卡德爾,開沙爾·卡德爾,吐爾根·依布拉音. 面向自然語言處理信息處理的維吾爾語名詞形態(tài)分析研究[J]. 中文信息學(xué)報(bào),2006,20(3):43-48.
[7] 艾山·吾買爾,吐爾根·依布拉音,早克熱·卡德爾.維吾爾語名詞干提取算法的研究[C]//第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議,2008.
[8] 早克熱·卡德爾,吐爾根·依布拉音. 維吾爾語形容詞構(gòu)形詞綴有限狀態(tài)機(jī)[J].電腦知識與技術(shù),2009,5(4):937-941.
[9] 宋彥, 蔡東風(fēng), 張桂平,趙海. 一種基于字詞聯(lián)合解碼的中文分詞方法[J]. 軟件學(xué)報(bào),2009,20(9):2366-2375.
[10] 米海濤, 熊德意, 劉群. 中文詞法分析與句法分析融合策略研究[J]. 中文信息學(xué)報(bào),2008,22(2):10-17.
[11] 那順烏日圖, 雪艷, 葉嘉明. 現(xiàn)代蒙古語料庫加工技術(shù)的新進(jìn)展—新一代蒙古語詞語自動(dòng)切分與標(biāo)注系統(tǒng)[C].第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會,2005.
[12] 那順烏日圖, 淑琴. 面向信息處理的蒙古語規(guī)范化探究[J]. 中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版), 2006,6:115-122.
[13] 叢偉. 基于層疊隱馬爾科夫模型的蒙古語詞切分系統(tǒng)的研究[D]. 內(nèi)蒙古大學(xué)碩士畢業(yè)論文,2009.
[14] 艷紅, 王斯日古楞. 基于 HMM的蒙古文自動(dòng)詞性標(biāo)注研究[J]. 內(nèi)蒙古師范大學(xué)報(bào)( 自然科學(xué)漢文版),2010,39(2):206-209.
[15] 李文,李淼,張建. 一種帶權(quán)值參數(shù)的非監(jiān)督式形態(tài)分析方法[C].少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展,2010.
[16] 米熱古麗·艾力, 米吉提·阿不力米提, 艾斯卡爾·艾木都拉.基于詞法分析的維吾爾語元音弱化算法研究[J],中文信息學(xué)報(bào),2008,22(4):43-47.
[17] 米吉提·阿不力米提, 等.維吾爾語中的語音和諧規(guī)律及算法的實(shí)現(xiàn)[C].中國科協(xié) 2005 年會. 2005.
[18] 姜文斌,吳金星,長青,那順烏日圖,劉群,趙理莉, 蒙古語詞法分析的有向圖模型[J]. 中文信息學(xué)報(bào),2011, 25(5): 94-100.
[19] 阿孜占麗·夏力甫. 維吾爾語動(dòng)詞附加語素的復(fù)雜特征研究[J]. 中文信息學(xué)報(bào),2008,22(3):105-109.
[20] 侯宏旭, 劉群, 那順烏日圖, 牧仁高娃, 李錦濤. 基于統(tǒng)計(jì)語言模型的蒙古文詞切分[J]. 模式識別與人工智能,2009,22(1):108-112.