賽迪亞古麗·艾尼瓦爾,向 露,宗成慶,艾克白爾·帕塔爾,艾斯卡爾·艾木都拉
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2. 中國科學(xué)院自動(dòng)化研究所 模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室,北京 100190)
?
融合多策略的維吾爾語詞干提取方法
賽迪亞古麗·艾尼瓦爾1,向 露2,宗成慶2,艾克白爾·帕塔爾1,艾斯卡爾·艾木都拉1
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2. 中國科學(xué)院自動(dòng)化研究所 模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室,北京 100190)
維吾爾語是形態(tài)變化復(fù)雜的黏著性語言,維吾爾語詞干詞綴切分對(duì)維吾爾語信息處理具有非常重要的意義,但到目前為止,維吾爾語詞干提取的性能仍存在較大的改進(jìn)空間。該文以N-gram模型為基本框架,根據(jù)維吾爾語的構(gòu)詞約束條件,提出了融合詞性特征和上下文詞干信息的維吾爾語詞干提取模型。實(shí)驗(yàn)結(jié)果表明,詞性特征和上下文詞干信息可以顯著提高維吾爾語詞干提取的準(zhǔn)確率,與基準(zhǔn)系統(tǒng)比較,融入了詞性特征和上下文詞干信息的實(shí)驗(yàn)準(zhǔn)確率分別達(dá)到了95.19%和96.60%。
維吾爾語;形態(tài);詞干提?。籒-gram模型;詞性特征;上下文詞干信息
維吾爾語屬于黏著性語言,黏著性語言的構(gòu)詞和構(gòu)形都是以詞根、詞干綴接不同的詞綴來實(shí)現(xiàn)語法功能。每一個(gè)詞的構(gòu)成和其語法意義的表示都是依賴于不同詞綴的綴接,每個(gè)詞綴都有獨(dú)立的語法意義,詞綴不僅改變詞根的詞義,也會(huì)決定一個(gè)詞在句子中的作用。任意詞根追加不同的詞綴(所屬性,時(shí)態(tài),復(fù)數(shù))都會(huì)生成不同的新詞。所以正確切分維吾爾語詞干和詞綴才能正確揭示其詞類詞性和語法關(guān)系。另一方面維吾爾語中同形異義詞數(shù)量較多,這使得維吾爾語詞干提取歧義現(xiàn)象嚴(yán)重。所以設(shè)計(jì)一個(gè)高準(zhǔn)確率的維吾爾語詞干提取系統(tǒng),對(duì)維吾爾語信息處理的研究具有重要的意義。
維吾爾語作為黏著語,它的語法形式都是通過在單詞原形的后面或前面添加一定的附加成分來完成的。這就造成在真實(shí)維吾爾文本中,一個(gè)維吾爾語詞對(duì)應(yīng)多個(gè)字符串的形式。由于詞典的規(guī)模是有限的,所以這些不同的形式不可能都錄用在詞典中。因此,有必要找出詞干與相應(yīng)的附加成分的關(guān)系。并且,維吾爾語詞切分中,除了詞干提取以外還要進(jìn)行詞綴的切分。這是因?yàn)闃?gòu)形附加成分與詞干互相黏連,并且構(gòu)形附加成分也互相黏連。構(gòu)形附加成分往往可以表示一定詞匯意義或語法意義,所以,如果不將這些黏連在一起的構(gòu)形附加成分完整的切分開,不能準(zhǔn)確的領(lǐng)會(huì)整個(gè)單詞的含義。并且,構(gòu)形附加成分還能表示詞與詞之間的關(guān)系。所以,切分構(gòu)形附加成分是很有必要的。同時(shí),構(gòu)形附加成分的切分對(duì)句法分析、語義分析、語用分析等更深層的自然語言處理的應(yīng)用都有很重要的意義。
維吾爾語屬于阿爾泰語系突厥語族,是典型的黏著性語言,與漢語的字符順次拼接的構(gòu)詞方法相比,日語、蒙古語、土耳其語和阿拉伯語等形態(tài)變化復(fù)雜的語言的構(gòu)詞規(guī)則更加復(fù)雜。詞干提取在維吾爾語、阿拉伯語、土耳其語等黏著性語言中與中文分詞一樣很重要。當(dāng)前,阿拉伯語和其他黏著性語言的詞法分析研究已經(jīng)做到可用的水平,并取得了一定客觀的成果:日語[1]、阿拉伯語[2]、蒙古語[3],但對(duì)維吾爾語的詞法分析研究起步比較晚,很多研究者提出了不同的方法。文獻(xiàn)[4]提出了基于有限狀態(tài)自動(dòng)機(jī)和詞典查詢相結(jié)合的維吾爾語名詞詞干提取算法,此方法中由于維吾爾語的語音和諧,詞綴與詞干詞尾相似導(dǎo)致過度切分的情況。文獻(xiàn)[5]提出了最大熵模型和有限狀態(tài)自動(dòng)機(jī)相結(jié)合的維吾爾語詞干提取方法。準(zhǔn)確率已達(dá)到91.27%,這個(gè)方法對(duì)名詞詞干提取是有效的,但對(duì)其他詞性的詞語詞干提取效果不理想。文獻(xiàn)[6]提出了一個(gè)有向圖模型來對(duì)維吾爾語詞進(jìn)行詞法分析,詞干提取準(zhǔn)確率達(dá)到94.7%,但是此模型會(huì)導(dǎo)致一個(gè)詞有過多的非法候選,以致引入無謂的歧義。文獻(xiàn)[7]提出了使用條件隨機(jī)場的維吾爾語詞干提取方法,這是一個(gè)純統(tǒng)計(jì)的方法,準(zhǔn)確率達(dá)到88.9%。 文獻(xiàn)[8]提出了通過建立詞干庫、詞綴庫,規(guī)則和統(tǒng)計(jì)相結(jié)合的維吾爾語詞干提取方法,詞干詞綴切分準(zhǔn)確率可以達(dá)到95%。該工作提出了基于語素(包括詞根和詞綴)的N-gram語言模型的詞干提取模型。此方法取得了較好的性能,但依賴于詞干、詞綴庫,同時(shí)也存在切分過碎的問題。由于維吾爾語的構(gòu)詞和形態(tài)變化比較復(fù)雜,N-gram語言模型雖然可以取得一定的準(zhǔn)確率,但是仍存在下述問題不能解決。
(1) 對(duì)同一個(gè)詞進(jìn)行詞干、詞綴切分時(shí),其詞干出現(xiàn)歧義,例如,
aldi(拿了)=al(拿)+di(第三人稱單數(shù),過去式詞綴);
aldi(前面)= aldi(前面)。
(2) 詞干的一部分被看成是詞綴,出現(xiàn)錯(cuò)誤切分,例如,
dENiz(海)= dENiz(海);
dENiz(海)=dE(說)+Niz(第一人稱單數(shù))。[錯(cuò)誤切分]
(3) 對(duì)同一個(gè)詞進(jìn)行詞干、詞綴切分時(shí),其詞綴出現(xiàn)錯(cuò)誤,例如,
ademler(人們的)=adem(人)+ler(第(二)三人稱復(fù)數(shù));
ademler(人們的)=adem(人)+lar(第(二)三人稱復(fù)數(shù))。[錯(cuò)誤切分]
(4) 音變字母可以還原成不同的字母,而且都具有實(shí)際意義,例如,
bErip(去了)=bar(去)+ip;
bErip(給了)=bEr(給)+ip。
為了解決上述問題,僅僅只考慮待切分的維吾爾語詞本身和簡單的詞干、詞綴統(tǒng)計(jì)信息是遠(yuǎn)遠(yuǎn)不夠的,我們必須要考慮維吾爾語詞本身的構(gòu)詞特點(diǎn)和語言特征。同時(shí)一個(gè)詞語的意義往往受到特定上下文的影響,為了消除歧義切分,我們還必須考慮上下文信息。因此,在已有工作的基礎(chǔ)上,我們提出了融合語言特征的詞干提取模型。
1) 在大規(guī)模文本語料庫的基礎(chǔ)上,對(duì)詞干詞性和詞綴的連接形式進(jìn)行統(tǒng)計(jì),從而得到詞干詞性-詞綴結(jié)構(gòu)的初步表達(dá)模式。這樣可以通過詞干詞性和詞綴的連接模式解決過度切分和詞干詞綴連接形式不合法的問題。
2) 利用大規(guī)模文本語料庫來學(xué)習(xí)上下文詞干之間的轉(zhuǎn)移概率并利用此轉(zhuǎn)移概率作為選擇最優(yōu)切分的依據(jù),從而可以解決維吾爾語詞切分歧義的問題。
本文第二節(jié)介紹維吾爾語構(gòu)詞特點(diǎn),第三節(jié)介紹維吾爾語詞詞干提取方法,第四節(jié)是實(shí)驗(yàn)和結(jié)果分析,第五節(jié)是結(jié)論。
維吾爾語是一種黏著語言,與漢語和英語有很大不同,詞與詞之間以空格隔開,具有比較復(fù)雜的形態(tài)變化。按附加詞根的位置,附加成分有前接附加成分(前綴)和后接附加成分(后綴),其中多數(shù)附加成分為后接附加成分,只有少數(shù)為前綴附加成分。在維吾爾語中,語音和語義結(jié)合的最小單位是語素,語素是由一個(gè)或一個(gè)以上的語素組成的,他們都有一定的意義或語法意義。維吾爾語的語素可以分為三類,即詞根、構(gòu)詞附加成分和構(gòu)形附加成分。維吾爾語單詞的組成形式是“prefix+stem+suffix1+suffix2+…+suffixn”,結(jié)構(gòu)如圖1所示。
圖1 維吾爾語單詞的結(jié)構(gòu)
其中,prefix是前綴,stem是詞干,suffix1+suffix2+…+suffixn是復(fù)合詞綴,suffixi(i=1,2,…,n)是單詞綴,復(fù)合詞綴是由多個(gè)單詞綴連接構(gòu)成的。附加成分的追加成分是多層次的,表現(xiàn)出不同的形態(tài)和不同的語法意義。
例如,
yaz寫(詞干)
yazdim我寫了
yazalidim我能寫了
yazganliktin由于(她)寫了
yazguzganidim我讓別人寫了
… …
由于維吾爾語詞是字符序列,詞干和詞綴之間沒有明確的間隔標(biāo)記。維吾爾語詞綴種類多,連接形式各式各樣,而且有限的詞干附加各種詞綴可以生成無限的新詞并表示不同的語法意義,這些構(gòu)詞特點(diǎn)大大增加了維吾爾語信息處理的難度。為了提高維吾爾語信息處理的性能,進(jìn)行維吾爾語詞干提取工作具有重要的現(xiàn)實(shí)意義。
3.1 維吾爾語詞干提取過程
本文對(duì)維吾爾語進(jìn)行詞干提取的流程如圖2所示。
圖2 詞干提取流程圖
第一步,讀入一個(gè)維吾爾語句子。
第二步,使用正向匹配和逆向匹配算法對(duì)句子中的每個(gè)詞進(jìn)行切分得到詞的切分候選集合。具體步驟為[9]:
(1) 如果待切分詞有前綴,使用正向匹配,切分出前綴;
(2) 接上一步,使用正向匹配對(duì)剩余部分進(jìn)行切分,將剩余部分切分成詞干和復(fù)合詞綴的形式;
(3) 使用逆向匹配法,將復(fù)合詞綴切分成單詞綴的形式;
(4) 將待切分詞寫成“前綴+詞干+單詞綴”的形式。
第三步,利用詞性特征檢查切分候選集合中詞干、詞綴連接的合法性,并計(jì)算權(quán)重。
第四步,使用N-gram統(tǒng)計(jì)語言模型算出每個(gè)切分候選的概率[9]。
用變量代表文本中一個(gè)詞的任意語素序列,它由順序排列的n個(gè)語素組成,即W=w_1,w_2,…w_n,w_i是詞的第i個(gè)語素,則該語素序列W的概率可以展開為式(1)。
(1)
一般,用二元語言模型來計(jì)算每個(gè)切分候選的概率,這里,詞干-詞綴的邊界是計(jì)算切分概率的重要部分,如式(2)所示。
(2)
其中,count(t)是t的出現(xiàn)次數(shù)。
第五步,通過上下文詞干信息計(jì)算出相鄰詞干的轉(zhuǎn)移概率。
最后,結(jié)合第四步和第五步的概率值選出最優(yōu)切分結(jié)果。
3.2 維吾爾語詞性特征
維吾爾語詞語分為12類,其中七類是實(shí)詞(主要分類),五類是虛詞(助詞類)。實(shí)詞分為動(dòng)詞和靜詞,靜詞包括名詞、形容詞、數(shù)詞、量詞、代詞、副詞和擬聲詞等詞類。虛詞包括后置詞、連詞、感嘆詞和語氣詞[10]。
本文我們收集訓(xùn)練語料庫中的詞干,對(duì)它們進(jìn)行人工詞性標(biāo)注,例如,名詞、數(shù)詞、動(dòng)詞和形容詞等。標(biāo)注的時(shí)候如果一個(gè)詞干同時(shí)屬于兩個(gè)或兩個(gè)以上的詞性時(shí),檢查詞干在訓(xùn)練語料庫中哪個(gè)詞性類的出現(xiàn)次數(shù)高來判斷該詞干的詞類。維吾爾語中有大量的詞綴成分,以上詞類都可以附加各自的詞綴和有自己特定的詞綴,而且不同詞性的詞干能夠連接的詞綴也不同[11]。由于維吾爾語附加成分的追加形式多變復(fù)雜,種類繁多,連接形式各式各樣[12],所以我們將從訓(xùn)練語料中集中學(xué)習(xí)每個(gè)詞類詞干各自的單詞綴信息,有了詞干詞性信息和詞綴信息,我們就可以為詞干詞綴的連接形式設(shè)計(jì)出初步的知識(shí)表達(dá)模式了。
通過收集9 025條各個(gè)領(lǐng)域的句子(包括小說、新聞稿、科學(xué)讀物等)作為訓(xùn)練語料庫,統(tǒng)計(jì)出11 114個(gè)詞干,313個(gè)單詞綴,并對(duì)所有詞干進(jìn)行詞性標(biāo)注,學(xué)習(xí)出了12類詞干能連接的單詞綴分布情況,如表1所示。
表1 詞性-詞綴分布統(tǒng)計(jì)
從表1 可以看出,維吾爾語中每個(gè)詞類的詞干只能連接部分詞綴,以上詞類可以附加各自的詞綴以及都有各自特定的詞綴,不同詞性的詞干能夠連接的詞綴集合不同。以名詞類詞干為例,在整個(gè)11 114個(gè)詞干中有79.14%的詞干是名詞性詞干,名詞性詞干的數(shù)量很多,而在313個(gè)單詞綴中能綴接在名詞性詞干后面的詞綴占78.59%,剩下的21.41%的詞綴不能連接在名詞性詞干后面。此外,模擬詞不需要進(jìn)行詞干提取。這個(gè)約束條件有利于檢查一個(gè)單詞綴是否能夠合法地連接在某一詞性類的詞干后面,從而可以降低詞干-詞綴連接錯(cuò)誤的問題。
根據(jù)上述的語言約束條件,我們可以初步設(shè)計(jì)詞性詞干-詞綴的連接模式。本文提出的切分規(guī)則定義如下:假設(shè)一個(gè)維吾爾語詞語“W(S1S2…Sn)”,S1∈Td,其中W是詞干,Td是單詞綴庫,S1S2…Sn是復(fù)合詞綴,Wd是詞性詞干表,S1為詞干W連接的第一個(gè)詞綴。如果詞干W為某個(gè)詞性詞干表中的詞干,且S1是單詞綴庫詞綴且滿足該詞性詞干對(duì)詞綴的要求,那么使用式(3)計(jì)算維吾爾語詞每種切分的概率值。
(3)
其中,
(4)
例如,維吾爾語詞birlexme(聯(lián)合)本身是一個(gè)名詞詞干,通過前向逆向匹配法可以得到該詞的五個(gè)候選切分,我們可以對(duì)這五個(gè)候選切分進(jìn)行詞干詞綴連接合法性的檢查,如表2所示。
表2 詞性特征
從表2可以看出,當(dāng)birlexme切分成birlex+me時(shí),由于birlex是動(dòng)詞性詞干,詞綴me可以連接在動(dòng)詞性詞干后面,因此birlex+me這種切分是合法的;而當(dāng)birlexme被切分成bir+lex+me時(shí),bir是數(shù)詞性詞干,由于詞綴lex不能連接在數(shù)詞性詞干后面,所以這種切分是不合法的。因此,詞性詞干-詞綴連接形式可以有效地減少非法候選導(dǎo)致的歧義性問題。
3.3 上下文詞干信息
維吾爾語詞匯中同形異義詞較多,出現(xiàn)頻率較高,而且同一個(gè)詞在不同上下文中切分結(jié)果是不同的。例如,
uniN ismi turdi(他的名字叫吐爾地)
u ornidin turdi(他站起來了)
其中,單詞turdi在兩個(gè)句子中形式是一樣的,但是在第一句中turdi是一個(gè)人名,詞干就是其本身。而在第二句中turdi 是由詞干tur加詞綴di構(gòu)成的,并且詞干詞綴的連接形式是合法的。如果不考慮上下文信息,僅僅簡單地使用統(tǒng)計(jì)方法對(duì)turdi進(jìn)行詞干詞綴切分會(huì)得到tur+di的切分結(jié)果,而這種切分結(jié)果在第一句的上下文環(huán)境中是不正確的。對(duì)于這類問題,我們可以利用上下文詞干信息來找出正確的切分結(jié)果,從而解決維吾爾語詞切分歧義的問題。
在訓(xùn)練語料庫中,我們利用詞干轉(zhuǎn)移概率來捕
捉上下文信息。由于維吾爾語詞匯量的龐大,就算是再大的語料庫,也很難學(xué)習(xí)上下文詞之間關(guān)系,所以本文利用上下文詞干轉(zhuǎn)移概率來捕捉上下文信息,而不是上下文詞的轉(zhuǎn)移概率。相鄰兩個(gè)詞干之間的轉(zhuǎn)移概率由式(5)來計(jì)算。
(5)
如圖3所示,word1,word2,…,wordn是一個(gè)維吾爾語句子,W1W2…Wn是該維吾爾語句子中各單詞的詞干,Wi表示詞干,Sij表示連接在Wi后的第j個(gè)詞綴。那么,一個(gè)維吾爾語句子最優(yōu)切分的概率由式(6)計(jì)算。
(6)
圖3 維吾爾語句子結(jié)構(gòu)分析圖
例如,對(duì)于維吾爾語句子uniNismiturdi(他的名字叫吐爾地),一共有三個(gè)單詞,其中turdi在不同上下文中有不同的意思。首先用前向、后向匹配算法得到每個(gè)單詞的切分候選,然后檢查詞干詞綴連接的合法性并對(duì)每個(gè)候選中的詞干部分進(jìn)行排列組合得到12種切分候組合,如圖4所示。之后我們就利用式(6)找出這12種切分組合中的最優(yōu)切分作為最終結(jié)果。
圖4 切分候選組合圖
在不考慮上下文信息的情況下,我們得到的切分結(jié)果是u+niNisim+itur+di,其中最后一個(gè)單詞出現(xiàn)切分錯(cuò)誤,而當(dāng)我們引入上下文詞干信息后就得到了正確的切分結(jié)果u+niNisim+iturdi。因此,考慮上下文詞干信息可以有效地解決維吾爾語詞切分歧義的問題。
4.1 實(shí)驗(yàn)設(shè)置
本文采用的數(shù)據(jù)是我們?nèi)斯?biāo)注的10 025條維吾爾語句子,使用其中的9 025句作為訓(xùn)練語料,剩下的1 000句作為測試語料,語料統(tǒng)計(jì)情況如表3所示。
表3 語料統(tǒng)計(jì)情況
維吾爾語的詞法分析比較復(fù)雜,考察的方面較多,為了能夠更好地體現(xiàn)系統(tǒng)性能,我們使用了以下指標(biāo)來考察系統(tǒng)的性能。
1. 詞干級(jí)正確率Pstem
以詞干為單位,僅考察詞干是否被正確提取,而不考慮詞綴的情況;
2. 詞級(jí)準(zhǔn)確率Pword
以詞為單位,僅當(dāng)詞內(nèi)詞干正確,且各詞綴切分正確時(shí),才認(rèn)為分析正確;
本文采用切分準(zhǔn)確率的定義如(7)式所示。
(7)
4.2 實(shí)驗(yàn)及結(jié)果分析
實(shí)驗(yàn)1 針對(duì)詞干級(jí)和詞級(jí)的實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置:在同一個(gè)測試集上,我們分別使用了N-gram模型,N-gram模型+詞性特征以及N-gram模型+詞性特征+上下文詞干信息來進(jìn)行詞干詞綴切分的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表4所示。
表4 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果分析:
從表4可以看出,不同的系統(tǒng)對(duì)維吾爾語的詞干級(jí)分析能力和詞級(jí)分析能力有所不同。在N-gram模型的基礎(chǔ)上,加入了詞性特征之后,不論在詞干級(jí)別還是在詞級(jí)別,系統(tǒng)的性能均有一定的提升(分別達(dá)到了95.35%和95.19%)。而這個(gè)提升是有限的,通過錯(cuò)誤分析,我們發(fā)現(xiàn)這主要是由于維吾爾語中存在很多同形異義詞,從而導(dǎo)致標(biāo)注歧義。例如,對(duì)于kokrek一詞,當(dāng)這個(gè)詞表示“藍(lán)一點(diǎn)”時(shí)是形容詞,形容詞詞干“kok”連接詞綴“rek”是合法的,而該詞還可以作為名詞,表示“胸部”。當(dāng)在詞性特征的基礎(chǔ)上進(jìn)一步加入上下文詞干信息后,我們發(fā)現(xiàn)與基線系統(tǒng)相比較,我們系統(tǒng)的性能有了顯著的提升,在詞干級(jí)別和詞級(jí)別分別提升了2.05% 和 1.58%。這表明了本文提出的詞性特征和上下文信息能夠顯著提升維吾爾語詞干提取的性能。通過對(duì)數(shù)據(jù)的分析,我們發(fā)現(xiàn)加入上下文詞干信息后,能夠更有效地解決對(duì)同一個(gè)詞進(jìn)行詞干、詞綴切分時(shí),其詞干出現(xiàn)歧義,詞干的一部分被當(dāng)作詞綴等問題。
實(shí)驗(yàn)2 語料庫規(guī)模對(duì)系統(tǒng)性能影響的實(shí)驗(yàn)
實(shí)驗(yàn)安排:固定測試集不變,而從訓(xùn)練集中每次提取不同規(guī)模的子集訓(xùn)練三個(gè)不同的系統(tǒng),并考察各個(gè)系統(tǒng)在測試集上的表現(xiàn)。整個(gè)訓(xùn)練集含9 025 條句子,我們分別取訓(xùn)練集的5%,10%,30%,50%及80%等不同規(guī)模的子集來分別訓(xùn)練三個(gè)切分系統(tǒng),并對(duì)測試集進(jìn)行切分。實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)是準(zhǔn)確率。圖5為不同系統(tǒng)的準(zhǔn)確率隨訓(xùn)練規(guī)模增加的變化曲線。
實(shí)驗(yàn)結(jié)果分析:
分析曲線可以發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)的規(guī)模會(huì)影響系統(tǒng)的性能。訓(xùn)練集由總規(guī)模的5%提高到30%時(shí)系統(tǒng)準(zhǔn)確率明顯提高,同時(shí)隨著語料庫規(guī)模增大,系統(tǒng)準(zhǔn)確率提高的幅度趨于緩慢;而在不同規(guī)模的訓(xùn)練集上,融入詞性特征后,系統(tǒng)的性能均有一定的提高,說明詞性特征對(duì)于維吾爾語詞干的提取是有用的;而進(jìn)一步加入上下文信息后,系統(tǒng)的性能有了更加明顯的提升,這更進(jìn)一步說明了上下文信息能夠有效提高維吾爾語詞干提取的性能。
本文提出了基于多策略融合的維吾爾語詞干提取方法,我們以N-gram模型為基本框架,根據(jù)維吾爾語的構(gòu)詞約束條件,提出了融合詞性特征和上下文詞干信息的詞干提取模型。實(shí)驗(yàn)結(jié)果表明,詞性特征和上下文詞干信息可以顯著提高維吾爾語詞干提取的準(zhǔn)確率,與基準(zhǔn)系統(tǒng)比較,融入了詞性特征和上下文詞干信息的實(shí)驗(yàn)準(zhǔn)確率分別達(dá)到了95.19%和96.60%。
由于本文實(shí)驗(yàn)所使用的語料庫規(guī)模較小,能夠使用的詞性特征和上下文信息有限,維吾爾語詞干提取的整體效果有待進(jìn)一步提高。
下一步工作中,我們要更加深入地了解維吾爾語詞匯的內(nèi)部構(gòu)件特征,學(xué)習(xí)更多的詞干-詞綴和詞干信息,通過詞干提取結(jié)果的錯(cuò)誤分析,進(jìn)一步修正系統(tǒng),最終提高維吾爾語詞干提取結(jié)果并將系統(tǒng)應(yīng)用到各種領(lǐng)域和網(wǎng)絡(luò)語言中。
[1] Nagata, Masaaki, A stochastic Japanese morphological analyzer using a forward- DP backward-A N-best search algorithm[C]//Proceedings of the 15th conference on Computational linguistics-Volume 1, 1994.
[2] Buckwalter Tim. Buckwalter Arabic Morphological Analyzer Version 1.0, 2002.
[3] 姜文斌,吳金星,烏日力嘎等. 蒙古語有向圖形態(tài)分析器的判別式詞干詞綴切分[J]. 中文信息學(xué)報(bào),2011,25(04):30-34.
[4] 早克熱·卡德爾,艾山等. 維吾爾語名詞構(gòu)形詞綴有限狀態(tài)自動(dòng)機(jī)的構(gòu)造[J].中文信息學(xué)報(bào), 2009, 23(6): 116-121.
[5] 古麗拉·阿東別克,米吉提·阿布力米提.維吾爾語詞切分方法初探[J].中文信息學(xué)報(bào),2004,18(6):61-65.
[6] 麥熱哈巴·艾力,姜文斌,王志洋等. 維吾爾語詞法分析的有向圖模型[J]. 軟件學(xué)報(bào),2012,23(12):3115-3129
[7] Aisha B. A Letter Tagging Approach to Uyghur Tokenization[C]//Proceedings of the 2010 International Conference on Asian Language Processing:IEEE Computer Society, 2010:11-14.
[8] Ablimit M, Eli M, Kawahara T. Partly supervised Uyghur morpheme segmentation[C]//Proceedings of the Oriental-COCOSDA Workshop.2008. 71-76.
[9] 米吉提·阿布力米提,庫爾班·吾布力. 在多文種環(huán)境下的維吾爾語文字校對(duì)系統(tǒng)的開發(fā)研究[J]. 系統(tǒng)工程理論與實(shí)踐,2003,05:117-124.
[10] 哈力克·尼亞孜.基礎(chǔ)維吾爾語[M ].烏魯木齊:新疆大學(xué)出版社. 1997: 73.
[11] 哈米提·鐵木爾.現(xiàn)代維吾爾語語法[M ].北京:民族出版社. 1987: 47-48.
[12] 米熱古麗·艾力,米吉提·阿不力米提,艾斯卡爾·艾木都拉.基于詞法分析的維吾爾語元音弱化算法研究.中文信息學(xué)報(bào)[J]. 2008,04:43-47.
A Multi-Strategy Approach to Uyghur Stemming
Sediyegvl Enwer1, Xiang Lu2, Zong Chengqing2, Akbar Pattar1, Askar Hamdulla1
(1. Institute of Information Science and Engineering,Xinjiang University, Urumqi, Xinjiang 830046, China;2. National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China)
Uyghur is an agglutinative language with complex morphology, Uyghur words stem segmentation plays an important role in Uyghur language information processing. But so far, the performance of the Uyghur words stem segmentation still has much room for improvement .According to the constraints of Uyghur word formation, we proposed a stem segmentation model for Uyghur which fuses the part of speech feature and context information based on N-gram model. Experimental results show that, the part of speech feature and the context information of stem can increase the performance of Uyghur words stem segmentation significantly with the accuracy reaching 95.19% and 96.60% respectively compared to the baseline system.
Uyghur; morphology; stem segmentation; N-gram model; part of speech; context information
賽迪亞古麗·艾尼瓦爾(1988—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:852567316@qq.com向露(1988—),助理工程師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:lu.xiang@nlpr.ia.ac.cn宗成慶(1963—),研究員,主要研究領(lǐng)域?yàn)樽匀徽Z言處理、機(jī)器翻譯和情感分類。E-mail:cqzong@nlpr.ia.ac.cn
1003-0077(2015)05-0204-07
2015-08-06 定稿日期: 2015-09-20
國家自然科學(xué)基金(61163032)
TP391
A