劉 暢,阿布都克力木·阿布力孜,2,姚登峰,哈里旦木·阿布都克里木,2
1.新疆財(cái)經(jīng)大學(xué) 信息管理學(xué)院,烏魯木齊 830012
2.新疆財(cái)經(jīng)大學(xué) 絲路經(jīng)濟(jì)與管理研究院,烏魯木齊 830012
3.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101
隨著“一帶一路”戰(zhàn)略提出,我國與中亞各國聯(lián)系日益密切,新疆地區(qū)迎來了新的發(fā)展機(jī)遇,同時(shí)也面臨著巨大的挑戰(zhàn),語言交流問題成為其中的一個(gè)關(guān)注焦點(diǎn)。維吾爾語是一門歷史悠久的語言[1],其使用者主要分布于中國新疆,也是新疆官方用語之一,經(jīng)常用于當(dāng)?shù)氐碾娨曨l道、交通標(biāo)志和廣告牌等。中國境內(nèi)維吾爾語使用者大約有1 000萬~2 500萬人[2]。為了達(dá)到語言互通的目的,翻譯等人工語言處理需要耗費(fèi)大量的人力財(cái)力物力。
自然語言處理(Natural Language Processing,NLP)是主要的語言信息處理技術(shù),其目標(biāo)是通過對(duì)文本或語音的有效處理從而達(dá)到促進(jìn)人機(jī)交互、方便人與人之間交流的目的[3]。
在NLP中,形態(tài)分析(Morphological Analysis)用于研究詞匯內(nèi)部的構(gòu)造和變化問題。與句法分析(Syntax Analysis)[4]和命名實(shí)體識(shí)別(Named Entity Recognition,NER)[5]等NLP 其他工作相比,形態(tài)分析更加注重詞匯內(nèi)部結(jié)構(gòu)及其變化的分析,能夠提高后續(xù)相關(guān)技術(shù)性能。做好維吾爾語形態(tài)分析工作,不斷地提高機(jī)器處理能力,能夠?yàn)椤耙粠б宦贰钡葢?zhàn)略提供技術(shù)支撐,達(dá)到降低交流成本和語言互通的目的。
近幾年,國內(nèi)外維吾爾語形態(tài)分析工作發(fā)展較為迅速,新疆師范大學(xué)、新疆大學(xué)、中國科學(xué)院、日本京都大學(xué)、清華大學(xué)和中央民族大學(xué)等機(jī)構(gòu)發(fā)表了較多的研究成果。
維吾爾語屬于阿爾泰語系突厥語族中的一支[6]。歷史上,維吾爾語有多種書寫文字,目前新疆地區(qū)主要采用阿拉伯文字書寫,有時(shí)轉(zhuǎn)換成拉丁文字進(jìn)行處理。與英語(屈折語)、漢語(孤立語)等大規(guī)模流行語言不同,維吾爾語主要使用黏著法構(gòu)詞并且屬于低資源語言[7],每個(gè)維吾爾語單詞由從右向左書寫的字符構(gòu)成[8]。根據(jù)形態(tài)學(xué)結(jié)構(gòu),每個(gè)維吾爾語單詞可以被劃分為子詞(Sub-Word)單元,根據(jù)語法一般分為詞素(Morpheme)、音節(jié)(Syllable)和音素(Phoneme)[9]。構(gòu)建子詞模型有助于緩解未登錄詞(Out of Vocabulary,OOV)等問題[10-12]。子詞單元實(shí)例如表1所示。
表1 維吾爾語子詞單元實(shí)例Table 1 Examples of sub-word units in Uyghur
在維吾爾語中,詞素又稱語素,是不可再分的語法單位[13],包括詞根(Root)和詞綴(Affix)等。維吾爾語共有40 000 多詞根(外來詞除外)[14],32 個(gè)字符對(duì)應(yīng)32 個(gè)音素[15]。其中,詞根是最小的語義單位[16]。詞干則是由多個(gè)詞根或詞根和構(gòu)詞詞綴構(gòu)成[17],有時(shí)不會(huì)區(qū)分詞干和詞根。通過有限的詞干和詞綴不同組合,理論上維吾爾語能夠產(chǎn)生無限詞匯,表達(dá)出不同的語義,同時(shí)由于多數(shù)詞匯出現(xiàn)次數(shù)較少造成了嚴(yán)重的數(shù)據(jù)稀疏性現(xiàn)象[18],從而導(dǎo)致嚴(yán)重的OOV問題[7]。維吾爾語詞匯的一般形態(tài)結(jié)構(gòu)是:詞干+詞綴1+詞綴2+…+詞綴n。同一單詞在不同的語境條件下會(huì)有不同的切分結(jié)果[19]。在維吾爾語中,詞綴根據(jù)位置分為前綴和后綴。前綴(Prefix)數(shù)量較少,共有6 個(gè);后綴(Suffix)數(shù)量較多,共有532 個(gè)[20-21]。因此一般認(rèn)為詞綴指后綴,部分文獻(xiàn)將詞綴稱為詞尾[22]。詞綴根據(jù)在詞匯中的作用分為構(gòu)詞附加成分(Word Building)和構(gòu)形附加成分(Inflection)[23]。構(gòu)詞附加成分,即構(gòu)詞詞綴或派生詞綴(Derivational Affixes),主要用于構(gòu)成新詞;構(gòu)形附加成分,即構(gòu)形詞綴或屈折變化詞綴(Inflectional Affixes),主要用于表示新的語法意義[24-25]。部分文獻(xiàn)將構(gòu)詞詞綴稱為詞綴,將構(gòu)形詞綴稱為詞尾(Word Ending)[26]。例如(讀,詞根)+(構(gòu)詞詞綴)+(構(gòu)形詞綴)=(學(xué)生)。術(shù)語使用不一致的現(xiàn)象增加了學(xué)術(shù)交流和維吾爾語自然語言處理等方面的難度。
音素是最小語音單位,共有32個(gè)包括8個(gè)元音和24個(gè)輔音[19]。音節(jié)由音素構(gòu)成,是語音的基本構(gòu)成單位[17],結(jié)構(gòu)一般形式為:元音+輔音1+輔音2+…+輔音n。其中元音可以成為單獨(dú)的音節(jié)而輔音不可以,輔音在音節(jié)中可以出現(xiàn)0 個(gè)或多個(gè)[27]。一般音節(jié)格式為“[C]V[CC]”(C 代表輔音,V 代表元音),有V、VC、CV、CVC、VCC、CVCC 等基本音節(jié)結(jié)構(gòu)[28]。部分受外來語影響的格式有“CVV[C]”(漢語)等[6]。詞干與詞綴之間連接時(shí)會(huì)產(chǎn)生音變現(xiàn)象,增加了處理難度,解決方法有音變還原和音節(jié)切分等。
NLP 主要流程有首先使用語言學(xué)相關(guān)理論分析文本,然后使用數(shù)學(xué)建模分析,最后使用計(jì)算機(jī)處理[29]。研究層面包括詞法分析、句法分析、語義分析和語用分析等,層面之間相互聯(lián)系,處理時(shí)需逐層分析[30]。其中,維吾爾語詞法分析(Lexical Analysis 或Morphological Analysis)含義有廣義和狹義之分。廣義上的維吾爾語詞法分析從詞的所有角度分析包括形態(tài)分析和詞性標(biāo)注等,狹義上的維吾爾語詞法分析即形態(tài)分析,主要研究詞內(nèi)部結(jié)構(gòu)和變化。
英、漢等大規(guī)模流行語言NLP需求大,起步早,處理技術(shù)較為成熟。相比,維吾爾語相關(guān)研究人員較少,處理技術(shù)較為落后并且缺少統(tǒng)一標(biāo)準(zhǔn),難以滿足現(xiàn)有需求。值得注意的是,部分處理技術(shù)和語言無關(guān),可以將其運(yùn)用到維吾爾語相應(yīng)工作中。
維吾爾語NLP 面臨最突出挑戰(zhàn)包括對(duì)詞匯、句法、語義等級(jí)別的歧義消除和解決未知語法問題[31-33]。
自然語言處理基本資源包括語言知識(shí)庫(Language Knowledge Base)和語料庫(Corpus)[34]。
維吾爾語語言知識(shí)庫主要分為規(guī)則庫(Rule Base)和詞典(Dictionary)。規(guī)則庫主要為基于規(guī)則的方法提供依據(jù),有時(shí)需要考慮不規(guī)則現(xiàn)象。詞典包括詞庫(表)和詞干庫(表)等[32],能夠匹配詞和詞干等數(shù)據(jù),進(jìn)行詞性分類和詞形變換等工作,易于擴(kuò)展和維護(hù)[35]等,是基于詞典的方法基礎(chǔ)。維吾爾語語言知識(shí)庫面臨問題主要有規(guī)模有限,需要專家不斷完善,對(duì)人力要求較高。
Wushouer 等[36]根據(jù)維吾爾語語法特點(diǎn)和技術(shù)處理需求等方面構(gòu)建了《維吾爾語語法信息詞典》解決了傳統(tǒng)詞典不能在信息平臺(tái)共享、不考慮NLP技術(shù)特點(diǎn)和詞匯量有限等問題,推動(dòng)了基于詞典方法的發(fā)展。
語料庫是存放語言材料的數(shù)據(jù)庫[34]、統(tǒng)計(jì)模型[33]和神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ),當(dāng)前主流基于統(tǒng)計(jì)和基于深度學(xué)習(xí)方法對(duì)語料庫依賴性較大。語料庫的規(guī)模和規(guī)范性影響著后期訓(xùn)練模型的性能,因此構(gòu)建優(yōu)質(zhì)語料庫對(duì)于維吾爾語形態(tài)分析有著重要意義。目前,維吾爾語形態(tài)分析相關(guān)語料庫大致分為單語平衡語料庫和維漢雙語平行語料庫[33]。構(gòu)建步驟主要有:(1)獲取文本;(2)處理(標(biāo)注、切分等);(3)核對(duì)。其中,在獲取文本時(shí),需要從多資源(網(wǎng)絡(luò)、報(bào)紙等)獲取,盡可能獲取規(guī)范語料[9]。
3.2.1 單語平衡語料庫
維吾爾語單語平衡語料庫主要選取具有代表性和平衡性的維吾爾語語料,能夠充分反映出維吾爾語使用現(xiàn)狀。
構(gòu)建工作最早始于2002 年玉素甫·艾白都拉等構(gòu)建的800 萬詞次的維吾爾文語料庫[37]。在此期間,玉素甫·艾白都拉[38]通過研究維吾爾語詞義排歧等方面,完善了維吾爾語句法分析器,推動(dòng)了維吾爾語語料庫構(gòu)建進(jìn)程。
吐爾根·依布拉音等[37]從2002年開始研究語料庫構(gòu)建工作,通過選取差異度較大的小規(guī)模語料庫,不斷更新標(biāo)注規(guī)范體系和分析工具,經(jīng)過多次修改,構(gòu)建了百萬詞次的維吾爾語詞法分析語料庫。
2017 年,哈里旦木·阿布都克里木等[39]從天山網(wǎng)獲取語料構(gòu)建清華大學(xué)維吾爾語形態(tài)切分語料庫(THUUyMorph)。該語料庫分為詞級(jí)和句子級(jí)形態(tài)切分語料庫,包含10 596個(gè)文檔、69 200個(gè)句子,詞語類型為89 923 個(gè)。該語料庫是少數(shù)公開維吾爾語語料庫之一,主要用于維吾爾語分詞、形態(tài)切分和詞干提取等任務(wù),推動(dòng)了維吾爾語NLP的發(fā)展,但在規(guī)范性等方面存在問題。
3.2.2 維-漢雙語平行語料庫
維-漢雙語平行語料庫是對(duì)維漢兩種語言平行取樣和加工,反映二者之間的對(duì)應(yīng)關(guān)系,構(gòu)建工作對(duì)于后續(xù)機(jī)器翻譯和維漢對(duì)比等應(yīng)用起到重要推動(dòng)作用。相關(guān)工作最早開始于吐爾根·依布拉音等構(gòu)建的維漢雙語對(duì)齊平行語料庫[40-41]。
3.2.3 問題與建議
維吾爾語形態(tài)分析相關(guān)語料庫構(gòu)建近幾年發(fā)展迅速,目前存在主要問題有:(1)缺乏規(guī)范性,語料來源和處理方法參差不齊,難以整合多個(gè)語料庫和產(chǎn)生子庫,重復(fù)利用較為困難并且容易受到其他規(guī)范的制約;(2)大部分語料庫規(guī)模較小,對(duì)于基于統(tǒng)計(jì)和深度學(xué)習(xí)相關(guān)方法模型性能限制較大;(3)公開語料庫較少,難以實(shí)現(xiàn)資源共享和提高效率;(4)維-漢雙語平行語料庫雙語對(duì)齊方面受到語言差異影響較大。
在語料庫規(guī)范方面,構(gòu)建標(biāo)準(zhǔn)應(yīng)盡可能與國際接軌,參考國際主流語料庫UniMorph[42-43]技術(shù)規(guī)范。Uni-Morph 是由約翰·霍普金斯大學(xué)語言和語音處理中心(Center for Language and Speech Processing,CLSP)主持的國際權(quán)威項(xiàng)目,主要研究多種語言NLP 系統(tǒng)中復(fù)雜形態(tài)問題,已經(jīng)發(fā)布數(shù)十種國際高度認(rèn)可的標(biāo)注數(shù)據(jù)集。從范圍和語言數(shù)量來看,UniMorph 已經(jīng)成為最大的形態(tài)詞典,在低資源語言標(biāo)記與注釋等語料庫工作有著較高的參考價(jià)值[44-46]。此外,在統(tǒng)一標(biāo)準(zhǔn)的同一語系的語料庫條件下,有利于采用遷移學(xué)習(xí)(Transfer Learning)方法緩解低資源語言數(shù)據(jù)稀疏問題。由于缺乏相關(guān)標(biāo)準(zhǔn)的標(biāo)注數(shù)據(jù)集,國際形態(tài)分析競(jìng)賽SIGMORPHON2020 語種只有較少項(xiàng)目包含維吾爾語[47-48],限制了維吾爾語形態(tài)分析的發(fā)展。因此根據(jù)國際標(biāo)準(zhǔn)構(gòu)建維吾爾語語料庫對(duì)于推廣維吾爾語形態(tài)分析工作有著重要意義。
擴(kuò)大語料庫規(guī)模研究可以考慮以下措施:(1)在標(biāo)注方面可以結(jié)合機(jī)器標(biāo)注[49]方法,提高標(biāo)注效率;(2)利用機(jī)器翻譯的方法將高資源語言語料生成目標(biāo)語言語料[50-55]。該方法對(duì)于機(jī)器翻譯要求較高,容易出現(xiàn)錯(cuò)誤;(3)利用遷移學(xué)習(xí)方法[56-57]。引入大規(guī)模相似輔助數(shù)據(jù)集,后續(xù)工作可選取相應(yīng)的英語或土耳其語等源模型訓(xùn)練,遷移參數(shù)到維吾爾語模型并進(jìn)行微調(diào)(Fine-Tuning),可以達(dá)到擴(kuò)展語料庫的目的。
形態(tài)分析,又稱詞素分析或詞法分析,是NLP 中的基礎(chǔ)工作,影響著后續(xù)工作進(jìn)展。由于每一種語言書寫和語法等方面都各不相同,因此每一種語言的形態(tài)分析工作都需要具體考察。
維吾爾語形態(tài)分析工作從分析目標(biāo)的詞性角度分為對(duì)名詞和動(dòng)詞等基本實(shí)詞的形態(tài)分析;從方法角度分為音變還原(Phonetic Restoration)、詞干提取(Stemming)、形態(tài)切分(Morphological Segmentation)以及其他工作,工作時(shí)間軸如圖1所示。其首要目標(biāo)包括對(duì)詞綴、詞干的切分和提取以及對(duì)音變現(xiàn)象進(jìn)行還原等[58]。形態(tài)分析能夠?yàn)楹罄m(xù)的機(jī)器翻譯、語音識(shí)別和信息檢索等具體應(yīng)用提供幫助。
圖1 維吾爾語形態(tài)分析工作時(shí)間軸Fig.1 Work time axis of Uyghur morphological analysis
1955 年,Harris[59]首先開始英語詞素邊界識(shí)別相關(guān)研究,開創(chuàng)了自然語言形態(tài)分析研究先例;1997年,玉素甫·艾白都拉[60]等首次對(duì)維吾爾語形態(tài)分析方面進(jìn)行研究,提出一種詞法分析器構(gòu)造方法。
常見的維吾爾語形態(tài)分析方法主要分為基于規(guī)則、詞典、統(tǒng)計(jì)、深度學(xué)習(xí)和混合的方法。
(1)基于規(guī)則的方法
根據(jù)語言學(xué)語法等規(guī)則,建立規(guī)則庫,將語言結(jié)構(gòu)理解為符號(hào)結(jié)構(gòu)進(jìn)行處理,屬于理性主義方法。優(yōu)點(diǎn)在于有較強(qiáng)的概括性,容易推廣,缺點(diǎn)有規(guī)則容易缺乏一致性和完整性[29],規(guī)則之間可能有所沖突,處理不規(guī)則現(xiàn)象欠佳,無法有效利用上下文信息等。主要模型有兩層分析法(Two-Level)[61]和有限狀態(tài)自動(dòng)機(jī)(Finite State Machine,F(xiàn)SM)等。
(2)基于詞典的方法
根據(jù)詞典中的語法等內(nèi)容進(jìn)行檢索并作出進(jìn)一步處理,屬于理性主義方法。該方法處理速度較快,對(duì)詞典要求較高,但是詞典覆蓋面有限,無法有效處理詞典未收錄的詞,即OOV等問題,一般結(jié)合基于規(guī)則等其他方法使用。主要模型有哈希表(Hash Table)等。
(3)基于統(tǒng)計(jì)的方法
基本步驟是通過建立語料庫,使用模型進(jìn)行大規(guī)模訓(xùn)練,將語言內(nèi)部關(guān)系問題轉(zhuǎn)換為概率統(tǒng)計(jì)問題[27],屬于經(jīng)驗(yàn)主義方法。優(yōu)點(diǎn)有覆蓋面高、不受語言限制、能夠利用上下文信息等。缺點(diǎn)有無法使用語言學(xué)規(guī)則進(jìn)行引導(dǎo)、特征設(shè)計(jì)困難、受到數(shù)據(jù)稀疏性影響較大等。主要模型有條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)[62],最大熵模型(Maximum Entropy Model,MEM)[63]和N-gram模型。
(4)基于深度學(xué)習(xí)的方法
一種新興的方法,主要使用神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行處理,緩解數(shù)據(jù)稀疏問題,提高覆蓋面,但對(duì)于語料庫規(guī)模要求較高,可能存在錯(cuò)誤切分等問題。主要模型有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[64],門限遞歸單元(Gated Recurrent Unit,GRU)[65-66]和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[67]等。
(5)基于混合的方法
結(jié)合至少兩種上述方法,達(dá)到優(yōu)勢(shì)互補(bǔ)的目的。主要模型有貪婪搜索算法和最大后驗(yàn)估計(jì)(Maximum a Posteriori,MAP)[68]模型等。
維吾爾語形態(tài)分析主要模型分類如圖2所示,主要形態(tài)分析方法總結(jié)如表2所示。
表2 維吾爾語形態(tài)分析主要方法總結(jié)Table 2 Summary of main methods of Uyghur morphological analysis
圖2 維吾爾語形態(tài)分析主要模型分類Fig.2 Classification of main models of Uyghur morphological analysis
維吾爾語實(shí)詞形態(tài)分析主要包括對(duì)維吾爾語名詞和動(dòng)詞等具體實(shí)詞的形態(tài)分析,分析方法主要分為基于規(guī)則、統(tǒng)計(jì)和詞典的方法,總結(jié)出具體實(shí)詞形態(tài)的一般規(guī)律,為后續(xù)處理提供參考依據(jù)。
在基于統(tǒng)計(jì)和規(guī)則方法方面,阿依克孜·卡德爾等[69]對(duì)維吾爾語名詞進(jìn)行形態(tài)分析,總結(jié)出名詞基本形態(tài)參數(shù)以及參數(shù)的組配規(guī)律和類型,分別將基于統(tǒng)計(jì)和基于規(guī)則的削尾方法用于名詞形態(tài)分析、轉(zhuǎn)換和生成。其中基于統(tǒng)計(jì)的削尾方法優(yōu)點(diǎn)在于有較好的一致率和覆蓋率,而基于統(tǒng)計(jì)的削尾方法優(yōu)點(diǎn)在于能夠充分利用已有語言學(xué)知識(shí),二者優(yōu)勢(shì)互補(bǔ)。Munire等[15]考慮維吾爾語高度變化和音變現(xiàn)象等問題,構(gòu)建維吾爾語名詞再屈折(Re-Inflection)模型,減少數(shù)據(jù)稀疏性對(duì)名詞形態(tài)分析的影響。
在基于詞典和規(guī)則方法中,常見的有Two-Level。其中兩層分為詞匯層和表面層:在表面層,單詞以其原始的Orthographic Form表示;在詞匯層,單詞通過其所有的功能成分表示。兩層模型基于詞典系統(tǒng)和兩層規(guī)則,用于描述形態(tài)學(xué)和形態(tài)音學(xué)現(xiàn)象。Orhun等[1,70]首次使用施樂有限狀態(tài)工具分別構(gòu)建了維吾爾語名詞和動(dòng)詞的有限狀態(tài)兩層形態(tài)分析器,分別用于處理名詞和動(dòng)詞屈折和派生形態(tài)。
音變還原針對(duì)詞干與詞綴連接時(shí)產(chǎn)生的音變現(xiàn)象進(jìn)行還原處理。
維吾爾語中的音變現(xiàn)象主要分為元音弱化(同化)[71]、增音和脫落以及語音和諧。元音弱化表示詞干與詞綴連接時(shí)元音變化成其他元音的現(xiàn)象,在維吾爾語中普遍出現(xiàn)且形式較為靈活[29],處理較為困難,外來詞會(huì)導(dǎo)致稀疏性問題,處理方法包括對(duì)同化詞干復(fù)原,對(duì)弱化的音節(jié)進(jìn)行處理等。元音增音表示詞干與詞綴連接時(shí)字母發(fā)生增加的現(xiàn)象,可利用規(guī)律還原。元音脫落情況較少,表示詞干詞綴連接時(shí)字母發(fā)生減少的現(xiàn)象[17],一般可以采用詞典查詢方法解決。語音和諧現(xiàn)象在維吾爾語中大量存在,約束詞干和詞綴以及音節(jié)之間連接形式[23,71],分為元音和諧和輔音和諧[79]。力提甫·托乎提[80]證明維吾爾語語音和諧有規(guī)律可循,可以用計(jì)算機(jī)處理。
音變現(xiàn)象在維吾爾語中大量存在,音變還原過程并非簡(jiǎn)單逆過程,容易出現(xiàn)歧義等問題。因此音變還原是做好詞干提取和形態(tài)切分等后續(xù)工作的重要前提。
解決的方法主要分為基于規(guī)則和詞典、基于統(tǒng)計(jì)的方法兩種。
4.2.1 基于規(guī)則和詞典的音變還原方法
基于規(guī)則的音變還原方法依賴于語音和諧規(guī)律等語法規(guī)則,但容易產(chǎn)生歧義,無法有效處理復(fù)雜變化 和外來詞音節(jié)特征,使用詞干庫等方法可以解決部分特殊現(xiàn)象,但會(huì)出現(xiàn)覆蓋面小和多個(gè)還原候選等問題。
古麗拉·阿東別克等[71]首先在詞干提取工作中考慮音變還原處理包括語音同化處理和語音和諧規(guī)律處理規(guī)則。艾山·吾買爾等[73]在詞綴庫中添加弱化和增音形態(tài),構(gòu)建語音脫落詞庫,根據(jù)還原規(guī)則處理詞綴對(duì)詞干、詞綴內(nèi)部語音弱化和詞綴對(duì)詞干的語音脫落問題,但無法有效判斷部分弱化現(xiàn)象。米熱古麗·艾力等[23]根據(jù)維吾爾語元音弱化規(guī)則和詞干庫構(gòu)建元音弱化處理算法,但對(duì)于外來詞處理欠佳。
4.2.2 基于統(tǒng)計(jì)的音變還原方法
傳統(tǒng)基于統(tǒng)計(jì)的音變還原方法解決了上述基于規(guī)則的方法覆蓋面小等問題,主要采用訓(xùn)練統(tǒng)計(jì)模型的方法選擇最優(yōu)還原候選,但在處理復(fù)雜音變現(xiàn)象效果仍然欠佳[74]。Aisha等[21]結(jié)合語音和諧規(guī)律使用CRF從人工標(biāo)注的語料庫學(xué)習(xí)“映射”知識(shí)處理語音和諧現(xiàn)象。艾山·吾買爾等[17]采用信道噪聲模型處理元音弱化問題。
為了解決上述問題,麥熱哈巴·艾力等[25,74]提出音變現(xiàn)象的自動(dòng)還原模型,將音變還原問題轉(zhuǎn)變?yōu)榫€性序列標(biāo)注問題。主要步驟有:首先利用詞內(nèi)字母對(duì)齊算法得到字母原形候選集合;接著根據(jù)特征模板使用MEM 訓(xùn)練語料得到原形候選;最后通過計(jì)算得到概率最大的原形。該方法減少了制定處理規(guī)則等復(fù)雜步驟,但在處理部分字母等方面存在問題。張海波等[75]提出基于字符分類的音變還原方法,利用詞內(nèi)字母對(duì)齊算法得到分類標(biāo)簽,將音變還原轉(zhuǎn)變?yōu)樵~性標(biāo)注工作,使用多元分類感知機(jī)訓(xùn)練得到序列標(biāo)注權(quán)重,最高分為還原序列。在上述工作基礎(chǔ)上,徐春等[81]提出另一種詞內(nèi)字母對(duì)齊算法,通過對(duì)音變后字母0-1賦值,計(jì)算得分得到整個(gè)詞的最優(yōu)匹配模式,速度較快。
后續(xù)工作可以考慮添加語言規(guī)則、增加語料庫規(guī)模和改進(jìn)特征模板等方法提高模型性能。
維吾爾語詞干提取的主要任務(wù)是分開詞干和構(gòu)形詞綴,即詞干和詞綴連接的逆過程[74]。其目標(biāo)是將發(fā)生形態(tài)變化的單詞還原為詞干形式,獲得目標(biāo)單詞的意義,降低特征維度,提高后續(xù)任務(wù)處理性能[16,33,82]。主要步驟有:(1)取詞,去除構(gòu)形詞綴;(2)詞干還原。在進(jìn)行還原過程中,首先需要充分考慮語音變化等問題,減少一個(gè)詞干不同形式現(xiàn)象[72]。維吾爾語詞干提取重要程度等同于中文分詞,應(yīng)用于電子詞典[83]和詞性標(biāo)注[76]等。
維吾爾語詞干提取面臨的挑戰(zhàn)主要有:(1)維吾爾語中大量出現(xiàn)的同形異義詞和外來詞[84]提高了處理難度;(2)元音弱化現(xiàn)象多;(3)存在切分不準(zhǔn)確問題[33],詞干、詞綴切分后帶有歧義。
在維吾爾語實(shí)詞中,名詞占比最高,因此將名詞作為優(yōu)先詞干提取對(duì)象有助于提高整體研究效率[33]。維吾爾語詞干提取使用較多的方法可分為基于詞典、規(guī)則、統(tǒng)計(jì)、深度學(xué)習(xí)和混合的方法。
4.3.1 基于詞典的詞干提取方法
基于詞典的詞干提取方法根據(jù)已構(gòu)建的詞典進(jìn)行詞形轉(zhuǎn)換,不斷切除字符串中的子串直到匹配到詞典中的詞為止,對(duì)有效詞進(jìn)行處理,減少詞干還原過程,但各方面處理性能對(duì)詞典規(guī)模有較大的依賴性[35,76],詞典內(nèi)容無法涵蓋所有形式,無法有效處理OOV問題,一般結(jié)合其他方法使用。
4.3.2 基于規(guī)則的詞干提取方法
基于規(guī)則的詞干提取方法根據(jù)建好的規(guī)則庫,利用語言學(xué)規(guī)則去除構(gòu)形詞綴,進(jìn)行詞干提取,但對(duì)于少數(shù)不規(guī)則的情況可能會(huì)出現(xiàn)失靈的現(xiàn)象,一般結(jié)合其他詞干提取方法使用,相關(guān)模型包括FSM等。
維吾爾語詞干提取FSM 是一種有向圖模型,其中弧表示狀態(tài)轉(zhuǎn)移,節(jié)點(diǎn)表示狀態(tài),根據(jù)詞綴表和詞綴連接規(guī)則構(gòu)造,分為確定性有限狀態(tài)自動(dòng)機(jī)(Deterministic Finite State Machine,DFSM)和非確定性有限狀態(tài)自動(dòng)機(jī)(Nondeterministic Finite State Machine,NFSM)。FSM 通過狀態(tài)轉(zhuǎn)移和匹配詞綴不斷地去除目標(biāo)詞的詞綴,最終達(dá)到提取詞干的目的。構(gòu)建維吾爾語FSM 難點(diǎn)有詞綴多,語法較為復(fù)雜,音變現(xiàn)象有較大的干擾。傳統(tǒng)的維吾爾語詞干提取方法[71,85]依賴于詞典,每次切分一個(gè)詞綴并和詞干庫匹配判斷詞干提取是否成功,F(xiàn)SM 可以根據(jù)規(guī)則切分從而不依賴于詞典,減少切分次數(shù),但無法有效處理少數(shù)帶有相近詞綴和詞尾的詞,并且處理外來詞元音結(jié)構(gòu)和口語單詞等現(xiàn)象欠佳,存在過度切分問題。艾山·吾買爾和早克熱·卡德爾等根據(jù)阿依克孜·卡德爾等[69]的名詞形態(tài)分析工作分別構(gòu)建了名詞[16,86]和形容詞[87]詞綴DFSM,后續(xù)FSM 詞干提取工作在此基礎(chǔ)之上結(jié)合其他模型進(jìn)一步探討詞干提取方法。
4.3.3 基于統(tǒng)計(jì)的詞干提取方法
與基于詞典和規(guī)則的詞干提取方法相比,基于統(tǒng)計(jì)的詞干提取方法能夠解決OOV 不規(guī)則詞等問題,但在進(jìn)行詞干提取時(shí)會(huì)受到噪聲影響?;诮y(tǒng)計(jì)的詞干提取方法使用模型一般分為序列標(biāo)注模型和有向圖形態(tài)分析模型[81]。
序列標(biāo)注模型將維吾爾語形態(tài)分析轉(zhuǎn)化為線性序列標(biāo)注任務(wù)。CRF 是一種無向圖模型,起到預(yù)測(cè)作用,能夠根據(jù)具體需求擴(kuò)展,將序列化數(shù)據(jù)進(jìn)行分段和標(biāo)記,特征選擇較為自由,通過特征歸一化得到最優(yōu)解。維吾爾語形態(tài)分析一般采用線性鏈CRF,使用時(shí)需要將形態(tài)分析問題轉(zhuǎn)變?yōu)樾蛄袠?biāo)注問題。Abdurahim Mahmoud 等[28]提出一種基于CRF 的詞干提取方法,考慮添加屈折后綴的音變現(xiàn)象。在訓(xùn)練語料庫中將單詞切分為音節(jié),根據(jù)單詞與音節(jié)關(guān)系手動(dòng)貼上標(biāo)簽,判斷觀察到的音節(jié)是否屬于已定義的標(biāo)注集,選取音節(jié)作為特征,并采用CRF++工具包訓(xùn)練。
基于有向圖模型的方法根據(jù)詞圖得到標(biāo)注結(jié)果。麥熱哈巴·艾力等[25]提出維吾爾語有向樹模型,結(jié)合音變還原自動(dòng)還原模型,進(jìn)行切分和標(biāo)注,該方法在詞干提取正確率等性能方面優(yōu)于線性模型[88],但容易產(chǎn)生非法候選,造成歧義。賽迪亞古麗·艾尼瓦爾等[84]以N-gram 模型為基本框架,結(jié)合詞性特征和上下文詞干信息解決上述切分歧義問題,模型對(duì)于語料庫規(guī)模和上下文特征等方面依賴較大。有向樹模型的優(yōu)點(diǎn)在于能夠有效處理詞干與詞干之間的關(guān)系,不依賴于規(guī)則,能夠用于其他黏著語。
上述基于序列標(biāo)注模型和樹狀模型方法以句子為分析單位,導(dǎo)致考慮上下文信息有限。徐春等[81]提出維吾爾語圖狀模型,綜合考慮各詞素之間的關(guān)系,有效改善了模型性能。
4.3.4 基于深度學(xué)習(xí)的詞干提取方法
基于深度學(xué)習(xí)的方法是一種特征學(xué)習(xí)過程,在維吾爾語詞干提取工作取得了一定進(jìn)展。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法僅通過后向算法學(xué)習(xí)參數(shù),仍存在較大的切分問題。
為解決上述問題,古麗尼格爾·阿不都外力等[78]將Bi-LSTM-CRF模型用于詞干提取,采用{B,I,O}標(biāo)記詞干,準(zhǔn)確識(shí)別了詞干、詞綴,緩解了切分不準(zhǔn)確等問題,其中Bi-LSTM 起到根據(jù)上下文提取特征作用,CRF 層起到了增加模型約束條件和對(duì)特征解碼能力等效果。在加入候選特征后,獲得較高的F1 值,優(yōu)于CRF、LSTM、Bi-LSTM 和LSTM-CRF 模型,但沒有考慮到音變現(xiàn)象。后續(xù)工作可以考慮加入規(guī)則改善模型。
4.3.5 基于混合的詞干提取方法
基于混合的詞干提取方法綜合考慮了上述多種方法,考慮更多特征,處理具有復(fù)雜形態(tài)變化并且形態(tài)變化規(guī)則不嚴(yán)格的語言[73]。主要分為規(guī)則和詞典、規(guī)則和統(tǒng)計(jì)等混合方法。
基于規(guī)則和詞典方面,古麗拉·阿東別克等[71]最先開始維吾爾語詞干提取相關(guān)工作研究,構(gòu)建規(guī)則庫和詞典,采用“前綴+詞干”和“詞干+后綴”結(jié)構(gòu)的Boyer-Moore算法和正向最大匹配算法提取詞干,根據(jù)維吾爾語詞結(jié)構(gòu)和音變規(guī)律等方面切分和還原,但容易受到規(guī)則庫規(guī)模等方面限制,無法有效處理詞綴詞尾相近問題,初步探討了基于規(guī)則和詞典的詞干提取方法。陳鵬[72]采用全切分和雙向匹配的方法,結(jié)合詞典查詢進(jìn)行詞干提取。熱娜·艾爾肯等[35]根據(jù)維吾爾語特點(diǎn)和Lovin算法[89]設(shè)計(jì)出詞干提取器。
維吾爾語詞干提取FSM主要結(jié)合詞典查詢、MEM、CRF 和信道噪聲等模型方法使用,并取得一系列進(jìn)展。其中,詞典查詢方法構(gòu)建了詞綴與詞尾相似詞的詞干庫,緩解了錯(cuò)誤切分問題[73]。MEM是一種統(tǒng)計(jì)方法,首先確定詞干長(zhǎng)度和音節(jié)數(shù)等特征選擇,根據(jù)上下文和歷史數(shù)據(jù)判斷模糊后綴是否為真實(shí)后綴,可以解決FSM切分歧義問題,但受到數(shù)據(jù)稀疏性的影響較大[90]。CRF模型則是對(duì)MEM 的改進(jìn),不同在于MEM 獨(dú)立考慮各狀態(tài)數(shù)據(jù),而CRF分析序列數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明CRF模型在召回率等性能優(yōu)于MEM[91]。信道噪聲模型用于處理元音弱化等音變現(xiàn)象[83]。結(jié)合上述多種模型有利于提高FSM性能[33]。
米爾阿迪力江·麥麥提[76]采用基于統(tǒng)計(jì)的Morfessor[92]和基于規(guī)則的元音弱化處理算法的混合方法,分別有效地處理了歧義和特例問題。Tursun 等[77]提出一種基于標(biāo)簽過度的馬爾可夫模型進(jìn)行詞干提取。該方法利用詞典獲得詞干和詞綴的標(biāo)簽,馬爾可夫模型計(jì)算最有可能的標(biāo)簽轉(zhuǎn)換。后期加入規(guī)則考慮特定情況提升正確率。古麗尼格爾·阿不都外力等[82]提出字符序列標(biāo)注的方法,以字符為切分粒度,根據(jù)詞典過濾語料并使用CRF進(jìn)行預(yù)測(cè),后續(xù)工作可以采用神經(jīng)網(wǎng)絡(luò)方法提高準(zhǔn)確率。
形態(tài)切分又稱詞素切分(Morpheme Segmentation),是維吾爾語形態(tài)分析中的一個(gè)關(guān)鍵任務(wù),用于解決詞干詞綴的復(fù)雜組合問題。每個(gè)維吾爾語詞匯可以擁有相同的詞素,處理時(shí)需要將維吾爾語切分成詞素,形成詞素序列。因此形態(tài)切分能夠減少詞匯量并且緩解稀疏性和OOV 等問題并且通過去除句法后綴等停用詞(Stop Words)能夠減少噪聲和降低特征維數(shù)[93],是處理維吾爾語的有效方法。一般步驟主要有:(1)切分;(2)標(biāo)注。形態(tài)切分對(duì)后續(xù)技術(shù)處理起到重要推動(dòng)作用[39],例如機(jī)器翻譯[94],命名實(shí)體抽取[95]等。
形態(tài)切分與詞干提取一般區(qū)別有:(1)切分方面,詞干提取主要考慮詞干與構(gòu)形詞綴之間的切分,有時(shí)不會(huì)細(xì)致切分每一個(gè)詞綴;(2)分析方面,形態(tài)切分研究詞素序列,詞干提取主要考慮詞干,標(biāo)注方法有區(qū)別;(3)保留語義方面,形態(tài)切分盡可能保留了所有語義,詞干提取可能因?yàn)閬G棄詞綴導(dǎo)致語義缺失。有時(shí)二者之間不作出嚴(yán)格區(qū)分。
維吾爾語形態(tài)切分面臨的問題主要有[6]:(1)同化問題(即弱化和不和諧)[71];(2)形態(tài)變化;(3)語音和諧;(4)模糊性。
形態(tài)切分的方法主要分為基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于深度學(xué)習(xí)的方法和基于混合的方法。
4.4.1 基于規(guī)則的形態(tài)切分方法
傳統(tǒng)的基于規(guī)則的形態(tài)切分方法[1]主要依賴于人類專家經(jīng)驗(yàn),對(duì)人力要求較高,利用上下文信息能力較差,容易出現(xiàn)歧義切分現(xiàn)象。后續(xù)工作一般結(jié)合統(tǒng)計(jì)的方法使用。
4.4.2 基于統(tǒng)計(jì)的形態(tài)切分方法
基于統(tǒng)計(jì)的形態(tài)切分方法主要分為兩類:(1)使用CRF 等方法處理序列,方法關(guān)鍵在于語料庫和特征設(shè)計(jì),采用監(jiān)督的方法從標(biāo)注或未標(biāo)注語料提取詞素;(2)使用Morfessor等軟件,之后采用半監(jiān)督的方法提取詞素。其中,Morfessor 是一種不依賴于語言種類的統(tǒng)計(jì)軟件,能夠?qū)S吾爾語進(jìn)行詞切分工作,處理OOV問題,但對(duì)于語料庫規(guī)模等性能要求較高。
針對(duì)傳統(tǒng)基于規(guī)則的方法出現(xiàn)過度切分等現(xiàn)象的局限性,Aisha等[21]首次提出基于統(tǒng)計(jì)的形態(tài)切分方法,包括兩步切分的統(tǒng)計(jì)方法和字母標(biāo)記方法(Letter Tagging Approach,LTA)[96-97],主要使用CRF 等統(tǒng)計(jì)模型。在兩步切分的統(tǒng)計(jì)方法中,第一步不考慮語音和諧,使用MEM從手動(dòng)構(gòu)建的語料庫中以統(tǒng)計(jì)的方式學(xué)習(xí)單詞結(jié)構(gòu)知識(shí),將單詞或類短語分解成“準(zhǔn)詞”;第二步使用CRF 學(xué)習(xí)“準(zhǔn)詞”和真實(shí)詞之間的知識(shí)處理語音和諧現(xiàn)象。LTA在此基礎(chǔ)之上進(jìn)行標(biāo)注工作,采用“bmes”和形態(tài)分析標(biāo)簽進(jìn)行標(biāo)注。其中b、m 和e 分別表示詞素起始、中間和結(jié)束字符,s表示單字符詞素[98]。實(shí)驗(yàn)結(jié)果表明結(jié)合LTA 的CRF 能夠有效使用上下文信息,解決標(biāo)簽偏差問題,在切分方面性能在優(yōu)于最大熵馬爾可夫模型。但是,“bmes”標(biāo)簽并非相互獨(dú)立,容易導(dǎo)致模型過擬合問題,對(duì)F1值等性能有負(fù)面影響[99]。
為緩解維吾爾語形態(tài)豐富和語言模型的缺陷引起的OOV等問題,Abulimiti等[7]利用相關(guān)聯(lián)并且資源豐富的土耳其語改善維吾爾語詞素模型,通過映射等預(yù)處理工作最大化兩種語言詞匯之間的重疊。文本數(shù)據(jù)根據(jù)GlobalPhone 語料庫構(gòu)建步驟[100]收集,采用Morfessor 進(jìn)行形態(tài)切分和SRILM工具包[101]進(jìn)行訓(xùn)練和評(píng)估語言模型,通過使用改進(jìn)的Kneser-Ney 折扣法[102]訓(xùn)練三元模型。實(shí)驗(yàn)表明相比單語數(shù)據(jù)訓(xùn)練,使用雙語數(shù)據(jù)訓(xùn)練的基于詞素模型困惑度有所降低。
基于統(tǒng)計(jì)的形態(tài)切分方法容易出現(xiàn)錯(cuò)誤傳播問題,即音變還原的處理工作的速度和準(zhǔn)確率等性能會(huì)對(duì)下一步的切分工作產(chǎn)生負(fù)面影響。為解決錯(cuò)誤傳播問題,張海波等[75]提出聯(lián)合音變還原和形態(tài)切分的方法。該方法使用的聯(lián)合標(biāo)簽同時(shí)考慮了音變還原和形態(tài)切分,其中使用線性序列標(biāo)注模型進(jìn)行形態(tài)切分,并且使用“BMES”標(biāo)注和感知機(jī)進(jìn)行訓(xùn)練。吐爾洪·吾司曼等[58]在張海波等[75]工作基礎(chǔ)上,設(shè)計(jì)出維吾爾語形態(tài)切分、形態(tài)標(biāo)注以及音變還原協(xié)同標(biāo)記方法,提高系統(tǒng)總體正確率。
從總體上來看,基于統(tǒng)計(jì)的形態(tài)切分方法準(zhǔn)確率較高,缺點(diǎn)主要有:(1)處理數(shù)據(jù)稀疏能力較弱;(2)特征設(shè)計(jì)困難;(3)可能存在錯(cuò)誤切分等問題。可以結(jié)合規(guī)則和深度學(xué)習(xí)等方法改善。
4.4.3 基于深度學(xué)習(xí)的形態(tài)切分方法
基于深度學(xué)習(xí)的形態(tài)切分方法主要采用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行切分和標(biāo)注工作。
哈里旦木·阿布都克里木等[18]首次將深度學(xué)習(xí)引入到維吾爾語形態(tài)切分工作中,主要使用基于雙向GRU神經(jīng)網(wǎng)絡(luò)和“bmes”標(biāo)注方法。與傳統(tǒng)基于統(tǒng)計(jì)的方法(Morfessor 和CRF)和單向GRU 相比,該方法充分考慮了上下文信息消歧切分,有效緩解了數(shù)據(jù)稀疏問題并且通過自動(dòng)學(xué)習(xí)特征緩解其覆蓋面問題。Yang 等[99]使用帶有GRU 的指針網(wǎng)絡(luò)(Pointer Network)進(jìn)行維吾爾語形態(tài)切分,并采用注意力機(jī)制(Attention)改進(jìn)。不同于先前“bmes”標(biāo)注工作,該方法將較少的獨(dú)立且包含全面信息的標(biāo)簽(即“b”和“s”)用于形態(tài)切分,有著較好的穩(wěn)健性。Liu 等[103]使用加入注意力機(jī)制的Bi-LSTM 的方法,通過給輸出加權(quán)和來增加中間時(shí)間步長(zhǎng)(Time Steps)的影響,解決傳統(tǒng)Bi-LSTM方法忽略中間時(shí)間步長(zhǎng)的部分重要信息問題。
基于深度學(xué)習(xí)的維吾爾語形態(tài)切分方法仍處于起步階段,可以考慮借鑒其他語種基于深度學(xué)習(xí)的詞法分析方法。
4.4.4 基于混合的形態(tài)切分方法
基于混合的方法則考慮了上述多種方法,主要有統(tǒng)計(jì)與規(guī)則結(jié)合的方法。
薛化建等[104-106]提出一種基于統(tǒng)計(jì)和基于規(guī)則的形態(tài)切分方法。采用規(guī)則切分法進(jìn)行切分,MAP 模型評(píng)分,級(jí)聯(lián)語言模型(Cascaded Language Model)提高模型準(zhǔn)確性,貪婪搜索算法選擇最優(yōu)模型,最后得到最有可能的切分方法。相比于Morfessor,該模型錯(cuò)誤切分的現(xiàn)象顯著減少。Ablimit 等[79]采用結(jié)合序列標(biāo)注和詞內(nèi)二元模型方法,將詞切分為詞素或音節(jié),考慮音變還原,詞素切分準(zhǔn)確率較高。
音節(jié)切分是一種對(duì)音節(jié)的形態(tài)分析方法,可根據(jù)音節(jié)規(guī)律找出對(duì)應(yīng)的詞素或詞,有助于進(jìn)行后續(xù)切分和音變還原[23]工作,也可以將音節(jié)作為特征進(jìn)行模型訓(xùn)練。
古麗拉·阿東別克等[71]在首次詞干提取工作中加入音節(jié)切分,判斷是否將詞單獨(dú)處理[85]。Ablimit等[6]進(jìn)行語言模型(Language Model,LM)實(shí)驗(yàn)和自動(dòng)語音識(shí)別技術(shù)(Automatic Speech Recognition,ASR)實(shí)驗(yàn)時(shí),綜合考慮了形態(tài)切分和音節(jié)切分,設(shè)計(jì)出詞素切分器。Mahmoud等[28]采用音節(jié)切分的方法并對(duì)音節(jié)進(jìn)行標(biāo)注,將詞干提取轉(zhuǎn)變?yōu)樾蛄袠?biāo)注問題,選取音節(jié)作為基本特征,采用CRF工具進(jìn)行模型訓(xùn)練,獲得較高的準(zhǔn)確率等性能,但存在歧義標(biāo)注等問題。
維吾爾語形態(tài)分析系統(tǒng)和軟件有著較為完整的流程體系,實(shí)用性強(qiáng),在維吾爾語文字處理等方面有著廣泛應(yīng)用。
玉素甫·艾白都拉等[60]首次進(jìn)行維吾爾語形態(tài)分析工作,認(rèn)為維吾爾語詞尾變化實(shí)現(xiàn)詞法變化,針對(duì)詞尾分析等方面提出詞典分級(jí)構(gòu)造法和單詞分析法,構(gòu)建一種詞法分析器。
米吉提·阿布力米提等[85,107]根據(jù)古麗拉·阿東別克等[71]提出的切分原理分別構(gòu)建了維吾爾語文字校對(duì)系統(tǒng)和維吾爾語詞法分析器。維吾爾語文字校對(duì)系統(tǒng)實(shí)現(xiàn)多文種混合處理,基本思路是將文字信息輸入與已構(gòu)建好的詞法庫進(jìn)行比較并輸出反饋結(jié)果。其中詞法庫主要分為詞根表、總詞綴表(基本詞綴及其組合)和詞綴表(基本詞綴)。系統(tǒng)主要流程包括詞根庫校對(duì)、音節(jié)切分、詞根和詞綴切分以及元音同化和語音和諧處理等步驟,對(duì)于特殊情況單獨(dú)處理或報(bào)錯(cuò)。該校對(duì)系統(tǒng)具有較好的穩(wěn)定性和速度等性能。缺點(diǎn)在于構(gòu)建大規(guī)模詞根表需要大量人力資源。維吾爾語詞法分析器系統(tǒng)的工作流程和維吾爾語文字校對(duì)系統(tǒng)相似,不同點(diǎn)有:(1)數(shù)據(jù)庫增加了音節(jié)表,主要保留根據(jù)音節(jié)規(guī)則將詞根切分成的音節(jié);(2)采用最小編輯距離算法找出拼寫錯(cuò)誤候選詞。該系統(tǒng)能夠用于文字校對(duì)和語法校對(duì)相關(guān)工作。
Ablimit等[108-110]先后開發(fā)了詞素切分器和語音形態(tài)處理工具。根據(jù)維吾爾語語言結(jié)構(gòu)特點(diǎn)和音變還原規(guī)則,構(gòu)建了一種半監(jiān)督的詞素切分器,其中詞干列表是切分的基礎(chǔ)。該切分器檢測(cè)詞干詞綴邊界的準(zhǔn)確率較高,但在處理復(fù)雜結(jié)構(gòu)時(shí)效果欠佳。語音形態(tài)處理工具根據(jù)包括維吾爾語在內(nèi)的三種少數(shù)民族語言的詞素和音素的性質(zhì)構(gòu)建,在拼寫錯(cuò)誤檢查等方面效果良好。
Orhun 等[111]根據(jù)形態(tài)規(guī)則構(gòu)建維吾爾語形態(tài)消歧器,結(jié)合上下文,給出所有單詞的形態(tài)解析,解決歧義問題。該消歧器速度較快并且能夠給出明確結(jié)果,但無法考慮所有情況的規(guī)則。
艾孜爾古麗等[112]開發(fā)現(xiàn)代維吾爾語詞干提取系統(tǒng),對(duì)9 家維吾爾文網(wǎng)站文本詞干情況進(jìn)行有效分類和統(tǒng)計(jì)。該系統(tǒng)包括文件格式轉(zhuǎn)換模塊、文本整理與校對(duì)模塊、詞干詞典維護(hù)模塊和詞干提取模塊。其中詞干提取模塊采用基于詞典的方法,將詞匯不斷切分,和詞干庫和詞綴庫進(jìn)行比對(duì),人工擴(kuò)充不匹配詞匯的詞干和詞綴。隨著詞干庫不斷擴(kuò)充,模塊性能不斷提高,缺點(diǎn)在于未考慮音變現(xiàn)象,人力資源耗費(fèi)較大。類似的,玉素甫·艾白都拉等[113]采用結(jié)合網(wǎng)站用詞調(diào)查的方法進(jìn)行詞干提取,設(shè)計(jì)了詞尾統(tǒng)計(jì)系統(tǒng),主要用于切分詞尾和統(tǒng)計(jì)詞尾使用頻率。其中構(gòu)建詞干庫和詞尾庫時(shí),考慮語音弱化等音變現(xiàn)象,從而達(dá)到正確切分和符合語言學(xué)習(xí)慣的目的。通過自動(dòng)和人機(jī)交互方法統(tǒng)計(jì)出詞尾使用情況,其中高頻(頻率超過一萬)詞尾作用有:(1)同時(shí)充當(dāng)構(gòu)詞詞綴和構(gòu)形詞綴;(2)包含多種語法功能。在高頻詞尾中,名詞性詞語的詞尾數(shù)量較多,是詞尾研究重點(diǎn)。低頻詞尾種類較多,大致呈現(xiàn)出隨長(zhǎng)度增加,頻數(shù)減少的趨勢(shì)。該統(tǒng)計(jì)分析對(duì)于形態(tài)分析工作具有重要參考意義。
艾孜爾古麗等[114]提出一種最大熵名詞詞干識(shí)別模型,考慮維吾爾語形態(tài)結(jié)構(gòu)等語法方面以及詞內(nèi)部和前后依存詞特征,構(gòu)建了維吾爾語名詞識(shí)別系統(tǒng)。
哈里旦木·阿布都克里木等[18]在雙向GRU 神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ)上構(gòu)建了維吾爾語形態(tài)切分系統(tǒng)。
帕麗旦·木合塔爾等[115]根據(jù)Android 系統(tǒng)和維吾爾語的特點(diǎn)構(gòu)建出詞性標(biāo)注和詞干提取APP,打破了詞干提取依賴于PC機(jī)的傳統(tǒng),操作簡(jiǎn)潔,靈活方便。
維吾爾語形態(tài)分析在機(jī)器翻譯、模式匹配和NER等領(lǐng)域有著廣泛應(yīng)用。
機(jī)器翻譯(Machine Translation)是一種利用計(jì)算機(jī)自動(dòng)翻譯人類語言的技術(shù)[116]。根據(jù)方法可分為基于規(guī)則、實(shí)例、統(tǒng)計(jì)和深度學(xué)習(xí)的機(jī)器翻譯[117]。機(jī)器翻譯能夠緩解語言不通方面的障礙,從一定程度上減少人力和財(cái)力。維吾爾語機(jī)器翻譯領(lǐng)域常見的有維漢機(jī)器翻譯。維吾爾語形態(tài)分析在提高詞對(duì)齊和保留語義信息等方面對(duì)于提高機(jī)器翻譯性能有著重要推動(dòng)作用。其中詞對(duì)齊是雙語對(duì)齊重要組成部分,也是維吾爾語機(jī)器翻譯的基礎(chǔ),影響著后續(xù)翻譯的進(jìn)程,其任務(wù)是根據(jù)字符串找出雙語對(duì)應(yīng)匹配單詞。維漢翻譯和英漢翻譯等在詞對(duì)齊方面仍有著較大差距。
維漢機(jī)器翻譯面臨困難主要有:(1)維吾爾語和漢語語法、語義和句法等方面差異較大;(2)維吾爾語形態(tài)高度變化且數(shù)據(jù)稀疏;(3)缺乏大規(guī)模優(yōu)質(zhì)雙語平行語料庫;(4)存在OOV問題。
在處理音變現(xiàn)象方面,徐春等[14]利用自制維吾爾語形態(tài)切分工具,根據(jù)詞干庫和構(gòu)形詞綴庫,去掉構(gòu)形詞綴,并進(jìn)行弱化和脫落現(xiàn)象的音變還原,如果匹配不到詞干庫則歸類為備用切分方案。最后得到目標(biāo)詞干和詞綴,提高詞對(duì)齊的準(zhǔn)確率,進(jìn)一步提高了維漢(漢維)機(jī)器翻譯的準(zhǔn)確率。
在緩解稀疏性問題方面,李欽欽[117]在碩士論文中通過使用Morfessor進(jìn)行維吾爾語形態(tài)切分,包括對(duì)名詞、動(dòng)詞和形容詞的切分,緩解稀疏性和維吾爾語單詞對(duì)應(yīng)漢語短語問題。Mi 等[2]提出了形態(tài)切分的對(duì)數(shù)線性模型,同時(shí)基于單語和雙語語料庫進(jìn)行模型優(yōu)化,綜合考慮CRF特征、雙語詞對(duì)齊特征和單語后綴詞共現(xiàn)特征并且保留了有用詞綴,解決數(shù)據(jù)稀疏等問題。類似的,麥熱哈巴·艾力等[118]提出一種將詞干詞綴先分離再對(duì)齊的方法,并統(tǒng)一詞綴變體形式,采用GIZA++詞對(duì)齊工具[119]處理,有效緩解了數(shù)據(jù)稀疏問題,提高了詞對(duì)齊準(zhǔn)確率和維漢機(jī)器翻譯性能。但是這種方法將詞綴視為獨(dú)立的符號(hào)(Token)處理,將所有詞綴保留,增長(zhǎng)了句子長(zhǎng)度,不利于GIZA++處理。
為了解決上述問題,麥合甫熱提等[120]提出“分離-丟棄”方案,根據(jù)詞尾翻譯概率的高低判斷對(duì)詞尾“分離”或“丟棄”并探討了不同詞尾粒度模板性能。該方法保留了有意義的信息,有效緩解了切分后句子過長(zhǎng)問題同時(shí)增加了維漢詞對(duì)的數(shù)量,維漢機(jī)器翻譯BLEU值有一定的提高,但幅度有限,主要原因在于受到語料庫規(guī)模和詞尾選擇方法限制,仍需要改進(jìn)模板。類似的,Mi等[121]認(rèn)為將詞綴簡(jiǎn)單的丟棄會(huì)削弱機(jī)器翻譯能力,提出一種優(yōu)化維吾爾語切分方法,不同的是該方法僅通過少數(shù)特征表示維漢句子之間對(duì)應(yīng)關(guān)系。使用CRF訓(xùn)練過的基于字符標(biāo)注的模型切分維吾爾語單詞,結(jié)合雙語詞典查詢,通過邏輯回歸模型輸出的標(biāo)簽判斷是否去除詞綴。
在研究模型粒度方面,米莉萬·雪合來提等[122]提出一種基于有向圖的“詞干-詞綴”語言模型的漢維機(jī)器翻譯方法,將維吾爾語詞轉(zhuǎn)化為詞干詞綴粒度,相比詞粒度翻譯系統(tǒng),BLEU值有所提升。
麥熱哈巴·艾力[123]在博士論文中綜合上述多種方法,構(gòu)建基于實(shí)例的維漢機(jī)器翻譯系統(tǒng)。主要形態(tài)分析工作有:自動(dòng)還原模型采用基于統(tǒng)計(jì)的方法,能夠有效處理復(fù)雜音變現(xiàn)象;有向圖模型充分考慮了詞干與詞干之間關(guān)系和詞干與詞綴之間的關(guān)系;詞干、詞綴分離則采用“分離-丟棄”方法。
針對(duì)傳統(tǒng)神經(jīng)機(jī)器翻譯只考慮高頻詞未能較好處理OOV問題和錯(cuò)誤切分的現(xiàn)象,Pan等[19]提出一種形態(tài)學(xué)分析方法,結(jié)合維吾爾語形態(tài)規(guī)則保留詞匯語言語義信息,主要采用形態(tài)切分和字節(jié)對(duì)編碼(Byte Pair Encoding,BPE)的方法,減少訓(xùn)練詞匯量。
綜合上述工作,基于實(shí)例和基于統(tǒng)計(jì)的維漢機(jī)器翻譯處于主導(dǎo)地位,基于深度學(xué)習(xí)的維漢機(jī)器翻譯相關(guān)研究仍處于初始階段??紤]更多的形態(tài)學(xué)知識(shí)、復(fù)雜語法結(jié)構(gòu)和語義信息[124]能夠提高詞對(duì)齊性能等方面性能。在后續(xù)的基于深度學(xué)習(xí)的神經(jīng)機(jī)器翻譯(Neural Machine Translation,NMT)方面,可以采用以下方法:
(1)遷移學(xué)習(xí)[125-127]。先利用高資源且相似的語言詞素訓(xùn)練模型,之后遷移到維吾爾語詞素得到翻譯結(jié)果。其中可采用的模型包括BPE[128]、預(yù)訓(xùn)練和微調(diào)等,其中在加入預(yù)訓(xùn)練方法時(shí)需要考慮語言間相似性和算力資源等[129]。
(2)元學(xué)習(xí)(Meta-Learning,ML)[130-131]。利用機(jī)器學(xué)習(xí)方法學(xué)習(xí)如何學(xué)習(xí)(Learning to Learn),能夠快速適應(yīng)新任務(wù),減少對(duì)訓(xùn)練數(shù)據(jù)樣本需求,提高模型泛化能力[132],可以結(jié)合遷移學(xué)習(xí)方法使用。
(3)數(shù)據(jù)增強(qiáng)方法(Data Augmentation)[129]。更多的利用已有的單語數(shù)據(jù)來彌補(bǔ)雙語數(shù)據(jù)缺失問題,能夠擴(kuò)充訓(xùn)練數(shù)據(jù),但需要注意偽數(shù)據(jù)和噪聲問題。主要分為回譯(Back-Translation)方法[133-135]和詞語替換方法[136-138]。
(4)多語言翻譯方法[139-140]。構(gòu)建多語言語料庫,考慮語言關(guān)聯(lián)現(xiàn)象,實(shí)現(xiàn)多源NMT。該方法能夠提高準(zhǔn)確率,但容易出現(xiàn)內(nèi)容冗余問題,可以通過微調(diào)方法緩解。
Abliz 等[24]將形態(tài)分析工作應(yīng)用于模式匹配,針對(duì)維吾爾語元音弱化和后綴引起的形態(tài)變化等方面進(jìn)行分析,在原有Boyer-Moore 算法的基礎(chǔ)上提出Boyer-Moore-U算法和可檢索音節(jié)編碼格式,解決了元音弱化問題,提高了詞干形態(tài)變化單詞匹配能力。
瑪依熱·依布拉音等[20]提出一種基于最小編輯距離的方法,用于處理維吾爾語詞語檢錯(cuò)與糾錯(cuò)。該方法考慮了維吾爾語音節(jié)分析,詞干-詞綴的切分和元音同化現(xiàn)象,結(jié)合語音和諧規(guī)律處理算法,應(yīng)用于文本校對(duì)和檢索領(lǐng)域。
維吾爾語分詞(Word Segmentation或Tokenization)定義主要分為兩種:(1)詞內(nèi)部結(jié)構(gòu)切分,以詞素為單位,即維吾爾語詞干提取或形態(tài)切分;(2)詞之間切分,以詞為單位。詞之間切分層面上,傳統(tǒng)方法采用簡(jiǎn)單的空格分割來獲取維吾爾文單詞[71]作為基本語言單位存在較大的局限性,無法獲得上下文關(guān)聯(lián)語義。吐爾地·托合提等[141]首先對(duì)維吾爾語分詞工作進(jìn)行研究。采用基于頻繁模式挖掘的組詞方法,并結(jié)合使用詞干提取解決同一詞不同詞形的問題,獲得較高的組詞正確率,解決了傳統(tǒng)分詞問題。
如先姑力·阿布都熱西提[27]將詞干提取應(yīng)用于維吾爾語詞語自動(dòng)校對(duì)系統(tǒng)中。系統(tǒng)處理的總體步驟主要有:首先提取維吾爾文單詞;其次進(jìn)行詞級(jí)分析包括音節(jié)分析和詞干提取等方面,從而找出錯(cuò)誤詞匯;最后根據(jù)錯(cuò)詞找出候選詞。
鄒岳琳等[142]將詞干提取應(yīng)用于維吾爾語事件類時(shí)間短語識(shí)別任務(wù)中,主要使用融合CRF和UETE識(shí)別系統(tǒng)的方法,具有一定的推廣意義。
米吉提·阿不里米提等[9]構(gòu)建語音識(shí)別系統(tǒng)時(shí)采用詞-詞素兩層間的優(yōu)化方法,顯著降低了單詞錯(cuò)誤率。
Chaudhary 等[143]分析音素、詞素和字形三種字詞單位,考慮維吾爾語和土耳其語表面形式和形態(tài)等方面的相似性,提出CT-Joint和CT-FineTune兩種模型,應(yīng)用于NER和機(jī)器翻譯等。
Sardar等[93]采用詞素切分工具[110]將單詞序列切分成最優(yōu)詞素序列,降低了特征維數(shù),提高了后續(xù)文本分類的能力。
沙爾旦爾·帕爾哈提等[144]在維-哈語文本關(guān)鍵詞提取工作中采用了詞干提取和形態(tài)切分的方法。實(shí)驗(yàn)證明,詞干提取能夠減少派生類語言粒度容量,利用多語言處理工具生成的詞素序列能夠提高后續(xù)關(guān)鍵詞提取準(zhǔn)確率。
在英語等語言形態(tài)分析方面,Cotterell 等[145]提出Canonical Segmentation 形態(tài)切分方法,打破了形態(tài)分析屬性值對(duì)(Attribute-Value Pairs,AVP)傳統(tǒng)方法,充分考慮了音變還原現(xiàn)象,處理派生和屈折形態(tài)更加靈活。Ruzsics 等[146]在此方法中添加語言模型,獲得更低的切分錯(cuò)誤率。üstün等[147]從Word2vec(Word to Vector)模型[148]中學(xué)習(xí)詞嵌入,將獲得的語義信息整合到最大似然估計(jì)(Maximum Likelihood Estimate,MLE)方法和MAP模型中進(jìn)行無監(jiān)督形態(tài)切分。該方法對(duì)于語料庫規(guī)模要求低,適用于低資源語言。Wu等[149]提出一種啟發(fā)式方法(Heuristic Approach),用于去除派生形式。
處理低資源語言方面,Kann 等[150]首次提出基于跨語言遷移(Cross-Lingual Transfer)的形態(tài)切分方法,構(gòu)建多語言模型,結(jié)合多任務(wù)訓(xùn)練和數(shù)據(jù)增強(qiáng)方法,有效緩解低資源語言數(shù)據(jù)匱乏問題。Malaviya 等[151]認(rèn)為聯(lián)合模型更適合分析低資源形態(tài)豐富語言,在LSTM和神經(jīng)序列到序列(Sequence-to-Sequence)模型基礎(chǔ)上,提出一種聯(lián)合詞形還原(Lemmatization)和形態(tài)標(biāo)注的神經(jīng)有向圖模型。該模型在詞形還原和形態(tài)標(biāo)注有著較高的準(zhǔn)確率,但在標(biāo)注方法上仍有改善空間。
在中文分詞(Chinese Word Segmentation,CWS)工作中,Tian 等[152]首次提出一種鍵值(Key-Value)記憶神經(jīng)框架WMSEG,更加充分利用上下文單詞信息。郭星星[153]提出Bert-BiGRU-CRF 中文分詞方法,獲得豐富語義信息。黃曉輝等[154]利用卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型,有效提取字序列局部空間特征和長(zhǎng)距離時(shí)序依賴特征,減小分詞誤差,有利于提高后續(xù)NER 能力。王星等[155]以字根信息序列標(biāo)注為基礎(chǔ)進(jìn)行中文分詞工作,利用融合ALBERT[156]語言模型和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[157]的方法,分別用于訓(xùn)練動(dòng)態(tài)詞向量和特征提取。該方法在少量標(biāo)注數(shù)據(jù)條件下分詞效果良好,但存在訓(xùn)練時(shí)間較長(zhǎng)等問題。
參考相近語言的形態(tài)分析工作,有利于理解維吾爾語形態(tài)特點(diǎn)并且更容易找到改進(jìn)思路。Güng?r等[158]采用局部可理解的與模型無關(guān)的解釋(Local Interpretable Model-Agnostic Explanations,LIME)技術(shù),研究了土耳其語特征影響的強(qiáng)度和方向,探討了特征之間的關(guān)系問題。
綜合上述其他語言工作,基于深度學(xué)習(xí)的維吾爾語形態(tài)分析方法今后需要探討重點(diǎn)主要有:(1)更加充分利用上下文信息;(2)改進(jìn)序列標(biāo)注方法;(3)遷移學(xué)習(xí)方法,包括預(yù)訓(xùn)練(Pre-Training)和微調(diào)等;(4)綜合考慮維吾爾語語言特征等方面。
維吾爾語形態(tài)分析發(fā)展較為迅速,但仍面臨一系列挑戰(zhàn)。
(1)資源貧乏。和英漢等熱門語言不同,維吾爾語缺乏規(guī)模較大的開源語料庫,數(shù)據(jù)稀疏和資源匱乏等問題成為提高訓(xùn)練模型精確度等指標(biāo)時(shí)的一大障礙。在低資源的條件下,可以考慮采用與維吾爾語語法相似且資源豐富的語言數(shù)據(jù)(例如土耳其語)改善模型。語料庫規(guī)模的大小影響著前沿模型的訓(xùn)練效果,因此構(gòu)建高標(biāo)準(zhǔn)和大規(guī)模的開源語料庫也將會(huì)是未來維吾爾語形態(tài)分析的重要方向。
(2)形態(tài)結(jié)構(gòu)多變。維吾爾語在詞素組合方面具有高度靈活性,能夠通過組合有限的詞干和詞綴可以生成無限的詞語,會(huì)給后期機(jī)器翻譯等應(yīng)用帶來OOV 等問題,因此維吾爾語形態(tài)豐富和黏著性等語法特點(diǎn)和數(shù)據(jù)稀疏性等問題仍然是研究重點(diǎn),目前形態(tài)切分等相關(guān)方法在解決上述問題取得了一定成果。在今后的工作中,需要更多的考慮維吾爾語語法規(guī)則改善模型。
(3)不確定性。方言和來源于互聯(lián)網(wǎng)等途徑的維吾爾語編碼或拼寫存在噪聲和不確定性等特點(diǎn)。一些外來詞匯,不同地區(qū)和歷史上不同時(shí)間使用不同字符,即“一文多語”的現(xiàn)象均會(huì)帶來較大影響,需要進(jìn)行降噪和轉(zhuǎn)換等一系列預(yù)處理工作。
(4)缺乏標(biāo)準(zhǔn)化。相關(guān)術(shù)語命名以及定義、語法規(guī)則和處理技術(shù)等方面缺乏標(biāo)準(zhǔn)化和統(tǒng)一化,對(duì)于學(xué)術(shù)交流和維吾爾語NLP等方面有著一定的阻礙作用,后續(xù)工作需要集思廣益制定各方面標(biāo)準(zhǔn)。
(5)處理技術(shù)相對(duì)過時(shí)。維吾爾語與英漢等大規(guī)模流行語言相比處理技術(shù)仍有較大差距。維吾爾語形態(tài)分析工作可以結(jié)合維吾爾語自身語言特點(diǎn)借鑒大語種處理方法思路。近幾年,隨著計(jì)算機(jī)性能的提高,基于深度學(xué)習(xí)的方法得到飛速發(fā)展,以Vaswani 等提出的Transformer 深度神經(jīng)網(wǎng)絡(luò)[159]以及GPT(Generative Pre-Training)[160-161]、BERT(Bidirectional Encoder Representations from Transformers)[162]和Roberta[163]等模型為代表的預(yù)訓(xùn)練技術(shù)得到越來越多的重視,能夠減少對(duì)標(biāo)注數(shù)據(jù)的需求,避免重復(fù)訓(xùn)練[164]。Conneau 等[165]在Transformer 基礎(chǔ)上提出了XLM-R 預(yù)訓(xùn)練模型,能夠提高低資源語言NER準(zhǔn)確率等性能。此外,Conneau等還構(gòu)建了維吾爾語預(yù)訓(xùn)練語料庫,后續(xù)預(yù)訓(xùn)練研究工作將會(huì)陸續(xù)展開。
本文主要對(duì)維吾爾語形態(tài)分析現(xiàn)狀和發(fā)展作出總結(jié),根據(jù)維吾爾語形態(tài)分析任務(wù)類型對(duì)不同的方法作出分類和比較,各種模型方法均有優(yōu)劣,最后指出挑戰(zhàn)與機(jī)遇??傮w而言,維吾爾語形態(tài)分析近幾年發(fā)展迅速,與此同時(shí)存在較多問題。
隨著計(jì)算機(jī)算力不斷提高,以基于深度學(xué)習(xí)為主的維吾爾語形態(tài)分析方法是未來發(fā)展的趨勢(shì),同時(shí)可以考慮結(jié)合子詞聯(lián)合標(biāo)簽、遷移學(xué)習(xí)和元學(xué)習(xí)等多種方法改善模型。根據(jù)最前沿技術(shù)和維吾爾語語言特點(diǎn)不斷地改進(jìn)形態(tài)分析方法對(duì)于后續(xù)研究有著重要推動(dòng)作用。