吐爾洪·吾司曼 楊雅婷 艾孜孜·吐爾遜 程力,?
1.中國科學院新疆理化技術研究所, 烏魯木齊 830011; 2.中國科學院大學, 北京 100049; 3.新疆民族語音語言信息處理實驗室,烏魯木齊 830011; 4.和田師范??茖W校數(shù)學與信息學院, 和田 848000; ? 通信作者, E-mail: chengli@ms.xjb.ac.cn
在自然語言處理中, 語法結(jié)構的分析離不開對詞匯形態(tài)學的分析, 句子語義的分析也離不開對詞匯語義的分析, 因此形態(tài)分析是自然語言處理中的基礎性問題, 在機器翻譯、信息檢索和問答系統(tǒng)等領域具有廣泛的應用前景[1]。維吾爾語是一種黏著性語言, 豐富的構形詞綴連接詞干, 表示數(shù)、格、時態(tài)等語法功能, 例如, 詞干“(夏天)作為名詞時, 連接屬格綴“得到(夏天的), 連接時位格綴“”得到“(在夏天);(寫)作為動詞時,連接過去式形動態(tài)綴得到(寫的), 嵌套連接能源體綴、否定綴、現(xiàn)在-將來時綴及代詞綴“, 得到(我不會寫)。因此, 維吾爾語單詞通過構形方式衍生出新詞。
自然語言形態(tài)分析研究始于1955年, Harris[2]進行英語詞素邊界識別方面的研究, 1970年, Harris[3]進行英語詞素邊界識別方面的研究, 并提出基于前文的詞素邊界識別思想; 1994年, Merialdo[4]利用隱馬爾可夫模型(HMM)進行基于無監(jiān)督訓練的英語詞性標注研究。2001年, Goldsmith[5]提出最小描述長度準則(minimum description length)的形態(tài)分析方法, 在最小描述長度的啟發(fā)式算法中, 較短的字符串更可能被選中為詞干。2005年, Creutz等[6]提出最大自然估計算法的形態(tài)分析工具Morfessor, 并于2007年用最大后驗估計算法對它進行改進, 得到在英語、芬蘭語、土耳其語和阿拉伯語語料上的準確率分別為66.2%, 66.4%, 70.7%和68.1%[7]。2013年, Ruokolainen等[8]基于條件隨機場(CRF)算法, 進行少量標注語料的有監(jiān)督形態(tài)切分研究, 實驗結(jié)果顯示有監(jiān)督訓練的效果明顯高于無監(jiān)督訓練。
針對維吾爾語的形態(tài)分析研究始于1997年, 玉素甫·艾白都拉等[9]首次進行維吾爾語詞法分析的研究。2006年, 阿依克孜·卡德爾等[10]進行維吾爾語名詞及詞綴進行語法形態(tài)學方面的分析。艾山·吾買爾[11]2008年做了有限狀態(tài)自動機與詞典相結(jié)合的維吾爾語名詞詞干切分研究, 測試的準確率為91%; 2009年采用有限狀態(tài)自動機和最大熵模型(MEM)的混合模型, 來解決詞干切分中的歧義問題[12]。2011年, 薛化建等[13]在詞綴庫的基礎上, 提出一種無監(jiān)督維吾爾語詞切分方法, 該方法在測試集上的準確率達到80.4%。
以上研究主要采用基于規(guī)則的方法, 這類方法最大的缺點在于收集到的規(guī)則無法涵蓋所有的語言現(xiàn)象, 積累規(guī)則需要較高的語言學方面的知識。因此, 在后來的研究中基于統(tǒng)計的方法成為主流方向。麥熱哈巴·艾力等[14]提出維吾爾語詞法分析有向圖模型, 將有向圖的節(jié)點作為詞干和詞綴, 圖邊表示節(jié)點之間的轉(zhuǎn)移概率, 針對維吾爾語的音變現(xiàn)象, 提出詞內(nèi)字符對齊算法的自動還原模型, 并用統(tǒng)計的方法解決詞內(nèi)音變現(xiàn)象, 實驗結(jié)果顯示最終詞干提取正確率為94.7%。張海波等[15]將音變還原問題結(jié)合在形態(tài)切分過程中, 有效地避免了串行模型中音變還原對形態(tài)切分的錯誤傳播問題。米爾阿迪力江·麥麥提[16]用Morfessor模型在大規(guī)模網(wǎng)絡文本上做實驗, 詞干提取準確率可以達到86.08%。Tursun等[17]結(jié)合詞典及規(guī)則進行形態(tài)切分, 得到維吾爾語形態(tài)標記馬爾科夫模型。哈里旦木·阿布都克里木等[18]采用雙向門限遞歸單元神經(jīng)網(wǎng)絡, 進行維吾爾語的形態(tài)切分研究, 通過門限遞歸單元, 有效地處理長距離依賴問題。Maimaiti等[19]用BILSTM-CRF模型進行詞性標注實驗, 并在實驗中論證特征對標注模型的重要性。
維吾爾語形態(tài)分析的目標是詞干、詞綴切分以及為它們的語法功能進行自動標注, 這是維吾爾語自然語言處理研究的首要任務。一方面, 作為形態(tài)復雜的黏著性語言, 維吾爾語具有眾多的構形詞綴、豐富的構形規(guī)則、歧義的邊界及詞性以及復雜的音變現(xiàn)象等特點, 使維吾爾語形態(tài)分析成為具有挑戰(zhàn)性的研究。另一方面, 作為語料資源相對缺乏的語言, 沒有相應的開源標注語料庫, 制約了相關研究的進一步深入。本文在文獻[15]的基礎上, 提出基于字符層面的協(xié)同分析方法, 將形態(tài)切分、形態(tài)標注及音變還原任務統(tǒng)一定義為字符序列的標注任務, 從而有效地降低數(shù)據(jù)稀疏和數(shù)據(jù)量少等問題對形態(tài)分析的影響。
維吾爾語的詞綴有構詞詞綴和構形詞綴兩種,構詞詞綴的數(shù)量較少, 且構詞規(guī)則相對固定, 衍生出的新單詞一般在詞典里可以查到, 因此構詞詞綴不在本文的研究范圍內(nèi)。構形詞綴數(shù)量眾多, 以不同的組合方式連接到詞干, 可以產(chǎn)生多種形態(tài)變化,衍生新的單詞, 使詞匯量劇增, 并在組合過程中發(fā)生音變現(xiàn)象。當不同的構形詞綴嵌套組合時, 表達的意思更復雜。表 1 給出維吾爾語形態(tài)切分的例子。
目前維吾爾語形態(tài)分析研究面臨的具挑戰(zhàn)性的問題如下。
1)維吾爾語詞綴眾多, 構形方式豐富。維吾爾語是形態(tài)復雜的語言, 共有300多個構形詞綴, 分為17個大類, 如人稱、格、比較級和時態(tài)等, 每一類表達的語法意義各不相同, 構形規(guī)則也不同。
2)詞素有歧義。維吾爾語單詞的詞性有歧義,這種現(xiàn)象在形容詞和副詞中較常見, 如單詞“”表示“多”的意思, 修飾名詞時具有形容詞特性, 而修飾動作時具有副詞特性。同樣, 詞綴“當動名詞綴時構形的動詞具有名詞性質(zhì), 而當共同態(tài)綴時表示動作共同完成。
4)切分有歧義。有時不同的單詞經(jīng)過構形后,派生的單詞在書寫形式上是一樣的, 如“(給)和(去)由狀態(tài)副動詞綴構形后變成此時很難用規(guī)則判斷其詞干。
表1 維吾爾語形態(tài)切分例子Table 1 Example of Uyghur morphology
5)音變現(xiàn)象。維吾爾語在構形過程中要遵循語音和諧規(guī)則, 當詞干與詞綴、詞綴與詞綴相互連接時, 有可能發(fā)生脫離、弱化以及增音等音變現(xiàn)象(表 2)。
通過以上分析可以發(fā)現(xiàn), 一個維吾爾語詞干以不同的構形方式派生出不同的新單詞, 派生過程中人稱、數(shù)以及時態(tài)等語法信息以詞綴的形式表達,這種現(xiàn)象導致機器翻譯系統(tǒng)中詞對齊效率的降低,增加未登錄詞的數(shù)量, 從而影響譯文質(zhì)量[20-21]。在信息檢索過程中對內(nèi)容進行形態(tài)切分, 可以壓縮倒排表的大小, 并且檢索結(jié)果可以覆蓋擁有相同詞干的所有單詞, 因此在縮短系統(tǒng)運行時間的同時, 還可以得到較高的查全率[22]。圖1為維-漢統(tǒng)計機器翻譯中詞干切分之前(a)和詞干切分之后(b)雙語句子的對齊結(jié)果, 圖1(a)中中文單詞“加強”與它對應的維吾爾文單詞沒有對齊, 而把維吾爾文單詞錯誤地與中文單詞“金融業(yè)”對齊。詞干提取之后解決了圖1(a)中的對齊錯誤, 如圖1(b)所示。
表2 維吾爾語音變現(xiàn)象Table 2 Example of phonetic change in Uyghur morphology
圖1 統(tǒng)計機器翻譯中的詞對齊Fig.1 Word alignment in statistical machine translation
維吾爾語形態(tài)分析的目的包括形態(tài)切分、形態(tài)標注及音變還原, 這是進行句法分析研究的前提,可對有效地辨別短語結(jié)構提供幫助。例如, 名詞和代詞與格詞綴組成格短語(kasus phrase, KP), 動詞與時態(tài)詞綴組成時態(tài)短語(tense phrase, TP)。圖2顯示例句(他在困難面前沒有害怕。)從詞法分析到句法分析的過程: 第1層是原句的分詞狀態(tài), 第2層是句子中各單詞的詞素切分狀態(tài), 第3層是各詞素的詞性標注, 第 4 層是其短語結(jié)構。
假設維吾爾語單詞由字符序列c=(c1,c2,c3, …,cn)組成, 其中n為單詞的長度。l=(l1,l2,l3, …,ln)表示c的形態(tài)特征序列, 其中l(wèi)i表示字符ci的形態(tài)特征信息, 包括所在詞素的邊界信息、詞性信息以及所在位置的音變現(xiàn)象信息, 可由li的上下文信息預測得到。因此, 本文將單詞的形態(tài)分析任務定義為字符序列的標注問題, 即通過觀察序列c, 得到其形態(tài)特征序列l(wèi)。
Lafferty等[23]提出將線性鏈條件隨機場(linear chain)應用于標注問題的思路。條件隨機場是一種概率無向圖模型, 由無向圖表示聯(lián)合概率分布, 當給定隨機變量X的條件下, 預測隨機變量Y。本文將單詞劃為若干個字符組成的字符序列, 其條件隨機場模型定義為
從維吾爾語單詞詞素邊界識別的角度考慮, 可以簡單地設置為{B, I}標記。其中, B 代表詞素的起始位置, I 代表詞素的非起始位置。為了達到維吾爾語形態(tài)協(xié)同分析的目的, 本文擴充{B, I}標記方式。具體地, 把只有形態(tài)切分功能的標記擴充為同時包含形態(tài)切分、形態(tài)標記以及音變還原功能的標記。
詞素切分由{B, I}標記表示。形態(tài)標記由詞素的詞性(POS)表示, 例如, “N”表示名詞, “V”表示動詞, “CASE”表示格詞綴, 等等。音變現(xiàn)象分別由{N, I, R, S}標記表示。N(none)表示沒有發(fā)生音變現(xiàn)象。I(insert)為增音標記, 表示當前字符在構形過程中被增加的字符。R(remove)為脫落標記, 表示當前和下一個字符之間發(fā)生字符脫落的現(xiàn)象。R標記連帶一個字符位, 表示被脫落的字符, 如“R表示字符發(fā)生脫落現(xiàn)象。S(substitute)為弱化標記, 表示當前字符在組合過程中被弱化。S標記同樣連帶一個字符位, 表示被弱化的原始字符, 如表示字符被弱化成當前字符。下面以單詞(他們沒有說)為例, 具體處理流程如下。
圖2 詞法和句法分析過程Fig.2 Process of morphological analysis and syntactic parsing
1)語料庫中所有單詞進行人工切分得到對應的詞素序列。單詞的詞素切分形式為
3)通過字符對齊方法識別詞素內(nèi)的音變現(xiàn)象,得到對應的音變還原標記序列。音變還原過程由式(2)表示, 其中i為原單詞c的當前字符索引,j為詞素序列m的當前字符索引。
字符對齊形式如圖3所示, 各個詞素的起始位置分別在1, 4, 6, 8和9位。從圖3可以發(fā)現(xiàn), 單詞的第2和第7字符分別弱化成字符和得到“S”標記, 第3個字符為增音字符, 得到“I”標記。
4)根據(jù)詞素的形態(tài)標注信息、字母對齊信息以及音變還原信息, 最終得到如表 3 所示的協(xié)同標記序列。
圖3 字符對齊示意圖Fig.3 Letter alignment in Uyghur wordmorpheme segmentation
表3 維吾爾語形態(tài)標注符合標記Table 3 Compound labels used in Uyghur morpheme segmentation
在訓練和解碼過程中, 序列標注模型需要加入特征元素, 并且特征的優(yōu)劣直接影響模型的預測能力。在字符序列中, 上下文關系是最重要的特征信息, 因此本文在上下文中分別取 1 個字符、2 個字符和3個字符作為模型的特征。表 4 給出本文選取的特征模板, 其中i為觀察窗口的半徑, 并且列舉當前字符為單詞的第 5 個字符, 觀察窗口半徑為 4 時的特征例子。
本文實驗所用語料是人工進行形態(tài)標注的 3533條句子, 包含政務新聞、法律法規(guī)以及文學類內(nèi)容,其中的 54039 條維吾爾語單詞(詞項 12700 條)中有7116 條單詞發(fā)生音變。表 5 給出語料中各種音變現(xiàn)象的統(tǒng)計數(shù)據(jù)。從語料中抽取 90%的句子作為訓練數(shù)據(jù)(3180 條句子, 包含 48663 條單詞), 其余的 10%作為測試數(shù)據(jù)(353 條句子, 包含 5376 條單詞)。
表4 特征模板Table 4 Feature template
表5 語料庫中音變現(xiàn)象的統(tǒng)計情況Table 5 Statistics of phonetic changes in the dataset
本文使用 CRFsuite (http://www.chokkan.org/soft ware/crfsuite/)作為訓練和解碼工具。為了確定最優(yōu)特征模板的窗口半徑, 在窗口半徑為 2~10 的范圍內(nèi)進行9次實驗。本實驗除使用準確率(Accuracy)外, 還使用詞素邊界識別率(MBIAccuracy)、詞干提取識別率(SSAccuracy, 定義形態(tài)切分中得到的第1個詞素為該單詞的詞干)、形態(tài)標注準確率(MAAccuracy)以及音變還原準確率(PRAccuracy)等作為評價指標。表6列出各個評價指標的定義, 表 7 給出窗口半徑取值不同時的實驗結(jié)果。
在同樣的訓練集以及測試集上, 用Morfessor(http://morpho.aalto.fi/projects/morpho/)、HMM (http://www.nltk.org/_modules/nltk/tag/hmm.html)以及最大熵 (MEM, http://homepages.inf.ed.ac.uk/lzhang10/max ent.html)模型分別做3次實驗, 表8列出CRF, Morfessor, HMM 及 MEM 模型下的最好實驗結(jié)果。
3.3.1 協(xié)同形態(tài)分析實驗
從表 7 可以看出, 當特征模板的窗口半徑設置為 2 時, 實驗結(jié)果得分最低。隨著窗口半徑增大,實驗結(jié)果得分也明顯提高, 當窗口半徑設置為5時,實驗結(jié)果得分最高。當窗口半徑超過 5 以后, 實驗結(jié)果得分幾乎持平, 并有輕微的下降。通過對實驗數(shù)據(jù)進行分析, 對該現(xiàn)象的解釋如下。
1)過擬合。特征模板的窗口半徑超過 5 以后,系統(tǒng)對未登錄詞的預測能力開始下降, 說明系統(tǒng)中存在過擬合現(xiàn)象, 只能有效地預測訓練集中出現(xiàn)的字符序列, 而對訓練集中沒有出現(xiàn)的字符序列的處理能力下降。
2)兼類詞歧義。當兼類詞構形時, 詞綴作為上下文特征, 在判斷詞性時發(fā)揮重要作用。如果兼類詞沒有發(fā)生構形, 此時沒有詞綴可以作為其特征信息, 因此系統(tǒng)將該詞概率最大的詞性作為它的詞性返回。例如, 單詞(其他, 下次)在訓練集中出現(xiàn)69次, 其中作為形容詞出現(xiàn)37次, 作為副詞出現(xiàn)7次, 作為語氣詞出現(xiàn)25次, 因此在測試集中作為副詞出現(xiàn)時, 模型錯誤的預測成形容詞。
3)切分歧義。當不同的詞干構形之后得到相同的單詞時, 將出現(xiàn)頻率最高的切分形式作為預測值。如 副 動 詞的 切 分 形 式 有去)和給), 第一種切分形式在訓練集中出現(xiàn)9次,第二種切分形式出現(xiàn)28次, 因此將測試集中出現(xiàn)的所有切分成第二種形式。
4)音變還原歧義。構形過程中發(fā)生音變現(xiàn)象的詞綴還原時, 還原成同一類詞綴的另一種形式。例如, 測試集中單詞在事業(yè)當中)的正確切分形式為但測試結(jié)果中的切分形式為沒能正確地還原時位格綴上發(fā)生的弱化現(xiàn)象。雖然在訓練集中位格綴和發(fā)生弱化次數(shù)同樣為3次, 但是字符發(fā)生267次弱化, 明顯小于字符弱化的次數(shù)(313), 因此模型沒能正確地還原這種音變現(xiàn)象。
針對第一種情況, 需要合理設置特種模板的窗口半徑。針對其他3種情況, 通過單詞間的上下文關系, 可以緩解歧義現(xiàn)象。本文只考慮詞內(nèi)字符間的上下文關系, 如果將單詞間的上下文關系作為特征信息參與訓練和測試, 可以降低歧義造成的誤判率。
3.3.2 對比實驗
對比 4 組實驗結(jié)果(表 8)可以發(fā)現(xiàn), 實驗1的結(jié)果最好, 實驗 2 和 3 的結(jié)果明顯差于實驗 1, 實驗 4的結(jié)果接近于實驗 1。分析原因如下。
表6 評價指標Table 6 Evaluating indicators
表7 不同觀察窗口半徑取值情況下的實驗結(jié)果(%)Table 7 Experimental results based on different half window size (%)
表8 CRF、Morfessor、HMM 和 MEM 模型的結(jié)果對比(%)Table 8 Experimental results on CRF, Morfessor, HMM and MEM (%)
1)實驗 2 中的Morfessor模型訓練時需要大量的語料, 而我們的訓練語料的規(guī)模不大。實驗2的結(jié)果中發(fā)現(xiàn)過度切分現(xiàn)象, 如詞干(職業(yè))被錯誤地切分成的形式, 是因為在語料庫中出現(xiàn)由詞根切)構詞的不同單詞。由 于Morfessor模型不具備標注能力, 因此實驗中沒有形態(tài)標注和音變還原結(jié)果。
2)實驗 3 中詞素切分和詞干提取的結(jié)果不理想,是因為HMM模型假設當前狀態(tài)只與前一個狀態(tài)有關, 因此沒有充分利用字符序列中的上下文信息。
3)實驗 4 中 MEM 模型采用局部最優(yōu)化訓練模式, 而實驗 1 中 CRF 模型采用全局最優(yōu)的訓練模式,因此MEM對訓練集中未出現(xiàn)情況的處理能力比CRF 模型差。圖 4 給出當觀察窗口半徑取值不同時,CRF 和 MEM 模型未處理未登錄詞數(shù)量的區(qū)別。
圖4 未登錄詞數(shù)Fig.4 Count of unregistered words
本文提出基于字符級別的有監(jiān)督維吾爾語形態(tài)協(xié)同分析方法。該方法結(jié)合維吾爾語的黏著性特點, 將詞素邊界識別、形態(tài)標注及音變還原等形態(tài)分析任務定義為字符序列的標注問題, 采用序列標注方法, 實現(xiàn)用一個模型完成復雜形態(tài)分析的任務。實驗結(jié)果證明, 我們提出的模型在維吾爾語的形態(tài)分析任務中得到較好的效果, 并且根據(jù)不同的應用場景, 從結(jié)果中可以得到詞干、詞性標注等不同的分析數(shù)據(jù)。該模型在相似語種之間具有一定的通用性, 因此還可以用于與維吾爾語形態(tài)特征相似的哈薩克語、柯爾克孜語等語種的形態(tài)分析任務。針對實驗過程中發(fā)現(xiàn)的問題, 在后續(xù)工作中, 我們將以單詞間的上下文關系作為特征進行模型優(yōu)化,從而有效地降低歧義導致的誤判率, 進一步提高形態(tài)分析的正確率。