開比爾罕·麥麥提明 艾孜爾古麗·玉素甫
[摘? ? ? ? ? ?要]? 首先介紹柯爾克孜語形態(tài)特征對詞干提取的作用,之后探討柯爾克孜語詞類劃分、詞類的形態(tài)特征。介紹基于規(guī)則、詞典以及詞典和規(guī)則相結(jié)合的方法和柯語語料構(gòu)建工作。討論柯語基于詞典、基于規(guī)則及詞典與規(guī)則方法的設(shè)計工作。最后以柯爾克孜文微信公眾號的新聞?wù)Z料作為驗證對象,對利用三種不同的方法進行詞干提取試驗,并對數(shù)據(jù)進行統(tǒng)計與分析,驗證詞干提取方法的可行性。
[關(guān)? ? 鍵? ?詞]? 柯爾克孜語;形態(tài)分析;詞干提取;方法
[中圖分類號]? H215? ? ? ? ? ? ? ? ?[文獻標志碼]? A? ? ? ? ? ? ? [文章編號]? 2096-0603(2020)22-0096-02
柯爾克孜語詞干提取是柯爾克孜語信息處理中的重要技術(shù),是柯爾克孜語信息提取、文本情感分析、數(shù)據(jù)發(fā)掘等領(lǐng)域的重要基礎(chǔ)步驟。
在柯爾克孜語詞干提取方面,2013年阿依努爾·阿迪力等提出了基于字典的方法和機器學(xué)習(xí)方法的組合來從文本中提取詞干,并計算相應(yīng)詞干的頻率、長度,給出組合詞的詞匯量。2013年陳莉等設(shè)計并且實現(xiàn)了基于隱馬爾科夫模型的柯爾克孜語基本詞性標注系統(tǒng)。當(dāng)前柯爾克孜語詞干提取方法是以規(guī)則為主,本研究采用基于規(guī)則和字典相結(jié)合的方法,探討柯爾克孜語詞干提取方法。本文采用詞典的方法和規(guī)則的方法及兩種方法的混合來進行詞干提取并有效提高了詞干提取的準確性。
本文構(gòu)建一定規(guī)模的柯爾克孜語新聞資料庫,將語料庫中的新聞內(nèi)容生成詞干詞典和詞綴詞典,結(jié)合柯爾克孜語詞法特征,提出基于詞典和規(guī)則的詞干提取方法,研究一種結(jié)合柯爾克孜語形態(tài)特征和結(jié)合人工切分實例庫、詞綴庫作為規(guī)則庫基礎(chǔ),基于規(guī)則和字典相結(jié)合的柯爾克孜語詞干提取方法。
一、柯爾克孜語本體研究
(一)柯爾克孜語形態(tài)概述
柯爾克孜語共有30個字母和36個音位。由于柯爾克孜語的14個元音音位當(dāng)中的6個長元音是用基本元音的復(fù)寫形式來表示,因此36個音位用30個字母來表示,其中有22個輔音音位,有14個元音音位??聽柨俗握Z中詞匯的形態(tài)變化非常豐富,依據(jù)詞的形態(tài)、意思以及在句子中起到的作用,柯爾克孜語的詞類可劃分為名詞、代詞、形容詞、數(shù)詞、副詞、動詞、連詞、助詞、后置詞、嘆詞、象聲詞十一類??聽柨俗握Z在形態(tài)上具有元音和諧,元音的增加和減少,輔音和諧,發(fā)音部位的同化和清音的濁化現(xiàn)象。在柯爾克孜語中,元音和諧不但出現(xiàn)在詞根或詞干中,而且更關(guān)鍵的是出現(xiàn)在詞綴中。柯爾克孜語實詞構(gòu)形詞綴有208個不相同的詞綴、29個數(shù)詞詞綴、80個名詞詞綴、27個形容詞詞綴,動詞就有90多個詞綴。依據(jù)統(tǒng)計,柯爾克孜語實詞詞綴的不同相連組合在理論上能達到562種。
(二)柯爾克孜語特點研究
本論文中,用于詞干提取的方法有基于字典的方法、基于規(guī)則的方法以及基于詞典及規(guī)則相結(jié)合的方法。實際上詞干提取系統(tǒng)往往只采用一種單一的方法難以達到較高的實用水平。由于柯爾克孜語單詞的形態(tài)結(jié)構(gòu)特別復(fù)雜,并且詞綴很多,語料非常稀缺,用統(tǒng)計方法、機器學(xué)習(xí)方法和其他方法提高詞干提取效率非常困難。在柯語中,由于受到語音規(guī)律的影響,詞干本身的元音或者輔音要發(fā)生某些變化,導(dǎo)致相同的詞尾和不同單詞相連接可能充當(dāng)不同的附加成分的種類,這使詞尾的切分和對詞干提取存在一定的困難。主要體現(xiàn)在以下幾個方面:
4.語言的形態(tài)系統(tǒng)復(fù)雜,詞綴與詞綴之間的連接關(guān)系很難全面收集。
(三)基于詞典的方法
主要查找已知詞典進行詞形的轉(zhuǎn)換。通過詞典匹配,結(jié)果更為準確,并且易于擴展和維護。返回詞干可能是詞典中的有效詞,減去詞干還原工作。本文在探討了柯爾克孜語的詞法規(guī)則等資源之后,研究了字典數(shù)據(jù)庫的初步實現(xiàn)。利用“新疆廣播電臺柯爾克孜語”微信公眾號中的新聞內(nèi)容建立詞典,詞典包括詞干庫、詞綴庫和弱化庫。首先,文本的所有內(nèi)容讀進來,然后進行分句、分詞、詞頻統(tǒng)計、詞干提取,詞干提取時系統(tǒng)會和提前準備好的詞干表進行對比,如果出現(xiàn)的詞與詞干表中的詞匹配就確認是詞干,如果沒有匹配等下一步用別的方法或者人工來進行詞干提取。本文利用Access數(shù)據(jù)庫技術(shù)建設(shè)了所必要的詞干、詞綴以及弱化庫。
(四)基于規(guī)則的方法
基于規(guī)則的方法的重點問題是需要構(gòu)造比較完備、適應(yīng)性相對強的規(guī)則庫和大規(guī)模的語言推導(dǎo)規(guī)則。本文詞綴表中錄入了柯爾克孜語中所有詞類的詞綴分類?;谝?guī)則詞干提取的詳細過程:從語單詞的左邊的字母開始切分,根據(jù)柯語詞綴的相連接順序與構(gòu)形詞綴表匹配,然后找出全部的構(gòu)形詞綴的切分形式放到詞干表里。首先,確定構(gòu)形后綴列表,例如配置構(gòu)形后綴庫,單詞后綴庫和前綴庫,并開始查找匹配位置,并指定詞干必須至少保留兩個字母的長度。然后進行詞綴列表查找及匹配;如匹配失敗,進行重新編碼;如匹配成功,找到詞綴,則判斷是否滿足規(guī)則。若滿足,則切取詞綴;不滿足,則重新進行編碼。
本研究提出單詞的雙向讀取文本和切分來實行詞干提取,是從左向右讀取詞匯的字母而進行最大匹配的構(gòu)形詞綴的切分后詞干提取的方法,從右向左讀取詞匯字母來對詞干進行切分提取。
(五)基于規(guī)則和詞典結(jié)合的方法
基于規(guī)則和詞典結(jié)合的方法是為規(guī)避上述方法的局限性而提出的有效方法。從柯爾克孜語單詞的左側(cè)開始,根據(jù)詞綴的并置順序,與配置詞綴表匹配,將配置詞綴的所有細分形式查找到整個詞綴切分中;在柯爾克孜語詞的右側(cè),它與已建立的詞干表匹配,并找到所有詞干的分割形式將其放入詞干完整分割集中。在左側(cè)和右側(cè)的分割過程中,如果詞綴全切分集和詞干全切分集僅具有唯一的重合邊界,則認為分割是正確的;否則,執(zhí)行規(guī)則還原處理。將字典的驗證提取結(jié)果得出的規(guī)則與字典的結(jié)果相結(jié)合的方法用于研究詞干提取。
詞干提取的詳細過程如下:(1)從單詞的末尾開始,對單詞的末尾進行掃描切分詞尾,以提取詞干,并匹配詞干字典以查找所有可能的詞干;(2)依據(jù)詞尾規(guī)則、詞干詞性和詞尾綴接順序全切分詞尾;(3)使用最大匹配法消除歧義切分;(4)提取詞干。
二、實驗及結(jié)果分析
本文以“新疆人民廣播電臺柯爾克孜語”微信公眾號中的新聞內(nèi)容作為訓(xùn)練語料庫,語料庫中出現(xiàn)1048080個柯爾克孜文詞匯,以此語料庫作為實驗對象進行詞干提取工作。
由于柯語的形態(tài)結(jié)構(gòu)與規(guī)則不同,因此本次試驗采用詞語的從左邊切分進行詞干提取和語言本身的語法規(guī)則相結(jié)合還原詞干的方法。以柯語詞匯庫為處理對象,對3954篇文本中出現(xiàn)的1048080個詞匯進行詞干提取,通過使用三種詞干提取方法,同時比較了在訓(xùn)練集大小規(guī)模確定條件下,獲取的詞干提取的正確率不同。結(jié)果如下表所示:
從上表可以看出,隨著訓(xùn)練集大小的增加,詞干提取的效率越來越高,提取精度也逐漸提高。然而,隨著訓(xùn)練規(guī)模的增加,錯誤率逐漸減小。同時可見,利用基于混合的方法進行詞干提取的效果比單獨用一種方法的效果好。說明本文提出的方法可以較好地提高對柯爾克孜語詞干提取的準確率。本次實驗結(jié)果分析發(fā)現(xiàn),導(dǎo)致錯誤的詞干提取的主要原因是:詞干庫中的一些單詞本身是詞干,但后面的部分像詞綴就造成過度切分問題,有些單詞是其他詞干連接詞尾后的形式,要對這些單詞進行詞干提取時需要根據(jù)上下文內(nèi)容才能正確地切分詞干和詞尾。
參考文獻:
[1]阿依努爾·阿迪力.小學(xué)柯爾克孜語文新課標教材用詞情況研究[D].新疆:新疆師范大學(xué),2013.
[2]陳莉.基于HMM的柯爾克孜語基本詞性標注研究[D].新疆:新疆大學(xué),2013.
[3]熱娜·艾爾肯.基于混合方法的維吾爾語詞干提取方法研究[J].計算機應(yīng)用研究,2015(1).
[4]塔依爾·阿不都外力,基于標注詞典和規(guī)則的維吾爾文動詞詞干提取方法[J].新疆大學(xué)學(xué)報(自然科學(xué)版),2013(2).
[5]胡振華.柯爾克孜語言文化研究[M].北京:中央民族大學(xué)出版社,2006.
編輯 張 慧