国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

藏語動(dòng)詞形態(tài)變化的還原研究與實(shí)現(xiàn)

2019-12-10 09:48格桑加措趙棟材
電腦知識(shí)與技術(shù) 2019年28期

格桑加措 趙棟材

摘要:論文在對(duì)藏語動(dòng)詞隨時(shí)態(tài)的形態(tài)變化分析的基礎(chǔ)上,根據(jù)藏語語法對(duì)動(dòng)詞隨時(shí)態(tài)形態(tài)變化的分類,建立了藏語動(dòng)詞隨時(shí)態(tài)變化的詞典庫,提出基于詞典匹配的藏語動(dòng)詞詞形還原方法。

關(guān)鍵詞:藏語動(dòng)詞;動(dòng)詞詞形還原;數(shù)據(jù)預(yù)處理

中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)28-0205-03

動(dòng)詞()一般就是用來表示動(dòng)作或狀態(tài)的詞匯()[1]。詞形還原是將一個(gè)任何形式的單詞還原為一般形式。詞形還原作為文本數(shù)據(jù)分析中數(shù)據(jù)預(yù)處理的一部分,其對(duì)數(shù)據(jù)分析起到降低數(shù)據(jù)復(fù)雜度、提升處理效率的作用。本文把英語中詞形還原技術(shù)的思想應(yīng)用到藏語中,對(duì)藏語的動(dòng)詞三時(shí)一式的變化進(jìn)行還原操作,還原規(guī)范為將未來時(shí)、過去時(shí)和命令式的藏語動(dòng)詞的形態(tài),歸一到藏語動(dòng)詞的一般形式。在藏語書面語里,動(dòng)詞的時(shí)、式、態(tài)都是用動(dòng)詞本身的屈折形式來表達(dá)的()[1]。本文按藏文動(dòng)詞的隨時(shí)態(tài)變化規(guī)律,分別統(tǒng)計(jì)藏語動(dòng)詞來建立詞典,最后用詞典匹配法進(jìn)行了藏文動(dòng)詞的詞形還原操作。其在藏語數(shù)據(jù)處理中起到減少數(shù)據(jù)量、降低噪音、降低所占空間和提高文本處理效率的作用。

1 藏語可變動(dòng)詞的隨時(shí)態(tài)變化規(guī)律

1.1藏語動(dòng)詞和英語動(dòng)詞隨時(shí)態(tài)的形態(tài)變化上的比較

英語動(dòng)詞的"時(shí)"有兩種,"體"有兩種,兩者可以互相結(jié)合構(gòu)成8種動(dòng)詞的時(shí)、體形式[2]。與英語的動(dòng)詞詞形變化一樣,藏語動(dòng)詞也有隨時(shí)態(tài)的形態(tài)變化。傳統(tǒng)語法中藏語動(dòng)詞分為有形態(tài)變化的動(dòng)詞和無形態(tài)變化的動(dòng)詞,有形態(tài)變化的動(dòng)詞有未來時(shí)、進(jìn)行時(shí)、過去時(shí)、祈使式三時(shí)一式的形態(tài)變化。英語詞形還原技術(shù)已經(jīng)很成熟,主流還原方法均是利用語法規(guī)則或利用詞典匹配獲得詞的原形。nltk、Pattern、TextBlob等自然語言處理庫都有相關(guān)詞形還原的模塊[4]。由于藏語自然語言處理起步比較晚,雖然語言學(xué)家和學(xué)者們對(duì)動(dòng)詞詞形變化的規(guī)律做了很多相關(guān)研究,但是很少見到詞性還原模塊相關(guān)的研究。在英語語法中,動(dòng)詞的時(shí)態(tài)變化除了極少無規(guī)則的時(shí)態(tài)變化可以統(tǒng)計(jì)出來的外,其余都有明顯的后綴變化規(guī)律,比如(say, says,said,saying)。比起英語,藏語動(dòng)詞隨時(shí)態(tài)變化規(guī)律比較復(fù)雜,藏文動(dòng)詞的變化主要有前加字、后加字和再后加字的變化。有些特殊動(dòng)詞,隨著其時(shí)態(tài)的變化,動(dòng)詞的基字也會(huì)發(fā)生變化。瞿靄堂在《藏語動(dòng)詞屈折形態(tài)的結(jié)構(gòu)及其演變》中提到,藏語書面語中能發(fā)生時(shí)炙屈折變化的動(dòng)詞約占整個(gè)單音動(dòng)詞的70%左右,能發(fā)生語態(tài)屈折變化的動(dòng)詞約占20%,而現(xiàn)代藏語中,發(fā)生語態(tài)屈折變化的動(dòng)詞約占10%,發(fā)生時(shí)、式屈折變化的動(dòng)詞,衛(wèi)藏方言約占30%,安多方言約占45%。在書面語中,動(dòng)詞的屈折形態(tài)具有獨(dú)立表達(dá)語法意義的功能[3]。

藏語語法里,藏語動(dòng)詞從形態(tài)變化上分有時(shí)態(tài)變化的動(dòng)詞和無時(shí)態(tài)變化的動(dòng)詞兩種。

3藏語動(dòng)詞的詞形還原

詞形還原 (Lemmatization) ,是把一個(gè)任何形式的語言詞匯還原為一般形式,是數(shù)據(jù)預(yù)處理的一部分,是一種對(duì)詞的不同形態(tài)的統(tǒng)一歸并的過程。主要應(yīng)用于信息檢索和文本、自然語言處理等方面[4]。它可以減少數(shù)據(jù)量,降低噪音,降低所占空間和提高實(shí)際信息提取任務(wù)的準(zhǔn)確性提高文本處理的效率。藏文動(dòng)詞作為句子中重要的組成部分,占數(shù)據(jù)總量的較大比例,還原藏語動(dòng)詞各種形態(tài)作為藏文數(shù)據(jù)預(yù)處里的一部分,可以減少數(shù)據(jù)復(fù)雜度,提高藏文數(shù)據(jù)處理效率。本文在測(cè)試語料中隨便抽取了100個(gè)藏語長句進(jìn)行了分析,其中平均100個(gè)音節(jié)字中包含動(dòng)詞9個(gè)左右。其中一個(gè)動(dòng)詞各種形態(tài)的重復(fù)率占所有動(dòng)詞的13%左右。當(dāng)然,所選的句子不同,動(dòng)詞在句子中的比率和動(dòng)詞各種形態(tài)的變化率差距也很大。詞形規(guī)范化將一個(gè)詞的不同形式統(tǒng)一為一種具有代表性的形態(tài),目標(biāo)是將詞的屈折形態(tài)或派生形態(tài)簡化或歸并為原形的基礎(chǔ)形式。本文中將藏語動(dòng)詞的現(xiàn)在時(shí)形態(tài)暫且定為一般形式,以將未來時(shí)、過去時(shí)、命令式詞形還原成一般(現(xiàn)在時(shí))形式的方式進(jìn)行還原。比如句子中出現(xiàn)四個(gè)字的任何一種,統(tǒng)一還原成這個(gè)現(xiàn)在時(shí)形式。

3.1語動(dòng)詞的詞典庫建立

在藏語語法中,藏語動(dòng)詞隨時(shí)態(tài)的形態(tài)變化提出了較完整的規(guī)律,但是用計(jì)算機(jī)來實(shí)現(xiàn),歧義較多,很難用規(guī)則來實(shí)現(xiàn)。本文依據(jù)《藏文動(dòng)詞變化表》,按照藏語動(dòng)詞的三種形態(tài)變化規(guī)則分別進(jìn)行收集、建立藏語動(dòng)詞詞庫,對(duì)文本中讀取出來的動(dòng)詞進(jìn)行還原。收集藏文動(dòng)詞規(guī)則庫的方式為:首先以變形動(dòng)詞的最基本的三個(gè)變形規(guī)則進(jìn)行分開收集,然后從零散形藏語動(dòng)詞中提取不變形動(dòng)詞成為另一個(gè)分類,總共收集了常用的823個(gè)動(dòng)詞,建立動(dòng)詞詞典庫。格式如上。

3.2藏語動(dòng)詞的還原

3.2.1藏語動(dòng)詞還原原理

語言學(xué)中的詞形還原(Lemmatisation)是將單詞的變形形式組合在一起的過程,這樣同一單詞不同的幾個(gè)形態(tài)就可以作為單個(gè)項(xiàng)目進(jìn)行分析。在許多語言中,單詞以幾種變形形式出現(xiàn)。例如,在英語中,動(dòng)詞“to walk”可能表現(xiàn)為'walk', 'walked', 'walks', 'walking'??赡茉谧值渲胁檎业幕拘问健皐alk”被稱為單詞的原型[7]。藏語句子中,藏語動(dòng)詞也會(huì)以變形形式出現(xiàn),文中以藏語的一般現(xiàn)在時(shí)詞形作為基本形式進(jìn)行還原,在還原過程中不是現(xiàn)在時(shí)的動(dòng)詞形態(tài)還原成現(xiàn)在時(shí)形態(tài)。比如騎馬()中原型且定為,而、還原成(現(xiàn)在時(shí))的形式。把四種不同形態(tài)的藏語動(dòng)詞統(tǒng)一到原型的形態(tài),可以降低數(shù)據(jù)的復(fù)雜度,提高藏語數(shù)據(jù)的精確度。