国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合音節(jié)特征的最大熵藏文詞性標注研究

2013-10-15 01:37:58于洪志李亞超冷本扎西
中文信息學(xué)報 2013年5期
關(guān)鍵詞:藏文音節(jié)語料

于洪志,李亞超,汪 昆,冷本扎西

(1.西北民族大學(xué) 中國民族語言文字信息技術(shù)重點實驗室,甘肅 蘭州730030;2.中國科學(xué)院自動化研究所 模式識別國家重點實驗室,北京100190)

1 引言

詞性標注是根據(jù)詞語的上下文信息,判定詞語詞性的過程,是自然語言處理中一項非常重要的基礎(chǔ)性工作,被廣泛應(yīng)用于機器翻譯、語音識別、信息檢索等領(lǐng)域[1]。近幾十年來研究者開展了基于隱馬爾科夫(Hidden Markov Model,HMM),支持向量機(Support Vector Machine,SVM),最大熵(Maximum Entropy,ME),條件隨機場(Conditional Random Fields,CRF)等模型的詞性標注研究。最大熵模型能夠融合復(fù)雜的特征,在英語、漢語等語言詞性標注研究中取得了較好的效果,并在形態(tài)變化較多的蒙古文詞性標注中得到成功運用[2]。

漢語、英語等語言的詞性標注研究較為成熟,標注準確度基本達到了可以實用的程度。已有詞性標注方法可以分為基于規(guī)則方法和基于統(tǒng)計方法?;谝?guī)則方法提出時間較早,基本思想為按照兼類詞搭配關(guān)系和上下文語境構(gòu)建詞類消歧規(guī)則[3]。隨著標注語料規(guī)模的增大,以人工方式提取規(guī)則的方法耗費大量的人力、物力,并且詞性標注系統(tǒng)在不同領(lǐng)域、不同語言之間的可移植性較弱,這是基于規(guī)則詞性標注方法的主要不足之處?;诮y(tǒng)計的詞性標注方法適合處理大規(guī)模語料,并且可移植性很強,成為漢語、英語等語言詞性標注研究的主流方法,同時也取得了不錯的效果。

藏文詞性標注研究基礎(chǔ)薄弱,陳玉忠[4]在漢藏科技機器翻譯系統(tǒng)的研制中,首次對藏文詞語進行了分類。蘇俊峰[5]研究了基于HMM的藏文詞性標記方法,該系統(tǒng)封閉測試正確率達到88%~90%。羊毛卓么[6]采用HMM模型實現(xiàn)了一個藏文詞性標注系統(tǒng),該系統(tǒng)對開放語料詞性標記正確率達到89.56%。由于藏文詞性標注語料規(guī)模有限及藏語語言本身的復(fù)雜性,已有公開的藏文詞性標注準確度在89%左右,并且都是在私有語料上取得的測試結(jié)果。從公開的實驗結(jié)果來看,其標注效果遠低于漢語、英語等語言的詞性標注效果,所以藏文詞性標注研究任重道遠。

本文提出一種融合藏文形態(tài)特征的最大熵藏文詞性標注模型,根據(jù)藏文構(gòu)詞特征,定義上下文特征模板,并融合了上下文音節(jié)特征。實驗結(jié)果表明,最大熵模型能夠較好的處理藏文詞性標注問題,音節(jié)特征能夠有效的提高藏文詞性標注效果,與基準系統(tǒng)相比使錯誤率降低了6.4%。

論文的其余部分結(jié)構(gòu)安排如下:第2節(jié)闡述最大熵模型及特征選擇;第3節(jié)介紹本文所采用的藏文詞性標注集;第4節(jié)給出實驗數(shù)據(jù),并進行實驗結(jié)果分析;最后第5節(jié)為總結(jié)與展望。

2 最大熵模型

最大熵模型最初由E T Jaynes在1950年提出,Della Pietra等[7]將其應(yīng)用于自然語言處理中。最大熵原理的基本思想是,首先利用給定的訓(xùn)練樣本,選擇一個與訓(xùn)練樣本一致的概率分布,它必須要滿足所有已知的事實。在沒有更多的約束和假設(shè)的情況下,對于那些不確定的部分,則會賦予均勻的概率分布。熵是用來表示隨機變量的不確定性,不確定性越大,熵越大,分布越均勻。最大熵模型如式(1)所示。

H(P)是模型P的熵,C是滿足條件約束的模型集合,下面需要尋求P*,P*的形式如式(2)所示。

Z(x)是歸一化常數(shù),表示形式如式(3)所示。λi為特征的權(quán)重參數(shù)。

2.1 特征選擇依據(jù)

使用最大熵模型對藏文進行詞性標注,即根據(jù)當前詞x的上下文特征,確定當前詞的詞類y,最重要的是確定合適的特征集合。

(1)常規(guī)特征,一個詞的詞性由其上下文環(huán)境決定,因此當前詞的前后n個詞可以作為判斷當前詞詞性的依據(jù)。

(2)藏文構(gòu)詞特點,藏文屬于拼音文字,是一種形態(tài)豐富的語言,其語言范疇是以內(nèi)部屈折形式來表現(xiàn)的,如通過詞綴及附加詞綴的交替來表現(xiàn)動詞的現(xiàn)在、將來、過去時和命令式,構(gòu)成自動詞和使動詞的對立等[8]。出現(xiàn)形態(tài)變化的往往是動詞、名詞等實詞,而數(shù)詞和虛詞一般是沒有變化的。因此,在藏文詞性標注中上下文詞和當前詞的形態(tài)特征都是很重要的可以利用的信息。

2.2 特征模板定義

根據(jù)對藏文構(gòu)詞特征和統(tǒng)計結(jié)果分析,本文共進行了詞內(nèi)部特征,前后依存詞特征以及混合特征的藏文詞性標注實驗。

2.2.1 詞內(nèi)部特征

詞內(nèi)部特征表現(xiàn)一個詞內(nèi)部的變化,包括詞根信息和詞綴信息。以藏文動詞為例,藏文動詞的屈折形態(tài)可以分為兩類,同根類型和異根類型[9]。

同根類型指動詞屈折變化的各個形式屬于同一個詞根,絕大多數(shù)屈折變化的動詞屬于這一種形態(tài)。如,雕刻)”詞根是異根類型指的是屈折變化的各個形式不屬于同一詞根,這樣的動詞占所有動詞的比例很少,但是對一部分不規(guī)則動詞識別具有重要的意義。

詞根不一定出現(xiàn)在詞首,很可能會出現(xiàn)在詞中的其他位置,例如,bcags-chags,行、走)”的詞根是“ ,cag(chag)”。因此,藏文詞匯的詞首、詞尾音節(jié)對于判斷藏文詞匯的詞類起著重要的作用。詞首音節(jié)特征函數(shù)定義為:

詞匯詞尾音節(jié)特征函數(shù)定義為:

詞內(nèi)部信息特征模板如表1所示。

表1 詞內(nèi)部特征

2.2.2 前后依存詞特征

前后依存詞特征表示藏文句子中與當前詞緊密聯(lián)系的詞之間的關(guān)系,前后依存詞的相關(guān)信息可以在一定程度上解決兼類詞問題。例如,句1它是支撐著所有知識的根基,充當著所有語言的元素”,句2實踐一切所學(xué)的知識)”中,知識、學(xué)習(xí))”在句1中為名詞,表示“知識”之義,在句2中為動詞,表示“學(xué)習(xí)”之義。本文采用的前后依存詞特征如表2所示。

表2 前后依存詞信息特征模板

2.2.3 混合信息特征

根據(jù)藏文詞匯的形態(tài)變化以及構(gòu)詞特征,將當前詞的詞首音節(jié)、詞尾音節(jié),前、后詞,前驅(qū)詞的詞尾音節(jié)、后繼詞的詞首音節(jié)等特征混合在一起,定義混合信息特征如表3所示。

表3 混合信息特征模板

3 藏文詞性標注集

藏文詞性標注集沒有一個統(tǒng)一的規(guī)范,西藏大學(xué)、青海師范大學(xué)、西北民族大學(xué)均有自己的相關(guān)標注規(guī)范。本文采用西北民族大學(xué)中國民族信息技術(shù)研究院祁坤鈺教授的藏文詞性標注集。該標注集在參照了《信息處理用現(xiàn)代漢語詞類標記規(guī)范》的基礎(chǔ)上,根據(jù)藏語語法特點增加了一部分類別,共21個大類,61個子類,由于語料規(guī)模限制本文只進行大類實驗。

表4 藏文詞性標注集

4 實驗及分析

4.1 實驗準備

本文采用的藏語文小學(xué)課本標注語料,由中國民族信息技術(shù)研究院組織標注,語料統(tǒng)計如表5所示。

由于藏文詞性標注語料嚴重缺乏,已有的詞性標注語料數(shù)量較少,且覆蓋度差,語料的選擇會影響實驗效果。為此,本文的測試語料從整體語料中隨機抽取。表6為訓(xùn)練、測試語料的詳細統(tǒng)計信息,可以看出,訓(xùn)練集和測試集中詞性分布基本相同,說明本文實驗中訓(xùn)練語料和測試語料較好的代表了藏文詞類分布特點。其中,名詞、動詞、介詞、標點符號、助詞等出現(xiàn)的比例較大。

表5 語料統(tǒng)計

表6 語料詳細統(tǒng)計

經(jīng)過統(tǒng)計,在測試語料中未登錄詞主要是名詞、動詞和數(shù)詞,所占比例分別為74%、8%、8%。

本文采用標注準確度對標注結(jié)果進行評價,標注準確度定義如式(4)所示:

4.2 實驗設(shè)置及結(jié)果分析

在本文實驗中,采用張樂最大熵工具包①http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html和CRF++(v0.51)②http://crfpp.googlecode.com/svn/trunk/doc/index.html實現(xiàn)最大熵模型和條件隨機場模型。根據(jù)第2節(jié)的分析,我們采用不同的特征進行如下實驗,以下實驗均采用表2所示的前后詞依存信息,不同的是音節(jié)特征,實驗設(shè)置及實驗結(jié)果見表7,其中表2所示的詞依存特征在下文中用T1表示。

表7 實驗結(jié)果

實驗1采用傳統(tǒng)的詞依存特征,取得90.32%的準確度,為本文的基準系統(tǒng)。實驗2加入當前詞詞首、尾音節(jié)特征后取得了90.89%的準確度。相比實驗1準確度提高了0.57%,錯誤率降低了5.9%,說明音節(jié)特征對提高基于最大熵的藏文詞性標注效果有較大的幫助。

實驗3、4、5加入了當前詞詞首、尾音節(jié)及前、后詞的音節(jié)等混合特征,其中實驗4取得了最好的實驗結(jié)果,實驗3和實驗5的實驗結(jié)果低于實驗2,說明在混合特征中當前詞詞首、尾音節(jié)與后繼詞詞首音節(jié)的混合特征可以提高基于音節(jié)特征的藏文詞性標注結(jié)果。

實驗4加入當前詞詞首、尾音節(jié)和后繼詞的詞首音節(jié)特征,取得了最好的實驗結(jié)果,比實驗1的實驗結(jié)果提高了0.62%,錯誤率降低了6.4%。

為了對比最大熵與條件隨機場的實驗效果,在下文中,采用條件隨機場、最大熵的詞性標注結(jié)果分別表示為CRF、ME,采用的特征見表2,實驗結(jié)果如表8所示。

從表8實驗結(jié)果來看,基于ME的實驗結(jié)果優(yōu)于基于CRF的實驗結(jié)果,比基于CRF的詞性標注實驗結(jié)果高了約0.5%。雖然最大熵模型存在標記偏置(label bias)問題[10],而條件隨機場模型不存在這個問題,但是從本文的實驗結(jié)果來看,基于 ME的藏文詞性標記實驗結(jié)果較好。

表8 詞性標注對比實驗

從實驗結(jié)果來看,標點符號、介詞標注結(jié)果較好,并且在各個模型之間實驗結(jié)果很穩(wěn)定。標點符號和介詞是封閉類(the close class),這類詞的數(shù)量比較固定,因此在實驗中標注效果較好。

終結(jié)詞是較為具有藏文特點的詞類,添加在一句話的末尾,表示語義上的結(jié)束。在藏文中一共有11個終結(jié)詞,是封閉類,但是可以當作兼類詞。從實驗結(jié)果來看,ME可以完全標注出來,而CRF對其識別效果不太好。

名詞、動詞是開放的類,開放類的識別效果直接影響整體識別結(jié)果。從對比實驗結(jié)果可以看出來,CRF和ME對名詞識別效果較好,CRF對動詞識別效果較好。

4.3 詞性標注錯誤分析

表9是基于最大熵的藏文詞性標注錯誤詳細分析,其中動詞、名詞、形容詞和數(shù)詞的標注錯誤占了所有標注錯誤的很大比例。主要錯誤為,形容詞標注成了名詞、數(shù)詞和動詞;數(shù)詞標注成了名詞和助詞;動詞標注成了名詞和助詞;名詞主要標注成形容詞,并且名詞可以標注成連詞、副詞、終結(jié)詞、方位詞等。在表9中,以第一行為例,a表示當前詞是形容詞,比例為9%,表示在所有的標注錯誤中,形容詞標注錯誤占了9%的比例,錯誤原因中“72%n;11%m;11%d”表示在名詞標注錯誤中72%把a標注為n,11%把a標注為m,其余表示方法如上所示。

表9 ME標注錯誤

5 總結(jié)與展望

本文介紹了融合音節(jié)特征的最大熵藏文詞性標注的研究工作,重點在于特征選擇上,根據(jù)藏文的形態(tài)特征,選取當前詞詞首、尾音節(jié)和前驅(qū)詞詞尾音節(jié),后繼詞詞首音節(jié)等混合形態(tài)特征信息,構(gòu)建了藏文詞性標注系統(tǒng)。實驗結(jié)果表明最大熵可以為藏文這種豐富形態(tài)特征語言的詞性標注提供一個有效的模型,來建模上下文信息,音節(jié)特征可以顯著提高藏文詞性標注準確度,在本文實驗中取得了90.94%的準確度,與基準系統(tǒng)相比準確度提高了0.62%,錯誤率降低了6.4%。由于本文實驗所使用語料規(guī)模有限,詞性標注的整體效果有待進一步提高。

在下一步工作中,我們希望更加深入的研究藏文詞匯的內(nèi)部結(jié)構(gòu)特征,對特征模板集進行改進,通過對標注結(jié)果的錯誤分析,進一步修正特征模板的定義,最終提高藏文詞性標注結(jié)果。

[1]宗成慶.統(tǒng)計自然語言處理[M].清華大學(xué)出版社,2008.

[2]張貫虹,斯·勞格勞,烏達巴拉.融合形態(tài)特征的最大熵蒙古文詞性標注模型[J].計算機研究與發(fā)展,2011,48(12):2385-2390.

[3]劉開瑛.中文文本自動分詞和標注[M].商務(wù)印書館,2000.

[4]陳玉忠,俞士汶.藏文信息處理技術(shù)的研究現(xiàn)狀與展望[J].中國藏學(xué),2003,04:97-107.

[5]蘇俊峰.基于HMM的藏語語料庫詞性自動標注研究[D].西北民族大學(xué)碩士學(xué)位論文,2010.

[6]羊毛卓么.藏文詞性自動標注系統(tǒng)的研究與實現(xiàn)[D].西藏大學(xué)碩士學(xué)位論文,2012.

[7]Adam L Berger,Stephen A DellaPietra,Vincent J Della Pietra.A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistics,1996,1(22):39-71.

[8]宋金蘭.藏語形態(tài)變體的分化[J].民族語文,2001,1:29-33.

[9]瞿靄堂.藏語動詞屈折形態(tài)的結(jié)構(gòu)及其演變[J].民族語文,1985,1:1-15.

[10]J Lafferty,A McCallum,F(xiàn) Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of ICML-2001,2001:282-289.

猜你喜歡
藏文音節(jié)語料
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
布達拉(2020年3期)2020-04-13 10:00:07
拼拼 讀讀 寫寫
黑水城和額濟納出土藏文文獻簡介
西夏學(xué)(2019年1期)2019-02-10 06:22:34
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
藏文音節(jié)字的頻次統(tǒng)計
現(xiàn)代語境下的藏文報刊
新聞傳播(2016年17期)2016-07-19 10:12:05
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
快樂拼音
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
京山县| 台安县| 南乐县| 普安县| 凤凰县| 长兴县| 若羌县| 蕉岭县| 西城区| 上思县| 久治县| 娄烦县| 青冈县| 三门县| 新田县| 泸水县| 措美县| 沐川县| 余庆县| 榆中县| 申扎县| 武隆县| 孝感市| 赣州市| 正蓝旗| 贵南县| 炎陵县| 保德县| 陕西省| 屯昌县| 河间市| 宜都市| 白河县| 安徽省| 松滋市| 新邵县| 长武县| 手机| 三河市| 达尔| 南华县|