洛桑嘎登 仁增多杰
摘 要: 藏文詞性標(biāo)注是藏文信息處理的首要問(wèn)題。以條件隨機(jī)場(chǎng)模型為基本框架,首先構(gòu)建398萬(wàn)詞條(78.5M)的詞性標(biāo)注模型,然后對(duì)條件隨機(jī)場(chǎng)模型的標(biāo)注結(jié)果進(jìn)行修正,歸納總結(jié)基于藏文自身語(yǔ)言特征的標(biāo)注規(guī)則,形成詞性標(biāo)注規(guī)則知識(shí)庫(kù)。詳細(xì)分析模型構(gòu)建過(guò)程中所選取的每個(gè)特征項(xiàng)對(duì)標(biāo)注結(jié)果的影響,最終確定最優(yōu)特征模板。實(shí)驗(yàn)結(jié)果表明,本文提出的基于知識(shí)反饋的藏文詞性標(biāo)注方法可以顯著提高詞性標(biāo)注效果,準(zhǔn)確率達(dá)到98.75%,已基本滿(mǎn)足實(shí)際使用。
關(guān)鍵詞: 藏文; 詞性標(biāo)注; 知識(shí)反饋; 條件隨機(jī)場(chǎng)
中圖分類(lèi)號(hào):N34 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2018)07-73-03
Abstract: Tibetan part-of-speech tagging is the the most important problem in Tibetan information processing. In this paper, based on the basic framework of Conditional random fields (CRFs), a part-of-speech model with 3.8 million entries is constructed. The model is modified according to the Tibetan grammar characteristics. The optimal characteristic template is finally determined by analyzing the influence of each characteristic selected in the construction of the model. Experimental results show that the method proposed in this paper can significantly improve the effect of Tibetan part-of-speech tagging. The accuracy reaches 98.75%.
Key words: Tibetan; part-of-speech tagging; knowledge feedback; CRFs
0 引言
詞性標(biāo)注(part-of-speech,POS)是根據(jù)句子的上下文信息確定詞的類(lèi)型,是自然語(yǔ)言處理中一項(xiàng)非常重要的基礎(chǔ)性工作,被廣泛應(yīng)用于信息檢索、機(jī)器翻譯、語(yǔ)義理解等領(lǐng)域[1]。漢語(yǔ)、英語(yǔ)等語(yǔ)言的詞性標(biāo)注研究較為成熟,其準(zhǔn)確率基本達(dá)到實(shí)用程度。藏文詞性標(biāo)注研究基礎(chǔ)相對(duì)薄弱,且由于藏文自身的語(yǔ)言特征,也給藏文詞性標(biāo)注研究帶來(lái)了困難[2-3]。比起藏文自動(dòng)分詞研究,藏文詞性標(biāo)注的研究起步相對(duì)較晚[4]。蘇俊峰[6]、史曉東[7]、扎西多杰[8]、于洪志[9]、華卻才讓[5];康才畯[10]、龍從軍[11]等人采用不同的方法對(duì)藏文的詞性標(biāo)注進(jìn)行研究。這些研究無(wú)疑對(duì)藏語(yǔ)文本詞性自動(dòng)標(biāo)注做出了重要的貢獻(xiàn),但是也存在較多的問(wèn)題。一是用于詞性標(biāo)注的訓(xùn)練語(yǔ)料、測(cè)試語(yǔ)料規(guī)模較小,二是研究直接使用現(xiàn)成的統(tǒng)計(jì)模型,未結(jié)合藏文自身的語(yǔ)言規(guī)則對(duì)詞性標(biāo)注模型的結(jié)果進(jìn)行修正,三是詞性標(biāo)注規(guī)范不一致。
本文提出基于知識(shí)融合的藏文詞性標(biāo)注方法,以條件隨機(jī)場(chǎng)模型為基本框架,構(gòu)建大規(guī)模訓(xùn)練語(yǔ)料,對(duì)基于條件隨機(jī)場(chǎng)的標(biāo)注結(jié)果中的錯(cuò)誤進(jìn)行校正,歸納總結(jié)的藏文詞性標(biāo)注規(guī)則,形成詞性標(biāo)注規(guī)則知識(shí)庫(kù),最終反饋到CRFs模型中以提高詞性標(biāo)注效果。其次,計(jì)算每個(gè)特征項(xiàng)對(duì)藏文詞性標(biāo)注效果的影響,最終得到最優(yōu)特征模板組合,并利用最優(yōu)特征組合作為特征模板實(shí)現(xiàn)藏文詞性自動(dòng)標(biāo)注,正確率達(dá)到98.75%,已基本滿(mǎn)足實(shí)用條件。
本文的結(jié)構(gòu)安排如下:第1節(jié)為緒論部分,第2節(jié)介紹了基于知識(shí)反饋的藏文詞性標(biāo)注具體研究?jī)?nèi)容,第3節(jié)闡述了詞性標(biāo)注的實(shí)驗(yàn)及分析,第4節(jié)為總結(jié)。
1 基于知識(shí)反饋的藏文詞性標(biāo)注
1.1 詞類(lèi)標(biāo)記集的選擇
本文采用的詞類(lèi)標(biāo)記遵循2015年6月國(guó)家語(yǔ)言文字工作委員會(huì)發(fā)布的《信息處理用現(xiàn)代藏語(yǔ)詞類(lèi)標(biāo)記集規(guī)范(草案)》的規(guī)范[12]。該分類(lèi)規(guī)范制定了多級(jí)標(biāo)注體系,本文考慮到藏文信息處理系統(tǒng)的實(shí)用性,除名詞標(biāo)注到二級(jí)類(lèi)目外,其余詞類(lèi)只標(biāo)注到一級(jí)類(lèi)目。
1.2 特征模板的選擇
特征函數(shù)主要有兩部分組成,即原子特征和復(fù)合特征兩部分。原子特征主要考慮一個(gè)觀察單元,本文所使用的原子特征有當(dāng)前音節(jié)和前后各兩個(gè)位置的音節(jié)。
為了分析不同種類(lèi)特征的詞性標(biāo)注性能,挑選出標(biāo)注效果最優(yōu)的特征模板組合,本文對(duì)訓(xùn)練語(yǔ)料進(jìn)行封閉測(cè)試來(lái)比較各類(lèi)特征的標(biāo)注效果。為了便于表示,本文使用英文字母表示不同的特征組合。例如:A表示“中心詞特征”,用“U03:%x[0,0]”模板表示;B表示“藏文中心詞的前1個(gè)詞”和“藏文中心詞”,用“U02:%x[-1,0]”、“U03:%x[0,0]”兩個(gè)特征模板表示;C表示“藏文中心詞的前1個(gè)詞”、“藏文中心詞”、“藏文中心詞的后1個(gè)詞”,用“U02:%x[-1,0]”、“U03:%x[0,0]”、“U04:%x[1,0]”三個(gè)特征模板表示。以此類(lèi)推,從中心詞不斷往外擴(kuò)展。特征項(xiàng)組合如表1所示。
利用表1中的特征項(xiàng)做實(shí)驗(yàn),結(jié)果如圖1??梢钥闯觯谥行脑~特征基礎(chǔ)上,每增加一種特征模板,詞性標(biāo)注的準(zhǔn)確率就有所提高,直至K模板時(shí)達(dá)到最優(yōu)值,K模板之后準(zhǔn)確率、召回率和F值均開(kāi)始下降。因此,本文采用K模板作為訓(xùn)練詞性標(biāo)注的CRFs特征模板。
1.3 對(duì)詞性標(biāo)注統(tǒng)計(jì)模型結(jié)果的知識(shí)反饋
本文首先使用CRFs統(tǒng)計(jì)模型對(duì)藏文文本訓(xùn)練,得出藏文詞性標(biāo)注模型。然后對(duì)基于條件隨機(jī)場(chǎng)的詞性標(biāo)注錯(cuò)誤結(jié)果進(jìn)行了統(tǒng)計(jì)分析。CRFs詞性標(biāo)注結(jié)果中動(dòng)詞(v)、形容詞(a)標(biāo)注錯(cuò)誤的比例較高,但是也有類(lèi)似數(shù)詞(m)、標(biāo)點(diǎn)符號(hào)(w)等的錯(cuò)誤,而對(duì)于藏文文本而言,數(shù)詞和標(biāo)點(diǎn)符號(hào)是相對(duì)完備的一個(gè)集合。因此,本文通過(guò)整理藏文語(yǔ)料中出現(xiàn)的數(shù)詞、標(biāo)點(diǎn)符號(hào)以及在分詞階段整理的知識(shí)庫(kù)形成詞性標(biāo)注知識(shí)庫(kù),然后通過(guò)設(shè)計(jì)規(guī)則算法,對(duì)CRFs詞性標(biāo)注結(jié)果進(jìn)行校正,以此來(lái)提高藏文詞性標(biāo)注準(zhǔn)確率。
本文主要構(gòu)建了非藏文字符知識(shí)庫(kù),黏著詞知識(shí)庫(kù),高頻常用詞知識(shí)庫(kù)以及未登錄詞庫(kù)等,標(biāo)記其詞類(lèi)標(biāo)記。數(shù)詞和標(biāo)點(diǎn)符號(hào)包括以下幾類(lèi):
1.3.1 對(duì)非藏文字符的識(shí)別錯(cuò)誤修正
導(dǎo)致該類(lèi)錯(cuò)誤的原因有兩種,一是語(yǔ)料中存在一定量的非藏文字符,而本文所采用的基于CRFs的方法是對(duì)藏文音節(jié)序列的標(biāo)注。二是訓(xùn)練集中已存在藏文字符和非藏文字符的組合當(dāng)成一個(gè)藏文音節(jié)的現(xiàn)象。
針對(duì)該類(lèi)錯(cuò)誤本文定義如下規(guī)則:設(shè)S表示待切分的藏文句子,表示每一個(gè)音節(jié)。用U表示非藏文字符集合,U={D,E,C,P},其中D是時(shí)間和數(shù)字的集合,例如:“123”,“3.14”,“30%”等,E、C分別表示英文和漢文字符,P表示標(biāo)點(diǎn)符號(hào),包括中英文標(biāo)點(diǎn)符號(hào)、半全角標(biāo)點(diǎn)符號(hào)。
規(guī)則1:
如果,則將wi單獨(dú)從集合S中切分出來(lái)。
該規(guī)則可以避免將語(yǔ)料交給CRFs模型參數(shù)去識(shí)別時(shí),把藏文字符和其他文字當(dāng)成一個(gè)藏文音節(jié)而導(dǎo)致的錯(cuò)誤。
1.3.2 對(duì)黏著詞的識(shí)別錯(cuò)誤修正
導(dǎo)致該類(lèi)錯(cuò)誤的原因是對(duì)藏文中黏著詞的識(shí)別不準(zhǔn)確,針對(duì)這類(lèi)錯(cuò)誤本文首次引入了詞頻的信息。首先統(tǒng)計(jì)了在大規(guī)模的訓(xùn)練語(yǔ)料中出現(xiàn)的所有包含黏著詞的音節(jié)的出現(xiàn)頻次,發(fā)現(xiàn)在訓(xùn)練集中共出現(xiàn)了101265條包含黏著詞的音節(jié),其中僅有305條不重復(fù)的包含黏著詞的音節(jié)。分別計(jì)算每個(gè)包含黏著詞的音節(jié)在訓(xùn)練語(yǔ)料中所占的比例fc。fc的計(jì)算方法如下:
以前十個(gè)出現(xiàn)頻次最高的包含黏著詞的音節(jié)作為例子,如表2所示。
從表2可以看出,比如第一個(gè)藏文詞匯“????”在98%的情況語(yǔ)料中都以黏著形式出現(xiàn),對(duì)于這類(lèi)的詞匯本文對(duì)fc限定一個(gè)閾值,來(lái)推斷該詞是否是黏著詞。因此,定義如下規(guī)則。
規(guī)則2:
如果且fc>f,則將wi判斷為帶有黏著形式的藏文音節(jié)。
1.3.3 對(duì)高頻常用詞的錯(cuò)誤修正
本文所指的高頻常用詞包括如下內(nèi)容:
針對(duì)這類(lèi)錯(cuò)誤本文整理了藏語(yǔ)高頻常用詞表。并如下規(guī)則:設(shè)SW(stop words)表示高頻常用詞集合。
規(guī)則3:
如果:,則將wi單獨(dú)從集合S中分出來(lái)。
2 詞性標(biāo)注實(shí)驗(yàn)及結(jié)果
2.1 實(shí)驗(yàn)準(zhǔn)備
本文的實(shí)驗(yàn)語(yǔ)料來(lái)源除了西藏新聞網(wǎng)、人民網(wǎng)藏語(yǔ)頻道、青海藏語(yǔ)廣播網(wǎng)和新華網(wǎng)等主流媒體的藏語(yǔ)網(wǎng)站外,還包括了一至九年級(jí)藏文教材的內(nèi)容,語(yǔ)料涉及領(lǐng)域較全面。本文中的詞類(lèi)分布都來(lái)源于真實(shí)的藏文語(yǔ)料,這種基于真實(shí)語(yǔ)料的統(tǒng)計(jì)模型,有利于解決兼類(lèi)詞的標(biāo)注錯(cuò)誤問(wèn)題。訓(xùn)練語(yǔ)料、測(cè)試語(yǔ)料分配如表3所示。
2.2 系統(tǒng)性能
分別對(duì)僅使用CRFs進(jìn)行藏文詞性標(biāo)注結(jié)果和利用知識(shí)融合的方式校正之后兩次實(shí)驗(yàn)的對(duì)比情況如表4所示。
3 結(jié)論
本文主要介紹了基于知識(shí)融合的藏文詞性標(biāo)注系統(tǒng),通過(guò)對(duì)每個(gè)特征模板的測(cè)試實(shí)驗(yàn),觀察分析之后得到最優(yōu)的特征模板組合,利用該特征模板組合訓(xùn)練出標(biāo)注模板,之后分析介紹了CRFs分詞標(biāo)注的錯(cuò)誤類(lèi)型,并針對(duì)一些特定錯(cuò)誤利用知識(shí)融合的策略對(duì)CRFs標(biāo)注錯(cuò)誤進(jìn)行校正。在開(kāi)放測(cè)試中,本文的藏文詞性標(biāo)注系統(tǒng)的準(zhǔn)確率達(dá)到了98.75%。
參考文獻(xiàn)(References):
[1] 洪銘材,張闊,唐杰.基于條件隨機(jī)場(chǎng)(CRFs)的中文詞性標(biāo)注方法[J].計(jì)算機(jī)科學(xué),2006.
[2] 洛桑嘎登.藏文自動(dòng)分詞與詞性標(biāo)注研究[D].中央民族大學(xué),2016
[3] 洛桑嘎登,趙小兵.藏文詞級(jí)處理研究現(xiàn)狀及熱點(diǎn)方法[J].電腦知識(shí)與技術(shù),2015.32.
[4] 洛桑嘎登,楊媛媛,趙小兵.基于知識(shí)融合的CRFs藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2015.6.
[5] 華卻才讓?zhuān)瑒⑷?,趙海興.判別式藏語(yǔ)文本詞性標(biāo)注研究[J].中文信息學(xué)報(bào),2014.28(3).
[6] 蘇俊峰.基于HMM的藏語(yǔ)語(yǔ)料庫(kù)詞性自動(dòng)標(biāo)注研究[D].西北民族大學(xué)碩士學(xué)位論文,2010.
[7] 史曉東,盧亞軍.央金藏文分詞統(tǒng)[J].中文信息學(xué)報(bào),2011.25(4):54-56
[8] 扎西多杰,安見(jiàn)才讓.基于HMM藏文詞性標(biāo)注的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2012.12:100-101
[9] 于洪志,李亞超,汪昆等.融合音節(jié)特征的最大熵藏文詞性標(biāo)注研究[J].中文信息學(xué)報(bào),2013.27(5):160-165
[10] 康才畯.康才藏語(yǔ)分詞與詞性標(biāo)注研究[D].上海師范大學(xué)博士學(xué)位論文,2014.
[11] 龍從軍,劉匯丹.基于藏語(yǔ)字性標(biāo)注的詞性預(yù)測(cè)研究[J].中文信息學(xué)報(bào),2015.28(5).
[12] 國(guó)家語(yǔ)言文字工作委員會(huì).信息處理用現(xiàn)代藏語(yǔ)詞類(lèi)標(biāo)記集規(guī)范(草案),2015.6.
[13] J Lafferty, A McCallum, F Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]. Proceedings of ICML,2011:282-289