李亞超,加羊吉,宗成慶,于洪志
(1.西北民族大學(xué) 中國(guó)民族語言文字信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州730030;2.中國(guó)科學(xué)院 自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100190)
藏語是一種拼音文字,有30個(gè)輔音字母和4個(gè)元音字母,由這些字母組成音節(jié),由音節(jié)構(gòu)成詞[1]。音節(jié)之間用音節(jié)點(diǎn)“”(tsheg)作為分隔符,例如,“”(我是老師,ng rang dge rgan yin)。與英語等拉丁語言不同,藏語的詞語間沒有分隔符來區(qū)分,如一個(gè)藏語句子“”(制銷劣質(zhì)產(chǎn)品,tsong sog rdzun ma bso vtsong byed)(本文用“/”表示藏語詞語、音節(jié)間的分割符),因此藏語信息處理需要面對(duì)與漢語、日語等語言共同遇到的分詞問題。在現(xiàn)代藏語中音節(jié)之間的分隔符存在省略現(xiàn)象,從而形成了緊縮詞。緊縮詞在藏語文本中出現(xiàn)的頻率非常高,大約30%左右的詞匯中會(huì)有緊縮詞現(xiàn)象,這些詞的識(shí)別是藏語分詞中的重點(diǎn)和難點(diǎn)。開展藏語分詞技術(shù)的研究,對(duì)于藏語信息處理、信息檢索以及藏語與其他語言之間的機(jī)器翻譯都具有很重要的應(yīng)用價(jià)值。
1999年,扎西次仁所發(fā)表的“一個(gè)人機(jī)互助的藏文分詞和詞登錄系統(tǒng)的設(shè)計(jì)”可以看作是藏語分詞研究開始的標(biāo)志[2]。2002年,陳玉忠等人根據(jù)藏文的字、詞、句切分的特點(diǎn),提出了一種基于格助詞和連續(xù)特征的書面藏文自動(dòng)分詞方法[3],該方法在后來的實(shí)驗(yàn)中被證明是一種較為有效的基于語言規(guī)則的分詞方法。祁坤鈺提出了切分與格框架、標(biāo)注一體化的藏語三級(jí)切分體系[4]。才智杰提出了基于規(guī)則的方法“還原法”,來處理藏語分詞中緊縮詞識(shí)別問題[5],這種方法需要詞庫(kù)支持,不能夠處理“未登錄詞+緊縮詞”情況下的緊縮詞。以上研究都是基于知識(shí)庫(kù)語法規(guī)則的藏語分詞方法,分詞系統(tǒng)的實(shí)現(xiàn)過程較為復(fù)雜,且分詞效果離完全實(shí)用化的要求還有一定的距離。Huidan Liu等研究了藏語分詞中的數(shù)字識(shí)別問題[6],并且實(shí)現(xiàn)了基于音節(jié)標(biāo)注的藏語分詞方法[7],該方法把分詞和緊縮詞識(shí)別融和到一個(gè)統(tǒng)一的標(biāo)注體系中。史曉東把一個(gè)基于HMM的漢語分詞系統(tǒng)Segtag移植到了藏語中,取得了91%的準(zhǔn)確率[8],這是一個(gè)與藏語語言本身相對(duì)無關(guān)的較為成功的基于統(tǒng)計(jì)方法的藏語分詞系統(tǒng)。
綜上所述,藏語分詞經(jīng)過了十多年的研究,目前仍然存在許多問題需要解決,并沒有形成一個(gè)公認(rèn)的或者成熟的分詞方法,更沒有共享的開源系統(tǒng)。
與藏語分詞相比,漢語分詞經(jīng)過幾十年的研究,已經(jīng)取得了豐碩的成果,提出了很多有效的理論和方法。在2002年之前,漢語的自動(dòng)分詞方法基本上是基于詞(或詞典)的,這些方法可以進(jìn)一步分成基于規(guī)則和基于統(tǒng)計(jì)兩大類[9-10]?;谧謽?biāo)注的分詞方法最早發(fā)表在2002年第一屆SIGHAN研討會(huì)上[11],該方法把分詞過程抽象為序列化標(biāo)注問題,即判斷一個(gè)字在詞中的位置信息。近幾年來,通過大量的實(shí)驗(yàn)證明,基于字標(biāo)注的方法是一種非常有效的分詞方法,因此,成為當(dāng)前漢語分詞研究中的主流技術(shù),得到廣泛的應(yīng)用和推廣。
本文希望借鑒漢語分詞中由字構(gòu)詞的分詞思想,建立一種基于字標(biāo)注的藏語分詞方法,并對(duì)藏語分詞中緊縮詞識(shí)別問題提出新的解決方案。
本文的其余部分安排如下:第2節(jié)闡述我們提出的藏語自動(dòng)分詞方法的基本思路;第3節(jié)介紹基于條件隨機(jī)場(chǎng)的藏語分詞方法;第4節(jié)給出實(shí)驗(yàn)數(shù)據(jù),并進(jìn)行結(jié)果分析;第5節(jié)為全文總結(jié)和下一步的工作。
藏語屬于漢藏語系,理論上,漢語中使用的自然語言處理方法都可以用在藏語信息處理中,但在實(shí)際使用過程中必須考慮藏語中存在的具體問題。藏語自然語言處理研究不論在人力還是物力上與漢語相比都有較大的差距,如果解決了限制成熟的自然語言處理方法在藏語上應(yīng)用的關(guān)鍵問題,那么可以使相關(guān)的藏語自然語言處理技術(shù)得到跨越式的發(fā)展。基于以上思想,本文擬將漢語中基于字標(biāo)注的分詞方法引入藏語自動(dòng)分詞,通過分析并處理藏語分詞中特有的緊縮詞識(shí)別問題,實(shí)現(xiàn)一種基于條件隨機(jī)場(chǎng)的藏語自動(dòng)分詞方法。
在分詞中首先要確定分詞的基本單位,然后利用規(guī)則或者統(tǒng)計(jì)方法把分詞基本單位組合成詞。在漢語分詞中由字組成詞,而在藏語分詞中則是由音節(jié)組成詞。在古藏語中,所有音節(jié)間都由音節(jié)點(diǎn)“”隔開,但是在現(xiàn)代藏語中,有些特殊的格助詞和前面的音節(jié)之間的音節(jié)點(diǎn)存在省略現(xiàn)象,稱為緊縮詞,例如,(過去的五年,vdas pai lo lnga),第三個(gè)切分單位屬格助詞“”和第二個(gè)切分單位“”之間沒有音節(jié)點(diǎn)隔開。由于緊縮詞在藏語文本中出現(xiàn)的頻率①詳細(xì)數(shù)據(jù)在3.2節(jié)說明很高,并且在不同的上下文語境中具有不同的作用,分詞時(shí)很難判定包含緊縮詞的音節(jié)是一個(gè)切分單位還是兩個(gè)切分單位,從而對(duì)分詞結(jié)果產(chǎn)生很大的影響。對(duì)于緊縮詞識(shí)別問題,才智杰根據(jù)藏語的語言規(guī)則采用“去除/添加”法將其還原成藏文原形,即“還原法”[5]。其基本思想為,如果一個(gè)字串中包含有某個(gè)緊縮詞時(shí),去掉該緊縮詞后查找詞庫(kù),根據(jù)查找的結(jié)果來判定是否是緊縮詞。格助詞是藏語語法的最大特征之一,也是分詞以及相關(guān)信息處理過程中最主要的難點(diǎn)之一[12]。在藏語分詞中需要處理的緊縮詞主要有:具格助詞“”(sa)、la類格助詞(ra)、屬格助詞(vi)、終結(jié)詞(vo)、飾集詞(vang)、離合詞(vam)等6個(gè)。根據(jù)我們對(duì)已有的分詞方法切分錯(cuò)誤的分析,機(jī)械匹配分詞方法中交集型歧義、組合型歧義、緊縮詞識(shí)別錯(cuò)誤占的比例分別為53%、26%、8%;基于格助詞分詞方法中,堆塊錯(cuò)誤(詞間無格助詞,連續(xù)的詞未能切開)、格助詞識(shí)別(緊縮格和兼類格)、截?cái)啵ㄔ~內(nèi)部出現(xiàn)格助詞,把一個(gè)詞切分成兩個(gè)詞)所占的比例分別為73%、16%、7%。以上問題都是基于規(guī)則的分詞方法很難解決的。
依據(jù)上述分析,如果能夠有效地確定分詞基本單位,就可以利用目前很多成熟的分詞方法進(jìn)行分詞,從而實(shí)現(xiàn)自動(dòng)藏語分詞。根據(jù)以上的思路,本文采用基于條件隨機(jī)場(chǎng)的分詞方法,分詞系統(tǒng)流程如圖1所示。
圖1 分詞流程圖
根據(jù)這一分詞流程,我們首先對(duì)輸入的藏文文本以音節(jié)點(diǎn)為標(biāo)志進(jìn)行音節(jié)切分,音節(jié)切分時(shí)藏語中的符號(hào),例如,單垂符、云頭符漢語標(biāo)點(diǎn)符號(hào)和英文字符要單獨(dú)切分開;切分好的音節(jié)單位輸入緊縮詞處理模塊進(jìn)行緊縮詞處理,其輸出結(jié)果作為分詞基本單位,分詞基本單位可以是藏語音節(jié)、數(shù)字、標(biāo)點(diǎn)符號(hào)等;處理好的分詞基本單位輸入基于CRF的分詞模塊進(jìn)行分詞處理,最后輸出分詞結(jié)果。
條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)是Lafferty等提出的一種統(tǒng)計(jì)的序列標(biāo)記模型[13]。在本文中簡(jiǎn)單介紹CRF模型,詳細(xì)信息見參考文獻(xiàn)[14]。
我們把藏語分詞和緊縮詞識(shí)別都看成是序列標(biāo)記問題。在序列標(biāo)記問題中生成一個(gè)基于無向圖(undirected graph)G=(V,E)的一階線性鏈?zhǔn)紺RF(linear-chain CRF)。V是隨機(jī)變量Y 的集合Y ={Yi|1≤i≤n},對(duì)于輸入一個(gè)句子的n個(gè)需要標(biāo)記單元,E = {(Yi-1,Yi)|1≤i≤n}是n-1個(gè)邊構(gòu)成的線性鏈。對(duì)于每個(gè)句子x,定義兩個(gè)非負(fù)因子:
對(duì)于每個(gè)邊:
對(duì)于每個(gè)節(jié)點(diǎn):
fk是一個(gè)二值特征函數(shù),K和K′是定義在每個(gè)邊和相應(yīng)節(jié)點(diǎn)的特征數(shù)量。
給定一個(gè)需要標(biāo)記的序列x,其對(duì)應(yīng)的標(biāo)記序列y的條件概率為式(1):
Z(x)是歸一化函數(shù)。給定訓(xùn)練集D,訓(xùn)練模型的參數(shù)是用來最大化條件似然值。當(dāng)給定了要標(biāo)記的序列x,其對(duì)應(yīng)的標(biāo)記序列y由參數(shù)Argmaxy′P(y′|x)給出。
本文使用CRF++(v 0.51)①http://crfpp.sourceforge.net/來實(shí)現(xiàn)基于CRF分詞、緊縮詞處理模型的序列標(biāo)記任務(wù)。
在一個(gè)包含78107個(gè)藏語詞條的詞典中(詞條由《藏漢大辭典》、《格西曲扎詞典》抽取的藏語詞條組成,下文稱為藏語詞典),“”、“”、“”、“”、“ ”、“ ”等6個(gè)緊縮詞一共出現(xiàn)了38 345次。我們通過對(duì)一個(gè)13.4M大小藏語文本語料(包含856 668個(gè)詞)統(tǒng)計(jì)得知,上述的緊縮詞共出現(xiàn)了298 777次。為了表示方便,下文中以S1,S2,...,S5,S6分別表示這6個(gè)緊縮詞。表1給出了6個(gè)緊縮詞整體上、單個(gè)出現(xiàn)的次數(shù)和所占總詞匯數(shù)的比例。
表1 緊縮詞出現(xiàn)的頻度
從表1可以看出,無論是文本語料還是藏語詞典,至少34%的詞匯都包含了這6個(gè)緊縮詞。因此,緊縮詞識(shí)別對(duì)于藏語分詞來說是必須面對(duì)的問題。后面的實(shí)驗(yàn)將實(shí)驗(yàn)緊縮詞識(shí)別對(duì)藏語分詞的影響。
我們可以把緊縮詞識(shí)別問題看成分類問題,這6個(gè)緊縮詞按照功能進(jìn)行劃分,可以分為兩大類,一類是作為格助詞,另外一類是非格助詞(包括基字和后加字)。判斷的依據(jù)為這些緊縮詞的上下文特征。這樣,我們就可以把緊縮詞識(shí)別轉(zhuǎn)化為序列標(biāo)注問題,進(jìn)而可以采用當(dāng)前成熟的序列標(biāo)注模型來進(jìn)行識(shí)別,本文采用基于CRF的序列標(biāo)注方法進(jìn)行緊縮詞識(shí)別。采用的標(biāo)記集為“YN”,其中Y、N分別表示非格助詞和格助詞。在本文中,我們對(duì)緊縮詞識(shí)別采用音節(jié)本身以及音節(jié)上下文特征信息,特征模板如表2所示。
表2 緊縮詞識(shí)別特征模板
在基于字標(biāo)注的分詞方法中,需要對(duì)每一個(gè)字在詞中的位置信息進(jìn)行標(biāo)注,根據(jù)以上的分析,我們參照基于字標(biāo)注的漢語分詞方法[15],在本文中選用“BMES”標(biāo)記集,根據(jù)每個(gè)藏文音節(jié)在詞中出現(xiàn)的位置,給予不同的標(biāo)簽,B代表詞的左邊界,E代表詞的右邊界,M代表詞的中間部分,S代表單音節(jié)詞,標(biāo)記示例如表3所示,超過3音節(jié)的詞中間部分都標(biāo)記為M。
表3 音節(jié)標(biāo)記示例
根據(jù)不同的緊縮詞處理方法,可以選用不同的音節(jié)標(biāo)注方法。用本文提出的緊縮詞處理模型,把音節(jié)序列處理成分詞基本單位,再進(jìn)行序列標(biāo)注的方法稱為TagSet-1。另外,緊縮詞識(shí)別和音節(jié)標(biāo)記可以融合到一個(gè)統(tǒng)一的標(biāo)注體系中,把包含緊縮詞的音節(jié)作為兩個(gè)切分單位的標(biāo)注方法稱為TagSet-2,把包含緊縮詞的音節(jié)作為一個(gè)切分單位的標(biāo)注方法稱為L(zhǎng)iu,Liu是Huidan Liu在文獻(xiàn)[7]中提出的標(biāo)注方法,該方法除了B、M、E和S等4個(gè)標(biāo)記外,又增加了兩個(gè)標(biāo)記SS和ES,SS用于標(biāo)注包含緊縮詞的單音節(jié)詞,ES用于標(biāo)注多音節(jié)詞包含緊縮詞的末尾音節(jié)。TagSet-1標(biāo)注示例如表3所示,TagSet-2和Liu對(duì)普通詞的標(biāo)注示例在表3,對(duì)包含緊縮詞的標(biāo)記示例如表4中所示。
表4 標(biāo)注集示例
在特征選取上選取音節(jié)本身和音節(jié)上下文的特征信息,特征模板如表5所示。音節(jié)的特征信息,在本文中分為藏語音節(jié)、藏語標(biāo)點(diǎn)符號(hào)、漢語標(biāo)點(diǎn)符號(hào)、英文字母、英文數(shù)字、英文符號(hào)。
表5 分詞特征模板
本實(shí)驗(yàn)采用的藏語分詞語料為中國(guó)中文信息學(xué)會(huì)第七屆全國(guó)機(jī)器翻譯研討會(huì)(CWMT2011)藏漢報(bào)刊政論文獻(xiàn)平行語料中的藏語語料部分。把整體語料按照3∶7的比例分為測(cè)試語料和訓(xùn)練語料。測(cè)試語料詳細(xì)信息列在表6,訓(xùn)練語料大小為13.4M,包含71 629行,856 647個(gè)詞匯,用于藏語分詞模型和緊縮詞處理模型訓(xùn)練,在下文中稱為訓(xùn)練語料。測(cè)試分為封閉測(cè)試和開放測(cè)試兩種測(cè)試方法。
表6 測(cè)試集詳細(xì)信息
我們進(jìn)行了兩種條件下的分詞實(shí)驗(yàn),這兩種實(shí)驗(yàn)都采用相同CRF分詞模型,不同的是緊縮詞的處理方法。緊縮詞處理方法為:方法(1)利用本文提出的基于CRF的緊縮詞處理模型,簡(jiǎn)稱自動(dòng)模型;方法(2)以人工方式進(jìn)行緊縮詞處理,這種情況下可以完全處理緊縮詞問題,簡(jiǎn)稱人工處理。表7為在不同的測(cè)試集上,兩種實(shí)驗(yàn)的分詞結(jié)果。在表7以及下文中R、P、F、ROOV、RIV分別表示召回率、正確率、F值、未登錄詞召回率和登錄詞召回率等分詞指標(biāo),“-”表示無此項(xiàng)數(shù)據(jù)。R、P、F 計(jì)算方法如式(2)、(3)、(4)所示:
ROOV表示測(cè)試語料中未登錄詞(在訓(xùn)練語料中沒有出現(xiàn)過的詞)的召回率,RIV表示測(cè)試語料中登錄詞(在訓(xùn)練語料中出現(xiàn)過的詞)的召回率。
表7 基于CRF的分詞結(jié)果
在開放測(cè)試中,采用本文的緊縮詞處理模型,分詞的R、P、F等指標(biāo)均達(dá)到了95%,說明基于CRF的藏語分詞可以取得較好的分詞效果。
在封閉測(cè)試中,分詞的各項(xiàng)指標(biāo)均超過了99%,雖然是在實(shí)驗(yàn)條件下的分詞結(jié)果,但是可以說明利用CRF實(shí)現(xiàn)的基于字標(biāo)注的分詞方法對(duì)于藏語分詞是同樣有效的。
經(jīng)過對(duì)開放測(cè)試和封閉測(cè)試的分詞結(jié)果對(duì)比,本文提出的緊縮詞處理模型與人工處理的緊縮詞處理方法的分詞各項(xiàng)指標(biāo)較為接近,誤差在0.5%以內(nèi),說明基于CRF的緊縮詞處理方案基本達(dá)到了實(shí)用的程度。
從開放測(cè)試實(shí)驗(yàn)結(jié)果來看,標(biāo)記集TagSet-1和TagSet-2的 F 值均高于標(biāo)記集 Liu,TagSet-1和TagSet-2的F值很接近。由于標(biāo)記集TagSet-1需要單獨(dú)的處理緊縮詞,所以采用TagSet-1的分詞系統(tǒng)需要耗費(fèi)額外的緊縮詞處理時(shí)間,TagSet-2是分詞準(zhǔn)確率和耗費(fèi)時(shí)間的最好折中方案。
本分詞系統(tǒng)在報(bào)刊政論文獻(xiàn)語料上的分詞結(jié)果中,登錄詞的召回率是較為理想的,但是未登錄詞的召回率較低,為47%,對(duì)于未登錄詞召回率較低的原因在4.4節(jié)針對(duì)藏語分詞的召回率進(jìn)行專門的實(shí)驗(yàn)。對(duì)分詞實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)分析后發(fā)現(xiàn),測(cè)試語料的題材為報(bào)刊政論文獻(xiàn),未登錄詞大都是數(shù)字和本領(lǐng)域內(nèi)的專有名詞,切分錯(cuò)誤主要集中在專有名詞切分錯(cuò)誤上。導(dǎo)致切分錯(cuò)誤的原因,除了標(biāo)準(zhǔn)語料自身的切分錯(cuò)誤外,還有訓(xùn)練語料中詞語切分不一致導(dǎo)致未登錄詞很容易切分為多個(gè)登錄詞。一方面為了忠實(shí)于原有的語料,另一方面為了以后分詞實(shí)驗(yàn)的對(duì)比,所以我們?cè)诖瞬粚?duì)原始語料做任何人工的更改,實(shí)驗(yàn)數(shù)據(jù)均按照原始語料給出。
本文的緊縮詞識(shí)別實(shí)驗(yàn)中,系統(tǒng)輸出結(jié)果的數(shù)量和標(biāo)準(zhǔn)答案的數(shù)量是相同的,所以正確率、召回率和F值都相同,因此本文僅使用正確率來表示緊縮詞識(shí)別結(jié)果?!斑€原法”的緊縮詞識(shí)別結(jié)果采用文獻(xiàn)[5]的數(shù)據(jù),詳細(xì)數(shù)據(jù)列在表8。
表8 緊縮詞識(shí)別結(jié)果
從表8中可以看出,S1和S3在不同的測(cè)試集上識(shí)別的結(jié)果都比較穩(wěn)定,而S2的識(shí)別結(jié)果波動(dòng)較大,并且在緊縮詞識(shí)別錯(cuò)誤中S2占了66%。S4、S5、S6在語料中出現(xiàn)的次數(shù)較少,占整體的比例為0.39%,所以識(shí)別的結(jié)果不具有代表性。通過對(duì)語料的統(tǒng)計(jì)S1、S2、S3作為非格助詞和格助詞之比為13∶1、3∶1、0.03∶1,與S1、S3相比S2的上下文環(huán)境更為復(fù)雜,因此對(duì)S2的處理需要加入更多的特征信息。隨機(jī)抽取41個(gè)S2識(shí)別錯(cuò)誤,經(jīng)過分析后發(fā)現(xiàn),把格助詞識(shí)別為非格助詞稱為A類錯(cuò)誤,非格助詞識(shí)別為格助詞稱為B類錯(cuò)誤,A類錯(cuò)誤的次數(shù)為35次,B類錯(cuò)誤的次數(shù)為6次,分別占的比例為85%和15%。同樣,其余的緊縮詞識(shí)別錯(cuò)誤也傾向于同一種錯(cuò)誤類型。
與“還原法”相比,基于CRF的緊縮詞識(shí)別方法整體上識(shí)別效果較差。但是,本方法不需要詞庫(kù)的支持,導(dǎo)致的分詞錯(cuò)誤還可以接受,在一定程度上克服了“還原法”不能識(shí)別“未登錄詞+緊縮詞”條件下的緊縮詞的不足。
為了實(shí)驗(yàn)緊縮詞識(shí)別對(duì)基于CRF的藏語分詞結(jié)果的影響,本文實(shí)現(xiàn)了三種條件下的基于CRF的分詞實(shí)驗(yàn),這三種實(shí)驗(yàn)采用相同的CRF分詞模型,為了消除未登錄詞的影響,實(shí)驗(yàn)采用封閉測(cè)試,不同條件為:實(shí)驗(yàn)(1)切分所有包含緊縮詞的音節(jié);實(shí)驗(yàn)(2)對(duì)藏語中的緊縮詞不進(jìn)行處理;實(shí)驗(yàn)(3)以人工方式進(jìn)行的緊縮詞處理,這種情況下可以完全處理緊縮詞問題。
從表9的結(jié)果可以得出,不同的緊縮詞處理方法對(duì)基于CRF的藏語分詞結(jié)果影響非常大。同時(shí)也說明緊縮詞識(shí)別是藏語分詞過程中最主要的難點(diǎn)。
表9 緊縮詞識(shí)別對(duì)藏語分詞的影響
綜合分析可以得出,緊縮詞識(shí)別問題是阻礙很多分詞技術(shù)在藏語分詞上應(yīng)用的最大障礙。解決了緊縮詞識(shí)別問題后,很多成熟的基于統(tǒng)計(jì)的分詞技術(shù)都可以應(yīng)用到藏語分詞中,緊縮詞識(shí)別對(duì)藏語分詞技術(shù)的研究和應(yīng)用具有非常重要的意義。
在4.1節(jié)的分詞結(jié)果中未登錄詞召回率較低,為47%。并且在此語料上ROOV很難有進(jìn)一步的提升,為了實(shí)驗(yàn)基于CRF的藏語分詞是否對(duì)未登錄詞有較好的處理效果,我們進(jìn)行了在其他語料上的分詞實(shí)驗(yàn)。選用的語料為藏語小學(xué)語文課本,本語料由西北民族大學(xué)中國(guó)民族信息技術(shù)研究院組織人工標(biāo)注,訓(xùn)練語料包含93 563個(gè)詞,測(cè)試語料包含17 767個(gè)詞,測(cè)試語料未登錄詞比例為10.36%。為了對(duì)藏語分詞和漢語分詞的效果進(jìn)行對(duì)比,漢語分詞結(jié)果采用汪昆在Coling 2010上實(shí)驗(yàn)數(shù)據(jù)[15],詳細(xì)實(shí)驗(yàn)結(jié)果見表10。在本文中OOV Rate表示測(cè)試語料的未登錄詞比例,這個(gè)比例對(duì)分詞結(jié)果有較大的影響。
表10 藏語分詞結(jié)果及對(duì)比
在本語料上,藏語和漢語的分詞指標(biāo)如ROOV、RIV很接近,但是藏語分詞的F值較低。原因是藏語測(cè)試語料的未登錄詞比例較高,如果降低未登錄詞比例,那么分詞結(jié)果會(huì)有提升。
表11為報(bào)刊政論文獻(xiàn)和小學(xué)語文課本語料的交叉分詞測(cè)試結(jié)果。分為兩個(gè)實(shí)驗(yàn),實(shí)驗(yàn)1用報(bào)刊政論文獻(xiàn)語料訓(xùn)練的模型測(cè)試小學(xué)語文課本語料,實(shí)驗(yàn)2跟實(shí)驗(yàn)1所用訓(xùn)練語料和測(cè)試語料的語料相反。
從表11可以看出,實(shí)驗(yàn)2的ROOV、RIV均高于實(shí)驗(yàn)1,結(jié)合表10的實(shí)驗(yàn)數(shù)據(jù)可以說明基于CRF的藏語分詞對(duì)未登錄詞有較好處理效果。
表11 藏語分詞語料間交叉測(cè)試
報(bào)刊政論文獻(xiàn)語料不管是在本領(lǐng)域還是在小學(xué)語文課本上的分詞結(jié)果中未登錄詞召回率均較低,而小學(xué)語文課本語料在測(cè)試中可以一直保持較好的效果,說明了4.1節(jié)的藏語分詞結(jié)果中未登錄詞召回率較低是因?yàn)檎Z料的問題。
在表11中R、P、F均較低是因?yàn)椴煌Z料之間的題材差異導(dǎo)致分詞結(jié)果降低,這種現(xiàn)象同樣會(huì)出現(xiàn)在漢語分詞中,另外本實(shí)驗(yàn)的訓(xùn)練語料和測(cè)試語料為不同的題材,測(cè)試語料中未登錄詞比例較高,導(dǎo)致分詞F值嚴(yán)重降低。
在藏語分詞中,因?yàn)檎Z料缺乏,并且質(zhì)量也不太好,有些分詞指標(biāo)在不同的語料上有較大的差異。
本文根據(jù)藏語的特點(diǎn)實(shí)現(xiàn)了一種基于CRF的藏語分詞系統(tǒng),說明基于字標(biāo)注的分詞方法對(duì)于藏語分詞同樣適用。而且,我們利用基于CRF的方法有效地解決了藏語分詞中緊縮詞識(shí)別問題,使之與分詞模塊很好地結(jié)合在一起,與其他的標(biāo)記集相比,采用獨(dú)立的緊縮詞處理方法的標(biāo)記集TagSet-1取得了最好的實(shí)驗(yàn)結(jié)果。但是,頻率最高的緊縮詞S1、S2識(shí)別錯(cuò)誤中超過80%是把非格助詞識(shí)別為格助詞,這樣分詞基本單位數(shù)量超過標(biāo)準(zhǔn)的數(shù)量,導(dǎo)致在開放測(cè)試中分詞召回率普遍高于準(zhǔn)確率。其余的緊縮詞識(shí)別錯(cuò)誤也較為有規(guī)律,同樣傾向于同一個(gè)錯(cuò)誤類型。接下來,我們希望通過加入藏語語法規(guī)則來減少緊縮詞識(shí)別錯(cuò)誤,平衡分詞的召回率和準(zhǔn)確率,另外要在分詞系統(tǒng)中加入人名、地名、機(jī)構(gòu)名等命名實(shí)體的自動(dòng)識(shí)別。
[1]山木旦,鄭紹功,扎喜拉旦等.新編藏文字典[M].西寧:青海民族出版社,1979.
[2]扎西次仁.一個(gè)人機(jī)互助的藏文分詞和詞登錄系統(tǒng)的設(shè)計(jì)[C].中國(guó)少數(shù)民族語言文字現(xiàn)代化文集,北京:民族出版社,1999:322-327.
[3]陳玉忠,李保利,俞士汶,等.基于格助詞和連續(xù)特征的藏文自動(dòng)分詞方案[J].語言文字應(yīng)用,2003,(1):75-82.
[4]祁坤鈺.信息處理用藏文自動(dòng)分詞研究[J].西北民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2006,(4):92-97.
[5]才智杰.藏文自動(dòng)分詞系統(tǒng)中緊縮詞的識(shí)別[J].中文信息學(xué)報(bào),2009,23(1):35-37.
[6]Huidan Liu,Weina Zhao,Minghua Nuo,et al.Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation[C]//Proceedings of the 23rd International Conference on Computational Linguistics(Posters Volume)(Coling 2010),2010:719-724.
[7]Huidan Liu,Minghua Nuo,Longlong Ma,et al.Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields[C]//Proceedings of the 25th Pacific Asia Conference on Language,Information and Computation (PACLIC-2011),2011:168-177.
[8]史曉東,盧亞軍.央金藏文分詞系統(tǒng)[J].中文信息學(xué)報(bào),2011,25(4):54-56.
[9]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報(bào),2007,21(3):8-20.
[10]宗成慶.統(tǒng)計(jì)自然語言處理[M].清華大學(xué)出版社,2008.
[11]Neinwen Xue,Susan P.Converse.Combining classifiers for Chinese word segmentation[C]//Proceedings of the First SIGHAN Workshop on Chinese Language Processing,Taipei,2002,Taiwan,2002:63-70.
[12]關(guān)白.淺析藏文分詞中的幾個(gè)概念[J].西藏大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,24(1):65-69.
[13]J.Lafferty,A.McCallum,F(xiàn).Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of ICML-2001,2001:282-289.
[14]Nianwen Xue.Chinese word segmentation as character tagging[C]//International Journal of Computational Linguistics and Chinese Language Processing,2003:29-48.
[15]Kun Wang,Chengqing Zong,Keh-Yih Su.A Character-Based Joint Model for Chinese Word Segmentation[C]//Coling 2010,2010:1173-1181.