龍從軍,劉匯丹,吳 健
(1. 中國社會科學院 民族學與人類學研究所,北京 100081; 2. 中國科學院 軟件研究所,北京 100190)
藏語音節(jié)標注研究
龍從軍1,2,劉匯丹2,吳 健2
(1. 中國社會科學院 民族學與人類學研究所,北京 100081; 2. 中國科學院 軟件研究所,北京 100190)
藏語的“音節(jié)”在詞匯語法研究和文本信息處理研究中都十分重要,尤其在解決未登錄詞切分問題和標注中能夠發(fā)揮積極的作用。然而在現(xiàn)有的研究中,對音節(jié)的重視還不夠。該文提出在文本標注時,可以先進行音節(jié)的性質標注,然后通過音節(jié)構詞的規(guī)律預測復合詞的詞性,尤其是未登錄詞的詞性。該文作者對藏語音節(jié)的定義進行了界定,提出音節(jié)的性質分類及標注原則,利用統(tǒng)計模型,在約24萬音節(jié)的中小學語文教材語料庫上進行實驗,音節(jié)性質標注的正確率為93.520 8%。在此基礎上,把音節(jié)性質標注信息用到詞性標注中。實驗結果表明: 即使在音節(jié)性質標注存在一定錯誤的情況下,詞性標注的正確率也提高到94.196 7%;如果在保證音節(jié)性質標注完全正確的情況下,詞性標注的正確率可以提高到97.775 4%,這說明音節(jié)性質標注信息對詞性標注有幫助。
藏語;藏語音節(jié);音節(jié)性質標注;音節(jié)性質分類
Abstract: “Syllables” of Tibetan language are very important in vocabulary construction and text information processing, especially for solving the segmentation and annotation of OOVs. This paper proposes to tag the syllables, which can be applied to predict POS of compound words (especially OOVs) according to the rules of words-construction. This paper presents the definition of the Tibetan syllable, outlines and the principles of classification and labeling. The train and test texts are selected from teaching material of Tibetan language of primary and secondary schools, total 240K syllables. Experiments reveals a precision of 93.5208% for syllable tagging, upon which an improved 94.1967% accuracy for POS tagging can be reached. And given the gold-standard of syllable tagging, the accuracy of POS tagging will be improved to 97.775 4%.
Key words: Tibetan language; Tibetan syllable; syllable tagging; syllable classification
收稿日期: 2016-04-18 定稿日期: 2017-03-03
基金項目: 國家語委重點項目(ZDI135-17)
詞性標注是為給定句子中的每個詞確定一個合適的詞性的過程。詞性標注研究是自然語言處理的基礎內容之一,它在語音識別、信息檢索等很多領域發(fā)揮著重要的作用。在分詞和詞性標注研究中,未登錄詞是影響分詞或標注正確率的重要因素。文獻[1]指出,在Bakeoff2003分詞評測中,在給定的四個語料庫基礎上進行測評,未登錄損失詞造成的分詞精度損失比歧義切分造成的精度至少大10倍。藏語由于存在黏寫形式[2],未登錄詞造成的切分錯誤還會更多。同樣,在詞性標注中,未登錄詞標注錯誤也占據(jù)較大的比例?,F(xiàn)有的藏語詞性標注模型基本上以詞為單位進行標注[3-5],由于用來訓練標注模型的語料庫比較小,未登錄詞的比例較高,標注結果并不理想[6-7];而且各標注系統(tǒng)在詞邊界劃分上也有分歧,不同系統(tǒng)的標注結果往往不一致。在統(tǒng)一標注語料庫缺失的情況下,各種標注系統(tǒng)難以比較優(yōu)劣。近幾年,基于音節(jié)的方法在統(tǒng)計語言模型中發(fā)揮著積極的作用。在拼音線性文字研究方面,基于字符(letter)、子詞(subword)層級的統(tǒng)計語言模型不管在文本處理還是語音識別、文本語音轉換研究中都凸顯優(yōu)越性[8]。在漢、藏語文本處理研究中,研究者也廣泛采用了基于字位的統(tǒng)計分詞策略,并已經(jīng)取得了明顯的效果。因此,本文采用這種研究思路進行藏語音節(jié)(通常指一個非黏寫形式的音節(jié))的音節(jié)性質標注。文章第二部分著重談藏語音節(jié)的概念、分類,第三部分主要講藏語音節(jié)性質標注的原則,第四部分描述標注策略及結果分析。
2.2 藏語音節(jié)的性質分類
古代藏語以單音節(jié)為主,大部分音節(jié)都有實意,這里所說的音節(jié)的性質是指音節(jié)的語法類別性質,與詞的詞性類似。藏語的詞可以由單個音節(jié)構成,也可以由多個音節(jié)構成。漢語中把構成合成詞的字稱為詞素或者語素,詞素可以分成名詞性詞素、動詞性詞素、形容詞性詞素等。藏語音節(jié)的性質同樣可以分成名詞性音節(jié)、動詞性音節(jié)、形容詞性音節(jié)等。要標注藏語音節(jié)的語法屬性,首先需要對它們進行分類,經(jīng)過標注實踐,我們對藏語音節(jié)進行了如下分類。
(9) 前綴、后綴音節(jié)(f),指沒有詞匯意義,只有語法意義的音節(jié),如“pa”、“po”、“mo”、“bo”等。根據(jù)后綴所依附的音節(jié)的不同性質,可以分為nf(名詞性音節(jié)的綴)、vf(動詞性音節(jié)的綴)、af(形容詞性音節(jié)的綴)等。如果是前綴,則分別為fn、fv、fa等,但實際上藏語中的前綴非常少。
除了上述的音節(jié)之外,還有一部分表示語義、句法關系的格標記和助詞,它們的分類如表1所示[9]。
表1 表示語法意義的音節(jié)分類及標注標記表
由此可見,藏語音節(jié)性質標注過程實際上是對同形多性進行歧義消解的過程,每一個音節(jié)需要放置于合成詞、短語或句子中,才能夠得以正確標注。根據(jù)這些特點,本文作者在音節(jié)標注時遵循了以下幾個原則。
(1) 考慮合成詞中音節(jié)的來源,這個原則在前文已經(jīng)交代。
(3) 遵循上下文原則,音節(jié)的標注不是對孤立的音節(jié)或者獨立的合成詞中的音節(jié)進行標注,而是把音節(jié)置于文本的句子中考慮。尤其是單獨成詞或者具有某種語法意義的音節(jié),在確認性質的時候要結合上下文語境。例如,在確定格標記時,不但要考慮格標記相關的名詞性結構,還要考慮動詞的語義特性。
在現(xiàn)有的研究中,對藏語黏寫形式切分的方法主要有兩種: 基于規(guī)則的方法[11-12]和基于統(tǒng)計的方法[2,12-13]。在統(tǒng)計方法中,有采用分詞和黏寫切分一體化的四詞位和六詞位標注方法,以及單獨先處理黏寫形式然后再進行分詞的預處理方法,實驗結果表明后者比前者稍好一些[3],因此本實驗采用后一種方法處理黏寫音節(jié)。
4.2 語料選擇
4.3 模型選擇
音節(jié)性質標注實驗采用了條件隨機場模型工具包。條件隨機場模型被廣泛使用在自然語言標注研究中,尤其在序列標注任務中表現(xiàn)突出。需要標注的序列與標注標簽之間的概率可以采用式(1)計算。
(1)
對于藏語音節(jié)來說,X是藏語音節(jié)的序列,Y是對應的音節(jié)性質標簽。fk是特征函數(shù),t是每個音節(jié)在當前句子中的索引,Z(X)是歸一化因子,它用來保證Pλ(Y|X)滿足作為概率值的性質,其計算方法如式(2)所示。
(2)
如果將fk中的X和yt-1視為當前的上下文h,將yt視為在當前上下文環(huán)境中當前觀察值的標簽t,則概率模型和相應的特征函數(shù)取自空間H×T,其中H表示所有可能的上下文或者任何預先定義的條件,而T是所有可能的標簽集合,則特征函數(shù)可由式(3)定義,其中hi∈H,tj∈T。
(3)
條件隨機場模型不需要隱馬爾科夫模型所要求的嚴格獨立假設,也克服了最大熵模型的標記偏置的缺陷。它是在給定觀測序列的條件下定義整個類別標記中單一標記的聯(lián)合概率,而不是單單定義一個狀態(tài)分布概率。這個特點更符合自然語言的序列遞歸特點。
4.4 標注實驗及結果分析
在實驗中,語料庫按照1∶4的比例分配,隨機抽取3 983句作為測試語料,其余15 952句作為訓練語料,獲得模型大小為215MB。測試結果分別采用正確率來度量。本實驗語料情況如表 2所示。
表2 語料情況
我們采用五個上下文窗口進行訓練,分別進行詞性標注、音節(jié)性質標注,以及使用帶音節(jié)性質信息的詞性標注實驗,實驗的統(tǒng)計數(shù)據(jù)如表3所示。
表3 實驗數(shù)據(jù)
注: 標準音節(jié)性質是指正確標注的音節(jié)性質。
從表3中可以看出,單獨進行音節(jié)性質標注,音節(jié)性質標注的正確率為93.520 8%;單獨進行詞性標注,正確率為93.014 3%;如果利用音節(jié)性質標注信息進行詞性標注,詞性標注的正確率可以提高到94.196 7%,比不利用音節(jié)性質信息直接進行詞性標注的方法提高了1.18%,在音節(jié)性質標注存在較多錯誤的情況下,仍然能夠提高詞性標注的正確率,其原因可能是歧義音節(jié)的多個音節(jié)性質雖然不同,但在構詞時卻能形成相同的詞性,因而仍然有利于詞性標注。在保證音節(jié)性質標注完全正確的情況下,利用正確的音節(jié)性質信息,詞性標注的正確率提高到97.78%,正確率提高了4.77%。也就是說,如果音節(jié)性質信息完全正確,可以極大地提高詞性標注的正確率。
本文進行了基于音節(jié)的音節(jié)性質標注研究,對音節(jié)進行了定義、分類,闡述了標注的原則;構建了約24萬音節(jié)的中小學藏語文教材標注語料庫。經(jīng)過實驗得到了音節(jié)標注模型,測試結果正確率達到了93.520 8%。經(jīng)分析錯誤例子得知,大部分標注錯誤是由于標注語料的不一致性引起的。由于藏語音節(jié)性質標注研究在藏語文本信息處理中還沒有報道過,本文的研究對藏語構詞法研究、未登錄詞識別與標注、基于音節(jié)的語言模型的構造都具有積極的意義。
[1] 黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3): 8-19.
[2] 康才畯,龍從軍,江荻.基于詞位的藏文黏寫形式的切分[J].計算機工程與應用, 2014(11): 218-222.
[3] 史曉東,盧亞軍.央金藏文分詞系統(tǒng)[J].中文信息學報,2011,25(4): 54-56.
[4] 于洪志,李亞超,汪昆,等.融合音節(jié)特征的最大熵藏文詞性標注研究[J].中文信息學報,2013, 27(5): 160-165.
[5] 康才畯.藏語分詞與詞性標注研究[D].上海師范大學博士學位論文, 2014: 53.
[6] 于洪志,李亞超,汪昆,等.融合音節(jié)特征的最大熵藏文詞性標注研究[J]. 中文信息學報, 2013, 27(5): 160-165.
[7] 華卻才讓,劉群,趙海興,等.判別式藏語文本詞性標注研究[J].中文信息學報, 2014, 28(2): 56-60.
[8] Tomá?Mikolov, IlyaSutskever, Hai-Son Leetc. Subword language modeling with neural networks[EB/OL]. www.fit.vutbr.cz /~imikolov/ rnnlm/char.pdf.
[9] 趙小兵,孫媛,龍從軍,等.藏文拉丁轉寫、分詞和詞性分類規(guī)范: 信息處理用現(xiàn)代藏語分詞規(guī)范(草案)[M].北京: 商務印書館, 2015: 1-10.
[10] 張濟川. 藏語詞族研究: 古代藏族如何豐富發(fā)展他們的詞匯[M].北京: 社會科學文獻出版社,2009: 207.
[11] 才智杰.藏文自動分詞系統(tǒng)中緊縮詞的識別[J].中文信息學報,2009,23(1): 35-37, 43.
[12] 劉匯丹,藏文分詞及文本資源挖掘研究[D],中國科學院博士學位論文,2012: 46.
[13] Congjun Long, Caijun Kang, Di Jiang. The comparative research on the segmentation strategies of Tibetan bounded variant forms[C]//Proceedings of the Asian Language Processing(IALP), 2013 International Conference on DOI: 10.1109/IALP,2013 : 243-246.
龍從軍(1978—),博士,副研究員, 主要研究領域為藏語計算語言學。
E-mail: longcj@cass.org.cn
劉匯丹(1982—),博士,副研究員,主要研究領域為自然語言處理、多語言信息處理。
E-mail: huidan@iscas.ac.cn
吳健(1962—),研究員,主要研究領域為操作系統(tǒng)中文信息處理、多語言信息處理。
E-mail: wujian@iscas.ac.cn
Research on Tagging of Tibetan Syllables
LONG Congjun1,2, LIU Huidan2, WU Jian2
(1. Institute of Ethnology and Anthropology, Chinese Academy of Social Sciences, Beijing 100081,China;2. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China)
1003-0077(2017)04-0089-05
文獻標志碼: A