袁里馳
(江西財(cái)經(jīng)大學(xué) 信息學(xué)院 數(shù)據(jù)與知識工程江西省重點(diǎn)實(shí)驗(yàn)室,江西 南昌,330013)
所謂詞性標(biāo)注[1],就是根據(jù)句子上下文中的信息給句中的每個詞一個正確的詞性標(biāo)記。詞性標(biāo)注是對自然語言進(jìn)一步處理的重要基礎(chǔ),在許多應(yīng)用領(lǐng)域,如文本索引、文本分類、語言合成、語料庫加工,詞性標(biāo)注都是一個重要環(huán)節(jié),因此,研究詞性標(biāo)注的方法具有重要意義?,F(xiàn)有的詞性標(biāo)注所采用的語言模型主要分為基于規(guī)則的方法[2-3]和基于統(tǒng)計(jì)的方法[4-16]?;谝?guī)則的詞性標(biāo)注依賴手工編輯的規(guī)則,將輸入的詞序列分解成形態(tài)組件,將結(jié)果的詞匯類別作為這些組成的函數(shù)加以計(jì)算?;谝?guī)則的標(biāo)注系統(tǒng)與系統(tǒng)設(shè)計(jì)者的語言能力有關(guān),其中規(guī)則集直接體現(xiàn)了設(shè)計(jì)者的語言能力。然而,要對某一種語言的各種語言現(xiàn)象都構(gòu)造規(guī)則是一項(xiàng)很艱難也很耗時的任務(wù)?;谝?guī)則的標(biāo)注系統(tǒng)另一個常見問題是:當(dāng)根據(jù)規(guī)則判斷1個詞的詞性時可能面臨多種選擇,若不根據(jù)上下文則很難作出正確的選擇?;谝?guī)則的方法適應(yīng)性較差,并且非統(tǒng)計(jì)模型的本質(zhì)使它通常作為一個獨(dú)立的標(biāo)注器,很難被用作概率模型的組件部分?;诮y(tǒng)計(jì)的方法卻能彌補(bǔ)此缺點(diǎn)。隱馬爾可夫模型[1]是統(tǒng)計(jì)模型中應(yīng)用較廣、效果較好的模型之一。對于隱馬爾科夫模型(hidden Markov model,HMM)用于詞性標(biāo)注,國內(nèi)外學(xué)者進(jìn)行了大量研究,如:1988年Church等提出了第一個基于詞語概率和轉(zhuǎn)移概率的隱馬爾科模型英文標(biāo)注器;1994年Schvtze等提出了可變記憶馬爾科夫模型(Variable memory Markov model);1999年Scott等提出了完全二階隱馬爾科夫模型(Second order hiddenv Markov model),Sang-Zoo等提出了基于詞匯信息的隱馬爾科夫模型(Lexicalized hidden Markov model);魏歐等[6]介紹了傳統(tǒng)隱馬爾科夫模型用于漢語詞性標(biāo)注的具體分析與改進(jìn);梁以敏等[7]提出了完全二階隱馬爾科夫模型;屈剛等[8]介紹了雙重狀態(tài)隱馬爾科夫模型等等。統(tǒng)計(jì)標(biāo)注方法如隱馬爾可夫模型在計(jì)算每一輸入詞序列的最可能詞性標(biāo)注序列時,既考慮上下文,也考慮二元或三元概率參數(shù)(這些參數(shù)可通過已標(biāo)注用于訓(xùn)練的語料估計(jì)得到)。目前,許多種語言都有人工標(biāo)注的訓(xùn)練語料,并且統(tǒng)計(jì)模型有很強(qiáng)的健壯性,這些優(yōu)點(diǎn)使得統(tǒng)計(jì)方法成為當(dāng)前主流的詞性標(biāo)注方法?;陔[馬爾可夫模型的詞性標(biāo)注存在的不足有:為了達(dá)到很高的標(biāo)注準(zhǔn)確率,需要大量的訓(xùn)練語料;傳統(tǒng)的基于隱馬爾可夫模型的標(biāo)注方法沒有結(jié)合現(xiàn)有的語言知識。隱馬爾可夫模型在用于標(biāo)注時進(jìn)行了3個基本假設(shè):(1)馬爾可夫性假設(shè);(2)不動性假設(shè);(3)輸出獨(dú)立性假設(shè),即輸出(詞的出現(xiàn))概率僅與當(dāng)前狀態(tài)(詞性標(biāo)記)有關(guān)。這些假定尤其第 3個假定太粗糙。為此,本文作者引入一種統(tǒng)計(jì)模型即馬爾可夫族模型[16]。假定1個詞出現(xiàn)的概率既與它的詞性標(biāo)記有關(guān),也與前面的詞有關(guān),但該詞的詞性標(biāo)記與該詞前面的詞關(guān)于該詞條件獨(dú)立(即在該詞已知條件下是獨(dú)立的),在上面假設(shè)下,將馬爾可夫族模型進(jìn)行簡化,可用于詞性標(biāo)注。實(shí)驗(yàn)結(jié)果證明:在相同的測試條件下,基于馬爾可夫族模型的詞性標(biāo)注方法與常規(guī)的基于隱馬爾可夫模型的詞性標(biāo)注方法相比大大提高了標(biāo)注準(zhǔn)確率。在其他許多自然語言處理技術(shù)領(lǐng)域中(如分詞、句法分析、語音識別等),馬爾可夫族模型也非常有用。
設(shè)T為標(biāo)注集,W為詞集,很自然地可以定義一個二元的 HMM 詞性標(biāo)注模型(T,A,W,B,π)[1]。其中:A為狀態(tài)轉(zhuǎn)移概率分布矩陣;B為狀態(tài)符號發(fā)射的概率分布矩陣;π為初始狀態(tài)概率分布。A,B和π可通過已標(biāo)注訓(xùn)練語料估計(jì)得到。在上述模型下,模型的狀態(tài)是詞性標(biāo)記;輸出符號是詞。在已知輸入詞序列w1,n的條件下, 尋找最可能標(biāo)記序列t1,n的任務(wù),可看作在給定觀察序列w1,n條件下搜索最可能的HMM狀態(tài)序列的問題:
首先,引入獨(dú)立性假設(shè),認(rèn)為詞序列中的任意一個詞wi的出現(xiàn)概率只同當(dāng)前詞的詞性標(biāo)記ti有關(guān)。而與周圍(上下文)的詞,詞類標(biāo)記無關(guān)。其次,采用二元假設(shè),即認(rèn)為任意詞類標(biāo)記的出現(xiàn)概率只與它緊鄰的前一個詞類標(biāo)記有關(guān)。由上述假設(shè),有:
為簡單起見,定義=1.0。
設(shè)S1為詞性標(biāo)記集,S2為詞表中詞的集合,任意一個詞的詞性標(biāo)記ti和該詞wi前面的詞關(guān)于該詞條件獨(dú)立(即在該詞已知的條件下獨(dú)立):
在上述假定下,可以利用馬爾可夫族模型進(jìn)行詞性標(biāo)注[16](為了簡單,假定隨機(jī)向量 {wi,ti}i≥1的成分變量{wi}i≥1和{ti}i≥1都是 2 階馬爾可夫鏈):
其中:
因而,
在得到詞性標(biāo)注模型后的下一個問題是如何尋找一種有效算法,求出在給定輸入條件下概率最大的詞性標(biāo)記序列。Viterbi算法[2]是一種動態(tài)編程的方法,能夠根據(jù)模型參數(shù)有效地計(jì)算出一給定詞序列w1,…,wn最可能產(chǎn)生的詞性標(biāo)記序列t1,…,tn。計(jì)算過程如下:
圖1 詞性標(biāo)注算法Fig.1 Part-of-Speech tagging algorithm
在漢語短語句法分析中,首先要對句子進(jìn)行漢語詞語切分和詞性標(biāo)注,然后,在詞性標(biāo)注的基礎(chǔ)上進(jìn)行句法分析。詞性標(biāo)記在句法分析中起了至關(guān)重要的作用。英語中,詞的形態(tài)變化決定了詞的詞性,而詞性又決定了詞在句子中的句法功能。在這里,“詞性”作為句法分析的基礎(chǔ),起到了樞紐作用:一方面,“詞性”是詞的特征,可以從詞的形態(tài)變化中直接判斷出來;另一方面,詞性又反映了詞語在句子組織過程中充當(dāng)?shù)恼Z法功能。
中心詞驅(qū)動句法分析模型[18]是最具有代表性的詞匯化模型。為了發(fā)揮詞匯信息的作用,中心詞驅(qū)動模型為文法規(guī)則中的每一個非終結(jié)符(None terminal)都引入核心詞/詞性信息。由于引入詞匯信息,不可避免地將出現(xiàn)嚴(yán)重的稀疏問題。為了緩解這個問題,中心詞驅(qū)動模型把每一條文法規(guī)則的右手側(cè)分解為三大部分:一個中心成分;若干個在中心左邊的修飾成分;若干個在中心右邊的修飾成分??梢詫懗扇缦滦问剑?/p>
其中:P為非終結(jié)符;H為中心成分;L1為左邊修飾成分;R1為右邊修飾成分;hw,lw和rw均為成分的核心詞,ht,lt和rt分別為它們的詞性。進(jìn)一步假設(shè):首先由P產(chǎn)生核心成分H,然后,以H為中心分別獨(dú)立地產(chǎn)生左右兩邊的所有修飾成分。這樣,形如(8)式的文法規(guī)則的概率為:
其中:Lm+1和Rn+1分別為左右兩邊的停止符號。
為了結(jié)合句法分析進(jìn)行詞性標(biāo)注,對形如(8)式的文法規(guī)則的概率修改為:
其中:Lm+1和Rn+1分別為左、右兩邊的停止符號。式(10)中的概率
可分解為2個概率:
的乘積,句法分析中有關(guān)詞性標(biāo)注的概率為見式(11)。再假定rwi,rti-1,rti-2,…,rt1,ht關(guān)于rti條件獨(dú)立,則有:
式(13)中概率
即為rti,rti-1,rti-2,…,rt1,hti間的互信息??梢姡菏?13)概率意義十分明確,也符合語言現(xiàn)象。式(13)中的概以考慮引入基于相鄰詞詞性搭配關(guān)系的詞性標(biāo)注模型來解決。
選取1998年《人民日報(bào)》部分標(biāo)注語料作為測試和訓(xùn)練語料,內(nèi)容涉及政治、經(jīng)濟(jì)、文藝、體育、報(bào)告文學(xué)等多種題材。語料使用 42種標(biāo)記,從中抽取30萬詞的語料進(jìn)行訓(xùn)練。從訓(xùn)練集外隨機(jī)抽取部分語料作為測試集, 其中測試語料約有 244 974個記號,該語料有關(guān)特性如表1所示。采用詞性標(biāo)注的準(zhǔn)確率對模型進(jìn)行評價,實(shí)驗(yàn)結(jié)果見表2。
從表2可見:在相同測試條件下,基于馬爾可夫族模型的詞性標(biāo)注方法與常規(guī)的基于隱馬爾可夫模型詞性標(biāo)注方法相比大大提高了標(biāo)注準(zhǔn)確率, 標(biāo)注準(zhǔn)確率從94.642%提高到96.214%; 基于馬爾可夫族模型,并結(jié)合中心詞驅(qū)動句法分析的詞性標(biāo)注方法更進(jìn)一步將標(biāo)注準(zhǔn)確率提高到97.126%。
表1 標(biāo)注語料有關(guān)特性Table 1 Some properties of annotated corpus
表2 詞性標(biāo)注實(shí)驗(yàn)結(jié)果Table 2 Experimental results of part-of-speech tagging
(1)在基于馬爾可夫族模型的詞性標(biāo)注中,前詞的詞性不但與前面詞的詞性有關(guān),而且與當(dāng)前詞本身有關(guān),因而,在相同測試條件下,基于馬爾可夫族模型的詞性標(biāo)注方法與常規(guī)的基于隱馬爾可夫模型詞性標(biāo)注方法相比大大提高了標(biāo)注準(zhǔn)確率, 標(biāo)注準(zhǔn)確率從94.642%提高到96.214%。
(2)在漢語短語句法分析中,首先要對句子進(jìn)行漢語詞語切分和詞性標(biāo)注,然后,在詞性標(biāo)注的基礎(chǔ)上進(jìn)行句法分析。詞性標(biāo)記在句法分析中起到了至關(guān)重要的作用。對中心詞驅(qū)動句法分析模型的規(guī)則進(jìn)行分解和修改,基于馬爾可夫族模型,并結(jié)合中心詞驅(qū)動句法分析的詞性標(biāo)注方法更進(jìn)一步將標(biāo)注準(zhǔn)確率提高到97.126%。
[1]Christopher D M, Schutze H. Foundations of statistical natural language processing[M]. London: the MIT Press, 1999:136-157.
[2]Turish B. Part-of-speech tagging with finite-state morphology[C]// Proceedings of the International Conference on Collocations and Idioms: linguistic, Computational, and Psycholinguistic Perspective. Berlin, 2003: 18-20.
[3]姜濤, 姚天順, 張俐. 基于實(shí)例的中文分詞-詞性標(biāo)注方法的應(yīng)用研究[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2007, 28(11): 2090-2093.JIANG Tao, YAO Tian-shun, ZHANG Li. Application study of example based chinese word segmentation and part-of-speech tagging method[J]. Journal of Chinese Computer Systems, 2007,28(11): 2090-2093.
[4]王敏, 鄭家恒. 基于改進(jìn)的隱馬爾科夫模型的漢語詞性標(biāo)注[J]. 計(jì)算機(jī)應(yīng)用, 2006, 26(12): 197-198.WANG Min, ZHENG Jia-heng. Chinese part-of-speech tagging based on improved hidden Markov mode[J].Computer Applications, 2006, 26(12): 197-198.
[5]Charniak E, Hendricson C, Jacobson N, et al. Equations for part-of-speech tagging[C]//Proceedings of the Eleventh National Conference on Artificial Intelligence. Menlo Park: AAAI Press/MIT Press, 1993: 784-789.
[6]Brants T. A statistical part-of-speech tagger[C]//Proceedings of the Sixth Conference on Applied Natural Language Processing(ANLP-2000). Seattle, 2000: 224-231.
[7]魏歐, 吳健, 孫玉芳. 基于統(tǒng)計(jì)的漢語詞性標(biāo)注方法的分析與改進(jìn)[J]. 軟件學(xué)報(bào), 2000, 11(4): 473-480.WEI Ou, WU Jian, SUN Yu-fang. Analysis and improvement of statistics-based Chinese part-of-speech tagging[J]. Journal of Software, 2000, 11(4): 473-480.
[8]梁以敏, 黃德根. 基于完全二階隱馬爾科夫模型的漢語詞性標(biāo)注[J]. 計(jì)算機(jī)工程, 2005, 31(10): 177-179.LIANG Yi-min, HUANG De-gen.Chinese part-of-speech tagging based on full second-order hidden Markov model[J].Computer Engineering, 2005, 31(10): 177-179.
[9]屈剛, 陸汝占.一個改進(jìn)的詞性標(biāo)注系統(tǒng)[J].上海交通大學(xué)學(xué)報(bào), 2003, 37(6): 897-900.QU Gang, LU Ru-zhan. An improved part-of-speech(POS)tagging system[J]. Journal of Shanghai Jiaotong University, 2003,37(6): 897-900.
[10]Gimenez J, Marquez L. Fast and accurate part-of-speech tagging:The SVM approach revisited[C]//Proceedings of the International Conference on Recent Advances in Natural Language Processing. Bulgaria, 2003: 158-165.
[11]趙巖, 王曉龍, 劉秉權(quán), 等. 融合聚類觸發(fā)對特征的最大熵詞性標(biāo)注模型[J]. 計(jì)算機(jī)研究與發(fā)展, 2006, 43(2): 268-274.ZHAO Yan, WANG Xiao-long, LIU Bing-quan, et al. Fusion of clustering trigger-pair features for pos tagging based on maximum entropy model[J]. Journal of Computer Research and Development, 2006, 43(2): 268-274.
[12]邢富坤, 宋柔, 羅智勇. SSD模型及其在漢語詞性標(biāo)注中的應(yīng)用[J]. 中文信息學(xué)報(bào), 2010, 24(1): 20-24.XING Fu-kun, SONG Rou, LUO Zhi-yong. Symbol-andstatistics decoding model and its application in chinese pos tagging[J]. Journal of Chinese Information Processing, 2010,24(1): 20-24.
[13]劉遙峰, 王志良, 王傳經(jīng). 中文分詞和詞性標(biāo)注模型[J]. 計(jì)算機(jī)工程, 2010, 36(4): 17-19.LIU Yao-feng, WANG Zhi-liang, WANG Chuan-jing. Model of Chinese words segmentation and part-of-word tagging[J].Computer Engineering, 2010, 36(4): 17-19.
[14]朱聰慧, 趙鐵軍, 鄭德權(quán). 基于無向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J]. 電子與信息學(xué)報(bào), 2010, 32(3):700-704.ZHU Cong-hui, ZHAO Tie-jun, ZHENG De-quan. Joint Chinese word segmentation and pos tagging system with undirected graphical models[J]. Journal of Electronics & Information Technology, 2010, 32(3): 700-704.
[15]仲其智, 姚建民. 低頻詞的中文詞性標(biāo)注研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011, 28(3): 182-185.ZHONG Qi-zhi, YAO Jian-min. Research on infrequent words chinese part-of-speech tagging[J]. Computer Applications and Software, 2011, 28(3): 182-185.
[16]于江德, 葛彥強(qiáng), 余正濤. 基于條件隨機(jī)場的漢語詞性標(biāo)注[J]. 微電子學(xué)與計(jì)算機(jī), 2011, 28(10): 63-66.YU Jiang-de, GE Yan-qiang, YU Zheng-tao. Chinese part-of-speech tagging based on conditional random fields[J].Microelectronics & Computer, 2011, 28(10): 63-66.
[17]袁里馳. 基于改進(jìn)的隱馬爾科夫模型的語音識別方法[J]. 中南大學(xué)學(xué)報(bào): 自然科學(xué)版, 2008, 39(6): 1303-1308.YUAN Li-chi. A speech recognition method based on improved hidden Markov model[J]. Journal of Central South University:Science and Technology, 2008, 39(6): 1303-1308.
[18]Collins M. Head-driven statistical models for natural language parsing[D]. Pennsylvania: The University of Pennsylvania, 1999:35-47.