龍從軍,劉匯丹,周毛克
(1. 中國社會科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081; 2. 中國科學(xué)院軟件研究所,北京 100190; 3. 中國社會科學(xué)院大學(xué),北京 102488)
人通過識別文本中的實體、概念來理解文本。理解了文本中的實體概念,在某種程度上就理解了文本的大致內(nèi)容。名詞或名詞短語經(jīng)常被用來表達實體、概念。名詞或名詞短語的識別,是一個句子的主要組成部分,它攜帶著豐富的句法和語義信息,是分析和理解句子意義和結(jié)構(gòu)的基礎(chǔ)。在自然語言信息處理領(lǐng)域,名詞短語的識別和結(jié)構(gòu)分析正確,可以提高機器翻譯、信息檢索、文本分類、自動句法分析等自然語言處理系統(tǒng)的性能。
在藏語信息處理領(lǐng)域,詞法分析取得了豐富的成果[1-4],信息處理逐漸從以詞法分析為主過渡到以句法、語義和篇章分析為主的階段。從句法分析的角度來看,研究內(nèi)容表現(xiàn)在兩個方面:一是句子識別,二是句法分析。句子識別主要討論如何從連續(xù)文本中切分出單個句子。如從語言規(guī)則出發(fā),可以根據(jù)藏語動詞語尾的特點,構(gòu)建句子邊界切分標(biāo)記庫,實現(xiàn)句子切分[5-7];或者采用規(guī)則和統(tǒng)計相結(jié)合的方法識別句子邊界[8-12];也有一些研究,在雙語語料對齊研究中,探討句子的邊界問題[13-14]。句法分析主要討論基于短語結(jié)構(gòu)的句法分析[15]和基于依存語法的句法分析[16-17]。為了降低句法分析的難度,研究者傾向于采用組塊分析方法進行局部句法分析,其中名詞組塊是組塊分析的重要部分[18-20]。盡管局部句法分析取得了一定的成果,但是,從語言工程實踐角度來看,成系統(tǒng)、上規(guī)模的藏語句法樹庫資源仍極其缺乏,實用的句法分析工具也未見公開。
本文開展基于藏語短語結(jié)構(gòu)句法樹庫的最長名詞短語研究,從構(gòu)建短語結(jié)構(gòu)樹的角度,厘清最長名詞短語的定義、類別。從句法樹庫中選取了6 038個句子,對名詞短語的類型、結(jié)構(gòu)等進行統(tǒng)計分析。初步構(gòu)建藏語最長名詞短語識別器,分析識別效果和存在的問題。
臺灣學(xué)者Chen研究英語名詞短語的分類,總結(jié)出三種名詞短語:最短名詞短語、最長名詞短語和普通名詞短語。所謂最短名詞短語是指不包含其他名詞短語的名詞短語。最長名詞短語是指不被其他名詞短語所包含的名詞短語。普通名詞短語是不具有任何限制的名詞短語[21]。周強把名詞短語也分成三類:最短、最長和一般名詞短語。一般名詞短語指所有不是最長和最短的名詞短語[22]。兩種分類類似,但內(nèi)涵有差別,如在對待單個詞構(gòu)成短語時,前者的基本思想是,一個詞可以構(gòu)成最長名詞短語;但后者認(rèn)為,一個詞構(gòu)成的短語不是最長名詞短語。錢小飛在總結(jié)各種名詞短語定義之后,區(qū)分了最長名詞短語和表層最長名詞短語,從他列舉的例子中,可以觀察得出,所謂表層最長名詞短語是指在句法樹的子樹中包含的第一個層級的名詞短語,非表層最長名詞短語是指表層最長名詞短語中不包含動詞短語的嵌套名詞短語[23]。
Koehn和Knight從句法樹的角度界定最長名詞短語和介詞短語,即給定一個句子S和它的句法分析樹t,名詞和介詞短語是句子S的子樹ti,它至少包含一個名詞,但不包含動詞,不被更大的名詞短語和介詞短語所包含[24]。Koehn和Knight對最長名詞短語的界定基于句法樹,這個定義比較符合本文基于短語結(jié)構(gòu)樹的藏語最長名詞短語的定義,藏語最長名詞短語基于句法分析樹,更加注重名詞短語及其他短語在句法分析樹上的位置。參考前人的研究成果,結(jié)合藏語句法分析樹的實際情況,本文把藏語最長名詞短語界定為:
給定一個藏語句子的句法分析樹S,最長名詞短語是S的子樹t,t是名詞短語,但t的父節(jié)點及祖先節(jié)點都不是名詞短語。
這個概念界定比較寬泛,從句法分析樹看,自頂向下,第一個名詞短語就是本文所指的最長名詞短語。
最長名詞可以由單個名詞、代詞、數(shù)詞等構(gòu)成。如圖1所示,KP-SBJ-AGE短語的子節(jié)點NP(人稱代詞提升為名詞性短語),KP-OBJ-TAR短語的子節(jié)點NP,VP短語的子節(jié)點NP為最長名詞短語。
圖1 句法樹中的最長名詞短語
為了更加細(xì)致地描述藏語最長名詞短語,特做如下界定:
① 最長名詞短語是指中心詞為名詞的所有短語;最長名詞短語的中心詞位置可以居于短語首、短語中和短語末。如圖2(a)的中心名詞居尾、圖2(b)的中心名詞居中、圖2(c)的中心名詞居首。
③ 名詞化標(biāo)記可以作為最長名詞短語的中心詞,如圖2(d)名詞短語的中心是名詞化標(biāo)記。
④ 最長名詞短語可以是嵌套短語,包括內(nèi)嵌名詞化短語,如圖2(a)是嵌套的名詞化短語,圖2(b)中嵌套有名詞短語,圖2(d)內(nèi)嵌套動詞短語。
圖2 名詞短語結(jié)構(gòu)類型
本文使用的藏語句法樹庫由中國社會科學(xué)院民族學(xué)與人類學(xué)研究所構(gòu)建,句法分析采用了短語結(jié)構(gòu)語法,本文研究材料來源于1萬句基本句型句法分析樹庫。
在句法樹庫中,一個句子除了按照詞切分之外,還包括詞的詞性信息、短語類型信息、句法功能信息、語義角色信息,以及句子(或者結(jié)構(gòu))的關(guān)系信息。在短語類型層級的節(jié)點上,標(biāo)注的信息包括短語類型、句法功能和語義角色。如果涉及句子或者結(jié)構(gòu)之間的關(guān)系,在短語的句法功能之后標(biāo)注關(guān)系信息,例如:
葉子節(jié)點(終節(jié)點)是詞和詞性。詞與詞性的上位節(jié)點是短語(非終節(jié)點),非終節(jié)點可以承載短語信息、句法功能信息、語義角色信息和句子關(guān)系信息。上例中,KP-OBJ-TAR表示帶有格標(biāo)記的名詞短語(KP)的子節(jié)點在句子中充當(dāng)間接賓語(OBJ),表示對象(TAR)語義角色。
基于短語結(jié)構(gòu)語法的藏語句法樹庫標(biāo)注符號可以分成三類:短語標(biāo)注符號、句法標(biāo)注符號和語義角色標(biāo)注符號。
① 短語標(biāo)注符號包括IP(帶時體態(tài)的句子)、S(核心句)、NP(名詞短語)、KP (帶有格標(biāo)記短語)、NZP(名詞化短語)、VP(動詞短語)、ADJP(形容詞短語)、ADVP(副詞短語)、ADZP(副詞化短語)、NGP(領(lǐng)屬關(guān)系短語)、QP(量詞短語)、MP(數(shù)詞短語)、PRN(插入語短語)、IDE(獨立成分)、UP(帶助詞標(biāo)記短語)。
② 句法標(biāo)注符號包括SBJ(主語)、OBJ(賓語)、PRE(謂語)、ADV(狀語)、APP(同位語)。
③ 語義角色標(biāo)注符號包括AGE(施事)、PAT(受事)、TAR(對象)、DIR(方向)、SPA(處所)、TIM(時間)、MAN(方式)、INS(工具)、MAT(材料)、SOU(源點)、PUR(目的)、FAC(使役)、RES(結(jié)果)、BAS(依據(jù))。
在句法樹標(biāo)注過程中還需要說明的一些標(biāo)注符號包括I(時體態(tài))、T(時)、E(態(tài))、H(名詞化標(biāo)記)、AUX(助動詞)、G(連接標(biāo)記-屬格)、PL(復(fù)數(shù)標(biāo)記)、U(助詞標(biāo)記)、Z(后綴標(biāo)記)、RP(人稱代詞)、K(格標(biāo)記)、Y(語氣標(biāo)記)。詞性標(biāo)注體系可以參閱《中國語言生活綠皮書A006》[注]趙小兵,孫媛,龍從軍,等.信息處理用現(xiàn)代藏語詞類標(biāo)記集規(guī)范(草案).教育部語言文字信息管理司.中國語言生活綠皮書A006. 北京: 商務(wù)印書館,2015.。
為了研究最長名詞短語的內(nèi)部結(jié)構(gòu),展示藏語最長名詞短語的特性,作者首先從句法樹庫中選擇一定的句法樹,抽取出最長名詞短語。抽取方法主要根據(jù)嵌套括號標(biāo)記,找到句法樹中最長的、節(jié)點標(biāo)記類型為NP的短語,并將該節(jié)點的文本表示抽取出來;同時,將構(gòu)成短語的每個詞語的類別也抽取出來。例如:
表1 低頻最長名詞短語結(jié)構(gòu)類型的種類及出現(xiàn)次數(shù)
頻次大于10的名詞短語結(jié)構(gòu)類型出現(xiàn)次數(shù)如表2所示。
表2 頻次大于10的最長名詞短語的結(jié)構(gòu)類型及出現(xiàn)次數(shù)
序號類型頻次實例實例翻譯38RP+G+NP+ADJP10我的許多好友39 RP+PL+G+NP10你們的家鄉(xiāng)
實際上,出現(xiàn)頻次最高的前10個約占全部最長名詞短語的87%。尤其是單個名詞和代詞充當(dāng)?shù)亩陶Z占比高于64%。頻次較高的前10種類型結(jié)構(gòu)都不包含嵌套名詞化短語,長度也不大,最多由4個音節(jié)構(gòu)成,詳細(xì)情況如表2所示。
從表2中可以歸納如下幾種類型:
(1)獨詞短語包括名詞、代詞、數(shù)詞都可以直接構(gòu)成獨詞短語,RP,NP,MP,例如,
(2)獨詞加標(biāo)記(復(fù)數(shù)、敬語和約數(shù)標(biāo)記) 名詞、代詞帶復(fù)數(shù)、敬語標(biāo)記構(gòu)成RP+PL,NP+PL,NP+Z,數(shù)詞可以帶約數(shù)標(biāo)記構(gòu)成MP+Z,例如,
(3)雙詞短語根據(jù)中心詞的位置不同可以分成:中心詞居后和中心詞居前,前者構(gòu)成的類型是NP+NP,后者構(gòu)成的類型有NP+RP、RP+MP、NP+MP、NP+ADJP,例如,
(4)三詞短語根據(jù)中心詞的位置不同可以分成:中心詞居后和中心詞居前,前者構(gòu)成類型有:NP+G+NP、RP+G+NP、NP+NP+NP、NP+VP+H[注]名詞化短語不作為修飾語時,名詞化標(biāo)記是短語的中心。,后者構(gòu)成類型NP+ADJP+MP、NP+QP+MP,例如,
其他類型的短語都是在上述四種類型的基礎(chǔ)上擴充,本文不再一一闡述。
藏語最長名詞短語的邊界詞也具有明顯特征。名詞短語經(jīng)常添加格標(biāo)記,格標(biāo)記是名詞短語最重要的右邊界特征詞之一,還有包括數(shù)詞、指示代詞、復(fù)數(shù)標(biāo)記、敬語標(biāo)記、形容詞等邊界特征詞。從本文數(shù)據(jù)統(tǒng)計結(jié)果看,作為名詞短語一部分的、典型右邊界詞中,數(shù)詞有1 313個,復(fù)數(shù)標(biāo)記267個,代詞905個,不作為名詞短語一部分的右邊界特征詞主要是格標(biāo)記,共有4 752個名詞短語有格標(biāo)記。名詞短語左邊界特征詞不明顯,判斷難度相對大一些。
本文使用兩種方法進行最長名詞短語識別實驗:一種基于序列標(biāo)注方法,把名詞短語識別轉(zhuǎn)換為對名詞短語邊界特征詞的識別;另一種基于句法分析方法,在整個句法樹生成過程中,統(tǒng)計名詞短語子樹分析的結(jié)果。
在實驗中,共使用6 038句藏文句法樹進行實驗,將其中5 000句作為訓(xùn)練語料,其余1 038句作為測試語料,其實驗結(jié)果如表3所示。
表3 短語識別情況
基于句法分析的方法,使用伯克利大學(xué)的Berkeley Parser在訓(xùn)練集上訓(xùn)練一個句法分析器,對測試語料進行句法分析,提取其中的最長名詞短語。句法分析完全正確的句子比例為32.49%。從測試語料中共識別出短語2 290個,其中1 947個是測試語料中實際有的短語,測試語料中實有名詞短語的總數(shù)為2 304,名詞短語識別的正確率、召回率和F1值分別為85.02%、84.51%、84.76%。
基于序列標(biāo)注的模型,將最長名詞短語識別轉(zhuǎn)化為序列標(biāo)注問題,根據(jù)詞語在名詞短語中的位置,給其分別賦予位置標(biāo)簽,本文采用常用的BMESO標(biāo)簽集。使用CRF++進行序列標(biāo)注的訓(xùn)練和預(yù)測。從測試語料中共識別出短語2 240個,其中1 952個是測試語料中實際有的短語,測試語料中實有名詞短語的總數(shù)為2 304,名詞短語識別的正確率、召回率和F1值分別為87.14%、84.72%、85.92%。
從表中數(shù)據(jù)可以看出,在識別最長名詞短語任務(wù)中,基于序列標(biāo)注的方法要比基于句法分析的方法稍好。
在基于句法分析方法中,缺乏格標(biāo)記的名詞短語容易出錯,尤其是VP的孩子節(jié)點,通常,VP可以分析為NP和VP,也可以是ADVP和VP,從訓(xùn)練語料的情況來看,分析為NP和VP的概率相對較大,因此,模型在預(yù)測時經(jīng)常會把ADVP預(yù)測為NP,如圖3所示。
圖3 句法分析模型預(yù)測結(jié)果(右),標(biāo)準(zhǔn)答案(左)
本文實驗以基本句型語料為主,從前文的統(tǒng)計分析也可以看出,較長的名詞短語所占比例不大,因此在實驗中,基于序列標(biāo)注模型的處理結(jié)果要好于句法分析模型。
最長名詞短語識別是句法分析的一項重要子任務(wù),本文在藏語句法樹庫建設(shè)中,針對最長名詞短語問題,從句法樹角度界定了最長名詞短語的定義,專門分析了最長名詞短語的結(jié)構(gòu)類型,并采用句法分析方法和序列標(biāo)注方法分別進行實驗,考察最長名詞短語的識別結(jié)果,從實驗結(jié)果來看,在針對小規(guī)模語料實驗中,序列標(biāo)注的方法比句法分析的方法稍好。但是,本結(jié)果也許與實驗的語料類型有關(guān),序列標(biāo)注對短距離標(biāo)注任務(wù)效果明顯,從最長名詞短語結(jié)構(gòu)分析來看,本次語料對序列標(biāo)注模型有利。由于受到語料規(guī)模和句法分析文本類型的限制,本文未能開展基于神經(jīng)網(wǎng)絡(luò)的句法分析實驗,這是今后努力的方向。藏語句法分析急需在兩個方面開展工作:擴充句法樹庫規(guī)模;完成短語結(jié)構(gòu)樹與依存句法樹庫之間的轉(zhuǎn)換,這兩個問題也是我們近期研究的重點任務(wù)。