華卻才讓,姜文斌,趙海興,劉 群
(1.青海師范大學(xué) 藏文信息研究中心,青海 西寧810008;2.中國(guó)科學(xué)院 計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京100190;3.陜西師范大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安710062)
依存句法樹(shù)庫(kù)作為依存句法分析、句法機(jī)器翻譯、文本挖掘等熱門研究領(lǐng)域的支撐語(yǔ)料,其重要性不言而喻。藏語(yǔ)依存句法樹(shù)構(gòu)建,從句法標(biāo)注規(guī)范、句法樹(shù)庫(kù)構(gòu)建及其規(guī)模均比較滯后。文獻(xiàn)[1]結(jié)合純手工構(gòu)建的藏語(yǔ)依存句法樹(shù)庫(kù)(Tibetan Depend-ency Treebank,TDT)規(guī)模為1萬(wàn)句左右,采用一層感知機(jī)判別式方法訓(xùn)練模型,在3百句測(cè)試集上的依存識(shí)別正確率達(dá)到81%[1],中心詞識(shí)別正確率為87%,完整依存標(biāo)注句子正確率為34%。藏語(yǔ)作為SOV語(yǔ)序結(jié)構(gòu),并含有豐富的格助詞接續(xù)規(guī)則,一句子中中心詞在句末,直接賓語(yǔ)和間接賓語(yǔ)在主謂之間[2],導(dǎo)致加大了純手工標(biāo)注依存句法或修改小規(guī)模訓(xùn)練語(yǔ)料上訓(xùn)練模型,解碼分析得到正確率不算高的句法樹(shù)。因此本文提出基于依存詞對(duì)分類的藏語(yǔ)依存樹(shù)庫(kù)半自動(dòng)構(gòu)建方法,在分詞標(biāo)注的語(yǔ)料和句法分析器分析得到的句法樹(shù)(標(biāo)注結(jié)果不完全正確)上,呈現(xiàn)出比較直觀和具有輔助提示功能的依存標(biāo)注和修改功能。一定程度上加快了藏語(yǔ)依存句法的標(biāo)注進(jìn)展,保證了依存標(biāo)注的正確性。并利用此方法對(duì)已有藏語(yǔ)依存句法樹(shù)庫(kù)的修改和補(bǔ)充,對(duì)已有藏語(yǔ)依存句法分析的正確率提升了3%。
本文第2節(jié)介紹了藏語(yǔ)依存句法、標(biāo)注體系和樹(shù)庫(kù)構(gòu)建情況;第3節(jié)提出了依存詞對(duì)分類模型和特征抽取以及半自動(dòng)依存輔助模式,包括依存關(guān)系輔助模式和依存邊標(biāo)注輔助模型;第4節(jié)討論了基于依存詞對(duì)分類的半自動(dòng)句法樹(shù)庫(kù)構(gòu)建及句法分析實(shí)驗(yàn)結(jié)果。
句子中詞與詞之間存在的支配和被支配的關(guān)系稱作依存關(guān)系。其理論可追溯到20世紀(jì)50年代,Tesniere.L在其著作《結(jié)構(gòu)句法基礎(chǔ)》中首次提出了“依存語(yǔ)法”的概念,主張每個(gè)句子有一個(gè)中心詞(一般為動(dòng)詞),支配句子中的其他成分,而它本身不受任何句子成分的支配。此后為總結(jié)依存句法的概念1970年Robinson J.J提出了句法依存關(guān)系的四條公理,稱之為依存語(yǔ)法的理論基礎(chǔ)[3],描述為:(1)一個(gè)句子中只有一個(gè)成分是核心成分;(2)其他成分直接依存于某一成分;(3)任何成分后不能依存于兩個(gè)或兩個(gè)以上的成分;(4)如果成分P依存于成分Q,那么P和Q之間的任意成分R就不能依存到P和Q所構(gòu)成的跨度之外,成分R或者直接依存于P,或者直接依存于Q,或者直接依存于P和Q之間的某一成分,總之,依存成分之間不能交叉。
依據(jù)現(xiàn)有其他語(yǔ)言的依存樹(shù)庫(kù)構(gòu)建經(jīng)驗(yàn),例如,斯坦福大學(xué)英語(yǔ)依存標(biāo)準(zhǔn)[4]和文獻(xiàn)[5]中闡述的中文依存體系,在設(shè)計(jì)藏語(yǔ)依存句法關(guān)系時(shí),同樣考慮了對(duì)依存關(guān)系的易于理解和使用的要求,使其能為藏語(yǔ)句法研究提供真實(shí)文本標(biāo)注素材,便于語(yǔ)言學(xué)家從中總結(jié)語(yǔ)言規(guī)則和規(guī)律。用一個(gè)三元組r(v,w)描述詞對(duì)之間依存關(guān)系,意為詞v支配詞w,v是主詞,w是從詞,r稱作v向w的下依存關(guān)系。例如,可解釋為的主語(yǔ)是“ /nr”。這種句法依存關(guān)系有利于從句子的詞語(yǔ)線性排列中獲取內(nèi)部語(yǔ)言信息。例如,藏語(yǔ)句子(卓嘎給同學(xué)們講朗薩雯蚌傳。)”的依存句法關(guān)系可描述為:
依存關(guān)系可轉(zhuǎn)換為有向圖句法樹(shù)(V,E)模式,其中每一個(gè)詞表示圖中的一個(gè)結(jié)點(diǎn)v∈V,詞對(duì)間的依存關(guān)系r為有向邊e∈E的標(biāo)簽。上面藏語(yǔ)句子依存分析樹(shù)同樣可以表示為圖1。
圖1 有向圖模式藏語(yǔ)依存句法分析樹(shù)
在沒(méi)有邊標(biāo)簽的依存句法分析應(yīng)用中,我們可將藏語(yǔ)的依存樹(shù)結(jié)構(gòu)表示為如下形式:
傳統(tǒng)藏語(yǔ)文法包括兩部分,一是文法根本三十頌,講藏語(yǔ)拼寫結(jié)構(gòu)、格助詞和各類虛詞的用法;二是字形組織法,主要講以動(dòng)詞為中心的形態(tài)變化、時(shí)態(tài),施受和能所關(guān)系等[6]。藏語(yǔ)句子是格助詞、虛詞和動(dòng)詞等依據(jù)句法理論發(fā)生結(jié)構(gòu)關(guān)系而成的詞語(yǔ)線性排列,其基本語(yǔ)序結(jié)構(gòu)為<主語(yǔ)>+<間接賓語(yǔ)>+<直接賓語(yǔ)>+<結(jié)果補(bǔ)語(yǔ)>+<狀語(yǔ)>+謂語(yǔ)+<狀態(tài)補(bǔ)語(yǔ)>。據(jù)藏語(yǔ)詞頻統(tǒng)計(jì),藏語(yǔ)語(yǔ)料庫(kù)中格助詞類的頻率最高,其通用度穩(wěn)定,句子中內(nèi)部組織成分的層次結(jié)構(gòu)也基本與格助詞結(jié)合相關(guān)。例如,句子中出現(xiàn)主格時(shí),其前面一般為使動(dòng)成分而后面部分為被動(dòng)成分,即基本可確定主語(yǔ)和賓語(yǔ)??紤]到依存關(guān)系過(guò)于細(xì)致和龐大,會(huì)導(dǎo)致交互式句法分析器的魯棒性、可操作性下降和統(tǒng)計(jì)數(shù)據(jù)的稀疏等問(wèn)題,本文結(jié)合藏語(yǔ)實(shí)際切分標(biāo)注語(yǔ)料制訂了36類藏語(yǔ)依存關(guān)系[7],其數(shù)量相對(duì)英語(yǔ)和漢語(yǔ)比較少,但盡可能使制訂的句法依存關(guān)系滿足藏語(yǔ)的各種語(yǔ)法現(xiàn)象,涵蓋句法規(guī)律。句子中一條依存句法關(guān)系表示了一個(gè)支配詞(一頭節(jié)點(diǎn))和一個(gè)被支配詞(一個(gè)孩子節(jié)點(diǎn))的二元支配關(guān)系。由于論文篇幅,本文中對(duì)依存句法關(guān)系的定義以及與其他主流依存句法體系的差異不作具體贅述,將在藏語(yǔ)依存句法體系一文中做詳細(xì)討論。藏語(yǔ)依存句法層次結(jié)構(gòu)如表1所示。
表1 藏語(yǔ)依存句法層次結(jié)構(gòu)見(jiàn)表
SUW-離合詞結(jié)構(gòu)SC-待述詞結(jié)構(gòu)MOD-修飾QUANT-限定(限量、時(shí)間)結(jié)構(gòu)AFFIX-詞綴結(jié)構(gòu)QDIG-數(shù)詞附加語(yǔ)結(jié)構(gòu)GENI-屬格結(jié)構(gòu)YY-陳述詞結(jié)構(gòu)(“”)OS-飾集詞結(jié)構(gòu)PRON-代詞結(jié)構(gòu)EXIAU-存在助詞結(jié)構(gòu)(“ ”)DUP-詞的重疊結(jié)構(gòu)ADVMOD-狀語(yǔ)結(jié)構(gòu)ADVANG-狀態(tài)修飾結(jié)構(gòu)(“ ”)APPOS-同位語(yǔ)結(jié)構(gòu)GLC-關(guān)聯(lián)詞結(jié)構(gòu)EXCL-嘆詞結(jié)構(gòu)FASQP-終結(jié)和疑問(wèn)結(jié)構(gòu)PUNCT-標(biāo)點(diǎn)符號(hào)DEP-未知依存結(jié)構(gòu)
藏語(yǔ)依存樹(shù)庫(kù)的構(gòu)建目前處在起步階段,是一項(xiàng)比較龐大的工程。以現(xiàn)有依存庫(kù)TDTreebank 1.0作為訓(xùn)練語(yǔ)料的統(tǒng)計(jì)句法分析器分析能力還比較弱,主要原因可歸結(jié)為句法樹(shù)庫(kù)的規(guī)模??;人工標(biāo)注的平均句子詞數(shù)小于17[1],對(duì)一些歧義結(jié)構(gòu),特別是復(fù)雜句子的的分析錯(cuò)誤還很多。有了之前TDTreebank 1.0樹(shù)庫(kù)語(yǔ)料,目前藏語(yǔ)依存樹(shù)庫(kù)的構(gòu)建大致分為三步,一為預(yù)處理,主要對(duì)生語(yǔ)料做斷句、分詞和詞性標(biāo)注,以及語(yǔ)料全半角等的統(tǒng)一工作。本文中使用了青海師范大學(xué)的藏語(yǔ)分詞和詞性標(biāo)注規(guī)范[8];二是機(jī)器分析,用句法分析器分析生成句法分析樹(shù);三是人工校對(duì)。其中第三步是比較枯燥的工作,但也是必須要做的工作,同時(shí)也是本文的主要研究介入點(diǎn)。為獲得最佳的整體處理效果,人工校對(duì)時(shí),需要提供詞對(duì)依存關(guān)系輔助提示、比較可能的復(fù)雜歧義結(jié)構(gòu)、交互式鼠標(biāo)點(diǎn)擊連接、修改支配關(guān)系、避免交叉依存關(guān)系標(biāo)注以及長(zhǎng)句依存標(biāo)注支持等半自動(dòng)功能。這些功能對(duì)人工校對(duì)或者純?nèi)斯?biāo)注具有事半功倍的效果。接下來(lái)為解決以上問(wèn)題,我們?cè)诘?節(jié)提出了詞對(duì)依存分類模型支持的藏語(yǔ)依存樹(shù)庫(kù)構(gòu)建方法,并實(shí)現(xiàn)了依存標(biāo)注和修改工具TibetanDepBuilder V2.4。
3.1.1 模型
若給定包含N個(gè)詞的一個(gè)句子,任意兩個(gè)詞之間都可能存在依存關(guān)系,尋找最可能的依存樹(shù)的任務(wù)是從N*(N-1)種可能的依存邊(無(wú)自環(huán))完全圖中尋找分?jǐn)?shù)最大的樹(shù),于是,若y為句子x的依存樹(shù),則且i≠j,其中(i,j)表示句子x中的詞xi和xj之間存在有向邊,xi為詞xj的父節(jié)點(diǎn);根據(jù)Eisner分解法[9]可以將依存樹(shù)y的分?jǐn)?shù)S(x,y)表示為式(1)。
其中fk(i,j)是依存詞對(duì)i和j之間的第k個(gè)特征向量,wk是該特征向量對(duì)應(yīng)的參數(shù)向量,可通過(guò)訓(xùn)練樣本獲得。那么最大生成樹(shù)模型[10]可以表示為式(2)。
若候選詞對(duì)依存分類的權(quán)重分?jǐn)?shù)C(i,j)轉(zhuǎn)換為概率模型C(i,j)=P,(0≤P≤1),概率P表示候選依存邊的強(qiáng)弱,那么基于概率的最大生成樹(shù)模型可表示為式(3),表示對(duì)句子x解碼生成的句法樹(shù)集合中當(dāng)前句法樹(shù)y,連乘樹(shù)中所有候選依存詞對(duì)的概率值,最后獲取概率最大的句法樹(shù),如式(3)所示。
詞對(duì)分類模型的任務(wù)是判斷任意候選詞對(duì)之間是否存在依存邊,為有效獲得詞對(duì)依存分類概率值C(i,j),本文采用最大熵分類器訓(xùn)練依存詞對(duì)特征的概率值,w是ME模型訓(xùn)練得到的參數(shù)向量,與每個(gè)特征向量是否對(duì)依存邊有無(wú)貢獻(xiàn)一一對(duì)應(yīng),表示貢獻(xiàn)程度。f(i,j,r)是依存詞對(duì)i和j之間的特征向量,表示該詞對(duì)之間存在一個(gè)關(guān)系r,其中r∈{+,-},當(dāng)r=+表示特征向量對(duì)該詞對(duì)的依存邊具有貢獻(xiàn),而r=-時(shí)卻相反,如果一個(gè)特征fk(i,j,r)∈f(i,j,r),則其值等于1,表示該特征在訓(xùn)練語(yǔ)料中抽到的特征集中存在,否則不存在,那么詞對(duì)的依存分類模型可定義為式(4)。
3.1.2 特征抽取
由于詞對(duì)依存分類特征從一定程度上體現(xiàn)了語(yǔ)言學(xué)知識(shí),其特征模板的設(shè)計(jì)和選擇同樣是影響機(jī)器學(xué)習(xí)的性能的主要因素之一,在最大生成樹(shù)模型[11]中提出了每個(gè)特征是由詞i和j及前后的詞語(yǔ)和詞性構(gòu)成。為豐富句法特征信息,Collins distance[12]方法提出了詞i和j之間的距離句法信息。這種方法解決了兩個(gè)詞之間順序位置、相鄰關(guān)系、是否動(dòng)詞居中以及兩個(gè)詞中間或左右是否存在標(biāo)點(diǎn)符號(hào)等問(wèn)題。藏語(yǔ)詞對(duì)依存分類訓(xùn)練和解碼中合成了以上兩種句法特征生成模板。此外,在此基礎(chǔ)上增加了以下特征。
1)兩個(gè)依存詞對(duì)i和j之間是否存在楔形分隔符:由于藏語(yǔ)句子中用楔形符號(hào)“”表示復(fù)合句子句、同位語(yǔ)、從句結(jié)尾以及連詞“ ”表示分隔符,類似于逗號(hào)和頓號(hào)功能。
2)兩個(gè)依存詞對(duì)i和j之間是否存在主格:主格位于主語(yǔ)之后,表示主語(yǔ)為使動(dòng)者,而中心詞是一個(gè)及物動(dòng)詞。
3)兩個(gè)依存詞對(duì)i和j之間是否存在于格:于格一般位于間接賓語(yǔ)和直接賓語(yǔ)之間,或者介詞賓語(yǔ)末端,充當(dāng)介詞成分。
本文為藏語(yǔ)依存句法分析分別設(shè)計(jì)了62個(gè)藏語(yǔ)詞對(duì)依存分類特征模板,63個(gè)藏語(yǔ)詞對(duì)依邊標(biāo)注特征模板,具體用于模型訓(xùn)練的特征模板如表2所示。
藏語(yǔ)詞對(duì)依存分類特征模板內(nèi)容分四類:(1)一元特征:定義為父結(jié)點(diǎn)或子結(jié)點(diǎn)(單個(gè)詞)的特征信息構(gòu)成;(2)二元特征:由父子結(jié)點(diǎn)共同的特征信息構(gòu)成;(3)詞對(duì)左右詞性特征:考慮到更好地抽取到藏語(yǔ)格助詞的搭配規(guī)律而補(bǔ)充了此特征信息;(4)距離特征:詞對(duì)間包括其他詞(結(jié)點(diǎn))時(shí)的依存關(guān)系的特征信息。表2中p-word表示依存樹(shù)中父結(jié)點(diǎn)詞,p-pos表示父結(jié)點(diǎn)的詞性,c-word 表示依存樹(shù)中子結(jié)點(diǎn)詞,c-pos 表示子結(jié)點(diǎn)的詞性,p-pos-1表示父結(jié)點(diǎn)左邊的詞性,c-pos+1表示結(jié)點(diǎn)右邊的詞性,d*表示詞對(duì)間所包含其他詞(依存結(jié)點(diǎn))個(gè)數(shù),當(dāng)d*的值為負(fù)數(shù)時(shí)表示句法樹(shù)中抽出詞對(duì)的父結(jié)點(diǎn)在子結(jié)點(diǎn)的左側(cè),而當(dāng)d*的值為整數(shù)時(shí)表示句法樹(shù)中抽出詞對(duì)的父結(jié)點(diǎn)在子結(jié)點(diǎn)的右側(cè)。藏語(yǔ)詞對(duì)依存邊標(biāo)注特征模板分五類:除了四類詞對(duì)依存分類特征模板,還有(5)邊標(biāo)注特征:P-frame用于詞對(duì)依存分類邊標(biāo)注時(shí)用的擴(kuò)展特征,表示父節(jié)點(diǎn)的依存邊信息。
表2 藏語(yǔ)詞對(duì)依存分類和邊標(biāo)注特征模板
3.2.1 詞對(duì)依存分類輔助提示
有了詞對(duì)依存分類訓(xùn)練模型,接下來(lái)的工作是如何應(yīng)用于一個(gè)詞性標(biāo)注好的句子中詞語(yǔ)之間的依存標(biāo)注,并即時(shí)呈現(xiàn)出輔助提示功能,一般標(biāo)注依存詞對(duì)時(shí)有兩種方式,自底向上、自頂向下,其中自底向上為首先選擇某個(gè)被支配詞然后找出其所有可能的支配詞;而自頂向下是首先在句子中選擇一個(gè)支配詞,然后找出所有可能的被支配詞,也就是說(shuō)自動(dòng)給出對(duì)其余詞語(yǔ)的被支配強(qiáng)弱的自動(dòng)提示。本文采用了第二種自頂向下的模式,如圖3所示。圖中當(dāng)前用鼠標(biāo)選擇的支配詞(中心詞)為“ ”,按詞序號(hào),第8和10已被選擇為被支配詞,8為直接賓語(yǔ),10為楔形結(jié)束符。從詞對(duì)依存分類輔助提示看出,剩余待被連接的1、2、4和5號(hào)詞是最可能的被支配詞,實(shí)際這些詞分別為句子中的主語(yǔ)、主格、間接賓語(yǔ)和于格。
圖3 基于詞對(duì)分類的半自動(dòng)藏語(yǔ)依存句法標(biāo)注圖
3.2.2 詞對(duì)依存邊自動(dòng)輔助提示
這部分工作是在確定詞對(duì)依存分類的基礎(chǔ)上進(jìn)行的,主要完成詞對(duì)依存邊的標(biāo)注(弧上關(guān)系標(biāo)注)提供自動(dòng)輔助提示功能,類似于詞性標(biāo)注。根據(jù)改進(jìn)式(4)得到詞對(duì)分類依存邊標(biāo)注模型,Cl(i,j)表示依存詞對(duì)i和j之間滿足第l個(gè)依存邊的概率值。f(i,j,l)是依存詞對(duì)i和j之間特征向量,表示該詞對(duì)間存在的邊類型l,其中l(wèi)∈{e-types},e-types表示所有可能的依存邊,即依存關(guān)系類型集。如果一個(gè)特征fk(i,j,l)∈f(i,j,e-types)等于1表示該特征在訓(xùn)練語(yǔ)料中抽到的特征集中存在,否則不存在。則詞對(duì)分類依存邊標(biāo)注模型可定義為式(5)。
依存邊自動(dòng)輔助提示中,本文依據(jù)表1給出的藏語(yǔ)依存句法規(guī)范,通過(guò)人工標(biāo)注含有依存邊信息700句句法樹(shù),利用表2給出的特征模板,包含最后一項(xiàng)依存邊標(biāo)注特征,用最大熵方法訓(xùn)練模型,使用訓(xùn)練出的最大熵模型進(jìn)行詞對(duì)弧上關(guān)系自動(dòng)輔助提示和標(biāo)注,如圖4所示。當(dāng)前選擇的支配詞是“ ”,被支配詞是“ ”。自動(dòng)輔助提示的最佳依存邊為直接賓語(yǔ)OBJ。
圖4 詞對(duì)依存分類的邊標(biāo)注半自動(dòng)輔助提示圖
為訓(xùn)練詞對(duì)依存分類模型和詞對(duì)依存邊分類模型,本文人工分別構(gòu)建了2000多句依存句法樹(shù)和700句依存邊標(biāo)注句法樹(shù)庫(kù),用最大熵訓(xùn)練了模型,并結(jié)合這兩種詞對(duì)依存分類模型實(shí)現(xiàn)了半自動(dòng)依存標(biāo)注和修改工具TibetanDepBuilder V2.4。利用此工具重新校對(duì)了人工標(biāo)注的藏語(yǔ)依存句法樹(shù)庫(kù)TDTreebank 1.0,其規(guī)模為1萬(wàn)句,平均長(zhǎng)度小于17個(gè)藏語(yǔ)詞,總詞數(shù)規(guī)模為16.7萬(wàn)。整個(gè)樹(shù)庫(kù)的校對(duì)修改率達(dá)10%,發(fā)現(xiàn)之前人工標(biāo)注的主要錯(cuò)誤包括:(1)復(fù)雜句句型的標(biāo)注錯(cuò)誤,包括從句結(jié)構(gòu),比較長(zhǎng)的句子;(2)存在部分標(biāo)注不一致。此外,本文利用半自動(dòng)標(biāo)注工具新標(biāo)注了1千句句型比較復(fù)雜,且詞數(shù)達(dá)20至40間的句法樹(shù)。已加入到TDTreebank 1.0中,目前 TDTreebank 1.1版本的規(guī)模為1.1萬(wàn)句。
表3 校對(duì)樹(shù)庫(kù)語(yǔ)料
為了客觀評(píng)價(jià)本文提出的詞對(duì)依存分類半自動(dòng)樹(shù)庫(kù)構(gòu)建方法的效率,采用之前研發(fā)的判別式藏語(yǔ)句法分析為基線系統(tǒng),重新校對(duì)并增加后的藏語(yǔ)依存樹(shù)庫(kù)作為訓(xùn)練語(yǔ)料。用之前的測(cè)試語(yǔ)料300句為測(cè)試集。以依存關(guān)系正確率(depP)、中心詞正確率(headP)和整句完全依存正確率(allP)為性能分析指標(biāo)[1],對(duì)系統(tǒng)的藏語(yǔ)依存分析結(jié)果進(jìn)行評(píng)價(jià),給出了樹(shù)庫(kù)校對(duì)前后的評(píng)價(jià)指標(biāo),表4校對(duì)前后各項(xiàng)評(píng)測(cè)指標(biāo)對(duì)比中正確率I為校對(duì)之前的評(píng)價(jià)指標(biāo),正確率II為校對(duì)后的各項(xiàng)評(píng)價(jià)指標(biāo)。效果如圖5所示。
表4 校對(duì)前后各項(xiàng)評(píng)測(cè)指標(biāo)對(duì)比
圖5 樹(shù)庫(kù)校對(duì)前后系統(tǒng)對(duì)測(cè)試語(yǔ)料的各項(xiàng)評(píng)價(jià)指標(biāo)
針對(duì)藏語(yǔ)依存句法樹(shù)庫(kù)構(gòu)建過(guò)程中存在的問(wèn)題,本文提出詞對(duì)依存分類的半自動(dòng)依存句法樹(shù)構(gòu)建方法,描述了用于藏語(yǔ)依存句法結(jié)構(gòu)及其標(biāo)注規(guī)范,設(shè)計(jì)了詞對(duì)依存分類模型和詞對(duì)依存邊分類模型,結(jié)合特征模板,分別在2000多句依存句法樹(shù)和700句依存邊標(biāo)注句法樹(shù)上用最大熵訓(xùn)練了模型,用自頂向下標(biāo)注模式實(shí)現(xiàn)了詞對(duì)依存關(guān)系自動(dòng)輔助提示和依存邊類型自動(dòng)輔助提示功能。
利用本文實(shí)現(xiàn)的詞對(duì)依存分類半自動(dòng)依存標(biāo)注工具,校對(duì)了藏語(yǔ)依存樹(shù)庫(kù)TDTreebank 1.0后,經(jīng)在同樣測(cè)試集上實(shí)驗(yàn)顯示,依存句法評(píng)測(cè)各項(xiàng)指標(biāo)均有明顯的提高。在很大程度上方便了句法分析樹(shù)的校對(duì),同時(shí)加快了藏語(yǔ)依存句法樹(shù)庫(kù)構(gòu)建的進(jìn)展。
[1]華卻才讓,趙海興.基于判別式的藏語(yǔ)依存句法分析[J].計(jì)算機(jī)工程.2013,39(4):300-304.
[2]胡書津.簡(jiǎn)明藏文文法[M].昆明:云南民族出版社,1988.
[3]Peter Hellwig. Dependency Unification Grammar[C]//Proceeding of Coling'86.1986.
[4]Marie-Catherine de Marne de,Christopher D.Manning[M].Stanford typed dependencies manual.2008.
[5]周明,黃昌寧.面向語(yǔ)料庫(kù)標(biāo)注的漢語(yǔ)依存體系的探討[J].中文信息學(xué)報(bào),1994,8(3):35-51.
[6]格桑居冕.實(shí)用藏文文法[M].成都:四川民族出版社,1987.
[7]華卻才讓,趙海興.現(xiàn)代藏語(yǔ)依存句法標(biāo)注初探[C].第十二屆全國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì),2011.7.
[8]才讓加.藏語(yǔ)語(yǔ)料庫(kù)詞語(yǔ)分類體系及標(biāo)記集研究[J].中文信息學(xué)報(bào),2009,23(4):146-148.
[9]Jason M.Eisner.Three new probabilistic models for dependency parsing:An exploration[C]//Proceedings of COLING,1996:340-345.
[10]Jiang Wenbin,Liu Qun.Dependency Parsing and Projection Based on Word Pair Classification[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Uppsala,Sweden:[s.n.],2010:12-20.
[11]McDonald R,Crammer K,Pereira F.Online Largemargin Training of Dependency Parsers[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.Stroudsburg,USA:Association for Computational Linguistics,2005:91-98.
[12]Collins M.A New Statistical Parser Based on Bigram Lexical Dependencies[C]//Proceedings of the 34th Annual Meeting on Association for Computational Linguistics.Stroudsburg, USA: Association for Computational Linguistics,1996:184-191.