華卻才讓,趙海興
(青海師范大學(xué) 藏文信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)
藏文復(fù)合句的依存句法分析
華卻才讓,趙海興
(青海師范大學(xué) 藏文信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)
為解決藏文復(fù)合句引起的依存句法分析性能下降的主要問題,該文提出了一種基于判別式的藏文復(fù)合句切分標(biāo)注方法,先根據(jù)藏文固有的虛詞語法結(jié)構(gòu)和連詞特征,將復(fù)合句子切分標(biāo)注為句法分析的基本單元,然后將句法分析之后的各個部分依據(jù)主分句關(guān)系進(jìn)行合并,生成復(fù)合句的完整分析結(jié)果。實(shí)驗(yàn)結(jié)果表明該方法在一定程度上降低了藏文復(fù)合句依存句法分析的復(fù)雜度,最終句法分析的準(zhǔn)確率達(dá)到88.72%。
句法分析;依存句法;藏文分句;藏文復(fù)合句
依存句法分析作為自然語言處理的核心問題,主要對句子中的詞語語法功能進(jìn)行有效分析,以備各種上層的應(yīng)用,但由于文本中句子的長度和結(jié)構(gòu)變化很大,隨著句子長度的增加,句法分析的時空復(fù)雜度將會急劇上升,導(dǎo)致產(chǎn)生更多的句法歧義,這會嚴(yán)重影響句法分析的質(zhì)量,為此,句法分析中采用分治策略來處理復(fù)雜句型[1],先根據(jù)句子中的標(biāo)點(diǎn)符號和連接詞的功能將句子分為不同的部分,然后分別對每個部分進(jìn)行句法分析,獲得局部最優(yōu)結(jié)果后,將合并每個部分的分析結(jié)果形成最終的分析結(jié)果。對于藏文語料而言,尤其是新聞?wù)Z料中句子長度大于20個詞的比例高達(dá)70%以上,句子中只用楔形符號表示陳述句、疑問句、感嘆句、祈使句、反問句、停頓和分句等的末尾標(biāo)點(diǎn)符號。另外,藏文句子中連詞除了常用的關(guān)聯(lián)詞之外,很多自由和不自由虛詞也具有連詞的語法功能,甚至長達(dá)五六十個詞語的句子中分句之間通過虛詞連接,句子內(nèi)部不會出現(xiàn)任何標(biāo)點(diǎn)符號。這使得藏文復(fù)雜句型的分析變得最難處理的問題之一,也是目前和未來一段時間,在藏文信息處理領(lǐng)域急需解決的難題之一。
為解決句法分析中的長句問題,CoNLL-01專門組織完成了英語從句識別的評測任務(wù), 當(dāng)時最好識別結(jié)果的準(zhǔn)確率達(dá)78.63%[2]。Kim等人使用分治策略來簡化英語句法分析的復(fù)雜度,應(yīng)用最大熵的方法對句子進(jìn)行切分[1]。對漢語長句的分割,Jin等人提出以逗號分為分句之內(nèi)和分句之間兩種情況[3],對逗號進(jìn)行標(biāo)注之后,將句子從分句之間的標(biāo)點(diǎn)處斷開。馬金山等人提出了一種句子片段切分的思想,根據(jù)句子的語法結(jié)構(gòu)[4], 對所有的片段末尾標(biāo)點(diǎn)進(jìn)行標(biāo)注,包括逗號、冒號、分號、句號、問號和嘆號等,同時探討了分句之間的依存關(guān)系識別問題,取得了不錯的成績。藏文方面,文獻(xiàn)[5]實(shí)現(xiàn)了基于最大生成樹的依存句法分析方法,文獻(xiàn)[6]開發(fā)了基于詞對依存分類模型的半自動句法標(biāo)注工具軟件,構(gòu)建了1.1萬句藏文依存句法樹庫,目前還未見到藏文復(fù)雜長句研究句法分析結(jié)果。
本文結(jié)合藏文長句中復(fù)合句的結(jié)構(gòu)特征,提出基于分句的藏文復(fù)合句分析方法,先根據(jù)句子的文法結(jié)構(gòu),對標(biāo)點(diǎn)進(jìn)行腳色標(biāo)注,劃分分句類型;然后若句子是復(fù)合句則對每個分句獨(dú)立進(jìn)行依存句法分析,最后將每個分句的依存樹進(jìn)行合并,完成整個句子的依存分析。經(jīng)實(shí)驗(yàn),本文的分析器對分析藏文復(fù)合句的依存句法樹表現(xiàn)出了更好的性能。
由兩個或兩個以上結(jié)構(gòu)獨(dú)立的單句形式構(gòu)成復(fù)合句,復(fù)句中每個語法結(jié)構(gòu)獨(dú)立的成分為單句,藏文復(fù)句中每個分句之間通過連詞進(jìn)行連接,表示分句間不同類型的語義關(guān)系,與其他語種不同,藏文連詞包括虛詞和關(guān)聯(lián)詞兩種類型[7],分句間的虛詞一般出現(xiàn)在前一個分句的最后一個音節(jié)處,而關(guān)聯(lián)詞卻根據(jù)復(fù)合句的類型,可分別在前后分句的末尾或開頭部位出現(xiàn)。依據(jù)藏文復(fù)合句中分句之間出現(xiàn)連詞的不同而呈現(xiàn)語義關(guān)系,藏文復(fù)合句可分為以下幾類(表1)。
表1 藏文復(fù)合句類型及相關(guān)連詞
3.1 分句劃分方案
(1) 完整分句結(jié)構(gòu): 分句是語法結(jié)構(gòu)完整的片段,分句之間只有語義上的聯(lián)系,在句法結(jié)構(gòu)上沒有聯(lián)系,標(biāo)識的方法是將片段末尾標(biāo)點(diǎn)的詞性標(biāo)注為wp1,例如:
(2) 無主語結(jié)構(gòu)。分句中主語被省略或者位于前面的分句中。將該結(jié)構(gòu)末尾的標(biāo)點(diǎn)標(biāo)識為wp2,例如:
(3) 無賓語結(jié)構(gòu)。片段的謂語是及物動詞,但是謂語和賓語之間被標(biāo)點(diǎn)間隔,將該結(jié)構(gòu)末尾的標(biāo)點(diǎn)標(biāo)識為/wp3,例如:
圖1 完整分句結(jié)構(gòu)實(shí)例的依存句法樹
3.2 判別式模型
現(xiàn)有許多機(jī)器學(xué)習(xí)方法都可以用于分句類型的識別,如支持向量機(jī)(SVM),條件隨機(jī)場(CRF),神經(jīng)網(wǎng)絡(luò)等。由于最大熵模型非常成熟,可以采用開源的最大熵訓(xùn)練工具包來訓(xùn)練,因此本文選擇最大熵模型來解決藏文分句的自動識別問題。
如果將一個復(fù)合句看作分句的序列,則將分句識別問題視為將復(fù)合句劃分為子句的隨機(jī)過程。建立隨機(jī)過程的聯(lián)合概率模型p,p∈P,輸出值集合Y={wp1,wp2,wp3,wp4}, y∈Y,其中y是片段的類別劃分結(jié)果,在這個隨機(jī)過程中,Y受到句子中上下文信息x的影響,上下文集合x∈X,其中x表示此序列中所有可能的上下文特征組合。同時,從訓(xùn)練語料中獲得N個樣本的集合,S={(x1,y1), (x2,y2), (x3,y3),…,(xn,yn)},其中(x1,y1)是觀察到的一個事件,那么可以根據(jù)訓(xùn)練樣本定義一個事件空間X×Y,對于句子中分句的識別問題,事件信息特征是一個二值函數(shù)f: X×Y→(0,1)。對于一個特征f(x0,y0),定義其特征函數(shù)如式(1)所示。
對每一個特征f(x,y),其聯(lián)合概率分布模型p的熵函數(shù)如式(2)所示。
(2)
最大熵模型如式(3)所示。
其中C為滿足約束條件的模型集合,P*的具體統(tǒng)計(jì)推斷形式,即條件熵為[9]式(4)。
(4)
3.3 特征模板
考慮到分句的準(zhǔn)確識別問題,本文僅對句子中存在楔形符的復(fù)合句做了標(biāo)注。按照上節(jié)給定的四種分類標(biāo)準(zhǔn),標(biāo)注分句末尾楔形符號的角色,識別其類型后,進(jìn)行分句依存句法分析,這樣識別分句結(jié)構(gòu)類型,就成了文本分類問題。為此根據(jù)藏語分句的獨(dú)特單詞結(jié)構(gòu)和影響分句類型的各種因素,定義了藏語分句識別的特征模板,包括單詞詞形、詞性、長度和楔形符號等特征空間,如表2所示。
表2 分句類型識別的上下文特征
當(dāng)特征函數(shù)f(x,y)取分句中抽取的特定值時,則改模板被實(shí)例化,得到具體特征。當(dāng)模板的取值確定后就可以產(chǎn)生一個特征,這個特征可以表示為二值函數(shù),如式(5)所示。
用最大熵原理對特征進(jìn)行參數(shù)估計(jì)后,可求得基于最大熵的模型,即完成了每個特征的參數(shù)估值任務(wù),本文使用了張樂的最大熵工具包。
對完整復(fù)合句的識別結(jié)果中,分句楔形分隔符號的類型標(biāo)識只有wp1、wp2和wp3,而不是完整復(fù)合句的標(biāo)識中會出現(xiàn)wp4,前者中分句為依存句法分析的基本單元,后者將以整句為句法分析單元,在此不予考慮。分句在語法上是獨(dú)立的,即只有一個核心詞同其它分句產(chǎn)生聯(lián)系,故對于分句本文使用已有的感知機(jī)依存句法分析器進(jìn)行分析[5],之后為得到整句的依存分析結(jié)果,還需要將分句的分析結(jié)果進(jìn)行合并。表3給出了分句間的依存關(guān)系。
表3 分句間的依存關(guān)系類型
雖然分句的分析結(jié)果中只有一個中心詞,分句間的依存關(guān)系像是中心詞之間的關(guān)系,是詞對間關(guān)系的分類問題,可以采用已有的詞對依存分類模型[6]解決這一問題,但實(shí)際上,分句間的依存關(guān)系需要確定兩棵依存樹之間的支配關(guān)系,為此本文引入了自底向上的CYK算法,只用方陣主對角線以下元素記錄搜索跨度范圍內(nèi)的數(shù)據(jù),尋找分句為單位的最佳依存樹[10-11],分句整合方法見算法1所示。
算法1 藏文分句合并算法1:輸入:分句獨(dú)立分析后的復(fù)合句y2:for(i,j)í(1,|Y|)按照分句拓?fù)漤樞騞o //分句個數(shù)須大于13: bufφ4: formi..j按照當(dāng)前分句跨度的拓?fù)漤樞騞o5: forl∈V[i,m]&&r∈V[m+1,j]do //二分推導(dǎo)6: DERIV(l,r)左推導(dǎo)寫入buf7: DERIV(r,l)右推導(dǎo)寫入buf8: V[i,j]buf中取前K個推導(dǎo)9:輸出:最佳推導(dǎo)結(jié)果V[1,|Y|]10: functionDERIV(p,c)11: dp∪c∪{(p.root,c.root)}//生成新的推導(dǎo)12: d.evlEVAL(d) //權(quán)重計(jì)算函數(shù)13:returnd
算法1中,V[i,j]包含分句跨度(i,j)的句法分析結(jié)果,跨度的取值為在1和|Y|(分句個數(shù))之間,這時將對整個跨度依順序二分為左右子跨度的組合,并抽取左右子跨度組合推導(dǎo)生成的依存分支,依據(jù)推導(dǎo)分支的權(quán)重,生成跨度范圍內(nèi)的K個最佳分值推導(dǎo)樹。函數(shù)EVAL(d) 計(jì)算分句間以中心詞為首的所有特征向量的權(quán)重之和,其相關(guān)的特征模板等在此不再贅述[5]。
該實(shí)驗(yàn)使用的數(shù)據(jù)是青海師范大學(xué)藏文信息研究中心構(gòu)建的藏文依存樹庫TDTreebank V1.1[6],樹庫數(shù)據(jù)側(cè)重于日常用語和政府文獻(xiàn),共有1.1萬個藏文句法樹,每條句子的平均長度為17個藏文詞。實(shí)驗(yàn)中,以TDTreebank V1.1中藏文句法樹對應(yīng)的詞性標(biāo)注語句1.1萬個句子作為訓(xùn)練數(shù)據(jù),另構(gòu)建了300個藏文復(fù)合句作為測試集。
5.1 分句類型標(biāo)注
本文第一個實(shí)驗(yàn)是識別每一個候選分句末尾符號的類別,即標(biāo)注片段末尾的標(biāo)點(diǎn)符號類型。識別時,根據(jù)最大熵訓(xùn)練工具包訓(xùn)練得到的模型和表2所列每個特征模板,得出每一個分句標(biāo)注類型的概率,取概率最大為分句的類型標(biāo)記。四類標(biāo)點(diǎn)的標(biāo)注結(jié)果如表4所示。
表4 分句類型的識別結(jié)果
從表4的結(jié)果中,分句識別和標(biāo)注的F值還算比較理想,其主要原因是本文只標(biāo)注復(fù)合句中用藏文楔形符號分隔的分句。
5.2 整句依存分析
復(fù)合句中分句間的依存關(guān)系確定后,得到了整句的依存句法分析結(jié)果,藏文依存句法分析使用核心詞正確率、依存關(guān)系正確率和整句完全匹配正確率三個指標(biāo)對結(jié)果進(jìn)行評價,本文得到的結(jié)果如表5所示。
表5 整句的依存分析結(jié)果
表中第二行是未對句子進(jìn)行分句劃分,對整句直接進(jìn)行依存分析的結(jié)果;第三行是按照本文所描述基于分句的依存句法分析所得到的結(jié)果。通過降低依存句法分析的復(fù)雜度,300條復(fù)合句中依存關(guān)系的正確率得到了明顯的提高,達(dá)5.07個百分點(diǎn)。
本文借用復(fù)雜長句的分治策略方法,初步嘗試了藏文復(fù)合句的依存句法分析研究,首先對結(jié)構(gòu)特征明顯的藏文復(fù)合句進(jìn)行了分句劃分和角色標(biāo)注處理,然后對簡化后的獨(dú)立分句進(jìn)行分析,最后合并獨(dú)立分句的分析結(jié)果,從而簡化,并降低了分析藏文長句的復(fù)雜度,解決了帶楔形符號的藏文復(fù)合句的依存分析問題。這對進(jìn)一步處理藏文從句的自動識別,以及基于從句的整句依存分析等研究具有重要意義。
[1] Kim SD, Zhang BT, Kim YT. Reducing parsing complexity by intra- sentence segmentation based on maximum entropy[C]//Proceedings of EMNLP/VLC-2000, Hong Kong, 2000: 64-171.
[2] Sang Eftk, Jean H. Introduction to the CoNLL-2001 shared task: clause identification [C]//Proceedings of the CoNLL-200, 2001: 53-57.
[3] Jin M, Mi-Youngk, Kim D, et al. Segmentation of Chinese long sentences using commas[C]//Proceedings of the 3rd ACL S IGHAN Workshop, Spain: Association for Computational Linguistics, 2004: 1-8.
[4] 馬金山,李生. 基于統(tǒng)計(jì)方法的漢語依存句法分析研究[D]. 哈爾濱工業(yè)大學(xué)博士學(xué)位論文,2007.
[5] 華卻才讓,趙海興.基于判別式藏語依存句法分析[J].計(jì)算機(jī)工程.2013,39(4):300-304.
[6] 華卻才讓,姜文斌,趙海興,劉群. 基于詞對依存分類的藏語樹庫半自動構(gòu)建研究[J].中文信息學(xué)報. 2013.9.27(5): 162-172.
[7] 吉太加. 藏語句法研究[M].中國藏學(xué)出版社.2013.
[8] 格桑居冕. 實(shí)用藏文語法[M]. 成都: 四川民族出版社,1987.
[9] 李素建,劉群,張志勇,程學(xué)旗.語言信息處理技術(shù)中的最大熵模型方法[J].計(jì)算機(jī)科學(xué).2002,29(7):108-110.
[10] W. Jiang, Qun Liu. Dependency parsing and projection based on word pair classification[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL). Uppsala, Sweden 2010: 12-20.
[11] R. McDonald. Discriminative learning and spanning tree algorithms for dependency parsing[D]. Ph.D. thesis, University of Pennsylvania, 2006.
Dependency Parsing of Tibetan Compound Sentence
Huaquecairang,ZHAO Haixing
(Key Laboratory of Tibetan Information Processing, Ministry of Education, Qinghai Normal University, Xining, Qinghai 810008, China)
This paper proposes a discriminative method of identifying the clause to solve the performance decrease caused by Tibetan compound sentence. In this method, the complex sentence is first divided into different syntactic analysis units according to the inherent features of conjunctions. Then each clause is parsed independently. Finally the whole dependency tree is generated by merging the parse of each clause. Experimental results show that the method could decrease the complexity of parsing, and boost the parsing accuracy up to 88.72%.
syntactic analysis; dependency parsing; Tibetan sub-clause; Tibetan compound sentence
華卻才讓(1976—),副教授,博士,主要研究領(lǐng)域?yàn)椴卣Z詞法分析、句法分析和機(jī)器翻譯。E-mail:cairanghuaque@aliyun.com趙海興(1969—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)閳D理論、復(fù)雜網(wǎng)絡(luò)、理論計(jì)算機(jī)科學(xué)和自然語言處理。E-mail:363422953@qq.com
1003-0077(2016)06-0224-06
2016-09-27 定稿日期: 2016-10-20
國家自然科學(xué)基金(61363055);教育部“春暉計(jì)劃”合作科研項(xiàng)目(Z2012102)
TP391
A