国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)樹的自動(dòng)識(shí)別

2014-02-27 07:07:28達(dá)胡白乙拉關(guān)曉炟
中文信息學(xué)報(bào) 2014年5期
關(guān)鍵詞:分析器蒙古語(yǔ)短語(yǔ)

烏 蘭,達(dá)胡白乙拉,關(guān)曉炟,周 強(qiáng)

(1. 內(nèi)蒙古大學(xué) 蒙古學(xué)學(xué)院,內(nèi)蒙古 呼和浩特 010021;2. 中國(guó)科學(xué)院自動(dòng)化研究所,北京 100190;3. 清華大學(xué)信息技術(shù)研究院,北京 100084)

1 引言

20世紀(jì)80年代開始,蒙古語(yǔ)基于語(yǔ)料庫(kù)的信息處理研究一直在進(jìn)行。目前完成了字、詞處理階段的基本任務(wù),步入句子處理階段。句法分析在自然語(yǔ)言信息處理當(dāng)中處于非常關(guān)鍵的位置,它能為篇章處理、語(yǔ)義分析提供有效的幫助。句法分析和樹庫(kù)的建設(shè)有互相推進(jìn)的作用,樹庫(kù)作為標(biāo)準(zhǔn)數(shù)據(jù)評(píng)價(jià)自動(dòng)分析器的處理質(zhì)量,為理論語(yǔ)言學(xué)研究提供客觀的真實(shí)文本標(biāo)注數(shù)據(jù),而自動(dòng)句法分析為建設(shè)大規(guī)模樹庫(kù)提供了可能性。

在基于短語(yǔ)結(jié)構(gòu)語(yǔ)法分析句子和建設(shè)樹庫(kù)方面,英語(yǔ)、漢語(yǔ)等一些語(yǔ)言的研究取得了可喜的成果。幾個(gè)典型的句法標(biāo)注語(yǔ)料庫(kù)有美國(guó)的PTB[1],德國(guó)的Tiger[1],西班牙語(yǔ)有UAM[1],還有美國(guó)濱州大學(xué)的漢語(yǔ)樹庫(kù)CTB[1]和清華大學(xué)漢語(yǔ)樹庫(kù)TCT[2]等。蒙古語(yǔ)短語(yǔ)樹庫(kù)標(biāo)注體系[3]跟清華TCT有相似點(diǎn),TCT選擇了大規(guī)模的包含新聞、學(xué)術(shù)、文學(xué)、應(yīng)用4大體裁的平衡語(yǔ)料文本作為加工對(duì)象。它覆蓋了漢語(yǔ)“字/詞→塊→句→段”等各個(gè)層次的句法單元,形成漢語(yǔ)句子最為詳細(xì)的句法信息描述。它設(shè)計(jì)了雙標(biāo)記集的描述體系: 一是成分標(biāo)記集,二是關(guān)系標(biāo)記集。

蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)樹可以表示句子較全面的句法信息,包括從詞、短語(yǔ)到句子的句法單位。詞與詞之間的搭配和同現(xiàn),短語(yǔ)的內(nèi)部結(jié)構(gòu)和功能分類等,都可以在短語(yǔ)結(jié)構(gòu)中得以體現(xiàn)。

因此我們選擇建設(shè)短語(yǔ)結(jié)構(gòu)樹庫(kù)來(lái)盡可能地反映蒙古語(yǔ)句子組織信息情況,以期盡可能詳細(xì)地描述蒙古語(yǔ)句子的句法組合信息。

蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)類型和結(jié)構(gòu)內(nèi)部關(guān)系的識(shí)別判定是蒙古語(yǔ)句法分析的一項(xiàng)重要內(nèi)容,也是蒙古語(yǔ)語(yǔ)料庫(kù)多級(jí)加工處理的一個(gè)重要環(huán)節(jié)。蒙古語(yǔ)句法分析研究大多屬于基于舉例法的句法研究,近期面向信息處理的句法研究也較少見,可以分為有基于短語(yǔ)結(jié)構(gòu)語(yǔ)法分析和基于依存語(yǔ)法分析兩種。基于短語(yǔ)結(jié)構(gòu)的句法研究有內(nèi)蒙古大學(xué)所作的對(duì)語(yǔ)料庫(kù)短語(yǔ)標(biāo)注切分研究[4-7];基于依存語(yǔ)法的句法研究有內(nèi)蒙古大學(xué)所作的依存句法分析研究[8],依存句法與短語(yǔ)結(jié)構(gòu)句法是兩種不同體系的研究方法,因此做蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)句法分析器是很有必要。目前這些研究的目標(biāo)基本統(tǒng)一,通過不同視角對(duì)蒙古語(yǔ)句子結(jié)構(gòu)進(jìn)行分析研究,試圖探索蒙古語(yǔ)句子的組合方式和層次結(jié)構(gòu)特征,對(duì)句法有一個(gè)較清晰的認(rèn)識(shí),為進(jìn)一步的計(jì)算機(jī)處理構(gòu)繪一定的基礎(chǔ)框架。因此本文的蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)樹的自動(dòng)識(shí)別研究能為以后構(gòu)建大規(guī)模的蒙古語(yǔ)樹庫(kù)積累經(jīng)驗(yàn),并將會(huì)促進(jìn)計(jì)算機(jī)模仿人理解和使用蒙古語(yǔ)的心理過程,為計(jì)算機(jī)理解蒙古語(yǔ)提供一個(gè)行之有效的環(huán)節(jié)。它還有利于蒙古語(yǔ)句子的結(jié)構(gòu)和性能研究。就應(yīng)用來(lái)說(shuō),它在訓(xùn)練基于短語(yǔ)結(jié)構(gòu)的機(jī)器翻譯、信息檢索、信息抽取、問答系統(tǒng)、自動(dòng)校對(duì)等各種應(yīng)用系統(tǒng)中有著不可缺少的作用和意義。

2 蒙古語(yǔ)特點(diǎn)描述

蒙古語(yǔ)是黏著性語(yǔ)言,詞一般可以分解為詞根(詞干)和詞綴兩個(gè)部分,有的詞根可以單獨(dú)使用,詞干上加接構(gòu)詞詞綴可以派生新詞,在派生詞上再接續(xù)構(gòu)詞詞綴或構(gòu)形詞綴還可以構(gòu)成新詞或增添語(yǔ)法意義。蒙古語(yǔ)中較長(zhǎng)的多音節(jié)詞一般都是幾個(gè)構(gòu)詞詞綴和構(gòu)形詞綴依次相加的結(jié)果[9]。它富有形態(tài)變化。靜詞類有格、領(lǐng)屬、數(shù)范疇的形態(tài)變化。動(dòng)詞類有式、體、態(tài)等范疇變化和連接形、兼役形變化。句子中詞與詞的句法關(guān)系是通過這些形態(tài)變化來(lái)表達(dá)的。在《信息技術(shù)-信息處理用蒙古文詞語(yǔ)標(biāo)記集》[10](GB/T 26235-2010)(下面簡(jiǎn)稱《國(guó)標(biāo)》)把蒙古語(yǔ)的構(gòu)形附加成分分為數(shù)范疇、格范疇、領(lǐng)屬范疇、形容詞級(jí)范疇、數(shù)詞變化形式、祈使式、陳述式、副動(dòng)詞、形動(dòng)詞、名動(dòng)詞、態(tài)范疇、體范疇、附屬等13大類。在句子中這些構(gòu)形附加成分的出現(xiàn)如例子:

[]LeNIN/Nt1(列寧) IRE/Ve2+JEI/Fs11(來(lái)過了)(列寧來(lái)過了)。

ABV/Ne1(父親)JOBSIYERE/Ve1+BE/Fs14(同意了)(父親同意了)。

這些句子里的動(dòng)作是通過動(dòng)詞陳述式表示過去時(shí)的詞綴“JEI,BE”來(lái)表示這個(gè)行為已經(jīng)完成了。

蒙古語(yǔ)形態(tài)變化豐富,例如,“ABV/Ne1 JOBSIYERE/Ve1+N_E/Fs21”“ABV/Ne1 JOBSIYERE/Ve1+HU/Ft12”“ABV/Ne1 JOBSIYERE/Ve1+JU/Fn1” “ABV/Ne1 JOBSIYERE/Ve1+GSEN/Ft11”(爸爸同意),以上4個(gè)短語(yǔ)是通過不同的構(gòu)形附加成分來(lái)表達(dá)“爸爸同意”這個(gè)行為。是在動(dòng)詞詞根“JOBSIYERE”上加不同的詞綴“N_E”、“HU”、“JU”、“GSEN”來(lái)表達(dá)“爸爸同意”這個(gè)行為,在不同的語(yǔ)境里分別使用,但基本語(yǔ)義不會(huì)發(fā)生變化。在短語(yǔ)結(jié)構(gòu)分析當(dāng)中無(wú)論它的動(dòng)詞有多少變化,它就是體述關(guān)系的短語(yǔ)。

在蒙古語(yǔ)的構(gòu)形附加成分中“格”表示名詞和其他詞的關(guān)系以及它在短語(yǔ)和句子中的功能。蒙古語(yǔ)的“格”通過在靜詞之后接續(xù)某種詞綴來(lái)表示[11]。例如,在蒙古語(yǔ)句子中有時(shí)名詞和名詞會(huì)發(fā)生關(guān)系,例如,“M0NGG0L=HELEN/NT-U/Fc11HICIYEL/Ne1(蒙古語(yǔ)課程)”,這個(gè)短語(yǔ)中的兩個(gè)名詞是所屬關(guān)系,因此在兩個(gè)名詞之間加入蒙古語(yǔ)的“屬格”,即“U/Fc11”,相當(dāng)于漢語(yǔ)的“的”;除此之外,名詞與動(dòng)詞也可能會(huì)發(fā)生關(guān)系,例如,“VSV/Ne2-BAR/Fc51 VHIYA/Ve1+GSAN/Ft11(用水洗)”,此時(shí)就要在名詞后面加“工具格”,即“BAR/Fc51”。在《國(guó)標(biāo)》里把蒙古語(yǔ)的“格”分為主格、屬格、與格、賓格、從格、工具格、共同格、聯(lián)合格、定格等9種。蒙古語(yǔ)的“格”短語(yǔ)在句子中可以充當(dāng)主語(yǔ)、定語(yǔ)、賓語(yǔ)和狀語(yǔ)等句子成分。在蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)句法樹庫(kù)里,短語(yǔ)結(jié)構(gòu)內(nèi)部關(guān)系的賓述關(guān)系、體述關(guān)系、狀述關(guān)系、定體關(guān)系的內(nèi)容跟“格”有很大的關(guān)聯(lián)。這樣一來(lái),“格”對(duì)蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)句法樹庫(kù)的影響是可想而知的。

兩種格之間的歧義問題是自動(dòng)分析器的一個(gè)難點(diǎn)。例如,短語(yǔ)結(jié)構(gòu)分析句子的時(shí)候,蒙古語(yǔ)的間接賓語(yǔ)與狀語(yǔ)有的時(shí)候很難區(qū)分。靜詞的工具格有的時(shí)候構(gòu)成間接賓語(yǔ),有的時(shí)候構(gòu)成狀語(yǔ)。在個(gè)別情況下,同樣一個(gè)形式有時(shí)可以表示賓語(yǔ)也可以表示狀語(yǔ)。例如,“M0RI/Ne1-BAR/Fc51 YABV/Ve2+N_A/Fs21(騎馬走)”中是賓語(yǔ),“SVRGAGVLI/Ne1-BAR/Fc51 T0G0RI/Ve1+Y_A/Fb11(校園里逛)”是狀語(yǔ)。兩個(gè)短語(yǔ)都是“名詞-工具格 動(dòng)詞”形式,但是句子中充當(dāng)成分卻不一樣。還有些傳統(tǒng)語(yǔ)法學(xué)論著明確指出成分句的主語(yǔ)可以以賓格形式存在。這意味著賓述關(guān)系和體述關(guān)系之間一定會(huì)產(chǎn)生同形歧義問題[12]。 蒙古語(yǔ)主格是零形式,特別是在體述關(guān)系、定體關(guān)系里出現(xiàn)的頻率較高,因此只能依靠“格”來(lái)辨別是不夠的,還需要詞性、語(yǔ)義等信息。這樣一來(lái),這些歧義對(duì)句法分析器分析短語(yǔ)內(nèi)部關(guān)系帶來(lái)很多困擾。在辨別上文提到的兩個(gè)短語(yǔ)句子成分的時(shí)候,我們依靠大腦的語(yǔ)言知識(shí)和理解能力,但是計(jì)算機(jī)處理方式是形式化,類似于上文提到的短語(yǔ)就很難辨別出來(lái)。

蒙古語(yǔ)的語(yǔ)序比較靈活,但是中心詞的位置基本上是固定的(除了特殊句型以外),處在后部分,蒙古語(yǔ)的句子結(jié)構(gòu)是主賓謂(SOV)形式。這使分析器產(chǎn)生短語(yǔ)結(jié)構(gòu)類型有了基本的理論依據(jù)。例如,把“名詞—?jiǎng)釉~”、“動(dòng)詞—?jiǎng)釉~”、“副詞—?jiǎng)釉~”、“摹擬詞—?jiǎng)釉~”等以動(dòng)詞為中心詞的短語(yǔ)稱之為動(dòng)詞短語(yǔ)。例如,“YEHE/Ac-BER/Fc41 HI/Ve1+JU/Fn1(大量做)”是動(dòng)詞短語(yǔ),因?yàn)椤癏I/Ve1+JU/Fn1(做)”是中心詞,處在短語(yǔ)的后部分,它的詞性是動(dòng)詞。

虛詞在對(duì)句子分析中也占有自己的位置,例如,用后置詞、時(shí)位詞、連接詞等來(lái)連接兩個(gè)詞或者短語(yǔ)。有些內(nèi)部關(guān)系通常通過一些虛詞后它的特征會(huì)很明顯,我們可以通過這些虛詞來(lái)確定短語(yǔ)內(nèi)部關(guān)系,例如它含有“BOGED/MORTEGEN/BA/B0LVN/,/、”等詞或符號(hào)的時(shí)候是聯(lián)合關(guān)系。

3. 蒙古語(yǔ)短語(yǔ)樹庫(kù)簡(jiǎn)介

3.1 蒙古語(yǔ)短語(yǔ)樹庫(kù)的詞語(yǔ)類標(biāo)記

產(chǎn)生短語(yǔ)結(jié)構(gòu)樹的時(shí)候,第一步工作是進(jìn)行固定短語(yǔ)標(biāo)注工作,我們使用固定短語(yǔ)標(biāo)注系統(tǒng)和結(jié)合人工校對(duì),用“=”號(hào)連接。標(biāo)注語(yǔ)料實(shí)例如下,“EHE 0R0N”要用“=”符號(hào)連接起來(lái),是“EHE=0R0N”(“祖國(guó)”的意思)形式。有些固定短語(yǔ)還會(huì)被漏掉,因此需要人工校對(duì)和加以修改。實(shí)例: “HOMON TOROLHITEN”->“HOMON=TOROLHITEN”(人類)。

在此基礎(chǔ)上,我們要進(jìn)行詞法標(biāo)注。2010年內(nèi)蒙古大學(xué)與中國(guó)科學(xué)院合作研制了基于統(tǒng)計(jì)的詞法分析器-Mglex分析器。它能標(biāo)注出蒙古語(yǔ)詞干(詞根)詞性信息和構(gòu)形附加成分的相關(guān)信息,準(zhǔn)確率達(dá)97.7%。單個(gè)詞上標(biāo)注的格式為“詞根(詞干)/詞性標(biāo)記+詞綴/詞類標(biāo)記” 。例如,單個(gè)詞根ABV/Ne1,詞根+連寫詞綴AHI/Ve2+GVL/Fe11+BA/Fs14;

“_”: 蒙古語(yǔ)中分開寫的元音,例如,“OGERECILE/Ve1+N_E/Fs21”中“_E”是分開寫的元音,與‘N’一起才看成是一個(gè)音節(jié)。

“+”: 在連寫詞綴(附加成分)前面標(biāo)注,“YABV/Ve2+N_A/Fs21”中“N_A”前面有加號(hào),是在說(shuō)明它與前面“YABV”的連寫詞綴。

“-”: 靜詞類格范疇,領(lǐng)屬范疇,復(fù)數(shù)范疇的分寫詞綴前面標(biāo)注此符號(hào)。例如,“ABV/Ne1-YIN/Fc11”中,“YIN”是前一個(gè)詞“ABV”的分寫詞綴。

“=”: 用這個(gè)符號(hào)連接的詞有固定短語(yǔ),也有專有名詞。例如,YASV=CINAR/Yn(質(zhì)量);DVMDADV=VLVS/NT(中國(guó))

“[]” :人名前面用這個(gè)符號(hào)。例如,[]WeN=JIYA=BVV/Nt1(溫家寶)

“][” :地名前面用這個(gè)符號(hào)。例如,][TAYIWAN/Nt2(臺(tái)灣)

Mglex分析器目前還沒有固定短語(yǔ)詞法標(biāo)注的功能。所以對(duì)固定短語(yǔ)詞性進(jìn)行了人工標(biāo)注,參考了德·青格樂圖等人研制的《現(xiàn)代蒙古語(yǔ)固定短語(yǔ)語(yǔ)法信息詞典》標(biāo)注形式是用“=”號(hào)連接的詞后面有個(gè)斜線再寫詞性。蒙古語(yǔ)固定短語(yǔ)分為復(fù)合詞(Y)、習(xí)用語(yǔ)(X)、成語(yǔ)(K)、固定詞(J)、名詞術(shù)語(yǔ)(NT)等5大類,再把復(fù)合詞分為名詞性復(fù)合詞(Yn)、形容詞性復(fù)合詞(Ya)、代詞性復(fù)合詞(Yr)、時(shí)位詞性復(fù)合詞(Yo)、動(dòng)詞性復(fù)合詞(Yv)、副詞性復(fù)合詞(Yd)等6種;習(xí)用語(yǔ)分為名詞性習(xí)用語(yǔ)(Xn)、形容詞性習(xí)用語(yǔ)(Xa)、動(dòng)詞性習(xí)用語(yǔ)(Xv)等3種;成語(yǔ)分為名詞性成語(yǔ)(Kn)和動(dòng)詞性成語(yǔ)(Kv)。實(shí)例如下,“HODEGE=T0SH0N/Yn-V/Fc12”(農(nóng)村的),這里“Yn”是表示名詞性復(fù)合詞。

3.2 蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)樹庫(kù)短語(yǔ)標(biāo)記集

蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)樹庫(kù)的標(biāo)記集是參考了蒙古語(yǔ)傳統(tǒng)語(yǔ)法學(xué)中關(guān)于詞組類型和詞組內(nèi)部關(guān)系的分類及命名方法(表1,表2)。例如,在蒙古語(yǔ)里中心詞處在詞組的最后部分,即中心詞的詞性就是詞組的詞性[13]。詞組內(nèi)部關(guān)系分為體述關(guān)系、定體關(guān)系、賓述關(guān)系、狀述關(guān)系、聯(lián)合關(guān)系和輔助關(guān)系等[13]。蒙古語(yǔ)傳統(tǒng)語(yǔ)法上大部分著作認(rèn)為詞組是實(shí)詞與實(shí)詞組合的,我們認(rèn)為詞組是短語(yǔ)的一部分,短語(yǔ)可以是實(shí)詞與實(shí)詞,虛詞與虛詞,實(shí)詞與虛詞之間都可以組合,即短語(yǔ)包含詞組。

表1 蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)類型標(biāo)記

表2 蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)內(nèi)部關(guān)系標(biāo)記

3.3 蒙古語(yǔ)短語(yǔ)結(jié)構(gòu)分析標(biāo)注規(guī)范

在同一層面上采用二分的形式。順序?yàn)? 從大到小,從左到右,一步一步分析。每部分采用對(duì)稱的大括弧,在閉弧后緊跟相應(yīng)的短語(yǔ)標(biāo)記。

例如,0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31 YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21 ./Wp1

第一步分為《0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31 YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》和《./Wp1》兩部分;

第二步把《0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31 YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》部分分為《0RCIL/Ne2 AJV=AHVI/Ne2-YI/Fc31》和《YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》兩部分來(lái)分析;

第三步把《0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31》部分分為《0RCIL/Ne2》和《AJV=AHVI/Yn-YI/Fc31》兩部分來(lái)分析;

第四步把《YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》部分分為《YEHE/Ac-BER/Fc51》和《HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21》兩部分來(lái)分析。

分析出來(lái)的句子: {{{0RCIL/Ne2 AJV=AHVI/Yn-YI/Fc31}Np2d{YEHE/Ac-BER/Fc51 HOGJI/Ve2+GUL/Fe11+U/Zv1+N_E/Fs21}VP2b}VP4t./Wp1}S5,如圖1所示。

圖1 短語(yǔ)樹形結(jié)構(gòu)圖

“大力發(fā)展循環(huán)經(jīng)濟(jì)”短語(yǔ)樹形結(jié)構(gòu)如圖1所示。S5意為詞數(shù)有5個(gè)的句子;VP4t意為動(dòng)詞短語(yǔ)、詞數(shù)為4、賓述關(guān)系;Wp1意為標(biāo)點(diǎn)符號(hào);NP2d意為名詞性短語(yǔ)、詞數(shù)為2、定體關(guān)系;VP2b意為動(dòng)詞性短語(yǔ)、詞數(shù)為2、狀述關(guān)系;Ne2是不可數(shù)名詞,對(duì)應(yīng)的詞是“0RCIL”;Yn是名詞性復(fù)合詞,由Ne2(對(duì)應(yīng)的詞是AJV)和Ne2-Fc31(對(duì)應(yīng)的詞是AHVI-YI,AHVI是詞,YI是它的附加成分)組成;Ac-Fc51對(duì)應(yīng)的詞是YEHE-BER,這里YEHE是詞,BER是附加成分;Ve2+Fe11+Zv1+Fs21是指Ve2為詞根加了3個(gè)詞綴Fe11、Zv1、 Fs21的一個(gè)動(dòng)詞。

3.4 蒙古語(yǔ)短語(yǔ)樹庫(kù)語(yǔ)料分布特點(diǎn)

在有20萬(wàn)詞級(jí)的標(biāo)注詞類的蒙古語(yǔ)短語(yǔ)樹庫(kù)語(yǔ)料上進(jìn)行短語(yǔ)結(jié)構(gòu)分析。樹庫(kù)語(yǔ)料有20 201條句子,句子詞數(shù)最少的有2個(gè)詞,最多的有76個(gè)詞。語(yǔ)料選取于“100萬(wàn)詞級(jí)現(xiàn)代蒙古語(yǔ)語(yǔ)料庫(kù)”和一些政府文件材料。對(duì)訓(xùn)練集19201條句子進(jìn)行12種短語(yǔ)結(jié)構(gòu)類型和8種短語(yǔ)結(jié)構(gòu)內(nèi)部關(guān)系的統(tǒng)計(jì)如表3所示。

表3 各結(jié)構(gòu)類型出現(xiàn)頻次比例

從表3可以看出蒙古語(yǔ)短語(yǔ)樹庫(kù)語(yǔ)料各結(jié)構(gòu)類型中,動(dòng)詞短語(yǔ)(VP)出現(xiàn)的頻次最高,占全部結(jié)構(gòu)類型的49.8%,其次是名詞短語(yǔ)(NP)和形容詞短語(yǔ)各占39.7%和4.4%。出現(xiàn)頻次最低的是情態(tài)詞短語(yǔ)(HP),占0.014%。

從表4可以看出蒙古語(yǔ)短語(yǔ)樹庫(kù)語(yǔ)料各關(guān)系類型中,定體關(guān)系(d)出現(xiàn)的頻次最高,占全部關(guān)系類型的30.6%。復(fù)指關(guān)系(j)出現(xiàn)的頻次最低,占全部關(guān)系類型的0.4%。

表4 各關(guān)系類型在語(yǔ)料庫(kù)中出現(xiàn)頻次

從表5中我們能看出蒙古語(yǔ)短語(yǔ)樹庫(kù)分布特點(diǎn),橫看全部定體關(guān)系(d)里名詞短語(yǔ)(NP)的定體關(guān)系占90.32%,并且在名詞短語(yǔ)里與其他各內(nèi)部關(guān)系相比,定體關(guān)系占69.5%。因此定體關(guān)系主要出現(xiàn)在名詞短語(yǔ)里。在全部狀述關(guān)系(b)和賓述關(guān)系(t)里動(dòng)詞短語(yǔ)(VP)中的狀述關(guān)系和賓述關(guān)系各占94.09%和95.27%。因此,狀述關(guān)系和賓述關(guān)系主要是在動(dòng)詞短語(yǔ)里出現(xiàn)。體述關(guān)系在動(dòng)詞短語(yǔ)里出現(xiàn)的頻次最高,占81.8%,在名詞短語(yǔ)里占的比例為10.5%,因此體述關(guān)系很大一部分是出現(xiàn)在動(dòng)詞短語(yǔ)里。情態(tài)詞短語(yǔ)在短語(yǔ)類型中占的比例是最少并且內(nèi)部關(guān)系只出現(xiàn)了輔助關(guān)系(s)。再看聯(lián)合關(guān)系(h),名詞短語(yǔ)、動(dòng)詞短語(yǔ)、形容詞短語(yǔ)中出現(xiàn)的頻次都比較高,各占34.3%、53.3%、8.4%。復(fù)指關(guān)系(j)在名詞短語(yǔ)中出現(xiàn)的頻次最高,占83.3%,代詞短語(yǔ)中占11.6%,這樣我們就能知道復(fù)指關(guān)系大部分情況下是在名詞短語(yǔ)和代詞短語(yǔ)中出現(xiàn)。從表格整體上來(lái)看,名詞短語(yǔ)、動(dòng)詞短語(yǔ)、代詞短語(yǔ)、形容詞短語(yǔ)等類型出現(xiàn)的頻率高則它們的各內(nèi)部關(guān)系出現(xiàn)的頻率也高,因此在蒙古語(yǔ)短語(yǔ)樹庫(kù)中實(shí)詞性的短語(yǔ)占的比例高。

表5 各關(guān)系類型在不同結(jié)構(gòu)類型中出現(xiàn)頻次比例

4 蒙古語(yǔ)自動(dòng)分析器開發(fā)

本節(jié)介紹蒙古語(yǔ)自動(dòng)分析器的分析方法。分析器采用“移近—?dú)w約”[14]的確定性方法,它是將分析過程看成是一步步作用于輸入句子之上的分析動(dòng)作的序列。分析的輸入為已經(jīng)分詞并帶有詞性標(biāo)注的句子,分析過程主要的數(shù)據(jù)結(jié)構(gòu)為一個(gè)棧(S)和一個(gè)隊(duì)列(Q),輸入的<詞,詞性>對(duì)按順序存儲(chǔ)于隊(duì)列中,棧中存放分析過程中每一步產(chǎn)生的部分句法樹,對(duì)于每一個(gè)分析步驟,其狀態(tài)由當(dāng)前棧和隊(duì)列中的內(nèi)容表示。本文采用SVM分類器對(duì)當(dāng)前的狀態(tài)做出動(dòng)作決策。

其分析動(dòng)作主要是建立詞和詞之間的關(guān)系。動(dòng)作模式分為兩類。第一為“移進(jìn)(shift)”動(dòng)作,代表從隊(duì)列中取出第一個(gè)元素并將其壓入棧頂;第二類“規(guī)約(reduce)”動(dòng)作,代表連續(xù)出棧兩次,將棧頂?shù)膬蓚€(gè)元素合并為一個(gè)新節(jié)點(diǎn),兩個(gè)元素分別作為新節(jié)點(diǎn)的左右孩子,按照規(guī)約產(chǎn)生新節(jié)點(diǎn)的標(biāo)記類型,對(duì)規(guī)約進(jìn)行分類。由于分析動(dòng)作只有“移近(Shift)”和“規(guī)約(Reduce)”兩種類別,可訓(xùn)練出關(guān)于分析動(dòng)作的分類器。在分析過程中,分類器可用來(lái)預(yù)測(cè)分析動(dòng)作。

特征主要是圍繞兩個(gè)焦點(diǎn)節(jié)點(diǎn)選取,焦點(diǎn)節(jié)點(diǎn)是指,在當(dāng)前狀態(tài)下棧中的第一個(gè)和第二個(gè)節(jié)點(diǎn),其可能為葉子節(jié)點(diǎn),也可能為分析過程中產(chǎn)生的句法子樹。每當(dāng)采用一個(gè)分析動(dòng)作時(shí),就會(huì)得到一個(gè)新的狀態(tài)。在訓(xùn)練階段,特征及其對(duì)應(yīng)的分析動(dòng)作組成訓(xùn)練數(shù)據(jù);在分析階段,由分類器在獲得的特征的基礎(chǔ)上做出分析動(dòng)作決策。當(dāng)隊(duì)列為空,且棧中全部節(jié)點(diǎn)規(guī)約到一個(gè)根節(jié)點(diǎn)下時(shí),分析過程結(jié)束。

設(shè)S為棧,Q為隊(duì)列,i, j為節(jié)點(diǎn)序號(hào),k為后綴序號(hào),則所選特征如表6所示。

表6 蒙語(yǔ)分析器特征模板

本文中i取值為{1, 2, 3},j取值為1,k取值為{1, 2}。

5 實(shí)驗(yàn)結(jié)果分析

5.1 測(cè)試集

樹庫(kù)語(yǔ)料中訓(xùn)練集為19 201條句子,測(cè)試集為1 000條句子。圖2是訓(xùn)練集句子長(zhǎng)度折線圖,句子長(zhǎng)度為2個(gè)詞到69個(gè)詞的分布圖。最高點(diǎn)在e8(8個(gè)詞),接著句子越長(zhǎng)出現(xiàn)的頻次越低。圖3測(cè)試集句子長(zhǎng)度折線圖,句子長(zhǎng)度為6個(gè)詞到76個(gè)詞的分布圖。最高點(diǎn)在e8,接著句子越長(zhǎng)出現(xiàn)的頻次越低。對(duì)比圖2和圖3,它們句長(zhǎng)特點(diǎn)很相似,所以測(cè)試集是適合進(jìn)行實(shí)驗(yàn)的語(yǔ)料。

圖2 訓(xùn)練集句子長(zhǎng)度折線圖

圖3 測(cè)試集句子長(zhǎng)度折線圖

自動(dòng)分析測(cè)試集1000條句子,并統(tǒng)計(jì)了結(jié)構(gòu)類型出現(xiàn)頻次。表格7中結(jié)構(gòu)類型出現(xiàn)最多的是動(dòng)詞短語(yǔ)(VP),占52.55%,其次是名詞短語(yǔ)和形容詞短語(yǔ),各占41.52%和2.5%。語(yǔ)氣詞短語(yǔ)(SP)和量詞短語(yǔ)(QP)出現(xiàn)頻次最少,各占0.033%。測(cè)試集里沒有出現(xiàn)情態(tài)詞短語(yǔ)和副詞短語(yǔ)。對(duì)表3和表7進(jìn)行對(duì)比,我們能看出它們?cè)诙陶Z(yǔ)主要結(jié)構(gòu)類型上形成相似的分布特點(diǎn)。

表7 自動(dòng)分析測(cè)試集的各結(jié)構(gòu)類型出現(xiàn)頻次比例

5.2 評(píng)測(cè)指標(biāo)設(shè)計(jì)

分析器性能的評(píng)價(jià)采用常規(guī)的評(píng)價(jià)指標(biāo),及準(zhǔn)確率(P)、召回率(R),和F值(F),假設(shè)分析結(jié)果中正確的短語(yǔ)個(gè)數(shù)為A,測(cè)試集中標(biāo)準(zhǔn)的短語(yǔ)數(shù)量為B,分析結(jié)果中的短語(yǔ)數(shù)量為C,則P=A/C, R=A/B, F=2PR/(P+R)。其中,一個(gè)短語(yǔ)分析正確的判斷依據(jù)為: 當(dāng)且僅當(dāng)短語(yǔ)的成分標(biāo)記及邊界劃分均正確。

目前分析器的效果:

B: 9802

C: 9942

A: 6175

precision: 0.621102

recall: 0.629973

f-measure: 0.625506

5.3 實(shí)驗(yàn)結(jié)果分析

表9里出現(xiàn)的“xx”不是內(nèi)部關(guān)系標(biāo)記,而是在分析規(guī)范里規(guī)定的GP、TP、OP這3個(gè)類型的內(nèi)部關(guān)系不標(biāo)注情況,對(duì)原語(yǔ)料進(jìn)行統(tǒng)計(jì)的時(shí)候我們就把這3種類型的內(nèi)部關(guān)系暫時(shí)用“xx”代替統(tǒng)計(jì)出來(lái)了。

對(duì)測(cè)試集1 000條句子進(jìn)行自動(dòng)分析,表8是對(duì)自動(dòng)分析測(cè)試集的各關(guān)系類型在不同結(jié)構(gòu)類型中出現(xiàn)的頻次統(tǒng)計(jì)。表8和表9進(jìn)行對(duì)比,動(dòng)詞短語(yǔ)和名詞短語(yǔ)短語(yǔ)總數(shù)所占比例較高,情態(tài)詞短語(yǔ)、語(yǔ)氣詞短語(yǔ)所占比例最低等數(shù)據(jù)統(tǒng)計(jì)情況上我們得出分析器能較好的產(chǎn)生短語(yǔ)樹結(jié)構(gòu)。在識(shí)別內(nèi)部關(guān)系方面名詞短語(yǔ)的定體關(guān)系、輔助關(guān)系等方面分析器有較好的效果。識(shí)別定體關(guān)系達(dá)94%,輔助關(guān)系達(dá)91.7%??偫P(guān)系出現(xiàn)錯(cuò)誤最多的是在后置詞短語(yǔ)里,在人工標(biāo)注的時(shí)候,后置詞短語(yǔ)不標(biāo)注內(nèi)部關(guān)系,但在分析器里凡是結(jié)構(gòu)類型都有標(biāo)注內(nèi)部關(guān)系,因此表8中后置詞短語(yǔ)里出現(xiàn)了80次的總括關(guān)系和41次的體述關(guān)系。這種情況對(duì)分析器的正確分析內(nèi)部關(guān)系有一定的影響。識(shí)別聯(lián)合關(guān)系也是比較差的,特別是在靜詞性短語(yǔ)里。狀述關(guān)系和賓述關(guān)系涉及到歧義問題,分析器分析錯(cuò)誤出現(xiàn)較多。體述關(guān)系多以主格形式出現(xiàn),主格沒有具體的形式格符號(hào),因此體述關(guān)系的識(shí)別也是有較大的困難。

表9 原語(yǔ)料測(cè)試集的各關(guān)系類型在不同結(jié)構(gòu)類型中出現(xiàn)頻次比例

5.4 錯(cuò)誤實(shí)例分析

在面向人的傳統(tǒng)語(yǔ)法中,短語(yǔ)內(nèi)部關(guān)系的辨別也是有一定的難度,尤其在歧義部分。測(cè)試分析器的測(cè)試集是1 000條句子,句子詞數(shù)最少的有6個(gè)詞,最多的有76個(gè)詞。句子平均長(zhǎng)度為10.777。從測(cè)試結(jié)果上來(lái)看,詞數(shù)越多的句子自動(dòng)分析出現(xiàn)的錯(cuò)誤越多。分析器標(biāo)注形式是括號(hào)相對(duì)應(yīng)方式,分析出來(lái)的標(biāo)注形式如下:

[VP-s[VP-u[NP-d[NP-d Ed-UN/Fc11=JASAG/Yn-VN/Fc11 H0RW_A=T0HIRAGVLVL/Yn]EJEMDE/Ve1+L/L-I/Fc31][VP-u[NP-d VLAM/Dx[NP-d NIGE/Mu ALHVM/Ne1]] CINGGADH_A/Ve1+BA/F4]] ./Wp1](更進(jìn)一步加強(qiáng)財(cái)政宏觀政策。)

[VP-s[VP-u[NP-d DALAI=TANGGIS/Yn-VN/Fc11 EHI=BAYALIG/Yn-I/Fc31][VP-u[NP-d JUI/Ne2 J0HISTAI/Ax][VP-h[NP-s[VP-hNEGEGE/Ve1+N/Fn3 ASIGLA/Ve1+HV/Ft12] BA/Cj]HAMAGALA/Ve1+N_A/F1]]]./Wp1](合理開發(fā)和保護(hù)海洋資源。)

自動(dòng)分析“更進(jìn)一步加強(qiáng)財(cái)政宏觀政策”,在內(nèi)部關(guān)系標(biāo)注上出現(xiàn)錯(cuò)誤。在整個(gè)句子中前半部分[VP-u[NP-d[NP-d Ed-UN/Fc11=JASAG/Yn-VN/Fc11 H0RW_A=T0HIRAGVLVL/Yn]EJEMDE/Ve1+L/L-I/Fc31]和后半部分[VP-u[NP-d VLAM/Dx[NP-d NIGE/Mu ALHVM/Ne1]] CINGGADH_A/Ve1+BA/F4]]是賓述關(guān)系(t),而不是體述關(guān)系(u).因?yàn)椤癊JEMDE/Ve1+L/L-I/Fc31”有賓格“I/Fc31”,這是在說(shuō)前半部分和后半部分是直接的賓述關(guān)系。 在[VP-u[NP-d VLAM/Dx[NP-d NIGE/Mu ALHVM/Ne1]] CINGGADH_A/Ve1+BA/F4]]后半部分里,“CINGGADH_A/Ve1+BA/F4”(加強(qiáng))是中心詞,前面的“VLAM/Dx NIGE/Mu ALHVM/Ne1(更進(jìn)一步)”是修飾加強(qiáng)的程度。它們之間的關(guān)系應(yīng)該是狀述關(guān)系(b),而自動(dòng)分析的句子里出現(xiàn)的是體述關(guān)系(u)。

自動(dòng)分析“合理開發(fā)和保護(hù)海洋資源”,在結(jié)構(gòu)類型和內(nèi)部關(guān)系標(biāo)注上都出現(xiàn)了錯(cuò)誤。前半部分[VP-u[NP-d DALAI=TANGGIS/Yn-VN/Fc11 EHI=BAYALIG/Yn-I/Fc31]和后半部分[VP-u[NP-d JUI/Ne2 J0HISTAI/Ax][VP-h[NP-s[VP-hNEGEGE/Ve1+N/Fn3 ASIGLA/Ve1+HV/Ft12] BA/Cj]HAMAGALA/Ve1+N_A/F1]]]有賓格“I/Fc31”,這是在說(shuō)前半部分和后半部分是直接的賓述關(guān)系。在[VP-u[NP-d JUI/Ne2 J0HISTAI/Ax]部分里,結(jié)構(gòu)類型分析錯(cuò)誤,“JUI/Ne2 J0HISTAI/Ax”應(yīng)該是形容詞性短語(yǔ)(AP),而不是名詞性短語(yǔ)。在[NP-s[VP-hNEGEGE/Ve1+N/Fn3 ASIGLA/Ve1+HV/Ft12] BA/Cj]部分里,“BA”是輔助前面的動(dòng)詞性短語(yǔ)“NEGEGE/Ve1+N/Fn3 ASIGLA/Ve1+HV/Ft12”,所以它的結(jié)構(gòu)類型也是動(dòng)詞性短語(yǔ),而不是名詞性短語(yǔ)。

除了識(shí)別短語(yǔ)結(jié)構(gòu)上出現(xiàn)一些錯(cuò)誤以外,識(shí)別內(nèi)部關(guān)系方面的錯(cuò)誤也比較多。例如,分析動(dòng)詞短語(yǔ)的狀述關(guān)系和賓述關(guān)系的能力各達(dá)到68.43%和60.4%;體述關(guān)系在語(yǔ)料里出現(xiàn)了283次,自動(dòng)分析器分析出來(lái)的句子的體述關(guān)系有1 296次,顯然分析器對(duì)短語(yǔ)結(jié)構(gòu)內(nèi)部關(guān)系的識(shí)別方面需要很大的空間去研究和改進(jìn)。

6 結(jié)論

蒙古語(yǔ)短語(yǔ)樹庫(kù)自動(dòng)分析是蒙古語(yǔ)的句子處理層面上的重點(diǎn)之一。從人工標(biāo)注和自動(dòng)分析情況看,標(biāo)記集所包含的短語(yǔ)結(jié)構(gòu)類型和內(nèi)部關(guān)系類型是合理的,該標(biāo)記集標(biāo)注的樹庫(kù)包含了豐富的句法信息。在此基礎(chǔ)上研制的蒙古語(yǔ)自動(dòng)句法分析器在一定程度上解決了短語(yǔ)結(jié)構(gòu)人工分析的問題。分析器能準(zhǔn)確的產(chǎn)生樹庫(kù)結(jié)構(gòu),這對(duì)蒙古語(yǔ)的句法分析方面也是個(gè)進(jìn)步,但對(duì)短語(yǔ)內(nèi)部關(guān)系方面的處理還沒有取得較好的效果,因此在接下來(lái)的研究中分析錯(cuò)誤句子的同時(shí)還應(yīng)該總結(jié)出錯(cuò)誤點(diǎn),為內(nèi)部關(guān)系的進(jìn)一步研究提供更多的理論依據(jù)。

[1] 王躍龍,姬東鴻.漢語(yǔ)樹庫(kù)綜述[J].當(dāng)代語(yǔ)言學(xué).2009(1): 47-55.

[2] 周強(qiáng).漢語(yǔ)樹庫(kù)標(biāo)注體系[J].中文信息學(xué)報(bào).2004(4): 2-7.

[3] 達(dá)胡白乙拉.現(xiàn)代蒙古語(yǔ)句法結(jié)構(gòu)樹庫(kù)的建設(shè)[J].內(nèi)蒙古大學(xué)學(xué)報(bào).2011(6): 18-30.

[4] 華沙寶.蒙古語(yǔ)短語(yǔ)標(biāo)注策略[J].中央民族大學(xué)學(xué)報(bào).哲學(xué)社會(huì)科學(xué)版.2003(5): 98-100.

[5] 達(dá)胡白乙拉.面向信息處理的蒙古語(yǔ)名詞短語(yǔ)結(jié)構(gòu)研究[D].內(nèi)蒙古大學(xué)碩士學(xué)位論文.2002.

[6] 吉仁花.面向信息處理的蒙古語(yǔ)形容詞短語(yǔ)結(jié)構(gòu)規(guī)則研究[D]. 內(nèi)蒙古大學(xué)碩士學(xué)位論文.2004.

[7] 德·青格樂圖.現(xiàn)代蒙古語(yǔ)固定短語(yǔ)語(yǔ)法信息詞典詳解[M].呼和浩特: 內(nèi)蒙古教育出版社,2005.

[8] 斯·老格勞.現(xiàn)代蒙古語(yǔ)依存句法自動(dòng)分析研究[D].內(nèi)蒙古大學(xué)博士學(xué)位論文.2011.

[9] 德力格爾瑪,高蓮花,其木格.蒙古語(yǔ)與漢語(yǔ)句法結(jié)構(gòu)對(duì)比研究[M].北京: 民族出版社,2013.

[10] 中國(guó)電子標(biāo)準(zhǔn)化研究所、內(nèi)蒙古大學(xué)等.信息技術(shù)-信息處理用蒙古文 詞 語(yǔ) 標(biāo) 記 集 (GB/T 26235—2010)[C].

[11] 包滿亮.蒙古語(yǔ)構(gòu)形詞綴研究[D].中央民族大學(xué)博士學(xué)位論文.2007.

[12] 達(dá)胡白乙拉.蒙古語(yǔ)基本動(dòng)詞短語(yǔ)自動(dòng)識(shí)別研究[J].內(nèi)蒙古大學(xué)博士學(xué)位論文.2005.

[13] 清格爾泰.現(xiàn)代蒙古語(yǔ)語(yǔ)法(修訂版)[M].呼和浩特: 內(nèi)蒙古人民出版社,1999.

[14] 馬驥,朱慕華,肖桐,等.面向移進(jìn)歸約句法分析器的單模型系統(tǒng)整合算法[J].中文信息學(xué)報(bào).2012(3).

猜你喜歡
分析器蒙古語(yǔ)短語(yǔ)
含有“心”一詞蒙古語(yǔ)復(fù)合詞的語(yǔ)義
土默特地方蒙古語(yǔ)地名再探
酒精分析器為什么能分辨人是否喝過酒
論蒙古語(yǔ)中反映心理逆境傾向的某些字的含義
多邊形電極線形離子阱質(zhì)量分析器的結(jié)構(gòu)與性能
應(yīng)用于詞法分析器的算法分析優(yōu)化
俄語(yǔ)詞“Sherti”在蒙古語(yǔ)中的變義(蒙古文)
面向擴(kuò)展文法語(yǔ)義分析器的自動(dòng)生成
龙州县| 云浮市| 买车| 镇巴县| 兴山县| 汾西县| 东莞市| 奎屯市| 洛扎县| 黑龙江省| 九龙县| 长治市| 南木林县| 汤原县| 张家港市| 舞钢市| 望城县| 固始县| 南昌县| 泊头市| 怀柔区| 永年县| 威宁| 黄龙县| 富顺县| 遂平县| 浙江省| 汉源县| 林西县| 东兰县| 涿鹿县| 德州市| 甘谷县| 夏邑县| 楚雄市| 武功县| 正宁县| 尚义县| 西林县| 柘城县| 尤溪县|