国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)學(xué)習(xí)模型的句法分析方法綜述

2013-04-23 10:15:00吳偉成周俊生曲維光
中文信息學(xué)報(bào) 2013年3期
關(guān)鍵詞:子樹短語(yǔ)準(zhǔn)確率

吳偉成,周俊生,曲維光,2

(1.南京師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210023;2. 南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)

1 引言

句法分析是自然語(yǔ)言處理的核心技術(shù),是對(duì)語(yǔ)言進(jìn)行深層理解的基石。句法分析的任務(wù)是識(shí)別出句子所包含的句法成分以及這些成分之間的關(guān)系,一般以句法樹來表示句法分析的結(jié)果。從20世紀(jì)50年代初機(jī)器翻譯課題被提出算起,自然語(yǔ)言處理研究已經(jīng)有60年歷史,句法分析一直是阻礙自然語(yǔ)言處理前進(jìn)的巨大障礙。句法分析主要有以下兩大難點(diǎn):

第一為歧義。自然語(yǔ)言區(qū)別于人工語(yǔ)言的一個(gè)重要的特點(diǎn)就是它存在大量的歧義現(xiàn)象。人類自身可以依靠大量的先驗(yàn)知識(shí)有效地消除各種歧義,而機(jī)器由于在知識(shí)表示和獲取方面還存在嚴(yán)重不足,很難像人類那樣進(jìn)行句法分析消歧。

第二為搜索空間。句法分析是一個(gè)極為復(fù)雜的任務(wù),候選樹個(gè)數(shù)隨句子長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng),搜索空間巨大。因此,必須設(shè)計(jì)出合適的解碼器,以確保能夠在可以容忍的時(shí)間內(nèi)搜索到模型定義的最優(yōu)解或者近似解。

句法分析方法可以簡(jiǎn)單地分為基于規(guī)則的方法和基于統(tǒng)計(jì)的方法兩大類?;谝?guī)則的方法在處理大規(guī)模真實(shí)文本時(shí),會(huì)存在語(yǔ)法規(guī)則覆蓋度有限、系統(tǒng)可遷移性差等缺陷。隨著大規(guī)模標(biāo)注樹庫(kù)的建立,基于統(tǒng)計(jì)學(xué)習(xí)模型的句法分析方法開始興起,句法分析器的性能不斷提高,最典型的就是風(fēng)靡于20世紀(jì)70年代的PCFG(Probabilistic Context Free Grammar,簡(jiǎn)稱PCFG),它在句法分析領(lǐng)域得到了極大應(yīng)用。統(tǒng)計(jì)句法分析模型本質(zhì)上是一套面向候選樹的評(píng)價(jià)方法,給正確的句法樹賦予一個(gè)較高的分值,而給不合理的句法樹賦予一個(gè)較低的分值,這樣就可以借用候選句法樹的分值進(jìn)行消歧。

近些年來,基于統(tǒng)計(jì)學(xué)習(xí)模型的句法分析方法受到了研究者們的廣泛關(guān)注而迅速成為研究熱點(diǎn),多種模型與算法先后被提出。本文依據(jù)采用的學(xué)習(xí)模型和算法類型,將各種統(tǒng)計(jì)句法分析模型歸為以下五類,試圖建立起基于統(tǒng)計(jì)學(xué)習(xí)模型的句法分析方法研究的發(fā)展概貌。

(1) 基于PCFG的生成式句法分析模型?;赑CFG的生成式句法分析模型是利用PCFG規(guī)則所提供的概率信息來得到生成式模型所定義的最優(yōu)樹,解碼方式一般采用線圖算法。按照PCFG規(guī)則形式,基于PCFG的生成式句法分析模型主要有三類方法: 基于單純PCFG的句法分析方法、基于詞匯化PCFG的句法分析方法、基于子類劃分PCFG的句法分析方法。

(2) 基于豐富特征的判別式句法分析模型?;谪S富特征的判別式句法分析模型是將機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)性能良好的判別式結(jié)構(gòu)化預(yù)測(cè)方法應(yīng)用于句法分析領(lǐng)域,目前主要有基于大間隔(max-margin)分析方法和基于CRF的句法分析方法。

(3) 基于移進(jìn)—?dú)w約(shift-reduce)決策的句法分析模型?;谝七M(jìn)—?dú)w約決策句法分析模型是從計(jì)算機(jī)高級(jí)語(yǔ)言的編譯原理中推廣而來,利用分類器對(duì)移進(jìn)和歸約決策進(jìn)行判定,句法分析過程一般采用自底向上、從左到右的方式。

(4) 面向數(shù)據(jù)的句法分析模型(Data Oriented Parsing,簡(jiǎn)稱DOP)。DOP模型是建立在子樹樹庫(kù)的基礎(chǔ)上,通過組合樹庫(kù)中子樹來完成句法分析。目前主要有兩類方法: 基于STSG-DOP (Stochastic Tree Substitution Grammar,簡(jiǎn)稱STSG)方法和基于PCFG-DOP方法。

(5) 多句法分析器的組合。多句法分析器組合是針對(duì)單一模型的局限性所作出的改進(jìn),對(duì)多個(gè)高精度的句法分析器輸出的結(jié)果進(jìn)行合成。目前的合成方式主要有子樹重組合和候選樹重排序。

本文首先概要介紹關(guān)于句法分析的數(shù)據(jù)集與評(píng)測(cè)方法; 然后重點(diǎn)闡述以上五種句法分析模型,著重對(duì)各類模型和算法思想進(jìn)行分析和對(duì)比;接下來,對(duì)中文句法分析的研究現(xiàn)狀進(jìn)行綜述;最后,對(duì)句法分析下一步的研究方向與趨勢(shì)進(jìn)行展望,特別針對(duì)中文句法分析,給出我們的一些想法。

2 句法分析的數(shù)據(jù)集與評(píng)測(cè)方法

2.1 句法分析的數(shù)據(jù)集

目前研究者使用最多的樹庫(kù)來自于美國(guó)賓夕法尼亞大學(xué)加工的英文賓州樹庫(kù)(Penn TreeBank,簡(jiǎn)稱PTB)[1]。PTB前身為ATIS(Air Travel Information System,簡(jiǎn)稱ATIS)和WSJ(Wall Street Journal,簡(jiǎn)稱WSJ)樹庫(kù),具有較高的一致性和標(biāo)注準(zhǔn)確性,是目前研究英文句法分析所公認(rèn)的標(biāo)注語(yǔ)料庫(kù)。

中文樹庫(kù)建設(shè)較晚,比較著名的有中文賓州樹庫(kù)(Chinese TreeBank,簡(jiǎn)稱CTB)[2]、清華樹庫(kù)(Tsinghua Chinese TreeBank,簡(jiǎn)稱TCT)[3]、中國(guó)臺(tái)灣“中研院”樹庫(kù)(Sinica TreeBank)[4]。CTB是賓夕法尼亞大學(xué)標(biāo)注的漢語(yǔ)句法樹庫(kù),目前絕大多數(shù)的中文句法分析研究均以CTB為基準(zhǔn)語(yǔ)料庫(kù)。TCT是清華大學(xué)計(jì)算機(jī)系智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室人員從漢語(yǔ)平衡語(yǔ)料庫(kù)中提取出100萬(wàn)漢字規(guī)模的語(yǔ)料文本,經(jīng)過自動(dòng)句法分析和人工校對(duì),形成高質(zhì)量的標(biāo)注有完整句法結(jié)構(gòu)的中文句法樹庫(kù)語(yǔ)料。Sinica TreeBank是中國(guó)臺(tái)灣“中研院”詞庫(kù)小組從中研院平衡語(yǔ)料庫(kù)(Sinica Corpus)中抽取句子,經(jīng)由電腦自動(dòng)分析成句法樹,并加以人工修改、檢驗(yàn)后所得的成果。

2.2 句法分析的評(píng)測(cè)方法

目前比較主流的句法分析評(píng)測(cè)方法是PARSEVAL評(píng)測(cè)體系[5],它是一種粒度比較適中、較為理想的評(píng)價(jià)方法,主要指標(biāo)有準(zhǔn)確率(precision)、召回率(recall)、交叉括號(hào)數(shù)(crossing brackets)。

準(zhǔn)確率表示分析正確的短語(yǔ)個(gè)數(shù)在句法分析的結(jié)果中所占的比例,即分析結(jié)果中與標(biāo)準(zhǔn)句法樹中的短語(yǔ)相匹配的個(gè)數(shù)占分析結(jié)果中所有短語(yǔ)個(gè)數(shù)的比例。

召回率表示分析得到正確的短語(yǔ)個(gè)數(shù)在標(biāo)準(zhǔn)分析樹全部短語(yǔ)個(gè)數(shù)所占的比例。

交叉括號(hào)表示分析得到的某一個(gè)短語(yǔ)的覆蓋范圍與標(biāo)準(zhǔn)句法分析結(jié)果的某個(gè)短語(yǔ)的覆蓋范圍存在重疊又不存在包含關(guān)系,即構(gòu)成了一個(gè)交叉括號(hào)。

除以上定義指標(biāo)外,F(xiàn)1值也經(jīng)常被用來衡量句法分析器性能。

3 基于PCFG的生成式句法分析模型

基于PCFG的生成式句法分析模型是目前研究最為充分、形式最為簡(jiǎn)單的統(tǒng)計(jì)句法分析模型,最優(yōu)樹Tbest一般采用概率生成式模型計(jì)算,如式(1)所示:

聯(lián)合概率P(T,S)一般是候選句法樹T中所用規(guī)則LHS→RHS的概率乘積,如式(2)所示:

本文按照PCFG規(guī)則形式,將基于PCFG的生成式句法分析模型分為三類方法: 基于單純PCFG的句法分析方法[6]、基于詞匯化PCFG的句法分析方法[6-11]、基于子類劃分PCFG的句法分析方法[12-15]。基于單純PCFG的句法分析方法在計(jì)算樹的概率時(shí)引入三個(gè)基本假設(shè): 位置不變性(place invariance) 假設(shè)、上下文無關(guān)性(context-free) 假設(shè)、祖先節(jié)點(diǎn)無關(guān)性 (ancestor-free) 假設(shè),它的規(guī)則形式最為簡(jiǎn)單?;谠~匯化PCFG的句法分析方法和基于子類劃分PCFG的句法分析方法,是對(duì)單純PCFG方法的改進(jìn),主要表現(xiàn)在對(duì)單純PCFG所做的三個(gè)獨(dú)立性假設(shè)進(jìn)行突破?;谠~匯化PCFG的句法分析方法將短語(yǔ)標(biāo)記與其某個(gè)單詞(一般為它的中心詞)相關(guān)聯(lián),引入詞匯信息進(jìn)行消歧。基于子類劃分PCFG的句法分析方法引入上下文信息對(duì)短語(yǔ)標(biāo)記進(jìn)行細(xì)分,具體做法有利用語(yǔ)言學(xué)知識(shí)自定義規(guī)則來細(xì)分短語(yǔ)標(biāo)記[12-13]和利用機(jī)器學(xué)習(xí)算法自動(dòng)對(duì)短語(yǔ)標(biāo)記進(jìn)行劃分[14-15]。若無特殊說明,以下報(bào)告的結(jié)果均來自于如下實(shí)驗(yàn)設(shè)置: 訓(xùn)練集WSJ 02-21;測(cè)試集WSJ 23。

3.1 基于單純PCFG的句法分析方法

文獻(xiàn)[6]實(shí)現(xiàn)了一種基于單純PCFG的句法分析方法,實(shí)驗(yàn)結(jié)果為: 召回率70.6%,準(zhǔn)確率74.8%。結(jié)果并不理想的主要原因在于它所引入的三個(gè)基本假設(shè)并不符合實(shí)際語(yǔ)言情況,難以解決需要上下文信息才可以消除的句法歧義。為了突破PCFG所做的獨(dú)立性假設(shè),出現(xiàn)了詞匯化PCFG方法和子類劃分PCFG方法。

3.2 基于詞匯化PCFG的句法分析方法

針對(duì)單純PCFG性能低下問題,文獻(xiàn)[6]將每個(gè)短語(yǔ)標(biāo)記引入詞匯信息,詞匯化PCFG的實(shí)驗(yàn)結(jié)果為: 召回率86.7%,準(zhǔn)確率86.6%。同單純PCFG方法相比,召回率和準(zhǔn)確率分別提高了16.1%和11.8%。

為了解決詞匯化PCFG后所帶來的數(shù)據(jù)稀疏問題,目前比較成功的方法有用類似最大熵方式來計(jì)算規(guī)則概率[7]和利用馬爾可夫過程對(duì)規(guī)則進(jìn)行分解[8]。最大熵優(yōu)點(diǎn)在于可以考慮更多的特征,而且可以采用刪除插值(deleted interpolation)平滑方法來解決數(shù)據(jù)稀疏問題。受最大熵啟發(fā),可以用類似最大熵的方式來計(jì)算規(guī)則概率,但該方法計(jì)算出來的概率不再嚴(yán)格歸一,只能看作是評(píng)價(jià)句法樹可能性的分值。該方法的實(shí)驗(yàn)結(jié)果為:召回率89.6%,準(zhǔn)確率89.5%。中心詞驅(qū)動(dòng)模型(head-driven model)將每一條規(guī)則看作一個(gè)馬爾可夫過程,即首先由父節(jié)點(diǎn)生成中心子節(jié)點(diǎn),然后自右向左依次生成中心子節(jié)點(diǎn)左邊節(jié)點(diǎn),最后自左向右依次生成中心子節(jié)點(diǎn)右部節(jié)點(diǎn)。利用馬爾可夫過程對(duì)規(guī)則進(jìn)行分解后,極大緩解了數(shù)據(jù)稀疏問題,該方法的實(shí)驗(yàn)結(jié)果為:召回率88.1%,準(zhǔn)確率88.3%。

為了進(jìn)一步提高詞匯化PCFG句法分析器的性能,可以將重排序(reranking)方法引入到句法分析中,但該方法需要一個(gè)高精度的基準(zhǔn)句法分析器(baseline parser),比較典型的是Collins(1999)[8]中的模型2和Charniak(2000)[7]。Collins(1999)中的模型2采用基于Boosting方法[9]重排序后的結(jié)果為:召回率89.6%,準(zhǔn)確率89.9%,采用樹核方法重排序后的結(jié)果為:召回率88.6%,準(zhǔn)確率88.9%,雖然結(jié)果略低于前者,但算法效率得到了提高[10]。Charniak(2000)采用最大熵方法[11]重排序后的F1值為91.0%。

3.3 基于子類劃分PCFG的句法分析方法

與單純PCFG方法相比,詞匯化PCFG方法取得了一定的成功,但同時(shí)也產(chǎn)生了非常嚴(yán)重的三大問題: 規(guī)則數(shù)量急劇上升、數(shù)據(jù)稀疏問題嚴(yán)重、解析算法復(fù)雜度增加。于是,人們不禁要問: 研究者有沒有高估詞匯信息在句法分析的作用,非詞匯化PCFG方法是否還有提高的潛能?文獻(xiàn)[12]研究了句法樹表示方法與PCFG性能之間的關(guān)系,在理論和實(shí)踐上說明了基于PCFG的句法分析器的性能會(huì)隨著句法樹表示方法的不同而急劇變化。通過為句法樹中的每個(gè)結(jié)點(diǎn)引入其父節(jié)點(diǎn)短語(yǔ)標(biāo)記,句法分析的F1值就可以提高8個(gè)百分點(diǎn)。該實(shí)驗(yàn)結(jié)果表明: 樹庫(kù)中的短語(yǔ)標(biāo)記粒度過粗,區(qū)分度不夠,缺少用于消歧的上下文信息。

根據(jù)短語(yǔ)在句法樹中的上下文信息,可以自定義規(guī)則對(duì)短語(yǔ)標(biāo)記進(jìn)行細(xì)分,所利用的上下文信息一般包括父節(jié)點(diǎn)和兄弟節(jié)點(diǎn)短語(yǔ)標(biāo)記等。文獻(xiàn)[13]在整個(gè)實(shí)驗(yàn)中,除詞性標(biāo)注外,未使用任何詞匯信息,實(shí)驗(yàn)結(jié)果為: 召回率85.1%,準(zhǔn)確率86.3%。雖然性能劣于詞匯化PCFG方法,但該方法非常簡(jiǎn)單、容易理解、易于實(shí)現(xiàn)。因此,文獻(xiàn)[13]獲得了2003年ACL大會(huì)的最佳論文獎(jiǎng)。

利用EM算法可以自動(dòng)對(duì)短語(yǔ)標(biāo)記進(jìn)行劃分[14-15]。它首先為原始規(guī)則A→BC中短語(yǔ)標(biāo)記分別標(biāo)注一個(gè)整數(shù)類別x、y、z,然后在E步,計(jì)算標(biāo)注規(guī)則的期望次數(shù),如式(3)所示:

其中,Pout和PIn分別為內(nèi)部概率和外部概率;r、s和t為規(guī)則的跨度(span);

在M步,通過以上得到的期望次數(shù)去更新規(guī)則概率,如式(4)所示:

可以每次將短語(yǔ)標(biāo)記劃分為兩個(gè)子類,然后合并區(qū)分不大的劃分。該方法實(shí)驗(yàn)中使用子類劃分后的樹庫(kù)語(yǔ)料,實(shí)驗(yàn)結(jié)果為: 召回率89.9%,準(zhǔn)確率90.2%。

4 基于豐富特征的判別式句法分析模型

隨著機(jī)器學(xué)習(xí)領(lǐng)域的蓬勃發(fā)展,多種結(jié)構(gòu)化學(xué)習(xí)模型先后被提出。判別式的結(jié)構(gòu)化學(xué)習(xí)模型具有可以融合大量有效特征,且能避免在生成式學(xué)習(xí)模型中需引入的獨(dú)立性假設(shè)等優(yōu)點(diǎn),在實(shí)際應(yīng)用中一般比生成式方法性能要好。基于豐富特征的判別式句法分析模型是將機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的判別式結(jié)構(gòu)化學(xué)習(xí)模型應(yīng)用于句法分析領(lǐng)域,并借用豐富特征來消解句法分析過程中所產(chǎn)生的歧義。目前主要有基于大間隔的句法分析方法[16]和基于CRF的句法分析方法[17]。

4.1 基于大間隔的句法分析方法

大間隔馬爾可夫網(wǎng)絡(luò)(Max-Margin Markov Networks,簡(jiǎn)稱M3N)融合了SVM的大間隔理論與概率圖模型處理結(jié)構(gòu)關(guān)系的能力[18],可以解決復(fù)雜的結(jié)構(gòu)化預(yù)測(cè)問題,因此可以將它應(yīng)用到句法分析上[16]。

判別函數(shù)采用如下形式:

其中,Φ(x,y)代表與x相對(duì)應(yīng)的句法樹y的特征向量;w代表特征權(quán)重;

間隔定義為樣本與輸出y在權(quán)值w上的差值。如式(6)所示:

然后最小化權(quán)重w:

(7)

其中Li,y為損失函數(shù),ξi為松弛變量。

以上優(yōu)化問題的對(duì)偶形式為:

(8)

其中Ii,y=I(xi,yi,y),指示y與yi是否相同;

主問題的解w*就是正確和錯(cuò)誤句法樹特征向量的線性組合,如式(9)所示:

其中α*是對(duì)偶問題的解。

由于主公式和對(duì)偶公式中的變量個(gè)數(shù)隨句子長(zhǎng)度呈指數(shù)級(jí)增長(zhǎng),因此該文對(duì)模型進(jìn)行了分解,將參數(shù)數(shù)目降為多項(xiàng)式級(jí),最終用類似SMO的方式進(jìn)行參數(shù)學(xué)習(xí)。該模型在WSJ15(長(zhǎng)度小于等于15的句子)上的實(shí)驗(yàn)結(jié)果為: 召回率89.1%,準(zhǔn)確率89.1%。

針對(duì)M3N模型訓(xùn)練速度問題,可以采用多個(gè)獨(dú)立而且可以并行訓(xùn)練的二元分類器來代替它,每個(gè)二元分類器用于識(shí)別一個(gè)短語(yǔ)標(biāo)記,句法分析任務(wù)就是通過組合這些分類器來完成,因此分類器的訓(xùn)練速度可以得到很大提高[19-20]。該方法在WSJ15上的實(shí)驗(yàn)結(jié)果為: 召回率89.2%,準(zhǔn)確率89.6%。

4.2 基于CRF的句法分析方法

與基于PCFG的生成式模型相比,采用CRF模型進(jìn)行句法分析,主要不同點(diǎn)在于產(chǎn)生式的概率計(jì)算方法和概率歸一化的方式[17]。該模型最大化句法樹的條件概率值而不是聯(lián)合概率值,并且對(duì)概率進(jìn)行全局歸一化。

候選句法樹的概率估算形式如式(10):

互聯(lián)網(wǎng)的出現(xiàn),改變了我們的生活方式與學(xué)習(xí)方式,也對(duì)教育行業(yè)提出了新的挑戰(zhàn),近年來,網(wǎng)絡(luò)教學(xué)已經(jīng)受到越來越多國(guó)內(nèi)外高校的重視網(wǎng)絡(luò),網(wǎng)絡(luò)與教育相結(jié)合的呼聲日益高漲?!禞ava程序設(shè)計(jì)》課程是計(jì)算機(jī)專業(yè)的主修設(shè)計(jì)課程之一,是一門概念抽象且注重實(shí)踐性的專業(yè)課程。對(duì)于該課程來說,傳統(tǒng)的教學(xué)模式比較單一,課程講解起來不易理解,如何將泛雅平臺(tái)應(yīng)用于《Java程序設(shè)計(jì)》課程的教學(xué)成了各大高校的重中之重。

團(tuán)勢(shì)函數(shù)(clique potentials) 采用的是指數(shù)形式:

訓(xùn)練數(shù)據(jù)的log似然值為:

以上log似然值對(duì)θi求偏導(dǎo)數(shù)就是特征的經(jīng)驗(yàn)期望與模型期望之間的差值:

該模型在WSJ15實(shí)驗(yàn)結(jié)果為: 召回率90.4%;準(zhǔn)確率為91.4%,在整個(gè)測(cè)試集上實(shí)驗(yàn)結(jié)果為: 召回率87.8%,準(zhǔn)確率88.2%。

5 基于移進(jìn)—?dú)w約決策的句法分析模型

基于移進(jìn)—?dú)w約決策句法分析模型是用一個(gè)寄存符號(hào)的先進(jìn)后出的棧S,把存在隊(duì)列Q里面的輸入符號(hào)一個(gè)一個(gè)地移進(jìn)到棧里,當(dāng)棧頂形成某個(gè)規(guī)則的一個(gè)候選式時(shí),就把棧頂?shù)倪@一部分歸約為該規(guī)則的左部符號(hào)。決策判定,即執(zhí)行移進(jìn)還是歸約動(dòng)作,是由分類器根據(jù)當(dāng)前句法分析狀態(tài)(S和Q的內(nèi)容)給出。由此可見,移進(jìn)—?dú)w約決策句法分析采用了自底向上、從左到右的分析過程。該方法的句法分析時(shí)間復(fù)雜度為O(n),其中n是句子長(zhǎng)度[21]。

早期移進(jìn)—?dú)w約決策的句法分析器中采用right、left、up、unary、 root五類決策類別[22-23]。right up left分別表示新節(jié)點(diǎn)的起始節(jié)點(diǎn)、中間節(jié)點(diǎn)、末節(jié)點(diǎn),即right up left 表示可以歸為一個(gè)新的短語(yǔ),unary表示要進(jìn)行一元?dú)w約,root表示句法分析任務(wù)結(jié)束。早期主要有采用決策樹和最大熵對(duì)以上類別進(jìn)行分類。決策樹所用到的特征包括了詞的類別,這些類別需要用聚類方法得到,花費(fèi)的計(jì)算代價(jià)很高,解碼過程分兩階段完成,雖然引入剪枝策略,與蠻力法相比,相對(duì)高效地得到了模型定義的最優(yōu)解,但是對(duì)于某些句子,解碼器的搜索空間仍然巨大[22]。最大熵分類器只用到了詞本身信息,與決策樹相比,模型訓(xùn)練的代價(jià)較小,解碼方式采用了BeamSearch方法,雖然有可能得不到模型所定義的最優(yōu)解,但算法的執(zhí)行效率得到了提高。決策樹的實(shí)驗(yàn)結(jié)果為: 召回率84.0%,準(zhǔn)確率84.3%。最大熵的實(shí)驗(yàn)結(jié)果為: 召回率86.3%,準(zhǔn)確率87.5%。

最近比較流行的移進(jìn)—?dú)w約句法分析器將決策類別分為四大類[24]: SHIFT、REDUCE-unary-X、REDUCE-binary-{L/R}-X、TERMINATE。SHIFT表示從隊(duì)列Q中移出一個(gè)詞語(yǔ)到棧S中;REDUCE-unary-X表示將要進(jìn)行一元?dú)w約,新生成節(jié)點(diǎn)X;REDUCE-binary{L/R}-X表示進(jìn)行二元?dú)w約,新生成節(jié)點(diǎn)X,L和R表示X的中心詞來自于左孩子節(jié)點(diǎn)還是右孩子節(jié)點(diǎn)。TERMINATE表示句法分析任務(wù)結(jié)束。要訓(xùn)練得到基于以上四類決策的句法分析器,需要對(duì)樹庫(kù)進(jìn)行二元轉(zhuǎn)換(binarization transform),X表示二元轉(zhuǎn)換過后的短語(yǔ)標(biāo)記。雖然決策類別很多,但是分類器的分類性能很高(我們?cè)佻F(xiàn)了文獻(xiàn)[43]中的結(jié)果,決策類別達(dá)到76個(gè),但是分類精度高達(dá)94.7%)。目前主要基于SVM和感知器的移進(jìn)—?dú)w約句法分析器,SVM句法分析結(jié)果為: 召回率87.6%,準(zhǔn)確率87.5%,雖然結(jié)果略低于詞匯化PCFG模型,但句法分析速度得到了很大的提高[21]。感知器方法從全局角度對(duì)決策進(jìn)行了考量,在CTB上取得了非常好的結(jié)果[24]。

基于移進(jìn)—?dú)w約決策的句法分析模型應(yīng)用于中文時(shí)對(duì)詞性非常敏感,文獻(xiàn)[24]顯示: 基于正確詞性標(biāo)注與基于自動(dòng)詞性標(biāo)注(標(biāo)注精度為93.5%)的句法分析實(shí)驗(yàn)的F1值相差高達(dá)9.4個(gè)百分點(diǎn),主要原因是中文詞性標(biāo)注精度不高和該方法需要考慮大量的詞性作為特征。

6 面向數(shù)據(jù)的句法分析模型

DOP模型是建立在包含大量語(yǔ)言現(xiàn)象的樹庫(kù)基礎(chǔ)上,通過組合數(shù)庫(kù)中的子樹來實(shí)現(xiàn)句法分析任務(wù)。與基于PCFG的句法分析模型相比,可以將DOP模型中的子樹看作文法,PCFG規(guī)則是DOP模型文法特殊形式,即子樹的高度為1。

本節(jié)首先介紹最優(yōu)樹的定義準(zhǔn)則,然后介紹兩種主流的利用DOP模型進(jìn)行句法分析的方法: STSG-DOP方法[25-27]和PCFG-DOP方法[28-31]。STSG-DOP方法將DOP思想歸結(jié)為子樹替換過程,而PCFG-DOP方法將STSG-DOP中的子樹文法轉(zhuǎn)化為PCFG形式,減少了文法的數(shù)量,提高了句法分析的速度。

6.1 最優(yōu)樹的定義準(zhǔn)則

DOP模型一個(gè)重要特征就是可能有多個(gè)有效推導(dǎo)d對(duì)應(yīng)于同一棵候選樹T,這就涉及到模型所定義的最優(yōu)樹Tbest準(zhǔn)則問題。就目前DOP模型的研究,主要有以下六種準(zhǔn)則:

第一個(gè)準(zhǔn)則為最有可能推導(dǎo)(the Most Probable Derivation,簡(jiǎn)稱MPD)。MPD是在所有可能的有效推導(dǎo)中,找出概率最大的一個(gè)有效推導(dǎo),如式(14)所示:

第二個(gè)準(zhǔn)則為最有可能分析(the Most Probable Parse,簡(jiǎn)稱MPP)。在MPP中,句法樹T的概率是與T對(duì)應(yīng)的所有可能推導(dǎo)dT的概率累加和,如式(15)所示:

計(jì)算MPP是NP-hard問題[32],一般采用近似搜索算法,例如Viterbi-n-best方法[27,29]。

第三個(gè)準(zhǔn)則為最大成分分析(the Maximum Constituents Parse,簡(jiǎn)稱MCP)。MCP考慮了每一個(gè)短語(yǔ)cT正確的可能性,挑出具有最大成分的候選樹T,如式(16)所示:

MCP是對(duì)MPP的近似,可以采用動(dòng)態(tài)規(guī)劃算法高效地計(jì)算MCP[28]。

第四個(gè)準(zhǔn)則為最大規(guī)則和(the Max Rule Sum,簡(jiǎn)稱 MRS)。MRS是由MCP推廣而來,候選樹T的概率是T中所有規(guī)則rT的后驗(yàn)概率累加和,如式(17)所示:

第五個(gè)準(zhǔn)則為最大規(guī)則積(the Max Rule Production,簡(jiǎn)稱MRP)。MRP與MRS類似,將MRS中的累加符號(hào)改為累乘符號(hào),如式(18)所示:

MRP的性能一般要優(yōu)于MRS[15]。

第六個(gè)準(zhǔn)則為最短推導(dǎo)(Shortest Derivation,簡(jiǎn)稱SD)。以上五種準(zhǔn)則是基于概率,而SD是基于推導(dǎo)的長(zhǎng)度,選取具有最短長(zhǎng)度的推導(dǎo),如式(19)所示:

從子樹的大小來說,SD是比較傾向于大子樹。最短推導(dǎo)可能有多個(gè),一般要對(duì)最短推導(dǎo)進(jìn)行排序處理[33]。

6.2 基于STSG-DOP方法

STSG-DOP[25,34]通過組合樹庫(kù)中的子樹來完成句法分析。其中,最基本的操作是替換(substitution),句法樹概率是通過計(jì)算子樹的頻度得到。

STSG-DOP方法在ATIS樹庫(kù)上取得了成功,但是為了計(jì)算MPP,采用Monte Carlo采樣算法[26],由于該算法的隨機(jī)性和缺少應(yīng)用該算法的進(jìn)一步細(xì)節(jié),有些研究者并不承認(rèn)該方法在ATIS樹庫(kù)上的結(jié)果[28]。但隨著各種近似搜索算法和最優(yōu)樹準(zhǔn)則的出現(xiàn),Bod等人摒棄了Monte Carlo算法,出現(xiàn)了結(jié)果可再現(xiàn)的高性能句法分析器[27,29-31],使得越來越多的研究者開始關(guān)注DOP模型。

由于STSG子樹的數(shù)量非常大,而且極其冗余,從理論和計(jì)算的角度,都需要對(duì)數(shù)庫(kù)中的子樹進(jìn)行限制。這自然會(huì)產(chǎn)生一個(gè)想法: 是否可以減少子樹數(shù)量同時(shí)又可以提高句法分析器的性能?文獻(xiàn)[27]針對(duì)該問題在WSJ樹庫(kù)上進(jìn)行了研究,分別考察了子樹大小、詞匯化上下文、結(jié)構(gòu)上下文、非中心詞依賴,在WSJ40(長(zhǎng)度小于等于40的句子)上的實(shí)驗(yàn)表明: 對(duì)子樹進(jìn)行限制確實(shí)能夠提高句法分析的性能。該文最后將WSJ40取得最好性能的子樹選取方法應(yīng)用在標(biāo)準(zhǔn)測(cè)試集上,實(shí)驗(yàn)結(jié)果為: 召回率89.7%,準(zhǔn)確率89.7%,結(jié)果略高于之前詞匯化模型Charniak(2000)[7],與當(dāng)時(shí)的Collins(2000)[9]的結(jié)果相當(dāng)。

6.3 基于PCFG-DOP方法

PCFG-DOP方法[28]將子樹中的每一個(gè)外部節(jié)點(diǎn)(exterior non-terminal)對(duì)應(yīng)于8種PCFG規(guī)則,使得文法數(shù)量隨樹庫(kù)大小呈線性增長(zhǎng),與STSG-DOP相比,文法數(shù)量急劇下降。

PCFG-DOP方法在文獻(xiàn)[27]子樹選取的基礎(chǔ)上的實(shí)驗(yàn)結(jié)果為: 召回率89.5%,準(zhǔn)確率89.7%,雖然召回率略低于文獻(xiàn)[27] (相差0.2%),但句法分析的速度提高了60倍[29]。結(jié)合SD和MPP準(zhǔn)則可以形成兩種DOP模型[29]: LS-DOP和SL-DOP,SL-DOP是從N種概率值最高的候選樹中,選出推導(dǎo)長(zhǎng)度最短的句法樹,LS-DOP是從N種推導(dǎo)最短的候選句法樹中,選出概率值最高的句法樹。SL-DOP實(shí)驗(yàn)結(jié)果為: 召回率90.7%,準(zhǔn)確率90.8%,LS-DOP實(shí)驗(yàn)結(jié)果為: 召回率89.4%,準(zhǔn)確率89.7%。

為了能夠高效地利用DOP模型進(jìn)行句法分析,可以對(duì)子樹樹庫(kù)規(guī)模和文法形式進(jìn)行改進(jìn): 規(guī)定樹庫(kù)中的子樹數(shù)量必須大于等于2(可以利用樹核算法高效地抽取所有滿足條件的子樹[31]),將子樹的根節(jié)點(diǎn)和葉節(jié)點(diǎn)分別映射為PCFG規(guī)則的左部和右部,文獻(xiàn)[31]的Tbest準(zhǔn)則采用MRS,實(shí)驗(yàn)的F1值為89.1%。

由于PCFG-DOP方法的文法數(shù)量相對(duì)較少,可以利用樹庫(kù)中的所有子樹進(jìn)行句法分析,文獻(xiàn)[30]的Tbest準(zhǔn)則采用MRP,實(shí)驗(yàn)的F1值為88.1%,雖然結(jié)果低于子樹選取后的結(jié)果,但是并沒有付出昂貴的代價(jià)進(jìn)行子樹選取也沒有引入詞匯信息。

7 多句法分析器的組合

以上介紹的幾種句法分析模型有個(gè)共同的缺點(diǎn): 最佳句法樹Tbest都是基于單一模型定義的,得到的最優(yōu)解并不一定最接近實(shí)際情況。近些年來,針對(duì)單一模型的局限性,另一個(gè)研究重點(diǎn)放在多個(gè)句法分析器組合上。這種方法是利用多個(gè)高精度的基準(zhǔn)句法分析器(baseline parser)輸出多個(gè)高概率值結(jié)果,并結(jié)合豐富句法結(jié)構(gòu)特征對(duì)它們進(jìn)行合成處理。目前合成方式主要有子樹重組合[35-36]和候選樹重排序[37]。子樹重組合是對(duì)候選樹中的子樹進(jìn)行重組,形成一個(gè)新的最優(yōu)的句法樹。候選樹重排序是對(duì)候選樹分值進(jìn)行重新估算,選出分值最高的候選樹作為最后的分析結(jié)果。

子樹重組合主要有投票方法和權(quán)重相加法。投票法就是首先統(tǒng)計(jì)各子樹在候選樹上的頻度,然后選擇頻度最多的子樹來組合成一棵新的句法樹,該方法得到的結(jié)果偏向于準(zhǔn)確率[35]。權(quán)重相加法就是利用CKY算法將跨度相同短語(yǔ)標(biāo)記間的成分權(quán)值相加,最后得到能夠覆蓋整個(gè)句子的概率值最大的句法樹,該方法得到的實(shí)驗(yàn)結(jié)果偏向于召回率,為了調(diào)和準(zhǔn)確率和召回率,一般要引入閾值對(duì)候選子樹進(jìn)行剪枝[36]。文獻(xiàn)[35]采用投票方法,在實(shí)驗(yàn)中采用三個(gè)高精度的基準(zhǔn)句法分析器,最優(yōu)性能為: 召回率88.5%,準(zhǔn)確率88.7%,進(jìn)行子樹重組合后,實(shí)驗(yàn)結(jié)果為: 召回率89.2%,準(zhǔn)確率92.1%。文獻(xiàn)[36]采用權(quán)重相加法,在實(shí)驗(yàn)中采用五個(gè)高精度的句法分析器,最優(yōu)性能為: 召回率90.6%,準(zhǔn)確率91.3%,子樹重組合后實(shí)驗(yàn)結(jié)果為: 召回率91.0%,準(zhǔn)確率93.2%。

子樹重組合的優(yōu)點(diǎn)在于利用到了多個(gè)高精度的基準(zhǔn)句法分析器,但存在兩個(gè)不足點(diǎn): 第一,每一個(gè)句法分析器只輸出一個(gè)結(jié)果;第二,沒有利用到候選句法樹的起始概率值,雖然不同句法分析器輸出的候選樹的概率值不可比較。候選樹重排序方法繼承了子樹重組合的優(yōu)點(diǎn),并針對(duì)其缺點(diǎn)進(jìn)行了改進(jìn),即讓每個(gè)基準(zhǔn)句法分析器都輸出多個(gè)最優(yōu)結(jié)果,并且將句法樹的起始概率值作為主要特征。文獻(xiàn)[37]進(jìn)行了候選樹重排序,基準(zhǔn)句法分析器采用Charniak(2000)[7]和Petrov(2007)[15],并且讓這兩個(gè)句法分析器分別輸出最優(yōu)的50個(gè)結(jié)果,實(shí)驗(yàn)的F1值為92.6%。

為了便于比較分析,表1列出了各種句法分析方法在英文賓州樹庫(kù)上的句法分析性能。

表1 句法分析器性能比較

續(xù)表

8 中文句法分析的研究現(xiàn)狀

與英文句法分析相比,中文句法分析的研究相對(duì)較晚。按照上文的分類方法,以下將簡(jiǎn)單綜述中文句法分析的研究現(xiàn)狀。若無特殊說明,以下報(bào)告的結(jié)果均來自于如下實(shí)驗(yàn)設(shè)置: 訓(xùn)練集CTB 001-270;測(cè)試集CTB 271-300(基于正確分詞且句子長(zhǎng)度小于等于40)。

在單純PCFG方法方面,文獻(xiàn)[38]利用內(nèi)向—外向算法,從已有小規(guī)模中文賓州樹庫(kù)中提取規(guī)則,利用大規(guī)模已做好分詞標(biāo)注的語(yǔ)料庫(kù)對(duì)規(guī)則進(jìn)行訓(xùn)練,并針對(duì)漢語(yǔ)的特點(diǎn)(特別是漢語(yǔ)虛詞的特點(diǎn)),引入句法結(jié)構(gòu)共現(xiàn)的概念來減弱PCFG的獨(dú)立性假設(shè)。實(shí)驗(yàn)結(jié)果表明,引入句法結(jié)構(gòu)共現(xiàn)概率能夠提高句法分析器的準(zhǔn)確率和召回率。

在詞匯化PCFG方面,文獻(xiàn)[39]將Collins的中心詞驅(qū)動(dòng)模型應(yīng)用于中文,實(shí)驗(yàn)結(jié)果為: 召回率78.0%,準(zhǔn)確率81.2%。文獻(xiàn)[40]在中心詞驅(qū)動(dòng)模型的基礎(chǔ)上,提出了基于語(yǔ)義的模型,并且對(duì)基本名詞做了特殊處理,實(shí)驗(yàn)結(jié)果為: 召回率78.7%,準(zhǔn)確率80.1%(訓(xùn)練集: CTB 026-270)。文獻(xiàn)[41]提出了一個(gè)兩級(jí)的中文句法分析方法,基本短語(yǔ)和復(fù)雜短語(yǔ)分別被詞匯化的馬爾可夫模型和中心驅(qū)動(dòng)模型所識(shí)別,實(shí)驗(yàn)語(yǔ)料采用哈爾濱工業(yè)大學(xué)樹庫(kù),單一模型(中心驅(qū)動(dòng)模型)實(shí)驗(yàn)結(jié)果為: 召回率86.4%,準(zhǔn)確率86.3%;兩級(jí)的句法分析模型實(shí)驗(yàn)結(jié)果為: 召回率88.0%,準(zhǔn)確率87.5%。

在子類劃分PCFG方面,文獻(xiàn)[42]自定義規(guī)則對(duì)短語(yǔ)標(biāo)記進(jìn)行劃分,引入短語(yǔ)標(biāo)記的上下文信息,提出了結(jié)構(gòu)上下文相關(guān)的概率句法分析模型。實(shí)驗(yàn)結(jié)果表明,引入結(jié)構(gòu)的上下文信息確實(shí)能夠提高句法分析的性能。文獻(xiàn)[15]將自動(dòng)劃分短語(yǔ)標(biāo)記的方法應(yīng)用于中文,實(shí)驗(yàn)結(jié)果為: 召回率85.7%,準(zhǔn)確率86.9%(訓(xùn)練集: CTB 001-270,400-1151)。

在移進(jìn)—?dú)w約決策句法分析方面,文獻(xiàn)[43]將移進(jìn)—?dú)w約決策句法分析模型應(yīng)用于中文,實(shí)現(xiàn)了一個(gè)高速、準(zhǔn)確的確定性中文句法分析器,采用SVM分類器的實(shí)驗(yàn)結(jié)果為: 召回率78.1%,準(zhǔn)確率81.1%。文獻(xiàn)[24]利用全局線性模型對(duì)決策類別進(jìn)行了預(yù)測(cè),實(shí)驗(yàn)結(jié)果為: 召回率80.2%,準(zhǔn)確率80.5%;文獻(xiàn)[44]對(duì)移進(jìn)—?dú)w約決策方法進(jìn)行了擴(kuò)展,實(shí)現(xiàn)了層次式句法分析模型。該方法將句法樹的構(gòu)建轉(zhuǎn)換為層次標(biāo)注問題,分類器采用最大熵,實(shí)驗(yàn)結(jié)果為: 召回率76.5%,準(zhǔn)確率80.0%。文獻(xiàn)[45]又將層次式句法分析模型與語(yǔ)義角色標(biāo)注進(jìn)行了聯(lián)合學(xué)習(xí),緩解了語(yǔ)義分析對(duì)句法分析結(jié)果的依賴,同時(shí)又提高了兩者的性能。

在多句法分析器組合方面,文獻(xiàn)[37] 以Charniak(2000)[7]和Petrov(2007)[15]句法分析器各產(chǎn)生的50-best候選樹作為輸入,系統(tǒng)合成后,在整個(gè)測(cè)試集上實(shí)驗(yàn)的F1值為85.5%(訓(xùn)練集: CTB 001-270,400-1151)。

9 總結(jié)與展望

近十幾年來,英文句法分析有了長(zhǎng)足的發(fā)展,而且已日趨成熟。它的研究趨勢(shì)主要基于以下兩點(diǎn):

第一點(diǎn)就是基于樹庫(kù)的文法受到了研究者的青睞。與早期的方法相比,現(xiàn)在的句法分析方法更強(qiáng)調(diào)從真實(shí)的樹庫(kù)中獲取文法知識(shí),例如詞匯化PCFG方法、面向數(shù)據(jù)的句法分析方法,使得訓(xùn)練出來的模型更加符合實(shí)際情況,因而促進(jìn)了句法分析性能的提高。

第二點(diǎn)就是統(tǒng)計(jì)學(xué)習(xí)理論在句法分析領(lǐng)域扮演越來越重要的作用。隨著各種統(tǒng)計(jì)學(xué)習(xí)算法的提出,研究者開始將各種可以集成豐富上下文特征的判別式學(xué)習(xí)模型引入到句法分析領(lǐng)域,例如: 應(yīng)用結(jié)構(gòu)化學(xué)習(xí)模型CRF和大間隔方法實(shí)現(xiàn)句法分析,針對(duì)傳統(tǒng)生成式模型的不足實(shí)現(xiàn)了理論上的改進(jìn)。

同時(shí)也可以看出,這兩個(gè)因素也引發(fā)了一些問題。詞匯化PCFG方法帶來了非常嚴(yán)重的三大問題,造成訓(xùn)練和測(cè)試時(shí)需要巨大的時(shí)空開銷。STSG-DOP方法子樹數(shù)量巨大,雖然出現(xiàn)了PCFG-DOP方法,減少了文法數(shù)量,但是仍然非常冗余,因此,子樹的選取也是DOP模型非常值得研究的課題。與傳統(tǒng)的生成式模型相比,大間隔方法和CRF方法等判別式學(xué)習(xí)模型的消歧能力更強(qiáng),但模型的復(fù)雜度也更高,例如M3N模型在WSJ15上訓(xùn)練就需要幾個(gè)月時(shí)間[17]。因此,在應(yīng)用一些有效的判別式學(xué)習(xí)模型實(shí)現(xiàn)句法分析任務(wù)時(shí),如何利用句法樹結(jié)構(gòu)的特性設(shè)計(jì)和實(shí)現(xiàn)更有效地學(xué)習(xí)和訓(xùn)練算法也將會(huì)是下一步研究的熱點(diǎn)。

值得一提的是,子類劃分PCFG方法和移進(jìn)—?dú)w約方法另辟蹊徑,取得了比較好的性能。子類劃分PCFG方法較好地克服了詞匯化PCFG的固有缺點(diǎn),而且是當(dāng)今精度最高的單一句法分析模型之一。另外,基于移進(jìn)—?dú)w約決策的句法分析模型將傳統(tǒng)的利用線圖算法進(jìn)行句法分析的過程轉(zhuǎn)化為一系列基于分類器的移進(jìn)和歸約決策分類過程,而決策分類可以采用決策樹、最大熵、SVM等性能良好的分類器。該句法分析模型具有很強(qiáng)的靈活性和可擴(kuò)充性。而且該模型應(yīng)用于中文時(shí)取得了較好的性能,且具有句法分析速度快等優(yōu)點(diǎn)。

中文句法分析相對(duì)于英文句法分析還有很長(zhǎng)的路要走,但可以借鑒英文句法分析,譬如將大間隔和CRF等判別式學(xué)習(xí)模型,以及DOP方法應(yīng)用于中文,相信可以取得性能的提高?;谏鲜龇治?,我們提出一些關(guān)于改善中文句法分析的幾點(diǎn)思路。

(1) 近些年,依存句法分析成為研究熱點(diǎn),依存樹反應(yīng)了詞匯間的依存關(guān)系,屬于語(yǔ)義范疇,提供了比單純?cè)~匯更為豐富的信息,因此更加有利于消歧。文獻(xiàn)[46]利用依存結(jié)構(gòu)來輔助句法分析,采用單純PCFG實(shí)驗(yàn)結(jié)果就與詞匯化PCFG性能相當(dāng),充分說明了語(yǔ)義信息對(duì)句法分析的作用。受該文啟發(fā),可以利用依存結(jié)構(gòu)來輔助其他句法分析模型,也可以將句法分析與后續(xù)語(yǔ)義分析任務(wù)進(jìn)行聯(lián)合學(xué)習(xí),以緩解句法分析對(duì)語(yǔ)義信息的嚴(yán)重依賴。

(2) 文獻(xiàn)[43]在句法分析過程中孤立地在每個(gè)步驟應(yīng)用分類器進(jìn)行移進(jìn)和歸約決策,而沒有考慮每個(gè)移進(jìn)—?dú)w約決策的全局效果。文獻(xiàn)[24]雖然對(duì)文獻(xiàn)[43]的方法進(jìn)行一些改進(jìn),但使用的解碼算法只是一個(gè)近似搜索算法,并不能在迭代過程中搜索出全局最優(yōu)的移進(jìn)和歸約決策序列,且感知器并不是一個(gè)具有良好泛化性能的學(xué)習(xí)器,因而,該方法在理論上并沒有很強(qiáng)的、自然的保證。近來,文獻(xiàn)[47] 提出了一種新的基于搜索的結(jié)構(gòu)化預(yù)測(cè)學(xué)習(xí)算法SEARN,將復(fù)雜的結(jié)構(gòu)化預(yù)測(cè)問題轉(zhuǎn)換為簡(jiǎn)單的代價(jià)敏感分類問題,且在理論上對(duì)該算法的有效性進(jìn)行了分析和證明。因此,可以考慮將SEARN算法應(yīng)用到基于移進(jìn)—?dú)w約決策的句法分析模型上,相信能夠?qū)崿F(xiàn)一個(gè)性能良好的中文句法分析器。

(3) 由于漢語(yǔ)缺乏形態(tài)變化,目前主流的中文句法分析所用的詞類標(biāo)記和短語(yǔ)標(biāo)記并不能反映其語(yǔ)法功能,而且相同條件下中英文句法分析的結(jié)果相差較大[48],因此,有必要進(jìn)一步研究適合中文自身特點(diǎn)的句法分析器。陳小荷教授提出了徹底按照詞的語(yǔ)法功能來劃分漢語(yǔ)詞類[49]以及基于語(yǔ)法功能匹配句法分析的設(shè)想。文獻(xiàn)[50]通過實(shí)踐驗(yàn)證了通過語(yǔ)法功能來處理詞語(yǔ)分類以及在句法中進(jìn)行語(yǔ)法功能匹配是可行的。基于語(yǔ)法功能匹配的句法分析思想目前還處于探索階段,因此,這種將中文語(yǔ)法特點(diǎn)與一些句法分析模型相結(jié)合的研究,也將會(huì)是今后一個(gè)有意義的研究方向。

致謝感謝英國(guó)劍橋大學(xué)Zhang Yue博士,與他的討論使我們受益匪淺。

[1] Mitchell P Marcus, Mary Ann Marcinkiewicz, Beatrice Santorini. Building a Large Annotated Corpus of English:The Penn TreeBank [J]. Computational linguistics, 1993,19(2):313-330.

[2] Naiwen Xue, Fei Xia, Fu-Dong Chiou, et al. The Penn Chinese Treebank:Phrase Structure Annotation of a Large Corpus [J]. Natural Language Engineering, 2005,11(2):207 -238.

[3] 周強(qiáng).漢語(yǔ)句法樹庫(kù)標(biāo)注體系[J].中文信息學(xué)報(bào), 2004, 18(4):1-8.

[4] Huang Chu-Ren, Keh-Jiann Chen, Feng-Yi Chen, et al. Sinica Treebank:Design Criteria,Annotation Guidelines, and On-line Interface[C]//Proceedings of the Chinese Language Processing Worshop. Stroudsburg: Association for Computational Linguistics, 2000:29-37.

[5] E Black, S Abney, D Flickenger, et al. A Procedure for Quantitatively Comparing the Syntactic Coverage of English Grammars[C]//Proceedings of the DARPA Speech and Natural Language Workshop. Stroudsburg: Association for Computational Linguistics, 1991:306-311.

[6] Eugene Charniak. Statistical parsing with a context-free grammar and word statistics[C]//Proceedings of the 14th National Conference on Artificial Intelligence. MenloPark: AAAI Press/MIT Press, 1997: 598-603.

[7] Eugene Charniak. A maximum-entropy inspired parser[C]//Proceedings of NAACL 2000. San Francisco: Morgan Kaufmann Publishers, 2000:132-139.

[8] Michael Collins. Head-Driven Statistical Models for Natural Language Parsing [D]. Philadelphia: University of Pennsylvania, 1999.

[9] Michael Collins. Discriminative reranking for natural language parsing[C]//Proceedings of ICML 2000: 175-182.

[10] Michael Collins, Nigel Duffy. New ranking algorithms for parsing and tagging: kernels over discrete structures, and the voted perceptron[C]//Proceedings of the ACL 2002. Stroudsburg: Association for Computational Linguistics, 2002:263-270.

[11] Eugene Charniak, Mark Johnson. Coarse-to-fine n-best parsing and maxent discriminative reranking[C]//Proceedings of ACL 2005. Stroudsburg: Association for Computational Linguiscs, 2005:173-180.

[12] Johnson Mark. PCFG models of linguistic tree representations [J]. Computations Linguistics, 1998,24(4):613-632.

[13] Dan Klein, Christopher D Manning. Accurate Unlexicalized Parsing[C]//Proceedings of ACL 2003. Stroudsburg: Association for Computational Linguistics, 2003:423-430.

[14] Slav Petrov, Leon Barrett, Romain Thibaux, et al. Learning accurate, compact, and interpretable tree annotation[C]//Proceedings of COLING-ACL 2006. Stroudsburg: Association for Computational Linguistics, 2006:443-440.

[15] Slav Petrov, Dan Klein. Improved inference for unlexicalized parsing[C]//Proceedings of HLT-NAACL 2007. Rochester, 2007:404-411.

[16] Taskar B, Klein D, Collins M, et al. Max-margin parsing[C]//Proceedings of EMNLP 2004. Barcelona, 2004.

[17] Jenny Rose Finkel, Alex Kleeman, Christopher D Manning. Efficient, feature-based, conditional random field parsing[C]//Proceedings of ACL-HLT 2008. 959-967.

[18] B Taskar, C Guestrin, D Koller. Max margin Markov networks[C]//Proceedings of NIPS 2003. Vancouver, 2003.

[19] Turian J, Melamed ID. Constituent parsing by classification[C]//Proceedings of IWPT 2005. Stroudsburg: Association for Computational Linguistics, 2005.

[20] Turian J, Melamed ID. Advances in discriminative parsing[C]//Proceedings of COLING-ACL 2006. Stroudsburg: Association for Computational Linguistics, 2006.

[21] Kenji Sagae, Alon Lavie. A classifier-based parser with linear run-time complexity[C]//Proceedings of IWPT 2005: 125-132.

[22] Magerman David M. Statistical Decision-Tree Models for Parsing[C]//Proceedings of ACL 1995. Stroudsburg: Association for Computational Linguistics, 1995:276-283.

[23] Adwait Ratnaparkhi. A Linear Observed Time Statistical Parser Based on Maximum Entropy Models[C]//Proceedings of EMNLP 1997.

[24] Yue Zhang, Stephen Clark. Syntactic Processing Using the Generalized Perceptron and Beam Search [J]. Computational Linguistics, 2011,37(1): 105-151.

[25] Rens Bod. A computational model of language performance: data oriented parsing[C]//Proceedings of COLING 1992. Stroudsburg: Association for Computational Linguistics, 1992:855-859.

[26] Rens Bod. Using an Annotated Corpus as a Stochastic Grammar[C]//Proceedings of the Sixth Conference of the European Chapter of the ACL. Stroudsburg: Association for Computational Linguistics, 1993:37-44.

[27] Rens Bod. What is the minimal set of fragments that achieves maximal parse accuracy?[C]//Proceedings of ACL 2001. Stroudsburg: Association for Computational Linguistics, 2001.

[28] Joshua Goodman. Efficient algorithms for parsing the DOP model[C]//Proceedings of EMNLP 1996: 143-152.

[29] Rens Bod. An efficient implementation of a new DOP model[C]//Proceedings of EACL. Stroudsburg: Association for Computational Linguistics, 2003:19-26.

[30] Mohit Bansal, Dan Klein. Simple, accurate parsing with an all-fragments grammar[C]//Proceedings of ACL 2010. Stroudsburg: Association for Computational Linguistics, 2010:1098-1107.

[31] Federico Sangati, Willem Zuidema. Accurate Parsing with Compact Tree-Substitution Grammars: Double-DOP[C]//Proceedings of EMNLP 2011: 84-95.

[32] Sima’an K. Computational Complexity of Probabilistic Disambiguation by Means of Tree Grammars[C]//Proceedings of COLING 1996.Stroudsburg: Association for Computational Linguistics, 1996:1175-1180.

[33] Rens Bod. Parsing with the Shortest Derivation[C]//Proceedings of COLING [C]. Stroudsburg: Association for Computational Linguistics, 2000:69-75.

[34] Remko Scha. Taaltheorie en taaltechnologie: competence en performance [C]//R. de Kort and G.L.J. Leerdam (eds.): Computertoepassingen in de Neerlandistiek. Almere: LVVN, 1990:7-22.

[35] John Henderson, Eric Brill. Exploiting diversity in natural language processing: combining parsers[C]//Proceedings of EMNLP 1999: 187-194.

[36] Kenji Sagae, Alon Lavie. Parser combination by reparsing[C]//Proceedings of NAACL 2006. Stroudsburg: Association for Computational Linguistics, 2006:129-132.

[37] Hui Zhang, Min Zhang, Chew Lim Tan, et al. K-Best Combination of Syntactic Parsers[C]//Proceedings of EMNLP 2009. Stroudsburg: Association for Computational Linguistics, 2009:1552-1560.

[38] 林穎,史曉東,郭峰. 一種基于概率上下文無關(guān)文法的漢語(yǔ)句法分析[J].中文信息學(xué)報(bào), 2006,20(2):1-7.

[39] Daniel M Bikel. On the parameter space of generative lexicalized statistical models [D]. Philadelphia: University of Pennsylvania, 2004.

[40] Deyi Xiong, Shuanglong Li, Qun Liu, et al.Parsing the Penn Chinese Treebank with semantic knowledge[C]//Proceedings of IJCNLP 2005: 70-81.

[41] 曹海龍. 基于詞匯化統(tǒng)計(jì)模型的漢語(yǔ)句法分析研究[D].哈爾濱:哈爾濱工業(yè)大學(xué), 2006.

[42] 張浩, 劉群, 白碩.結(jié)構(gòu)上下文相關(guān)的概率句法分析[C]//第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì).北京:北京大學(xué),2002.

[43] Mengqiu Wang, Kenji Sagae, Teruko Mitamura. A fast, accurate deterministic parser for Chinese[C]//Proceedings of COLING/ACL. Stroudsburg: Association for Computational Linguistics, 2006:425-432.

[44] Li Junhui, Zhou Guodong, Ng Hwee Tou. Syntactic Parsing with Hierarchical Modeling[C]//Proceedings of AIRS 2008: 561-566.

[45] Li Junhui, Zhou Guodong, Ng Hwee Tou. Joint Syntatic and Semantic Parsing of Chinese[C]//Proceedings of ACL 2010. Stroudsburg: Association for Computational Linguistics, 2010:1108-1117.

[46] Zhiguo Wang, Chengqing Zong. Phrase Structure Parsing with Dependency Structure[C]//Proceedings of COLING 2010. Stroudsburg: Association for Computational Linguistics, 2010:1292-1300.

[47] Hal Daumé III, Langford J, Marcu D. Search-based structured prediction [J]. Machine Learning, 2009,75(3):297-325.

[48] Daniel M. Bikel. Two Statistical Parsing Models Applied to the Chinese Treebank[C]//Proceedings of the Second Chinese Language Processing Workshop. Stroudsburg: Association for Computational Linguistics, 2000:1-6.

[49] 陳小荷. 從自動(dòng)句法分析角度看漢語(yǔ)詞類問題[J]. 語(yǔ)言教學(xué)與研究,1999.

[50] 徐艷華. 現(xiàn)代漢語(yǔ)實(shí)詞語(yǔ)法功能考察及詞類體系重構(gòu)[D].南京:南京師范大學(xué),2006.

猜你喜歡
子樹短語(yǔ)準(zhǔn)確率
黑莓子樹與烏鶇鳥
一種新的快速挖掘頻繁子樹算法
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
書本圖的BC-子樹計(jì)數(shù)及漸進(jìn)密度特性分析?
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
基于覆蓋模式的頻繁子樹挖掘方法
武鸣县| 芦山县| 兴国县| 平泉县| 东平县| 罗山县| 浦城县| 甘洛县| 巴林左旗| 台江县| 盐山县| 新乡市| 西峡县| 皋兰县| 伊宁市| 宝丰县| 宁乡县| 崇阳县| 翁源县| 广东省| 蒙城县| 卓资县| 都匀市| 弋阳县| 准格尔旗| 辽宁省| 庆城县| 福贡县| 沾化县| 商南县| 龙南县| 武威市| 桃园县| 偃师市| 鄂温| 万载县| 长顺县| 工布江达县| 五常市| 沧州市| 临洮县|