国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

連動結(jié)構(gòu)的自動識別和分析

2013-12-10 07:46:02許有勝
巢湖學(xué)院學(xué)報 2013年4期
關(guān)鍵詞:句法結(jié)構(gòu)短語語義

許有勝

(中國石油大學(xué)對外漢語教學(xué)部,北京102249)

1 引言

本文主要是基于規(guī)則的方法,討論漢語中一種復(fù)雜謂語——連動結(jié)構(gòu)的自動識別以及分析的辦法,我們不奢求能解決所有問題,我們的目標(biāo)有兩個:一是如何識別出連動結(jié)構(gòu),二是如何大致分析出同時關(guān)系連動結(jié)構(gòu)還是異時關(guān)系連動結(jié)構(gòu),如果是表示異時關(guān)系連動結(jié)構(gòu),可以分辨出是順承關(guān)系連動結(jié)構(gòu)還是有時間先后也兼表目的關(guān)系的連動結(jié)構(gòu)。我們的目標(biāo)是在一個實際語料的語篇中,通過系統(tǒng)的自動分析,辨析出連動結(jié)構(gòu),以及連動結(jié)構(gòu)的基本類型。大致的分析流程主要包括:分句規(guī)則→詞法分析→短語結(jié)構(gòu)分析→句法語義分析→分解規(guī)則→連動結(jié)構(gòu)分析。

2 各種識別規(guī)則

對句子進行識別,首先要切分小句。我們利用張衛(wèi)國(2003)的研究成果,可以將一整段話按照標(biāo)點符號將每個小句分行顯示,完成分句分析。這樣,就為我們在小句基礎(chǔ)上分析連動結(jié)構(gòu)作好了前提條件和準(zhǔn)備。

2.1 詞法分析

提取出小句后,就需要對各個句子進行詞法分析,包括自動分詞和詞性標(biāo)注兩個方面。通過最大匹配法、最大概率法都可以達到很好的分詞效果;通過基于隱馬爾可夫模型的詞性標(biāo)注方法或者是基于轉(zhuǎn)換的錯誤驅(qū)動的詞性標(biāo)注方法①關(guān)于這兩種詞性標(biāo)注方法可以參看俞士汶,《計算語言學(xué)概論》,北京,商務(wù)印書館,2004。這些方法的標(biāo)注正確率可以達到95%以上,基本能滿足句法分析的需要。經(jīng)過自動分詞處理和詞性標(biāo)注以后的語句,很多語言信息可以在此基礎(chǔ)上處理。如“把這篇報道編輯一下”,標(biāo)注以后的形式如下:

把/p這/r篇/q報道/n編輯/v一/m 下/q②本文所采用詹衛(wèi)東(1999)的符號代碼,可以參看詹衛(wèi)東,《面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究》,北京,清華大學(xué)出版社,1999,第20頁。其中p表示介詞,r表示代詞,q表示量詞,n表示名詞,v表示動詞,m表示動量詞。

2.2 短語層面的處理

作為一個句法成分,很多語言分析是在短語層面進行的,而對連動結(jié)構(gòu)來說,尤其如此,如我們在討論連動結(jié)構(gòu)的時候是以動詞短語為單位,而不能以動詞為單位,如:

他/n爬/v起來/v了/u。

上面的例句中有兩個動詞,但我們不能據(jù)此判斷這是一個連動結(jié)構(gòu),我們只能以一個動詞短語“爬起來”計算,判斷這是一個單動結(jié)構(gòu)的謂語句。

對短語層面的處理包括對短語邊界的界定和對短語性質(zhì)的界定兩個方面。對于短語邊界的界定,主要的方法有:基于規(guī)則、基于互信息、基于神經(jīng)元網(wǎng)絡(luò)、基于最大熵模型以及利用二叉樹剪枝等手段來識別。①分別參看郁梅(1994)、張國煊(1995)、奚晨海(2002)、李劍鋒(2004)、荀恩東(2006)等人著作。

關(guān)于各種短語性質(zhì)界定,可以參見詹衛(wèi)東(1999)。

短語中也可以鑲嵌短語,標(biāo)注以后的一些形式如下:

周仲偉/n[跑/v過去/v]vp[拉/v開/v]vp了/u[[這/r道/q]rp門/n]np 。

其中,“這道門”這個名詞性短語中鑲嵌了“這道”一個代詞性短語。

2.3 句法結(jié)構(gòu)和語義分析

在進行句法結(jié)構(gòu)分析之前,要首先對句法結(jié)構(gòu)中缺省和省略的一些句法成分進行還原處理。我們需要補出的主要是主語和論元兩個部分。

2.3.1 補出主語:

構(gòu)成連動結(jié)構(gòu)的一個基本要求就是多個動詞性結(jié)構(gòu)只有一個共同的主語,而連動結(jié)構(gòu)的主語很多是在小句之外,給識別造成困難,這就要在小句外面找出該連動結(jié)構(gòu)的主語,幫助識別。如:

(1)他走到擺著煙卷的黃銅橢圓桌子邊,從銀匣里撿了一枝雪茄煙燃著了。②本文例句大多選自茅盾《子夜》,例句后方括號數(shù)字為選自該書的章節(jié)數(shù)。

“撿了一枝雪茄”和“燃著了”在小句范圍內(nèi)都沒有主語,聯(lián)系前一個分句,這個主語應(yīng)該是“他”。

2.3.2 補出動詞的論元成分

我們在進行自動分析的時候很大程度是依靠動詞的論元的語義角色的辨別,所以對于不是按照正常排位的句法序列,要將動詞的論元調(diào)整和找回,以便于連動結(jié)構(gòu)類型的識別,如:

(2)“家里的貓食快吃完了,你再去超市買點回來來喂貓?!眿寢寣ξ艺f。

對于這個例句,我們不能按照常規(guī)的分析方式,而是要首先還原動詞的語義角色的配位方式。應(yīng)該先把“貓食”抽取出來,作為“買”的受事和“喂貓”的材料。這樣就是通過論元共享而關(guān)聯(lián)起來的連動結(jié)構(gòu),我們可以判斷出這是表示目的關(guān)系的連動結(jié)構(gòu)。否則,我們只能根據(jù)VP1是動結(jié)式短語“買回來”判斷這是一個表示異時關(guān)系的連動結(jié)構(gòu)。

在完成對句法成分的補充處理以后,整個句子相對比較理想,各種成分也比較完整。在這個基礎(chǔ)上可以進行句法分析(parsing)和語義角色標(biāo)注(semantic role annotation)。句法分析是指研究如何通過計算機算法得到自然語言句子的句法結(jié)構(gòu)。完成句法分析任務(wù)的計算機程序或軟件叫做句法分析器(parser)。句法分析器的主要功能是判斷輸入的自然語言的句子是否是句法上合法的句子,如果是句法上正確的句子,則輸出它們的句法結(jié)構(gòu)。如我們輸入一個句子 “王大栓去下窗板”(《茶館》),得到的句法分析的樹形圖如下:③此樹形圖見詹衛(wèi)東先生開發(fā)“現(xiàn)代漢語句法樹庫”(TreeBank)。

連動結(jié)構(gòu)句法分析圖

語義角色標(biāo)注主要是通過標(biāo)明在一個事件中扮演了不同參與者角色的有關(guān)語言成分,這種分析是基于動詞的。把這種語義角色與動詞的關(guān)系標(biāo)明出來后會對句法分析和語義信息的處理提供很大的方便。

連動結(jié)構(gòu)中語義角色標(biāo)注圖

一種比較成熟的語義標(biāo)注方法是加州大學(xué) Gildea.D&Jurafsky.D(2002)提出的自動標(biāo)注方法①參見 Gildea,D,Jurafsky,D,“Automatic Labeling of Semantic Roles”,Computational Linguistics,NO3,245-288,2002。。這種標(biāo)注方法對于已經(jīng)切分了成分的語料在辨別語義角色時候,可以達到82%的正確率。而對于需要同時進行片段切分和標(biāo)注語義角色的語料,可以達到65%的正確率和62%的召回率。

在樹形圖上進行語義角色標(biāo)注過的句子形式如下:②表示語義角色的符號請參看袁毓林(2006)。

2.4 分解規(guī)則

我們在查找《子夜》連動結(jié)構(gòu)的同時也注意了和連動結(jié)構(gòu)的形似句(多動結(jié)構(gòu)的謂語),發(fā)現(xiàn)一個句子中的謂語里多動結(jié)構(gòu)有以下幾種類型。

2.4.1 與緊縮句的分解規(guī)則

根據(jù)向若(1984)的歸納,緊縮句共有四種類型:

主語相同的兩個謂語間有關(guān)聯(lián)詞語,如:

(3)主任答不上來就發(fā)了脾氣。

主語不同的兩個謂語間沒有停頓,如:

(4)你不問我替你問。

單句形式前有連詞

(5)就是世界上最快的馬也要落在背后。

前后呼應(yīng)的緊縮復(fù)句

(6)我不問也明白八成。

結(jié)合向若的分析,從形式上看,緊縮句可以分為兩類,一類是有標(biāo)記關(guān)聯(lián)的緊縮句,一類是沒有標(biāo)記的關(guān)聯(lián)。其中前者要占絕大多數(shù)。根據(jù)陳穎(2005)統(tǒng)計,在選取的786個例句中,有標(biāo)記關(guān)聯(lián)的636個,占81%,無標(biāo)記關(guān)聯(lián)的150個,占19%。

對于有標(biāo)記關(guān)聯(lián)的緊縮句,可以通過標(biāo)記詞語和詞性標(biāo)注,分解出來。對這些關(guān)聯(lián)標(biāo)記,我們可以窮盡地歸納出來,關(guān)聯(lián)詞獨用的有“就、也、還、又、都、才”,成對使用的關(guān)聯(lián)詞有“一……就……、再……也……、不……也……、非……也……、不……不……、越……越……”等,③其中有些連詞是兼類詞,比如“一”,可以是數(shù)詞,在這里可以看作連詞,這些詞性分別可以通過詞性標(biāo)注解決。對于這些有標(biāo)記的緊縮句,可以利用這些標(biāo)記將他們分辨出來。即兩個動詞性結(jié)構(gòu)之間總有關(guān)聯(lián)成分連接。

對于沒有標(biāo)記關(guān)聯(lián)的緊縮句,它們的一個特點是兩個動詞的主語不同,這類多動結(jié)構(gòu)可以通過句法結(jié)構(gòu)分析和語義角色分析結(jié)合的辦法從連動結(jié)構(gòu)中分解出去。如“你不問我替你問”中,在句法分析上,兩個小句并列:“你不問”和“我替你問”。第一個小句主語是“你”,第二個小句的主語是“我”。在語義角色分析上,第一個問的施事是“你”,第二個“問”的施事是“我”。

2.4.2 與兼語句的分解規(guī)則

兼語句的第一個動詞后面必須要有一個名詞性成分(也就是身兼兩職的成分)。兼語句的另一個特點是它的第一個動詞在意義上有很明顯的特征,具有[+使成]、[+命令]、[+命名]等特征。 而且這些動詞是封閉的類,我們可以窮盡性列舉,形成一個“兼語動詞”詞表,①我們通過對《漢語動詞用法詞典》(商務(wù)印書館,1999)中1223個動詞(2117個義項)進行統(tǒng)計,得出一份可以作為兼語動詞的詞表,共163個。在實際語料中,能作兼語動詞的,可能不止我們列舉的這些動詞。但這份詞表是開放的,可以不斷添加新的詞語。如:“讓、叫、要、使、強迫、逼、催、督促、責(zé)成、縱容、惹、招、勸、吩咐、囑咐、告訴、指示、提拔、提升、分配、收、培養(yǎng)、派、打發(fā)、送、放、趕、分配”等。 這一點李臨定(1986)、邢欣(1995)有詳細(xì)論述。

我們可以通過句法結(jié)構(gòu)與這種兼語動詞匹配的方式進行,即先掃描輸入的語料,如果掃描到“V1+NP+VP2”序列,再用V1與詞表匹配,如果是詞表中的詞語,基本就可以確定是兼語句。如下面兩個句子:(1)我/n買/v一本書/np看/v;(2)他/n逼/v我/n/看/v書/n。第一個句子可以掃描到“vnpv”這樣的序列串,然后再拿v1與詞表進行匹配,沒有發(fā)現(xiàn)“買”,可以斷定這不是一個兼語句,第二個句子可以先掃描出“vnpv”這樣的序列串,在匹配時候可以發(fā)現(xiàn)v1“逼”是詞表中收錄的一個動詞,可以判斷出這是一個兼語句。

2.4.3 與動狀句的分解規(guī)則

動詞作狀語一般可以分為兩類,一種是后面有“地”作為標(biāo)記的,如:

(7)他同情地望著這個傷病員。

因為區(qū)別詞“地”的出現(xiàn),這類動詞狀語句比較容易區(qū)別出來,掃描句子中的VP是否有“V地V”格式,如果有,則判定是動狀句。

難辦的是動詞直接作狀語的類型。在句法結(jié)構(gòu)的線性序列上與部分連動結(jié)構(gòu)相似,如:

(8)他先告辭/v走/v了(連動)

(9)從龍?zhí)逗珗@鳥市買回15對虎皮鸚鵡試/v養(yǎng)/v。 (動狀)

對這類結(jié)構(gòu)的分解可以采用兩種規(guī)則,一是通過“詞表”匹配的辦法,根據(jù)孫德金(2000)在3036個動詞的統(tǒng)計中,有36個單音節(jié)動詞和78個雙音節(jié)動詞可以直接做狀語。高增霞(2006)通過對2002年5月19日的《北京青年報》統(tǒng)計,又得出19個雙音節(jié)動詞可以直接作狀語,我們在這些動詞的基礎(chǔ)上編制一份“詞表”,然后對V1與詞表進行匹配。

其次是“音節(jié)搭配規(guī)律”,根據(jù)孫德金(2000)的研究,動詞作狀語在音節(jié)搭配上,基本上遵循著“單音節(jié)+單音節(jié)”“雙音節(jié)+雙音節(jié)”的組配模式。我們可以利用這一音節(jié)的組配模式作為辨別的輔助手段,可以排除象“告辭走了”一類句子。

2.4.4 與動詞聯(lián)合結(jié)構(gòu)的分解規(guī)則

兩個動詞組合在一起也可以形成聯(lián)合結(jié)構(gòu),如:

(10)工廠開發(fā)研制了一種新產(chǎn)品。

(11)我們加工整理了一遍。

聯(lián)合結(jié)構(gòu)沒有什么標(biāo)記,動詞的語義特征上也不明顯,分解出來比較困難,我們這里采用吳云芳(2004)對“V+V”識別聯(lián)合結(jié)構(gòu)采取的方法。她先采用排除方法,縮小范圍:先討論什么情況下不能形成并列關(guān)系。這樣就排除了三分之二的“V+V”結(jié)構(gòu)。然后再討論什么情況下可以形成并列關(guān)系。(具體參見吳云芳2004)

2.4.5 與謂賓結(jié)構(gòu)的分解規(guī)則

朱德熙(1982)將謂賓動詞分為真謂賓動詞和準(zhǔn)謂賓動詞,為了計算機識別的需要我們將謂賓動詞重新調(diào)整分為兩類:一類是動詞性結(jié)構(gòu)作賓語(包括單個動詞、述賓結(jié)構(gòu)、述補結(jié)構(gòu)、連動結(jié)構(gòu)、偏正結(jié)構(gòu)),一類帶小句賓語,我們分別為它們建立詞表。

我們收集的動詞性結(jié)構(gòu)賓語的謂賓動詞共有489個,這種動詞如果后接動詞性結(jié)構(gòu),只能是謂賓結(jié)構(gòu)。V1如果是帶動詞性結(jié)構(gòu)作賓語的動詞,在形如“V1V2”結(jié)構(gòu)中,只能是動詞性結(jié)構(gòu)作賓語,而不可能是連動結(jié)構(gòu)。如果是“V1N/NPV2”的序列,則不可能是謂詞賓語句。這樣,我們就可以對照詞表和句法結(jié)構(gòu)將該類謂賓結(jié)構(gòu)將帶動詞性結(jié)構(gòu)賓語的句子直接掃描出來。

帶了小句賓語的謂賓結(jié)構(gòu),一般會先掃描出“V1N(NP)V2”的字符串,其中的 N(NP)是賓語小句的主語。如果V1是可以帶小句賓語的動詞,在“V1N(NP)V2”序列中,若 N(NP)是 V2 的一個論元,則這個句子是動詞帶小句賓語,如“觀察熱帶魚甩子”;若N(NP)是V1的論元,則這個句子不是小句作賓語。

3 連動結(jié)構(gòu)的分析

3.1 連動結(jié)構(gòu)的結(jié)構(gòu)特征

連動結(jié)構(gòu)按照時間關(guān)系,可以分為同時、異時和泛時關(guān)系。若幾個動詞性詞組之間有先后關(guān)系,則稱為異時關(guān)系連動結(jié)構(gòu);若動詞性詞組表達的動作或狀態(tài)大致同時發(fā)生,則稱為同時關(guān)系連動結(jié)構(gòu)。如果細(xì)分,先后關(guān)系連動結(jié)構(gòu)還可以分為順承關(guān)系和目的關(guān)系連動結(jié)構(gòu)。目的關(guān)系則可以分為位移、工具等下位類型的連動結(jié)構(gòu)。分不出同時或先后關(guān)系的連動結(jié)構(gòu)是泛時關(guān)系連動結(jié)構(gòu)。

各種不同類型的連動結(jié)構(gòu)有以下幾個特點:

其一,不同連動結(jié)構(gòu)的動詞性詞組之間有一些不同的形式特征,如異時關(guān)系的體標(biāo)記“了”,同時關(guān)系的持續(xù)體標(biāo)記“著”、“在”等一些“特征詞/字”;異時關(guān)系連動結(jié)構(gòu)中VP1中的結(jié)果補語等。

其二,連動結(jié)構(gòu)各個動詞性詞組存在不少省略成分,如主語和論元。

其三,對于多于兩個動詞詞組的連動結(jié)構(gòu),存在先后組合的層次問題,如:

(12)姚太太拄著拐杖站起來迎接,問來客姓名。

“拄著拐杖”、“站起來”和“迎接”是三個動作,“拄著拐杖”和“站起來”先組合為一個同時關(guān)系連動結(jié)構(gòu),然后“拄著拐杖站起來”和“迎接”再組合,形成先后關(guān)系的連動結(jié)構(gòu)。

泛時關(guān)系連動結(jié)構(gòu)結(jié)構(gòu)數(shù)量較少,就我們在《子夜》中的統(tǒng)計,泛時連動結(jié)構(gòu)占了整個連動結(jié)構(gòu)的13.5%。

我們在下文中主要討論對異時和同時連動結(jié)構(gòu)的識別和分析。

3.2 利用“形式特征”進行的處理

從形式上看,各類連動結(jié)構(gòu)大多有形式上的特征,可資我們利用的有時體標(biāo)記、句法結(jié)構(gòu)特征(如動結(jié)式)等。根據(jù)我們的研究,VP1在形式標(biāo)記上比較明顯,而VP2的形式標(biāo)記則不容易作出歸納,所以決定連動結(jié)構(gòu)類型主要依靠VP1的形式特征,我們主要考察VP1的形式特征,而沒有過多關(guān)注VP2的形式特征。

VP1形式特征主要有以下一些:

3.2.1 “了”

(13)末后就開了房門出去。

連動結(jié)構(gòu)中兩個動詞性結(jié)構(gòu)之間出現(xiàn) “了”的一律可以認(rèn)為是在時間上表示異時關(guān)系。

3.2.2 動結(jié)式短語

動結(jié)式短語由兩部分組成,前一部分表示一個動作,后一部分表示因為前一個動作而產(chǎn)生的結(jié)果。我們這里所說的動結(jié)式是廣義的,也包括動趨式,如“爬起來、走回去”等。

通過檢索《現(xiàn)代漢語語法信息詞典》,我們可以知道哪些動詞可以帶結(jié)果補語,哪些形容詞、動詞可以作結(jié)果補語??梢宰鹘Y(jié)果補語的單音節(jié)形容詞204個,單音節(jié)動詞112個。形容詞如“笨、昏、蒙、呆、乖、傻、好、壞”等,動詞如“懂、累、忘、通、怕、迷、煩”等。

動趨式結(jié)構(gòu)可以通過趨向動詞來判斷,大家認(rèn)定的趨向動詞基本包括下面24個,如“上、下、來、去、上來、下來”等。

3.2.3 動詞的短時體(簡單重疊形式)和瞬間完成體“一”

動詞的簡單重疊形式和動詞前的準(zhǔn)瞬間完成體標(biāo)記“一”在時間上都有一個終結(jié)點,當(dāng)連動結(jié)構(gòu)的VP1出現(xiàn)這些標(biāo)記的時候,都是表明第一個動作發(fā)生以后才會發(fā)生第二個動作,如:

(14)宋教授看看苗情以后說。

(15)他一聽以后非常驚慌。

3.2.4 “著”

“著”作為一種靜態(tài)持續(xù)體的標(biāo)記,表示伴隨著VP2發(fā)生的動作的同時發(fā)生了VP1的動作。雖然“V1著V2”的形式可以表示兩種類型的連動結(jié)構(gòu):既可以表示伴隨狀況的連動結(jié)構(gòu),也可以表示異時關(guān)系的連動結(jié)構(gòu)。前者如“閉著眼睛說瞎話”,后者如“留著喂狗”等。至于兩者的區(qū)分可以再利用“語義角色”來加以區(qū)分,但“著”作為一個表示同時關(guān)系的連動結(jié)構(gòu)的可能條件,不失為判斷表示同時關(guān)系連動結(jié)構(gòu)的一個重要的形式特征。

3.2.5 動詞的復(fù)雜重疊

動詞的復(fù)雜重疊形式作為連動結(jié)構(gòu)的第一個動詞性結(jié)構(gòu),表示動作連續(xù)不斷,可以作為VP2表示的動作的伴隨狀況,所以掃描到VP1是動詞的復(fù)雜重疊形式的連動結(jié)構(gòu)即可以判斷這種連動結(jié)構(gòu)表示同時關(guān)系。根據(jù)陳前瑞(2003)統(tǒng)計,這種復(fù)雜重疊從形式上看有以下幾種:“V1V1V2V2(蹦蹦跳跳)、V 來 V 去(走來走去)、V1了 V2,V2了 V1(打了談,談了打)、一 V 一 V(一拐一拐)、VV(V 為雙音節(jié)動詞,走動走動)、V了又V(說了又說)”。

此外,限定性定語、名/動量補語等也可以作為判斷連動結(jié)構(gòu)時間類型的形式上的判斷標(biāo)準(zhǔn)。

3.3 利用“語義角色”進行的處理

語義關(guān)系也可以對結(jié)構(gòu)類型的辨別起到一定的作用。

3.3.1 通過語義角色來分解目的關(guān)系連動結(jié)構(gòu)的下位類型

在表示時間先后關(guān)系的連動結(jié)構(gòu)中,如果兩個動詞之間有共享的論元,則基本上可以判定是表示目的的連動結(jié)構(gòu)。分析共享論元分別是V1和V2的什么語義角色,可以幫助我們判斷出目的關(guān)系連動結(jié)構(gòu)的下位類型。

3.3.2 通過語義角色可以分解不同類型的連動結(jié)構(gòu)

“V1著V2”可以表示兩種不同類型的連動結(jié)構(gòu),目的關(guān)系和伴隨狀況。如:“留著那些飯喂狗”與 “閉著眼睛休息”。它們在句法形式上完全相同,沒有辦法通過形式特征來識別。但這兩者在語義角色上有很多的不同,表示目的關(guān)系的“V1著V2”存在著共享的論元,“飯”是“留”的受事,同時又是“喂”的耗費材料。而表示伴隨狀況的“V1著 V2”則不存在論元共享,“眼睛”是“閉”的受事,與“休息”之間沒有直接的語義聯(lián)系。

4 連動結(jié)構(gòu)的自動分析

4.1 連動結(jié)構(gòu)的分析模型

根據(jù)上面的分析,我們建立的連動結(jié)構(gòu)的分析模型,總共分為六個大的模塊,各自負(fù)責(zé)一些功能,可以如下圖所示:

連動結(jié)構(gòu)分析模型圖

4.2 連動結(jié)構(gòu)的分析算法

連動結(jié)構(gòu)的算法可以用下面的自然語言描述出來:

Step1:進行篇章掃描,掃描出具有分句作用的標(biāo)點符號,然后作出切分,另起一行輸入,得到各個小句;

Step2:進行小句掃描,對小句中的詞語進行自動切分和詞性標(biāo)注。

Step3:對已經(jīng)詞法處理過的句子進行短語層面的處理,即界定出短語并對短語的性質(zhì)進行判斷。

Step4:先對小句進行句法成分還原處理,找回缺省和省略的成分,盡量保持一個完整的理想的句法結(jié)構(gòu);然后進行句法結(jié)構(gòu)分析,切分出句子的主語和謂語;以連動結(jié)構(gòu)中的動詞為核心,作出語義角色的標(biāo)注。

Step5:對作過切分和詞性標(biāo)注的句子進行句法結(jié)構(gòu)分析。

Step6:對句子的謂語再次進行掃描,如果有多于兩個動詞的,則作為備查對象,另外儲存起來。

Step7:調(diào)用形似句的分解規(guī)則,排除出是以緊縮結(jié)構(gòu)、兼語結(jié)構(gòu)、動詞性并列結(jié)構(gòu)、動詞作狀語、以及謂賓結(jié)構(gòu)作謂語的句子,保留剩下來的句子,即連動結(jié)構(gòu)作謂語的句子。

Step8:對連動結(jié)構(gòu)進行順向和逆向多次掃描,結(jié)合能掃描出的形式特征,查詢特征規(guī)則庫,得出這種類型時間關(guān)系,如果沒有形式上的特征,結(jié)合語義角色關(guān)系進行判斷;對于已經(jīng)判斷出時間類型的連動結(jié)構(gòu),再利用語義角色上一些特征,判斷該種時間類型連動結(jié)構(gòu)的下位語義關(guān)系。

Step9:如果n=2,則分析到Step7已經(jīng)完成了整個分析過程;如果n>2,則首先順次掃描前動詞性結(jié)構(gòu),根據(jù)先同時,后異時;異時關(guān)系連動結(jié)構(gòu)按照句法出現(xiàn)先后順序兩兩組合;同時關(guān)系連動結(jié)構(gòu)按照伴隨狀況的動詞性結(jié)構(gòu)和前景化動詞性結(jié)構(gòu)分別組合;完成連動結(jié)構(gòu)的最后分析。

最后,根據(jù)分析的結(jié)構(gòu),畫出連動結(jié)構(gòu)的關(guān)系類型圖。

5 自動分析示例

我們根據(jù)上面的算法,給出兩個例子的分析過程(一個三個動詞詞組的同類組合,一個四個動詞詞組的異類組合)。

我們分析的例句是“我十分高興,爬起來到客廳接電話。”這是《王朔文集》中的一個句子,分析結(jié)果如下:

Step1分析結(jié)果:將句子“我十分高興”和“爬起來到客廳接電話”都分離出來,作為一個單獨的小句。

Step2分析結(jié)果:將句子中的詞語自動切分出來并進行了詞性標(biāo)注。得到結(jié)果如下:

我/r十分/d高興/a,

爬/v起來/v到/v客廳/n接/v電話/n。

Step3分析結(jié)果:對詞語串進行短語層面的組合,上面兩個句子則被標(biāo)記如下:

我/r十分高興/ap,

爬起來/vp到客廳/vp接電話/vp。

Step4分析結(jié)果:通過句法還原處理,上面一個分句沒有改變,下面一個小句則把主語“我”給還原回來了。變成了:

(我/r) 爬起來/vp 到客廳/vp 接電話/vp。

Step5分析結(jié)果:對小句進行句法結(jié)構(gòu)分析,得出:

我/r||十分高興/ap

(我/r)||爬起來/vp 到客廳/vp 接電話/vp。

Step6分析結(jié)果:對小句謂語部分掃描,因為第一個小句的謂語只有一個形容詞短語,所以可以排除;對下一個小句的謂語進行掃描,里面包含了三個動詞性結(jié)構(gòu),作為備查對象保存起來。

Step7分析結(jié)果:將 “爬起來/vp 到客廳/vp接電話/vp”分成兩個結(jié)構(gòu)體“爬起來/vp 到客廳/vp”和“到客廳/vp 接電話/vp”與連動結(jié)構(gòu)形似句進行比照,不能將其歸入其中任何一類,如兩個結(jié)構(gòu)體都沒有緊縮句的標(biāo)記,所以不屬于緊縮句;“爬”和“到”都不是兼語結(jié)構(gòu)第一個動詞的特征,所以排除了兼語結(jié)構(gòu)的可能;“爬”和“到”均不是可作狀語動詞,且兩個詞后面都有后續(xù)成分,所以不是動詞狀語結(jié)構(gòu),同時也可以排除并列結(jié)構(gòu)和謂賓句的可能。所以可以判斷出這是一個由三個動詞性結(jié)構(gòu)組成的連動結(jié)構(gòu)。

Step8分析結(jié)果:以動詞為中心進行語義標(biāo)注可以形成下面的形式:

[爬/v1起來/v]vp [到v2客廳/nGO2L3]vp[接v3電話/RE]vp

Step9分析結(jié)果:因為n>3,所以依次相臨兩個動詞性結(jié)構(gòu)組合一次,“[爬/v1起來/v]vp[到v2客廳/nGO2L3]vp”和“[到 v2 客廳/nGO2L3]vp[接v3電話/RE]vp”根據(jù)形式特征和語義特征,可以判斷出前兩個動詞性結(jié)構(gòu)之間的關(guān)系是時間先后關(guān)系,因為“爬起來”是一個動結(jié)式短語;后兩個動詞性結(jié)構(gòu)之間也是時間先后的連動結(jié)構(gòu),而且兩者之間有目的關(guān)系,兩者共享一個論元“客廳”。這類聯(lián)合結(jié)構(gòu)屬于同類組合,所以依次組合,可以得出這樣的關(guān)系類型圖:

6 結(jié)束語

連動結(jié)構(gòu)屬于復(fù)雜的句法形式,涉及到一個結(jié)構(gòu)體中含有多個動詞,在句法形式上也有很多的形似句,因而對于自動識別來說是個難題,我們提供的方案只是一種基于“規(guī)則識別”的思路,是通過對連動結(jié)構(gòu)在漢語本體的分析研究基礎(chǔ)上,建立了一系列的規(guī)則,如與相似句的分解規(guī)則、利用形式特征和語義角色來進行類型識別的規(guī)則等。當(dāng)然,我們的規(guī)則不可能解決全部的問題,很多環(huán)節(jié)的處理還不能達到理想的效果,如對語義角色的標(biāo)注問題。一個環(huán)節(jié)的問題沒解決,就會帶來后面一系列問題的處理。但這是一種解決問題思路,具體的每個模塊的操作都是可以逐步完善的。

[1]陳穎.緊縮句的有標(biāo)關(guān)聯(lián)和無標(biāo)關(guān)聯(lián)[D].武漢:華中科技大學(xué),2005.

[2]高增霞.現(xiàn)代漢語連動式的語法化視角[M].北京:中國檔案出版社,2006.

[3]李劍鋒,等.基于最大熵模型的韻律短語邊界預(yù)測[J].中文信息學(xué)報,2004,(5).

[4]李臨定.現(xiàn)代漢語句型[M].北京:商務(wù)印書館,1986.

[5]孫德金.現(xiàn)代漢語動詞做狀語考察[J].語言教學(xué)與研究,1997,(3).

[6]吳云芳.V+V 形成的并列結(jié)構(gòu)[J].語言研究,2004,(3).

[7]奚晨海,孫茂松.基于神經(jīng)元網(wǎng)絡(luò)的漢語短語邊界識別[J].中文信息學(xué)報,2002,(2).

[8]向若.緊縮句[M].上海:上海教育出版社,1984.

[9]邢欣.致使動詞的配價[A].沈陽,鄭定歐編.現(xiàn)代漢語配價語法研究[C].北京:北京大學(xué)出版社,1996.

[10]荀恩東,等.應(yīng)用二叉樹剪枝識別韻律短語邊界[J].中文信息學(xué)報,2006,(3).

[11]郁梅,等.基于規(guī)則的漢語短語邊界劃分的研究[J].蘇州大學(xué)學(xué)報(自然科學(xué)版),1994,(3).

[12]俞士汶.計算語言學(xué)概論[M].北京:商務(wù)印書館,2004.

[13]俞士汶.現(xiàn)代漢語語法信息詞典[M].北京:清華大學(xué)出版社,1998.

[14]袁毓林,等.編制語義角色框架文檔的規(guī)范(未發(fā)表).2006.

[15]詹衛(wèi)東.面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究[M].北京:清華大學(xué)出版社,1999.

[17]張國煊,等.基于互信息的漢語短語邊界劃分[J].杭州電子工業(yè)學(xué)院學(xué)報,1995,(1).

[18]張衛(wèi)國.ICON語言教程[M].北京:清華大學(xué)出版社,2003.

[19]Gildea,D,Jurafsky,D.Automatic Labeling of Semantic Roles[J].Computational Linguistics,2002,(3).

猜你喜歡
句法結(jié)構(gòu)短語語義
語言與語義
現(xiàn)代漢語句法結(jié)構(gòu)解讀
山西青年(2017年7期)2017-01-29 18:25:26
《基本句法結(jié)構(gòu):無特征句法》評介
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
回避沖突:名詞義與句法結(jié)構(gòu)義之間
構(gòu)詞派生:語義關(guān)系與句法結(jié)構(gòu)
語義分析與漢俄副名組合
南通市| 合作市| 永康市| 淳安县| 潞西市| 临湘市| 交城县| 武隆县| 东港市| 崇阳县| 吕梁市| 四会市| 奉节县| 平武县| 日喀则市| 阿荣旗| 淮北市| 巴林右旗| 南漳县| 罗源县| 盐山县| 麻阳| 四川省| 望江县| 积石山| 江川县| 曲水县| 宁武县| 洪雅县| 巴林右旗| 崇左市| 大洼县| 阿坝县| 突泉县| 平江县| 密山市| 四会市| 卓尼县| 杂多县| 寿阳县| 德令哈市|