国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征結(jié)構(gòu)的漢語連動句語義標(biāo)注研究

2013-10-15 01:37:34姬東鴻
中文信息學(xué)報 2013年5期
關(guān)鍵詞:三元組結(jié)構(gòu)圖謂語

陳 波,姬東鴻,呂 晨

(1.湖北文理學(xué)院 文學(xué)院,湖北 襄陽441053;2.武漢大學(xué) 計算機(jī)學(xué)院,湖北 武漢430072)

1 語言學(xué)界連動句研究

朱德熙[1],黃伯榮[2],范曉[3],陳昌來[4]認(rèn)為,連動句的特點是由兩個或兩個以上的動詞短語連用構(gòu)成了句子的謂語,這些動詞短語有一個共同的主語(施事),動詞短語之間結(jié)構(gòu)緊湊,也不能有句法關(guān)系(例如,主謂關(guān)系、偏正關(guān)系、動賓關(guān)系、動補(bǔ)關(guān)系等),動詞短語的出現(xiàn)一般是按照動作發(fā)生的時間順序或者動作的邏輯順序依次排列的。例如,

例1 小宋取了存款去買衣服了。

例2 小宋看論文看累了。

例3 小宋有權(quán)利打電話投訴。

例1中,“取”和“去”、“買”是時間上先后發(fā)生的順序;例2中,“看論文”和“看累了”是因果關(guān)系;例3是條件關(guān)系。

連動句可以描述為:

“主語+動詞短語1+動詞短語2+......”

語形可以表示為:

“N1+V1+N2+V2+N3+......”

連動句的語義關(guān)系包括兩大部分:“主語與構(gòu)成謂語的若干動詞短語之間的語義關(guān)系”和“構(gòu)成謂語的若干動詞短語之間的語義關(guān)系?!痹谡Z言學(xué)領(lǐng)域,關(guān)于連動句的語義關(guān)系描述,成果非常豐富。李臨定[5],邢欣[6],楊月蓉[7]主要研究方法是先用"施事、受事"等語義格對主語和幾個謂語動詞進(jìn)行描述,再用"方式、狀態(tài)、時間、處所、方面、依靠、目的、訊號、動作發(fā)生時間順序、因果關(guān)系、假設(shè)關(guān)系、同義或近義"等對謂語動詞之間的關(guān)系進(jìn)行描述。

表1 連動句語義關(guān)系研究分類表

從表1可以看出,語言學(xué)上的這種語義關(guān)系的描述還是很細(xì)致的,對主語(N1)、動詞(V1)、名詞(N2)、動詞(V2)、名詞(N3)之間的語義關(guān)系從多個角度進(jìn)行了分析。盡管,這種分類在語言學(xué)領(lǐng)域很有意義,但是面向自然語言處理時,這種語義分類的成果卻難以形式化或制定嚴(yán)格的分類標(biāo)準(zhǔn),描述時顆粒度過細(xì)會造成研究的復(fù)雜和繁瑣;描述的顆粒度過粗又會喪失研究意義。

2 NLP中連動句語義標(biāo)注難點所在和問題分析

語言處理的分析方法以短語結(jié)構(gòu)分析法和依存分析法為代表。

2.1 連動句的短語結(jié)構(gòu)標(biāo)注

短語結(jié)構(gòu)語法主要是從表層的句法結(jié)構(gòu)層面進(jìn)行分析(圖1)。例如,

例4 我開車去車站接他。

圖1 例4短語結(jié)構(gòu)分析圖

短語結(jié)構(gòu)分析法能夠很好地把連動句表層的句法結(jié)構(gòu)描述出來,卻沒有涉及語義信息。

2.2 連動句的依存分析標(biāo)注

傳統(tǒng)依存公理認(rèn)為,一個句子中有且只能有一個中心動詞,其他詞語都依存于該中心詞。這個公理在處理漢語連動句時帶來很多難題。漢語連動句至少包含兩個動詞V1、V2,有時還有更多的動詞V3、V4等。如果要運(yùn)用傳統(tǒng)的依存語法來分析漢語連動句,就必須強(qiáng)制地規(guī)定出一個中心動詞來,然后其他的動詞都依附于它。那么如何來尋找這個中心動詞呢?

陳波[8]研究表明,目前國內(nèi)建設(shè)標(biāo)注語料庫時,大多運(yùn)用的是傳統(tǒng)依存語法。傳統(tǒng)依存語法從法語和英語的標(biāo)注研究中發(fā)展而來,沒有遇到過漢語連動句這種有兩個或兩個以上的動詞短語連用構(gòu)成句子的情況。國內(nèi)研究機(jī)構(gòu)在研究漢語連動句時發(fā)現(xiàn),連動句中V1、V2之間的語義關(guān)系很復(fù)雜,很難確定出這些連續(xù)的動詞的語義地位孰輕孰重,很難確定哪一個是中心詞。但是如果要運(yùn)用傳統(tǒng)依存分析方法來描述連動句,就必須找一個動詞中心詞來。

在當(dāng)前的中文信息處理中,針對連動句,目前采取的方法是:人為地規(guī)定,連續(xù)出現(xiàn)的若干個動詞V1、V2等,第一個動詞V1被默認(rèn)為中心詞,后面的動詞V2等都依存于它,如哈爾濱工業(yè)大學(xué)漢語依存樹庫[9]。傳統(tǒng)依存語法分析連動句方案如圖2所示。

圖2 連動句傳統(tǒng)依存分析方案

因此運(yùn)用傳統(tǒng)依存分析法,例4的分析結(jié)果如圖3所示。

圖3 例4的傳統(tǒng)依存分析樹

例4中,主語N1是“我”;第一個動詞短語V1是“開”,N2是“車”;第二個動詞短語V2是“去”,N3是“車站”;第三個動詞短語V3是“接”,N4是“他”。

根據(jù)語義關(guān)聯(lián),我們按照語義認(rèn)知來分析,例4中具有語義關(guān)系的詞語對(word pair)至少有:(我,開);(我,去);(我,接);(開,車);(去,車站);(接,他)。

除了上述信息外,該句還包含其他語義信息。例如,我們還可以提問:

在哪里接?答案:車站。因此,可描述為:

[接,(在),車站]

怎么接?答案:用車接??擅枋鰹椋?/p>

[接,(用),車]

怎么去?答案:開車。可描述為:

[去,(方式),開車]

圖3是傳統(tǒng)依存語法對例4的分析結(jié)果,可以看到,運(yùn)用依存分析法的分析結(jié)果,V1“開”被默認(rèn)為中心詞,V2“去”、V3“接”都被默認(rèn)地依存于“開”。主語“我”僅跟 V1“開”發(fā)生語義聯(lián)系,而“我”與V2“去”、V3“接”的語義關(guān)系卻沒有表示出來。而“接”和“車”、“接”和“車站”的語義關(guān)系也沒有表示出來。

因此,從例4可以看出,現(xiàn)有的傳統(tǒng)依存分析法在分析漢語連動句時丟失了很多語義信息,為進(jìn)一步的語言處理工作如信息抽取等帶來一定的困難。

3 連動句的特征結(jié)構(gòu)標(biāo)注

3.1 特征結(jié)構(gòu)模型

馮志偉[10]認(rèn)為,找出句子中單詞之間的語義關(guān)系才是機(jī)器翻譯中語義分析的最終目的。這種語義關(guān)系與單詞本身的語義特征不同,而且與單詞在句子和文中的上下文密切相關(guān)。陳波[11-12]提出,對句子或短語內(nèi)部概念關(guān)聯(lián)和關(guān)聯(lián)的種類的描寫是特征結(jié)構(gòu)資源的基本任務(wù)。

例5 從廣州飛飛到武漢

例5描述為(飛,從,廣州),(飛,到,武漢),“飛”和“廣州”、“飛”和“武漢”都存在概念關(guān)聯(lián),如果在這兩個關(guān)聯(lián)對中添加上關(guān)聯(lián)種類的話,就是“飛-從(起點)-廣州”,“飛-到(終點)-武漢”,直觀上,這個三元組正好可以理解為“實體、特征、特征值”關(guān)系。一般來說,一個短語或句子可表示成一個由實體(Entity)、特征(Feature)和特征值(Value)組成的三元組(Triple)的集合,這個集合我們稱之為該短語或句子的特征結(jié)構(gòu)(Feature Structure)。

特征結(jié)構(gòu)三元組:[實體,特征,特征值]Feature Triple:[Entity,F(xiàn)eature,Value]

一個特征三元組反映一對語義關(guān)聯(lián),例5可以用特征三元組表示為:

[飛,從,廣州][飛,到,武漢]

姬東鴻[13]提出,通常,一個短語或句子可以用一個特征三元組集合來表示:[實體,特征,特征值],我們稱之為這個短語結(jié)構(gòu)或句子結(jié)構(gòu)的“特征結(jié)構(gòu)”集合。形式表達(dá)上,如圖4所示,特征三元組可以用一個無向圖來表示,并允許遞歸。

圖4 特征結(jié)構(gòu)三元素組成圖

圖5 一個特征三元組形式化表示

如圖5所示,A表示實體,B表示特征,C表示特征值。B反映了A和C之間的語義關(guān)聯(lián)。上圖語義是,實體 A的特征B的值是C。陳波[14-15]提出,特征結(jié)構(gòu)圖是一種可遞歸的、允許多重關(guān)聯(lián)的、無向的、圖結(jié)構(gòu),如例6所示。

例6 “小王說自己是大學(xué)教師?!?/p>

其特征結(jié)構(gòu)三元組如下,特征結(jié)構(gòu)圖如圖6所示。

[說,,小王]

[說,,自己是大學(xué)教師]

[自己小王,,小王]

[是,,自己]

[是,,教師]

[教師,,大學(xué)]

圖6 例6的特征結(jié)構(gòu)圖

3.2 連動句特征結(jié)構(gòu)模型分析

我們以典型意義的連動句為語義描述對象,《現(xiàn)代漢語句型》[5]對連動句分類較詳細(xì),我們選取了其中的例句,加上目前語言學(xué)界爭議較多的語例,共16句作為考察對象,運(yùn)用特征結(jié)構(gòu)模型細(xì)致地分析了這16個例句的特征結(jié)構(gòu)三元組和特征結(jié)構(gòu)圖。因篇幅關(guān)系,選取其中三個例句分析如下。

例7 我推開門走出去。

這是語言學(xué)家公認(rèn)的一個典型的連動句。動詞短語1是“推開門”,動詞短語2是“走出去”,兩者是按時間順序發(fā)生的連續(xù)動作。它的特征結(jié)構(gòu)三元組和特征結(jié)構(gòu)圖如圖7所示。

[推,,我]

[推,,開]

[推,,門]

[走,,我]

[走,,出去]

圖7 例7特征結(jié)構(gòu)圖

例8 我買了碗面吃。

例8的動詞短語1“買了碗面”,“面”是V1的賓語;動詞短語2沒有賓語,只有一個及物動詞“吃”。例8的特點是V1的賓語“面”是V2吃的受事,兩者存在著語義關(guān)聯(lián)。它的特征結(jié)構(gòu)三元組和特征結(jié)構(gòu)圖如圖8所示。①本例的另一特點是“一碗面”中的數(shù)詞“一”省略了,這也是漢語的一個特點,在圖中我們用“$”表示。

[買,,我]

[買,,了]

[買,,面]

[面,碗 ,$]

[吃,,我]

[吃,,面]

[買,,吃]

圖8 例8特征結(jié)構(gòu)圖

例9 他穿著一件大衣走進(jìn)來。

例9的動詞短語1“穿著一件大衣”,動詞短語2“走進(jìn)來”,動詞短語1是對主語狀態(tài)的描述,與動詞短語2是無語義關(guān)聯(lián)的。它的特征結(jié)構(gòu)三元組和特征結(jié)構(gòu)圖如圖9所示。

[穿,,他]

[穿,,著]

[穿,,大衣]

[大衣,件 ,一]

[走,,進(jìn)來]

[走,,他]

4 不同理論的連動句標(biāo)注分析比較

4.1 標(biāo)注結(jié)果對比

我們以例8為例,進(jìn)行特征結(jié)構(gòu)分析與傳統(tǒng)依存分析,將分析結(jié)果進(jìn)行對比,來評測對連動句的語義分析效果(表2)。

表2 兩種分析結(jié)果對比表

分析結(jié)果對比如表3所示。傳統(tǒng)依存分析結(jié)果沒有把“我”和“吃”、“吃”和“面”的語義關(guān)系表示出來,但是卻把沒有語義關(guān)系的“買”和“吃”之間的語義關(guān)系標(biāo)注出來。因此它漏掉了兩個語義關(guān)系對,還標(biāo)注了一個沒有語義關(guān)系的語義關(guān)系對。

表3 兩種分析結(jié)果對比表

4.2 特征結(jié)構(gòu)模型的優(yōu)點

(1)特征結(jié)構(gòu)模型能夠描述更多的語義關(guān)系對,因此包含更加豐富的語義信息。

① 傳統(tǒng)依存語法無法表示連動句中主語和除第一個謂語動詞之外的其他謂語動詞之間的語義關(guān)系。特征結(jié)構(gòu)模型可以完整地表示連動句中主語和所有謂語動詞之間的語義關(guān)系。

例如,“我買了碗面吃”中“我”和“吃”的語義關(guān)系,傳統(tǒng)依存分析無法表示但是特征結(jié)構(gòu)模型可以表示出來。

② 傳統(tǒng)依存語法無法表示連動句中某個謂語動詞的賓語與其他謂語動詞之間的語義關(guān)系,特征結(jié)構(gòu)模型可以完整地表示它們之間的語義關(guān)系。

例如,“我買了碗面吃”中“面”和“吃”的語義關(guān)系,傳統(tǒng)依存分析無法表示但是特征結(jié)構(gòu)模型可以表示出來。

③ 連動句中,兩個或多個謂語動詞之間,有時存在語義關(guān)系,有時不存在語義關(guān)系。傳統(tǒng)依存語法無法辨析這兩種情況,不管實際的語義關(guān)系是否存在,為了標(biāo)注的方便,傳統(tǒng)依存語法強(qiáng)制規(guī)定第一個動詞為全句中心詞,其他動詞都直接依存于它。這種處理方法,顯然違背了語言處理的目標(biāo)“語義理解”。特征結(jié)構(gòu)模型可以按照語言實際情況,如實地反映這些謂語動詞之間的語義關(guān)系。

例如,例句“他站著吃飯”中“站著”和“吃”之間恰巧有語義關(guān)系,傳統(tǒng)依存分析方法能把它表示出來;例句“我買了碗面吃”中“買”和“吃”沒有直接的語義關(guān)系,而傳統(tǒng)依存分析方法仍然把它表示了出來。特征結(jié)構(gòu)模型的處理結(jié)果是前者有語義關(guān)系而后者沒有語義關(guān)系。

(2)特征結(jié)構(gòu)模型能夠?qū)鹘y(tǒng)依存分析法不能解釋的語言現(xiàn)象做出解釋。

① 有助于對連動句句式的判定

在語言學(xué)界,爭議較大的連動句類型,一種是“N1+V1+著+V2+N2”,這類句型的爭論焦點是:到底是連動句還是“V1+著”充當(dāng)狀語修飾V2的一般主謂句?另一種是有關(guān)聯(lián)詞的連動句,到底是連動句還是緊縮復(fù)句?

我們先來看看連動句典型的特征結(jié)構(gòu)圖。每一種句式都有著自己的獨特特點,即使偶爾有變形的情況,也是基于獨特特點的情況下進(jìn)行的變形。連動句的典型特征結(jié)構(gòu)圖如下所示。

圖10 連動句的典型特征結(jié)構(gòu)圖

圖10 中,連動句的特點是要求主語N1與動詞V1、動詞V2之間必須存在語義關(guān)聯(lián)。

先來看第一種“N1+V1+著+V2+N2”句式,這類句式的例句有很多。

例10 他站著吃飯。

例11 他躺著看小說。

例12 他穿著一件大衣走進(jìn)來。

這三句是不是連動句呢?我們先不管動詞V1和動詞V2之間的語義關(guān)系,關(guān)鍵來看主語“他”和動詞短語1中的“動詞”是否存在語義關(guān)聯(lián)。這三個 句子的特征結(jié)構(gòu)圖如圖11所示。

圖11 例10~12的特征結(jié)構(gòu)圖

顯然,這三個例句中主語和第一個動詞之間存在著語義關(guān)聯(lián),因此,這三個例句應(yīng)該都屬于連動句。

我們再來看第二種有關(guān)聯(lián)詞語的句式的辨析,下面有四個例句。

例13 張三一來李四就走了。

例14 張三一來就哭了。

例15 李四拿了筆記本就走了。

例16 李四拿了筆記本走了。

按照有的學(xué)者的觀點,例13~15三句中含有關(guān)聯(lián)詞語“一……就”和“就”,所以是緊縮復(fù)句;例16句沒有關(guān)聯(lián)詞語,所以是連動句。這種觀點是否有道理呢?

如果運(yùn)用傳統(tǒng)依存分析法,這四句的依存分析如下。

由于傳統(tǒng)依存分析法無法處理成對的關(guān)聯(lián)詞語“一……就”,例13、14兩句的分析結(jié)果為圖12。

圖12 例13~14的依存樹

例15、16兩句的依存分析樹為圖13。

圖13 例15~16的依存樹

通過圖12、圖13的四個依存分析樹我們可以發(fā)現(xiàn),傳統(tǒng)依存分析法無法分析有著成對關(guān)聯(lián)詞語的句子,因而無法分析這些分句之間的語義關(guān)系。在分析有著單個關(guān)聯(lián)詞語的句子時,也無法表示出主語和兩個謂語動詞之間的語義關(guān)系;而且不管這兩個動詞之間是否具有語義關(guān)系,都把二者標(biāo)注在一起。

我們運(yùn)用特征結(jié)構(gòu)模型來分析例13~16,結(jié)果如圖14。

根據(jù)分析圖我們發(fā)現(xiàn),很明顯例13不符合典型的連動句特征結(jié)構(gòu)圖,應(yīng)該屬于緊縮復(fù)句,而例14~16三句雖然互不相同但是都具有連動句的特點,因此應(yīng)該屬于連動句的類型。

② 有助于對雜糅句式的分析

漢語與其他語言相比,特別注重意合,是一種語義關(guān)系非常復(fù)雜的語言。有時,一個句子可能雜糅著若干個句型,句中各個詞語之間的語義關(guān)系錯綜復(fù)雜。如例17所示。

例17 首長要他們派車送二排長入院。

例17由四個動詞短語構(gòu)成,每個動詞短語各自帶有賓語,這些詞語之間是什么語義關(guān)系呢?這個句子包含哪些句型呢?

如果運(yùn)用傳統(tǒng)依存分析法,它的依存樹如下:

圖14 例13~16的特征結(jié)構(gòu)圖

圖15 例17的依存樹

如圖16,傳統(tǒng)依存分析法無法表示出句子中“他們”和“派”、“車”和 “送”、“他們”和“送”、“二排長”和“入”之間大量的語義關(guān)系。

圖16 例17的特征結(jié)構(gòu)圖

通過特征結(jié)構(gòu)分析,我們可以發(fā)現(xiàn)該句中的“他們派車送二排長”這部分屬于連動句式。整個句子分為三個部分,第一部分“首長要他們派……”是一個兼語句式,中間“他們派車送二排長”是一個連動句式,第三部分“送二排長入院”又是一個兼語句式,因此通過特征結(jié)構(gòu)分析,我們可以辨析出:該句由兩個兼語句式和一個連動句式雜糅而成。

5 結(jié)論

本文回顧了語言學(xué)界對連動句的研究成果和爭論焦點,總結(jié)了漢語連動句的語法特點,然后分析了面向自然語言處理時連動句的標(biāo)注難點。運(yùn)用特征結(jié)構(gòu)模型對語言學(xué)界討論較多的16個連動句分別進(jìn)行了細(xì)致地語義描述和分析,總結(jié)出了四類語義模型。將現(xiàn)有的傳統(tǒng)依存分析方法和特征結(jié)構(gòu)分析方法對連動句的分析結(jié)果進(jìn)行了對比,結(jié)果表明,傳統(tǒng)依存語法無法表示連動句中主語和除第一個謂語動詞之外的其他謂語動詞之間的語義關(guān)系,無法表示連動句中某個謂語動詞的賓語與其他謂語動詞之間的語義關(guān)系,也無法準(zhǔn)確表示兩個或多個謂語動詞之間的語義關(guān)系。與傳統(tǒng)依存分析法相比,特征結(jié)構(gòu)模型能夠描述更多的語義關(guān)系對,因此包含更加豐富的語義信息。另外,特征結(jié)構(gòu)模型能夠?qū)鹘y(tǒng)依存分析法不能解釋的語言現(xiàn)象做出解釋,例如,對連動句句式的判定、對連動句和緊縮復(fù)句的區(qū)分、對復(fù)雜的雜糅句式的語義分析等。特征結(jié)構(gòu)模型為面向漢語的自然語言處理提供了一種不同的語義分析方法。

[1]朱德熙.語法答問[M].北京:商務(wù)印書館,1985:95-110.

[2]黃伯榮.現(xiàn)代漢語[M].北京:高等教育出版社,1991:122-129.

[3]范曉.漢語的句子類型[M].太原:書海出版社,1980:68-78.

[4]陳昌來.現(xiàn)代漢語句子[M].上海:華東師范大學(xué)出版社,2000:167-171.

[5]李臨定.現(xiàn)代漢語句型[M].北京:商務(wù)印書館,1986:302-307.

[6]邢欣.簡述連動式的結(jié)構(gòu)特點及分析[J].新疆大學(xué)學(xué)報,1987,(1):116-122.

[7]楊月蓉.連動句和兼語句中的語義關(guān)系——兼論連動式與兼語式的區(qū)別[J].西南師范大學(xué)學(xué)報,1992,(4):96-100.

[8]陳波.基于語料庫的依存語法標(biāo)注研究[C].中國計算技術(shù)與語言問題研究——第七屆中文信息處理國際會議論文集,北京:電子工業(yè)出版社,2007:286-289.

[9]哈爾濱工業(yè)大學(xué)漢語依存樹庫:http://ir.hit.edu.cn/demo/Ltp/.

[10]馮志偉.機(jī)器翻譯研究[M].北京:中國對外翻譯出版公司,2004:467-469.

[11]陳波.特征結(jié)構(gòu)及其漢語語義資源建設(shè)[D].武漢大學(xué),博士論文,2011.

[12]陳波.基于特征結(jié)構(gòu)的漢語主謂謂語句標(biāo)注[J].中文信息學(xué)報,2012,26(3):22-25.

[13]Ji Donghong.Semantic annotation of Chinese phrases using recursive-graph[C]//Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics,Hong Kong:Association for Computational Linguistics,2000:101-108.

[14]Chen Bo,Ji Donghong,Zhang Mingyao.Chinese Semantic Resource Construction Based on Feature Structure[C]//Proceedings of The 11th Chinese Lexical Semantics Workshop(CLSW2011).TaiBei.2011:324-331.

[15]Chen Bo,Ji Donghong.Chinese Semantic Parsing Based on Dependency Graph and Feature[C]//Proceedings of the First International Conference on E-lectronic &Mechanical Engineering and Information Technology(EMEIT 2011),Haerbin,China.2011:1730-1734.

猜你喜歡
三元組結(jié)構(gòu)圖謂語
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
中國共產(chǎn)黨第二十屆中央組織結(jié)構(gòu)圖
非謂語動詞
特征標(biāo)三元組的本原誘導(dǎo)子
非謂語動詞
關(guān)于余撓三元組的periodic-模
概率知識結(jié)構(gòu)圖
第十九屆中共中央組織結(jié)構(gòu)圖
非謂語動詞題不難答 石娟
非謂語動詞
霍邱县| 鄂州市| 定远县| 英德市| 东平县| 辉南县| 澜沧| 大姚县| 黑水县| 高阳县| 尉氏县| 西畴县| 石景山区| 泸西县| 偃师市| 府谷县| 木兰县| 蒙山县| 渝中区| 辛集市| 海宁市| 金乡县| 成武县| 罗山县| 合阳县| 巫溪县| 开江县| 金乡县| 乌拉特中旗| 临桂县| 西丰县| 晋中市| 卓尼县| 醴陵市| 宿松县| 永胜县| 桐庐县| 正阳县| 黔西县| 弥勒县| 额敏县|