汪夢翔,王厚峰,劉 楊,饒 琪
(1. 北京大學(xué) 計算語言學(xué)研究所,北京 100871;2. 北京聯(lián)合大學(xué) 師范學(xué)院,北京 100011;3. 華中師范大學(xué) 文學(xué)院,湖北 武漢 430079)
我們先看兩個句子:
(1) 我在買菜
(2) 我在趕論文
一般情況下,目前計算機(jī)要理解和處理這兩個句子,必須理清其中謂詞和其所支配成分間的語義關(guān)系,而要準(zhǔn)確地反映這些語義關(guān)系,傳統(tǒng)做法是在確定核心動詞的前提下,通過對其所支配的成分進(jìn)行相關(guān)的標(biāo)注,來反映動詞和論元的關(guān)系。到底如何才能準(zhǔn)確標(biāo)注,這就需要建立一個以動詞為核心的相應(yīng)的語義資源,陳列各種語義關(guān)系,來為計算機(jī)提供選擇的余地。傳統(tǒng)的動詞語義資源都是以動詞為核心,著眼于動詞和其所支配成分間關(guān)系的刻畫。但是一旦這種核心動詞缺省或者隱含,這種情況就無法通過計算機(jī)準(zhǔn)確地表達(dá)出來。例如(1)句中的核心動詞是“買”,在相應(yīng)的語義資源中“買”的支配對象可以用“受事”表示,句中的“菜”直接標(biāo)為“受事”就能夠正確反映這種支配和被支配關(guān)系。但是(2)句中動詞“趕”和“論文”沒有直接語義關(guān)聯(lián),其內(nèi)含語義關(guān)系應(yīng)該是“趕”和“寫”,以及“寫”和“論文”,但這個動詞“寫”隱含了,這種關(guān)系自然就不能顯現(xiàn)。
目前國內(nèi)大部分語義資源都不能反映和再現(xiàn)謂詞間隱含的語義關(guān)系,而國外的Pustejovsky等人所構(gòu)建的Brandeis Semantic Ontology(BSO)雖然能夠揭示諸如“begin the novel”這樣的謂詞隱含現(xiàn)象,但這一數(shù)據(jù)資源庫主要是面向英語,而且缺乏句式的描述,所以本文就是想在前人的基礎(chǔ)上,構(gòu)建一種動詞語義資源: 它能夠集句法形式與語義分析于一體,不僅能夠反映漢語中常規(guī)的動動以及動名關(guān)系,還能夠找出非常規(guī)的、帶有隱含的謂詞邏輯關(guān)系。
本資源庫綜合了《動詞大詞典》、《現(xiàn)代漢語動詞大詞典》、《動詞用法詞典》的數(shù)據(jù),包括拼音、釋義、義項、語義角色、例句等,另外又額外補充了自己收集的近200個常用動詞,一共2 506個動詞,3 299個詞項。在語義角色和句法格式的描述中,主要參考了《動詞大詞典》的例句,對于一些詞典中沒有收錄的詞,我們在描述時,主要是通過2002~2012年電子版的《人民日報》和CCL語料庫中的例句資源,還有Chinese Giga Word的Xinhua News,此外還有部分?jǐn)?shù)據(jù)來源于作者的語感,為自造例句。
為凸顯動詞內(nèi)部關(guān)聯(lián),多角度地描寫動詞間、動名間的常規(guī)或非常規(guī)關(guān)系,本文采用樹形的動詞語義表示框架,外部將借鑒VerbNet語義層次構(gòu)建平臺,聚合帶有相同語義或句法功能的動詞集,并以此作為父節(jié)點,內(nèi)部將通過事件結(jié)構(gòu)、物性結(jié)構(gòu)、論元角色、句法構(gòu)式的描寫來反映集合內(nèi)部成員的各方面特征,具體框架如圖所示。
圖1 CVL構(gòu)建框架
我們把動詞劃分為四個層級。
第一層,我們主要依據(jù)動詞的句法語義屬性,把動詞分為: 行為動詞、心理動詞、交際動詞、關(guān)系動詞四類。
第二層,我們在依據(jù)語義聚合關(guān)系的同時還根據(jù)一些動詞的句法特征的有無,分為創(chuàng)造、活動、動作、認(rèn)知、言語交際等20類。這20類和第一個層次的繼承關(guān)系如下表所示。
表1 中級詞集層次關(guān)系表
在這20個類別中,有9種是屬于行為動詞。
第三層,除了關(guān)系動詞外,我們主要根據(jù)語義的近似度,對上一層詞集進(jìn)行分類,將上一層的20類擴(kuò)展為646個小類。其中行為動詞最多,聚合了493類,其次是交際動詞,聚合了108類,再次是心理動詞,聚合了38類,關(guān)系動詞最少是7類。
第四層,詞的層次,含有2 506個詞,3 299個詞項。
在對動詞特征的發(fā)掘和規(guī)約上,我們采用了自頂向下和自底向上兩種模式。比如對于交際動詞,其語義角色的基本框架一般為“施事+對象”,那么如果自頂向下發(fā)掘的話,下屬成員詞集的語義角色基本框架都會有“施事+對象”,比如“學(xué)習(xí)類”和“幫助類”基本框架都含有“施事+對象”,這樣它們就可以很容易和其他類動詞進(jìn)行區(qū)別,但是內(nèi)部成員的差異性不容易凸顯。如果是自底向上的描述,比如“學(xué)習(xí)”和“幫助”這兩個詞,在最低級別的語義角色描述時,其語義角色基本框架分別為“施事+對象(受事)”和“施事+對象”,以這兩個特征我們可以聚合一些詞語,形成“學(xué)習(xí)類”和“幫助類”,“學(xué)習(xí)類”的詞都是“施事+對象(受事)”,“幫助類”的詞則都是“施事+對象”,如果再往上一層級聚合,那么其能作為基本特征保留的只有“施事+對象”,這一特征也是交際動詞的基本框架。這樣做雖然可以很好地凸顯成員的差異化,但最底層詞語的特征不易規(guī)約一致,且越往上丟失信息越多,且工程量也較大。
我們的做法是,先通過自頂向下規(guī)約基本特征,然后通過自底向上的描述補充差異性特征。具體思路下圖所示。
圖2 動詞特征表示思路
這樣一方面保持了底層成員規(guī)約特征的一致性,凸顯了成員間的共性特征,使得其和集合外成員進(jìn)行有效區(qū)別,另一方面也考慮到一些集合內(nèi)部非典型性成員的個性化特征,并且讓這些個性化特征處于某一基本特征的管轄。
在動詞事件特征知識庫中,我們主要涉及動詞的事件結(jié)構(gòu)和是否為事件動詞兩個特征。
這里的事件結(jié)構(gòu)(Event Structure)特征主要涉及事件內(nèi)部經(jīng)常會有事件的起始、持續(xù)、終結(jié)等以時間為衡量的特征。
我們知道動詞內(nèi)部是含有時間結(jié)構(gòu)的,比如“開會”和“打”,一個是持續(xù)性動作,一個是瞬間動作,它們所隱含的時間特征有差別,所以這兩個動詞從時間的維度上或者是體結(jié)構(gòu)(Tense)維度上劃分為兩個不同的類別。同樣,事件內(nèi)部也有時間結(jié)構(gòu),而且事件結(jié)構(gòu)主要就是指事件的起始、度量和界化(delimitation)等時間結(jié)構(gòu)特性。因為事件主要靠動詞表現(xiàn),所以事件結(jié)構(gòu)和動詞的體結(jié)構(gòu)關(guān)系緊密。
關(guān)于動詞事件結(jié)構(gòu)的劃分,因為劃分的角度不一樣,目的不一樣,自然劃分的結(jié)果也不一樣。我們結(jié)合前人的思想,決定依據(jù)動詞的內(nèi)部時間情態(tài)來和動詞的界性特征* 界性特征指的就是有界和無界的特征。有的動詞界性特征強(qiáng),那么它的有界性就強(qiáng),界性特征弱就傾向于無界性。根據(jù)稅昌錫(2005)的研究,他依托動詞的界性特征,把行為動詞分為七種: 起始動詞VP1(initiation verb)、持續(xù)動詞VP2(duration verb)、活動動詞VP3(activity verb)、跨界動詞VP4(transboundedness verb)、事件動詞VP5(event verb)、達(dá)成動詞VP6 (achievement verb)、完結(jié)動詞VP7(Accomplishment verb)。界性特征(boundedness feature)從VP1到 VP7依次增強(qiáng)。來對動詞所表達(dá)的事件結(jié)構(gòu)類型進(jìn)行劃分,本人認(rèn)為可分為3類: 狀態(tài)(state type)、過程(process type)和轉(zhuǎn)變(transition type):
狀態(tài): 這種事件結(jié)構(gòu)類型,一般是表示事情的起點或終點,有時起點和終點合一。如果要細(xì)分的話,還可以分為3種,一種是起點狀態(tài),表示事件的起點,如“開始”,一種是終點狀態(tài),表示事件進(jìn)行到終點的狀態(tài),如“結(jié)婚”,還有一種是瞬間狀態(tài),表示沒有明確的起始點,也沒有明確的終點,或者說起點終點重合,如“死”。一般這類事件結(jié)構(gòu)所對應(yīng)的動詞只能出現(xiàn)一次(死、結(jié)束等)或者必須經(jīng)歷一段比較長的時間以后才可以再次出現(xiàn)(結(jié)婚、離婚等),一般可以帶“了”,也可不帶(如“發(fā)愁”),但是一般不能帶“著”。典型的是“死、喜歡、盼望、熱衷(于)、知道、主張、提倡、強(qiáng)調(diào)、放棄”等。
過程: 這種事件結(jié)構(gòu)類型,一般表示動作由發(fā)生到結(jié)束的中間過程,一般不包括時間的起點和終點。表達(dá)這種事件結(jié)構(gòu)的動詞,仍然是瞬間動詞的另一個類別,而且是無界的,后面可以接結(jié)果性補語(如“摔破”),可以在短時間內(nèi)連續(xù)出現(xiàn),如果是雙音節(jié)形式都可以進(jìn)入“對NP2的V1”格式(如“對疾病的預(yù)防”),其有界性特征較前面兩類要強(qiáng),前面可以接“(正)在”,后面可以接“著”或“了”。例如“跑、殺、學(xué)習(xí)、防止、嘗試、預(yù)防”等。
轉(zhuǎn)變: 這類動詞的時間特征具有兩面性,一方面可以處于進(jìn)行狀態(tài),具有“無界”的特征,因此可以前加“(正)在”,有時可以加“著”,如“正在建房子/房子正建著”。但另一方面,可以向終極時間點靠近,即將達(dá)成一種完結(jié)狀態(tài),一般不能跟“著”連用,如“建了一棟房子”。這類詞語主要為: 建、寫、制訂、安排等。
基本上,每一個事件結(jié)構(gòu)都有相應(yīng)特征的動詞來與之對應(yīng),但是反過來對每一個動詞來說就不一定了。因為研究者發(fā)現(xiàn),事件結(jié)構(gòu)除跟動詞靜態(tài)的語義特征或時間特征有關(guān)外,在使用過程中,還會受到一些外在因素的影響,比如是否是動補結(jié)構(gòu),是否有定,是否帶有時間助詞等等,因此我們可以說動詞的事件結(jié)構(gòu)特征是組合性的。提取過程中,我們參考了《語法信息詞典》*即使《語法信息詞典》收錄了近2萬多個動詞,但是實際只覆蓋了我們詞庫中3192條詞項,還有107條詞項的語法信息它沒有收錄。中關(guān)于動詞的一些特征(主要通過是否能添加一些表示時效性的成分)的方式提取,如表2所示。
表2 動詞事件結(jié)構(gòu)特征表
需要指出的是,漢語的形式表現(xiàn)和語義內(nèi)涵并不是完全對應(yīng)的關(guān)系,這種形式上的提取標(biāo)準(zhǔn)如同時滿足則比較嚴(yán)格,而《語法信息詞典》在描述這些信息時并不是完全正確,容易造成一定的數(shù)據(jù)稀疏。因此事實上,我們還要看動詞的語義特征,包括[持續(xù)性]、[動作性]、[完結(jié)性]等,來判斷動詞所對應(yīng)的事件結(jié)構(gòu)。
另外需要注意的是,雖然每一種事件結(jié)構(gòu)都有相應(yīng)的動詞與之對應(yīng),但是對于某一個動詞來說,它所傳達(dá)的事件結(jié)構(gòu)并不一定是特定的某一種,也有可能可以傳達(dá)兩種事件結(jié)構(gòu)。比如“屠殺”從形式上判斷應(yīng)該是“過程類”動詞,但是從語義上講,還包括“死”這個狀態(tài),所以它的事件結(jié)構(gòu)可以表達(dá)過程,也可以表達(dá)狀態(tài)。Pustejovesky在描述“kill”的事件結(jié)構(gòu)時就認(rèn)為kill可以傳達(dá)兩種事件結(jié)構(gòu)類型,一個是Process(過程),一個是State(狀態(tài))。
事件強(qiáng)迫是Pustejovsky生成詞庫理論的一種生成機(jī)制。Pustejovsky[1]認(rèn)為詞義單獨來看是相對穩(wěn)定的,但到了句子層面 ,一般會通過一些生成機(jī)制(分別是: 純粹類型選擇 (pure selection)、類型調(diào)節(jié) (type accommodation) 和類型強(qiáng)迫 (type coercion))獲得延伸意義。事件強(qiáng)迫就是類型強(qiáng)迫的一種。例如,begin要求其賓語是個事件論元,句法上通常表現(xiàn)為一個 VP。但有時出現(xiàn)“begin the novel”這種非VP作賓語的情況,因此 begin 就會強(qiáng)迫這個NP 進(jìn)行類型轉(zhuǎn)換 (type shift),由一個物體名詞變成臨時的事件名詞,這就是事件強(qiáng)迫機(jī)制。
事件強(qiáng)迫其實就是一種語義壓縮形式,一些超常搭配往往是事件強(qiáng)迫的結(jié)果。比如“趕論文”就是“趕”和“寫論文”兩個事件的壓縮。
事件強(qiáng)迫要發(fā)生,一般要滿足幾個條件,首先語義上,一般帶有謂詞隱含,且隱含的謂詞多為虛義的輕動詞,如“趕(做)論文”中“做”為隱含謂詞,而且意義比較虛,可理解為“寫”。其次是句法形式上,一般是出現(xiàn)在動賓結(jié)構(gòu)中,比如“學(xué)鋼琴”、“喜歡餃子”。另外,對動詞也有要求,動詞一般必須能夠接VP作賓語,如“寫”這類動詞不能接VP作賓語,那么就不可能存在事件強(qiáng)迫現(xiàn)象。之所以要提到事件強(qiáng)迫,那是因為只有事件動詞才具有事件強(qiáng)迫的功能。
不過對于事件動詞(eventive verb),學(xué)界的認(rèn)識還比較混亂。一種外延比較大,認(rèn)為事件動詞是相對于性質(zhì)動詞(property)或關(guān)系動詞來說的,比如陳平[2];一種外延相對較小,指的是一般行為動詞內(nèi)部一部分具有特殊時間性特征的動詞,比如稅昌錫[3]就是把動作時間開始轉(zhuǎn)向終止點的有界動詞稱為事件動詞,可以表示一個完整的事件,具有“完結(jié)”義。宋作艷[4]認(rèn)為事件動詞應(yīng)該是不能獨立表示一個完整事件,但可以引發(fā)事件,因此是不具有“完結(jié)”義的動詞。我們覺得前者應(yīng)該稱為“事件性動詞”,后者才是真正意義的“事件動詞”。
一般情況下,事件動詞因為可以后接事件,因此具備引起事件強(qiáng)迫的可能,但不是事件強(qiáng)迫發(fā)生的充分條件。比如“學(xué)英語”和“學(xué)鋼琴”。這里“學(xué)”是事件動詞,但是一個有事件強(qiáng)迫,一個沒有。
對于事件動詞的判定,我們不能根據(jù)是否有“完結(jié)”義來判定,因為宋作艷[4]就將動詞“完成”視為事件動詞,只不過宋作艷認(rèn)為“完成”是表示“達(dá)成”(achievement)。其實事件動詞區(qū)別于其他動詞的最典型特征是可以后接由VP構(gòu)成的事件,并且具有事件強(qiáng)迫功能。因此本文認(rèn)為: 如果一個動詞不能單獨描述一個事件,必須借助其他動詞或者依靠隱含動詞的幫助才能描述一個完整事件,那么這樣的動詞就稱為事件動詞。這里要指出的是,謂詞的隱含不一定直接放在動詞之后,如“避免交通事故”我們可以說,“避免交通事故的(發(fā)生)”。
因此形式上,只要滿足以下兩個條件任一個,我們就可判定V1為事件動詞:
A. NP1+V1+(V2)+NP2B. NP1+V1+NP2的V2
我們據(jù)此從3 299個詞項中,確定了213個動詞為事件動詞。提取事件動詞的目的就是為了解釋或描述一些帶有省略的超常搭配組合,并且把它們內(nèi)在的關(guān)聯(lián)進(jìn)行還原和補充。
我們根據(jù)林杏光[5]的研究成果以及結(jié)合實際標(biāo)注語料的需要,提取了一個含有三個層級,并帶有14種語義角色的體系。在這個體系中,我們對林杏光語義角色體系進(jìn)行了某種程度的規(guī)約,去除了“與事格”,提出了“對象格”*關(guān)于“對象格”的具體內(nèi)涵可以參考汪夢翔(2012)、(2014),并對其他角色格和情景格進(jìn)行了一些整合,從數(shù)量上減少了8個,這主要是從工程的角度來考慮。因為語義角色的設(shè)置要充分保證在實際語料標(biāo)注過程中的可操作性。雖然從科學(xué)研究的角度來講,我們應(yīng)該把區(qū)分每一類的語義角色作為終極目標(biāo),但是對于目前的水平來說,過于精細(xì)的劃分在增加工作量的同時,還不能保證標(biāo)注的準(zhǔn)確率。而向上規(guī)約自然可確定性就要高。需要指出的是,這不是此項研究的終點,隨著研究的開展及人力、物力的跟進(jìn),以后還會進(jìn)一步在此基礎(chǔ)上細(xì)化,可以說這一體系為日后語義角色的深入研究留有了一定空間。
表3 本項目語義角色標(biāo)注體系和林杏光語義角色標(biāo)注體系比較
另外,在動詞語義角色的描述過程中,我們參照了魯川《動詞大詞典》的框架,對動詞的語義角色框架進(jìn)行了基本式和擴(kuò)展式的描述?;臼揭话忝枋鰟釉~和其所接的必有論元的關(guān)系,而擴(kuò)展式一般描述動詞和非必有論元的關(guān)系。
需要指出的是,必有論元并不是簡單指施事、受事、對象、結(jié)果等核心角色,非必有也不是單指時間、地點、原因等外圍角色,只要這個語義角色是動詞的一個“價”,而且足以描述某個動詞的語義角色關(guān)系特征,那么就可以作為必有論元,我們就可以把它納入到這個動詞的基本式中進(jìn)行描述。比如,對于動詞“削”,它的基本式是“施事+V+受事”,如“我[施事]削了一個梨[受事]”;而對于動詞“住”,它的基本式就可能是“施事+V+地點”,如“我[施事]住酒店[地點]”,這里的“酒店”雖然是“地點”,但是也是必有的論元,可以體現(xiàn)這個動詞的語義角色特征,所以必須納入到基本式中。
而擴(kuò)展式雖然針對的是非必有論元,但也不一定只能由非核心論元充當(dāng),比如,“小李為張三買了一件衣服”中“張三”是“買”的“對象”,但不是必有論元,這就應(yīng)該歸入到“買”的擴(kuò)展式中。所以無論是基本式還是擴(kuò)展式在語義角色的選擇上沒有嚴(yán)格的界限。我們選擇的標(biāo)準(zhǔn)參照了《動詞大詞典》,基本式或擴(kuò)展式的例句,部分來源于《動詞大詞典》,部分是人為造句,然后再根據(jù)我們的語義角色體系,進(jìn)行逐一描寫。
物性角色的相關(guān)概念及描述主要來源于生成詞庫理論(Generative Lexicon Theory,GLT)。這一理論最初是為了回答為什么會出現(xiàn)類似“begin the novel”這類雖不合語法但可以為人們所運用和理解的句子。而這類現(xiàn)象傳統(tǒng)語法不能解釋,因為傳統(tǒng)語法對詞義的描寫是靜態(tài)的列舉法、分義項,這樣就阻止了詞義的滲透性,反映不了創(chuàng)新性用法的變化軌跡,從而無法還原詞義在上下文的變化。為了解釋詞的不同意義及其在上下文中的創(chuàng)新用法, 生成詞庫理論為每一個詞項設(shè)計了比較立體的語義表達(dá)平面,包括四個層面: 論元結(jié)構(gòu)、事件結(jié)構(gòu)、物性結(jié)構(gòu)和詞匯繼承結(jié)構(gòu)。
需指出的是,生成詞庫理論中的四種語義表達(dá)層面中,一般可能認(rèn)為論元結(jié)構(gòu)和事件結(jié)構(gòu)考察動詞的語義特征顯得較為合適,而物性結(jié)構(gòu)比較適用于描述和考察名詞,因為名詞內(nèi)部本身帶有一定的繼承性和物性。但事實上,Pustejovsky所創(chuàng)立的物性結(jié)構(gòu)描寫體系是適用于所有詞項的(不僅限于名詞),而利用生成詞庫理論中的物性結(jié)構(gòu)來描述漢語中的動詞,目前在漢語學(xué)界做的還不多。
對于漢語動詞的物性角色,我們參考了Pustejovsky的描述體系,對其形式角色、構(gòu)成角色、功用角色、施成角色進(jìn)行了描述,并額外增加了動詞的情感角色描述。所謂情感角色,就是對動詞所傳達(dá)出來的感情傾向。一般分為積極、消極、中性。比如: “尊敬”的情感角色就是積極,而“勾結(jié)”的情感角色就是消極,“嘗試”的情感角色就是中性。對于動詞情感色彩的判定,我們主要依據(jù)人的感知。我們采取了人工雙盲標(biāo)注,對每一個詞語進(jìn)行推敲,然后再挑出有分歧的詞語,從適用對象、實際句子語料、以及同義、反義對照的幾個方面,共確定積極動詞詞項330個,消極動詞詞項458個,中性動詞詞項2 511個。它們的分布比例如圖3所示。
而對于動詞的形式角色、構(gòu)成角色、功用角色、施成角色我們做了相應(yīng)的規(guī)定,其內(nèi)涵和Pustejo-vsky最初的定義有所出入。
圖3 動詞情感角色分布圖
在生成詞庫論的理論體系中,詞項的形式角色一般指的是詞項的本體屬性(ontology)。比如Pustejovsky在描述“artifact”和“doctor”的形式角色時,主要突出的是它們的歸屬,分別是“實體(entity)”和“人(person)”
因之前我們在動詞層級劃分時就對動詞的本體屬性有某種程度的涉及,所以在這里,形式角色的內(nèi)涵主要是指動詞自主性特征。
對于功用和施成角色,我們主要從動詞所接NP來進(jìn)行表現(xiàn)。我們認(rèn)為: 動詞的功用角色,可以理解為動詞后所接的受事NP;而動詞的施成角色,可以理解為動詞的結(jié)果NP。例如,“熬”的功用角色可以是“骨頭、樹葉”等,而施成角色可以是“湯、稀飯”等。動詞的功用角色和施成角色都是通過動詞所接的名詞性賓語來體現(xiàn)。只不過一個是支配,強(qiáng)調(diào)的是作用;一個是轉(zhuǎn)變關(guān)系,強(qiáng)調(diào)的是結(jié)果。為避免數(shù)據(jù)的繁雜,我們在提取時,對名詞性賓語做了相應(yīng)的規(guī)約,比如,就施成角色來說,熬(1)和熬(2)所接的名詞性賓語分別為“汁_粥_湯_婆_清湯_膏_稀飯”和“公婆_婆_精”,規(guī)約為“人工物”和“人”。如圖所示:
圖4 動詞“熬”的施成角色描述
對于構(gòu)成角色的描述方式和角度,Pustejovsky缺乏一定的規(guī)范,針對這點,我們就直接把動前出現(xiàn)的名詞作為構(gòu)成角色的數(shù)據(jù)源。所以本項目所描述的構(gòu)成角色和生成詞庫中的構(gòu)成角色內(nèi)涵有所差別,其所指也不同。
我們可以把這幾種物性角色的內(nèi)涵簡單歸納為:
表4 CVL的幾種物性角色內(nèi)涵表
漢語的句法格式研究主要依托的理論是構(gòu)式語法(Construction Grammar)的相關(guān)理論。本文在漢語動詞句法格式的提取上,一方面基于一定的數(shù)據(jù)庫語料,一方面參考了前人的研究成果,比如《動詞大詞典》的數(shù)據(jù)。
在句式的判定和劃分上,我們首先以論元為依托。漢語中一般最多有三個論元參與到事件中,即主體、客體和鄰體。需要注意的是,這種句法層次的劃分和語義角色的劃分不是一個層次。雖然它們之間具有某種對應(yīng)關(guān)系(主體一般由施事格充當(dāng),客體一般由受事格充當(dāng),鄰體一般由對象格充當(dāng)),但是一些外圍角色也有可能成為主體或客體。比如“墻上掛了一幅畫”、“飛機(jī)直達(dá)倫敦”,這里“墻上”和“倫敦”都是地點,但是一個是“掛”的主體,一個是“直達(dá)”的客體。而且鄰體是從形式上來說的,專門針對第三個論元的情況,是在客體論元不夠的時候,為區(qū)別客體而設(shè)置的,因此不可能出現(xiàn)“主體+鄰體”的情況。
另外漢語在使用中,往往包括一些省略,我們判斷一個動詞的主體和客體還是要依據(jù)句法的最大自足性原則,也就是在盡量補足主體和客體的原型句式基礎(chǔ)上,再考察一些自足的句式。比如: “錢包丟了”,這句雖然能說,但不是最完整的句法結(jié)構(gòu)。而“我丟錢包了”這里主體和客體都有,因此,作為判斷主體客體的原型或基本句式這樣來看的話,“錢包丟了”這個句式中,“錢包”就不能看做是“主體”,而應(yīng)該看做是“客體”。
在漢語中,一個動詞所聯(lián)系的主體、客體,有時還有鄰體,在表層結(jié)構(gòu)中,可以有多個位置,因此構(gòu)成了各種句子格式。比如“吃”的主體可以在句首或句中。如,“我吃了蘋果、蘋果我吃了,蘋果被我吃了”。根據(jù)排列組合的原則,如果主體、客體、鄰體和動詞這四個成分組合的話有24種,但是實際上只有11種,很多情況不符合漢語的說話習(xí)慣。
為彰顯句法格式變換的系統(tǒng)性和區(qū)別性,我們是在三種常見句型的基礎(chǔ)上,再最大限度地羅列了可能的變換句式:
I無客式(不帶客體):
001主體+V 客人來了(常規(guī))
002 V+主體 來客人了
II帶客式(帶一個客體):
003主體+V+客體: 我吃了三個蘋果(常規(guī))
004客體+V: 蘋果吃了
005主體+客體+V: 我把蘋果吃了/我蘋果已經(jīng)吃了
006客體+主體+V: 蘋果被我吃了/蘋果我已經(jīng)吃了
III一客一鄰式(帶一個客體一個鄰體):
007主體+V+鄰體+客體: 我送他一支筆(常規(guī))
008主體+V+客體+鄰體: 我送一只筆(給)他
009主體+客體+V+鄰體: 我把一支筆送給他
010主體+鄰體+V+客體: 我向老師請教一個問題
011客體+主體+V+鄰體: 書(被)我送給他了
這里我們參考了《動詞大詞典》的句法變換格式,但是我們也增加了一些《動詞大詞典》沒有的句式,比如“客體+V”、“主體+鄰體+V+客體”。
另外,《動詞大詞典》中把有無介詞作為劃分句型的條件之一,比如同是“主體+客體+V”,《動詞大詞典》就認(rèn)為有“主體+客體+V”和“主體+介詞+客體+V”兩種。我們在這里沒有采用,主要是因為在正規(guī)的書面語中,一個論元如果不在常規(guī)位置,或者需要由句首或句末位置移至句中時,一般都會加入形式標(biāo)記進(jìn)行區(qū)別(比如“我吃了蘋果→蘋果被我吃了→我把蘋果吃了”,而“蘋果我吃了”這樣的句式在口語中比較常見)。在我們的變換體系中,主要是凸顯主、客、鄰體的位置變換,而且這種變換已經(jīng)把介詞的因素考慮在內(nèi),因為有些論元移入到句中時必須加介詞,我們出于人力物力的考慮,現(xiàn)階段暫時不根據(jù)介詞的有無再進(jìn)行句式的細(xì)分。不過,在以后的研究中,如果有需要,我們還是有必要將某些句式根據(jù)介詞的有無或介詞的種類再進(jìn)行進(jìn)一步的劃分。
在面對同一種組合形式的詞組和句子時,我們可通過動詞的一些特征來進(jìn)行句法分析,因為動詞的特征是需要依賴名詞來體現(xiàn)的,所以我們必須要結(jié)合名詞的相關(guān)語義知識表示。
我們來看兩個形式一樣,但句法構(gòu)造不同的句子:
(1) 修理汽車的工人
(2) 搜查士兵的背包
這兩句構(gòu)造都是“VP+NP+的+NP”,但一個是偏正結(jié)構(gòu),一個是動賓結(jié)構(gòu)。如何讓計算機(jī)區(qū)別,我們可以借助這兩個動詞在本資源庫中的物性特征描述。
“修理”的功用角色一般為: 人工物
構(gòu)成角色一般為: 人
“搜查”的功用角色一般為: 具體物
構(gòu)成角色一般為: 人
然后我們需要結(jié)合名詞的語義類屬性來匹配,這里我們借助的是《北大中文概念詞典》中名詞的語義類屬性:
工人[語義類: 人] 汽車[語義類: 人工物]
背包[語義類: 具體物] 士兵[語義類: 人]
這樣,“修理”只能支配“汽車”,而不是“工人”,而“搜查”只能支配“背包”,而不是“士兵”。
具體分析過程如下圖所示:
圖5 動詞物性角色在句法分析中的應(yīng)用
判定某些動賓搭配是否帶有省略謂詞現(xiàn)象,我們可以依據(jù)我們語義資源庫的兩個特征: 一個是事件動詞,一個是物性角色。其中是否為事件動詞,是是否帶有謂詞省略的必要條件。而對于物性角色,我們主要關(guān)注施成或功用角色是否對應(yīng)。因為謂詞的省略常常是事件強(qiáng)迫的結(jié)果,宋作艷(2011)指出“事件強(qiáng)迫結(jié)構(gòu)中所隱含的動詞通常是賓語名詞的施成角色或功用角色”,所以要較好地確認(rèn)或者還原省略成分,必須從動詞和名詞間的施成角色或功用角色是否對應(yīng)開始。那么如何利用我們上面提到的兩個特征來對謂詞省略現(xiàn)象進(jìn)行判別和還原呢?我們可以看兩組搭配:
(1) 趕論文 (2) 學(xué)英語
看論文 學(xué)鋼琴
在第一組中,動詞不一樣,名詞一樣,都是“V+論文”模式,但是一個有謂詞省略,一個沒有謂詞省略。我們可以通過我們語義資源標(biāo)注的一些動詞特征(比如是否為事件動詞)來判斷是否有省略現(xiàn)象。在我們動詞資源館中,“趕”是事件動詞,“看”不是事件動詞,因此“看”就不具備事件強(qiáng)迫的可能,也就不存在省略現(xiàn)象。而對于“趕”來說,因為是事件動詞,所以具備了省略謂詞的可能。具體如何還原或補出謂詞,還需要借助名詞的物性角色特征。比如“趕論文”中“論文”的施成角色為“寫”,我們要確認(rèn)“寫”是否為隱含動詞,可以利用“寫”的物性角色描述。比如我們資源庫中描述到“寫”的構(gòu)成角色為“人”,而且只有施成角色“人工物”,而“論文”屬于人工物,所以“寫”可以和“論文”搭配,并且照應(yīng)“論文”的施成角色?!摆s”作為狀態(tài)動詞后可接狀態(tài)、轉(zhuǎn)變、過程類動詞,且后接的動詞必須是“do(做)”義的輕動詞,這樣作為過程動詞和帶有“do(做)”義的“寫”就符合“趕”后接成分的條件,因此可以和“趕”搭配,同時在CVL中“寫”的施成角色角色中也含有“論文”,這樣相互照應(yīng),就可以判定“趕論文”是帶有謂詞省略“寫”。
在第二組中,都是“學(xué)+NP”格式,因為“學(xué)”本身屬于事件動詞,因此它所接的賓語可能會有省略。事實上,“英語”的功能角色是“學(xué)”,而“鋼琴”的功能角色是“彈奏”,那么對于“學(xué)英語”來說就沒有省略,而對“學(xué)鋼琴”來說,省略了謂詞“彈奏”。
因此我們可以利用動詞的事件特征和物性特征來幫助我們判斷某些動賓搭配是否存在省略搭配現(xiàn)象,并可以加以適當(dāng)?shù)倪€原,這樣省略的語義就得到補充,語義表達(dá)更加明確。
由于北大多視圖漢語樹庫(PKT)的語義角色標(biāo)注體系和本項目所描述的語義角色是一個體系,所以我們利用本語義資源庫的語義角色體系,可以為北大多視圖漢語樹庫(PKT)的語義角色標(biāo)注提供部分支持。
北大多視圖漢語樹庫(PKT)的語義角色標(biāo)注采取的是機(jī)器標(biāo)注和人工標(biāo)注相結(jié)合的方法。在語義角色標(biāo)注過程中,我們可以依據(jù)動詞的類別和特征,然后查閱相關(guān)動詞對應(yīng)的語義角色框架,對實際語句中的動詞和論元的語義關(guān)系進(jìn)行語義角色的分配。例如,“感謝”在我們詞典中的語義角色配對一般是“施事+對象”。那么只要是“感謝”的客體我們都可以標(biāo)為“對象”,而“感謝”的主體我們都可以標(biāo)為“施事”。這種方法就需要利用我們的動詞語義資源中關(guān)于語義角色的描述來做參考。具體思路如圖8所示。
圖6 語義角色標(biāo)注思路
圖7 PKT中句法分析實例
我們可以以實際語料中的標(biāo)注例子說明:
首先我們可以依據(jù)北大多視圖漢語樹庫已有的句法樹,提取出核心動詞和論元,在這里有兩個動詞“感謝”、“尋找”,所對應(yīng)的論元分別為“干警”和“親人”。
然后查找動詞語義資源中這兩個動詞的語義角色的基本格式,如圖8所示。
圖8 “感謝”和“尋找”的基本語義角色框架
緊接著可以依據(jù)語義資源庫中的語義角色分配,直接給實際語料中“感謝”和“尋找”的客體分派語義角色。結(jié)果如圖9所示。
圖9 PKT中語義角色標(biāo)注實例
以上的標(biāo)注方法可以說是一種靜態(tài)的標(biāo)注方法,它直接涉及到動詞的分類,因為動詞類別的不同,其與名詞的語義關(guān)系就有所差別。但是在實際語料中,我們還要結(jié)合一些基于動態(tài)語義關(guān)系的語義角色標(biāo)注。所謂動態(tài)語義關(guān)系,就是說對于有些動詞來說,它們和名詞間的語義關(guān)系有時并不是一成不變的,而是會隨著所接名詞自身的特征有所變化,這時我們主要根據(jù)實際句子中動詞與名詞的語義關(guān)系進(jìn)行標(biāo)注。這個靈活性比較大,難度也比較大,比如動詞“砍”,在我們的動詞資源館中基本語義角色是“施事+受事”,如果按照靜態(tài)標(biāo)注的話,后面的語義角色就都是受事了。而有時這些行為動詞所接名詞的語義角色隨著句子不同,語義關(guān)系也不同。如同樣是“砍”,所支配名詞的語義角色卻不同: 如“他把樹(受事)砍倒了”,“他把斧子(工具)砍壞了”,他砍了個洞(結(jié)果)。這時,我們可以利用我們動詞資源館中關(guān)于動詞語義角色的非基本框架來作參考。
如圖10所示。
圖10 標(biāo)注實例動詞的非基本語義框架樣例
由于動詞的非基本語義角色搭配涉及到十幾種語義角色,這一步計算機(jī)是很難辨別的,所以只有人工來進(jìn)行核對。
此外,一般情況下利用動詞資源館標(biāo)注語料的最大問題就是語料中每一個動詞語義角色都要有所收錄,由于本樹形動詞詞庫收詞不多,因此其資源庫作用的發(fā)揮受到了限制。但我們的做法是把這個動詞向上規(guī)約,規(guī)約到我們比較大的層次中再去考慮語義角色的標(biāo)注。比如“打亂”,我們詞典沒有收錄,但是我們可以把這些未收錄的詞上升到第二或者是第一層級進(jìn)行分類,歸為“行為動詞”,那么行為動詞的語義角色框架基本是“施事+受事”的語義框架,這樣也可以實現(xiàn)語義角色的標(biāo)注,當(dāng)然最終還是由人工來幫助核對。
當(dāng)然,CVL的應(yīng)用不止于此,由于篇幅所限,不進(jìn)一步論述。
本項目結(jié)合語義和句法對常用的2 506個動詞,3 299個詞項,進(jìn)行了四個層級的劃分,并作了多維度多特征的描述,除了傳統(tǒng)的靜態(tài)語義描述、語義角色描述和句法格式描述外,還加入了事件結(jié)構(gòu)特征和物性結(jié)構(gòu)特征。對判斷和還原一些帶有謂詞省略的超常動賓搭配現(xiàn)象有一定的積極作用,有利于句法分析的進(jìn)一步開展。
只不過受到人力、物力和時間的限制,目前所構(gòu)建的漢語動詞資源館收詞不多,這極大地制約了該項目在語義角色標(biāo)注、自動問答等領(lǐng)域的作用發(fā)揮。因此,在今后的工作中,應(yīng)該進(jìn)一步擴(kuò)大收詞規(guī)模、完善動詞知識庫的結(jié)構(gòu)、繼續(xù)核對數(shù)據(jù)的準(zhǔn)確性和有效性,爭取從更多的角度來揭示和描述動詞的特征和屬性。
[1] Pustejovsky James. Type Theory and Lexical Decomposition [J]. Journal of Cognitive Science, 2006,(6):39-76.
[2] 陳平.論現(xiàn)代漢語時間系統(tǒng)的三元結(jié)構(gòu)[J].中國語文,1988,(6):401-421.
[3] 稅昌錫. VP界性特征對時量短語的語義約束限制[J].語言科學(xué),2006,(5):19-29.
[4] 宋作艷.輕動詞、事件與漢語中的賓語強(qiáng)迫[J].中國語文,2011,(3):205-217.
[5] 林杏光等.現(xiàn)代漢語動詞大詞典[M].北京:北京語言學(xué)院出版社,1994.
[6] Beth Levin. English Verbs Classes and Alternations [M]. Chicago: The University of Chicago Press, 1993.
[7] Dowty D.On Recent Analysis of the Studies of Control [J]. Linguistics and Philosophy, 1985(8):291-331.
[8] Fillmore C J.The Case for Case [M].New York :Holt, Rinehart and Winston,1968.
[9] Pustejovsky James. Introduction to Generative Lexicon [M]. Manuscript, 2005.
[10] Vendler Z. Linguistics in Philosophy [M]. Ithaca N. Y.: Cornell University Press. 1967.
[11] 戴耀晶.現(xiàn)代漢語時體系統(tǒng)研究[M].杭州:浙江教育出版社,1997.
[12] 宋作艷.現(xiàn)代漢語中的事件強(qiáng)迫現(xiàn)象研究[D].北京:北京大學(xué)博士論文,2009.
[13] 宋作艷.類詞綴與事件強(qiáng)迫[J].世界漢語教學(xué), 2010,(4):446-459.
[14] 魯川等.動詞大詞典[M].北京:中國物質(zhì)出版社,1994.
[15] 孟琮、鄭懷德等.漢語動詞用法詞典[M].北京:商務(wù)印書館,1999.
[16] 汪夢翔.對象格語義范疇及相關(guān)語法理論研究[D].武漢:華中師范大學(xué)博士論文,2012.
[17] 汪夢翔,王厚峰.現(xiàn)代漢語“對象格”自動識別研究[J].計算機(jī)工程與應(yīng)用,2014,(8):93-98.
[18] 楊 敏,常寶寶.基于北京大學(xué)中文網(wǎng)庫的語義角色分類[J].中文信息學(xué)報,2011,25(3):3-8.
[19] 袁毓林.一套漢語動詞的論元角色的語法指標(biāo)[J].世界漢語教學(xué),2003,(3):24-38.
[20] 袁毓林.基于生成詞庫論和論元結(jié)構(gòu)理論的語義知識體系研究[J].中文信息學(xué)報,2013,27(6):23-31.