錢(qián)青青,王誠(chéng)文,2,王貴榮,饒高琦,3,荀恩東
(1. 北京語(yǔ)言大學(xué) 信息科學(xué)學(xué)院,北京100083; 2. 北京大學(xué) 計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京100871;3. 北京語(yǔ)言大學(xué) 漢語(yǔ)國(guó)際教育研究院,北京100083)
句法分析是自然語(yǔ)言處理領(lǐng)域中重要的基礎(chǔ)研究問(wèn)題之一。依據(jù)句法結(jié)構(gòu)的差異性,可將句法結(jié)構(gòu)分為短語(yǔ)結(jié)構(gòu)和依存結(jié)構(gòu),其中依存句法以能夠適應(yīng)漢語(yǔ)靈活語(yǔ)序特征且將句子分析為更加扁平的結(jié)構(gòu)以降低分析、標(biāo)注、儲(chǔ)存難度的優(yōu)勢(shì),近年來(lái)獲得了更為廣泛的應(yīng)用,在問(wèn)答系統(tǒng)、知識(shí)圖譜、信息抽取等任務(wù)上發(fā)揮著重要作用。
在句法分析中,明確分析的單元是最基礎(chǔ)、最根本的要求。傳統(tǒng)依存句法分析大多以詞作為最小單元,但分詞及詞性標(biāo)注可能帶來(lái)錯(cuò)誤級(jí)聯(lián)。在漢語(yǔ)實(shí)際語(yǔ)篇中,詞的詞性、詞義較為靈活,存在大量的活用、增加語(yǔ)境義的現(xiàn)象,傳統(tǒng)依存句法分析較難適應(yīng)該特性。漢語(yǔ)具有意合特征,同樣的語(yǔ)義內(nèi)容可由語(yǔ)序的不同單元表達(dá),過(guò)于關(guān)注“詞-詞”關(guān)系,使句子依存結(jié)構(gòu)更為繁瑣。詞與詞之間的關(guān)系復(fù)雜、多變,依存關(guān)系類劃分得太細(xì),降低了標(biāo)注的可操作性,帶來(lái)數(shù)據(jù)稀疏問(wèn)題,也會(huì)影響分析器的適應(yīng)面和魯棒性。
例1承租戶與房東之間的矛盾和糾紛有愈演愈烈之勢(shì)。
例2我直覺(jué)地認(rèn)為魯迅是非常中國(guó)的人物。
在例1中,主語(yǔ)相對(duì)復(fù)雜,此處將主語(yǔ)內(nèi)部詞“承租戶”切分開(kāi),把“承租”當(dāng)成了全句的核心,從而也導(dǎo)致了整句依存結(jié)構(gòu)的錯(cuò)誤,此為由于分析時(shí)陷入復(fù)雜 “詞-詞”關(guān)系分析的困境而產(chǎn)生的錯(cuò)誤;在語(yǔ)序方面,若交換“承租戶”“房東”或“矛盾”和“糾紛”的語(yǔ)序,甚至將整個(gè)主語(yǔ)倒裝,變?yōu)椤懊芎图m紛,在承租戶與房東之間的”,句子的語(yǔ)義也不會(huì)發(fā)生較大的變化,但分析結(jié)構(gòu)卻會(huì)因此改變,這是不必要的。而例2中“中國(guó)”意為“具有中國(guó)品質(zhì)的”,但此處在分析時(shí)仍然將“中國(guó)”和“人物”定義為“領(lǐng)事”關(guān)系,認(rèn)為“中國(guó)”是一個(gè)實(shí)體,這是由于無(wú)法識(shí)別其中活用的信息而導(dǎo)致的。
除了基于詞的依存句法分析本身存在的問(wèn)題,漢語(yǔ)的特殊性也為句法分析帶來(lái)了困難。
中文多小句、流水句,而當(dāng)前的中文樹(shù)庫(kù)中大多利用逗號(hào)、句號(hào)等標(biāo)點(diǎn)劃分分析邊界,容易導(dǎo)致分析單位缺少成分、信息丟失,經(jīng)過(guò)分析,我們發(fā)現(xiàn)漢語(yǔ)中至少有25%的小句存在成分缺失的現(xiàn)象(1)具體分析請(qǐng)見(jiàn)《漢語(yǔ)塊依存語(yǔ)法與樹(shù)庫(kù)構(gòu)建》。當(dāng)流水句中后續(xù)小句的主語(yǔ)缺失時(shí),還可能產(chǎn)生歧義: 空主語(yǔ)既可能跟先行小句的主語(yǔ)(A)同指照應(yīng),又可能跟先行小句的賓語(yǔ)(B)等其他成分同指照應(yīng)。修飾詞(如否定詞等)的轄域問(wèn)題也會(huì)導(dǎo)致歧義的產(chǎn)生[1]。
例3她不像她母親,認(rèn)為做家務(wù)的男人都是沒(méi)有出息的。
例4他有票,我沒(méi)有。
例51991年,女足世界杯首次舉行,有12支隊(duì)伍參賽。
在例3中,句子呈現(xiàn)為兩個(gè)小句,“她不像她母親”和“認(rèn)為做家務(wù)的男人都是沒(méi)有出息的”。這個(gè)句子形成的圖結(jié)構(gòu)是分離的,后一小句的主語(yǔ)既可能是前一小句的主語(yǔ)“她”,也可能是前一小句的賓語(yǔ)“他母親”,顯然主語(yǔ)的不同會(huì)導(dǎo)致語(yǔ)義的差別,若割裂地看這個(gè)句子,會(huì)產(chǎn)生歧義。除了主語(yǔ)缺失之外,例4、5分別為賓語(yǔ)缺失、修飾語(yǔ)缺失。主賓語(yǔ)缺失的問(wèn)題,已有學(xué)者從“篇章回指”“指代消解”等角度進(jìn)行分析,如陳平[2]、徐赳赳[3]等,但僅限于實(shí)體之間的指代關(guān)系,忽視了提供大量情態(tài)信息的修飾語(yǔ)的缺失問(wèn)題。宋柔[4]關(guān)注到了除實(shí)體之外缺省補(bǔ)全的重要性,他將漢語(yǔ)的句子界定為自足的廣義話題結(jié)構(gòu),把小句界定為基于廣義話題結(jié)構(gòu)的話題自足句,利用流水模型生成這兩類漢語(yǔ)篇章結(jié)構(gòu)單位,為自然語(yǔ)言處理篇章分析單位提出了新的角度,從漢語(yǔ)篇章微觀話題結(jié)構(gòu)的角度為流水句提供了佐證和啟示[4-5]。但漢語(yǔ)中標(biāo)點(diǎn)句并非只缺省句首的話題成分,句中或句尾的狀語(yǔ)、賓語(yǔ)、補(bǔ)語(yǔ)等的缺省也值得關(guān)注;按照廣義話題結(jié)構(gòu)所生成的句子僅僅提示其“話頭-說(shuō)明”結(jié)構(gòu),與句子更深層次的句法語(yǔ)義分析之間缺少銜接,大多還是停留在拆分復(fù)雜結(jié)構(gòu),生成“能說(shuō)”的自足句層面。
例6他把衣服抖了抖,然后穿上。
例7沒(méi)有人民民主專政,就不可能保衛(wèi)和建設(shè)社會(huì)主義。
話頭理論的目的是尋找缺省的話頭并生成話頭自足句,但生成的話頭自足句可能由于句法不通、語(yǔ)義不明等導(dǎo)致“不成句”。如例6中的第二個(gè)小句,生成的自足句為“他把衣服然后穿上”,這是由于話頭結(jié)構(gòu)是線性分析的,強(qiáng)調(diào)“話頭”和“說(shuō)明”的語(yǔ)序,遇到語(yǔ)言中一些比較靈活的現(xiàn)象時(shí),就會(huì)產(chǎn)生不成句的問(wèn)題;此外,“話頭-說(shuō)明”的關(guān)系情況多樣,可能是句法上的主謂關(guān)系,也可能是語(yǔ)義上的銜接關(guān)系,就使得在標(biāo)注時(shí)存在兩可情況,也可能與篇章級(jí)別的分析產(chǎn)生混雜,如例7中的“話頭-說(shuō)明”關(guān)系一般認(rèn)為是復(fù)句中的條件關(guān)系。
指向不明確也會(huì)使句子分析不準(zhǔn)確,下面這幾個(gè)例子結(jié)構(gòu)相似,但句子中名詞性短語(yǔ)、修飾性短語(yǔ)受哪些動(dòng)詞的支配卻不盡相同。
例8老師讓小張來(lái)辦公室一趟。
例9我們洗衣服挺累。
例10我勸他手術(shù)好幾天了。
針對(duì)以上問(wèn)題,我們提出漢語(yǔ)的塊依存語(yǔ)法,以組塊為研究對(duì)象,以謂詞為核心,在句內(nèi)和句間尋找謂詞所支配的組塊。分析時(shí),利用漢語(yǔ)中的組塊和組塊間的依存關(guān)系,將成分缺失和指向不明的問(wèn)題轉(zhuǎn)化為小句內(nèi)組塊依存問(wèn)題和小句間的組塊缺省問(wèn)題。補(bǔ)全缺失的成分,為后續(xù)任務(wù)提供準(zhǔn)確的分析單元,消除由于指向不明確而導(dǎo)致的歧義。
由于漢語(yǔ)句法的特殊性,“塊”具有很好的現(xiàn)實(shí)意義?!皦K(Chunk)”概念最早由Abney提出,他認(rèn)為句法分析可以分為三個(gè)階段來(lái)進(jìn)行,以達(dá)到簡(jiǎn)化句法分析任務(wù)的目的,即對(duì)塊進(jìn)行識(shí)別、分析塊的內(nèi)部結(jié)構(gòu)、分析塊之間的關(guān)系[6]。本階段的主要工作為第三步。
我們將組塊定義為: 由連續(xù)詞語(yǔ)或語(yǔ)素整合而成的序列,表現(xiàn)為同一句子層級(jí)中充當(dāng)句法成分的各個(gè)連續(xù)單元,例如下面這個(gè)句子被分為4個(gè)組塊。
例11這句話 | 只 | 是 | 一個(gè)例子。
組塊按照其功能,可分為如圖1所示的各個(gè)類型。
圖1 組塊體系
謂詞組塊即由核心述語(yǔ)構(gòu)成的組塊,能夠支配句中的非謂詞組塊,是所在句子層級(jí)的核心,由最內(nèi)部的小括號(hào)“()”表示。謂詞組塊主要由動(dòng)詞性、形容詞性的詞或短語(yǔ)(2)一般由“V+著了過(guò)”“V+單音節(jié)補(bǔ)語(yǔ)”“兩個(gè)連續(xù)的單音節(jié)V”組成,字典中收錄成語(yǔ)、常用俗語(yǔ)等也作為謂詞組塊。來(lái)充當(dāng),在一些特殊句中也會(huì)有空謂詞組塊的存在。句子中最頂層的謂詞組塊(即整個(gè)句子的核心)是核心謂詞組塊,出現(xiàn)在修飾語(yǔ)中的謂詞組塊為非核心謂詞組塊。
例12他(狼吞虎咽地(吃完了))飯。
例13這個(gè)人()黃頭發(fā)。
例14我(現(xiàn)在(承認(rèn))){你((做)得比我好)}。
以上劃線部分均為核心謂詞組塊,其中例13由補(bǔ)充的空述語(yǔ)充當(dāng)。例14的核心謂詞組塊“承認(rèn)”是整個(gè)句子的核心,而非核心謂詞組塊“做”是賓語(yǔ)“你做得比我好”中的核心。
例15{浦東(開(kāi)發(fā))(開(kāi)放)}(是)一項(xiàng)振興上海\,建設(shè)現(xiàn)代化經(jīng)濟(jì)、貿(mào)易、金融中心的跨世紀(jì)工程。
例15中畫(huà)線謂詞“振興”“建設(shè)”均為修飾成分中的非核心謂詞,目前的塊依存語(yǔ)法分析主要針對(duì)句子中的骨干結(jié)構(gòu),因此該類非核心的謂詞將在下一階段的工作中集中進(jìn)行處理。
非謂詞組塊指在結(jié)構(gòu)上依存于謂詞組塊的組塊,主要有主語(yǔ)塊、賓語(yǔ)塊、狀語(yǔ)塊、補(bǔ)語(yǔ)塊幾類。
1.2.1 主語(yǔ)塊
主語(yǔ)塊即結(jié)構(gòu)中的主語(yǔ),包括主謂謂語(yǔ)句中的大小主語(yǔ)。按照其內(nèi)部是否還嵌套有謂詞組塊可將其分為體詞性主語(yǔ)塊和謂詞性主語(yǔ)塊。主語(yǔ)塊在結(jié)構(gòu)上依存于謂詞組塊。以下幾例中的橫線部分為主語(yǔ)塊:
例16他((說(shuō)話)很快)。
例17電腦{我(可(是))門(mén)外漢}。
例18{(很(豐富))(卻不(精細(xì)))}(也不(是))我們說(shuō)的優(yōu)秀。
1.2.2 賓語(yǔ)塊
賓語(yǔ)塊即結(jié)構(gòu)中的賓語(yǔ),按照其內(nèi)部是否還嵌套有謂詞組塊可將其分為體詞性賓語(yǔ)塊和謂詞性賓語(yǔ)塊。賓語(yǔ)塊在結(jié)構(gòu)上依存于謂詞組塊,謂詞性賓語(yǔ)用“{ }”表示,雙賓之間用“||”隔開(kāi)。以下幾例中的橫線部分為賓語(yǔ)塊:
例19[在他壯年時(shí),]他(爬上過(guò))珠峰。
例20我(現(xiàn)在(承認(rèn))){你((做)得比我好)}。
例21(感謝)你(告訴)我||這個(gè)好消息。
1.2.3 狀語(yǔ)塊
狀語(yǔ)塊指述語(yǔ)中位于謂詞組塊前部與其緊鄰或被其他成分或標(biāo)點(diǎn)隔離的組塊,對(duì)核心語(yǔ)塊起到修飾作用,受謂詞組塊支配。以下幾例中的橫線部分為狀語(yǔ)塊:
例22(一年內(nèi)(新增))培育科技型企業(yè)||3465家。
例23[別把孩子的教育,](全(寄))希望[于教育機(jī)構(gòu)上]。
1.2.4 補(bǔ)語(yǔ)塊
補(bǔ)語(yǔ)塊指在句中充當(dāng)補(bǔ)語(yǔ)的組塊,一般位于謂詞組塊后部,可與謂詞組塊緊鄰或被其他成分或標(biāo)點(diǎn)隔離,對(duì)謂詞組塊起到修飾作用,受謂詞組塊支配。以下幾例中的橫線部分為補(bǔ)語(yǔ)塊:
例24她(哭著)((跑)出來(lái))。
例25[別把孩子的教育,](全(寄))希望[于教育機(jī)構(gòu)上]。
銜接組塊由連詞、話語(yǔ)標(biāo)記、插入語(yǔ)等組成,在句中主要發(fā)揮銜接功能,屬于篇章成分。用尖括號(hào)“<>”表示,以下橫線部分為銜接語(yǔ)塊:
例26她(非常不想(去)),<因?yàn)?(今天(下))雨。
輔助組塊由輔助語(yǔ)構(gòu)成,句法上與句中其他各個(gè)成分之間沒(méi)有結(jié)構(gòu)上的關(guān)系,在句中主要承載表達(dá)語(yǔ)氣的功能,用“<<>>”表示。以下各例中橫線部分為輔助語(yǔ)塊。
例27他(走了)<<嗎>>?
例28<<嗯>>,<<好的>>,我(知道了)。
塊依存語(yǔ)法主要分析非篇章成分的組塊,即基于句法結(jié)構(gòu)層面的6類組塊,通過(guò)分析對(duì)象的選擇,可將構(gòu)建自足小句的過(guò)程與篇章關(guān)系的界限劃分清楚。銜接組塊用于表示句間的銜接關(guān)系,輔助組塊則承載了表達(dá)語(yǔ)氣的功能,均不應(yīng)與句內(nèi)的成分混雜。
在分析句子內(nèi)部成分時(shí),我們認(rèn)為核心謂詞組塊是句子的核心,各類非謂詞組塊均受核心謂詞組塊的支配并依存于核心謂詞組塊之上,若某非謂詞組塊和謂詞組塊之間存在依存關(guān)系,則稱該非謂詞塊為謂詞組塊的從屬成分,謂詞組塊為該非謂詞塊的依存對(duì)象。
除了一些特殊的獨(dú)詞句,一般認(rèn)為句子中都存在一個(gè)或多個(gè)核心,非謂詞塊至少依存于一個(gè)謂詞組塊之上。謂詞組塊作為句內(nèi)各語(yǔ)塊的依存對(duì)象,其左右,上下各有四個(gè)點(diǎn)位,分別表示其主語(yǔ)位(1號(hào)位)、修飾語(yǔ)位(2號(hào)位)、賓語(yǔ)位(3號(hào)位)、述語(yǔ)位(4號(hào)位),各非謂詞組塊按照其類別分別依存于謂詞組塊的四個(gè)節(jié)點(diǎn)上,依存線條從謂詞組塊的四個(gè)節(jié)點(diǎn)指向其從屬成分,如圖2所示。
(1) 主語(yǔ),包括主謂謂語(yǔ)句中的大小主語(yǔ)依存于謂詞組塊的1號(hào)位。
(2) 狀語(yǔ)、補(bǔ)語(yǔ)依存于謂詞組塊的2號(hào)位。
(3) 賓語(yǔ),包括雙賓語(yǔ)中的遠(yuǎn)近賓語(yǔ)依存于謂詞組塊的3號(hào)位。
(4) 述語(yǔ)省略時(shí)從4號(hào)位置與相關(guān)述語(yǔ)連接,當(dāng)某謂詞組塊依存于其他謂詞組塊時(shí)從4號(hào)位向外依存。
圖2 塊依存語(yǔ)法分析圖示
不同于Robinson所提出的四條依存分析方法的公理[7],塊依存語(yǔ)法分析中,允許非謂詞組塊、非核心謂詞組塊有一個(gè)或多個(gè)依存對(duì)象,允許謂詞組塊有多個(gè)從屬成分,且允許線條交叉、跨句。中文中存在較多的非投影結(jié)構(gòu)[8],允許線條交叉、組塊多依存對(duì)象,能夠使分析結(jié)果更清晰、準(zhǔn)確。
例29他(打開(kāi))門(mén),((走了)進(jìn)來(lái))[,悄悄地]。
此例中,前一小句缺少了修飾成分“悄悄地”,后小句缺少了主語(yǔ)“他”,必然導(dǎo)致分析不完整。在塊依存語(yǔ)法中,允許線條跨句、交叉,找到兩個(gè)小句中核心謂詞的所有從屬成分,即可將兩個(gè)小句補(bǔ)充完整。
在下述兩例中,“承租戶與房東之間的矛盾和糾紛”“非常中國(guó)的人物”均為一個(gè)組塊,語(yǔ)義具有相對(duì)的穩(wěn)定性,更符合語(yǔ)言的認(rèn)知規(guī)律。以組塊為研究對(duì)象,能夠減少分詞碎片,降低活用、語(yǔ)境義等帶來(lái)的分析錯(cuò)誤;同時(shí),避免糾結(jié)于“詞-詞”之間的關(guān)系,使得依存關(guān)系得到了精簡(jiǎn),更關(guān)注于句子的整體結(jié)構(gòu),進(jìn)一步降低存儲(chǔ)和分析的復(fù)雜性,加強(qiáng)魯棒性。在此基礎(chǔ)上進(jìn)行分析,能夠在保證淺層結(jié)構(gòu)正確的情況下為更深層次的分析打下基礎(chǔ)。
例30承租戶與房東之間的矛盾和糾紛有愈演愈烈之勢(shì)。
例31我直覺(jué)地認(rèn)為魯迅是非常中國(guó)的人物。
其次,通過(guò)跨句找回依存塊,能夠補(bǔ)全句子成分。組塊缺省指在線性的結(jié)構(gòu)標(biāo)注中由于承前蒙后省略或小句分割等情況導(dǎo)致核心謂詞組塊在該小句內(nèi)缺省了從屬成分,在這樣的情況下需要將句子在上下文中進(jìn)行分析,并在其四個(gè)節(jié)點(diǎn)處補(bǔ)全缺省的從屬成分。
例32他(把衣服(抖了抖),<然后>(穿上)。
在這個(gè)例子中,小句“穿上”缺省主語(yǔ)塊和狀語(yǔ)塊,我們?cè)谶@里以缺省的主語(yǔ)塊為例,將其用“?”表示,因此依存于“穿上”的主語(yǔ)塊是“?”,而“?”是前一小句“他”的省略。因此,為了尋回缺省的組塊,使后一個(gè)小句成分完整,我們認(rèn)為前一個(gè)小句的主語(yǔ)塊“他”除了依存于所屬小句的核心謂詞組塊“抖了抖”,也依存于后一個(gè)小句的核心謂詞組塊“穿上”。在補(bǔ)全了缺省的組塊之后,我們還可以將前后兩個(gè)小句拆分為: “他(把衣服(抖了抖)”和“他(把衣服(穿上))”,這樣二者在這一個(gè)簡(jiǎn)單的上下文中就沒(méi)有缺省的從屬成分了。篇章層面的組塊“然后”并沒(méi)有依存的對(duì)象,也就不進(jìn)入自足句構(gòu)建的過(guò)程,僅用于表示兩個(gè)小句之間的順承關(guān)系。以上的補(bǔ)全過(guò)程是在排除了篇章層面的組塊之后以結(jié)構(gòu)為指導(dǎo)的、句法層面的補(bǔ)全,能夠與下階段分析句間關(guān)系相銜接,且更具有理?yè)?jù)性——能夠成為另一個(gè)小句的一部分是因?yàn)樗艿狡渲袆?dòng)詞的支配。
針對(duì)依存對(duì)象不明確的問(wèn)題,則通過(guò)尋找謂詞的依存塊,更好地明確句意。我們看以下這個(gè)例子:
例33我(之前(勸))他(手術(shù))[好長(zhǎng)時(shí)間]<<了>>。
對(duì)于這樣的句子,一般的處理原則是“默認(rèn)左歸”或者“默認(rèn)右歸”,采取“左歸”方法時(shí),認(rèn)為“他”是“勸”的賓語(yǔ),但和“手術(shù)”之間沒(méi)有關(guān)系,“好長(zhǎng)時(shí)間”是 “手術(shù)”的修飾語(yǔ)。如果按照這樣分析,這個(gè)句子的意思可能就變成了: 我之前勸他,我手術(shù)好長(zhǎng)時(shí)間了。但顯然,這句話并非這個(gè)意思。因此我們判斷其依存對(duì)象時(shí),認(rèn)為“他”既是勸的從屬對(duì)象,也是“手術(shù)”的從屬對(duì)象,而“好長(zhǎng)時(shí)間”則是“勸”的從屬對(duì)象。這樣,能夠?qū)@一類句子達(dá)到更好的分析效果。對(duì)兼語(yǔ)句、連謂句等特殊句式,也能進(jìn)行很好的區(qū)分和分析。
按照缺省的組塊類型,我們將組塊缺省分為非謂詞組塊缺省和謂詞組塊缺省,如以下示例。
(1) 主語(yǔ)塊缺省
主語(yǔ)塊缺省即句子或小句中的謂詞成分因省略或標(biāo)點(diǎn)等原因缺少?gòu)膶俚闹髡Z(yǔ)塊。事實(shí)上,有相當(dāng)一部分的主語(yǔ)塊缺省是由于語(yǔ)音上的停頓、語(yǔ)篇成分的插入造成的,在書(shū)面上表現(xiàn)為標(biāo)點(diǎn)、銜接語(yǔ)、輔助語(yǔ)等。當(dāng)忽略這些成分時(shí),我們發(fā)現(xiàn)這類小句可與前后帶有主語(yǔ)塊的小句形成復(fù)謂或并列結(jié)構(gòu),從而找回主語(yǔ)塊,主語(yǔ)塊缺省時(shí)依存關(guān)系因其體謂性的不同可分為NP-SBJ和VP-SBJ。
例34肖科平(不再(理))他,(在梳妝鏡前(坐下)),(端詳著)自己(出神兒)。
此句中,“坐下”“ 端詳著”“ 出神兒”缺省了主語(yǔ),“端詳著”“出神兒”還缺省了狀語(yǔ),找回后,我們可以將其補(bǔ)充為完整的三個(gè)小句:
①肖科平(不再(理))他,
② 肖科平(在梳妝鏡前(坐下)),
③ 肖科平(在梳妝鏡前(端詳著))自己(出神兒)。
(2) 賓語(yǔ)塊缺省
例35我們(要正確(調(diào)查))(制定),<并>(執(zhí)行)職工人員的使用、調(diào)配、獎(jiǎng)勵(lì)等制度。
賓語(yǔ)塊缺省即句子或小句中的謂詞成分因省略或標(biāo)點(diǎn)等原因缺少?gòu)膶俚馁e語(yǔ)塊,依存關(guān)系可因賓語(yǔ)塊的體謂性而分為NP-OBJ和VP-OBJ。在這個(gè)例子中,兩個(gè)小句都缺省了一些成分,其中前一小句中的兩個(gè)核心謂詞缺省了賓語(yǔ)塊,后一個(gè)小句的核心謂詞組塊“執(zhí)行”缺省了主語(yǔ)、狀語(yǔ)。進(jìn)行分析后,我們可將兩個(gè)小句補(bǔ)全為:
①我們(要正確(調(diào)查))(制定)職工人員的使用、調(diào)配、獎(jiǎng)勵(lì)等制度,
② 我們(要正確(執(zhí)行))職工人員的使用、調(diào)配、獎(jiǎng)勵(lì)等制度。
此句中的“并”屬于銜接組塊,用于提示篇章中上下文的銜接關(guān)系,是我們下一步工作所需要關(guān)注的對(duì)象。
(3) 狀語(yǔ)塊缺省
狀語(yǔ)塊中承載了大量的時(shí)地信息、情態(tài)信息,然而位于句首的狀語(yǔ)在分句的時(shí)候,易隨第一個(gè)小句進(jìn)行切分,而第二個(gè)小句就因此缺少了這個(gè)狀語(yǔ)。如例36中,我們可以將“近年”重新依存至“擁堵”,將后一小句的時(shí)間信息補(bǔ)充完整。
例36[近年]私家車出行數(shù)量(大幅(增長(zhǎng))),我市道路(越來(lái)越(擁堵))。
拆分后的完整小句為:
① [近年]私家車出行數(shù)量(大幅(增長(zhǎng))),
② [近年]我市道路(越來(lái)越(擁堵))。
(4) 補(bǔ)語(yǔ)塊缺省
狀語(yǔ)塊缺省即句子或小句中的謂詞成分因省略或標(biāo)點(diǎn)等原因缺少?gòu)膶俚臓钫Z(yǔ)塊。在例37中,補(bǔ)全“幾天”作為“唱歌”“跳舞”的補(bǔ)語(yǔ)之后,為其增加了時(shí)間信息,句意更完整了。狀語(yǔ)塊和補(bǔ)語(yǔ)塊與謂詞間依存關(guān)系為NUU-MOD。
例37他們幾人(在一塊兒(唱歌)),(跳舞),((玩鬧了)幾天)。
(5) 謂詞組塊缺省
謂詞組塊缺省是我們認(rèn)為的一類特殊缺省情況,指由于省略前文中已出現(xiàn)過(guò)相同的核心謂詞組塊而造成的缺省。在這樣的情況下,需要將缺省的核心謂詞組塊依存到原有核心謂詞組塊上。通過(guò)這種方法,我們可以補(bǔ)全原本缺省的謂詞,使得句意更加清晰,該類關(guān)系表示為VP-EMP。對(duì)于例38:
例38[2014年]中國(guó)黃金(完成)礦產(chǎn)金生產(chǎn)||40噸,()礦山銅||11萬(wàn)噸。
經(jīng)過(guò)分析之后,生成的完整小句為:
① [2014年]中國(guó)黃金(完成)礦產(chǎn)金生產(chǎn)||40噸,
② [2014年]中國(guó)黃金(完成)礦山銅||11萬(wàn)噸。
2.3組塊分割與小塊依存
一般進(jìn)行塊依存分析時(shí),非謂詞組塊以整體的形式充當(dāng)謂詞組塊的從屬成分,但在某些特殊情況下,存在小塊依存的現(xiàn)象。小塊依存指在一個(gè)組塊內(nèi)部劃分更小組塊,進(jìn)行依存關(guān)系構(gòu)建。在小塊依存中,謂詞組塊的從屬成分并非是一個(gè)完整的組塊,而是某個(gè)組塊的一部分。小塊依存現(xiàn)象在體詞性的主賓語(yǔ)組塊以及狀語(yǔ)、補(bǔ)語(yǔ)組塊中較為多見(jiàn)。
體詞性主賓語(yǔ)塊的小塊依存多出現(xiàn)在定語(yǔ)和中心語(yǔ)之間存在從屬或整體部分關(guān)系的情況下。例39中第二個(gè)小句通過(guò)塊依存方法可找回主語(yǔ)并補(bǔ)全。
例39他的書(shū)包(掉了),(很(傷心))。
有部分狀語(yǔ)或補(bǔ)語(yǔ)組塊內(nèi)部不同的部分從屬于不同的謂詞組塊,此時(shí)也存在小塊依存的現(xiàn)象。如例40中,若不分割組塊,則“應(yīng)該為人民”僅修飾第一個(gè)“奮斗”,將狀語(yǔ)分割并重新分析其依存關(guān)系之后,能夠更明確三個(gè)核心謂詞“奮斗”的狀語(yǔ),在補(bǔ)全主語(yǔ)之后,即可形成3個(gè)完整的小句。
例40新一代青年(應(yīng)該為人民(奮斗)),(為國(guó)家(奮斗)),(為自己(奮斗))。
否定性詞語(yǔ)對(duì)于確定文本中的事件到底發(fā)生與否和是非評(píng)價(jià)有決定性的影響,尤其是否定詞的轄域到底管到哪兒也決定了信息抽取的準(zhǔn)確性。例41中:
例41呂先生[和許多嚴(yán)肅的學(xué)者一樣,](不會(huì)隨便(去))別人家(串門(mén)),(把寶貴的時(shí)間都(浪費(fèi))在無(wú)聊的事情上)。
若無(wú)小塊分割及跨小句的依存,則后一小句的語(yǔ)義與正確語(yǔ)義截然相反。而正確的語(yǔ)義應(yīng)為:
① 呂先生和許多嚴(yán)肅的學(xué)者一樣,不會(huì)隨便去別人家串門(mén),
② 呂先生和許多嚴(yán)肅的學(xué)者一樣,不會(huì)把寶貴的時(shí)間都浪費(fèi)在無(wú)聊的事情上。
目前,我們正在展開(kāi)基于塊依存語(yǔ)法的樹(shù)庫(kù)構(gòu)建,經(jīng)標(biāo)注實(shí)踐驗(yàn)證,該理論體系及表示方法能夠覆蓋絕大部分的語(yǔ)言現(xiàn)象,詳細(xì)的構(gòu)建方法、過(guò)程及數(shù)據(jù)分析請(qǐng)見(jiàn)另文討論,以下簡(jiǎn)要進(jìn)行介紹。
基于塊依存理論,以數(shù)據(jù)標(biāo)注規(guī)范作為指導(dǎo),通過(guò)兩兩對(duì)比標(biāo)注的模式,在基于瀏覽器的在線標(biāo)注系統(tǒng)中,我們標(biāo)注百科和新聞?lì)I(lǐng)域文本,構(gòu)建了漢語(yǔ)塊依存樹(shù)庫(kù)。截至2020年8月,樹(shù)庫(kù)規(guī)模為187萬(wàn)字符,其中包含67%新聞文本和32%百科文本(仍在擴(kuò)展中)。
其中,新聞文本來(lái)源于新浪2006年新聞、新華社2012—2018年新聞;百科文本來(lái)源于百度百科,分屬自動(dòng)化控制系統(tǒng)、電子學(xué)與計(jì)算機(jī)、輕工、大氣與海洋及水文科學(xué)、航空航天、經(jīng)濟(jì)學(xué)等領(lǐng)域(表1)。
表1 各領(lǐng)域文本標(biāo)注統(tǒng)計(jì)
當(dāng)前樹(shù)庫(kù)中共包含299 763個(gè)謂詞詞符,13 425個(gè)謂詞詞形。其中約有1 877個(gè)謂詞(token)無(wú)從屬成分,其余謂詞均至少支配一個(gè)從屬成分,依據(jù)目前定義的6類謂詞和組塊之間的依存關(guān)系,統(tǒng)計(jì)結(jié)果如表2所示。
表2 各類依存塊依存情況統(tǒng)計(jì)
從統(tǒng)計(jì)結(jié)果上看,在出現(xiàn)的13 000多個(gè)謂詞中,進(jìn)行缺省補(bǔ)全后約有87%的謂詞可支配名詞性主語(yǔ)塊;其次為修飾語(yǔ)塊,76%左右。這表明漢語(yǔ)中謂詞支配主語(yǔ)和修飾語(yǔ)的普遍性,在明確動(dòng)詞具備支配該類組塊能力的情況下,進(jìn)行缺省補(bǔ)全是有必要的。另外,謂詞支配修飾組塊的能力最強(qiáng),樹(shù)庫(kù)中平均一個(gè)謂詞可支配1.432個(gè)修飾語(yǔ)塊或小塊。修飾語(yǔ)塊中攜帶了大量的情態(tài)、時(shí)間、地點(diǎn)等各類語(yǔ)義信息,但內(nèi)部結(jié)構(gòu)相對(duì)復(fù)雜,存在框式結(jié)構(gòu)、介賓短語(yǔ)等內(nèi)部成分,因此進(jìn)行小塊切分,能夠便于后續(xù)的語(yǔ)義角色分析、情態(tài)結(jié)構(gòu)分析等工作。單個(gè)謂詞支配名詞性主語(yǔ)和賓語(yǔ)的組塊數(shù)量相對(duì)較少,但仍略大于1,則表明語(yǔ)言中主謂謂語(yǔ)句及雙賓語(yǔ)的現(xiàn)象占少數(shù),后續(xù)工作中分析單主語(yǔ)和單賓語(yǔ)與謂詞間的語(yǔ)義關(guān)系應(yīng)作為重點(diǎn),而相對(duì)于雙賓句,主謂謂語(yǔ)句優(yōu)先級(jí)更高。
塊依存語(yǔ)法是一種結(jié)合了組塊分析、依存語(yǔ)法的語(yǔ)言分析方法。塊依存語(yǔ)法以組塊為研究對(duì)象,能夠避免糾結(jié)于“詞-詞”之間的依存關(guān)系,關(guān)注句子的整體結(jié)構(gòu),進(jìn)一步降低存儲(chǔ)和分析的復(fù)雜性,也能夠達(dá)到減少分詞碎片、加強(qiáng)魯棒性的目的;關(guān)注句法結(jié)構(gòu)層面的組塊,能夠厘清“句內(nèi)-句間”的界限,為篇章關(guān)系分析打下基礎(chǔ);以謂詞為核心,在上下文中找到其支配對(duì)象,能夠在句子層面補(bǔ)全缺省成分的同時(shí)明確內(nèi)部成分的指向、句子結(jié)構(gòu)。此外,塊依存語(yǔ)法不僅關(guān)注常出現(xiàn)在句首的主語(yǔ)、狀語(yǔ)成分,也關(guān)注經(jīng)常出現(xiàn)在句中或句末的賓語(yǔ)、補(bǔ)語(yǔ)等,使生成的句子更加完整。
我們還注意到,以謂詞為分析對(duì)象使得句法分析根據(jù)靈活。塊依存語(yǔ)法分析能夠以塊依存圖的形式對(duì)句子進(jìn)行展現(xiàn)。整個(gè)句子以空節(jié)點(diǎn)為根,指向句中的核心謂詞,核心謂詞又有各個(gè)線條指向其支配成分。在篇章關(guān)系分析中,無(wú)論是尋找句間關(guān)系還是直接分析謂詞間關(guān)系,都能夠以更準(zhǔn)確的分析單元為著力點(diǎn)。
袁毓林曾將信息抽取所需的語(yǔ)義知識(shí)分為三類,分別為宏觀篇章知識(shí)、中觀論元結(jié)構(gòu)知識(shí)、微觀層次的邏輯結(jié)構(gòu)知識(shí)[9]。塊依存語(yǔ)法能夠解決微觀層次的邏輯結(jié)構(gòu)知識(shí),并為中觀論元結(jié)構(gòu)知識(shí)和宏觀篇章知識(shí)打好基礎(chǔ)。事實(shí)上,核心謂詞的支配成分除了特殊的空述語(yǔ)之外,均可與漢語(yǔ)中的論元結(jié)構(gòu)掛鉤,其余的狀語(yǔ)成分、補(bǔ)語(yǔ)成分也可提示情態(tài)信息,此時(shí)的謂詞論元、情態(tài)成分等均已齊全,僅需進(jìn)行分類即可。在宏觀層面,已明確的篇章分析單位,結(jié)合其余的輔助組塊、銜接組塊,為分析篇章的邏輯語(yǔ)義關(guān)系帶來(lái)便利。
本文提出了漢語(yǔ)塊依存語(yǔ)法,并介紹了其標(biāo)注體系以及截止目前構(gòu)建的樹(shù)庫(kù)規(guī)模。塊依存語(yǔ)法在句內(nèi)和句間尋找缺省的組塊,補(bǔ)全缺省成分,以此為基礎(chǔ),能夠更深入地進(jìn)行篇章層面的“小句→句間→篇章”關(guān)系探索。塊依存語(yǔ)法與具體的語(yǔ)境、語(yǔ)用環(huán)境相結(jié)合,能夠較好地解決當(dāng)前中文自然語(yǔ)言處理中存在的分析對(duì)象不明確、依存對(duì)象不清晰、成分缺失等問(wèn)題,更好地服務(wù)于事理圖譜、知識(shí)圖譜、問(wèn)答系統(tǒng)、信息抽取等各項(xiàng)任務(wù)。