魏庭新,曲維光,宋 麗,戴茹冰
(1.南京師范大學(xué)國際文化教育學(xué)院,2.南京師范大學(xué)文學(xué)院,3.南京師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210097;4.福建省信息處理與智能控制重點(diǎn)實(shí)驗(yàn)室(閩江學(xué)院),福建 福州 350121)
語義是語言符號(hào)的意義,是說話人通過語言形式最終想傳達(dá)的信息.自然語言處理的一個(gè)重要研究目標(biāo)就是通過外在的詞匯、句法等語言形式來實(shí)現(xiàn)對(duì)語義的理解,因此對(duì)語義的解析一直是自然語言處理的熱點(diǎn)之一.近年來在詞匯語義標(biāo)注、語義角色標(biāo)注、共指消解等方面都取得了長足的進(jìn)展,然而在整句邏輯語義表示和解析方面仍不甚理想.2013年美國賓夕法尼亞大學(xué)的語言數(shù)據(jù)聯(lián)盟(LDC)連同南加州大學(xué)、科羅拉多大學(xué)等共同提出了一種新型的語義表示語言,即抽象語義表示(abstract meaning representation AMR)[1],它采用圖結(jié)構(gòu)來表示一個(gè)句子的語義.這種表示方法在保留了句子樹形主干結(jié)構(gòu)的同時(shí),使用有向無環(huán)的邏輯圖結(jié)構(gòu),實(shí)現(xiàn)了對(duì)句子中論元共享現(xiàn)象的表示.同時(shí)它還允許添加原句缺省的概念節(jié)點(diǎn),以更好地表示其隱含意義[2].因此一經(jīng)推出,就受到國內(nèi)外學(xué)者的高度關(guān)注,引發(fā)了一股研究AMR的熱潮.目前AMR的標(biāo)注和解析都是以句子為基本單位進(jìn)行的,而自然語言中的句子根據(jù)復(fù)雜度可以分為單句和復(fù)句,兩者在句法、語義上有著巨大的不同.隨著AMR研究的深入,迫切需要對(duì)句子本身的邏輯語義進(jìn)行更深入細(xì)致的研究和挖掘.因此本文中對(duì)中文AMR(CAMR)的復(fù)句研究進(jìn)行綜述和分析,對(duì)CAMR在復(fù)句處理方面的工作提出了研究展望.
篇章是一定語境中表示完整語義的一系列句子或語段構(gòu)成的語言單位,而句子是篇章的基本單位.根據(jù)內(nèi)部結(jié)構(gòu)不同,句子可以分為單句和復(fù)句.如果一個(gè)句子是由兩個(gè)及以上的意義相關(guān)的句子組成的,彼此分立,互不作為句子成分,這樣的句子稱為“復(fù)句”[3].20世紀(jì)50年代語言學(xué)界曾經(jīng)有一場關(guān)于單復(fù)句的廣泛討論,雖然各家爭鳴,意見不同,但最后也達(dá)成了一些共識(shí):單句和復(fù)句結(jié)構(gòu)上有著本質(zhì)的不同,其中一個(gè)主要不同之處在于,復(fù)句除了分句本身的語義,還包含分句之間的邏輯語義.胡金柱等[4]形象地將之表示為:復(fù)句語義=邏輯語義+∑i分句i語義.同時(shí)他還指出,復(fù)句是連接分句與篇章的橋梁.Mann等[5]的修辭結(jié)構(gòu)理論(rhetorical structure theory,RST)認(rèn)為,篇章結(jié)構(gòu)具有組織性、連貫性、層級(jí)性、層級(jí)同質(zhì)性等特征.對(duì)于復(fù)句與篇章的關(guān)系,徐赳赳[6]將復(fù)句研究與RST比較之后認(rèn)為,復(fù)句已經(jīng)進(jìn)入篇章研究的范圍,特別是多重復(fù)句,篇章的特征更明顯.他發(fā)現(xiàn)漢語的復(fù)句理論與RST在研究的基本單位、研究對(duì)象上有很多相似之處.可以說,復(fù)句關(guān)系和篇章關(guān)系是同構(gòu)的,篇章語義關(guān)系幾乎都可以在復(fù)句語義關(guān)系中找到.搞清楚復(fù)句語義關(guān)系,篇章語義關(guān)系便能夠迎刃而解.因此,無論是對(duì)句子進(jìn)行句法分析,還是解析篇章語義,對(duì)復(fù)句進(jìn)行研究和處理都是十分必要的.
關(guān)于漢語復(fù)句的分類,學(xué)界并無統(tǒng)一標(biāo)準(zhǔn),各家均有自己的主張.比較有代表性的有以下幾種:黃伯榮等[7]采取兩分法(以下簡稱黃廖二分法),將復(fù)句分為聯(lián)合復(fù)句和偏正復(fù)句兩大類,聯(lián)合復(fù)句下轄并列、順承、解說、選擇、遞進(jìn)5個(gè)小類,偏正復(fù)句又分為轉(zhuǎn)折、條件、假設(shè)、因果、目的復(fù)句.邢福義[8]采取三分法,把復(fù)句分為因果、并列、轉(zhuǎn)折3大類,因果類下分因果、推斷、假設(shè)、條件、目的小類,并列類下分并列、連貫、遞進(jìn)、選擇等,轉(zhuǎn)折類包括轉(zhuǎn)折、讓步和假轉(zhuǎn)等.胡明揚(yáng)等[9]則根據(jù)是否有形式標(biāo)志,將復(fù)句分為有關(guān)聯(lián)詞復(fù)句和無關(guān)聯(lián)詞復(fù)句,無關(guān)聯(lián)詞復(fù)句又分為意合句、流水句和排比句等.在英語中,由于語言本身的特點(diǎn),鮮有專門針對(duì)復(fù)句關(guān)系的研究,多數(shù)研究從篇章層面來考慮主從句、復(fù)句、句群之間的語義關(guān)系.如賓州樹庫體系[10]主要考慮句間語義關(guān)系,將篇章關(guān)系分成了因果、比較、擴(kuò)展、時(shí)序4大類.而RST[5]則從一致性、連貫性、主次關(guān)系等角度考慮篇章各層次語塊間的修辭關(guān)系,總結(jié)了包括證明、條件、解釋、對(duì)立等關(guān)系在內(nèi)的24種關(guān)系.
2016年LDC公布了英文《小王子》的AMR標(biāo)注語料,2017年又發(fā)布了AMR2.0版本[11],內(nèi)含來源于網(wǎng)絡(luò)論壇、博客、華爾街日?qǐng)?bào)、新華日?qǐng)?bào)英文版等在內(nèi)的39 260個(gè)句子的AMR標(biāo)注.AMR在標(biāo)注句子語義時(shí)有這樣2個(gè)特點(diǎn):
1) 以句子為基本單位,對(duì)句子的整體語義做抽象表示.切分后的AMR句子基本為單句,或者是帶有定語從句、主語從句或賓語從句的復(fù)合句.對(duì)于復(fù)句,AMR的處理方法是將之進(jìn)一步切分為單句,不以復(fù)句為單位進(jìn)行處理,也不處理切分后的句間關(guān)系.
2) 只允許一個(gè)句子有一個(gè)根節(jié)點(diǎn),對(duì)于帶有從句等結(jié)構(gòu)作修飾成分的復(fù)合句,則根據(jù)修飾成分與中心語的語義關(guān)系將其標(biāo)記為一個(gè)論元附著在相應(yīng)節(jié)點(diǎn)上.
從類型學(xué)來說,漢語和英語是兩種非常不同的語言.漢語缺乏形態(tài)變化和形態(tài)標(biāo)志,重意合;而英語形態(tài)結(jié)構(gòu)完備,重形合.王力[12]指出,就句子的結(jié)構(gòu)而論,西洋語言是法治的,中國語言是人治的.這些特點(diǎn)反映在句子層面,使得英語多長句,漢語多短句;英語多從句,漢語多分句;漢語還有獨(dú)特的流水句.英語句子雖長,各種語義角色能以從句形式依附在主干結(jié)構(gòu)上,這與AMR的分析方法是比較契合的.然而漢語由于缺乏形態(tài)標(biāo)記,多用分句來表達(dá)復(fù)雜語義,多個(gè)分句共同完成一個(gè)完整語義的表達(dá),且分句句法成分常常承前省略.如果還按照AMR處理復(fù)句的方法,將分句切分,勢必會(huì)使得句子語義表示不完整,因此如果想在漢語上使用AMR,必須根據(jù)漢語的特點(diǎn),對(duì)AMR的標(biāo)注方法做出相應(yīng)調(diào)整.
2016年,Li等[13]基于AMR框架結(jié)構(gòu),同時(shí)考慮了漢語與英語的差異,初步建立了一套中文抽象語義的表示方法和標(biāo)注規(guī)范.標(biāo)注規(guī)范針對(duì)中英文的差異做了很多調(diào)整,如對(duì)漢語特有的量詞、把字句、被字句等漢語特殊句式等做了相應(yīng)規(guī)定.在句子處理層面,對(duì)于復(fù)句,沒有采用英文AMR直接切割為單句的做法,而是將構(gòu)成復(fù)句的句間語義關(guān)系作為該句的根節(jié)點(diǎn),語義關(guān)系所涉及的分句作為該語義關(guān)系的論元arg1,arg2.同時(shí)根據(jù)漢語特點(diǎn),并借鑒中文語料樹庫(Chinese discourse treebank,CDTB)標(biāo)注漢語篇章關(guān)系的方法[14-15],在標(biāo)注時(shí)增加了10類復(fù)句關(guān)系,包括:并列、因果、條件、轉(zhuǎn)折、時(shí)序、選擇、讓步、解釋、目的、遞進(jìn).例如,“孔子學(xué)生贖一奴,卻不報(bào)賬,人人夸學(xué)生高尚.”的CAMR可表示為:
(n0 / causation
:arg 1 (n1 / contrast
:arg1 (n2 / 贖-01
:arg0 (n3 / 學(xué)生
:poss (n4 / person
:name (n5 / name :op1 孔子)))
:arg1 (n6 / 奴
:quant (n7 / 1)))
:arg2 (n8 / 報(bào)賬-01
:polarity (n9 / -)
:arg0 n3))
:arg2 (n10 / 夸-01
:arg0 (n11 / 人)
:mod (n12 / every)
:arg2 (n13 / 高尚-01
:arg0 n3)
:arg1 n3))
可以看到,CAMR將句間語義關(guān)系“causation(因果)”作為復(fù)句根節(jié)點(diǎn),該關(guān)系所涉及的兩個(gè)句子作為其論元,然后再分別對(duì)兩個(gè)論元進(jìn)行表示,對(duì)于仍然包含一個(gè)復(fù)句語義關(guān)系的論元arg1,則繼續(xù)將語義關(guān)系“contrast(轉(zhuǎn)折)”作為根節(jié)點(diǎn),所涉及兩個(gè)分句作為其論元.另外CAMR標(biāo)注了分句之間的層次結(jié)構(gòu),以縮進(jìn)的形式清楚地呈現(xiàn)出來.
2.4.1 CAMR復(fù)句語義關(guān)系與其他體系比較
本文中將CAMR的復(fù)句語義關(guān)系與目前語言學(xué)界廣泛使用的黃廖二分法[7]、邢福義的三分法[8]以及清華漢語樹庫[16]的句間語義關(guān)系、蘇州大學(xué)漢語篇章結(jié)構(gòu)語料庫[17]的篇章關(guān)系分類方法進(jìn)行了比較,結(jié)果如表1所示.
表1 CAMR與不同體系復(fù)句語義分類比較
可以看到,盡管各種分類方法對(duì)語義關(guān)系的分層不同,但均包含并列、因果、條件、轉(zhuǎn)折、遞進(jìn)、選擇等幾種具體語義關(guān)系,CAMR吸收了這些學(xué)術(shù)界普遍認(rèn)同的關(guān)系.由于假設(shè)關(guān)系從邏輯上來說也是一種條件關(guān)系,因此CAMR將之歸并入條件關(guān)系.解釋關(guān)系是否是一種主要的復(fù)句關(guān)系語言學(xué)界意見并不一致,時(shí)序關(guān)系是傳統(tǒng)漢語復(fù)句關(guān)系不太注重分析的,但賓州篇章樹庫、修辭結(jié)構(gòu)理論篇章樹庫(rhetorical structure theory discourse treebank,RST-DT)[18]等篇章關(guān)系語料庫普遍采用這兩種語義關(guān)系,說明其對(duì)于揭示復(fù)句中分句間的邏輯語義有著重要的作用,因此CAMR也吸收了這兩種語義關(guān)系.特別是對(duì)于漢語特有的流水句,時(shí)序關(guān)系可以比較精準(zhǔn)地解釋各分句間的語義關(guān)系.如“開放以后,大陸富裕了,香港人發(fā)現(xiàn),賺錢不是自己的獨(dú)門絕活.”的CAMR可表示為:
(n0 / temporal
:arg1 (n1 / 開放)
:arg2 (n2 / 富裕-01
:aspect (n3 / 了)
:arg0 (n4 / 大陸))
:arg3 (n5 / 發(fā)現(xiàn)-01
:arg0 (n6 / 香港人)
:arg1 (n7 / 絕活
:mod (n8 / 獨(dú)門)
:poss n6
:domain (n9 / 賺-01
:arg1 (n10 / 錢))
:polarity (n11 / -))))
可以看到,相比其他幾種語義關(guān)系,表示“大陸富裕了”和“香港人發(fā)現(xiàn)”兩個(gè)分句間語義最確切的就是時(shí)序關(guān)系.
2.4.2 CAMR復(fù)句標(biāo)注單位與其他體系的比較
CAMR復(fù)句標(biāo)注的對(duì)象是經(jīng)過Stanford CoreNLP切分后結(jié)構(gòu)為復(fù)句的句子,因此CAMR復(fù)句標(biāo)注的基本單位是具有獨(dú)立表述功能的最小單句,不僅包括了由逗號(hào)標(biāo)記的分句,還包括緊縮復(fù)句中有獨(dú)立表述功能的短語段,如果含有大于分句的語言片段則繼續(xù)切分.PDTB(Penn discourse treebank)在標(biāo)注時(shí)面向篇章關(guān)系,所以標(biāo)注單位是句子甚至是句群,與CAMR相比顆粒度較粗.RST-DT在短語級(jí)、句子級(jí)、篇章級(jí)都進(jìn)行切分和標(biāo)注,短語級(jí)的標(biāo)注更多揭示的是句內(nèi)謂詞論元關(guān)系,而非篇章關(guān)系.中文篇章關(guān)系分析如哈爾濱工業(yè)大學(xué)篇章關(guān)系語料庫(HIT-CDTB)也是以句群為切分單位,并沒有細(xì)化到最小分句.幾種體系的標(biāo)注單位比較如表2所示.
表2 CAMR與PDTB,RST-DT,HIT-CDTB標(biāo)注單位對(duì)比表
注:EDU(elementary discourse unit)即基本篇章單元.
可以看到,PDTB和HIT-CDTB的標(biāo)注體系中,篇章關(guān)系的論元仍可以包含多個(gè)小句,RST-DT的EDU可以是單句的一個(gè)部分;而CAMR的最小單位則是句子的最小分句.
2.4.3 CAMR復(fù)句層次標(biāo)注與其他體系比較
目前賓州篇章樹庫、清華漢語樹庫、漢語復(fù)句語料庫等都只關(guān)注語義關(guān)系,不對(duì)層次進(jìn)行標(biāo)注.進(jìn)行層次標(biāo)注的有RST-DT和漢語篇章結(jié)構(gòu)語料庫,這些研究均采用樹結(jié)構(gòu)來對(duì)篇章單元之間的層次關(guān)系進(jìn)行描述,而CAMR是將句中所有概念的語義抽象出來,對(duì)復(fù)句層次劃分采用樹結(jié)構(gòu)的同時(shí),允許論元共享,因此形成圖結(jié)構(gòu).如“問題不是出在中國而是出在美國.”的CAMR可表示如下:
(n0 / contrast
:arg1 (n1 / 出-07
:polarity (n2 / -)
:arg1 (n3 / 問題)
:arg0 (n4 / country
:name (n5 / name :op1 中國)))
:arg2 (n6 / 出-07
:arg1 n3
:arg0 (n7 / country
:name (n8 / name :op1 美國))))
可以看到,CAMR將該復(fù)句分為轉(zhuǎn)折關(guān)系的兩個(gè)分句之外,還指出后一分句的根節(jié)點(diǎn)與前一分句的根節(jié)點(diǎn)共享arg1“問題”.這樣,CAMR的復(fù)句語義不僅含有句間邏輯語義關(guān)系,還將各分句缺省的論元補(bǔ)充完整,相較其他篇章關(guān)系分析體系只關(guān)注句間語義,這也是CAMR在句子語義表示方面的一大優(yōu)勢.
要做好CAMR中復(fù)句的自動(dòng)標(biāo)注和解析工作,就要做好以下子任務(wù):1) 復(fù)句語料庫的建設(shè).2) 復(fù)句語義關(guān)系識(shí)別.根據(jù)是否含有關(guān)系詞可將復(fù)句分為有標(biāo)記復(fù)句和無標(biāo)記復(fù)句.對(duì)于有標(biāo)記復(fù)句,要做的是關(guān)系詞的識(shí)別,然后根據(jù)關(guān)系詞語義來進(jìn)行復(fù)句關(guān)系的識(shí)別;對(duì)于無標(biāo)記復(fù)句,需要做的則是隱式語義關(guān)系的判定.3) 復(fù)句結(jié)構(gòu)層次的生成.與一般篇章處理任務(wù)不同,CAMR在判斷語義后還要對(duì)各部分的語義進(jìn)行層次判定和生成,從而生成最終的邏輯語義關(guān)系樹.
目前專門針對(duì)復(fù)句語義關(guān)系判定、解析的研究很少,大部分研究都是在篇章層面開展的,不過仍可以作為對(duì)復(fù)句研究的借鑒.下面從資源建設(shè)、分句切分、關(guān)系識(shí)別、結(jié)構(gòu)樹生成等幾方面對(duì)目前的研究現(xiàn)狀進(jìn)行介紹.
目前關(guān)于復(fù)句語義關(guān)系的語料庫資源非常少,除了在建的CAMR語料庫(http:∥www.cs.brandeis.edu/~clp/camr/camr.html)之外,只有華中師范大學(xué)漢語復(fù)句語料庫[19],另外還有一些篇章關(guān)系語料庫,如PDTB(http:∥www.seas.upenn.edu/~pdtb/)、RST-DT(http:∥www.isi.edu/~marcu/discourse)、HIT-CDTB(http:∥ir.hit.edu.cn/hit-cdtb/index.html)、蘇州大學(xué)漢語篇章結(jié)構(gòu)語料庫和清華漢語樹庫等可供借鑒.
CAMR語料庫:由美國布蘭迪斯大學(xué)和南京師范大學(xué)共同開發(fā),目前已標(biāo)注1 562句中文《小王子》[20]及10 325句中文樹庫(Chinese treebank,CTB)中的網(wǎng)絡(luò)語料,其中含有復(fù)句關(guān)系的有7 899句.
漢語復(fù)句語料庫:華中師范大學(xué)開發(fā)的漢語專用語料庫,語料主要來自《人民日?qǐng)?bào)》和《長江日?qǐng)?bào)》,同時(shí)還有一部分現(xiàn)當(dāng)代文學(xué)作品,共收有標(biāo)復(fù)句80萬句.標(biāo)注內(nèi)容包括關(guān)系詞類別、關(guān)系詞連接項(xiàng)功能、分句層次、復(fù)句句式類別等.在復(fù)句語義關(guān)系體系上,采用了邢福義的三分法,將復(fù)句語義關(guān)系分為因果、轉(zhuǎn)折、并列3大類,每大類下又各分小類,共12小類.該語料庫目前尚未對(duì)外公布.
賓州篇章樹庫:是LDC 2006年發(fā)布的標(biāo)注篇章關(guān)系的語料資源,2008年發(fā)布了2.0版,內(nèi)容來源為華爾街日?qǐng)?bào)(WSJ)的2 300多篇文章,是目前最大、使用最多的篇章關(guān)系語料庫.它參照Propbank的標(biāo)注方法,將篇章中的文本片段標(biāo)記為(連接詞、論元)結(jié)構(gòu),其中連接詞是聯(lián)系上下文本片段的關(guān)系詞,被連接的兩個(gè)文本片段被標(biāo)記為 Arg1、Arg2,它將篇章間的語義關(guān)系分為4種:顯式/隱式連接關(guān)系、基于實(shí)體的關(guān)系(EntRel)、詞匯替代關(guān)系(AltLex)、沒有關(guān)系(NoRel).其中顯式/隱式關(guān)系的語義體系又根據(jù)粒度不同分為3層,第1層4類,第2層16類,第3層23類.
RST-DT:是由LDC2002年發(fā)布的針對(duì)篇章修辭結(jié)構(gòu)標(biāo)注的語料資源,該語料庫基于Mann 等1988年提出的修辭結(jié)構(gòu)理論建立,將篇章文本進(jìn)行切分,形成獨(dú)立且能表達(dá)一定語義的EDU,并為篇章間語義定義了多種關(guān)系.它與PDTB的不同之處在于,它區(qū)別了篇章單元前后的主次關(guān)系,并將這種結(jié)構(gòu)關(guān)系分為單核和多核;將同一篇章內(nèi)篇章單元間的修辭關(guān)系層次劃分出來,層層疊加,最終形成修辭結(jié)構(gòu)樹.該語料庫規(guī)模較小,只標(biāo)注了華爾街日?qǐng)?bào)385篇英文文章.
HIT-CTDB:由哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心開發(fā),語料來自O(shè)ntoNotes4.0上的525篇中文文本.針對(duì)每篇文本,均標(biāo)注了3種關(guān)系:分句篇章關(guān)系、復(fù)句篇章關(guān)系和句群篇章關(guān)系.標(biāo)注采用PDTB標(biāo)注體系,但篇章關(guān)系根據(jù)漢語特點(diǎn)做了相應(yīng)調(diào)整,共分為時(shí)序、因果、條件、比較、擴(kuò)展和并列6種關(guān)系[21].
漢語篇章結(jié)構(gòu)語料庫:由蘇州大學(xué)開發(fā),采用樹的形式來表示漢語的篇章結(jié)構(gòu),每個(gè)段落構(gòu)建一棵篇章結(jié)構(gòu)樹,標(biāo)注了篇章中語義關(guān)系、連接詞、中心、層次等信息.在語義關(guān)系分類上,該語料庫將篇章關(guān)系分成4個(gè)大類、17個(gè)小類,其中4個(gè)大類分別為因果、并列、轉(zhuǎn)折和解說關(guān)系.
清華漢語樹庫(Tsinghua Chinese treebank):由清華大學(xué)開發(fā),語料主要來自漢語平衡語料庫,有文學(xué)、新聞、學(xué)術(shù)、應(yīng)用等4種文體.這個(gè)語料庫不僅標(biāo)注復(fù)句語義關(guān)系,還標(biāo)注了詞類、短語結(jié)構(gòu)、功能等多個(gè)信息.該語料庫沒有標(biāo)注關(guān)系詞,將復(fù)句語義關(guān)系直接分為并列、連貫、遞進(jìn)、選擇、因果、目的、假設(shè)、條件、轉(zhuǎn)折、注解、流水11種關(guān)系.
復(fù)句常常由多個(gè)分句組成,要解析分句間的語義關(guān)系,首先要解決分句的邊界識(shí)別問題,即語義關(guān)系涉及的論元邊界問題.在基于RST-DT的研究中,關(guān)于EDU識(shí)別的研究較多,如Soricut等[22]采用概率模型,利用句子的句法和詞匯特征進(jìn)行句子級(jí)別的EDU識(shí)別和篇章結(jié)構(gòu)樹的構(gòu)建,在自動(dòng)句法樹上取得了F值為83.1%的識(shí)別效果;Hernault等[23]等使用支持向量機(jī)(SVM)模型,利用句子的句法、結(jié)構(gòu)、詞匯等特征,在EDU識(shí)別任務(wù)上F值達(dá)到了93.8%,效果良好.Lin等[24]在PDTB上做的論元識(shí)別F值達(dá)到82.6%.然而在漢語中,由于逗號(hào)除了做分句間隔之外還常常用作語氣停頓標(biāo)志,導(dǎo)致很多非分句片段的產(chǎn)生.要判定復(fù)句語義關(guān)系,首先要排除這些非分句短語片段的干擾.一些學(xué)者對(duì)此展開了研究,如洪鹿平[25]使用SVM分類器判斷逗號(hào)前的文本片段是否為分句;胡金柱等[26]利用規(guī)則和聚類分析的方法對(duì)復(fù)句中的短語字段進(jìn)行自動(dòng)識(shí)別,準(zhǔn)確率達(dá)到92.1%.這些研究僅進(jìn)行是否為分句的判斷,對(duì)于非分句的歸屬等后續(xù)問題則沒有深入研究.
3.3.1 顯式關(guān)系識(shí)別
1) 關(guān)系詞識(shí)別
復(fù)句中的顯式關(guān)系指的是包含關(guān)系詞的復(fù)句所表示的邏輯語義關(guān)系.英語中的關(guān)系詞大部分是非歧義的[27],因此只要識(shí)別出關(guān)系詞,基本就可以推斷出其表示的語義關(guān)系.對(duì)于有歧義的關(guān)系詞,Pitler等[28]使用詞匯和句法特征來判斷其是否為篇章關(guān)系詞,準(zhǔn)確率可以達(dá)到96.26%,F(xiàn)值達(dá)94.19%,Lin等[24]在此基礎(chǔ)上抽取了詞性、上下文等特征來構(gòu)建其關(guān)系詞分類器,最終準(zhǔn)確率達(dá)到97.25%,F(xiàn)值達(dá)到95.36%.與英語相比,漢語篇章中關(guān)系詞的語法性質(zhì)和詞性分布更加復(fù)雜.李艷翠等[29]指出,漢語中的關(guān)系詞不限于傳統(tǒng)連詞,還有介詞、副詞等諸多語法類型.胡金柱等[30]建立了一個(gè)復(fù)句關(guān)系詞庫,將復(fù)句中的關(guān)系詞分為3類,第1類為語義單一型典型關(guān)系詞,如“因?yàn)?、所以”等,這些詞能夠固定地表示分句間的某種語義關(guān)系;第2類為語義多樣型非典型關(guān)系詞,如“就、才、也”等副詞,可以兼表幾種語義關(guān)系;第3類為語義單一型非典型關(guān)系詞,如“別管、怪不得、誰知道”等形式上處于實(shí)義短語與關(guān)系詞的共存狀態(tài).因此,漢語中關(guān)系詞消歧任務(wù)比英語更加復(fù)雜和艱巨.李艷翠等[31]利用詞的詞匯、句法、位置特征使用決策樹分類器在清華樹庫上進(jìn)行是否為關(guān)系詞的識(shí)別,在不帶功能標(biāo)記的詞上達(dá)到了92.1%的準(zhǔn)確率,但該研究只識(shí)別單個(gè)關(guān)系詞,而漢語中關(guān)系詞常常是成對(duì)成組出現(xiàn)的.針對(duì)這一問題,楊進(jìn)才等[32]使用貝葉斯模型對(duì)關(guān)系詞的特征集合進(jìn)行訓(xùn)練和測試,將基于統(tǒng)計(jì)過程的結(jié)果轉(zhuǎn)換為規(guī)則,在漢語復(fù)句語料庫上取得了95.4%的準(zhǔn)確率.該研究實(shí)驗(yàn)數(shù)據(jù)較小,只驗(yàn)證了15組關(guān)系詞在1 000句上的準(zhǔn)確率.總的來說,目前漢語關(guān)系詞識(shí)別效果較好,但研究多是著眼于典型關(guān)系詞,對(duì)于非典型關(guān)系詞的識(shí)別較少.
2) 顯式語義關(guān)系判定
在連接關(guān)系識(shí)別領(lǐng)域,Pitler等[28]僅使用關(guān)系詞特征,在PDTB分類體系下將篇章語義分成因果、比較、時(shí)序和擴(kuò)展,取得了93.9%的準(zhǔn)確率.Lin等[24]在特征中加入了關(guān)系詞,上下文等特征,在自動(dòng)句法樹上取得了86%的準(zhǔn)確率.漢語中由于關(guān)系詞歧義情況較為復(fù)雜,目前取得的效果較英文稍差.李艷翠等[31]在PDTB分類體系下使用最大熵分類器對(duì)連接詞語義進(jìn)行分類,4分類的準(zhǔn)確率僅有78.9%,F(xiàn)值也僅有69.3%.張牧宇等[33]使用極大似然估計(jì)法,利用關(guān)系詞特征進(jìn)行關(guān)系分類,在因果、條件、比較關(guān)系上都取得比較好的效果,準(zhǔn)確率均超過95%,但在并列關(guān)系上效果較差,準(zhǔn)確率只有63.6%.以上研究都是在4大類分類上實(shí)驗(yàn),沒有將語義關(guān)系進(jìn)一步細(xì)分為小類.楊進(jìn)才等[34]對(duì)于只有部分分句含有關(guān)系詞的非充盈態(tài)有標(biāo)復(fù)句計(jì)算分句核心詞的語義相關(guān)度,作為判斷復(fù)句語義關(guān)系的依據(jù),準(zhǔn)確率達(dá)到了89%,但沒給出各類別的準(zhǔn)確率.可以看到,漢語顯式語義關(guān)系識(shí)別仍有一定的提高空間.
3.3.2 隱式關(guān)系識(shí)別
顯式復(fù)句關(guān)系詞可以作為判定語義關(guān)系的強(qiáng)力標(biāo)志,而不含關(guān)系詞的隱式關(guān)系判定則給復(fù)句語義關(guān)系識(shí)別帶來巨大挑戰(zhàn),也是目前篇章關(guān)系研究領(lǐng)域的熱點(diǎn).
1) 基于特征的方法
Marcu等[35]抽取論元的詞對(duì)信息,利用互聯(lián)網(wǎng)抽取大量詞對(duì)信息實(shí)例,并將其中的關(guān)系詞移除構(gòu)建一個(gè)隱式關(guān)系語料庫,然后使用貝葉斯分類器對(duì)隱性語義關(guān)系進(jìn)行識(shí)別.Pitler等[36]則將詞的情感特征、動(dòng)詞類別、動(dòng)詞短語長度、情態(tài)、上下文和詞匯特征等用于篇章關(guān)系識(shí)別,在PDTB 4類語義關(guān)系分類任務(wù)上,各類特征的使用對(duì)于結(jié)果的F值提升都有明顯作用.Lin等[37]使用前后論元信息、詞對(duì)信息、論元內(nèi)部成分和依存句法信息作為特征,利用最大熵分類器,在PDTB第2層11類語義關(guān)系上進(jìn)行識(shí)別,取得了40%的準(zhǔn)確率,比baseline提高了14.1%.Louis等[38]嘗試將文本中的指代信息以及指代詞的句法結(jié)構(gòu)和特征用于隱性語義關(guān)系的識(shí)別,效果雖較baseline有提升,但比傳統(tǒng)利用詞法特征的方法仍然相差較多.Rutherford 等[39-40]針對(duì)有些顯性關(guān)系移除關(guān)系詞后意義改變不能用于構(gòu)造隱性關(guān)系的問題,通過計(jì)算關(guān)系詞的省略率來選出合格的關(guān)系詞論元對(duì),進(jìn)而擴(kuò)大訓(xùn)練數(shù)據(jù)集,提升了識(shí)別效果,在PDTB 4分類上準(zhǔn)確率達(dá)到40.5%.車婷婷等[41]挖掘詞級(jí)和短語級(jí)的功能連接詞,建立功能連接詞的概念模型與篇章關(guān)系的映射體系,實(shí)現(xiàn)隱式篇章語義關(guān)系的推理,雖然結(jié)果取得了不錯(cuò)的效果,準(zhǔn)確率達(dá)53.84%,但是只比全部標(biāo)為最大類別擴(kuò)展關(guān)系的baseline準(zhǔn)確率高0.1%,這也說明目前隱式篇章關(guān)系識(shí)別的難度.
在漢語隱式篇章關(guān)系研究方面,張牧宇等[33]基于有指導(dǎo)方法的關(guān)系識(shí)別模型,利用核心動(dòng)詞、極性特征、依存句法特征、句首詞匯特征等,對(duì)因果、比較、擴(kuò)展、并列4類關(guān)系進(jìn)行分類,結(jié)果只有擴(kuò)展關(guān)系的識(shí)別效果不錯(cuò),F(xiàn)值達(dá)到72.3%,其他3類效果不佳,比較關(guān)系的F值最低,只有16.2%.孫靜等[42]利用上下文特征、詞匯特征、依存樹特征,采用最大熵分類法對(duì)因果、并列、轉(zhuǎn)折、解說4大類關(guān)系進(jìn)行識(shí)別,總準(zhǔn)確率為62.15%,但除了并列類效果很好之外,其他3類效果都不佳,特別是轉(zhuǎn)折類完全沒有識(shí)別出來.李國臣等[43]利用漢語框架語義網(wǎng)識(shí)別11種篇章語義關(guān)系,結(jié)果顯示只有屬于關(guān)系識(shí)別效果較好,準(zhǔn)確率超過70%,其他關(guān)系效果都不盡理想,均低于40%.
可以看到,無論是在英語還是漢語中,傳統(tǒng)基于特征的方法準(zhǔn)確率都不高,擴(kuò)展或并列類準(zhǔn)確率較高的原因是自然語言中這類語義關(guān)系本身占比就較大,若剔除這個(gè)因素,準(zhǔn)確率可能還要更低.想要提高性能,必須表征句子更深層的語義關(guān)系.
2) 基于神經(jīng)網(wǎng)絡(luò)的方法
隨著近些年神經(jīng)網(wǎng)絡(luò)研究的興起,學(xué)者們發(fā)現(xiàn)相比于傳統(tǒng)方法使用淺層特征易于丟失文本序列、結(jié)構(gòu)等重要信息,使用詞嵌入(word embedding)對(duì)句子進(jìn)行表示更能獲取句子深層的語義信息.在機(jī)器翻譯、閱讀理解等領(lǐng)域取得卓越效果之后,一些學(xué)者也開始將神經(jīng)網(wǎng)絡(luò)用于隱式篇章關(guān)系的識(shí)別.Ji等[44]最早將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于篇章隱式關(guān)系,他們用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)對(duì)句子的論元及實(shí)體進(jìn)行編碼,在PDTB 4類語義分類任務(wù)中將準(zhǔn)確率提升到了43.56%.Zhang等[45]則是使用了只有一個(gè)隱藏層的淺層卷積神經(jīng)網(wǎng)絡(luò)(SCNN)在PDTB上進(jìn)行隱式關(guān)系識(shí)別,并在4個(gè)關(guān)系分類任務(wù)中的3個(gè)(因果、擴(kuò)展、時(shí)序)上取得了優(yōu)于基于SVM方法的結(jié)果.Liu等[46]使用雙向長短期記憶網(wǎng)絡(luò)(Bi-LSTM)將隱式關(guān)系中的論元編碼,同時(shí)模仿人類重復(fù)閱讀習(xí)慣,引入了多重注意力(multi-attention)機(jī)制,對(duì)隱式篇章關(guān)系進(jìn)行識(shí)別,在PDTB 4類關(guān)系的分類中準(zhǔn)確率和F值分別為57.57%和44.95%.Li等[47]對(duì)論元、句子和段落都進(jìn)行分布式語義表示并將之組合,使得最終每個(gè)論元的embedding中都含有詞語、句子和段落信息,在PDTB第1層4類分類任務(wù)上F值分別為41.91%,54.72%,71.54%,34.78%,同時(shí)在第2層分類任務(wù)上取得44.75%的準(zhǔn)確率.另外,他們還將該模型用于賓州漢語樹庫篇章隱式關(guān)系的識(shí)別,準(zhǔn)確率達(dá)到82.56%,與全部標(biāo)記為最大類別擴(kuò)展關(guān)系的baseline相比,提高了11.63%.Qin等[48]提出了一個(gè)挖掘關(guān)系特征的對(duì)抗網(wǎng)絡(luò)來進(jìn)行隱式關(guān)系識(shí)別,在4類關(guān)系分類上取得46.23%的準(zhǔn)確率.Geng等[49]認(rèn)為句子結(jié)構(gòu)信息對(duì)隱式關(guān)系的判定有十分重要的作用,因此應(yīng)該將句法樹信息融入論元的語義編碼,他們在將關(guān)系論元使用Bi-LSTM編碼后,將句子的句法樹轉(zhuǎn)換成一個(gè)二叉樹,然后將子節(jié)點(diǎn)的信息經(jīng)過轉(zhuǎn)換后計(jì)入父節(jié)點(diǎn)信息,最后取得了62.4%的準(zhǔn)確率和44.2%的F值.Wang等[50]在使用句法樹信息之外,也使用了句法樹每個(gè)節(jié)點(diǎn)標(biāo)簽的embedding,分別在第1層和第2層語義關(guān)系分類中取得了59.85%和45.21%的準(zhǔn)確率.Dai等[51]借鑒序列化標(biāo)注思想,認(rèn)為句間關(guān)系要放在整個(gè)篇章中來考察,因此建立了一個(gè)篇章級(jí)神經(jīng)網(wǎng)絡(luò)模型,對(duì)顯式關(guān)系和隱式關(guān)系訓(xùn)練不同的分類器,同時(shí)在模型最后一層加入了條件隨機(jī)場(CRF)層,最終取得了4分類任務(wù)中隱式關(guān)系58.2% 的準(zhǔn)確率和顯式關(guān)系94.46%的準(zhǔn)確率.神經(jīng)網(wǎng)絡(luò)的應(yīng)用提高了隱式篇章關(guān)系的識(shí)別性能,但仍僅有60%左右的準(zhǔn)確率,F(xiàn)值也不到50%,仍然無法滿足實(shí)際應(yīng)用的需求.
目前,篇章層次樹生成的研究大多基于RST-DT展開.Soricut等[22]使用概率模型構(gòu)建句級(jí)篇章結(jié)構(gòu)樹,并在18類篇章關(guān)系標(biāo)注上取得49.0%的F值.LeThanh等[52]分別在句子層面和篇章層面進(jìn)行篇章結(jié)構(gòu)樹的構(gòu)建,在句子層面使用句法信息和短語信息切分EDU,以生成句子的篇章結(jié)構(gòu)樹,并取得了66.2%的F值.在漢語的篇章關(guān)系構(gòu)建中,張益民等[53]利用主位模式等多個(gè)語言學(xué)特征,使用向量空間模型對(duì)篇章結(jié)構(gòu)進(jìn)行自動(dòng)分析.涂眉等[54]先使用序列化標(biāo)注方法對(duì)篇章語義單元進(jìn)行切分,然后使用最大熵模型對(duì)篇章結(jié)構(gòu)進(jìn)行推導(dǎo),在清華漢語樹庫上的實(shí)驗(yàn)結(jié)果為,當(dāng)篇章語義結(jié)構(gòu)樹高度不超過6層時(shí),篇章語義關(guān)系標(biāo)注的F值為63%.可以看到,過去對(duì)結(jié)構(gòu)層次樹生成的評(píng)測主要仍是針對(duì)層次生成后的語義關(guān)系標(biāo)注,對(duì)結(jié)構(gòu)層次本身的正確與否并無考察.對(duì)于含有多個(gè)分句的復(fù)句或篇章來說,句子之間的層次關(guān)系直接反映了它們之間的邏輯語義關(guān)系,因此對(duì)層次結(jié)構(gòu)樹本身的考察是今后研究亟待解決的關(guān)鍵問題之一.
從上述國內(nèi)外研究現(xiàn)狀可以看出,目前的復(fù)句處理研究還存在以下問題:
1) 缺乏一個(gè)統(tǒng)一的漢語復(fù)句語義分析的理論體系.語言學(xué)界對(duì)復(fù)句關(guān)系的劃分有多種方法,缺乏一個(gè)普遍認(rèn)同和遵從的標(biāo)準(zhǔn).因此目前研究使用的復(fù)句分類體系劃分不同,有的使用兩分法,有的使用三分法,有的使用小類分法,有的將英語PDTB體系借鑒到漢語中來.無法在同一個(gè)平臺(tái)進(jìn)行橫向比較,不利于漢語復(fù)句的進(jìn)一步研究和建設(shè).
2) 缺乏針對(duì)復(fù)句的大規(guī)模語料庫.目前常見的篇章關(guān)系語料庫在語料劃分粒度上不一致,有的是復(fù)句,有的是句群,有的甚至是段落.專門針對(duì)復(fù)句的語義關(guān)系和結(jié)構(gòu)層次劃分的語料庫還沒有.目前仍在建設(shè)中的CAMR語料庫雖然包含了復(fù)句間的語義關(guān)系和結(jié)構(gòu)層次,但若要作為復(fù)句結(jié)構(gòu)語義語料庫使用,還必須對(duì)關(guān)系詞、語義關(guān)系做更深入細(xì)致的描寫和標(biāo)注.
3) 目前國內(nèi)外的研究主要著眼于篇章語義關(guān)系,專門針對(duì)復(fù)句的研究仍然較少.復(fù)句是篇章的組成單位,篇章各層級(jí)語段之間存在著高頻的復(fù)現(xiàn)關(guān)系,因此弄清楚復(fù)句中各分句的銜接方法和結(jié)構(gòu)層次,篇章關(guān)系才能夠得到更好地解決.目前的研究中不論是語義關(guān)系的判定還是結(jié)構(gòu)層次的劃分,都是在篇章層面上進(jìn)行的,復(fù)句相對(duì)于篇章來說,篇幅更短,在更短的文本中尋找其語義關(guān)系,劃分其結(jié)構(gòu)層次,是需要進(jìn)一步探索的.
4) 國內(nèi)目前關(guān)于復(fù)句的研究多是針對(duì)二分句的,少部分是針對(duì)三分句的研究,而在自然語言中,復(fù)句中的分句數(shù)目往往更多,其結(jié)構(gòu)層次的復(fù)雜程度呈指數(shù)級(jí)上升,而目前這方面的研究仍然少有涉獵.
5) 隱式語義關(guān)系的識(shí)別仍然是個(gè)難點(diǎn).雖然隱式語義關(guān)系一直是篇章關(guān)系研究的熱點(diǎn),近年來神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于隱式語義關(guān)系的識(shí)別,但由于該任務(wù)涉及深層語義理解,難度較大,效果一直不甚理想,目前最好的整體效果也只有40%~50%,這說明要解決這一難題,仍然需要投入更多的努力.
AMR在句子語義表示方面有著得天獨(dú)厚的優(yōu)勢,同時(shí)也是下一步篇章語義表示的基礎(chǔ).為了更好地對(duì)AMR中的句子進(jìn)行解析,有必要對(duì)復(fù)句進(jìn)行更加深入的研究.接下來我們的工作將從以下方面進(jìn)行:
1) 完善CAMR標(biāo)注體系,制定更符合漢語實(shí)際的標(biāo)注規(guī)范,在目前標(biāo)注的基礎(chǔ)上,完善與復(fù)句有關(guān)的標(biāo)注內(nèi)容.
2) 探索多種復(fù)句標(biāo)注體系間的對(duì)應(yīng)關(guān)系及轉(zhuǎn)換方法,從而實(shí)現(xiàn)復(fù)句語義資源的整合利用.
3) 對(duì)于有多個(gè)逗號(hào)隔開的復(fù)句,進(jìn)行論元識(shí)別和邊界切分.從而為下一步語義關(guān)系識(shí)別打下基礎(chǔ).
4) 無標(biāo)記復(fù)句的語義關(guān)系本身存在模糊性,不同標(biāo)注者可能對(duì)同一無標(biāo)記復(fù)句標(biāo)注不同的語義關(guān)系,對(duì)機(jī)器來說,這更是一個(gè)具有挑戰(zhàn)性的問題.因此,應(yīng)提高標(biāo)注的內(nèi)在一致性、尋找方法提高機(jī)器自動(dòng)識(shí)別無標(biāo)記復(fù)句語義關(guān)系性能.
5) 構(gòu)建復(fù)句邏輯語義結(jié)構(gòu)樹,將指代消解、缺省回補(bǔ)等工作與復(fù)句邏輯語義結(jié)構(gòu)樹結(jié)合起來,以更好地對(duì)復(fù)句語義關(guān)系進(jìn)行抽象表示.
隨著自然語言理解中語義分析的深入,AMR復(fù)句解析在信息抽取、自動(dòng)文摘、機(jī)器閱讀理解等領(lǐng)域有著重要的研究價(jià)值和光明的應(yīng)用前景,值得不斷地研究和探索.