陳菜芳
(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
語義角色的自動(dòng)標(biāo)注是對(duì)句子中謂詞所支配的語義角色進(jìn)行自動(dòng)標(biāo)注,是對(duì)句子進(jìn)行淺層語義分析的一種方法。語義角色標(biāo)注技術(shù)在大規(guī)模語義知識(shí)庫(kù)的構(gòu)建、問答系統(tǒng)、機(jī)器翻譯和信息抽取等領(lǐng)域都有著廣泛的應(yīng)用,其深入的研究對(duì)自然語言處理技術(shù)的整體發(fā)展有著重要意義。下面主要從三個(gè)方面來介紹中文語義角色標(biāo)注研究狀況:首先,介紹相關(guān)的中文語義角色標(biāo)注語料資源;其次,描述了中文語義角色標(biāo)注的發(fā)展現(xiàn)狀;最后,對(duì)中文語義角色標(biāo)注未來的工作進(jìn)行展望。
語義角色標(biāo)注離不開語料資源的支持。英語較為知名的語義角色標(biāo)注資源有FrameNet、PropBank和NomBank等。中文語義角色標(biāo)注語料資源主要是從英語語義角色標(biāo)注語料資源的基礎(chǔ)上發(fā)展起來或參照其建設(shè)的。
Chinese Proposition Bank(CPB)同英文PropBank基本類似。在CPB中,總共定義了20多個(gè)角色,只對(duì)每個(gè)句子中的核心動(dòng)詞進(jìn)行了標(biāo)注,所有動(dòng)詞的主要角色最多有6個(gè),均以Arg0~Arg5和ArgM為標(biāo)記,其中核心的語義角色為Arg0~5六種,其余為附加語義角色,用前綴ArgM表示,后面跟一些附加標(biāo)記來表示這些參數(shù)的語義類別。它幾乎對(duì)Penn Chinese Treebank中的每個(gè)動(dòng)詞及其語義角色進(jìn)行了標(biāo)注,國(guó)內(nèi)大多數(shù)語義角色標(biāo)注研究都是基于此資源。
中文Nombank是在英文命題庫(kù)(Proposition Bank)和Nombank的標(biāo)注框架上進(jìn)行擴(kuò)展,對(duì)中文名詞性謂詞的標(biāo)注。中文Nombank加入了語義角色層的標(biāo)注信息,與CPB一樣,也標(biāo)注了核心語義角色和附加語義角色這兩類語義角色。中文NomBank中的角色位置有兩類情況:一是角色在以名詞性謂詞為核心詞的名詞短語中;二是當(dāng)以名詞性謂詞為核心詞的名詞短語作支持動(dòng)詞的賓語時(shí),允許語義角色在名詞短語外。
山西大學(xué)構(gòu)建的Chinese FrameNet是基于框架語義理論,類似FrameNet風(fēng)格的中文詞典。它描述了框架元素的詳細(xì)句法信息和詞匯單元以及參與者框架元素之間的關(guān)系。Chinese FrameNet的架構(gòu)和英文FrameNet相似,并且有許多只是稍作修改直接對(duì)英文FrameNet進(jìn)行翻譯,但也有一些創(chuàng)新,增加了相應(yīng)語義角色的漢語名稱。目前Chinese FrameNet已經(jīng)有130多個(gè)漢語框架,還在不斷補(bǔ)充。
臺(tái)灣中研院陳鳳儀建立了中文句結(jié)構(gòu)樹資料庫(kù)(Sinica Treebank)。Sinica Treebank是一個(gè)包含語義標(biāo)記和句法標(biāo)記的混合語料庫(kù)。它的基本框架是以訊息為本的格位語法,主要是對(duì)小句進(jìn)行標(biāo)注。目前己標(biāo)注了61 087個(gè)句子,包含了361 834個(gè)詞語。語義角色標(biāo)記共有50多個(gè),基本沿襲了格語法的標(biāo)記體系,如受益格、感受格等。
北京大學(xué)袁毓林教授組織建設(shè)的中文網(wǎng)庫(kù),是在北大漢語句法分析樹庫(kù)的基礎(chǔ)上進(jìn)行語義標(biāo)注的,有著更為細(xì)致的語義角色設(shè)置,尤其是核心論元,分別在主體論元和客體論元內(nèi)部各劃分出五個(gè)子類。具體如下:(一)必有論元:A主體論元:施事、感事、經(jīng)事、致事、主事;B客體論元:受事、與事、對(duì)象、系事。(二)非必有論元:A憑借論元:工具、材料、方式、原因、目的;B環(huán)境論元:時(shí)間、處所、源點(diǎn)、終點(diǎn)、路徑、范圍、量幅。
董振東主持建立的知網(wǎng)(HowNet)是一個(gè)常識(shí)知識(shí)庫(kù),描述對(duì)象為漢語和英語的詞語所代表的概念,揭示了概念與概念之間以及概念所具有的屬性之間的關(guān)系?!吨W(wǎng)》描述了多種類型的詞匯語義關(guān)系,涉及了詞匯語義的各個(gè)方面,著重描述了不同詞性的詞語所代表的概念之間的語義關(guān)系,其中特別重視名詞所代表的概念與動(dòng)詞所代表的概念之間的語義關(guān)系,也即我們通常稱作實(shí)體與事件之間的語義關(guān)系即語義角色關(guān)系,例如作為實(shí)體的“醫(yī)生”和作為事件的“醫(yī)治”,兩者有著“事件”與“施事”的關(guān)系。在知網(wǎng)中,800個(gè)事件主要特征中的每一個(gè)都標(biāo)識(shí)有一個(gè)角色框架。
2.1語義角色標(biāo)注的研究最早關(guān)注的是英文,隨著賓州大學(xué)命題庫(kù)的建立,語義角色標(biāo)注任務(wù)得到廣泛的國(guó)際關(guān)注,并取得了許多很好的結(jié)果。出現(xiàn)了一些相關(guān)的國(guó)際評(píng)測(cè),如CoNLL2004、CoNLL2005、EMNLP-CoNLL2007和CoNLL2008都包含了語義角色標(biāo)注的任務(wù),同時(shí)也促進(jìn)了語義角色標(biāo)注研究的蓬勃發(fā)展。
2.2中文語義角色標(biāo)注的工作開展較晚,最早進(jìn)行研究的是Sun等人,當(dāng)時(shí)因?yàn)檫€沒有中文方面的專門語料,所以他們只能先人工標(biāo)記了包含某些動(dòng)詞的語料然后在此基礎(chǔ)上進(jìn)行研究。后來,伴隨著Chinese Proposition Bank(CPB)的構(gòu)建,就有了一些比較系統(tǒng)的中文語義角色標(biāo)注的工作。國(guó)內(nèi)最早關(guān)注語義角色標(biāo)注是劉挺、于江德等人,不過他們研究的重點(diǎn)是提升英文的語義角色標(biāo)注的性能。
2.3語料資源和中文自動(dòng)句法分析的不理想等因素使得國(guó)內(nèi)中文語義角色標(biāo)注的研究還局限在語義角色分類方面,完整的語義角色標(biāo)注研究還不多見。雖然與英文方面的工作相比,中文語義角色標(biāo)注方面的研究仍處在開始階段,但該項(xiàng)工作已引起了許多研究人員的重視。國(guó)內(nèi)的研究工作主要集中在以下四大高校。
北京大學(xué)關(guān)于語義角色標(biāo)注的工作主要集中在兩個(gè)方面:一是基于語義組塊分析和詞匯語義特征的語義角色標(biāo)注;二是利用北大網(wǎng)庫(kù)的標(biāo)注語料進(jìn)行語義角色標(biāo)注的研究。丁偉偉[1]提出了一種基于語義組塊分析的語義角色標(biāo)注的處理策略。該方法將中文語義角色標(biāo)注從一個(gè)節(jié)點(diǎn)的分類問題轉(zhuǎn)化為序列標(biāo)注問題,是一種簡(jiǎn)化的“語義組塊識(shí)別——語義組塊分類”流程,而不是傳統(tǒng)的“句法分析——語義角色識(shí)別——語義角色分類”的流程。由于避開了句法分析這個(gè)階段,使得語義角色標(biāo)注擺脫了對(duì)句法分析的依賴,從而突破了漢語語法分析器的性能限制。北大網(wǎng)庫(kù)構(gòu)建了一種全新的語義角色標(biāo)注資源,改變了以往無論中英文研究都基于賓州大學(xué)命題庫(kù)的標(biāo)注體系的局面。文獻(xiàn)[2]的主要目的是將之前的各種研究方法在北大網(wǎng)庫(kù)的標(biāo)注語料中進(jìn)行驗(yàn)證,考察它們?cè)诒贝缶W(wǎng)庫(kù)標(biāo)注體系中的作用,進(jìn)而討論特征的選擇對(duì)標(biāo)注體系的依賴性問題,這種在北大網(wǎng)庫(kù)基礎(chǔ)上建立的語義角色分類系統(tǒng),在語義角色分類階段取得與在PropBank上相當(dāng)?shù)膶?shí)驗(yàn)結(jié)果。
哈爾濱工業(yè)大學(xué)主要貢獻(xiàn)是在不斷優(yōu)化特征和特征組合的基礎(chǔ)上,進(jìn)行不同方法的實(shí)驗(yàn)。文獻(xiàn)[3]把漢語的特點(diǎn)與英文語義角色標(biāo)注特征相結(jié)合,構(gòu)建出一些新的特征和組合特征,如謂詞和短語類型的組合、謂語動(dòng)詞類別信息和路徑的組合等,并在CPB語料數(shù)據(jù)上使用最大熵分類器進(jìn)行了實(shí)驗(yàn)。文獻(xiàn)[4]以CPB為實(shí)驗(yàn)數(shù)據(jù),首次將核方法應(yīng)用于漢語語義角色標(biāo)注中,通過對(duì)已有特征進(jìn)行組合或分解,提取了更適用于漢語的新特征,得到了接近英文語義角色標(biāo)注的性能。文獻(xiàn)[5]提出一種基于特征組合和支持向量機(jī)的語義角色標(biāo)注方法。該方法的基本標(biāo)注單元是句法成分,基本特征集合是從當(dāng)前基于句法分析的語義角色標(biāo)注系統(tǒng)中選出高效特征,然后選擇基于統(tǒng)計(jì)的特征組合方法,利用支持向量機(jī)在CPB語料上進(jìn)行分類實(shí)驗(yàn)。
蘇州大學(xué)的研究重點(diǎn)在兩個(gè)方面:一是名詞性謂詞語義角色標(biāo)注,二是以依存關(guān)系為標(biāo)注單元進(jìn)行語義角色標(biāo)注。文獻(xiàn)[6]和[7]討論了漢語名詞性謂詞的語義角色標(biāo)注特征問題。通過對(duì)名詞性謂詞語義角色標(biāo)注的研究,探索了新的詞匯、句法特征,選取了適合名詞性謂詞相關(guān)的特征集,用于名詞性謂詞語義角色標(biāo)注,同時(shí)進(jìn)一步利用動(dòng)詞性謂詞已有的成果,極大地提高了名詞性謂詞語義角色標(biāo)注的性能。文獻(xiàn)[8]提出標(biāo)注單元為依存關(guān)系的語義角色標(biāo)注系統(tǒng),經(jīng)過依存關(guān)系分析、謂詞標(biāo)識(shí)、特征抽取、角色識(shí)別和角色分類,最終在CoNLL2008 SRL Shared Task自動(dòng)依存分析的WSJ測(cè)試集取得了較好的結(jié)果,結(jié)果證明其性能明顯好于基于句法分析的SRL。
山西大學(xué)的工作主要是在漢語框架語義知識(shí)庫(kù)(CFN)語料庫(kù)上進(jìn)行,文獻(xiàn)[9]基于漢語框架語義知識(shí)庫(kù)(CFN),采用條件隨機(jī)場(chǎng)模型,將語義角色標(biāo)注問題通過IOB策略轉(zhuǎn)化為以詞為基本標(biāo)注單元的線性序列標(biāo)注問題,研究了漢語框架語義角色的自動(dòng)標(biāo)注。模型以詞為基本標(biāo)注單元,選擇詞、詞性、詞相對(duì)于目標(biāo)詞的位置、目標(biāo)詞及其組合為特征。從CFN的219個(gè)框架中,挑選那些例句個(gè)數(shù)相對(duì)較多的25個(gè)框架的6 692個(gè)例句的語料上進(jìn)行。對(duì)每一個(gè)框架,分別按照其例句訓(xùn)練一個(gè)模型,同時(shí)進(jìn)行語義角色的邊界識(shí)別與分類,進(jìn)行2-fold交叉驗(yàn)證。
其他還有南師大的陳麗江[10]利用清華大學(xué)的中文樹庫(kù)(TCT),通過梅家駒等人編纂的《同義詞詞林》對(duì)謂詞、名詞進(jìn)行劃分,建立了謂詞詞表、名詞詞表和介詞詞表等來區(qū)分語義角色。在標(biāo)注過程中使用規(guī)則確定謂詞論元,使用規(guī)則和詞表判定成分的語義角色,基于決策樹分類的算法,對(duì)漢語真實(shí)文本的語義角色標(biāo)注進(jìn)行了實(shí)驗(yàn)。
可以說,對(duì)中文語義角色標(biāo)注的研究還任重而道遠(yuǎn),下一步需要進(jìn)行的研究工作還很多,集中表現(xiàn)在如下三個(gè)大的方面:
3.1成熟的語義理論。語義角色標(biāo)注屬于語義分析的范疇,離不開語義理論的支持。語義角色標(biāo)注需要語義角色相關(guān)理論、語義分類體系、詞匯語義等知識(shí)。目前,漢語語義這些相關(guān)理論都還不是很成熟。因此,建立合理有效的語義分類體系,系統(tǒng)地總結(jié)語法與語義之間的對(duì)應(yīng)關(guān)系,是取得突破的關(guān)鍵。
3.2資源庫(kù)建設(shè)。語料庫(kù)和知識(shí)庫(kù)是自然語言處理的兩大基礎(chǔ)性工程,語料庫(kù)是對(duì)真實(shí)語言現(xiàn)象的收集,知識(shí)庫(kù)是對(duì)語言知識(shí)的系統(tǒng)性總結(jié),它們對(duì)自然語言處理的質(zhì)量起著關(guān)鍵性的作用。由于語言現(xiàn)象與語言知識(shí)的復(fù)雜性,語料庫(kù)和知識(shí)庫(kù)都十分龐大,一般都需要耗費(fèi)十年乃至數(shù)十年的時(shí)間來構(gòu)建。今后計(jì)算語言學(xué)工作開展的重點(diǎn)之一就是建立語義層次上的語料庫(kù)和知識(shí)庫(kù)。
3.3改進(jìn)分析方法。自然語言分析處理的方法包括基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。這兩種方法同樣也適用于語義角色標(biāo)注。如何選擇合適的方法,如何將這兩種方法有機(jī)地結(jié)合起來,對(duì)語義角色標(biāo)注任務(wù)是至關(guān)重要的。而且,無論是基于規(guī)則的方法,還是基于統(tǒng)計(jì)的方法,它們所采用的技術(shù),以及得到的準(zhǔn)確性和效率也同語義角色標(biāo)注的準(zhǔn)確性和實(shí)用性相關(guān),這些也需要不斷地研究與改進(jìn)。
[1]丁偉偉,常寶寶.基于語義組塊分析的漢語語義角色標(biāo)注[J].中文信息學(xué)報(bào),2009.9,VOL23(5).