王 鑫,孫薇薇,穗志方
(1. 北京大學 計算語言學研究所,北京 100871; 2. 薩爾布呂肯大學 計算語言語音學系,德國)
近些年來,多種語言上的語義角色標注逐漸成為研究的熱點?,F(xiàn)有的中文語義角色標注系統(tǒng)一般基于完全句法分析,比如說Sun等[1]、Xue and Palmer[2]、Xue[3]的工作。但由于現(xiàn)有的中文完全句法分析器性能還比較低,基于自動的完全句法分析的中文語義角色標注效果并不理想。目前,基于手工標注句法樹的語義角色標注系統(tǒng)的F值達到了0.92,但如果使用自動句法分析器時F值則降低到了0.71[3]。而在英文的語義角色標注系統(tǒng)中,這種變化則是從0.91[4]降低到了0.80[5]。這些數(shù)據(jù)表明,對于還處于研究初級階段的中文語義角色標注任務來說,完全句法分析的性能成為影響其性能發(fā)展的一個主要因素。同時,我們還認識到完全句法分析的結果是句法樹,從中提取的詞語之間的句法關系并不一定是語義角色標注所必需的,而有些詞語之間的關系分析并不準確,這樣就給系統(tǒng)引入了噪音。
在英文中,目前已經(jīng)有相關嘗試將語義角色標注建立在淺層句法分析基礎上,并取得了較好效果,如conll 2004共享任務、于江德[6]等。而在中文中,對淺層句法分析的研究也已經(jīng)取得了一定進展[7],因此可以成為中文語義角色標注的另一種解決思路。
本文將中文語義角色標注建立在淺層句法分析的基礎上,首先實現(xiàn)了一個基于組塊的淺層句法分析器,而后進行語義角色標注。在句法分析階段,根據(jù)漢語自身特點利用構詞法獲得詞語的“偽中心語素”來模擬詞語的中心語素,有效緩解了數(shù)據(jù)稀疏問題,提高了句法分析器的性能。在語義角色標注階段,利用構詞法獲得了目標動詞的語素特征,從動詞內(nèi)部結構的角度對動詞的特征進行描述。此外,本文還提出了“粗框架”特征來模擬完全句法分析所提供的“子類框架”特征,這種特征是對句子中論元搭配關系的一種新的描述形式。
本文以正確的切詞和詞性標注結果作為系統(tǒng)輸入,在淺層句法分析后,采用兩種不同的標注策略即分步標注法和直接標注法完成了語義角色標注,并且都取得了很好的實驗效果,其中直接標注法得到的F值達到了0.74。這個結果比現(xiàn)有最好的基于自動完全句法分析的語義角色標注系統(tǒng)的性能(0.71)[3]有較明顯的提高。分步標注策略下,系統(tǒng)的召回率是0.71,這個效果同樣要明顯優(yōu)于現(xiàn)有的具有最高召回率的語義角色標注系統(tǒng)(0.65)[3]。
本文采用Chen等[7]的組塊定義方法,即定義了12種類型的組塊,分別為形容詞短語(ADJP)、副詞短語(ADVP),類別型詞語(CLP),“的”字型短語(DNP)、限定型短語(DP)、“得”字型短語(DNP)、地點型短語(LOC)、列表標記(LST)、名詞短語(NP)、介詞短語(PP)、數(shù)量詞短語(QP)、動詞短語(VP)。結合IOB2表示法,本文將淺層句法分析問題轉(zhuǎn)化為了序列標注問題,參照Chen等[7]選取的特征作為本文實驗的基線特征,具體包括:
一元文法的詞語和詞性特征: w-2,w-1,w,w+1,w+2
二元文法的詞語和詞性特征: w-2-w-1,w-1-w,w-w+1,w+1-w+2
2.2.1 構詞法信息概述
漢語中最大的語法單位是句子,比句子小的語法單位依次是短語、詞、語素。構詞法是指由語素構成詞的法則,是對既成詞的結構作語法分析,說明詞內(nèi)部結構中語素的組成方式。在構詞法理論中,詞語可分為單純詞和合成詞,單純詞由一個語素構成,而合成詞有兩個或者兩個以上語素構成,這些語素構成詞語的方式又有多種,包括偏正、主謂、述補等等。例如“播音”屬于合成詞,其構詞方式屬于述賓式;“擴大”也屬于合成詞,其構詞方式則屬于述補式。
在豐富的構詞信息中,目前我們觀察到可以利用其中的語素信息對句法分析以及語義角色標注產(chǎn)生幫助。漢語中多數(shù)情況下,一個字便構成了一個語素,因此詞語可以由多個不同的語素構成,例如“進來”由一個動詞中心語素“進”和補語語素“來”構成,“喝水”由一個動詞中心語素“喝”和賓語語素“水”構成。而在英語中,詞語由字母構成,字母往往不具有單獨的含義,因此,英語中的語素單位以及相應的構詞法特征沒有漢語這樣明顯和普遍,本文將漢語構詞法特征中的語素信息運用到淺層句法分析以及后續(xù)的語義角色標注階段中,并且取得了較好的效果。
2.2.2 可應用于淺層句法分析的構詞法特征及其獲取方法
一般而言,在合成詞中,兩個語素的語法地位是不同的,在語法結構中處于中心地位的構詞成分稱作“中心語素”,在語法結構上處于修飾、補充、說明等次要地位的構詞成分(如狀語語素,補語語素等)稱作“附加語素”。中心語素對于詞語句法特征以及語義的表達都起著極其重要的作用。比如“乒乓球”“羽毛球”和“籃球”,這三個詞語都有相同的中心語素“球”,當把“球”作為一個特征項時,其統(tǒng)計信息的顯著性就會得到增強,從而緩解了句法分析過程中的數(shù)據(jù)稀疏問題。
漢語中語素構成詞語的形式多種多樣,包括主謂結構、述賓結構、定中結構等,對于任意一個詞語,通過自動的方法準確判定其構成方式,進而分析得到其中心語素是比較困難的。在漢語中名詞和動詞是最常使用的詞語類型,從方便實現(xiàn)的角度考慮,本文提取名詞和動詞的“偽中心語素”來模擬其中心語素,作為新特征來為句法分析提供更多信息。
對于名詞,本文選取其最后一個字作為其偽中心語素,因為據(jù)部分統(tǒng)計,名詞中約有80%以上屬于偏正式的構詞方式。對于動詞,本文選取首字作為其偽中心語素,原因在于動詞中最常見的是動賓、并列、述補三種結構,而在這些結構中動詞的第一個字在表達動詞句法特征和語義時都起到了關鍵性的作用。例如 “指出”、“指明”和“指揮”,其第一個字在語法結構中都處于了中心地位。
因此,在中文淺層句法分析階段,在2.1節(jié)提出的基線特征基礎上,根據(jù)漢語的特點,本文增加名詞和動詞的偽中心語素作為新特征。
本文采用兩種不同的策略實現(xiàn)了語義角色標注。一種是分步標注法,即首先進行論元識別,確定論元邊界,然后進行分類,對選定的論元標注角色。另一種是直接標注法,即將識別和分類過程合并,直接對句法組塊標注語義角色。
在不同的標注策略下,本文都首先運用一些在角色標注系統(tǒng)中被廣泛使用的特征作為基線特征,而后在基線特征的基礎上加入新特征來提高系統(tǒng)的性能。
為了更好地發(fā)揮標注策略本身的特點,本文在不同的標注策略下使用了不同的特征集。
表1列出了直接標注法的基線特征集合,包含以下四個方面: 句法組塊、目標動詞、句法組塊和目標動詞之間的聯(lián)系[10]以及以上三方面特征構成的組合特征。
表1 直接標注法基線特征集合
對于分步標注法,其識別階段所用的特征與直接標注法相同,而對于分類階段,由于其任務目標與識別階段不同,而且還可以利用識別階段所得到的結果,因此采用了不同于識別階段的特征。表2列出了分步標注法下分類階段的基線特征集合。
表2 分步標注法分類階段基線特征集合
3.3.1 動詞語素特征在角色標注中的運用
動詞在語義角色標注過程中起著重要的作用,構成動詞的語素類型也是多樣的,比如中心語素,狀語語素,補語語素,賓語語素等。賓語語素是動詞中心語素的支配對象,如“打字”中的“字”。補語語素是對動詞中心詞素起補充說明作用的成分,如“超過”中的“過”。狀語語素是修飾限定動詞中心語素的成分,如“不夠”中的“不”。在語義角色標注中,如果充分利用動詞的這些語素特征,則可以更好地發(fā)揮動詞對于句子中論元數(shù)量以及搭配特征的暗示作用,為角色標注提供更多依據(jù)。例如,如果在語義角色標注時知道“理發(fā)”中“理”是動詞中心語素,“發(fā)”是“理”的賓語語素,作為“理”的受事,則已經(jīng)在很大程度上暗示了“理發(fā)”所在的句子中不會有其他的受事。
因此,對于每個動詞,在語義角色標注中希望獲得該動詞的中心語素和附加語素作為特征。本文采用了一種基于語素集的方法來獲得目標動詞的中心語素以及附加語素(狀語語素、補語語素、賓語語素之一)。
通過對語料的觀察,本文事先歸納了一些出現(xiàn)頻率較高的語素,分別構成狀語語素集(A),賓語語素集(O)和補語語素集(C)。其中狀語語素集中的語素一般出現(xiàn)在狀語-動作結構的動詞中,起修飾作用;賓語語素集中的語素一般出現(xiàn)在動作—賓語結構中;補語語素集中的語素一般是動作—補語結構的補語部分。表3列出了訓練語料里出現(xiàn)頻度較高的二字目標動詞所包含的附加語素(括號中是語素出現(xiàn)的頻度,訓練語料中兩字目標動詞的頻度總計21 669,同一個動詞在不同句子中出現(xiàn)則頻度加一)。
表3 不同語素集合中的典型語素舉例
這種基于語素集獲得目標動詞中心語素以及附加語素的方法具體而言,就是在角色標注階段,根據(jù)每個目標動詞的字數(shù),各個字的位置,字所屬的語素集合得到構成這個動詞的語素類型。令W為輸入的目標動詞W= C1…Cn,N代表其包含的字數(shù),輸出為中心語素h, 狀語語素a, 補語語素c以及賓語語素o,提取動詞語素的方法如下所示。
h=c=a=o=null
If N=4 and C1=C2and C3=C4then return Verb formation of W'= C1C3;
Else if N =3 and C2=C3then return h=C1, c= C2;
Else if N =2 and C1=C2then return h=C1;
Else if Cn∈C return h=C1..n-1,c= Cn
Else if Cn∈O return h= C1..n-1, o= Cn
Else if C1∈A return h= C2…Cn,a= C1
Else return h=C1;
當要提取某個動詞的構成語素時,需要判定動詞的首字和尾字所屬的語素集合,如果首字或尾字屬于某個附加語素集合,則令這個匹配到的字作為附加語素,剩下部分作為中心語素。例如對于“建成”,“成”出現(xiàn)在動詞的末尾,并且屬于補語語素集,因此“建成”的補語語素是“成”,中心語素是“建”。另外,由于并列結構也是漢語動詞所常見的結構形式(如“簽署”),也就是說動詞的首字和尾字都沒有包含在附加語素集合中,此種情況下,本文按照2.2.2節(jié)中的處理方法,提取動詞的第一個字作為其中心語素,附加語素標記為空“-”。 此外,由于動詞中所含的字數(shù)不同,本文根據(jù)動詞構詞上的特點,也進行了針對性的處理。例如對于長度為3的詞語并且是疊詞,如第二個和第三個字相同,則可以認為這個詞由中心語素與補語語素構成。例如“笑哈哈”,可以分析得到中心語素是“笑”,補語語素是“哈”。
3.3.2 粗框架特征在角色標注中的運用
在完全句法分析中,從句法樹上提取的子類框架特征,即由動詞本身、動詞父親以及動詞兄弟組成的信息,由于其有效表示了論元之間句法配置關系,因此對于語義角色標注是很重要的。在淺層句法分析中,由于沒有完全句法分析的句法層級信息,不能直接獲得子類框架。在基于淺層句法分析的語義角色標注中,需要尋找一種特征可以盡量模擬子類框架所要描述的論元之間、論元和動詞之間的搭配信息。這種特征的有效性,可以從一個側面反映將語義角色標注建立在淺層句法分析基礎上的可能性。我們發(fā)現(xiàn)在淺層句法分析結果中可以提取一種“粗框架”特征,即由識別階段所得的論元以及目標動詞組成的序列。例如在句子“團委召開會議”中,目標動詞是“召開”,子類框架可以表示為VP—>VV、NP;當候選目標論元為“會議”時,粗框架為XP+VV+!XP,其中第一個XP表示“團委”,VV表示“召開”,!XP表示“會議”。這樣的信息本質(zhì)上已經(jīng)反映了子類框架所要描述的論元之間、論元和動詞之間的搭配信息,因此可以較好地逼近子類框架特征,后面的實驗結果也說明了這一點。
表4列出了角色標注階段加入的新特征,具體包括語素類特征(中心語素和附加語素)以及“粗框架”類特征兩個方面。其中語素類特征被用到了直接標注法、分步標注法的識別和分類階段,粗框架類特征則被用到了分步標注法的分類階段。
表4 角色標注階段的新特征集合
4.1.1 數(shù)據(jù)
本文選擇CPB1.0和CTB5.0作為實驗的基本數(shù)據(jù)。這些數(shù)據(jù)被分為三部分: chtb_081—chtb_899作為訓練集,chtb_041—chtb_080作為開發(fā)集,chtb_001—chtb_040以及chtb_900—chtb_931作為測試集。這樣的數(shù)據(jù)設置方法與Xue[3]相同。同時,本文采用conll-2005共享任務提供的srl-eval腳本從三個方面即準確率、召回率和F值來對系統(tǒng)性能進行評測。
4.1.2 分類器
在淺層句法分析、直接標注法以及分步標注法的識別階段,本文選用Tiny SVM以及YamCha軟件包(Kudo and Matsumoto[8-9])。參數(shù)設置為核函數(shù)d=2,采用配對(pair-wise)方法解決多分類問題。對于分步標注法的分類階段,本文選用線性的SVM分類器SVMlin,采用一對多方法解決多分類問題。
表5中第一行是實驗的基線結果,即采用Chen[7]所提到的特征時的實驗結果。第二行是加入“偽中心語素”特征之后的測試結果,從而證明了詞語的語素信息對于淺層句法分析的積極意義。這樣的效果已經(jīng)與目前在英文上基于組塊的句法分析的最好系統(tǒng)效果(F=0.94)相當。雖然由于語言種類不同,組塊的定義方法不同,測試集合上的數(shù)據(jù)量不同等,單純的數(shù)值比較并不十分公平,但這樣的結果已經(jīng)說明了系統(tǒng)所采用的基于組塊的淺層句法分析方法的有效性。
表5 淺層句法分析過程中的性能比較
表6 名詞短語和動詞短語的句法分析評測結果
在漢語中存在著大量的名詞短語和動詞短語,表6列出了系統(tǒng)在這兩種類型短語組塊上的測試結果。結果表明,語素特征對于名詞短語的標注任務會更有幫助,而對于動詞短語的標注所起到的促進作用不是很明顯。其中部分原因可能是因為許多標注錯誤是由于動詞短語對句子中其他成分的長依賴關系造成的,這種情況下作為局部特征的語素特征的加入對于標注很難起到有效的促進作用。比如有以下兩個句子:
[VP因此獲得勝利]
[ADVP因此][VP大量出現(xiàn)]的是以前不曾遇到的
這兩個句子中“因此”的上下文是相似的,而在第二句話中只有分類器知道“因此”后面是一個從句才能正確地標注出“因此”的短語標志“ADVP”,這樣的信息是語素特征所沒能提供的,因此加入語素特征后對于正確識別出“因此”的句法功能沒能起到明顯的作用。
表7列出了在加入目標動詞語素類特征前后直接標注策略下系統(tǒng)的性能變化??梢园l(fā)現(xiàn),語素類特征對于系統(tǒng)性能的提高主要表現(xiàn)在召回率上,這也再次驗證了語素特征在緩解數(shù)據(jù)稀疏問題上的作用。
表7 直接標注法中語素類特征對系統(tǒng)性能的影響
表8列出了在加入粗框架類和語素類特征前后分步標注策略下系統(tǒng)準確率的變化??梢园l(fā)現(xiàn),新特征的加入使標注效果無論在開發(fā)集上還是在測試集上都得到了提高。粗框架類特征有利于更有效地利用識別階段的標注結果,由于其提供了一種句子整體結構上的信息,因此使標注效果得到了明顯的提高。
表8 分類階段粗框架類和語素類特征對系統(tǒng)性能的影響
表9列出了兩種不同策略下的角色標注系統(tǒng)以及現(xiàn)有最好的基于自動句法分析的角色標注系統(tǒng)的性能??梢钥闯?,無論是直接標注法還是分步標注法,得到的標注效果都優(yōu)于現(xiàn)有的基于自動句法分析的最好角色標注系統(tǒng), 這就驗證了基于淺層句法分析的語義角色標注系統(tǒng)的有效性。
表9 角色標注實驗結果
觀察可以發(fā)現(xiàn),兩種不同的標注策略在F值上并沒有太大差別。相比而言,直接標注法取得了更高的精確率,分步標注法則有更高的召回率。這可能是因為分步標注法的識別階段可以更有效地區(qū)別論元和非論元,因而識別出了更多的論元,提高了召回率。表中第一行是Xue[3]在完全句法分析基礎上角色標注的實驗結果。比較可以發(fā)現(xiàn)這個結果在精確率上有很好的表現(xiàn),這可能是因為其充分利用了句法樹上各個句法成分之間的關系,得到了對角色分類更加有效的特征,因而可以更加準確地分辨角色類型。
本文搭建了一個基于淺層句法分析的中文語義角色標注系統(tǒng),比現(xiàn)有最好的基于自動完全句法分析的語義角色標注系統(tǒng)的性能(0.71)[3]有了明顯提高。具體而言,本文首先構造了一個擁有較高性能的句法分析器,在此階段根據(jù)漢語自身特點尤其是構詞法,提取了名詞和動詞的偽中心語素特征來緩解數(shù)據(jù)稀疏問題;在語義角色標注過程中,提取了目標動詞語素特征和粗框架等,有效描述了句子中論元之間以及論元與動詞之間的搭配關系。實驗結果表明,基于淺層句法分析的角色標注方法為中文語義角色標注提供了一種新的解決思路,同時本文所提取的語素特征以及粗框架等對于提高整個語義角色標注系統(tǒng)的性能起到了很好的促進作用。
[1] Sun, Honglin, Daniel Jurafsky. Sha1low Semantic Parsing of Chinese[C]//Proceedings of the Human Language Techno1ogy Conference 0f the North American Chapter of the Associati0n for Computational Linguistics.Bnston. USA: 2004.
[2] Nianwen Xue and Martha Palmer. Automatic semantic role labeling for Chinese verbs[C]//Proceedings of the 19th International Joint Conference on Artificial Intelligence, 2005.
[3] Nianwen Xue. Labeling Chinese Predicates with Semantic roles [J]. Computational Linguistics, 2008,34(2):225-255.
[4] Sameer S. Pradhan, Wayne Ward, and James H. Martin. Towards robust semantic role labeling[J]. Comput. Linguist. 2008,34(2):289-310.
[5] Mihai Surdeanu, Lluís Mrquez, Xavier Carreras, and Pere Comas. Combination strategies for semantic role labeling. J. Artif. Intell. Res. (JAIR)[J]. 2007,29:105-151.
[6] 于江德,樊孝忠,龐文博,余正濤. 基于條件隨機場的語義角色標注[J]. 東南大學學報, 2007, 23(3):361-364.
[7] Wenliang Chen, Yujie Zhang, and Hitoshi Isahara. An empirical study of chinese chunking[C]//Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions. Sydney, Australia:2006: 97-104.
[8] Taku Kudo and Yuji Matsumoto. Use of support vector learning for chunk identification[C] //Proceedings of the 2nd workshop on Learning language in logic and the 4th conference on Computational natural language learning. Morristown, NJ, USA.:2000: 142-144.
[9] Taku Kudo and Yuji Matsumoto.Chunking with support vector machines. [C]//NAACL ’01: Second meeting of the North American Chapter of the Association for Computational Linguistics on Language technologies 2001, Morristown, NJ, USA:2001:1-8.
[10] 劉懷軍,車萬翔,劉挺.中文語義角色標注的特征工程[J].中文信息學報, 2007,21(1):79-84.