王步康,王紅玲,袁曉虹,周國棟
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006;江蘇省計算機信息處理技術重點實驗室,江蘇 蘇州 215006)
當前根據(jù)采用的句法分析結果,自動語義角色標注(Semantic Role Labeling, SRL)可分為:基于短語結構句法分析的語義角色標注和基于依存結構句法分析的語義角色標注。針對前者的研究已較為成熟,并取得了很好的性能,然而伴隨此方法的發(fā)展帶來的瓶頸問題也日漸突出,如局部模型的機器學習方法很難有更大進展,語料的稀疏問題嚴重,更有效的特征難以抽取等等,導致了性能無法進一步提高。因此近兩年來基于依存句法的語義角色標注開始受到重視,尤其是CoNLL2008 shared task[1]和CoNLL2009 shared task[2]都將基于依存關系的SRL作為評測主題,推進了基于依存句法的語義角色標注的發(fā)展。
依存結構句法分析相比于短語結構句法分析,它表達的句法結構是單詞與單詞之間的依賴關系。從理論上分析,依存句法中的句法—語義接口更簡單、更直觀,并提供了更透明的謂詞—論元關系表達。因此在基于短語結構句法分析的語義角色標注系統(tǒng)遭遇到發(fā)展瓶頸后,研究基于依存結構句法分析的語義角色標注更具有現(xiàn)實意義。
本文采用英文語義角色標注的研究方法,使用中文依存句法分析,構建了一個中文語義角色標注系統(tǒng)。文章第2部分簡述了基于依存關系的SRL的相關工作。第3部分介紹了基于依存句法的中文語義角色標注系統(tǒng),重點描述構建系統(tǒng)的各個步驟,基礎特征和擴展特征。第4部分給出了各個擴展特征的表現(xiàn),并對實驗結果進行了分析和比較。最后第5部分對本文進行了總結,并對后期工作進行了展望。
和基于短語結構句法分析的SRL相比,基于依存分析的SRL研究相對較少。在英文方面,Hacioglu等[3]首次采用基于依存分析的方法來實現(xiàn)語義角色標注,所使用的依存樹是由句法樹轉化而來,采用SVM分類器實現(xiàn)了角色的分類,提出了12個特征(依存關系,位置,中心詞,依賴詞等),并且表明謂詞相關信息的重組對性能影響很大。最終在基于手工依存分析語料庫Depbank和CoNLL2004 shared task語料庫上的F1值分別為84.6%和79.8%。而最新的基于依存關系的SRL研究出現(xiàn)在CoNLL2008評測中,具有代表性的工作是Johansson等[4-5]的研究,在文中詳細分析比較了兩種SRL系統(tǒng)在PropBank語料上的性能,文章的貢獻在于分別使用基于部分短語的(Segment-Based)和基于依存關系(Dependency-Based)的衡量標準來公平地比較代表當前最好性能的兩類SRL系統(tǒng)的性能。他們實現(xiàn)的基于依存句法的SRL系統(tǒng)在上述兩項衡量標準下F1值分別為77.97%(WSJ+Brown)和84.29%(CoNLL2008測試集)。
到目前為止,還未有文獻報告基于依存句法分析的中文語義角色標注研究。正在進行的CoNLL 2009 shared task是在CoNLL2008 shared task的基礎上,進行包括中文在內(nèi)的多種語言的依存句法和語義的聯(lián)合分析,最新結果顯示在中文上使用CoNLL2009評測語料達到的最好SRL系統(tǒng)性能是78.60%(Labeled F1值)。在基于短語結構句法分析的SRL方面,代表工作是Xue等[6-7]的研究,其主要工作是比較和分析了中文和英文語義角色標注的性能以及影響因素,在Chinese Propbank上的實驗結果表明:基于手工標注句法樹的SRL系統(tǒng)F1值可達91.3%;基于單一自動標注句法樹,F(xiàn)1值大幅降為61.3%。這說明基于手工分析的中文語義角色標注的系統(tǒng)結果基本與英文的相當,甚至稍微高出一點;但對于自動產(chǎn)生的句法樹,結果要比英文的差得多。
盡管目前針對中文的依存句法分析研究很多,但是尚未出現(xiàn)通用的大規(guī)模標注的中文依存關系語料庫。當然也沒有大規(guī)模標注的基于依存關系的語義角色標注語料。因此要進行基于依存句法的自動語義分析研究,首先要解決語料庫的來源問題。
為了便于評測比較,系統(tǒng)使用了兩種語料資源。一種是轉換語料(下文又稱CTB轉換語料),獲得方法類似于CoNLL2008 shared task的語料獲得,基本語料庫是Chinese TreeBank5.0,標注信息來源于PropBank1.0,并且只針對動詞性謂詞標注語義角色。借助MaltParser*http://w3.msi.vxu.se/~nivre/research/MaltParser.html工具將基于短語結構的句法樹庫轉換成依存關系樹庫,并使用Penn2Malt[1]工具將語料轉換成CoNLL2008標注的格式。實驗選取CTB中的前760篇文檔(chtb_001.fid到chtb_931.fid),共10 364個句子,其中(chtb_100.fid到chtb_931.fid)中9 127 個句子作為訓練語料,共有謂詞32 387個;(chtb_001.fid到chtb_099.fid)中共 1 238個句子作為測試語料,共有謂詞4 793個。
圖1 中文依存關系樹實例圖
另一種語料是CoNLL2009 shared task提供的,其中訓練集有句子22 277句,謂詞102 813個,使用開發(fā)集*由于CoNLL2009 shared task提供的測試集還沒有公布Gold標注,所以我們用開發(fā)集充當測試集。作為測試語料,共有句子1 762句,含有的謂詞數(shù)為8 103個。該語料是CTB6.0的一個子集,語義信息則源自Chinese PropBank 2.0。
下面給出了轉換語料中的一個例子,圖1給出了例句的中文依存關系樹圖,圖中ARG表示謂詞角色,W表示單詞,R表示依存關系,G表示詞性。
例:中國進出口銀行與中國銀行加強(.01)合作。
在例句中只有一個謂詞:加強,其中(.01)表示這個謂詞的詞義,該詞義是Chinese PropBank中謂詞“加強”在框架語義中對應的詞義項編號。
本文構建的基于依存關系的中文SRL系統(tǒng)其標注過程分成了四個部分(如圖2所示):謂詞標注(Predicate Labeling)、預處理(Pre-Processing),語義角色識別(Semantic Role Identification)、語義角色分類(Semantic Role Classification)。
圖2 系統(tǒng)標注過程
其中謂詞標注是識別出句子中的動詞性謂語,并為它們分配詞義。在傳統(tǒng)的基于短語結構句法分析的SRL系統(tǒng)中通常不執(zhí)行這步,默認謂詞已識別正確。由于CoNLL2008要求進行謂詞標注,所以在此我們也對系統(tǒng)在自動謂詞標注下進行實驗。所采用的自動謂詞標注使用基于統(tǒng)計的方法實現(xiàn)[8],在CTB轉換語料和CoNLL2009語料上的謂詞識別的F1的值分別為96.95%和95.64%。另外為方便比較,在本系統(tǒng)中只采用謂詞識別的結果,不為它們分配詞義。
在預處理階段主要對依存關系樹進行剪枝,刪除依存樹上最不可能承擔謂詞角色的關系節(jié)點,以消除不必要的結構化信息,有效地減少輸入到分類器中的實例個數(shù)。
此前Hacioglu[3]提出了一種簡單的剪枝算法,其方法是:在依存樹中,保留與謂詞具有以下關系的節(jié)點:父親,孩子,孫子,兄弟,兄弟的孩子,兄弟的孫子節(jié)點,其他節(jié)點都被過濾掉。該算法主要針對英文句法樹且謂詞為動詞性謂語。
在仔細分析中文依存關系樹結構的基礎上,我們擴展了Hacioglu剪枝方法,增加了與謂詞具有以下關系的節(jié)點,即保留了謂詞節(jié)點的祖父節(jié)點、祖父的孩子節(jié)點,祖父的父親節(jié)點等。系統(tǒng)使用該改進的Hacioglu算法后,經(jīng)過統(tǒng)計進入分類器的訓練實例大大減少(減少約76.9%),同時誤剪率不足1%。
特征一直是決定語義角色標注系統(tǒng)性能的重要因素。本文在角色識別和角色分類中使用相同的特征集。類似于基于短語結構句法分析的系統(tǒng),參照Gildea[9]等選取的7個基本特征(謂詞、句法類型、子類框架、分析樹路徑、位置、語態(tài)和中心詞),我們選取以下特征作為系統(tǒng)基礎特征。假設上述例句對應依存樹(圖1)中當前節(jié)點為“W=銀行”,當前謂詞為“加強”,現(xiàn)將各特征列舉如下:
謂詞原型:當前謂詞的原型。(加強)
謂詞詞性:當前謂詞的詞性。(VV)
子類框架:當前謂詞節(jié)點的所有孩子節(jié)點的依存關系鏈。(ROOT-SBJ-COMP)
路徑:句法樹上當前節(jié)點到謂詞的路徑,即途經(jīng)節(jié)點的依存關系。(SBJ->ROOT)
位置:當前節(jié)點的中心詞相對于當前謂詞的前后順序。(before)
依存關系:當前節(jié)點所對應的依存關系。(SBJ)
中心詞:當前節(jié)點的父親節(jié)點所對應的單詞本身。(加強)
借鑒基于英文依存關系的語義角色標注系統(tǒng),我們在系統(tǒng)上加入了以下擴展特征。
假設上述例句對應依存樹(圖1)中當前節(jié)點為“W=加強”,當前謂詞為“加強”,現(xiàn)將各特征列舉如下,特征如果不存在使用NULL代替。
謂詞的孩子的依存關系鏈:當前謂詞的所有孩子節(jié)點的依存關系組成的鏈。(SBJ-COMP)
謂詞的孩子的詞性鏈:當前謂詞的所有孩子節(jié)點的詞性組成的鏈。(NN-NN)
謂詞的兄弟的依存關系鏈:當前謂詞的所有兄弟的依存關系組成的鏈。(NULL)
謂詞的兄弟的詞性鏈:當前謂詞的所有兄弟節(jié)點的詞性組成的鏈。(NULL)
依賴詞:指當前節(jié)點本身單詞。(加強)
中心詞詞性:中心詞的詞性。(NULL)
依賴詞的詞性:當前節(jié)點單詞的詞性。(VV)
家族成員:剪枝后剩下的節(jié)點,幾乎都是與謂詞在同一個家族樹中,此特征說明了在此家族樹中,當前關系節(jié)點與當前謂詞的家族關系,如:father,child,siblings等等。(myself)
謂詞+中心詞:當前謂詞原型+中心詞。(加強+NULL)
當前關系+中心詞:當前節(jié)點依存關系+中心詞。(ROOT+NULL)
謂詞原型+路徑:當前謂詞原型+路徑。(加強+ROOT)
依存關系+依存關系前一個詞:當前依存關系的類型+依存關系前一個詞。(ROOT+銀行)
依存關系+依存關系后一個詞:當前依存關系的類型+依存關系后一個詞。(ROOT+合作)
實驗采用最大熵分類器[10],其原型是開源軟件maxent-2.4.0*http://maxent.sourceforge.net/,并在此基礎上進行了相關的修改,使輸出符合系統(tǒng)的要求,參數(shù)cutoff和interation分別設為2和100。評測時采用CoNLL2008 shared task提供的評測程序eval08.pl[1],仍使用Precision、Recall和Labeled F1對最終系統(tǒng)的性能進行評價。
實驗時我們首先建立一個基于基礎特征的系統(tǒng),稱為基礎系統(tǒng);然后把擴展特征單獨加入基礎系統(tǒng)中,得到每個特征的表現(xiàn),如表1所示。
表1 每個擴展特征和組合特征單獨加在基礎系統(tǒng)上的結果
從表1中可以看出,與依存關系有關的特征(依賴詞和依存關系)對系統(tǒng)性能提高較明顯。特別加入依賴詞特征后,系統(tǒng)在兩種語料上的性能分別提高了5.74%和1.64%,效果最明顯。特征“依存關系+依存關系前一個詞”和“依存關系+依存關系后一個詞”表達了當前依存關系的上下文特征,在分別加入這兩個特征后,系統(tǒng)性能也有提高。這首先說明依存關系對系統(tǒng)性能貢獻很大,反過來也說明系統(tǒng)對依存關系的依賴較強,系統(tǒng)受到依存句法性能的影響。另外從Wang等[11]的研究中可發(fā)現(xiàn),在基于短語結構句法分析的SRL系統(tǒng)中,中心詞特征對系統(tǒng)性能貢獻很大。而實際上,依存句法中的依賴詞就相當于短語結構句法分析中的成分中心詞,因此它們的作用也是類似的,我們的實驗也證明了這一點。而我們在此提出的中心詞概念與前者的中心詞概念有所不同,與之有關的特征也基本未起作用。
與謂詞孩子和兄弟節(jié)點有關的特征(謂詞孩子的詞性鏈、依存關系鏈和兄弟節(jié)點的詞性鏈、依存關系鏈等)加入系統(tǒng)后,系統(tǒng)性能略有下降。使用這些特征的本意是想表達與謂詞相關的上下文信息,但由于依存關系本身已包含了一些這樣的信息,因此這些特征的作用不大。
在基礎系統(tǒng)上添加了全部擴展特征以后,得到了系統(tǒng)在兩種語料上的性能,結果如表2所示。為評測謂詞標注對系統(tǒng)性能的影響,我們分別在標準謂詞和自動識別謂詞上進行了實驗。
表2 系統(tǒng)結果
從表2中可以明顯看出系統(tǒng)在使用標準謂詞的兩個語料上獲得的性能有所差別,F(xiàn)1值分別為 84.30% 和81.68%,系統(tǒng)在CTB轉換語料上的性能比CoNLL2009語料上高了2.62%。同時系統(tǒng)在自動識別謂詞上的性能都有所降低,說明謂詞標注也是影響系統(tǒng)性能的一個重要因素。相比較而言,轉換語料上由謂詞標注帶來的性能降低比較明顯,準確率和召回率均降低,造成整個F1值下降了3.28%;而在CoNLL2009語料上,準確率降了2.26%,召回率反而有所上升,因此整個系統(tǒng)的F1值下降不明顯,這說明在CoNLL2009語料上系統(tǒng)受謂詞標注性能的影響較小,出現(xiàn)這種情況原因可能在于標注語料庫(CTB5.0與CTB6.0,CPB1.0與CPB2.0)之間的差別,詳細原因有待進一步分析。但總的來說,由于CoNLL2009的語料數(shù)據(jù)量大,因此結果更加可信。
相比于CoNLL2009公布的中文SRL的系統(tǒng)性能(使用主辦方提供的測試集得到F1值為78.60%),我們的系統(tǒng)在基于自動識別謂詞的CoNLL2009中文開發(fā)集語料上的性能與之基本相當。另外相比于基于短語結構句法分析的中文SRL系統(tǒng)(手工標注,標準謂詞,F(xiàn)1值為92.75%),兩者的性能差距很大,這與中文依存句法分析結果不完善有關。因此現(xiàn)階段,中文依存句法分析性能是影響中文依存語義分析的關鍵因素。
相比于英文基于標準依存分析和標準謂詞標注的SRL系統(tǒng),如Johansson等[5]其F1值為85.52%,中文的SRL系統(tǒng)性能略微有所下降。其中主要的原因可能在于中英文標準依存關系的來源。由于目前兩種語言都沒有大規(guī)模手工標注的依存關系語料庫,因此本文中所指的中英文標準依存關系,均由短語結構句法分析轉換得來。對于英文的轉換,CoNLL2008的主辦方經(jīng)過了精心處理,因此轉換結果較為可靠;而對于中文的轉換,我們的轉換語料只是使用了MaltParser工具進行,該工具是一個針對多語言的句法分析器,因此對中文的許多語言現(xiàn)象不可能做很多的特殊處理,因此轉換結果存在一定的誤差,也就影響了后續(xù)的SRL性能。
本文使用英文語義角色標注的方法,實現(xiàn)了一個基于依存句法的中文語義角色標注系統(tǒng)。相比于傳統(tǒng)的基于短語結構句法分析的中文語義角色標注,該系統(tǒng)使用依存句法分析結果構建相應句法分析樹,并在此樹上抽取特征,進行語義角色的識別和分類。由于這方面的研究還未開展,同時也缺乏可靠的手工標注的語料庫和統(tǒng)一的評價標準,因此無
法詳細評價系統(tǒng)性能,在此我們只是報告一個初步的實驗結果,起到拋磚引玉的作用。
后續(xù)的工作中,我們將在這個方向展開進一步的研究,包括如何選取更為豐富、有效的特征提高系統(tǒng)性能,使用自動依存句法分析進行中文SRL,以及如何進行句法分析和語義分析聯(lián)合學習等內(nèi)容。
[1] CoNLL 2008,http://www.yr-bcn.es/conll2008/, [EB].
[2] CoNLL 2009,http://ufal.mff.cuni.cz/conll2009-st/,[EB].
[3] Kadri Hacioglu. Semantic Role Labeling Using Dependency Trees[C]//Proc.of CoNLL-2004,Boston,MA,US,2004.
[4] Johansson R. and Nugues P.. Dependency-based semantic role labeling of PropBank[C]//Proceedings of EMNLP-2008. 2008.
[5] Johansson R. and Nugues P.Dependency-based syn-
tactic-semantic analysis with PropBank and NomBank[C]//Proceedings of CoNLL-2008.23-24 Aug. 2008.
[6] Xue Nianwen,Palmer M .Automatic semantic role labeling for Chinese verbs[C]//Proc. of IJCAI-2005,2005.
[7] Xue Nianwen, Palmer M. Calibrating features for semantic role labeling[C]//Proc. of EMNLP-2004,2004.
[8] 袁曉虹,王步康,王紅玲,周國棟:基于依存關系的中文謂詞標注研究[C]//全國第十屆計算語言學學術會議(CNCCL-2009),煙臺,2009.7.
[9] Gildea D,Jurafsky D. Automatic labeling of semantic roles[J] .Computational Linguistics,2002,28(3):245-288.
[10] 劉挺,車萬翔,李生.基于最大熵分類器的語義角色標注[J].軟件學報,2007,18(3):565-573.
[11] Wang Hongling,Zhou Guodong,Zhu Qiaoming and Qian Peide.Exploring various features in semantic role labeling[C]//Proceedings of ALPIT’2008. 2008:23-25 .