李業(yè)剛,孫福振,李鑒柏,呂新宇
(1.山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東淄博255091;2.北京理工大學(xué)計(jì)算機(jī)學(xué)院,北京100081)
語(yǔ)義角色標(biāo)注就是對(duì)于給定句子中的每個(gè)謂詞(動(dòng)詞、名詞等)分析出其在句中的相應(yīng)語(yǔ)義成分,并作相應(yīng)的語(yǔ)義標(biāo)記,如施事、受事、工具或附加語(yǔ)等.具體而言,即標(biāo)注句子中的一些成分為給定謂詞的語(yǔ)義角色,這些成分作為此謂詞框架的一部分被賦予一定的語(yǔ)義含義.語(yǔ)義角色標(biāo)注綜合了自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)技術(shù),如分詞、詞性標(biāo)注、句法分析等,因此研究語(yǔ)義角色標(biāo)注也為研究機(jī)器學(xué)習(xí)方法和那些底層的技術(shù)提供了研究平臺(tái).作為自然語(yǔ)言處理的基礎(chǔ)技術(shù),語(yǔ)義角色標(biāo)注在很多應(yīng)用中也發(fā)揮了很大的作用.目前語(yǔ)義角色標(biāo)注已在問(wèn)答系統(tǒng)[1]、信息抽取、信息檢索[4],自動(dòng)文摘[5]、文本蘊(yùn)涵、機(jī)器翻譯[8]等領(lǐng)域成功應(yīng)用.本文擬從語(yǔ)義角色標(biāo)注的語(yǔ)料庫(kù)的資源、預(yù)處理、標(biāo)注單元、標(biāo)注過(guò)程及目前研究存在的問(wèn)題及發(fā)展方向等進(jìn)行了論述.
進(jìn)行自動(dòng)語(yǔ)義角色標(biāo)注,需要規(guī)模大、質(zhì)量高的語(yǔ)料資源的支持.目前,英語(yǔ)較為知名的語(yǔ)義角色標(biāo)注資源為FrameNet[9]、PropBank[10]和Nom-Bank[11].
U.C.Berkeley開(kāi)發(fā)的FrameNet以框架語(yǔ)義為標(biāo)注的理論基礎(chǔ)對(duì)英國(guó)國(guó)家語(yǔ)料庫(kù)進(jìn)行標(biāo)注.它試圖描述每個(gè)謂詞(動(dòng)詞、部分名詞以及形容詞)的語(yǔ)義框架,并試圖描述這些框架之間的關(guān)系.Prop-Bank是賓夕法尼亞大學(xué)在Penn TreeBank句法分析語(yǔ)料庫(kù)的基礎(chǔ)上標(biāo)注的語(yǔ)義角色標(biāo)注語(yǔ)料庫(kù).PropBank只對(duì)動(dòng)詞(不包括系動(dòng)詞)進(jìn)行標(biāo)注,相應(yīng)的被稱作謂語(yǔ)動(dòng)詞.而且只包含20多個(gè)語(yǔ)義角色.其中核心的語(yǔ)義角色為Arg0~5六種,Arg0通常表示動(dòng)作的施事,Arg1通常表示動(dòng)作的影響等,Arg2~5根據(jù)謂語(yǔ)動(dòng)詞不同會(huì)有不同的語(yǔ)義含義.與FrameNet相比,PropBank基于Penn TreeBank手工標(biāo)注的句法分析結(jié)果進(jìn)行標(biāo)注,因此標(biāo)注的結(jié)果幾乎不受句法分析錯(cuò)誤的影響,準(zhǔn)確率較高.它幾乎對(duì)Penn TreeBank中的每個(gè)動(dòng)詞及其語(yǔ)義角色進(jìn)行了標(biāo)注,因此覆蓋范圍更廣,可學(xué)習(xí)性更強(qiáng).紐約大學(xué)的研究人員開(kāi)發(fā)的NomBank是為了彌補(bǔ)PropBank僅以動(dòng)詞作為謂詞,存在標(biāo)注過(guò)于粗略的缺點(diǎn).NomBank標(biāo)注了Penn TreeBank中的名詞性的謂詞及其語(yǔ)義角色.另外NomBank容許角色出現(xiàn)相互覆蓋的情況,這也是與PropBank不同的.
中文語(yǔ)義角色標(biāo)注的研究主要使用三種資源:Chinese Proposition Bank(CPB),Chinese Nombank[12],Chinese FrameNet[13].Chinese PropBank(CPB)同英文PropBank基本類似,是Upenn基于Penn Chinese Treebank(CTB)標(biāo)注的漢語(yǔ)淺層語(yǔ)義標(biāo)注資源,在Penn Chinese Treebank句法分析樹(shù)的對(duì)應(yīng)句法成分中加入了語(yǔ)義信息.Chinese Nombank把傳統(tǒng)的英文Proposition Bank和Nombank的標(biāo)注框架,擴(kuò)展到對(duì)中文名詞性謂詞的標(biāo)注.山西大學(xué)構(gòu)建的Chinese FrameNet是基于框架語(yǔ)義理論的,是一種FrameNet風(fēng)格的中文詞典.它描述了詞匯單元以及參與者框架元素之間的關(guān)系,也包含了框架元素的詳細(xì)句法信息.
預(yù)處理主要是對(duì)原始句子進(jìn)行詞匯、句法分析和謂詞識(shí)別等.謂詞識(shí)別是識(shí)別出句子中的動(dòng)詞性謂語(yǔ),并為它們分配詞義.在傳統(tǒng)的基于短語(yǔ)結(jié)構(gòu)句法分析的語(yǔ)義角色標(biāo)注(SRL)系統(tǒng)中通常不執(zhí)行這步,默認(rèn)謂詞已識(shí)別正確.CoNLL2008要求進(jìn)行謂詞標(biāo)注,謂詞識(shí)別分為兩步:謂詞標(biāo)注和詞義識(shí)別.謂詞標(biāo)注的任務(wù)是標(biāo)注出句子中的謂詞;詞義識(shí)別在前者所識(shí)別的謂詞基礎(chǔ)上進(jìn)行詞義的分配.這兩步都可以看成是分類問(wèn)題,前者是一個(gè)二元分類問(wèn)題,詞義識(shí)別則是多元分類問(wèn)題,因此在實(shí)現(xiàn)時(shí)可采用各種分類器進(jìn)行分類.在特征向量的選取上,采用了同語(yǔ)義角色標(biāo)注類似的特征.因此預(yù)處理的關(guān)鍵就變成了分類器的選擇和特征向量的選取的問(wèn)題.
根據(jù)對(duì)句子的不同標(biāo)注情況,語(yǔ)義角色標(biāo)注系統(tǒng)自動(dòng)標(biāo)注的基本單元可以是句法成分、組塊、短語(yǔ)、詞等.詞標(biāo)注單元主要用于基于依存句法分析語(yǔ)義角色標(biāo)注系統(tǒng),短語(yǔ)主要用于基于Chunk的語(yǔ)義角色標(biāo)注系統(tǒng),句法成分主要用于基于短語(yǔ)結(jié)構(gòu)句法分析的語(yǔ)義角色標(biāo)注系統(tǒng).目前,從整體效果上看,以句法成分為標(biāo)注單元的語(yǔ)義角色標(biāo)注要優(yōu)于以詞和短語(yǔ)為標(biāo)注單元的方法.
文獻(xiàn)[14] 以句法成分為基本標(biāo)注單元的,這種策略在短語(yǔ)結(jié)構(gòu)句法分析比較成熟的語(yǔ)言(如英文等)上表現(xiàn)得較好.然而,在其它語(yǔ)言上,很難自動(dòng)的獲得這種深層句法分析的結(jié)果,而且現(xiàn)有的句法分析系統(tǒng),在通用領(lǐng)域表現(xiàn)欠佳.為此有人試圖將語(yǔ)義角色標(biāo)注建立在淺層句法分析的基礎(chǔ)之上,其中文獻(xiàn)[15] 中文語(yǔ)義角色標(biāo)注F1值為74%.畢竟淺層句法分析的魯棒性要好于深層句法分析.詞是比短語(yǔ)更細(xì)的語(yǔ)言單位,有些語(yǔ)義角色標(biāo)注系統(tǒng)也使用詞作為標(biāo)注的基本單位,然而效果并不如基于短語(yǔ)的和基于句法成分的理想[16].以上的方法都是建立在短語(yǔ)結(jié)構(gòu)句法分析方法基礎(chǔ)之上的,Hacioglu使用依存句法分析結(jié)果進(jìn)行語(yǔ)義角色標(biāo)注[17],也取得了可以與基于短語(yǔ)結(jié)構(gòu)句法分析的相比較的結(jié)果.我們可以直接使用依存句法分析器獲得依存句法分析的結(jié)果,也可以轉(zhuǎn)化短語(yǔ)結(jié)構(gòu)句法分析的結(jié)果為依存句法分析結(jié)果.與基于短語(yǔ)結(jié)構(gòu)句法分析的方法相比,基于依存句法分析不但可以利用短語(yǔ)之間的依存特征,而且只需要學(xué)習(xí)和預(yù)測(cè)與謂詞有依存關(guān)系的短語(yǔ)為某種語(yǔ)義角色即可,因此也加快了標(biāo)注的速度.
基于短語(yǔ)結(jié)構(gòu)的句法分析是句法分析中最為成熟的技術(shù),性能和結(jié)果各方面都比較可靠、穩(wěn)定.這種策略在句法分析比較成熟的語(yǔ)言(如英文等)上表現(xiàn)得較好.然而句法分析效果并不完美,所以不可能每一個(gè)角色都能夠在句法分析樹(shù)中找到與之匹配的句法成分.據(jù)統(tǒng)計(jì)在PropBank中,基于手工標(biāo)注的句法分析樹(shù)中有4.3%的語(yǔ)義角色找不到句法成分與之相匹配.對(duì)于由Charniak Parser產(chǎn)生的自動(dòng)句法分析樹(shù)約有10.0%的語(yǔ)義角色與句法成分不相匹配.而由Collins Parser產(chǎn)生的自動(dòng)句法分析樹(shù),這一數(shù)值更高,約為12%.在其它語(yǔ)言上,很難自動(dòng)的獲得這種句法分析的結(jié)果,而且現(xiàn)有的句法分析系統(tǒng),在通用領(lǐng)域表現(xiàn)欠佳.為此有研究者試圖將淺層語(yǔ)義分析建立在淺層句法分析的基礎(chǔ)上.
現(xiàn)在絕大多數(shù)的語(yǔ)義角色標(biāo)注系統(tǒng)采用基于短語(yǔ)結(jié)構(gòu)的句法分析,按照對(duì)句法分析的不同依賴程度可分成三類:基于最佳單棵句法樹(shù)的SRL方法、基于最佳n棵句法樹(shù)的SRL方法和基于聯(lián)合學(xué)習(xí)的句法分析和SRL方法.在這些方法中,基于最佳單棵句法樹(shù)的SRL方法是被研究最多的,占主導(dǎo)地位.目前文獻(xiàn)報(bào)告的在單個(gè)自動(dòng)句法樹(shù)上的有劉挺等[18],F(xiàn)1值為77.13%,李軍輝[19]等在CoNLL2005 Shared Task開(kāi)發(fā)集和WSJ測(cè)試集上分別獲得了77.54%和78.75%的F1值,.而在手工句法分析上最好的成績(jī)是Pradhan等[20]報(bào)告的,F(xiàn)1值為89.4%.從上述數(shù)據(jù)可看出,基于手工句法分析的結(jié)果相比于自動(dòng)句法分析的結(jié)果,相差了約12.3%,它們的性能差別主要取決于提供的句法分析的性能.
基于語(yǔ)義組塊分析的語(yǔ)義角色標(biāo)注中,標(biāo)注的流程不再是傳統(tǒng)的句法分析-語(yǔ)義角色識(shí)別-語(yǔ)義角色分類,而是一種簡(jiǎn)化的語(yǔ)義組塊識(shí)別-語(yǔ)義組塊分類流程.這一方法將語(yǔ)義角色標(biāo)注從一個(gè)節(jié)點(diǎn)的分類問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,由于避開(kāi)了句法分析這個(gè)階段,使得語(yǔ)義角色標(biāo)注擺脫了對(duì)句法分析的依賴,從而突破了語(yǔ)法分析器的時(shí)間和性能限制.可以取得較高的準(zhǔn)確率,并且大大節(jié)省了分析的時(shí)間.丁偉偉[21]與Carreras[22]等,Punyakanok[23]等比較發(fā)現(xiàn),在中文語(yǔ)義角色標(biāo)注中基于語(yǔ)義組塊的方法上產(chǎn)生了與基于句法分析的方法可比較的結(jié)果.而英文則不然,主要因?yàn)椋瑥姆治鰷?zhǔn)確率來(lái)看,中文的句法分析器相較于英文遜色許多,錯(cuò)誤的分析對(duì)語(yǔ)義角色標(biāo)注的負(fù)面影響是很大的,這使得使用基于句法分析的方法進(jìn)行語(yǔ)義角色標(biāo)注效果不好.其次,不同于基于語(yǔ)法組塊的方法,語(yǔ)義組塊使組塊分析直接面向語(yǔ)義角色標(biāo)注.語(yǔ)義組塊識(shí)別直接依賴于特定動(dòng)詞,有利于充分提取與語(yǔ)義角色標(biāo)注相關(guān)的特征,這使得基于語(yǔ)義組塊方法避免了傳統(tǒng)的基于語(yǔ)法組塊方法中由于句法組塊分析和語(yǔ)義角色標(biāo)注脫節(jié)(例如組塊邊界和語(yǔ)義角色邊界不一致)帶來(lái)的弊端,提高了標(biāo)注的準(zhǔn)確率.
依存句法分析表達(dá)的句法結(jié)構(gòu)是單詞與單詞之間的依賴關(guān)系圖.從理論上分析,依存句法中的句法-語(yǔ)義接口更簡(jiǎn)單、更直觀,并提供了更透明的謂詞-論元關(guān)系表達(dá).因此在基于短語(yǔ)結(jié)構(gòu)句法分析的語(yǔ)義角色標(biāo)注系統(tǒng)遭遇到發(fā)展瓶頸,如局部模型的機(jī)器學(xué)習(xí)方法很難有更大進(jìn)展,數(shù)據(jù)的稀疏問(wèn)題嚴(yán)重,更有效的特征難以抽取等,導(dǎo)致性能無(wú)法進(jìn)一步提高.因此研究者開(kāi)始探討在另一種句法分析上進(jìn)行語(yǔ)義角色標(biāo)注——基于依存關(guān)系的語(yǔ)義角色標(biāo)注.
基于依存分析的SRL研究相對(duì)較少,Hacioglu等[24]首次采用基于依存分析的方法來(lái)實(shí)現(xiàn)語(yǔ)義角色標(biāo)注,所使用的依存樹(shù)是由句法樹(shù)轉(zhuǎn)化而來(lái),采用SVM分類器實(shí)現(xiàn)了角色的分類,提出了12個(gè)特征(依存關(guān)系,位置,中心詞,依賴詞等),并且表明謂詞相關(guān)信息的重組對(duì)性能影響很大.最終在基于手工依存分析語(yǔ)料庫(kù)Depbank和CoNLL2004shared task語(yǔ)料庫(kù)上的F1值分別為84.6和79.8.這表明雖然使用的信息比基于句法分析SRL少,但取得的結(jié)果相似.Pradhan等[25]使用基于規(guī)則的依存分析結(jié)果進(jìn)行SRL實(shí)驗(yàn),取得的結(jié)果比使用最新的基于統(tǒng)計(jì)短語(yǔ)結(jié)構(gòu)句法分析的性能要差很多,在WSJSection23上的F值從78.4下降到了47.2.類似的,Swanson和Gordon[26]報(bào)告:從基于規(guī)則的依存分析中抽取的句法樹(shù)特征不如從短語(yǔ)結(jié)構(gòu)句法分析上抽取的相同特征表現(xiàn)穩(wěn)定.而最新的基于依存關(guān)系的SRL研究出現(xiàn)在CoNLL2008評(píng)測(cè)中,代表作是Johansson等的工作.在Johansson等一文中,詳細(xì)比較了基于短語(yǔ)結(jié)構(gòu)句法分析和基于依存結(jié)構(gòu)句法分析的SRL在FrameNet語(yǔ)料庫(kù)上的性能,結(jié)果表明使用現(xiàn)代基于統(tǒng)計(jì)的依存句法分析,兩者的性能幾乎是相當(dāng)?shù)模恼逻€指出早期基于依存關(guān)系SRL的性能較差的原因是依存句法分析的準(zhǔn)確率較低.他們的實(shí)驗(yàn)還表明,依存關(guān)系表示中的語(yǔ)法功能信息影響了語(yǔ)義角色分類器的訓(xùn)練;而使用依存關(guān)系訓(xùn)練得到的角色分類器對(duì)因跨領(lǐng)域而引起的詞匯問(wèn)題更具復(fù)原力.在Johansson等的另一篇文章[28]中詳細(xì)分析比較了兩種SRL系統(tǒng)在Prop-Bank語(yǔ)料上的性能.這篇文章的貢獻(xiàn)在于分別使用基于部分短語(yǔ)的(segment-based)和基于依存關(guān)系(dependency-based)的衡量標(biāo)準(zhǔn)來(lái)公平的比較代表當(dāng)前最好性能的兩類SRL系統(tǒng)的性能.他們實(shí)現(xiàn)的基于依存句法的SRL系統(tǒng)在上述兩項(xiàng)衡量標(biāo)準(zhǔn)下F值分別為77.97(WSJ+Brown)和84.29(CoNLL-2008測(cè)試集).實(shí)驗(yàn)結(jié)果表明,基于依存分析的SRL系統(tǒng)更偏向于查找角色頭而不是角色的文字片斷.這樣的特性究竟是優(yōu)點(diǎn)還是缺點(diǎn)取決于具體的應(yīng)用,如對(duì)于使用模板填充類的系統(tǒng)可能需要完整的角色;而對(duì)于使用語(yǔ)義角色標(biāo)注表示的文本分類則可能僅需要角色的頭.同基于短語(yǔ)結(jié)構(gòu)句法分析的語(yǔ)義角色標(biāo)注類似,基于依存關(guān)系的語(yǔ)義角色標(biāo)注步驟一般可分為三步:謂詞識(shí)別、角色識(shí)別和角色分類.當(dāng)然還可以包括后處理,這里的后處理主要是進(jìn)行全局推導(dǎo).
進(jìn)行語(yǔ)義角色標(biāo)注首先需要進(jìn)行句法分析,并在句法分析的基礎(chǔ)上進(jìn)行謂詞識(shí)別.所謂謂詞識(shí)別就是識(shí)別出句子中的謂語(yǔ)動(dòng)詞或名詞,并為該謂詞標(biāo)注詞義.目前大部分的語(yǔ)義角色標(biāo)注系統(tǒng)并不進(jìn)行謂詞識(shí)別,這是因?yàn)榇蟛糠窒到y(tǒng)默認(rèn)使用了語(yǔ)料庫(kù)中人工標(biāo)注的謂詞及其詞義.但謂詞識(shí)別也是語(yǔ)義角色標(biāo)注中的重要一步,它的性能直接影響到系統(tǒng)性能.除去對(duì)原始句子進(jìn)行詞匯、句法分析和謂詞識(shí)別等預(yù)處理外,目前大部分語(yǔ)義角色標(biāo)注系統(tǒng)的標(biāo)注過(guò)程采用四個(gè)步驟完成:剪枝、識(shí)別、分類和后處理.國(guó)內(nèi)外很多學(xué)者對(duì)每個(gè)過(guò)程的研究也非常豐富,對(duì)于識(shí)別、分類階段的特征挑選方面也進(jìn)行了細(xì)致的研究.當(dāng)然,并非所有的系統(tǒng)都包括以上4個(gè)步驟,特別是前兩個(gè)步驟,其主要目的是提高處理效率,但隨之帶來(lái)的是召回率的下降,即損失了一些本應(yīng)是語(yǔ)義角色的標(biāo)注單元.因此,在某些系統(tǒng)中,去除了剪枝步驟.還有些系統(tǒng)合并了識(shí)別和分類步驟[29],直接對(duì)語(yǔ)義角色進(jìn)行分類,也就是將非語(yǔ)義角色的標(biāo)注單元也看成是一類.
以句法成分為標(biāo)注單元的語(yǔ)義角色標(biāo)注,首先需要一種簡(jiǎn)單的剪枝預(yù)處理方法來(lái)過(guò)濾句法分析樹(shù)中一些不可能成為語(yǔ)義角色的句法成分,保留盡量少的候選句法成分,以提高準(zhǔn)確性.劉挺等[18]采用識(shí)別分類一步到位的方法對(duì)與謂詞相關(guān)的全部句法成分進(jìn)行訓(xùn)練和預(yù)測(cè),只裁掉了句法類型為詞性的句法成分.但使得AM-MOD和AM-NEG等角色對(duì)句法樹(shù)上的句法成分匹配率很低,還要進(jìn)行后處理.使用最廣泛的剪枝算法是由Xue等[12]提出的.其基本思想是選取當(dāng)前謂詞結(jié)點(diǎn)和其祖先的兄弟結(jié)點(diǎn)作為候選角色,輸入到角色識(shí)別階段,其中如果當(dāng)前結(jié)點(diǎn)是PP,則同時(shí)收集其直接孩子結(jié)點(diǎn).
王紅玲等[30]提出了基于中心詞的剪枝算法,在預(yù)處理階段,針對(duì)句法分析樹(shù)中句法成分與語(yǔ)義角色不一一匹配的問(wèn)題,在Xue[12]剪枝算法的基礎(chǔ)上改進(jìn),提出了基于中心詞的剪枝算法.該算法除選取當(dāng)前謂詞結(jié)點(diǎn)和其祖先的兄弟結(jié)點(diǎn)作為候選角色外,也選取這些兄弟結(jié)點(diǎn)的孩子結(jié)點(diǎn),如孩子結(jié)點(diǎn)與其父親結(jié)點(diǎn)具有相同中心詞時(shí),舍去孩子結(jié)點(diǎn)和其兄弟結(jié)點(diǎn).該算法提高了系統(tǒng)的召回率(1.1%).
標(biāo)注方法語(yǔ)義角色的識(shí)別和分類步驟尤為重要,它們可以作為分類問(wèn)題處理.也就是說(shuō),人們可以逐一判斷一個(gè)標(biāo)注單元是否是某一動(dòng)詞的語(yǔ)義角色,更進(jìn)一步的,可以預(yù)測(cè)其屬于何種具體的語(yǔ)義角色.最初人們使用基于規(guī)則的方法來(lái)解決分類問(wèn)題,但是,此方法需要專家構(gòu)筑大規(guī)模的知識(shí)庫(kù),這不但需要有專業(yè)技能的專家,也需要付出大量勞動(dòng).同時(shí),隨著知識(shí)庫(kù)的增加,矛盾和沖突的規(guī)則也隨之產(chǎn)生.為了克服知識(shí)庫(kù)方法的缺點(diǎn),人們后來(lái)使用機(jī)器學(xué)習(xí)的方法來(lái)解決此問(wèn)題.該方法的優(yōu)點(diǎn)是不需要有專業(yè)技能的專家書(shū)寫知識(shí)庫(kù),只需要有一定專業(yè)知識(shí)的人對(duì)任意一種語(yǔ)言現(xiàn)象做出適當(dāng)?shù)姆诸惣纯桑缓笠源藶橛?xùn)練數(shù)據(jù),再使用各種學(xué)習(xí)方法構(gòu)造性能卓越的分類器.該方法通常稱為有指導(dǎo)學(xué)習(xí)(Supervised Learning)方法.雖然它能夠較好的解決一些已有大量正確標(biāo)注語(yǔ)料庫(kù)的自然語(yǔ)言處理問(wèn)題,但是通常,我們獲得這種語(yǔ)料庫(kù)的代價(jià)也是昂貴的.為此,人們?cè)噲D使用未標(biāo)注的語(yǔ)料庫(kù)直接進(jìn)行學(xué)習(xí),這種方法被稱作無(wú)指導(dǎo)學(xué)習(xí)(Unsupervised Learning)[31].或者只借助少量標(biāo)注語(yǔ)料,利用大量未標(biāo)注語(yǔ)料的半指導(dǎo)學(xué)習(xí)(Semi-supervised Learning)[32].然而無(wú)論是無(wú)指導(dǎo)學(xué)習(xí),還是半指導(dǎo)學(xué)習(xí),其理論都不甚完備,效果也不如有指導(dǎo)學(xué)習(xí)方法,但是泛化要好得多.
對(duì)于一個(gè)句法成分嵌套在另一個(gè)成分中的情況,如不采取處理系統(tǒng)有可能對(duì)這兩個(gè)成分都進(jìn)行了標(biāo)注.但是,根據(jù)語(yǔ)義角色標(biāo)注的規(guī)范,這是不允許的.因此,最簡(jiǎn)單的做法是在嵌套關(guān)系發(fā)生時(shí),只保留一個(gè)角色.由于最大熵分類器能夠很容易地預(yù)測(cè)每一個(gè)輸出的概率,因此,處理嵌套時(shí)只把嵌套關(guān)系中概率最高的成分標(biāo)注出來(lái).
嵌套關(guān)系的處理也可以放在論元識(shí)別之后、分類之前進(jìn)行.這是因?yàn)槎?xùn)練中樣例大致平衡,準(zhǔn)確率也比較高,同時(shí)對(duì)分類階段引入的錯(cuò)誤也可以降低.Toutanova等[33]采用了這種方法,而且還采用動(dòng)態(tài)規(guī)劃的方法,自底向上地從句法樹(shù)的葉子結(jié)點(diǎn)開(kāi)始到根計(jì)算當(dāng)前句法成分為根形成的不嵌套的子樹(shù)與當(dāng)前句法成分分別為空角色和非空角色的概率和,從而取得不嵌套的論元序列.
王紅玲等[34]提出了基于角色共現(xiàn)概率的去除重復(fù)論元算法,具體思想為:經(jīng)過(guò)分類后,可取得最可能承擔(dān)當(dāng)前句法成分角色的兩個(gè)角色的概率,即具有最高概率的兩個(gè)角色,然后通過(guò)計(jì)算角色的共現(xiàn)概率,來(lái)決定最終的角色.在后處理階段,針對(duì)語(yǔ)義角色標(biāo)注中不允許兩個(gè)嵌套的句法成分同時(shí)承擔(dān)動(dòng)詞的角色的問(wèn)題,提出了基于角色共現(xiàn)概率的去除嵌套關(guān)系的算法,其基本思想是根據(jù)角色共現(xiàn)概率的大小決定保留的角色.針對(duì)謂語(yǔ)動(dòng)詞不會(huì)同時(shí)存在兩個(gè)或兩個(gè)以上的相同的核心角色的問(wèn)題,提出了基于角色共現(xiàn)概率的去除重復(fù)論元的算法,具體思想為:經(jīng)過(guò)分類后,取得最可能承擔(dān)當(dāng)前句法成分角色的兩個(gè)角色的概率,即具有最高概率的兩個(gè)角色,然后通過(guò)計(jì)算角色的共現(xiàn)概率,來(lái)決定最終的角色.實(shí)驗(yàn)結(jié)果表明,角色分類的準(zhǔn)確率普遍提高,而對(duì)召回率的影響很?。@個(gè)現(xiàn)象充分說(shuō)明了后處理對(duì)角色分類是有效的.
語(yǔ)義角色標(biāo)注的性能嚴(yán)重依賴于句法分析的性能,而這個(gè)問(wèn)題在中文的語(yǔ)義角色標(biāo)注中尤其突出;由于很難提出更有效的特征,基于短語(yǔ)結(jié)構(gòu)的語(yǔ)義角色標(biāo)注系統(tǒng)發(fā)展遭遇瓶頸,性能很難進(jìn)一步提高;跨領(lǐng)域分析性能較差等各個(gè)方面.
由于句法分析的錯(cuò)誤,語(yǔ)義分析的性能等原因,獨(dú)立的語(yǔ)義角色標(biāo)注系統(tǒng)很難獲得滿意的分析結(jié)果,因此試圖融合多種語(yǔ)義角色標(biāo)注的結(jié)果可以作為一種嘗試.但要面對(duì)各種融合方法都或多或少的提高了系統(tǒng)的整體性能,當(dāng)然也造成了系統(tǒng)構(gòu)造復(fù)雜,分析效率不高等問(wèn)題.
語(yǔ)義角色標(biāo)注的性能離實(shí)用化還有一定的距離,需要繼續(xù)深入研究.歸納起來(lái),有以下幾個(gè)方面有待進(jìn)一步研究:
1)領(lǐng)域適應(yīng)性問(wèn)題.為了使語(yǔ)義角色標(biāo)注達(dá)到實(shí)用的目的,必須解決領(lǐng)域適應(yīng)性問(wèn)題,也就是說(shuō)解決測(cè)試語(yǔ)料和訓(xùn)練語(yǔ)料屬于不同的領(lǐng)域,性能下降較多的問(wèn)題.研究結(jié)果表明,Brown語(yǔ)料上的評(píng)測(cè)結(jié)果均較之WSJ語(yǔ)料結(jié)果低10%左右.真正解決這個(gè)問(wèn)題還有很遠(yuǎn)的路要走.
2)句法分析和語(yǔ)義分析的聯(lián)合學(xué)習(xí).以往的研究均表明,不管是短語(yǔ)結(jié)構(gòu)句法還是依存結(jié)構(gòu)句法,語(yǔ)義角色標(biāo)注系統(tǒng)的性能都受制于句法分析的性能,這一點(diǎn)在中文上表現(xiàn)尤為突出.實(shí)驗(yàn)結(jié)果表明:在英文中,使用手工標(biāo)注和自動(dòng)標(biāo)注句法分析的SRL系統(tǒng)性能相差10%,而在中文上,這個(gè)值達(dá)到了30%.而進(jìn)行聯(lián)合學(xué)習(xí)是解決這個(gè)問(wèn)題的一個(gè)有效途經(jīng).
3)基于依存句法分析的中文語(yǔ)義角色標(biāo)注的進(jìn)一步研究.這個(gè)研究方向剛剛起步,主要原因是沒(méi)有合適的標(biāo)注語(yǔ)料庫(kù),也沒(méi)有合理的評(píng)測(cè)標(biāo)準(zhǔn).已有研究表明,依存句法分析相比與短語(yǔ)結(jié)構(gòu)的句法分析,含有更多的語(yǔ)義信息.因此該研究方向值得進(jìn)一步深入研究.
[1] Shen D,Lapata M.Using semantic roles to improve question answering[C] //Annie Zaenen,Antal van den Bosch.Proceedings of the 2007Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Edmonton:Association for Computational Linguistics,2007:12-21.
[2] Mihai S,Sanda H,John W.Using predicate-argument structures for information extraction[C] //Erhard W Hinrichs,Dan Roth.Proceedings of the Annual Meeting on Association for Computational Lingustics.Sapporo:Association for Computational Linguistics,2003:8-15.
[3] 于江德,樊孝忠,龐文博.事件信息抽取中語(yǔ)義角色標(biāo)注研究[J] .計(jì)算機(jī)科學(xué).2008,35(3):155–157
[4] Bilotti M W,Ogilvie P,Callan J,et al.Structured retrieval for question answering[C] //Kraaij W,de Vries AP,Clarke CLA,eds.Proceedings of the 30th Annual Int'l ACM SIGIR Conf.on Research and Development in Information Retrieval.New York:ACM,2007,351-358.
[5] 秦兵,劉挺,李生.多文檔自動(dòng)文摘綜述[J] .中文信息學(xué)報(bào),2005,19(6):14-20.
[6] Braz R,Girju R,Punyakanok V,Roth D,et al.An inference model for semantic entailment in natural language[C] //Cristiano Castelfranchi.National Conference on Artificial Intelligence.Virginia:AAAI,2005:1 678-1 679.
[7] 吳曉鋒,宗成慶.基于語(yǔ)義角色標(biāo)注的新聞?lì)I(lǐng)域復(fù)述句識(shí)別方法.中文信息學(xué)報(bào)[J] .2010,24(5):3-8
[8] Jinho D C,Matha P.Transition-based semantic role labeling using predicate argument clustering[C] //Matsumoto,Yuji Mihalcea,Rada.Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Portland:Association for Computational Linguistics,2011:37-45.
[9] Baker C F,F(xiàn)illmore C J,Lowe J B.The berkeley frameNetproject[C] //Salimer M.Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics.Montreal:Association for Computational Linguistics.1998:86-90.
[10] Palmer M,Gildea D,Kingsbury P.The proposition bank:an annotated corpus of semantic roles[J] .Computational Linguistics.2005,31(1):71-106.
[11] Meyers A,Reeves R,Macleod C.The nombank project:an interim report[C] //Susan Dumais,Daniel Marcu,Salim Roukos Proceedings of HLT-NAACL 2004Workshop:Frontiers in Corpus Annotation.Boston:Association for Computational Linguistics,2004:24-31.
[12] Xue N.Annotating the predicate-argument structure of chinese nominalizations[C] //M Gild.Proceedings of the LREC 2006.Genoa:Association for Computational Linguistics,2006:1382 1387.
[13] You L P,Liu K Y.Building chinese framenet database[C] //Mrques K.Conference on Natural Language Processing and Knowledge Engineering(IEEE NLP-KE).NewYork:IEEE,2005:301-306.
[14] Punyakanok V,Roth D,Yih W T.The necessity of syntactic parsing for semantic role labeling[C] //R.Dale.Proceedings of IJCAI-2005.Berlin:Association for Computational Linguistics,2005:1 117-1 123.
[15] 王鑫,孫薇薇,穗志方.基于淺層句法分析的中文語(yǔ)義角色標(biāo)注研究.中文信息學(xué)報(bào)[J] .2011,25(1):116–122
[16] Kwong O Y,Tsou B K.Semantic role tagging for chinese at the lexical level[C] //Robert Dale.Second International Joint Conference on Natural Language Processing.Jeju Island:Association for Computational Linguistics,2005:804-814.
[17] Hacioglu K.Semantic role labeling using dependency trees[C] //COLING'04Proceedings of the 20th international conference on Computational Linguistics.Geneva:Association for Computational Linguistics,2004:1 273-1 281.
[18] 劉挺,車萬(wàn)翔,李生.基于最大熵分類器的語(yǔ)義角色標(biāo)注[J] .軟件學(xué)報(bào),2007,18(3):565-573.
[19] 李軍輝,王紅玲,周國(guó)棟,等.語(yǔ)義角色標(biāo)注中句法特征的研究.中文信息學(xué)報(bào)[J] .2009,23(6):11-18
[20] Pradhan S,Hacioglu K,Krugler V,et al.Support vector learning for semantic argument classification[J] .Machine Learning Journal.2005,60(1):11-39.
[21] 丁偉偉,常寶寶.基于語(yǔ)義組塊分析的漢語(yǔ)語(yǔ)義角色標(biāo)注.中文信息學(xué)報(bào)[J] .2009,23(5):53-61,74
[22] Carreras X,Mrques L.Introduction to the conll2005shared task:semantic role labeling[C] //Daniel Gildea,CONLL'05 Proceedings of the Ninth Conference on Computational Natural Language Learning.Stroudsburg:Association for Computational Linguistics,2005:152-164.
[23] Duan H,Bai X,Chang B,et al.Chinese word segmentation at Peking University[C] //Qing Ma,F(xiàn)ei Xia.Proceedings of the Second SIGHAN Workshop on Chinese Language Processing.Sapporo:Association for Computational Linguistics,2003:152-155.
[24] Hacioglu K.Semantic role labeling using dependency trees[C] //Joakim Nivre,COLING'04Proceedings of the 20th international conference on Computational Linguistics.Geneva:Association for Computational Linguistics,2004:1273-1276.
[25] Pradhan S,Ward W,Hacioglu K,et al.Semantic role labeling using different syntactic views[C] //Kevin Knight,Hwee Tou Ng,Kemal Oflazer.Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics,Ann Arbor:Association for Computational Linguistics,2005:581-588.
[26] Swanson R,Gordon A S.A comparison of alternative parser tree paths for labeling semantic roles[C] //Nicoletta Calzolari,Claire Cardie,Pierre Isabelle.Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics.Sydney:Association for Computational Linguistics,2006:811-818.
[27] Johansson R,Nugues P.The effect of syntactic representation on semantic role labeling[C] //Donia Scott,Hans Uszkoreit,Proceedings of 22nd International Conference on Computational Linguistics.Stroudsburg:Association for Computational Linguistics 2008:393-400.
[28] Johansson R,Nugues P.Dependency-based semantic role labeling of PropBank[C] //Mirella Lapata,Hwee Tou Ng,Proceedings of the 2008Conference on Empirical Methods in Natural Language Processing,Honolulu:Association for Computational Linguistics.2008:69-78.
[29] Liu T,Che W,Li S,et al.Semantic role labeling system using maximum entropy classifier[C] //Daniel Gildea.CONLL'05 Proceedings of the Ninth Conference on Computational Natural Language Learning.Stroudsburg:Association for Computational Linguistics,2005:189-192.
[30] Wang H L,Zhou G D,Zhu Q M.Dependency tree-based SRL with proper pruning and extensive feature engineering[C] //Iryna Gurevych,Delphine Bernhard.Proceedings of the 22nd International Conference on Computational Linguistics(Coling 2008),Manchester:Coling 2008Organizing Committee,2008.23-24.
[31] Swier R S,Stevenson S.Unsupervised semantic role labelling[C] //D Lin,D Wu.Proceedings of the 2004Conference on Empirical Methods in Natural Language Processing.Barcelona:Association for Computational Linguistics,2004:95-102
[32] 陳耀東,王挺,陳火旺.半監(jiān)督學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的淺層語(yǔ)義分析.中文信息學(xué)報(bào)[J] .2008,22(2):70-75
[33] Zhang M,Che W X,AW A T,et al.A grammar-driven convolution tree kernel for semantic role classification[C] //Annie Zaenen,Antal van den Bosch.Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics.Prague:Association for Computational Linguistics,2007:200-207.
[34] Wang H L.Research on feature-based semantic role labeling for English and Chinese[D] .Suzhou:Soochow University,2008.
山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版)2011年6期