楊海彤
(華中師范大學(xué) 計(jì)算機(jī)學(xué)院, 湖北 武漢 430079)
語義角色標(biāo)注是一種自然語言處理領(lǐng)域的淺層語義分析技術(shù)。它以句子為單位,分析句子中的謂詞與其相關(guān)成分之間的語義關(guān)系,進(jìn)而獲取句子所表達(dá)語義的淺層表示。下面是一個(gè)語義角色標(biāo)注的例子:
[警方]Agent [正在]Time [調(diào)查]Pred [事故原因]Patient
其中“調(diào)查”是謂詞,代表了一個(gè)事件,“警方”是施事者,“事故原因”是受事者,“正在”是事件發(fā)生的時(shí)間。由此可見,語義角色標(biāo)注能夠抽取出一個(gè)句子表達(dá)的事件的全部重要信息。由于語義角色標(biāo)注可以提供較為簡潔、準(zhǔn)確、有益的分析結(jié)果,因此近年來受到了學(xué)術(shù)界的普遍重視,并已經(jīng)成功地應(yīng)用到信息抽取[1]、自動(dòng)問答[2]、機(jī)器翻譯[3]等任務(wù)中。
由于語義角色標(biāo)注的簡潔、有效的語義分析能力,吸引大量的研究人員投入到語義角色標(biāo)注的研究中。文獻(xiàn)[4]細(xì)致地分析了哪些特征對(duì)中文語義角色標(biāo)注是有效的,并進(jìn)行了大量的實(shí)驗(yàn)驗(yàn)證。文獻(xiàn)[5]提出了一種中文句法分析和語義角色標(biāo)注聯(lián)合學(xué)習(xí)模型。文獻(xiàn)[6]融合了4個(gè)基本的語義角色標(biāo)注系統(tǒng),取得了較好的結(jié)果。文獻(xiàn)[7]研究了位于同一個(gè)句子中的多個(gè)謂詞的語義角色標(biāo)注之間是否有聯(lián)系。
目前,語義角色標(biāo)注系統(tǒng)大多采用有監(jiān)督的方法來完成語義標(biāo)注。然而,在有監(jiān)督的方法體系下,模型的最終效果和性能受到標(biāo)注數(shù)據(jù)的規(guī)模和質(zhì)量的影響。目前中文語義角色標(biāo)注最大的公開語料是中文命題庫(Chinese PropBank,CPB)。它是在中文樹庫的基礎(chǔ)上增加了語義角色標(biāo)注相應(yīng)的人工標(biāo)注。盡管中文命題庫的標(biāo)注過程耗費(fèi)了大量的人力、物力,促進(jìn)了語義角色標(biāo)注理論方法的進(jìn)步[8-11],然而語料的標(biāo)注過程忽視了一個(gè)重要的隱含問題即謂詞標(biāo)注不均勻。謂詞標(biāo)注統(tǒng)計(jì)分布整體上表現(xiàn)出明顯的長尾現(xiàn)象,一些謂詞在中文命題庫中被標(biāo)注了許多次,而大多數(shù)謂詞僅僅被標(biāo)注了一次或兩次,比如謂詞“是”被標(biāo)注了超過1000次,而80%的謂詞僅僅被標(biāo)注了一次或兩次。因此,這些標(biāo)注次數(shù)較少的稀疏謂詞由于缺乏足夠的訓(xùn)練實(shí)例,導(dǎo)致模型很難學(xué)習(xí)到有效的模型參數(shù),進(jìn)而語義分析效果要遠(yuǎn)遠(yuǎn)地低于其它謂詞。而一個(gè)實(shí)用的語義角色標(biāo)注系統(tǒng)經(jīng)常需要處理各種稀疏謂詞,因此,研究稀疏謂詞的語義分析方法具有理論和現(xiàn)實(shí)的意義。
為解決稀疏謂詞的語義分析問題,本文提出了一種基于聚合層次化聚類的方法。該方法通過聚合層次化聚類建立起稀疏謂詞與常見謂詞的聯(lián)系,把稀疏謂詞可以泛化為與之語義相近的常用謂詞,進(jìn)而緩和語義角色標(biāo)注系統(tǒng)中的謂詞稀疏問題。實(shí)驗(yàn)結(jié)果表明,該方法可以顯著地提升稀疏謂詞的語義分析性能。
本文的創(chuàng)新點(diǎn)在于:
(1)語義角色標(biāo)注中稀疏謂詞的問題一直以來都被忽視,本文是第一個(gè)提出該問題,并進(jìn)行細(xì)致地分析研究的工作。
(2)對(duì)于稀疏謂詞問題,本文提出了一種基于聚合層次化聚類的方法,可以顯著地提升稀疏謂詞的語義分析性能,提升了語義角色標(biāo)注在實(shí)際語義分析系統(tǒng)的可用性。
本文采用中文命題庫作為實(shí)驗(yàn)的語料。中文命題庫(Chinese PropBank,CPB)是賓州大學(xué)建設(shè)的中文語義角色標(biāo)注語料庫。它是在中文樹庫(Chinese TreeBank,CTB)的基礎(chǔ)上添加了一個(gè)語義角色標(biāo)注層。具體地,該語料通過在句法樹中找到與待分析的謂詞語義密切相關(guān)的成分,并給不同的語義成分賦予不同的語義角色,來實(shí)現(xiàn)對(duì)句子語義的形式化表示。下面以一個(gè)具體例子進(jìn)行說明。在圖1,待分析的句子是“警方已到現(xiàn)場,正在詳細(xì)調(diào)查事故原因”。從圖中可以看到在文字部分的上方是該句的句法分析結(jié)果,在文字部分的下方是該句的語義角色標(biāo)注結(jié)果。從結(jié)果可以看出,“調(diào)查”是謂詞,被標(biāo)注為“Pred”,代表了發(fā)生的一個(gè)事件;“警方”被標(biāo)注為“ARG0”,是事件的施事者;“事故原因”被標(biāo)注為“ARG1”,是事件的受事者;而“正在”和“詳細(xì)”分別被標(biāo)注為“AM-TMP”和“AM-MNR”代表了事件發(fā)生的時(shí)間和方式。
圖1 中文命題庫中的一個(gè)具體實(shí)例
本文所采用的標(biāo)注系統(tǒng)的基本框架如圖2所示。句子經(jīng)過句法分析后,需要先后經(jīng)過如下的4個(gè)模塊。
圖2 標(biāo)注系統(tǒng)的系統(tǒng)框架
(1)候選論元剪枝。該模塊的作用是從大量候選論元中剪掉不可能是論元的那些候選,從而減少候選論元數(shù)目。本文采用文獻(xiàn)[4]提出的啟發(fā)式方法進(jìn)行論元剪枝。
(2)論元識(shí)別。該階段的目標(biāo)是從候選論元集合中識(shí)別出哪些是真正的論元。一般地,論元識(shí)別被當(dāng)作一個(gè)二元分類問題來解決。
本文采用最大熵模型(maximum entropy,ME)完成此二元分類。模型如下式所示
其中,x是輸入樣例,y是輸出結(jié)果,即1(是候選論元)或0(非候選論元),fi(x,y)是人工定義的特征函數(shù),θi是特征fi(x,y)相應(yīng)的參數(shù),Z(x)是一個(gè)歸一化項(xiàng),計(jì)算方式如下式所示
(3)論元分類。該階段就要為論元識(shí)別階段識(shí)別出的論元賦予一個(gè)語義角色。一般地,論元分類會(huì)被作為一個(gè)多元分類問題來解決。本文依然采用最大熵模型完成此多元分類。
(4)后處理。該階段的作用是對(duì)前面得到的語義角色標(biāo)注結(jié)果進(jìn)行后處理。
特征選擇的好壞直接影響了標(biāo)注系統(tǒng)的性能。在特征選擇方面已有許多相關(guān)工作。其中,文獻(xiàn)[4]通過實(shí)驗(yàn)從大量特征中仔細(xì)挑選了一組性能較好的特征。因此,本文系統(tǒng)采用他們使用的特征,詳細(xì)的特征列表如下:
(1)謂詞
(2)候選論元到謂詞的句法路徑
(3)候選論元的頭節(jié)點(diǎn)
(4)候選論元頭節(jié)點(diǎn)的詞性
(5)謂詞類別
(6)謂詞和候選論元頭節(jié)點(diǎn)的組合
(7)謂詞和候選論元句法標(biāo)簽的組合
(8)謂詞類別和候選論元頭節(jié)點(diǎn)的組合
(9)謂詞類別和候選論元句法標(biāo)簽的組合
(10)候選論元與謂詞的相對(duì)位置
(11)謂詞父節(jié)點(diǎn)的句法生成規(guī)則
(12)候選論元的首詞和尾詞
(13)候選論元的句法標(biāo)簽
(14)句子中名詞性短語生成框架
在有監(jiān)督的方法體系下,如果固定下分類器,那么論元的類別標(biāo)簽是由論元的特征決定的。對(duì)于語義角色標(biāo)注來講,從1.3節(jié)所選的特征可以看出,謂詞相關(guān)的特征占據(jù)了重要的地位,直接影響了標(biāo)注系統(tǒng)的性能,對(duì)系統(tǒng)標(biāo)注性能起了關(guān)鍵的作用。然而,稀疏謂詞由于在訓(xùn)練集中僅僅擁有極少的標(biāo)注訓(xùn)練樣例,因此導(dǎo)致分類器很難學(xué)習(xí)到一組較優(yōu)的模型。其中,一種極端情況是從未在訓(xùn)練集中出現(xiàn)過的謂詞,這種情況會(huì)更加嚴(yán)重,因?yàn)橹匾闹^詞特征均成為了詞典外特征(out-of-dictionary,OOV),對(duì)角色判別不能發(fā)揮任何作用。
對(duì)于稀疏謂詞問題,本文提出了一種基于層次化聚類方法。本文的動(dòng)機(jī)是通過層次化聚類方法為稀疏謂詞找到與之語義相近的常用謂詞,然后再在特征提取過程中的用找到的常用謂詞替代該稀疏謂詞。下面舉例說明,在中文命題庫中,‘操控’僅僅出現(xiàn)了一次,而與之語義相近的謂詞‘控制’出現(xiàn)了28次。顯然,對(duì)于統(tǒng)計(jì)分類器而言,較容易學(xué)習(xí)到‘控制’的概率分布情況。但由于‘操控’和‘控制’具有相近的語義,因此它們應(yīng)具有相近的概率分布。這啟發(fā)本文當(dāng)需要處理稀疏謂詞‘操控’時(shí),可以使用常用謂詞‘控制’進(jìn)行替換。具體地,本文使用層次化聚類的方法實(shí)現(xiàn)該目標(biāo)。
層次化聚類算法是機(jī)器學(xué)習(xí)和自然語言處理領(lǐng)域被廣泛采用的聚類算法。在理論上,層次化聚類算法的目標(biāo)是通過構(gòu)建一棵層次化的樹結(jié)構(gòu),從而找出數(shù)據(jù)集內(nèi)部各個(gè)元素的聚類關(guān)聯(lián)。在具體的實(shí)現(xiàn)中,一般有兩種層次化聚類策略:
(1)聚合策略
聚合是一種從底向上的方法策略。該策略每次迭代時(shí)首先計(jì)算各個(gè)類別核心的距離,之后將最近鄰距離的兩個(gè)類別合并,形成一個(gè)新的聚類,直至所有數(shù)據(jù)形成一個(gè)聚類結(jié)束。
(2)分裂策略
分裂是一種從頂向下的方法策略。該策略在算法運(yùn)行伊始,將所有數(shù)據(jù)看作一個(gè)聚類,之后每次迭代將一個(gè)聚類分類為兩個(gè)聚類,直至每個(gè)原始數(shù)據(jù)都成為一個(gè)獨(dú)立聚類為止。
綜合考慮,本文采用了聚合層次化聚類算法對(duì)所有的謂詞進(jìn)行聚類。一般地,聚合層次化聚類算法在算法伊始時(shí),把所有的數(shù)據(jù)點(diǎn)均看作一個(gè)獨(dú)立結(jié)點(diǎn),之后每次迭代過程中,計(jì)算出距離最近的兩個(gè)結(jié)點(diǎn),直至形成一個(gè)最終的結(jié)點(diǎn)。相比分類策略,聚合策略在運(yùn)行效率上具有較大優(yōu)勢。
本節(jié)對(duì)算法實(shí)現(xiàn)細(xì)節(jié)進(jìn)行詳細(xì)闡述。本文采用了分布式詞向量技術(shù)表示每個(gè)謂詞。分布式詞向量技術(shù)是近年來自然語言處理領(lǐng)域?qū)υ~進(jìn)行表示的主流方法,它的每一維可以看作包含了原始詞的句法或語義信息。所有的謂詞集合記為P,謂詞數(shù)目為n,集合P又被劃分為兩個(gè)集合:常用謂詞集合Pr和稀疏謂詞集合Pc。在聚類過程中,所有聚類結(jié)點(diǎn)的集合記為S,結(jié)點(diǎn)數(shù)目記為Sl,S內(nèi)部各結(jié)點(diǎn)之間的聚類矩陣記為M,其中Mij表示結(jié)點(diǎn)Pi和Pj之間的距離。
算法1給出了聚合層次化聚類算法的詳細(xì)描述。在算法初始化階段,該算法將每個(gè)謂詞都作為一個(gè)獨(dú)立的結(jié)點(diǎn)看待。在每次迭代時(shí),計(jì)算各個(gè)結(jié)點(diǎn)之間的距離,從而得到距離矩陣M。根據(jù)距離矩陣M,找出距離最近的兩個(gè)結(jié)點(diǎn),并將其合并,形成一個(gè)新的結(jié)點(diǎn),該結(jié)點(diǎn)的向量表示為上述最近鄰結(jié)點(diǎn)對(duì)的平均。經(jīng)過n-1次迭代后,所有的結(jié)點(diǎn)最終合并為一個(gè)統(tǒng)一的結(jié)點(diǎn)。在算法1第4行,需要計(jì)算兩個(gè)結(jié)點(diǎn)的距離,本文采用了如下的余弦距離公式
算法1:聚合層次化聚類算法
輸入:所有的謂詞集合P
輸出:關(guān)于所有謂詞的一棵層次化聚類樹
初始化所有的謂詞為聚類結(jié)點(diǎn)集合S中的元素
(1) fork= 1 ton- 1 do
(2) fori= 1 toSldo
(3) forj= 1 toido
(5) end for
(6) end for
(7)i′,j′←argmini,jMij//從當(dāng)前聚類結(jié)點(diǎn)集合S中找出最近鄰的兩個(gè)結(jié)點(diǎn)i′,j′
(9) end
經(jīng)過算法1,可以得到關(guān)于所有謂詞聚類關(guān)系的一棵層次化樹結(jié)構(gòu)。該層次化的樹結(jié)構(gòu)反映了所有謂詞間的關(guān)聯(lián)信息,語義相近的謂詞對(duì)將會(huì)在樹的底層某結(jié)點(diǎn)合并,而語義差異較大的謂詞對(duì)只能在樹的高層某結(jié)點(diǎn)合并。當(dāng)一個(gè)謂詞進(jìn)入到標(biāo)注系統(tǒng)時(shí),系統(tǒng)首先判斷該謂詞是否是稀疏謂詞,如果該謂詞是常用謂詞,則不進(jìn)行任何處理,直接進(jìn)行語義分析;如果該謂詞是稀疏謂詞,則系統(tǒng)首先在上述層次化的樹結(jié)構(gòu)中定位到該謂詞,之后從底向上搜索,如果遇到的聚類結(jié)點(diǎn)中包含常用謂詞,則標(biāo)注系統(tǒng)在抽取特征時(shí)自動(dòng)地用找到的常用謂詞替換稀疏謂詞。
本文使用中文命題庫1.0作為實(shí)驗(yàn)數(shù)據(jù)集。與文獻(xiàn)[4-6]相同,所有的數(shù)據(jù)被劃分為3部分:648個(gè)文件(chtb_081.fid到chtb_899.fid)作為訓(xùn)練集、40個(gè)文件(chtb_041.fid到chtb_080.fid)作為開發(fā)集、72文件(chtb_001.fid到chtb_040.fid和chtb_900.fid到chtb_931.fid)作為測試集。本章采用Berkeley parser自動(dòng)地生成短語結(jié)構(gòu)樹,同時(shí)句法模型也是在訓(xùn)練語料上重新訓(xùn)練得到的。基線系統(tǒng)中最大熵模型均借助張樂的最大熵工具包進(jìn)行具體實(shí)現(xiàn)。本文將訓(xùn)練集中標(biāo)記次數(shù)少于10次的謂詞看作稀疏謂詞,重點(diǎn)對(duì)這部分謂詞進(jìn)行了研究。
為構(gòu)建所有謂詞的詞向量表示,本文采用了開源軟件word2vec,在語料Chinese Gigaword corpus上運(yùn)行CBow模型,窗口設(shè)置為10,向量維數(shù)設(shè)置為200。
語義角色標(biāo)注領(lǐng)域普遍采用準(zhǔn)確率(precision)、召回率(recall)和F1來評(píng)價(jià)系統(tǒng)的性能。Numright表示正確標(biāo)注為語義角色的個(gè)數(shù),Numtest表示系統(tǒng)預(yù)測為語義角色的總數(shù),Numgold表示測試數(shù)據(jù)中語義角色的總數(shù)。那么,它們的定義分別為
圖3給出了原中文語義角色標(biāo)注系統(tǒng)的性能,以F1值作為評(píng)價(jià)指標(biāo)。本文把所有的謂詞按照在訓(xùn)練集中出現(xiàn)次數(shù)對(duì)測試集數(shù)據(jù)進(jìn)行了分組,其中‘0’組表示該謂詞從未在訓(xùn)練集中出現(xiàn),‘1’組表示該謂詞在訓(xùn)練集中出現(xiàn)了1次,以此類推。
圖3 中文語義角色標(biāo)注系統(tǒng)對(duì)于不同謂詞的性能對(duì)比
從圖中首先可以看到一個(gè)整體趨勢是謂詞被標(biāo)注的次數(shù)越多,標(biāo)注系統(tǒng)對(duì)該謂詞的語義分析越準(zhǔn)確,該現(xiàn)象是符合預(yù)期的,因?yàn)橛斜O(jiān)督學(xué)習(xí)的系統(tǒng)要達(dá)到比較好的性能需要一定數(shù)量的訓(xùn)練數(shù)據(jù)。而對(duì)于稀疏謂詞而言,正是因?yàn)椴荒芴峁┳銐虻挠?xùn)練數(shù)據(jù)導(dǎo)致性能遠(yuǎn)遠(yuǎn)低于常用謂詞。性能最低的謂詞組‘0’比性能最高的謂詞組‘≥100’低了將近20個(gè)百分點(diǎn)F1,這突出反映了稀疏謂詞問題的嚴(yán)重性。需要注意的一點(diǎn)是,‘0’組謂詞即從未在訓(xùn)練集中出現(xiàn)的謂詞,在測試集中占比達(dá)到20%,但是該組謂詞的語義分析性能最低。在實(shí)際應(yīng)用中,如果一個(gè)標(biāo)注系統(tǒng)一旦遇到未出現(xiàn)過的謂詞,經(jīng)常會(huì)輸出錯(cuò)誤的分析結(jié)果,顯然該標(biāo)注系統(tǒng)是不能滿足實(shí)際需求的。因此,一個(gè)實(shí)用的語義角色標(biāo)注系統(tǒng)應(yīng)能處理各種謂詞。研究稀疏謂詞的語義分析方法也具有較大的現(xiàn)實(shí)意義。
表1給出了本文提出的方法的性能。從表中可以看到本文提出的方法可以顯著地提升稀疏謂詞的語義分析性能?!?’組謂詞的性能提升幅度最大,F(xiàn)1值由59.32%提升到61.05%,約1.7%的提升幅度,其它組稀疏謂詞也均具有較大幅度提升。所有稀疏謂詞的F1值由68.70%提升至69.75%,平均約有1%的提升幅度。為檢驗(yàn)本文提出的方法的結(jié)果是否是統(tǒng)計(jì)顯著的,本文采用了重采樣的方法對(duì)結(jié)果進(jìn)行顯著性檢驗(yàn)。檢驗(yàn)結(jié)果表明在p<0.05的設(shè)置下,本文提出的方法的結(jié)果顯著優(yōu)于原中文語義標(biāo)注系統(tǒng)的結(jié)果。
下面通過一個(gè)具體實(shí)例進(jìn)行進(jìn)一步的分析。下面是原中文語義角色標(biāo)注系統(tǒng)的一個(gè)分析結(jié)果,[各項(xiàng)存款]Arg0[比七五]ArgM-TMP凈增五十億元[Arg2],然而,上述結(jié)果對(duì)于論元‘五十億元’的標(biāo)注結(jié)果是錯(cuò)誤的,它的正確標(biāo)記應(yīng)為Arg1。該句中的謂詞是‘凈增’,但該謂詞在訓(xùn)練集中從未出現(xiàn)過,所以導(dǎo)致謂詞相關(guān)的分類特征的缺少,進(jìn)而使得分類器出現(xiàn)分類錯(cuò)誤。本文通過構(gòu)建的層次化樹結(jié)構(gòu)找到與‘凈增’語義最相近的常用謂詞是‘增長’,該謂詞在訓(xùn)練集中出現(xiàn)了237次,擁有足夠的訓(xùn)練數(shù)據(jù),因此分類器可以學(xué)習(xí)到較好的模型參數(shù)。最終,本文提出的方法正確的修正了上述例句中的錯(cuò)誤結(jié)果。
表1 實(shí)驗(yàn)結(jié)果對(duì)比
本文還測試了提出的方法在跨領(lǐng)域數(shù)據(jù)上的性能。領(lǐng)域適應(yīng)問題是語義角色標(biāo)注的亟待解決的問題之一。導(dǎo)致領(lǐng)域適應(yīng)問題的主要原因是領(lǐng)域外與領(lǐng)域內(nèi)之間的數(shù)據(jù)分布差異,而其中謂詞的差異也較為突出。由于中文缺乏跨領(lǐng)域的語義角色標(biāo)注數(shù)據(jù),本文在英文的布朗數(shù)據(jù)集(brown corpus)進(jìn)行了測試,實(shí)驗(yàn)數(shù)據(jù)選擇了英文命題庫(English PropBank,EPB)作為訓(xùn)練集。表2給出了詳細(xì)的實(shí)驗(yàn)結(jié)果對(duì)比。從表中首先可以看到,在領(lǐng)域外數(shù)據(jù)集上語義角色標(biāo)注系統(tǒng)也表現(xiàn)出了謂詞被標(biāo)注的次數(shù)越多,標(biāo)注系統(tǒng)對(duì)該謂詞的語義分析越準(zhǔn)確的趨勢,反之,謂詞被標(biāo)注次數(shù)較少的話,語義分析性能較差。同樣地,‘0’組謂詞的語義分析性能最差,比最高得分的謂詞組低了20%??梢?,在領(lǐng)域外數(shù)據(jù)集上,稀疏謂詞的情況也非常嚴(yán)重。從表中可以看到本文提出的方法可以顯著地提升稀疏謂詞的語義分析性能?!?’組謂詞的分析性能提升幅度最大,由44.64%提升到46.22%,約1.6%的提升幅度,其它組稀疏謂詞也均具有較大幅度提升。所有稀疏謂詞的F1值,由60.15%提升至61.40%,平均約有1.3%的提升幅度。在p<0.05的設(shè)置下,本文提出的方法的結(jié)果顯著優(yōu)于原語義標(biāo)注系統(tǒng)的結(jié)果。
在有監(jiān)督的方法體系下,語義角色標(biāo)注系統(tǒng)最終效果和性能受到標(biāo)注數(shù)據(jù)的規(guī)模和質(zhì)量的影響。然而,當(dāng)前公開的標(biāo)注語料對(duì)于不同謂詞的標(biāo)注是不平衡的,有些謂詞被多次標(biāo)注,而有些稀疏謂詞僅僅被標(biāo)注一次或兩次,甚至還有大量謂詞未被標(biāo)注。所以,稀疏謂詞問題嚴(yán)重限制了語義角色標(biāo)注在實(shí)際中的應(yīng)用。而目前,語義角色標(biāo)注領(lǐng)域尚未有稀疏謂詞的研究工作。本文對(duì)語義角色標(biāo)注任務(wù)中的稀疏謂詞問題進(jìn)行了細(xì)致地分析,并對(duì)該問題提出了一種基于聚合層次化聚類的方法。實(shí)驗(yàn)結(jié)果表明本文提出的方法可以顯著提升稀疏謂詞的標(biāo)注性能。
表2 領(lǐng)域外實(shí)驗(yàn)結(jié)果對(duì)比