李濟(jì)洪,高亞慧,王瑞波,李國臣
(1. 山西大學(xué) 計算中心,山西 太原 030006; 2. 山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006;3. 太原工業(yè)學(xué)院,山西 太原 030008)
語義分析是自然語言處理的目前研究的熱點。近年來,語義分析的相關(guān)評測任務(wù)在在SemEval2007[1]、CoNLL Shared Task 2008[2]、2009[3]、SemEval-2(2010)[4]等重要評測中頻繁出現(xiàn)。這些評測有效地推動了自然語言處理技術(shù)的研究和發(fā)展。
近十年來,基于認(rèn)知的框架語義學(xué)以及在其上構(gòu)建的英語FrameNet[5]得到許多研究者的關(guān)注,成為Senseval-3[6]、SemEval2007、SemEval-2(2010)語義分析評測任務(wù)的主要使用的語義資源。按照評測任務(wù)中的要求,對給定一個句子中的動詞(或事件名詞),首先要自動識別出其所屬框架,再標(biāo)注出該詞所支配的語義角色,進(jìn)而形式化出句子,乃至整個篇章的語義信息的一種描述,為問題回答、篇章理解、信息檢索等應(yīng)用提供可用的語義線索。
漢語框架語義知識庫[7](CFN,Chinese FrameNet )是參照英語FrameNet而構(gòu)建的。類似于英文的框架自動識別任務(wù)(SemEval2007 Task 19)[1],在漢語的框架識別(Frame Identification)中,對給定的一個目標(biāo)詞,需要判定其所屬框架。如例句: 全書的觀點
文獻(xiàn)中基于FrameNet對框架識別的研究已作過初步探討。Erk等[9]于2005年使用傳統(tǒng)的詞義消歧的方法針對德語FrameNet的框架消歧的任務(wù)進(jìn)行了研究。他們將消歧看作分類問題,采用樸素貝葉斯分類器,并使用詞語的上下文窗口、詞包以及一些詞語搭配等特征。在其測試集上框架消歧的性能可以達(dá)到74.7%的F值。對未知框架檢測,Erk[10]將這個任務(wù)看作“異常點檢測”,在其實驗中取得了78%的精確率。SemEval 2007的Task 19主要針對英文FrameNet的框架識別、語義角色標(biāo)注和整個句子中詞語間語義關(guān)系的抽取進(jìn)行了評測[1]。其中,框架識別是其中的子任務(wù)之一。只有三個評測隊伍提交了框架識別任務(wù)的評測結(jié)果。其中,Richard Johansson等的結(jié)果最好,他們使用SVM分類器來對框架識別任務(wù)進(jìn)行建模,并從依存句法分析樹上抽取出目標(biāo)詞、目標(biāo)詞的子節(jié)點的詞及它們的依存關(guān)系,以及相應(yīng)的子范疇框架等信息作為特征。在給定的評測三篇語料“Dublin”、“China”和“Work”上,框架識別的結(jié)果分別達(dá)到了60.12%、69.18%和74.88%的F值。
目前,CFN的建設(shè)尚處于初始階段,共構(gòu)建了219個框架,涵蓋1 760個詞元和21 600條已標(biāo)注的句子。CFN構(gòu)建中,主要采用的輔助工具有山西大學(xué)FC2000,框架的語義角色自動標(biāo)注器(在給定目標(biāo)詞及其框架下)[7],因此,進(jìn)一步研究框架消歧,將為自動構(gòu)建CFN知識庫提供更多的輔助標(biāo)注工具,加快CFN的建設(shè)步伐。從CFN中統(tǒng)計結(jié)果看,其中有88個詞元可以激起兩個以上框架,涉及框架14個,相應(yīng)的例句2 077條。本文正是基于這部分語料,對漢語框架消歧的研究進(jìn)行了初步探索,將框架消歧任務(wù)看作典型的單點分類問題,使用最大熵對其進(jìn)行建模,選用詞、詞性、基本塊、依存句法樹上的若干特征,并且借助于開窗口技術(shù)和BOW策略,采用3-fold交叉驗證方式進(jìn)行了實驗,結(jié)果表明,框架消歧的精確率(Accuracy)達(dá)到69.28%,這是目前漢語框架消歧實驗最好結(jié)果。
本文的組織結(jié)構(gòu)如下: 第2節(jié)描述了框架消歧任務(wù);第3節(jié)描述了實驗所用的各種特征;第4節(jié)介紹了本文采用的評價指標(biāo);第5節(jié)給出了具體的實驗結(jié)果及分析;第6節(jié)為總結(jié)與展望。
根據(jù)上文的描述,框架識別任務(wù)可以分為三個子任務(wù),1)詞元檢測;2)未知框架檢測;3)框架消歧(Frame Disambiguation,簡記為 FD)。本文主要研究整個框架識別任務(wù)中的第三個子任務(wù),即框架消歧: 給定一個句子中目標(biāo)詞,已知其可以激起多個框架,要求計算機能夠基于上下文環(huán)境,從現(xiàn)有的框架庫中,為該目標(biāo)詞自動地標(biāo)注一個適合的框架。 子任務(wù)的形式化描述如下。
給定一個句子,記為S, 將S看作一個由詞組成的序列,記為S=(w1,w2,…,wn),這里wi代表組成句子的第i個詞語,1≤i≤n。記wt∈S為給定的待標(biāo)注的目標(biāo)詞,且其可以激起的框架集合記為F={f1,f2,…,fm},那么,框架消歧的任務(wù)為,尋找唯一一個f∈F,使其滿足:
顯然,給定句子S及目標(biāo)詞wt,上式是個一個典型的分類問題,本文選用最大熵(ME,Maximum Entropy)來建立模型,其詳細(xì)描述請參見文獻(xiàn)[11]。由于自然語言處理中存在大量的稀疏特征,這會影響最大熵模型參數(shù)估計的穩(wěn)健性,因此,一般在其似然函數(shù)中加入懲罰項,采用最大后驗估計的方法進(jìn)行參數(shù)估計。本文實驗中選用的懲罰項為服從均值為0, 方差為C的高斯分布,通過調(diào)節(jié)參數(shù)C(下文中稱為Gauss平滑參數(shù)),使得模型的分類性能達(dá)到最優(yōu)。
最大熵模型是較為常用的分類模型,其分類性能主要依賴于上下文中抽取的特征。如何抽取特征,并充分利用特征信息是框架消歧系統(tǒng)建模首先要解決的問題。
本文選取的特征主要取自三個層面,詞層面、基本塊層面(BC,Base-Chuck)及依存語法關(guān)系層面(DP,Dependence-Tree),詳見表1。 詞層面主要包括詞、詞性以及目標(biāo)詞所在句子的詞包(BOW,Bag-of-Word)。語料庫中分詞和詞性體系使用的是山西大學(xué)FC2000體系。在下文的實驗中,訓(xùn)練和測試集上的特征的提取直接取自語料庫中已分好詞(含命名實體標(biāo)注)的例句。
基本塊層面特征用來描述目標(biāo)詞所在基本塊與相鄰塊的塊層面組合關(guān)系。采用的是清華大學(xué)周強的基本塊描述體系[12],主要包括句法標(biāo)記(如np、vp等)、結(jié)構(gòu)標(biāo)記(如,定中結(jié)構(gòu)DZ、單詞塊SG等)、中心詞。實驗中先采用周強的自動分析器對每個例句自動分析,然后再提取所用基本塊層面特征信息,因此,這部分的特征信息全部是自動提取的,參見下文的例句和表2。
依存語法關(guān)系層面特征用來描述目標(biāo)詞在依存句法樹中與直接連接的成分及依存關(guān)系。本文采用的特征詳見表1的第三部分??紤]到目前的漢語依存句法自動分析器還有待完善,實驗中,本文分別使用了目前較好的三種分析器,它們是Stanford大學(xué)的依存句法分析器(v1.6)[15]、Mate依存分析器[13]和哈爾濱工業(yè)大學(xué)信息檢索研究中心(HIT)依存分析器[14],對所有例句進(jìn)行自動分析,獲取相應(yīng)特征信息。具體的特征取值實例參見下文的例句和圖1。
表1 特征列表
為了對比評價各層面特征對框架消歧系統(tǒng)的貢獻(xiàn),本文將各特征進(jìn)行組合,設(shè)計了以下六個模型的實驗:
(1) Baseline: 僅使用詞和詞性特征,調(diào)節(jié)特征的窗口大小(從[-1,1]到[-5,5]),選擇最優(yōu)結(jié)果的特征窗口大小作為Baseline模型;
(2) Baseline +BOW: 在Baseline模型基礎(chǔ)上加入詞包特征。即一個句子中所有詞的集合,且與詞的順序無關(guān);
(3) Baseline +BC: 在Baseline模型基礎(chǔ)上加入基本塊特征,BC特征的窗口大小可以取[-1,1]到[-3,3];
(4) Baseline+DP: 在Baseline模型基礎(chǔ)上加入表1中依存句法特征;
(5) Baseline +BOW+DP: 在Baseline模型基礎(chǔ)上加入詞包特征和依存句法特征;
(6) Baseline+All: 表1中羅列的全部特征。
其中,使用詞、詞性和基本塊特征時,窗口的選擇從[-1,1]到[-5,5]。這里[-n,n](n=1,2,…,5)表示選取特征的窗口大小,-n代表所選特征位于目標(biāo)詞左邊,n代表所選特征位于目標(biāo)詞右邊,開大小為n的窗口(例如,以詞特征為例,窗口大小 [-2,2] 代表選取目標(biāo)詞左邊的兩個詞和右邊的兩個詞作為特征,其他依此類推)。下面以實例說明相應(yīng)特征的取值,假設(shè)特征窗口取[-2,2],詞、詞性和基本塊特征的具體取值如表2所示。
表2 目標(biāo)詞“增加”的特征窗口取[-2,2]時,相應(yīng)的詞、詞性和基本塊特征的具體取值
例句: [np-SG 奧運會/jn ] 的/u [ap-SG 成功/a ] [vp-SG 舉辦/v ] [vp-AD 增加/v 了/u ] [np-SG 中國/nsh ] 在/p [np-SG 世界/n ] 的/u [np-SG 知名度/n ] 。/w
本文基于自動獲得的依存句法分析樹,抽取四種依存句法特征如下。參照上文的例句,下圖給出其基于Stanford、Mate、HIT三個自動分析器得到的依存句法分析樹(見圖1)。
針對目標(biāo)詞“增加”,以Stanford分析器得到的依存句法分析樹為例,四種依存特征的具體取值如下給出:
(1) 子范疇框架: nsubj+dobj+asp ;
(2) 目標(biāo)詞的依存成分: {nsubj,asp,dobj};
(3) 目標(biāo)詞子節(jié)點的詞集合: {舉辦,了,知名度};
(4) 目標(biāo)詞父節(jié)點的詞: {null}。
其他兩種依存句法分析器的特征取值類似。
圖1 Stanford、Mate、HIT自動分析的依存句法分析樹
給定一個目標(biāo)詞Wi(i=1,…,n),n為所選詞的總數(shù)(如本文n=88),在三份交叉驗證試驗CVj(j=1,2,3)下, 全部目標(biāo)詞的分類精確率(Accuracy)如下計算:
其中,Nij是目標(biāo)詞wi的第j份交叉驗證實驗CVj中測試?yán)涞膫€數(shù),ccij是目標(biāo)詞wi的第j份交叉驗證實驗CVj中框架分類正確的測試?yán)鋫€數(shù)。
本文以實驗中選取的全部目標(biāo)詞的分類精確率作為評價指標(biāo)。
針對框架消歧任務(wù),本文選取漢語框架語義知識庫中可以激起多個框架的詞語的相應(yīng)例句作為訓(xùn)練、測試數(shù)據(jù)集。經(jīng)統(tǒng)計這樣的詞有88個,其中,可以激起4個框架的詞有1個,可以激起3個框架的詞有13個,激起兩個框架的詞有74個。實驗中,將所選出的88個詞中全部2 077條例句,按照每個詞元所屬的不同框架,將例句均勻分為3份。任意2份為訓(xùn)練集,另1份做測試集,做3-fold 交叉驗證。以下的實驗中Gauss平滑參數(shù)取1,2,3,…,20。
表3給出了僅以詞、詞性兩特征,在不同窗口大小以及最大熵模型的不同Gauss平滑參數(shù)(C >7的略去)下,框架消歧的實驗結(jié)果。
表3 詞、詞性兩特征的實驗結(jié)果(Accuracy/%)
從表3看出,框架消歧系統(tǒng)的性能分別在以下兩種情況時最好: 第一種情況,詞、詞性特征窗口為[-2,2],Gauss平滑參數(shù)C=2;第二種情況,詞、詞性特征窗口為[-3,3],Gauss平滑參數(shù)C=5,此時,框架消歧系統(tǒng)精確率為64.42%。進(jìn)一步考慮到最大熵模型在詞、詞性特征窗口取2時,特征數(shù)相對較少,訓(xùn)練時間較短,因此,本文以詞、詞性特征窗口取2時得到的模型為Baseline。以下分析分別加入其他特征對系統(tǒng)性能的影響。
(1) 在Baseline基礎(chǔ)上加入BOW特征后,框架消歧系統(tǒng)的性能取得了68.37%的結(jié)果,比Baseline提高了3.95%。BOW特征主要體現(xiàn)了在句子中常常與目標(biāo)詞同現(xiàn)的詞語??蚣芟缦到y(tǒng)性能的明顯提高說明,目標(biāo)詞與其他詞的搭配信息在目標(biāo)詞的框架消歧任務(wù)中起重要作用,這基本符合語言學(xué)的規(guī)律。
(2) 在Baseline基礎(chǔ)上加入自動獲得的BC特征,結(jié)果(為節(jié)省篇幅,將Gauss平滑參數(shù)C >5的略去)如下:
基于Baseline+BC,將BC特征窗口大小依次從[-1,1]到[-3,3]調(diào)整,發(fā)現(xiàn)框架消歧系統(tǒng)的性能在基本塊特征窗口為[-2,2]時最大。此時系統(tǒng)性能達(dá)到64.42%,與Baseline系統(tǒng)相同。這表明BC特征對框架消歧任務(wù)基本不起作用。 這其中可能的原因是: 本文使用的是基本塊的自動分析器,而自動分析器的性能在開放語料環(huán)境下并不理想。
表4 Baseline基礎(chǔ)上基本塊特征的實驗結(jié)果
例如,本文上面所給出的例句的BC特征的具體取值(見表2),自動分析的結(jié)果大多為單詞塊(SG),BC特征與詞特征相比,除了標(biāo)記記號不同以外,基本上沒有為模型增加更多的信息,因此,對系統(tǒng)性能的提高作用不大。本文將以下含有BC特征的模型實驗的BC特征的窗口統(tǒng)一固定為[-2,2]。
(3) 在Baseline基礎(chǔ)上加入自動分析獲得的DP特征,結(jié)果如下:
表5 在Baseline基礎(chǔ)上加入三種依存句法分析器的結(jié)果
需要說明的是,在使用Stanford的DP分析器對語料中所有句子自動分析中,有14個句子不能輸出結(jié)果,占14/2 077=0.67%。即使如此,從上表可以看出,系統(tǒng)基于三種不同的依存句法分析器的結(jié)果抽取DP特征,系統(tǒng)性能均有不同程度的提高,說明DP特征對框架消歧有一定的作用。系統(tǒng)性能提高的幅度不高,主要是由于目前在開放語料測試環(huán)境下,自動分析器的性能并不理想。
(4) 在Baseline+BOW的基礎(chǔ)上,加入自動分析獲得的DP特征,結(jié)果見表6。
從表6可以看出,在Baseline+BOW基礎(chǔ)上加入DP特征,各系統(tǒng)性能也均有提高,這進(jìn)一步說明DP特征對框架消歧任務(wù)有用。
(5) 使用全部特征, 即Baseline +BOW +DP+BC,結(jié)果見表7。
在Baseline+BOW+DP基礎(chǔ)上加入BC特征,系統(tǒng)性能均有不同程度下降,這進(jìn)一步說明BC特征對系統(tǒng)沒有作用。
表6 在Baseline+BOW基礎(chǔ)上加入三種依存句法分析器的結(jié)果
表7 在Baseline+BOW+DP基礎(chǔ)上加入BC特征的結(jié)果
結(jié)論: Baseline +BOW +DP(Mate)組合特征的系統(tǒng)性能69.28%為所有模型中最好。圖2是六個模型的性能隨Gauss平滑參數(shù)C值變化的圖,其中DP特征是從Mate句法分析器自動獲取的依存句法分析樹中抽取的。
圖2 各模型的性能隨Gauss平滑參數(shù)C值變化圖
本文將漢語框架消歧任務(wù)看作典型的分類問題,使用最大熵對其進(jìn)行建模,并且借助于開窗口技術(shù)和BOW策略分別選取了詞、詞性、基本塊、依存句法樹上的若干特征,構(gòu)建了漢語框架消歧模型,該模型的精確率(Accuracy)達(dá)到69.28%,這是目前漢語框架消歧實驗的最好結(jié)果。綜合分析本文的實驗結(jié)果,歸納幾點主要結(jié)論如下:
(1) 自動分析得到的基本塊特征對框架消歧任務(wù)不起作用;
(2) 依存句法特征對框架消歧任務(wù)有作用。三種自動依存句法分析器中Mate最好,其他兩個沒有差別;
(3) 詞包特征(BOW)對框架消歧任務(wù)作用明顯;
(4) 基于詞、詞性、詞包、依存句法(Mate)組合特征的模型,性能最高。
框架消歧是漢語框架網(wǎng)絡(luò)自動語義分析中重要的步驟,與傳統(tǒng)的詞義消歧(主要是名詞的消歧)不同,框架消歧主要針對句子中核心動詞或事件名詞,這些詞是句義的主要承擔(dān)者??蚣苷Z義學(xué)認(rèn)為,框架是人類認(rèn)知中逐漸形成且固定下來的概念結(jié)構(gòu),這些概念結(jié)構(gòu)相互聯(lián)系形成網(wǎng)絡(luò)。一個概念(框架)的理解不只是孤立考察這個概念本身,而是要將其放在整個框架網(wǎng)絡(luò)中才能理解。一個句子乃至篇章的語義是由其中的詞語激起的框架以及這些框架之間的關(guān)系來表達(dá)的。同一個詞語在不同的句子中可以激起不同的框架(概念結(jié)構(gòu)),導(dǎo)致不同的理解。因此,根據(jù)上下文正確識別出詞元的適當(dāng)框架對句子的理解非常重要。
然而,本文所構(gòu)建的漢語框架消歧模型中涉及的上下文只在句子層面。直觀地說,就是根據(jù)目標(biāo)詞在句中經(jīng)常搭配的詞語,以及目標(biāo)詞所在依存句法分析樹的句法信息來判別目標(biāo)詞所激起的框架。這樣只用到句子層面的上下文信息是否充分,是否還需要更為豐富的上下文信息(比如段落或篇章),以及如何用?這是下一步需要研究的。 在SemEval-2007 Task 19評測任務(wù)中,測試是建立在整篇文本之上的,這說明基于整個篇章對框架消歧任務(wù)進(jìn)行建模和評測更實用。事實上,框架語義學(xué)的初衷并不局限于句子層面的理解,而是瞄準(zhǔn)整個篇章的語義分析,因此,在英文FrameNet的語料中,有幾十篇的全文框架標(biāo)注,其目的是明確的。
另外,僅從框架消歧模型的技術(shù)層面來說,消歧模型可以考慮使用CFN中相應(yīng)框架定義描述中的信息,或定義中的例句信息,這些新特征都有可能增加系統(tǒng)的性能。另一方面,目前語料規(guī)模較小,雖然本文采用了交叉驗證方法,減少了結(jié)果的波動,但是系統(tǒng)性能的提升仍受語料規(guī)模的限制,需要考慮如何使用未標(biāo)注語料,擴大語料規(guī)模,減少特征信息的稀疏性,此外,也可以嘗試使用其他的分類模型,如SVM、神經(jīng)網(wǎng)絡(luò)等。這些都是下一步研究的主要方向。
實驗過程中使用了山西大學(xué)FC2000分詞軟件、清華大學(xué)周強教授提供的漢語基本塊自動標(biāo)注器、Stanford大學(xué)的句法分析器(v1.6)、哈爾濱工業(yè)大學(xué)信息檢索研究中心語言技術(shù)平臺LTP,Mate依存句法分析器,在此表示謝意!
[1] Collin Baker, Michael Ellsworth, Katrin Erk, SemEval’07 Task 19: Frame Semantic Structure Extraction [C]//Proceedings of the 4th International Workshop on Semantic Evaluations Prague, Czech Republic, June 23-24 2007: 99-104.
[2] Surdeanu M, Johansson R, Meyers A, Màrquez L, Nivre J. The CoNLL 2008 Shared Task on Joint Parsing of Syntactic and Semantic Dependencies [C]//Clark A, Toutanova K, eds. Proc.of the CoNLL-2008. Manchester: ACL Press, 2008: 159-177.
[3] Hajic J, Ciaramita M, Johansson R, Kawahara D, Marti MA, Màrquez L, Meyers A, Nivre J, Padó S, Stěpánek J, Stranak P, Surdeanu M, Xue NW, Zhang Y. The CoNLL-2009 shared task: Syntactic and Semantic Dependencies in Multiple Languages [C]//Stevenson S, Carreras X, eds. Proc. of the CoNLL-2009. Boulder: ACL Press, 2009.
[4] Josef Ruppenhofer,Caroline Sporleder and Roser Morante.SemEval-2010 Task 10: Linking Events and Their Participants in Discourse[C]//Boulder: ACL Press, 2010: 45-50.
[5] Baker CF, Fillmore CJ, Lowe JB. The Berkeley FrameNet project [C]//Morgan K, ed. Proc. of the COLING-ACL’98. Montreal: ACL Press, 1998: 86-90.
[6] Litkowski KC. Senseval-3 task automatic labeling of semantic roles [C]//Mihalcea R, Edmonds P, eds. Proc. of the 3rd Int’l Workshop on the Evaluation of Systems for the Semantic Analysis of Text. Barcelona: ACL Press, 2004. 9-12.
[7] 李濟(jì)洪,王瑞波,王蔚林,李國臣. 漢語框架語義角色的自動標(biāo)注研究[J].軟件學(xué)報, 2010,30(4): 597-611.
[8] Navigli, R. 2009. Word Sense Disambiguation: A Survey [J]. ACM Computing Survey. 41, 2 (Feb. 2009), 1-69. DOI=http://doi.acm.org/10.1145/1459352.1459355.
[9] Erk, K. (2005). Frame Assignment as Word Sense Disambiguation [C]//Proc.of IWCS-6, Tilburg University, Tilburg, the Netherlands, 2005.
[10] Erk, K. 2006. Unknown word sense detection as outlier detection [C]//Proc.of the Main Conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics (New York,June 04-09,2006). Human Language Technology Conference. Association for Computational Linguistics, Morristown, NJ, 128-135. DOI=http://dx.doi.org/10.3115/1220835.1220852.
[11] Berger, A.L.,Pietra, V.J., and Pietra, S.A. A Maximum Entropy Approach to Natural Language Processing [J]. Computational Linguistic, 1996, 22(1): 39-71.
[12] 周強.漢語基本塊描述體系[J].中文信息學(xué)報, 2007, 21(3): 21-27.
[13] Bernd Bohnet. Top Accuracy and Fast Dependency Parsing is not a Contradiction[C]//The 23rd International Conference on Computational Linguistics (COLING 2010), Beijing, China. 2010.
[14] 馬金山.基于統(tǒng)計方法的漢語依存句法分析研究[D].哈爾濱工業(yè)大學(xué)博士學(xué)位論文. 2007.
[15] Marie-Catherine de Marneffe, Bill MacCartney and Christopher D.Manning. Generating Typed Dependency Parses from Phrase Structure Parses[C]//LREC 2006. 2006.