秦博宇,郝曉燕,劉永芳
太原理工大學(xué) 信息與計算機學(xué)院,太原030600
框架語義學(xué)(frame semantics)是由Fillmore于20世紀70年代提出的??蚣苷Z義學(xué)作為認知語言學(xué)語言結(jié)構(gòu)研究的兩大基礎(chǔ)理論之一[1],認為語言及詞匯的理解必須建立在框架(frame)之上。在框架語義分析中,F(xiàn)rameNet作為一個獨特的語義知識庫已經(jīng)得到了眾多研究者的關(guān)注。FrameNet是在Fillmore等學(xué)者的主持之下由加州大學(xué)伯克利分校建立的一項以框架語義學(xué)為基礎(chǔ)理論的研究工程,曾作為國際計算語言學(xué)協(xié)會(ACL)國際語義測評SemEval-2007的第19項任務(wù)[2]——Frame Semantic Structure Extraction的測評語料對框架語義結(jié)構(gòu)進行抽取。
框架消歧任務(wù)是框架語義分析的一個子任務(wù),同時它也是框架語義分析中必不可少的中間環(huán)節(jié),具有非常重要的作用。其主要任務(wù)是在例句中根據(jù)給定目標(biāo)詞的上下文語境,自動識別出該目標(biāo)詞所屬的框架。框架消歧任務(wù)可以解決自然語言當(dāng)中的“一詞多義”現(xiàn)象,在一定程度上為機器翻譯、信息檢索等領(lǐng)域提供了語義支持。
目前的框架消歧研究都是將其看作一個傳統(tǒng)的單模型分類問題。雖然框架消歧任務(wù)在單個模型中都取得了較好的結(jié)果,但是仍然存在以下幾方面的問題。首先,其結(jié)果比較依賴統(tǒng)計模型的性能及參數(shù)設(shè)置。其次,分類模型將目標(biāo)詞看作獨立的個體進行分類不能很好地利用目標(biāo)詞之間的隱性聯(lián)系。最后,特征標(biāo)記被認為相互獨立,特征之間的關(guān)聯(lián)性較小。
針對以上這些問題,本文選擇了在框架消歧任務(wù)中表現(xiàn)較好的SVM分類模型和CRF序列標(biāo)注模型進行組合,首次提出了基于SVM和CRF的雙層模型對FrameNet語料進行框架消歧的方法。首先利用SVM模型對待消歧目標(biāo)詞進行分類得到分類標(biāo)簽,然后將分類標(biāo)簽序列與文本特征序列輸入到CRF模型,建立特征之間的關(guān)聯(lián)并進行序列標(biāo)注。
基于SVM和CRF的雙層模型利用分治思想將框架消歧問題轉(zhuǎn)化為分類問題和序列標(biāo)注問題,解決了雙層模型在FrameNet框架消歧任務(wù)中的空白局面。首先,CRF模型可以充分利用觀察序列中的全部特征信息[3-4],彌補了SVM模型對目標(biāo)詞單獨分類導(dǎo)致忽略了目標(biāo)詞之間的隱性聯(lián)系這一缺陷。同時,CRF模型作為雙層模型的第二層可以充分利用SVM模型的分類標(biāo)簽這一特征。這些分類標(biāo)簽可以提供大量的分類信息,與原有的文本語義特征結(jié)合可以建立起特征之間的聯(lián)系,在一定程度上解決了特征之間無關(guān)聯(lián)的問題。其次,SVM模型適合處理有限樣本的分類問題,并且可以獲得全局最優(yōu)值[5],解決了CRF模型只能取得局部最優(yōu)值這一缺陷。由于雙層模型優(yōu)勢互補,能夠進一步提高框架消歧的準確率,最終本文提出的新的可行的FrameNet框架消歧方法取得了較為理想的結(jié)果。
目前針對框架消歧的研究并不是很多,大部分都借鑒詞義消歧的方法,采用單個統(tǒng)計模型分類的思想來解決。美國的Bejan和Hathaway[6]抽取詞元特征和命名實體特征,利用支持向量機和最大熵模型建立多分類器,將框架識別看作是多分類問題。結(jié)果顯示使用SVM進行框架消歧的準確率比最大熵模型要高。瑞典的Johansson和Nugues[7]使用基于依存句法的方法來提取框架語義結(jié)構(gòu)。他們利用過濾規(guī)則來提取能夠激起不同框架的目標(biāo)詞,然后利用SVM模型對目標(biāo)詞進行分類。實驗中選取了目標(biāo)詞的詞根、詞形、目標(biāo)詞的依存類型集合、子節(jié)點和父節(jié)點集合作為特征,在FrameNet語料上取得了較好的結(jié)果。該研究證明在一定程度上,依存句法特征可以提升框架消歧的準確率。Li等[8]針對漢語框架消歧提出了基于依存分析的條件隨機場模型,首次將框架消歧問題看作是一個序列標(biāo)注問題,框架識別效果較好。該研究初步驗證了條件隨機場序列標(biāo)注模型在框架消歧任務(wù)中的有效性。劉海靜[9]將框架消歧分別看作是序列標(biāo)注和分類問題,利用SVM模型和T-CRF模型的框架消歧結(jié)果進行對比。實驗證明了T-CRF模型相較于SVM模型來說在漢語框架消歧任務(wù)中可以得到較好的結(jié)果。李濟洪[10]等將框架消歧看作是分類問題,選取了詞、詞性、基本塊和依存句法樹上的特征,用最大熵模型進行框架消歧。該模型得到最好的結(jié)果是69.28%。李國臣等[11]認為人工特征選擇方法不能有效利用每個目標(biāo)詞的語義特征,因此針對漢語框架消歧問題提出了特征模板自動選擇算法,利用最大熵模型建模,取得了較好的結(jié)果。
綜合上述研究可以發(fā)現(xiàn),傳統(tǒng)的單分類模型比較依賴統(tǒng)計模型的性能及參數(shù)設(shè)置。并且,分類模型將目標(biāo)詞看作獨立的個體進行分類,無法利用目標(biāo)詞之間的隱性聯(lián)系。另外,特征標(biāo)記被認為相互獨立,特征之間的關(guān)聯(lián)性較小。因此針對以上問題本文提出了基于SVM和CRF雙層模型的框架消歧方法。與以往的研究不同的是,該方法融合了雙層模型不同標(biāo)記間的聯(lián)系信息,建立起不同標(biāo)記序列間的信息交互,有效解決了無法提取目標(biāo)詞之間的隱性特征和特征之間無關(guān)聯(lián)的問題。本文研究的是使用SVM和CRF雙層模型對于FrameNet框架消歧的有效性。
SVM是建立在統(tǒng)計學(xué)習(xí)的VC理論和結(jié)構(gòu)風(fēng)險最小化原則上的[12],善于處理小樣本、非線性及高維模式識別問題,是目前機器學(xué)習(xí)中最常用且性能表現(xiàn)較好的一個分類器。在本文的研究中主要討論的是將SVM模型用于為待消歧目標(biāo)詞分類。
假設(shè)訓(xùn)練數(shù)據(jù)集為T={(x1,y1),(x2,y2),…,(xm,ym)},其中xi∈輸入空間,yi∈{-1,+1}是xi的標(biāo)記,i=1,2,…,n。如果xi屬于正類,則將yi標(biāo)記為+1;否則將yi標(biāo)記為-1。SVM的任務(wù)就是尋找能夠?qū)⒂?xùn)練數(shù)據(jù)劃分為兩類的最優(yōu)超平面,即求解下面公式(1)的凸二次規(guī)劃方程:
針對本文的框架消歧任務(wù)來說,每個待消歧詞元可以激起的框架不止一個,因此可以將框架消歧任務(wù)看作是一個多分類的問題,采用“一對一(One versus One)”的策略構(gòu)造多分類器。SVM模型識別的對象是FrameNet例句中的待消歧目標(biāo)詞,將這些詞的語義特征提取成支持向量集,計算其到超平面的距離,如果得到了大于0的值,則意味著是+1類,否則為-1類。
條件隨機場(CRF)模型是由Lafferty等人于2001年提出的,它是基于最大熵模型和隱馬爾可夫模型的判別式概率無向圖學(xué)習(xí)模型,其中線性條件隨機場(CRFs)是最簡單的一種。
給定一個觀測序列X={X1,X2,…,Xn},Y={y1,y2,…,yn}為X對應(yīng)的狀態(tài)序列,CRF模型如圖1所示。
圖1 CRF模型結(jié)構(gòu)圖Fig.1 Structure diagram of CRF model
CRFs定義其對應(yīng)狀態(tài)序列的條件概率為:
在訓(xùn)練過程中,通過訓(xùn)練數(shù)據(jù)集并使用最大似然估計獲得條件概率模型;解碼時采用Viterbi解碼算法,對于給定的條件序列X,求出條件概率最大的輸出序列Y*。
特別地,CRF可以很好地利用上下文信息且一般用于序列標(biāo)注任務(wù),是目前主流的序列標(biāo)注模型。對于本文研究的框架消歧任務(wù)來說,目標(biāo)詞的上下文信息對于消歧結(jié)果非常重要,但是框架消歧是針對有歧義目標(biāo)詞為其分配合適的框架,并不是一個典型的序列標(biāo)注任務(wù)。因此,為了將框架消歧任務(wù)換成一個序列標(biāo)注的問題,本文將每個待消歧目標(biāo)詞所屬的正確框架分配給該目標(biāo)詞,其他目標(biāo)詞被標(biāo)記為“O”,這樣就可以實現(xiàn)基于CRF模型的框架消歧方法。
對于傳統(tǒng)的單模型方法來說,大部分研究采用了分類的思想對歧義目標(biāo)詞進行分類。然而單分類模型沒有考慮到目標(biāo)詞之間的聯(lián)系,導(dǎo)致隱性特征難以被提取、特征之間的關(guān)聯(lián)性較小,并且分類結(jié)果比較依賴于分類模型的性能及參數(shù)的設(shè)置。
針對上述不足,本文提出了基于SVM和CRF雙層模型的框架消歧方法。在雙層模型的第一層采用SVM模型對語料進行粗分類并得到語料的分類標(biāo)簽;然后將分類標(biāo)簽作為新的特征與原有的語義特征結(jié)合,在雙層模型的第二層利用CRF模型進行序列標(biāo)注,最終獲取到待消歧目標(biāo)詞最合適的框架。具體的實現(xiàn)過程分為兩個步驟(兩層):
(1)利用SVM模型對文本序列的特征向量進行粗分類,得到文本中對應(yīng)待消歧目標(biāo)詞的分類標(biāo)簽序列,并且使用分類標(biāo)簽對文本序列進行預(yù)標(biāo)注,標(biāo)簽集?1={labeli,O},i=1,2,…,n。其中l(wèi)abeli表示待消歧目標(biāo)詞對應(yīng)的標(biāo)簽,O表示其他詞。
(2)將SVM分類標(biāo)簽作為特征加入CRF模型的特征模板,為已經(jīng)預(yù)標(biāo)注的文本序列標(biāo)注其對應(yīng)的框架名稱,標(biāo)簽集?2={F,O},其中F表示待消歧目標(biāo)詞激起的正確框架名稱,O表示其他詞。
在本文的FrameNet框架消歧任務(wù)中,將文本的特征向量輸入到SVM模型中,利用SVM模型將文本分類并且得到文本中語料的分類標(biāo)簽label。通過第一層SVM分類得到的分類標(biāo)簽label,可以得到文本的一個分類標(biāo)簽序列L={L1,L2,…,Ln},輸入序列X為FrameNet文本序列,輸出序列Y為文本對應(yīng)的標(biāo)簽序列。將分類標(biāo)簽序列L和輸入序列X共同作為CRF模型的輸入。在隨機變量X取值為x,隨機變量L取值為l的條件下,隨機變量Y的條件概率為:
在給定輸入序列X={x1,x2,…,xn}的情況下最大化輸出標(biāo)簽序列Y的聯(lián)合條件概率的似然估計,最大可能的標(biāo)記序列為:
從定義可以看出基于SVM和CRF的雙層模型將分類標(biāo)簽作為特征加入勢函數(shù)中,可以融合雙層模型不同標(biāo)記間的聯(lián)系信息,建立起不同標(biāo)記序列間的信息交互,將相互獨立、沒有信息交互的序列聯(lián)系到了一起,解決了特征之間無關(guān)聯(lián)的問題,豐富了特征模板。
雙層模型的算法實現(xiàn)具體步驟如下:
(1)輸入:FrameNet語料序列X={X1,X2,…,Xn}。
(2)抽取特征集F={f1,f2,…,fn}。
(3)利用SVM模型對文本的特征向量進行粗分類,得到SVM模型的分類標(biāo)簽序列L={L1,L2,…,Ln}。
(4)將分類標(biāo)簽label作為特征增加到CRF模型特征模板當(dāng)中,此時抽取的特征集為F*={f1,f2,…,fn,label}。
(5)將語料序列X、SVM模型的分類標(biāo)簽序列L及文本特征F*輸入到CRF模型,得到第二層的標(biāo)注序列
Y={Y1,Y2,…,Yn}。
(6)輸出:標(biāo)注結(jié)果。
基于SVM和CRF的雙層框架消歧模型系統(tǒng)分析流程圖如圖2所示。
圖2 雙層模型系統(tǒng)分析流程圖Fig.2 Analysis flow chart of two-stage model system
SVM模型特征主要包括兩個方面,分別是詞性和依存句法關(guān)系。提取文本中句子的詞性特征及依存句法特征時分別使用了Stanford大學(xué)的自然語言處理工具stanford-postagger及stanford-parser。
以目標(biāo)詞“CAN”為例,特征提取及選擇步驟的具體示例如下:
例句1Breakfast came with tea in petrol CANS.
將例句進行依存句法分析后可以得到一棵依存句法樹,如圖3所示。
圖3 依存句法樹Fig.3 Dependency syntax tree
依存句法樹中的葉子節(jié)點對應(yīng)著句子中的單詞,圖3中的ROOT表示要處理的句子,S表示陳述句。在依存句法分析樹中,對于句子中的每個單詞或短語所充當(dāng)?shù)某煞侄加忻鞔_的標(biāo)記,這些功能符號都具有對應(yīng)的含義。表1顯示了部分常用的各種標(biāo)記及其功能。
表1 依存句法樹中常用的標(biāo)記及其功能Table 1 Tags and their functions commonly used in dependency syntax trees
在依存句法樹中每個葉子節(jié)點所表示的單詞與其父節(jié)點之間存在著依存句法關(guān)系。本文所選取的依存句法關(guān)系(DEP)包括:nmod(復(fù)合名詞)、conj(并列成分)、nsubj(名詞性主語)、amod(形容詞)、dobj(直接賓語)、case(介賓短語)這六種。
因SVM分類模型針對的是待消歧的目標(biāo)詞,通過訓(xùn)練后得到的模型對目標(biāo)詞進行預(yù)測框架類型,所以只需要考慮與待消歧目標(biāo)詞關(guān)系密切的文本特征即可。本文選擇目標(biāo)詞、目標(biāo)詞前后位置的詞、目標(biāo)詞的詞性、目標(biāo)詞前后位置的詞性、目標(biāo)詞的父子節(jié)點的詞性、目標(biāo)詞前后位置詞的父子節(jié)點的詞性、目標(biāo)詞與父節(jié)點的依存句法關(guān)系、目標(biāo)詞與子節(jié)點的依存句法關(guān)系、目標(biāo)詞前后位置詞與其父節(jié)點的依存句法關(guān)系及目標(biāo)詞前后位置詞與其子節(jié)點的依存句法關(guān)系作為SVM模型的特征,從而將一個句子轉(zhuǎn)化成特征向量。例句1待消歧目標(biāo)詞“CANS”在窗口大小為[-1,1]范圍的句子分析結(jié)果如表2所示。
表2 例句分析結(jié)果Table 2 Analysis results of example
CRF模型中比較重要的一步就是選取合適的特征構(gòu)成特征模板。本文使用了開源工具包CRF++(V0.58)對語料進行框架消歧的訓(xùn)練和測試。CRF++工具包的特征模板格式為:%[row,col],其中row和col表示相對的行偏移和列偏移,當(dāng)前標(biāo)記值的行偏移和列偏移均為0。該格式不僅可以表示原子特征,還可以表示復(fù)合特征,格式為:%[row1,col1]/%[row2,col2]。
實驗選取了詞、詞性、依存句法關(guān)系,及由SVM模型輸出的分類標(biāo)簽作為特征進行實驗。CRF模型實驗中原子特征如表3所示,其中i=-3,-2,-1,1,2,3。
表3 CRF模型的原子特征Table 3 Atomic features of CRF model
利用原子特征進行組合,構(gòu)建組合特征,能夠更好地利用待消歧目標(biāo)詞的上下文信息,使得CRF模型能夠獲取上下文中更多隱性特征,進而能夠提高框架消歧的準確率。具體的組合特征如表4所示。
表4 CRF模型組合特征Table 4 Combination features of CRF model
綜合以上原子特征及組合特征構(gòu)建了CRF模型的特征模板,本文CRF模型的實驗中特征模板如表5所示。
表5 特征模板設(shè)置Table 5 Feature template setting
本文在訓(xùn)練SVM模型時使用了sklearn工具包進行實驗,并且使用了其中的SVC函數(shù)。根據(jù)文獻[9]可知,在SVM對待消歧目標(biāo)詞進行分類時可以選擇線性核函數(shù)和非線性核函數(shù)(高斯核函數(shù)、多項式核函數(shù)、sigmoid核函數(shù))進行實驗,其實驗結(jié)果顯示如果參數(shù)設(shè)置比較合理的話,多項式核的結(jié)果是最優(yōu)的。但是考慮到多項式核函數(shù)由于其參數(shù)設(shè)置過多,在參數(shù)訓(xùn)練中增加了難度,也增加了時間復(fù)雜度,因此選擇框架消歧結(jié)果與其相差不大的線性核函數(shù)。
在訓(xùn)練CRF模型時使用了開源工具包CRF++(V0.58),并且設(shè)置了6組特征模板進行實驗,充分利用了SVM模型對語料進行粗分類以后得到的分類標(biāo)簽,使得標(biāo)簽進一步輔助CRF進行序列標(biāo)注任務(wù)。
針對FrameNet框架消歧任務(wù),本文從FrameNet語料庫中選擇了18個具有代表性的能夠激起多個框架的詞元、共2 614條例句,及49個框架,語料分布情況如表6所示。對獲取的FrameNet語料過濾垃圾串,例如:無效字符及URL鏈接等。并且將預(yù)處理后的語料分別轉(zhuǎn)化為CRF++和sklearn包所要求的訓(xùn)練格式。
表6 語料分布情況Table 6 Distribution of corpus
目前交叉驗證在機器學(xué)習(xí)的研究中被廣泛應(yīng)用,尤其是在SVM模型的評測中經(jīng)常出現(xiàn)該評價方法[13]。由于交叉驗證可以在一定程度上減小過擬合并且能從有限的數(shù)據(jù)中獲得更多有效的信息,因此本文采用交叉驗證的方法對FrameNet框架消歧結(jié)果計算準確率,以評價實驗結(jié)果。
給定一個目標(biāo)詞Targeti(i=1,2,…,n),n為選擇的詞元總數(shù)(本文選擇個數(shù)n=10),在5-fold交叉驗證實驗CVj(j=1,2,…,5)下,目標(biāo)詞的分類準確率評價指標(biāo)如下面的公式(8)所示:
其中,Nij是目標(biāo)詞Targeti的例句均分為5份后,取第j份作為測試例句的數(shù)目,Cij是目標(biāo)詞Targeti的測試例句中框架標(biāo)注正確的例句個數(shù)。
4.3.1 支持向量機模型(SVM)、條件隨機場模型(CRF)與最大熵模型(ME)的實驗結(jié)果對比及分析
為了測試傳統(tǒng)的框架消歧模型在FrameNet語料上的性能,本文使用SVM模型[7]、ME模型[10]、CRF模型對18個待消歧目標(biāo)詞進行實驗,并且計算在不同模型下的框架消歧準確率,結(jié)果如表7所示。
表7 單分類模型下的框架消歧結(jié)果對比Table 7 Comparison of frame disambiguation results under single classification model
由表7的結(jié)果可以看出,CRF模型在消歧結(jié)果上會比SVM模型準確率略高。CRF模型的框架消歧準確率最高可以達到77.43%,而SVM模型的最優(yōu)框架消歧準確率為75.71%,與CRF模型相比低了1.72個百分點。因此可以看出在處理小樣本數(shù)據(jù)時,CRF模型較SVM模型來說準確率略有提升,但是不明顯,原因可能是上下文信息中含有噪聲。ME模型與CRF模型和SVM模型相比較,最優(yōu)框架消歧準確率較低,僅為69.28%,比CRF模型和SVM模型分別低了8.15和6.43個百分點,說明ME模型在處理小樣本數(shù)據(jù)時性能明顯較差。
4.3.2 CRF模型的實驗結(jié)果及分析
表8列出了使用表5中設(shè)計的6個特征模板并且進行5-fold交叉驗證得到的CRF模型的實驗結(jié)果。由表8中的實驗結(jié)果可以得出以下結(jié)論:
表8 CRF特征模板實驗結(jié)果Table 8 Results of CRF feature template
(1)對比T1、T2模板可以看出,引入父節(jié)點的依存句法關(guān)系后,準確率明顯下降。這是因為當(dāng)前詞的父節(jié)點并不能對當(dāng)前詞產(chǎn)生關(guān)鍵的語義影響,反而父節(jié)點特征的加入會使得系統(tǒng)噪聲增加,影響了框架消歧的準確率。
(2)在加入分類標(biāo)簽的原子特征和組合特征(T4、T5)之后,相較于沒有增加分類標(biāo)簽的特征模板,框架消歧的準確率為82.66%、78.61%,較T1、T2模板準確率78.32%、70.68%有所提升。這是因為對于框架消歧任務(wù)來說,每個待消歧的目標(biāo)詞至少可以激起兩個以上的框架,要準確識別難度會比較大。經(jīng)過SVM分類后得到的分類標(biāo)簽本身就攜帶了大量目標(biāo)詞的分類信息,CRF模型可以充分利用觀察序列中的全部特征,因此可以在原本相互獨立的、沒有關(guān)聯(lián)的分類標(biāo)簽序列和語義特征序列之間建立信息交互,使分類標(biāo)簽與文本特征之間的相關(guān)性在一定程度上豐富了特征模板,進而可以提升框架消歧準確率。因此該實驗驗證了第一層SVM模型得到的分類標(biāo)簽特征對于本文提出的基于SVM和CRF的雙層模型來說可以在一定程度上提升框架消歧的準確率。
4.3.3 雙層模型的實驗結(jié)果及分析
為了驗證本文提出的基于SVM和CRF雙層模型的框架消歧方法比其他雙層模型的框架消歧準確率高,本文使用4.3.1小節(jié)提到的傳統(tǒng)的框架消歧模型進行組合,構(gòu)成三個雙層模型與本文使用的基于SVM和CRF雙層模型的框架消歧方法進行對比實驗,分別是ME+SVM、ME+CRF、CRF+CRF。本文基于SVM和CRF的雙層模型的框架消歧結(jié)果與其他雙層模型的框架消歧結(jié)果對比如表9所示。
表9 雙層模型框架消歧實驗結(jié)果對比Table 9 Comparison of disambiguation results of two-stage model
由表9的結(jié)果可以看出,ME+CRF模型的框架消歧準確率最低,對比ME+SVM模型來說準確率低了1.32個百分點,但是差別不明顯。原因在于在訓(xùn)練數(shù)據(jù)中除目標(biāo)詞以外的詞會被標(biāo)記為“O”,所以經(jīng)過特征選擇之后這種標(biāo)記被CRF模型學(xué)習(xí)到,就會在測試結(jié)果當(dāng)中出現(xiàn),導(dǎo)致一些本來應(yīng)該標(biāo)注為某一框架的目標(biāo)詞被錯誤地標(biāo)記為“O”,進而影響準確率。
CRF+CRF模型的準確率與ME+SVM、ME+CRF模型的準確率相比較會有所提升,分別增加了3.32和4.64個百分點。原因在于CRF模型相較于ME模型來說,CRF模型可以避免嚴格的獨立性假設(shè)和數(shù)據(jù)歸納偏置問題,還能夠建立起標(biāo)簽序列與文本特征序列之間的關(guān)聯(lián),提高了框架消歧的準確率。
表9中其他的復(fù)合模型與本文的基于SVM和CRF的雙層模型的框架消歧準確率進行比較,本文的雙層模型準確率較高。原因在于其他雙層模型僅僅是兩次序列標(biāo)注的簡單疊加,并沒有將兩層模型聯(lián)系起來。而本文提出的基于SVM和CRF雙層模型的框架消歧方法是將SVM分類之后產(chǎn)生的分類標(biāo)簽作為特征輸入到CRF模型中,將分類標(biāo)簽序列與文本特征序列融合,建立起不同標(biāo)記序列間的信息交互,解決了特征之間無關(guān)聯(lián)的問題,豐富了特征模板。
由于語料規(guī)模對框架消歧任務(wù)有一定影響,而且實驗中標(biāo)記的語料數(shù)量較多,因此針對以上提到的四個復(fù)合模型在實驗語料逐步擴大的情況下進行了對比實驗,實驗結(jié)果如圖4所示。從圖4可以看出,隨著語料規(guī)模的逐漸增加,四個復(fù)合模型的框架消歧準確率都會不斷提升,但是當(dāng)語料中的例句數(shù)達到700個例句之后,框架消歧結(jié)果逐漸趨于穩(wěn)定。圖4也側(cè)面證明了該研究中使用的框架消歧語料例句數(shù)可以滿足實驗的要求。
圖4 不同語料規(guī)模下模型最優(yōu)框架消歧準確率對比Fig.4 Com of optimal frame disambiguation accuracy of model under different corpus sizes
綜合來看,利用SVM模型得到的分類標(biāo)簽作為特征與原有的文本語義特征結(jié)合可以使得本文提出的雙層模型的框架消歧準確率達到82.66%,本文提出的方法在FrameNet框架消歧中取得了較好的效果。
本文在傳統(tǒng)的利用單個模型處理框架消歧任務(wù)的基礎(chǔ)上,選擇在分類任務(wù)中表現(xiàn)較好的SVM模型及在序列標(biāo)注任務(wù)中主流的CRF模型作為雙層模型的結(jié)構(gòu),利用分治的思想將框架消歧任務(wù)分解為對待消歧的目標(biāo)詞分類及序列標(biāo)注任務(wù)。結(jié)果也證明了本文提出的基于SVM和CRF的雙層模型可以在一定程度上將兩層模型的優(yōu)勢互補。一方面CRF模型能很好地利用目標(biāo)詞之間的隱性聯(lián)系,并且在特征選擇上充分利用了分類標(biāo)簽與文本特征之間的相關(guān)性,使得特征模板得以豐富;另一方面,SVM模型適合處理有限樣本的分類問題,并且可以獲得全局最優(yōu)值,因此提升了FrameNet語料框架消歧的準確率。通過實驗結(jié)果也證明了本文方法在處理FrameNet框架消歧任務(wù)上具有一定優(yōu)勢。
同時,F(xiàn)rameNet語料中還存在著豐富的文本信息,本文雖然利用了分類標(biāo)簽特征以提高框架消歧的準確率,但是特征的選擇還是很局限。今后可以將框架之間的關(guān)系和句子所在的段落或者篇章這些豐富的上下文信息引入到框架消歧的研究中,以進一步提升框架消歧的準確率。