李國臣,呂 雷,王瑞波,李濟(jì)洪,李 茹
(1. 太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;2. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3. 山西大學(xué) 計(jì)算中心,山西 太原 030006)
基于同義詞詞林信息特征的語義角色自動(dòng)標(biāo)注
李國臣1,2,呂 雷2,王瑞波3,李濟(jì)洪3,李 茹2
(1. 太原工業(yè)學(xué)院 計(jì)算機(jī)工程系,山西 太原 030008;2. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3. 山西大學(xué) 計(jì)算中心,山西 太原 030006)
該文使用同義詞詞林語義資源庫,以詞林中編碼信息為基礎(chǔ)構(gòu)建新的特征,使用條件隨機(jī)場(chǎng)模型,研究了漢語框架語義角色的自動(dòng)標(biāo)注。該文在先前的基于詞、詞性、位置、目標(biāo)詞特征的基礎(chǔ)上,在模型中加入不同的詞林信息特征,以山西大學(xué)的漢語框架語義知識(shí)庫為實(shí)驗(yàn)語料,研究了各詞林信息特征分別對(duì)語義角色邊界識(shí)別與分類的影響。實(shí)驗(yàn)結(jié)果表明,詞林信息特征可以顯著提高語義角色標(biāo)注的性能,并且主要作用在語義角色分類上。
語義角色標(biāo)注;同義詞詞林;條件隨機(jī)場(chǎng);正交表
自20世紀(jì)70年代末以來,中文信息處理進(jìn)入了快速發(fā)展時(shí)期,大致可分為兩個(gè)階段:分詞和詞性標(biāo)注以及句法語義分析階段。目前,中文信息處理的主要瓶頸是詞義、句義的表示和語義理解問題。
語義角色標(biāo)注(Semantic Role Labeling,SRL)是淺層語義分析的一種實(shí)現(xiàn)方式,總結(jié)近幾年國內(nèi)外基于統(tǒng)計(jì)方法的語義角色標(biāo)注研究的內(nèi)容,主要可以歸結(jié)為特征提取及特征選擇的研究。在英文語義角色標(biāo)注中,Gildea等人[1]在語義角色標(biāo)注中使用了七個(gè)基本特征:謂詞、句法類型、次范疇框架、路徑、位置、語態(tài)和中心詞;Pradhan等人[2]在基本特征的基礎(chǔ)上引入了中心詞、詞性、謂詞類別、部分路徑等12種新特征。在之后的研究中,雖然Xue等人[3]對(duì)組合特征進(jìn)行了嘗試,但這些特征也都是在基本特征集合上面進(jìn)行的。
在中文語義角色標(biāo)注實(shí)驗(yàn)中,大多效仿英文的做法,劉挺等人在文獻(xiàn)[4]中用最大熵分類器對(duì)句子中謂詞的語義角色同時(shí)進(jìn)行識(shí)別和分類;李濟(jì)洪[5]的正交表選特征的方法在語義角色標(biāo)注技術(shù)得到了有效地應(yīng)用;在文獻(xiàn)[6-7]中,劉懷軍,李世奇等人針對(duì)中文的特點(diǎn),在英文語義角色標(biāo)注特征的基礎(chǔ)上,提出了一些更有效的新特征和組合特征;而Sun等人在文獻(xiàn)[8]中也將英文中短語結(jié)構(gòu)句法分析的特征移植到中文語義角色標(biāo)注上,然后利用在賓州中文樹庫上訓(xùn)練的Collins句法分析器進(jìn)行句法分析,并利用SVM分類器在手工標(biāo)注的小規(guī)模語料上進(jìn)行了實(shí)驗(yàn)。這些工作基本上都是用不同的機(jī)器學(xué)習(xí)方法,針對(duì)基本特征及其組合對(duì)語義角色標(biāo)注進(jìn)行了研究。
從以上文獻(xiàn)可以發(fā)現(xiàn),目前在語義角色標(biāo)注任務(wù)上所使用的特征中,謂詞、中心詞以及謂詞的前一個(gè)詞、后一個(gè)詞在標(biāo)注任務(wù)中起著重要的作用,但這些特征在使用的過程中,存在嚴(yán)重的詞特征稀疏問題[9-10]。緩解詞特征的稀疏問題應(yīng)有助于提高標(biāo)注器的性能。
《同義詞詞林》是一部優(yōu)秀的漢語詞義分類詞典,它通過對(duì)詞進(jìn)行編碼,許多同義詞、近義詞將會(huì)被編為一類,在語義角色標(biāo)注中引入《同義詞詞林》語義資源,提取相應(yīng)特征,將改善訓(xùn)練集和測(cè)試集中詞特征的稀疏性,使語義角色標(biāo)注任務(wù)有可能提高。
《同義詞詞林》按照樹狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起,把詞匯分成大、中、小三類,大類有12個(gè),中類有97個(gè),小類有1 400個(gè)。每個(gè)小類里都有很多的詞,這些詞有根據(jù)詞義的遠(yuǎn)近和相關(guān)性分成了若干個(gè)詞群(段落)。每個(gè)段落中的詞語又進(jìn)一步分成了若干個(gè)行,同一行的詞語要么詞義相同(有的詞義十分接近),要么詞義有很強(qiáng)的相關(guān)性。小類中的段落可以看作第四級(jí)的分類,段落中的行可以看作第五級(jí)的分類。這樣,詞典《同義詞詞林》就具備了五層結(jié)構(gòu)。例如,
Ba01A02= 物質(zhì) 質(zhì) 素
Cb02A01= 東南西北 四方
Ba01A03@ 萬物
Cb06E09@民間
Ba01B08# 固體 液體 氣體 流體 半流體
Ba01B10# 導(dǎo)體 半導(dǎo)體 超導(dǎo)體
具體的標(biāo)記參見表1。
表1 詞語編碼表
表1中的編碼位是按照從左到右的順序排列。第八位的標(biāo)記有三種,分別是“=”、“#”、“@”,“=”代表“相等”、“同義”。末尾的“#”代表“不等”、“同類”,屬于相關(guān)詞語。末尾的“@”代表“自我封閉”、“獨(dú)立”,它在詞典中既沒有同義詞,也沒有相關(guān)詞。本文將以詞林對(duì)詞的編碼信息,提取不同特征,以提高標(biāo)注的性能。
目前,國內(nèi)語義角色標(biāo)注的研究中,同義詞詞林的語義信息的研究還為數(shù)不多,本文在李濟(jì)洪[10]所選特征基礎(chǔ)上,融入同義詞詞林信息,使用條件隨機(jī)場(chǎng)模型建立漢語框架語義角色標(biāo)注模型,并使用統(tǒng)計(jì)正交表的特征模板優(yōu)選方法[5]進(jìn)行語義角色標(biāo)注的研究。
本文結(jié)構(gòu)如下:第二節(jié)給出漢語框架語義角色標(biāo)注的任務(wù)描述;第三節(jié)說明相應(yīng)的特征提取及選擇方法;第四節(jié)給出實(shí)驗(yàn)結(jié)果及分析;最后對(duì)全文進(jìn)行總結(jié),并給出下一步的研究方向。
考慮到漢語框架CFN的建設(shè)仍然屬于初始階段,可用的語料規(guī)模還比較小。為此,本文的CFN語義角色(框架元素)標(biāo)注的任務(wù)定為:對(duì)給定的一個(gè)漢語句子,在已知目標(biāo)詞及其所屬框架的前提下,自動(dòng)識(shí)別語義角色的邊界,標(biāo)出該目標(biāo)詞所支配的語義角色(框架元素,包括核心框架元素、非核心框架元素及通用語義角色)。
通過BIO標(biāo)注策略,將語義角色標(biāo)注看作是以詞為基本標(biāo)注單位的序列標(biāo)注問題。其標(biāo)記集合可表示為式(1)。
(1)
這里FESet為給定目標(biāo)詞的所屬框架的框架元素。本文可以使用條件隨機(jī)場(chǎng)(Conditional Random Fields,CRFs)模型對(duì)漢語框架語義角色標(biāo)注進(jìn)行處理。
條件隨機(jī)場(chǎng)(CRFs)模型是由Lafferty[11]在2001年提出的一種典型的判別式模型。它在觀測(cè)序列的基礎(chǔ)上對(duì)目標(biāo)序列進(jìn)行建模,重點(diǎn)解決序列化標(biāo)注的問題。條件隨機(jī)場(chǎng)模型既具有判別式模型的優(yōu)點(diǎn),又具有產(chǎn)生式模型那樣要考慮到上下文標(biāo)記間的轉(zhuǎn)移概率,以序列化形式進(jìn)行全局參數(shù)優(yōu)化和解碼的特點(diǎn),解決了其他判別式模型(如最大熵馬爾科夫模型)難以避免的標(biāo)記偏置問題。
不同于傳統(tǒng)的分類問題,序列標(biāo)注任務(wù)有著獨(dú)特的特點(diǎn)。本文采用CRF模型,主要考慮到以下特點(diǎn)。
1) CRF模型是解決序列標(biāo)注和分割問題的,而語義角色標(biāo)注任務(wù)通過BIO策略可轉(zhuǎn)化為序列標(biāo)注問題。
2) 序列標(biāo)注模型中,一個(gè)序列中的每個(gè)標(biāo)注單位有著較強(qiáng)的相關(guān)性,而序列和序列之間是獨(dú)立的。很多研究者在進(jìn)行序列標(biāo)注時(shí),假設(shè)序列中的每個(gè)元素之間是獨(dú)立同分布的,并將序列標(biāo)注任務(wù)看作是對(duì)每個(gè)序列中每個(gè)元素進(jìn)行單點(diǎn)分類任務(wù)。在此基礎(chǔ)上,使用最大熵或者支撐向量機(jī)模型進(jìn)行訓(xùn)練。顯然,這樣的假設(shè)不太符合實(shí)際。而條件隨機(jī)場(chǎng)模型便考慮到了元素之間的相關(guān)性,并將一個(gè)序列看作是一個(gè)整體。
3) 正是由于序列之間各個(gè)元素具有相關(guān)性,開窗口技術(shù)才被廣泛用于序列標(biāo)注問題,而相應(yīng)窗口大小的選擇也是應(yīng)當(dāng)考慮的。
本文考慮到漢語框架語義角色標(biāo)注模型的構(gòu)造及其特點(diǎn)滿足以上特點(diǎn),故使用CRF模型,以期達(dá)到較好的標(biāo)注結(jié)果。
事實(shí)上,模型特征是影響機(jī)器學(xué)習(xí)性能的重要因素。構(gòu)建良好的特征,以及特征信息的有效利用是提高機(jī)器學(xué)習(xí)性能的關(guān)鍵。
3.1 特征提取
本文假設(shè)語料庫中的漢語句子已經(jīng)經(jīng)過了正確的分詞、詞性標(biāo)注,并且已經(jīng)識(shí)別出正確的目標(biāo)詞和相應(yīng)的框架信息。再以哈爾濱工業(yè)大學(xué)信息檢索中心的《同義詞詞林》為依托,自動(dòng)為每個(gè)句子的每個(gè)詞語標(biāo)上同義詞詞林編碼,根據(jù)編碼的層級(jí)提取出五種詞林信息。從給定的這些信息中,本文可以總結(jié)出如表2所示的幾種特征。
表2 詞層面特征與詞林信息特征描述
續(xù)表
根據(jù)目前語料庫的狀況,候選特征除了以上九個(gè)特征以外,還有這些特征的二元組合、三元組合特征, 這些特征的兩兩組合特征。本文將這些特征的窗口大小限定在三以內(nèi)??蛇x窗口大小的表示與文獻(xiàn)[10]中表1相同。
3.2 特征選擇
本文以文獻(xiàn)[10]中基于詞特征的語義角色標(biāo)注實(shí)驗(yàn)為Baseline系統(tǒng),將五種詞林信息特征(F5,F(xiàn)6,F(xiàn)7,F(xiàn)8,F(xiàn)9)逐一替換Baseline系統(tǒng)中的詞特征進(jìn)行試驗(yàn),得到的系統(tǒng)記為CL1、CL2、CL3、CL4、CL5。
考慮到特征的組合數(shù)非常龐大,以Baseline系統(tǒng)為例,所有特征的不同窗口大小組合可以構(gòu)成410×2種特征模板,在所有模板上進(jìn)行訓(xùn)練、測(cè)試,顯然不現(xiàn)實(shí)。因此,文獻(xiàn)[10]中提出使用正交表L32(49×24)來進(jìn)行特征選擇。具體方法可參見文獻(xiàn)[10]中的描述。
本文在文獻(xiàn)[10]的Baseline系統(tǒng)基礎(chǔ)上,為了進(jìn)一步的驗(yàn)證詞林信息特征對(duì)語義角色標(biāo)注結(jié)果的影響,采用李濟(jì)洪在文獻(xiàn)[11]中提出基于分批正交表特征模板選優(yōu)方案,對(duì)系統(tǒng)Baseline+CL(Baseline所選特征與所有詞林信息的組合)進(jìn)行了特征選擇。第二個(gè)正交表采用L54(21×325)。
該方案是在Baseline系統(tǒng)標(biāo)注結(jié)果最好的模板的基礎(chǔ)上,再確定下一個(gè)正交表中的特征的窗口。即后部分實(shí)驗(yàn)需要在前部分32個(gè)實(shí)驗(yàn)選出最優(yōu)模板的基礎(chǔ)上,再確定L54(21×325)表中的水平所對(duì)應(yīng)的窗口。實(shí)驗(yàn)方案能確保新選模板的性能不低于Baseline系統(tǒng)所選出的最優(yōu)模板。詳見文獻(xiàn)[5]中描述。實(shí)驗(yàn)所設(shè)系統(tǒng)如表3所示。
表3 實(shí)驗(yàn)所設(shè)系統(tǒng)
4.1 語料來源
為了能夠得到與文獻(xiàn)[10]中可以對(duì)比的實(shí)驗(yàn)結(jié)果,本文采用與文獻(xiàn)[10]相同的語料,該語料包含25個(gè)框架,這25個(gè)框架來自于“認(rèn)知”領(lǐng)域和其他領(lǐng)域,包含6 692條正確標(biāo)注的句子。由于目前語料規(guī)模不大,本文采用三組2-fold 交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),即任取兩份作為訓(xùn)練集,其他兩份作為測(cè)試集,這樣共可以做三組2-fold交叉驗(yàn)證。最終的評(píng)價(jià)指標(biāo)以三組交叉驗(yàn)證實(shí)驗(yàn)的F-值的平均值來評(píng)價(jià)標(biāo)注模型的性能。本文對(duì)于三組2-fold交叉驗(yàn)證中的詞信息進(jìn)行了統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表4所示。
表4 語料中詞信息統(tǒng)計(jì)結(jié)果
從表4我們可以發(fā)現(xiàn),在語義角色標(biāo)注實(shí)驗(yàn)中,測(cè)試集中有一半左右的詞信息沒有出現(xiàn)在訓(xùn)練集中,相應(yīng)的詞特征稀疏問題嚴(yán)重。本文使用同義詞詞林信息特征后,經(jīng)統(tǒng)計(jì),詞林信息特征的特征數(shù)得到有效的縮減,如表5所示。
表5 特征數(shù)統(tǒng)計(jì)結(jié)果
詞林信息特征的引入為語料中詞義相近的詞搭建了橋梁,使訓(xùn)練語料與測(cè)試語料中共現(xiàn)特征數(shù)量大幅度的增多。
4.2 評(píng)價(jià)方法
4.2.1 評(píng)價(jià)指標(biāo)
正確識(shí)別一個(gè)語義角色塊指的是語義角色塊的邊界正確,并且語義角色塊的類型也識(shí)別正確。為此,本文使用準(zhǔn)確率(Precision),召回率(Recall)和F-值(F-Score)來評(píng)價(jià)漢語框架語義角色標(biāo)注模型的性能。
假設(shè)模型標(biāo)注出的語義角色塊數(shù)為Cp,其中正確的塊(左右邊界正確,且語義角色類型正確)數(shù)目為Cc,測(cè)試集中的語義角色塊的數(shù)目為Co,那么,準(zhǔn)確率如式(2)所示。
(2)
召回率如式(3)所示。
(3)
F值如式(4)所示。
(4)
最終以三組2-fold交叉驗(yàn)證的平均F-值(記為mF)來評(píng)價(jià)模型的性能。
4.2.2 顯著性檢驗(yàn)
因?yàn)橛须S機(jī)誤差因素存在,傳統(tǒng)的直接用F-值的平均值來評(píng)判系統(tǒng)優(yōu)劣的方法是不恰當(dāng)?shù)?。?yīng)當(dāng)構(gòu)造合理的統(tǒng)計(jì)檢驗(yàn)來實(shí)施正確推斷。在語義角色標(biāo)注的相關(guān)文獻(xiàn)中,常常需要分析新加入某個(gè)特征對(duì)系統(tǒng)性能的影響是否顯著,每類特征重要性的分析一般是在基線模型B的基礎(chǔ)上,加入某類特征X得到模型A進(jìn)行實(shí)驗(yàn),然后對(duì)模型A和B進(jìn)行t檢驗(yàn),來評(píng)判特征X的重要程度(是否顯著)。在給定的一組交叉驗(yàn)證的實(shí)驗(yàn)下,如果將評(píng)價(jià)指標(biāo)F-值近似看作服從正態(tài)分布,相應(yīng)的檢驗(yàn)統(tǒng)計(jì)量的構(gòu)造主要是其方差的估計(jì)。為此,本文利用文獻(xiàn)[12]中給出的3×2交叉驗(yàn)證下方差的估計(jì)以及t-檢驗(yàn)方法。下面簡要敘述顯著性檢驗(yàn)的方法。
假設(shè)系統(tǒng)A,系統(tǒng)B(Baseline系統(tǒng))在三組2-fold交叉驗(yàn)證下的平均F-值為mFA,mFB,記式(5)。
(5)
這個(gè)問題的正確的假設(shè)檢驗(yàn)提法為:
基于分批正交表實(shí)驗(yàn)時(shí),由于實(shí)驗(yàn)的配置特點(diǎn)確保模型A的結(jié)果不會(huì)低于模型B的結(jié)果,因此檢驗(yàn)應(yīng)為單邊檢驗(yàn):
原假設(shè)H0: CV3×2≥0
備選假設(shè)H1:CV3×2<0
其他情況下,檢驗(yàn)應(yīng)為雙邊檢驗(yàn):
原假設(shè)H0: CV3×2=0
備選假設(shè)H1:CV3×2≠0
兩種檢驗(yàn)均使用式(6)。
(6)
4.3 語義角色標(biāo)注邊界識(shí)別與角色分類同時(shí)做的實(shí)驗(yàn)結(jié)果
從表6中,本文可以得到如下幾點(diǎn)結(jié)論。
(1) 從表6中可以看出,在Baseline系統(tǒng)的基礎(chǔ)上加上CL信息,結(jié)果提高了0.69%,P-值結(jié)果為0.046,在α=0.05下是顯著的,證明詞林信息特征
表6 各系統(tǒng)與Baseline結(jié)果的對(duì)比
注:Baseline系統(tǒng)得到的實(shí)驗(yàn)結(jié)果(58.86%)與文獻(xiàn)[10]中不同,是因?yàn)楸疚膶?shí)驗(yàn)包含通用語義角色,文獻(xiàn)[10]中的實(shí)驗(yàn)不包含通用語義角色。
對(duì)語義角色標(biāo)注結(jié)果的提高有作用。
(2) 從五個(gè)加入不同的詞林信息特征系統(tǒng)的實(shí)驗(yàn)結(jié)果看出,CL3和CL4系統(tǒng)上比Baseline系統(tǒng)有顯著提高,說明詞林信息特征編碼選在第三或第四類較為合理。
再分別看25個(gè)框架下的詳細(xì)實(shí)驗(yàn)結(jié)果(表7)。
表7 25個(gè)框架下的所有系統(tǒng)的實(shí)驗(yàn)結(jié)果
續(xù)表
表7中最后一行的總計(jì)結(jié)果是在25個(gè)框架的測(cè)試集上的微平均的標(biāo)注準(zhǔn)確率、召回率和F-值,而不是25個(gè)框架的宏平均結(jié)果。從表7中,本文可以得到如下幾點(diǎn)結(jié)論。
(1) 在25個(gè)框架上總體的標(biāo)注F-值在Baseline+CL系統(tǒng)下可以達(dá)到59.55%,可以看出來,雖然總結(jié)果有所提高,但是從結(jié)果中可以發(fā)現(xiàn),只有八個(gè)框架的F-值有提升,并不是所有的結(jié)果都好于Baseline系統(tǒng)。初步分析,這可能主要是因?yàn)檎Z料相對(duì)較少的原因。
(2) 從CL1到CL5的結(jié)果看,25個(gè)框架中的11個(gè)框架在CL3時(shí)最大,7個(gè)在CL2最大,3個(gè)在CL4最大,4個(gè)在CL5最大,1個(gè)在CL1最大,說明詞林信息特征編碼選在第三類較為合理。
4.4 給定邊界下角色分類的實(shí)驗(yàn)結(jié)果
從前面的實(shí)驗(yàn)可以發(fā)現(xiàn),加入詞林信息特征對(duì)語義角色標(biāo)注性能的提高是顯著的,而語義角色標(biāo)注任務(wù)可以分為邊界識(shí)別和角色分類。下面將進(jìn)一步深入分析詞林信息特征分別對(duì)邊界識(shí)別和角色分類的影響。
在本節(jié)中,本文將給出給定邊界的情況下做語義角色分類的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)結(jié)果如表8所示。
表8 給定邊界的情況下做語義角色分類的實(shí)驗(yàn)結(jié)果
續(xù)表
表8中給出了Baseline系統(tǒng)以及詞林信息特征替換詞特征所得到的給定邊界下角色分類的平均F-值。從表8中可以得到以下結(jié)論。
(1) 詞林信息特征對(duì)角色分類有顯著作用。
(2) CL3最高,且與Baseline系統(tǒng)有顯著差異,說明詞林信息特征編碼選在第三類較為合理。
4.5 邊界識(shí)別實(shí)驗(yàn)結(jié)果
對(duì)于漢語框架語義角色的邊界識(shí)別,本文將25個(gè)框架的所有訓(xùn)練集進(jìn)行統(tǒng)一訓(xùn)練,并在測(cè)試集上進(jìn)行測(cè)試。表9中給出了六組實(shí)驗(yàn)的平均指標(biāo)。
表9 邊界識(shí)別的實(shí)驗(yàn)結(jié)果
表9中統(tǒng)計(jì)的是Baseline系統(tǒng)以及詞林信息特征替換詞特征所得的在25個(gè)框架的測(cè)試集上的微平均的標(biāo)注F-值。從表9中可以得到如下幾點(diǎn)結(jié)論。
(1) 從表中的結(jié)果可以看出,詞林信息特征替換詞特征所得到的邊界識(shí)別結(jié)果并不理想,說明詞林信息特征在邊界識(shí)別中的作用沒有詞特征的作用大。
(2) 在Baseline+CL系統(tǒng)中,邊界識(shí)別的性能比Baseline系統(tǒng)提高了0.19%,但并不顯著,說明詞林信息特征在邊界識(shí)別中的作用不大。
(3) 通過表6、表8、表9,可以得出,詞林信息特征的加入只對(duì)語義角色分類提高有顯著作用,對(duì)于邊界識(shí)別的作用不大。
從以上實(shí)驗(yàn)結(jié)果及分析中,可以看出,Baseline+CL系統(tǒng)的標(biāo)注結(jié)果最好,但CL包含了詞林信息特征的所有的各類編碼,特征的訓(xùn)練測(cè)試耗時(shí)。從CL1到CL5的實(shí)驗(yàn)結(jié)果中我們發(fā)現(xiàn),三類詞林信息特征的結(jié)果較好,因此,本文以分批正交表構(gòu)建Baseline+CL3系統(tǒng)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表10所示。
表10 Baseline+CL3系統(tǒng)實(shí)驗(yàn)結(jié)果
表10中可以看到,在顯著水平0.05下,數(shù)據(jù)顯示與上文中分析結(jié)果一致,這就是:
(1) Baseline+CL3系統(tǒng)比Baseline系統(tǒng)的標(biāo)注結(jié)果有顯著提高。
(2) 在給定邊界下的角色分類也有顯著提高。因此,詞林信息特征的加入作用主要在角色分類。
(3) Baseline+CL3系統(tǒng)的邊界識(shí)別與Baseline系統(tǒng)沒有顯著差異。
本文針對(duì)詞林信息特征,用交叉驗(yàn)證的方法對(duì)其在語義角色標(biāo)注中的作用做了深入的研究,并將詞林信息特征加入到Baseline系統(tǒng)中,與Baseline系統(tǒng)的標(biāo)注結(jié)果做了對(duì)比,研究表明,同義詞詞林信息一定程度上提高了語義角色標(biāo)注的結(jié)果,但是只在語義角色分類上作用顯著,而在邊界識(shí)別中的效果并不明顯,從而證明,詞林信息特征對(duì)語義角色標(biāo)注系統(tǒng)性能的提高有著一定的作用。
下一步,本文將對(duì)同義詞詞林信息做進(jìn)一步研究學(xué)習(xí),擬將同義詞詞林信息加入到句法分析中,以期得到更好的標(biāo)注結(jié)果。
致謝:本文采用了山西大學(xué)漢語框架網(wǎng)絡(luò)知識(shí)庫的語料資源,所使用的《同義詞詞林》是由哈爾濱工業(yè)大學(xué)信息檢索中心提供的,并且本文使用了山西省網(wǎng)絡(luò)科技環(huán)境高性能計(jì)算平臺(tái),在此表示衷心的感謝!
[1] Gildea D, Jurafsky D. Automatic Labeling of Semantic Roles[J]. Computational Linguistics. 2002,28(3): 245-288.
[2] Pradhan S, Hacioglu K, Krugler V, et al. Support vector learning for semantic argument classification[J]. Machine Learning Journal, 2005,60(3):11-39.
[3] Xue N, Palmer M. Calibrating features for semantic role labeling[C]//Proceedings of the EMNLP-2004, 2004: 88-94.
[4] Liu T, Che W X, Li S. Semantic role labeling with maximum entropy classifier[J]. Journal of Software, 2007,18(3):565-573.
[5] 李濟(jì)洪. 漢語框架語義角色的自動(dòng)標(biāo)注技術(shù)研究[D]. 山西大學(xué)博士學(xué)位論文, 2010.
[6] 劉懷軍, 車萬翔, 劉挺. 中文語義角色標(biāo)注的特征工程[J]. 中文信息學(xué)報(bào), 2007,21(1):75-80.
[7] 李世奇, 趙鐵軍, 李晗靜, 等. 基于特征組合的中文語義角色標(biāo)注[J]. 軟件學(xué)報(bào), 2011,22 (2):222-232.
[8] Sun H, Jurafsky D. Shallow semantic parsing of Chinese[C]//Proceedings of the NAACL 2004, Boston, USA, 2004: 249-256.
[9] 劉挺, 車萬翔, 李生. 基于最大熵分類器的語義角色標(biāo)注[J].軟件學(xué)報(bào),2007,18(3):565-573.
[10] 李濟(jì)洪, 王瑞波, 王蔚林, 等. 漢語框架語義角色的自動(dòng)標(biāo)注[J]. Journal of Software, 2010,21(4):597-611.
[11] Lafferty J, McCallum A, Pereira F. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the ICML-01, 2001:282-289.
[12] Wang Y, Wang R B, Jia H C, et al. Blocked 3×2 cross-validated t-test for comparing supervised classification learning algorithms[C]//Proceedings of the Submitted to Neural Computation. 2013.
Semantic Role Labeling Based on TongYiCi CiLin Derived Features
LI Guochen1,2,LV Lei2,WANG Ruibo3,LI Jihong3,LI Ru2
(1. Department of Computer Engineering, Taiyuan Institute of Technology, Taiyuan, Shanxi 030008,China; 2. School of Computer and Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China; 3. Computer Center, Shanxi University, Taiyuan, Shanxi 030006, China)
This paper presents an approach to label the semantic roles automatically by using a lexical resource named Tongyici Cilin, in which a CRFs model is constructed by a series of new features derived from the encoded information of Cilin. Compared with the features of word, part-of-speech and word positions, the proposed method investigates the Cilin features on the corpus of Chinese FrameNet (CFN), developed by Shanxi University to describe semantic knowledge. Experimental results show a significant improvement in the performance after adding the features of Cilin information.
semantic role labeling; TongYiCi CiLin; conditional random fields; orthogonal array
李國臣(1963—),教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E?mail:lgc1017@163.com呂雷(1988—),碩士,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E?mail:lvlei@sxu.edu.cn王瑞波(1985—),博士,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E?mail:wangruibo@sxu.edu.cn
1003-0077(2016)01-0101-07
2014-01-05 定稿日期: 2014-04-20
國家語委“十二五”科研規(guī)劃項(xiàng)目(YB125-19);國家自然科學(xué)基金(61373082);國家自然科學(xué)基金(60873128,60970053);山西省回國留學(xué)人員科研項(xiàng)目(2013-015),國家863高技術(shù)研究發(fā)展計(jì)劃(2006AA01Z142)
TP391
A