王瑞波,李濟(jì)洪,李國(guó)臣,楊耀文
(1.山西大學(xué) 軟件學(xué)院,山西 太原 030006;2.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3.太原工業(yè)學(xué)院 計(jì)算機(jī)科學(xué)系,山西 太原 030008;4.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)
基于Dropout正則化的漢語(yǔ)框架語(yǔ)義角色識(shí)別
王瑞波1,2,李濟(jì)洪1,李國(guó)臣3,楊耀文4
(1.山西大學(xué) 軟件學(xué)院,山西 太原 030006;2.山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;3.太原工業(yè)學(xué)院 計(jì)算機(jī)科學(xué)系,山西 太原 030008;4.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006)
漢語(yǔ)框架語(yǔ)義角色識(shí)別是漢語(yǔ)框架語(yǔ)義分析的重要任務(wù)之一。該文基于漢語(yǔ)詞語(yǔ)、詞性等特征的分布式表示,使用一種多特征融合的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)構(gòu)建漢語(yǔ)框架語(yǔ)義角色識(shí)別模型。鑒于可用的訓(xùn)練語(yǔ)料規(guī)模有限,該文采用了Dropout正則化技術(shù)來(lái)改進(jìn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程。實(shí)驗(yàn)結(jié)果表明,Dropout正則化的加入有效地緩解了模型的過(guò)擬合現(xiàn)象,使得模型的F值有了近7%的提高。該文進(jìn)一步優(yōu)化了學(xué)習(xí)率以及分布式表示的初始值,最終的漢語(yǔ)框架語(yǔ)義角色識(shí)別的F值達(dá)到70.54%,較原有的最優(yōu)結(jié)果提升2%左右。
漢語(yǔ)框架網(wǎng)絡(luò);語(yǔ)義角色識(shí)別;Dropout正則化;
語(yǔ)義角色標(biāo)注是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要的任務(wù)。給定一個(gè)句子中的目標(biāo)詞,語(yǔ)義角色標(biāo)注任務(wù)的目標(biāo)是自動(dòng)識(shí)別該目標(biāo)詞所支配的所有語(yǔ)義角色并標(biāo)注角色的類型。因此,高精度的語(yǔ)義角色標(biāo)注模型為后續(xù)的句義分析和篇章理解奠定了重要基礎(chǔ),也為機(jī)器翻譯、信息檢索、自動(dòng)文摘等應(yīng)用系統(tǒng)提供語(yǔ)義上的支持。
漢語(yǔ)框架網(wǎng)絡(luò)是一種重要的漢語(yǔ)詞語(yǔ)語(yǔ)義分析和理解的資源。它以框架語(yǔ)義學(xué)為背景,為詞語(yǔ)的框架語(yǔ)義分析以及后續(xù)的篇章理解提供了重要的理論依據(jù)以及形式化的方法。特別是,漢語(yǔ)框架網(wǎng)絡(luò)不僅使用框架來(lái)體現(xiàn)詞語(yǔ)的意義,并通過(guò)框架之間的依存關(guān)系來(lái)刻畫詞語(yǔ)之間的語(yǔ)義關(guān)系,還引入了核心依存圖來(lái)構(gòu)架一條漢語(yǔ)句子的句義骨架。從篇章的角度來(lái)看,F(xiàn)illmore針對(duì)英語(yǔ)在文獻(xiàn)[1]中給出了使用框架語(yǔ)義學(xué)進(jìn)行文本理解的一些重要理論分析成果。這非常值得漢語(yǔ)框架語(yǔ)義分析借鑒。然而,不管是漢語(yǔ)句子的句義構(gòu)架還是漢語(yǔ)文本的語(yǔ)義理解,所面臨的一個(gè)重要前提是構(gòu)建一個(gè)高精度的漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注模型。
目前,漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注模型的精度仍然較低。李濟(jì)洪等[2]以及宋毅君[3]等使用條件隨機(jī)場(chǎng)模型,將詞層面的特征以及句法塊層面的特征融合到漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注模型中。實(shí)驗(yàn)結(jié)果表明,目前的模型的自動(dòng)標(biāo)注精度不到70%(F值)。他們的深入分析表明,漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注模型任務(wù)的最大難點(diǎn)在于語(yǔ)義角色識(shí)別的精度較低。因此,在后續(xù)的研究中,他們將漢語(yǔ)框架自動(dòng)標(biāo)注任務(wù)分割成語(yǔ)句角色的識(shí)別和分類兩個(gè)子任務(wù),并著重對(duì)語(yǔ)義角色的識(shí)別進(jìn)行研究。
傳統(tǒng)的一些漢語(yǔ)框架語(yǔ)義角色識(shí)別模型,主要采用了條件隨機(jī)場(chǎng)、最大熵模型以及支撐向量機(jī)等機(jī)器學(xué)習(xí)算法。這些算法直接將詞、詞性等符號(hào)信息作為特征進(jìn)行使用。它們忽略了這些特征之間的語(yǔ)義相關(guān)性。另外,由于詞特征個(gè)數(shù)較多,導(dǎo)致模型的特征矩陣維度很高和模型的過(guò)擬合。
自2006年深度學(xué)習(xí)開始興起,很多研究者開始使用深度神經(jīng)網(wǎng)絡(luò)的技術(shù)來(lái)解決圖像識(shí)別、自然語(yǔ)言理解等領(lǐng)域的問題。對(duì)于自然語(yǔ)言處理來(lái)說(shuō),詞語(yǔ)的分布式表示技術(shù)受到很多研究者的青睞[4-5]。詞語(yǔ)分布式表示是將詞語(yǔ)、詞性等語(yǔ)言學(xué)上的符號(hào)表示成一些低維的實(shí)數(shù)向量;然后,通過(guò)實(shí)數(shù)向量的代數(shù)運(yùn)算,計(jì)算出詞語(yǔ)等語(yǔ)言學(xué)符號(hào)之間的語(yǔ)義關(guān)系。針對(duì)詞語(yǔ)的分布式表示信息,大量的學(xué)習(xí)模型被開發(fā)出來(lái),例如,C&W模型[6]等。
詞語(yǔ)分布式表示信息的引入,為語(yǔ)義角色識(shí)別模型的構(gòu)建提供了一個(gè)新的模式。Collobert等[4]給出了一種基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)義角色識(shí)別模型。該模型使用分布式表示信息將離散的詞、詞性等特征映射成低維的實(shí)數(shù)向量,并將該向量作為神經(jīng)網(wǎng)絡(luò)的輸入。該模型很大程度上解決了傳統(tǒng)模型中特征矩陣維度較高的問題。另外,該模型也有效地利用了分布式表示信息所蘊(yùn)含的詞語(yǔ)語(yǔ)義間的相關(guān)性。不過(guò),當(dāng)可用的訓(xùn)練語(yǔ)料較少時(shí),神經(jīng)網(wǎng)絡(luò)中很多待估參數(shù)無(wú)法得到有效的估計(jì),從而使語(yǔ)義角色識(shí)別模型產(chǎn)生嚴(yán)重的過(guò)擬合問題。
考慮到漢語(yǔ)框架語(yǔ)義角色識(shí)別的語(yǔ)料規(guī)模較小,結(jié)合神經(jīng)網(wǎng)絡(luò)模型的上述特點(diǎn),我們使用Dropout正則化來(lái)改進(jìn)神經(jīng)網(wǎng)絡(luò)算法的訓(xùn)練過(guò)程,進(jìn)而緩解漢語(yǔ)框架語(yǔ)義角色識(shí)別模型的過(guò)擬合現(xiàn)象。在第五節(jié),我們給出了使用Dropout正則化技術(shù)的識(shí)別模型。實(shí)驗(yàn)結(jié)果表明,加入Dropout正則化后,模型的識(shí)別性能有著顯著的改善,F(xiàn)值提升了近7%。
本文的主要工作在于:針對(duì)漢語(yǔ)框架語(yǔ)義角色識(shí)別任務(wù),基于一種多特征融合的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)構(gòu)建識(shí)別模型;然后,從Dropout正則化的訓(xùn)練方法、初始Embeddings的設(shè)置以及學(xué)習(xí)率的選擇等來(lái)優(yōu)化模型的訓(xùn)練過(guò)程。最終的漢語(yǔ)框架語(yǔ)義角色識(shí)別模型的F值達(dá)到70.54%,比宋毅君等[3]給出的最優(yōu)識(shí)別性能高出近2%。
本文的組織結(jié)構(gòu)如下:第二部分給出了漢語(yǔ)框架語(yǔ)義識(shí)別任務(wù)的介紹,并給出了分布式表示信息對(duì)模型性能改善的積極影響;第三部分提出了本文所使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并給出了Dropout正則化的訓(xùn)練方法;第四部分?jǐn)⑹隽藢?shí)驗(yàn)語(yǔ)料以及一些實(shí)驗(yàn)設(shè)置;第五部分給出了實(shí)驗(yàn)結(jié)果及相應(yīng)的分析;最后,對(duì)全文進(jìn)行了總結(jié),并給出了進(jìn)一步的研究方向。
漢語(yǔ)框架語(yǔ)義角色識(shí)別任務(wù)是指:給定一條漢語(yǔ)句子及目標(biāo)詞,在目標(biāo)詞的框架已知的條件下,從句子中自動(dòng)識(shí)別出目標(biāo)詞所搭配的語(yǔ)義角色的邊界。例如,對(duì)于漢語(yǔ)句子“英方面作為報(bào)復(fù)措施也宣布4名俄羅斯大使館的外交官為不受歡迎的人?!?,針對(duì)目標(biāo)詞“宣布”,人工給出的框架語(yǔ)義角色標(biāo)注如下:
上述標(biāo)注中,目標(biāo)詞“宣布”激起了“陳述”框架;在“陳述”框架所表達(dá)的語(yǔ)義場(chǎng)景中,“英方面”是說(shuō)話者(spkr),而“4名俄羅斯大使館的外交官為不受歡迎的人”為說(shuō)話者所要傳達(dá)的信息(msg)。在語(yǔ)義角色識(shí)別任務(wù)中,我們僅需要確定出“宣布”所搭配的語(yǔ)義角色為“英方面”和“4名俄羅斯大使館的外交官為不受歡迎的人”,不需要確定這兩個(gè)語(yǔ)義角色的類型。
一般來(lái)說(shuō),在進(jìn)行框架語(yǔ)義角色識(shí)別之前,我們會(huì)先對(duì)句子進(jìn)行分詞。由于中文的句法分析技術(shù)尚不成熟,本文僅考慮在詞層面進(jìn)行漢語(yǔ)框架語(yǔ)義角色識(shí)別的研究。對(duì)于一條已經(jīng)分好詞的漢語(yǔ)句子S=w1,w2,…,wn,我們可以使用標(biāo)記集合{I,O,B,E,S}將其對(duì)應(yīng)的語(yǔ)義角色邊界形式化成一個(gè)標(biāo)記序列T=t1,t2,…,tn,其中,wi和ti分別為句子S中的第i個(gè)詞及其邊界標(biāo)記,ti∈{I,O,B,E,S}。語(yǔ)義角色識(shí)別問題通常被轉(zhuǎn)化成如下的優(yōu)化問題:
針對(duì)該優(yōu)化問題,研究者通常使用各種統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法來(lái)求解上述的條件概率。常用的機(jī)器學(xué)習(xí)算法有:條件隨機(jī)場(chǎng)模型[2]、最大熵模型[6]、支持向量機(jī)[7]等。2006年以后,隨著深度學(xué)習(xí)技術(shù)的成熟,越來(lái)越多的研究者開始嘗試使用神經(jīng)網(wǎng)絡(luò)模型來(lái)構(gòu)建語(yǔ)義角色識(shí)別模型[4,8-9]。
基于神經(jīng)網(wǎng)絡(luò)構(gòu)建的自然語(yǔ)言處理模型,通常會(huì)使用詞、詞性等語(yǔ)言學(xué)特征的分布式表示來(lái)作為神經(jīng)網(wǎng)絡(luò)的輸入。也就是說(shuō),詞、詞性等特征通常不會(huì)直接參與模型的運(yùn)算,而是通過(guò)一個(gè)表示矩陣來(lái)映射成一個(gè)實(shí)數(shù)向量。然后,神經(jīng)網(wǎng)絡(luò)算法基于該實(shí)數(shù)向量作為輸入來(lái)建立詞性標(biāo)注、短語(yǔ)識(shí)別、語(yǔ)義角色識(shí)別等自然語(yǔ)言處理模型。Collobert等[4]開發(fā)的自然語(yǔ)言處理模型便借助了詞語(yǔ)、詞性等的分布式表示信息。他們的實(shí)驗(yàn)結(jié)果表明,融合了分布式表示的自然語(yǔ)言處理模型的性能與之前的最優(yōu)模型的性能是可比的。但是,目前并未有結(jié)論證明,融合分布式表示信息的自然語(yǔ)言處理模型的性能會(huì)有顯著提高。
對(duì)于漢語(yǔ)框架角色識(shí)別模型,根據(jù)模型是否使用了分布式表示信息,我們可以將模型分為兩大類:未使用分布式表示的識(shí)別模型和基于分布式表示的識(shí)別模型。在下面的兩個(gè)小節(jié)中,我們分別闡述兩類模型的特點(diǎn)以及當(dāng)前的模型性能。
2.1 未使用分布式表示的識(shí)別模型
傳統(tǒng)的漢語(yǔ)框架語(yǔ)義識(shí)別模型通常采用條件隨機(jī)場(chǎng)、最大熵模型、支撐向量機(jī)等機(jī)器學(xué)習(xí)算法[2-3,6-7]。這些未使用分布式表示的識(shí)別模型通常直接使用詞、詞性等的離散語(yǔ)言符號(hào)特征。這些符號(hào)特征從可用的語(yǔ)料資源中直接被抽取出來(lái),然后根據(jù)機(jī)器學(xué)習(xí)算法的特征函數(shù)來(lái)轉(zhuǎn)化成一個(gè)高維的0-1特征矩陣。
對(duì)于第二個(gè)缺點(diǎn),很多研究者試圖將各種語(yǔ)義資源加入到標(biāo)注模型中以刻畫詞、詞性等之間的語(yǔ)義上的相關(guān)性。例如,Li等試圖將FrameNet、WordNet等語(yǔ)義資源集成起來(lái)改善語(yǔ)義分析模型的性能[10]。邵艷秋等從中文概念詞典中抽取出語(yǔ)義特征來(lái)改進(jìn)語(yǔ)義角色標(biāo)注模型[11]。盡管這些工作表明了語(yǔ)義資源對(duì)于語(yǔ)義角色標(biāo)注模型的積極作用,但效果并不顯著。
另外,對(duì)于語(yǔ)義角色識(shí)別任務(wù),盡管已經(jīng)有了PropBank、CTB、FrameNet等可用的語(yǔ)料庫(kù),但這些語(yǔ)料庫(kù)的規(guī)模相對(duì)較小。如何使語(yǔ)義角色識(shí)別模型突破語(yǔ)料資源的限制,融合大量生語(yǔ)料資源,進(jìn)而達(dá)到更高的模型性能,也是傳統(tǒng)的語(yǔ)義識(shí)別模型所面臨的重要問題。
在未使用分布式表示的漢語(yǔ)框架語(yǔ)義角色識(shí)別模型中,目前最好的結(jié)果由宋毅君等的工作給出[3]。他們使用條件隨機(jī)場(chǎng)算法來(lái)構(gòu)建漢語(yǔ)框架語(yǔ)義識(shí)別模型,該模型分別融合了12個(gè)詞層面特征以及15個(gè)句法塊層面特征?;谠~層面的特征,語(yǔ)義角色識(shí)別模型的F值達(dá)到68.51%;加入塊層面特征后,模型的F值僅有0.01的提高,達(dá)到了68.52%的F值。
2.2 基于分布式表示的識(shí)別模型
對(duì)于上一節(jié)中所給出的問題,一個(gè)有效的解決方案是:將詞、詞性等特征的分布式表示信息引入到漢語(yǔ)框架語(yǔ)義識(shí)別模型中。詞、詞性的分布式表示是將詞、詞性等符號(hào)特征映射成一個(gè)低維的實(shí)數(shù)向量。詞、詞性等特征間的語(yǔ)義關(guān)系可以通過(guò)它們對(duì)應(yīng)的實(shí)數(shù)向量之間的代數(shù)運(yùn)算計(jì)算出來(lái)。
基于詞、詞性的分布式表示信息,模型的特征矩陣的維數(shù)可以得到大幅度的壓縮。例如,在上一節(jié)所給的例子,假設(shè)每個(gè)詞語(yǔ)可以由300維的實(shí)數(shù)向量表示,[-2,2]窗口內(nèi)的詞語(yǔ)特征可以從原來(lái)的 150 000維壓縮到1 500維。特征矩陣得到了近100倍的壓縮。另外,特征之間的語(yǔ)義相關(guān)性可以由實(shí)數(shù)向量之間的運(yùn)算反映出來(lái)。
針對(duì)大量生語(yǔ)料的利用問題,Turian等基于分布式表示信息給出了一般的半監(jiān)督學(xué)習(xí)框架[5]。該框架認(rèn)為,使用大量的未標(biāo)注語(yǔ)料來(lái)訓(xùn)練出詞、詞性的分布式表示信息。這些分布式表示信息中凝聚了這些未標(biāo)注語(yǔ)料中的語(yǔ)義信息。然后,神經(jīng)網(wǎng)絡(luò)算法直接利用該分布式表示信息作為輸入來(lái)構(gòu)建自然語(yǔ)言處理模型。這樣,大量未標(biāo)注語(yǔ)料的信息便可被有效利用。目前,多種詞語(yǔ)的分布式表示學(xué)習(xí)算法被開發(fā)出來(lái),例如,C&W算法[4],Word2Vector算法[12],Glove算法[13]。
目前,很多自然語(yǔ)言處理模型采用了詞、詞性等特征的分布式表示信息。例如,Collobert等將維基百科和路透社的語(yǔ)料訓(xùn)練所得詞語(yǔ)分布式表示信息,加入到神經(jīng)網(wǎng)絡(luò)模型中來(lái)構(gòu)建詞性標(biāo)注、命名實(shí)體識(shí)別以及語(yǔ)義角色標(biāo)注模型中[4]。李國(guó)臣等將字的分布式表示信息加入到神經(jīng)網(wǎng)絡(luò)中來(lái)自動(dòng)識(shí)別漢語(yǔ)基本塊[14]。
針對(duì)漢語(yǔ)框架語(yǔ)義角色識(shí)別模型,我們?cè)诘谌?jié)中給出了一種融合多種特征的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。然后基于Dropout正則化來(lái)訓(xùn)練該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
馬鈴薯出苗后要立即逐壟檢查,發(fā)現(xiàn)缺苗要及時(shí)挑選已經(jīng)發(fā)芽的薯塊進(jìn)行補(bǔ)種。注意分析缺苗的原因,如是正常缺苗及時(shí)補(bǔ)種即可;如是由于腐爛導(dǎo)致缺苗的,要徹底挖出腐爛的薯塊及周圍土壤,再回填新土后補(bǔ)種。
本節(jié)中使用神經(jīng)網(wǎng)絡(luò)構(gòu)建漢語(yǔ)框架語(yǔ)義角色識(shí)別模型。本文所構(gòu)建的模型對(duì)不同詞語(yǔ)對(duì)應(yīng)的標(biāo)記之間做出了獨(dú)立性假設(shè),如式(1)所示。
P(T=t1,…,tn|S=w1,…,wn)=
(1)
進(jìn)而,本文使用神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)每一個(gè)詞的標(biāo)記概率P(tj|S=w1,…,wn),并選擇概率最大的標(biāo)記作為輸出。在估計(jì)該標(biāo)記概率時(shí),我們從句子S中抽取出詞、詞性、位置和目標(biāo)詞四種特征,并使用這四種特征作為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入。為了避免神經(jīng)網(wǎng)絡(luò)模型產(chǎn)生過(guò)擬合現(xiàn)象,本節(jié)將Dropout正則化技術(shù)引入到神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法中。
3.1 漢語(yǔ)框架語(yǔ)義識(shí)別的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文使用圖1所給出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)構(gòu)建漢語(yǔ)框架語(yǔ)義角色識(shí)別模型。該神經(jīng)網(wǎng)絡(luò)在典型的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上,將詞、詞性、位置和目標(biāo)詞四種特征進(jìn)行融合。在該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,四個(gè)Embedding矩陣存儲(chǔ)了四種特征的分布式表示;詞、詞性、位置和目標(biāo)詞等離散特征通過(guò)Embedding矩陣來(lái)映射成相應(yīng)的實(shí)數(shù)向量;然后,四種特征的實(shí)數(shù)向量被拉直拼接后作為輸入;接著,Sigmoid函數(shù)被用作對(duì)輸入層進(jìn)行非線性變換;最后,使用softmax函數(shù)來(lái)得到待標(biāo)詞語(yǔ)的標(biāo)記概率。
圖1 漢語(yǔ)框架語(yǔ)義識(shí)別所用的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
圖1中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與Collobert等所給的模型結(jié)構(gòu)[4]的主要區(qū)別在于:本文的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以允許不同類型特征靈活選擇特征窗口。但是,Collobert給出的模型結(jié)構(gòu)要求所有特征的窗口都相同。另外,本文使用的非線性函數(shù)為Sigmoid,而不是hardtan。
本節(jié)提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)允許我們使用貪心特征窗口選擇方法[15]或正交特征選擇方法[2]來(lái)為每種特征選擇最優(yōu)的特征窗口。但由于本文主要目的是探討Dropout正則化對(duì)于漢語(yǔ)框架語(yǔ)義角色識(shí)別性能的影響。因此,我們將各種特征實(shí)數(shù)向量維度和的窗口固定如表1所示。
表1 模型所用特征的維度及窗口大小
在表1中,對(duì)于詞語(yǔ)特征,窗口[-2,2]表示當(dāng)前詞和前兩個(gè)詞,后兩個(gè)詞作為特征;其余特征類推;[0,0]表示僅使用當(dāng)前目標(biāo)詞作為特征。由于語(yǔ)料中涉及的目標(biāo)詞較少,因此,我們僅將目標(biāo)詞的向量維度設(shè)置為10。
3.2 Dropout正則化訓(xùn)練方法
在圖1所給的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),需要估計(jì)的參數(shù)主要包括:詞、詞性、位置和目標(biāo)詞的Embedding矩陣以及Sigmoid函數(shù)的參數(shù)矩陣及偏置系數(shù);研究者通常使用人工標(biāo)注語(yǔ)料上的模型log似然函數(shù)作為目標(biāo)函數(shù),然后,通過(guò)隨機(jī)梯度下降的方法對(duì)上述的待估參數(shù)進(jìn)行更新,直到目標(biāo)函數(shù)收斂。
然而,漢語(yǔ)框架語(yǔ)義角色標(biāo)注任務(wù)的可用語(yǔ)料規(guī)模有限。實(shí)驗(yàn)語(yǔ)料僅含6 000多句標(biāo)注句子。而且,在本文的實(shí)驗(yàn)中,我們僅使用一半的句子進(jìn)行訓(xùn)練。因此,參與模型訓(xùn)練的句子僅有3 000多句。訓(xùn)練句子的數(shù)量不足以充分地估計(jì)出模型的待估參數(shù)。這會(huì)導(dǎo)致最后得到的模型嚴(yán)重過(guò)擬合訓(xùn)練數(shù)據(jù)。
避免過(guò)擬合的常用方法是將正則化技術(shù)加入到訓(xùn)練過(guò)程中。目前,常用的正則化技術(shù)主要包括L1、L2和Dropout正則化。L1和L2正則化主要是將待估參數(shù)的先驗(yàn)分布約束為拉普拉斯分布和正態(tài)分布。在原有的條件隨機(jī)場(chǎng)等模型中,常用L1和L2正則化來(lái)避免過(guò)擬合。
Dropout正則化是針對(duì)神經(jīng)網(wǎng)絡(luò)所提出來(lái)的一種正則化技術(shù)[16]。不同于L1和L2正則化,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),Dropout正則化是將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的隱層節(jié)點(diǎn)按照給定的概率進(jìn)行丟棄。因?yàn)閬G棄過(guò)程隨機(jī)忽略隱層節(jié)點(diǎn),且在每次的訓(xùn)練過(guò)程中每次隨機(jī)忽略的隱層節(jié)點(diǎn)都不同,這就使每次訓(xùn)練的網(wǎng)絡(luò)都是不一樣的。因此,每次訓(xùn)練都可以看作使用一個(gè)“新”的模型;此外,隱含節(jié)點(diǎn)都是以一定概率隨機(jī)出現(xiàn),因此不能保證每個(gè)隱含節(jié)點(diǎn)每次都同時(shí)出現(xiàn),這樣權(quán)值的更新不再依賴于有固定關(guān)系隱含節(jié)點(diǎn)的共同作用,阻止了某些特征僅僅在其它特定特征下才有效果的情況。
本文中我們僅對(duì)Sigmoid層中的連接進(jìn)行隨機(jī)丟棄,余下的網(wǎng)絡(luò)結(jié)構(gòu)保持不變。在第五部分,我們對(duì)比了加入Dropout正則化的模型性能與不進(jìn)行正則化的模型性能。實(shí)驗(yàn)結(jié)果表明,加入Dropout正則化的漢語(yǔ)框架語(yǔ)義角色識(shí)別模型的性能有著顯著的提升,F(xiàn)值達(dá)到69.20%。
本文的實(shí)驗(yàn)語(yǔ)料來(lái)自于山西大學(xué)開發(fā)的漢語(yǔ)框架網(wǎng)絡(luò)例句庫(kù)。本實(shí)驗(yàn)語(yǔ)料中主要包括25個(gè)框架的6 692條句子。實(shí)驗(yàn)語(yǔ)料的具體分布信息與文獻(xiàn)[2]中的相同。為了評(píng)價(jià)本文所提模型的性能,我們采用組塊3×2交叉驗(yàn)證進(jìn)行實(shí)驗(yàn)。具體做法是,將語(yǔ)料庫(kù)切分成四個(gè)大小相同的子集,然后,通過(guò)兩兩組合,形成三組二折交叉驗(yàn)證實(shí)驗(yàn)。組塊3×2交叉驗(yàn)證的優(yōu)良性在模型估計(jì)和選擇上已經(jīng)得到證明,具體可參考Wang等的工作[17]。
對(duì)于漢語(yǔ)框架語(yǔ)義角色識(shí)別模型,本文采用如下四種評(píng)價(jià)指標(biāo):
(2)
(3)
(4)
(5)
對(duì)于組塊3×2交叉驗(yàn)證,我們使用六組實(shí)驗(yàn)的標(biāo)記準(zhǔn)確率、準(zhǔn)確率、召回率和F值的平均值作為模型的最終指標(biāo)。
在本文的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,我們使用[-0.5,0.5]之 間的均勻分布來(lái)初始化詞、詞性、目標(biāo)詞和位置的Embedding矩陣;詞特征的分布式表示向量長(zhǎng)度為100,其余特征的分布式表示向量長(zhǎng)度為10。神經(jīng)網(wǎng)絡(luò)中除Embedding矩陣外的其余參數(shù)的初始值為0;學(xué)習(xí)率設(shè)置為0.03;隱層節(jié)點(diǎn)個(gè)數(shù)為100。
我們?cè)诒?中對(duì)比了不加Dropout正則化的模型性能與加入Dropout正則化的模型性能。當(dāng)加入Dropout正則化后,我們分別設(shè)置了多種連接的丟棄概率。具體的實(shí)驗(yàn)結(jié)果見表2。
表2 加入DropOut正則化后的語(yǔ)義角色識(shí)別性能
從表2中可以看出,不加Dropout正則化技術(shù)的模型F值僅為62.32%。然而,當(dāng)加入Dropout增加化后,若將連接的丟棄概率設(shè)置為0.6,最終的模型F值達(dá)到69.07%。模型的F值提高了近7%。當(dāng)丟棄概率加大后,模型的性能將會(huì)下降。進(jìn)一步分析,我們發(fā)現(xiàn),Dropout正則化大幅度提高了語(yǔ)義角色塊識(shí)別的準(zhǔn)確率,對(duì)于召回率影響不大。這說(shuō)明,Dropout正則化可以有效地避免模型的過(guò)擬合現(xiàn)象。
上述實(shí)驗(yàn)中,我們使用的Embedding的初始值是完全隨機(jī)的。為了驗(yàn)證Embedding的初始值對(duì)于模型性能的影響,我們分別使用C&W[4],SGNS[12]以及RNN-LM[18]訓(xùn)練產(chǎn)生的詞語(yǔ)Embedding矩陣。在訓(xùn)練Embedding矩陣時(shí),我們使用搜狗中文語(yǔ)料,并使用中科院自動(dòng)分詞工具。我們僅將詞語(yǔ)特征的Embedding矩陣替換為這些算法產(chǎn)生的Embedding矩陣;余下三種特征的Embedding矩陣仍然保持隨機(jī)。Embedding矩陣的不同初始值得到的模型性能如表3所示。
表3 不同詞Embedding下的語(yǔ)義角色識(shí)別性能
從表3中可以看出,加入C&W訓(xùn)練出來(lái)的詞語(yǔ)Embedding矩陣后,模型的性能有了輕微上升,F(xiàn)值的提升僅為0.13%。而SGNS算法以及RNN-LM算法所產(chǎn)生的詞語(yǔ)Embedding矩陣所對(duì)應(yīng)的模型性能反而下降。我們分析,這可能是因?yàn)樽詣?dòng)的分詞信息使詞語(yǔ)Embedding矩陣質(zhì)量得不到保證,無(wú)法有效地體現(xiàn)出詞語(yǔ)之間的語(yǔ)義關(guān)系。
影響語(yǔ)義角色識(shí)別模型性能的另一個(gè)重要的因素是神經(jīng)網(wǎng)絡(luò)訓(xùn)練所用的學(xué)習(xí)率。較小的學(xué)習(xí)率會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)收斂的速度變慢,但可能會(huì)使神經(jīng)網(wǎng)絡(luò)收斂到更為優(yōu)良的局部最優(yōu)值。表4中給出了不同的學(xué)習(xí)率的條件下,漢語(yǔ)框架語(yǔ)義角色識(shí)別模型的性能。
表4 不同學(xué)習(xí)率下的語(yǔ)義角色標(biāo)注性能
從表4中可以看出,減少學(xué)習(xí)率的大小可以明顯提高模型的識(shí)別性能。將學(xué)習(xí)率從0.03調(diào)整至0.001,模型的F值從69.20%提升至70.54%,提高1.34%。對(duì)比準(zhǔn)確率和召回率可以發(fā)現(xiàn),減少學(xué)習(xí)率主要帶來(lái)了準(zhǔn)確率識(shí)別的提升。
表5 與已有識(shí)別模型的結(jié)果對(duì)比
我們將本文所得到的漢語(yǔ)框架語(yǔ)義角色識(shí)別模型的最優(yōu)性能與原有的漢語(yǔ)框架語(yǔ)義角色識(shí)別模型的最優(yōu)性能進(jìn)行比較,得到表5所示結(jié)果。從表中可以看出,加入特征的分布式表示信息,并采用Dropout正則化來(lái)進(jìn)行訓(xùn)練,模型的識(shí)別性能有了2%的提升(F值)。其中,盡管召回率有所下降,但準(zhǔn)確率卻提升了近10%。需要指出的是,核方法是構(gòu)建高性能語(yǔ)義邊界識(shí)別的重要方法[19],但目前并未有相關(guān)學(xué)者使用核方法來(lái)展開漢語(yǔ)框架語(yǔ)義角色識(shí)別的相關(guān)研究,因此,我們并未與該方法的性能進(jìn)行對(duì)比。
本文初次嘗試了使用神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)建漢語(yǔ)框架語(yǔ)義角色識(shí)別模型。本文給出了一種融合多種特征信息的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)保留了不同特征窗口選擇的靈活性。為了有效地緩解可用語(yǔ)料過(guò)少所產(chǎn)生的模型過(guò)擬合現(xiàn)象,本文將Dropout正則化的技術(shù)引入到模型的訓(xùn)練過(guò)程中。實(shí)驗(yàn)結(jié)果表明,Dropout正則化的加入,可以有效地提升漢語(yǔ)框架語(yǔ)義角色識(shí)別模型的性能。本文進(jìn)一步對(duì)詞特征的Embedding初始值以及模型訓(xùn)練的學(xué)習(xí)率進(jìn)行了調(diào)優(yōu)。最后所得到漢語(yǔ)框架語(yǔ)義角色識(shí)別模型的F值達(dá)到了70.54%,比之前的最優(yōu)模型性能提高近2%。由于通用的漢語(yǔ)句法分析器目前還不成熟,本文并未考慮句法層面的常用特征,例如,句法類型標(biāo)記,句法子范疇特征等。
在本文中,我們并未對(duì)特征窗口選擇方法進(jìn)行深入探討,并未對(duì)比Dropout正則化方法與L1及L2正則化方法及基于核方法的漢語(yǔ)語(yǔ)義角色標(biāo)注系統(tǒng)性能。這些都是我們未來(lái)的研究方向。
[1] Fillmore C J,Baker C F.Frame semantics for text understanding[C]//Proceedings of WordNet and Other Lexical Resources Workshop,NAACL.2001.
[2] 李濟(jì)洪,王瑞波,王蔚林,等.漢語(yǔ)框架語(yǔ)義角色的自動(dòng)標(biāo)注[J].軟件學(xué)報(bào),2010,21(4):597-611.
[3] 宋毅君,王瑞波,李濟(jì)洪,等.基于條件隨機(jī)場(chǎng)的漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注[J].中文信息學(xué)報(bào),2014,28(3):36-47.
[4] Collobert R,Weston J,Bottou L,et al.Natural language processing (almost) from scratch[J].The Journal of Machine Learning Research,2011,12:2493-2537.
[5] Turian J,Ratinov L,Bengio Y.Word representations:a simple and general method for semi-supervised learning[C]//Proceedings of the 48th annual meeting of the association for computational linguistics.Association for Computational Linguistics,2010:384-394.
[6] 劉挺,車萬(wàn)翔,李生.基于最大熵分類器的語(yǔ)義角色標(biāo)注[J].軟件學(xué)報(bào),2007,18(3):565-573.
[7] Pradhan S,Ward W,Hacioglu K,et al.Shallow Semantic Parsing using Support Vector Machines[C]//Proceedings of HLT-NAACL.2004:233-240.
[8] Zhou J,Xu W.End-to-end learning of semantic role labeling using recurrent neural networks[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics.2015.
[9] Hong S,Noh H,Han B.Decoupled deep neural network for semi-supervised semantic segmentation[C]//Proceedings of Advances in Neural Information Processing Systems.2015:1495-1503.
[10] Shi L,Mihalcea R.Putting pieces together:Combining FrameNet,VerbNet and WordNet for robust semantic parsing[M]//Computational linguistics and intelligent text processing.Springer Berlin Heidelberg,2005:100-111.
[11] 邵艷秋,穗志方,吳云芳.基于詞匯語(yǔ)義特征的中文語(yǔ)義角色標(biāo)注研究[J].中文信息學(xué)報(bào),2009,23(6):3-11.
[12] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301.3781,2013.
[13] Pennington J,Socher R,Manning C D.Glove:Global Vectors for Word Representation[C]//Proceedings of EMNLP.2014,14:1532-1543.
[14] 李國(guó)臣,黨帥兵,王瑞波,等.基于字的分布表征的漢語(yǔ)基本塊識(shí)別[J].中文信息學(xué)報(bào),2014,28(6):18-25.
[15] 李國(guó)臣,王瑞波,李濟(jì)洪.基于條件隨機(jī)場(chǎng)模型的漢語(yǔ)功能塊自動(dòng)標(biāo)注[J].計(jì)算機(jī)研究與發(fā)展,2010,47(2):336-343.
[16] Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:A simple way to prevent neural networks from overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.
[17] Yu W,Ruibo W,Huichen J,et al.Blocked 3× 2 cross-validated t-test for comparing supervised classification learning algorithms[J].Neural computation,2014,26(1):208-235.
[18] Mikolov T,Karafiát M,Burget L,et al.Recurrent neural network based language model[C]//Proceedings of INTERSPEECH.2010,2:3.
[19] Che W,Zhang M,Aw A,et al.Using a Hybrid Convolution Tree Kernel for Semantic Role Labeling[J].ACM Transactions on Asian Language Information Processing,2008,7(4).
Chinese FrameNet Semantic Role Identification Based on Dropout Regularization
WANG Ruibo1,2,LI Jihong1,LI Guochen3,YANG Yaowen4
(1.School of Software,Shanxi University,Taiyuan,Shanxi 030006,China;2.School of Computer and Information Technology,Shanxi University,Taiyuan,Shanxi 030006,China;3.Computer Science Department,Taiyuan Institute of Technology,Taiyuan,Shanxi 030008,China;4.School of Mathematic Sciences,Shanxi University,Taiyuan,Shanxi 030006,China)
Semantic role identification is an important task for semantic parsing according to Chinese FrameNet.Based on distributed representations of Chinese words,the part-of-speech and other symbolic features,we build our semantic role identification model by employing a kind of multi-feature-integrated neural network architecture.Due to the relative small training corpus,we adopt the dropout regularization to improve quality of the training process.Experimental results indicate that,1) dropout regularization can effectively alleviate over-fitting of our model,and 2) the F-measure increases upto 7%.With further optimization of the learning rate and the pre-trained word embeddings,the final F-measure of our semantic role identification model reaches 70.54%,which is about 2% higher than the state-of-the-art result.
Chinese FrameNet; semantic role identification; dropout regularization;
王瑞波(1985—),博士研究生,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)自然語(yǔ)言處理。E-mail:wangruibo@sxu.edu.cn李濟(jì)洪(1964—),教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)榻y(tǒng)計(jì)自然語(yǔ)言處理,統(tǒng)計(jì)機(jī)器學(xué)習(xí)。E-mail:lijih@sxu.edu.cn李國(guó)臣(1963—),教授,主要研究領(lǐng)域?yàn)橹形男畔⑻幚?。E-mail:ligc@sxu.edu.cn
1003-0077(2011)00-0147-08
2016-09-16 定稿日期:2016-10-30
國(guó)家自然科學(xué)基金(NNSFC-61503228);NSFC- 廣東聯(lián)合基金(第二期)
TP391
A