黃瑞章,靳文繁,陳艷平,秦永彬,鄭慶華
(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025;2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025;3.西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710049)
謂語(yǔ)中心詞是句子的焦點(diǎn),是支配和關(guān)聯(lián)句子其他語(yǔ)法成分的關(guān)鍵語(yǔ)法單元。在以謂語(yǔ)為中心的句法成分分析中,需要根據(jù)謂語(yǔ)中心詞來(lái)解析句子結(jié)構(gòu)。識(shí)別謂語(yǔ)中心詞是正確理解句子的前提。正確識(shí)別謂語(yǔ)中心詞可以解析句子結(jié)構(gòu)、獲取句子的語(yǔ)義信息,進(jìn)一步支撐淺層句法分析的研究,從而支撐機(jī)器翻譯、信息檢索、情感分析等自然語(yǔ)言處理應(yīng)用。
一個(gè)動(dòng)詞在句子中是否是謂語(yǔ)中心詞既與它本身的語(yǔ)法屬性有關(guān),也與它的上下文環(huán)境有關(guān)。動(dòng)詞本身的語(yǔ)法屬性稱為靜態(tài)特征,與識(shí)別謂語(yǔ)中心詞有關(guān)的上下文環(huán)境稱為動(dòng)態(tài)特征。由于漢語(yǔ)句子結(jié)構(gòu)松散,傳統(tǒng)觀點(diǎn)認(rèn)為漢語(yǔ)句子沒有形式上的謂語(yǔ)中心詞。
此外,謂語(yǔ)中心詞的識(shí)別還需要克服以下幾個(gè)問(wèn)題。1) 漢語(yǔ)是一種古老的象形文字,缺少分詞信息。比如,《現(xiàn)代漢語(yǔ)規(guī)范詞典》沒有收錄“撞向”為動(dòng)詞,但收錄了“通向”“流向”等詞為動(dòng)詞。類似的情況有“下雨”被收錄為詞,而“下雪”沒有。無(wú)法正確分詞給謂語(yǔ)中心詞的識(shí)別帶來(lái)困難。2) 漢語(yǔ)句子結(jié)構(gòu)松散。漢語(yǔ)句子通常包含幾個(gè)動(dòng)詞,它們中的每一個(gè)都可以作為謂語(yǔ)中心詞或狀語(yǔ)短語(yǔ)來(lái)處理,很難識(shí)別句子中單詞之間的依賴關(guān)系。3) 漢語(yǔ)單詞中的兼義現(xiàn)象非常嚴(yán)重,存在很多名詞、形容詞動(dòng)詞化的用法,但沒有形態(tài)特征來(lái)表示它們的動(dòng)詞用法,使區(qū)分它們之間的句法作用變得困難。4) 謂語(yǔ)中心詞是句子的中心,識(shí)別謂語(yǔ)中心詞需要對(duì)句子的高階依賴關(guān)系進(jìn)行建模。當(dāng)前的序列模型難以捕獲句子中的高階依賴關(guān)系。在漢語(yǔ)謂語(yǔ)中心詞識(shí)別方面,現(xiàn)有的序列標(biāo)注模型還存在不足之處。例如長(zhǎng)短時(shí)記憶(LSTM,long-short term memory)模型理論上能記憶長(zhǎng)距離信息,但是在實(shí)際使用中,LSTM 對(duì)長(zhǎng)實(shí)體的識(shí)別性能較低。
本文主要的研究工作如下。
1) 針對(duì)漢語(yǔ)謂語(yǔ)中心詞的特點(diǎn),提出了一種基于深層雙向長(zhǎng)短時(shí)記憶(BiLSTM,bi-directional LSTM)的漢語(yǔ)謂語(yǔ)中心詞識(shí)別模型。該模型利用4 層BiLSTM 結(jié)構(gòu)獲取句子的抽象語(yǔ)義特征和上下文語(yǔ)義依賴關(guān)系。與傳統(tǒng)序列標(biāo)注模型相比,深層BiLSTM模型能更好地獲取句子內(nèi)部不同粒度抽象語(yǔ)義信息,在漢語(yǔ)謂語(yǔ)中心詞數(shù)據(jù)集上有更好的表現(xiàn)。
2) 利用Highway 連接緩解深層模型的梯度消失的問(wèn)題。隨著深度網(wǎng)絡(luò)層數(shù)的不斷增加,輸入信息在通過(guò)網(wǎng)絡(luò)層到達(dá)網(wǎng)絡(luò)的末端時(shí),可能出現(xiàn)梯度消失的情況。本文通過(guò)Highway 網(wǎng)絡(luò)的引入有效地緩解了訓(xùn)練深層模型時(shí)梯度消失的情況。
3) 漢語(yǔ)謂語(yǔ)中心詞的唯一性問(wèn)題。單個(gè)句子中通常只有一個(gè)謂語(yǔ)中心詞,但可以有多個(gè)動(dòng)詞。為了解決這個(gè)問(wèn)題,本文在模型的輸出中加入約束層,通過(guò)約束函數(shù)對(duì)輸出路徑進(jìn)行約束,確保謂語(yǔ)中心詞的輸出唯一性。
謂語(yǔ)中心詞在句中起到組織句法或者語(yǔ)義信息的中心作用,如主語(yǔ)、時(shí)間、原因和形式等。識(shí)別謂語(yǔ)中心詞是理解句子的關(guān)鍵。然而,在漢語(yǔ)自然語(yǔ)言處理領(lǐng)域,關(guān)于謂語(yǔ)中心詞識(shí)別的研究工作卻很少?,F(xiàn)有工作主要采用基于規(guī)則的方法、基于統(tǒng)計(jì)學(xué)習(xí)的方法和規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。
在基于規(guī)則的方法中,Luo 等[1]從各種詞性的詞作為謂語(yǔ)時(shí)的語(yǔ)法特點(diǎn)出發(fā),討論謂語(yǔ)的識(shí)別策略,通過(guò)規(guī)則的方法來(lái)判別和確定句子的中心謂語(yǔ)及其相應(yīng)邊界。Li 等[2]提出了一種利用句子的主語(yǔ)和謂語(yǔ)之間的句法關(guān)系來(lái)識(shí)別謂語(yǔ)中心詞的方法。該方法除了利用謂語(yǔ)中心詞候選項(xiàng)的靜態(tài)語(yǔ)法特征和動(dòng)態(tài)語(yǔ)法特征外,還加入了對(duì)規(guī)則間相互影響的考慮,較之前的方法從更高的句法層次上進(jìn)行了分析。但是特征的應(yīng)用過(guò)程相對(duì)復(fù)雜,計(jì)算量較大,對(duì)于一些特殊的句型可能產(chǎn)生錯(cuò)誤的結(jié)果。Sui 等[3-4]出了一種折中的漢語(yǔ)句子分析方法——骨架依存分析法,利用句子級(jí)對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)中英漢謂語(yǔ)中心詞的對(duì)應(yīng)來(lái)尋找漢語(yǔ)句子的謂語(yǔ)中心詞。但是其僅對(duì)例句集中的漢語(yǔ)單句識(shí)別了謂語(yǔ)中心詞,沒有從大規(guī)模已標(biāo)注的謂語(yǔ)中心詞的漢語(yǔ)例句中實(shí)現(xiàn)謂語(yǔ)中心詞自動(dòng)抽取。
在基于統(tǒng)計(jì)學(xué)習(xí)的方法中,陳小荷等[5]采用統(tǒng)計(jì)的方法對(duì)50 萬(wàn)字的語(yǔ)料庫(kù)識(shí)別了核心謂語(yǔ)。Wang 等[6]組合謂語(yǔ)動(dòng)詞的多個(gè)特征,并使用最大熵分類器對(duì)謂語(yǔ)中心詞進(jìn)行自動(dòng)識(shí)別。諶志群[7]提出了一種基于統(tǒng)計(jì)學(xué)原理的漢語(yǔ)句子謂語(yǔ)自動(dòng)識(shí)別概率模型,通過(guò)對(duì)語(yǔ)料庫(kù)中句子的謂語(yǔ)所處上下文環(huán)境的細(xì)致分析,選擇影響謂語(yǔ)出現(xiàn)的語(yǔ)境特征,在此基礎(chǔ)上通過(guò)構(gòu)建統(tǒng)計(jì)模型來(lái)計(jì)算謂語(yǔ)出現(xiàn)的概率,識(shí)別漢語(yǔ)句子的謂語(yǔ)。
在規(guī)則與統(tǒng)計(jì)學(xué)習(xí)相結(jié)合的方法中,Gong 等[8]將整個(gè)謂語(yǔ)識(shí)別的過(guò)程分為語(yǔ)片捆綁、謂語(yǔ)粗篩選和謂語(yǔ)精篩選3 個(gè)階段。首先,在識(shí)別之前加入語(yǔ)片捆綁的預(yù)處理工作,有效排除了一些準(zhǔn)謂語(yǔ);然后,用規(guī)則的方法進(jìn)行粗篩選,降低了精篩選的復(fù)雜度;最后,利用特征學(xué)習(xí)的方法進(jìn)行謂語(yǔ)精篩選,有效解決了規(guī)則的不完備和特征重要度排序的問(wèn)題。但是,該方法還存在一些謂語(yǔ)誤識(shí)的情況,對(duì)于復(fù)雜結(jié)構(gòu)的漢語(yǔ)句子不能完全正確識(shí)別。另外,Han 等[9]提出一種融合詞法與句法特征、結(jié)合C4.5機(jī)器學(xué)習(xí)和規(guī)則進(jìn)行謂語(yǔ)識(shí)別的方法。該方法表明句法特征能有效提升謂語(yǔ)識(shí)別效果。李琳等[10]利用大規(guī)模的藏語(yǔ)語(yǔ)料庫(kù)訓(xùn)練得到藏語(yǔ)詞向量,其結(jié)果表明詞向量特征可顯著提高藏語(yǔ)謂語(yǔ)動(dòng)詞短語(yǔ)的識(shí)別效果。目前,謂語(yǔ)中心詞識(shí)別的研究大部分還是使用傳統(tǒng)方法,難以建模高階依賴信息。
在漢語(yǔ)信息抽取領(lǐng)域,與謂語(yǔ)中心詞識(shí)別相關(guān)的任務(wù)還有命名實(shí)體識(shí)別和語(yǔ)義角色標(biāo)注。其中,命名實(shí)體識(shí)別通常采用序列標(biāo)注模型進(jìn)行識(shí)別,如隱馬爾可夫模型(HMM,hidden Markov model)[11]、條件隨機(jī)場(chǎng)(CRF,conditional random field)[12]和LSTM[13]。近年來(lái),基于深度學(xué)習(xí)模型的實(shí)體識(shí)別得到了廣泛研究。比如,Li 等[14]采用雙向LSTM-CRF 結(jié)構(gòu),在生物醫(yī)學(xué)實(shí)體識(shí)別上取得了良好的效果。與命名實(shí)體識(shí)別相比,謂語(yǔ)中心詞識(shí)別更強(qiáng)調(diào)謂語(yǔ)中心詞作為句子中心的語(yǔ)法功能,在識(shí)別上需要依賴句子的整體結(jié)構(gòu)和語(yǔ)義特征,在輸出路徑中需要保證標(biāo)注實(shí)體的單一性。
語(yǔ)義角色標(biāo)注(SRL,semantic role labeling)[15]是淺層語(yǔ)義分析中的一種主要實(shí)現(xiàn)方式。該方法主要是對(duì)給定句子中存在的每個(gè)謂語(yǔ)進(jìn)行分析,并標(biāo)注其相應(yīng)的語(yǔ)義成分。傳統(tǒng)的SRL 方法采用基于句法特征的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,通常將語(yǔ)義角色標(biāo)注任務(wù)轉(zhuǎn)換為有監(jiān)督的分類問(wèn)題,主要分為基于短語(yǔ)結(jié)構(gòu)句法分析以及基于依存句法分析2 種語(yǔ)義角色標(biāo)注方法。比如,Koomen 等[16]和Tackstrom 等[17]采用線性規(guī)劃或動(dòng)態(tài)規(guī)劃的方式獲得句子的全局約束。隨著深度學(xué)習(xí)的興起,研究者將基于BiLSTM模型用于語(yǔ)義角色標(biāo)注任務(wù)。比如,Zhou 等[18]使用深度BiLSTM 模型對(duì)英文語(yǔ)義角色標(biāo)注進(jìn)行了研究。Guo 等[19]重點(diǎn)關(guān)注句法路徑信息并使用BiLSTM 對(duì)其進(jìn)行建模,從而提高了SRL 系統(tǒng)的性能。王瑞波等[20]使用多特征融合的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)構(gòu)建漢語(yǔ)框架語(yǔ)義角色識(shí)別模型。Strubell 等[21]提出了一種基于語(yǔ)言信息的自我注意神經(jīng)網(wǎng)絡(luò)模型,它將多頭自我注意與多任務(wù)學(xué)習(xí)相結(jié)合,包括依賴分析、詞性標(biāo)注、謂語(yǔ)檢測(cè)和SRL。
本文的Highway-BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。自底向上描述如下。1)使用預(yù)訓(xùn)練的維基百科字向量將輸入的文本序列映射為向量,作為當(dāng)前詞的特征向量表示;2)經(jīng)過(guò)4 層BiLSTM[22]獲取句子內(nèi)部不同粒度抽象語(yǔ)義信息的直接依賴關(guān)系;3)為了防止訓(xùn)練深層BiLSTM 模型時(shí)出現(xiàn)梯度消失的問(wèn)題,層與層之間使用Highway 網(wǎng)絡(luò)連接;4)通過(guò)一個(gè)Softmax 層進(jìn)行歸一化處理;5)通過(guò)約束層保證謂語(yǔ)中心詞的唯一性,得到最優(yōu)標(biāo)注序列。句子中包含的謂語(yǔ)中心詞用標(biāo)簽{B,I}表示,其中謂語(yǔ)中心詞的開始用標(biāo)簽B標(biāo)記,其余部分用標(biāo)簽I標(biāo)記。在模型的輸出部分,使用P表示預(yù)測(cè)的句子,模型預(yù)測(cè)出的謂語(yǔ)中心詞使用標(biāo)簽B-V標(biāo)記,句子中的其他成分使用標(biāo)簽O標(biāo)記。
圖1 Highway-BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu)
一方面,傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)在處理長(zhǎng)序列數(shù)據(jù)時(shí)容易出現(xiàn)梯度消失或梯度爆炸問(wèn)題。另一方面,對(duì)于基本的RNN來(lái)說(shuō),它能夠處理一定的短期依賴,但是無(wú)法處理長(zhǎng)期依賴問(wèn)題。而LSTM 通過(guò)引入門結(jié)構(gòu)解決了RNN 的長(zhǎng)期依賴問(wèn)題。由于漢語(yǔ)謂語(yǔ)中心詞缺少形態(tài)特征、句子結(jié)構(gòu)松散且形式多樣、單個(gè)句子可能存在多個(gè)動(dòng)詞等情況,傳統(tǒng)的序列標(biāo)注模型無(wú)法很好地建模句子的高階依賴特征,獲取句子的全局信息。針對(duì)上述問(wèn)題,本文提出利用多層堆疊的BiLSTM構(gòu)建謂語(yǔ)中心詞識(shí)別模型。LSTM 通過(guò)3 個(gè)不同的門來(lái)調(diào)節(jié)單元狀態(tài)中的信息流,即輸入門、遺忘門、輸出門控制著信息流的更新與利用。本文設(shè)輸入的信息流為xl,t,表示第l層和t時(shí)刻到LSTM 的輸入;細(xì)胞狀態(tài)為cl,t;LSTM 在t時(shí)刻的輸出信息為hl,t;激活函數(shù)為σ;權(quán)重矩陣為W;偏置向量為b。
首先,決定從細(xì)胞狀態(tài)中丟棄什么信息。這個(gè)決策是通過(guò)一個(gè)稱為“遺忘門”的層來(lái)完成的。該門會(huì)讀取hl,t和xl,t,使用sigmoid 函數(shù)輸出一個(gè)0~1的數(shù)值,輸出狀態(tài)cl,t中每個(gè)細(xì)胞的數(shù)值,1 表示完全保留,0 表示完全舍棄。
然后,確定什么樣的新信息被存放在細(xì)胞狀態(tài)中。信息包含兩部分:一部分是sigmoid 函數(shù),稱為“輸入門”,決定更新什么值;另一部分是tanh 函數(shù),用于創(chuàng)建一個(gè)新的候選值向量,該向量會(huì)被加入狀態(tài)中。這樣就能用這2 個(gè)信息產(chǎn)生對(duì)狀態(tài)的更新。
最后,運(yùn)行一個(gè)sigmoid 函數(shù)來(lái)確定輸出細(xì)胞狀態(tài)的哪個(gè)部分,通過(guò)tanh 處理細(xì)胞狀態(tài),并與sigmoid 門的輸出相乘,僅輸出確定輸出的那部分。
其中,δ l為1 或?1,表示LSTM 在第l層的方向性。在實(shí)驗(yàn)中根據(jù)Zhou 等[23]的方法以交織模式堆疊LSTM,設(shè)每層的特定輸入xl,t和方向性δl分別為
本文在實(shí)驗(yàn)中使用了4 層的BiLSTM(即8 層LSTM)堆疊模型取得了較好的效果,其中一個(gè)關(guān)鍵要素是使用封閉的“Highway 連接”[23-24]。相比于RNN,LSTM 能夠在一定程度上緩解梯度消失的問(wèn)題。理論和經(jīng)驗(yàn)表明,神經(jīng)網(wǎng)絡(luò)的深度是其成功的關(guān)鍵。然而,隨著網(wǎng)絡(luò)層數(shù)的不斷增加,訓(xùn)練變得更加困難,在網(wǎng)絡(luò)傳輸中會(huì)出現(xiàn)一個(gè)問(wèn)題:當(dāng)輸入的信息通過(guò)許多層,到達(dá)網(wǎng)絡(luò)的末端(或起點(diǎn))時(shí),信息可能會(huì)“消失”。這里的“消失”實(shí)際是由于鏈?zhǔn)椒▌t下多個(gè)小于1 的數(shù)值相乘導(dǎo)致的。針對(duì)這個(gè)問(wèn)題,本文使用Highway 連接各層BiLSTM,使特征信息能夠在多個(gè)層面上傳輸。Highway 網(wǎng)絡(luò)受到LSTM 網(wǎng)絡(luò)的啟發(fā),同樣使用自適應(yīng)門控單元來(lái)調(diào)節(jié)信息流。典型的神經(jīng)網(wǎng)絡(luò)是一個(gè)仿射變換加一個(gè)非線性函數(shù),即y=H(x,WH)。在深層模型的層間連接中,為每一個(gè)層的輸出添加轉(zhuǎn)換門和進(jìn)位門,形成Highway 網(wǎng)絡(luò)。其定義為
Highway 網(wǎng)絡(luò)的本質(zhì)是通過(guò)shortcut 機(jī)制實(shí)現(xiàn)深層網(wǎng)絡(luò)的訓(xùn)練。如圖2 所示,shortcut 機(jī)制選擇合適的層進(jìn)行轉(zhuǎn)換,通過(guò)該機(jī)制可以使信息在許多層之間流動(dòng)而不會(huì)衰減,即使在深層模型中,使用Highway 連接也可以通過(guò)簡(jiǎn)單的梯度下降直接進(jìn)行訓(xùn)練。本文實(shí)驗(yàn)通過(guò)轉(zhuǎn)換門rt來(lái)控制層與層之間線性和非線性變換的權(quán)重。
圖2 Highway 連接
最后,輸出hl,t改為
在訓(xùn)練樣本一定的情況下,模型的復(fù)雜性越高,就會(huì)有越多的參數(shù),訓(xùn)練出的模型越容易產(chǎn)生過(guò)擬合的現(xiàn)象。為了避免過(guò)擬合,在本文的模型中使用Gal 等[25]所描述的Dropout 機(jī)制,通過(guò)Dropout提高了模型的泛化能力。定義為
其中,zl在l層上跨時(shí)間步共享,以免沿序列放大噪聲。
通常,識(shí)別任務(wù)是給定一個(gè)句子作為輸入預(yù)測(cè)一個(gè)序列y,每個(gè)yi∈y都屬于一個(gè)離散的標(biāo)簽集合T。句子中包含的謂語(yǔ)中心詞用標(biāo)簽{B,I}表示,其中謂語(yǔ)中心詞的開始用標(biāo)簽B標(biāo)記,其余部分用標(biāo)簽I標(biāo)記。為了避免在單個(gè)句子中謂語(yǔ)中心詞數(shù)量大于一個(gè)的現(xiàn)象,本文在模型全連接層之后使用Softmax 層進(jìn)行歸一化處理,并通過(guò)約束層對(duì)謂語(yǔ)中心詞的輸出路徑進(jìn)行約束。對(duì)于每一個(gè)句子,預(yù)測(cè)它的謂語(yǔ)中心詞結(jié)構(gòu),在所有可能的解空間Y中找到得分最高的標(biāo)簽序列。其約束函數(shù)定義為
其中,y∈Y,得分函數(shù)f(y)的輸入條件為。為了加入額外的信息,比如,結(jié)構(gòu)一致性、語(yǔ)法輸入等,在實(shí)驗(yàn)中利用懲罰項(xiàng)來(lái)增加得分函數(shù),即
其中,給定輸入w和長(zhǎng)度t的前綴y1:t,每個(gè)函數(shù)c都應(yīng)用非負(fù)懲罰。
本文的實(shí)驗(yàn)使用漢語(yǔ)謂語(yǔ)中心詞數(shù)據(jù)集。該數(shù)據(jù)來(lái)源于“中國(guó)裁判文書網(wǎng)”中的762 篇法院刑事判決書。與李婷等[26]的標(biāo)注規(guī)范相同,在標(biāo)注規(guī)范中,把謂語(yǔ)中心詞分為以下幾種模式。
模式1單個(gè)謂語(yǔ)中心詞
由于漢語(yǔ)單詞之間沒有分隔符,在詞的劃分上存在歧義,因此本文的單個(gè)謂語(yǔ)中心詞,以詞典的收錄為準(zhǔn)。例如,“取得”在字典中被收錄為詞,“取出”卻沒有。那么只有“取得”屬于模式1,標(biāo)注為單個(gè)謂語(yǔ)中心詞。
模式2復(fù)合結(jié)構(gòu)的謂語(yǔ)中心詞
漢語(yǔ)句子結(jié)構(gòu)中經(jīng)常使用重復(fù)的表達(dá)式來(lái)構(gòu)成復(fù)合結(jié)構(gòu)的詞,如“跑一跑”“洗洗手”等。
模式3同義并列的謂語(yǔ)中心詞
同義動(dòng)詞通常同時(shí)使用來(lái)作為謂語(yǔ)中心詞,如“驅(qū)車/行駛”“開發(fā)/建設(shè)”“抓捕/歸案”等。此外,連續(xù)的動(dòng)詞表達(dá)相反的語(yǔ)義,但屬于偏正關(guān)系的,如“進(jìn)進(jìn)出出”也被標(biāo)記為一個(gè)謂語(yǔ)中心詞。
模式4帶修飾或帶補(bǔ)語(yǔ)的謂語(yǔ)中心詞
當(dāng)句子中的動(dòng)詞帶有時(shí)態(tài)標(biāo)記、補(bǔ)語(yǔ)或修飾符時(shí),將謂語(yǔ)中心詞標(biāo)注在括號(hào)中,如“王某取出一把尖刀”,標(biāo)記為“王某[(取)出]一把尖刀”。
模式5其他特殊表達(dá)的謂語(yǔ)中心詞
當(dāng)句子中存在名詞做動(dòng)詞、形容詞做動(dòng)詞,以及諺語(yǔ)和成語(yǔ)或典故等時(shí),如“張某[心生不滿]”,成語(yǔ)“心生不滿”如果切分,則會(huì)引起歧義,所以單獨(dú)標(biāo)為謂語(yǔ)中心詞。該模式還可以用于處理主語(yǔ)?謂語(yǔ)從句,其形式為名詞(代詞)+動(dòng)詞(形容詞)。例如,“我[開心]”等。
通過(guò)上述5 種標(biāo)注模式,本文共標(biāo)注7 022 條句子,標(biāo)記7 022 個(gè)謂語(yǔ)中心詞,其中,模式1 有4 959 個(gè),模式2 有24 個(gè),模式3 有272 個(gè),模式4 有1 651 個(gè),模式5 有116 個(gè)。
本文的模型由8 個(gè)LSTM 層(4 個(gè)正向LSTM層和4 個(gè)反向LSTM 層)和一個(gè)用于預(yù)測(cè)輸出分布的Softmax 層組成,層與層之間使用Highway 連接。根據(jù)文獻(xiàn)[27],本文模型中所有權(quán)重矩陣都用隨機(jī)標(biāo)準(zhǔn)正交矩陣初始化。模型參數(shù)設(shè)置如表1 所示。
表1 參數(shù)設(shè)置
在實(shí)驗(yàn)訓(xùn)練階段使用了預(yù)訓(xùn)練的漢語(yǔ)維基百科字向量字嵌入初始化,每個(gè)字經(jīng)過(guò)預(yù)訓(xùn)練后的維度都是100 維,并且在訓(xùn)練期間進(jìn)行更新。維基百科未覆蓋的字將替換為隨機(jī)初始化的
從表 2 的實(shí)驗(yàn)結(jié)果可以看出,Highway+BiLSTM+Softmax 模型取得了最好的效果。第一組實(shí)驗(yàn)使用的是傳統(tǒng)的序列標(biāo)注模型CRF。CRF 通過(guò)特征模板掃描整個(gè)句子,它更多考慮的是整個(gè)句子局部特征的線性加權(quán)組合。CRF 計(jì)算的是一種聯(lián)合概率,優(yōu)化的是整個(gè)序列,而不是將每個(gè)時(shí)刻的最優(yōu)結(jié)果拼接起來(lái)。第二組實(shí)驗(yàn)加入了BiLSTM,BiLSTM 的優(yōu)勢(shì)是可以同時(shí)捕捉正反2 個(gè)方向的長(zhǎng)距離信息,建模上下文的依賴關(guān)系。通過(guò)實(shí)驗(yàn)對(duì)比可以看到,BiLSTM 在CRF 的基礎(chǔ)上有了較大的提升。但是BiLSTM 只能學(xué)習(xí)到某個(gè)特定維度的特征。第三組實(shí)驗(yàn)是李婷等[26]最近的工作,在第二組實(shí)驗(yàn)的基礎(chǔ)上加入了Attention 機(jī)制,Attention 機(jī)制可以獲取全局與局部的聯(lián)系,不會(huì)像RNN 模型那樣對(duì)長(zhǎng)期依賴的捕捉受到序列長(zhǎng)度的影響。在謂語(yǔ)中心詞約束部分,文獻(xiàn)[26]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)序列標(biāo)注結(jié)果進(jìn)行二分類,得到最終的識(shí)別結(jié)果。第三組實(shí)驗(yàn)使用了多層BiLSTM 疊加獲取句子的全局信息,其中層與層之間使用殘差模塊連接[29],性能較第二組實(shí)驗(yàn)有近3%的提升。第四組實(shí)驗(yàn)中在使用多層BiLSTM 模型堆疊的同時(shí),利用Highway 連接來(lái)緩解梯度消失的問(wèn)題。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,Highway 連接比殘差模塊有1%的性能提升。與文獻(xiàn)[26]所做的工作相比,本文的模型是端到端的,不需要分步實(shí)驗(yàn)就能得到最終的序列標(biāo)注結(jié)果。
表2 實(shí)驗(yàn)結(jié)果
4.3.1 句子長(zhǎng)度對(duì)預(yù)測(cè)結(jié)果的影響
本文在實(shí)驗(yàn)中比較了不同的句子長(zhǎng)度對(duì)實(shí)驗(yàn)結(jié)果的影響,如表3 所示。隨著句子長(zhǎng)度的增加,準(zhǔn)確率、召回率、F值均呈下降趨勢(shì)。這也充分說(shuō)明了模型在長(zhǎng)距離語(yǔ)義依賴中的表現(xiàn)略差,長(zhǎng)距離語(yǔ)義建模成為限制模型性能的一大因素。
表3 不同句長(zhǎng)下的實(shí)驗(yàn)結(jié)果
4.3.2 詞向量分析
本文使用漢語(yǔ)維基百科語(yǔ)料為預(yù)訓(xùn)練詞向量,得到約38 萬(wàn)個(gè)字的字向量,可以覆蓋99%的訓(xùn)練集和驗(yàn)證集。在查找表中不能找到的詞被映射為
表4 不同詞向量的實(shí)驗(yàn)結(jié)果
如圖3 所示,采用不同的詞向量后F值隨著迭代次數(shù)的增加而上升,在每一輪迭代中采用預(yù)訓(xùn)練的詞向量的模型效果都優(yōu)于隨機(jī)初始化的模型。預(yù)訓(xùn)練的詞向量能夠更好地表達(dá)每個(gè)字的特征表示。
圖3 不同詞向量對(duì)F值的影響
4.3.3 層間連接分析
本節(jié)實(shí)驗(yàn)選取Wiki-100 initialized 詞向量的模型進(jìn)行實(shí)驗(yàn),對(duì)比了無(wú)連接、殘差連接與Highway連接的表現(xiàn),如表5 所示。
表5 有無(wú)Highway 連接的實(shí)驗(yàn)結(jié)果
Highway 連接與殘差連接具有一個(gè)相同的特性,即過(guò)shortcut 機(jī)制來(lái)實(shí)現(xiàn)深度網(wǎng)絡(luò)的訓(xùn)練。從表5 可以看出,Highway 連接有更好的表現(xiàn),其原因是Highway連接比殘差連接對(duì)跳轉(zhuǎn)連接有更多的控制,Highway 連接啟發(fā)于LSTM 的門控機(jī)制,它的轉(zhuǎn)換門和進(jìn)位門門控結(jié)構(gòu)允許信息在跳轉(zhuǎn)層和使用之間有一個(gè)學(xué)習(xí)的平衡。通過(guò)實(shí)驗(yàn)結(jié)果可以看出,Highway 連接比殘差連接有1%的性能提升。
通過(guò)Highway連接可以緩解訓(xùn)練深層模型時(shí)梯度消失的情況,同時(shí)說(shuō)明Highway 連接在本文模型中是有效的。為了進(jìn)一步說(shuō)明Highway 連接對(duì)深層模型的重要性,本文在實(shí)驗(yàn)中改變了層與層之間的連接方式,使用殘差連接代替Highway 連接。如圖4所示,當(dāng)?shù)螖?shù)不斷增加時(shí),使用殘差連接的模型準(zhǔn)確率會(huì)先上升然后達(dá)到飽和,迭代次數(shù)繼續(xù)增加準(zhǔn)確率會(huì)下降,而使用Highway 連接的模型準(zhǔn)確率隨著迭代次數(shù)的增加而不斷上升,最終在100 次迭代后達(dá)到飽和。
圖4 不同層連接方式對(duì)F值的影響
4.3.4 比較層數(shù)對(duì)模型性能的影響
本節(jié)選取了Wiki-100 詞向量的模型進(jìn)行實(shí)驗(yàn),探究模型層數(shù)對(duì)模型性能的影響。在使用4 層的BiLSTM 疊加后實(shí)驗(yàn)效果達(dá)到最佳。如表6所示,4 層模型比2 層模型提升了近1.3%的F值。從實(shí)驗(yàn)結(jié)果可以看出,深層神經(jīng)網(wǎng)絡(luò)的特征提取能力更強(qiáng),在序列標(biāo)注任務(wù)上優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)。
表6 不同層數(shù)在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果
如圖5 所示,不同層數(shù)的模型訓(xùn)練時(shí)的損失值下降速率也不同。從圖5 可以看出,設(shè)置模型層數(shù)為4 層時(shí)收斂速度達(dá)到最快。
圖5 不同層數(shù)對(duì)訓(xùn)練集損失的影響
本文針對(duì)漢語(yǔ)謂語(yǔ)中心詞進(jìn)行識(shí)別研究,使用深層神經(jīng)網(wǎng)絡(luò)模型對(duì)句子進(jìn)行建模,在漢語(yǔ)謂語(yǔ)中心詞數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),F(xiàn)值達(dá)到80.424%,并且通過(guò)輸出路徑的約束解決了中心詞的唯一性問(wèn)題。在未來(lái)的研究中,需要利用更深層的神經(jīng)網(wǎng)絡(luò)模型來(lái)獲取句子的結(jié)構(gòu)信息,以進(jìn)一步提升識(shí)別性能。此外,下一階段工作將研究模型與輸出路徑間的高階依賴問(wèn)題,通過(guò)在神經(jīng)網(wǎng)絡(luò)模型中加入全局約束條件以及構(gòu)建知識(shí)庫(kù)規(guī)則,使模型在訓(xùn)練過(guò)程中能夠自動(dòng)學(xué)習(xí)句子的結(jié)構(gòu)特點(diǎn),以支撐與謂語(yǔ)中心詞相關(guān)的研究工作。