国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分層輸出神經(jīng)網(wǎng)絡(luò)的漢語語義角色標(biāo)注

2014-02-28 00:45常寶寶穗志方
中文信息學(xué)報(bào) 2014年6期
關(guān)鍵詞:特征向量語義向量

王 臻,常寶寶,穗志方

(北京大學(xué) 計(jì)算語言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871;北京大學(xué) 計(jì)算語言學(xué)研究所,北京 100871)

1 引言

語義分析就是根據(jù)句子的句法結(jié)構(gòu)和句中每個(gè)實(shí)詞的詞義,推導(dǎo)出能夠反映句子意義的某種形式化表示。對(duì)句子進(jìn)行正確的語義分析,一直是從事自然語言處理的人們追求的目標(biāo)。隨著自然語言處理基礎(chǔ)技術(shù),如: 中文分詞、詞性標(biāo)注、句法分析、機(jī)器學(xué)習(xí)等的逐步成熟,以及語義分析在問答系統(tǒng)、信息抽取、機(jī)器翻譯等領(lǐng)域的廣泛應(yīng)用,這一方向越來越受到人們的重視。

目前深層語義分析很難做到,人們更關(guān)注于淺層語義分析。淺層語義分析是深層語義分析的一種簡(jiǎn)化,它只標(biāo)注與句子中謂詞有關(guān)的成分的語義角色,如施事、受事、時(shí)間和地點(diǎn)等。

語義角色標(biāo)注是淺層語義分析的一種實(shí)現(xiàn)方式。該方法并不對(duì)整個(gè)句子進(jìn)行詳細(xì)的語義分析,而只是根據(jù)特定的謂詞去標(biāo)注句子中的一些語義角色(論元),這些語義角色本身被賦予一定的語義含義。

目前大多數(shù)的語義角色標(biāo)注任務(wù)基于的語料資源是提供完整句法樹的賓州樹庫[1],以及完成人工語義角色標(biāo)注的Proposition Bank[2]。兩者都有英文版和中文版,本文的工作是在上述的中文語料環(huán)境下完成的。

前人的工作大多需要產(chǎn)生完整的句法分析樹作為預(yù)處理,例如Sun and Jurafsky[3]、Xue[4],再通過在樹中抽取出很多人工設(shè)定的特征,結(jié)合傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法對(duì)語義角色進(jìn)行分類標(biāo)注。也有使用淺層句法分析的,例如Sun and Sui[5-6],但是實(shí)驗(yàn)效果同樣依賴于很多人工特征的使用。

近些年來,隨著深度學(xué)習(xí)的興起,人們?cè)絹碓疥P(guān)注對(duì)特征表示的自動(dòng)學(xué)習(xí),即把特征的學(xué)習(xí)任務(wù)交由機(jī)器經(jīng)過計(jì)算得到,而不是由領(lǐng)域?qū)<沂孪热斯ご_定,這在很大程度上減少了對(duì)任務(wù)的人為干預(yù),也大大減輕了人們的工作量。Collobert[7]的工作正是在這種環(huán)境下完成的,他使用深度神經(jīng)網(wǎng)絡(luò)的框架完成語義角色標(biāo)注,擺脫了傳統(tǒng)上對(duì)人工設(shè)定特征的依賴,但是原文工作是在英文環(huán)境下完成的,同樣的方法是否適合于中文環(huán)境迄今為止還沒有過完整論述。

本文嘗試使用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)中文語義角色標(biāo)注。章節(jié)安排具體如下: 第2節(jié)介紹了語義角色標(biāo)注的相關(guān)工作;第3節(jié)介紹了基于深度學(xué)習(xí)的語義角色標(biāo)注網(wǎng)絡(luò)框架;第4節(jié)介紹了深層學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練方式;第5節(jié)為實(shí)驗(yàn)結(jié)果及分析;最后對(duì)本文工作進(jìn)行總結(jié),并指出將來工作的方向。

2 相關(guān)工作

中文語義角色標(biāo)注起步較晚,早期的工作側(cè)重于使用在英文語義角色標(biāo)注中取得成效的方法,比如Sun and Jurafsky[3]使用Collins parser得到完整的句法樹后移植了大部分在英文工作中用到的特征,繼而使用SVM算法,但受制于當(dāng)時(shí)的語料規(guī)模,其實(shí)驗(yàn)結(jié)果與后續(xù)工作并沒有可比性。

在大規(guī)模語料CPB(Chinese Proposition Bank)建成之后,Xue[8]、Xue[4]在工作中加入了一些有助于性能提升的特征,并對(duì)中文語義角色標(biāo)注做了系統(tǒng)性的研究。Ding and Chang[9]側(cè)重于語義角色分類,采用層次結(jié)構(gòu),將這一過程分為三個(gè)子任務(wù)。Chen[10]把直推式SVM算法運(yùn)用到中文語義角色標(biāo)注工作中。上述工作中無一例外地使用了語句的完整句法結(jié)構(gòu)信息,這些信息對(duì)語義角色邊界的識(shí)別以及分類都是很有用的,所以語義角色標(biāo)注的效果受制于自動(dòng)句法分析器的性能。Sun and Sui[6]引入淺層句法分析處理語義角色標(biāo)注,避免了使用自動(dòng)句法分析器所帶來的性能損失,在語義組塊一級(jí)進(jìn)行語義角色識(shí)別和分類標(biāo)注。Sun[11-12]對(duì)這一方法進(jìn)行了改進(jìn),加入了幾種新的路徑特征以及擴(kuò)大了語義組塊,使得總的F1值達(dá)到了76.46%,這也是迄今為止獲知的在中文語義角色標(biāo)注上最好的性能結(jié)果。

上述所有方法的特點(diǎn)是使用了很多人工設(shè)定的特征,這有賴于對(duì)特征工程的研究,是比較費(fèi)時(shí)費(fèi)力的。在英文中,Collobert[7]的工作打破了這一傳統(tǒng),文章使用深度學(xué)習(xí)框架自動(dòng)學(xué)習(xí)特征的向量表示,使得與任務(wù)相關(guān)的信息更容易被捕獲,避免了過多的人為介入。實(shí)驗(yàn)結(jié)果也是達(dá)到了74%之多,比較接近英文語義角色標(biāo)注的最好水平。

本文受上述英文工作的啟發(fā),嘗試使用深度學(xué)習(xí)方法進(jìn)行中文語義角色標(biāo)注,通過自動(dòng)特征學(xué)習(xí)避免了繁復(fù)的人工特征設(shè)定,在中文環(huán)境下獲得了不錯(cuò)的實(shí)驗(yàn)效果。

3 基于分層輸出的神經(jīng)網(wǎng)絡(luò)框架

中文語義角色標(biāo)注可以視為對(duì)輸入句子中的每個(gè)詞指定一個(gè)標(biāo)簽。傳統(tǒng)機(jī)器學(xué)習(xí)方法的性能很大程度上受制于所選的特征,正是由于這個(gè)原因,對(duì)該問題的研究很多都偏向于特征工程,而這些工作需要大量的人工介入,費(fèi)時(shí)費(fèi)力。

為了使得語義角色標(biāo)注脫離特征選擇的繁復(fù)工作,本文使用了深度神經(jīng)網(wǎng)絡(luò)的方法。該神經(jīng)網(wǎng)絡(luò)以每個(gè)待標(biāo)注的句子作為輸入,在多層隱層中獲取輸入的抽象表示,最后通過輸出層得到可能性最高的標(biāo)簽序列,完成整個(gè)標(biāo)注工作。網(wǎng)絡(luò)的框架如圖1所示,Lookup Table層提取出每個(gè)詞的特征向量,固定窗口內(nèi)的特征向量進(jìn)行拼接作為下方神經(jīng)網(wǎng)絡(luò)的輸入。對(duì)于最后的結(jié)果,我們可以使用Viterbi算法進(jìn)行解碼得到最后的標(biāo)注序列。

圖1 網(wǎng)絡(luò)框架

本次工作對(duì)模型的主要改進(jìn)集中于對(duì)網(wǎng)絡(luò)輸出層的改進(jìn)。傳統(tǒng)的深度學(xué)習(xí)方法使用的都是單層輸出層進(jìn)行分類標(biāo)記,Collobert[7]一文正是這樣做的。然而語義角色標(biāo)注不同于一般的標(biāo)注問題,因?yàn)樗袪砍兜椒钦Z義角色和語義角色,語義角色細(xì)分又可以分為多種不同的語義角色標(biāo)記。通過上面的分析,我們可以構(gòu)造兩個(gè)層次對(duì)語義角色標(biāo)注問題加以描述: 角色識(shí)別和角色分類,由此引入了兩個(gè)網(wǎng)絡(luò)輸出層,一層用來進(jìn)行角色識(shí)別,一層用來表示角色分類,兩層結(jié)合以給出輸入語句的標(biāo)注序列,這也是本文工作的重心。我們?cè)?.2節(jié)中會(huì)重點(diǎn)對(duì)這一部分進(jìn)行解釋說明。

3.1 中文語義角色標(biāo)注

語義角色標(biāo)注是淺層語義分析的一種實(shí)現(xiàn)方式。該方法并不對(duì)整個(gè)句子進(jìn)行詳細(xì)的語義分析,而只是根據(jù)特定的謂詞去標(biāo)注句子中的一些語義角色(論元),這些語義角色本身被賦予一定的語義含義。

目前大多數(shù)的語義角色標(biāo)注任務(wù)基于的語料資源是提供完整句法樹的賓州樹庫[1],以及完成人工語義角色標(biāo)注的Proposition Bank[2]。在Proposition Bank中,核心的語義角色有Arg0~5共六種,前綴ArgM表示非核心論元角色,后面跟一些附加標(biāo)記表示具體的語義類別,如ArgM_LOC表示地點(diǎn),ArgM_TMP表示時(shí)間等。

圖2對(duì)一個(gè)標(biāo)注實(shí)例具體進(jìn)行說明: 民眾/已經(jīng)/充分/掌握/事情/真相。其中,“掌握”為謂詞,用Rel表示;“民眾”為施事,用Arg0表示;“事情真相”為受事,用Arg1表示;“已經(jīng)”和“充分”分別表示發(fā)生的時(shí)間和程度,用ArgM_TMP和ArgM_MNR表示。下面的語法樹分析了句子的結(jié)構(gòu),并標(biāo)記出了關(guān)于謂詞的各個(gè)語義角色。

圖2 語義角色標(biāo)注示例

所以對(duì)于在Chinese Proposition Bank標(biāo)注體系下進(jìn)行的語義角色標(biāo)注任務(wù),我們的目標(biāo)是給定一個(gè)輸入語句和相關(guān)謂詞,使得系統(tǒng)能夠自動(dòng)地為每個(gè)詞語標(biāo)注語義角色(如上例中的Arg0、Arg1、ArgM_TMP、ArgM_MNR),并力求達(dá)到好的標(biāo)注效果。

3.2 分層輸出結(jié)構(gòu)

圖3 傳統(tǒng)輸出層

針對(duì)序列標(biāo)注問題構(gòu)造神經(jīng)網(wǎng)絡(luò),傳統(tǒng)上的做法是將網(wǎng)絡(luò)的輸出層表示為單層結(jié)構(gòu)[7],將所有的標(biāo)記一起進(jìn)行考慮。對(duì)于語義角色標(biāo)注問題而言,即將各類語義角色與非語義角色合并考慮,最后的輸出層有語義角色個(gè)數(shù)+1個(gè)節(jié)點(diǎn),分別表示每一類標(biāo)注的得分,這樣的結(jié)構(gòu)如圖3所示。

這種方法對(duì)于處理某些簡(jiǎn)單問題是比較合適的,將輸出表示為單層網(wǎng)絡(luò)也意味著所有的標(biāo)記之間是平等的關(guān)系。然而,對(duì)于中文語義角色標(biāo)注問題來說,將所有標(biāo)記同等考慮是不恰當(dāng)?shù)?,因?yàn)榉钦Z義角色和各類語義角色是兩個(gè)層級(jí)的概念。如果順序考察這一任務(wù),我們先得確定一個(gè)詞語是語義角色,然后再對(duì)它是什么語義角色進(jìn)行判斷,而單層神經(jīng)網(wǎng)絡(luò)是不能捕捉到這樣的兩層語義關(guān)系的。

圖4 改進(jìn)輸出層

基于上面的原因,對(duì)于本次工作塑造的神經(jīng)網(wǎng)絡(luò)的輸出層,我們采用圖4的結(jié)構(gòu)表示網(wǎng)絡(luò)輸出。針對(duì)最后一層隱藏層,通過兩個(gè)不同的線性變換得到兩個(gè)不同的輸出層,其中一個(gè)輸出層有兩個(gè)節(jié)點(diǎn),表示這個(gè)詞是語義角色或是非語義角色的得分,另一個(gè)輸出層m(m為本文涉及的語義角色總數(shù))個(gè)節(jié)點(diǎn),表示這個(gè)詞是每種語義角色的得分。這兩個(gè)部分是獨(dú)立存在的,也就是說兩者的線性變換之間沒有嚴(yán)格的關(guān)聯(lián),不過在訓(xùn)練中需要將兩層的輸出合并進(jìn)行考慮,這在第4部分會(huì)有詳細(xì)的說明。

本文的做法很好地模擬了中文語義角色標(biāo)注實(shí)施過程中的兩個(gè)步驟,將角色識(shí)別和角色分類分開進(jìn)行考慮。我們也在實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn),這種分層輸出的方法比傳統(tǒng)處理序列標(biāo)注任務(wù)的單層輸出效果要好,這也證明了我們?cè)O(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的合理性。

3.3 提取中文特征向量

本文工作中使用的特征是詞、詞到標(biāo)注詞的距離、詞到特定謂詞的距離,針對(duì)這三個(gè)特征分別維護(hù)了Lookup Table,從中可以得到每個(gè)特征的向量表示。假設(shè)特征的集合是D,則特征的向量表示存儲(chǔ)在一個(gè)M∈Rd×|D|矩陣之中,d是特征向量的維數(shù),|D| 是特征集合的大小。

下面我們以詞特征為例,具體闡述這個(gè)過程。假設(shè)給定了一個(gè)中文句子c[1∶n],每個(gè)詞設(shè)為ci,1≤i≤n。對(duì)于每個(gè)ci∈D,有它在D中的索引ki,用lki表示只在第ki位為1,其余位皆為0的|D|維向量,則關(guān)于ci可以得到它的特征向量Wci∈Rd:

Wci=Mlki

(1)

值得說明的是,如果一個(gè)詞沒有出現(xiàn)在D的集合內(nèi),可以將其標(biāo)記為UNKNOWN,將UNKNOWN加入到集合D中作為所有未出現(xiàn)的詞特征,這也意味著它們將共享同一特征向量。

3.4 窗口向量拼接

工作中引入窗口的概念,對(duì)每個(gè)詞特定窗口內(nèi)所有詞的特征向量進(jìn)行拼接作為該詞的最終的特征向量輸入下層神經(jīng)網(wǎng)絡(luò)。如此,每個(gè)詞在網(wǎng)絡(luò)中不再是孤立的存在,語義上的相關(guān)性在某種程度上可以通過這個(gè)方式捕捉到。

具體地,如果每個(gè)詞通過第一步得到的特征向量是Wci,那么經(jīng)過窗口拼接的特征向量就被轉(zhuǎn)化為:

(2)

其中dwin表示窗口的大小。

3.5 卷積變換

因?yàn)槊總€(gè)句子的長(zhǎng)度都是不確定的,所以在網(wǎng)絡(luò)中引入一個(gè)卷積變換層對(duì)輸入特征向量進(jìn)行歸一化變換。具體地,設(shè)變換矩陣為M1,卷積變換之后的輸出為:

(3)

其中,1≤t≤n,n表示待標(biāo)注語句的長(zhǎng)度;1≤i≤h,h1表示第一層隱層的節(jié)點(diǎn)個(gè)數(shù)。

3.6 深層網(wǎng)絡(luò)結(jié)構(gòu)

后續(xù)的神經(jīng)網(wǎng)絡(luò)計(jì)算,使用如下公式進(jìn)行線性變換:

zl=Ml-1zl-1+bl-1

(4)

其中Ml-1表示l-1層到l層的權(quán)值矩陣,bl-1表示l-1層到l層的閾值向量。

工作中隱層使用的激活函數(shù)是hardtanh,其定義如下所示:

(5)

3.7 標(biāo)注策略

雖然我們的工作目標(biāo)是給每個(gè)詞進(jìn)行Arg0~5或是ArgM-X的標(biāo)記,但是單純使用這樣的標(biāo)記,我們并不能得到語義角色的邊界信息,因?yàn)槊總€(gè)語義角色的開頭和結(jié)尾都應(yīng)該是有據(jù)可循的,單純使用語義角色的標(biāo)注顯然會(huì)忽略掉這一點(diǎn)。

所以,針對(duì)上面情況的分析,我們?cè)趯?shí)驗(yàn)中采用IOBES的標(biāo)注策略,I-ARGX表示一個(gè)語義角色的內(nèi)層部分,B-ARGX表示語義角色的開始部分,E-ARGX表示語義角色的結(jié)尾,S-ARGX表示單個(gè)詞形成的語義角色,O表示不屬于語義角色的部分。而在預(yù)測(cè)階段,我們會(huì)將該標(biāo)注策略轉(zhuǎn)換為僅表示語義角色的標(biāo)注結(jié)果。

4 基于詞標(biāo)簽的網(wǎng)絡(luò)訓(xùn)練方式

本次工作采用了基于詞標(biāo)簽的訓(xùn)練方式對(duì)深層學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,具體地,我們是通過最大化似然函數(shù)進(jìn)行參數(shù)求解的,隨機(jī)梯度下降能夠很好地運(yùn)用在問題的求解中。用θ表示網(wǎng)絡(luò)中的所有參數(shù),x表示一個(gè)特定的待標(biāo)記的詞,y表示對(duì)應(yīng)的正確標(biāo)記,實(shí)際上,我們?cè)噲D最大化的是下面這個(gè)式子:

(6)

其中,T是所有的訓(xùn)練數(shù)據(jù)。

在這種訓(xùn)練方法中,我們單獨(dú)考慮句子中每個(gè)詞的標(biāo)簽。對(duì)于每個(gè)詞x,網(wǎng)絡(luò)的第一個(gè)輸出層輸出f1(x,i1,θ),其中i1為0或1,分別表示x是語義角色和非語義角色的得分,運(yùn)用softmax操作進(jìn)行歸一化,我們可以得到當(dāng)前詞x是語義角色或是非語義角色的概率:

(7)

網(wǎng)絡(luò)的第二個(gè)輸出層輸出f2(x,i2,θ),其中i2為對(duì)應(yīng)的每一種語義角色類型,分別表示x是每種語義角色的得分,運(yùn)用softmax操作進(jìn)行歸一化,我們可以得到當(dāng)前詞x是每種語義角色的概率:

(8)

我們通過簡(jiǎn)單的概率公式可以計(jì)算得到x屬于每種類別的概率:

(9)

之后再運(yùn)用上面提到的最大似然方法進(jìn)行訓(xùn)練就可以得到整個(gè)網(wǎng)絡(luò)模型的各個(gè)參數(shù)。

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)設(shè)置

我們采用中文Proposition Bank的數(shù)據(jù)集,同前人的工作一樣,使用Proposition Bank中的02-21分塊作為訓(xùn)練數(shù)據(jù),第24分塊作為開發(fā)集數(shù)據(jù),第23塊用于測(cè)試集。本次實(shí)驗(yàn)用到的語義角色有Arg0~5,以及其余的十三種修飾角色ArgM-X,如ArgM-LOC修飾地點(diǎn),ArgM-TMP修飾時(shí)間等。

5.2 超參數(shù)設(shè)置

對(duì)于深層網(wǎng)絡(luò)中超參數(shù)的選擇,我們使用經(jīng)驗(yàn)知識(shí)和前人工作進(jìn)行判斷,Yoshua Bengio(2012)對(duì)深層網(wǎng)絡(luò)常用的參數(shù)設(shè)置給出了經(jīng)驗(yàn)上的指導(dǎo),本文的工作受上文和之前工作的啟發(fā),對(duì)網(wǎng)絡(luò)架構(gòu)中的超參數(shù)進(jìn)行了人為設(shè)定。

工作中訓(xùn)練網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)為0.001,窗口拼接時(shí)的窗口大小設(shè)為5,詞表大小設(shè)置為10 000(使用最頻繁出現(xiàn)的前10 000個(gè)詞),特征向量的長(zhǎng)度分別為50、20、20,兩層隱藏層的節(jié)點(diǎn)數(shù)目分別是200和100。

5.3 詞向量初始化

對(duì)于待標(biāo)記詞到給定謂詞距離以及當(dāng)前詞到待標(biāo)記詞距離這兩個(gè)特征,我們都是使用隨機(jī)初始化的方式對(duì)它們的特征向量進(jìn)行初始化,因?yàn)閷?duì)于它們而言我們沒有很多先驗(yàn)知識(shí)去得到有意義的特征向量。對(duì)于詞特征,我們當(dāng)然也可以通過隨機(jī)初始化的方式對(duì)它進(jìn)行賦值,這樣造成的代價(jià)是網(wǎng)絡(luò)的訓(xùn)練時(shí)間會(huì)更長(zhǎng)。由于目前大規(guī)模中文語料的存在,對(duì)詞向量的初始化我們有了更好的選擇。

word2vec是google的一個(gè)基于上下文共現(xiàn)信息學(xué)習(xí)詞向量的一個(gè)實(shí)用的工具,借助它在giga語料上學(xué)習(xí)得到的詞向量,我們可以對(duì)網(wǎng)絡(luò)中用到的詞的特征表示進(jìn)行有意義的初始化,因?yàn)閷?shí)驗(yàn)表明該工具生成的詞向量在一定程度上是能夠把握詞語之間的語義信息的。使用這種詞的特征表示也使得網(wǎng)絡(luò)的訓(xùn)練時(shí)間大幅度降低。

5.4 實(shí)驗(yàn)結(jié)果

上文提到,我們?cè)跇?biāo)記時(shí)使用的是IOBES的標(biāo)注策略,該標(biāo)注策略實(shí)際上給標(biāo)注結(jié)果添加了一種可能性限制。比如說,對(duì)于B-ARG0之后只能出現(xiàn)I-ARG0或是E-ARG0,其余的標(biāo)注結(jié)果都是非法的,對(duì)于I-ARG0,其后僅有I-ARG0和E-ARG0合法,我們可以對(duì)每種情況進(jìn)行列舉,得出關(guān)于標(biāo)記序列的一些限制,使用這些限制,我們才能得到合法的標(biāo)記序列。

具體地,我們?cè)陬A(yù)測(cè)階段可以得到每個(gè)詞關(guān)于所有標(biāo)記的得分(在IOBES標(biāo)注體系之下),我們?cè)俑鶕?jù)上述提到的限制生成一個(gè)限制矩陣Am×m,m表示在IOBES標(biāo)注體系下的標(biāo)記個(gè)數(shù);矩陣元素αij表示從標(biāo)記i到標(biāo)記j的可能性,我們這里對(duì)其賦值0表示可能的轉(zhuǎn)移,賦值-∞表示不可能的轉(zhuǎn)移?;谏鲜龅梅忠约稗D(zhuǎn)移矩陣,我們可以使用Viterbi算法進(jìn)行解碼,得到最大值的序列就是我們?cè)陬A(yù)測(cè)中給定的標(biāo)記序列,上述的賦值保證了該標(biāo)記序列的合法性。之后,再對(duì)IOBES標(biāo)記序列進(jìn)行轉(zhuǎn)化,變?yōu)閮H使用語義角色的序列,使用此序列與標(biāo)準(zhǔn)答案進(jìn)行比較,得到我們關(guān)心的準(zhǔn)確率、召回率和F值。

表1給出了本文工作得到的實(shí)驗(yàn)結(jié)果, 其中的baseline是僅使用一層輸出層進(jìn)行標(biāo)記的結(jié)果,我們可以看到本文工作對(duì)輸出層的改進(jìn)使得實(shí)驗(yàn)結(jié)果有了明顯的提升。

表1 實(shí)驗(yàn)結(jié)果

通過表1我們可以發(fā)現(xiàn),改進(jìn)的框架模型不管是在準(zhǔn)確率還是召回率上,相對(duì)于單層輸出的模型都有比較明顯的提升,而對(duì)于F值,改進(jìn)后的框架在原有的基礎(chǔ)上提升了0.02之多,這也證明了我們分離角色識(shí)別和角色分類的改進(jìn)是有效的。

雖然如此,我們不得不承認(rèn)該實(shí)驗(yàn)結(jié)果離目前基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的中文語義角色標(biāo)注的最好水平還有一段距離,這也是需要我們進(jìn)行總結(jié)和反思的地方。

5.5 詞向量

本次實(shí)驗(yàn)的另一個(gè)發(fā)現(xiàn)是,經(jīng)過深層學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練,我們得到了更好的詞向量表示,以中國(guó)為例,表2列出了分別在訓(xùn)練前后與中國(guó)一詞最近的十個(gè)詞語。

表2 詞語相關(guān)度

通過表2我們可以發(fā)現(xiàn),經(jīng)過針對(duì)語義角色標(biāo)注的深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,我們得到的詞向量能更好地反映出詞語的語義關(guān)聯(lián)。表2中訓(xùn)練前得到的結(jié)果還比較雜亂無章,雖然大多表示的都是地點(diǎn),但是都無法與中國(guó)保持在一個(gè)層級(jí)之上。而在訓(xùn)練之后,這一現(xiàn)象有了很大的改觀,得到的詞語基本都是國(guó)家名稱,這是一個(gè)很大的改進(jìn),說明了我們的網(wǎng)絡(luò)在得到詞向量方面具備很強(qiáng)的能力,這雖然不是本次工作的重心,但是對(duì)以后的工作方向也是很有啟發(fā)的。

6 總結(jié)

本文嘗試使用深層神經(jīng)網(wǎng)絡(luò)模型進(jìn)行中文語義角色標(biāo)注的探索,首次將角色識(shí)別和角色分類兩個(gè)步驟以網(wǎng)絡(luò)層的形式引入深度學(xué)習(xí)模型。在測(cè)試語料上的實(shí)驗(yàn)結(jié)果表明,該方法在一定程度上可以對(duì)語義角色進(jìn)行標(biāo)注,引入的兩層輸出模型性能上也超越了單層輸出的模型。該方法有效地規(guī)避了人工設(shè)定特征的步驟,一定程度上減少了工作量,同時(shí)也對(duì)詞向量產(chǎn)生了不錯(cuò)的補(bǔ)充與改進(jìn)。然而,我們不能忽略的是,本文對(duì)中文語義角色標(biāo)注任務(wù)的處理效果并不理想,與主流方法的差距還是比較明顯的。

下一步,我們將參考前人工作試圖在網(wǎng)絡(luò)中引入人工設(shè)計(jì)的語義特征信息,并適當(dāng)擴(kuò)充網(wǎng)絡(luò)的規(guī)模和復(fù)雜性,嘗試從更深層次的語義層面入手,挖掘出更多的語義信息,幫助進(jìn)行中文語義角色標(biāo)注任務(wù),從而提升整個(gè)工作的性能。

[1] Nianwen Xue. Building a Large-Scale Annotated Chinese Corpus[C]//Proceedings of the 19th international conference on Computational linguistics.2002: 1-8.

[2] Nianwen Xue, Martha Palmer. Annotating the propositions in the Penn Chinese Treebank[C]//Proceedings of the second SIGHAN workshop on Chinese language processing.2003: 47-54.

[3] Honglin Sun, Daniel Jurafsky. Shallow semantic parsing of Chinese[C]//Proceedings of NAACL-HLT.2004.

[4] Nianwen Xue. Labeling Chinese predicates with semantic roles[J]. Computational Linguistics, 2008, 34(2): 225-255.

[5] Weiwei Sun, Zhifang Sui. Chinese function tag labeling[C]//Proceedings of the 23rdPacific Asia Conference on Language, Information and Computation.2009.

[6] Weiwei Sun, Zhifang Sui, Meng Wang and Xin Wang. Chinese semantic role labeling with shallow parsing[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.2009: 1475-1483.

[7] Collobert Ronan, Weston Jason. A unified architecture for natural language processing: Deep neural networks with multitask learning[C]//Proceedings of the 25thinternational conference on machine learning.2008: 160-167.

[8] Nianwen Xue, Martha Palmer. Automatic semantic role labeling for Chinese verbs[C]//Proceedings of the 19thInternational Joint Conference on Artificial Intelligence.2005.

[9] Weiwei Ding, Baobao Chang. Improving Chinese semantic role classification with hierarchical feature selection strategy[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing.2008.

[10] Yaodong Chen, Ting Wang, Huowang Chen, and Xishan Xu. Semantic role labeling of Chinese using transductive svm and semantic heuristics[C]//Proceedings of the Third International Joint Conference on Natural Language Processing.2008.

[11] Weiwei Sun. Improving Chinese semantic role labeling with rich syntactic features[C]//Proceedings of the ACL 2010 Conference Short Papers.2010: 168-172.

[12] Weiwei Sun. Semantics-driven shallow parsing for Chinese semantic role labeling[C]//Association for Computational Linguistics (ACL).2010.

[13] Bengio, Y. Practical recommendations for gradient-based training of deep architectures. In NN: Tricks of the Trade[M]. 2012: 437-478.

[14] Weiwei Ding, Baobao Chang. Fast semantic role labeling for Chinese based on semantic chunking[C]//Proceedings for of the 22ndInternational Conference on Computer Processing of Oriental Languages.2009: 79-90.

猜你喜歡
特征向量語義向量
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
真實(shí)場(chǎng)景水下語義分割方法及數(shù)據(jù)集
向量的分解
克羅內(nèi)克積的特征向量
聚焦“向量與三角”創(chuàng)新題
語言與語義
一類三階矩陣特征向量的特殊求法
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
批評(píng)話語分析中態(tài)度意向的鄰近化語義構(gòu)建
向量垂直在解析幾何中的應(yīng)用
巧家县| 香港| 湘潭县| 马公市| 安宁市| 恩平市| 盘锦市| 米泉市| 霍山县| 双柏县| 白河县| 交城县| 绥滨县| 孙吴县| 穆棱市| 永安市| 安乡县| 老河口市| 蓬安县| 惠州市| 开封市| 南京市| 鸡泽县| 滦平县| 千阳县| 驻马店市| 泽州县| 湘阴县| 赞皇县| 湛江市| 革吉县| 萍乡市| 鹤峰县| 遂宁市| 富蕴县| 翁牛特旗| 柘城县| 民县| 南康市| 巨野县| 长岭县|