国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

使用深度長短時記憶模型對于評價詞和評價對象的聯(lián)合抽取

2018-04-16 07:53:42沈亞田黃萱菁曹均闊
中文信息學(xué)報 2018年2期
關(guān)鍵詞:短時記憶向量對象

沈亞田,黃萱菁,曹均闊

(1.復(fù)旦大學(xué) 計算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203; 2.海南師范大學(xué) 信息科學(xué)技術(shù)學(xué)院,海南 ???570100)

0 引言

細(xì)粒度的意見分析目標(biāo)是發(fā)現(xiàn)句子中的主觀表達(dá)(例如“可愛”)、主觀的強(qiáng)度(例如“十分的”)、包含的情感(例如“正的”)以及識別意見的目標(biāo)對象(也就是關(guān)于什么的意見)[1]。例如,“The phone has a colorful and even amazing screen”的句子中,“screen”是評價對象,“colorful” 和 “amazing”是評價詞。在這個工作中,我們重點關(guān)注了評價詞和評價對象的聯(lián)合抽取。這里的聯(lián)合抽取是相對于過去傳統(tǒng)的串行化抽取方式而言,串行化方式先識別評論詞,然后再根據(jù)評價詞與評價對象的關(guān)系線索識別評價對象。

細(xì)粒度的評論分析對于許多自然語言處理任務(wù)是很重要的,包括面向意見的問答系統(tǒng)、意見總結(jié)和信息檢索。因此,這個任務(wù)已經(jīng)被自然語言處理社區(qū)研究了多年。

為了抽取評論對象,許多研究者把評價詞作為強(qiáng)烈的暗示[2-3],以上工作基于這樣的觀察:評價詞一般在評價對象的的周圍,它們之間有很強(qiáng)的相關(guān)性。因此,大多數(shù)以前的方法迭代地抽取評價對象,其主要依賴評價詞和評價對象的關(guān)聯(lián)性,評價詞和評價對象抽取是個相互增強(qiáng)的過程[3-4]。然而,評價詞和評論對象之間的關(guān)聯(lián)性并不能準(zhǔn)確有效地獲得,尤其是長距離的語義關(guān)聯(lián)關(guān)系的情況。因此,如何發(fā)現(xiàn)評價詞和評論對象之間的關(guān)聯(lián)是解決這個問題的關(guān)鍵。

在解決評價詞和評價對象之間關(guān)聯(lián)的問題上,許多研究者研究了句法信息,例如憑借依存句法樹[3]。這種方法的效果嚴(yán)重依賴句法分析的結(jié)果,而各種評論數(shù)據(jù)經(jīng)常都是不規(guī)范的文本(包括一些文法錯誤、不合適的標(biāo)點等),句法分析過程中會產(chǎn)生許多錯誤,這將導(dǎo)致后續(xù)的抽取任務(wù)發(fā)生連帶錯誤。為了克服以上方法的缺點,評價詞和評價對象抽取已經(jīng)被作為序列標(biāo)注的問題[5],把評價詞和評價對象的抽取過程看成是普通的自然語言處理的序列標(biāo)注問題,從而實現(xiàn)聯(lián)合抽取。該工作把句子作為被標(biāo)注序列,通過使用傳統(tǒng)的BIO標(biāo)注模式:B-OP 表示意見表達(dá)的開始,B-TA 表示意見目標(biāo)的開始,I-OP 和 I-TA 表示意見和意見對象的內(nèi)部,O 表示和意見相關(guān)的外部詞。表1中的句子實例顯示了用BIO方法的標(biāo)注結(jié)果,例如

B-OP是 “beautiful” ,B-TA是 “quality”。

表1 一個標(biāo)注的例子

條件隨機(jī)場的許多變種已經(jīng)被成功地應(yīng)用到評價詞和評價對象的聯(lián)合抽取任務(wù)中[5]。然而,條件隨機(jī)場和半條件隨機(jī)場的方法需要人為手動設(shè)計大量的特征,通常需要句法成分樹和依存樹,手動建立的意見詞表,命名實體的標(biāo)注和其他的一些預(yù)處理的成分。同時,抽取特征的過程非常耗時,而且,手動設(shè)計特征嚴(yán)重依賴于大量的人類先驗知識以及專家和語言學(xué)家的經(jīng)驗等,這是不現(xiàn)實的。

近年來,以特征學(xué)習(xí)為目標(biāo)的深度學(xué)習(xí)已經(jīng)成為研究的熱點[6],該方法被應(yīng)用到各種自然語言處理的任務(wù)中,例如分詞等序列任務(wù)[7]。把循環(huán)神經(jīng)網(wǎng)絡(luò)用在細(xì)粒度的意見挖掘方面,他們嘗試了RNN的Elman-RNN、Jordan-RNN、LSTM三種模型,把意見挖掘作為序列標(biāo)注的任務(wù)[8]。

但是,該模型沒有考慮標(biāo)注之間的依賴關(guān)系,標(biāo)注之間的關(guān)系對于序列標(biāo)注的任務(wù)很重要,這在分詞[7]、語音識別方面得到了充分的證明。其次,一些方法[8]沒有在數(shù)據(jù)的標(biāo)簽級別上做到聯(lián)合抽取,僅僅分別抽取評價詞和評價對象,沒有進(jìn)行評價詞和評價對象的聯(lián)合抽取,忽略了這樣的事實:很多評價詞和評價對象有很強(qiáng)的依賴和互增強(qiáng)的關(guān)系[3-4]。為了解決以上的問題,我們使用長短時記憶神經(jīng)網(wǎng)絡(luò)模型進(jìn)行評價詞和評價對象的聯(lián)合抽取,我們考慮了幾種長短時記憶神經(jīng)網(wǎng)絡(luò)模型的變種,把評價詞和評價對象的抽取看成是序列標(biāo)注的任務(wù),同時,長短時記憶神經(jīng)網(wǎng)絡(luò)模型避免了梯度消失和爆炸的問題[9]。

本文工作的主要貢獻(xiàn)總結(jié)如下:

(1) 本文在句子級的評價詞和評價對象聯(lián)合抽取任務(wù)上研究了長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的應(yīng)用。長短時記憶神經(jīng)網(wǎng)絡(luò)模型能夠獲得文本更多的長距離上下文信息,避免了普通的循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失和梯度爆炸的問題。

(2) 本工作對比了長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)模型的幾種變種的性能,實驗結(jié)果表明LSTM-1模型是更加有效的。

(3) 與傳統(tǒng)的方法相比,我們的實驗結(jié)果顯示:長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)于以前的傳統(tǒng)方法,在評價詞和評價對象的聯(lián)合抽取任務(wù)上達(dá)到了最好的性能。

1 相關(guān)工作

早期的評價詞和評價對象的聯(lián)合抽取任務(wù)主要關(guān)注識別主觀的表達(dá)短語[1-2]。有些系統(tǒng)解決這個問題的方法為序列標(biāo)注問題,這種方法在很大程度上超過以前的工作[10]。條件隨機(jī)場被應(yīng)用于識別評論者[5],還有些研究者聯(lián)合識別評論表達(dá)的級性和強(qiáng)度[11],重排序的方法也被用來提高序列標(biāo)注任務(wù)的性能[12-13]。

近年來的工作松弛了條件隨機(jī)場的馬爾科夫假設(shè),用來獲得短語級的上下文關(guān)聯(lián),很明顯地高于詞語級的標(biāo)注方法[14]。

特別地, 一些研究者提出了聯(lián)合抽取評論表達(dá)式、評論者、評論對象以及它們之間的關(guān)系[15]。

還有研究者將深度循環(huán)神經(jīng)網(wǎng)絡(luò)被應(yīng)用到評論表達(dá)式的抽取任務(wù)中,被用于詞級的序列標(biāo)注任務(wù)[16]。

在自然語言處理任務(wù)中,循環(huán)神經(jīng)網(wǎng)絡(luò)模型把句子作為詞語序列,已經(jīng)成功地應(yīng)用到語言模型[17]、分詞任務(wù)[7]等任務(wù)中。傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)僅僅包括一些過去的信息(例如上一個詞語),雙向的變種循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)被提出,結(jié)合了過去和未來的兩個方向的信息(下一個字符)[18]。

系統(tǒng)[19]抽取過程由兩部分構(gòu)成,首先分類評價對象,然后用條件隨機(jī)場模型抽取評價對象。

系統(tǒng)[8]與我們的工作很相似,它把循環(huán)神經(jīng)網(wǎng)絡(luò)用在細(xì)粒度的意見挖掘方面,嘗試了RNN的Elman-RNN、Jordan-RNN、LSTM三種模型,把意見挖掘做為序列標(biāo)注的任務(wù)。

但是,我們的工作主要在兩個方面不同于他們的。首先,考慮了標(biāo)注之間的關(guān)系,標(biāo)注之間的關(guān)系對于序列標(biāo)注的任務(wù)很重要,這在分詞[7]、語音識別[20]方面得到了充分的證明。其次,我們的工作是把評價詞和評價對象進(jìn)行聯(lián)合抽取。事實上,很多評價詞和評價對象有很強(qiáng)的依賴和互增強(qiáng)的關(guān)系[3-4],利用這種現(xiàn)象采用串行化的方法對評價詞和評價對象進(jìn)行抽取,但是他們沒有考慮聯(lián)合抽取的方式。

在本研究工作中,我們集中在長短時記憶神經(jīng)網(wǎng)絡(luò)模型的評價詞與評價對象聯(lián)合抽取任務(wù)的應(yīng)用上。

2 神經(jīng)網(wǎng)絡(luò)用于序列標(biāo)注任務(wù)框架

評價詞與評價對象聯(lián)合抽取被看作是序列標(biāo)注的問題。近年來,神經(jīng)網(wǎng)絡(luò)已經(jīng)被用于傳統(tǒng)的自然語言處理中的序列標(biāo)注任務(wù),其流程框架如圖 1 所示。在這個框架中,神經(jīng)網(wǎng)絡(luò)模型用三個特殊的層描述:(1)詞語嵌入層,也就是詞向量層;(2)一系列傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)層;(3)標(biāo)注推理層。

h(t)=g(W1x(t)+b1)

(1)

在式(1)中,W1∈RH2×H1,b1∈RH2,h(t)∈RH2,H2是超參數(shù),它表示第二層隱單元數(shù)。假定標(biāo)注集的大小是|T|,相似的線性轉(zhuǎn)換被執(zhí)行如下:

y(t)=W2h(t)+b2

(2)

在式(2)中,W2∈R|Τ|×H2,b2∈R|Τ|,y(t)∈R|Τ|是每一個可能標(biāo)注的打分。在評價詞與評價對象的聯(lián)合抽取任務(wù)中,如圖1中提到那樣,使用BIO標(biāo)注模式的標(biāo)記集。

圖1 神經(jīng)網(wǎng)絡(luò)作為序列標(biāo)注任務(wù)框架

為了建模標(biāo)注的依賴關(guān)系,A(ij)引進(jìn)了一個轉(zhuǎn)移打分記錄,表示從標(biāo)注i到標(biāo)注j的跳轉(zhuǎn)概率。盡管這個模型對于序列標(biāo)注的任務(wù)表現(xiàn)很好,但是它僅僅利用了有限的上下文窗口信息,因此,某些長距離信息沒有被充分利用。

3 長短時記憶神經(jīng)網(wǎng)絡(luò)用于評價詞與評價   對象聯(lián)合抽取

在這一部分,我們將介紹長短時記憶模型的神經(jīng)網(wǎng)絡(luò)對于評價詞與評價對象的聯(lián)合抽取任務(wù)。

3.1 詞向量層

使用神經(jīng)網(wǎng)絡(luò)處理符號數(shù)據(jù)的第一步首先是數(shù)據(jù)表示成分布式向量,也叫作詞語嵌入或者詞向量。形式上,在序列標(biāo)注的任務(wù)上,我們有一個大小是|C|的詞典C。每一個詞c∈C表示成一個實數(shù)值向量(c)∈Rd,d是向量維度。然后詞向量被堆疊成詞向量矩陣M∈Rd×|c|。對于每一個詞語c∈C,對應(yīng)的詞向量(c)∈Rd通過查找表層檢索,查找表層被作為一個簡單的投影層,每一個詞語根據(jù)其索引得到維度是d的詞向量。

3.2 長短時記憶模型(LSTM)

長短時記憶模型(LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的擴(kuò)展(RNN),循環(huán)神經(jīng)網(wǎng)絡(luò)的隱狀態(tài)在每一個時間步都依賴于以前的時間步,其簡單的結(jié)構(gòu)如圖2(a)所示。形式上給予一個序列x(1:n)=(x(1),x(2),…,x(t),…x(n)),循環(huán)更新其隱狀態(tài)h(t),按照下面的公式計算:

h(t)=g(Uh(t-1)+Wx(t)+b)

(3)

式(3)中,g是非線性函數(shù)。雖然循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)取得了很大成功,但是,在訓(xùn)練過程中,獲得文本序列上下文背景的長時序依賴卻是十分困難的,這在很大程度上是由于普通的循環(huán)神經(jīng)網(wǎng)絡(luò)所遭遇的梯度消失和梯度爆炸問題[9],因此,文獻(xiàn)[18]的模型使用LSTM 單元代替普通的非線性單元解決這種問題。

圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)和長短時記憶單元

LSTM通過使用記憶單元解決上述的問題,LSTM的記憶單元允許網(wǎng)絡(luò)或者忘記以前的信息,或者當(dāng)新的信息給予的時候更新記憶單元存儲的內(nèi)容。因此,應(yīng)用LSTM單元到序列標(biāo)注的任務(wù)中是很自然的選擇,因為LSTM神經(jīng)網(wǎng)絡(luò)考慮了輸入和對應(yīng)輸出之間的時間滯后性,使得網(wǎng)絡(luò)能夠從數(shù)據(jù)中學(xué)習(xí)出長距離的時序依賴性。

LSTM模型的核心是記憶單元c,該單元編碼了到現(xiàn)在這個時間步為止所有的可觀察到的輸入信息。記憶單元的行為被三個門,即輸入門i,輸出門o、忘記門f控制,LSTM 的結(jié)構(gòu)如圖2(b)所示。門的操作定義為向量對應(yīng)乘,當(dāng)門是非零向量的時候,門能夠放大輸入值;當(dāng)門是零值的時候,忽略輸入值。相應(yīng)地門的定義,記憶單元的更新和輸出如下:

在式(4)~(9)里,σ是sigmoid 函數(shù)、tanh是hyperbolic tangent函數(shù)。it、ft、ot、ct分別是時間步t時刻相應(yīng)的輸入門、忘記門、輸出門、 記憶單元,所有的這些門向量的尺寸大小等同于隱藏向量h(t)∈RH2,?表示向量對應(yīng)乘,具有不同下標(biāo)的W都是權(quán)方陣。注意,Wi、Wf、Wo、Wg都是對角矩陣。

3.3 長短時記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)對于評價詞與評   價對象的聯(lián)合抽取

為了完全利用LSTM結(jié)構(gòu),我們使用了四個不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來選擇有效的特征,其結(jié)構(gòu)被用在分詞、詞性標(biāo)注等任務(wù)上[7]。圖3表示了被提出的四種LSTM結(jié)構(gòu)的變體,它們被用于評價詞與評價對象的聯(lián)合抽取任務(wù)。

(1) LSTM-1

LSTM-1簡單地使用LSTM單元替換掉式(1)中隱藏神經(jīng)元,如圖3(a)所示。

LSTM單元的輸入來自于詞語的上下文窗口。對于每一個詞語ct(1≤t≤n):

(10)

LSTM單元的輸入xt來自于x(t-k1):(t+k2)詞向量的拼接,k1、k2分別表示詞語ct的左右上下文的詞語數(shù)量。LSTM單元的輸出被線性轉(zhuǎn)換后作為最后的標(biāo)注推理。

(2) LSTM-2

LSTM-2能夠一層一層堆疊LSTM單元,形成多層結(jié)構(gòu),這里我們僅僅選擇兩層結(jié)構(gòu),也即其中一層的輸出作為下一層的輸入,結(jié)構(gòu)如圖3(b)所示。具體來說,上層LSTM層輸入來自于h(t)底端LSTM層的沒有經(jīng)過任何變換的輸出,第一層的輸入等同于LSTM-1,第二層的輸出等同于LSTM-1模型輸出。

(3) LSTM-3

LSTM-3是LSTM-1的擴(kuò)展,其采用LSTM的局部上下文作為最后一層的輸入,結(jié)構(gòu)如圖3(c)所示。

對于每一個時間步,我們拼接LSTM層的窗口,輸出成一個向量

⊕…⊕ht+m2

(11)

(4) LSTM-4

LSTM-4是LSTM-2和LSTM-3的混合,它有兩個LSTM層構(gòu)成,低端LSTM層的輸出形成上端LSTM層的輸入,最后層采用上端LSTM層的局部上下文作為輸入,如圖3(d)所示。

圖3 長短時記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)的變種

3.4 句子級標(biāo)簽推理

給予感興趣任務(wù)的標(biāo)注集,神經(jīng)網(wǎng)絡(luò)模型輸出一個|T|大小的向量在每一個詞的位置i,向量里面的每一個分量被解釋為標(biāo)注集中每一個標(biāo)注的打分,ci是句子中的每一個詞。

由于在序列標(biāo)注的任務(wù)中詞的標(biāo)注之間有強(qiáng)烈的依賴關(guān)系,我們引進(jìn)一個轉(zhuǎn)移分?jǐn)?shù)A(ij)表示從i∈|T|到j(luò)∈|T|的轉(zhuǎn)移分?jǐn)?shù),初始考慮句子的結(jié)構(gòu),一個初始的分?jǐn)?shù)A(0i)從第i標(biāo)注開始,我們的目的是拋棄其他無效路徑,尋找一條最優(yōu)的路徑。

假定給予一個句子c[1:n],網(wǎng)絡(luò)的輸出是一個打分矩陣fθ(c[1:n])。fθ(ti|i)表示在網(wǎng)絡(luò)模型參數(shù)θ下,句子c[1:n]中的第i個詞獲得t標(biāo)注時所給予的預(yù)測打分,這個值是通過神經(jīng)網(wǎng)絡(luò)模型由式(2)計算獲得。因此,一個具有標(biāo)注路徑t[1:n]的句子c[1:n]獲得的標(biāo)簽打分等于標(biāo)簽轉(zhuǎn)移分?jǐn)?shù)和神經(jīng)網(wǎng)絡(luò)輸出標(biāo)注分?jǐn)?shù)的和,如式(12)所示。

(12)

為了預(yù)測句子c[1:n]的標(biāo)簽,我們通過最大化句子打分發(fā)現(xiàn)最好的標(biāo)注路徑,如式(13)所示。

(13)

隨著句子的長度的增加,式(12)中的路徑數(shù)量會指數(shù)增加,維特比算法[21]被用來標(biāo)注推理,能夠在線性時間內(nèi)計算它。

4 訓(xùn)練模型

標(biāo)注路徑的對數(shù)條件概率由式(13)得出。

(14)

模型訓(xùn)練在整個數(shù)據(jù)集M上使用最大似然估計的方法,使用隨機(jī)梯度下降方法更新參數(shù),如果我們表示θ為所有的訓(xùn)練參數(shù),可得:

(15)

式中,c是對應(yīng)的句子,t表示對應(yīng)的標(biāo)注,θ是相關(guān)的參數(shù),在我們的模型中參數(shù)集θ={M,A,Wi,Wf,Wo,Wg,Ui,Uf,Uo,Ug,bi,bf,bo,bg}p(t|c)是神經(jīng)網(wǎng)絡(luò)輸出標(biāo)簽條件概率。

LSTM網(wǎng)絡(luò)使用BPTT 的方法[21]進(jìn)行梯度計算,假定θj是所有的參數(shù)集更新了j步后的參數(shù),η0是學(xué)習(xí)率,N是最小批大小,θ(j)是代價函數(shù)的梯度,參數(shù)更新如式(16)所示。

(16)

5 實驗

5.1 數(shù)據(jù)集和評估方法

實驗中,我們選擇COAE2008 dataset2數(shù)據(jù)集來評估我們的方法,它包括四個不同的產(chǎn)品評論數(shù)據(jù),詳細(xì)的信息可以參見表2。在實驗過程中,每一個評論根據(jù)標(biāo)點被分割,由于標(biāo)注數(shù)據(jù)中的句子較長,我們僅僅截取含有評價詞或者評價對象的句子進(jìn)行實驗,然后用StanfordNLP工具進(jìn)行分詞。系統(tǒng)[23]被用來識別名詞短語。我們使用準(zhǔn)確率、召回率和 F值進(jìn)行性能評估。

表2 COAE2008 dataset2數(shù)據(jù)集

5.2 超參數(shù)

對于網(wǎng)絡(luò)的學(xué)習(xí),超參數(shù)的設(shè)置是很重要的,根據(jù)實驗的結(jié)果,我們選擇的超參數(shù)的情況被列舉在表3中。實驗中,我們發(fā)現(xiàn)隱藏單元數(shù)對網(wǎng)絡(luò)模型性能有一定的影響,為了調(diào)和性能和速度之間的矛盾,我們選擇200作為一個最好的折衷。LSTM模型中的權(quán)矩陣全部被隨機(jī)初始化在[-0.05,0.05]的范圍內(nèi)。我們使用Google的Word2Vec工具在4GB的Sogou數(shù)據(jù)集上預(yù)訓(xùn)練一個300維詞向量,獲得的詞向量被用來初始化神經(jīng)網(wǎng)絡(luò)模型的查找表層,以代替隨機(jī)初始化出現(xiàn)的誤差。整個神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練花費了31個小時。LSTM模型變種、學(xué)習(xí)率及窗口上下文的設(shè)置我們將在下節(jié)詳細(xì)討論。

表3 模型超參數(shù)的設(shè)置

5.3 超參數(shù)的影響

我們也評估了四種LSTM模型的變種,按照表3中超參數(shù)的設(shè)置,窗口上下文被設(shè)置成不同的大小,在數(shù)據(jù)集COAE2008進(jìn)行評估,LSTM隱藏層的尺寸被設(shè)置成200。在COAE2008的數(shù)據(jù)集上,39輪的訓(xùn)練周期內(nèi),LSTM-1模型收斂是最快的,達(dá)到了最好的標(biāo)注結(jié)果。LSTM-2得到較差的結(jié)果,這顯示了網(wǎng)絡(luò)模型的深度未必有利于結(jié)果的提高。LSTM-3和LSTM-4模型在訓(xùn)練過程中很難收斂,很大部分的原因是由于模型過于復(fù)雜,不利于參數(shù)的學(xué)習(xí)。COAE2008數(shù)據(jù)集的結(jié)果被顯示在表4中,從中可看出LSTM-1 模型達(dá)到了最好的性能。因此,后面的實驗分析都基于LSTM-1模型,按照表3中的超參數(shù)進(jìn)行實驗設(shè)置。

表4表明,LSTM-1模型性能在不同的上下文長度中表現(xiàn)最好。但是,LSTM-1模型用最小的上下文長度節(jié)約了計算資源,使得模型更加有效。同時,LSTM-1模型用(0,2)窗口上下文長度比用(1,2)、(2,2)窗口上下文長度能夠獲得更好的性能。這充分說明了LSTM模型能夠更好地建模以前信息,并且對于窗口上下文大小的變化具有很強(qiáng)的魯棒性。

表4 各種模型不同上下文窗口實驗結(jié)果對比

學(xué)習(xí)率是一個重要的超參數(shù),為了使網(wǎng)絡(luò)達(dá)到較好的性能,如何正確地設(shè)置學(xué)習(xí)率顯得尤為重要。圖4顯示學(xué)習(xí)率設(shè)置如何影響測試集上的F值性能。

在COAE2008數(shù)據(jù)集上,當(dāng)學(xué)習(xí)率設(shè)置成 0.5的時候,學(xué)習(xí)性能變化非常明顯,出現(xiàn)了尖峰,F(xiàn)值達(dá)到了80%,因此我們能得出學(xué)習(xí)率是非常敏感的參數(shù)。

圖5顯示了隱藏層大小對F值的影響。在COAE2008數(shù)據(jù)集上,LSTM-1取得隱藏層的大小尺寸是200,F(xiàn)值達(dá)到了80%,這是我們得到的最好結(jié)果。毫無疑問,LSTM-1結(jié)構(gòu)隱藏層尺寸 大 小 是重要的超參數(shù),在很大程度上影響LSTM的網(wǎng)絡(luò)性能。

如同期望一樣,更大的網(wǎng)絡(luò)表現(xiàn)也更好,隨著網(wǎng)絡(luò)尺寸的增加,需要的訓(xùn)練時間也在增加。但是,當(dāng)隱藏層尺寸變得更大的時候,性能將逐漸下降,網(wǎng)絡(luò)趨向過擬合。

5.4 各種方法的對比

我們在COAE2008 dataset2數(shù)據(jù)集上對比了幾種常用的評價詞與評價對象的抽取,僅僅使用最簡單LSTM-1的模型,按照表3中超參數(shù)設(shè)置方法與當(dāng)前的常用方法進(jìn)行對比,實驗結(jié)果顯示在表5和表6中,通過表中結(jié)果的分析,我們能夠得到如下的觀察和結(jié)論。

(1) 對比神經(jīng)網(wǎng)絡(luò)方法LSTM-1和傳統(tǒng)的方法[3-4,15],實驗結(jié)果顯示:在數(shù)據(jù)集上,LSTM-1方法取得優(yōu)于傳統(tǒng)方法的實驗效果,它有效證明了LSTM-1的方法能捕獲文本的語義組合,保存更長的上下文特征信息,并且遭受更少數(shù)據(jù)稀疏問題的困擾。

表5 COAE2008 dataset2上方法對比

續(xù)表

表6 COAE2008 dataset2不同領(lǐng)域數(shù)據(jù)對比

(2) 在COAE2008 dataset2數(shù)據(jù)集上,通過與以前傳統(tǒng)方法[3-4,15]的對比,我們能看到LSTM-1獲得了較好的結(jié)果,這也表明LSTM-1更準(zhǔn)確地捕獲了評價詞與評價對象之間的語義關(guān)系,也更符合直覺上評價詞與評價對象之間的強(qiáng)烈依賴和修辭關(guān)系。例如,在汽車數(shù)據(jù)中,“強(qiáng)勁”的“動力”、“很大”的“機(jī)器噪聲”等。

我們相信LSTM-1能夠通過LSTM單元選擇更加具有區(qū)分性的特征和捕獲長距離的上下文信息。

文獻(xiàn)[3]依賴句法樹的性能是不現(xiàn)實的,某些評論數(shù)據(jù)有大量的噪聲,句法分析的準(zhǔn)確性是很難保證的。

文獻(xiàn)[4]使用機(jī)器翻譯的方法發(fā)現(xiàn)評價詞和評價對象之間的關(guān)聯(lián),然后基于圖的模型抽取評價詞,這樣避免了串行方法中錯誤的有效傳播。但是,這種方法很難發(fā)現(xiàn)使用復(fù)合句方式修辭的評價對象。然而,很多評論數(shù)據(jù)中含有整個句子修飾評價對象的現(xiàn)象,一些從句中包含大量的評價詞,直接或者間接修飾評價對象,例如,“入住的套房相當(dāng)舒適,很多住過的客人都十分喜歡它的干凈,整潔”,在這個句子中,由于“干凈,整潔”語義距離“套房”較遠(yuǎn),普通的方法很難發(fā)現(xiàn)它們之間的修辭關(guān)系。

LSTM-1通過LSTM單元能夠獲得上下文信息,把評價詞和評價對象的聯(lián)合抽取作為序列標(biāo)注任務(wù)。文獻(xiàn)[3-4]的工作對待評價詞和評價對象關(guān)系的抽取使用管道串行的方式,評價對象和評價詞抽取任務(wù)沒有被聯(lián)合建模,前者的抽取錯誤會影響后者的抽取,同時錯誤傳播沒有被考慮。

文獻(xiàn)[15]聯(lián)合識別和評價詞相關(guān)的實體,包括評論表達(dá)式,評價目標(biāo)和評價持有人以及它們之間相關(guān)的關(guān)系,如IS-ABOUT 和 IS-FROM等,然而,模型[15]不能表達(dá)評價詞和評價對象的長距離依賴關(guān)系。

文獻(xiàn)[8]使用了Elman-RNN、Jordan-RNN、LSTM三種模型,把意見挖掘作為序列標(biāo)注的任務(wù)。但是,它們忽略了標(biāo)注之間的關(guān)系,并且沒有考慮評價詞和評價對象之間有很強(qiáng)的依賴的事實,在一定程度上損失了抽取的準(zhǔn)確率。

(3) 我們在COAE2008數(shù)據(jù)集上也對比了被設(shè)計較好的特征,實驗結(jié)果顯示我們的方法超過了文獻(xiàn)[15]的特征集,獲得了一個較好的結(jié)果,相信我們的方法能夠獲得評論句子長距離的依賴模式,并且不需要人工設(shè)計特征,這對于低資源的語言是很有利的。

6 結(jié)論

在本文工作中,我們在句子級評價詞和評價對象聯(lián)合抽取任務(wù)上研究了長短時記憶神經(jīng)網(wǎng)絡(luò)模型幾種變種的應(yīng)用。把句子級評價詞和評價對象聯(lián)合抽取看成是一種序列標(biāo)注任務(wù),而長短時記憶神經(jīng)網(wǎng)絡(luò)模型是一種循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該模型使用長短時記憶模型單元作為循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶單元,能夠獲得更多的長距離上下文信息,同時避免了普通的循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消失和梯度爆炸問題。我們對比了以前的方法,在現(xiàn)有的COAE2008 dataset2數(shù)據(jù)集上,我們提出的長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)在評價詞和評價對象的聯(lián)合抽取任務(wù)上達(dá)到了最好的實驗結(jié)果。

評價詞和評價對象的抽取是自然語言處理中很重要的工作,未來我們將結(jié)合評價詞和評價對象的抽取任務(wù)本身的特點,進(jìn)一步探索更多的深度學(xué)習(xí)模型在這方面的應(yīng)用,例如研究門限循環(huán)單元(GRU)代替長短時記憶單元(LSTM)。另外,能否利用深度學(xué)習(xí)方法有效學(xué)習(xí)評價詞和評價對象之間的關(guān)系也是我們未來的研究方向。

[1]Janyce Wiebe,Theresa Wilson,Claire Cardie.Annotating expressions of opinions and emotions in language[J].Language resources and evaluation,2005,[1]39(2-3):165-210.

[2]Minqing Hu,Bing Liu.Mining and summarizing customer reviews[C]//Proceedings of the tenth SIGKDD,ACM,2004:168-177.

[3]Guang Qiu,Bing Liu,Jiajun Bu,et al.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011.37(1):9-27.

[4]Kang Liu,Liheng Xu,and Jun Zhao.Opinion target extraction using word-based translation model[C]//Proceedings of EMNLP.Association for Computational Linguistics.2012:1346-1356.

[5]Yejin Choi,Claire Cardie,Ellen Riloff,et al.Identifying sources of opinions with conditional random fields and extraction patterns[C]//Proceedings of EMNLP,2005:355-362.Association for Computational Linguistics.

[6]Ronan Collobert,Jason Weston.A unified architecture for natural language processing:Deep neural networks with multitask learning[C]//Proceedings of ICML,2008:160-167.ACM.

[7]Xinchi Chen,Xipeng Qiu,Chenxi Zhu,et al.Long short-term memory neural networks for Chinese word segmentation[C]//Proceedings of EMNLP.Association for Computational Linguistics,2015.

[8]Pengfei Liu,Shafiq Joty,Helen Meng.Finegrained opinion mining with recurrent neural networks and word embeddings[C]//Proceedings of EMNLP.Association for Computational Linguistics,2015.

[9]Sepp Hochreiter.The vanishing gradient problem during learning recurrent neural nets and problem solutions[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems,1998.6(02):107-116.

[10]Eric Breck,Yejin Choi,Claire Cardie.Identifying expressions of opinion in context[C]//IJCAI,volum 7,2007:2683-2688.

[11]Yejin Choi,Claire Cardie.Hierarchical sequential learning for extracting opinions and their attributes[C]//Proceedings of the ACL 2010 Conference Short Papers,2010:269-274.Association for Computational Linguistics.

[12]Richard Johansson,Alessandro Moschitti.Syntactic and semantic structure for opinion expression detection[C]//Proceedings of the Fourteenth Conference on Computational Natural Language Learning,2010:67-76.Association for Computational Linguistics.

[13]Richard Johansson,Alessandro Moschitti.Extracting opinion expressions and their polarities:exploration of pipelines and joint models[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies:short papers-Volume 2,2011:101-106.Association for Computational Linguistics

[14]Bishan Yang,Claire Cardie.Extracting opinion expressions with semi-markov conditional random fields[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning,2012:1335-1345.Association for Computational Linguistics.

[15]Bishan Yang,Claire Cardie.Joint infence for fine-grained opinion extraction[C]//ACL(1),2013:1640-1649.

[16]Ozan Irsoy,Claire Cardie.Opinion mining with deep recurrent neural networks[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP),2014:720-728.

[17]Tomas Mikolov,Stefan Kombrink,Lukas Burget,et al.Extensions of recurrent neural network language model[C]//Acoustics,Speech and Signal Processing(ICASSP),2011 IEEE International Conference on,2011:5528-5531.IEEE.

[18]Mike Schuster,Kuldip K Paliwal.Bidirectional recurrent neural networks.Signal Processing,IEEE Transactions on,1997,45(11):2673-2681.

[19]Zhiqiang Toh,Jian Su.Nlangp at semeval-2016 task 5:Improving aspect based sentiment analysis using neural network features[C]//Proceedings of SemEval,2016:282-288.

[20]Grégoire Mesnil,Xiaodong He,Li Deng,et al.Investigation of recurent-neural network architectures and learning methods for spoken language understanding[J].INTERSPEECH,2013:3771-3775.

[21]G David Forney Jr.The viterbi algorithm[C]//Proceedings of the IEEE,1973.61(3):268-278.

[22]Alex Graves,Schmidhuber.Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J].Neural Networks,2005,18(5):602-610.

[23]Jingbo Zhu,Huizhen Wang,Benjamin K Tsou,et al.Multi-aspect opinion polling from textual reviews//Proceedings of the 18th ACM Conference on Information and Knowledge Management,2009:1799-1802.ACM.

沈亞田(1982—),博士,主要研究領(lǐng)域為自然語言處理。E-mail:sy602@126.com

黃萱菁(1972—),博士,教授,主要研究領(lǐng)域為自然語言處理。E-mail:xjhuang@fudan.edu.cn

曹均闊(1975—),通信作者,博士,副教授,主要研究領(lǐng)域為自然語言處理。E-mail:jkcao@qq.com

猜你喜歡
短時記憶向量對象
神秘來電
睿士(2023年2期)2023-03-02 02:01:09
基于長短時記憶神經(jīng)網(wǎng)絡(luò)的動力電池剩余容量預(yù)測方法
向量的分解
聚焦“向量與三角”創(chuàng)新題
攻略對象的心思好難猜
意林(2018年3期)2018-03-02 15:17:24
短時記憶、長時記憶對英語聽力的影響
基于熵的快速掃描法的FNEA初始對象的生成方法
向量垂直在解析幾何中的應(yīng)用
短時記憶理論的影響
區(qū)間對象族的可鎮(zhèn)定性分析
庐江县| 莲花县| 洮南市| 安图县| 广宁县| 大名县| 沽源县| 营山县| 华容县| 依兰县| 永寿县| 南乐县| 乌鲁木齐县| 凉山| 武功县| 晋城| 仙游县| 乐昌市| 福贡县| 白沙| 闵行区| 江都市| 咸宁市| 盐源县| 桃源县| 宿松县| 大城县| 山阳县| 铜鼓县| 门源| 临颍县| 类乌齐县| 桃江县| 疏勒县| 乐清市| 罗平县| 图们市| 衡阳县| 德江县| 唐山市| 西峡县|