国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于兩段高速網(wǎng)絡(luò)的命名實(shí)體識(shí)別

2022-04-19 09:27李明揚(yáng)
中文信息學(xué)報(bào) 2022年3期
關(guān)鍵詞:網(wǎng)絡(luò)層語(yǔ)料粒度

陳 淳,李明揚(yáng),孔 芳

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

0 引言

命名實(shí)體識(shí)別(Named Entity Recognition, NER)是自然語(yǔ)言處理領(lǐng)域中一個(gè)典型的序列標(biāo)注問(wèn)題,旨在識(shí)別出非結(jié)構(gòu)化文本序列中含有特定意義的實(shí)體,并標(biāo)注以人名、地名、機(jī)構(gòu)名等。這些具有特殊含義的實(shí)體在關(guān)系抽取[1]、指代消解[2]、對(duì)話問(wèn)答[3]等下游任務(wù)中發(fā)揮著重要作用。

近年來(lái)命名實(shí)體識(shí)別發(fā)展迅速,但現(xiàn)有的研究對(duì)字、詞之間的關(guān)聯(lián)信息挖掘不夠,無(wú)法統(tǒng)一處理組合實(shí)體和常規(guī)實(shí)體的識(shí)別。例如,He和Wang[4]、Liu[5]、Li[6]等對(duì)比了字與詞粒度分別作為輸入時(shí)的命名實(shí)體識(shí)別效果,結(jié)果顯示基于字粒度要優(yōu)于詞粒度。但是基于字粒度的嵌入式表示存在識(shí)別結(jié)果的標(biāo)簽不連續(xù)的情況,不能解決中文詞匯的邊界模糊問(wèn)題,而基于詞粒度的嵌入式表示具有顯式的詞匯邊界,可有效緩解上述問(wèn)題。此外,漢語(yǔ)詞匯具有明顯的復(fù)合結(jié)構(gòu)。如圖1所示,當(dāng)詞以姓氏“李”作為前綴時(shí),一般情況下都是表達(dá)人名的含義。而在某些特殊場(chǎng)景,組合實(shí)體內(nèi)部分字的組合能夠充分表達(dá)該詞的含義,如“北京大學(xué)”擁有詞后綴“大學(xué)”,從語(yǔ)言學(xué)角度我們可以直觀地判斷為ORG,而其中的“北京”反而會(huì)給該實(shí)體的識(shí)別帶來(lái)負(fù)面影響。為利用字詞各自的優(yōu)勢(shì),充分挖掘字詞間的關(guān)聯(lián),本文提出了一種融合雙向注意力機(jī)制的高速網(wǎng)絡(luò),希望能通過(guò)詞本身或者詞內(nèi)字的有效組合信息的融入來(lái)更好地為中文命名實(shí)體識(shí)別服務(wù)。

圖1 組合詞示例

命名實(shí)體識(shí)別在長(zhǎng)期研究中形成了Bi-LSTM(Bi-directional Long Short-Term Memory)[7]與CRF(Conditional Random Fields)[8]結(jié)合的主流模型,但對(duì)中文而言,復(fù)合命名實(shí)體的占比較高,表1統(tǒng)計(jì)了OntoNotes中簡(jiǎn)單實(shí)體和復(fù)合實(shí)體的占比,其中復(fù)合實(shí)體的占比大于14%,這就使得實(shí)體序列長(zhǎng)短不一,如何多視角地捕獲實(shí)體文本自身各個(gè)層次的信息,更好地融合多種信息,成為提升中文命名實(shí)體識(shí)別性能的關(guān)鍵。本文給出了融入自注意力機(jī)制的借助高速網(wǎng)絡(luò)進(jìn)行信息橋接的解決方案。

表1 OntoNotes V 4.0簡(jiǎn)單實(shí)體與組合實(shí)體分布

在OntoNotes中文數(shù)據(jù)集上的實(shí)驗(yàn)證明,本文給出的基于兩段高速網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型能夠很好地識(shí)別出多類型實(shí)體,消除部分實(shí)體歧義,獲得較高的P(Precsion)值和R(Recall)值。在沒(méi)有使用大型預(yù)訓(xùn)練語(yǔ)言模型的情況下,本文模型能夠取得目前OntoNotes中文語(yǔ)料上最好的命名實(shí)體識(shí)別性能。

1 相關(guān)研究

命名實(shí)體識(shí)別作為自然語(yǔ)言處理領(lǐng)域的基礎(chǔ)任務(wù)之一,長(zhǎng)期受到科研人士的關(guān)注,目前命名實(shí)體識(shí)別以深度學(xué)習(xí)方法為主流。隨著ELMo、BERT等大型預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn),近幾年命名實(shí)體識(shí)別的研究側(cè)重于找到更好的情境化向量表示,從而起到提升命名實(shí)體識(shí)別性能的作用。

在字詞編碼方面,已有研究均是以字粒度為主、詞粒度為輔,沒(méi)有將二者放在同等維度上考慮。近年具有代表性的相關(guān)研究有: Zhang和Yang[9]在2018年引入Lattice模型將所有與詞典匹配的潛在單詞信息整合到字符序列中,獲得較好的向量表示。2019年,Mengge X等[10]發(fā)現(xiàn)Lattice方法需要多次遞歸計(jì)算,導(dǎo)致這個(gè)模型的計(jì)算成本很高。在此基礎(chǔ)上,Mengge X等[10]提出了一種新穎的Lattice+Transformer模型來(lái)解決上述問(wèn)題,得益于Transformer的mask機(jī)制,該模型避免了之前的大規(guī)模計(jì)算,速度提升了9.47倍。

在有效捕獲文本自身信息方面,李等[11]在2018年使用門控算法結(jié)合多頭注意力機(jī)制,在多個(gè)不同子空間捕獲上下文相關(guān)信息,能較好地理解句子結(jié)構(gòu)。Jie和Lu[12]在2019年將依賴樹結(jié)構(gòu)與GCN結(jié)合,對(duì)依賴關(guān)系樹進(jìn)行編碼,并捕獲其屬性,用來(lái)提升中文命名實(shí)體識(shí)別的性能。

除此以外,Mengge X等[11]還在他們模型的基礎(chǔ)上運(yùn)用了大型預(yù)訓(xùn)練語(yǔ)言模型BERT,Jie和Lu[13]也在他們的實(shí)驗(yàn)中加入了ELMo進(jìn)行對(duì)比,二者均獲得明顯的性能提升。由此可見,針對(duì)不同場(chǎng)景,合適的向量表示能夠?yàn)橹形拿麑?shí)體識(shí)別帶來(lái)效果的提升。Guo等[13]考慮到Transformer模型的復(fù)雜性,用星形拓?fù)浣Y(jié)構(gòu)代替了傳統(tǒng)的全連接結(jié)構(gòu),復(fù)雜性從二次降低到線性,同時(shí)保留捕獲局部成分和長(zhǎng)期依賴關(guān)系的能力。

本文從字粒度與詞粒度的向量表示著手,將二者放在同等維度上加以考慮,在不使用大型預(yù)訓(xùn)練語(yǔ)言模型的情況下,利用融入雙向注意力機(jī)制的高速網(wǎng)絡(luò)來(lái)獲取組合詞中有效字的組合(詞綴),從而更好地服務(wù)于命名實(shí)體識(shí)別。另外,我們還利用融入自注意力機(jī)制的高速網(wǎng)絡(luò)層來(lái)進(jìn)一步捕獲文本特征,結(jié)合兩段高速網(wǎng)絡(luò)層來(lái)高效識(shí)別中文命名實(shí)體。

2 命名實(shí)體識(shí)別框架

本文使用Lample等[14]的Bi-LSTM+CRF模型作為基礎(chǔ)模型,將命名實(shí)體識(shí)別看作是序列標(biāo)注問(wèn)題之后,實(shí)體采用BMES規(guī)則標(biāo)注,實(shí)體的開頭標(biāo)注為B(Beginning),實(shí)體內(nèi)部單元標(biāo)注為M(Median),實(shí)體的結(jié)尾標(biāo)注為E(End),其他的詞標(biāo)注為O(Other)。

本文提出了基于兩段高速網(wǎng)絡(luò)的命名實(shí)體識(shí)別(Two HighWay NetWorks,THWNW)模型,圖2給出了THWNW模型的完整框架,從圖中可以看出,模型分為兩部分,第一部分包括輸入以及對(duì)字粒度輸入的處理,模型分別輸入字粒度以及詞粒度的嵌入式表示,然后通過(guò)融入雙向注意力機(jī)制的高速網(wǎng)絡(luò)層(HWNW_1)獲得詞內(nèi)有效字的組合信息。第二部分是融入了自注意力機(jī)制的高速網(wǎng)絡(luò)層(HWNW_2)。下文將逐個(gè)介紹THWNW模型中各個(gè)組成部分。

圖2 THWNW模型

2.1 字、詞粒度的嵌入式表示

在編碼階段,原始數(shù)據(jù)通過(guò)查找字或詞向量表轉(zhuǎn)化為字或詞向量序列。對(duì)于文本中的字與詞的向量表示,我們使用2018年預(yù)先訓(xùn)練完成的詞向量[15],該詞向量使用Word2Vec中的Skip-Gram模型訓(xùn)練,維度為300。該詞向量包括百度百科、中文維基百科、人民日?qǐng)?bào)、微博、知乎等多領(lǐng)域的字詞特征,模型訓(xùn)練參數(shù)設(shè)置如表2所示。

表2 SGNS模型訓(xùn)練參數(shù)設(shè)置

字詞向量表查找的過(guò)程是讓原始文本中每一個(gè)字符或者單詞在表上查找相對(duì)應(yīng)的字詞向量,如果某個(gè)字符或單詞在表中不存在,則被賦予一個(gè)隨機(jī)值。

2.2 基礎(chǔ)模型: Bi-LSTM+CRF

在中文命名實(shí)體識(shí)別的任務(wù)中,我們旨在根據(jù)給定的輸入序列x={x1,x2,…,xn}來(lái)預(yù)測(cè)標(biāo)簽序列y={y1,y2,…,yn},其中,n是單詞總數(shù)。CRF層[8]定義給定x的標(biāo)注序列y的概率,如式(1)所示。

(1)

繼Lample等[14]的工作,score(x,y)定義為雙向LSTM的傳遞分?jǐn)?shù)和發(fā)射分?jǐn)?shù)之和,如式(2)所示。

(2)

其中,A是一個(gè)轉(zhuǎn)移矩陣,Ayi,yi+1是從標(biāo)簽yi到標(biāo)簽yi+1的傳遞參數(shù)。F是發(fā)射矩陣,F(xiàn)x,yi表示標(biāo)簽yi在第i個(gè)位置的得分。這樣的分?jǐn)?shù)由參數(shù)化的LSTM網(wǎng)絡(luò)[7]提供。在訓(xùn)練過(guò)程中,我們將對(duì)數(shù)可能性降到最低,以獲得包括LSTM和傳遞參數(shù)在內(nèi)的模型參數(shù)。

2.3 融入雙向注意力機(jī)制的高速網(wǎng)絡(luò)層

注意力機(jī)制是一種用來(lái)分配有限的信息處理能力的選擇機(jī)制,其特點(diǎn)為選擇性地關(guān)注某些重要的信息,相應(yīng)地忽略同一時(shí)刻接收到的其他信息[16]。

OntoNotes語(yǔ)料中存在大量復(fù)合實(shí)體以及復(fù)合實(shí)體中的部分實(shí)體同時(shí)存在的情況,對(duì)于這些存在關(guān)系的復(fù)雜實(shí)體(如圖3中的“中國(guó)”與“中國(guó)人民大學(xué)”),基礎(chǔ)的Bi-LSTM+CRF模型并不能準(zhǔn)確識(shí)別。我們觀察了相關(guān)實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)大量的單獨(dú)實(shí)體(如“中國(guó)”)沒(méi)有被識(shí)別出來(lái),同時(shí)與該實(shí)體有關(guān)的復(fù)合實(shí)體(如“中國(guó)人民大學(xué)”)也存在未識(shí)別及識(shí)別邊界錯(cuò)誤的情況。

圖3 字詞向量對(duì)齊

考慮到這類問(wèn)題,我們觀察到在一些特殊場(chǎng)景下,詞內(nèi)部分字的有效組合有助于快速理解該詞本身,甚至整個(gè)句子。圖3中的“中國(guó)人民大學(xué)”,我們可以根據(jù)詞后綴“大學(xué)”快速將該實(shí)體判斷為ORG。本文提出的THWNW模型利用雙向注意力機(jī)制將字粒度和詞粒度的向量表示進(jìn)行對(duì)齊,自主選擇詞內(nèi)能夠有效表示該詞的部分字組合,具體過(guò)程如圖4所示。

圖4 Bi-attention模型圖

雙向注意力機(jī)制負(fù)責(zé)鏈接和融合詞向量和字向量的信息。這里的雙向包含兩個(gè)步驟,首先是word到char的單向注意力流,針對(duì)詞向量表示中的每個(gè)單詞,計(jì)算字向量表示中每個(gè)字與其所對(duì)應(yīng)的詞向量中單詞i的相關(guān)度。然后是char到word的單向注意力流,對(duì)于字向量表示的每個(gè)字,計(jì)算word向量表示中的每個(gè)單詞與char向量表示中當(dāng)前字j的相關(guān)度。我們?cè)噲D利用這樣的雙向注意力機(jī)制使輸入的字和詞向量獲得對(duì)齊,并且在兩輪相似度計(jì)算之后,獲得詞內(nèi)部分字的有效組合來(lái)充分代表該詞。

字粒度以Hc=c1,c2,c3,…,cm輸入,其中,ci表示漢語(yǔ)中的每一個(gè)字,字的向量表示需要先經(jīng)過(guò)GRU神經(jīng)網(wǎng)絡(luò)層得到初步處理,如式(3)所示。

(3)

詞粒度以Hw=w1,w2,w3,…,wn輸入,其中,wj表示漢語(yǔ)中的每一個(gè)詞。圖3展示了上例中詞與字粒度向量表示對(duì)齊的結(jié)果,我們可以用這種方式從字的角度來(lái)更好地理解詞信息。

對(duì)于上述字與詞粒度的輸入,雙向注意力機(jī)制可以用式(4)概括:

(4)

圖4給出了雙向注意力機(jī)制內(nèi)部詳細(xì)的計(jì)算流程,首先需要計(jì)算相似度矩陣,如式(5)所示。

(5)

Q(p,q)=w×[p,q,p?q]

(6)

這里的相似度矩陣其實(shí)就是將字和詞的向量表示以及它們的矩陣點(diǎn)乘結(jié)果拼接,再乘以權(quán)重w。

接下來(lái)進(jìn)入雙向attention的計(jì)算,如式(7)、式(8)所示。

其中,maxcol(Lij)為矩陣L中第j列最大的元素,式(4)計(jì)算了word到char的attention,式(5)計(jì)算了char到word的attention,分別計(jì)算兩個(gè)方向的attention之后,對(duì)上述向量進(jìn)行統(tǒng)一處理,如式(9)所示。

(9)

圖5 HWNW_1模型圖

該高速網(wǎng)絡(luò)所對(duì)應(yīng)的計(jì)算如式(10)~式(12)所示。

考慮到句子中每個(gè)位置的字對(duì)于上下文的依賴程度不同,通過(guò)引入門控Gate來(lái)學(xué)習(xí)句子中每個(gè)位置的字所占權(quán)重,該門控機(jī)制由sigmoid單元組成。其中,Wg1和bg1分別表示門控機(jī)制的權(quán)重參數(shù)與偏差參數(shù)。

(13)

2.4 融入自注意力機(jī)制的高速網(wǎng)絡(luò)層

在目前的序列標(biāo)注主模型中,僅僅依靠Bi-LSTM無(wú)法解決序列長(zhǎng)短不一的問(wèn)題。本文在Bi-LSTM模型后應(yīng)用多頭自注意力機(jī)制,以此從多角度、多層次獲取文本的相關(guān)特征。融入多頭自注意力機(jī)制的HWNW_2模型如圖6所示。

圖6 HWNW_2模型圖

Transformer[18]首先使用h個(gè)注意力頭對(duì)一個(gè)輸入序列分別進(jìn)行單獨(dú)的自我注意,然后對(duì)每個(gè)注意力頭進(jìn)行連接和線性變換操作,稱為多頭注意力機(jī)制(MultiHead-Attention)。一般來(lái)說(shuō),多頭注意力機(jī)制可以用查詢(query)到一系列鍵(key)值(value)對(duì)的映射來(lái)描述。

首先介紹放縮點(diǎn)積注意力(scaled dot-product attention),其本質(zhì)上是使用了點(diǎn)積進(jìn)行相似度計(jì)算。給定一個(gè)向量序列X,我們可以使用一個(gè)查詢向量Q軟選擇相關(guān)信息,如式(14)、式(15)所示。

其中,WK,WV是對(duì)應(yīng)向量的學(xué)習(xí)參數(shù)。然后我們可以將多頭注意力機(jī)制定義為:

Lin[19]首次提出了自注意力機(jī)制(self-attention),其思想就是在序列內(nèi)部做attention,尋找序列內(nèi)部的聯(lián)系,即Attention(X,X,X),X就是輸入序列。

和雙向注意力機(jī)制一樣,對(duì)于多頭自注意力機(jī)制,我們也用高速網(wǎng)絡(luò)對(duì)上層Bi-LSTM得到的特征向量HLSTM以及經(jīng)過(guò)多頭自注意力機(jī)制的結(jié)果HMH進(jìn)行橋接,最終得到特征向量HHWNT_2,式(18)~式(20)描述了HWNW_2的詳細(xì)過(guò)程。

3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

本文將使用命名實(shí)體識(shí)別的公開數(shù)據(jù)集,通過(guò)不同的設(shè)置對(duì)模型進(jìn)行實(shí)驗(yàn),并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行討論與分析,最終采用準(zhǔn)確率P、召回率R和Micro-F1值對(duì)標(biāo)注結(jié)果進(jìn)行評(píng)價(jià)。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文實(shí)驗(yàn)是在大型OntoNotes V 4.0[20]中的中文數(shù)據(jù)集上進(jìn)行的。我們的初衷是將字與詞粒度放在同等維度上考慮,為了排除分詞工具對(duì)命名實(shí)體識(shí)別的影響,我們采用了按詞劃分的OntoNotes V 4.0語(yǔ)料。其中包括訓(xùn)練集、開發(fā)集和測(cè)試集共24 371個(gè)句子,表3給出了該語(yǔ)料詳細(xì)的結(jié)構(gòu)。

表3 OntoNotes V 4.0詳細(xì)數(shù)據(jù)

OntoNotes V 4.0語(yǔ)料標(biāo)注的實(shí)體類型包括PER、ORG、LOC和GPE,表4給出了語(yǔ)料中各個(gè)類別的分布情況,從中我們可以清晰地看出這四類實(shí)體分布不均,且ORG和GPE類型的實(shí)體占大多數(shù)。

表4 OntoNotes V 4.0實(shí)體類型分布

除此以外,表1給出了各數(shù)據(jù)集上組合實(shí)體和簡(jiǎn)單實(shí)體的比例,其中組合實(shí)體占到了約14.5%,而大多數(shù)ORG和GPE類型的實(shí)體為復(fù)合實(shí)體,適合用我們前文中所闡述的融入雙向注意力機(jī)制的高速網(wǎng)絡(luò)捕獲詞綴信息。

Zhang等[9]、Mengge X等[10]和Jie等[13]的工作均是采用字粒度的OntoNotes語(yǔ)料,本文采用詞粒度的OntoNotes語(yǔ)料,因此不考慮分詞誤差。

我們?cè)趯?shí)驗(yàn)過(guò)程中還引入了詞性標(biāo)注(part-of-speech tagging)特征,希望能夠通過(guò)對(duì)語(yǔ)料中不同詞性的區(qū)別來(lái)優(yōu)化命名實(shí)體識(shí)別的結(jié)果。實(shí)驗(yàn)中采用Stanford Parser的詞性標(biāo)注器進(jìn)行標(biāo)注,使用的模型是chinese-distsim.tagger[21]。我們對(duì)比了將一整個(gè)句子進(jìn)行標(biāo)注的方式以及對(duì)單個(gè)詞標(biāo)注的方式,最終采用更加準(zhǔn)確的融合句法信息的標(biāo)注方式。

3.2 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)采用Pytorch 0.4.1框架,并用NVIDIA的1080 GPU進(jìn)行加速。使用的預(yù)訓(xùn)練詞向量參數(shù)在表2中已經(jīng)給出,模型的查詢表使用預(yù)訓(xùn)練得到的向量進(jìn)行初始化,其他參數(shù)均采用均勻分布的隨機(jī)函數(shù)初始化。

表5給出了模型的參數(shù)值,我們使用Adam(Adaptive moment estimation)[22]來(lái)優(yōu)化所有可訓(xùn)練的參數(shù);為了保證字、詞的同一性,使用的字詞嵌入式表示維度都是300,詞性標(biāo)注特征向量的維度設(shè)為40;將上述的字詞向量作為下層神經(jīng)網(wǎng)絡(luò)層的輸入,Bi-LSTM和HWNW_2模型的隱藏層維度均為200,其中,LSTM層數(shù)為1,HWNW_2中多頭自注意力機(jī)制的頭數(shù)設(shè)為8(維度200可被頭數(shù)8整除)。整個(gè)模型的學(xué)習(xí)率lr設(shè)置為0.001,學(xué)習(xí)率減少步長(zhǎng)lr_decay設(shè)置為0.05,所有神經(jīng)網(wǎng)絡(luò)的dropout設(shè)置為0.5,L2正則化參數(shù)設(shè)置為1e-8。

3.3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)采用準(zhǔn)確率P、召回率R和F1值對(duì)標(biāo)注結(jié)果進(jìn)行評(píng)價(jià)。其中,F(xiàn)1值能夠綜合評(píng)價(jià)模型的性能,本文使用與Zhang等[9]、MeggenX等[10]和Jie等[12]相同的Micro-F1。

表6給出了我們?cè)贠ntoNotes V 4.0中文語(yǔ)料上的結(jié)果對(duì)比,表中所有的LSTM均為雙向,且所有模型的解碼層都是CRF。Zhang和Yang[9]在2016年將結(jié)合離散和神經(jīng)特征的Bi-LSTM模型運(yùn)用到命名實(shí)體識(shí)別中,在2018年通過(guò)詞典將有效的詞信息融入到了字向量表示中,獲得了較大性能提升。在此基礎(chǔ)上,MeggenX等[10]利用Transformer機(jī)制彌補(bǔ)了之前Lattice計(jì)算過(guò)于冗雜的缺點(diǎn)。Jie等[12]利用了依賴關(guān)系樹結(jié)構(gòu)的優(yōu)勢(shì),捕獲句子中單詞之間的長(zhǎng)距離和句法關(guān)系為NER服務(wù)。本文提出的THWNW模型同樣從充分挖掘字詞信息的角度出發(fā),利用融入兩段高速網(wǎng)絡(luò)的的注意力機(jī)制來(lái)捕獲實(shí)體內(nèi)部的依賴信息。從表6可以看出,在沒(méi)有使用大型預(yù)訓(xùn)練語(yǔ)言模型的情況下(不考慮BERT和ELMo實(shí)驗(yàn)結(jié)果),我們的THWNW模型在準(zhǔn)確率P、召回率R以及綜合性能F1值上均高于其他現(xiàn)有模型,F(xiàn)1值比其中最好的值還要高2.54%。除此以外,本文模型性能甚至高于使用了ELMo的DGLSTM模型。

表7列出了具體的實(shí)驗(yàn)步驟以及對(duì)應(yīng)結(jié)果,第一個(gè)實(shí)驗(yàn)是詞粒度上的LSTM+CRF模型結(jié)果;第二個(gè)是基于字與詞粒度的LSTM+CRF模型結(jié)果;第三個(gè)實(shí)驗(yàn)是在語(yǔ)料上加入了POS特征;第四個(gè)實(shí)驗(yàn)是在第三個(gè)實(shí)驗(yàn)的基礎(chǔ)上加了HWNW_1層;類似的,第五個(gè)實(shí)驗(yàn)是在第三個(gè)實(shí)驗(yàn)的基礎(chǔ)上加了HWNW_2層;而第六個(gè)實(shí)驗(yàn)便是基于兩段高速網(wǎng)絡(luò)的THWNW模型結(jié)果。

表7 詳細(xì)實(shí)驗(yàn)對(duì)比結(jié)果

3.3.1 HWNW_1的效用分析

從表7中的第3和第4個(gè)實(shí)驗(yàn)結(jié)果我們可以看出,HWNW_1除了在綜合指標(biāo)F1值上有3.02%的提升之外,在準(zhǔn)確率P和召回率R上均有明顯提升,尤其是P值提升了3.84%,由此可見HWNW_1網(wǎng)絡(luò)層可以準(zhǔn)確地識(shí)別出實(shí)體類型。我們對(duì)不同的模型輸出了各自在測(cè)試集上的標(biāo)注結(jié)果,表8為測(cè)試集上的一個(gè)例子。

表8 HWNW_1測(cè)試集實(shí)例

第一個(gè)例句中的“日本伊藤忠株式會(huì)社”就是十分典型的組合實(shí)體,它由“日本”“伊藤忠”以及“株式會(huì)社”構(gòu)成,我們可以通過(guò)HWNW_1網(wǎng)絡(luò)層捕捉到其中的詞綴信息“株式會(huì)社”,從而判定整個(gè)組合實(shí)體為ORG。類似的,“中國(guó)能源工業(yè)中心”也可以直接通過(guò)詞綴“中心”將整個(gè)復(fù)合實(shí)體標(biāo)注為ORG。

3.3.2 HWNW_2的效用分析

對(duì)于表7中的實(shí)驗(yàn)3和實(shí)驗(yàn)5,我們可以觀察到HWNW_2網(wǎng)絡(luò)層在召回率R值上提升了2.73%,相比較于HWNW_1網(wǎng)絡(luò)層也提高了0.59%。召回率R與判斷某詞是否為命名實(shí)體息息相關(guān),可以看出HWNW_2網(wǎng)絡(luò)層能夠?qū)WNW_1網(wǎng)絡(luò)層起到一定的輔助作用,幫助模型判別是否為實(shí)體。

HWNW_2可以較好地識(shí)別出較長(zhǎng)的簡(jiǎn)單實(shí)體和組合實(shí)體,表9給出了測(cè)試集上的一個(gè)例子?!邦~爾古納河”是一個(gè)字長(zhǎng)為5的簡(jiǎn)單實(shí)體,在沒(méi)有外部信息的情況下,HWNW_2網(wǎng)絡(luò)層能夠較好地捕捉上下文信息,從而判斷出此處應(yīng)該標(biāo)注為L(zhǎng)OC。而第二個(gè)例子中的“上海第二設(shè)計(jì)分局電器專業(yè)科”除了其組合特征以外,還是一個(gè)字長(zhǎng)為13的實(shí)體,HWNW_2網(wǎng)絡(luò)層可以有效地獲取較長(zhǎng)距離上的依賴關(guān)系,在長(zhǎng)短不一的序列上進(jìn)一步提取特征,將其標(biāo)注為ORG。

表9 HWNW_2測(cè)試集實(shí)例

3.3.3 兩段高速網(wǎng)絡(luò)效用分析

綜合兩段高速網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn)6,從結(jié)果中可以看出召回率R在實(shí)驗(yàn)5的基礎(chǔ)上又提升了0.33%,但是準(zhǔn)確率P卻沒(méi)有得到提升,得到了介于實(shí)驗(yàn)4和實(shí)驗(yàn)5的中間值。于是我們進(jìn)一步分析比較THWNW模型中兩個(gè)網(wǎng)絡(luò)層各自的命名實(shí)體識(shí)別效果,如表10所示。

表10 命名實(shí)體識(shí)別結(jié)果統(tǒng)計(jì)

在OntoNotes語(yǔ)料中,命名實(shí)體識(shí)別的結(jié)果會(huì)有以下三種情況: ①未識(shí)別出實(shí)體(識(shí)別為O);②實(shí)體識(shí)別錯(cuò)誤(類型識(shí)別錯(cuò)誤);③實(shí)體邊界錯(cuò)誤。

表7的實(shí)驗(yàn)結(jié)果顯示HWNW_1可以正確識(shí)別出大部分實(shí)體類型,和上文中HWNW_1對(duì)于P值的提升相對(duì)應(yīng),HWNW_1可以較好地捕獲語(yǔ)料內(nèi)復(fù)合實(shí)體的詞綴信息,從而提升中文命名實(shí)體識(shí)別的準(zhǔn)確率。而HWNW_2則在判定實(shí)體方面做出了不小貢獻(xiàn),使整個(gè)模型最終的未識(shí)別數(shù)縮減,進(jìn)一步提高召回率R值。

實(shí)驗(yàn)結(jié)果可以驗(yàn)證我們將字詞粒度的向量表示放在相同維度的思想是正確的,字與詞在一般情況下處于同等重要的地位。考慮到OntoNotes語(yǔ)料中存在大量復(fù)合實(shí)體,而模型無(wú)法準(zhǔn)確判斷復(fù)合實(shí)體中的部分實(shí)體是單獨(dú)存在,還是作為復(fù)合實(shí)體的一部分,我們引入了HWNW_1層。HWNW_1網(wǎng)絡(luò)層可以將一個(gè)完整句子中字粒度與詞粒度的向量表示對(duì)齊,學(xué)習(xí)到某些復(fù)合實(shí)體中的重要詞綴信息,比如在“李某某”中我們只關(guān)注姓氏“李”,而一些機(jī)構(gòu)代稱如“瑞士銀行”中,有助于命名實(shí)體識(shí)別的信息只有“銀行”,從而提高準(zhǔn)確率P值。HWNW_2網(wǎng)絡(luò)層可以捕獲較長(zhǎng)距離上下文的依賴關(guān)系,彌補(bǔ)LSTM的部分缺陷,在召回率R值上有不小的提升。綜合二者的優(yōu)勢(shì),我們的THWNW模型達(dá)到了目前最好的中文命名實(shí)體識(shí)別效果。

4 結(jié)論

本文提出了一個(gè)基于兩段高速網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)命名實(shí)體識(shí)別框架,分別將雙向注意力機(jī)制和多頭自注意力機(jī)制與高速網(wǎng)絡(luò)相結(jié)合。該方法分別挖掘了同等維度下字和詞粒度的關(guān)聯(lián)信息,同時(shí)從多層次、多視角捕獲序列的特征,提升了中文命名實(shí)體識(shí)別的性能。在沒(méi)有使用大型預(yù)訓(xùn)練語(yǔ)言模型的情況下,我們的THWNW模型能夠取得目前OntoNotes語(yǔ)料上最好的效果。

OntoNotes語(yǔ)料是相對(duì)規(guī)范的新聞文本語(yǔ)料,未來(lái)我們考慮將THWNW模型發(fā)展到其他領(lǐng)域,比如社交媒體語(yǔ)料Weibo。多領(lǐng)域語(yǔ)料結(jié)構(gòu)的差別可能會(huì)導(dǎo)致相同的模型有截然不同的效果,我們可以使模型自適應(yīng)不同的語(yǔ)料結(jié)構(gòu),以獲得較均衡的命名實(shí)體識(shí)別性能。

猜你喜歡
網(wǎng)絡(luò)層語(yǔ)料粒度
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
粉末粒度對(duì)純Re坯顯微組織與力學(xué)性能的影響
動(dòng)態(tài)更新屬性值變化時(shí)的最優(yōu)粒度
瀕危語(yǔ)言與漢語(yǔ)平行語(yǔ)料庫(kù)動(dòng)態(tài)構(gòu)建技術(shù)研究
組合多粒度粗糙集及其在教學(xué)評(píng)價(jià)中的應(yīng)用
論物聯(lián)網(wǎng)安全威脅及其應(yīng)對(duì)策略
通信認(rèn)知教學(xué)中多粒度可重用模型建模研究
物聯(lián)網(wǎng)技術(shù)在信息機(jī)房制冷系統(tǒng)中的應(yīng)用
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
淺析TDCS/CTC系統(tǒng)中心網(wǎng)絡(luò)防火墻的鏈接