国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向文本命名實體識別的深層網(wǎng)絡模型

2019-01-24 09:29李慧林柴玉梅孫穆禎
小型微型計算機系統(tǒng) 2019年1期
關鍵詞:命名向量實體

李慧林,柴玉梅,孫穆禎

1(鄭州大學 信息工程學院,鄭州 450001)2(華中科技大學 公共管理學院,武漢 430070)

1 引 言

命名實體識別是自然語言處理領域的一項基本任務,是信息抽取和信息檢索的前提,自1995年第六屆信息抽取會議(The sixth Message Understanding Conference,MUC-6)將命名實體識別作為評測任務后,命名實體識別的研究發(fā)展迅速,如新聞領域、金融領域、微博媒體領域等.但是,由于生物醫(yī)學領域的復雜性及多變性,醫(yī)療文本中的命名實體通常比一般領域的實體長度更長,而且更具有專業(yè)性和針對性,病歷文本中實體類型眾多且存在簡單實體和復雜實體的嵌套情況,越來越受到研究人員的關注.電子病歷(Electronic Medical Records,EMRs)作為醫(yī)療文本的一種形式,是指基于一個特定系統(tǒng)的電子化病人記錄,該系統(tǒng)提供用戶訪問完整準確的數(shù)據(jù)、警示、提示和臨床決策支持系統(tǒng)的能力.病歷中包含大量的隱私信息(Protected Health Information,PHI),如患者的個人信息、地址、聯(lián)系方式、醫(yī)生的個人信息及醫(yī)院名稱地址等.隱私信息的存在使得傳統(tǒng)的各個醫(yī)療機構間信息不共享,公共臨床信息資源庫缺乏,導致許多基于臨床醫(yī)學的研究無法良好地開展,甚至造成重復的研究,浪費大量的時間和成本.為了保護這些隱私信息,需要對電子病歷進行匿名化處理.1996年,美國出臺HIPAA法案,詳細規(guī)定了電子病歷中需要保護的用戶隱私信息.

命名實體識別任務常用的方法有早期基于規(guī)則和詞典的方法[1],基于傳統(tǒng)機器學習的方法[2-4],以及近年來基于深度學習的方法[5-7].Sweeney[8]提出了第一個基于規(guī)則的匿名化系統(tǒng),嘗試使用“常識模板”識別隱私信息.Yang[9]基于詞典和規(guī)則從醫(yī)院出院摘要中提取藥物信息,構建了許多詞匯資源來描述不同類別藥物或形態(tài)特征.基于規(guī)則和詞典的方法考慮了數(shù)據(jù)的結構和特點,具有較好的識別效果,但對數(shù)據(jù)具有依賴性,可移植性差,而且手工編寫規(guī)則耗費大量的時間和精力.

基于機器學習的方法具有更好的可移植性,對未登錄詞也具有較好的識別效果,常用的機器學習模型有支持向量機模型(Support Vector Machine,SVM)、隱馬爾科夫模型(Hidden Markov Model,HMM)、條件隨機場模型(Conditional Random Field,CRF)等.Guo[10]使用支持向量機在醫(yī)療出院摘要中識別個人健康信息,SVM模型可以很容易地適應一個新的領域,并實現(xiàn)良好的性能.Szarvas[11]使用決策樹實現(xiàn)隱私信息的識別,添加了兩個新的特征并應用迭代學習方法,利用文本結構化中給出的信息來提高識別的準確性.

還有聯(lián)合了規(guī)則、詞典和機器學習的混合方法,其中使用較多且性能較好的是聯(lián)合條件隨機場和規(guī)則,條件隨機場模型由Lafferty[12]于2001年提出,它能夠融合大量的特征,在命名實體識別和序列標注中具有很好的性能.Wellner[13]使用CRF模型和規(guī)則對電子病歷中的隱私信息進行匿名化處理,并引入詞典以減少錯誤.YANG[14]等針對中文電子病歷,提出了一套適合的命名實體和實體標注體系,為信息抽取提供了基礎.WANG[15]等提出了一種基于實例的遷移學習方法,基于條件隨機場進行實驗分析.LI[16]等得到三種詞表示方法后,將其作為CRF和SVM的特征進行半監(jiān)督學習從而提高了性能.

近年來,基于深度學習的命名實體識別發(fā)展迅速,Chiu[17]提出了一個新的神經網(wǎng)絡結構,使用一個雙向LSTM-CNNs結構,可以自動的探測詞級別和字符級別的特征,從而避免了大部分的特征工程.Ma[18]提出一種雙向的LSTM-CNNs-CRF端到端的實現(xiàn)模型,無需功能工程或數(shù)據(jù)預處理,從而使其適用于各種序列標注任務.Dernoncourt[19]設計了一種基于人工神經網(wǎng)絡的命名實體識別工具,用戶可以使用圖形化的界面對實體進行注釋,之后使用注釋好的數(shù)據(jù)來訓練人工神經網(wǎng)絡,從而對新文本中實體的位置和類別實現(xiàn)預測.Peters[20]使用大量的無標注數(shù)據(jù)訓練一個雙向神經網(wǎng)絡模型,用這個訓練好的模型來獲取當前要標注詞的向量,再將該向量作為特征加入到原始的雙向RNN-CRF模型中.Rei[21]使用注意力機制將原始的字符向量和詞向量拼接加入了權重求和,使用兩層傳統(tǒng)神經網(wǎng)絡隱層來學習權值,從而動態(tài)地利用字符向量和詞向量.

圖1 命名實體識別整體流程Fig.1 Overall process of named entity recognition

本文采用多種深層網(wǎng)絡模型實現(xiàn)命名實體識別任務.深層條件隨機場模型融合了多種特征,條件隨機場模型沒有獨立性假設的約束,可以更好地利用上下文特征,深層條件隨機場模型將復雜的實體識別問題分解為多個子問題,加入邊界特征,針對每個子問題分別在不同層進行實現(xiàn).BR-BiRNN(Block Representation Bidirectional Recurrent Neural Network)模型基于塊表示將醫(yī)療文本轉化為詞向量,加入詞性向量后組成新的向量,以此向量作為循環(huán)神經網(wǎng)絡的輸入,由輸出層輸出預測結果.BR-BiLSTM-CRF(Block Representation Bidirectional Long Short Term Memory and Conditional Random Field)模型同樣基于塊表示方法,結合了雙向長短期記憶網(wǎng)絡和鏈式條件隨機場,將前向LSTM和后向LSTM的輸出拼接為新的向量作為后層條件隨機場的輸入,識別流程如圖1所示.

2 基于深層條件隨機場的命名實體識別

2.1 鏈式條件隨機場

條件隨機模型可以看成是一個無向圖模型或馬爾科夫隨機場,用來標記序列化數(shù)據(jù),對于給定的觀察序列,計算其整個標記序列的聯(lián)合概率.將命名實體識別視為序列標注任務,使用線性鏈條件隨機場解決序列標注問題,針對電子病歷文本,隨機變量X={x1,x2,…,xn}表示觀察序列,隨機變量Y={y1,y2,…,yn}表示相應的標記序列,P(Y|X)表示在給定X的條件下Y的條件概率分布,則條件隨機場可表示為:

(1)

(2)

式中,fk(yi-1,yi,x,i)是特征函數(shù),λk是對應的權值,Z(x)為歸一化項,對于一個條件隨機場模型,已知觀察序列X時,最可能的標記序列可以表示為:

Y*=argmaxYP(y|x)

(3)

使用條件隨機場訓練模型,給定一個輸入句,P(Y|X)值最大的那個就是輸出的標記序列,即輸入句中詞序列對應的實體類別序列.

2.2 深層條件隨機場模型

條件隨機場模型更好地利用了上下文的優(yōu)勢,在序列標注任務中更有優(yōu)勢,本文在傳統(tǒng)條件隨機場模型的基礎上進行改進,提出了深層條件隨機場模型.深層條件隨機場模型對問題進行拆分,將復雜的實體識別問題分解為子問題:實體邊界檢測和確定實體類別.針對子問題分別在模型中的不同層進行實現(xiàn),首先是實體邊界檢測,由第一層線性鏈條件隨機場完成,之后是確定實體類別,由第二層線性鏈條件隨機場完成.深層條件隨機場模型的第一層輸出為實體邊界特征,并不涉及具體實體類別,包括隱私實體的開始,隱私實體的內部、隱私實體的結束、單個詞構成的隱私實體和非隱私實體,由于只有五種類別更利于學習有效特征且提高了訓練效率,第二層通過第一層的學習為最終分類提供支持.本文深層條件隨機場模型中第二層的輸入不僅包括第一層的輸出,還包括原始詞特征、詞性特征及上下文特征,其結構如圖2所示.

(4)

圖2 深層條件隨機場模型Fig.2 Deep conditional random field model

取對數(shù)并引入懲罰項解決過度學習問題,則對數(shù)似然函數(shù)形式為:

(5)

對參數(shù)的估計只使用最近m次迭代的曲率信息來構造海森矩陣的近似矩陣,根據(jù)對數(shù)似然函數(shù)對相應的參數(shù)λk求一階偏導數(shù).得到參數(shù)后,對于未標記的序列,求其最可能的標記序列,使用動態(tài)規(guī)劃算法,將全局最優(yōu)解的計算分解為階段最優(yōu)解的計算,得到第一層網(wǎng)絡的輸出結果,將此結果傳遞到第二層網(wǎng)絡,加入了第一層的輸出結果,聯(lián)合考慮當前詞的實體邊界特征和其他特征,最終輸出實體標記序列.

2.3 條件隨機場特征模板

特征模板定義了從訓練集中提取特征的方法,本文對訓練集進行處理后抽取如下特征:

詞特征:詞本身特征.

詞性特征:詞的詞性.

拼寫特征:如是否包含數(shù)字或特殊符號等.

上下文特征:當前詞及其前后若干詞組成的觀察窗口.

聯(lián)合特征:如t0p-1,t0表示當前詞,p-1表示前一個詞的詞性.

原子特征模板描述了當前詞及其詞性信息等,利用多個特征進行模型的訓練與學習,本文選用的模板見表1.

表1 原子特征模板
Table 1 Atomic feature template

模板形式模板說明ti(i=-7,-6,…,6,7)詞特征pi(i=-2,-1,0,1,2)詞性特征Oi(i=-2,-1,0,1,2)詞的拼寫特征

表2中,組合特征相對原子特征加入了多種特征的組合形式,能表達出更多的上下文信息,因此對原子特征進行特征組合,構成新的組合特征模板.

特征函數(shù)集由特征模板產生,初始特征函數(shù)集為空,依次取出特征模板中的模板與訓練文件中的每個對應項進行匹配,若生成的特征函數(shù)不在特征函數(shù)集中,就將新產生的函數(shù)加入到集合中,即針對每一個模板,遍歷訓練文件中的每個對應項,生成對應的特征函數(shù).生成的特征函數(shù)是二值函數(shù),若原始序列和狀態(tài)序列滿足條件則特征函數(shù)值為1,否則為0,之后使用最大似然估計法訓練求解特征函數(shù)的權重,訓練得到權重后即生成了模型,輸入測試數(shù)據(jù)即可實現(xiàn)預測.一個模板生成的函數(shù)的數(shù)量是L*N,其中L是訓練集中的類別數(shù)量,N是從模板中擴展處理的字符串種類.

表2 部分組合特征模板
Table 2 Some combination feature template

模板形式模板說明t0 p0當前詞和當前詞詞性t0p-1當前詞和前一個詞詞性t0t-1當前詞和前一個詞p0p-1當前詞詞性和前一個詞詞性p0t0p1當前詞詞性、當前詞和后一個詞詞性t0O0當前詞和當前詞的拼寫特征O0O-1當前詞拼寫特征和前一個詞拼寫特征p-1 p0O0前一個詞詞性、當前詞詞性和拼寫特征

3 基于BR-BiRNN的命名實體識別

3.1 循環(huán)神經網(wǎng)絡

RNN可以對時間序列上的變化進行記錄,更適合處理變長或具有時序關系的數(shù)據(jù),常用于詞性標注或命名實體識別等序列標注任務中.循環(huán)神經網(wǎng)絡中,序列當前的輸出不僅與當前的輸入有關,還與前面的輸出有關.循環(huán)神經網(wǎng)絡一般包含一個輸入層x向量、一個隱藏層s向量和一個輸出層o向量.

圖3 循環(huán)神經網(wǎng)絡Fig.3 Recurrent neural network

圖3中,xt是網(wǎng)絡在t時刻的輸入,st是隱藏層的值,ot是輸出值,st-1是上一次隱藏層的值,U是輸入層到隱藏層的權重矩陣,V是隱藏層到輸出層的權重矩陣,W是隱藏層上一次的值作為這次輸入的權重矩陣.st的值不僅與xt有關,還與st-1有關,循環(huán)神經網(wǎng)絡的隱藏層為:

st=f(Uxt+Wst-1)

(6)

輸出層為:

ot=g(Vst)

(7)

f和g是激活函數(shù),f一般是非線性的激活函數(shù),如sigmoid函數(shù),tanh函數(shù)或ReLU函數(shù),g是softmax函數(shù).

3.2 塊表示方法

將命名實體識別視為序列標注任務,則需要對原始語料進行處理,將文本表示為適合序列標注的塊表示方法.本文采用兩種塊表示方法:BIO表示法和BIOES表示法.BIO表示法的B(Begin)表示命名實體的開始,I(Inside)表示命名實體的中間,O(Outside)表示命名實體的外部,即該詞不是命名實體.BIOES表示法中的BIO與上述相同,此外使用E(End)表示命名實體的結束,S(Single)表示單獨的實體,即該實體僅由一個詞語組成.不同的塊表示方法對命名實體識別有不同的影響,圖4給出了兩種表示方法.

BIO representation:On/O 9-27/B,/O she/Oexperienced/O another/O Episode/O of/Oconstipation/O and/O impaction/O,/O came/O to/OLiccam/B Community/I Medical/I Center/I./OBIOES representation:On/O 9-27/S,/O she/Oexperienced/O another/O Episode/O of/Oconstipation/O and/O impaction/O,/O came/O to/OLiccam/B Community/I Medical/I Center/E./O

圖4 BIO和BIOES表示法
Fig.4 BIO and BIOES representation

3.3 詞向量的生成

以句子為單位表示為詞向量的集合,詞向量是將語言中的詞進行數(shù)學化表達的方式,將詞映射為相應的詞向量,所有的詞向量構成一個詞向量空間,每個詞向量視為該空間的一個點,引入空間距離就可以計算詞之間的相似性,通過這種數(shù)學化的表示,更利于挖掘語言中的相關特征,算法1以BIO表示法為例,給出了詞向量的生成過程.

算法1.詞向量生成算法

輸入:訓練數(shù)據(jù)集lex_train,ne_train,測試數(shù)據(jù)集lex_test,ne_test,詞典dicts

輸出:訓練好的詞向量train_set,test_set

1.words2idx=dicts[0];//將詞轉換為詞向量

2.labels2idx=dicts[1];//將標簽轉換為詞向量

3.idx2word=dict((k,v)for v,k in words2idx.iteritems());

4.idx2label=dict((k,v)for v,k in labels2idx.iteritems());

5.O_idx=labels2idx[′O′];

6.Initialize B_idx_list 和I_idx_list 為空;//初始為空

7.For k,v in idx2label.iteritems()

8. If v.startswith(′B′)

9. B_idx_list.append(k);

10. Elif v.startswith(′I′)

11. I_idx_list.append(k);

12.End for

13.For each lex_train[i][j] in lex_train

14. lex_train[i][j]=words2idx[lex_train[i][j]];//生成詞向量

15.End for

16.For each ne_train[i][j] in ne_train

17. ne_train[i][j]=labels2idx[ne_train[i][j]];//生成詞向量

18.End for

19.For each lex_test[i][j] in lex_test

20. lex_test[i][j]=words2idx[lex_test[i][j]];//生成詞向量

21.End for

22.For each ne_test[i][j] in ne_test

23. ne_test[i][j]=labels2idx[ne_test[i][j]];//生成詞向量

24.End for

25.訓練集詞向量集合train_set=[lex_train,ne_train];

26.測試集詞向量集合test_set=[lex_test,ne_test];

詞典由大量語料生成,將文本表示為詞向量形式后,將每個詞的詞性同樣的表示為向量形式,文本中第i個句子可以表示為向量si=(t0,t1,…,tm),其中tj是句子中的第j個詞的詞向量,第i個句子對應的詞性向量ci=(p0,p1,…,pm),其中pj是第j個詞的詞性向量,把詞向量和詞性向量拼接為一個新的向量,拼接后的向量為xi=[ti,pi],以此向量xi作為BR-BiRNN模型的輸入.數(shù)據(jù)集中由于每個句子長度不同,采用窗口策略對語料進行處理,實驗后設定窗口大小為5,即神經網(wǎng)絡的輸入x(i)={xi-2,xi-1,xi,xi+1,xi+2},表示當前詞的向量及其上下各兩個詞的向量.當前詞為句首詞時,由于其前面并沒有詞,用負1填充,當前詞為句尾詞時類似.

3.4 BR-BiRNN模型

引入雙向循環(huán)神經網(wǎng)絡模型BiRNN,基于塊表示方法訓練神經網(wǎng)絡,BR-BiRNN模型包含一個前向RNN層,一個后向RNN層,對前后兩個方向時間序列上變化進行記錄,經softmax層后輸出標注結果,其結構如圖5所示.

圖5 BR-BiRNN模型Fig.5 BR-BiRNN model

將文本預處理后轉化為塊表示方式,進而處理每個詞生成對應的向量,以向量作為神經網(wǎng)絡的輸入,傳遞給前向RNN和后向RNN,把前向RNN和后向RNN的輸出拼接傳遞給softmax層,由softmax輸出序列{y1,y2,…,yn},即各個詞對應的預測標簽,算法2描述了訓練過程.

算法2.BR-BiRNN模型的訓練算法

輸入:醫(yī)療文本

輸出:訓練后的BR-BiRNN模型

1.將文本表示為向量形式;

2.While 不滿足終止條件 對樣本 do

4.ht=σ(zt)=σ(Uxt+Wht-1+b)

5.ot=Vht+c

8. (1-y(i))log(1-h(w,b)(x(i)))]

11.End while

4 基于BR-BiLSTM-CRF的命名實體識別

4.1 LSTM記憶單元結構

簡單的RNN由于存在梯度消失和梯度爆炸,難以處理長距離依賴的問題,長短期記憶網(wǎng)絡LSTM是RNN的一種變形,它不僅可以保存短期的輸入,還能保存長期的狀態(tài),LSTM增加了一個圖6所示的單元狀態(tài)c,用來保存長期狀態(tài).

LSTM單元c的內容由3個門來控制,分別是輸入門it、遺忘門ft、輸出門ot.輸入門it控制前一時刻的單元狀態(tài)ct-1有多少保留到當前ct,遺忘門ft控制當前輸入xt有多少保留到當前ct,輸出門ot控制ct有多少輸出到LSTM的當前輸出值ht,使用如下定義實現(xiàn):

it=σ(Wiht-1+Uixt+bi)

(8)

ft=σ(Wfht-1+Ufxt+bf)

(9)

ot=σ(Woht-1+Uoxt+bo)

(10)

(11)

(12)

ht=ot·tanh(ct)

(13)

其中,W和U是權重矩陣,b是偏置向量,·是按元素乘,σ和tanh是激活函數(shù).σ函數(shù)定義為:

(14)

tanh函數(shù)定義為:

(15)

圖6 LSTM單元組成結構Fig.6 The cell structure of LSTM

LSTM單元記錄長期依賴信息,針對復雜問題可以利用到距離當前位置很遠的上下文信息,適合處理時間序列中間隔和延遲非常長的場景.

4.2 BR-BiLSTM-CRF模型

單向LSTM僅利用了過去的上下文信息,而雙向LSTM同時利用了過去和未來兩個時間方向上的上下文信息.BR-BiLSTM-CRF模型基于塊表示方法,使用雙向的LSTM模型檢測隱私實體邊界,可以實現(xiàn)自動提取特征,連接到鏈式條件隨機場層輸出實體類別,它接收雙向LSTM的輸出作為輸入,同時僅再加入詞和詞性特征,而不需要人工總結和添加其他特征.

隱私實體邊界檢測不僅與當前詞向量前面的詞向量有關,還與當前詞向量后面的詞向量相關,因此本文采用雙向LSTM更有效地利用數(shù)據(jù)之間的整體序列信息來檢測實體邊界,采用CRF識別實體類別,如圖7所示,其基本思想是訓練序列向前和向后形成兩個LSTM網(wǎng)絡,分別利用了過去和未來的上下文信息,它們同時連接到一個輸出層,之后再連接到一層CRF上.

圖7 BR-BiLSTM-CRF模型Fig.7 BR-BiLSTM-CRF model

(16)

式中,w和b是需要訓練的參數(shù),m是樣本的個數(shù),x(i)是第i個樣本值,y(i)是第i個樣本的標簽,h(w,b)(x(i))是第i個樣本用參數(shù)w和b預測得到的y值.訓練過程首先是前向計算,分別計算出LSTM前向層和后向層的值,剛開始訓練時,輸出值和預期值不同,接著計算每個神經元的誤差項值,損失函數(shù)是交叉熵函數(shù),之后使用梯度下降法,更新網(wǎng)絡參數(shù),LSTM反向傳播誤差項包括兩個方向:一個是空間上,將誤差項向神經網(wǎng)絡的上一層傳播,一個是時間上,從當前t時刻開始,計算每個時刻的誤差.重復此一系列步驟,直到誤差小于給定值,一般是一個很小的數(shù),算法3描述了訓練過程.

算法3.實體邊界識別的訓練算法

輸入:醫(yī)療文本

輸出:訓練后的實體邊界識別模型

1.將文本表示為詞向量形式train_set=[lex_train,ne_train];

2.While 不滿足終止條件,對train_set do

6. 計算損失:將預測得到的結果h(w,b)(x(i))和期望值

7.h(x(i))比較,得到損失函數(shù)J(w,b);

9. 更新參數(shù):w←w+Δw,b←b+Δb;

10.End while

經過雙向LSTM獲得隱私實體邊界結果后,連接一層條件隨機場,將邊界特征作為條件隨機場的輸入,構建BR-BiLSTM-CRF模型,由最后一層的條件隨機場確定實體類別.由于條件隨機場模型的當前輸出考慮了上一輸出結果,因此對實體識別這樣的序列標注問題更具有優(yōu)勢,如I后面可以有多個I,但O后面不應出現(xiàn)I,相比于一般分類器輸出獨立的分類結果,條件隨機場的輸出有效利用了前后的標簽來預測當前標簽.

5 實驗與結果分析

5.1 數(shù)據(jù)集

實驗采用Informatics for Integrating Biology and the Bedside(I2B2)2006年、2014年英文評測數(shù)據(jù)集和某醫(yī)院婦產科中文醫(yī)療文本.I2B2是美國國立衛(wèi)生研究院資助的國家生物醫(yī)學中心,2006年評測數(shù)據(jù)中隱私實體通過XML標簽來標記,共包含年齡、日期、醫(yī)生姓名、醫(yī)院名、證件號碼、地址、患者姓名、電話共8種命名實體.2014年數(shù)據(jù)集格式較2006年有較大變化,通過命名實體在整個文本中的偏移量來標記,其中的隱私實體類別也比2006年更復雜,共有7個大類,分別是姓名、職業(yè)、地址、年齡、日期、聯(lián)系方式和證件號碼,大類下又更進一步劃分為多個小類.婦產科醫(yī)療文本來自某醫(yī)院真實數(shù)據(jù),包括入院診斷、住院經過、出院診斷等,標注格式與2006年I2B2格式一致.中文數(shù)據(jù)首先進行分詞處理,其他處理步驟與英文語料一致.實驗語料中隱私實體數(shù)量見表3.

評價指標采用精確率P、召回率R和F值:

(17)

(18)

(19)

精確率是評估預測結果中目標實體所占的比例,召回率是評估召回目標實體的比例,精確率和召回率越高,說明實驗結果越好,然而一般精確率高時召回率低,召回率高時精確率低,因此,加入F值評價指標,F值綜合考慮了精確率和召回率,是精確率和召回率的調和平均值.

表3 訓練集和測試集中PHI實體分布
Table 3 Train set and test set of PHI named entity distribution

2006 I2B2評測2014 I2B2評測婦產科數(shù)據(jù)集訓練集測試集訓練集測試集訓練集測試集樣本數(shù)66922079051477601940詞數(shù)3947451661054956593205902370432656512命名實體數(shù)14253524517389114623643711635

5.2 實驗結果與分析

實驗共使用了三個數(shù)據(jù)集,在提出的三種不同的深層網(wǎng)絡模型下進行實驗:深層條件隨機場模型、BR-BiRNN模型、BR-BiLSTM-CRF模型.并與傳統(tǒng)的SVM、HMM和CRF模型進行對比.實驗發(fā)現(xiàn)BIOES塊表示法比BIO塊表示法結果更優(yōu),表4給出的實驗結果均是在BIOES表示法下的結果,其中,訓練SVM使用高斯核函數(shù),HMM-DP模型是Chen等人對HMM的改進結果,CRF是未做改進的基本CRF模型,分別僅使用了原子特征和原子+組合特征,Deep CRF模型是本文提出的深層條件隨機場模型,BR-BiRNN模型、BR-BiLSTM-CRF模型是本文提出的另兩種基于循環(huán)神經網(wǎng)絡的深層網(wǎng)絡模型.本文提出的三種模型在I2B2中心2006年和2014年的評測數(shù)據(jù)集中F值均超過90%,在婦產科醫(yī)療文本中F值超過85%.針對每種具體的實體類別,表5以2014年評測數(shù)據(jù)集為例給出了每個隱私實體類別的精確率、召回率和F值.

表4 不同模型結果對比
Table 4 Comparison of the results of different experimental conditions

2006 I2B2數(shù)據(jù)集2014 I2B2數(shù)據(jù)集婦產科數(shù)據(jù)集PRFPRFPRFSVM83.1181.2682.1785.2382.1483.6680.0476.3378.14HMM-DP(Chen)---94.3087.9091.00---CRF(AF)86.3383.2284.7590.6082.8086.5284.1780.2682.17CRF(AF+CF)88.5187.6588.0796.2683.9989.7085.7382.1883.92Deep CRF93.8891.3192.5895.1088.0391.4388.4485.3186.85BR-BiRNN94.1091.5492.8094.8389.9692.3391.0285.1487.98BR-BiLSTM-CRF94.2191.8693.0294.6990.4292.5191.0686.3088.62

由表4可知,CRF模型在原子特征的基礎上加入組合特征后,性能有所提高,因為組合特征包含了更多的上下文信息,能為模型的正確輸出提供更多支持,因此本文深層條件隨機場模型在檢測隱私實體邊界時,采用了原子特征和組合特征,深層條件隨機場模型比傳統(tǒng)的機器學習模型如SVM、HMM等的精確率和召回率都有所提高,整體F值得到提高.BR-BiRNN模型基于循環(huán)神經網(wǎng)絡,不需要額外的專業(yè)領域知識,可以自動提取特征.BR-BiLSTM-CRF模型結合了神經網(wǎng)絡層和條件隨機場層,F值在三個語料上分別達到93.02%、92.51%和88.62%.婦產科醫(yī)療文本是中文語料集,由于中文預處理需要分詞,存在一定的分詞誤差,其F值低于I2B2評測任務英文語料集結果.I2B2評測數(shù)據(jù)集是公開數(shù)據(jù)集,本文提出的三種深層網(wǎng)絡模型與評測任務提交結果對比如表6所示.

表5 每個實體類別的結果對比
Table 5 Comparison of the results of each named entity specics

PHI 實體類別訓練集測試集PRFNAME------PATIENT131587994.1775.3183.69-DOCTOR2877191289.0490.4889.75-USERNAME2649296.7095.6596.17PROFESSION23417992.1158.6671.67LOCATION------HOSPITAL143787582.3875.8979.00-ORGANIZATION1248270.5914.6324.24-STREET21613697.6792.6595.09-CITY39426069.1874.2371.61-STATE31419091.5073.6881.63-COUNTRY6611785.1919.6631.94-ZIP21214099.2392.1495.56-LOCATION-OTHER4130.000.000.00AGE123376496.4194.9095.65DATE7495498096.7297.0996.90CONTACT------PHONE30921594.1797.6795.89-FAX820.000.000.00-EMAIL41100.00100.00100.00IDs------MEDICALRECORD61142297.4197.8797.64-DEVICE780.000.000.00-IDNUM26119590.0087.6988.83

表6 本文模型與I2B2評測結果F值對比
Table 6 Compare to I2B2 shared task submissions

2006 數(shù)據(jù)集2014 數(shù)據(jù)集評測結果0.76-0.960.44-0.93Deep CRF模型0.92580.9143BR-BiRNN模型0.92800.9233BR-BiLSTM-CRF模型0.93020.9251

分析對各個具體類別隱私實體的識別情況,對三個數(shù)據(jù)集中每一類實體的識別結果如圖8、圖9、圖10所示.結合表5和圖8、圖9、圖10可知,模型對于“DATE”、“ID”、“USERNAME”、“ZIP”、“EMAIL”、“MEDICALRECORD”和“PHONE”的識別率較高,因為它們一般具有較為固定的格式或特點.當數(shù)據(jù)集中個數(shù)很少時,難以學到更多信息,如2006年訓練集中“AGE”僅有13個,測試集中“AGE”也僅有3個,因此F值為0,類似的還有2014年的“LOCATION-OTHER”、“FAX”和“DEVICE”.但數(shù)據(jù)集中個數(shù)較多時,其識別效果較好,如2014年“AGE”由于樣本的增大,其F值超過90%,婦產科中文語料中“AGE”F值也很高.“DOCTOR”和“PATIENT”都屬于人名,深層條件隨機場網(wǎng)絡加入了實體邊界特征,BR-BiRNN、BR-BiLSTM-CRF模型引入循環(huán)神經網(wǎng)絡,考慮了時序信息,使得更好地利用上下文信息,但是由于它們的格式和特點較為相似,容易互相錯分.“LOCATION”、“ORGANIZATION”和“COUNTRY”的識別結果較低,因為它們往往是多個詞語組成的長詞組,有的其中包含有介詞或符號,在進行識別時,往往是只識別出了實體中的部分詞語作為了隱私實體.大部分類別都是精確率較高,召回率較低,把很多隱私實體標記為了非隱私實體或其它類別的實體,提高召回率將對F值有較大影響.

圖8 2006 I2B2命名實體識別結果Fig.8 2006 I2B2 NER results

圖9 2014 I2B2命名實體識別結果Fig.9 2014 I2B2 NER results

圖10 婦產科文本命名實體識別結果Fig.10 Obstetrics and gynecology department NER results

6 結束語

對醫(yī)療文本中隱私實體的識別視為命名實體識別任務,提出了三種深層網(wǎng)絡模型:深層條件隨機場模型、BR-BiRNN模型、BR-BiLSTM-CRF模型.深層條件隨機場模型將復雜任務分為多個子任務,每個子任務在不同層實現(xiàn),針對命名實體識別任務,首先采用原子特征和組合特征檢測實體邊界,得到實體邊界特征后,將此特征傳入后層網(wǎng)絡,識別實體類別輸出標簽序列.BR-BiRNN模型基于塊表示方法,引入雙向循環(huán)神經網(wǎng)絡,將文本處理后表示為向量形式,自動提取特征,訓練后輸出預測標簽序列.BR-BiLSTM-CRF模型結合了神經網(wǎng)絡層和條件隨機場層,由雙向LSTM模型得到實體邊界特征,傳遞給最后的條件隨機場層輸出實體標注結果.與傳統(tǒng)的機器學習方法相比,深層網(wǎng)絡模型在不同數(shù)據(jù)集上的F值都有所提高,提高了識別效果,說明了實驗的有效性.后續(xù)工作將對如何更有效地自動提取特征,提高召回率以及提高復雜組織名和地名的識別效果進行探索.

猜你喜歡
命名向量實體
向量的分解
命名——助力有機化學的學習
聚焦“向量與三角”創(chuàng)新題
前海自貿區(qū):金融服務實體
實體書店步入復興期?
有一種男人以“暖”命名
為一條河命名——在白河源
我是我自己的許多孩子〔外一首〕
兩會進行時:緊扣實體經濟“釘釘子”
振興實體經濟地方如何“釘釘子”
新乡县| 丹东市| 洛宁县| 大埔县| 海伦市| 杂多县| 日喀则市| 铜陵市| 三原县| 无为县| 红河县| 广西| 苏尼特右旗| 湘潭县| 九寨沟县| 秦安县| 健康| 台东县| 浮梁县| 赣州市| 兴化市| 古交市| 和硕县| 临洮县| 三亚市| 东阳市| 兰坪| 龙陵县| 泰宁县| 银川市| 新宁县| 甘孜| 通化县| 始兴县| 潼关县| 健康| 葵青区| 阳城县| 通河县| 扎鲁特旗| 龙游县|