張志昌,周 侗,張瑞芳,張敏鈺
(西北師范大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,蘭州 730070)
電子病歷(Electronic Medical Records,EMR)是醫(yī)務(wù)人員使用電子醫(yī)療系統(tǒng)產(chǎn)生的文字、符號(hào)、圖表、圖形、數(shù)據(jù)和影像等數(shù)字化信息,并將其進(jìn)行存儲(chǔ)的醫(yī)療記錄[1]。隨著EMR的大量使用,人們對(duì)其認(rèn)識(shí)也逐漸完善,它不僅包括患者的一些臨床信息,如檢查結(jié)果、臨床診斷以及不良反應(yīng)等,還包括豐富的醫(yī)療實(shí)體[2]。如何在非結(jié)構(gòu)化的病歷文本中抽取有價(jià)值的醫(yī)療信息,建立可用于臨床決策支持的醫(yī)療知識(shí)庫,成為自然語言處理(Natural Language Processing,NLP)領(lǐng)域的研究熱點(diǎn)。實(shí)體關(guān)系抽取是NLP信息抽取技術(shù)中的基本任務(wù),也是構(gòu)建知識(shí)庫和知識(shí)圖譜的關(guān)鍵方法[3]。從EMR文本中挖掘醫(yī)療實(shí)體以及實(shí)體間的語義關(guān)系,對(duì)于推動(dòng)EMR在醫(yī)療健康服務(wù)中的應(yīng)用具有重要意義。實(shí)體關(guān)系抽取最早被消息理解會(huì)議(Message Understanding Conference,MUC)[4]評(píng)測(cè)會(huì)議引入,直至2010年,I2B2/VA在NLP挑戰(zhàn)臨床記錄中提出關(guān)于英文EMR的醫(yī)療實(shí)體關(guān)系抽取[5],使得EMR中的醫(yī)療實(shí)體關(guān)系抽取成為了研究熱點(diǎn)。但在中文EMR方面,公開的評(píng)測(cè)以及研究成果相對(duì)較少,已有的關(guān)系抽取方法依賴于機(jī)器學(xué)習(xí)算法,且需要構(gòu)建大量的手工特征。近年來,在不依賴手工特征條件下,神經(jīng)網(wǎng)絡(luò)方法在關(guān)系抽取任務(wù)中取得了較好的性能,但是常見的關(guān)系抽取是以句子作為單獨(dú)的處理單元,沒有考慮到EMR語料庫中部分語料的實(shí)體關(guān)系標(biāo)簽標(biāo)注錯(cuò)誤,影響分類效果。
本文提出一種雙向門控循環(huán)單元(Gated Recurrent Unit,GRU)和雙重注意力機(jī)制結(jié)合的深度學(xué)習(xí)方法。該方法構(gòu)建一個(gè)雙向GRU和雙重注意力機(jī)制結(jié)合的實(shí)體關(guān)系抽取模型,利用雙向GRU學(xué)習(xí)字的上下文信息,獲取更細(xì)粒度的特征。通過字級(jí)注意力機(jī)制提高對(duì)關(guān)系分類起決定作用的字權(quán)重,利用句子級(jí)注意力機(jī)制學(xué)習(xí)更多語句的特征,降低噪聲句子的權(quán)重,以有效解決標(biāo)簽標(biāo)注錯(cuò)誤問題,提高分類器效果。
目前,大多數(shù)關(guān)于實(shí)體關(guān)系抽取的方法是在開放域上進(jìn)行的,如新聞報(bào)道、博客以及維基百科等[6]。在開放域上進(jìn)行關(guān)系抽取研究的最大難點(diǎn)在于語料內(nèi)容沒有固定的結(jié)構(gòu),早期的實(shí)體關(guān)系抽取研究是基于有監(jiān)督學(xué)習(xí)的方法,如基于特征工程、核函數(shù)以及條件隨機(jī)場(chǎng)[7]的方法。文獻(xiàn)[8]在MUC-7評(píng)測(cè)會(huì)議中,對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)并提取特征來進(jìn)行實(shí)體關(guān)系抽取,實(shí)驗(yàn)過程中取得了較高的F1值。文獻(xiàn)[9]利用支持向量機(jī)的方法進(jìn)行關(guān)系抽取,這類方法依賴于人工構(gòu)建手工特征,需要標(biāo)注大量的訓(xùn)練語料,耗時(shí)耗力,且泛化能力差。針對(duì)此局限性,文獻(xiàn)[10]提出遠(yuǎn)程監(jiān)督的思想,通過將文本與大規(guī)模知識(shí)圖譜進(jìn)行實(shí)體對(duì)齊,有效解決關(guān)系抽取的標(biāo)注數(shù)據(jù)規(guī)模問題。文獻(xiàn)[11]首先使用循環(huán)神經(jīng)網(wǎng)絡(luò)來解決關(guān)系抽取問題,利用句法結(jié)構(gòu)得到句子的向量表示并用于關(guān)系分類,但沒有考慮到實(shí)體在句子中的位置和語義信息。文獻(xiàn)[12]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,采用詞向量和詞位置向量作為輸入,通過卷積、池化得到句子表示,使得在關(guān)系抽取過程中考慮到句子中的實(shí)體信息。文獻(xiàn)[13]提出一種基于最短依存路徑表示文本的深度學(xué)習(xí)方法,能夠準(zhǔn)確地抽取實(shí)體關(guān)系。
醫(yī)療領(lǐng)域的關(guān)系抽取與開放域的關(guān)系抽取有所不同,EMR是一種半結(jié)構(gòu)化的文本數(shù)據(jù),包含大量的專業(yè)術(shù)語、縮略詞等。2010年,I2B2/VA評(píng)測(cè)引入了英文EMR的信息抽取任務(wù)[5],定義了三大類醫(yī)療實(shí)體關(guān)系:1)醫(yī)療問題和治療的關(guān)系;2)醫(yī)療問題和檢查的關(guān)系;3)醫(yī)療問題和醫(yī)療問題的關(guān)系。文獻(xiàn)[14]使用支持向量機(jī)作為分類器,并引入外部字典和豐富的特征提升關(guān)系識(shí)別精度。文獻(xiàn)[15]通過基于規(guī)則的方法從中草藥相關(guān)文章中抽取關(guān)系,并用于構(gòu)建關(guān)系數(shù)據(jù)庫。文獻(xiàn)[16]從病歷中計(jì)算疾病和癥狀的共現(xiàn)程度來抽取兩者的關(guān)系。文獻(xiàn)[17]采用兩階段方法,將長(zhǎng)短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)和支持向量機(jī)相結(jié)合,抽取藥物之間的影響關(guān)系。
給定一個(gè)句子集合S={x1,x2,…,xn},其中xi為句子集合S中的第i個(gè)句子。實(shí)驗(yàn)?zāi)P椭饕譃榫渥泳幋a和句子級(jí)注意力機(jī)制兩部分。
句子編碼模型如圖1所示,將任意給定的一個(gè)句子xi={c1,c2,…,cn}通過雙向GRU編碼處理,字級(jí)注意力機(jī)制計(jì)算產(chǎn)生每個(gè)字的權(quán)值,并把雙向GRU的輸出向量表示成一個(gè)句子向量。
圖1 句子編碼模型
2.1.1 向量表示
1)字向量表示:字嵌入是將句子中的字映射成一個(gè)低維稠密的向量,從而更好地刻畫字的屬性。給定一個(gè)含有n個(gè)字的句子xi={c1,c2,…,cn},實(shí)驗(yàn)用word2vec工具訓(xùn)練生成字向量,每個(gè)字均被映射為向量表示,向量維度為dw。
2)位置向量表示:在關(guān)系抽取任務(wù)中,位置嵌入用相對(duì)位置的低維向量表示,最早被文獻(xiàn)[12]引入實(shí)體關(guān)系抽取任務(wù)中。在圖2所示標(biāo)注的句子中,當(dāng)前字“引”與醫(yī)療實(shí)體“感冒”“發(fā)燒”之間的相對(duì)位置分別為2和-2,每個(gè)相對(duì)位置分別對(duì)應(yīng)一個(gè)位置向量,維度為dp。
圖2 當(dāng)前字與醫(yī)療實(shí)體的相對(duì)位置
2.1.2 雙向GRU層
GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)的分支,也是LSTM的變體,GRU在保持LSTM效果的同時(shí)使其結(jié)構(gòu)簡(jiǎn)單,且計(jì)算簡(jiǎn)便,由于其在序列處理上的出色表現(xiàn)而被廣泛應(yīng)用于自然語言處理任務(wù)中。GRU結(jié)構(gòu)如圖3所示。
圖3 GRU結(jié)構(gòu)
zt=σ(Wzxt+Uzht-1+bz)
(1)
rt=σ(Wrxt+Urht-1+br)
(2)
(3)
(4)
(5)
其中,zt和rt分別為GRU的更新門和重置門,更新門是控制上一時(shí)刻的狀態(tài)信息傳遞到當(dāng)前時(shí)刻的程度,重置門是控制上一時(shí)刻的狀態(tài)信息被遺忘的程度。Wz,Wr,Wh和Uz,Ur,Uh分別為神經(jīng)元當(dāng)前時(shí)刻的輸入權(quán)重和循環(huán)輸入的權(quán)重,bz,br,bh為偏置向量。首先,實(shí)驗(yàn)通過上一時(shí)刻的隱藏狀態(tài)信息ht-1和當(dāng)前時(shí)刻的節(jié)點(diǎn)輸入xt來獲取2個(gè)門控的狀態(tài)。得到門控信號(hào)之后,利用重置門來獲取遺忘后的狀態(tài)ht-1?rt,?表示哈達(dá)馬積對(duì)應(yīng)元素相乘;然后,將其與當(dāng)前時(shí)刻的輸入xt相加并通過非線性函數(shù)tanh激活;最后,用更新門對(duì)當(dāng)前節(jié)點(diǎn)的輸入選擇記憶。
GRU采用“門”結(jié)構(gòu)來克服短時(shí)記憶的影響,不僅可以調(diào)節(jié)流經(jīng)序列的信息流,還可以改善RNN 存在的“梯度消失”問題。為了能夠有效利用上下文信息,實(shí)驗(yàn)采用雙向GRU結(jié)構(gòu),雙向GRU對(duì)每個(gè)句子分別采用前向和反向計(jì)算得到2個(gè)不同的隱藏層狀態(tài),然后將2個(gè)向量相加得到最終的編碼表示。
2.1.3 字級(jí)注意力機(jī)制
注意力機(jī)制模仿了生物觀察行為的內(nèi)部過程,是一種通過增加部分區(qū)域的注意力來獲取關(guān)注目標(biāo)更多細(xì)節(jié)信息的機(jī)制。注意力機(jī)制可以快速提取數(shù)據(jù)的重要特征,減少對(duì)外部信息的依賴,捕獲語言中的長(zhǎng)距離依賴性,被廣泛應(yīng)用于自然語言處理任務(wù)中。本文通過引入字級(jí)注意力機(jī)制來判斷每個(gè)字對(duì)關(guān)系分類的重要程度,并有效提高模型精確率。
通過雙向GRU得到每個(gè)字的輸出向量ht,輸入到全連接層并獲得其隱藏表示ut,通過Softmax函數(shù)計(jì)算歸一化權(quán)重向量αt,最后得到句子向量表示。字級(jí)注意力機(jī)制權(quán)重計(jì)算如下:
ut=tanh(htWt+bt)
(6)
(7)
(8)
其中,Wt表示當(dāng)前時(shí)刻神經(jīng)元的輸入權(quán)重,T表示序列長(zhǎng)度,uw表示隨機(jī)初始化的上下文向量,通過反向傳播更新上下文向量。St表示編碼后的句子向量。
目前,很多用來構(gòu)建知識(shí)庫的方法均需要標(biāo)注好的訓(xùn)練語料,人工標(biāo)注的語料因?yàn)闃?biāo)注人員不同而導(dǎo)致語料噪聲。在實(shí)驗(yàn)標(biāo)注的語料庫中,相同的實(shí)體對(duì)和實(shí)體類型在不同的語料中被標(biāo)注為不同的關(guān)系標(biāo)簽,影響模型效果。常見的關(guān)系抽取方法是以句子作為單獨(dú)的處理單元,若僅使用字級(jí)注意力機(jī)制時(shí),則只考慮到當(dāng)前的句子信息,而對(duì)于含有同一實(shí)體對(duì)的其他句子,還需要通過句子級(jí)注意力機(jī)制學(xué)習(xí)實(shí)體共現(xiàn)句的上下文特征,為每個(gè)句子學(xué)習(xí)注意力權(quán)重,來提升分類器效果。正確標(biāo)注的句子將獲得較高的權(quán)重,而錯(cuò)誤標(biāo)注的句子會(huì)得到較低的權(quán)重,隱式摒棄一些噪聲語料,如圖4所示。
圖4 句子級(jí)注意力機(jī)制模型
(9)
通過計(jì)算句子特征向量與目標(biāo)實(shí)體關(guān)系的相似度來得到句子的注意力權(quán)值。句子特征向量與目標(biāo)實(shí)體關(guān)系向量的相似度越高,則正確表達(dá)實(shí)體關(guān)系的可能性越大,注意力權(quán)重也越高。句子特征向量目標(biāo)實(shí)體關(guān)系的相似度計(jì)算如下:
(10)
ei=xiAr
(11)
其中,ei表示句子特征向量xi與預(yù)測(cè)關(guān)系向量r的匹配分?jǐn)?shù),A表示加權(quán)對(duì)角矩陣。最后,通過Softmax層對(duì)實(shí)體關(guān)系向量進(jìn)行輸出。
中文EMR中包含大量的醫(yī)學(xué)知識(shí)和臨床信息,由于標(biāo)注人員醫(yī)學(xué)領(lǐng)域知識(shí)的限制以及病歷中包含患者的隱私,使得EMR在語料構(gòu)建上存在一定的困難。本文依據(jù)I2B2/VA Challenge醫(yī)學(xué)關(guān)系標(biāo)注規(guī)范,且在專業(yè)人員的指導(dǎo)下,制定自己的中文EMR標(biāo)注規(guī)范。在EMR的文本片段中,醫(yī)學(xué)實(shí)體語義關(guān)系主要存在于治療、疾病、檢查和癥狀等實(shí)體之間,如表1所示,包含5個(gè)粗粒度類別和15個(gè)細(xì)粒度類別,表2所示為標(biāo)注語料示例。
表1 醫(yī)療實(shí)體關(guān)系類型及其描述
表2 中文電子病歷醫(yī)療實(shí)體關(guān)系
本文以甘肅省某二級(jí)甲等醫(yī)院提供的不同臨床科室的EMR為分析對(duì)象。首先,對(duì)已校對(duì)的EMR文本進(jìn)行簡(jiǎn)單的去隱私處理,然后,從不同臨床科室隨機(jī)挑選一定量的EMR文本進(jìn)行人工標(biāo)注。本文總共使用1 200份EMR文本對(duì)實(shí)體關(guān)系抽取進(jìn)行研究,其中800份EMR作為訓(xùn)練集,200份EMR作為開發(fā)集,200份EMR作為測(cè)試集。
本文利用精確率P、召回率R和F1值對(duì)中文EMR實(shí)體關(guān)系分類效果進(jìn)行評(píng)價(jià),具體計(jì)算公式如下:
(12)
(13)
(14)
其中,TP表示對(duì)當(dāng)前類別識(shí)別正確的數(shù)目,FP表示對(duì)當(dāng)前類別識(shí)別錯(cuò)誤的數(shù)目,FN表示應(yīng)該識(shí)別為當(dāng)前類別但是沒有被識(shí)別的數(shù)目,TP+FN表示該類別下所有正實(shí)例的總數(shù)目,TP+FP表示識(shí)別出來屬于當(dāng)前類別的總數(shù)。分別計(jì)算各個(gè)類別的精確率P和召回率R,然后以F1值作為各個(gè)類別整體的評(píng)價(jià)指標(biāo)。
選擇目前的主流模型LSTM作為基線實(shí)驗(yàn),分別和SVM模型、CNN模型、BiLSTM-Attention模型和BiGRU-Dual Attention模型進(jìn)行對(duì)比。
1)SVM模型:該模型在SemEval-2010評(píng)測(cè)任務(wù)中表現(xiàn)最好。文獻(xiàn)[18]利用各種手工制定的特征,用SVM作為分類器,實(shí)驗(yàn)取得了較好的F1值。
2)CNN模型:該模型被文獻(xiàn)[19]使用,采用CNN編碼句子向量,將編碼后的結(jié)果最大池化,利用Softmax函數(shù)輸出結(jié)果。
3)BiLSTM-Attention模型:該模型由文獻(xiàn)[20]提出。利用雙向LSTM抽取上下文信息,結(jié)合注意力機(jī)制對(duì)詞賦予不同的權(quán)重,判斷每個(gè)詞對(duì)關(guān)系分類的重要程度,提高對(duì)分類有貢獻(xiàn)的詞權(quán)重,有效提高模型效率。
4)BiGRU-Dual Attention模型:該模型由本文提出,使用雙向GRU和雙重注意力機(jī)制結(jié)合來抽取實(shí)體關(guān)系,通過隨機(jī)搜索調(diào)整在開發(fā)集上的超參數(shù),超參數(shù)如表3所示。
表3 BiGRU-Dual Attention模型超參數(shù)
模型實(shí)驗(yàn)中字向量維度為100,位置向量的維度為5,Batch Size大小為50,Epoch Num設(shè)置為10,使用Adam優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為0.000 5,其中L2正則化值為1,Dropout比率為0.5。在本文中,將Dropout比率與L2正則化結(jié)合起來以防止過度擬合。
本文提出基于雙向GRU和雙重注意力機(jī)制結(jié)合的實(shí)體關(guān)系抽取模型,將擅長(zhǎng)學(xué)習(xí)長(zhǎng)期依賴信息的雙向GRU加入到句子編碼階段中,然后用字級(jí)注意力機(jī)制提高對(duì)關(guān)系分類有決定作用的字權(quán)重,最后用句子級(jí)注意力機(jī)制獲取更多語句的特征,增大正確標(biāo)注的句子權(quán)重,同時(shí)減小錯(cuò)誤標(biāo)注的句子權(quán)重。在訓(xùn)練過程中,使用相同的數(shù)據(jù)、批次大小及迭代次數(shù),分別對(duì)SVM模型、CNN模型、LSTM模型、BiLSTM-Attention模型和本文模型進(jìn)行訓(xùn)練,記錄訓(xùn)練過程中最高的精確率P、召回率R和F1值,具體數(shù)據(jù)如表4所示。
表4 不同模型進(jìn)行中文電子病歷實(shí)體關(guān)系識(shí)別時(shí)的 性能比較
根據(jù)上述表4中的數(shù)據(jù),可以看到本文提出的基于雙向GRU結(jié)合雙重注意力機(jī)制的實(shí)體關(guān)系抽取方法相比其他方法效果較好,F1值達(dá)到了82.17%。表4中的學(xué)習(xí)方法可以分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法,從實(shí)驗(yàn)結(jié)果可以看出,深度學(xué)習(xí)方法普遍優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法,這是由于傳統(tǒng)機(jī)器學(xué)習(xí)方法依賴于大量的手工特征,而EMR中文本語料較長(zhǎng),且結(jié)構(gòu)性差,傳統(tǒng)機(jī)器學(xué)習(xí)方法無法從病歷文本中獲得包含的語義和長(zhǎng)距離信息。本文提出的BiGRU-Dual Attention模型相較于傳統(tǒng)的機(jī)器學(xué)習(xí)算法有明顯地提高,同時(shí)相較于目前主流的BiLSTM-Attention模型,F1值提高了3.97%。在表4中,可以看出精確率P和召回率R均得到了大幅提高,這說明本文提出的方法改善了錯(cuò)誤標(biāo)簽的問題,同時(shí)在對(duì)細(xì)粒度特征分析中,結(jié)果發(fā)現(xiàn)F1值也提升了很多。雙向GRU和注意力機(jī)制的影響分析如下:
1)雙向GRU的影響分析。本文模型在句子編碼階段加入雙向GRU結(jié)構(gòu),能夠很好地學(xué)習(xí)字的上下文信息,并提供豐富的特征。由表4可以看出,LSTM的關(guān)系抽取模型比普通卷積的效果更好,然而GRU作為L(zhǎng)STM的變體,它可以像LSTM 一樣,既具備記憶序列特征的能力,又善于學(xué)習(xí)長(zhǎng)距離依賴信息。EMR文本語料較長(zhǎng),存在許多長(zhǎng)依賴語句,卷積神經(jīng)網(wǎng)絡(luò)僅靠滑動(dòng)窗口來獲得局部信息,不能學(xué)習(xí)到長(zhǎng)依賴特征。雙向GRU結(jié)構(gòu)卻可以學(xué)習(xí)到豐富的上下文特征,且效果更佳。
2)注意力機(jī)制的影響分析。本文模型中通過加入注意力機(jī)制,來判斷每個(gè)字對(duì)關(guān)系分類的重要程度,提高分類效果,并且引入句子級(jí)別的注意力機(jī)制,增大正確標(biāo)注的句子權(quán)重,同時(shí)減小錯(cuò)誤標(biāo)注的句子權(quán)重。本文實(shí)驗(yàn)設(shè)計(jì)對(duì)比了LSTM模型、BiLSTM-Attention模型以及BiGRU-Dual Attention模型的實(shí)體關(guān)系抽取效果。其中,BiLSTM-Attention模型只使用字級(jí)注意力機(jī)制,BiGRU-Dual Attention模型使用了字級(jí)注意力機(jī)制和句子級(jí)注意力機(jī)制。從表4的實(shí)驗(yàn)結(jié)果可以看出,加入注意力機(jī)制的方法均高于未加注意力機(jī)制的方法,其中BiLSTM-Attention模型的F1值比LSTM模型的高3.49%,說明加入字級(jí)注意力機(jī)制有助于實(shí)體關(guān)系抽取準(zhǔn)確率的提升。此外,由表4中數(shù)據(jù)可以看出,BiLSTM-Attention方法的F1值比本文方法要低許多,這可能是因?yàn)楸疚氖褂玫木渥蛹?jí)注意力機(jī)制學(xué)習(xí)更多的語句特征,降低錯(cuò)誤標(biāo)注語句的權(quán)值,減少噪聲句子影響。
實(shí)驗(yàn)將本文方法與Mintz、 MultiR、 MIML 3種傳統(tǒng)的遠(yuǎn)程監(jiān)督方法相比較,具體數(shù)據(jù)如圖5所示。
圖5 本文方法與傳統(tǒng)遠(yuǎn)程監(jiān)督方法的結(jié)果對(duì)比
由圖5可知,本文方法的精確率P、召回率R、F1值均高于其他3種傳統(tǒng)的遠(yuǎn)程監(jiān)督方法,這是因?yàn)楸疚奶岢龅姆椒ú恍枰斯?gòu)建特征,能夠準(zhǔn)確學(xué)習(xí)到句子的語義信息,直接從原始字中自動(dòng)學(xué)習(xí)特征,減少錯(cuò)誤傳播。另外,本文方法除了從更多的語句中學(xué)習(xí)特征,還加入字級(jí)注意力機(jī)制和句子級(jí)注意力機(jī)制,有效緩解標(biāo)簽錯(cuò)誤問題。
針對(duì)已有實(shí)體關(guān)系抽取方法存在的標(biāo)簽標(biāo)注錯(cuò)誤問題,本文提出雙向GRU和雙重注意力機(jī)制結(jié)合的實(shí)體關(guān)系抽取方法。利用雙向GRU學(xué)習(xí)字的上下文信息,獲取更細(xì)粒度的特征信息,通過字級(jí)注意力機(jī)制提高對(duì)關(guān)系分類起決定作用的字權(quán)重,同時(shí)加入句子級(jí)注意力機(jī)制學(xué)習(xí)更多的語句信息,有效解決標(biāo)簽錯(cuò)誤問題。通過在人工標(biāo)注的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,證明了本文方法能有效提升實(shí)體關(guān)系抽取效果。下一步將對(duì)實(shí)體識(shí)別和實(shí)體關(guān)系進(jìn)行聯(lián)合抽取。