国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合注意力機(jī)制的BERT-BiGRU-CRF中文電子病歷命名實(shí)體識(shí)別

2023-08-29 01:10孫艷秋
關(guān)鍵詞:命名病歷注意力

陳 娜,孫艷秋,燕 燕

(遼寧中醫(yī)藥大學(xué) 信息工程學(xué)院,沈陽 110847)

1 引 言

自然語言處理( Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向.它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法[1].被稱為“人工智能皇冠上璀璨的明珠”.命名實(shí)體識(shí)別(Named Entity Recognition,簡稱NER),又稱作“專名識(shí)別”[2],旨在抽取非結(jié)構(gòu)化文本中的命名實(shí)體,主要包括人名、地名、機(jī)構(gòu)名和專有名詞等.命名實(shí)體識(shí)別是自然語言處理的一項(xiàng)基礎(chǔ)任務(wù),是文本語義理解的基礎(chǔ),是知識(shí)圖譜的核心單元,是一項(xiàng)極具實(shí)用價(jià)值的技術(shù).NER的研究主要經(jīng)歷了早期的基于詞典和規(guī)則的方法,到基于統(tǒng)計(jì)模型的傳統(tǒng)機(jī)器學(xué)習(xí)的方法,到近年來大熱的基于深度學(xué)習(xí)的方法[3].基于詞典和規(guī)則的方法規(guī)則往往依賴于具體語言、領(lǐng)域和文本風(fēng)格,制定規(guī)則的過程耗時(shí)且難以涵蓋所有的語言[4],特別容易產(chǎn)生錯(cuò)誤,系統(tǒng)可移植性差,對于不同的系統(tǒng)需要語言學(xué)專家重新書寫規(guī)則,系統(tǒng)建設(shè)周期長、需要建立不同領(lǐng)域知識(shí)庫作為輔助以提高系統(tǒng)識(shí)別能力.基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法中,NER被當(dāng)作序列標(biāo)注問題.利用大規(guī)模語料來學(xué)習(xí)出標(biāo)注模型,從而對句子的各個(gè)位置進(jìn)行標(biāo)注.NER任務(wù)中的常用模型包括生成式模型隱馬爾可夫模型(Hidden Markov Moder,HMM)、判別式模型條件隨機(jī)場(Conditional Random Field,CRF)等[5].CRF因其解決了標(biāo)簽之間的依賴問題而成為NER目前的主流模型.基于深度學(xué)習(xí)的方法主要包括循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN)和卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),作為RNN改進(jìn)結(jié)構(gòu)的長短記憶網(wǎng)絡(luò)(LSTM)和門控神經(jīng)網(wǎng)絡(luò)(GRU),由于其解決了長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題,而成為目前研究命名實(shí)體識(shí)別的熱點(diǎn).受益于深度學(xué)習(xí)的非線性轉(zhuǎn)換,深度學(xué)習(xí)模型可以從數(shù)據(jù)中學(xué)到更復(fù)雜的特征,避免大量的人工特征的構(gòu)建,在命名實(shí)體識(shí)別中獲得了比傳統(tǒng)方法更好的性能.

本文電子病歷命名實(shí)體識(shí)別的主要任務(wù)是從非結(jié)構(gòu)化的電子病歷本文中識(shí)別出預(yù)先定義好的臨床術(shù)語,包括解剖部位(body),手術(shù)(operation),疾病和診斷(diagnosis),藥物(medicine),實(shí)驗(yàn)室檢驗(yàn)(check)和影像檢查(examination)6類實(shí)體,為電子醫(yī)療信息數(shù)據(jù)抽取、臨床診療信息挖掘和臨床知識(shí)圖譜構(gòu)建等奠定了基礎(chǔ).Hammerton[6]最早提出應(yīng)用LSTM進(jìn)行文本實(shí)體識(shí)別,并通過實(shí)驗(yàn)驗(yàn)證了模型的有效性.楊紅梅[7]等提出了一種基于雙向長短神經(jīng)網(wǎng)絡(luò)(BiLSTM)的電子病歷命名實(shí)體的識(shí)別模型,實(shí)驗(yàn)表明了BiLSTM網(wǎng)絡(luò)模型實(shí)體識(shí)別的有效性.冀相冰[8]等將注意力機(jī)制融入BiLSTM網(wǎng)絡(luò)模型中,提高了命名實(shí)體識(shí)別的準(zhǔn)確性.LSTM-CRF 模型逐漸成為實(shí)體識(shí)別的典型結(jié)構(gòu).葉蕾[9]等提出了基于 BiLSTM-CRF 的中文電子病歷命名實(shí)體識(shí)模型,并在CCKS2018中文電子病歷數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),證明了BiLSTM-CRF 模型效果明顯優(yōu)于CRF模型.張華麗[10]等提出將注意力機(jī)制添加到BiLSTM-CRF結(jié)合的網(wǎng)絡(luò)模型中,實(shí)驗(yàn)表明該模型有效提高了中文電子病歷命名實(shí)體識(shí)別的準(zhǔn)確率.陳琛[11]等提出一種基于BERT的命名實(shí)體識(shí)別模型,該模型在經(jīng)典BiLSTM-CRF模型基礎(chǔ)上引入了BERT預(yù)訓(xùn)練模型,利用BERT生成動(dòng)態(tài)詞向量,在CCKS2019中文電子病歷數(shù)據(jù)集上實(shí)驗(yàn)表明了該模型實(shí)體識(shí)別的優(yōu)越性.何濤[12]等提出的基于BERT-CRF 的電子病歷實(shí)體識(shí)別模型能實(shí)現(xiàn)較高的實(shí)體識(shí)別F1分?jǐn)?shù),其性能顯著優(yōu)于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)模型.馬文祥[13]等提出了基于BERT的BiGRU-CRF電子簡歷命名實(shí)體識(shí)別模型,利用BERT預(yù)訓(xùn)練模型進(jìn)行字符級編碼,有效解決了一詞多義的問題,實(shí)驗(yàn)表明該模型能夠有效提高中文電子簡歷命名實(shí)體識(shí)別的準(zhǔn)確率.廖濤[14]等提出了融合注意力機(jī)制的 BERT-BiLSTM-CRF中文命名實(shí)體識(shí)別模型,通過注意力機(jī)制給不同文字賦予不同的權(quán)重,增強(qiáng)了文本語義特征,在 1998 年人民日報(bào)數(shù)據(jù)集上取得了較好的識(shí)別效果.

傳統(tǒng)Word2vec模型獲得的是輸入文本序列的靜態(tài)詞向量,不能解決一詞多義問題,為了解決這一問題,本文采用BERT預(yù)訓(xùn)練模型獲得輸入文本序列的字符級動(dòng)態(tài)向量;BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,模型參數(shù)多,訓(xùn)練時(shí)間長,為了節(jié)約時(shí)間成本,本文利用BiGRU雙向門控單元獲取輸入文本序列的全局語義特征;研究表明引入注意力機(jī)制能夠解決特征提取中的長距離依賴問題,提高模型實(shí)體識(shí)別的準(zhǔn)確率.結(jié)合以上研究,本文提出了一種結(jié)合注意力機(jī)制的BERT-BiGRU-Att-CRF中文電子病歷命名實(shí)體識(shí)別模型.

2 結(jié)合注意力機(jī)制的BERT-BiGRU-Att-CRF中文電子病歷命名實(shí)體識(shí)別模型

結(jié)合注意力機(jī)制的BERT-BiGRU-Att-CRF電子病歷命名實(shí)體識(shí)別模型由向量嵌入層、文本編碼層、注意力層和解碼輸出層4部分組成,模型結(jié)構(gòu)圖如圖1所示.

圖1 BERT-BiGRU-Att-CRF中文電子病歷命名實(shí)體識(shí)別模型結(jié)構(gòu)

2.1 嵌入層(Embedding Layer)BERT模型

嵌入層(Embedding Layer)采用BERT預(yù)訓(xùn)練模型生成文本序列動(dòng)態(tài)字向量.BERT(Bidirectional Enoceder Representations from Transformers)[15],即來自Transformers的雙向編碼器表示.是谷歌AI團(tuán)隊(duì)于2018年10月提出的一個(gè)面向自然語言處理任務(wù)的無監(jiān)督預(yù)訓(xùn)練語言模型,是近年來自然語言處理領(lǐng)域里程碑式模型.BERT模型的輸入主要由詞向量(token embedding),段落向量(segment embedding)和 位置向量(position embedding)3部分組成.[CLS]為句首向量,[SEP]為句中和句尾向量.其輸入示例(進(jìn)行直腸癌根治術(shù))如圖2所示.

圖2 BERT輸入示例圖

BERT的核心網(wǎng)絡(luò)結(jié)構(gòu)是由多層雙向 Transformer encoder組成的,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,3個(gè)embedding相加得到的X1,X2……Xn作為BERT的最終輸入序列表示.T={T1,T2……Tn}為BERT模型輸出詞向量列表,T∈Rn×d,d表示向量維度.BERT 模型借鑒GPT思路使用Transfomer Encoder(包含Multi-Head Attention)作為特征提取器,加強(qiáng)了語義特征提取的能力;采用了word2vec所使用的CBOW訓(xùn)練方法,參考ELMo雙向編碼思想,利用了每個(gè)詞的上下文信息,獲得了更強(qiáng)的語義提取能力.按照模型參數(shù)大小分為:BERTBASE和BERTLARGE,BERTLARGE在語義理解能力上效果更好,在訓(xùn)練集受限的任務(wù)上尤為明顯,因此本文選用BERTLARGE模型.其Transformer block層數(shù)為24、隱藏層維度為1024,Self-Attention頭數(shù)為16.在預(yù)訓(xùn)練階段做兩個(gè)無監(jiān)督任務(wù):Masked Language Model(MLM)和Next Sentence Prediction(NSP)[16].MLM隨機(jī)mask每一個(gè)句子中一定比例的詞,用其上下文來做預(yù)測,訓(xùn)練詞的語義理解能力;NSP任務(wù)實(shí)際上就是段落重排序,只考慮兩句話,判斷是否是一篇文章中的前后句,是一個(gè)句子級的二分類問題[17],訓(xùn)練句子之間的理解能力.兩任務(wù)聯(lián)合使用獲得全面、準(zhǔn)確的輸入文本序列向量表示.BERT模型根據(jù)上下文語境變化生成動(dòng)態(tài)詞向量,能夠解決不同語境下一詞多義問題.

圖3 BERT模型網(wǎng)絡(luò)結(jié)構(gòu)

2.2 文本編碼層(Encoder Layer)BiGRU層

文本編碼層采用BiGRU模型對詞嵌入層輸出的向量進(jìn)行全局特征提取.GRU也是RNN的一種變形結(jié)構(gòu).和LSTM一樣,通過“門”結(jié)構(gòu)來控制信息的通過,可以學(xué)習(xí)長期依賴信息,解決了傳統(tǒng)RNN的長依賴和反向傳播中的梯度消失等問題.LSTM包括3個(gè)門:忘記門、輸入門和輸出門.GRU只有兩個(gè)門,其結(jié)構(gòu)如圖4所示.GRU將LSTM中的輸入門和遺忘門合二為一,稱為更新門(update gate),如圖4中的zt,GRU的另一個(gè)門稱為重置門(reset gate),如圖4中rt.由此可見GRU較LSTM網(wǎng)絡(luò)結(jié)構(gòu)更加簡單,因此參數(shù)更少,更容易進(jìn)行訓(xùn)練,能夠很大程度上提高訓(xùn)練效率.而基于GRU的實(shí)體識(shí)別模型效果與LSTM相似.

圖4 GRU模型內(nèi)部結(jié)構(gòu)

GRU前向傳播公式為:

rt=σ(Wr·[ht-1,xt])

(1)

zt=σ(Wz·[ht-1,xt])

(2)

(3)

(4)

單向GRU狀態(tài)從前往后輸出,不能充分考慮下文信息.因此,本文采用雙向GRU網(wǎng)絡(luò),其結(jié)構(gòu)如圖5所示.BiGRU(Bidirectional Gate Recurrent Unit)利用正向和反向GRU進(jìn)行上下文信息特征提取,將輸出進(jìn)行加權(quán)求和,經(jīng)過一線性層將d維向量映射為m維向量,得到BiGRU網(wǎng)絡(luò)最終輸出標(biāo)簽向量列表H={h1,h2……h(huán)n},H∈Rn×m,其中n為文本序列長度,m為實(shí)體類型標(biāo)簽數(shù).

圖5 BiGRU結(jié)構(gòu)

計(jì)算過程如式(5)~式(7)所示:

(5)

(6)

(7)

2.3 注意力層

電子病歷文本數(shù)據(jù)中較長語句占據(jù)很大比例,BiGRU提取文本特征時(shí)無法獲得長距離的特征,通過引入注意力機(jī)制,對與電子病歷命名實(shí)體相關(guān)的特征分配較多的注意力(即特征權(quán)重較大),無關(guān)的特征分配較少的注意力(即特征權(quán)重較小).例如“患者7月前因′下腹腹脹伴反酸′至我院就診,完善相關(guān)檢查,診斷′胃體胃竇癌′(CT4N2M0,IIIB期)”,“患者、7月前、至我院就診”等對識(shí)別“胃體胃竇癌”疾病實(shí)體作用較小,分配較小權(quán)重,“下腹腹脹伴反酸”對識(shí)別“胃體胃竇癌”疾病實(shí)體作用大,分配較大權(quán)重,有助于提高“胃體胃竇癌”疾病實(shí)體識(shí)別的準(zhǔn)確率.引入注意力機(jī)制能夠更加有效的獲取與當(dāng)前信息有關(guān)聯(lián)的上下文語義特征,提高模型局部特征提取能力.注意力權(quán)重分配不受詞間距離的影響,僅由詞向量本身決定,有助于解決BiGRU模型長距離依賴問題.

隱層輸出ht經(jīng)全連接層得到ut,ut為當(dāng)前信息與上下文信息相關(guān)性的注意力權(quán)重向量,其中Wt為權(quán)重矩陣,bt為偏置項(xiàng),tanh為激活函數(shù).如式(8)所示:

ut=tanh(Wtht+bt)

(8)

權(quán)重向量ut經(jīng)softmax函數(shù)歸一化處理后得到注意力分?jǐn)?shù)向量at,其中n為文本序列的長度,如式(9)所示:

(9)

BiGRU層輸出ht經(jīng)注意力機(jī)制權(quán)重分配后輸出加權(quán)全局語義特征向量st,如式(10)所示:

(10)

2.4 解碼層-CRF層

BiGRU+Attention解決了文本信息處理中的長距離依賴問題,并通過計(jì)算得到的每個(gè)標(biāo)簽的具體分值,得到最優(yōu)輸出標(biāo)簽,但是其不能解決標(biāo)簽之間依賴關(guān)系等問題,例如:“B-check”標(biāo)簽之后不能緊連著“I-body”標(biāo)簽;句子中第一個(gè)詞的標(biāo)簽應(yīng)該是以“B-”或“O”開頭,而不能是“I-”.因此其輸出標(biāo)簽不能作為模型合理的預(yù)測結(jié)果.CRF的核心作用就是通過轉(zhuǎn)移分?jǐn)?shù)矩陣建模標(biāo)簽之間的依賴關(guān)系,從而輸出一個(gè)全局最優(yōu)的合理標(biāo)簽序列.

BiGRU+Attention輸出得分矩陣為S,S∈Rn×m,sij表示文本序列中第i個(gè)字符xi的第j個(gè)標(biāo)簽分?jǐn)?shù).首先計(jì)算文本序列X={x1,x2……xn}的預(yù)測標(biāo)簽序列Y={y1,y2……yn}的得分,函數(shù)如式(11)所示:

(11)

式中A為轉(zhuǎn)移分?jǐn)?shù)矩陣,A∈R(m+2)×(m+2),Ayi,yi+1為標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的分?jǐn)?shù),Si,yi為輸入文本序列第i個(gè)字符預(yù)測為標(biāo)簽yi的概率.

其次利用歸一化指數(shù)函數(shù)Softmax計(jì)算輸出標(biāo)簽序列Y的概率,如式(12)所示:

(12)

最后利用維特比算法得到文本序列X的全局最優(yōu)標(biāo)簽序列Y*,Y*為輸出概率最大的標(biāo)簽集合.如式(13)所示:

(13)

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

實(shí)驗(yàn)環(huán)境設(shè)置如表1所示.

表1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)參數(shù)設(shè)置如表2所示.

表2 實(shí)驗(yàn)參數(shù)設(shè)置

3.2 實(shí)驗(yàn)數(shù)據(jù)集及序列標(biāo)注

實(shí)驗(yàn)采用CCKS2019面向中文電子病歷的命名實(shí)體識(shí)別數(shù)據(jù)集,本數(shù)據(jù)集是根據(jù)真實(shí)的病歷分布由醫(yī)渡云醫(yī)學(xué)人工編輯而成.共1379條已標(biāo)注樣本,其中訓(xùn)練集1000條,測試集379條.命名實(shí)體主要包括6類:1)解剖部位(body):指疾病、癥狀和體征發(fā)生的人體解剖學(xué)部位;2)手術(shù)(operation):醫(yī)生在患者身體局部進(jìn)行的切除、縫合等治療,如闌尾切除術(shù)、胃癌根治術(shù)等;3)疾病和診斷(diagnosis):醫(yī)學(xué)上定義的疾病和醫(yī)生在臨床工作中對病因、病生理、分型分期等所作的判斷[19];4)藥物(medicine):用于疾病治療的具體化學(xué)物質(zhì);5)實(shí)驗(yàn)室檢驗(yàn)(check):指臨床工作中檢驗(yàn)科進(jìn)行的化驗(yàn);6)影像檢查(examination):影像檢查(X線、CT、MR、PETCT等)+造影+超聲+心電圖,未避免檢查操作與手術(shù)操作過多沖突,不包含此外其它的診斷性操作,如胃鏡、腸鏡等[20].各類實(shí)體統(tǒng)計(jì)如表3所示.各實(shí)體分布比例如圖6所示.

表3 CCKS2019實(shí)體統(tǒng)計(jì)

圖6 CCKS2019實(shí)體分布比例圖

本文采用BIO(B-begin,I-inside,O-outside)三位標(biāo)注規(guī)范對語料進(jìn)行數(shù)據(jù)標(biāo)注.其中B-X表示命名實(shí)體X的開頭,I-X表示命名實(shí)體的中間或結(jié)尾,O表示不屬于任何類型,即非實(shí)體部分.共有13種待預(yù)測標(biāo)簽,分別是“B-body”、“I-body”、“B-oper”、“I-oper”、“B-diag”、“I-diag”、“B-medi”、“I-medi”、“B-check”、“I-check”、“B-exam”、“I-exam”、“O”.以“患者因直腸癌在我院進(jìn)行直腸癌根治術(shù),術(shù)后患者恢復(fù)良好.”為例,采用 BIO三位標(biāo)注規(guī)范進(jìn)行數(shù)據(jù)標(biāo)注,結(jié)果如表4所示.

表4 BIO標(biāo)注序列示例

3.3 實(shí)驗(yàn)結(jié)果與分析

3.3.1 模型評價(jià)指標(biāo)

命名實(shí)體識(shí)別通常是通過召回率(或查全率,R)、精確率(或查準(zhǔn)率,P)和F1(或F1-score)3個(gè)指標(biāo)來評估的.F1為召回率(R)和精確率(P)的調(diào)和平均數(shù)(harmonic mean).各指標(biāo)計(jì)算公式見式(14)~式(16),公式中各參數(shù)含義如表5所示.

表5 公式參數(shù)含義

(14)

(15)

(16)

3.3.2 實(shí)驗(yàn)結(jié)果與分析

作為專業(yè)領(lǐng)域的中文電子病歷數(shù)據(jù)集中存在大量的縮寫、專業(yè)名詞和中英文交替等,常用的分析工具易發(fā)生錯(cuò)誤分詞而影響實(shí)體識(shí)別的效果.文獻(xiàn)[11,18]研究表明了電子病歷實(shí)體識(shí)別領(lǐng)域基于字層面模型識(shí)別效果優(yōu)于基于詞層面的模型.因此本文模型在字符層面進(jìn)行序列標(biāo)注.

為了驗(yàn)證本文提出的BERT-BiGRU-Att-CRF模型的有效性,進(jìn)行了兩組對比實(shí)驗(yàn).第1組對比實(shí)驗(yàn)對比模型包括本文模型、BERT-BiLSTM-Att-CRF模型、BERT+BiGRU+CRF模型、BERT+BiLSTM-CRF模型、BiGRU+CRF模型和BiLSTM+CRF模型.第1組對比實(shí)驗(yàn)各模型總體識(shí)別效果如表6所示.

表6 模型總體識(shí)別效果對比(%)

在實(shí)驗(yàn)過程中本文模型訓(xùn)練時(shí)間為175.25min,BERT-BiLSTM-Att-CRF模型訓(xùn)練時(shí)間為186.32min,可見用BiGRU替換BiLSTM可以大幅縮短模型訓(xùn)練時(shí)間,節(jié)約時(shí)間成本.根據(jù)表6,比較模型1、3、5和模型2、4、6可以看出GRU模型在實(shí)體識(shí)別方面的各項(xiàng)性能均略優(yōu)于LSTM模型,說明本文提出模型在節(jié)約訓(xùn)練成本的基礎(chǔ)上保證了實(shí)體識(shí)別效果.比較模型3、4和模型5、6可以看出引入BERT預(yù)訓(xùn)練模型后,各項(xiàng)指標(biāo)均有提高,從而證明了BERT模型的有效性.因?yàn)锽ERT預(yù)訓(xùn)練模型生成詞向量時(shí)充分考慮不同語境下的語義信息,從而獲得了輸入文本序列的動(dòng)態(tài)詞向量,解決了一詞多義問題.比較模型1、2和模型3、4可以看出引入注意力機(jī)制后模型的實(shí)體識(shí)別能力進(jìn)一步提高,說明引入注意力機(jī)制增強(qiáng)了模型語義特征提取能力,有助于提高模型實(shí)體識(shí)別性能.

第2組對比實(shí)驗(yàn)為本文模型和目前主流命名實(shí)體識(shí)別模型IDCNN(迭代膨脹卷積)+CRF模型、BERT+IDCNN+CRF模型.第2組對比實(shí)驗(yàn)各模型總體識(shí)別效果如表7所示.

表7 本文模型與主流模型總體識(shí)別效果對比(%)

對比表6和表7,可以看出基于BERT+BiGRU+CRF模型的實(shí)體識(shí)別效果略優(yōu)于基于BERT+IDCNN+CRF模型.從表7可以看出,本文模型實(shí)體識(shí)別效果優(yōu)于主流命名實(shí)體識(shí)別模型.以上兩組實(shí)驗(yàn)結(jié)果分析,表明了本文提出的模型在電子病歷命名實(shí)體識(shí)別中的有效性.

本文模型各類實(shí)體識(shí)別效果如表8所示.

表8 各類實(shí)體識(shí)別效果(%)

從表8中可以看出本文提出的模型對解剖部位、藥物和影像檢查實(shí)體識(shí)別效果較好,對手術(shù)實(shí)體識(shí)別效果較差.識(shí)別效果較差的原因包括訓(xùn)練數(shù)據(jù)集較小,數(shù)據(jù)集中涉及中英文混寫、醫(yī)療專業(yè)詞匯較多等.

4 結(jié) 論

本文提出了一種結(jié)合注意力機(jī)制的BERT-BiGRU-Att-CRF中文電子病歷命名實(shí)體識(shí)別模型.利用BERT預(yù)訓(xùn)練模型獲得輸入文本序列的字符級動(dòng)態(tài)向量,解決了一詞多義的問題;利用BiGRU雙向門控單元獲取輸入文本序列的全局語義特征,節(jié)約了模型的訓(xùn)練時(shí)間成本;利用注意力機(jī)制增強(qiáng)特征向量的語義信息,解決了特征提取中的長距離依賴問題,提高了模型實(shí)體識(shí)別的準(zhǔn)確率;用CRF處理標(biāo)簽之間的相互依賴問題,改善了中文電子病歷命名實(shí)體識(shí)別的效果.實(shí)驗(yàn)表明,本文提出模型能有效識(shí)別解剖部位、藥物和影像檢查醫(yī)療實(shí)體,在CCKS2019數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)得到本文提出的模型F1值達(dá)到84.11%,高于其他模型.在今后的工作中,考慮改進(jìn)預(yù)訓(xùn)練模型,進(jìn)一步減少模型訓(xùn)練時(shí)間,豐富訓(xùn)練數(shù)據(jù)集,提高模型訓(xùn)練效果,還可以將本文提出模型應(yīng)用于其他的命名實(shí)體識(shí)別領(lǐng)域.

猜你喜歡
命名病歷注意力
讓注意力“飛”回來
強(qiáng)迫癥病歷簿
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
“大數(shù)的認(rèn)識(shí)”的診斷病歷
有一種男人以“暖”命名
為一條河命名——在白河源
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
為何要公開全部病歷?
A Beautiful Way Of Looking At Things
村醫(yī)未寫病歷,誰之過?