国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT的多特征融合的醫(yī)療命名實(shí)體識(shí)別

2021-12-30 01:15李正民云紅艷王翊臻
關(guān)鍵詞:病歷命名語(yǔ)義

李正民 云紅艷 王翊臻

摘要:

針對(duì)傳統(tǒng)字向量難以表達(dá)上下文語(yǔ)義以及抽取的特征較為單一等問(wèn)題,提出基于BERT的多特征融合模型BERT-BiLSTM-IDCNN-Attention-CRF,通過(guò)BERT建模字向量的上下文語(yǔ)義關(guān)系,并融合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)和迭代膨脹卷積 (IDCNN),分別抽取的上下文特征和局部特征,使兩種特征進(jìn)行互補(bǔ)以提升實(shí)體抽取效果。本模型在全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)CCKS2020中文電子病歷數(shù)據(jù)集上進(jìn)行測(cè)試,與BiLSTM-CRF等基準(zhǔn)模型進(jìn)行比較,F(xiàn)1值提升127%。實(shí)驗(yàn)結(jié)果表明,本模型能較好地識(shí)別電子病歷中的醫(yī)療實(shí)體。

關(guān)鍵詞:

命名實(shí)體識(shí)別,多特征融合,BERT,BiLSTM,IDCNN

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)志碼:A

收稿日期:2021-05-19

基金項(xiàng)目:

國(guó)家重點(diǎn)研發(fā)計(jì)劃 (批準(zhǔn)號(hào):2016YFB1001103)資助。

通信作者:云紅艷,女,博士,教授,主要研究方向?yàn)檎Z(yǔ)義Web與本體工程、智能信息系統(tǒng)、大數(shù)據(jù)集成。E-mail:yunhy2001@163.com

電子病歷用于患者臨床治療過(guò)程中,以電子化方式記錄患者就診時(shí)的病情變化及診療過(guò)程,是臨床科學(xué)診斷治療的基礎(chǔ)材料[1]。電子病歷包含了豐富的醫(yī)療實(shí)體,通過(guò)使用醫(yī)療命名實(shí)體識(shí)別技術(shù)(Medical Named Entity Recognition,MNER)從電子病歷中挖掘出各類醫(yī)療實(shí)體,可用于建立醫(yī)療知識(shí)圖譜,增強(qiáng)數(shù)據(jù)的可用性、可理解性與可見(jiàn)性[2]。命名實(shí)體識(shí)別技術(shù)從早期的基于規(guī)則和詞典的方法逐漸向機(jī)器學(xué)習(xí)和深度學(xué)習(xí)過(guò)渡,近年來(lái)由于神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的特征提取能力,因此成為命名實(shí)體識(shí)別中的主流方法。Liu等[3]通過(guò)實(shí)驗(yàn)對(duì)比了深度學(xué)習(xí)算法BiLSTM-CRF與機(jī)器學(xué)習(xí)算法CRF識(shí)別實(shí)體的性能,證明了深度學(xué)習(xí)算法更為有效。Yang等[4]基于BiLSTM-CRF訓(xùn)練實(shí)體識(shí)別模型,從入院記錄和出院小結(jié)中有效的抽取醫(yī)學(xué)實(shí)體。Chiu[5]使用BiLSTM和CNN混合結(jié)構(gòu)獲取詞級(jí)和字符級(jí)特征,進(jìn)一步提升了模型識(shí)別性能。Strubell等[6]將空洞卷積IDCNN應(yīng)用于命名實(shí)體識(shí)別中,大大縮減了模型的訓(xùn)練時(shí)間。近年來(lái),注意力機(jī)制在自然語(yǔ)言處理領(lǐng)域得到了廣泛的應(yīng)用。Yin[7]等利用CNN提取漢字字符間特征信息,利用自注意力機(jī)制捕獲字符之間的依賴關(guān)系特征來(lái)識(shí)別醫(yī)學(xué)電子病歷中相關(guān)實(shí)體。以上傳統(tǒng)方法未能充分利用不同粒度特征在實(shí)體識(shí)別方面的優(yōu)勢(shì),且電子病歷命名實(shí)體識(shí)別面臨訓(xùn)練語(yǔ)料不足、標(biāo)注質(zhì)量不高以及傳統(tǒng)靜態(tài)字向量在表征字的語(yǔ)義方面的不足等限制了模型的學(xué)習(xí)能力。針對(duì)以上問(wèn)題,本文使用微調(diào)的BERT提取動(dòng)態(tài)字向量并拼接詞性等特征嵌入共同作為嵌入層的輸出;在特征提取層分別使用BiLSTM和IDCNN提取上下文依賴特征與局部特征;最后將抽取的兩類特征動(dòng)態(tài)融合后經(jīng)CRF解碼層獲取全局最優(yōu)標(biāo)簽序列。該模型融合了兩類不同粒度特征,有效提升了模型識(shí)別準(zhǔn)確率。

1 數(shù)據(jù)

1.1 數(shù)據(jù)來(lái)源

采用的數(shù)據(jù)集是CCKS2020中文電子病歷數(shù)據(jù)集,數(shù)據(jù)集共標(biāo)注了“疾病和診斷” “解剖部位” “實(shí)驗(yàn)室檢驗(yàn)” “影像檢查” “手術(shù)” “藥物”等六種實(shí)體類型,共包括1 050條標(biāo)記數(shù)據(jù)。

1.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)集由專業(yè)人士手工標(biāo)注完成,并且其中存在大量標(biāo)注不統(tǒng)一、漏標(biāo)以及標(biāo)注錯(cuò)誤等問(wèn)題。因此,本文對(duì)數(shù)據(jù)集的標(biāo)注做了預(yù)處理,并對(duì)上述標(biāo)注采用手工的方式進(jìn)行糾正。另外,統(tǒng)一數(shù)據(jù)集中字母大小寫與中英文標(biāo)點(diǎn)符號(hào)等;在保證語(yǔ)義相對(duì)完整的前提下,對(duì)句子進(jìn)行切分,設(shè)定每個(gè)句子長(zhǎng)度最長(zhǎng)為202,最短為20。數(shù)據(jù)預(yù)處理后,訓(xùn)練集與測(cè)試集中實(shí)體類型與實(shí)體數(shù)量見(jiàn)表1。

1.3 實(shí)體標(biāo)注

命名實(shí)體識(shí)別可看作是序列標(biāo)注問(wèn)題,需要將原始標(biāo)注語(yǔ)料處理成序列標(biāo)注形式。本文使用BIOES標(biāo)注方案將數(shù)據(jù)集給出的標(biāo)簽映射到每一個(gè)字符上,進(jìn)行字符級(jí)別的標(biāo)記[8]。其中B,I,E分別表示實(shí)體開(kāi)始、中間和結(jié)束,O表示非實(shí)體,S表示單字符實(shí)體。數(shù)據(jù)標(biāo)注格式示例見(jiàn)表2。

2 BERT-BiLSTM-IDCNN-Attention-CRF模型

基于CCKS2020中文電子病歷數(shù)據(jù)集,本文提出了BERT-BiLSTM-IDCNN-Attention-CRF命名實(shí)體識(shí)別模型(模型結(jié)構(gòu)如圖1所示)。模型自底向上包含BERT嵌入層、特征提取層、特征融合層和CRF特征解碼層4部分。

2.1 嵌入層

2.1.1 BERT字向量嵌入 將文本數(shù)據(jù)送入模型之前需將文本數(shù)據(jù)進(jìn)行向量化表示,傳統(tǒng)的文本表示模型存在表征靜態(tài)、表征能力不足以及缺乏領(lǐng)域性特征等問(wèn)題,而BERT[9]模型很好的解決了此類問(wèn)題。首先經(jīng)過(guò)預(yù)訓(xùn)練后的BERT不僅可以從大量無(wú)標(biāo)簽的非結(jié)構(gòu)化文本中學(xué)習(xí)豐富的先驗(yàn)語(yǔ)義知識(shí),同時(shí)通過(guò)多層的transformer對(duì)輸入序列的每個(gè)單詞建模上下文語(yǔ)義知識(shí),使得同一個(gè)單詞在不同的上下文中得到不同的詞向量表示。其次對(duì)預(yù)訓(xùn)練模型使用領(lǐng)域數(shù)據(jù)集進(jìn)行微調(diào),使得模型融入領(lǐng)域知識(shí),適應(yīng)領(lǐng)域任務(wù)需求。

本文選擇在預(yù)訓(xùn)練模型RoBERTa[10]基礎(chǔ)上對(duì)其參數(shù)進(jìn)行微調(diào),得到微調(diào)后的RoBERTa-FT模型。然后固定該模型參數(shù),BERT只作為字向量的特征生成器,將輸入的文本序列轉(zhuǎn)化為字向量序列[11],在此基礎(chǔ)上拼接字嵌入embedding作為BERT生成字向量部分不進(jìn)行訓(xùn)練的補(bǔ)充。

2.1.2 特征嵌入 在電子病歷文本中,命名實(shí)體如“解剖部位”“疾病與診斷”“藥物”中多為名詞詞性,而“影像檢查”“手術(shù)”實(shí)體前通常會(huì)有動(dòng)詞“行”來(lái)表示這一動(dòng)作的發(fā)生。因此詞性與命名實(shí)體有著較強(qiáng)關(guān)聯(lián)關(guān)系。本文使用fastHan工具(https://github.com/fastnlp/fastHan/)提取文本的詞性特征與詞邊界特征,同時(shí)提取了偏旁部首特征作為補(bǔ)充信息,由于繁體部首相比簡(jiǎn)體部首在字形字構(gòu)上更具解釋性,且數(shù)量更少,實(shí)驗(yàn)中將構(gòu)建繁體部首映射表,獲取每一個(gè)字的繁體部首特征。

為提高特定實(shí)體的識(shí)別準(zhǔn)確率,制作了藥物詞典特征輔助模型的識(shí)別。從搜狗詞庫(kù)(https://pinyin.sogou.com/dict/)下載藥物詞典后去除非藥物名稱后得到相對(duì)干凈的藥物詞典,再加入訓(xùn)練集中所有藥物實(shí)體。使用雙向最大匹配算法,從測(cè)試集中匹配出在詞典中出現(xiàn)的實(shí)體并標(biāo)注,匹配到的標(biāo)記為1,剩下的標(biāo)記為0,從而構(gòu)建藥物詞典特征。嵌入特征的標(biāo)注示例如表3所示。

4 結(jié)論

本文通過(guò)使用BERT作為嵌入層生成蘊(yùn)含豐富語(yǔ)義信息的動(dòng)態(tài)字向量,針對(duì)單一BiLSTM缺乏局部特征提取能力,使用IDCNN提取文本的局部特征并將抽取到的多層特征經(jīng)RefineNet整合,充分利用了抽取到的各層信息;然后將整合后的特征使用注意力機(jī)制增強(qiáng)對(duì)實(shí)體識(shí)別起重要作用的特征,提升模型識(shí)別性能。最后將抽取的兩類特征使用動(dòng)態(tài)融合方法后送入CRF解碼層得到最優(yōu)的標(biāo)簽序列。通過(guò)測(cè)試CCKS2020醫(yī)療電子病歷數(shù)據(jù)集,結(jié)果表明,基于BERT的多特征融合模型對(duì)醫(yī)療命名實(shí)體識(shí)別有明顯提升。

參考文獻(xiàn)

[1]黃建英.電子病案管理發(fā)展現(xiàn)狀趨勢(shì)[J].醫(yī)學(xué)綜述,2009,15(13):2078-2080.

[2]林莉,云紅艷,賀英,等.基于企業(yè)知識(shí)圖譜構(gòu)建的可視化研究[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,32(1):55-60.

[3]LIU Z J, YANG M, WANG X L, et al. Entity recognition from clinical texts via recurrent neural network[J]. BMC Medical Informatics and Decision Making, 2017,17(2):53-61.

[4]YANG H M, LI L, YANG R D, et al. Named entity recognition based on bidirectional long short-term memory combined with case report form[J]. Chinese Journal of Tissue Engineering Research, 2018,22(20):3237-3242.

[5]CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[DB/OL]. [2021-05-05]. https://arxiv.org/abs/1511.08308.

[6]STRUBELL E, VERGA P, BELANGER D, et al.Fast and accurate entity recognition with iterated dilated convolutions[DB/OL]. [2021-04-30]. https://arxiv.org/abs/1702.02098.

[7]YIN M W, MOU C J, XIONG K N, et al. Chinese clinical named entity recognition with radical-level feature and self-attention mechanism[J]. Journal of Biomedical Informatics, 2019, 98:103289.

[8]LIU Z J, CHEN Y X, TANG B Z, et al. Automatic de-identification of electronic medical records using token-level and character-level conditional random fields-ScienceDirect[J]. Journal of Biomedical Informatics, 2015, 58:S47-S52.

[9]DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[DB/OL]. [2021-04-30]. https:// arxiv.org/pdf/1810.04805. pdf&usg= ALkJrhhzxlCL6yTht2BRmH9atgvKFxHsxQ.

[10] LIU Y H, OTT M, GOYAL N, et al. Roberta: A robustly optimized bert pretraining approach[DB/OL]. [2021-05-02]. https://arxiv.org/pdf/1907.11692.pdf.

[11] JAWAHAR G, SAGOT B, SEDDAH D. What does BERT learn about the structure of language?[C]//ACL 2019 57th Annual Meeting of the Association for Computational Linguistics. 2019.

[12] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.

[13] LIN G S, LIU F Y, MILAN A, et al. RefineNet: Multi-path refinement networks for dense prediction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 42(5): 1228-1242.

[14] YAN H, DENG B, LI X, et al. Tener: Adapting transformer encoder for named entityrecognition[DB/OL]. [2021-04-30]. https://arxiv.org/pdf/1911.04474.pdf.

Abstract:

In order to solve the problems that traditional word vectors were difficult to express the context semantics and extract multiple features, a multi feature fusion model named BERT-BiLSTM-IDCNN-Attention-CRF was proposed, which used BERT to model the context semantic relationship of word vectors and fused the context features and local features extracted by BiLSTM and IDCNN respectively. The model was tested on CCKS2020 Chinese EMR dataset, and compared with the baseline models such as BiLSTM-CRF, the F1 value is increased by 127%. The experimental results show that the proposed model can better identify the medical entities in EMR.

Keywords:

named entity recognition; multi feature fusion; BERT; BiLSTM; IDCNN

猜你喜歡
病歷命名語(yǔ)義
韓國(guó)語(yǔ)“容入-離析”關(guān)系表達(dá)及認(rèn)知語(yǔ)義解釋
電子病歷評(píng)級(jí)的分析與總結(jié)
“病例”和“病歷”
有一種男人以“暖”命名
臨床表現(xiàn)為心悸的預(yù)激綜合征B型心電圖1例
淺析新課程標(biāo)準(zhǔn)下《苯的同系物的命名》
以電子病歷為核心的醫(yī)院信息系統(tǒng)建設(shè)研討會(huì)
過(guò)足官癮
官癮成癖
杭锦旗| 浙江省| 兴安县| 全州县| 大新县| 莱芜市| 隆尧县| 大冶市| 葵青区| 尉氏县| 蛟河市| 内黄县| 周至县| 原阳县| 武汉市| 漳平市| 海阳市| 方正县| 望江县| 来安县| 万荣县| 新巴尔虎右旗| 徐闻县| 泰安市| 金阳县| 蒙阴县| 西乌珠穆沁旗| 井陉县| 长沙县| 根河市| 伊川县| 阿瓦提县| 电白县| 明星| 突泉县| 鹤壁市| 鲁甸县| 永丰县| 阳信县| 富锦市| 苏尼特右旗|