国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習的電子病歷命名實體識別的研究與實現(xiàn)

2019-10-08 11:55趙鴻陽
軟件 2019年8期
關鍵詞:電子病歷深度學習

摘 ?要: 電子病歷是醫(yī)療單位對門診部、住院患者臨床診療與指導干預的、數字化的醫(yī)療服務工作的相關記錄[1]。為了完成電子病歷的高效的信息提取工作,本文使用深度學習的相關算法對電子病歷中的文本進行命名實體的識別工作。其算法選擇LSTM(Long-Short Term Memory,長短期記憶人工神經網絡)和MLP(Multi-Layer Perception,多層神經網絡),其用于構建算法模型。該本使用BP網絡(Back—PropagationNetwork,后向傳播)訓練數據模型,應用已經標注的病歷數據進行相應的訓練與測試。該本通過實驗證明,深度學習的算法在電子病歷命名實體識別中是高效的[2]。

關鍵詞: 自然語言;電子病歷;命名實體識別;長短期記憶網絡;深度學習

中圖分類號: TP31 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.08.047

本文著錄格式:趙鴻陽. 基于深度學習的電子病歷命名實體識別的研究與實現(xiàn)[J]. 軟件,2019,40(8):208211

【Abstract】: Electronic medical record is a digital medical service record of outpatient department and inpatient clinic diagnosis and intervention in medical units[1]. To complete efficient information extraction of electronic medical records, the paper carries on text named entities recognition in electronic medical records with deep learning algorithm, including LSTM (Long-Short Term Memory) and MLP (Multi-Layer Perception) to construct algorithm model. Train data model with Back-Propagation Network (BP Network), and carry on corresponding train and test with labeled medical records. Experiment proves deep learning algorithm is efficient in electronic medical record named entity recognition[2].

【Key words】: Natural language; Electronic medical record; Named entity recognition; Long and short-term memory network; Deep learning

0 ?引言

隨著社會的不斷發(fā)展,我國的醫(yī)療系統(tǒng)發(fā)生了重大的變化,其和計算機技術融合,產生了許多醫(yī)療智能產品。電子病歷系統(tǒng)就是其中之一。隨著電子病歷系統(tǒng)的快速發(fā)展與廣泛使用,眾多醫(yī)院積累了大量的醫(yī)療的文本信息,其包含了潛在的患者信息和醫(yī)學專業(yè)的知識。通過分析疾病類型、疾病的癥狀與治療方案的潛在的聯(lián)系,對我國醫(yī)療的服務水平的提升有著重要的作用[3]。

NLP(Natural Language Processing,自然語言處理)是計算機科學以及人工智能領域的重要技術。該技術能夠將非結構化的文本信息轉化為結構清晰的數據信息。NER(Named Entity Recognition,命名實體識別)是自然語言信息處理的基本任務,應用范圍廣泛。命名實體一般是一段文本信息中具有特定含義、特定意義或具體指代性強的實體,例如人名、組織名、地名、日期等等。NER技術就是從非結構化的文本信息中抽出具體的實體,并且按照實際的需求信息識別出更多的實體。為了從文本中識別出醫(yī)學實體自然語言處理,將能夠處理醫(yī)學類別的自然語言稱為。電子病歷中的命名實體是一些具有具體特征的醫(yī)學類名詞或相關修飾詞語。運用NLP技術抽取與總結電子病歷的信息成為了當今十分重要的研究放心[4]。

隨著國內外的醫(yī)學信息化不斷發(fā)展,國內外很多研究人員對其進行了深入的研究。國外的信息化發(fā)展起源比較早,技術比較發(fā)達。實體識別(英文類的電子病歷)已經研究與發(fā)展了多年,其技術與產品也比較成熟。早起的MetaMap與cTAKES,其對新出的實體識別差,召回率低。伴隨技術的發(fā)展的深入,基于有監(jiān)督學習的醫(yī)療實體識別系統(tǒng)出現(xiàn),其取得了良好的效果。但是,該系統(tǒng)需要大量的人工標記的特征。其消耗時間,并且還需要引入醫(yī)學的專業(yè)知識。為了讓電子病歷識別應用到中文文本,國內需要研究人員進行大量的研究。郁小玲等人提出了CRF(Conditional Random Field,基于條件隨機場醫(yī)療識別模型)[5]。隨著深度學習技術的發(fā)展,RNN(循環(huán)神經網絡)和CNN(卷積神經網絡)等等深度學習模型已經應用于自然語言處理中。Wu Y等人提出了基于深度學習的中文醫(yī)學實體識別系統(tǒng),其利用了字分布式。其與基于CRF的技術相比,其具有更好的表現(xiàn)。本文分別使用深度學習的LSTM與MLP進行電子病歷識別,驗證基于深度學習的電子病歷識別的高效[6]。

1 ?MLP神經網絡與LSTM神經網絡算法

1.1 ?MLP神經網絡算法

多層神經網絡(Multi-Layer Perceptron,MLP)也叫做人工神經網絡(Artificial Neural Network,ANN)。ANN的結構主要包括每個節(jié)點和每個節(jié)點之間的鏈接。鏈接與其他的節(jié)點的關系分別通過權重與偏置進行關聯(lián)。對于一些特定的問題,算法通過偏置與權重進行特定訓練。該算法主要有一個輸入層、一個輸出層與一個或多個隱藏層組成。

1.2 ?LSTM神經網絡

LSTM(Long Short-Term Memory,長短期記憶網絡),是特殊的時間循環(huán)神經網絡(RNN),其適合處理或者預測時間序列的中間間隔和延時相對比較長的事件。R你能也是由輸入層、輸出層和隱藏層組成。隱藏層主要接受該本個的序列通過RNN隱藏層處理后輸出的計算結構或者上一個序列的計算結果。其結果與新一期序列值一起作用到隱藏層,最終形成輸出結果。圖1展示了RNN的基本機構。LSTM是對RNN進行了改進。通過建設特殊控制單元,其實現(xiàn)了解決RNN長期依賴的問題。歷史信息被作為細胞狀態(tài),讓它在專門的傳送途徑中傳輸。其是LSTM計算和存儲模塊的核心重要思想,并且不易受到外界的干擾。

2 ?電子病歷實體識別模型

最初的序列的標注是需要手動定義,其費事又費力。該文用深度學習的神經網絡進行特征選取,基本框架如圖3。

輸入層的作用是將輸入語句的每個字轉化為字典對應的引的序號。

查找表層的作用是將字的ID轉化映射為多維向量。在該層,通過一定的查找操作,將每個索引映射成為多維向量,也稱作字向量。為了取得局部更多的上下文的信息,應該將當前字和該字的前后的字向量拼接,將其作為下一層(網絡層)的輸入。

網絡層的作用是應用MLP或者LSTM計算相應的特征值 。網絡層,其的輸入是字向量,經過一系列變換,輸出是每個字對相應的標簽的分數。針對電子病歷命名實體識別,該層次常見采用的算法是門控制循環(huán)單元網格、RNN(循環(huán)神經網路)、MLP(多層神經網路)、LSTM(長短期記憶網路)。該文采用了MLP與LSTM。

推斷層的作用是將根據維特比算法推算出最優(yōu)的合適路徑,獲取最終的標注序列。簡單點說,推斷層就是利用上一層(網絡層)獲得的分數矩陣取得得分最高的序列過程[7]。

3 ?實驗

3.1 ?訓練集

最大間隔準則是該算法進行訓練的方法。為了最小化損失函數,該文采用了文獻[9]提到的改進的AdaGrad算法。利用minibatch后向傳播算法進行訓練,batch的值為30。

3.2 ?實驗數據、環(huán)境與評價指標

本文數據來自某三級甲等醫(yī)院的500多份的病人記錄。對這些電子病歷進行了命名實驗體的標注,將450份記錄作為實驗的訓練集,50份作為實驗的測試集。該實驗的框架選擇了Google提供的TensorFlow,開發(fā)語言是Python.操作系統(tǒng)是Windows7,CPU是第三代酷睿i5-3317U@1.70 GHz,內存的大小是8 GB(三星DDR3L 1600 MHz/記憶科技DDR3 1600 MHz)。

3.3 ?實驗結果與分析

CRF的電子病歷識別的實驗是利用條件隨機場模型進行手動定義特征進行識別的實驗。MLP+ embed和LSTM+embed的電子病歷識別實驗是在查找表層使用skip-gram模型形成字向量[8]。

針對電子病歷的命名實體識的實驗數據,通過對表1到表5的數據分析,其結論如下:

(1)深度學習的算法模型在各個指標上與CRF相比都有提升。

(2)在深度學習的算法上,針對準確率,LSTM算法優(yōu)于MLP算法,針對召回率,MLP算法優(yōu)于LSTM算法??傮w上,LSTM算法的識別效果優(yōu)于MLP算法的識別效果。

(3)在查找層添加skip-gram模型,其進行無監(jiān)督的預訓練。LSTM+embed算法與MLP+embed算法在各個指標都有提上。MLP+embed算法相比MLP算法的提升效果不明顯,但是LSTM+embed算法相比LSTM算法的提升效果明顯。所以提前預先訓練字向量是可以增加電子病歷實體的識別效果。

綜述,針對電子病歷命名識別任務,MLP+embed的效果是最優(yōu),其也是最有效、最優(yōu)秀的模型[9]。

4 ?結語

本文就基于深度學習的電子病歷識別的研究現(xiàn)狀進行了分析,然后介紹了MLP算法與LSTM算法,最后進行五種不同的實驗對比研究。實驗證明了傳統(tǒng)的CRF算法明顯比基于深度學習的MLP、LSTM、MLP+embed和LSTM+embed的實驗效果差。其中,LSTM+embed的實驗效果最優(yōu)。其證明了提前預先訓練字向量提高了識別效果。總之,深度學習的算法運用到電子病歷識別中,其可以高效地提高勢必效果[10]。

參考文獻

[1] Aronson A R, Lang F M. An overview of MetaMap: historical perspective and recent advances[J]. Journal of the Amer?ican Medical Informatics Association, 2010, 17(3): 229-236.

[2] Savova G K, Masanz J J, Ogren P V, et al. Mayo Clinical Text Analysis and Knowledge Extraction System (cTAKES): Architecture, component evaluation and applications[J]. Journal of the American Medical Informatics Association, 2010, 17(5): 507-513.

[3] 蔣日華. 網絡時代高校計算機實驗室的建設與維護[J]. 軟件, 2019, 40(03): 130-133.

[4] 高磊, 洪奔奔, 姚青岐. 基于卷積神經網絡的隨機手寫數字識別[J]. 軟件, 2018, 39(09): 82-86.

[5] 郁小玲, 張鐵山, 吳彤, 等. 基于兩位一體的中文電子病歷命名實體識別[J]. 中國衛(wèi)生信息管理雜志, 2017, 14(4): 552-556.

[6] 夏宇彬, 鄭建立, 趙逸凡. 基于深度學習的電子病歷命名實體識別[J]. 電子科技, 2018, 31(11): 35-38+41.

[7] Wu Y, Jiang M, Lei J, et al. Named Entity Recognition in Chinese Clinical Text Using Deep Neural Network[J]. Studies in health technology and informatics, 2015, 216: 624- 628.

[8] Duchi J, Hazan E, Singer Y. Adaptive Subgradient Methods for Online Learning and Stochastic Optimization[J]. Journal of Machine Learning Research, 2011, 12(7): 257-269.

[9] 甄川力, 廖永. 探析醫(yī)院計算機維護和網絡安全管理[J]. 軟件, 2019, 40(03): 174-177.

[10] 彭華軍. 計算機技術在醫(yī)院管理信息化建設中的應用[J]. 軟件, 2019, 40(03): 192-195.

猜你喜歡
電子病歷深度學習
有體驗的學習才是有意義的學習
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
巴马| 六枝特区| 永修县| 洪雅县| 乡城县| 庆城县| 石阡县| 海丰县| 安庆市| 息烽县| 昌黎县| 中宁县| 宝丰县| 安塞县| 平乡县| 南阳市| 正安县| 高雄市| 阳高县| 三台县| 岳池县| 丽江市| 乡城县| 昭觉县| 隆昌县| 仁怀市| 驻马店市| 浏阳市| 介休市| 射阳县| 赣榆县| 卢湾区| 石家庄市| 榆林市| 双牌县| 兰西县| 美姑县| 宝坻区| 胶南市| 颍上县| 虎林市|