国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度神經(jīng)網(wǎng)絡(luò)的肝硬化中醫(yī)治療預(yù)測研究*

2019-06-19 06:55:48胡馮菊
醫(yī)學信息學雜志 2019年5期
關(guān)鍵詞:病歷肝硬化神經(jīng)網(wǎng)絡(luò)

肖 瑞 裴 衛(wèi) 胡馮菊 肖 勇

(湖北中醫(yī)藥大學信息工程學院 武漢 430065)

1 引言

中醫(yī)病歷又稱醫(yī)案、診籍, 是中醫(yī)臨床各科醫(yī)生對具體患者進行辨證論治的文字記錄, 包括患者的生活習性、病情、診斷、治療及預(yù)后等情況, 從而成為保存、查核、考評乃至研究具體醫(yī)生開展具體診療活動的檔案資料[1]。但隨著信息化、網(wǎng)絡(luò)化的不斷推進,電子病歷已成為現(xiàn)今醫(yī)療記錄的大趨勢[2]。應(yīng)用電子病歷不僅提高就診效率、規(guī)范中醫(yī)行業(yè)術(shù)語,還為后期中醫(yī)藥研究提供數(shù)據(jù)資源。中醫(yī)電子病歷除具備一般電子病歷的特征外還具有自身的特殊性。在病歷內(nèi)容上不僅包括四診、辯證、立法、處方,西醫(yī)檢查和診斷等現(xiàn)代醫(yī)學診療信息,還包括中醫(yī)學辨證論治的診療信息;在病歷結(jié)構(gòu)上既要滿足醫(yī)療、法律、管理的要求,還要滿足中醫(yī)臨床信息全面、準確采集的要求并做到高度結(jié)構(gòu)化,以便對四診信息中的定性描述進行量化記錄;在標準規(guī)范化上,建立統(tǒng)一、全面、規(guī)范的中醫(yī)治療術(shù)語詞表以便對診療用語進行規(guī)范;在診療處方上,中醫(yī)處方及中藥的藥療醫(yī)囑與西醫(yī)處方和配藥有很大不同,其配藥流程和西醫(yī)也不相同[3-4]。

肝硬化是由各種因素導(dǎo)致慢性肝損害的一類晚期肝纖維化疾病,肝移植是治療肝硬化唯一有效手段,但受到供肝及費用等問題限制[5]。查閱近10年關(guān)于中醫(yī)藥治療肝硬化腹水的相關(guān)文獻可知,從病因病機及中醫(yī)治療兩方面而言,肝硬化腹水的中醫(yī)病機為正氣虧虛,氣滯、水停、血瘀3者錯綜為患,中醫(yī)治療以辨證分型施治、基本方加減、外治法為主[6]。

2 研究現(xiàn)狀

在電子病歷研究方面國內(nèi)外均有一定成果。王昱[7]等基于電子病歷數(shù)據(jù)進行臨床接觸支持研究,對電子病歷數(shù)據(jù)進行挖掘。李昆[8]等利用深度學習方法結(jié)合傳統(tǒng)機器學習方法,在電子病歷匿名化、胎兒體重預(yù)測和疾病分類預(yù)測等方面進行預(yù)測模型構(gòu)建的嘗試。李準[9]等研究冠心病電子病歷中與患者、疾病相關(guān)的指標,對冠心病進行分類,進一步探討檢查檢驗結(jié)果與用藥之間的關(guān)聯(lián)性。商金秋[10]等通過電子病歷進行數(shù)據(jù)預(yù)處理和結(jié)構(gòu)化提取,結(jié)合具體需求進行可視化組織與分析。蔣慧麗[11]等提出基于語義技術(shù)的電子病歷信息集成框架,利用該框架解決電子病歷集成及推理問題。陸奕宇[12]等通過對慢性乙型肝炎(乙肝)及肝炎后肝硬化中醫(yī)證候分類進行系統(tǒng)生物學研究,為乙肝及肝炎后肝硬化的診斷和個體化治療提供參考依據(jù)。本文以中醫(yī)電子病歷中肝硬化數(shù)據(jù)為研究基點,從中醫(yī)治療肝硬化的檢查指標入手,通過對電子病歷中檢查數(shù)據(jù)進行主成份分析(Principal Component Analysis,PCA),提取出符合要求的致病指標(特征),構(gòu)建致病指標和診斷結(jié)果二元組,將得到的致病指標與診斷結(jié)果二元組進行深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)預(yù)測和支持向量機(Support Vector Machine,SVM)分類處理,通過對兩種模型結(jié)果對比分析,對肝硬化中醫(yī)電子病歷中檢查與診斷結(jié)果的關(guān)系進行研究。其中SVM是基于統(tǒng)計學習理論的結(jié)構(gòu)風險最小化原則的分類方法[13], 是一種監(jiān)督化學習分類模型?;灸P投x為特征空間上的間隔最大的線性分類器,其學習策略是間隔最大化,最終可轉(zhuǎn)化為一個凸二次規(guī)劃問題的求解?;驹硎峭ㄟ^將非線性數(shù)據(jù)映射到高維特征空間,在這個空間構(gòu)造最優(yōu)分類超平面,該超平面使類別間的分類間隔最大,有效克服維數(shù)災(zāi)難和過擬合等傳統(tǒng)算法的缺點,能處理小樣本、非線性、高維數(shù)據(jù),因而成為研究復(fù)雜系統(tǒng)問題的熱點算法。

3 前期準備

3.1 數(shù)據(jù)來源

以某地區(qū)三甲中醫(yī)院2015年1月-2016年1月期間診斷結(jié)果為乙肝肝硬化和非乙肝肝硬化的1 273例門診記錄的電子病歷為數(shù)據(jù)來源(參照2011年8月中國中西醫(yī)結(jié)合學會消化系統(tǒng)疾病專業(yè)委員會制定的《肝硬化中西醫(yī)結(jié)合診療共識》[14])。字段主要由診療記錄中的患者基本信息(門診號、西醫(yī)診斷、性別、年齡等)、檢驗(首次來末次檢查總膽紅素、凝血酶原時間、白蛋白等)、檢查(部位、時間、報告結(jié)果等)以及中醫(yī)診斷信息構(gòu)成。

3.2 納入標準

該中醫(yī)院屬于國家重點專科醫(yī)院,中醫(yī)電子病歷數(shù)據(jù)結(jié)構(gòu)化程度較為規(guī)整,根據(jù)篩查檢驗檢查結(jié)果,借助具有多年臨床經(jīng)驗的醫(yī)生的指導(dǎo),將有明確診斷結(jié)果的數(shù)據(jù)納入。對于檢查檢驗指標缺少數(shù)據(jù)則不納入使用。不影響實驗的指標缺失,如個人信息,納入使用。按此標準進行統(tǒng)計納入,最終符合要求數(shù)據(jù)為1 243例。

3.3 數(shù)據(jù)預(yù)處理

特指對中醫(yī)檢查數(shù)據(jù)的預(yù)處理,主要是針對中醫(yī)檢查數(shù)據(jù)中的常規(guī)字段,包括對檢查數(shù)據(jù)進行修正和規(guī)范化。主要是對表意不明確或有歧義的數(shù)據(jù)進行修正,主要由臨床醫(yī)師進行人工篩查、糾正。對檢查數(shù)據(jù)的規(guī)范化主要由于檢查數(shù)據(jù)中存在一種指標有多種說法或有的說法不規(guī)范,先通過模糊查找,再通過醫(yī)學相關(guān)專業(yè)人員輔助核定。

3.4 特征提取

完成源數(shù)據(jù)預(yù)處理后進行特征提取,主要是通過主成份分析法對肝硬化檢查指標進行分析,提取數(shù)據(jù)中的中醫(yī)檢查數(shù)據(jù),重點對中醫(yī)檢查部位、結(jié)果等方面進行主成份分析,具體步驟為:將檢查記錄中各項數(shù)據(jù)按句號進行分列,人工剔除不可用或無效信息指標;規(guī)整數(shù)據(jù),統(tǒng)計診斷指標總數(shù);統(tǒng)計源數(shù)據(jù)中每個診斷指標出現(xiàn)次數(shù),計算各診斷指標頻率;將各診斷指標頻率除以診斷指標總數(shù),計算每個診斷指標占有率;通過診斷指標占有率進行指標篩選,選取診斷指標占有率高的指標,確定為主要致病指標,即為特征。按照納入標準完成數(shù)據(jù)預(yù)處理后,利用特征構(gòu)建方法對檢查記錄各項數(shù)據(jù)進行分列,得到共包含指標數(shù)據(jù)4 914條(含重復(fù)項);對分列數(shù)據(jù)進行規(guī)整統(tǒng)計后共包含指標數(shù)據(jù)2 002條(不含重復(fù)項);對規(guī)整后數(shù)據(jù)進行統(tǒng)計指標占有率篩選后最后得到主要用于訓練模型指標數(shù)據(jù)140條。

4 模型構(gòu)建

本研究使用的中醫(yī)電子病歷門診數(shù)據(jù)中包含明確的診斷結(jié)果,對于未包含明確診斷結(jié)果的數(shù)據(jù)進行剔除處理,通過對病例特征分析得到可用特征,將可用特征與疾病的明確結(jié)果相結(jié)合,構(gòu)建致病指標與診斷結(jié)果二元組,將獲取的特征按照one-hot representation編碼規(guī)則進行編碼,每一病例均以特征展開而構(gòu)成特征向量,以此構(gòu)建特征矩陣。將構(gòu)建好的特征矩陣進行神經(jīng)網(wǎng)絡(luò)預(yù)測分析和SVM分類器訓練,其中神經(jīng)網(wǎng)絡(luò)模型中輸出層和SVM分類器結(jié)果均定義為二維向量形式,表示電子病歷中檢查結(jié)果為陰性和陽性,即代表是否患病。在神經(jīng)網(wǎng)絡(luò)訓練過程中對每個訓練樣本存在一個標準輸出,即標簽y,取值為1或0,使用交叉熵損失函數(shù)優(yōu)化此神經(jīng)網(wǎng)絡(luò)模型,其交叉熵表達式為:

l=-yln(y′)-(1-y)ln(1-y′)

(1)

(2)

對于一個訓練集St來說,將其均勻劃分為多個小數(shù)據(jù)集(mini-batch):Sti,每個mini-batch中具有M個訓練樣本,對訓練集Sti={x1,x2,…,xM}而言,交叉熵總和為:

(3)

損失函數(shù)為l,因此優(yōu)化目標是盡可能地減小l,即(min(l))。

神經(jīng)網(wǎng)絡(luò)預(yù)測模型,見圖1。圖例通過Visio繪制,最底層為輸入層,也就是構(gòu)建的特征矩陣,共140維;最頂層為輸出層,與診斷結(jié)果相對應(yīng),共2維,即代表肝硬化檢查結(jié)果是陰性還是陽性(是否患肝硬化)。

圖1 神經(jīng)網(wǎng)絡(luò)預(yù)測模型

根據(jù)電子病歷診斷信息可將診斷數(shù)據(jù)分為兩類:診斷結(jié)果為陽性或陰性。構(gòu)建出二分類SVM分類器,通過與神經(jīng)網(wǎng)絡(luò)模型相同的數(shù)據(jù)集進行訓練,將結(jié)果與神經(jīng)網(wǎng)絡(luò)預(yù)測模型進行對比分析。

5 結(jié)果分析

深度神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果,見表1、表2。兩表分別是迭代100次和1 000次的結(jié)果,另外對訓練和測試數(shù)據(jù)進行不同比例的預(yù)測。結(jié)果表明運用本研究使用的方法預(yù)測結(jié)果準確率可達到80%,其中訓練數(shù)據(jù)和測試數(shù)據(jù)的比值在7∶3較為合適。

表1 預(yù)測結(jié)果(迭代100次)

表2 預(yù)測結(jié)果(迭代1 000次)

在進行SVM訓練中陽性和陰性分別用+1和 -1表示,通過已構(gòu)建的特征向量,采用SVM模型進行訓練,Libsvm開源軟件包,利用n-fold進行交叉驗證,其中n取值為10,通過反復(fù)試驗跳轉(zhuǎn)參數(shù),最終結(jié)果,見表3。

表3 SVM實驗結(jié)果

通過對比可以看出在兩者預(yù)測準確率均達到80%的情況下神經(jīng)網(wǎng)絡(luò)模型準確率相對于SVM模型準確率要高。表明篩選出的診斷肝硬化的指標可作為診斷肝硬化核心指標,以該指標構(gòu)建訓練的模型可對患者進行肝硬化預(yù)測診斷,若將該模型應(yīng)用于臨床能夠有效降低患者就醫(yī)成本,提高醫(yī)生診療效率,對臨床診斷肝硬化或研究其他疾病具有一定指導(dǎo)意義。

6 討論

6.1 電子病歷缺陷

在互聯(lián)網(wǎng)高速發(fā)展下電子病歷普及程度越來越高,但各電子病歷軟件智能程度不一,特別是中醫(yī)電子病歷,其中的醫(yī)用專業(yè)術(shù)語標準不統(tǒng)一且當前未形成統(tǒng)一規(guī)范,不同醫(yī)生記錄過程存在差異,在進行電子病歷相關(guān)數(shù)據(jù)挖掘過程中存在各種問題,從而影響數(shù)據(jù)質(zhì)量。

6.2 數(shù)據(jù)清洗

數(shù)據(jù)挖掘過程中不可或缺的重要步驟,決定后期挖掘效果和質(zhì)量。由于中醫(yī)電子病歷中醫(yī)用專業(yè)術(shù)語標準不統(tǒng)一、描述不規(guī)范,在進行數(shù)據(jù)清洗和預(yù)處理時需要剔除掉不可用、修改不規(guī)范、填補缺失值等,從而使得數(shù)據(jù)集減小,對模型訓練有一定影響,同時由于數(shù)據(jù)預(yù)處理過程中需采用人工篩查、規(guī)整和規(guī)范化,可能造成異?;蝈e誤數(shù)據(jù)等問題,從而使得整體數(shù)據(jù)質(zhì)量出現(xiàn)問題。

7 結(jié)語

在模型構(gòu)建算法上,本文僅從神經(jīng)網(wǎng)絡(luò)模型和支持向量機分類模型出發(fā),借鑒前人經(jīng)驗,缺乏其他算法的對比和對復(fù)合算法的構(gòu)建。后續(xù)研究中將進行更加嚴格、規(guī)范化的清洗工作,以進一步提高模型準確性,采用更大、更有效的數(shù)據(jù)集進行模型訓練,對更多算法進行對比,以求提出更適合肝硬化病癥特點的算法進行算法復(fù)合模型訓練,從多種角度進行探索,訓練出準確率更高的模型,將模型投入臨床試用,為中醫(yī)臨床提供輔助診療,為中醫(yī)藥智能化提供輔助。

猜你喜歡
病歷肝硬化神經(jīng)網(wǎng)絡(luò)
強迫癥病歷簿
趣味(語文)(2021年9期)2022-01-18 05:52:42
“大數(shù)的認識”的診斷病歷
肝硬化病人日常生活中的自我管理
肝博士(2020年4期)2020-09-24 09:21:36
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
防治肝硬化中醫(yī)有方
解放軍健康(2017年5期)2017-08-01 06:27:34
為何要公開全部病歷?
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
活血化瘀藥在肝硬化病的臨床應(yīng)用
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
村醫(yī)未寫病歷,誰之過?
利辛县| 许昌县| 西峡县| 昌乐县| 治多县| 绩溪县| 库车县| 栾川县| 平塘县| 汉沽区| 泰宁县| 万源市| 梅河口市| 佛山市| 吉木萨尔县| 赞皇县| 仙居县| 百色市| 永川市| 独山县| 合阳县| 马尔康县| 且末县| 华阴市| 雅江县| 蓬溪县| 寿宁县| 麦盖提县| 兴海县| 乐安县| 肃宁县| 镇远县| 准格尔旗| 澄城县| 奈曼旗| 宁陕县| 庄河市| 万年县| 潮州市| 富顺县| 雷州市|