国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA模型和電子病歷的疾病輔助診斷方法

2017-05-12 03:36:50劉玉文
宿州學(xué)院學(xué)報 2017年2期
關(guān)鍵詞:病歷概率公式

劉玉文,張 鈺,楊 樞

蚌埠醫(yī)學(xué)院衛(wèi)生管理系,蚌埠,233030

?

基于LDA模型和電子病歷的疾病輔助診斷方法

劉玉文,張 鈺,楊 樞

蚌埠醫(yī)學(xué)院衛(wèi)生管理系,蚌埠,233030

采用分詞軟件對電子病歷進(jìn)行分詞,然后用LDA模型對分詞后的電子病歷進(jìn)行建模。通過建立病歷、疾病、特征三者之間的依賴關(guān)系,生成病歷-疾病和疾病-特征兩個分布矩陣。并基于歐氏距離的相似度計算方法,利用標(biāo)準(zhǔn)化歐氏距離公式,計算測試樣本病歷與疾病-特征分布的相似度,推斷出測試樣本病歷中不同疾病的出現(xiàn)概率。結(jié)果表明:運(yùn)用該方法,疾病診斷準(zhǔn)確率達(dá)81.99%,高于C4.5算法的79.61%和ID3算法的77.19%,取得了良好的疾病輔助診斷效果。

LDA模型;電子病歷;疾病特征;輔助診斷;歐氏距離

隨著醫(yī)院病歷管理系統(tǒng)的廣泛應(yīng)用,我國各級醫(yī)院中保存著大量的電子病歷。這些病歷完整地記錄了病人從入院到出院間接受治療的全過程,病歷中蘊(yùn)含著大量潛在的有價值信息[1],這些信息對疾病的診斷和治療具有十分重要的意義。因此,高效地對病歷進(jìn)行分析,從中識別出疾病的特征是醫(yī)療數(shù)據(jù)分析領(lǐng)域的研究重點內(nèi)容之一。

計算機(jī)疾病輔助診斷就是運(yùn)用隱含在醫(yī)療大數(shù)據(jù)里的知識和規(guī)律對疾病進(jìn)行推斷的過程,其中,基于電子病歷的疾病診斷研究是一個重要研究方向。如文獻(xiàn)[2]提出了一種基于關(guān)聯(lián)規(guī)則的疾病診斷方法,該方法通過計算電子病歷中特征項集與疾病之間的關(guān)聯(lián)程度,找出疾病的關(guān)聯(lián)特征,建立疾病與特征的關(guān)聯(lián)規(guī)則集,最后依據(jù)關(guān)聯(lián)規(guī)則集進(jìn)行疾病診斷。文獻(xiàn)[3]提出了基于ID3算法的病歷分類方法,該方法把病歷按照疾病的不同進(jìn)行分類,然后對病歷進(jìn)行監(jiān)督學(xué)習(xí),找出疾病的特征向量,最后通過疾病的特征向量進(jìn)行疾病輔助診斷。文獻(xiàn)[4]提出了基于C4.5的疾病預(yù)測方法,該方法首先建立疾病分類決策樹,然后根據(jù)決策樹對疾病進(jìn)行預(yù)測。雖然,這些方法在疾病輔助診斷方面取得了一定的成效,但仍然存在疾病特征識別精度低、推斷不準(zhǔn)確等問題?;诖?,文本提出了一種基于LDA模型和電子病歷的疾病輔助診斷方法。該方法首先使用LDA模型對病歷、疾病、疾病特征三者進(jìn)行建模,得出病歷-疾病和疾病-特征兩個分布矩陣,然后通過計算測試病歷與疾病-特征的相似度來推斷測試病歷中的疾病分布,從而達(dá)到疾病輔助診斷的目的。

1 LDA模型

1.1 基本原理

隱狄利克雷分配(Latent Dirichlet Allocation,簡稱LDA)是一種無監(jiān)督文檔主題生成模型[5],它能自動從大規(guī)模語料庫中識別出潛在主題。LDA模型基于一個假設(shè),即文檔以一定的概率選擇某個主題,而主題又以一定的概率選擇每個詞,因此,文檔可以視為是主題的混合,主題是詞的混合。LDA采用詞袋(bag of words)方法[6],把每個文檔看作一個詞頻向量,把文本信息轉(zhuǎn)化成數(shù)字信息,沒有考慮詞之間的順序關(guān)系,簡化了建模復(fù)雜度。LDA模型定義了4個變量:文本-主題分布向量θ、主題-詞匯分布向量φ、主題z和詞匯w,其中,主題z依賴于θ,w依賴于z。由于z是隱含變量,w是唯一可觀測變量,詞匯w在文檔d中出現(xiàn)的概率為P(w|d) =P(z|d)P(w|z),所以LDA本質(zhì)上是一個三層貝葉斯網(wǎng)絡(luò),其生產(chǎn)過程如圖1所示。

圖1 LDA模型的貝葉斯網(wǎng)絡(luò)圖

LDA模型中各變量的含義如表1所示。

表1 LDA模型變量含義

雖然LDA模型在文本主題識別中存在明顯的優(yōu)勢,但主題數(shù)必須事先確定,這是它的主要缺陷[7]。如果主題數(shù)確定不合理,則會大大影響算法的精度。

1.2 動態(tài)主題數(shù)計算

本文采用目前最流行的基于貝葉斯的計算方法來尋找文本數(shù)據(jù)集的最優(yōu)主題數(shù)[8],計算公式如(1)和(2)所示:

(1)

(2)

2 基于LDA的疾病輔助診斷方法

本文把LDA模型運(yùn)用到電子病歷的分析上,通過對病歷的學(xué)習(xí),找出病歷中潛在的疾病和疾病的特征,再使用相似度計算方法進(jìn)行疾病輔助診斷。通過分析病歷可以發(fā)現(xiàn),一個病人可能會同時生幾種疾病,每種疾病又由特定的特征詞來描述。因此,基于LDA的病歷學(xué)習(xí)基于一個假設(shè),即一個病歷文檔以一定的概率選擇某種疾病,每種疾病又以一定的概率選擇某個特征詞。這樣,病歷可以看作是多種疾病的組合,而疾病又是多種特征的組合。設(shè)D={d1,d2,…,dm}表示由m個病歷文檔組成的病歷語料庫,S={s1,s2,…,sk}表示D中潛在的疾病集合,V={w1,w2,…,wn}表示由D中所有詞語組成的集合。

病歷語料庫D中每個病歷d生成不同疾病的概率為θd=ps1,…,psk,其中,psi表示d對應(yīng)S中第i個疾病的概率。計算公式為psi=nsi/n,其中nsi表示d中對應(yīng)第i個s的詞的數(shù)目,n是d中所有詞的總數(shù)。

疾病集合S中每種疾病(s)生成不同單詞的概率為φs=pw1,…,pwm,其中,pwi表示s生成V中第i個單詞的概率。計算公式為pwi=nwi/n,其中nwi表示對應(yīng)到s的V中第i個單詞的數(shù)目,n表示所有對應(yīng)到s的單詞總數(shù)。

LDA模型首先從病歷-疾病分布中選擇一個疾病,然后再從疾病-詞匯分布中選擇一個詞,其生成過程如下:

(1)對每篇病歷文檔,從病歷-疾病分布中抽取一種疾病,使得sdn~Multi(θd);

(2)從上述被抽到的疾病所對應(yīng)的疾病-詞匯分布中抽取一個詞,使得wfn~Multi(φs);

(3)重復(fù)上述過程直至遍歷病歷中的每個詞。

由于θ和S是隱變量,W是可觀測到的詞匯,則LDA生成一個病歷的疾病分布、再生成N種疾病、然后再生成這篇病歷的N個詞的聯(lián)合概率如公式(3)所示:

P(θ,Z,W|α,β)

(3)

式中,θ是病歷的疾病分布向量,S是N維的疾病向量,W是N個詞組成的向量。由于θ和S是隱變量,求W的邊緣分布將θ和S消去得到病歷中每個單詞的生成概率,如公式(4)所示:

P(w|α,β)

(4)

LDA通過可觀測值w訓(xùn)練出病歷-疾病分布矩陣θ和病歷-詞匯分布矩陣φ。采用變分貝葉斯方法估算預(yù)測值,并利用EM算法來對參數(shù)θ和φ進(jìn)行估計。本文通過吉布斯采樣來訓(xùn)練模型的兩個分布矩陣,采樣公式如(5)所示:

(5)

每次采樣中,θ、φ的更新公式如(6)和(7)所示:

(6)

(7)

對公式(5)進(jìn)行反復(fù)迭代,當(dāng)θ和φ達(dá)到穩(wěn)定狀態(tài)后,得到最終的θ和φ分布結(jié)果。

3 實驗分析

3.1 數(shù)據(jù)來源與預(yù)處理

實驗數(shù)據(jù)來源于蚌埠醫(yī)學(xué)院第一附屬醫(yī)院。選取該院2013年到2015年內(nèi)科住院電子病歷28 168份,其中27 000份作為訓(xùn)練樣本,1 168份作為測試樣本。由于病歷包含病人基本信息、主訴、現(xiàn)病史、檢查結(jié)果、診斷、治療過程等信息。首先對病歷進(jìn)行去隱私,去無用信息處理,只保留主訴和現(xiàn)病史兩項內(nèi)容。然后用中國科學(xué)院分詞軟件ICTCLAS對處理后的電子病歷進(jìn)行分詞并去除停用詞。分詞結(jié)果存放在文本文件disTxt中,每行存放一個電子病歷的分詞結(jié)果。

3.2 疾病識別結(jié)果

在LDA算法中,最優(yōu)疾病數(shù)K采用貝葉斯方法獲取,α設(shè)置為0.5/K,β設(shè)置為0.1,均為經(jīng)驗最優(yōu)值。疾病特征詞個數(shù)disWord概率設(shè)為8。在disTxt上運(yùn)行LDA模型后,產(chǎn)生θ和φ兩個分布,其中φ表示的是疾病和特征詞的分布,由于識別出的疾病種類較多,選取其中6種疾病作為樣例來描述疾病特征的識別結(jié)果,詳情如表2所示。

表2 疾病特征的挖掘結(jié)果

3.3 疾病預(yù)測

根據(jù)疾病-詞匯分布矩陣φ,測試樣本病歷dx與φ中任意疾病特征樣本di的相似度用歐氏距離來表示,如公式(8)所示。

(8)

由于公式(8)無法準(zhǔn)確度量不同量綱特征的重要程度,所以要對其作進(jìn)一步標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化處理如公式(9)所示。

(9)

把公式(9)帶入公式(8)得到標(biāo)準(zhǔn)化的歐氏距離公式,如公式(10)所示。

(10)

其中,σ和μ表示φ中n個病歷樣本在各維特征上的均值向量和標(biāo)準(zhǔn)差向量。dx與di的相似度Sim值越大,說明dx中的疾病與di的疾病越相似。根據(jù)公式(10),計算測試樣本病歷dx與φ中每個疾病特征樣本的相似度,并按值從大小排序。最終得出dx中可能存在的疾病概率。

3.4 預(yù)測準(zhǔn)確率評價

為了檢測本文方法的疾病診斷準(zhǔn)確性,采用十折交叉法把1 168份數(shù)據(jù)分成10等分,分別對每組數(shù)據(jù)進(jìn)行測試,以ID3算法和C4.5算法作為文本算法的比較對象,測試結(jié)果如圖2所示。

由圖2可以得出,本文提出的算法的綜合準(zhǔn)確率為81.99%,分別優(yōu)于C4.5算法的79.61%和ID3算法的77.19%,取得了良好的疾病輔助診斷效果。

圖2 算法的對比結(jié)果

4 結(jié)束語

以上分析了LDA模型原理,并根據(jù)電子病歷的特點,把LDA模型應(yīng)用到基于電子病歷的疾病特征識別中,找出不同疾病的特征分布。再通過計算測試病歷與疾病特征分布的相似度,判斷測試病歷的疾病種類,從而達(dá)到疾病輔助診斷的目的。實驗結(jié)果表明,本文提出的算法能提高疾病診斷的準(zhǔn)確率。

[2]李準(zhǔn),馮思佳,楊美潔,等.關(guān)聯(lián)規(guī)則技術(shù)在冠心病電子病歷中的應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(1):58-62

[3]李奮華,趙潤林.基于數(shù)據(jù)挖掘的疾病預(yù)測模型的構(gòu)建與分析[J].現(xiàn)代計算機(jī),2016(18):14-17

[4]陳松景,楊林,吳思竹,等.基于C4.5分類的呼吸系統(tǒng)疾病危險因素定量分析方法[J].中華醫(yī)學(xué)圖書情報雜志,2016,25(8):35-41

[5]BleiDM,NgAY,JordanMI.Latentdirichletallocation[J].JournalofMachineLearningResearch,2003(3):993-1022

[6]AnandkumarA,FosterDP,HsuD,etal.ASpectralAlgorithmforLatentDirichletAllocation[J].Algorithmica,2015,72(1):193-214

[7]NoelGE,PetersonGL.ApplicabilityofLatentDirichletAllocationtomulti-disksearch[J].DigitalInvestigation,2014,11(1):43-56

[8]TirunillaiS,TellisGJ.MiningMarketingMeaningfromOnlineChatter:StrategicBrandAnalysisofBigDataUsingLatentDirichletAllocation[J].JournalofMarketingResearch,2014,51(4):463-479

(責(zé)任編輯:汪材印)

10.3969/j.issn.1673-2006.2017.02.028

2016-11-18

安徽省教育廳自然科學(xué)一般研究項目(KJ2015B061by);安徽省高校人文社會科學(xué)重點項目(sk2015A405,sk2016A0607)。

劉玉文(1982-),安徽蚌埠人,碩士,講師,研究方向:數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)。

TP391.41

A

1673-2006(2017)02-0114-04

猜你喜歡
病歷概率公式
第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
排列數(shù)與排列數(shù)公式
組合數(shù)與組合數(shù)公式
強(qiáng)迫癥病歷簿
趣味(語文)(2021年9期)2022-01-18 05:52:42
第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
概率與統(tǒng)計(二)
概率與統(tǒng)計(一)
等差數(shù)列前2n-1及2n項和公式與應(yīng)用
“大數(shù)的認(rèn)識”的診斷病歷
例說:二倍角公式的巧用
高阳县| 邵东县| 合水县| 洛隆县| 邵武市| 府谷县| 黄浦区| 赫章县| 综艺| 福建省| 琼海市| 达州市| 米泉市| 准格尔旗| 方正县| 汽车| 沁源县| 曲周县| 广河县| 姚安县| 岑溪市| 凭祥市| 平舆县| 庄河市| 阳东县| 丹东市| 马关县| 乌审旗| 青川县| 朔州市| 淅川县| 酒泉市| 江都市| 自贡市| 静宁县| 清河县| 明光市| 玉山县| 齐河县| 靖安县| 铁岭县|