国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

醫(yī)療大數(shù)據(jù)環(huán)境下的疾病預(yù)測(cè)模型研究

2022-08-31 03:46劉曉燕
制造業(yè)自動(dòng)化 2022年7期
關(guān)鍵詞:特征值決策樹(shù)增益

王 星,劉曉燕

(1.昆明醫(yī)科大學(xué)第一附屬醫(yī)院 昆明 650000;2.昆明理工大學(xué) 信息工程于自動(dòng)化學(xué)院,昆明 650000)

0 引言

醫(yī)療診斷是就醫(yī)過(guò)程中的一個(gè)重要環(huán)節(jié),除通過(guò)儀器的檢驗(yàn)、檢查外,日常醫(yī)療診斷很大程度是一種基于經(jīng)驗(yàn)的判定方法,通過(guò)長(zhǎng)期對(duì)病例的癥狀分析和經(jīng)驗(yàn)積累,得出常見(jiàn)疾病的診斷方法,再將該方法應(yīng)用于新的病例中,根據(jù)新的病例表現(xiàn)出的既有癥狀信息,得到最初的疾病類(lèi)型判斷。大數(shù)據(jù)指無(wú)法使用傳統(tǒng)工具或方法進(jìn)行分析處理的、具有復(fù)雜關(guān)系的龐大數(shù)據(jù)集合,需要利用縱向信息對(duì)數(shù)據(jù)進(jìn)行補(bǔ)充分析[1]。醫(yī)療大數(shù)據(jù)是醫(yī)療衛(wèi)生機(jī)構(gòu)產(chǎn)生的一切與生命科學(xué)相關(guān)的復(fù)雜大數(shù)據(jù)[2]。醫(yī)療大數(shù)據(jù)領(lǐng)域中運(yùn)用的淺層機(jī)器學(xué)習(xí)算法模型有回歸分析、決策樹(shù)、基于內(nèi)核的算法、降低維度算法等[3]。在醫(yī)療大數(shù)據(jù)的基礎(chǔ)上,疾病診斷方法可以通過(guò)決策樹(shù)模型進(jìn)行表達(dá),并且建模分析,得到數(shù)據(jù)分類(lèi)模型,用于預(yù)測(cè)和判定未知數(shù)據(jù)的已知類(lèi)型。

在機(jī)器學(xué)習(xí)理論中,決策樹(shù)是一個(gè)預(yù)測(cè)模型,在一定現(xiàn)有數(shù)據(jù)結(jié)論基礎(chǔ)上,基于特征值與對(duì)象概率分布規(guī)律,構(gòu)建決策樹(shù)對(duì)實(shí)例進(jìn)行分類(lèi)的方法。決策樹(shù)模型很自然地還原了做決策的過(guò)程,將復(fù)雜的決策過(guò)程拆分成了一系列簡(jiǎn)單的選擇,因而能直觀地解釋決策的整個(gè)過(guò)程[4]。它是一種常用的樹(shù)形結(jié)構(gòu)分析工具,其中各非葉子節(jié)點(diǎn)代表一個(gè)特征值的判定測(cè)試,每個(gè)葉子節(jié)點(diǎn)表示實(shí)例的類(lèi)別,每個(gè)樹(shù)形分支表示該類(lèi)別所有值域上的輸出。使用決策樹(shù)進(jìn)行決策分析時(shí),待分類(lèi)數(shù)據(jù)從根節(jié)點(diǎn)開(kāi)始進(jìn)行特征值判定,并根據(jù)判定值選擇分支,一直到葉子節(jié)點(diǎn),最終測(cè)試數(shù)據(jù)的決策類(lèi)型就是這種節(jié)點(diǎn)的類(lèi)別[5]。

醫(yī)療診斷分析中,可同樣使用歷史診斷病例,以此作為數(shù)據(jù)基礎(chǔ)模型,通過(guò)病例中的檢查項(xiàng)目數(shù)值作為疾病類(lèi)型的特征值,對(duì)不同特征值的疾病類(lèi)型概率分布進(jìn)行分析,建立檢查項(xiàng)目特征與疾病類(lèi)型的概率預(yù)測(cè)模型。決策樹(shù)在建立時(shí),相關(guān)的步驟包括特征選擇、決策樹(shù)生成、修剪[6],以下具體論述。

1 決策樹(shù)分析

1.1 特征選擇

信息論是量化處理信息的分支科學(xué),劃分?jǐn)?shù)據(jù)的原則是將無(wú)序數(shù)據(jù)變得更加有序,劃分?jǐn)?shù)據(jù)前后信息的變化等同于信息增益?;诟魈卣鬟M(jìn)行劃分,確定出的信息增益最大特征就對(duì)應(yīng)于最優(yōu)判定選擇[7]。所以特征選擇必須先計(jì)算每個(gè)特征帶來(lái)的信息增益,最優(yōu)特征的信息增益最大。

特征選擇目的在于建立起原始分析數(shù)據(jù)集,原始數(shù)據(jù)集包含特征值和分類(lèi)結(jié)果,普通醫(yī)療檢驗(yàn)就是特征選擇的實(shí)際執(zhí)行過(guò)程,每個(gè)檢驗(yàn)指標(biāo)可作為一個(gè)特征值,如:體溫、體表癥狀、各類(lèi)血液檢驗(yàn)指標(biāo)等,分類(lèi)結(jié)果就是該病例的最終疾病診斷。當(dāng)一類(lèi)疾病在一個(gè)特征值上有明顯分布規(guī)律時(shí),可直接通過(guò)該特征值得到病情分類(lèi),該特征值就是區(qū)分該類(lèi)疾病的最優(yōu)特征。原始數(shù)據(jù)集數(shù)據(jù)越大,特征值劃分越精細(xì),得到的決策樹(shù)就越茂密,分析結(jié)果也就越準(zhǔn)確。

信息集合的度量方式稱(chēng)為香農(nóng)熵,簡(jiǎn)稱(chēng)熵,可將其看作為信息的期望,如果對(duì)象可劃分為很多類(lèi),則符號(hào)xi的信息熵可描述如下:

其中,p(xi)具體表示選擇該類(lèi)型的概率。

在進(jìn)行熵值計(jì)算時(shí),需要確定出全部類(lèi)型所有特征值對(duì)應(yīng)的信息期望值,可通過(guò)下面公式得到:

其中n為分類(lèi)數(shù)目,熵值和對(duì)象的不確定性存在正相關(guān)關(guān)系?;跀?shù)據(jù)估計(jì)方法確定出的熵就是經(jīng)驗(yàn)熵。若十個(gè)數(shù)據(jù)劃分為兩類(lèi):A、B類(lèi),A類(lèi)含四個(gè)數(shù)據(jù),則數(shù)據(jù)中A類(lèi)出現(xiàn)的概率為4/10;另外6個(gè)數(shù)據(jù)屬于B類(lèi),則出現(xiàn)B類(lèi)的概率為6/10,這些概率基于已有數(shù)據(jù)統(tǒng)計(jì)確定出。定義樣本數(shù)據(jù)中的數(shù)據(jù)就是訓(xùn)練集D,此集合的經(jīng)驗(yàn)熵表示為H(D),|D|對(duì)應(yīng)于其樣本容量。為方便分析假設(shè)存在K個(gè)類(lèi)CK,k=1,2,….K,|Ck|為屬于類(lèi)Ck的樣本量,則可通過(guò)如下表達(dá)式計(jì)算出經(jīng)驗(yàn)熵:

根據(jù)歷史診斷病例描述,通過(guò)醫(yī)療數(shù)據(jù)選取出主要疾病的特征描述信息,設(shè)定數(shù)據(jù)集D如表1所示。

表1 特征描述信息

樣例中共9個(gè)疾病特征,診斷類(lèi)型有2類(lèi),13個(gè)病例中,8個(gè)診斷為咳嗽病,因此數(shù)據(jù)中咳嗽病出現(xiàn)的概率為8/13,感冒出現(xiàn)的概率為5/13,根據(jù)經(jīng)驗(yàn)熵計(jì)算公式得到數(shù)據(jù)集D的經(jīng)驗(yàn)熵為:

信息增益含義為特征x的信息確定后,類(lèi)Y的信息確定性增加的程度。

條件熵H(Y|x)含義為變量x明確情況下,Y的概率值,H(Y|x)對(duì)應(yīng)于x給定后Y的條件概率分布的熵對(duì)x的數(shù)學(xué)期望:

其中,pi=p(x=xi),在基于數(shù)據(jù)估計(jì)確定出熵和條件熵相關(guān)概率情況下,以上兩種熵就是經(jīng)驗(yàn)熵和經(jīng)驗(yàn)條件熵,此時(shí)如果有概率為0,則令

信息增益和特征存在相關(guān)性,因而特征A對(duì)集D的信息增益g(D,A),可看作為此集合的經(jīng)驗(yàn)熵H(D)與特征A明確時(shí)其經(jīng)驗(yàn)條件熵H(D|A)的差值[8],具體表示如下所示:

此差值對(duì)應(yīng)于互信息,而決策樹(shù)學(xué)習(xí)中的信息增益可看作為訓(xùn)練集中類(lèi)與特征的互信息。

在實(shí)際計(jì)算中,依據(jù)原始樣本病例得出的經(jīng)驗(yàn)熵H(D)=0.9612,我們分別計(jì)算每個(gè)特征所能得到的信息增益,去掉該特征值后的新數(shù)據(jù)集H(D|A)的經(jīng)驗(yàn)熵,兩者的差異量如表2所示。

表2 差異量

從上表數(shù)據(jù)可以看到,通過(guò)咯痰或咽痛兩個(gè)特征進(jìn)行疾病劃分,能更快區(qū)別出病例為咳嗽病或是感冒,因此咯痰或咽痛可作為優(yōu)先判定的特征值,此特征值判定應(yīng)當(dāng)作為決策樹(shù)的根判定節(jié)點(diǎn)。

信息增益值的大小對(duì)于訓(xùn)練數(shù)據(jù)集而言,不存在絕對(duì)意義,在分類(lèi)難度很大情況下,相應(yīng)的信息增益值會(huì)偏大,相反情況下則偏小,可通過(guò)信息增益比而適當(dāng)?shù)男U?,在特征選擇時(shí)一般以此標(biāo)準(zhǔn)進(jìn)行。

信息增益比:特征A對(duì)集D的信息增益比gR(D,A),

可通過(guò)益g(D,A)與集D的經(jīng)驗(yàn)熵比值確定出,具體表達(dá)式如下所示:

1.2 決策樹(shù)的生成

在得到原始數(shù)據(jù)集后,基于最優(yōu)特征值對(duì)數(shù)據(jù)集進(jìn)行劃分,由于特征值可能為多個(gè),這樣在劃分時(shí),相應(yīng)的數(shù)據(jù)集也可能超過(guò)二個(gè)。在初次劃分后,需要將數(shù)據(jù)集傳遞至分叉樹(shù)的下一個(gè)節(jié)點(diǎn),然后在這一節(jié)點(diǎn)上,對(duì)數(shù)據(jù)進(jìn)行再次劃分,從而基于遞歸模式對(duì)數(shù)據(jù)集進(jìn)行處理,滿(mǎn)足相關(guān)應(yīng)用要求。

在上一步中,將病例診斷信息分析為特征值集合和分類(lèi)結(jié)果,構(gòu)建出原始數(shù)據(jù)集,決策樹(shù)的生成過(guò)程則是醫(yī)療診斷過(guò)程,通過(guò)醫(yī)生對(duì)各個(gè)檢驗(yàn)指標(biāo)進(jìn)行經(jīng)驗(yàn)總結(jié),得到分類(lèi)結(jié)果。

ID3[9]算法生成決策樹(shù),ID3算法的核心是在決策樹(shù)各個(gè)結(jié)點(diǎn)上應(yīng)用信息增益準(zhǔn)則選擇特征,遞歸地構(gòu)建決策樹(shù)[10]。

輸入:訓(xùn)練集D,特征集A;

輸出:決策樹(shù)T。

相應(yīng)的生成流程如下:

1)若訓(xùn)練集合D中全部實(shí)例都被劃分為類(lèi)別CK,這種情況下設(shè)置T為單節(jié)點(diǎn)樹(shù),并將Ck當(dāng)做此節(jié)點(diǎn)的類(lèi)別,返回T;

2)如果A=Ф,則置T為單節(jié)點(diǎn)樹(shù),而此節(jié)點(diǎn)的類(lèi)別對(duì)應(yīng)于D中實(shí)例最大的類(lèi)Ck,然后返回T;

3)相反情況下基于信息增益比表達(dá)式確定出A中各特征對(duì)D的信息增益比,對(duì)所得結(jié)果進(jìn)行對(duì)比確定出此值最大的特征Ag;

4)對(duì)節(jié)點(diǎn)i,以Di為訓(xùn)練集,以A-Ag為特征集,基于以上方法進(jìn)行遞歸分析,而確定出子樹(shù)Ti,結(jié)束后返回Ti。

對(duì)全部劃分?jǐn)?shù)據(jù)集的屬性進(jìn)行遍歷后,各分支對(duì)應(yīng)的全部實(shí)例相關(guān)的分類(lèi)相同,在全部的實(shí)例對(duì)應(yīng)的分類(lèi)都一致情況下,確定出一個(gè)葉子節(jié)點(diǎn)或終止塊,任何達(dá)到葉子節(jié)點(diǎn)的數(shù)據(jù)必然屬于葉子節(jié)點(diǎn)的分類(lèi)[11]。

1.3 決策樹(shù)的修剪

決策樹(shù)生成算法遞歸確定出決策樹(shù),一直到滿(mǎn)足結(jié)束遞歸條件,在此基礎(chǔ)上確定出的樹(shù)可更好的進(jìn)行訓(xùn)練數(shù)據(jù)的劃分,所得結(jié)果的精度高。不過(guò)對(duì)未知測(cè)試數(shù)據(jù)的分類(lèi)所得結(jié)果的準(zhǔn)確性相對(duì)有限,容易產(chǎn)生過(guò)擬合現(xiàn)象。這種現(xiàn)象的產(chǎn)生原因?yàn)?,學(xué)習(xí)時(shí)過(guò)于側(cè)重提高分類(lèi)正確性,而導(dǎo)致建立的決策樹(shù)過(guò)于復(fù)雜,處理方法是對(duì)建立的決策樹(shù)適當(dāng)?shù)幕?jiǎn),降低其后的處理難度。

決策樹(shù)修剪的意義在于減少需要判定的特征值復(fù)雜度,在醫(yī)療診斷中,存在著大量的檢查指標(biāo),實(shí)際情況下對(duì)于一個(gè)疾病的診斷,并不需要檢驗(yàn)所有的項(xiàng)目,通常先進(jìn)行一些基本的檢查,例如:體表表現(xiàn)、常規(guī)血液檢驗(yàn)等,通過(guò)這些基礎(chǔ)指標(biāo)得到疾病的大致分類(lèi),再針對(duì)該分類(lèi)下的指標(biāo)進(jìn)一步進(jìn)行其他項(xiàng)目檢驗(yàn),直至得出診斷。通過(guò)決策樹(shù)的剪枝,可以得到常規(guī)醫(yī)療檢驗(yàn)的項(xiàng)目指標(biāo),減少不必要的檢驗(yàn)項(xiàng)目和檢驗(yàn)次數(shù)。

剪枝:對(duì)得到的決策樹(shù)進(jìn)行修剪,將其中的一些子樹(shù)或葉子節(jié)點(diǎn)剪去,而新的子節(jié)點(diǎn)設(shè)置為根節(jié)點(diǎn),這樣可使得分類(lèi)樹(shù)結(jié)構(gòu)簡(jiǎn)化。

可基于決策樹(shù)的損失函數(shù)或代價(jià)函數(shù)最小來(lái)實(shí)現(xiàn)。

決策樹(shù)學(xué)習(xí)的損失函數(shù)定義為:

其中T對(duì)應(yīng)于此子樹(shù)的葉子節(jié)點(diǎn),Nt對(duì)應(yīng)于此葉子相關(guān)的訓(xùn)練樣本數(shù),α對(duì)應(yīng)于懲罰系數(shù),Ht(T)則為第t個(gè)葉子熵,其計(jì)算公式為:

其中C(T)含義為對(duì)訓(xùn)練數(shù)據(jù)的預(yù)測(cè)誤差,可看作為相應(yīng)的擬合水平;

α表示,α≥0參數(shù)控制兩者之間的影響,此參數(shù)較大情況下確定出的模型結(jié)構(gòu)更簡(jiǎn)單,而相反情況下建立的決策樹(shù)更復(fù)雜,如果其為零,則對(duì)應(yīng)于單純考慮擬合水平,決策樹(shù)的復(fù)雜性不需要考慮。

剪枝對(duì)應(yīng)于α確定情況下,得到損失函數(shù)最小的子樹(shù)。

α確定后,訓(xùn)練數(shù)據(jù)的擬合效果和子樹(shù)大小存在正相關(guān)關(guān)系,不過(guò)子樹(shù)大,則對(duì)應(yīng)的復(fù)雜度越高,相反情況下則擬合效果差,損失函數(shù)表達(dá)了兩者間的平衡度。

決策樹(shù)的剪枝對(duì)應(yīng)于從葉子節(jié)點(diǎn)進(jìn)行遞歸,全部子節(jié)點(diǎn)回縮后的子樹(shù)記為T(mén)b,而沒(méi)有回縮的子樹(shù)為T(mén)b,如果存在如下關(guān)系式:

則可判斷出回縮降低了損失函數(shù),這樣就需要進(jìn)行回縮處理,進(jìn)行遞歸一直到不能進(jìn)一步回縮。這樣就基于貪婪算法進(jìn)行剪枝處理,而簡(jiǎn)化了決策樹(shù)。

決策樹(shù)建立的目的在于更好的擬合訓(xùn)練數(shù)據(jù),而剪枝操作主要是基于優(yōu)化損失函數(shù)而使決策樹(shù)得以簡(jiǎn)化,也為其后的分類(lèi)處理提供支持和便利。

1.4 使用決策樹(shù)進(jìn)行分類(lèi)

決策樹(shù)分類(lèi)[12,13]是分類(lèi)算法中的一種應(yīng)用最廣泛的技術(shù),它通過(guò)尋找數(shù)據(jù)間的聯(lián)系,描述數(shù)據(jù)的關(guān)系模型,從而能夠作出預(yù)測(cè)。在決策樹(shù)建立基礎(chǔ)上,可基于其劃分實(shí)際數(shù)據(jù)集合,通過(guò)數(shù)據(jù)分類(lèi)過(guò)程中各屬性值與決策樹(shù)節(jié)點(diǎn)的數(shù)值進(jìn)行比較,遞歸執(zhí)行該節(jié)點(diǎn)及其子節(jié)點(diǎn),最后到達(dá)的葉子節(jié)點(diǎn)即為分析預(yù)測(cè)的該數(shù)據(jù)分類(lèi)。

醫(yī)療診斷分類(lèi)的過(guò)程,則是根據(jù)醫(yī)療檢驗(yàn)得到的項(xiàng)目指標(biāo),對(duì)各個(gè)指標(biāo)進(jìn)行判斷,將疾病類(lèi)型劃分在歷史病例中。

2 決策樹(shù)應(yīng)用

通過(guò)對(duì)實(shí)際醫(yī)療診斷過(guò)程結(jié)合決策樹(shù)算法的分析,得出可將決策樹(shù)應(yīng)用于醫(yī)療診斷的應(yīng)用過(guò)程,通過(guò)以下過(guò)程實(shí)施,可得到?jīng)Q策樹(shù)模型。

2.1 構(gòu)建原始數(shù)據(jù)集

在前面的決策樹(shù)分析過(guò)程中,我們將病例中的檢查項(xiàng)目指標(biāo)作為特征值,構(gòu)建分析原始數(shù)據(jù)集。

2.2 計(jì)算數(shù)據(jù)集經(jīng)驗(yàn)熵

計(jì)算原始數(shù)據(jù)集的經(jīng)驗(yàn)熵,其輸出結(jié)果符合預(yù)計(jì)計(jì)算。

2.3 最優(yōu)特征選擇

圖1 原始數(shù)據(jù)集的經(jīng)驗(yàn)熵

在第一輪最優(yōu)特征選擇中,計(jì)算得出的經(jīng)驗(yàn)熵符合預(yù)計(jì)結(jié)果,選取咯痰作為最優(yōu)特征。

2.4 決策樹(shù)生成

圖2 最優(yōu)特征選取

重復(fù)上面的最優(yōu)特征值選擇步驟,直到數(shù)據(jù)分類(lèi)完畢或特征判定結(jié)束,獲得最終的決策樹(shù)。最終得到的決策樹(shù)結(jié)構(gòu)。

圖3 最優(yōu)特征判定結(jié)束

基于樣本病例得到的決策樹(shù),判定邏輯如圖4所示。

圖4 最終決策樹(shù)結(jié)構(gòu)

決策樹(shù)的最終特征值僅有:咯痰和咽痛,與原始數(shù)據(jù)集中采集的特征值有很大程度的減少,對(duì)原始數(shù)據(jù)的病例診斷結(jié)果保持不變,實(shí)際應(yīng)用中,可根據(jù)決策樹(shù)最終特征值進(jìn)行檢驗(yàn)指標(biāo)進(jìn)行采集,減少了無(wú)用或者與疾病關(guān)系不大的指標(biāo)采集過(guò)程,可減少疾病診斷檢驗(yàn)復(fù)雜度。

3 結(jié)語(yǔ)

醫(yī)院大數(shù)據(jù)為分析病情提供了實(shí)現(xiàn)基礎(chǔ),在選取了部分樣例進(jìn)行實(shí)驗(yàn)過(guò)程中,通過(guò)算法的描述得到了較簡(jiǎn)化的區(qū)分感冒和咳嗽病的決策樹(shù)模型,使用該模型對(duì)其歷史病例進(jìn)行測(cè)試,具有較高的準(zhǔn)確率,基本達(dá)到診斷要求。通過(guò)醫(yī)療診斷分析模型的構(gòu)建,可用于自動(dòng)疾病初步預(yù)測(cè)、非醫(yī)療人員疾病診斷輔助信息手段、醫(yī)療檢驗(yàn)項(xiàng)目指標(biāo)制定,具有一定的可行性和指導(dǎo)意義。但是,如何尋找更好的數(shù)據(jù)預(yù)處理方法,如何發(fā)掘更好的優(yōu)化決策樹(shù)方法,如何更有效快速地完成決策樹(shù)剪枝,如何將決策樹(shù)與多種方法交叉結(jié)合等多種問(wèn)題,都需要今后的學(xué)習(xí)中去研究[14]。

猜你喜歡
特征值決策樹(shù)增益
利用LMedS算法與特征值法的點(diǎn)云平面擬合方法
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
單圈圖關(guān)聯(lián)矩陣的特征值
凱萊圖的單特征值
基于單片機(jī)的程控增益放大器設(shè)計(jì)
基于Multisim10和AD603的程控增益放大器仿真研究
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
求矩陣特征值的一個(gè)簡(jiǎn)單方法
決策樹(shù)學(xué)習(xí)的剪枝方法
決策樹(shù)多元分類(lèi)模型預(yù)測(cè)森林植被覆蓋