張新英,付川南
(中原工學(xué)院信息商務(wù)學(xué)院,河南 鄭州 451191)
一種高效的多類型數(shù)據(jù)挖掘算法
張新英,付川南
(中原工學(xué)院信息商務(wù)學(xué)院,河南 鄭州 451191)
已有大部分挖掘算法基本是針對兩類數(shù)據(jù)來發(fā)現(xiàn)對照模式以挖掘所需信息,但是針對多類型數(shù)據(jù)發(fā)現(xiàn)對照模式的數(shù)據(jù)挖掘仍面臨挑戰(zhàn)。關(guān)聯(lián)規(guī)則挖掘算法的缺陷是因?yàn)橐纱罅恳?guī)則,然而這其中卻包含較多的冗余規(guī)則,非冗余規(guī)則挖掘算法盡管去除了冗余規(guī)則,然而有些規(guī)則針對特定應(yīng)用領(lǐng)域的數(shù)據(jù)興趣度太低,所以文中給出一種高效的多類型數(shù)據(jù)挖掘算法。所給算法根據(jù)統(tǒng)計(jì)方法定義了誘因模式與安全模式,并實(shí)現(xiàn)在多類醫(yī)療數(shù)據(jù)中發(fā)現(xiàn)所定義的兩種模式。仿真實(shí)驗(yàn)給出多類醫(yī)療數(shù)據(jù)的直觀因果關(guān)系圖,且由所給算法生成的規(guī)則所獲得的分類器證實(shí)了所給算法的高效性與實(shí)用性。所給算法生成的規(guī)則提供了精確且非常有用的信息,能夠在諸如醫(yī)療研究領(lǐng)域中實(shí)際應(yīng)用。
數(shù)據(jù)挖掘;多類型數(shù)據(jù);優(yōu)化規(guī)則;興趣度
針對多類型數(shù)據(jù)發(fā)現(xiàn)對照模式實(shí)現(xiàn)數(shù)據(jù)挖掘目前愈來愈備受關(guān)注,以往用于比較正常與非正常兩類樣本所獲取的相關(guān)模式集,大多均是采用數(shù)據(jù)分析工具(比如SPSS)實(shí)現(xiàn),但該方式效率低而且較為復(fù)雜,特別是用于多類型數(shù)據(jù)時(shí),如果要實(shí)現(xiàn)全面比較以挖掘出有用的信息是非常不易的[1]。然而,在多類型數(shù)據(jù)中挖掘有用的信息對于諸如醫(yī)療領(lǐng)域研究來說是相當(dāng)重要的。規(guī)則發(fā)現(xiàn)[2-3]是機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究的重點(diǎn)和熱點(diǎn),而制約關(guān)聯(lián)規(guī)則應(yīng)用的缺陷主要是生成的規(guī)則數(shù)量龐大,同時(shí)將會有大量的冗余規(guī)則。目前已有數(shù)據(jù)挖掘算法的重點(diǎn)主要是聚焦在頻繁項(xiàng)集如何高效生成[4]。比如,文獻(xiàn)[5]定義的頻繁閉項(xiàng)集和文獻(xiàn)[6]定義的最大頻繁項(xiàng)集主要通過減少頻繁項(xiàng)集個(gè)數(shù)以制約生成的規(guī)則個(gè)數(shù),但是還是仍然生成了較多的冗余規(guī)則。文獻(xiàn)[7]提出的非冗余規(guī)則生成算法盡管去除了大量冗余規(guī)則,但在特定應(yīng)用領(lǐng)域中仍然有很多冗余規(guī)則,主要是由于生成的規(guī)則對于特定應(yīng)用領(lǐng)域的興趣度太低或是沒有興趣,因此在特定應(yīng)用領(lǐng)域中,發(fā)現(xiàn)興趣度大的規(guī)則要比發(fā)現(xiàn)關(guān)聯(lián)規(guī)則具有更重要的意義,所以優(yōu)化的發(fā)現(xiàn)規(guī)則應(yīng)是可以挖掘出最大化興趣度的規(guī)則,因而則需要一個(gè)度量函數(shù)來用于定義興趣度。現(xiàn)有的多數(shù)挖掘算法因?yàn)樗诰虺龅慕Y(jié)果很難被解釋、生成的規(guī)則數(shù)量過多、不關(guān)心興趣度等諸多原因,通常很少會被用在醫(yī)療領(lǐng)域數(shù)據(jù)的研究上[8]。挖掘算法的主要目的不只是要發(fā)現(xiàn)頻繁模式,更為重要的目的是發(fā)現(xiàn)針對特定領(lǐng)域感興趣的模式。對于醫(yī)療領(lǐng)域的數(shù)據(jù)挖掘,其目的是在多類醫(yī)療數(shù)據(jù)中挖掘出對應(yīng)的誘因模式與安全模式,所挖掘出的模式對醫(yī)療領(lǐng)域研究者而言非常有價(jià)值。文中給出一種高效的多類型數(shù)據(jù)挖掘算法(an Efficiency Mining algorithm for Multiple Class Data, EMMCD)。所給算法針對醫(yī)療領(lǐng)域數(shù)據(jù),首先根據(jù)統(tǒng)計(jì)方法定義了興趣度度量函數(shù),并利用該函數(shù)挖掘出不包含冗余規(guī)則的最大興趣度規(guī)則,其次根據(jù)最大興趣度規(guī)則定義誘因模式與安全模式,且在多類型醫(yī)療數(shù)據(jù)中挖掘出所定義的兩種模式。仿真結(jié)果表明,所給EMMCD算法挖掘出多類醫(yī)療數(shù)據(jù)中的誘因模式與安全模式具備有效性與實(shí)用性,同時(shí)根據(jù)挖掘出的兩種模式畫出了因果分析圖,且所挖掘出的結(jié)果要比關(guān)聯(lián)規(guī)則挖掘的結(jié)果更為清晰與直觀,可以更為適用于醫(yī)療領(lǐng)域數(shù)據(jù)的研究分析。
所給EMMCD算法假設(shè)以醫(yī)療數(shù)據(jù)作為應(yīng)用背景。采用A,B,C,D表示病人某類疾病不同的癥狀,用下標(biāo)1,2,3,…表示每種癥狀不同的發(fā)病狀態(tài),則病人的某疾病元組可表示為(Ai,Bj,CS,Dt,Lk),其中Ai為病人A癥狀的發(fā)病狀態(tài)值為Ai(i=1,2,3,…,m),Bj為病人B癥狀的發(fā)病狀態(tài)值為Bj(j=1,2,3,…,n),CS為病人C癥狀的發(fā)病狀態(tài)值為Cs(s=1,2,3,…,u),Dt為病人D癥狀的發(fā)病狀態(tài)取為Dt(t=1,2,3,…,v),Lk為疾病分類標(biāo)簽,表示病人在經(jīng)診斷之后確定為Lk(k=1,2,3,…,w)型疾病。
假設(shè)某疾病癥狀全集I={p1,p2,…,pr},集合P={p1,p2,…,pq}?I表示取全集I中的一個(gè)或一系列屬性對,稱P為模式或模式集合,記為Pattern,簡稱模式P。例如,集合{發(fā)燒,咳嗽}為兩個(gè)屬性對組成的模式,則可簡稱模式P={發(fā)燒,咳嗽}。
令P為一個(gè)模式或模式集合,N為數(shù)據(jù)集的總記錄個(gè)數(shù),Count(P)為包含模式P的記錄個(gè)數(shù)。則P的支持度Support(P)計(jì)算如式(1)所示,表示包含模式P的記錄個(gè)數(shù)占整個(gè)數(shù)據(jù)集記錄總數(shù)的比值。
(1)
如果當(dāng)前記錄總數(shù)為N,包含模式P的記錄為X。則P的支持度為X/N。令Supportmin為用戶指定的支持度閾值,若Support(P)>Supportmin,則稱模式P是頻繁的。
令P為一個(gè)模式或模式集合,Lk為一個(gè)顯型疾病。則稱P在Lk中的支持度為模式P的類內(nèi)支持度Inter_Support(P,Lk),其計(jì)算如式(2)所示。
(2)
若規(guī)則P→Lk滿足Inter_Support(P,Lk)≥Support(Lk),則稱P在Lk中是頻繁的。其中,Support(Lk)表示在用戶定義的多顯型數(shù)據(jù)集中,每個(gè)顯型模式均需要滿足的最小支持度閾值,且規(guī)定Support(Lk)=2。同時(shí),假定模式Px為P所有超集的集合。若Inter_Support(Px,Lk)≥Support(Lk),則稱模式Px在Lk上是頻繁的;反之,若0≤Inter_Support(Px,Lk)≤Support(Lk),則稱模式Px在Lk上是不頻繁的。
假定有模式集合F={P,Pa,Pab,…,Pabcd},模式Pa為P的超集,模式Pab為Pa與P的超集,據(jù)此類推,模式Pabcd表示除自身之外所有集合的超集。則稱集合F是以P為公共前綴的前綴規(guī)則集。
以模式P為前綴的規(guī)則集F={Pa,Pab,…,Pabcd}滿足Pa→Lk,Pab→Lk,…,Pabcd→Lk。假如不存在P′∈P滿足P′→Lk,則模式Pa為導(dǎo)出類型Lk的最簡模式;假如不存在Pabcd∈P″滿足P″→Lk,則模式Pabcd為導(dǎo)出類型Lk的精確模式。
一個(gè)模式P對于特定顯型Lk的興趣度可以用關(guān)聯(lián)規(guī)則的支持度來表示,如式(3)所示。
(3)
式中,Support(P,-Lk)=Support(P)-Support(P,Lk),Support(-P,Lk)=Support(Lk)-Support(P,Lk),Support(-P,-Lk)=1-Support(P)-Support(Lk)+Support(P,Lk)。OR是用來評估模式與某類疾相關(guān)程度的興趣度度量函數(shù),其取值為[0,∞),通過計(jì)算P對應(yīng)的OR值可以得到其在不同顯型中的重要程度。
定義1:假定模式P={P1,P2,…,Pq},疾病類型Lk∈L(k=1,2,…,w)。如果OR(P→Lk)≥δ,則稱模式P為導(dǎo)致疾病Lk類的誘因模式,其中δ為用戶定義的最小閾值。也即表示模式P對Lk類疾病的貢獻(xiàn)率大于所給定閾值的模式;
定義2:假定模式P={P1,P2,…,Pq},疾病類型Lk∈L(k=1,2,…,w)。如果OR(P→Lk)≤λ,則稱模式P為導(dǎo)致疾病Lk類的安全模式,其中λ為用戶定義的最大閾值。也即表示模式P對Lk類疾病的貢獻(xiàn)率低于所給定閾值的模式。
在文獻(xiàn)[9]中給出了OR值對照表。針對某一給定模式P與Lk,OR>10表示P與Lk具有強(qiáng)烈的正相關(guān)性,則稱模式P是疾病Lk的誘因模式;OR<1表示P與Lk負(fù)相關(guān),則稱模式P是疾病Lk的安全模式,即該模式的出現(xiàn)不會導(dǎo)致病人感染Lk類疾病,對疾病具有預(yù)防與安全作用。1 優(yōu)化的規(guī)則集需滿足如下條件:1) 每個(gè)顯型中的模式均是頻繁的;2) 如果一個(gè)前綴規(guī)則集中所有模式均能推導(dǎo)出某顯型,則僅保留置信度最高的模式;3) 特定應(yīng)用領(lǐng)域知識興趣度最大的模式。則可導(dǎo)出以下優(yōu)化規(guī)則集定理: 定理1:給定類內(nèi)支持度的閾值γ,前綴規(guī)則集F={P,Pa,Pab,…,Pabcd},對應(yīng)的顯型疾病為Lk(k=1,2,3,…,w)。如果模式P滿足0≤Inter_Support(P,Lk)≤γ,則P及其所有超集包括Pa將不會成為優(yōu)化規(guī)則集。(說明:該定理描述的僅是多顯型疾病中的局部支持度,不是全局支持度,避免有些疾病數(shù)量相對較少而導(dǎo)致支持度相對全局很高而局部很低的情況,以減少冗余規(guī)則。這有別于關(guān)聯(lián)規(guī)則中定義的支持度。) 定理2:假定前綴規(guī)則集F={P,Pa,Pab,…,Pabcd}中所有模式均滿足類內(nèi)支持度最小閾值γ,對應(yīng)的顯型疾病為Lk(k=1,2,3,…,w)。如果存在Support(P)=Support(Pa),其中Pa是模式P的超集,則模式Pa及其超集將不會成為優(yōu)化規(guī)則集。 定理3:假定前綴規(guī)則集F={P,Pa,Pab,…,Pabcd}中的所有模式都滿足類內(nèi)支持度最小閾值γ,對應(yīng)的顯型疾病為Lk(k=1,2,3,…,w),令-Lk表示除Lk以外的全部顯型疾病。如果存在Support(P,-Lk)=Support(Pa,-Lk),其中Pa是模式P超集,則模式Pa及其超集將不會成為優(yōu)化規(guī)則集。 下面給出用于挖掘出誘因模式與安全模式的EMMCD算法,具體描述如算法1所示。算法1獲得的誘因模式與安全模式規(guī)則集要遠(yuǎn)遠(yuǎn)小于關(guān)聯(lián)規(guī)則產(chǎn)生的規(guī)則集,為使挖掘結(jié)果能夠進(jìn)一步方便研究者閱讀和理解,可在每個(gè)Lk類中選擇值最優(yōu)的若干個(gè)誘因模式與安全模式,可使挖掘結(jié)果更具代表性,然而這種挖掘出的模式只是數(shù)據(jù)集的其中一部分,所得結(jié)果的精確性可能不夠高,因此要根據(jù)實(shí)際需求選擇所需的優(yōu)化模式。算法1中的函數(shù)1是用于產(chǎn)生候選項(xiàng)模式集的生成函數(shù)。所有產(chǎn)生的候選模式集均是基于前綴生成樹結(jié)構(gòu),通過采用CIk-1CIk-1方法結(jié)合獲取候選項(xiàng)集,這可在規(guī)則形成之前削減很多冗余規(guī)則。其中,假設(shè)整個(gè)算法的最小類內(nèi)支持度為Inter_Support=2?;静襟E如下所示: 步驟1:首先生成頻繁候選模式集1-pattern。如果候選模式集的支持度已經(jīng)小于最小類內(nèi)支持度閾值γ(其中γ=Inter_Support),則可直接削減規(guī)則而不需考慮類內(nèi)支持度。例如:如果{C0}與{D3}的項(xiàng)集個(gè)數(shù)已經(jīng)不滿足最小約束,將會全部被削減掉。削減掉C0等于削減掉對應(yīng)的A0C0,A1C0,…,A2B1C0D3等46個(gè)子模式,這些子模式將不會出現(xiàn)在候選項(xiàng)集中,D3同理。否則,按照定理1削減掉不滿足類內(nèi)支持度的規(guī)則,被削減掉的項(xiàng)將不會再參與下層運(yùn)算;(d+1)-pattern 步驟2:然后利用函數(shù)1[10]產(chǎn)生候選模式集(d+1)-pattern。如果候選模式集(d+1)-pattern的類內(nèi)支持度小于最小類內(nèi)支持度閾值γ,則采用定理1直接削減規(guī)則;否則,如果在候選模式集中包含于超集Pa的模式P滿足定理2或定理3,則需刪除模式P。其中,由于定理3能夠削減掉興趣度較低的規(guī)則,所以它非常重要且必不可少。例如:如果Support(A0D1,-L1)=Support(A0,-L1),則L1在候選規(guī)則(A0,D2,L1,L2)中將會被刪除。在削減掉了大量的冗余規(guī)則后即可獲得感興趣的非冗余規(guī)則; 步驟3:再次通過計(jì)算削減規(guī)則后模式集的興趣度OR值,然后根據(jù)OR值發(fā)現(xiàn)合適的誘因模式與安全模式,產(chǎn)生新的下一層模式集,然后重復(fù)執(zhí)行步驟2的規(guī)則削減步驟,最后返回最大興趣度優(yōu)化規(guī)則模式集。 算法1 EMMCD多類數(shù)據(jù)挖掘算法 輸入:多類數(shù)據(jù)集合I,最小類內(nèi)支持度閾值γ; 輸出:最終挖掘出的模式集S。 1. 令S=φ,d=1; 2. 產(chǎn)生模式集d-pattern添加到各自的集合中; 3. 計(jì)算模式集d-pattern中每個(gè)模式的支持度Support(P); 3.1 若Support(P)<γ,則直接刪除模式P及其子模式來削減規(guī)則; 3.2 若Support(P)≥γ,則執(zhí)行: 3.2.1 計(jì)算模式集d-pattern的每個(gè)類內(nèi)支持度Inter_Support(Pa,Lk); 3.2.2 如果Inter_Support(Pa,Lk)<γ,則采用定理1削減規(guī)則; 4. 利用函數(shù)1產(chǎn)生新的候選模式集(d+1)-pattern; 5. 如果新的候選模式模式集非空,則重復(fù)執(zhí)行: 5.1 在新的候選模式集中計(jì)算類內(nèi)支持度Inter_Support(Pa,Lk); 5.2 對于每個(gè)模式集P,重復(fù)執(zhí)行: 5.2.1 若Inter_Support(Pa,Lk)<γ,則利用定理1直接削減規(guī)則; 5.2.2 若在(d+1)-pattern集中有Pa的子集P滿足定理2或定理3,則在S集中刪除模式P; 5.3 計(jì)算OR值,根據(jù)OR值大小選擇合適的誘因模式與安全模式添加到S集; 5.4d=d+1; 5.5 采用函數(shù)1產(chǎn)生新的(d+1)-pattern集; 6. 返回S。 其中,函數(shù)1的具體執(zhí)行步驟如下所示: 函數(shù)1 產(chǎn)生候選模式集(d+1)-pattern。 1. 令候選模式集(d+1)-pattern為空; 2. 對每個(gè)在d-pattern中的模式對PPd-1與Pd-1R,重復(fù)執(zhí)行: 2.1 在候選模式集(d+1)-pattern中插入模式Pd-1PR; 2.2 對所有Pd?Pd-1,重復(fù)執(zhí)行: 2.2.1 若Pd不在模式集d-pattern中,則刪掉候選模式Pd-1PR; 3. 返回(d+1)-pattern集。 圖1多種顯型肺炎疾病因果分析圖 實(shí)驗(yàn)采用的數(shù)據(jù)集為肺炎醫(yī)療數(shù)據(jù),病歷分別采自北京、南京、上海、合肥、福州、杭州等地的科研協(xié)作單位,每個(gè)單位的病歷均由亞型1至亞型6等多個(gè)亞型的數(shù)據(jù)集以及一些健康人的數(shù)據(jù)集。病歷數(shù)是從各協(xié)作單位收集幾百甚至幾千病歷中選取的3000例樣本,包含100個(gè)屬性,其中病人的基本信息等屬性描述將會在預(yù)處理中被刪除,這些屬性不會被用來作為挖掘?qū)傩?。?shí)驗(yàn)的目標(biāo)是在多顯型疾病中發(fā)現(xiàn)誘因模式與安全模式,這些優(yōu)化模式集的發(fā)現(xiàn)將用于幫助專家系統(tǒng)進(jìn)行診斷治療。在挖掘出的優(yōu)化規(guī)則中,有些規(guī)則對于某顯型肺炎或許是誘因模式,但對于其它類亞型肺炎卻可能是安全模式,此外還可能存在一些模式對于某幾種顯型肺炎的興趣度度量函數(shù)OR值幾乎均是相等的,這些模式可被稱為公共模式。通過采用所給EMMCD算法對六種顯型肺炎疾病進(jìn)行數(shù)據(jù)挖掘,將發(fā)現(xiàn)的誘因模式與安全模式畫成因果圖,如圖1所示。從圖1能夠看出所有肺炎亞型代表模式所挖掘出的結(jié)果更加直觀而且更有利于分析,專家可以根據(jù)所繪因果分析圖更加清晰的判斷各種模式是獨(dú)立的還是條件獨(dú)立的。其中,圖1所包含的4類邊,其含義分別表示如下: (a) 雙線有向邊(?)用于表示因果關(guān)系。箭頭指向結(jié)果,尾部表示原因,表示這個(gè)發(fā)現(xiàn)模式為誘因模式,可根據(jù)其OR值判定其對該疾病的影響程度(貢獻(xiàn)率)。從圖1中可以看出,模式SF、CLF、MP等為顯型1肺炎的誘因模式;模式WC、IT、TFY等為顯型2肺炎的誘因模式;模式HF、DF、R、YF等為顯型3肺炎的誘因模式;模式FS、RT、PC為顯型4肺炎的誘因模式;模式SN、WP為顯型5肺炎的誘因模式;模式SPP、CWS、FS為顯型6肺炎的誘因模式。 (b) 雙線雙向邊(?)用于表示兩端為安全關(guān)系,無誘因關(guān)系。該模式表示不會引起該顯型疾病,稱這個(gè)模式為該顯型的安全模式。從圖1中可以看出,模式NF、WT為顯型1肺炎的誘因模式;模式FS、RT為顯型2肺炎的誘因模式;模式CR為顯型3肺炎的誘因模式;模式CRE、TC為顯型4肺炎的誘因模式;模式WT、GP為顯型5肺炎的誘因模式;模式SJ、CR、ALB為顯型6肺炎的誘因模式。 (c) 單線有向邊(→)也用于表示因果關(guān)系。其與雙線有向邊的區(qū)別是,單線有向邊表示獨(dú)有模式,雙線有向邊表示兩個(gè)或多個(gè)顯型的共有模式。從圖1中可以看出,模式CF為顯型1、顯型5與顯型2肺炎的共有模式;模式TFW、PT為顯型1與顯型6肺炎的共有模式;模式CU為顯型4、顯型5與顯型6肺炎的共有模式。 (d) 單線雙向邊(?)用于表示兩個(gè)模式同時(shí)出現(xiàn)。表示在一個(gè)模式出現(xiàn)的同時(shí)會伴隨著另一個(gè)模式出現(xiàn),兩個(gè)模式具有伴隨特性。從圖1可以看出,模式WP為顯型1肺炎的誘因模式,同時(shí)伴隨出現(xiàn)了顯型1肺炎的誘因模式WG;模式Y(jié)P為顯型2肺炎的誘因模式,同時(shí)伴隨出現(xiàn)的另一種模式TP為顯型2與顯型4肺炎的共有模式。 下面圖2給出了EMMCD算法在不同的顯型肺炎中的OR值比較。從圖2中能夠清晰地看出每個(gè)模式在不同的顯型肺炎中的OR值均不同。模式C在不同顯型肺炎中的OR值區(qū)別較大,在顯型1肺炎中為誘因模式,但在顯型2肺炎中的OR值卻比較低。由此說明相同的式對于不同顯型肺炎的重要性(貢獻(xiàn)率)是不同的,同樣能夠更為清晰地驗(yàn)證EMMCD算法中所給興趣度規(guī)則的重要性。 圖2 多顯型肺炎在不同模式下的興趣度OR值 下面圖3給出了EMMCD算法中模式在不同類內(nèi)支持度情況下的精度比較。從圖3可以看出,在不同的類內(nèi)支持度下得到的精度是不同的。然而即使在不同的類內(nèi)支持度參數(shù)設(shè)置下,EMMCD算法的精度均為較好的。且在選擇好的參數(shù)情況下,采用EMMCD算法實(shí)現(xiàn)的最好精度能夠達(dá)到92.8%以上,因而能夠較為充分地證明EMMCD算法的實(shí)用性。 圖3 EMMCD算法在不同類內(nèi)支持度下的精度比較 下面圖4給出了EMMCD算法在相同支持度下跟SVM與C4.5算法的精度比較。從圖4可以看出,在候選模式集d-pattern項(xiàng)數(shù)較小時(shí),EMMCD算法與C4.5算法的精度大致相似,但是隨著候選模式集d-pattern項(xiàng)數(shù)增加,EMMCD算法的精度均優(yōu)于傳統(tǒng)SVM與C4.5算法,因而可以較為充分地證明EMMCD算法的高效性。 圖4 EMMCD算法與傳統(tǒng)SVM、C4.5算法的精度比較 針對醫(yī)療領(lǐng)域中多類數(shù)據(jù)的挖掘比較困難且結(jié)果很難解釋等不足,給出了一種高效的可用在醫(yī)療領(lǐng)域中實(shí)現(xiàn)對多類疾病數(shù)據(jù)發(fā)現(xiàn)誘因模式與安全模式的EMMCD算法。EMMCD算法通過利用所給優(yōu)化規(guī)則集消除大量冗余規(guī)則,從而能夠更加高效地挖掘出精確的數(shù)據(jù)結(jié)果,同時(shí)根據(jù)興趣度度量函數(shù)來判斷一個(gè)發(fā)現(xiàn)模式對一個(gè)特定領(lǐng)域來說是否是感興趣的,并且可以用興趣度度量函數(shù)及其性質(zhì)有效地發(fā)現(xiàn)感興趣的規(guī)則或刪除一些冗余的規(guī)則。通過發(fā)現(xiàn)多類醫(yī)療數(shù)據(jù)中的誘因模式與安全模式畫出因果圖,能夠清晰直觀地幫助醫(yī)療領(lǐng)域工作者分析挖掘出的結(jié)果。根據(jù)性能分析表明,EMMCD算法在不同的參數(shù)設(shè)置下均有效,通過跟傳統(tǒng)SVM算法與C4.5算法進(jìn)行比較,能夠看出EMMCD算法具有更好的精度。所以EMMCD算法通過選擇恰當(dāng)?shù)呐d趣度度量函數(shù)來發(fā)現(xiàn)感興趣的模式,并用該模式優(yōu)化規(guī)則集是相當(dāng)高效實(shí)用的,對于醫(yī)療領(lǐng)域研究者來說具有非常重要的意義。 [1] 王元卓, 靳小龍, 程學(xué)旗. 網(wǎng)絡(luò)大數(shù)據(jù): 現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2013, 36(6): 1125-1138. [2] Hu Y, Feng B, Zhang X Z, et al. Stock trading rule discovery with an evolutionary trend following model[J]. Expert Syst. Appl. (ESWA), 2015, 42(1): 212-222. [3] Isam E, Salima B, Mourad O, et al. A tensor-based distributed discovery of missing association rules on the cloud[J]. Future Generation Comp. Syst. (FGCS), 2014, 35: 49-56. [4] 耿生玲, 李永明, 劉震. 關(guān)聯(lián)規(guī)則挖掘的軟集包含度方法[J]. 電子學(xué)報(bào), 2013, 41(4): 804-809. [5] Liu G M, Lu H J, Jeffrey X, et al. AFOPT: An Efficient Implementation of Pattern Growth Approach[C]//In FIMI Workshop, Florida, USA, November, 2003: 1106-1114. [6] Doug B, Manuel C, Johannes G. MAFIA: A Maximal Frequent Itemset Algorithm for Transactional Databases[C]. In: Proc. of 17nd Intl. Conf. on Data Engineering, 2001: 443-452. [7] Mohanmmed J. Zaki. Mining Non-Redundant Association Rules[C]. Data Mining and Knowledge Discovery, 2004: 223-248. [8] 李思男, 李寧, 李戰(zhàn)懷. 多標(biāo)簽數(shù)據(jù)挖掘技術(shù): 研究綜述[J]. 計(jì)算機(jī)科學(xué), 2013, 40(4): 14-20. [9] Stephen D, Simon. Understanding the Odds Ratio[J]. Journal of Andrology, 2001, 22(4): 533-536. [10]Tan P N, Michael S, Vipin K. Introduction to data Mining[M]. USA: Addison-Wesley, 2014: 88-109. An Efficiency Mining Algorithm for Multiple Class Data ZHANG Xin-ying, FU Chuan-nan (College of Information and Business, Zhongyuan University of Technology, Zhengzhou 451191, China) The contrast pattern which basically aiming to two types of data is found to gain required message, but it is great challenge that to find contrast pattern in existing multiple class data to carry out data mining. The limitation of the association rules in data mining algorithm is that the association rules need to generate lots of rules, and many of this rules are redundant rules. However, while the non-redundant rules of data mining algorithm has wiped the redundant rules, but there are still kinds of rules have low interest degree in certain specific application field. Thus, an effective mining algorithm for multiple class data is presented. The pathogenic pattern and protect pattern are defined based on statistical method, and the novel algorithm is realized to find the two patterns in multiple class medical data. Meanwhile, a clearly causal graph is drawn according to the simulated experiment, and the classifier of the novel rules generated by the presented algorithm also verified the efficiency and practicability of the novel algorithm. So the rules generated by the presented algorithm provided accurate and useful message, and could be applied actually in medical research fields. data mining; multiple class data; optimize rules; odd ratio 10.3969/j.issn.1673-5692.2017.04.006 2017-05-01 2017-07-10 河南省重點(diǎn)科技攻關(guān)項(xiàng)目(152102210155); 河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(17A413014);中原工學(xué)院信息商務(wù)學(xué)院院級科研項(xiàng)目(ky1615) 張新英(1983—),女,河南人,碩士,講師,主要研究方向?yàn)閿?shù)據(jù)挖掘、多傳感器信息融合、非線性濾波; E-mail: zxy_teacher@126.com 付川南(1992—),女,河南人,碩士,助教,主要研究方向?yàn)閿?shù)據(jù)挖掘。 TP311 A 1673-5692(2017)04-359-062 EMMCD算法
3 實(shí)驗(yàn)結(jié)果與分析
4 結(jié) 語