国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

差轉(zhuǎn)計(jì)算算法在連續(xù)型因素上的改進(jìn)與應(yīng)用

2024-03-16 13:38:44包研科
統(tǒng)計(jì)與決策 2024年4期
關(guān)鍵詞:相態(tài)連續(xù)型貢獻(xiàn)度

趙 靜,包研科

(1.黔南民族師范學(xué)院a.數(shù)學(xué)與統(tǒng)計(jì)學(xué)院;b.黔南州工業(yè)自動化與機(jī)器視覺重點(diǎn)實(shí)驗(yàn)室,貴州 都勻 558000;2.遼寧工程技術(shù)大學(xué)理學(xué)院,遼寧 阜新 123000)

0 引言

因素空間(Factor Space)理論是統(tǒng)一描述隨機(jī)性和模糊性本質(zhì)規(guī)律的數(shù)學(xué)理論,與認(rèn)知科學(xué)交互,成為數(shù)據(jù)科學(xué)與智能科學(xué)的基礎(chǔ)理論和概念與知識表達(dá)的普適性框架。汪培莊等(2014)[1]發(fā)起并主導(dǎo)了因素空間在數(shù)據(jù)科學(xué)中的應(yīng)用問題的討論。其間,包研科等(2014)[2]為將因素空間的思想與原理應(yīng)用于多因素決策,克服經(jīng)典的決策樹算法采用“貪心策略”導(dǎo)致的分類節(jié)點(diǎn)不可回溯、某些樹枝對應(yīng)知識的支持度相對較小、知識的可靠性較低、很有可能使推理出來的知識存在系統(tǒng)誤差的問題[3,4],提出了一種被稱為差轉(zhuǎn)計(jì)算(The Set Subtraction and Rotation Calculation,S&R)的多因素決策算法。該算法的決策機(jī)制建立在人腦解決分類問題的認(rèn)知原理之上,在定性因素的多因素分類問題中取得了很好的實(shí)測效果。隨后包研科和茹慧英(2017)[5]在差轉(zhuǎn)計(jì)算算法原理的基礎(chǔ)上,修正了定量因素的決定度計(jì)算方法,拓展了差轉(zhuǎn)計(jì)算算法的應(yīng)用場景。

自差轉(zhuǎn)計(jì)算算法被提出以來,其原理和方法得到了其他學(xué)者的關(guān)注。劉海濤等(2017)[6]對差轉(zhuǎn)計(jì)算算法進(jìn)行了簡要介紹;汪培莊(2018)[7]較完整地介紹了差轉(zhuǎn)計(jì)算算法原理;劉海濤等(2017)[8]、曲國華等(2017)[9]對因素空間中因素分析法、差轉(zhuǎn)計(jì)算算法、模糊推理和粗糙集推理的異同進(jìn)行了討論;茹慧英和包研科(2017)[10]、曾繁慧和李藝(2017)[11]討論了差轉(zhuǎn)計(jì)算算法在因素約簡問題中的應(yīng)用。部分學(xué)者在分析故障概率和影響因素之間的關(guān)系問題時,借鑒了差轉(zhuǎn)計(jì)算算法的基本概念與原理,提出相應(yīng)的知識挖掘算法[12—14]。趙夢輝(2016)[15]和李順鑫等(2018)[16]在安全系統(tǒng)評價問題的研究中,在分類算法相關(guān)研究中,對差轉(zhuǎn)計(jì)算算法的算法原理和過程進(jìn)行了較為具體的驗(yàn)證。呂子鋒(2018)[17]在基于擇近原則的圖像識別方法研究中對差轉(zhuǎn)計(jì)算算法的概念與思想亦有所借鑒。

差轉(zhuǎn)計(jì)算算法是一種基于認(rèn)知本體論的數(shù)據(jù)挖掘算法,已有研究[4,5,10]表明,該算法在定性變量樣本集上對推理知識的挖掘和泛化性能要優(yōu)于在定量變量的樣本數(shù)據(jù)集上的性能。本文在文獻(xiàn)[4,5]的基礎(chǔ)上,針對差轉(zhuǎn)計(jì)算算法在利用連續(xù)型因素進(jìn)行決策時知識的可靠性低、泛化效果差和泛化過程存在一定判別風(fēng)險的問題,在概率論與數(shù)理統(tǒng)計(jì)、因素空間理論背景下,結(jié)合差轉(zhuǎn)計(jì)算算法原理,提出適用于差轉(zhuǎn)計(jì)算算法的連續(xù)型數(shù)據(jù)離散化方法,同時定義了累積決定度、相對貢獻(xiàn)度用于描述推理知識的可信賴程度,并將本文所提離散化方法與差轉(zhuǎn)計(jì)算算法結(jié)合后應(yīng)用于惡性腫瘤智能輔助診斷中。

1 差轉(zhuǎn)計(jì)算算法基本概念和原理以及離散化策略的提出

1.1 基本概念與原理

為方便理解,現(xiàn)對涉及的基本概念進(jìn)行說明。

問題研究過程中所有研究對象構(gòu)成的可列集合稱為研究論域,簡稱論域,記為,其中,ui為第i個研究對象。稱描述論域中研究對象ui的某一特征或表現(xiàn)的指標(biāo)為因素,記為f。根據(jù)因素空間理論,論域U與因素f之間具有如下關(guān)系:

定義1:?ui?U(i=1,2,…,n),存在特征di,使得di=f(ui),若記由di構(gòu)成的集合為If={di|?ui?U,di=f(ui)},則稱If為因素f的相空間。

因素f是論域U到相空間If的滿映射,且特征di在應(yīng)用過程中存在空置(di為缺失值)的可能,因素空間理論中的缺失值是一種特殊值,對其的處理過程參閱文獻(xiàn)[10]。

S&R算法以監(jiān)督數(shù)據(jù)集為操作對象,稱監(jiān)督數(shù)據(jù)中標(biāo)簽數(shù)據(jù)對應(yīng)的指標(biāo)為結(jié)果因素,一般記為g;稱除結(jié)果因素外的其他指標(biāo)為條件因素。S&R 算法以因素為認(rèn)知工具,推理知識的提取由條件因素與結(jié)果因素在論域內(nèi)形成的等價類確定,這個等價類由如下定義描述:定義2:設(shè)存在映射,滿足,則稱為因素f的回?溯。

其中,[d]f是對象ui經(jīng)f在論域中構(gòu)成的等價類;U/f是以[d]f為元素的商集。若設(shè)If={d1,d2,…,ds},s≤n,則有回溯是因素的廣義逆映射[5]。

定義3:設(shè)i為U中第i個對象ui的順序號,集合K={}i為U的秩序集。A是U中任意的含有s個對象的一般等價類,記K(A)={i1,i2,…,is}為A的秩序子集,并稱為A的表征,記為Rf(A) 。

注意,在定義3中,一般等價類A?U/f,因此f(A) 可能是多值的。僅當(dāng)A?U/f時,f(A) 是單值的。

在處理多因素決策問題形成推理知識的過程中,下面幾個概念發(fā)揮著關(guān)鍵的作用。

定義4:設(shè)f、g是定義在論域U上的因素,稱為等價類[s]g在f上的蹤影。

蹤影的概念描述的是將結(jié)果因素g的分類信息投射到條件因素f上的結(jié)果。

下面以圖示的方法直觀說明前述定義所描述的概念及關(guān)系,假定對因素f的相態(tài)排序后形成圖1。

圖1 概念關(guān)系示意圖

決策討論的是論域中對象的歸屬問題,因素表征決策信息,提供決策參考,基于因素特征回到論域中進(jìn)行討論是S&R算法的基本思想。因此,圖1中決策的本體關(guān)系是,而推理知識的形成以因素f為工具,知識表達(dá)蘊(yùn)含在集合包含關(guān)系中,由此可誘導(dǎo)出決策推理知識為:若因素f的相態(tài)為t,則其結(jié)果為i。

基于前述內(nèi)容,總結(jié)S&R算法的知識挖掘步驟,如圖2所示。

圖2 S&R算法流程圖

由此可以發(fā)現(xiàn),S&R算法能反復(fù)使用條件因素進(jìn)行知識挖掘,這與決策樹知識挖掘過程有較大不同;同時,S&R算法收斂以刪空數(shù)據(jù)集或最大決定度為0 為準(zhǔn)則。但S&R算法存在兩個問題:一是連續(xù)型因素泛化效果差。根據(jù)文獻(xiàn)[18]中指出的“適度概括”原理,離散型因素適度概括性優(yōu),具有較高決策能力,因此知識泛化性好;連續(xù)型因素的測量存在不可逾越的截?cái)嘈?yīng),其相態(tài)本質(zhì)上是一個模糊截集表征數(shù),概括性劣,信息“粒度”小,導(dǎo)致知識泛化性差。二是推理知識存在風(fēng)險。由圖1可知,由包含關(guān)系誘導(dǎo)出的知識并未囊括結(jié)果出現(xiàn)的唯一性,易導(dǎo)致知識泛化過程存在一定的判別風(fēng)險。但包含關(guān)系誘導(dǎo)出的決策準(zhǔn)則(定義6)和知識是基于統(tǒng)計(jì)信息得到的結(jié)論,具有一定程度的可靠性。

針對問題一,本文給出一種全新的數(shù)據(jù)離散化方法;針對問題二,本文在定義7、定義8中給出統(tǒng)計(jì)背景下的知識蘊(yùn)含因素可信賴程度計(jì)算方法。

定義7:設(shè)優(yōu)勢因素f對訓(xùn)練集共計(jì)操作m次,稱為因素f的累積決定度。其中,ni為因素f第i次操作時刪除的訓(xùn)練集樣本數(shù),N為訓(xùn)練集樣本總數(shù)。

定義7描述了在整個知識挖掘過程中,因素f對知識集產(chǎn)生的貢獻(xiàn),累積決定度越大,說明因素對知識集的貢獻(xiàn)越大。S&R 算法知識形成過程以因素f為操作工具,利用包含關(guān)系挖掘知識,并表述為“iff=t,theng=i”語句形式,在應(yīng)用中,關(guān)系的發(fā)生是一種概率事件。根據(jù)這個思想和算法步驟,則推理知識“iff=t,th eng=i”的可信賴程度可由定義8描述。

定義8:設(shè)優(yōu)勢因素f對訓(xùn)練集共計(jì)操作m次,稱為相對貢獻(xiàn)度(簡稱貢獻(xiàn)度)。其中,為因素f在第j次操作中刪除對應(yīng)因素g相態(tài)為p時的樣本數(shù),nj為因素f第j次操作時刪除的樣本數(shù)。這個概念描述了知識“iff=*,theng=p”(*代表相態(tài)待定)的可信賴程度。

1.2 連續(xù)型因素離散化算法的提出

針對前述問題一,根據(jù)連續(xù)型因素的本質(zhì)和“適度概括”原理[18],以增加因素概括程度為目標(biāo),提出如下連續(xù)型因素的相空間的離散化方法。離散化的基本思想是將結(jié)果因素的信息反向作用到條件因素上,用結(jié)果因素在條件因素上的蹤影重構(gòu)條件因素的相態(tài)值。

設(shè)D為論域U上的一個容量為n的多因素樣本數(shù)據(jù)集,其中,f是一個連續(xù)型條件因素,g是結(jié)果因素。不失一般性,記Ig={1,2,…,s},則If的離散化過程如下:

(1)在數(shù)據(jù)集D上,按因素f的相態(tài)值升序(降序)擴(kuò)展排序;

(2)記i(k)為因素g的相態(tài)i因f的排序形成的第k個聚集子塊,求i(k)在f上的蹤影;

(4)f相態(tài)離散化重標(biāo)記規(guī)則由導(dǎo)出??傻秒x散化知識為:若,則x=k。其中,。特別地,當(dāng)k=1 時,;當(dāng)k+1=N時,。

上述離散化方法結(jié)果是對If的切割,形成的是對Ig的細(xì)分,若依文獻(xiàn)[4]或文獻(xiàn)[5]的決策準(zhǔn)則,則αf→g≡1,不能提供有效的決策信息。為此,本文修正了決策準(zhǔn)則,見定義6。

2 實(shí)證分析

2.1 數(shù)據(jù)來源及數(shù)據(jù)特征說明

本文數(shù)據(jù)來源于UCI 共享數(shù)據(jù)庫中兩個較為經(jīng)典的惡性腫瘤數(shù)據(jù)集:Wisconsin Breast Cancer Database 和Breast Tissue,分別簡記為WBCD 和BT。數(shù)據(jù)集WBCD 共有699個樣本,包含9類條件因素,條件因素簡稱、類型及值態(tài)范圍見表1。

表1 數(shù)據(jù)集WBCD的條件因素

數(shù)據(jù)集WBCD 有1 個結(jié)果因素,包含2 個相態(tài)benign和malignant,各有458和241個樣本。

文獻(xiàn)[19]和文獻(xiàn)[20]分別采用多曲面分割模式識別算法、概念相似性描述方法對該數(shù)據(jù)集進(jìn)行模式識別,兩種方法均有較高的準(zhǔn)確率,但未形成條件因素對結(jié)果因素之間的可解釋表達(dá)模型。本文認(rèn)為在智能輔助診斷應(yīng)用研究中,更具價值的模型知識是因果結(jié)構(gòu)的,也就是說,條件因素對結(jié)果因素有解釋能力。文獻(xiàn)[21]利用主成分分析法、逐步線性回歸對該數(shù)據(jù)集因素間的關(guān)聯(lián)性和條件因素對結(jié)果因素的解釋能力進(jìn)行了分析,發(fā)現(xiàn)UCSH和UCS是最大載荷因素,即這兩個因素能夠?qū)enign和malignant的識別提供重要的診斷信息。同文獻(xiàn)[19]和文獻(xiàn)[20]相比,文獻(xiàn)[21]提供了更多的輔助診斷知識。

數(shù)據(jù)集BT共有106個樣本,包含9類條件因素和6類結(jié)果因素,其條件因素簡稱、類型及值態(tài)范圍見下頁表2,數(shù)據(jù)集BT包含的結(jié)果因素簡稱及樣本數(shù)見下頁表3。

數(shù)據(jù)集BT 原始數(shù)據(jù)源自文獻(xiàn)[22],文獻(xiàn)[22]利用阻抗譜系統(tǒng)測定了64名接受乳房手術(shù)患者的切除組織樣本在9 個因素下的120 個光譜特征,基于光譜特征數(shù)據(jù)對組織樣本的阻抗特性進(jìn)行了分析。相比文獻(xiàn)[22],文獻(xiàn)[23]采用線性判別方法對數(shù)據(jù)集BT 進(jìn)行模式識別,對惡性腫瘤的有效識別率約達(dá)92%,發(fā)現(xiàn)因素I0、MAXIP和ADA在診斷惡性腫瘤上能夠提供較高價值的輔助診斷信息。

2.2 數(shù)據(jù)預(yù)處理及評估方法說明

(1)數(shù)據(jù)預(yù)處理說明

對WBCD 數(shù)據(jù)集中的缺失值,本文按文獻(xiàn)[10]中的觀點(diǎn)和方法對之進(jìn)行了處理;對WBCD數(shù)據(jù)集存在的所有條件因素相態(tài)一樣、但結(jié)果因素相態(tài)不一樣的樣本,由于其不蘊(yùn)含推理知識,因此本文剔除此類樣本。

對S&R 算法的知識挖掘過程,因數(shù)據(jù)集WBCD 和BT中樣本數(shù)較少,本文對數(shù)據(jù)集的劃分采用如下方法:設(shè)訓(xùn)練集與測試集樣本數(shù)之比為m:n,劃分時按該比例對結(jié)果因素相態(tài)按種類數(shù)進(jìn)行隨機(jī)分層抽樣以劃歸到訓(xùn)練集與測試集中,本文試驗(yàn)中m:n=6:4,7:3,8:2,9:1。

(2)診斷的效果評估方法

為評估模型的診斷效果,本文采用分類準(zhǔn)確率[24]、F1度量[24]、泛化時間[25]、累積決定度和相對貢獻(xiàn)度5個重要指標(biāo)進(jìn)行衡量,并以同為產(chǎn)生式推理算法的決策樹(C4.5)作為對比算法。針對前述的每一種分割比例,重復(fù)100次試驗(yàn),獲取5個評價指標(biāo)的觀測結(jié)果,并報(bào)告均值化結(jié)果。

本文數(shù)據(jù)處理平臺為MATLAB 2016b,S&R 算法為自定義代碼,決策樹算法代碼源自文獻(xiàn)[26]。

2.3 差轉(zhuǎn)計(jì)算的知識挖掘與泛化性能

2.3.1 差轉(zhuǎn)計(jì)算在數(shù)據(jù)集BT上的知識挖掘與泛化性能

由于泛化性能會隨數(shù)據(jù)分割比例的上升而提高,因此本文僅報(bào)告9:1 數(shù)據(jù)劃分比例下的算法知識。在數(shù)據(jù)集BT上算法挖掘的知識如表4所示。

表4 差轉(zhuǎn)計(jì)算在數(shù)據(jù)集BT上挖掘的知識

以表4中第1、2條知識為例,說明知識的意義:第1條規(guī)則為“ifIP?[1563.8,2896.58],theng=Car”;若不滿足第1條規(guī)則,則順次比較第2 條規(guī)則“ifIPA500?[0.2006,0.36],theng=Fad”,以此類推。

由表4 可知,S&R 算法與決策樹最大的不同之處在于,在知識挖掘過程中,S&R算法直接對知識進(jìn)行剪枝處理,知識結(jié)構(gòu)表現(xiàn)為層間有序、層內(nèi)無序的排列圖,結(jié)構(gòu)較決策樹簡單。表4 的知識同文獻(xiàn)[22]相比,S&R 算法的知識更為明確。但對于S&R算法在數(shù)據(jù)集BT上得到的知識的實(shí)用性,還需要乳腺癌診治專業(yè)領(lǐng)域更多的實(shí)證研究。

S&R 算法與決策樹在數(shù)據(jù)集BT 上不同劃分比例下100次實(shí)驗(yàn)的分類準(zhǔn)確率、泛化時間和F1度量均值化結(jié)果對比見圖3。

圖3 數(shù)據(jù)集BT上S&R算法與決策樹泛化性能對比

由圖3(c)可知,S&R算法與決策樹綜合性能持平,由圖3(a)、圖3(b)可知,S&R算法分類準(zhǔn)確率和泛化時間要優(yōu)于決策樹,同時對比結(jié)果表明決策樹性能與劃分比例的關(guān)系不大,而S&R算法受到劃分比例影響,推理知識泛化性能與訓(xùn)練集的結(jié)構(gòu)有較大相關(guān)性。

在數(shù)據(jù)集BT 上及不同劃分比例下,經(jīng)過100 次重復(fù)實(shí)驗(yàn)挖掘出的知識集,其各因素的累積決定度如圖4 所示。

圖4 數(shù)據(jù)集BT上的推理知識中各因素累積決定度帕累托圖

由定義7和圖4可知,因素I0、P及PA500 的累積決定度的累積占比超過80%,其中,在4個比例下,因素I0的累積決定度最高,在0.338 附近波動,決策效用基本穩(wěn)定;因素P累積決定度隨訓(xùn)練集樣本量增加而增加,決策效用逐漸增大;因素PA500累積決定度隨訓(xùn)練集樣本量增加而有所降低。根據(jù)帕累托圖解讀規(guī)則,因素I0、P及PA500構(gòu)成識別惡性腫瘤(Car、Fad、Mas)的主要影響因素,對S&R 算法在該數(shù)據(jù)集上形成推理知識有較高的貢獻(xiàn)。

為更深入分析推理知識在識別惡性腫瘤過程中的可信賴程度,本文統(tǒng)計(jì)了數(shù)據(jù)集BT在不同劃分比例下的100次重復(fù)試驗(yàn)所挖掘出的知識中各因素的相對貢獻(xiàn)度均值結(jié)果,見圖5。

圖5 數(shù)據(jù)集BT上的推理知識中各因素相對貢獻(xiàn)度帕累托圖

分析發(fā)現(xiàn),I0、PA500 和P 是S&R 算法在不同比例下挖掘的用于識別惡性腫瘤推理知識的重要組成因素。在4個比例下,3個因素的累積相對貢獻(xiàn)度在50%以上,即可認(rèn)為以上述3 個因素為組成部分的推理知識在識別惡性腫瘤過程中的可信賴程度為50%。其中:I0的相對貢獻(xiàn)度值最高,在20%左右;但隨劃分比例的上升,因素PA500和P 的相對貢獻(xiàn)度遞增,且因素P 增加幅度較因素PA500 更大,說明因素P 在識別惡性腫瘤過程中的效用逐漸增強(qiáng)。因此,有理由認(rèn)為因素I0、PA500 和P 是識別惡性腫瘤的高價值參考因素。這個結(jié)論與文獻(xiàn)[22]稍有出入,但S&R算法知識更具可解釋性,關(guān)于診斷惡性腫瘤的主要參考因素還需腫瘤診治領(lǐng)域更多的實(shí)證研究。

2.3.2 差轉(zhuǎn)計(jì)算在數(shù)據(jù)集WBCD上的知識挖掘與泛化性能

在數(shù)據(jù)集WBCD上算法挖掘的知識如表5所示。

表5 差轉(zhuǎn)計(jì)算算法在數(shù)據(jù)集WBCD上挖掘的知識

S&R 算法與決策樹在數(shù)據(jù)集WBCD 上不同劃分比例下100次重復(fù)實(shí)驗(yàn)的分類準(zhǔn)確率、泛化時間和F1度量均值化結(jié)果對比見圖6。

圖6 數(shù)據(jù)集WBCD上S&R算法與決策樹泛化性能對比

在數(shù)據(jù)集WBCD 上,由圖6(a)可知,S&R 算法在分類準(zhǔn)確率上的表現(xiàn)較決策樹更好,在泛化時間上不如決策樹,但隨訓(xùn)練數(shù)據(jù)量增加,S&R算法泛化時間逐漸遞減,而決策樹泛化時間有增加趨勢;從綜合性能指標(biāo)F1 度量來看,S&R 算法與決策樹綜合性能相當(dāng)。綜合圖6 來看,兩個算法均受到了數(shù)據(jù)集劃分比例的影響。

在數(shù)據(jù)集WBCD上不同劃分比例下,經(jīng)過100次重復(fù)實(shí)驗(yàn)挖掘出的知識集中,各因素的累積決定度如圖7 所示。

圖7 數(shù)據(jù)集WBCD上各因素的累積決定度帕累托圖

根據(jù)圖7,在S&R算法在數(shù)據(jù)集WBCD上形成推理知識的過程中,不同因素的知識貢獻(xiàn)度存在波動,貢獻(xiàn)較為穩(wěn)定的因素有USC、CT、BN和BC,其累積決定度波動均值及波動大小見表6。

由上述結(jié)果可知,4個因素對知識的貢獻(xiàn)度在75%左右。其中:因素CT累積決定度隨訓(xùn)練數(shù)據(jù)量增加而遞增,因素UCS、BN對知識的貢獻(xiàn)更為穩(wěn)定,因受到劃分比例影響,BC 的信息具有較小的參考價值;此外,貢獻(xiàn)度較大的因素還有MA 及UCSH,但這兩個因素受分割比例影響較大,貢獻(xiàn)極其不穩(wěn)定。根據(jù)帕累托圖的解讀規(guī)則,本文認(rèn)為因素USC、CT、BN、BC 和UCSH 對S&R 算法在數(shù)據(jù)集WBCD上形成推理知識有較高的貢獻(xiàn)。

S&R 算法在數(shù)據(jù)集WBCD 上的推理知識受不同劃分比例的影響較大,關(guān)注推理知識對識別benign的可信賴程度,圖8統(tǒng)計(jì)了數(shù)據(jù)集WBCD在不同劃分比例下的100次重復(fù)試驗(yàn)所挖掘出的知識中各因素的相對貢獻(xiàn)度均值結(jié)果。

圖8 數(shù)據(jù)集WBCD上各因素相對貢獻(xiàn)度帕累托圖

由圖8 可知,在對形成推理知識有較大貢獻(xiàn)的因素USC、CT、BN、BC 和UCSH 中,包含因素CT、UCS、UCSH 的推理知識對識別benign 的相對貢獻(xiàn)度分別約為2.3%、3.7%、8.1%,說明因素CT、USC 和UCSH 對識別數(shù)據(jù)集WBCD的結(jié)果因素相態(tài)malignant更具優(yōu)勢,在診斷中可用于對惡性腫瘤癥狀的排除。

表7反映了在能識別benign的推理知識中,具有較大相對貢獻(xiàn)度的因素的相對貢獻(xiàn)度占總相對貢獻(xiàn)度的比例。

表7 BN、NN、BC及MA的相對貢獻(xiàn)度占比

由前述圖表可知,因素NN 的相對貢獻(xiàn)度占比最大,且隨訓(xùn)練集樣本量的增加,包含該因素的推理知識識別benign 的可信賴程度逐漸提升;而隨著訓(xùn)練數(shù)據(jù)量的增加,包含因素BN、MA和BC的推理知識識別benign的可信賴程度逐漸下降。此外,因素SECZ 對識別兩類結(jié)果因素相態(tài)不具備突出貢獻(xiàn)。綜上,根據(jù)帕累托圖的解讀規(guī)則,本文認(rèn)為在數(shù)據(jù)集WBCD 包含的9 個因素中,除SECZ 外的其他因素是區(qū)分benign和malignant的主導(dǎo)性因素,此結(jié)論與文獻(xiàn)[19]和文獻(xiàn)[20]中所描述的“沒有單獨(dú)的特征指標(biāo)來區(qū)分benign、malignant”存在差異;與文獻(xiàn)[21]的研究結(jié)論有較大差別。

S&R 算法與決策樹和文獻(xiàn)[21]中的模型相比,使用更便捷,知識更具可解釋性。

3 結(jié)論

為解決S&R算法在連續(xù)型數(shù)據(jù)下挖掘出的推理知識可靠性低、知識泛化效果差和泛化過程存在一定判別風(fēng)險的問題,本文提出了連續(xù)型數(shù)據(jù)的離散化方法,并構(gòu)造累積決定度、相對貢獻(xiàn)度用于度量推理知識的可信賴程度。將離散化方法同S&R算法融合,以決策樹作為對比算法,在UCI 共享數(shù)據(jù)庫中兩個較為經(jīng)典的惡性腫瘤數(shù)據(jù)集上進(jìn)行實(shí)證分析,結(jié)果顯示:本文所提離散化方法是有效的,融合后的模型能提升知識泛化效果,綜合性能與決策樹相當(dāng),但知識結(jié)構(gòu)更為簡單;根據(jù)構(gòu)造的累積決定度指標(biāo)能發(fā)現(xiàn)知識形成過程中貢獻(xiàn)較大的因素,根據(jù)相對貢獻(xiàn)度能度量推理知識的可信賴程度。

猜你喜歡
相態(tài)連續(xù)型貢獻(xiàn)度
自變量分段連續(xù)型Volterra積分微分方程的配置法
充分把握教育對經(jīng)濟(jì)社會發(fā)展的貢獻(xiàn)度
基于貢獻(xiàn)度排序的腎透明細(xì)胞癌串?dāng)_通路分析
連續(xù)型美式分期付款看跌期權(quán)
SBS改性瀝青相態(tài)結(jié)構(gòu)的參數(shù)化表征方法
四川省降水相態(tài)識別判據(jù)研究
PS/PLA共混物的相態(tài)結(jié)構(gòu)及其發(fā)泡行為研究
中國塑料(2015年4期)2015-10-14 01:09:21
需求側(cè)資源促進(jìn)可再生能源消納貢獻(xiàn)度綜合評價體系
基于晶圓優(yōu)先級的連續(xù)型Interbay搬運(yùn)系統(tǒng)性能分析
關(guān)于二維連續(xù)型隨機(jī)變量函數(shù)分布的推廣和運(yùn)算
曲麻莱县| 中宁县| 固镇县| 博客| 华蓥市| 乡城县| 廉江市| 濮阳县| 苍山县| 武城县| 新源县| 扶沟县| 舟曲县| 深州市| 溆浦县| 丘北县| 瑞丽市| 三穗县| 静宁县| 通辽市| 南平市| 漳平市| 芜湖县| 土默特左旗| 临湘市| 磐安县| 昌江| 巴塘县| 逊克县| 工布江达县| 柳州市| 交城县| 台江县| 泗洪县| 大新县| 永昌县| 东至县| 谷城县| 道孚县| 清远市| 驻马店市|