陳 帥 ,張賢勇 ,唐玲玉 ,姚岳松
(1.四川師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院,成都,610066;2.四川師范大學(xué)智能信息與量子信息研究所,成都,610066)
信息理論能夠有效實施不確定表示與應(yīng)用[1],已經(jīng)被系統(tǒng)地引入粗糙集進(jìn)行數(shù)據(jù)分析與智能處理。例如,文獻(xiàn)[2-5]采用香農(nóng)熵、粗糙熵和加權(quán)熵等體系進(jìn)行不確定性刻畫與約簡算法啟發(fā)。特別地,文獻(xiàn)[6]基于互補(bǔ)機(jī)制提出互補(bǔ)信息體系,相關(guān)不確定性度量包括互補(bǔ)熵、互補(bǔ)條件熵和互補(bǔ)互信息,它們刻畫了粗糙性與模糊性。繼而,文獻(xiàn)[7]以互補(bǔ)條件熵為啟發(fā)式信息,構(gòu)建基于正域的屬性約簡算法;文獻(xiàn)[8]基于三層粒度結(jié)構(gòu),構(gòu)建三支加權(quán)互補(bǔ)熵體系?;パa(bǔ)信息度量采用的互補(bǔ)刻畫p(1-p)區(qū)別于香農(nóng)信息度量的對數(shù)刻畫-plog2p,但兩者具有一些共同特征(如函數(shù)上凸非單調(diào)),進(jìn)而也存在一定相似性(如度量系統(tǒng)關(guān)系)。對比于香農(nóng)信息體系,互補(bǔ)信息系統(tǒng)能夠有效刻畫粗糙集的模糊性[6]??梢?,互補(bǔ)信息度量具有獨特的不確定性刻畫優(yōu)勢,但其研究還相對較少,相關(guān)的深入與拓展具有創(chuàng)新價值。
粗糙集具有雙向逼近認(rèn)知,能夠進(jìn)行知識約簡與特征選擇,廣泛應(yīng)用于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等領(lǐng)域。傳統(tǒng)粗糙集主要采用等價關(guān)系與知識剖分,相關(guān)數(shù)值型數(shù)據(jù)處理往往需要離散化。鄰域粗糙集引入鄰域關(guān)系與覆蓋結(jié)構(gòu),具有理論擴(kuò)張性與應(yīng)用魯棒性,能夠有效處理符號型數(shù)據(jù)、數(shù)值型數(shù)據(jù)乃至混合型數(shù)據(jù)。鄰域粗糙集的不確定性度量與屬性約簡得到了廣泛研究[9-15]。特別地,文獻(xiàn)[16]建立基于對數(shù)函數(shù)-log2p的信息體系(包括鄰域熵、鄰域條件熵和鄰域互信息);文獻(xiàn)[17]用鄰域互信息進(jìn)行特征選擇與多標(biāo)簽學(xué)習(xí);文獻(xiàn)[18]提出鄰域精度、鄰域熵、信息粒度及相關(guān)?;瘑握{(diào)性;文獻(xiàn)[19]建立一種模糊熵來度量鄰域粗糙集的不確定性;文獻(xiàn)[20]采用鄰域熵及其發(fā)展度量進(jìn)行離群點檢測。總之,鄰域粗糙集尚未涉及互補(bǔ)信息度量體系,相關(guān)的構(gòu)建具有應(yīng)用意義。
基于上述背景,本文擬將經(jīng)典互補(bǔ)信息度量推廣到鄰域粗糙集,并研究相關(guān)的啟發(fā)式屬性約簡?;卩徲驍U(kuò)張,具體構(gòu)建鄰域互補(bǔ)熵、鄰域互補(bǔ)條件熵和鄰域互補(bǔ)互信息,研究基本性質(zhì);基于鄰域互補(bǔ)互信息及其?;菃握{(diào)性,設(shè)計屬性約簡及其啟發(fā)算法。研究結(jié)果被決策表實例與UCI 數(shù)據(jù)實驗有效驗證,并有利于基于鄰域粗糙集的不確定性信息處理。
本節(jié)利用文獻(xiàn)[6,8]與文獻(xiàn)[16,21]分別回顧經(jīng)典互補(bǔ)信息度量與鄰域系統(tǒng)。
決策表為四元組DT=(U,AT=C∪D,V,f),U為有限論域,C,D分別為條件、決策屬性集,V=∪a∈AT Va(Va是屬性a∈AT的值域),信息函數(shù)f:U×AT→V具有 ?x∈U,?a∈AT,f(x,a)∈Va。設(shè)條件屬性子集A?C誘導(dǎo)知識劃分決策屬性集D誘導(dǎo)決策分類 };設(shè)?C=U-?表示補(bǔ)集,例如。
定義1[6,8]A?C的互補(bǔ)熵、D相對于A的互補(bǔ)條件熵、A與D之間的互補(bǔ)互信息分別為
定理1[6,8]互補(bǔ)熵、互補(bǔ)條件熵、互補(bǔ)互信息滿足如下系統(tǒng)方程
式中
定 理 2[6,8]若U/IND(A)≥U/IND(B)( 即 ? [x]B∈U/IND(B),?[x]A∈U/IND(A),s.t.[x]B? [x]A),則
定義1 提供了經(jīng)典互補(bǔ)信息體系,其涉及補(bǔ)集描述與概率形式(如即其采用對稱二次函數(shù)p(1-p)替換經(jīng)典的非對稱對數(shù)函數(shù)-plog2p進(jìn)行信息集成,從而成為一種新型不確定性度量,互補(bǔ)熵刻畫條件知識結(jié)構(gòu)的不確定性,互補(bǔ)條件熵與互補(bǔ)互信息描述條件結(jié)構(gòu)與決策結(jié)構(gòu)之間的信息關(guān)系,相關(guān)體系可以度量粗糙性與模糊性等不確定性[6]。 事 實 上 ,U/IND(A)與U/IND(D)具 有 關(guān) 于 等 價 劃 分 的 平 等 性 ,故 定 理 1 中 出 現(xiàn) 的H(D),HC(A|D)分別對稱于定義1 中的H(A),HC(D|A);進(jìn)而,定理1 提供5 種互補(bǔ)信息度量的系統(tǒng)方程。定理2 則表明互補(bǔ)信息系統(tǒng)具有?;瘑握{(diào)性,其中的?;P(guān)系U/IND(A)≥U/IND(B)可由A?B實 現(xiàn) 。
鄰域粗糙集是經(jīng)典粗糙集的拓展,其基礎(chǔ)為鄰域系統(tǒng)[16,21]。對決策表DT,設(shè)A={c1,…,cn}?C,則其對應(yīng)距離函數(shù)可 以 誘 導(dǎo) 鄰 域 關(guān) 系NRA={(x,y)∈U×與 鄰 域 覆 蓋表示n個鄰域。
定 理 3[16,21](1)若δ1≤δ2, 則 ?x∈U有若δ=0, 則(x)=[x]A。 (2)若A?B,則 ?x∈U有(x)(此時也記U/NRA≥U/NRB)。
鄰域依托其覆蓋結(jié)構(gòu)為鄰域粗糙集奠定了粒計算基礎(chǔ)。基于定理3,鄰域具有參數(shù)單調(diào)性,δ=0導(dǎo)致退化,即鄰域粒退化到等價類且鄰域粗糙集退化到經(jīng)典粗糙集;此外,鄰域還具有關(guān)于屬性子集關(guān)系的單調(diào)性,這為相關(guān)?;瘑握{(diào)性奠定了基礎(chǔ)。
經(jīng)典互補(bǔ)信息度量[6,8]適用于經(jīng)典粗糙集。針對擴(kuò)張的鄰域粗糙集,本節(jié)自然定義鄰域互補(bǔ)信息度量, 以實施度量擴(kuò)張與拓展應(yīng)用。 下面主要針對決策表DT及其鄰域覆蓋U/NRA={(x)i|i∈ 1,…,n}與決策分類U/IND(D)={Dj|j∈ 1,…,m}。
定義2A?C的鄰域互補(bǔ)熵、D關(guān)于A的鄰域互補(bǔ)條件熵、A與D之間的鄰域互補(bǔ)互信息分別為本文采用p=1 的Manhattan 距離函數(shù)。加上 半 徑 參 數(shù)δ,則x的 領(lǐng) 域
定理4若δ=0,則NHδ(A)=H(A),NHCδ(D|A)=HC(D|A),NMIδ(D;A)=MI(D;A)。
定義2 的鄰域互補(bǔ)信息度量模擬了定義1 的經(jīng)典互補(bǔ)信息度量,主要將知識劃分U/IND(A)拓展替換為鄰域覆蓋U/NRA(即等價類換為鄰域(x)i。這種基于解析式的拓展方案,比較自然也更為穩(wěn)妥。由此,鄰域互補(bǔ)信息度量具有擴(kuò)張性(定理4)。3 種鄰域度量具有類似于經(jīng)典互補(bǔ)熵的不確定性語義,但代替地使用鄰域覆蓋結(jié)構(gòu)。為了有利于鄰域覆蓋結(jié)構(gòu)的近似推理,它們具體采用鄰域粒不重復(fù)計數(shù)機(jī)制,這區(qū)別于元素誘導(dǎo)的鄰域可重復(fù)機(jī)制[16]。此外,定義2 也提供了補(bǔ)集描述與等價本質(zhì)兩種形式。下面模擬確定NHδ(A),NHCδ(D|A)的對稱度量NHδ(D)A,NHCδ(A|D),并發(fā)展系統(tǒng)關(guān)系。
命題1鄰域互補(bǔ)熵具有等價“雙和形式”
證明由式(5)與U/IND(D)的剖分性有
命題2,若δ=0 時等號成立。
證明由式(3)與U/NRA的覆蓋性,類似于命題1 的證明過程有
其中覆蓋U/NRA退化為劃分U/IND(A)時(此時δ=0),上述等號成立。
定理5 采用類似于NHδ(A)(式(6))與NHCδ(D|A)(式(5))的“雙和形式”,設(shè)置符號
則鄰域互補(bǔ)熵、鄰域互補(bǔ)條件熵和鄰域互補(bǔ)互信息滿足如下系統(tǒng)方程
證明(1)注意到具有兩剖分部分由式(6,7)有
(2)由式(6,7)有
命題1 提供鄰域互補(bǔ)熵NHδ(A)的“雙和形式”。命題2 涉及的“雙和形式”類似且對稱于NHδ(A)的,但其不同于且不小于H(D),這是因為覆蓋U/NRA替換了劃分U/IND(A)。由此,定理5 提取命題2“雙和形式”形成新符號NHδ(D)A,其依賴于A從而區(qū)別于只依賴于D的H(D);此外,定理5 還提供了NHCδ(A|D)??梢?,NHδ(D)A與NHδ(A)具有在“雙和層面"的粒交換性,而NHCδ(A|D)與NHCδ(D|A)具有集差換序。從而,定理5 證明并表現(xiàn)了鄰域互補(bǔ)信息度量的系統(tǒng)關(guān)系,其對應(yīng)經(jīng)典互補(bǔ)信息度量的系統(tǒng)關(guān)系(式(2))。由此,下述推論1 補(bǔ)充了NHδ(D)A,NHCδ(A|D)對于H(D),HC(A|D)的擴(kuò)張性,還揭示了NMIδ(D;A)≠H(D)-NHCδ(D|A)的擴(kuò)張?zhí)禺愋?。由此定理所? 值條件容易檢驗。
推論1(1)若δ=0,則NHδ(D)A=H(D),NHCδ(A|D)=HC(A|D)。
(2)NHδ(D)A≥H(D),NMI(D;A)≥H(D)-NHCδ(D|A),若δ=0 時等號成立。
定 理 6U/NRA?U/IND(D)(即的 充分必要條件是NHCδ(D|A)=0。
證明(1)若U/NRA?U/IND(D),則即 有因 此 由 式 (5)有NHCδ(D|A)=0。 (2)反 設(shè)NHCδ(D|A)=0,但U/NRA?U/IND(D)。 此 時 ,?i*∈{1,…,n},j*∈因 此 , 由 式 (5)有該矛盾意味著充分性成立。
推 論 2U/NRA?U/IND(D)等 價 于NMIδ(D;A)=NHδ(D)A,NHδ(A)=NHCδ(A|D)+NHδ(D)A。
定理7(1)NHδ(A)∈[0,|U|/4],且U/NRA={U}?NHδ(A)=0。
(2)NHCδ(D|A)∈[0,|U|],且U/NRA?U/IND(D)?NHCδ(D|A)=0。
(3)NMIδ(D;A)∈[0,|U|],且U/NRA={U}?NMIδ(D;A)=0。
證明(1)0 是顯然的,且可由U/NRA={U}取得。
(2)由式(5)有
由此定理所述0 值條件容易檢驗。
推論3H(A),HC(D|A),MI(D;A)都具有雙界范圍[0,1]。
定理6(及推論2)提供了?;瘲l件U/NRA?U/IND(D)的信息描述,這有利于覆蓋?;囊蕾囃评?。定理7 提供了NHδ(A),NHCδ(D|A),NMIδ(D;A)的雙界及其下確界0 取得情形?;谧C明式(9),NHCδ(D|A),NMIδ(D;A)通過“雙和形式”放縮,從而獲得上界 |U|;類似地,NHδ(A)也可以采用“雙和形 式 ”(式 (6))得 到 相 同 上 界 |U|。 若 覆 蓋U/NRA退 化 為 劃 分U/IND(A)時 (此 時δ=0),式 (9)中則上界|U|皆可以降低到1,故推論3 描述了退化的經(jīng)典互補(bǔ)度量情形。此外,NH(A)δ采用“單和形式”及拋物函數(shù)p(1-p)最大值1/4 來提供上界|U|/4,其通常小于上述上界|U|。進(jìn)而,相關(guān)的更小上界乃至上確界值得探討。
表1 實例決策表Table 1 Instance decision table
不確定性度量的?;瘑握{(diào)性或非單調(diào)性是信息應(yīng)用的一個重要特性[2,3,15],決定著屬性約簡的定義構(gòu)造與算法啟發(fā)。定理2 表明,經(jīng)典互補(bǔ)信息度量具有?;瘑握{(diào)性。本小節(jié)闡述鄰域互補(bǔ)信息度量基于擴(kuò)張變異的?;菃握{(diào)性。下面首先通過一個實例來計算信息值并提供非單調(diào)事實。
例 1決策 表DT如表 1,其中U/IND(D)={D1={x1,x2,x4,x5},D2={x3,x6,x7}}。
基于Manhattan 距離與半徑δ=0.5,可以構(gòu)建鄰域體系。為了研究?;?,下面聚焦自然屬性增鏈:{c1}?{c1,c2}?{c1,c2,c3}?{c1,c2,c3,c4}?{c1,c2,c3,c4,c5}(鏈元屬性集用A統(tǒng)一表示)。表2 提供相關(guān)鄰域及覆蓋。再由式(5,7),表3 提供所有5 種鄰域互補(bǔ)信息度量值。作為例子,鏈元{c1,c2,c3}的前3 個度量計算過程為:
表2 基于屬性增鏈的鄰域及覆蓋Table 2 Neighborhood and coverage based on attribute chaining
表3 基于屬性增鏈的鄰域互補(bǔ)信息度量Table 3 Neighborhood complementary information metric based on attribute chaining
基于表3 結(jié)果,首先可以檢驗系統(tǒng)式(8),即表3 中第(3)個度量值等于第(4)與(2)的度量值的差,也等于第(1)與(5)的度量值的差。此外當(dāng)A取 {c1,c2}或{c1,c2,c3}時不等號為嚴(yán)格大于;可見,NHδ(D)A依賴于A從而不同于只依賴于D的常值H(D),進(jìn)而NMIδ(D;A)≠H(D)-NHCδ(D|A)(推論1)。最后聚焦?;菃握{(diào)性。伴隨屬性增鏈的覆蓋細(xì)化,這5 種度量都呈現(xiàn)“先增大后減少”趨勢,該波動充分說明了所有度量的粒化非單調(diào)性。關(guān)于屬性增鏈,雖然單元素具有鄰域細(xì)化(即 ?x∈U有但覆蓋在“脫離元素追蹤”與“去除粒重復(fù)”后呈現(xiàn)對應(yīng)變化的復(fù)雜性,比如覆蓋粒數(shù)具有波動:|U/NR{c1}|=1<|U/NR{c1,c2}|=5 <|U/NR{c1,c2,c3}|=6 > |U/NR{c1,c2,c3,c4}|=5 < |U/NRC|=7。
定理8設(shè)U/NRA?U/NRB,則同類型的鄰域互補(bǔ)信息度量在A與B上的大小關(guān)系是不確定的,即以下5 組度量無必然的大小關(guān)系:
(1)NHδ(A)與NHδ(B);(2)NHCδ(D|A)與NHCδ(D|B);(3)NMIδ(D;A)與NMIδ(D;B);(4)NHδ(D)A與NHδ(D)B;(5)NHCδ(A|D)與NHCδ(B|D)。
基于例1 的事實支撐,定理8 自然提供5 種鄰域互補(bǔ)信息度量的粒化非單調(diào)性。主要分析前面3 種重要度量的相關(guān)機(jī)制。事實上,度量的覆蓋刻畫具有對分類刻畫的拓展性并利于后續(xù)近似推理,但直接的鄰域粒變化具有復(fù)雜性,這在很大程度上誘導(dǎo)了相關(guān)的?;淮_定性。
(1)基于式(5),鄰域互補(bǔ)熵的“單和內(nèi)部”涉及上凸拋物函數(shù)p(1-p),其先增后減并在p=0.5 處取得 最 大 值 0.25。 當(dāng)U/NRA?U/NRB時 ,有(x)( 定 理 3),因 此 ?x∈U有但 無 法 確 定p((x)))的大小關(guān)系。后續(xù)覆蓋細(xì)化也具有不確定性,因此NHδ(A)與NHδ(B)無必然大小關(guān)系。
(2)類似地,當(dāng)U/NRA?U/NRB時,領(lǐng)域互補(bǔ)條件熵“雙和內(nèi)部”具有信息減少的確定趨勢:但在后續(xù)求和中信息具有增加的可能性,因為B的鄰域粒數(shù)可以更多。最終,NHCδ(D|B)對比NHCδ(D|A)的大小關(guān)系還是無法確定。
(3)當(dāng)U/NRA?U/NRB時,領(lǐng)域互補(bǔ)互信息的“雙和內(nèi)部”具有與這兩種相反方向的確定性導(dǎo)致兩種因子乘積大小的不確定性。此外,“雙求和”粒數(shù)目仍然是一個不確定問題,因此也無法最終確定NMIδ(D;A)與NMIδ(D;B)的大小關(guān)系。
基于相關(guān)的不確定性語義,鄰域互補(bǔ)熵和鄰域互補(bǔ)條件熵、鄰域互補(bǔ)互信息都可以被利用于屬性約簡構(gòu)建。針對決策表,考慮到鄰域互信息能夠有效度量從條件屬性到?jīng)Q策屬性的信息量與依賴度,故本節(jié)主要采用該測度來構(gòu)建啟發(fā)式屬性約簡?;诹;菃握{(diào)性(定理8),這里采用文獻(xiàn)[15]的約簡策略與算法思路,其主要追求更高互信息量。
定義3基于決策表DT,R?C稱為C的一個約簡,若(1)NMIδ(D;R)≥NMIδ(D;C);(2)?r∈R,NMIδ(D;R-{r})<NMIδ(D;R)。
定義4屬性a∈A,a∈(C-A)關(guān)于A的內(nèi)部、外部重要度分別為sigin(a,A,D)=NMIδ(D;A)-NMIδ(D;A-{a});sigout(a,A,D)=NMIδ(D;A∪{a})-NMIδ(D;A)。
這里的約簡追求更優(yōu)的鄰域互補(bǔ)互信息,定義3 中的兩條分別描述相關(guān)的“聯(lián)合充分性”與“獨立必要性”。內(nèi)重要度sigin(a,A,D)表示在A中刪除屬性a產(chǎn)生的關(guān)于鄰域互補(bǔ)互信息的信息減量,而外重要度sigout(a,A,D)表征在A上增加屬性a產(chǎn)生的信息增量,兩者提供了快速約簡的屬性選擇機(jī)制。若NMIδ(D;C-{c})<NMIδ(D;C),此時有 sigin(c,C,D)> 0,即c關(guān)于C是重要的,因此可以構(gòu)建C的重要屬性子集。類似地,sigout(a,R,D)>0 說明a關(guān)于R是重要的,因此可以選擇最大外重要度的對應(yīng)屬性加入R以實施快速更新。下面采用這兩種重要度來設(shè)計一個啟發(fā)式搜索算法,以快速得到一個約簡。
算法1基于鄰域互補(bǔ)互信息的屬性約簡啟發(fā)算法
輸入 決策表DT、鄰域半徑δ;
輸出 基于鄰域互補(bǔ)互信息的屬性約簡R。
Step 1設(shè)置R=?;
Step 2?ci∈C,計算 sigin(ci,C,D),若 sigin(ci,C,D)> 0,則實施更新R←R∪{ci};
Step 3計算鄰域互補(bǔ)互信息NMIδ(D;R)與NMIδ(D;C),若NMIδ(D;R)≥NMIδ(D;C),則進(jìn)入第5 步,否則進(jìn)入第4 步;
Step 4?a∈(C-R),計 算 sigout(a,R,D),并 選 擇 外 部 屬 性 重 要 度 最 大 的 屬 性a?,進(jìn) 行 更 新R←R∪{a?},并進(jìn)入步驟 3;
Step 5?ri∈R,若NMIδ(D;R-{ri})≥NMIδ(D;R),則進(jìn)行更新R←R-{ri};
Step 6返回R。
算法1 優(yōu)化了文獻(xiàn)[15]的非單調(diào)算法結(jié)構(gòu),并主要采用鄰域互補(bǔ)互信息及其屬性重要度進(jìn)行啟發(fā)式快速搜索。步驟1 進(jìn)行初始化。步驟2 基于內(nèi)重要度啟發(fā),搜索C中所有重要屬性并循環(huán)加入R。步驟3 是1 個評估過程,若R不滿足約簡第1 條,則進(jìn)入步驟4,選取最大外重要度的屬性進(jìn)行快速的循環(huán)更新;(最終)滿足第1 條,再利用步驟3 進(jìn)入步驟5。步驟5 循環(huán)刪除冗余屬性。由此,步驟6 輸出結(jié)果。該算法能夠快速得到一個基于鄰域互補(bǔ)互信息的屬性約簡,相關(guān)時間復(fù)雜度是可行的[15]。
例2基于例1 的決策表及相關(guān)設(shè)置與計算,下面說明算法1 及其有效性。具體地,步驟1 賦值R=?。步驟2 計算C種屬性的內(nèi)重要度
由此,將{c1,c3,c4,c5}4 個重要屬性循環(huán)添加到R中,此時R更新為R={c1,c3,c4,c5}。步驟3 計算有
滿足約簡條件1,故進(jìn)入步驟5。步驟5 實施反向冗余剔除。由
故R剔除c3,保留c1,c4,c5。且R更新為R={c1,c4,c5}。由
故剔除c1,保留c4,c5。且R更新為R={c4,c5}。由
此時,步驟6 輸出最終約簡結(jié)果R={c4,c5}。
本節(jié)實施數(shù)據(jù)實驗來驗證鄰域互補(bǔ)熵、鄰域互補(bǔ)條件熵和鄰域互補(bǔ)互信息的粒化非單調(diào)性,以及基于鄰域互信息的啟發(fā)約簡算法1。具體從UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫(http://archive.ics.uci.edu/ml)選取5 類數(shù)據(jù)集(如表4)。首先采用最大-最小標(biāo)準(zhǔn)化數(shù)據(jù)預(yù)處理,仍用Manhattan 距離函數(shù),鄰域半徑參見表4。
表4 5 類UCI 數(shù)據(jù)集描述Table 4 Description of five categories of UCI data sets
為揭示信息變化,選取自然屬性增鏈{c1}?{c1,c2}?…?C(設(shè)鏈元{c1,…,ck}=(Ak))。針對核心度量NHδ(Ak),NHCδ(D|Ak),NMIδ(D;Ak),表 5 提供了截斷于A13的主體信息值,圖 1 則進(jìn)行全部數(shù)值描繪(其橫坐標(biāo)對應(yīng)Ak的k,3 種度量簡記為NH,NHC,NMI)?;诒?5 分析,結(jié)合圖 1 趨勢,3 種度量的粒化非單調(diào)性均非常明顯,對于基于鄰域互補(bǔ)互信息的啟發(fā)式屬性約簡,算法1 提供如下有效約簡結(jié)果(表 6 左欄)。
表5 5 類數(shù)據(jù)集關(guān)于屬性增鏈的3 種鄰域互補(bǔ)信息值Table 5 Three kinds of neighborhood complementary information values for attribute chaining with five categories of data sets
圖1 5 類UCI 數(shù)據(jù)集關(guān)于屬性增鏈的3 種鄰域互補(bǔ)信息的非單調(diào)變化Fig.1 Non-monotonic changes in complementary information of three neighborhoods of attribute-added chain in five categories of UCI data sets
本文度量與算法最相關(guān)于文獻(xiàn)[15],為了相關(guān)對比,補(bǔ)充了文獻(xiàn)[15]的信息熵值及算法的數(shù)據(jù)實驗,仍然基于表4 的5 類數(shù)據(jù)集?;谙嚓P(guān)實驗結(jié)果,文獻(xiàn)[15]基于屬性增鏈的3 種度量值結(jié)果與表5 的差距不大,對應(yīng)的非單調(diào)圖與圖1 也類似,故兩者都省略。文獻(xiàn)[15]算法所得約簡結(jié)果放入表6 右欄,其與本文算法1 的結(jié)果(表6 左欄)具有較明顯的差異性;此外,文獻(xiàn)[15]算法的實驗處理比算法1 需要更多的時間。綜上實驗結(jié)果對比可見,兩套信息度量值具有一定的相似性,但啟發(fā)的約簡結(jié)果具有差異性,如表5(a)中{c1,c2,c6,c9}≠{c1,c2,c3,c9}等,這種相關(guān)性與差異性來源于兩者的度量機(jī)制?;谙嚓P(guān)分析,兩套度量具有相同的外部“疊加求和”,在這種多信息融合情況下,內(nèi)部的p(1-p)與-不能導(dǎo)致宏觀顯著性的值差異。但是這兩種度量的微觀差異在算法中會發(fā)生作用,從而致使啟發(fā)屬性的選擇與順序,即兩種度量具有不同的約簡啟發(fā)性,故兩者算法結(jié)果有所不同。此外,本文算法1 對文獻(xiàn)[15]算法的反向冗余剔除模塊進(jìn)行了結(jié)構(gòu)改進(jìn),此實驗中自然具有更高效率。
表6 兩種算法下的約簡結(jié)果Table 6 Reduction results under two algorithms
基于解析式模擬與粒替換,本文將經(jīng)典粗糙集的經(jīng)典互補(bǔ)信息度量推廣到鄰域粗糙集的鄰域互補(bǔ)信息度量,得到了相似的系統(tǒng)體系(其中H(D)被NHδ(D)A所替代),并將?;瘑握{(diào)性拓展為?;菃握{(diào)性,同時還得到了關(guān)于退化與雙界等性質(zhì)。基于鄰域互補(bǔ)互信息及其?;菃握{(diào)性,提出屬性約簡及其啟發(fā)式算法。最后,相關(guān)實例與實驗都驗證了研究結(jié)果的有效性。鄰域互補(bǔ)信息度量及其屬性約簡還值得深入研究與應(yīng)用,例如可以構(gòu)建基于鄰域互補(bǔ)(條件)熵的屬性約簡進(jìn)行系統(tǒng)研究與應(yīng)用。