国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

信息系統(tǒng)中的相對(duì)知識(shí)距離及其認(rèn)知特征

2022-07-25 06:30王寶麗韓素青廉侃超林國平
關(guān)鍵詞:先驗(yàn)特征選擇度量

王 濤,王寶麗*,,,韓素青,廉侃超,林國平

(1.太原師范學(xué)院 數(shù)學(xué)系,山西 晉中030619;2.運(yùn)城學(xué)院 數(shù)學(xué)與信息技術(shù)學(xué)院,山西 運(yùn)城044000;3.閩南師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,福建 漳州363000)

0 引言

波蘭數(shù)學(xué)家Zdzislaw Pawlak提出的Rough Sets理論對(duì)論域進(jìn)行劃分,構(gòu)成粒度求解的最基本的結(jié)構(gòu),這種劃分結(jié)構(gòu)亦稱為知識(shí)[1-2].知識(shí)的不確定性度量在知識(shí)獲取中發(fā)揮著重要的作用[3],研究者從不同的角度出發(fā),提出了許多不同種類的不確定性度量方式,如知識(shí)粒度、知識(shí)粗糙熵、知識(shí)條件熵、知識(shí)距離等.知識(shí)距離作為其中一種基礎(chǔ)性度量,能夠從數(shù)量上反應(yīng)不同結(jié)構(gòu)之間的量化差異.王寶麗等[4]首先提出知識(shí)距離的概念,并從內(nèi)涵、構(gòu)造以及多粒度應(yīng)用等方面進(jìn)行了深入地研究,取得了一些有意義的結(jié)果.Qian等[5-7]進(jìn)一步研究了精確知識(shí)和模糊知識(shí)的知識(shí)結(jié)構(gòu)、知識(shí)粒度的不變性以及知識(shí)距離對(duì)粒度的刻畫,解釋了知識(shí)距離在人類變粒度求解中的重要作用.Liang等[8]基于知識(shí)距離對(duì)粗糙集中包含度,近似精度,粗糙度等進(jìn)行了距離視角的解釋.

近年來,知識(shí)距離的研究成果更加豐富.為了刻畫知識(shí)結(jié)構(gòu),Qian等[9]基于知識(shí)距離對(duì)劃分粒結(jié)構(gòu)進(jìn)行聚類,分析了粒結(jié)構(gòu)聚類中體現(xiàn)的聚集性和收斂性,并對(duì)人類粒選擇的行為進(jìn)行模擬仿真.Yang等[10]對(duì)集合距離與知識(shí)距離構(gòu)建代數(shù)格,研究了粒結(jié)構(gòu)的三個(gè)層次.為了豐富知識(shí)距離的表達(dá)形式,Chen等[11]運(yùn)用Jaccard距離替代集合相似度,給出了新的知識(shí)距離的度量公式,并將信息系統(tǒng)中的劃分知識(shí)距離推廣到鄰域信息系統(tǒng)中,豐富了知識(shí)距離的含義,為知識(shí)距離在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用提供了新思路[12].在此基礎(chǔ)上,Yang等從物流分配優(yōu)化角度證明了只要給出粒之間的距離,便可通過組合的方式構(gòu)造知識(shí)距離[13-15].Dai等討論了集值信息系統(tǒng)下的熵與粒度度量,從高斯核的視角研究了模糊信息系統(tǒng)下的不確定性度量,提出了模糊結(jié)構(gòu)差異的信息度量,并研究了直覺模糊粒結(jié)構(gòu)距離[16-18].Li等[19]則進(jìn)一步提出了一組區(qū)間值直覺模糊集描述下的模糊粒結(jié)構(gòu)距離,證明了知識(shí)距離是直覺模糊粒結(jié)構(gòu)距離的特殊形式.

值得關(guān)注的一點(diǎn)是,上述所有研究都只從不同的角度給出了兩個(gè)知識(shí)的絕對(duì)差異性度量,均未描述和分析任意條件下兩個(gè)知識(shí)的差異,即知識(shí)的相對(duì)差異性度量.事實(shí)上,人類認(rèn)識(shí)事物總是從已有的知識(shí)出發(fā),通過分析知識(shí)空間中知識(shí)差異性來獲取新知識(shí),而知識(shí)的差異性應(yīng)該與觀察者所擁有的先驗(yàn)知識(shí)或觀察視角相關(guān).擁有的先驗(yàn)知識(shí)不同或所處的角度不同,知識(shí)的差異性也應(yīng)當(dāng)有所不同.楊潔等[20]提出一種帶近似描述能力的鄰域信息粒距離,用來反映不同鄰域知識(shí)空間對(duì)目標(biāo)概念的刻畫能力的差異性,但這一研究仍無法描述不同認(rèn)知視角對(duì)知識(shí)差異的影響.為了解決以上問題,本文在具備一定先驗(yàn)知識(shí)的條件下研究?jī)蓚€(gè)知識(shí)空間之間的距離及其在知識(shí)獲取方面的認(rèn)知特征,從而反映知識(shí)之間的相對(duì)認(rèn)知差異.

本文第1節(jié)簡(jiǎn)要介紹相關(guān)基本概念;第2節(jié)提出了相對(duì)知識(shí)距離的概念,分析了相對(duì)知識(shí)距離的保序性、有界性及條件依賴性,并證明絕對(duì)知識(shí)距離是相對(duì)知識(shí)距離的特殊情形;為了刻畫人類多粒度認(rèn)知的特性,本文在第3節(jié)以實(shí)驗(yàn)方式呈現(xiàn)相對(duì)知識(shí)距離與絕對(duì)知識(shí)距離所具有的不同的結(jié)構(gòu)信息,同時(shí)基于相對(duì)知識(shí)距離提出一種新的特征選擇算法,用以分析在不同先驗(yàn)知識(shí)條件下的特征選擇所呈現(xiàn)的人類認(rèn)知變化特性;第4節(jié)總結(jié)全文.

1 信息系統(tǒng)與知識(shí)距離

1.1 信息系統(tǒng)及知識(shí)表示

定義1:四元組S=(U,A,V,f)是一個(gè)信息系統(tǒng),其中U={x1,x2,…,xn}為對(duì)象的非空有限集,稱為論域;A為屬性的非空有限集;V=∪a∈AVa是屬性值的集合,Va表示屬性a的值域;f:U×A→V表示一個(gè)信息函數(shù).

對(duì)于每個(gè)屬性子集P?A,定義論域U上的一個(gè)二元不可分辨關(guān)系:

IND(P)={(x,y)∈U×U|?a∈P,fa(x)=fa(y)}

(1)

顯然,IND(P)是一個(gè)等價(jià)關(guān)系,因此IND(P)可誘導(dǎo)得到論域U的一個(gè)劃分,記為U/IND(P),簡(jiǎn)記為U/P.從粒計(jì)算的觀點(diǎn)來看,U/P中的每個(gè)等價(jià)類都可以視為一個(gè)知識(shí)顆粒,表示為U/P={[xi]P|xi∈U}.在粗糙集理論中,將知識(shí)粒的集合U/P稱為論域U的一個(gè)知識(shí),為了方便分析與說明,下文中將其稱為知識(shí)P.

在論域U上的所有知識(shí)構(gòu)成的知識(shí)庫中,恒等關(guān)系ω對(duì)應(yīng)最細(xì)的知識(shí),全域關(guān)系δ對(duì)應(yīng)最粗的知識(shí).

定義2[4]:設(shè)U為非空有限論域,P和Q為U上的兩個(gè)知識(shí),若對(duì)?xi∈U,滿足[xi]P?[xi]Q,則稱知識(shí)P比知識(shí)Q更精細(xì),記為P?Q.

1.2 知識(shí)距離

定義3[5-6]:設(shè)U為非空有限論域,P和Q為U上的兩個(gè)知識(shí),P與Q之間的知識(shí)距離定義為

(2)

其中[xi]p⊕[xi]q=([xi]p∪[xi]q)-([xi]p∩[xi]q).

例1:給定論域U={x1,x2,x3,x4,x5,x6}上的兩個(gè)知識(shí),P={{x1,x3},{x2,x6},{x4,x5}},Q={{x1,x3,x5,x6},{x2,x4}}.知識(shí)P與Q之間的知識(shí)距離為d(P,Q)=4/9.

以上的知識(shí)距離度量反映了兩個(gè)知識(shí)之間的絕對(duì)差異,但與觀察者所擁有的先驗(yàn)知識(shí)或所處的角度無關(guān),不能反映在先驗(yàn)知識(shí)或條件認(rèn)知下的知識(shí)之間相對(duì)認(rèn)知差異.因此本文提出了基于不同認(rèn)知視角或認(rèn)知條件下的相對(duì)知識(shí)距離,進(jìn)而反映人類多粒度相對(duì)認(rèn)知的特點(diǎn).為與下文給出的距離定義相區(qū)別,將第1.2節(jié)中所述的知識(shí)距離稱為絕對(duì)知識(shí)距離.

2 相對(duì)知識(shí)距離

本節(jié)提出相對(duì)知識(shí)距離的概念并分析其性質(zhì).

定義4:U為非空有限論域,R為U上的先驗(yàn)知識(shí)或條件認(rèn)知,知識(shí)P和Q在R下的相對(duì)知識(shí)距離定義為

(3)

該定義將對(duì)先驗(yàn)知識(shí)或條件認(rèn)知R的相對(duì)描述融入到已有的知識(shí)距離公式中,以反映在不同認(rèn)知視角下任意兩個(gè)知識(shí)P和Q的相對(duì)差異性.定義4也稱為P和Q關(guān)于R的相對(duì)知識(shí)距離.

下面分析相對(duì)知識(shí)距離D(P,Q|R)所具有的性質(zhì).

性質(zhì)1:設(shè)U是一個(gè)非空有限論域,P1,P2,P3為U上的知識(shí),R為U上的先驗(yàn)知識(shí)或條件認(rèn)知,則相對(duì)知識(shí)距離D滿足:

(1)非負(fù)性D(P1,P2|R)≥0;

(2)對(duì)稱性D(P1,P2|R)=D(P2,P1|R);

(3)三角不等式D(P1,P2|R)+D(P2,P3|R)≥D(P1,P3|R).

證明:性質(zhì)(1)(2)顯然成立,下證(3)成立.

欲證知識(shí)P1,P2,P3關(guān)于R的相對(duì)知識(shí)距離滿足三角不等式,根據(jù)定義,只需證|([xi]P1∩[xi]R)⊕([xi]P3∩[xi]R)|≤|([xi]P1∩[xi]R)⊕([xi]P2∩[xi]R)|+|([xi]P2∩[xi]R)⊕([xi]P3∩[xi]R)|,即證|([xi]P1⊕[xi]P3)∩[xi]R|≤|([xi]P1⊕[xi]P2)∩[xi]R|+|([xi]P2⊕[xi]P3)∩[xi]R|.

由集合的性質(zhì)知([xi]P1⊕[xi]P3)?[([xi]P1⊕[xi]P2)∪([xi]P2⊕[xi]P3)],因此(([xi]P1⊕[xi]P3)∩[xi]R?[(([xi]P1⊕[xi]P2)∩[xi]R)∪(([xi]P2⊕[xi]P3)∩[xi]R)],進(jìn)而|([xi]P1⊕[xi]P3)∩[xi]R|≤|([xi]P1⊕[xi]P2)∩[xi]R|+|([xi]P1⊕[xi]P3)∩[xi]R|.故D(P1,P2|R)+D(P2,P3|R)≥D(P1,P3|R).

性質(zhì)1表明,論域U的條件知識(shí)關(guān)于相對(duì)知識(shí)距離D(P,Q|R)構(gòu)成一個(gè)度量空間.

例2:給定論域U={x1,x2,x3,x4,x5,x6}上兩個(gè)需區(qū)分的知識(shí)P={{x1,x3},{x2,x6},{x4,x5}},Q={{x1,x3,x5,x6},{x2,x4}},在先驗(yàn)知識(shí)R1={{x3,x6},{x1,x2,x4,x5}},R2={{x1,x2,x5},{x3,x4,x6}}下,知識(shí)P和Q的相對(duì)知識(shí)距離為:D(P,Q|R1)=1/36×(1+1+1+2+2+1)=2/9,D(P,Q|R2)=1/36×(1+0+1+0+1+1)=1/9.

從例1和例2可知,知識(shí)P和Q在不同的先驗(yàn)知識(shí)或條件認(rèn)知下的相對(duì)知識(shí)距離是不同的,相比于例1中計(jì)算出的知識(shí)P和Q之間的絕對(duì)知識(shí)距離,例2中計(jì)算出的相對(duì)知識(shí)距離更小.

性質(zhì)2:設(shè)U是一個(gè)非空有限論域,P1,P2,P3為U上的知識(shí),R為U上的先驗(yàn)知識(shí)或條件認(rèn)知,若序關(guān)系P1?P2?P3成立,則

D(P1,P2|R)+D(P2,P3|R)=D(P1,P3|R)

(4)

證明:欲證具有序關(guān)系的三個(gè)知識(shí)P1,P2,P3在先驗(yàn)知識(shí)或條件認(rèn)知R下的距離三角等式成立,需證|([xi]P1∩[xi]R)⊕([xi]P3∩[xi]R)|=|([xi]P1∩[xi]R)⊕([xi]P2∩[xi]R)|+|([xi]P2∩[xi]R)⊕([xi]P3∩[xi]R)|,根據(jù)條件所給出的序關(guān)系P1?P2?P3,可得[xi]P1?[xi]P2?[xi]P3,因此只需證|([xi]P3-[xi]P1)∩[xi]R|-|([xi]P2-[xi]P1)∩[xi]R|=|([xi]P3-[xi]P2)∩[xi]R|.

故D(P1,P2|R)+D(P2,P3|R)=D(P1,P3|R).

性質(zhì)2體現(xiàn)了在相同先驗(yàn)知識(shí)或條件認(rèn)知下,相對(duì)知識(shí)距離保持了序關(guān)系下等式成立的性質(zhì).

性質(zhì)3:設(shè)U是一個(gè)非空有限論域,P和Q為U上的知識(shí),R1和R2為U上的先驗(yàn)知識(shí)或條件認(rèn)知,若知識(shí)R1和R2滿足序關(guān)系R1?R2,則

D(P,Q|R1)≤D(P,Q|R2)

(5)

證明:欲證當(dāng)先驗(yàn)知識(shí)或條件認(rèn)知R1和R2存在序關(guān)系時(shí)相對(duì)知識(shí)距離具有保序性,只需證 |([xi]P∩[xi]R1)⊕([xi]Q∩[xi]R1)|≤|([xi]P∩[xi]R2)⊕([xi]Q∩[xi]R2)|,根據(jù)集合的運(yùn)算性質(zhì),需證|([xi]P⊕[xi]Q)∩[xi]R1|≤|([xi]P⊕[xi]Q)∩[xi]R2|,即(([xi]P⊕[xi]Q)∩[xi]R1)?(([xi]P⊕[xi]Q)∩[xi]R2).

設(shè)任意對(duì)象xi∈([xi]P⊕[xi]Q)∩[xi]R1,則有xi∈[xi]R1且xi∈([xi]P⊕[xi]Q),又[xi]R1?[xi]R2,所以xi∈[xi]R2,進(jìn)而xi∈([xi]P⊕[xi]Q)∩[xi]R2,(([xi]P⊕[xi]Q)∩[xi]R1)?(([xi]P⊕[xi]Q)∩[xi]R2).由此知D(P,Q|R1)≤D(P,Q|R2)成立.

從性質(zhì)3可以看出,隨著先驗(yàn)知識(shí)或條件認(rèn)知的不斷細(xì)化,知識(shí)之間的相對(duì)知識(shí)距離在單調(diào)下降.這一規(guī)律反映了在漸進(jìn)認(rèn)知過程中,隨著已有認(rèn)知水平的不斷提高,可以逐漸降低兩個(gè)知識(shí)之間的相對(duì)認(rèn)知難度,體現(xiàn)了人類多粒度漸進(jìn)認(rèn)知的特性.

推論1:設(shè)U是一個(gè)非空有限論域,當(dāng)R是U上最粗的知識(shí)δ時(shí),有D(P,Q|δ)=d(P,Q).

證明:根據(jù)公式(3),有

推論1說明了絕對(duì)知識(shí)距離是兩個(gè)知識(shí)之間在沒有任何認(rèn)知前提下的差異性度量,因此絕對(duì)知識(shí)距離是相對(duì)知識(shí)距離的一個(gè)特例.

推論2:設(shè)U是一個(gè)非空有限論域,當(dāng)R是U上最細(xì)的知識(shí)ω時(shí),知識(shí)P與Q之間的相對(duì)知識(shí)距離D(P,Q|R)達(dá)到最小值0.

證明:若先驗(yàn)知識(shí)或條件認(rèn)知R是U上最細(xì)的知識(shí),即R=ω,則P與Q之間的相對(duì)知識(shí)距離為

根據(jù)性質(zhì)3,對(duì)于U上的任意知識(shí)R,若滿足序關(guān)系ω?R?δ,則不等式D(P,Q|ω)≤D(P,Q|R)≤D(P,Q|δ)成立,即相對(duì)知識(shí)距離滿足:0≤D(P,Q)≤d(P,Q).

例3:給定論域U={x1,x2,x3,x4,x5,x6}上的知識(shí)P={{x1,x3},{x2,x6},{x4,x5}},Q={{x3,x4,x5},{x1},{x2},{x6}},U上的先驗(yàn)知識(shí)為R={{x3,x6},{x1,x2,x4,x5}},知識(shí)P和Q關(guān)于知識(shí)R的相對(duì)知識(shí)距離為D(P,Q|R)=1/36×(0+0+0+0+0+0)=0.

例3表明,R=ω僅僅是D(P,Q|R)=0成立的充分條件,但非必要條件.

性質(zhì)4:設(shè)U是一個(gè)非空有限論域,U上的知識(shí)P和Q之間存在如下條件依賴關(guān)系:

D(P,Q|P)+D(P,Q|Q)=d(P,Q)

(6)

證明:

性質(zhì)4說明了P與Q之間的絕對(duì)知識(shí)距離可以分解為不同方向的單向相對(duì)知識(shí)距離之和,即從P到Q的認(rèn)知難度與從Q到P的認(rèn)知難度之和,進(jìn)而從理論上解釋了相對(duì)知識(shí)距離與絕對(duì)知識(shí)距離的辯證統(tǒng)一性.

3 數(shù)據(jù)實(shí)驗(yàn)

本小節(jié)將從實(shí)驗(yàn)上分析相對(duì)知識(shí)距離與絕對(duì)知識(shí)距離在實(shí)際問題的結(jié)構(gòu)差異;此外,通過設(shè)計(jì)基于相對(duì)知識(shí)距離的特征選擇算法,研究相對(duì)知識(shí)距離在知識(shí)獲取與發(fā)現(xiàn)中的認(rèn)知特征.

3.1 絕對(duì)知識(shí)距離與相對(duì)知識(shí)距離的結(jié)構(gòu)差異性

對(duì)于給定的對(duì)象集,不同的距離計(jì)算方法,可以得到不同的分層結(jié)構(gòu).譜系聚類法是一種基于對(duì)象集上的距離矩陣,通過定義類與類之間的距離,依次將最近的類進(jìn)行合并形成分層遞階結(jié)構(gòu)的聚類方法[21].這里運(yùn)用相同的譜系聚類算法得到不同的聚類結(jié)構(gòu)來顯示本文所提距離與經(jīng)典絕對(duì)知識(shí)距離的差異,進(jìn)一步證實(shí)相對(duì)知識(shí)距離可以為知識(shí)獲取提供與絕對(duì)知識(shí)距離不一樣的視角.實(shí)驗(yàn)流程如下:

已知在信息系統(tǒng)S=(U,A,V,f)中,A={a1,a2,…,am}為S中的條件屬性集,對(duì)于條件屬性集A中的每個(gè)屬性進(jìn)行如下的計(jì)算:

(1)對(duì)?ak∈A,k={1,2,…,m},通過等價(jià)關(guān)系可得ak誘導(dǎo)的知識(shí)Pk,并將其作為先驗(yàn)知識(shí)或條件認(rèn)知Rk;

(2)計(jì)算由其余屬性誘導(dǎo)的知識(shí)在Rk作為條件認(rèn)知的相對(duì)知識(shí)距離Dij(Pi,Pj|Rk)和絕對(duì)知識(shí)距離dij(Pi,Pj),并得到相對(duì)知識(shí)距離矩陣M=(Dij)和絕對(duì)知識(shí)距離矩陣N=(dij);

(3)基于兩個(gè)距離矩陣M和N,分別用譜系聚類法對(duì)數(shù)據(jù)集的屬性子集進(jìn)行聚類,得到不同的聚類結(jié)構(gòu);

(4)分別以知識(shí)粒度[6]之差ΔGK(X)和知識(shí)距離d(P,Q)作為度量標(biāo)準(zhǔn),計(jì)算聚類結(jié)果的差異性.其中,

(7)

下面以UCI數(shù)據(jù)庫中的Zoo數(shù)據(jù)集和Las Vegas Trip Advisor Reviews(簡(jiǎn)稱Las Vegas)數(shù)據(jù)集為例,并分別以數(shù)據(jù)集中的屬性a1和屬性a5誘導(dǎo)的知識(shí)作為條件知識(shí)R,構(gòu)造相對(duì)知識(shí)距離和絕對(duì)知識(shí)距離矩陣,進(jìn)行屬性集聚類,聚類結(jié)果見圖1和圖2.(圖中Rel-a1表示以a1作為條件屬性的相對(duì)知識(shí)距離的聚類,Abs-a1表示去掉a1以后基于絕對(duì)知識(shí)距離的聚類)

(a)Abs-a1

(b)Rel-a1

(c)Abs-a5

(d)Rel-a5

(a)Abs-a1

(b)Rel-a1

(c)Abs-a5

(d)Rel-a5

為了更直觀地描述聚類結(jié)果的差異,本文計(jì)算了在不同的分類個(gè)數(shù)下,基于絕對(duì)知識(shí)距離的譜系聚類和基于相對(duì)知識(shí)距離的譜系聚類的數(shù)值差異,結(jié)果見圖3和圖4.

圖3 Zoo數(shù)據(jù)集中相對(duì)知識(shí)距離和絕對(duì)知識(shí)距離關(guān)于不同類別數(shù)的聚類差異

圖4 Las Vegas數(shù)據(jù)集中相對(duì)知識(shí)距離和絕對(duì)知識(shí)距離關(guān)于不同類別數(shù)的聚類差異

以上實(shí)驗(yàn)對(duì)比結(jié)果表明,基于相對(duì)知識(shí)距離的譜系聚類和基于絕對(duì)知識(shí)距離的譜系聚類在不同的分類個(gè)數(shù)下具有明顯差異,具體表現(xiàn)為:

(1)當(dāng)相同屬性作為條件屬性時(shí),基于相對(duì)知識(shí)距離和基于絕對(duì)知識(shí)距離的譜系聚類結(jié)構(gòu)是有差異的;

(2)當(dāng)不同屬性作為條件屬性時(shí),基于相對(duì)知識(shí)距離和基于絕對(duì)知識(shí)距離的譜系聚類結(jié)構(gòu)的差異是不同的;

(3)在不同的類別數(shù)下且條件屬性不同時(shí),基于相對(duì)知識(shí)距離和基于絕對(duì)知識(shí)距離的譜系聚類結(jié)構(gòu)的差異是不同的.

因此,相對(duì)知識(shí)距離與絕對(duì)知識(shí)距離在實(shí)際應(yīng)用中存在著明顯的差異,相對(duì)知識(shí)距離具有更為豐富的信息特性,可以對(duì)人類不同認(rèn)知視角認(rèn)知事物結(jié)構(gòu)進(jìn)行有效建模.

3.2 基于相對(duì)知識(shí)距離的特征選擇算法

特征選擇是一類重要的數(shù)據(jù)預(yù)處理方法,目的是從數(shù)據(jù)集的特征集合中選出對(duì)學(xué)習(xí)任務(wù)有用的相關(guān)特征子集[24].在特征選擇過程中,是否存在先驗(yàn)知識(shí)所選出的特征子集可能有所不同.

例如,考慮立方體對(duì)象,若已有特征為底面長l、底面寬w、底面積S、高h(yuǎn)、密度ρ和顏色c等6個(gè)特征,在執(zhí)行描述立方體質(zhì)量的特征選擇任務(wù)時(shí),若從先驗(yàn)特征S出發(fā),則選出的特征子集是S,h,ρ,而沒有先驗(yàn)特征時(shí),選出的特征子集可以是l,w,h,ρ.因此,有必要根據(jù)不同的機(jī)制,分析先驗(yàn)特征對(duì)特征選擇結(jié)果的影響.

本節(jié)設(shè)計(jì)了過濾式的特征選擇方法,并以相對(duì)知識(shí)距離作為評(píng)價(jià)函數(shù).算法求解思想如下:

在子集搜索過程中,依照前向搜索策略,將特征集合{a1,a2,…,am}中的每個(gè)特征作為候選單特征子集,根據(jù)定義4中的相對(duì)知識(shí)距離,依次加入到候選子集中,直到滿足停止條件;

在子集評(píng)價(jià)過程中,將候選子集中與原來系統(tǒng)中相對(duì)于知識(shí)R的距離為0的特征剔除,最終得到系統(tǒng)的特征子集.

算法1:基于相對(duì)知識(shí)距離的特征選擇算法

輸入:信息系統(tǒng)S=(U,A,V,f),初始狀態(tài)的知識(shí)R

輸出:特征子集I

Step1 初始化候選子集F=?,I=?,

對(duì)?a∈A,IfD(A{a},A|R)≠0

ThenF=F∪{a};

Step2 令I(lǐng)′=F;

Step3 IfD(I′,A|R)=0轉(zhuǎn)到Step7,否則執(zhí)行Step4;

Step4 ?a∈AI′,計(jì)算D(I′∪{a},A|R),選擇使D(I′∪{a},A|R)最大的屬性a′;

Step5I′=I′∪{a′};

Step6 WhileI′≠A,返回Step3;

Step7 對(duì)?a∈I′,ifD(I′{a},A|R)=0

ThenI=I′{a};

Step8 輸出信息系統(tǒng)S的特征子集I,算法結(jié)束.

實(shí)驗(yàn)分析

本節(jié)將基于相對(duì)知識(shí)距離的特征選擇算法與基于絕對(duì)知識(shí)距離的特征選擇算法進(jìn)行比較,以進(jìn)一步說明不同的距離度量對(duì)信息系統(tǒng)的認(rèn)知差異.實(shí)驗(yàn)選用UCI數(shù)據(jù)庫中的6個(gè)數(shù)據(jù)集,以相對(duì)知識(shí)距離作為評(píng)價(jià)準(zhǔn)則進(jìn)行特征選擇,并將在3.1節(jié)的實(shí)驗(yàn)中聚類差異最大的特征所誘導(dǎo)的劃分知識(shí)作為先驗(yàn)知識(shí)或條件知識(shí),實(shí)驗(yàn)結(jié)果見表1.

表1 基于兩類距離算法在6類數(shù)據(jù)集下的特征選擇結(jié)果

實(shí)驗(yàn)結(jié)果表明,對(duì)信息系統(tǒng)采用不同的知識(shí)距離得到的特征選擇結(jié)果具有一定的差異.這種差異來源于不同的度量機(jī)制,由于將系統(tǒng)中的部分特征作為先驗(yàn)知識(shí)或條件知識(shí),導(dǎo)致對(duì)系統(tǒng)的認(rèn)知路徑發(fā)生改變,因此獲得了不同的特征選擇結(jié)果.

此外,分析兩種特征選擇算法中特征個(gè)數(shù)的變化,我們可以得到以下結(jié)論:

(1)當(dāng)先驗(yàn)特征有利于描述信息系統(tǒng)整體性能時(shí),對(duì)系統(tǒng)的認(rèn)知能力有所增強(qiáng),較少的特征就能達(dá)到信息系統(tǒng)全部特征所具備的分類能力,因此本文算法輸出的特征個(gè)數(shù)少于對(duì)比算法中的特征個(gè)數(shù);

(2)當(dāng)先驗(yàn)特征所蘊(yùn)含的信息量較少、對(duì)信息系統(tǒng)的認(rèn)知能力有所減弱時(shí),需要較多的特征才能刻畫系統(tǒng)的分類能力,因此本文算法輸出的特征個(gè)數(shù)多于對(duì)比算法中的特征個(gè)數(shù);

(3)當(dāng)先驗(yàn)特征對(duì)描述信息系統(tǒng)整體性能無影響時(shí),保持了對(duì)信息系統(tǒng)的認(rèn)知能力,因此本文算法輸出的特征個(gè)數(shù)與對(duì)比算法中的特征個(gè)數(shù)相等.

4 結(jié)論

本文從相對(duì)認(rèn)知視角出發(fā)研究了知識(shí)空間的相對(duì)性差異.具體地,提出相對(duì)知識(shí)距離的概念,分析了相對(duì)知識(shí)距離具有的認(rèn)知特性,通過屬性聚類實(shí)驗(yàn)說明了相對(duì)知識(shí)距離較于絕對(duì)知識(shí)距離所具有的不同的結(jié)構(gòu)特性.此外,基于相對(duì)知識(shí)距離的特征選擇算法也對(duì)人類條件漸進(jìn)認(rèn)知增強(qiáng)、保持與減弱特性進(jìn)行了模擬與仿真.本文主要結(jié)論有:

(1)相對(duì)知識(shí)距離反映了不同視角下任意兩個(gè)知識(shí)之間的相對(duì)差異性,體現(xiàn)了人類多粒度相對(duì)認(rèn)知的特性;

(2)相對(duì)知識(shí)距離比絕對(duì)知識(shí)距離更具有一般性,在已知先驗(yàn)知識(shí)或條件認(rèn)知的前提下,相對(duì)知識(shí)距離可以降低兩個(gè)知識(shí)之間的認(rèn)知難度,符合一般的認(rèn)知規(guī)律;

(3)相對(duì)知識(shí)距離與絕對(duì)知識(shí)距離具有不同的拓?fù)浣Y(jié)構(gòu),且由于度量機(jī)制的不同,對(duì)系統(tǒng)的認(rèn)知路徑也會(huì)有所改變,可以為人類多視角認(rèn)知提供有效參考.

本研究進(jìn)一步豐富了粒計(jì)算的不確定性度量理論,為現(xiàn)實(shí)信息系統(tǒng)的認(rèn)識(shí)刻畫提供了新的視角.相對(duì)知識(shí)距離在鄰域、模糊信息系統(tǒng)以及各類決策系統(tǒng)中的應(yīng)用將是我們下一步的研究方向.

猜你喜歡
先驗(yàn)特征選擇度量
鮑文慧《度量空間之一》
康德定言命令的演繹是一種先驗(yàn)演繹嗎?——論純粹知性與實(shí)踐理性在先天原則證成方面之異同
基于暗通道先驗(yàn)的單幅圖像去霧算法研究與實(shí)現(xiàn)
先驗(yàn)想象力在范疇先驗(yàn)演繹中的定位研究
不欣賞自己的人,難以快樂
突出知識(shí)本質(zhì) 關(guān)注知識(shí)結(jié)構(gòu)提升思維能力
三參數(shù)射影平坦芬斯勒度量的構(gòu)造
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
故障診斷中的數(shù)據(jù)建模與特征選擇
先驗(yàn)的風(fēng)
石棉县| 石柱| 凌海市| 上高县| 靖远县| 郧西县| 巴林右旗| 平昌县| 肇东市| 浦县| 武安市| 靖安县| 雷州市| 蒲江县| 小金县| 惠东县| 长沙县| 平南县| 竹山县| 仙居县| 博罗县| 武宁县| 台中市| 女性| 金塔县| 开平市| 阿尔山市| 正宁县| 福鼎市| 怀来县| 隆回县| 通榆县| 孝感市| 房山区| 禹城市| 水富县| 红桥区| 梨树县| 上蔡县| 永修县| 本溪市|