黃麗萍
(閩南師范大學計算機學院,福建漳州363000)
不完備序信息系統(tǒng)的集對優(yōu)勢度粗糙集模型①
黃麗萍
(閩南師范大學計算機學院,福建漳州363000)
不完備序信息系統(tǒng)粗糙集模型是經典粗糙集模型的擴展,它能進一步處理含未知屬性值和具有優(yōu)勢關系的數據.針對相似優(yōu)勢關系條件過于寬松而限制擴展優(yōu)勢關系條件又過于嚴格的缺點,引入集對分析思想,提出了集對優(yōu)勢度粗糙集模型.它可以通過調整參數,達到較理想的分類,克服了現有不完備序信息系統(tǒng)優(yōu)勢關系的不足.并以實例分析驗證了集對優(yōu)勢度粗糙模型的有效性.最后,在UCI數據集上進行仿真實驗,通過實驗進一步說明集對優(yōu)勢度粗糙模型可以獲得更優(yōu)的分類效果.
粗糙集,不完備序信息系統(tǒng),限制優(yōu)勢關系,對優(yōu)勢度
Pawlak[1]提出的經典粗糙集理論是以完備信息系統(tǒng)為研究對象.但現實世界,由于數據理解、獲取過程中噪音的影響、獲取技術的限制等因素,不完備信息系統(tǒng)廣泛地存在現實生活中.而經典粗糙集并不適用于不完備信息系統(tǒng),這就有必要對它進行擴充以處理不完備數據.許多學者針對不完備信息系統(tǒng)缺失給出不同理解,得出相應的擴展粗糙集模型,如Kryszkiewicz[2]提出基于容差關系的粗糙集模型;Stefanowski等[3]提出了基于非對稱相似關系和量化容差關系的粗糙集模型;王國胤[4]提出了基于限制容差關系的粗糙集模型.
在實際問題中,屬性的取值不僅含有不完整的數據而且往往數值之間具有優(yōu)勢關系.屬性值的有序特性是非常重要的.如決策系統(tǒng)中的效益型和成本型屬性則說明了在系統(tǒng)中采用有序思想的重要性,該類問題更能客地描述眾多決策問題[5].而粗糙集的等價關系不能處理該類數據,因此,Greco等[6]提出了基于優(yōu)勢關系的粗糙集模型,用優(yōu)勢關系代替了等價關系.對于上述兩類問題的處理,Shao[7]提出了基于優(yōu)勢關系的不完備序信息系統(tǒng)的屬性約簡和規(guī)則提?。槍hao的相似優(yōu)勢關系過于寬松的問題,胡明禮等[8]引入了閥值廣義擴展優(yōu)勢關系;駱公志等[9]進一步提出了限制優(yōu)勢粗糙集模型,避免了相似優(yōu)勢關系條件過于寬松的現象,但在某些情況下又顯得過于嚴格.韋碧鵬等[10]提出了α優(yōu)勢下的粗糙集模型的屬性約簡,莫京蘭等[11]提出的不完備序信息系統(tǒng)及其擴展模型,陶志等[12]提出的概率優(yōu)勢關系和施玉杰等[13]提出的α先驗概率優(yōu)勢關系下的粗糙集模型,這些模型都需要統(tǒng)計各個屬性中各數據值出現的頻率;對于大數據來說,計算各數據值出現的頻率已經需要花費大量的時間代價,顯然不符合實際.
集對分析方法[14]是趙克勤教授近年來提出的用于研究集合之間相互關系的一種新理論,其核心思想是把被研究的客觀事物之確定性聯系和不確定性聯系作為一個系統(tǒng)來處理,現在它已經得到了廣泛的應用.一些學者利用運用集對分析方法對不完備信息系統(tǒng)粗糙集模型進行了擴展,建立了相應的不完備信息系統(tǒng)的集對粗糙集模型[15-18].而不完備序信息系統(tǒng)的集對分析方法目前還較少.文獻[19]將集對分析方法應用于不完備序信息系統(tǒng),提出了關鍵屬性,而關鍵屬性的認定具有人為因素,主觀性過強.因此,本文在分析現有不完備序信息系統(tǒng)的幾種粗糙集模型的基礎上,提出了集對優(yōu)勢度粗糙模型.
1.1 相似優(yōu)勢關系
1.2 限制優(yōu)勢關系
定義3[9]設IIS=〈U,AT,V,f〉是一個不完備序信息系統(tǒng),對于A?AT,?x,y∈U,對象在屬性A下的限制優(yōu)勢關系為
限制相似優(yōu)勢關系克服了相似優(yōu)勢關系限制條件過于寬松的不足;但其條件過于苛刻,容易將實際上具有很大可能性的同類對象誤判為不同類.如信息表中屬性a的值域為[1-8],存在y(a)=*,x(a)=1,按照限制相似優(yōu)勢的定義有y(a)=*優(yōu)于x(a)=1,但是對于y(a)=*,x(a)=3,則不能判斷y(a)=*優(yōu)于x(a)=3.而實際上,如果y(a)的取值滿足均值分布,則y(a)>x(a)的概率很大,因此,y(a)優(yōu)于x(a)成立的可能性很大,所以限制相似優(yōu)勢關系會造成一定的分類錯誤.
針對上述存在的問題,本文提出了集對優(yōu)勢度粗糙集模型.
M(x,y)={a∈A|fa(x)≥fa(y)∨(fa(x)=maxva∧fa(y)=*)∨(fa(x)=*∧fa(y)=minva)},
N(x,y)={a∈A|(fa(x)=*∧fa(y)=*)∨(fa(x)≠*∧fa(x)≠maxva∧fa(y)=*)∨
(fa(x)=*∧fa(y)≠minva∧fa(y)≠*)},
K(x,y)={a∈A|(fa(x) 顯然0≤S1,S2,S3≤1,S1+S2+S3=1. 對于弱勢度中的對象如何定義其中可能的優(yōu)勢度,本文給出對象屬性值聯合優(yōu)勢率的定義. 定義6 設IIS=〈U,AT,V,f〉是不完備序信息系統(tǒng),B?AT,對于任意的x,y∈U,對象x,y屬性值聯合優(yōu)勢率FP(x,y)定義為 在差異對象中,對象屬性值聯合優(yōu)勢率通過用平均值來代替未知值*來進行優(yōu)劣比較,不僅解決相似優(yōu)勢關系和限制優(yōu)勢關系不能合理地比較f(x,a)=Vi(Vi∈Va∧Vi≠maxVa∧Vi≠minVa),f(y,a)=*的情形;也克服了文獻[16]中依靠專家選擇一些屬性作為關鍵屬性而導致的主觀性過強. 證明 由定義7可知,當S1=1時,只考慮強優(yōu)勢度不考慮弱優(yōu)勢度,這時集對優(yōu)勢關系的定義等價于限制優(yōu)勢關系的定義;當S1+S2=1,即不對弱勢度進行進一步限定,則集對優(yōu)勢關系的定義等價于相似優(yōu)勢關系的定義.從而可得性質2.從性質2可以看出,本文提出的集對優(yōu)勢度粗糙模型客服了相似優(yōu)勢關系劃分粒度過大和限制優(yōu)勢關系劃分過小的缺點,對不完備序信息系統(tǒng)的處理更加合理. 文獻[20]給出的一個完備的序信息系統(tǒng),有11個對象U={x1,x2,…,x11},8個條件屬性AT={a1,a2,…,a8}.條件屬性值A>B>C>D,分別用4,3,2,1來表示.將表內一些對象設置成未知值,用*表示;從而得到一個不完備序信息系統(tǒng)如表1所示.運用表1給出的不完備序信息系統(tǒng)來分析文獻[6]提出的相似優(yōu)勢關系、文獻[9]提出的限制優(yōu)勢關系以及本文提出的優(yōu)勢關系之間的分類效果. 表1 不完備序信息系統(tǒng) 從上面的結果可以看出,集對優(yōu)勢度優(yōu)勢關系通過平均值來代替未知值來進行比較的方法,解決了相似優(yōu)勢關系條件過于寬松而限制優(yōu)勢關系條件過于苛刻的問題,使基于集對優(yōu)勢度的優(yōu)勢關系的優(yōu)勢類更接近信息完備時的優(yōu)勢類,具有更優(yōu)的分類效果. 下面通過MATLAB,選用表1和UCI數據庫中的IRIS數據集,進一步驗證基于集對優(yōu)勢度的優(yōu)勢關系的分類性能.采用隨機函數分別對表1和IRIS數據集設置5%,10%,20%和40%數據量的未知值,然后用集對優(yōu)勢度優(yōu)勢關系、限制相似優(yōu)勢關系對對象進行劃分,產生各對象的優(yōu)勢類,將各對象的優(yōu)勢類與其相應的未設未知值時的優(yōu)勢類(標準類),利用文獻[21]所給分類誤判率公式計算兩者之間的誤分類率. 表2 分類錯誤率比較 實驗結果表明,限制相似優(yōu)勢關系的分類誤判率明顯高于本文基于集對優(yōu)勢度的優(yōu)勢關系;且隨著信息不完備率的增加,其誤判率快速上升,而基于集對優(yōu)勢度的優(yōu)勢關系的誤判率比較穩(wěn)定.通過調節(jié)α的大小,可以進一步提高分類精度.當α=0.6是的分類誤判率小于α=1時的分類誤判率.可以進一步看出,對于序信息系統(tǒng)的分類,若分類條件過于苛刻,容易將實際上具有很大可能性的同類對象誤判為不同類. 現實中,存在很多不完備且含有序關系的數據,因此對這種復雜數據的處理是很有意義的.本文通過對不完備信息系統(tǒng)和優(yōu)勢關系的分析,結合集對分析方法提出了集對優(yōu)勢度粗糙模型.該方法對于不完備序信息系統(tǒng)的數據分析更加合理.這種模型可根據實際應用的需求,對參數α合理地調節(jié),可以靈活地控制從不完備序信息系統(tǒng)中獲取信息粒度的大?。粡亩行У貙祿M行處理,克服了已有擴展模型的局限性.在本文的基礎上,下一步將進一步研究基于集對優(yōu)勢度的不完備序決策系統(tǒng)的屬性約簡和規(guī)則提取方法. [1]PawlakZ.Roughset[J].InternationalJournalofComputerandInformationSciences,1982,11:341-356. [2]KryszkiewiczM.Roughsetapproachtoincompleteinformationsystem[J].InformationSciences,1998,112:39-49. [3]StefanowskiJ,TsoukiasA.OntheExtensionofRoughSetsUnderIncompleteInformation[C].//ProceedingsofNewDirectionsinRoughSets,DataMiningandGranular-SoftComputing.Berlin:Springer,1999:73-81. [4] 王國胤.Rough集理論在不完備信息系統(tǒng)中的擴充[J].計算機研究與發(fā)展,2002,39(10):1 238-1 243. [5] 黃麗萍.區(qū)間序信息系統(tǒng)在向量相似度下的優(yōu)勢關系及屬性約簡[J].齊齊哈爾大學學報:自然科學版,2015,31(6):1-4. [6]GrecoS,MatarazzoB.SlowingskiR.Roughsetstheoryformulticriteriadecisionanalysis[J].EuropeanJournalofOperationalResearch,2001,129(1):1-47. [7]ShaoMW,ZhangWX.Dominancerelationandrulesinanincompleteorderedinformationsystem[J],InternationalJournalofIntelligentSystems,2005,20:13-27. [8] 胡明禮,劉思峰.基于廣義擴展優(yōu)勢關系的粗糙決策分析方法[J].控制與決策,2007,22(12):1 347-1 351. [9] 駱公志,楊曉江,周德群.基于限制擴展優(yōu)勢關系的粗糙決策分析模型[J].系統(tǒng)管理學報,2009,18(4):391-396. [10] 韋碧鵬,呂躍進,李金海.α優(yōu)勢下的粗糙集模型的屬性約簡[J].智能系統(tǒng)學報,2014,9(2):251-257. [11] 陶志,胡樹芹,不完備偏好決策系統(tǒng)中一種擴展優(yōu)勢關系模型.中國民航大學學報,2015,32(4):51-55. [12] 施玉杰,楊宏志,徐久成.α先驗概率優(yōu)勢關系下的粗糙集模型研究[J].南京大學學報:自然科學版,2016,52(5):899-907. [13] 莫京蘭,呂躍進,李金海.不完備序信息系統(tǒng)的模型擴展及其屬性約簡[J].南京大學學報:自然科學版,2015,51(2):430-437. [14] 趙克勤.集對分析及其初步應用[M].1版.杭州:浙江科學技術出版社,2000. [15] 黃兵,周獻中.基于集對分析的不完備信息系統(tǒng)粗糙集模型[J].計算機科學,2002,29(7):1-3. [16] 劉富春.變集對聯系度的擴充粗糙集模型及其屬性約簡[J].計算機科學,2006,33(3):185-187. [17] 李長清,李克典,李進金.不完備信息系統(tǒng)確定性和集對聯系度的粗糙擴展模型[J].工程數學學報,2010,27(2):342-346. [18] 趙煥煥,菅利榮,劉勇.基于順勢相似關系的變精度粗糙集模型[J].計算機工程與應用,2017,53(6):51-56. [19] 翟育明,蔡紅,郭斌.(α,β)集對限制優(yōu)勢粗糙集及決策模型[J].系統(tǒng)管理學報,2014,23(3):437-443. [20] 菅利榮,劉思峰,謝乃明.雜合灰色聚類與擴展優(yōu)勢粗集的概率決策方法[J].系統(tǒng)工程學報,2010,25(4):554-560. [21]WinterS.Locationsimilarityofregions[J].ISPRSJournalofPhotogrammetry&RemoteSensing(S0924-2716),2000,55:189-200 Incomplete Ordered Information System Rough Set Model Based on Set-Pair Dominant Degree HUANG Li-ping (School of Computer,Minnan Normal University,Zhangzhou 363000,China) Rough set model of incomplete ordered information system is an extension of classical rough set model,which can deal with the data with unknown attribute values and dominance relation.For similar dominance relation condition was too loose and limited extended dominance relation was too strict,motivated by the problem,set-pair dominant degree rough set model was proposed base on the analysis of set-pair,which can be by adjusting the parameters,to achieve the ideal classification,overcome the shortcomings of the dominance relation in the existing incomplete ordered information system definition.And the feasibility of the model was verified by an example.Finally,we carried on the simulation experiment on UCI data sets and the experimental results illustrate that the classification results were more accuracy can be obtained based on the set pair dominance relation. rough set,incomplete ordered information system,limited dominant relation,set-pair dominant degree 2016-12-13 福建省教育廳科技項目(JAT160305)資助 黃麗萍,E-mail:liphuang@126.com. TP391 A 1672-6634(2017)01-0097-053 實例分析
4 仿真實驗
5 結束語