董雪
關(guān)鍵詞:粗糙集;動態(tài);特征選擇;信息量;可分辨矩陣;正域
1 引言
所謂特征選擇,顧名思義是從原始特征空間中篩選與任務(wù)相關(guān)的特征,剔除無關(guān)、冗余及噪聲特征等[1]。 在大數(shù)據(jù)時代下,由于信息量急速增加,數(shù)據(jù)集的構(gòu)成具有動態(tài)變化和不確定性的特征,傳統(tǒng)特征選擇方法普遍面臨不能適應(yīng)的問題[2]。 粗糙集理論作為一種數(shù)據(jù)分析理論,是一種處理不精確、不確定與不完全數(shù)據(jù)的數(shù)學(xué)方法,被廣泛應(yīng)用于知識發(fā)現(xiàn)、模式識別、生物學(xué)及數(shù)據(jù)挖掘等領(lǐng)域,使得應(yīng)用粗糙集理論解決數(shù)據(jù)特征選擇面臨的上述不確定性問題成為可能。 本文主要對粗糙集理論下的動態(tài)特征選擇方法進(jìn)行研究和分析,總結(jié)現(xiàn)有的動態(tài)特征選擇方法,并對動態(tài)特性選擇發(fā)展趨勢進(jìn)行預(yù)測。
2 相關(guān)概念
2.1 粗糙集
信息系統(tǒng) S = (U,A,V,f),其中 U = { x1 ,x2 ,…,xn }是對象集,X?U,U | A 是 U 的一個劃分,X 的上下近似分別定義為
2.2 基于粗糙集的動態(tài)特征選擇框架
與靜態(tài)數(shù)據(jù)不同,動態(tài)數(shù)據(jù)常常在變化,且動態(tài)特征選擇的算法實現(xiàn)難度更高。 基于粗糙集的動態(tài)特征選擇是指對動態(tài)變化的數(shù)據(jù)進(jìn)行特征選擇。 目前,相關(guān)研究大都是基于增量方法來處理動態(tài)數(shù)據(jù)的變化,即充分利用歷史信息,提高特征選擇效率。 動態(tài)特征選擇框架如圖 1 所示,相關(guān)學(xué)者研究的算法屬于框架中的搜索策略步驟。
3 粗糙集背景下動態(tài)特征選擇算法
基于動態(tài)特征的選擇,若仍使用經(jīng)典的非增量特征選擇來處理,則會導(dǎo)致運行速度較慢,因此,學(xué)者設(shè)計了許多增量特征選擇算法去解決動態(tài)變化數(shù)據(jù)特征選擇的問題,歸納總結(jié)出動態(tài)特征選擇算法分為三類,即基于可分辨矩陣的動態(tài)特征選擇[4]、基于信息表示的動態(tài)特征選擇[5] 和基于正區(qū)域的動態(tài)特征選擇[6]
3.1 。 基于可分辨矩陣的動態(tài)特征選擇方法
3.1.1 基本思路
主要思路是“以不變應(yīng)萬變”,即針對數(shù)據(jù)每次的變化,不須重新計算可分辨矩陣,只須在原來的可分辨矩陣上增加或刪除列,并對新矩陣進(jìn)行核特征的修正,可以大大減少計算量。 在實際應(yīng)用中,將增加的新樣本與原有樣本比較, 可分辨矩陣隨之增加列(行),對其他元素沒有影響。
3.1.2 研究進(jìn)展
可分辨矩陣可以標(biāo)識條件屬性與決策屬性之間的關(guān)系,自張春英等提出基于粗集理論中的可分辨矩陣的動態(tài)特征提取算法后,滕寶等[7]基于 S?粗集和可分辨矩陣提出一種動態(tài)特征選擇算法,用來解決單向特征遷移集合的動態(tài)變化問題,但由于每添加一個樣本就需要掃描一次可分辨矩陣,使算法的搜索空間大大增加。 基于此,錢文彬等[8]提出一種快速的動態(tài)特征選擇矩陣算法,構(gòu)造了簡化矩陣,有效地縮小了算法的搜索空間;WEI 等[9] 基于可分辨矩陣,提出一種增量式動態(tài)屬性特征選擇; FELIX 等[10] 提出基于二進(jìn)制的差別矩陣,使差別矩陣元素由 0 和 1 組成,把存儲空間縮小至原來的一半;XU 等[11] 更進(jìn)一步地提出基于 0?1 整數(shù)規(guī)劃的動態(tài)特征選擇算法;在許多情況下,數(shù)據(jù)集往往通過引入一組數(shù)據(jù)而不是逐個引入單個對象來擴(kuò)展,MA 等[12]提出一種壓縮的二進(jìn)制可分辨矩陣,很好地解決了這個問題;景運革[13] 基于知識粒度提出一種高效動態(tài)特征選擇算法,在此基礎(chǔ)上,提出針對刪除式動態(tài)變化的特征選擇原理及算法;在大數(shù)據(jù)時代下,隨著數(shù)據(jù)的維度不斷增加,計算也隨之復(fù)雜,ZHOU 等把多維數(shù)據(jù)劃分為多個子集,利用現(xiàn)有子集及它們的核進(jìn)行計算,避免重復(fù)計算,降低了時間復(fù)雜度。
3.2 基于信息 。 表示的動態(tài)特征選擇方法
3.2.1 基本思路
根據(jù)知識信息量或者屬性重要度以及信息熵依次剔除無關(guān)特征,利用新增的對象對原有的信息量進(jìn)行修正,利用原有的信息量的結(jié)果遞歸計算信息系統(tǒng)變化后的信息量,并有效利用上一次的特征選擇結(jié)果很快地求出新的特征選擇。
3.2.2 研究進(jìn)展
在信息系統(tǒng)不斷變化的情況下,劉山等[14] 利用新增對象對原有信量進(jìn)行修正,對原有信息量的結(jié)果進(jìn)行遞歸計算,縮減了計算量,提高了效率;對于不確定信息系統(tǒng),陳亮等[15]定義了一種等價關(guān)系,以等價類決定屬性的條件信息量來定義屬性的重要度;針對多個對象被添加到一個決策表,LIANG 等[16] 提出一種基于信息熵的分組增量粗特征選擇算法;王永生等[17]以信息粒度為啟發(fā)信息,提出一種使得提取效果有較好傳承性的動態(tài)特征提取算法;對于不完備信息系統(tǒng),大多數(shù)學(xué)者集中于研究動態(tài)增加時的特征選擇。 基于此,董惠玉[18] 提出一種不完備信息系統(tǒng)的減少式特征選擇算法;當(dāng)只考慮已選特征和類別之間的動態(tài)變化信息量時,會使得特征選擇的分類準(zhǔn)確率下降,陳永波等[19] 結(jié)合已選特征與候選特征的交互相關(guān)性來選擇相關(guān)特征,與此同時,剔除無關(guān)特征和冗余特征,提出一種基于動態(tài)相關(guān)性的特征選擇算法.
3.3 基于正區(qū)域的動態(tài)特征選擇方法
3.3.1 基本思路
此類方法不需要建立可分辨矩陣,只對等價類進(jìn)行劃分,降低了時間和空間復(fù)雜度。 首先計算原始數(shù)據(jù)和動態(tài)數(shù)據(jù)的正域,然后依據(jù)兩種重要度及特征選擇搜索策略分別設(shè)計相應(yīng)的特征提取算法,最后基于啟發(fā)性動態(tài)特征選擇算法,即依據(jù)特征重要度來選擇特征子集的元素。 比較動態(tài)數(shù)據(jù)提取特征前后的重要度變化情況,變化越大,說明重要度越高,就將該特征加入特征子集中,反之則不加。
3.3.2 研究進(jìn)展
最初相關(guān)學(xué)者僅基于信息系統(tǒng)的不可分辨等價關(guān)系來規(guī)定正域,隨著粗糙集的逐漸成熟,有學(xué)者提出了很多基于粗糙集的動態(tài)特征選擇算法,如張春英等[20]針對集合元素的遷入與遷出,提出雙向概率 PS?粗糙集,并在此基礎(chǔ)上提出一種動態(tài)三支決策,有效提高提取特征的效率;但粗糙集只能直接處理離散化的數(shù)據(jù),連續(xù)型數(shù)據(jù)進(jìn)行離散化處理時會造成信息損失,SUN 等[21] 根據(jù)模糊集只關(guān)注知識模糊性這一特點,提出了模糊決策粗糙集模型,為動態(tài)特征選擇提供一個可以直接處理連續(xù)型數(shù)據(jù)的模型;在此啟發(fā)下,針對大規(guī)模直覺模糊信息系統(tǒng)數(shù)據(jù)量大、特征維數(shù)高、動態(tài)性強(qiáng)等特點,ZHANG 等[22] 基于直覺模糊粗糙集的相似關(guān)系和廣義動態(tài)抽樣理論,提出了一種廣義的動態(tài)特征選擇算法,同時解決了直覺模糊粗糙集無法處理大數(shù)據(jù)集的問題。
3.4 三種方法的適用類型及優(yōu)缺點
基于可分辨矩陣的動態(tài)特征選擇方法、基于信息表示的動態(tài)特征選擇方法和基于正區(qū)域的動態(tài)特征選擇方法的適用類型及優(yōu)缺點對比[23]如表 1 所列。
4 發(fā)展趨勢
針對動態(tài)數(shù)據(jù)中樣本對象動態(tài)變化、特征維度動態(tài)變化及特征值的動態(tài)變化三種變化情形,可以設(shè)計出多種不同的算法。 基于此,可以考慮如何利用上述三種動態(tài)特征選擇方法設(shè)計針對性算法,使效率更高。 在大數(shù)據(jù)環(huán)境下,很多信息系統(tǒng)是不完備的,但目前針對不完備的動態(tài)信息系統(tǒng)進(jìn)行特征提取研究較少,這是目前動態(tài)特征選擇的一大發(fā)展趨勢。 由于模糊集具有只對知識的模糊性感興趣的良好特性,因此,如何更好地利用粗糙集理論與模糊集理論的高效結(jié)合也是動態(tài)特征選擇的又一研究方向。
5 結(jié)束語
隨著學(xué)者的不斷探索和研究,動態(tài)特征選擇算法越來越多,但由于數(shù)據(jù)的多樣性及復(fù)雜性,使得現(xiàn)有算法性能不佳,動態(tài)數(shù)據(jù)特征選擇方法仍面臨巨大挑戰(zhàn)。