周君儀,馬少輝
(江蘇科技大學(xué) 經(jīng)濟(jì)管理學(xué)院,江蘇 鎮(zhèn)江 212003)
粗糙集理論是由Pawlak[1]提出的一種處理含糊和不確定性問題的數(shù)學(xué)工具,隨著粗糙集的發(fā)展,出現(xiàn)了很多擴(kuò)展型粗糙集[2-4].在粗糙集的研究中,約簡是一個核心概念.很顯然,約簡是特征選擇的過程,特征選擇出的子集具有最小的數(shù)據(jù)量且最具代表性.傳統(tǒng)的粗糙集特征選擇是針對離散型數(shù)據(jù)進(jìn)行處理的,而對于連續(xù)型數(shù)據(jù),常采用的處理手段是采用離散化方法將數(shù)據(jù)進(jìn)行分割,但可能會引入量化誤差、改變數(shù)據(jù)的本質(zhì)結(jié)構(gòu),從而導(dǎo)致知識發(fā)現(xiàn)能力的下降.
在現(xiàn)實(shí)世界中會出現(xiàn)大量數(shù)據(jù)既包含離散型數(shù)據(jù)(比如性別、職業(yè)),又包含連續(xù)型數(shù)據(jù)(比如收入、通話時長)的情況,這些數(shù)據(jù)量大,數(shù)據(jù)維數(shù)高,如果不進(jìn)行特征選擇可能就無法進(jìn)行進(jìn)一步的分析.文獻(xiàn)[5]引入模糊粗糙集的概念,設(shè)計(jì)了針對混合數(shù)據(jù)集的特征選擇算法.但其所定義的基于模糊等價關(guān)系的相對熵不是單調(diào)變化的,屬性的重要性會出現(xiàn)負(fù)的情況.在特征選擇時,只選取大于零的值,但負(fù)值也表明將某一個屬性進(jìn)行約簡的時候信息量發(fā)生了一定程度的改變,說明這個屬性具有一定的重要性.文中針對混合型數(shù)據(jù),在文獻(xiàn)[6]所提的CEBARKNC算法的基礎(chǔ)上引入模糊粗糙集[7-9]思想,對屬性重要性進(jìn)行改進(jìn),使其結(jié)果均為正值.進(jìn)行約簡時,對屬性重要性選取設(shè)定閾值λ,放寬屬性約簡的邊界,使特征選擇能更符合真實(shí)數(shù)據(jù)的特性.文中將經(jīng)過改進(jìn)的CEBARKNC算法用于實(shí)際客戶流失預(yù)測問題,并與文獻(xiàn)[5]的特征選擇方法進(jìn)行了對比分析.
在粗糙集中,等價關(guān)系要滿足自反性、對稱性、傳遞性.而在模糊系統(tǒng)中只要滿足自反性和對稱性就可以稱之為模糊相似關(guān)系.通過模糊相似關(guān)系可以構(gòu)建模糊相似矩陣.要構(gòu)建模糊相似關(guān)系矩陣,必須引入模糊相似關(guān)系的度量,即計(jì)算相似系數(shù)的方法,可以采用絕對值倒數(shù)法
計(jì)算相似系數(shù),構(gòu)建模糊相似矩陣M(R′)
文中采用平方自合成法求最大值最小值傳遞閉包,通過求傳遞閉包可以將模糊相似矩陣構(gòu)建為模糊等價矩陣,它既具有傳遞性,又具有自反性和對稱性.
令S為一模糊相似矩陣,依次求其平方:S→S2→S4→…→S2i→…,(i=1,2,3,…).第一次出現(xiàn)Sk°Sk=Sk時,Sk為所求傳遞閉包,也即為所求模糊等價矩陣
由xi和R得到的模糊等價類為
在基于模糊粗糙集理論的基礎(chǔ)上,文中設(shè)計(jì)了一個改進(jìn)CEBARKNC啟發(fā)式算法進(jìn)行特征選擇,其算法如下:
輸出:該決策系統(tǒng)的一個相對約簡B.
Step2.采用平方自合成法計(jì)算傳遞閉包,求得模糊等價矩陣.
采用UCI數(shù)據(jù)庫中的數(shù)據(jù)集對算法有效性進(jìn)行驗(yàn)證.選取數(shù)據(jù)集見表1.同時采用文中改進(jìn)的CEBARKNC算法和胡清華提出的一個fuzzy-rough算法進(jìn)行特征選擇,結(jié)果見表2.下文中“Hu′s f-r”表示胡清華提出的一個fuzzy-rough算法.
表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experiment data sets
表2 特征選擇屬性個數(shù)Table 2 Numbers of attribute selection of improved CEBARKNC and Hu′s f-r algorithm
由表2可以看出,文中所改進(jìn)的CEBARKNC算法能較有效地進(jìn)行特征選擇.對于特征選擇結(jié)果的評價通常以分類器的分類性能來檢驗(yàn),以表2的特征選擇結(jié)果為基礎(chǔ),構(gòu)建決策樹,并分別計(jì)算改進(jìn)CEBARKNC算法和胡清華提出的一個fuzzy-rough算法的準(zhǔn)確率,對比結(jié)果見表3.
由表2,3可看出,采用文中改進(jìn)的CEBARKNC算法得出的準(zhǔn)確都比較高,說明改進(jìn)的CEBARKNC算法不僅能取得較好的特征選擇結(jié)果,而且能取得較高的準(zhǔn)確率,也說明文中改進(jìn)的算法較適合于以決策樹為模型的準(zhǔn)確率評價結(jié)果.
表3 決策樹與特征選擇結(jié)果比較Table 3 Comparisions of attribute selection with decision tree
客戶流失預(yù)測是一個重要的管理問題,國內(nèi)外學(xué)者對此進(jìn)行了大量研究[10-12].預(yù)測模型精度是一個受數(shù)據(jù)的預(yù)處理技術(shù),分類模型的構(gòu)建技術(shù),評價指標(biāo)等多方面因素影響的問題.
文中所設(shè)計(jì)的特征選擇算法在數(shù)據(jù)預(yù)處理階段對數(shù)據(jù)進(jìn)行了主要特征的選擇,極大地降低數(shù)據(jù)維度,減少模型建立的難度和時間,提高了效率.文中采用分類性能來評價特征選擇的好壞.將處理過的數(shù)據(jù)進(jìn)一步用于客戶流失預(yù)測分類器建模,既進(jìn)行了客戶流失預(yù)測,又以預(yù)測性能檢驗(yàn)了特征選擇算法的有效性.
實(shí)驗(yàn)所用原始數(shù)據(jù)為KDD CUP2009所提供的一個混合型數(shù)據(jù)集.該數(shù)據(jù)集包括50 000個客戶,條件屬性有230個,其中有190個屬性的數(shù)據(jù)值是連續(xù)數(shù)字型的,40個屬性的數(shù)據(jù)值是字符型的.
首先對原始數(shù)據(jù)進(jìn)行清理,將屬性數(shù)據(jù)缺失率超過90%的屬性進(jìn)行刪除,剩余屬性77個.然后在數(shù)據(jù)集中選取相對有效數(shù)據(jù)43 704條,再通過平均值法對數(shù)據(jù)集中仍然缺失的少量數(shù)據(jù)進(jìn)行填充,構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集A.該數(shù)據(jù)集是典型的混合型數(shù)據(jù),對預(yù)處理之后的數(shù)據(jù)集,根據(jù)改進(jìn)的CEBARKNC算法,設(shè)定λ=0.000 005,對數(shù)據(jù)集A進(jìn)行特征選擇.
文中實(shí)驗(yàn)所使用數(shù)據(jù)集屬性數(shù)為230個,其中有190個屬性的數(shù)據(jù)值是連續(xù)數(shù)字型的,40個屬性的數(shù)據(jù)值是字符型的.首先采用改進(jìn)的CEBARKNC算法進(jìn)行特征選擇,然后采用胡清華提出的一個fuzzy-rough算法進(jìn)行特征選擇,結(jié)果見表4.
表4 改進(jìn)CEBARKNC算法和Hu′s f-r算法特征選擇Table 4 Attribute selection of improved CEBARKNC and Hu′s f-r algorithm
將特征選擇結(jié)果應(yīng)用于客戶流失預(yù)測中,在進(jìn)行客戶流失預(yù)測的同時,用分類器的性能來評價特征選擇算法的好壞.用數(shù)據(jù)集對模型訓(xùn)練以后,分別以神經(jīng)網(wǎng)絡(luò)(ANN)、邏輯回歸建模,得出訓(xùn)練集和測試集的運(yùn)算結(jié)果.對比結(jié)果見表5,6.
表5 采用ANN的改進(jìn)CEBARKNC算法與Hu′s f-r算法對比Table 5 Comparison of improved CEBARKNC using ANN with Hu′s f-r algorithm
表6 采用邏輯回歸的改進(jìn)CEBARKNC算法與Hu′s f-r算法對比Table 6 Comparison of improved CEBARKNC using logic regression with Hu′s f-r algorithm
表5中,將改進(jìn)CEBARKNC算法和fuzzy-rough算法得出的數(shù)據(jù)集用于神經(jīng)網(wǎng)絡(luò),經(jīng)過5折交叉確認(rèn),可以看出改進(jìn)CEBARKNC算法性能比胡清華提出的一個fuzzy-rough算法好.
表6中,將改進(jìn)CEBARKNC算法和fuzzy-rough算法得出的數(shù)據(jù)集用于邏輯回歸,經(jīng)過5折交叉確認(rèn),可以看出改進(jìn)CEBARKNC算法性能比胡清華提出的一個fuzzy-rough算法好.
經(jīng)過神經(jīng)網(wǎng)絡(luò)、邏輯回歸建模之后的性能比較,可以看出改進(jìn)的CEBARKNC算法得出的數(shù)據(jù)集性能比胡清華提出的一個fuzzy-rough算法得出的數(shù)據(jù)集性能都要好.
1)文中以改進(jìn)的基于模糊粗糙集CEBARKNC算法,選取了高維混合數(shù)據(jù)的主要特征,極大的減少了冗余屬性對預(yù)測模型的影響,提高了效率.
2)文中為了檢驗(yàn)算法的有效性,將其應(yīng)用于客戶流失預(yù)測中,分別采用支持神經(jīng)網(wǎng)絡(luò)、邏輯回歸構(gòu)建客戶流失預(yù)測模型.結(jié)果表明:文中所改進(jìn)的CEBARKNC算法能有效地處理混合型數(shù)據(jù)集,且經(jīng)過文中所提特征選擇算法處理過的數(shù)據(jù)集比胡清華提出的一個fuzzy-rough算法得出的數(shù)據(jù)集的預(yù)測效果好,說明改進(jìn)的CEBARKNC算法是有效的,且能成功應(yīng)用于客戶流失預(yù)測研究中.
[1] Pawlak Z.Rough setstheoretical aspect of reasoning about data [M].London:Proceedings of Kluwer Academic Publishers,1991.
[2] Mi J S,Zhang W X.An axiomatic characterization of a fuzzy generalization of rough sets[J].InformationSciences,2004,160 (1-4): 235-249.
[3] 楊習(xí)貝,竇慧莉,宋曉寧,等.廣義不完備序值系統(tǒng)中的優(yōu)勢關(guān)系粗糙集[J].江蘇科技大學(xué)學(xué)報(bào):自然科學(xué)版,2011,25 (3): 262-267.
Yang Xibei,Dou Huili,Song Xiaoning,et al.Dominance-based rough set in generalized incomplete ordered system[J].JournalofJiangsuUniversityofScienceandTechnology:NaturalScienceEdition,2011,25 (3): 262-267.(in Chinese)
[4] Yang Xibei,Zhang Ming,Dou Huili,et al.Neighborhood systems-based rough sets in incomplete information system[J].Knowledge-BasedSystems,2011,24(6): 858-867.
[5] Hu Qinghua,Yu Daren,Xie Zongxia.Information-preserving hybrid data reduction based on fuzzy-rough techniques[J].PatternRecognitionLetters,2006,27:414-423.
[6] 王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計(jì)算機(jī)學(xué)報(bào),2002,25(7):759-766.
Wang Guoyin,Yu Hong,Yang Dachun.Decision table reduction based on conditional information entropy[J].ChineseJournalofComputers,2002,25(7):759-766.(in Chinese)
[7] Chen Degang,Zhao Suyun.Local reduction of decision system with fuzzy rough sets[J].FuzzySetsandSystems,2010,1619(13):1871-1883.
[8] Parthal′ain N M,Richard J.Finding fuzzy-rough reducts with fuzzy entropy [C]∥In:Proc.17thInternat.Conf.onFuzzySystems.Hongkong:IEEE,2008: 1282-1288.
[9] 徐菲菲,苗奪謙,魏萊,等.基于互信息的模糊粗糙集屬性約簡[J].電子與信息學(xué)報(bào),2008,30(6):1372-1375.
Xu Feifei,Miao Duoqian,Wei Lai,et al.Mutual information-based algorithm for fuzzy-rough attribute reduction[J].JournalofElectronics&InformationTechnology,2008,30(6):1372-1375.(in Chinese)
[10] Huang Bingquan,Kechadi M T,Buckley B.Customer churn prediction in telecommunications[J].ExpertSystemswithApplications,2012,39(1):1414-1425.
[11] 羅彬,邵培基,羅盡堯,等.基于粗糙集理論-神經(jīng)網(wǎng)絡(luò)-蜂群算法集成的客戶流失研究[J].管理學(xué)報(bào),2011,8(2):256-272.
Luo Bin,Shao Peiji,Luo Jinyao,et al.Customer churn research based on multiple classifier fusing rough sets-neural network-artificial bee colony algorithm[J].ChineseJournalofManagement,2011,8(2):256-272.(in Chinese)
[12] Risselada H,Peter C V,Tammo H A B.Staying power of churn prediction models[J].JournalofInteractiveMarketing,2010,24: 198-208.