国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

混合數(shù)據(jù)特征選擇算法及在客戶流失預(yù)測中的應(yīng)用

2013-11-19 09:40周君儀馬少輝
關(guān)鍵詞:約簡粗糙集特征選擇

周君儀,馬少輝

(江蘇科技大學(xué) 經(jīng)濟(jì)管理學(xué)院,江蘇 鎮(zhèn)江 212003)

粗糙集理論是由Pawlak[1]提出的一種處理含糊和不確定性問題的數(shù)學(xué)工具,隨著粗糙集的發(fā)展,出現(xiàn)了很多擴(kuò)展型粗糙集[2-4].在粗糙集的研究中,約簡是一個核心概念.很顯然,約簡是特征選擇的過程,特征選擇出的子集具有最小的數(shù)據(jù)量且最具代表性.傳統(tǒng)的粗糙集特征選擇是針對離散型數(shù)據(jù)進(jìn)行處理的,而對于連續(xù)型數(shù)據(jù),常采用的處理手段是采用離散化方法將數(shù)據(jù)進(jìn)行分割,但可能會引入量化誤差、改變數(shù)據(jù)的本質(zhì)結(jié)構(gòu),從而導(dǎo)致知識發(fā)現(xiàn)能力的下降.

在現(xiàn)實(shí)世界中會出現(xiàn)大量數(shù)據(jù)既包含離散型數(shù)據(jù)(比如性別、職業(yè)),又包含連續(xù)型數(shù)據(jù)(比如收入、通話時長)的情況,這些數(shù)據(jù)量大,數(shù)據(jù)維數(shù)高,如果不進(jìn)行特征選擇可能就無法進(jìn)行進(jìn)一步的分析.文獻(xiàn)[5]引入模糊粗糙集的概念,設(shè)計(jì)了針對混合數(shù)據(jù)集的特征選擇算法.但其所定義的基于模糊等價關(guān)系的相對熵不是單調(diào)變化的,屬性的重要性會出現(xiàn)負(fù)的情況.在特征選擇時,只選取大于零的值,但負(fù)值也表明將某一個屬性進(jìn)行約簡的時候信息量發(fā)生了一定程度的改變,說明這個屬性具有一定的重要性.文中針對混合型數(shù)據(jù),在文獻(xiàn)[6]所提的CEBARKNC算法的基礎(chǔ)上引入模糊粗糙集[7-9]思想,對屬性重要性進(jìn)行改進(jìn),使其結(jié)果均為正值.進(jìn)行約簡時,對屬性重要性選取設(shè)定閾值λ,放寬屬性約簡的邊界,使特征選擇能更符合真實(shí)數(shù)據(jù)的特性.文中將經(jīng)過改進(jìn)的CEBARKNC算法用于實(shí)際客戶流失預(yù)測問題,并與文獻(xiàn)[5]的特征選擇方法進(jìn)行了對比分析.

1 模糊粗糙集基本概念

1.1 模糊相似關(guān)系

在粗糙集中,等價關(guān)系要滿足自反性、對稱性、傳遞性.而在模糊系統(tǒng)中只要滿足自反性和對稱性就可以稱之為模糊相似關(guān)系.通過模糊相似關(guān)系可以構(gòu)建模糊相似矩陣.要構(gòu)建模糊相似關(guān)系矩陣,必須引入模糊相似關(guān)系的度量,即計(jì)算相似系數(shù)的方法,可以采用絕對值倒數(shù)法

計(jì)算相似系數(shù),構(gòu)建模糊相似矩陣M(R′)

1.2 模糊等價關(guān)系

文中采用平方自合成法求最大值最小值傳遞閉包,通過求傳遞閉包可以將模糊相似矩陣構(gòu)建為模糊等價矩陣,它既具有傳遞性,又具有自反性和對稱性.

令S為一模糊相似矩陣,依次求其平方:S→S2→S4→…→S2i→…,(i=1,2,3,…).第一次出現(xiàn)Sk°Sk=Sk時,Sk為所求傳遞閉包,也即為所求模糊等價矩陣

由xi和R得到的模糊等價類為

1.3 基于模糊粗糙集的條件信息熵

2 基于模糊信息熵的混合數(shù)據(jù)特征選擇算法改進(jìn)

2.1 改進(jìn)算法

在基于模糊粗糙集理論的基礎(chǔ)上,文中設(shè)計(jì)了一個改進(jìn)CEBARKNC啟發(fā)式算法進(jìn)行特征選擇,其算法如下:

輸出:該決策系統(tǒng)的一個相對約簡B.

Step2.采用平方自合成法計(jì)算傳遞閉包,求得模糊等價矩陣.

2.2 算法驗(yàn)證

采用UCI數(shù)據(jù)庫中的數(shù)據(jù)集對算法有效性進(jìn)行驗(yàn)證.選取數(shù)據(jù)集見表1.同時采用文中改進(jìn)的CEBARKNC算法和胡清華提出的一個fuzzy-rough算法進(jìn)行特征選擇,結(jié)果見表2.下文中“Hu′s f-r”表示胡清華提出的一個fuzzy-rough算法.

表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experiment data sets

表2 特征選擇屬性個數(shù)Table 2 Numbers of attribute selection of improved CEBARKNC and Hu′s f-r algorithm

由表2可以看出,文中所改進(jìn)的CEBARKNC算法能較有效地進(jìn)行特征選擇.對于特征選擇結(jié)果的評價通常以分類器的分類性能來檢驗(yàn),以表2的特征選擇結(jié)果為基礎(chǔ),構(gòu)建決策樹,并分別計(jì)算改進(jìn)CEBARKNC算法和胡清華提出的一個fuzzy-rough算法的準(zhǔn)確率,對比結(jié)果見表3.

由表2,3可看出,采用文中改進(jìn)的CEBARKNC算法得出的準(zhǔn)確都比較高,說明改進(jìn)的CEBARKNC算法不僅能取得較好的特征選擇結(jié)果,而且能取得較高的準(zhǔn)確率,也說明文中改進(jìn)的算法較適合于以決策樹為模型的準(zhǔn)確率評價結(jié)果.

表3 決策樹與特征選擇結(jié)果比較Table 3 Comparisions of attribute selection with decision tree

3 客戶流失預(yù)測實(shí)驗(yàn)及結(jié)果

客戶流失預(yù)測是一個重要的管理問題,國內(nèi)外學(xué)者對此進(jìn)行了大量研究[10-12].預(yù)測模型精度是一個受數(shù)據(jù)的預(yù)處理技術(shù),分類模型的構(gòu)建技術(shù),評價指標(biāo)等多方面因素影響的問題.

文中所設(shè)計(jì)的特征選擇算法在數(shù)據(jù)預(yù)處理階段對數(shù)據(jù)進(jìn)行了主要特征的選擇,極大地降低數(shù)據(jù)維度,減少模型建立的難度和時間,提高了效率.文中采用分類性能來評價特征選擇的好壞.將處理過的數(shù)據(jù)進(jìn)一步用于客戶流失預(yù)測分類器建模,既進(jìn)行了客戶流失預(yù)測,又以預(yù)測性能檢驗(yàn)了特征選擇算法的有效性.

3.1 數(shù)據(jù)和特征選擇

實(shí)驗(yàn)所用原始數(shù)據(jù)為KDD CUP2009所提供的一個混合型數(shù)據(jù)集.該數(shù)據(jù)集包括50 000個客戶,條件屬性有230個,其中有190個屬性的數(shù)據(jù)值是連續(xù)數(shù)字型的,40個屬性的數(shù)據(jù)值是字符型的.

首先對原始數(shù)據(jù)進(jìn)行清理,將屬性數(shù)據(jù)缺失率超過90%的屬性進(jìn)行刪除,剩余屬性77個.然后在數(shù)據(jù)集中選取相對有效數(shù)據(jù)43 704條,再通過平均值法對數(shù)據(jù)集中仍然缺失的少量數(shù)據(jù)進(jìn)行填充,構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集A.該數(shù)據(jù)集是典型的混合型數(shù)據(jù),對預(yù)處理之后的數(shù)據(jù)集,根據(jù)改進(jìn)的CEBARKNC算法,設(shè)定λ=0.000 005,對數(shù)據(jù)集A進(jìn)行特征選擇.

3.2 結(jié)果與分析

文中實(shí)驗(yàn)所使用數(shù)據(jù)集屬性數(shù)為230個,其中有190個屬性的數(shù)據(jù)值是連續(xù)數(shù)字型的,40個屬性的數(shù)據(jù)值是字符型的.首先采用改進(jìn)的CEBARKNC算法進(jìn)行特征選擇,然后采用胡清華提出的一個fuzzy-rough算法進(jìn)行特征選擇,結(jié)果見表4.

表4 改進(jìn)CEBARKNC算法和Hu′s f-r算法特征選擇Table 4 Attribute selection of improved CEBARKNC and Hu′s f-r algorithm

將特征選擇結(jié)果應(yīng)用于客戶流失預(yù)測中,在進(jìn)行客戶流失預(yù)測的同時,用分類器的性能來評價特征選擇算法的好壞.用數(shù)據(jù)集對模型訓(xùn)練以后,分別以神經(jīng)網(wǎng)絡(luò)(ANN)、邏輯回歸建模,得出訓(xùn)練集和測試集的運(yùn)算結(jié)果.對比結(jié)果見表5,6.

表5 采用ANN的改進(jìn)CEBARKNC算法與Hu′s f-r算法對比Table 5 Comparison of improved CEBARKNC using ANN with Hu′s f-r algorithm

表6 采用邏輯回歸的改進(jìn)CEBARKNC算法與Hu′s f-r算法對比Table 6 Comparison of improved CEBARKNC using logic regression with Hu′s f-r algorithm

表5中,將改進(jìn)CEBARKNC算法和fuzzy-rough算法得出的數(shù)據(jù)集用于神經(jīng)網(wǎng)絡(luò),經(jīng)過5折交叉確認(rèn),可以看出改進(jìn)CEBARKNC算法性能比胡清華提出的一個fuzzy-rough算法好.

表6中,將改進(jìn)CEBARKNC算法和fuzzy-rough算法得出的數(shù)據(jù)集用于邏輯回歸,經(jīng)過5折交叉確認(rèn),可以看出改進(jìn)CEBARKNC算法性能比胡清華提出的一個fuzzy-rough算法好.

經(jīng)過神經(jīng)網(wǎng)絡(luò)、邏輯回歸建模之后的性能比較,可以看出改進(jìn)的CEBARKNC算法得出的數(shù)據(jù)集性能比胡清華提出的一個fuzzy-rough算法得出的數(shù)據(jù)集性能都要好.

4 結(jié)論

1)文中以改進(jìn)的基于模糊粗糙集CEBARKNC算法,選取了高維混合數(shù)據(jù)的主要特征,極大的減少了冗余屬性對預(yù)測模型的影響,提高了效率.

2)文中為了檢驗(yàn)算法的有效性,將其應(yīng)用于客戶流失預(yù)測中,分別采用支持神經(jīng)網(wǎng)絡(luò)、邏輯回歸構(gòu)建客戶流失預(yù)測模型.結(jié)果表明:文中所改進(jìn)的CEBARKNC算法能有效地處理混合型數(shù)據(jù)集,且經(jīng)過文中所提特征選擇算法處理過的數(shù)據(jù)集比胡清華提出的一個fuzzy-rough算法得出的數(shù)據(jù)集的預(yù)測效果好,說明改進(jìn)的CEBARKNC算法是有效的,且能成功應(yīng)用于客戶流失預(yù)測研究中.

[1] Pawlak Z.Rough setstheoretical aspect of reasoning about data [M].London:Proceedings of Kluwer Academic Publishers,1991.

[2] Mi J S,Zhang W X.An axiomatic characterization of a fuzzy generalization of rough sets[J].InformationSciences,2004,160 (1-4): 235-249.

[3] 楊習(xí)貝,竇慧莉,宋曉寧,等.廣義不完備序值系統(tǒng)中的優(yōu)勢關(guān)系粗糙集[J].江蘇科技大學(xué)學(xué)報(bào):自然科學(xué)版,2011,25 (3): 262-267.

Yang Xibei,Dou Huili,Song Xiaoning,et al.Dominance-based rough set in generalized incomplete ordered system[J].JournalofJiangsuUniversityofScienceandTechnology:NaturalScienceEdition,2011,25 (3): 262-267.(in Chinese)

[4] Yang Xibei,Zhang Ming,Dou Huili,et al.Neighborhood systems-based rough sets in incomplete information system[J].Knowledge-BasedSystems,2011,24(6): 858-867.

[5] Hu Qinghua,Yu Daren,Xie Zongxia.Information-preserving hybrid data reduction based on fuzzy-rough techniques[J].PatternRecognitionLetters,2006,27:414-423.

[6] 王國胤,于洪,楊大春.基于條件信息熵的決策表約簡[J].計(jì)算機(jī)學(xué)報(bào),2002,25(7):759-766.

Wang Guoyin,Yu Hong,Yang Dachun.Decision table reduction based on conditional information entropy[J].ChineseJournalofComputers,2002,25(7):759-766.(in Chinese)

[7] Chen Degang,Zhao Suyun.Local reduction of decision system with fuzzy rough sets[J].FuzzySetsandSystems,2010,1619(13):1871-1883.

[8] Parthal′ain N M,Richard J.Finding fuzzy-rough reducts with fuzzy entropy [C]∥In:Proc.17thInternat.Conf.onFuzzySystems.Hongkong:IEEE,2008: 1282-1288.

[9] 徐菲菲,苗奪謙,魏萊,等.基于互信息的模糊粗糙集屬性約簡[J].電子與信息學(xué)報(bào),2008,30(6):1372-1375.

Xu Feifei,Miao Duoqian,Wei Lai,et al.Mutual information-based algorithm for fuzzy-rough attribute reduction[J].JournalofElectronics&InformationTechnology,2008,30(6):1372-1375.(in Chinese)

[10] Huang Bingquan,Kechadi M T,Buckley B.Customer churn prediction in telecommunications[J].ExpertSystemswithApplications,2012,39(1):1414-1425.

[11] 羅彬,邵培基,羅盡堯,等.基于粗糙集理論-神經(jīng)網(wǎng)絡(luò)-蜂群算法集成的客戶流失研究[J].管理學(xué)報(bào),2011,8(2):256-272.

Luo Bin,Shao Peiji,Luo Jinyao,et al.Customer churn research based on multiple classifier fusing rough sets-neural network-artificial bee colony algorithm[J].ChineseJournalofManagement,2011,8(2):256-272.(in Chinese)

[12] Risselada H,Peter C V,Tammo H A B.Staying power of churn prediction models[J].JournalofInteractiveMarketing,2010,24: 198-208.

猜你喜歡
約簡粗糙集特征選擇
粗糙集與包絡(luò)分析下艦船運(yùn)行數(shù)據(jù)聚類算法
基于粗糙集不確定度的特定類屬性約簡
基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
基于二進(jìn)制鏈表的粗糙集屬性約簡
實(shí)值多變量維數(shù)約簡:綜述
廣義分布保持屬性約簡研究
基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
Kmeans 應(yīng)用與特征選擇
基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
基于決策技術(shù)和粗糙集理論的診斷知識庫構(gòu)建研究
仲巴县| 怀安县| 扬中市| 如东县| 昌吉市| 富顺县| 长丰县| 安丘市| 台江县| 喀喇| 定陶县| 台南县| 普陀区| 邵武市| 诸城市| 北海市| 炉霍县| 马公市| 岳普湖县| 左云县| 托克逊县| 泽库县| 从江县| 内黄县| 松原市| 竹北市| 西平县| 西乌| 黎川县| 元朗区| 冕宁县| 太原市| 江津市| 邮箱| 嫩江县| 封开县| 赤壁市| 菏泽市| 乌拉特后旗| 隆安县| 南康市|