国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

支持向量機(jī)在分析型CRM中的應(yīng)用研究

2010-08-14 01:11:26楊啟仁杜圣東
關(guān)鍵詞:超平面數(shù)據(jù)倉庫數(shù)據(jù)挖掘

楊啟仁 ,杜圣東

(1.貴州民族學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,貴州 貴陽 550025;2.西南交通大學(xué) CAD工程中心,四川 成都 610031)

隨著通信市場競爭的加劇,移動運(yùn)營商之間對客戶的爭奪也日趨激烈。各運(yùn)營商都有自己完整的運(yùn)營支撐系統(tǒng),如計(jì)費(fèi)系統(tǒng)、帳務(wù)系統(tǒng)、營業(yè)系統(tǒng)和客戶服務(wù)系統(tǒng)等。這些系統(tǒng)累積了海量的客戶相關(guān)數(shù)據(jù),很多企業(yè)也都擁有自己的客戶關(guān)系管理CRM(Custom Relationship Management)系統(tǒng)[1]。如何通過數(shù)據(jù)挖掘技術(shù)對CRM系統(tǒng)中累積的大量歷史數(shù)據(jù)進(jìn)行分析處理,以提供有效的決策知識,從而獲得新客戶,提高客戶滿意度、防止客戶流失是分析型CRM的目標(biāo)。分析型CRM[2](Analytic CRM)是創(chuàng)新和使用客戶知識(在這一過程中采用數(shù)據(jù)倉庫、OLAP和數(shù)據(jù)挖掘技術(shù)對客戶數(shù)據(jù)進(jìn)行分析,提煉出有用信息),幫助企業(yè)提高優(yōu)化客戶關(guān)系的決策能力和整體運(yùn)營能力的概念、方法、過程以及軟件的集合。CRM從上世紀(jì)90年代初基于部門級的專用解決方案,(如銷售隊(duì)伍自動化、客戶服務(wù)支持)發(fā)展到現(xiàn)在以客戶為中心的整體解決方案,尤其是Internet的迅猛發(fā)展與成熟的電子商務(wù)平臺,大大推進(jìn)了應(yīng)用的廣度和深度。目前,數(shù)據(jù)挖掘與CRM相結(jié)合的分析型CRM相關(guān)技術(shù)的研究與應(yīng)用成為學(xué)術(shù)界和工業(yè)界研究的熱點(diǎn)。

統(tǒng)計(jì)學(xué)習(xí)理論[3]是一種專門研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論,支持向量機(jī)SVM(Support Vector Machine)作為一種新的數(shù)據(jù)挖掘技術(shù),是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來的新的學(xué)習(xí)算法。由于其基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,即由有限的訓(xùn)練樣本集得到較小的誤差以確保對獨(dú)立的測試樣本集仍保持較小的誤差,因此能有效地解決過學(xué)習(xí)問題,具有良好的推廣性;另外,由于SVM算法能解決凸優(yōu)化問題,局部最優(yōu)解就是其全局最優(yōu)解,因此具有較好的分類準(zhǔn)確性。這些優(yōu)良特性使得SVM成為繼人工神經(jīng)網(wǎng)絡(luò)ANN(Artifical Neural Network)[4]和模式識別之后的又一研究熱點(diǎn)。最有代表性的是美國郵政手寫數(shù)字庫識別研究成功地應(yīng)用了SVM。在其他應(yīng)用領(lǐng)域,如人臉識別、語音識別、模式識別、圖像處理及文本分類等方面也取得了大量的研究成果。

本文在研究支持向量機(jī)并將其應(yīng)用于分析型CRM的過程中,以移動通信作為分析型CRM系統(tǒng)的典型應(yīng)用行業(yè),其原因除了滿足更激烈的商業(yè)競爭外,還在于其擁有較為完整的、規(guī)范化的并對其發(fā)展戰(zhàn)略十分重要的客戶數(shù)據(jù)基礎(chǔ)。根據(jù)CRM中的客戶歷史數(shù)據(jù)對未來客戶流失的可能性進(jìn)行預(yù)測評估,為決策者提供有用知識具有一定的實(shí)用意義。

1支持向量機(jī)(SVM)

VAPNIK V提出的SVM理論[5]最基本的思想之一是結(jié)構(gòu)化風(fēng)險(xiǎn)最小化原則SRM(Structural Risk Minimization),該理論優(yōu)于傳統(tǒng)的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則ERM(Empirical Risk Minimization)。不同于ERM試圖最小化訓(xùn)練集上的誤差的做法,SRM試圖最小化VC維的上界(SRM和VC維理論見參考文獻(xiàn)[6]),與傳統(tǒng)的降維方法相反,SVM通過提高數(shù)據(jù)的維度把非線性分類問題轉(zhuǎn)換成線性分類問題,較好地解決了傳統(tǒng)學(xué)習(xí)算法(如人工神經(jīng)網(wǎng)絡(luò))中訓(xùn)練集誤差最小而測試集誤差仍較大的問題,算法的效率和精度都有很大提高。近年來該方法成為構(gòu)造數(shù)據(jù)挖掘分類模型和數(shù)據(jù)挖掘回歸預(yù)測模型的一項(xiàng)新型技術(shù)。

1.1 SVM分類算法

SVM是通過構(gòu)造一個(gè)最優(yōu)超平面,對二值分類問題進(jìn)行分割。所謂最優(yōu)分類面就是要求分類面不但能將二值分類正確分開(保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小),而且使分類間隔最大。

以對 m 個(gè)樣本:(x1,y1),(x2,y2),…,(xm,ym)求解最優(yōu)分類超平面為例,求解系數(shù)w和b,使超平面(wx)+b=0達(dá)到分類誤差小、推廣能力強(qiáng)的要求。必須滿足最優(yōu)分類超平面的條件:

根據(jù)最優(yōu)化理論,利用Lagrange函數(shù)將其轉(zhuǎn)化為求解標(biāo)準(zhǔn)型二次型規(guī)劃問題:

求解上式得最優(yōu)分類決策函數(shù)為:

b0可由約束條件 αi[yi(wTxi+b)-1]=0求解,αi不為零的樣本即為支持向量。

對于非線性二元分類,則通過某種事先選擇的非線性映射(即核函數(shù)),將輸入向量x映射到一個(gè)高維特征空間中,然后在這個(gè)高維空間中構(gòu)造最優(yōu)分類超平面,這種方法通過核函數(shù)做升維處理避免了在高維特征空間中進(jìn)行復(fù)雜的運(yùn)算。

1.2 SVM分類預(yù)測模型

由于現(xiàn)有的SVM分類模型[7]用于數(shù)據(jù)挖掘還處于試驗(yàn)階段,通常只對訓(xùn)練好的模型做簡單的測試。雖然測試模型可以對該模型的推廣性能做出一些定量分析,但在現(xiàn)實(shí)中該分類模型是否真正實(shí)用還需了解其特點(diǎn),如模型推廣性、模型穩(wěn)定性等??蓪VM分類模型應(yīng)用于分析型CRM的客戶流失分類預(yù)測,分類模型的完整建立過程分為:學(xué)習(xí)階段、測試階段和評估階段。

1.2.1學(xué)習(xí)訓(xùn)練階段

(1)從客戶主題數(shù)據(jù)集市中抽取客戶相關(guān)數(shù)據(jù)建立訓(xùn)練樣本集;

(2)選擇合適的核函數(shù)及核參數(shù),作為高維特征空間在低維輸入空間的一個(gè)等效形式;

(3)對輸入訓(xùn)練樣本進(jìn)行規(guī)范化,將輸入數(shù)據(jù)限定在核函數(shù)要求的范圍之內(nèi);

(4)構(gòu)造核矩陣 H(n,n);

(5)在式(7)約束條件下,最大化式(8),以求解拉格朗日系數(shù) a;

(6)找出支持向量SV,求解分類超平面系數(shù)b;

(7)建立訓(xùn)練數(shù)據(jù)的最優(yōu)決策超平面,完成訓(xùn)練過程。

1.2.2測試階段

(1)裝入SVM學(xué)習(xí)階段的有關(guān)數(shù)據(jù),包括訓(xùn)練數(shù)據(jù),系數(shù)a、b,以及得到的支持向量 SV;

(2)根據(jù)

計(jì)算新輸入測試數(shù)據(jù)樣本的相應(yīng)決策輸出值;

(3)利用指示函數(shù)將 f(x)歸為{-1,+1},做出分類決策。

1.2.3評估階段

在用實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練和測試模型時(shí),只是對該模型的預(yù)測效果作簡單的對比,如果訓(xùn)練好的模型實(shí)際輸出與預(yù)測輸出誤差很小,可認(rèn)為該模型推廣能力強(qiáng)。但現(xiàn)實(shí)中的數(shù)據(jù)是多變的,只是用歷史數(shù)據(jù)進(jìn)行預(yù)測,并不能表明該模型在后續(xù)預(yù)測中一直會有好的效果。本文所提出的評估階段實(shí)際上是預(yù)測模型的試運(yùn)行過程,在該過程中,把現(xiàn)實(shí)中的數(shù)據(jù)輸入測試好的模型,根據(jù)輸出對模型作一些優(yōu)化和調(diào)整。

以上三個(gè)階段是一個(gè)循環(huán)往復(fù)的過程:首先用訓(xùn)練集建立初始模型,將測試集輸入訓(xùn)練好的初始模型得出測試誤差,如果誤差較大則反復(fù)修正初始模型,當(dāng)修正后的模型效果達(dá)到要求時(shí),再用評價(jià)數(shù)據(jù)集對該模型進(jìn)行評價(jià),如果評估效果不好,則返回修正模型,如此反復(fù)直到得出最優(yōu)的分類預(yù)測模型。

2分析型CRM

2.1分析型CRM體系結(jié)構(gòu)

分析型CRM體系結(jié)構(gòu)如圖1所示,分為數(shù)據(jù)源層、數(shù)據(jù)存儲層、應(yīng)用支持層和用戶交互層。

圖1 分析型CRM體系結(jié)構(gòu)

(1)數(shù)據(jù)源層包括了企業(yè)常用信息系統(tǒng)和一些外部系統(tǒng)的數(shù)據(jù)源,如涉及客戶交互的一些交易系統(tǒng)和服務(wù)系統(tǒng),但各系統(tǒng)間的客戶數(shù)據(jù)是分散的,而且可能重合,會出現(xiàn)不一致的問題。

(2)數(shù)據(jù)存儲層是為了整個(gè)企業(yè)有集中統(tǒng)一的客戶視圖,通過從各源系統(tǒng)抽取數(shù)據(jù),進(jìn)行整合的數(shù)據(jù)倉庫,在客戶數(shù)據(jù)倉庫的基礎(chǔ)上,可以建立相關(guān)分析的客戶主題數(shù)據(jù)集市。

(3)應(yīng)用支持層除了支持復(fù)雜、智能化報(bào)表查詢外,還支持OLAP分析,提供數(shù)據(jù)挖掘功能。

(4)用戶交互層提供分析、挖掘結(jié)果,企業(yè)管理、決策層和企業(yè)其他服務(wù)人員與客戶的交互形成反饋機(jī)制,從而有效地利用分析和挖掘得到有用知識。

本文研究重點(diǎn)是陰影板塊部分:

(1)在企業(yè)已有CRM數(shù)據(jù)倉庫的基礎(chǔ)上,抽取出客戶流失預(yù)測相關(guān)的數(shù)據(jù),建立相關(guān)主題的客戶數(shù)據(jù)集市;

(2)從客戶主題數(shù)據(jù)集市中抽取客戶流失相關(guān)表的一些關(guān)鍵屬性字段,形成SVM分類預(yù)測挖掘模型的輸入數(shù)據(jù);

(3)通過對SVM分類預(yù)測模型的訓(xùn)練和驗(yàn)證,并對最優(yōu)模型進(jìn)行應(yīng)用,進(jìn)一步驗(yàn)證反饋,形成比較穩(wěn)定的客戶流失分類預(yù)測模型。

2.2分析型CRM主題數(shù)據(jù)集市設(shè)計(jì)

通信行業(yè)主要采用事實(shí)表和維表的形式建立數(shù)據(jù)倉庫。在建立數(shù)據(jù)集市過程中重點(diǎn)考慮BOSS系統(tǒng)和分析型CRM的接口,不僅要實(shí)現(xiàn)物理上的轉(zhuǎn)化,而且還要在邏輯上實(shí)現(xiàn)從BOSS系統(tǒng)實(shí)體到數(shù)據(jù)倉庫實(shí)體的成功過渡。這是因?yàn)閿?shù)據(jù)倉庫的數(shù)據(jù)不再是業(yè)務(wù)類型,而是按主題組織。如BOSS系統(tǒng)中含有客戶管理類實(shí)體、計(jì)費(fèi)賬務(wù)管理類實(shí)體等;而數(shù)據(jù)倉庫則分為客戶主題、賬務(wù)主題等。

本文中客戶主題數(shù)據(jù)集市[8]是從CRM數(shù)據(jù)倉庫中抽取客戶數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、帳務(wù)數(shù)據(jù)等信息,這些數(shù)據(jù)經(jīng)過轉(zhuǎn)換、裝載、聚合進(jìn)入到接口數(shù)據(jù)層,可作為客戶流失分類預(yù)測模型的基礎(chǔ)數(shù)據(jù);數(shù)據(jù)模型層再根據(jù)模型需求對接口層數(shù)據(jù)進(jìn)行匯總,生成客戶流失分類預(yù)測挖掘模型輸入的寬表,總體數(shù)據(jù)集市結(jié)構(gòu)如圖2所示。

圖2 客戶主題數(shù)據(jù)集市結(jié)構(gòu)圖

3實(shí)證研究

3.1電信數(shù)據(jù)處理

本文針對流失挖掘的需求建立了相關(guān)的客戶主題數(shù)據(jù)集市,從客戶數(shù)據(jù)倉庫中抽取流失分類預(yù)測挖掘主題相關(guān)的數(shù)據(jù),即提取與客戶流失因素相關(guān)的屬性,并且選擇部分?jǐn)?shù)據(jù)作為訓(xùn)練集。涉及到的數(shù)據(jù)源(這里只列出有代表性的字段,實(shí)際模型調(diào)整過程中,個(gè)別字段和屬性可根據(jù)業(yè)務(wù)建議和模型本身特點(diǎn)添加或者刪減)如表1所示。

表1 數(shù)據(jù)源描述

在提取的與流失因素相關(guān)的屬性中,既有單粒度屬性,又有多重粒度的屬性,還有派生屬性。在屬性選擇的過程中,用到了屬性歸約和泛化技術(shù),最終選取表1中的屬性作為模型輸入字段,客戶流失標(biāo)記(在網(wǎng)、流失)作為模型輸出??蛻袅魇?biāo)記的處理如下:在2個(gè)月的預(yù)測期和1個(gè)月的評估期中,正??蛻艨梢猿尸F(xiàn)出多種異常狀態(tài)。文中以其中3種狀態(tài)為流失傾向的客戶特征,對其做流失標(biāo)記:

(1)拆機(jī)。

(2)2個(gè)月零通話(2個(gè)月總通話次數(shù)=0且總發(fā)短信次數(shù)=0)。

(3)2個(gè)月低額消費(fèi)(每個(gè)月通話次數(shù)≤5且每個(gè)月發(fā)短信次數(shù)≤5),代表一定的流失傾向。

流失分類預(yù)測模型利用3個(gè)月的的歷史數(shù)據(jù)對客戶在未來2個(gè)月的流失傾向進(jìn)行預(yù)測,用未來第3個(gè)月的數(shù)據(jù)進(jìn)行評估。本文選擇基于200501~200504月之間3個(gè)月的客戶數(shù)據(jù)對SVM模型進(jìn)行訓(xùn)練,用200505~200506之間1個(gè)月的數(shù)據(jù)進(jìn)行預(yù)測,用200507月的客戶數(shù)據(jù)進(jìn)行評估。

3.2實(shí)驗(yàn)結(jié)果分析

經(jīng)過數(shù)據(jù)預(yù)處理后,形成了模型輸入的匯總表(即寬表),輸入到本文的SVM分類預(yù)測模型中進(jìn)行訓(xùn)練、預(yù)測和評估。模型指標(biāo)評價(jià)如圖3所示,模型的評價(jià)指標(biāo)主要是查全率和查準(zhǔn)率,具體指標(biāo)如下:

查準(zhǔn)率=命中用戶/預(yù)測離網(wǎng)用戶

查全率=命中用戶/實(shí)際離網(wǎng)用戶

圖3 模型指標(biāo)評價(jià)

通過對SVM模型的反復(fù)調(diào)整,形成最優(yōu)模型時(shí)各處理階段的數(shù)據(jù)如表2所示。

表2 實(shí)驗(yàn)結(jié)果

從表2的實(shí)驗(yàn)數(shù)據(jù)可以看出,本文中的SVM分類模型相對ANN分類模型,做客戶流失分類預(yù)測和評估時(shí)的查全率和查準(zhǔn)率都有一定提高。在訓(xùn)練階段,由于ANN存在過度訓(xùn)練情況,查全率和查準(zhǔn)率都比SVM的訓(xùn)練精度要高;而測試階段,SVM模型良好的推廣性得到了驗(yàn)證,相比ANN的查全、查準(zhǔn)率有較大提高;在評估階段,SVM分類模型相對于ANN更是表現(xiàn)出了很好的穩(wěn)定性。

分析型CRM在各領(lǐng)域的應(yīng)用已經(jīng)十分廣泛,能否有效地應(yīng)用數(shù)據(jù)挖掘技術(shù)對于分析型CRM十分關(guān)鍵。本文將支持向量機(jī)這種新的數(shù)據(jù)挖掘方法應(yīng)用于移動領(lǐng)域客戶流失挖掘,對客戶離網(wǎng)的可能性進(jìn)行預(yù)測,為決策者提供有用知識。實(shí)驗(yàn)中對SVM和ANN這兩種模型用于流失分類預(yù)測的效果進(jìn)行了對比,結(jié)果顯示SVM相比ANN具有更優(yōu)的分類預(yù)測效果和更好的模型穩(wěn)定性,從而驗(yàn)證了SVM應(yīng)用于分析型CRM中的客戶流失挖掘是有效可行的。

[1]BARNES J G.Secrets of customer relationship management[M].McGraw.Hill Education,2001.

[2]BERSON A, SMITH S, THEARLING K.Building data mining applications for crm[M].McGraw.Hill Education,1999.

[3]VAPNIK V.The nature of statistical learning theory[M].New York, Springer, 1995.

[4]ALMEIDA J S.Predictive non-linear modeling of complex data by artificial neural networks[J].Curr Opin Biotechnol.2002,13(1):72-6.

[5]CRISTIANINI N,SHAWE J.An introduction to support vector machines,Cambridge[M].U.K Cambridge University Press,2000.

[6]CHERKASSKY V, SHAO X, MULIER F, et al.Model complexity control for regression using VC generalization Bounds[J].IEEE Transaction on Neural Networks, 1999,10(5):1075-1089.

[7]田盛豐,黃厚寬.基于支持向量機(jī)的數(shù)據(jù)庫學(xué)習(xí)算法[J].計(jì)算機(jī)研究與發(fā)展,2000,37(1):17-22.

[8]陳潔謦.數(shù)據(jù)倉庫與決策支持系統(tǒng)[M].北京:科學(xué)出版社,2005.

猜你喜歡
超平面數(shù)據(jù)倉庫數(shù)據(jù)挖掘
全純曲線的例外超平面
涉及分擔(dān)超平面的正規(guī)定則
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
以較低截?cái)嘀財(cái)?shù)分擔(dān)超平面的亞純映射的唯一性問題
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)學(xué)年刊A輯(中文版)(2015年1期)2015-10-30 01:55:44
麻城市| 龙胜| 富裕县| 项城市| 鄂托克旗| 沁阳市| 勃利县| 莆田市| 百色市| 昌平区| 岳池县| 临西县| 嘉善县| 汝城县| 高台县| 长汀县| 红安县| 韶山市| 自贡市| 张家界市| 泌阳县| 津市市| 玉山县| 济宁市| 抚顺市| 鄂托克前旗| 都昌县| 乌拉特中旗| 阿尔山市| 文化| 治县。| 高邑县| 都昌县| 五指山市| 塔城市| 凌源市| 泰安市| 夹江县| 边坝县| 石阡县| 辉县市|