岑琴
(溫州醫(yī)學院 信息工程學院,浙江 溫州 325000)
自從有人類開始,飾品便與服裝同時出現(xiàn),發(fā)展到今天,已有久遠的歷史。怎樣將飾品融入現(xiàn)代文化觀念,怎樣設計新的飾品,及什么樣的設計才能被消費者接受,都是新一代飾品設計所面臨的新問題。信息化的推進讓企業(yè)積累了大量的數(shù)據,企業(yè)必須有效管理已有的信息,而這些數(shù)據通常是零散的、不規(guī)范的,像噪聲數(shù)據、空缺數(shù)據和不一致數(shù)據等問題都會給領導的決策帶來了困擾?,F(xiàn)在企業(yè)面臨的一個共同問題是企業(yè)數(shù)據量非常大,而其中真正有價值的信息卻很少。數(shù)據挖掘技術的出現(xiàn),給企業(yè)決策者帶來了輔助決策支持。企業(yè)可以利用先進的數(shù)據挖掘和商務智能分析技術對信息進行加工,企業(yè)領導必須將經營模式轉變?yōu)橐钥蛻魹橹行?,為客戶提供個性化服務。準確的客戶分類是企業(yè)有效地實施客戶關系管理的基礎??蛻舴诸愂歉鶕蛻魧傩詠韯澐挚蛻艏?,通過獲得的客戶類別來分析和預測客戶的消費模式。建立起一對一的客戶服務體系,實行差異化的客戶管理[1]。
數(shù)據挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據庫中的大量業(yè)務數(shù)據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數(shù)據[2]。數(shù)據挖掘技術在飾品營銷管理上的應用主要體現(xiàn)在通過數(shù)據挖掘來分析不同類型顧客的需求特征,尋找顧客購買的行為模式及其規(guī)律,從而為營銷策略的制定提供依據。通過數(shù)據挖掘,可以對營銷策略及措施的實施結果進行分析,進而對營銷活動的效果做出評估,為進一步改進營銷決策提供參考。
1.2.1 算法概述
決策樹是數(shù)據挖掘中應用最廣泛的技術之一,是用于分類和預測的主要技術,決策樹學習是以實例為基礎的歸納學習算法,著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則[3]。它是運用于分類的一種樹結構,其中的每個內部節(jié)點非葉子節(jié)點代表對某個屬性的一次測試,一條邊代表一個測試結果,葉子代表某個類或者類的分布,最上面的節(jié)點是根節(jié)點。用決策樹進行分類首先利用訓練集建立并精化一棵決策樹,建立決策樹模型,然后利用生成的決策樹對輸入數(shù)據進行分類,從根節(jié)點依次測試記錄的屬性值,直到到達某個葉子節(jié)點,從而找到該記錄所在的類。
1.2.2 決策樹構造
以信息論原理為基礎,利用信息論中信息增益尋找數(shù)據庫中具有最大信息量的字段,建立決策樹的一個節(jié)點,然后根據字段的不同取值建立樹的分支,在每個分支中重復建立樹的下層節(jié)點和分支。
設S是訓練樣本的集合,其中每個樣本的類標號都是已知的。假定有m個類,集合S中類別Ci的記錄個數(shù)是 Ni個, i=1,2,…,m。
設屬性 A具有值{a1,…,av},屬性 A可以用來對 S進行分組,將 S分為子集 S1,…,Sv,其中 Sj包含 S中值為aj的那些樣本。設Sj包含類Ci的Sij個樣本。根據A的這種劃分的期望信息稱為屬性A的熵,為:
熵是一個衡量系統(tǒng)混亂程度的統(tǒng)計量。熵越大,表示系統(tǒng)越混亂。分類的目的是提取系統(tǒng)信息,使系統(tǒng)向更加有序、有規(guī)則組織的方向發(fā)展。所以自然而然的,最佳的分裂方案是使熵減少量最大。熵減少量就是Information Gain,所以,最佳分裂就是使 Gain(A)最大的分裂方案[4]。
根據XG飾品有限公司的客戶數(shù)據集D,構造“客戶類別”的分類決策樹。根據計算可以得到各個屬性的Gain值,決定決策樹各級別的屬性,圖1顯示了該決策樹可預測列的屬性值。
圖1 決策樹可預測列的屬性值
決策樹算法是一個貪心算法,采用自頂向下的遞歸方式,通常分為兩個階段:決策樹的生成(Building)和決策樹修剪(Pruning)。建立樹的過程是不斷地把數(shù)據分割的過程,開始時數(shù)據都在根節(jié)點,然后遞歸地進行數(shù)據分片,產生下一級節(jié)點。每次分割對應一個問題,也對應一個節(jié)點。樹的剪枝即去掉一些可能是噪聲或異常的數(shù)據。在微軟的決策樹中,樹中的每一個節(jié)點代表一列特定事例,將此節(jié)點放在何處由算法計算做出,而且與其兄弟在不同深度的節(jié)點可能代表每列不同的事例,樹結構的節(jié)點代表進一步對數(shù)據進行分類的單個問題。下面給出一種二叉樹的建樹算法程序[3]:
本文依托項目的企業(yè)目前采取的客戶政策比較被動,靠的是老客戶帶來新客戶,并沒有主動尋找新客戶,由于種種原因,客戶源非常不穩(wěn)定,因而失去了很大的一片市場。
客戶分類是企業(yè)有效銷售、營銷、服務的基礎,是把大量的客戶分成不同的類,在每個類里的客戶擁有相似的屬性,而不同類別的客戶屬性也不同。通過分類分析推斷哪些客戶群是最有可能購買的客戶,哪些對企業(yè)最有價值,為公司帶來最大利潤的客戶群體的特征是什么。影響客戶分類的因素很多,最主要的因素有客戶自然屬性(如經營類型、渠道類型、所在地區(qū)、性別、年齡)、銷售額度等。在談論客戶價值的時候,要了解客戶的購買力、信譽度等其他的指標,可以結合飾品的銷售情況和客戶的信息,通過有關數(shù)據挖掘算法進行分析。
根據客戶分類挖掘目標決定其數(shù)據來源,在數(shù)據倉庫中可以選擇客戶信息表和銷售事實表,它們提供客戶的基本信息和交易信息,由于交易信息流動性很大,因此只選擇銷售事實表中2006年的數(shù)據。對客戶信息表的屬性只選擇客戶編碼、年齡、客戶類型、教育程度、性別、經營品牌、婚姻狀態(tài)、擁有車子數(shù)和年收入;對銷售事實表的屬性只選擇客戶編碼和銷售金額。
由于數(shù)據挖掘對數(shù)據有一些特殊的要求,因此必須作進一步的數(shù)據處理工作。屬性的選擇是基于一個啟發(fā)式規(guī)則或者一個統(tǒng)計的度量,一般情況下,所選的屬性都是分類屬性,根據決策樹算法對數(shù)據的特殊要求,如果屬性是連續(xù)的,需要將其離散化,如客戶購買產品的金額。
在數(shù)據源視圖中,實現(xiàn)年齡、年收入等連續(xù)數(shù)據的離散化。對vMemberCard的Age和YearlyIncome創(chuàng)建命名計算,手工離散化列,Age的手工離散化方法如下:
以同樣方式實現(xiàn)YearlyIncome的離散化,為數(shù)據挖掘提供所需的數(shù)據。
根據得到的客戶數(shù)據,利用信息增益的計算提取認為可能對購買力變量有影響作用的變量作為數(shù)據挖掘的細分 變 量 , 包 含 Age、EducationLevel、Gender、MaritalStatus、Region、NumberCarsOwned、TotalChildren、YearlyIncome 這 些字段。本文中將數(shù)據劃分為2個表,分別作為訓練數(shù)據集和測試數(shù)據集。訓練數(shù)據集用于訓練模型,表中有2 300條記錄數(shù);測試數(shù)據集用于驗證模型的準確性,表中記錄有700條。
2.2.1 決策樹算法參數(shù)設置
Microsoft決策樹算法有許多參數(shù)。這些參數(shù)可以用來控制樹的增長、樹的形狀和輸入/輸出屬性的設置。通過調整這些參數(shù)的設置,可以對模型的精確度進行微調,下面介紹本文涉及到的部分參數(shù)[4]。
Complexity_Penalty參數(shù):用來控制樹的增長。它是一個浮點類型的參數(shù),值的范圍在0到1之間。值設置一般與輸入屬性的數(shù)量有關。由于本文采用的輸入屬性少于10個,因而將這個值設得比較小。
Split_Method參數(shù):用來控制樹的形狀。Split_Method=1意味著只能采用二叉的方式進行拆分;Split_Method=2意味著采用完全拆分方式;而當Split_Method參數(shù)設置為3,決策樹將會針對實際的問題自動地選擇這兩種方式中較好的一種方式來對節(jié)點進行拆分。因而,本文將Split_Method設為 3。
2.2.2 構造分類數(shù)據挖掘模型
使用Analysis Services進行本次數(shù)據挖掘,基于現(xiàn)有數(shù)據倉庫中的表和列定義挖掘結構,以DecorationDW.dsv為數(shù)據源視圖,vMemberCard指定為分析時要使用的表類型,其中CustomerID變量為鍵,MemberCard變量作為 可 預 測 列 ,Age、EducationLevel、Gender、MaritalStatus、Region、NumberCarsOwned、TotalChildren、YearlyIncome 變 量作為輸入列,采用Microsoft決策樹模型為數(shù)據挖掘模型,且允許對挖掘模型進行鉆取操作。
為了進行準確預測,需要對挖掘模型進一步處理,選擇 “DecorationDW_OLAP”的vMemberCard作為預測模型,Dim_Customer為事例表,此時就建立了兩張表之間的映射,以PredictProbability([v Member Card].[Member Card]函數(shù)為預測函數(shù)對客戶的會員卡類型進行歸類、預測。
經過挖掘軟件分析處理后,可以得到該公司客戶群的決策樹模型,將背景設為“Copper”后將呈現(xiàn)“Copper”客戶群的決策樹模型,如圖2所示。節(jié)點的底紋顏色越深,表示節(jié)點中的事例越多。例如,在第2級中YearlyIncome=“Low”該節(jié)點的底紋顏色較深,說明其中客戶類型為“Copper”的事例 YearlyIncome=“Low”所占的比重較大。
圖2 Copper客戶類型的決策樹模型
通過對決策樹模型的分析可得出一些有用的信息,為公司管理層提供決策支持:
(1)在現(xiàn)有的數(shù)據基礎上,通過分類分析推斷哪些客戶群是最有可能購買的客戶,哪些對企業(yè)最有價值,為公司帶來最大利潤的客戶群體的特征是什么。
(2)通過決策樹了解到影響各種類型客戶的因素,可隨時關注各類潛在客戶的動態(tài),擴大客戶群。
(3)根據分析得到的各類客戶類型的特征及其購買力,輔助公司更準確地對客戶進行定位,企業(yè)可以給不同類型的客戶提供個性化的服務,建立與客戶的一種持續(xù)的個性化的關系,保持他們對企業(yè)和產品的忠誠,擴大市場,促進銷售。
(4)根據各類客戶類型所占有的比重,調整公司的生產計劃,以更好地適應市場,以客戶為中心。
2.2.3 使用模型預測客戶
該企業(yè)采用的銷售方式比較靈活,針對于不同購買量的用戶采取不同的折扣,客戶類型分為經銷商(即簽約客戶)、零售商和散客。一般地級市銷售額達到一百萬以上的稱為經銷商,可以享受相當優(yōu)惠的條件,而地級市以下的銷售額達到幾十萬元的稱為零售商,普通的少量額度的客戶稱為散客。公司總共有3個品牌的產品,分為內銷和外銷兩種方式,客戶根據自身情況可以與公司簽訂合約,不同銷售方式有不同的優(yōu)惠政策。企業(yè)根據以往客戶的購買行為作為先驗知識,對每類用戶進行分類,根據每類客戶的特征預測當前客戶將會成為哪類客戶。
輸入一個新客戶屬性,通過DMX語句預測此客戶類型,如下所示:
查詢將以表的形式返回有關具有指定特征的客戶的會員卡類型和概率,如圖3所示。從該圖,可以看出輸入的此類客戶最有可能成為Copper類會員,企業(yè)可以根據挖掘信息對新客戶采取一定的優(yōu)惠政策,從而增加客戶量。
2.2.4 驗證挖掘模型準確性
以上用了訓練集中的2 300條記錄進行決策樹模型的構造,這個構造出的決策樹是否準確,對其他的記錄是否具有判定和預測的作用,必須要對其進行驗證。在Analysis Services中,把擁有700條記錄的測試數(shù)據集作為輸入表,對前面構造的挖掘模型進行驗證,把“v Member Card”作為可預測的列名。經過處理分析后,得到如圖4的提升圖。
圖3 利用決策樹模型預測新客戶會員卡類型
圖4 挖掘結構的數(shù)據挖掘提升圖
從圖4中的“挖掘圖例”表中可以得到:該決策樹挖掘模型的得分為0.89,分值較高;在樣本總體50%時,理想模型的總體正確率是50%,而本文構建的決策樹模型的總體正確率是46.5%。說明這個模型的準確率比較高,可以為決策支持提供幫助。
因此,飾品企業(yè)可以根據以上所得的決策樹模型來分析客戶數(shù)據,獲得各類會員的特點,對客戶進行分類,實現(xiàn)對客戶價值度、客戶結構等的研究。這樣有助于企業(yè)為不同類型的客戶制定針對性的營銷策略,找到針對性強的銷售分市場,穩(wěn)定并擴大客戶群體。
本文提出了將數(shù)據挖掘技術應用到飾品營銷中,并以XG公司2005年1月至2007年6月期間的歷史數(shù)據為例,使用決策樹算法進行飾品企業(yè)的客戶分類并對新客戶進行預測,且驗證了所采用的挖掘模型的準確性,實現(xiàn)對商業(yè)數(shù)據中隱藏信息的挖掘,從中提煉出對企業(yè)發(fā)展有用的信息,幫助領導正確定位客戶,實施個性化服務,預測產品客戶群,及時調整產品營銷策略,為飾品企業(yè)的決策提供了新的思路,具有一定的實用價值。
[1]周歡.CRM中客戶分類方法的研究與應用[J].計算機工程與設計,2008(3):659-661.
[2]Jiawei Han,Micheline Kamber.數(shù)據挖掘概念與技術[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2005.
[3]Wallstreet.數(shù)據挖掘中的基于決策樹的分類方法[DB/OL]. http://gemini-leo.blog.hexun.com/661682_d.html,2005-07-30.
[4]ZhaoHui Tang,Jamie MacLennan.數(shù)據挖掘原理與應用-SQL Server 2005數(shù)據庫[M].鄺祝芳譯.北京:清華大學出版社,2007.