胡曉雪,趙嵩正,吳 楠
(西北工業(yè)大學(xué)管理學(xué)院,西安 710129)
基于SOM-DB-PAM混合聚類算法的電力客戶細(xì)分
胡曉雪,趙嵩正,吳 楠
(西北工業(yè)大學(xué)管理學(xué)院,西安 710129)
針對電力客戶具有客戶數(shù)量大、存在孤立點等特點,提出一種適用于對大量電力客戶進(jìn)行快速聚類的SOM-DB-PAM混合聚類算法。該算法利用自組織映射神經(jīng)網(wǎng)絡(luò)訓(xùn)練輸入數(shù)據(jù),以獲取代表輸入模式且數(shù)據(jù)量遠(yuǎn)小于輸入數(shù)據(jù)量的原型向量,使用圍繞中心點的切分(PAM)對該原型向量聚類并用Davies-Bouldin指標(biāo)判定最優(yōu)聚類個數(shù)以保證聚類效果。實驗結(jié)果表明,與傳統(tǒng)聚類算法相比,該算法具有更高的分類正確率,當(dāng)客戶數(shù)量較大時,能實現(xiàn)對客戶的快速、有效聚類,并減少人為指定聚類個數(shù)的盲目性和主觀性。
電力客戶細(xì)分;圍繞中心點的劃分;自組織映射;混合聚類算法;聚類分析
DO I:10.3969/j.issn.1000-3428.2015.10.056
隨著電力工業(yè)改革的深入推進(jìn)和智能電網(wǎng)建設(shè)的逐步開展,電力客戶在電力市場中的地位日益凸顯,這一趨勢促使供電企業(yè)將工作重點轉(zhuǎn)移到客戶服務(wù)上來,客戶服務(wù)質(zhì)量成為制約電力公司發(fā)展的關(guān)鍵因素。客戶細(xì)分是產(chǎn)品差異化戰(zhàn)略的一個替代概念[1],其主要思路是找出具有相似人口統(tǒng)計學(xué)、行為、價值特征的客戶群[2]。 細(xì)分戰(zhàn)略基于以下邏輯:針對類似客戶組成的更小群體的獨特需求所采取的營銷方式,應(yīng)當(dāng)比針對不同客戶組成的大市場需求所采取的營銷方式更有效率[3]。對市場
條件下的電力客戶進(jìn)行深度細(xì)分,有助于供電企業(yè)了解客戶用電行為,識別價值客戶,制定有針對性的服務(wù)措施和差異化營銷戰(zhàn)略,從而提升服務(wù)水平。
我國學(xué)者主要從供電企業(yè)的視角開展基于價值的電力客戶細(xì)分研究。在細(xì)分技術(shù)方面,層次聚類和K-means聚類,因為具有操作簡單和受大部分統(tǒng)計軟件支持的特性,被廣泛用于處理細(xì)分問題。文獻(xiàn)[4]建立了基于層次聚類的電力客戶細(xì)分模型;文獻(xiàn)[5]針對K-means初始條件隨機(jī)化、容易陷入局部最優(yōu)解的缺陷提出了一種改進(jìn)的Hopfield-K-means算法;文獻(xiàn)[6]在計算對象到聚類中心距離時考慮了指標(biāo)權(quán)重的影響,提出結(jié)合AHP加權(quán)的K-means聚類模型;大部分研究采用如下思路:建立電力客戶價值評價指標(biāo)體系;評估客戶價值;對價值評分進(jìn)行分類,此時,研究重點由細(xì)分技術(shù)轉(zhuǎn)換為評價指標(biāo)體系的構(gòu)建和評價方法的選?。?-9]。其中,文獻(xiàn)[10-11]分別采用K-means和BP神經(jīng)網(wǎng)絡(luò)對電力客戶價值評分聚類,后者嘗試使用遺傳算法優(yōu)化BP以解決BP存在局部收斂和收斂速度慢的問題。
然而,上述研究均未考慮客戶數(shù)量大的情形,層次聚類只適用于少量數(shù)據(jù),隨著客戶數(shù)的增加,對客戶逐個計算價值再聚類將非常耗時,“噪聲”和孤立點數(shù)據(jù)的增多直接影響聚類效果。圍繞中心點的劃分(Partitioning A round Medoids,PAM)聚類算法克服了K-means對孤立點數(shù)據(jù)的敏感性,但只適用于對少量客戶聚類且需預(yù)先確定聚類個數(shù),以往研究大多依據(jù)專家經(jīng)驗人為指定聚類數(shù)目,具有一定盲目性和主觀性。因此,本文針對電力客戶具有的客戶數(shù)多、數(shù)據(jù)量大、存在孤立數(shù)據(jù)等特點,提出一種基于SOM-DB-PAM的混合聚類算法,嘗試?yán)米越M織映射(Self-Organizing Feature Maps,SOM)神經(jīng)網(wǎng)絡(luò)的原型向量表征輸入模式的特性,結(jié)合PAM對孤立點的容忍能力,使用SOM對大量、多維電力客戶數(shù)據(jù)進(jìn)行訓(xùn)練,并用PAM對獲得的SOM原型向量聚類,用聚類效度指標(biāo)Davies-Bouldin(DB)確定最優(yōu)的聚類個數(shù),從而克服上述研究的不足,實現(xiàn)對大量電力客戶的自動有效細(xì)分。
遵循細(xì)分研究的5個基本主題:問題定義,研究設(shè)計,數(shù)據(jù)收集,數(shù)據(jù)分析,實施和對結(jié)果的理解及每個主題涉及的關(guān)鍵問題[12],本文進(jìn)行電力客戶細(xì)分的基本思路如圖1所示。
圖1 電力客戶細(xì)分基本思路
在問題定義和研究設(shè)計階段,由于從企業(yè)視角開展基于客戶終身價值(Customer Lifetime Value,CLV)的電力客戶細(xì)分研究對供電企業(yè)具有重要意義,本文的研究目標(biāo)設(shè)定為:基于客戶終身價值、以識別高價值客戶為目標(biāo)的電力客戶細(xì)分。客戶終身價值包含當(dāng)前價值和潛在價值兩部分,篩選衡量電力客戶價值的指標(biāo)構(gòu)成初始細(xì)分變量,由于研究對象是大量客戶,用于分析的客戶數(shù)據(jù)主要來源于供電企業(yè)電力營銷數(shù)據(jù)庫和業(yè)務(wù)文檔中存儲的靜態(tài)電力客戶基本信息和動態(tài)業(yè)務(wù)數(shù)據(jù),因此為盡量減少不確定因素對細(xì)分結(jié)果的干擾,在確定最終細(xì)分變量時,要基于簡明科學(xué)性、把握主導(dǎo)因素、變量獨立和可量可測的原則[13],還要綜合考慮數(shù)據(jù)的可獲取性和數(shù)據(jù)質(zhì)量并盡量移除需要人為賦值的定性指標(biāo)。在實施細(xì)分前,需對數(shù)據(jù)進(jìn)行預(yù)處理。
3.1 SOM,PAM和DB算法介紹
自組織映射神經(jīng)網(wǎng)絡(luò)SOM是一種同時具備矢量量化和矢量投影功能的無監(jiān)督神經(jīng)網(wǎng)絡(luò)。一個SOM由排列在低維空間(稱為輸出層)的m個神經(jīng)元(結(jié)點)組成,每個神經(jīng)元用一個d維權(quán)向量Wi=(Wi1,Wi2,…,Wid)表征(d代表輸入向量的維數(shù)),該權(quán)向量被稱為原型向量。SOM利用持續(xù)迭代的無指導(dǎo)學(xué)習(xí)對輸入數(shù)據(jù)進(jìn)行訓(xùn)練,目標(biāo)是將輸入向量映射到與其相似度最高的原型向量表征的結(jié)點中并保持?jǐn)?shù)據(jù)的拓?fù)浣Y(jié)構(gòu)不變。SOM可識別輸入數(shù)據(jù)具有自穩(wěn)性的最顯著特征,適用于大樣本數(shù)據(jù)。其缺點表現(xiàn)在:處理小樣本數(shù)據(jù)時,算法的學(xué)習(xí)效率依賴于樣本對象的輸入順序且受到網(wǎng)絡(luò)連接權(quán)重和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)選擇等的影響[14]。
K-medoid聚類算法的產(chǎn)生克服了K-means聚類用類中所有對象的均值表征各類中心,均值的計算受“噪聲”或孤立點干擾較重的問題。PAM試圖確定N個對象的K個劃分,是最基礎(chǔ)的K-medoid算法之一。PAM用被稱為中心點的一組對象代表簇中心以最小化非代表對象和最接近它們的中心點的平均相異度。算法包括2個階段:
(1)為每個類隨機(jī)選擇一個初始代表對象(中心點),將剩余對象按其與中心點的相異度或距離分配給離它最近的一個類,該過程稱為BUILD;
(2)反復(fù)用非代表對象替換中心點以提高聚類質(zhì)量;聚類質(zhì)量由一個代價函數(shù)評估,該函數(shù)度量一個非代表對象是否是當(dāng)前中心點的好的代替,如果是就進(jìn)行替換,否則不替換,直至聚類質(zhì)量無法再提高,此過程稱為SWAP;詳細(xì)步驟參見文獻(xiàn)[15]。
相比K-means,PAM具有較強(qiáng)的健壯性,對“噪聲”和孤立點數(shù)據(jù)不敏感,由它發(fā)現(xiàn)的簇與測試數(shù)據(jù)的輸入順序無關(guān),能夠處理不同類型的數(shù)據(jù)點。然而它和K-means一樣,需事先指定聚類個數(shù),其主要缺點還在于:當(dāng)數(shù)據(jù)量較大時算法的效率很低。
確定聚類個數(shù)的方法之一是分別使用不同的聚類個數(shù)運行聚類算法,使用效度指標(biāo)度量聚類結(jié)果從而判斷出類內(nèi)緊密性和類間分離度最佳的聚類數(shù)目[16],Davies-Bouldin(DB)指標(biāo)是常用的聚類效度指標(biāo),描述為:
其中,K代表聚類個數(shù);Si描述了一個類中所有點到類中心點的距離的均值;rij代表類i和類j的距離;向量mi表示類Ci的中心點;表示類Ci中包含的對象個數(shù),如式(2)和式(3)所示。DB越小表明類內(nèi)各對象與類中心距離越?。ňo密性)而類間距離(分離度)越大,聚類質(zhì)量越高。最小的 DB指標(biāo)所對應(yīng)的聚類個數(shù)即為最優(yōu)聚類數(shù)目。
3.2 SOM-DB-PAM混合聚類算法
現(xiàn)有聚類技術(shù)有各自的優(yōu)勢和局限,建立在不同技術(shù)有效組合或集成思路上的混合聚類技術(shù)能揚長避短,是細(xì)分技術(shù)未來的發(fā)展趨勢[17]。本文針對電力客戶數(shù)目大、存在孤立點數(shù)據(jù)的特點,提出SOM-DB-PAM混合聚類算法,算法包括2個階段:第1階段構(gòu)建SOM對大量輸入數(shù)據(jù)進(jìn)行訓(xùn)練,得到反映輸入數(shù)據(jù)最主要特征的原型向量;第2階段使用PAM對所獲得的原型向量再度聚類,同時,使用DB指標(biāo)自動判別最優(yōu)聚類數(shù)目以保證聚類效度,算法流程如圖2所示。該算法在集成SOM處理大樣本的優(yōu)勢和PAM健壯性的同時克服了人為指定聚類數(shù)目存在的困難和主觀性。
圖2 SOM-DB-PAM流程
在實際應(yīng)用中,由于SOM輸出層的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、原型向量初始化方法和學(xué)習(xí)算法會影響網(wǎng)絡(luò)的學(xué)習(xí)效率,第1階段初期需指定網(wǎng)絡(luò)結(jié)點數(shù)即原型向量個數(shù)n,遵循在保留輸入數(shù)據(jù)主要信息基礎(chǔ)上盡可能減少第2階段工作量的原則,n應(yīng)遠(yuǎn)小于輸入樣本個數(shù)并盡量大于最終所需的類目數(shù)。早期研究表明:超環(huán)面和球面SOM拓?fù)浣Y(jié)構(gòu)能克服平面結(jié)構(gòu)的邊緣效應(yīng)且行列數(shù)不相等的輸入矩陣比方陣更能準(zhǔn)確表達(dá)數(shù)據(jù)特征[18],因此,SOM應(yīng)選擇超環(huán)面或球面拓?fù)浣Y(jié)構(gòu)且避免將輸入矩陣設(shè)計為方陣;批學(xué)習(xí)算法具有速度快,可產(chǎn)生更穩(wěn)定的原型向量值和具備強(qiáng)的可再現(xiàn)能力的優(yōu)點,采用批學(xué)習(xí)算法對設(shè)計好的SOM進(jìn)行訓(xùn)練,為提高訓(xùn)練效率,使用線性初始化方法初始化原型向量。在第2階段中,以設(shè)定聚類數(shù)目的范圍[Kmin,Kmax]代替直接指定最終聚類數(shù),為使細(xì)分結(jié)果有意義,原則上 Kmin>1且Kmax<n,綜合考慮制定營銷策略時的實際需要并參考領(lǐng)域?qū)<业慕?jīng)驗適當(dāng)縮小[Kmin,Kmax]區(qū)間可提高細(xì)分結(jié)果的可解釋性和PAM的聚類效率。
SOM-DB-PAM混合聚類算法的主要思想是:對N個待聚類對象使用SOM先進(jìn)行“粗聚類”得到n個初步的類,再用PAM對這n個初步的類進(jìn)行正式聚類。由于PAM算法的時間復(fù)雜度為O(T2× d×K(N-K)2),其中,T2為算法收斂所需的迭代次
數(shù);K為中心點數(shù)目,即聚類個數(shù),每計算一次用非中心點替換中心點的代價所需時間為d×K(NK)2,當(dāng)樣本規(guī)模N和維數(shù)d都很大時,PAM的計算復(fù)雜度將非常高,而用電數(shù)據(jù)量大正是電力客戶細(xì)分面臨的主要問題,以某供電局管轄的居民客戶為例,平均每月產(chǎn)生的用電記錄數(shù) N>26000,引入SOM進(jìn)行“粗聚類”后,SOM-DB-PAM算法的復(fù)雜度為O(T1×n×d×N)+O(T2×d×K(n-K)2),其中,T1為SOM網(wǎng)絡(luò)訓(xùn)練所需的迭代次數(shù),由于使用SOM對數(shù)據(jù)進(jìn)行“粗聚類”時,最終的聚類結(jié)果不依賴于神經(jīng)元的拓?fù)湮恢?,網(wǎng)絡(luò)不需要完全收斂,可設(shè)定一個較小的 T1以降低網(wǎng)絡(luò)的訓(xùn)練時間[19],此時,算法的時間復(fù)雜度主要依賴于n,而n遠(yuǎn)小于待聚類對象個數(shù)N,因此,采用SOM-DB-PAM對大量電力客戶數(shù)據(jù)進(jìn)行聚類,在利用PAM健壯性的同時降低了其計算復(fù)雜度。
3.3 SOM-DB-PAM聚類性能測試
由于目前尚沒有針對電力客戶的可供實驗的公開聚類測試數(shù)據(jù)集,因此為測試SOM-DB-PAM的聚類性能,本文從某電力公司下屬供電局的營銷信息系統(tǒng)中抽取了120條電力客戶用電記錄組成仿真數(shù)據(jù)集進(jìn)行聚類實驗,每條記錄由3個細(xì)分變量描述,分別為客戶當(dāng)月用電量、當(dāng)前欠費金額和歷史同期用電增長率,依據(jù)客戶在這3個變量上的不同表現(xiàn),可將其劃分為卓越客戶、風(fēng)險客戶和穩(wěn)定客戶3類,每類各包含40條記錄,數(shù)據(jù)集中不含缺失值,但包含一條噪聲記錄。在實驗前,采用線性標(biāo)準(zhǔn)化方法分別對3個細(xì)分變量進(jìn)行了預(yù)處理。在SOM-DB-PAM和SOM-DB-Kmeans聚類的第1階段,初始化 SOM網(wǎng)絡(luò)結(jié)點數(shù)為20,結(jié)點形狀為六邊形,按[7×3]矩陣排列,SOM圖形狀為超環(huán)面,初始鄰居距離為2;在第2階段,將最終類目數(shù)的區(qū)間范圍指定為[2,4]。在Matlab R2010a環(huán)境下編程實現(xiàn)SOM-DB-PAM并比較其與傳統(tǒng)K-means、SOM-DB-Kmeans聚類算法的性能差異。每種算法實驗10次,實驗結(jié)果如表1所示。表1中的DB指標(biāo)值和程序運行時間均為10次實驗獲得的平均值。
表1 使用電力客戶仿真數(shù)據(jù)集的SOM-DB-PAM聚類測試結(jié)果
從表1可知:使用SOM-DB-PAM進(jìn)行的10次實驗中,通過DB指標(biāo)均能識別出正確的聚類數(shù)目3且樣本的分類正確率達(dá)到100%,高于傳統(tǒng)K-means和SOM-DB-Kmeans的分類正確率。而使用后2種聚類算法進(jìn)行的實驗中,分別有2次和1次實驗DB指標(biāo)無法準(zhǔn)確判斷最優(yōu)聚類數(shù)目(見括號),這主要是由于K-means采用隨機(jī)分配初始聚類中心的策略且聚類結(jié)果受數(shù)據(jù)輸入順序的影響,導(dǎo)致聚類結(jié)果不穩(wěn)定。由于訓(xùn)練SOM網(wǎng)絡(luò)需要時間,從表1可看出,K-means在本文實驗的運行時間上具有明顯優(yōu)勢,為進(jìn)一步驗證SOM-DB-PAM在大規(guī)模數(shù)據(jù)集上的時間有效性和聚類效果,考慮到為大樣本電力客戶預(yù)先設(shè)定合理的類編號存在困難,本文還使用UCI數(shù)據(jù)集中不同規(guī)模的其他行業(yè)測試數(shù)據(jù)集評估3種算法的聚類性能,測試結(jié)果如表2所示:在不同規(guī)模的測試數(shù)據(jù)集上,SOM-DB-PAM都具有更高的分類正確率且能準(zhǔn)確判別最優(yōu)聚類個數(shù);在程序運行時間上,由于SOM-DB-PAM和SOM-DB-Kmeans需要構(gòu)建SOM網(wǎng)絡(luò)并對其進(jìn)行訓(xùn)練,處理小樣本時,K-means具有更高的聚類效率;隨著樣本規(guī)模的增加,SOM-DB-Kmeans所需運行時間最少,但比SOM-DB-PAM并沒有顯著優(yōu)勢,綜合分類正確率、最優(yōu)聚類數(shù)目的判定和算法運行效率可知,在對大規(guī)模數(shù)據(jù)進(jìn)行聚類分析時,SOM-DB-PAM優(yōu)于傳統(tǒng)聚類算法。
表2 使用UCI數(shù)據(jù)集的SOM-DB-PAM測試結(jié)果
4.1 數(shù)據(jù)收集和數(shù)據(jù)預(yù)處理
本文從國家電網(wǎng)陜西省電力公司某下屬供電局的營銷信息系統(tǒng)中,抽取了16 818位居民客戶的基本信息和2011年、2012年12月的用電數(shù)據(jù)進(jìn)行分析,驗證SOM-DB-PAM在真實電力客戶細(xì)分應(yīng)用中的有效性。參照已有研究建立的電力客戶價值評價指標(biāo)體系[8,13],在考察數(shù)據(jù)可獲取性和數(shù)據(jù)質(zhì)量的基礎(chǔ)上選取11個指標(biāo)構(gòu)成細(xì)分變量,各變量的含義如表3所示。
表3 電力客戶細(xì)分變量及其含義
為消除數(shù)據(jù)間由于量綱不同對聚類結(jié)果產(chǎn)生的影響,根據(jù)各變量數(shù)據(jù)的分布特點選取合適的標(biāo)準(zhǔn)化方法[20]對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,如表 4所示。
表4 細(xì)分變量的標(biāo)準(zhǔn)化方法
4.2 基于SOM-DB-PAM的電力客戶細(xì)分
使用SOM-DB-PAM混合聚類算法對經(jīng)過預(yù)處理的電力客戶數(shù)據(jù)進(jìn)行聚類,在第1階段,初始化SOM網(wǎng)絡(luò)結(jié)點數(shù)為 100,結(jié)點形狀為六邊形,按[13×8]矩陣排列,SOM圖形狀為超環(huán)面,初始鄰居距離為2。在第2階段,綜合考慮當(dāng)前價值、潛在價值2個維度和細(xì)分結(jié)果的可解釋性將最終簇數(shù)目的區(qū)間范圍指定為[4,50],為克服PAM聚類時隨機(jī)選取初始中心點導(dǎo)致對于同一類目數(shù),每次計算出的DB指標(biāo)存在微小差異的缺點[21],對每個類目數(shù),計算DB指標(biāo)30次并用均值代表最終DB值。用DB指標(biāo)獲得的最優(yōu)聚類個數(shù)為33,此時的DB指標(biāo)值為0.699 8,得到的每個類包含的客戶數(shù)和各類的中心點如表 5所示。其中,第 1列為各類的簇編號,第2列為每個類包含的客戶數(shù),其他各列對應(yīng)各類的中心點在各細(xì)分變量的取值程序運行時間為:175.122 s。
為更好地解釋聚類結(jié)果,33個客戶簇按照當(dāng)月用電量大小(單位:kW/h)被分為4類:大型客戶,用電量大于 1 000;中型客戶,用電量區(qū)間 (500,1 000];一般客戶,用電量區(qū)間(100,500]以及用電量低于或等于100的小型客戶,圖3描述了各個類在當(dāng)月用電量指標(biāo)上的分布。其中,每個類包含的客戶數(shù)大小用圓圈大小表征。
綜合其他細(xì)分變量,客戶又可被分為卓越客戶、優(yōu)質(zhì)客戶、穩(wěn)定客戶、存在潛在欠費風(fēng)險的客戶、存在潛在流失風(fēng)險的客戶以及同時具有以上2種風(fēng)險的客戶,對各類型客戶的特征描述如表6所示。其中,卓越客戶和優(yōu)質(zhì)客戶在衡量客戶價值的各指標(biāo)上表現(xiàn)優(yōu)異,歷史同期用電量增長和電費增長幅度均超過10%,具有大的潛在價值,按時繳費,電費回收率超過95%,是本文要識別的高價值客戶,他們僅在用電規(guī)模上存在差異,卓越客戶的當(dāng)月用電量更接近其所在用電量區(qū)間的上限。
表5 各類包含的客戶數(shù)和類中心點分布
圖3 各類按當(dāng)月用電量分布
表6 各類型客戶的特征描述
圖4描述了各簇在用電量和客戶類型上的交叉細(xì)分結(jié)果,高價值客戶用六邊形表示,圖形中的數(shù)字為每個簇的簇編號。識別出的高價值客戶共4 384名,占客戶總量的26.07%。
圖4 各簇在用電量和客戶類型上的交叉細(xì)分結(jié)果
供電企業(yè)可根據(jù)各類客戶的特征制定有針對性的服務(wù)措施。
從識別出的4 384名高價值客戶中隨機(jī)抽取50名客戶,由該供電公司組織營銷業(yè)務(wù)專家采用表3中指標(biāo)和文獻(xiàn)[13]提供的客戶價值評價方法評價其價值,評價結(jié)果顯示:46名客戶的分類類型與使用SOM-DB-PAM得到的分類類型吻合。綜合業(yè)務(wù)專家的意見,認(rèn)為該細(xì)分結(jié)果符合業(yè)務(wù)實際需要并具有良好的解釋性和一定的實用性。
隨著我國國家電網(wǎng)公司SG186信息化工程的深入推進(jìn)和95598服務(wù)系統(tǒng)的投入運營,電力營銷數(shù)據(jù)庫中存儲的電力客戶數(shù)據(jù)呈數(shù)量級增長,如何有效利用這些信息對客戶進(jìn)行快速、準(zhǔn)確的細(xì)分和定位,是供電企業(yè)制定服務(wù)對策的前提。本文提出的SOM-DB-PAM混合聚類算法為解決這一問題提供了一種思路,針對電力客戶用電行為數(shù)據(jù)量龐大的特點,首先利用SOM對數(shù)據(jù)進(jìn)行“粗聚類”得到表征數(shù)據(jù)主要特征的原型向量以壓縮數(shù)據(jù)量,再使用PAM對所獲得的原型向量正式聚類并用DB指標(biāo)識別最優(yōu)聚類數(shù)目,PAM的健壯性使其不易受到用電行為噪聲數(shù)據(jù)的影響,同時保證了DB指標(biāo)的穩(wěn)定性,而用遠(yuǎn)小于初始樣本數(shù)的原型向量替代原始數(shù)據(jù)大大降低了PAM的計算量。分別采用仿真數(shù)據(jù)集和電力客戶真實用電數(shù)據(jù)對算法性能進(jìn)行了測試,實驗結(jié)果表明,與傳統(tǒng)聚類算法相比,SOM-DB-PAM混合聚類算法在不同規(guī)模的測試數(shù)據(jù)集上,均能正確判別聚類個數(shù)并得到更好的分類結(jié)果,將其應(yīng)用于電力客戶細(xì)分,能快速有效聚類并得到具有良好解釋性的細(xì)分結(jié)果,算法適用于針對大量電力客戶的深度細(xì)分。作為衡量聚類效度的指標(biāo),DB指標(biāo)主要針對數(shù)值型細(xì)分變量,當(dāng)細(xì)分變量為分類變量時,使用DB判別最優(yōu)聚類數(shù)目的效果不理想,而電力客戶基本信息中包含了大量對細(xì)分有價值的分類變量,如客戶所在行業(yè)、用電類型、繳費方式等,研究適用于混合數(shù)據(jù)類型的聚類效度指標(biāo),擴(kuò)展算法的適用范圍,是電力客戶細(xì)分研究有待進(jìn)一步解決的問題。
[1] Smith W R.Product Differentiation and Market Segmentation as an Alternative Marketing Strategy[J]. Journal of Marketing,1956,21(1):3-8.
[2] Floh A,Zauner A,Koller M,et al.Customer Segmentation Using Unobserved Heterogeneity in the Perceived-value-loyalty-intentions Link[J].Journal of Business Research,2014,67(5):974-982.
[3] 威廉·G·齊克蒙德,小雷蒙德·邁克里奧德.客戶關(guān)系管理:營銷戰(zhàn)略與信息技術(shù)的整合[M].胡左浩,譯.北京:中國人民大學(xué)出版社,2005.
[4] 郭迎春.知識型電力客戶關(guān)系管理研究[D].保定:華北電力大學(xué),2008.
[5] López J J,Aguado J A,Martín F,et al.Hopfield-K-Means Clustering Algorithm:A Proposal for the Segmentation of Electricity Customers[J].Electric Power System s Research,2011,81(1):716-724.
[6] 徐天池.基于數(shù)據(jù)挖掘的電網(wǎng)客戶細(xì)分系統(tǒng)設(shè)計與實現(xiàn)[D].廣州:中山大學(xué),2013.
[7] 王軼華.電力客戶綜合價值分析[D].上海:上海交通大學(xué),2007.
[8] 王松濤.市場條件下的電力客戶價值分析體系[J].電網(wǎng)技術(shù),2010,34(2):155-158.
[9] 李泓澤,郭 森,王 寶.基于遺傳改進(jìn)蟻群聚類算法的電力客戶價值評價[J].電網(wǎng)技術(shù),2012,36(12):256-261.
[10] 曾 鳴,楊素萍,楊鵬舉,等.社會節(jié)能環(huán)境下電力客戶價值評估研究[J].華東電力,2008,36(6):15-18.
[11] 王春葉.基于數(shù)據(jù)挖掘的電力客戶細(xì)分研究[D].保定:華北電力大學(xué),2009.
[12] Wind Y.Issues and Advances in Segmentation Research[J].Journal of Marketing Research,1978,15(1):317-337.
[13] 蔣維楊.電力客戶價值評價及信息系統(tǒng)開發(fā)研究[D].西安:西北工業(yè)大學(xué),2010.[14] Zhou Kaile,Yang Shanlin,Shen Chao.A Review of Electric Load Classification in Smart Grid Environment[J].Renewable and Sustainable Energy Reviews,2013,(24):103-110.
[15] Laan V D,Pollard M J,Katherine S,Jennifer B.A New Partitioning Around Medoids Algorithm[J].Journal of Statistical Computation&Simulation,2003,78(8):575-675.
[17] Hiziroglu A.Soft Computing Applications in Customer Segmentation:State-of-art Review and Critique[J].Expert Systems with Applications,2013,40(1):6491-6507.
[18] 安 璐,張 進(jìn),李 綱.自組織映射用于數(shù)據(jù)分析的方法研究[J].情報學(xué)報,2009,28(5):720-726.
[19] Vesanto J,Alhoniemi E.Clustering of the Selforganizing Map[J].IEEE Transactions on Neural Networks,2000,11(3):586-600.
[20] Wang J.Encyclopedia of Data Warehousing and Mining[M].Hershey,USA:Information Science Press,2006.
[21] Rasanen T,Ruuskanen J,Kolehmainen M.Reducing Energy Consumption by Using Self-organizing Maps to Create More Personalized Electricity Use Information[J].Applied Energy,2008,85(1):830-840.
編輯 索書志
Power Customer Segmentation Based on SOM-DB-PAM Hybrid Clustering Algorithm
HU Xiaoxue,ZHAO Songzheng,WU Nan
(School of Management,Northwestern Polytechnical University,Xi’an 710129,China)
Based on power customers which reach a very large amount and the feature of presence of outlier,and limitations of Partitioning A round Medoid(PAM)algorithm in handling large amounts of data and predefining the number of clusters,a new hybrid clustering algorithm called SOM-DB-PAM that is suitable for fast clustering of large number of electricity customers,is proposed.In the proposed algorithm,the Self-Organizing Map(SOM)neural network is used to train input data to find prototype vectors that represents patterns of the input data set but far less than the number of it,and the prototype vectors are clustered by the PAM algorithm and to ensure the validity of clustering,the Davies-Bouldin(DB)indexis calculated for SOM prototype vectors to solve optimal number of clusters.Experimental results show that,com pared with traditional clustering algorithm s,the accuracy of classification is enhanced and when the amount of electricity customers is large,the proposed algorithm can achieve a fast and effective clustering.In addition,the blindness and subjectivity of predefining the number of clusters artificially is decreased.
power customer segmentation;Partitioning A round Medoid(PAM);Self-Organizing Map(SOM);hybrid clustering algorithm;clustering analysis
胡曉雪,趙嵩正,吳 楠.基于SOM-DB-PAM混合聚類算法的電力客戶細(xì)分[J].計算機(jī)工程,2015,41(10):295-301,307.
英文引用格式:Hu Xiaoxue,Zhao Songzheng,Wu Nan.Power Customer Segmentation Based on SOM-DB-PAM Hybrid Clustering Algorithm[J].Engineering Computer,2015,41(10):295-301,307.
1000-3428(2015)10-0295-07
A
TP391
國家教育部博士點基金資助項目(20116102110036)。
胡曉雪(1986-),女,博士研究生,主研方向:數(shù)據(jù)挖掘,電力企業(yè)市場營銷,客戶關(guān)系管理;趙嵩正,教授、博士生導(dǎo)師;吳 楠,博士研究生。
2014-08-28
2014-11-12E-mail:nolanspring@163.com