李楚貞 林劍添
(廣東理工學院信息技術學院 廣東省肇慶市 526100)
隨著網絡銷售在企業(yè)銷售占比的增長,眾多企業(yè)對網絡銷售相關運營數(shù)據的關注度日益提高。網絡銷售的運營數(shù)據獲取成本低,且和門店運營數(shù)據相比,有更多的指標去反映消費者的消費行為信息,如商品詳情頁跳出率、消費者平均停留時長等,這些指標是在門店銷售的運營中無法低成本獲得的。有效的數(shù)據挖掘工作一方面可以幫助企業(yè)深層次地挖掘消費者的消費情況,為消費者提供個性化服務,另一方面基于產品運營數(shù)據進行商品重分類,從而為企業(yè)制定運營策略提供決策指導[1]。
對于電商運營數(shù)據的聚類研究,傳統(tǒng)研究視角是基于消費者行為數(shù)據進行聚類分析。韓利東基于消費者購買商品記錄,通過聚類將相似的消費者歸為同一類簇,從而實現(xiàn)個性化服務[2]。王越通過基于改進遺傳算法的模糊聚類對電子商務用戶數(shù)據進行聚類分析[3]。錢丹丹研究商業(yè)智能(BI)體系下的大數(shù)據應用于消費者行為預測,主要對顧客購買藥片的頻率、消費金額和消費者價值進行聚類分析,以此作為消費群體劃分的依據[4]。電商產品數(shù)據特征更易獲得,同時對產品的重分類問題的研究更有利于庫存訂貨策略[5]。本文從電商服裝產品的視角出發(fā),采用基于熵值賦權的粒子群聚類方法對服裝產品銷售平臺的支付轉化率、訪客數(shù)、詳情頁跳出率、平均停留時長、訪客平均價值、客單價進行聚類,并以此為依據對產品進行銷售預測劃分。
粒子群優(yōu)化算法是通過群體中不同粒子之間的合作和相互競爭來實現(xiàn)在尋優(yōu)空間中的搜索過程以找到所求問題的最優(yōu)位置[6]。由于算法結構構造簡單,參數(shù)少,涉及專業(yè)知識少,易于實現(xiàn),得到廣泛的科研工作者的關注與應用[7-8]。本文在文獻[9]的基礎上改進粒子群聚類方法,對運營指標引入了熵值賦權,采用輪廓系數(shù)作為聚類結果的評價指標,將其與傳統(tǒng)粒子群聚類及K_Means 聚類算法的聚類效果作比較。
原始數(shù)據采集于某商務男裝企業(yè)電商平臺上某一季度的電商后臺數(shù)據,其后臺的數(shù)據指標眾多,然而電商運營的關注點始終在服裝產品的熱賣程度、消費者的購買意愿及消費者購買情況上[10]。本文選用服裝產品中6 個可量化的運營指標,分別是支付轉化率、訪客數(shù)、詳情頁跳出率、平均停留時長、訪客平均價值、客單價,其指標含義如表1所示。支付轉化率和訪客數(shù)反映該商品的熱賣程度;商品詳情頁跳出率和平均停留時長反映商品詳情頁設計對訪客的吸引力,是消費者購買意愿的體現(xiàn);訪客平均價值和客單價反映消費者的購買情況。
原始數(shù)據共670 條,考慮到運營數(shù)據的分析價值,刪除支付轉化率為零的運營數(shù)據和奇異值數(shù)據,剩余有效數(shù)據472 條。粒子群算法初始速度的設定需要消除各個運營指標量綱與數(shù)量級的差異,故需要對數(shù)據進行標準化處理。這里使數(shù)據標準化的方式是平移——標準差變換后,采用文獻[11]的數(shù)據處理公式進行歸一化:
表1:電商運營指標含義
式中:Xip為第i 個樣本的第p 個特征分量。
聚類分析的本質是根據數(shù)據自身的特征,按照某種要求對數(shù)據進行分類,使具有相似特征的數(shù)據歸集為一類,數(shù)據聚類的基本原則是類間差距盡可能大,類內差距盡可能小,以便對數(shù)據的共性進行分析[12]。為了達到這種效果,本文采用熵值賦權的方式對各個指標進行賦權處理。
其熵值賦權的流程為:①確定指標的比重;②確定指標的熵值;③確定指標的差異系數(shù);④確定指標的權重。運用到的公式具體如下:
式中:Pij為第i 個樣本第j 個指標的比重;N 為樣本量。
式中:ej為第j 個指標的熵值;k=1/1nN。
式中:gj為第j 個指標的差異系數(shù)。
式中:ωj為第j 個指標的權重。
根據聚類問題的本質,將N 個樣本對象聚成K 個類簇,并滿足目標函數(shù)最小。一般采用歐式距離的平方構成目標函數(shù),這里在文獻[9]的目標函數(shù)的基礎上進行改進,公式為:
圖1:基于熵值賦權的粒子群聚類算法流程
圖2:各算法平均輪廓系數(shù)
式中:Xip為第i 個樣本的第p 個特征分量;c 為1 個K×N 的聚類中心矩陣;Cjp為第j 類的第p 個特征分量;wij為N×K 的布爾矩陣,當wij=1 時,樣本i 屬于第j 類,當wij=0 時,樣本i 不屬于第j 類。
圖3:聚類數(shù)目為3 的雷達圖
粒子群算法用于聚類有兩種方法[9]:一種是目標函數(shù)所求的解為聚類結果,結果需要取整表示,取整過程加入懲罰函數(shù)等措施,會影響算法的尋優(yōu)能力和計算復雜性;另外一種是解就是聚類中心,尋優(yōu)過程易于實現(xiàn)。故本文采用第2 種方法。若將N 個樣本聚成K類,則每個粒子的位置由K 個聚類中心組成。
在樣本數(shù)據中隨機選取K 個樣本作為初始聚類中心,即作為粒子群的初始位置,初始聚類中心根據式(7)和粒子的速度與位置更新聚類中心。
粒子通過跟蹤個體極值pbesti和群體極值gbest 來跟新自己的位置,使得自己的位置與目標函數(shù)的距離不斷縮小。粒子速度與位置的更新公式[13]為:
式中:Tmax為最大迭代次數(shù),t 為當前迭代次數(shù),wmax,wmin分別為開始時和結束時的權重。
式(10)是應用比較廣泛的慣性權重更新的算法,基于進化代數(shù)進行更新,每一代粒子無論好壞都采用同樣的慣性權重,前期大范圍全局搜索,后期小范圍搜索,可能導致錯過最優(yōu)粒子,后期不易跳出局部極值,收斂速度較慢[13]。這里采用隨機權重,當粒子在起始位置接近最優(yōu)點,可能產生較小的權重,正好克服慣性權重的缺點。公式為:
式中:N(0,1)為標準正態(tài)分布;σ 為標準差,一般取0.3 或0.5;rand 為[0,1]區(qū)間的隨機數(shù)。
基于熵值賦權的粒子群聚類算法主要執(zhí)行過程如下:
(1)數(shù)據標準化后,求出各個指標的權重;
(2)隨機選取初始聚類中心;
(3)根據式(6)計算適應度函數(shù)值,求得個體最優(yōu)解和全局最優(yōu)解;
(4)根據式(11)和(12)分配權重,采用式(8)和(9)更新粒子速度與位置,得到新的聚類中心,按適應度函數(shù)進行重新聚類;
(5)根據新的聚類結果采用式(7)重新計算聚類中心,更新適應度函數(shù)。
表2:各個運營指標的賦權權重
表3:聚類類別為3 的聚類結果
表4:聚類類別為4 的聚類結果
表5:聚類類別為5 的聚類結果
本文提出的基于熵值賦權的粒子群聚類,具體實現(xiàn)流程如圖1所示。
將運營數(shù)據標準化后,由式(2)、(3)、(4)、(5)計算得到各個運營指標的賦權權重,如表2所示。
由表2可知,ω5>ω6>ω2>ω1>ω4>ω3,表明運營指標中,訪客數(shù)、訪客平均價值、客單價在樣本中的數(shù)據差異化較大,為了更好依據其差異進行聚類,賦予更大的權重,使數(shù)據差異更加明顯。
(1)采用熵值賦權后的數(shù)據,按上文粒子群算法流程進行聚類,取wmax=0.8,wmin=0.3,c1=c2=2,σ=0.5,Tmax=100,群體規(guī)模s=100,依據期望聚成不同類別的數(shù)目,可得到相應的聚類結果。
(2)采用標準化數(shù)據,數(shù)據不經過熵值賦權,參數(shù)取值同(1),可以得到相應的聚類結果。
(3)采用K_Means 聚類方法,數(shù)據經過預處理后,不經歸一化和熵值賦權處理,直接進行聚類,根據初始聚類中心隨機選取,得到聚類結果。
從單純的計算結果不易評估聚類的優(yōu)劣,需要借助于聚類評估模型,通常采用FMI,輪廓系數(shù)法,Calinski-Harabasz 評價模型等研究聚類效果。這里采用輪廓系數(shù)來評價聚類的效果,其包含類內相似程度和類間差異度[14]。其公式為:
式中:Si∈[-1,1],為元素i 的輪廓系數(shù),取值越大,說明該次聚類效果越好,當Si<0 時,說明當前的聚類效果較差;a 是元素i與同類的其他點之間的平均距離;b 為一個向量,其元素是第i 個點與不同類的類內各點之間的平均距離。將基于熵值賦權粒子群聚類、K_Means 聚類和傳統(tǒng)粒子群聚類及的聚類結果,運用式(13)進行計算,并取相應類別的均值,為了保證結果可靠性,每種聚類方法計算20 次,再取均值,結果如圖2所示。
由圖2可知,在基于熵值賦權粒子群聚類的聚類、K_Means 聚類及傳統(tǒng)粒子群聚類聚類的聚類結果中,平均輪廓系數(shù)最大的是運用基于熵值賦權粒子群聚類算法所獲得的聚類結果;K_Means 聚類的聚類結果次之;傳統(tǒng)粒子群聚類聚類的聚類結果比K_Means 聚類的稍小。這表明聚類效果:基于熵值賦權粒子群聚類算法 > K_Means 聚類算法 > 傳統(tǒng)粒子群聚類聚類算法。
聚類方法可在對數(shù)據樣本信息知之甚少的情況下將其自動歸類,使原本雜亂無章的數(shù)據清晰化、條理化?;谏鲜鼍垲愋Ч?,采用基于熵值賦權粒子群聚類,將聚類數(shù)目分別聚為3、4、5,并以聚類數(shù)目3 為例,使用雷達圖分析法對聚類結果進行分析,闡述聚類結果背后電商服裝產品運營的管理價值。聚類結果如表3、表4、表5所示。
由圖3可知,服裝產品運營數(shù)據被聚成3 類,類別1 的客單價、訪客平均價值、平均停留時長都是最大的,可見類別1 產品吸引高質量的消費者的,但產品占比不高,需要多引進該類產品;類別2訪客量最大,商品詳情頁跳出率最好,說明該類產品頁面設計比較吸引消費者的眼球,其產品占比最大,但消費群質量不高,建議考慮產品成本進行訂貨和銷售;類別3 支付轉化率最高,該類產品容易吸引新消費群并完成交易,說明這類產品是促銷產品,主要用于吸引流量,其價值主要在淡季體現(xiàn)出來。由分析可知,通過算法可以將服裝產品的運營數(shù)據背后的管理價值呈現(xiàn)出來,表明該算法可以為電商企業(yè)的日常運營管理提供決策依據。
本文通過對電商后臺數(shù)據采集、預處理、標準化、熵值賦權及隨機粒子群優(yōu)化聚類,計算出聚類結果,并用K_Means 聚類、傳統(tǒng)粒子群聚類聚類計算出聚類相應的聚類結果,運用輪廓系數(shù)對三種聚類算法的結果進行評估。結果表明,基于熵值賦權的粒子群聚類算法的平均輪廓系數(shù)比其他兩種聚類算法大,即其分類效果比其他兩種聚類算法好。以聚類數(shù)目3 為例,使用雷達圖分析法對聚類結果進行分析,分析了聚類結果背后電商服裝產品運營數(shù)據的管理價值,表明該算法可以為電商企業(yè)的日常運營管理提供決策依據。