摘要:隨著社會(huì)的發(fā)展,互聯(lián)網(wǎng)技術(shù)融入各個(gè)行業(yè),目前很多公司和企業(yè)的營(yíng)銷(xiāo)重點(diǎn)不僅是保證產(chǎn)品質(zhì)量,還更加注重以客戶(hù)為中心,以滿(mǎn)足客戶(hù)的需求,將客戶(hù)作為公司實(shí)現(xiàn)利潤(rùn)增長(zhǎng)的重要目標(biāo)。文章主要根據(jù)客戶(hù)細(xì)分的方法,利用K-Mcans聚類(lèi)、DBSCAN聚類(lèi)、Mcan-Shift聚類(lèi)分別對(duì)客戶(hù)進(jìn)行細(xì)分。
關(guān)鍵詞:航空公司;客戶(hù)價(jià)值分析;K-Mcans聚類(lèi)
中圖法分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
首先,K?Means 聚類(lèi)將航空公司客戶(hù)分為5 類(lèi),達(dá)到了細(xì)分的效果,并且更好地保留了航空公司的客戶(hù),增加了客戶(hù)的滿(mǎn)意度,在采取方案時(shí)更有針對(duì)性,有利于航空公司的未來(lái)發(fā)展。其次,DBSCAN 聚類(lèi)將航空公司客戶(hù)分為2 類(lèi),即重要客戶(hù)和不重要客戶(hù),沒(méi)有盡可能地保留客戶(hù),對(duì)能夠發(fā)展成重要客戶(hù)的沒(méi)有進(jìn)行細(xì)分,未達(dá)到細(xì)分的效果,所以此方法不是最適合的。最后,Mean?Shift 聚類(lèi)將航空公司客戶(hù)分為9類(lèi),達(dá)到了細(xì)分的效果,但是在采取對(duì)應(yīng)策略時(shí)會(huì)出現(xiàn)重復(fù),所以也不是最好的方法。綜上,K?Means 聚類(lèi)能夠高效地細(xì)分航空公司客戶(hù),對(duì)客戶(hù)進(jìn)行分類(lèi)之后,能夠更有針對(duì)性地采取服務(wù),為航空公司提高客戶(hù)滿(mǎn)意度,從而吸引更多的客戶(hù),最終給航空公司帶來(lái)較大的利益。
1 數(shù)據(jù)與方法
1.1 數(shù)據(jù)預(yù)處理
航空公司客戶(hù)信息數(shù)據(jù)包括航空公司客戶(hù)的姓名、性別、年齡、會(huì)員卡號(hào)、入會(huì)時(shí)間、第一次飛行時(shí)間、會(huì)員卡級(jí)別、工作地城市、工作地所在省份、工作地所在國(guó)家等,以及客戶(hù)的飛行里程數(shù)、航班數(shù)、購(gòu)買(mǎi)機(jī)票金額等,共計(jì)61 340 條。由于數(shù)據(jù)殘缺不全,因此不能直接進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)預(yù)處理技術(shù)則是提高數(shù)據(jù)質(zhì)量的重要手段。
所謂數(shù)據(jù)清洗,是指將源數(shù)據(jù)中的“臟”數(shù)據(jù)清洗掉,即清洗掉每一列數(shù)據(jù)中的缺失值或異常值,為之后數(shù)據(jù)的讀取作鋪墊。觀察數(shù)據(jù)可以發(fā)現(xiàn),原始數(shù)據(jù)中有以下幾類(lèi)數(shù)據(jù):票價(jià)為空值、票價(jià)為0、年齡大于100、平均折扣率為0、總里程數(shù)為0。由于航空客戶(hù)數(shù)據(jù)量大且原始數(shù)據(jù)占比小,因此將其丟棄,達(dá)到數(shù)據(jù)清洗的目的。另外,數(shù)據(jù)變換的方式為屬性構(gòu)造和數(shù)據(jù)標(biāo)準(zhǔn)化。
通過(guò)觀察數(shù)據(jù)可知,航空公司數(shù)據(jù)的每一列數(shù)值差距過(guò)大,為1~1 000,會(huì)導(dǎo)致偏移,因此通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化將數(shù)據(jù)放縮到[0,1]區(qū)間;屬性構(gòu)造就是將原有的屬性和新添加的屬性合并,源數(shù)據(jù)中屬性較多,所以選擇與LFRMC 指標(biāo)相關(guān)的5 個(gè)屬性,由于原始資料無(wú)法直接反映5 個(gè)LFRMC 指標(biāo),因此要從原始資料中抽?。?個(gè)指標(biāo)。其中,L=LOAD_TIME?FFP_DATE(客戶(hù)注冊(cè)時(shí)間);R=LAST_TO_END(上一個(gè)航班時(shí)刻);F=FIGHT_COUNT(總的航班數(shù));W=WEIGHTED_SEG_KM(總里程數(shù));M=SUM_YR_1+SUM_YR_2(購(gòu)買(mǎi)機(jī)票總金額),最后達(dá)到數(shù)據(jù)變換的目的。
1.2 聚類(lèi)模型原理
聚類(lèi)分析是指將數(shù)據(jù)按特定的特性進(jìn)行歸類(lèi),即將數(shù)據(jù)接近的分為一組[1] 。由于不同的人群有差異,因此,聚類(lèi)分析無(wú)法用于預(yù)測(cè),僅限于對(duì)知識(shí)的挖掘。
本節(jié)對(duì)K?Means 聚類(lèi)的基本原理進(jìn)行了描述,同時(shí)對(duì)DBSCAN 聚類(lèi)、Mean?Shift 聚類(lèi)的基本原理進(jìn)行了闡述,為后期對(duì)客戶(hù)價(jià)值進(jìn)行分析作鋪墊。
1.2.1 K?Means 聚類(lèi)原理
對(duì)事物進(jìn)行歸類(lèi)、歸納和揭示客觀規(guī)律是人們認(rèn)識(shí)與改造世界的常用方法。聚類(lèi)分析將各種屬性進(jìn)行區(qū)分,從而使聚類(lèi)分析能夠較好地處理不能識(shí)別的對(duì)象。聚類(lèi)算法的種類(lèi)繁多,其中最常用的是K?Means 算法。K?Means 算法是一種高效的、能夠有效地處理海量數(shù)據(jù)的方法。實(shí)際上,K?Means 算法常常被用來(lái)對(duì)企業(yè)的客戶(hù)進(jìn)行價(jià)值分析。
K?Means 算法的具體實(shí)現(xiàn)步驟如下:首先任選K個(gè)樣本點(diǎn)作為初始數(shù)組中心;其次重復(fù)迭代;再次根據(jù)樣本點(diǎn)的平均值,重新賦予每個(gè)樣本點(diǎn)最近的值;最后更新計(jì)算平均值,直到聚類(lèi)中心不再發(fā)生改變,停止迭代。
1.2.2 DBSCAN 聚類(lèi)原理
DBSCAN 密度聚類(lèi)是將具有足夠密度的區(qū)域劃分成簇,并且能夠發(fā)現(xiàn)任意形狀的簇。比如,在眾多點(diǎn)中隨機(jī)選中1 個(gè)點(diǎn),將該點(diǎn)看作中心點(diǎn),并以規(guī)定的半徑畫(huà)1 個(gè)圓,圓內(nèi)最少包含的樣本點(diǎn)叫做閾值。
若在指定半徑內(nèi)有足夠多的樣本點(diǎn),則圓的圓心轉(zhuǎn)移到內(nèi)部樣本點(diǎn)。待圓發(fā)現(xiàn)所圈樣本點(diǎn)數(shù)量少于預(yù)先指定的值時(shí),則停止。K?Means 聚類(lèi)算法只能處理球形的簇,即一個(gè)聚成實(shí)心的團(tuán),具有一定的局限性。
但在現(xiàn)實(shí)中還會(huì)出現(xiàn)各種各樣的情況,此時(shí)就會(huì)用到DBSCAN 密度聚類(lèi)。
1.2.3 Mean?Shift 聚類(lèi)原理
Mean?Shift 聚類(lèi)是由均值和偏移組成的[2] ,即有一個(gè)點(diǎn)X,周?chē)泻芏帱c(diǎn)Xi ,計(jì)算點(diǎn)X 移動(dòng)到每個(gè)點(diǎn)所需要的偏移量之和,得到平均偏移量。該偏移量包含大小和方向,方向是周?chē)植济芗姆较?。然后點(diǎn)X 往平均偏移量方向移動(dòng),再以此為新起點(diǎn),不斷迭代,直到密度最大處,停止迭代。
2 基于聚類(lèi)方法的航空公司客戶(hù)分類(lèi)
2.1 客戶(hù)聚類(lèi)
2.1.1 K?Means 聚類(lèi)
使用K?Means 聚類(lèi)算法對(duì)客戶(hù)數(shù)據(jù)進(jìn)行客戶(hù)分群并將航空公司客戶(hù)聚為5 類(lèi)。如圖1 所示,客戶(hù)群1 在所有特征上的值都很小,且在L 處的值最小,說(shuō)明客戶(hù)群1 是新入會(huì)員較多;客戶(hù)群2 在C 處的值最大,在F,M 處的特征值較小,說(shuō)明客戶(hù)群2 是偏好乘坐高級(jí)艙位的客戶(hù)群;客戶(hù)群3 在F,M 上的值最大,且在特征R 上的值最小,說(shuō)明客戶(hù)群3 頻繁乘機(jī)且近期都有乘機(jī)記錄;客戶(hù)群4 在L 處特征最大,在R 處特征較小,其他特征適中,說(shuō)明客戶(hù)群4 的入會(huì)時(shí)間較長(zhǎng),飛行頻率也較高,是較有高價(jià)值的客戶(hù)群;客戶(hù)群5 在R 處的值最大,且在L,M,F,C 處的值都相對(duì)較小,說(shuō)明客戶(hù)群5 已經(jīng)很久沒(méi)乘機(jī)。
2.1.2 DBSCAN 聚類(lèi)
使用DBSCAN 聚類(lèi)對(duì)客戶(hù)數(shù)據(jù)進(jìn)行分群,結(jié)合清洗后的數(shù)據(jù)以及DBSCAN 聚類(lèi),能夠?qū)⒖蛻?hù)分為2類(lèi)[3] 。0 標(biāo)簽定義為重要客戶(hù),-1 標(biāo)簽定義為不重要客戶(hù)。
聚類(lèi)對(duì)應(yīng)標(biāo)簽為[-1-1-1…-1-1-1];0 標(biāo)簽的個(gè)數(shù)是48 911;-1 標(biāo)簽的個(gè)數(shù)是13 132。
與K?Means 方法相比,DBSCAN 不需要事先知道要形成的簇類(lèi)的數(shù)量。并且,與K?Means 方法相比,DBSCAN 可以發(fā)現(xiàn)任意形狀的簇類(lèi)。但其弊端是如果已知類(lèi)別數(shù),K?Means 更直接,而DBSCAN 是基于密度的聚類(lèi),無(wú)法找出中心點(diǎn)。
2.1.3 Mean?Shift 聚類(lèi)
使用Mean?Shift 聚類(lèi)對(duì)客戶(hù)數(shù)據(jù)進(jìn)行分群,結(jié)合清洗后的數(shù)據(jù),將客戶(hù)分為9 類(lèi),分別是重點(diǎn)保持客戶(hù)、開(kāi)發(fā)重點(diǎn)客戶(hù)、重點(diǎn)發(fā)展客戶(hù)、現(xiàn)有重點(diǎn)客戶(hù)、重點(diǎn)挽留客戶(hù)、不重點(diǎn)挽留客戶(hù)、普通客戶(hù)、特殊客戶(hù)、低成本客戶(hù)。Mean?Shift 算法是基于核密度估計(jì)的爬山算法,同樣不需要指定聚類(lèi)個(gè)數(shù),但計(jì)算速度較慢。
2.2 客戶(hù)價(jià)值分析
經(jīng)綜合考量,K?Means 聚類(lèi)將航空公司客戶(hù)分為5 大類(lèi)更為合適。因此,本文定義了5 個(gè)層次的客戶(hù)類(lèi)別,即重點(diǎn)保持對(duì)象、重點(diǎn)發(fā)展對(duì)象、重點(diǎn)挽留對(duì)象、普通對(duì)象和低成本對(duì)象。
(1)重點(diǎn)保持對(duì)象,該客戶(hù)群的平均折扣系數(shù)(C)較高(通常是較高的航班艙位),最近一架飛機(jī)(R)出發(fā)的時(shí)間更短,(F)和(M)的飛行次數(shù)更多,這就是航空公司的寶貴客戶(hù),而且是最適合的客戶(hù)。他們?yōu)楹娇展咀龀隽俗畲蟮呢暙I(xiàn),但是他們的份額卻很少。為了提升客戶(hù)的忠誠(chéng)度和滿(mǎn)意度,使其消費(fèi)水平最大化,航空公司應(yīng)該給予他們更多的關(guān)注。
(2)重點(diǎn)發(fā)展對(duì)象,他們具有較高的平均減少系數(shù)(C),較短的間隔時(shí)間(R),但是較少的航班(F)或總的飛行英里,這些客戶(hù)的會(huì)員時(shí)間(L)有限,是航空公司的潛在客戶(hù)。
(3)重點(diǎn)挽留對(duì)象,留住這些具有較高的平均折扣率(C)、航班數(shù)(F)、總里程數(shù)(M)的客戶(hù),他們?cè)畛诉^(guò)但長(zhǎng)時(shí)間未預(yù)訂過(guò)的航班時(shí)間(R)長(zhǎng)。這些客戶(hù)的價(jià)值有很大的不確定性,因?yàn)椴煌脑驅(qū)е虏煌蛻?hù)退出,所以要及時(shí)地了解客戶(hù)的發(fā)展情況,并與他們保持聯(lián)絡(luò)是非常關(guān)鍵的。航空公司要根據(jù)客戶(hù)近期的消費(fèi)次數(shù)和使用次數(shù),收集客戶(hù)的消費(fèi)變動(dòng)情況,制定客戶(hù)清單,加強(qiáng)與客戶(hù)的聯(lián)絡(luò),采取一定的市場(chǎng)推廣措施,以延長(zhǎng)客戶(hù)乘坐航班的時(shí)間。
(4)普通對(duì)象和低成本對(duì)象,這些客戶(hù)的航班平均折扣系數(shù)(C)非常低,他們從未乘坐過(guò)航班(R)的概率較高,航班數(shù)(F)或總公里數(shù)(M)少,黏附時(shí)間(L)短。他們是航空公司的普通客戶(hù)和低成本客戶(hù),不需要特別制定服務(wù),按照航空公司日常標(biāo)準(zhǔn)提供服務(wù)即可。
3 結(jié)束語(yǔ)
在對(duì)航空公司客戶(hù)價(jià)值進(jìn)行分析的過(guò)程中,客戶(hù)注冊(cè)時(shí)間、上一個(gè)航班時(shí)刻、總的航班數(shù)、總里程數(shù)、購(gòu)買(mǎi)機(jī)票總金額都是重要的指標(biāo)。本文通過(guò)K?Means聚類(lèi)、DBSCAN 聚類(lèi)、Mean?Shift 聚類(lèi)將航空公司的客戶(hù)群體劃分成不同類(lèi)型。通過(guò)對(duì)比發(fā)現(xiàn),將航空公司客戶(hù)分為5 類(lèi)效果更好,其中3 類(lèi)重點(diǎn)對(duì)象對(duì)航空公司的發(fā)展具有重要價(jià)值,所以可以進(jìn)行會(huì)員升級(jí)和里程兌換服務(wù),這不僅增加了趣味性還有效地保留了客戶(hù),同時(shí)提高了客戶(hù)滿(mǎn)意度,從而給航空公司帶來(lái)更大的收益。
聚類(lèi)分析的應(yīng)用較為廣泛,但仍存在不足,如并不是每一個(gè)案例都適用,需要具體問(wèn)題具體分析。另外,此次研究使用的指標(biāo)不足,只考慮了客戶(hù)注冊(cè)時(shí)間、上一個(gè)航班時(shí)刻、總的航班數(shù)、總里程數(shù)、購(gòu)買(mǎi)機(jī)票總金額,但是艙位等級(jí)等因素也有可能影響航空公司客戶(hù)的價(jià)值。
參考文獻(xiàn):
[1] 陳方芳,傅仰耿.基于聚類(lèi)算法識(shí)別大型百貨商場(chǎng)客戶(hù)價(jià)值的RFM 模型[J].景德鎮(zhèn)學(xué)院學(xué)報(bào),2021,36(3):68?72.
[2] 劉淑英,鄒燕飛,李紅.基于K?Means 算法的航空公司客戶(hù)價(jià)值分析[J].?dāng)?shù)字技術(shù)與應(yīng)用,2021,39(11):10?12.
[3] 張?zhí)祆?,包丹文,狄智瑋,等.基于K?means 的航空旅客空間行為模式研究[J].華東交通大學(xué)學(xué)報(bào),2019,36(5):59?66.
作者簡(jiǎn)介:許超(1994—),碩士,助教,研究方向:人工智能技術(shù)。