龔婷 普慧潔 張嘉偉 吳昊辰
摘要:本文采用K-means聚類方法,通過(guò)分析國(guó)內(nèi)外民航業(yè)的旅客細(xì)分及產(chǎn)品打包方法的優(yōu)缺點(diǎn),以自己調(diào)研收集的數(shù)據(jù),對(duì)一定范圍內(nèi)的人群進(jìn)行了旅客細(xì)分。在使用SPSS對(duì)旅客細(xì)分的過(guò)程中,經(jīng)過(guò)多次嘗試,最終確定K=3時(shí)聚類效果最好,即將旅客分為三類:公/商務(wù)旅客、探親旅游旅客、回家/返校學(xué)生團(tuán)體,并為其設(shè)計(jì)了不同的產(chǎn)品組合。
Abstract: This paper adopts the K-means clustering method and analyzes the advantages and disadvantages of the passenger segmentation and product packaging methods in the civil aviation industry at home and abroad. Based on the data collected by the survey and study, the passengers within a certain range are subdivided. In the process of using SPSS to segment passengers, we have tried several times to finally determine the best clustering effect when K=3. This means that passengers are divided into three categories: public/business travelers, visiting relatives and tourists, home/back to school student groups and different product mixes were designed for them. However, due to the strong uncertainty in passenger demand, in the final APP, we will mainly push product accessories/free choice, and the product portfolio will supplement the sales approach to meet the needs of passengers for personalized and customized services.
關(guān)鍵詞:K-means;數(shù)據(jù)挖掘;產(chǎn)品組合;旅客細(xì)分
Key words: K-means;data mining;product portfolio;passenger segmentation
中圖分類號(hào):F560? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2018)35-0052-03
0? 引言
在大數(shù)據(jù)時(shí)代,民航業(yè)有大量的旅客數(shù)據(jù)被閑置,得不到充分地利用。且航空運(yùn)輸業(yè)飛速發(fā)展,旅客對(duì)民航業(yè)的要求已經(jīng)從簡(jiǎn)單地運(yùn)輸變成了對(duì)舒適、便捷的飛行服務(wù)的追求。針對(duì)需求各異的顧客,服務(wù)類型企業(yè)大多采用客戶細(xì)分方法進(jìn)行研究應(yīng)用,以追求對(duì)盡可能多旅客需求的滿足,提高服務(wù)質(zhì)量及旅客滿意度,增強(qiáng)旅客粘性。盡管目前客戶細(xì)分的研究和應(yīng)用比較廣泛,但針對(duì)民航這一特殊市場(chǎng)的旅客細(xì)分研究還比較貧乏。在民航旅客分類上,通常會(huì)粗略地分為兩大類,公務(wù)旅客和閑暇旅客。很明顯,這種粗糙的分類方法并不能讓配套的產(chǎn)品滿足相應(yīng)的旅客需求,缺乏自由度的旅客可能會(huì)由此降低滿意度,這種被動(dòng)的滿意度降低并不是航空公司想看到的,改進(jìn)旅客聚類方法迫在眉睫。通過(guò)數(shù)據(jù)調(diào)查,運(yùn)用目前數(shù)據(jù)挖掘技術(shù)中很普遍和常用的聚類分析方法——K-means算法,筆者發(fā)現(xiàn)民航旅客的分類可以在原來(lái)的基礎(chǔ)上再進(jìn)行細(xì)分,最終可以由兩類細(xì)化為5類。通過(guò)總結(jié)細(xì)分后的旅客特征,為特定旅客制定并提供特定的產(chǎn)品組合選擇,這是本文的目的所在。通過(guò)本文研究,可以為航空公司日后更精確地給旅客提供定制化服務(wù)奠定一定基礎(chǔ),同時(shí)通過(guò)產(chǎn)品組合,可以優(yōu)化購(gòu)票程序,提高旅客購(gòu)票效率。
1? 數(shù)據(jù)采集和賦值
近年來(lái),我國(guó)民航業(yè)發(fā)展迅速。十幾年前,由于價(jià)格較高,乘坐民航客機(jī)還是一種看似“高大上”的出行方式?,F(xiàn)如今,居民平均生活水平提高,乘坐民航客機(jī)出行已不是什么新鮮事。由于乘坐目的不同,每位旅客對(duì)民航運(yùn)輸服務(wù)的要求與需求也不同。為了使每位旅客的出行更加舒心,同時(shí)提高航空公司的收益,我們需要深入旅客市場(chǎng),根據(jù)不同旅客的基本情況進(jìn)行分類,再將旅客的出行目的及要求進(jìn)行分類,從而對(duì)不同需求的旅客提供不同的產(chǎn)品組合。本次調(diào)查采用網(wǎng)上發(fā)布問(wèn)卷調(diào)查方式,參與者覆蓋全國(guó)各個(gè)區(qū)域和各個(gè)年齡段,2017年10月-2017年11月調(diào)研小組對(duì)學(xué)生、在職人員等不同社會(huì)人員以線上調(diào)查問(wèn)卷的方式進(jìn)行了調(diào)查,一共發(fā)布600份問(wèn)卷,回收了516份,其中有效問(wèn)卷500份。其中,1、2、3、4題為本次調(diào)研的基本變量,即旅客職業(yè)、年齡、性別和月收入,之后所有的數(shù)據(jù)全部是基于這些旅客基本信息之上。5、6、9題主要是為了統(tǒng)計(jì)乘坐飛機(jī)方面的支出在旅客收入中所占的比例,即出門首選交通工具、每月交通收入占比和每年乘飛機(jī)次數(shù),以便計(jì)算機(jī)票價(jià)格與旅客需求之間的供需關(guān)系。7、12、14、15、16、17、18、19、21、22題收集的信息是在多維度旅客聚類方面的主要參考數(shù)據(jù),例如常選購(gòu)買機(jī)票方式、購(gòu)買機(jī)票首要考慮因素和飛行時(shí)長(zhǎng)等因素,研究初期,我們將利用這些基本的數(shù)據(jù)對(duì)旅客進(jìn)行聚類,劃分,進(jìn)而推送更適合其的商品組合。8、10、11、20題是為了了解現(xiàn)如今旅客對(duì)民航業(yè)種種常見(jiàn)問(wèn)題的看法,例如對(duì)產(chǎn)品組合的看法等,以便民航業(yè)針對(duì)這些要求作出相應(yīng)的改變,適應(yīng)十九大提出的新要求。
2? 聚類模型的建立
本文中采用SPSS(Statistical Product and Service Solutions)軟件所提供的K-均值聚類分析(K-means Cluster)。操作過(guò)程是首先選擇問(wèn)卷中幾個(gè)具有代表性的關(guān)于旅客信息的問(wèn)題,然后分別將這些問(wèn)題的選項(xiàng)進(jìn)行賦值型量化,使每道題的選項(xiàng)數(shù)值均值都為0(例如,將A、B、C、D四個(gè)選項(xiàng)分賦值為-2、-1、1、2)再將數(shù)據(jù)導(dǎo)入SPSS進(jìn)行聚類分析操作,再對(duì)得出的結(jié)果進(jìn)行檢驗(yàn)和優(yōu)化。該步驟的特點(diǎn)是將文字型選項(xiàng)進(jìn)行數(shù)值量化,用數(shù)學(xué)方法解決實(shí)際應(yīng)用問(wèn)題,且每道問(wèn)題選項(xiàng)均值為零,排除了某些選項(xiàng)占比不均的現(xiàn)象。該聚類模型的建立過(guò)程只需一次將數(shù)據(jù)導(dǎo)入SPSS軟件,在運(yùn)算過(guò)程中可以隨時(shí)終止和重新開(kāi)始操作,計(jì)算過(guò)程中數(shù)據(jù)會(huì)被自動(dòng)迭代并根據(jù)設(shè)置的中心點(diǎn)分類。
K-means算法的公式如下:
其中,V表示樣本Xj到其所在類別聚類中心Ui的距離平方和,K表示聚類個(gè)數(shù),Xj表示第j個(gè)樣本,Ui表示第i個(gè)聚類中心。
3? 聚類過(guò)程
3.1 中心點(diǎn)的選擇
K-means算法本身思想比較簡(jiǎn)單,但是合理的確定K值和K個(gè)初始類簇中心點(diǎn)對(duì)于聚類效果的好壞有很大的影響。K-means算法在聚類方法的分類中屬于劃分方法,首先要構(gòu)建劃分?jǐn)?shù)目K值,然后進(jìn)行迭代計(jì)算。對(duì)于給定的初始K值,則需要一定的探究,一旦初始值選取不當(dāng),容易出現(xiàn)一個(gè)局部最小的準(zhǔn)則函數(shù)。目前初始聚類中心的選擇方法有以下的一些:
①任意的選取k個(gè)樣本作為初始聚類中心。
②憑經(jīng)驗(yàn)選取有代表性的點(diǎn)作為起始聚類中心。根據(jù)個(gè)體性質(zhì),觀察數(shù)據(jù)結(jié)構(gòu),選出比較合適的代表點(diǎn)。
③把全部混合樣本直觀地分成k類,計(jì)算各類均值作為初始聚類中心。
④通過(guò)“密度法”選擇代表點(diǎn)作為初始聚類中心。
⑤按最大最小距離聚類法中尋找聚類中心的方法確定初始聚類中心。
⑥進(jìn)行多次初值選擇、聚類,找出一組最優(yōu)的聚類結(jié)果。
由以上綜述可以看出,選取中心點(diǎn)的方法很多,可以通過(guò)隨機(jī)數(shù)選取、憑經(jīng)驗(yàn)確定和科學(xué)計(jì)算等等,無(wú)論使用哪一種方法,都不應(yīng)該一次性得出絕對(duì)的結(jié)論,應(yīng)該經(jīng)過(guò)多次計(jì)算比對(duì)結(jié)果,篩選優(yōu)化中心點(diǎn),最終得出最優(yōu)聚類結(jié)果。
3.2 實(shí)現(xiàn)K-means算法的聚類過(guò)程
通過(guò)對(duì)調(diào)查問(wèn)卷結(jié)果的分類,我們將旅客分為五個(gè)樣本集,舍棄每個(gè)類別中無(wú)意義的孤立點(diǎn)即壞點(diǎn),防止其對(duì)聚類結(jié)果產(chǎn)生不良影響。選取調(diào)查問(wèn)卷中四個(gè)問(wèn)題指標(biāo)進(jìn)行量化,分別是旅客職業(yè)、旅客性別、旅客在運(yùn)輸方面的消費(fèi)與收入占比、旅客平均飛行時(shí)長(zhǎng)。對(duì)五個(gè)樣本集的四個(gè)指標(biāo)分別進(jìn)行聚類。
其中VAR00002為旅客職業(yè),VAR00003為旅客性別,VAR00004為運(yùn)輸消費(fèi)收入占比,VAR000005為旅客飛行時(shí)長(zhǎng)。
3.3 聚類中心點(diǎn)的優(yōu)化
由初始聚類可以看出,第1和3類數(shù)據(jù)對(duì)象、第4和5類數(shù)據(jù)對(duì)象都極為相似,說(shuō)明初始中心點(diǎn)選取有誤差,相似的數(shù)據(jù)樣本集可以合并為一類,除此之外處于類別中間模糊邊界上的點(diǎn)可以視作孤立點(diǎn),對(duì)數(shù)據(jù)再一次進(jìn)行迭代計(jì)算,此時(shí)將K取值為3進(jìn)行優(yōu)化。
4? 聚類結(jié)果分析
從上述計(jì)算過(guò)程看出,各類別之間均值差距較大,已無(wú)法再次進(jìn)行劃分,調(diào)查數(shù)據(jù)共被分為3類,分別是企事業(yè)單位工作人員、自由休閑人員和學(xué)生,性別均值為0,表示男女性旅客各占一半,運(yùn)輸消費(fèi)收入占比大部分在10-20%,有一類旅客群在運(yùn)輸方面消費(fèi)占比不超過(guò)10%。旅客的飛行時(shí)間平均不超過(guò)5小時(shí),各旅客群有其對(duì)應(yīng)的飛行時(shí)長(zhǎng)偏好。
為了使聚類結(jié)果更有說(shuō)服力,筆者對(duì)分類結(jié)果進(jìn)行了檢驗(yàn)。將回收的問(wèn)卷根據(jù)出行目的(即問(wèn)題七)進(jìn)行分類,然后將主觀的分類結(jié)果與聚類結(jié)果進(jìn)行比對(duì),分析發(fā)現(xiàn)聚類結(jié)果與主觀分類結(jié)果不謀而合。按照其出行目的,將航空旅客分為5個(gè)類別:公/商務(wù)旅客,旅游度假旅客,探親訪友旅客,返工/返鄉(xiāng)旅客,回家/返校的學(xué)生群體旅客,即設(shè)定k=5時(shí)聚類結(jié)果,此時(shí)與主觀分類結(jié)果相吻合。接著,我們對(duì)首次分類結(jié)果進(jìn)行優(yōu)化,最終當(dāng)我們得出當(dāng)k=3時(shí),聚類結(jié)果不再變化,即航空旅客可以分為3類:公/商務(wù)旅客,探親旅游旅客,回家/返校學(xué)生群體。其分類依據(jù)綜合考慮了出行目的、旅客對(duì)出行時(shí)間與價(jià)格的敏感度等影響因素。將返工/返鄉(xiāng)旅客與回家/返校的學(xué)生群體旅客合并成一類,除了學(xué)生旅客比打工旅客多了一個(gè)暑假外,這兩類旅客性質(zhì)基本相似。將旅游度假旅客與探親訪友旅客合二為一,因這兩類旅客對(duì)出行時(shí)間的敏感度弱于公務(wù)旅客和學(xué)生群體。
在對(duì)于公/商務(wù)旅客的產(chǎn)品推薦上,我們主打“兩艙+高端酒店+接送機(jī)+X”和“經(jīng)濟(jì)艙+舒適型酒店(報(bào)銷標(biāo)準(zhǔn)下)+接送機(jī)+X”兩種產(chǎn)品組合,并根據(jù)實(shí)際情況,對(duì)動(dòng)態(tài)變量“X”進(jìn)行調(diào)整,它可以是與航空旅客運(yùn)輸相關(guān)的產(chǎn)品或服務(wù),也可以是與公/商務(wù)業(yè)務(wù)相關(guān)的產(chǎn)品或服務(wù)。針對(duì)探親旅游旅客,我們主要進(jìn)行“機(jī)票+接送機(jī)+酒店+旅游景點(diǎn)門票+X”的組合,其中機(jī)票主要以經(jīng)濟(jì)艙為主,可適當(dāng)加入少量公務(wù)艙,機(jī)票所附加的幾個(gè)小項(xiàng)可以進(jìn)行自由組合,盡量滿足更多旅客需求。在對(duì)于學(xué)生旅客的產(chǎn)品打包上,我們首先應(yīng)該考慮的就是特價(jià)打折的機(jī)票。但是一般價(jià)格較低的機(jī)票其航班時(shí)刻都不是很好,考慮到學(xué)生到達(dá)或離開(kāi)機(jī)場(chǎng)的便利性,我們便可以給其推薦可以拼車的接送機(jī)服務(wù)。同時(shí),對(duì)于部分行李較多的學(xué)生,我們還可以給其提供相應(yīng)的快遞服務(wù),并給予優(yōu)惠。在對(duì)于一些特例旅客的處理上,我們可以增加一個(gè)全開(kāi)放式自助組合板塊,讓旅客自由組合所需要的產(chǎn)品,而不僅僅局限于我們所提供的打包產(chǎn)品。同時(shí)通過(guò)后臺(tái)數(shù)據(jù)的積累,我們可以不定期推出某一類或某幾類旅客常用的產(chǎn)品組合,方便旅客的同時(shí)也提升了自身效率。
總之回家、返校/工作群體的特征相對(duì)明顯,對(duì)于價(jià)格的高度敏感和對(duì)于時(shí)間的不敏感將成為我們保持旅客粘性的關(guān)鍵,成為我們提供增值服務(wù)的重要切入點(diǎn),旅客分類與需求特征如表7所示。
5? 結(jié)論與展望
本文在借鑒前人研究成果的基礎(chǔ)上,查閱國(guó)內(nèi)外相關(guān)參考文獻(xiàn),對(duì)聚類算法及在航空旅客分析中的應(yīng)用做了一些研究,主要做了以下幾項(xiàng)研究。
①介紹了本文的研究背景及意義和數(shù)據(jù)挖掘、聚類算法方面的理論知識(shí)。
②借助SPSS分析工具,使用k-means算法對(duì)航空旅客的特點(diǎn)和需求進(jìn)行聚類分析,基本思想是將電子問(wèn)卷選項(xiàng)答案進(jìn)行量化,將首次聚類的結(jié)果進(jìn)行優(yōu)化,改變中心點(diǎn)k值,使優(yōu)化后的聚類中心有更高的準(zhǔn)確度。
③將聚類結(jié)果與航空旅客需求聯(lián)系一起進(jìn)行分析,對(duì)不同類型旅客推出不同產(chǎn)品組合建議,將數(shù)學(xué)分析與實(shí)際應(yīng)用更好地關(guān)聯(lián)。
在本項(xiàng)目的研究過(guò)程中,我們還發(fā)現(xiàn)如下可改進(jìn)的問(wèn)題:
①雖然電子問(wèn)卷涉及各個(gè)職業(yè)領(lǐng)域,但本文所選數(shù)據(jù)樣本相對(duì)于當(dāng)今時(shí)代的海量數(shù)據(jù)依然微不足道。
②對(duì)于本文研究所的結(jié)論,希望可以運(yùn)用手機(jī)或電腦軟件將產(chǎn)品組合展示出來(lái),將研究運(yùn)用到具體實(shí)踐當(dāng)中。
參考文獻(xiàn):
[1]張建萍,劉希玉.基于聚類分析的K-means算法研究及應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2007(05):166-168.
[2]袁方,周志勇,宋鑫.初始聚類中心優(yōu)化的k-means算法[J].計(jì)算機(jī)工程,2007(03):65-66.
[3]陳光宇,胡麗英,蘇勇.聚類分析在電信行業(yè)客戶關(guān)系管理中的應(yīng)用[J].微計(jì)算機(jī)信息,2006(33):210-211.
[4]丁青,周留根,朱愛(ài)兵,張義東.基于K-means聚類算法的校園網(wǎng)用戶行為分析研究[J].微計(jì)算機(jī)應(yīng)用,2010,31(06):74-80.
[5]馮曉蒲,張鐵峰.四種聚類方法之比較[J].微型機(jī)與應(yīng)用,2010,29(16):1-3.