国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

鐵路客運旅客群體劃分算法的研究

2022-01-04 01:28郝曉培單杏花王煒煒
鐵路計算機應用 2021年12期
關鍵詞:特征值聚類旅客

郝曉培,單杏花,王煒煒

(1. 中國鐵道科學研究院 研究生部,北京 100081;2. 中國鐵道科學研究院集團有限公司 電子計算技術(shù)研究所,北京 100081)

在高速鐵路線路建設及運營初期,巨大的建設成本導致其主要依靠政府補貼維持運營。2013年3月,隨著原中華人民共和國鐵道部實行政企分開,高速鐵路運營模式出現(xiàn)了新的變化,市場化運營嶄露頭角;2015年底,中華人民共和國國家發(fā)展和改革委員會規(guī)定,2016年1月1日起,鐵路部門可基于運輸市場競爭狀況、服務設施條件差異、客流分布變化規(guī)律、旅客承受能力和需求特點等,自主制定時速200 km以上的高速鐵路動車組列車票價;2018年12月,原中國鐵路總公司更名為中國國家鐵路集團有限公司,從全民所有制改為公司制,以更加市場化的方式,靈活參與客運市場競爭?;谑袌鎏攸c、服務設備條件差異、客流分布變化規(guī)律、旅客承受能力及鐵路網(wǎng)特點等進行自主定價,使其更靈活、更市場化[1]。

鐵路旅客需求的多樣化趨勢促使鐵路部門將服務模式從政策驅(qū)動型逐漸轉(zhuǎn)變?yōu)槭袌鲵?qū)動型及客戶驅(qū)動型。交通行業(yè)競爭的焦點已轉(zhuǎn)移到細分旅客市場、提高服務質(zhì)量、維系客戶關系上。近幾年鐵路客運已構(gòu)建了完善的用戶畫像及產(chǎn)品畫像[2],為旅客群體劃分提供了數(shù)據(jù)基礎??蛻羧后w劃分是指,根據(jù)一個或多個屬性將客戶劃分到不同的群組,同一群組下的客戶相似度較高,不同群組的客戶差異較大。通過將客戶分到正確的類別,對現(xiàn)有及預期客戶作截面分析,針對不同截面提取顯著特征,即可對客戶構(gòu)成較準確的認識,使服務和營銷定位更加精確。

1 旅客群體劃分算法概述

旅客群體劃分常用算法有:經(jīng)驗描述法、聚類算法、決策樹法、RFM(Recency-Frequency-Monetary)分析法[3]等??筛鶕?jù)應用場景、業(yè)務數(shù)據(jù)特點及業(yè)務功能選擇適合的算法。

(1)經(jīng)驗描述法基于專家意見進行特征選取及特征值范圍劃分,適用于業(yè)務簡單、特征較少的服務場景。

(2)聚類算法可基于鐵路客運用戶畫像系統(tǒng)發(fā)現(xiàn)不同的旅客群組,找到不同群組的特征,從而解決旅客分類問題。

(3)決策樹法根據(jù)構(gòu)建的用戶特征,利用信息增益,選擇最優(yōu)特征及分割點,從而實現(xiàn)旅客自動化分群。適用于人群特征維度低、特征取值多的場景。

(4)RFM分析法計算用戶的最近一次消費時間、消費頻率、消費金額等,并為每個特征設定閾值,基于3個特征高于閾值和低于閾值的限定,將群體分成8類,主要用于快消品的群體分析。

鐵路客運旅客數(shù)據(jù)作為一種典型的數(shù)據(jù)源,包含了大量的旅客購票及出行行為數(shù)據(jù),通過使用統(tǒng)計學、機器學習等方式構(gòu)建完善的用戶畫像系統(tǒng);鐵路客運旅客數(shù)據(jù)也包含了海量的社交網(wǎng)絡數(shù)據(jù),即同行關系及購票關系,為鐵路旅客群體劃分提供了重要的數(shù)據(jù)支撐。因此,需引入社交網(wǎng)絡對用戶畫像特征進行修正和完善,提高聚類效果。

2 旅客群體劃分算法設計

本文在鐵路客運用戶畫像系統(tǒng)的基礎上,構(gòu)建特征處理,社交網(wǎng)絡特征傳播,群體聚類3個模塊對鐵路客運旅客群體進行劃分,如圖1所示。

圖1 算法設計

2.1 特征處理

特征處理是指對結(jié)構(gòu)化及非結(jié)構(gòu)化的原始數(shù)據(jù)進行處理和加工,將雜亂的數(shù)據(jù)通過計算、組合、轉(zhuǎn)換等方法轉(zhuǎn)化為特征數(shù)據(jù),并使用主成分分析等方法對特征數(shù)據(jù)進行選擇的過程,主要方法如下。

(1)數(shù)據(jù)清洗

發(fā)現(xiàn)并修正原始數(shù)據(jù)中存在的可識別的錯誤,主要包括缺失值處理[4]和異常值檢測及處理。

(2)數(shù)據(jù)規(guī)范化

在用機器學習對模型進行訓練的過程中,樣本數(shù)據(jù)包含數(shù)值型、枚舉型等。為得到性能更優(yōu)的模型,需要對不同類型的特征進行處理,主要操作包括數(shù)據(jù)無量綱化及連續(xù)變量離散化。

(3)特征衍生與提取

模型構(gòu)建過程中,需要從現(xiàn)有的特征中構(gòu)造一些特征。針對特征過多的樣本,為降低模型復雜度,防止過擬合,需要進行降維處理,主要包括特征衍生及特征提取。

2.2 社交網(wǎng)絡特征傳播

2.2.1 社交網(wǎng)絡概述

目前,鐵路部分旅客出行頻次較低,統(tǒng)計類特征不完善,存在一定量的特征缺失,需要采用策略對其進行完善。本文主要采用社交網(wǎng)絡特征傳播的方式進行特征優(yōu)化,利用其鄰居節(jié)點的特征及權(quán)重,對其自身特征進行完善。在旅客社交網(wǎng)絡中,旅客不再是用戶畫像特征的信息載體,其個體與其他旅客之間的購票關系及同行關系對整個鐵路客運社交網(wǎng)絡中的信息產(chǎn)生、特征演化、知識傳播過程發(fā)揮著重要作用。本文在旅客特征的基礎上,將旅客關系網(wǎng)絡與相鄰節(jié)點的旅客特征信息交互融合,對旅客特征進行完善。

社交網(wǎng)絡G(V,L) 作為網(wǎng)絡的一種,由節(jié)點與連接節(jié)點的邊組成,節(jié)點集合為節(jié)點總數(shù);邊的集合為邊的總數(shù);li連 接的節(jié)點屬于節(jié)點集合V,其社交特征傳播規(guī)律也與復雜網(wǎng)絡理論研究的基本規(guī)律相同。

2.2.2 社交網(wǎng)絡算法

為完善鐵路旅客特征值,本文主要從網(wǎng)絡視角對旅客特征進行迭代更新,根據(jù)鐵路旅客間的同行關系、購票關系等構(gòu)建網(wǎng)絡結(jié)構(gòu),模擬PageRank[5]算法的隨機跳轉(zhuǎn)思路,對網(wǎng)絡中的旅客節(jié)點特征進行迭代運算,直至數(shù)值穩(wěn)定為止。

基于PageRank算法原理,特征傳播過程主要分為3個階段。

(1)網(wǎng)絡初始階段:旅客作為網(wǎng)絡節(jié)點,旅客之間的購票關系及同行關系形成網(wǎng)絡的連接,網(wǎng)絡連接的權(quán)重定義為購票次數(shù)及同行關系次數(shù),圖2是以4個節(jié)點為例的關系網(wǎng)絡。

圖2 以4個節(jié)點為例的關系網(wǎng)絡

(2)特征初始階段:基于特征處理生成的旅客特征作為網(wǎng)絡節(jié)點的屬性,每個節(jié)點與相鄰節(jié)點的重要性是不同的。本文將相鄰節(jié)點和該節(jié)點購票及出行的總次數(shù)與所有相鄰節(jié)點和該節(jié)點購票及出行的總次數(shù)的比值作為權(quán)重,即:其中 ,fij表示節(jié)點i為節(jié)點j購票的次數(shù)及節(jié)點i與節(jié)點j同行次數(shù)的總和;n代表節(jié)點i相鄰節(jié)點的個數(shù) 。Wij越大,說明節(jié)點j的特征對節(jié)點i的影響力越大。針對每一個特征值,都需要基于網(wǎng)絡結(jié)構(gòu)對其進行更新;

(3)特征值更新階段:針對確定的特征變量,進行迭代運算。每一次計算都將原來的特征值與該節(jié)點相鄰節(jié)點的特征值加權(quán)求和并求最大值,作為新的特征值不斷迭代,直至特征值趨于穩(wěn)定。以節(jié)點i的特征值xit為例,其計算公式為

2.3 群體聚類

特征處理及社交網(wǎng)絡特征傳播分別對旅客特征信息進行計算及優(yōu)化。聚類算法主要基于優(yōu)化過的特征進行用戶群體分類,常用的分類算法有Kmeans算法[6]。該算法原理相對簡單,可解釋性強,運行速度快,被廣泛應用于客戶分群、精準營銷的業(yè)務場景中,取得良好的效果。然而,業(yè)務數(shù)據(jù)的不同會導致K-means算法訓練的難度加大,主要體現(xiàn)在聚類中心初始值的選擇及相似度度量算法上。為解決K-mean算法存在的問題,本文針對這兩方面進行了優(yōu)化。

2.3.1 初始聚類中心

傳統(tǒng)的K-means算法采用隨機的策略進行初始聚類中心的選擇,選擇不當易造成聚類結(jié)果波動,陷入局部最小解,也易受到噪音數(shù)據(jù)的影響,較難發(fā)現(xiàn)非球狀的樣本簇。為解決該問題,本文采用密度指標結(jié)合最大最小距離法[7]進行初始聚類中心的選擇。

初始聚類中心選擇步驟如下

(1)計算所有樣本的平均距離dc:

其中,dij代表樣本i與j之間的歐式距離。

(2)密度pi表 示落在以樣本對象xi為 中心;dc為半徑的區(qū)域內(nèi)的樣本對象的數(shù)量:

(3)計算該樣本的最大密度點,將其作為第1個初始聚類中心c1,以解決選取局限性問題。

(4)采用最大最小距離法及密度法選擇出其他的初始聚類中心,基于公式din)}(i=1,2,···,n)挑 選樣本對象xj, 即xj到樣本xi的最大最小距離為disti, 將樣本平均距離dc范圍內(nèi)的所有樣本點中樣本密度值最大的對象作為第2個初始聚類中心c2。不斷重復該過程以找到所有的聚類中心,通過該方式選擇的初始聚類中心,分布密度高,且較為接近最終的聚類中心,可有效減少聚類過程的迭代次數(shù)。

2.3.2 相似度度量算法

傳統(tǒng)的K-means算法主要采用歐式距離計算樣本相似度,針對樣本特征進行統(tǒng)一處理,不區(qū)分特征重要性。然而,鐵路旅客的不同特征之間的相似度是有差異的。為區(qū)別對待旅客樣本特征,本文將樣本與樣本之間的權(quán)重距離作為相似度度量依據(jù),基于信息熵來計算特征權(quán)重,信息熵較小的賦予較小的權(quán)重,反之,則賦予較大的權(quán)重[8],權(quán)重計算方式如下。

(1)構(gòu)建樣本特征矩陣A:

其中,n表示樣本個數(shù);m表示特征數(shù);代表第j個樣本的第i個特征。

(3)計算特征信息熵H(i):

(4)計算特征維度上的差異系數(shù)ri:

(5)計算特征權(quán)重wi:

3 實例分析

3.1 特征處理

為驗證模型的有效性,本文隨機抽取某客運區(qū)段、一定時間內(nèi)、某車次的30 000名旅客的所有出行行為數(shù)據(jù)(包括非本區(qū)段)作為數(shù)據(jù)集。通過特征處理整理出的數(shù)據(jù)特征維度包括:出行頻次、動車組出行比例、一線及新一線城市出行比例、購買保險比例、打印發(fā)票比例、假日出行比例、平均同行人數(shù)、高端席別比例等,初始特征統(tǒng)計如表1所示。

表1 初始特征

出行頻次及平均同行人數(shù)的數(shù)據(jù)值不在[0,1],需要進行歸一化處理。

3.2 特征更新

特征更新策略主要基于PageRank算法思想,根據(jù)節(jié)點本身的特征及鄰節(jié)點的特征進行調(diào)整,并對調(diào)整后的特征進行歸一化處理,得到最終的旅客特征。

3.3 聚類

將特征處理及特征更新后的數(shù)據(jù)通過改進的Kmeans算法進行聚類,得到6個類別,對聚類結(jié)果進行處理,得到各類別平均特征值如表2所示,群體比例分布如圖3所示。

由表2可知,類別1出行頻率較低,且大部分是在節(jié)假日出行;類別2與類別1相近,但是其出行一線及新一線城市的比例較高;類別3所有的特征相對均衡;類別4~類別6出行頻次相對較高,動車組所占比例較高,且打印發(fā)票(報銷憑證)比例較高,可以定義為商務出行群體。由圖3可知,該車次類別4~類別6群體所占比例接近75%,大部分為商務人群出行,可針對該車次的服務進行相應的策略配置,為票價調(diào)整提供決策依據(jù)。

圖3 群體比例分布

表2 各類別平均特征值

4 結(jié)束語

本文通過鐵路客運用戶畫像系統(tǒng)構(gòu)建旅客特征,同時基于旅客購票關系及同行關系,利用PageRank算法思想優(yōu)化完善旅客特征,作為旅客群體分類的數(shù)據(jù)特征;分析了K-means聚類算法存在的缺點,對初始聚類中心節(jié)點的選擇及相似度度量算法進行了優(yōu)化,從數(shù)據(jù)特征及聚類算法優(yōu)化等方面提高了聚類的準確性及穩(wěn)定性;對實際的生產(chǎn)數(shù)據(jù)進行了驗證,效果較明顯。然而,本文只局限于考慮旅客特征,尚未考慮區(qū)段及車次的特征,下一步可將旅客與產(chǎn)品進行相關分析,豐富數(shù)據(jù)種類,以提高分析效果,作出更精準的營銷策略。

猜你喜歡
特征值聚類旅客
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
一種改進K-means聚類的近鄰傳播最大最小距離算法
單圈圖關聯(lián)矩陣的特征值
AR-Grams:一種應用于網(wǎng)絡輿情熱點發(fā)現(xiàn)的文本聚類方法
候車大廳的旅客
伴隨矩陣的性質(zhì)及在解題中的應用
我是人
求矩陣特征值的一個簡單方法
基于Spark平臺的K-means聚類算法改進及并行化實現(xiàn)
一類非線性矩陣方程組性質(zhì)的研究