国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RBM-BPNN的民航潛在高價值旅客預測

2019-09-13 03:36劉澤君
計算機應用與軟件 2019年9期
關鍵詞:類別旅客節(jié)點

徐 濤 劉澤君 盧 敏

1(中國民航大學計算機科學與技術學院 天津 300300)2(中國民航信息技術科研基地 天津 300300)3(民航旅客服務智能化應用技術重點實驗室 北京 101318)

0 引 言

近年來,隨著航空市場迅猛發(fā)展,民航企業(yè)合作競爭日益增強。為了提高競爭力,航空公司推行了常旅客計劃。然而,由于常旅客計劃的門檻較高并且反饋的利益較少,導致了當前消費尚少,但潛在價值較高的旅客群流失,不利于航空公司長遠的利益發(fā)展。因此,如何預測旅客的價值成長趨勢并發(fā)現(xiàn)潛在高價值旅客,先于其他競爭對手將其發(fā)展為高忠誠度高價值旅客成為了航空公司重點關注的問題。

目前,國內外關于潛在客戶預測的研究主要運用基于特征分類的行為分析方法。林友芳等[1]構建旅客同行關系網絡,統(tǒng)計同行行為特征,利用多層感知器進行分類預測。喬珂等[2]從高鐵客票數(shù)據中選擇了6類乘客價值影響因素作為分類指標,采用LCM模型進行高鐵旅客的潛在類別分析。Nakahara等[3]從銷售信息中歸納出客戶購買行為特征,并用聚類算法發(fā)現(xiàn)潛在客戶。

總體來看,上述方法都是先用統(tǒng)計方法提取潛在客戶行為特征,再用機器學習模型進行分類預測。然而,民航潛在高價值旅客與低價值旅客往往存在特征相似性,統(tǒng)計方法提取的特征帶有主觀色彩,難以準確表達潛在高價值旅客特征信息,因而影響分類預測準確性。

為解決以上問題,本文將RBM[4]和BPNN[5]相結合。一方面,BPNN能發(fā)現(xiàn)旅客行為特征與價值類別之間復雜的非線性關系,相比其他分類模型具有更強的泛化和容錯能力,更適用于民航潛在高價值旅客預測問題。另一方面, RBM能夠自動提取特征,無需經驗支持或人工干預,可以保證旅客行為特征的客觀性、全面性,從而提高BPNN的分類預測效果。

本文提出了一種基于RBM-BPNN的潛在高價值旅客預測方法。首先依據航空公司的發(fā)展需求,設計民航潛在高價值旅客定義方法,并設置旅客類別標簽;然后利用RBM自動提取潛在高價值旅客和低價值旅客的行為特征;最后根據旅客行為特征,利用BPNN進行民航旅客的分類預測,從而發(fā)現(xiàn)潛在高價值旅客。

1 預測模型構建

民航潛在高價值旅客預測的關鍵有兩點:一是定義潛在高價值旅客,不同領域有不同的價值定義方式,民航領域的價值定義方式應符合航空公司的發(fā)展需求;二是設計擁有優(yōu)秀的民航潛在高價值旅客特征表達能力和良好的特征學習能力的分類預測模型。

1.1 潛在高價值旅客定義

潛在高價值旅客定義分為兩步:計算旅客價值、設置旅客類別標簽。

1.1.1計算旅客價值

采用RFM模型(Recency Frequency Monetary)[6]作為民航旅客價值的衡量標準。RFM模型包含三項價值指標:最近一次消費時間與當前時間之差R、最近消費頻率F和最近消費金額M。根據RFM模型,將旅客pi的價值表示為:

value(pi)=αi·βT

(1)

式中:αi=(Ri,Fi,Mi)表示旅客pi的價值向量,αi的各分量表示旅客pi最近乘機日期與當前日期之差(此項為負值)、近期乘機次數(shù)以及近期乘機金額的歸一化值;β=(βR,βF,βM)表示權值向量,用于確定各分量在價值中的占比,一般由民航業(yè)背景結合專家經驗確定。

1.1.2設置旅客類別標簽

為了進行有監(jiān)督的分類學習,需要劃分價值類別,設置旅客類別標簽。一般而言,潛在高價值旅客是指當前價值較低,未來一段時間后價值較高的旅客。記T為當前時刻,T′為未來某一時刻,V為價值閾值,表示高價值與低價值的分界限,根據旅客整體的價值分布,由價值衡量指標計算得到。若旅客在T時刻的價值小于V,在T′時刻的價值大于等于V,則稱其為潛在高價值旅客,價值曲線如圖1(I)所示。反之,若旅客在T時刻的價值小于V,在T′時刻的價值仍然小于V,則稱為低價值旅客,價值曲線如圖1(II)所示。

圖1 旅客價值曲線圖

T時刻到T′時刻的時間差|T-T′|的長短與民航業(yè)發(fā)展特征密切相關,對于航空公司而言,若該時段設置的過長,旅客對航空公司現(xiàn)階段發(fā)展的作用不大;若該時段設置的過短,旅客的出行次數(shù)不足以形成行為偏好。綜合考慮,將該時段設定為一年。航空公司可依據旅客上一年的出行記錄預測其在下一年的價值,做出相應的決策。

定義價值閾值V。從旅客歷史出行記錄中可以獲得旅客的近期消費情況,利用RFM模型計算出旅客價值并降序,根據20-80原則[7],價值排名在前20%的旅客創(chuàng)造了80%的利潤,可視為高價值旅客。

設置旅客類別標簽。一年后,旅客的價值會呈現(xiàn)不同的發(fā)展趨勢,從而形成四種類別。其中:高價值旅客為兩年均表現(xiàn)為高價值的旅客;異常旅客為在上一年表現(xiàn)為高價值且在下一年表現(xiàn)為低價值的旅客;潛在高價值旅客為在上一年表現(xiàn)為低價值且在下一年表現(xiàn)為高價值旅客的旅客;低價值旅客為兩年均表現(xiàn)為低價值的旅客。旅客類別劃分如圖2所示。

圖2 旅客類別劃分

1.2 RBM-BPNN分類預測模型

RBM是無監(jiān)督學習模型,由可視層和隱藏層組成,其隱藏層能夠擬合可視層分布,常用于各領域的特征提取問題。BPNN是有監(jiān)督學習模型,由輸入層、隱藏層和輸出層組成,能夠通過復雜的函數(shù)變換發(fā)現(xiàn)輸入和輸出之間的關系,常用于各領域的分類預測問題。本文結合二者的優(yōu)點,提出RBM-BPNN分類預測模型,模型由一個RBM和一個BPNN組成,結構如圖3所示。

設RBM可視層節(jié)點vi的數(shù)目為m,代表m維輸入屬性,隱藏層節(jié)點rhj的數(shù)目為n,代表n個行為特征。則RBM的能量函數(shù)為:

(2)

式中:ai為vi的偏置;bj為rhj的偏置;wij為兩層之間的連接權重。θ={w,a,b}為RBM中所有參數(shù),根據式(2)可得到(v,rh)的聯(lián)合概率分布為:

(3)

(4)

RBM的節(jié)點只有激活(1)、抑制(0)兩種狀態(tài),且激活狀態(tài)條件獨立,則有:

(5)

(6)

式中:σ(x)=(1+e-x)-1為Sigmoid激活函數(shù)。

采用對比散度算法(Contrastive divergence,CD)[8],通過式(5)、式(6)對可視層和隱藏層進行重構,更新參數(shù)θ,當從隱藏層得到的可視層節(jié)點分布與原樣本的分布最大程度相近時,認為該隱藏層為可視層的另外一種表達,是輸入數(shù)據的特征,θ={w,a,b}條件下的式(5)即為行為特征的表達式。

將從RBM得到的輸出特征作為BPNN的輸入,增強BPNN的分類預測效果。設BPNN隱藏層節(jié)點bhk的數(shù)目為s;輸出層節(jié)點ul的數(shù)目為2,代表兩類分類結果;wjk為輸入層到隱藏層的權重;wkl為隱藏層到輸出層的權重;ck為隱藏層的偏置;dl為輸出層的偏置。則BPNN隱藏層節(jié)點輸出為:

(7)

預測結果的表達式為:

(8)

設yl為實際樣本標簽,在得到期望輸出之前,BPNN轉入反向傳播階段,誤差函數(shù)為:

(9)

1.3 基于RBM-BPNN的民航潛在高價值旅客預測

基于RBM-BPNN的民航潛在高價值旅客預測的思想為:根據上一年表現(xiàn)為低價值的民航旅客的行為屬性,利用RBM-BPNN分類預測模型判斷其是潛在高價值旅客還是低價值旅客。高價值旅客和異常旅客非本文研究的重點,不作討論?;赗BM-BPNN的民航潛在高價值旅客預測方法的實現(xiàn)步驟如下:

Step1根據RFM模型劃分旅客類別,設置民航旅客類別標簽,將上一年處于低價值的旅客的類別標簽及行為屬性組成樣本,劃分訓練集和測試集。

Step2RBM-BPNN分類預測模型初始化,隨機賦值RBM的參數(shù)wij、ai、bj和BPNN的參數(shù)wjk、wkl、ck、dl。

Step3RBM訓練。輸入訓練集,使用CD算法進行RBM訓練,提取旅客行為特征,重構誤差滿足要求后保存RBM網絡結構及參數(shù)θ={w,a,b}。記v和rh分別為初始可視層和隱藏層,v′和rh′分別為重構后的可視層和隱藏層,η1為RBM學習率,則RBM各參數(shù)的更新準則為:

(10)

Step4樣本重組。用RBM的隱藏層rh替換BPNN的輸入層,作為旅客的行為特征,將旅客的類別標簽及行為特征重組為樣本。

Step5BPNN訓練。使用誤差反向傳播法[9]逐層調整BPNN的權重和偏置,學習旅客行為特征與價值類別之間的關系,訓練誤差SE達到目標精度后保存BPNN網絡結構及參數(shù)wjk、wkl、ck、dl。記η2為BPNN學習率,則BPNN各參數(shù)更新準則為:

wkl←wkl+η2bhk(yl-ul)

dl←dl+η2(yl-ul)

(11)

Step6分類預測。確定RBM-BPNN分類預測模型的網絡結構后輸入測試集,采用保存的RBM參數(shù)θ={w,a,b}和BPNN參數(shù)wjk、wkl、ck、dl進行旅客的分類預測,得到預測結果。

2 實 驗

實驗所用的數(shù)據集是中國民航旅客訂座記錄(Passenger Name Record, PNR),選取2010年后的某年X及次年全部旅客的出行數(shù)據進行實驗。根據RFM價值模型和20-80原則,可以得到X年的潛在高價值旅客和低價值旅客數(shù)目(如表1所示)。

表1 數(shù)據集統(tǒng)計信息

2.1 數(shù)據預處理

PNR數(shù)據集中,一條記錄僅代表一名旅客的一次訂票信息。為了不損失信息的反映一名旅客多次出行的情況,需要將同一名旅客的多條記錄合并,這既反映旅客全部出行的選擇,又反映其對于選擇的偏好。

原始PNR數(shù)據集含有10個屬性,分別是性別、出生年份、航空公司、起飛日期、起飛時間、艙位、座位號、座位行號、折扣和航線距離。對于原數(shù)據集的離散型屬性(性別、出生年份、航空公司、起飛日期、艙位、座位行號、座位號),將其值域內的每一個取值作為一個子屬性,并依次記錄旅客對于每個子屬性選擇的頻次;對于原數(shù)據集的連續(xù)型屬性(起飛時間、折扣、航線距離),先將屬性離散化,用相應的離散區(qū)間替換連續(xù)屬性值,再依次記錄旅客對于每個離散區(qū)間選擇的頻次。

又因RBM的訓練要求節(jié)點為二值0-1變量,因此對合并后的數(shù)據做二元化處理。對于一名旅客只能取唯一值的自然屬性(性別、出生年份),將每個屬性劃分為0、1二值;對于一名旅客可取多值的屬性(航空公司、起飛日期、艙位、座位行號、座位號、起飛時間、折扣、航線距離),分為零、低、中、高四項,每項設定閾值。最終,輸入樣本維度為2 288維(如表2所示)。

表2 屬性維度統(tǒng)計信息

2.2 實驗評價指標

實驗選取精確度、召回率和F1值三個指標評估方法的性能。

2.3 實驗及結果分析

從處理后的數(shù)據集中隨機抽取潛在高價值旅客樣本及低價值旅客樣本各8 000條,組成16 000條訓練樣本;隨機抽取潛在高價值旅客樣本及低價值旅客樣本各2 000條,組成4 000條測試樣本進行實驗。

參數(shù)wij、wjk、wkl、ai、bj、ck、dl的初始值通常為從一組均值為0,標準差為0.01的正態(tài)分布中抽取的隨機值;RBM可視層節(jié)點vi數(shù)目m為2 288,與輸入樣本維度一致;BPNN輸出層節(jié)點ul數(shù)目l為2;RBM重構誤差小于2%時停止訓練,BPNN目標精度設為0.1。

為測試本文方法的性能,進行了兩種不同的實驗。

1) 確定RBM-BPNN分類預測模型的最佳參數(shù)。RBM隱藏層節(jié)點數(shù)目n以及BPNN隱藏層節(jié)點數(shù)目s是對模型輸出結果影響最大的參數(shù),需要通過多次訓練,對比尋找合適的值。

RBM隱藏層節(jié)點數(shù)目n取100到2 100,每次訓練增加200。從圖4可以看出,當隱藏層節(jié)點數(shù)設為700時三項指標最高,因此,將RBM隱藏層節(jié)點數(shù)目設為700。

圖4 RBM隱藏層節(jié)點數(shù)目對結果的影響

BPNN隱藏層節(jié)點數(shù)s取50到650,每次訓練增加50。從圖5可以看出,當隱藏層節(jié)點數(shù)設為150時,精確度和F1值最高,且召回率較高,因此,將BPNN隱藏層節(jié)點數(shù)目設為150。

圖5 BPNN隱藏層節(jié)點數(shù)目對結果的影響

2) 不同行為分析方法的對比。令n=700,s=150,將本文提出的基于RBM-BPNN的民航潛在高價值旅客預測方法(簡稱RBM-BPNN方法)與BPNN方法、DT方法、PCA-BPNN方法在相同的數(shù)據集上進行對比。其中,BPNN方法與DT方法采用了14個統(tǒng)計特征,包括性別、年齡、月平均出行次數(shù)、平均里程數(shù)、空閑時間出行比例、正常時間出行比例、繁忙時間出行比例、頭等艙出行比例、商務艙出行比例、經濟艙出行比例、平均折扣、節(jié)假日出行比例、工作日出行比例、周末出行比例。PCA-BPNN方法利用經典的PCA特征提取算法從原始數(shù)據中抽取特征,再輸入 BPNN進行分類預測。不同方法的實驗結果如表3所示。

表3 方法的對比 %

通過實驗可以看出:

(1) BPNN方法在三項指標上均高于DT方法,這說明BPNN比DT具有更強的自適應能力,更適用于PNR數(shù)據集。

(2) BPNN方法和DT方法的三項指標均低于80%,說明基于特征分類的行為分析方法無法精確有效地發(fā)現(xiàn)潛在高價值旅客。這是由于統(tǒng)計方式提取的特征具有較強的主觀性,難以合理地表示原始數(shù)據,是導致分類效果欠佳的重要原因。

(3) RBM-BPNN方法在三項指標上均高于BPNN方法和DT方法,說明RBM-BPNN方法比基于特征分類的行為分析方法更能有效識別潛在高價值旅客。這是由于RBM以概率計算方式自動選取性能良好特征,摒棄冗余特征,發(fā)現(xiàn)隱藏特征,所提取的特征比統(tǒng)計特征更為客觀。

(4) RBM-BPNN方法在三項指標上均高于PCA-BPNN方法,說明RBM提取的特征比PCA提取的特征性能更好。這是由于RBM的特征提取過程是以擬合輸入為目的,特征能夠較為精確地代表原始數(shù)據;而PCA的特征提取過程是以去相關性為目的,忽略了特征之間的相關性和差異性,使得特征喪失了對數(shù)據的解釋性,難以精確地反映原始數(shù)據的信息。

從對比實驗的結果可見,基于RBM-BPNN的民航潛在高價值旅客預測方法具有更高的旅客分類準確率和民航潛在高價值旅客預測能力。

3 結 語

本文將RBM的無監(jiān)督特征提取與BPNN的有監(jiān)督分類功能相結合,提出了基于RBM-BPNN的民航潛在高價值旅客發(fā)現(xiàn)方法,對民航旅客未來的價值類別進行了預測。實驗結果表明,與基于特征分類的行為分析方法相比,本文方法可以明顯提高民航潛在高價值旅客發(fā)現(xiàn)效果。由于RBM-BPNN分類預測能夠直接從原始數(shù)據集中自動提取并分類特征,無需經驗支持或人工干預,因此可以用于不同領域的行為分析問題。

猜你喜歡
類別旅客節(jié)點
基于圖連通支配集的子圖匹配優(yōu)化算法
一起去圖書館吧
候車大廳的旅客
結合概率路由的機會網絡自私節(jié)點檢測算法
面向復雜網絡的節(jié)點相似性度量*
采用貪婪啟發(fā)式的異構WSNs 部分覆蓋算法*
簡析基于概率預測的網絡數(shù)學模型建構
我是人
選相紙 打照片
金旅客車