楊愷鶴,丁小兵,劉志鋼,陳家萍,萬 蘇
(上海工程技術(shù)大學(xué) 城市軌道交通學(xué)院,上海201620)
中國(guó)軌道交通建設(shè)和運(yùn)營(yíng)高速發(fā)展,在運(yùn)營(yíng)管理方面積累了經(jīng)驗(yàn),也帶來了一定的問題:城市區(qū)域內(nèi)交通通行擁堵狀況加重,城市的部分功能開始轉(zhuǎn)移向郊區(qū),市郊區(qū)間的時(shí)段客流明顯增加,市郊線路、地鐵客流的出行規(guī)律產(chǎn)生了明顯改變,且預(yù)測(cè)難度較大,增加了車站客流組織的難度,若車站站臺(tái)的滯留客流過大,還可能引發(fā)嚴(yán)重的安全問題。本文通過大數(shù)據(jù)理論分析,結(jié)合先進(jìn)的數(shù)據(jù)挖掘技術(shù)研究軌道交通客流在車站的聚集規(guī)律,可以及時(shí)獲取不同規(guī)模車站,不同手段的客流出行特征,有助于運(yùn)營(yíng)企業(yè)及時(shí)調(diào)整行車計(jì)劃,為日常行車調(diào)度指揮提供決策依據(jù)。
在國(guó)內(nèi)外研究地鐵客流出行分布所構(gòu)建的模型中,以重力模型和增長(zhǎng)系數(shù)法用得較多,奠定了客流研究的基礎(chǔ)。1940年,Stouffer最早提出了介入機(jī)會(huì)模型;1955年,Casey提出了重力模型,后來該模型在最大熵原理和最大似然原理方面均得NT解釋;1965年,F(xiàn)umess提出了著名的增長(zhǎng)系數(shù)法。隨后,美國(guó)在交通規(guī)劃中開始使用線性回歸模型來預(yù)測(cè)出行發(fā)生和吸引量;1960年末,英國(guó)專家首先提出一種交叉分析法的客流研究算法,基于此Gordon W.S提出了不以家庭為出行單位的研究模型,研究了客流的分布于聚集模型[1];Richard C.M.Yam建立專門模型來研究專有客流的出行特征[2];J.L.Bowman等以出行者的活動(dòng)安排為切入點(diǎn)建立模型,來預(yù)測(cè)出行的產(chǎn)生[3]。這些國(guó)外學(xué)者在客流量預(yù)測(cè)和分布的模型上作了較為深入的研究,奠定了理論基礎(chǔ)。國(guó)內(nèi)近幾年在該方面作了較多值得借鑒作用的研究:楊曉光構(gòu)建了研究客流分布滯后的預(yù)測(cè)模型,并兼顧了其他關(guān)鍵因素的影響,所建模型更加完善,計(jì)算結(jié)果也更加精確[4];姚恩建指出非集計(jì)模型在理論上的不足,提出了一種集計(jì)數(shù)據(jù)的客流OD分布模型,并進(jìn)行了實(shí)例驗(yàn)證[5]。在OD分布及路徑選擇的聯(lián)合模型上,由于缺少關(guān)于目的地選擇的調(diào)查結(jié)果,在參數(shù)標(biāo)定上采用外推方式,致使兩階段分開,影響了模型的預(yù)測(cè)精度。隨后,趙鵬提出了基于狀態(tài)空間方法的短時(shí)客流OD估計(jì)模型,預(yù)測(cè)結(jié)果的精確度得到較為理想的提高[6];陳小鴻以客流OD矩陣為出發(fā)點(diǎn),建立了以廣義最小二乘理論為基礎(chǔ)的OD矩陣估計(jì)模型,并采用遞增拉格朗日算法給出了相應(yīng)的求解過程,但反推結(jié)果的精度不太理想[7]。
上述研究成果在海量客流數(shù)據(jù)預(yù)處理方面均未深入研究,對(duì)數(shù)據(jù)字段值缺失等未形成補(bǔ)充機(jī)制;對(duì)地鐵客流積累的數(shù)據(jù)的應(yīng)用尚不夠充分,還有很多方面可以深入挖掘。若能對(duì)客流數(shù)據(jù)進(jìn)行精細(xì)化預(yù)處理和缺失補(bǔ)充,探索乘客的時(shí)段聚集實(shí)時(shí)狀態(tài),為軌道交通市郊線路行車組織方案優(yōu)化提供數(shù)據(jù)支持。本文擬從運(yùn)營(yíng)企業(yè)獲取的AFC進(jìn)出站客流數(shù)據(jù)為支撐,研究基于乘客出行交通卡卡號(hào)及出行時(shí)段的信息跟蹤,并結(jié)合相關(guān)時(shí)段參數(shù)數(shù)據(jù),計(jì)算乘客的走行時(shí)間,從而構(gòu)建模型挖掘乘客的聚集機(jī)理,以聚集機(jī)理為支撐獲取乘客的出行時(shí)段特征及時(shí)段分布,以此指揮軌道交通的行車組織,列車運(yùn)行計(jì)劃的編制及臨時(shí)調(diào)整等,亦可為客流預(yù)測(cè)及客流應(yīng)急疏導(dǎo)模型的補(bǔ)充等提供理論及方法參考。
軌道交通運(yùn)營(yíng)企業(yè)在日常運(yùn)營(yíng)中積累了大量客流數(shù)據(jù),該客流數(shù)據(jù)包含了刷卡卡號(hào)、進(jìn)出站時(shí)間、進(jìn)出站車站編號(hào)等重要數(shù)據(jù)。而Oracle數(shù)據(jù)庫(kù)容量較大,且早期在建設(shè)數(shù)據(jù)庫(kù)時(shí),字段、存儲(chǔ)過程、數(shù)據(jù)規(guī)則、范式等設(shè)計(jì)合理性欠佳等原因,數(shù)據(jù)庫(kù)中的客流數(shù)據(jù)字段及其存儲(chǔ)值有冗余甚至錯(cuò)誤,不僅浪費(fèi)存儲(chǔ)空間,還降低了數(shù)據(jù)挖掘與分析的效率和穩(wěn)定性。所以對(duì)客流數(shù)據(jù)的異常識(shí)別很有必要,本文研究的異常數(shù)據(jù)包括:按字段填充缺失的數(shù)據(jù)、冗余的數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)等。
采集的原始數(shù)據(jù)通常存在冗余、字段值不完整、數(shù)據(jù)內(nèi)容不規(guī)范等問題,不能直接用于數(shù)據(jù)挖掘,需要設(shè)計(jì)數(shù)據(jù)預(yù)處理算法。但由于數(shù)據(jù)量大,預(yù)處理的效率較低,若算法設(shè)計(jì)不完善,則會(huì)出現(xiàn)冗余計(jì)算,甚至錯(cuò)誤計(jì)算,導(dǎo)致處理性能和計(jì)算結(jié)果的準(zhǔn)確度降低。本文擬從數(shù)據(jù)清洗算法角度進(jìn)行優(yōu)化,從而提高清洗運(yùn)算效率,主原始數(shù)據(jù)預(yù)處理設(shè)計(jì)過程如圖1所示。
在軌道交通日常運(yùn)營(yíng)維護(hù)等積累的數(shù)據(jù)中,有的是手工填寫、有的是根據(jù)系統(tǒng)前臺(tái)運(yùn)行采集并經(jīng)過轉(zhuǎn)換自動(dòng)填寫而成,數(shù)據(jù)不完整,字段值缺失等是極有可能存在的。故本文提出一種改進(jìn)的樸素貝葉斯分類算法,用于對(duì)重要數(shù)據(jù)字段缺失的填充,進(jìn)而數(shù)據(jù)的有效性能得到保證,基本流程如圖2所示。
圖1 原始數(shù)據(jù)預(yù)處理算法設(shè)計(jì)Fig.1 The flow chart of data cleaning and pretreatment
圖2 缺失值填充流程圖Fig.2 The flow chart of filling missing value
在對(duì)缺失值的參數(shù)估計(jì)方面,通過式(1)來計(jì)算各缺失字段值的可能概率,其中P(X)的取值在各個(gè)可能取值狀態(tài)下都可視為常數(shù)。在該狀態(tài)下計(jì)算出P(X|C i)×P(C i),即可完成填充缺失值。若缺失值的先驗(yàn)概率不可提前預(yù)知的情況下,可將其預(yù)先設(shè)為等概率發(fā)生,所以P(X|C i)可由式(2)變形求得:
通過分析和推導(dǎo),缺失值的參數(shù)估計(jì)算法可以轉(zhuǎn)化為求所缺失字段的取值概率P(X|C i)。 當(dāng)研究數(shù)據(jù)的樣本達(dá)到標(biāo)準(zhǔn)時(shí),其概率近似等價(jià)于發(fā)生的頻率,可用數(shù)據(jù)字段完整且數(shù)據(jù)值符合規(guī)則的記錄取值出現(xiàn)頻率來估計(jì)缺失值的發(fā)生概率P(X n|C i)。
式(2)在計(jì)算含有缺失值的記錄值時(shí),因數(shù)據(jù)庫(kù)范式的依賴性關(guān)系,主碼的取值很大程度上決定了各待填充值的概率,由于MapReduce算法在Map階段和Reduce階段將處理時(shí)間切割成小碎片時(shí),其實(shí)際一次僅能處理一條實(shí)體記錄,基于此必須將依賴屬性取值和其條件概率取值關(guān)聯(lián)起來,以期求得的值更加準(zhǔn)確。
數(shù)據(jù)的填充模塊主要通過MapReduce算法實(shí)施,通過對(duì)比數(shù)據(jù)連接模塊運(yùn)算結(jié)果與原始輸入數(shù)據(jù)的偏差值進(jìn)行連接模塊運(yùn)算的輸入,Map階段的計(jì)算和連接模塊一致;而在Reduce階段,則利用式(2)計(jì)算出每個(gè)C i對(duì)應(yīng)的條件概率,選擇其中P(C i|X)概率最大的C i作缺失值填充。
當(dāng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)實(shí)體量或字段值發(fā)生變化后,原來的模糊頻繁屬性集則可能發(fā)生變化而不再是頻繁屬性集。針對(duì)模糊頻繁屬性集集合、負(fù)邊界的定義及計(jì)算方法,計(jì)算出模糊屬性集在原始數(shù)據(jù)庫(kù)中的最小模糊支持度,本文提出了一種動(dòng)態(tài)模糊頻繁屬性集的負(fù)邊界的計(jì)算方法,并將該方法用于軌道交通時(shí)段客流量聚集度的挖掘。
將軌道交通運(yùn)營(yíng)的時(shí)段進(jìn)行模糊離散化,令時(shí)間序列S=(x1,x2,x3…x n),取寬度為w的時(shí)間窗作用于S形成的子序列S i=(x1,x2…x i+w-1),單步滑移形成一系列寬度為w的子序列x1,x2,x3,…,x n-w+1,式(3):
將W(s,w)看作w維歐氏空間中的n-w+1個(gè)點(diǎn),隨機(jī)地分到k類中,計(jì)算每類中心作為每類的代表,計(jì)算集合W(s,w)的元素S i(i=1,2,…n-w+1),第j類代表的隸屬度屬性函數(shù)u j(S i)為式(4):
其中:b>1,b為常數(shù),用于控制聚類的模糊度,‖si-x j‖2為第i個(gè)點(diǎn)到第j類點(diǎn)距離絕對(duì)值的平方。
如果支持度滿足A條件,則在時(shí)間T范圍內(nèi)B發(fā)生,即,需要確定A發(fā)生的頻率數(shù)為式(5):
其中:u A(S i)為S i點(diǎn)屬于第A個(gè)代表屬性的隸屬度。
其中:F(A,B,T)表示A發(fā)生的條件下,T時(shí)間內(nèi)B事件發(fā)生的概率(頻率數(shù)),主要計(jì)算過程如A的C-mean s方法,式(7)所示:
其中:p(A)表示滿足A規(guī)則情況的發(fā)生概率;p(B T|A)表示A事件發(fā)生的情況下,在時(shí)間T內(nèi)B事件發(fā)生的概率;式(7)右側(cè)表示從先驗(yàn)概率p(B T)到后驗(yàn)概率p(B T|A)的信息傳遞及獲取過程。
經(jīng)過數(shù)據(jù)清洗所得軌道交通車站AFC客流數(shù)據(jù)已經(jīng)較為精準(zhǔn),符合數(shù)據(jù)挖掘的基本要求,擬構(gòu)建算法挖掘軌道交通車站時(shí)段客流的聚集關(guān)聯(lián)規(guī)則,時(shí)段客流量的聚集機(jī)理及以交通卡卡號(hào)為主碼的客流OD對(duì)的最小支持度是挖掘的主要對(duì)象,本文構(gòu)建的算法如下:
Step 1首先計(jì)算u A(S i),根據(jù)軌道交通客流時(shí)段聚集支持度進(jìn)而計(jì)算并設(shè)好
Step 2將清洗和預(yù)處理后的數(shù)據(jù)作為客流聚集關(guān)聯(lián)規(guī)則挖掘初始數(shù)據(jù),根據(jù)預(yù)先設(shè)定的條件對(duì)AFC客流數(shù)據(jù)庫(kù)進(jìn)行初始化,掃描事務(wù)數(shù)據(jù)庫(kù)T ID,從事務(wù)庫(kù)中遍歷搜索出所有的項(xiàng)集長(zhǎng)度為k=l的項(xiàng)集,形成候選1項(xiàng)集C1,將C1代入式(5)、(7),計(jì)算每項(xiàng)的支持度,依次與最小支持度比較,支持度大于minsupport的則形成頻繁1項(xiàng)集L1;
Step 3以頻繁k項(xiàng)集為基礎(chǔ)產(chǎn)生候選(k+1)項(xiàng)集C k+1,如果C k+1為空集,則進(jìn)入下一步,否則繼續(xù)循環(huán);
Step 4遍歷客流數(shù)據(jù)庫(kù)所有記錄,計(jì)算各候選項(xiàng)集的基于時(shí)段聚集的客流支持度;
Step 5將候選項(xiàng)中支持度計(jì)算值小于minsupport的移出,形成(k+1)項(xiàng)頻繁項(xiàng)集L k+1;
Step 6k=k+1,轉(zhuǎn)入Step 3;
Step 7由此得出分時(shí)段客流聚集量的頻繁項(xiàng)集關(guān)聯(lián)規(guī)則;
Step 8輸出以2 h時(shí)粒度的分時(shí)段客流聚集量及OD對(duì)結(jié)果,以指導(dǎo)軌道交通運(yùn)營(yíng)計(jì)劃的編制與調(diào)整。
本文客流數(shù)據(jù)來源于上海軌道交通9號(hào)線AFC閘機(jī),客流時(shí)段覆蓋6:00-22:00,數(shù)據(jù)庫(kù)表數(shù)據(jù)字段覆蓋交通卡卡號(hào)、進(jìn)站時(shí)間、進(jìn)站編號(hào)、出站編號(hào)、出站時(shí)間、是否使用了P+R停車場(chǎng)。所構(gòu)建的算法的參量需要對(duì)原始數(shù)據(jù)字段編程計(jì)算得到,如乘客的總在途時(shí)間等,但數(shù)據(jù)庫(kù)存儲(chǔ)的AFC客流數(shù)據(jù),會(huì)出現(xiàn)乘客因逃票、漏刷、卡丟失等原因,導(dǎo)致數(shù)據(jù)缺失、無效等而無法使用,部分原始數(shù)據(jù)見表1。
由原始數(shù)據(jù)可知,部分?jǐn)?shù)據(jù)出現(xiàn)字段缺失,尤其是必填字段,運(yùn)用數(shù)據(jù)清洗及填充方法,處理原始數(shù)據(jù),以方便數(shù)據(jù)挖掘。
為填充原始數(shù)據(jù)的丟失值,將式(2)代入式(1)得式(8):
以AFC數(shù)據(jù)的卡號(hào)字段值為依據(jù),運(yùn)用SQL語句檢索統(tǒng)計(jì)每位乘客的出行次數(shù)及OD百分比,代入式(8),并通過參數(shù)估計(jì)、連接、填充等模塊,補(bǔ)充原始數(shù)據(jù),得表2。
表1 上海軌道交通9號(hào)線AFC客流數(shù)據(jù)(原始)Tab.1 The AFC passenger flow data of Shanghai Metro line 9(Original)
表2 上海軌道交通9號(hào)線AFC客流數(shù)據(jù)表(補(bǔ)充修正后)Tab.2 The AFC passenger flow data of Shanghai Metro line 9(supplementary and correction)
根據(jù)時(shí)間序列離散化設(shè)計(jì):將客流時(shí)段按照2 h粒度劃分,并單步滑移形成一系列寬度為2的時(shí)間序列S=(x1,x2,x3…x n)。 計(jì)算W(s,w)={S i|i=1,2,…n-w+1},以及隸屬度函數(shù),客流時(shí)段覆蓋6:00-22:00,以2 h粒度劃分,進(jìn)而得到每個(gè)2 h粒度的車站客流聚集隸屬度,見表3。
用挖掘算法可計(jì)算出上海軌道交通9號(hào)線部分車站客流聚集量:世紀(jì)大道、陸家浜路、馬當(dāng)路、肇嘉浜路、徐家匯、宜山路、桂林路、七寶、九亭、佘山、松江大學(xué)城的2 h粒度時(shí)段客流量,各站分別對(duì)應(yīng)St1-St11,計(jì)算結(jié)果見表4。
表3 上海軌道交通9號(hào)線松江大學(xué)城站2 h粒度客流特征值Tab.3 Characteristic values of 2 h particle size of da xue cheng station
表4 車站分時(shí)段客流聚集量Tab.4 The aggregation passengers’flow based on distribution time
線路分時(shí)段數(shù)據(jù)變化趨勢(shì)如圖3所示,可較為直觀的顯示沿線車站在2 h粒度區(qū)間的客流量分布情況,該客流分布情況可直接指導(dǎo)運(yùn)營(yíng)產(chǎn)生實(shí)踐。
圖3 車站分時(shí)段客流聚集量Fig.3 The aggregation passengers’flow based on distribution time
表4 的挖掘結(jié)果可為乘客出行高峰期,軌道交通車站制定行車調(diào)整方案提供數(shù)據(jù)支撐,使得列車運(yùn)能與客流相匹配,快速疏散乘客至路網(wǎng)中。亦可為軌道交通市郊線路快慢車開行比例的確定提供數(shù)據(jù)支持,從而節(jié)省能耗和乘客的出行時(shí)間。
計(jì)算每張交通卡號(hào)的OD對(duì)的c(AT→B),并與對(duì)比,高于該值的確定為OD對(duì),挖掘結(jié)果見表5。該挖掘結(jié)果可為快慢車模式下,快車停站方案的確定提供精準(zhǔn)的決策支持。
表5 乘客出行OD對(duì)規(guī)律挖掘(上行方向)Tab.5 The mining of passengers’travel OD law(upward direction)
由表5可知,若能結(jié)合乘客的出行時(shí)段來挖掘OD對(duì),則可為快慢車開行方案的優(yōu)化提供更加精細(xì)化的決策支持。
特大城市的軌道交通市郊線路客流具有比較明顯的潮汐性。基于AFC的客流刷卡數(shù)據(jù)包含字段具有較好的挖掘價(jià)值,運(yùn)用大數(shù)據(jù)處理方法對(duì)軌道交通運(yùn)營(yíng)數(shù)據(jù),以問題為導(dǎo)向構(gòu)建算法對(duì)現(xiàn)有字段構(gòu)建算法并運(yùn)算,進(jìn)而深層次挖掘客流的時(shí)段聚集規(guī)律,客流出行OD對(duì)等,可用于指導(dǎo)全路網(wǎng)的運(yùn)營(yíng)計(jì)劃的編制,優(yōu)化軌道交通開行方案的分時(shí)段運(yùn)輸效率,提高乘客出行的可達(dá)性。