勞超勇 胡 華 劉志鋼
(上海工程技術(shù)大學(xué)城市軌道交通學(xué)院 上海 201600)
地鐵網(wǎng)絡(luò)化運(yùn)營面臨早晚高峰常態(tài)化或突發(fā)事件下的大客流壓力下,在擁堵位置如何有效采集客流數(shù)據(jù)、實(shí)時(shí)監(jiān)控客流狀態(tài)是防止突發(fā)事件引起交通癱瘓乃至演變成社會(huì)危機(jī)的關(guān)鍵。
站內(nèi)擁堵位置是指站內(nèi)通行措施的輸出客流和輸入客流之間的客流量超過其通行能力,形成客流擁擠的瓶頸區(qū)域,包括安檢機(jī)處、閘機(jī)處、樓扶梯處、站臺(tái)處等。在早晚高峰或突發(fā)性情況下,站內(nèi)擁堵點(diǎn)處客流常表現(xiàn)出高密度、不確定性、波動(dòng)性等特征,增加客流采集的難度且影響采集的精度。地鐵車站采用的AFC(自動(dòng)售檢票)系統(tǒng)只得到乘客進(jìn)出站的刷卡數(shù)據(jù)且無法準(zhǔn)確獲取站內(nèi)出行路徑,而依賴于人工經(jīng)驗(yàn)和應(yīng)急預(yù)案開展車站的大客流管控,已經(jīng)難以確保其效率和運(yùn)營的安全。因此,需利用模型清分的方式對(duì)站內(nèi)客流數(shù)據(jù)進(jìn)行估計(jì)或預(yù)測(cè)。
為實(shí)現(xiàn)站內(nèi)客流流量的采集,視頻監(jiān)控的圖像識(shí)別、紅外客流檢測(cè)等客流檢測(cè)技術(shù)[1-3]已經(jīng)在軌道交通地鐵車站進(jìn)行探索與應(yīng)用。這些采集技術(shù)在特定的區(qū)域內(nèi)具有一定的應(yīng)用價(jià)值,但由于技術(shù)的瓶頸尚不能精確地進(jìn)行客流流量的采集,且成本較高,無法有效地在站內(nèi)推廣。Wi-Fi探針采集技術(shù)是AP(無線接入點(diǎn))與Wi-Fi設(shè)備(如手機(jī)、電子閱讀器)的信息交互,實(shí)現(xiàn)對(duì)攜帶Wi-Fi設(shè)備對(duì)象進(jìn)行采集,解決紅外檢測(cè)、視頻采集等技術(shù)精度不高的問題,且具有實(shí)時(shí)性強(qiáng)、布設(shè)靈活及設(shè)備成本低等特點(diǎn)。目前,關(guān)于客流估計(jì)方法相關(guān)研究[4-6]側(cè)重對(duì)歷史數(shù)據(jù)或短期時(shí)間客流數(shù)據(jù)進(jìn)行模型估計(jì),但針對(duì)站內(nèi)客流流量的實(shí)時(shí)采集及分析則處于起步階段。
本文對(duì)Wi-Fi探針采集的原理、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)的預(yù)處理進(jìn)行詳細(xì)分析,然后對(duì)采集數(shù)據(jù)的分析模型進(jìn)行詳細(xì)闡述,最后以上海徐涇東地鐵站為例進(jìn)行客流數(shù)據(jù)的獲取及客流量估計(jì)模型的有效性進(jìn)行驗(yàn)證。
基于IEEE 802.11協(xié)議的Wi-Fi探針是采用WLAN(無線局域網(wǎng))技術(shù)實(shí)現(xiàn)對(duì)于開啟或連接Wi-Fi的設(shè)備進(jìn)行采集,采集原理為:AP會(huì)周期性地向四周發(fā)送BEACON(信標(biāo))幀,通知周圍的Wi-Fi設(shè)備(如手機(jī)、筆記本電腦等)AP的存在;Wi-Fi設(shè)備也會(huì)周期第發(fā)送PROBE(探測(cè))幀,其中包含Wi-Fi設(shè)備的MAC地址(Medium Access Control)、信號(hào)強(qiáng)度(RSSI)等信息。當(dāng)AP檢測(cè)到Wi-Fi設(shè)備傳送的PROBE幀,即記錄Wi-Fi設(shè)備傳送的信息。因此,在Wi-Fi探針區(qū)域內(nèi)打開或連接Wi-Fi則可收集Wi-Fi設(shè)備信息。
在工作狀態(tài)下,對(duì)于開啟Wi-Fi功能或連接上Wi-Fi的電子設(shè)備,Wi-Fi探針能檢測(cè)其發(fā)送的信號(hào)且記錄生成數(shù)據(jù)文本,包括Wi-Fi設(shè)備MAC地址、RSSI和數(shù)據(jù)抓取的日期和時(shí)間等基礎(chǔ)信息,如表1所示。Wi-Fi設(shè)備的MAC地址為乘客唯一的標(biāo)識(shí)符;RSSI表示捕獲具有Wi-Fi功能設(shè)備的信號(hào)強(qiáng)度,表示設(shè)備與Wi-Fi探針間的遠(yuǎn)近。
表1 Wi-Fi探針設(shè)備記錄的數(shù)據(jù)
在地鐵車站內(nèi),非地鐵乘客的干擾或乘客個(gè)人行為等會(huì)影響Wi-Fi探針捕獲的數(shù)據(jù)總體樣本量,導(dǎo)致輸出不可靠的結(jié)果,包括以下情況:(1) 在地面或高架車站可能采集非站內(nèi)乘客的Wi-Fi設(shè)備;(2) 站內(nèi)存在具有Wi-Fi功能的固定設(shè)施設(shè)備;(3) 車站工作人員自身攜帶的電子設(shè)備;(4) 乘客在站內(nèi)長時(shí)間停留。為篩除上述數(shù)據(jù)識(shí)別有效的MAC地址,設(shè)計(jì)數(shù)據(jù)過濾算法如下:
(1) 消除數(shù)據(jù)中10 min時(shí)間間隔內(nèi)重復(fù)出現(xiàn)的MAC地址,據(jù)此可篩除探針捕獲的非移動(dòng)設(shè)備,如員工攜帶具有Wi-Fi功能的設(shè)備以及測(cè)試期間未移動(dòng)的任何其他智能設(shè)備;
(2) 依據(jù)設(shè)備供應(yīng)商提供的RSSI與距離的關(guān)系表,如表2所示。RSSI低于-80 dBi的設(shè)備,RSSI為-80 dBi的Wi-Fi設(shè)備大約對(duì)應(yīng)于距離Wi-Fi探針的40 m,據(jù)此可篩除非站內(nèi)或距離擁堵點(diǎn)較遠(yuǎn)的Wi-Fi設(shè)備。
表2 RSSI與距離間的關(guān)系表
(3) 為了解決由于工作人員或乘客在站內(nèi)來回走動(dòng)而產(chǎn)生的重復(fù)計(jì)數(shù)問題,步驟如下:
第一步以第1 min到第5 min的MAC地址創(chuàng)建第一個(gè)循環(huán)塊。
第二步檢測(cè)第6 min與第一個(gè)循環(huán)塊中是否出現(xiàn)相同的MAC地址,若重復(fù)則剔除。
第三步以第2 min到第6 min的MAC地址創(chuàng)建第二個(gè)循環(huán)塊,并檢測(cè)第7 min與第二個(gè)循環(huán)塊,若重復(fù)則剔除。重復(fù)以上步驟對(duì)5 min時(shí)間間隔的MAC地址進(jìn)行檢測(cè)去重。
在地鐵站內(nèi),各擁堵點(diǎn)間的客流量存在相關(guān)性,臨近探針的檢測(cè)范圍也可能存在重疊性。因此,應(yīng)對(duì)探針數(shù)據(jù)間與擁堵點(diǎn)區(qū)域?qū)嶋H客流數(shù)據(jù)間進(jìn)行相關(guān)性分析,從而獲得能用于估計(jì)擁堵點(diǎn)實(shí)際客流量的獨(dú)立關(guān)聯(lián)探針組。為了探究擁堵點(diǎn)間的Wi-Fi探針是否存在相關(guān)性,以擁堵點(diǎn)間布設(shè)探針采集的MAC地址建立關(guān)聯(lián)數(shù)據(jù)庫,采用Apriori算法進(jìn)行關(guān)聯(lián)探針規(guī)則挖掘。
Apriori算法是關(guān)聯(lián)規(guī)則常用、經(jīng)典的數(shù)據(jù)挖掘頻繁集的算法,其核心思想是通過連接產(chǎn)生候選項(xiàng)及其支持度,然后通過剪枝生成頻繁項(xiàng)集[7]。關(guān)聯(lián)規(guī)則的一般形式:
(1) 關(guān)聯(lián)規(guī)則的相對(duì)支持度:項(xiàng)集A、B同時(shí)發(fā)生的概率:
Support(A→B)=P(A∪B)=
(1)
(2) 關(guān)聯(lián)規(guī)則的置信度:項(xiàng)集A發(fā)生,則B發(fā)生的概率:
Confidence(A→B)=P(A∪B)=
(2)
判斷強(qiáng)規(guī)則的依據(jù):最小支持度和最小置信度。最小支持度是衡量支持度的閾值,表示項(xiàng)目集在統(tǒng)計(jì)意義上的最低重要性;最小置信度是衡量置信度的閾值,表示關(guān)聯(lián)規(guī)則的最低可靠性。同時(shí)滿足最小支持度與最小置信度的閾值稱為強(qiáng)規(guī)則。
探針關(guān)聯(lián)規(guī)則建立包括數(shù)據(jù)的采集、數(shù)據(jù)過濾、建立Apriori關(guān)聯(lián)規(guī)則模型、產(chǎn)生強(qiáng)規(guī)則、得到關(guān)聯(lián)探針組,如圖1所示。
圖1 關(guān)聯(lián)規(guī)則建立流程
神經(jīng)網(wǎng)絡(luò)算法具有較強(qiáng)的非線性處理的能力,能夠很好地解決隨機(jī)性與非線性問題,但BP神經(jīng)網(wǎng)絡(luò)的本質(zhì)為梯度下降法的求最優(yōu)的問題,容易陷入局部無窮小,造成局部收斂或無法收斂的問題[8-9]。因此,本文添加動(dòng)量因子及自調(diào)整學(xué)習(xí)速率對(duì)傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),以過濾學(xué)習(xí)訓(xùn)練過程中高頻振蕩,使得學(xué)習(xí)速率以取得較大的值,加快學(xué)習(xí)速率。
本文利用關(guān)聯(lián)規(guī)則得到的關(guān)聯(lián)探針組作為神經(jīng)網(wǎng)絡(luò)的輸入層,采用三層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實(shí)際客流量估計(jì)模型的建立。擁堵點(diǎn)客流量估計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
圖2 擁堵點(diǎn)客流量估計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
x1,x2,…,xi為關(guān)聯(lián)探針組在工作日早高峰兩小時(shí)每5 min檢測(cè)的MAC地址數(shù),其中:i表示關(guān)聯(lián)探針組中探針的個(gè)數(shù);wih為輸入層與隱含層連接權(quán)值;wh0為隱含層與輸出層連接權(quán)值;bh為隱含層各神經(jīng)元的閾值;b0為輸出層各神經(jīng)元的閾值;Y為擁堵位置客流量的估計(jì)值。
輸入神經(jīng)元個(gè)數(shù)和輸出神經(jīng)元個(gè)數(shù)決定隱含層的個(gè)數(shù)。已有建議值為:
(3)
式中:K為隱層的神經(jīng)元個(gè)數(shù),n、m分別為輸入神經(jīng)元數(shù)和輸出神經(jīng)元數(shù),N為樣本容量。本預(yù)測(cè)模型的隱層神經(jīng)元個(gè)數(shù)在上述建議值的基礎(chǔ)上經(jīng)多次計(jì)算試驗(yàn)得到。
為了有效解決BP神經(jīng)網(wǎng)絡(luò)易陷入局部極小值與無法收斂等問題,本文添加動(dòng)量和自動(dòng)調(diào)整學(xué)習(xí)速率的學(xué)習(xí)規(guī)則,經(jīng)過多次試驗(yàn)該學(xué)習(xí)規(guī)則預(yù)測(cè)精度最高,學(xué)習(xí)規(guī)則修正權(quán)值Δwij的表達(dá)形式如下:
(4)
式中:e為期望輸出與實(shí)際輸出的誤差;η為網(wǎng)絡(luò)的學(xué)習(xí)速率(η>0),當(dāng)η取值過小時(shí),網(wǎng)絡(luò)收斂慢;當(dāng)η取值過大時(shí),學(xué)習(xí)過程變得不穩(wěn)定導(dǎo)致誤差過大;γ是動(dòng)量因子(0<γ<1),通過引入γ可避免學(xué)習(xí)的不穩(wěn)定和局部收斂。
學(xué)習(xí)率η和動(dòng)量因子γ的恰當(dāng)選取通常憑經(jīng)驗(yàn)和實(shí)驗(yàn)選取。本文中γ的值將結(jié)合具體算例經(jīng)過計(jì)算實(shí)驗(yàn)選取得出,而η是自適應(yīng)調(diào)整的。經(jīng)驗(yàn)表明,學(xué)習(xí)率的增加量最好是常數(shù),但它的減小應(yīng)按幾何律減小,本文采取的自適應(yīng)函數(shù)如下:
(5)
式中:Δe為每次迭代誤差函數(shù)的變化;a、b為適當(dāng)?shù)某?shù)。
本預(yù)測(cè)模型以N個(gè)樣本的方差小于收斂閾值作為訓(xùn)練的收斂條件,公式如下:
(6)
以上海徐涇東地鐵站作為數(shù)據(jù)采集的實(shí)驗(yàn)車站,采集站廳層安檢至進(jìn)站閘機(jī)區(qū)域內(nèi)的客流數(shù)據(jù)。該區(qū)域內(nèi)包括安檢、進(jìn)站通道、售票區(qū)、出入口和進(jìn)站閘機(jī)五個(gè)易發(fā)生擁堵的位置,共布設(shè)5臺(tái)AP設(shè)備,布設(shè)方案如圖3所示?;?017年5月某工作日連續(xù)五天早高峰兩小時(shí)的客流數(shù)據(jù)約800萬條作為樣本數(shù)據(jù),并通過站內(nèi)監(jiān)控錄像人工計(jì)數(shù)獲取實(shí)際客流量。
圖3 站廳層Wi-Fi探針布局圖及探針布設(shè)方案
步驟1采集源數(shù)據(jù),本算例以站廳層進(jìn)站安檢至進(jìn)站閘機(jī)區(qū)域的五個(gè)探針(A、B、C、D、E)作為分析對(duì)象,獲取五個(gè)探針在工作日早高峰兩小時(shí)的MAC地址,并統(tǒng)計(jì)每5 min的MAC地址數(shù)。
步驟2源數(shù)據(jù)預(yù)處理。利用過濾算法剔除Wi-Fi探針在采集環(huán)境中捕獲的干擾數(shù)據(jù),包括非站內(nèi)、頻率過低、來回走動(dòng)的設(shè)備。圖4為Wi-Fi探針A數(shù)據(jù)在高峰一小時(shí)內(nèi)過濾前后的對(duì)比圖,可見經(jīng)過預(yù)處理后,探針A的數(shù)據(jù)在0~200范圍內(nèi)波動(dòng)且波動(dòng)較為平緩。
圖4 Wi-Fi探針A采集數(shù)據(jù)過濾前后對(duì)比圖
步驟3利用Apriori算法對(duì)擁堵點(diǎn)間五個(gè)探針進(jìn)行關(guān)聯(lián)挖掘:
將采集五天早高峰兩小時(shí)的MAC地址建立關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)庫,作5 min間隔統(tǒng)計(jì)并記錄間隔內(nèi)出現(xiàn)相同MAC地址的探針。若5 min間隔內(nèi)出現(xiàn)共同MAC地址則記錄相應(yīng)的代表字母。
根據(jù)關(guān)聯(lián)數(shù)據(jù)庫產(chǎn)生頻繁項(xiàng)集,首先產(chǎn)生候選集Ck,即可能成為頻繁項(xiàng)集的項(xiàng)目集合,集合{A,B,C,D,E}為初始頻繁項(xiàng)集。然后利用候選集Ck計(jì)算支持度確定最大頻繁項(xiàng)集Lk。設(shè)定最小支持度為0.2,最小置信度為0.5,運(yùn)用Python實(shí)現(xiàn)結(jié)果如表3所示。從表可見,B、D→A的置信度為0.714 8>0.5,A、D→B的置信度為0.833 3>0.5,說明探針A、B、D為強(qiáng)關(guān)聯(lián),則探針A、B、D為該擁堵點(diǎn)的關(guān)聯(lián)探針組。
表3 Apriori算法關(guān)聯(lián)結(jié)果統(tǒng)計(jì)表
步驟4構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。選取關(guān)聯(lián)探針組作為神經(jīng)網(wǎng)絡(luò)的輸入,實(shí)際客流量作為實(shí)際輸出,根據(jù)訓(xùn)練調(diào)整相關(guān)參數(shù),建立神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型。相關(guān)參數(shù)初始設(shè)置如表4所示。
表4 網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置
步驟5預(yù)測(cè)結(jié)果誤差分析。
建立的關(guān)聯(lián)探針組與實(shí)際客流量建立BP神經(jīng)網(wǎng)絡(luò)在MATLAB 2015b中實(shí)現(xiàn)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程如圖5所示。
圖5 神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程
(1) 穩(wěn)定性評(píng)價(jià):將120組到站時(shí)間預(yù)測(cè)值與實(shí)際值進(jìn)行對(duì)比,如圖6所示。
圖6 網(wǎng)絡(luò)輸出預(yù)測(cè)客流量和實(shí)際客流量對(duì)比圖
從圖中可以看出,預(yù)測(cè)值曲線與實(shí)際值曲線的重合度較高,根據(jù)預(yù)測(cè)客流量與實(shí)際客流量得到最大絕對(duì)偏差值為28人,在可接受的預(yù)測(cè)誤差閾值以內(nèi),說明該模型的穩(wěn)定性較好。
(2) 精確性評(píng)價(jià)。預(yù)測(cè)結(jié)果的相對(duì)誤差箱型圖如圖7所示。
圖7 預(yù)測(cè)結(jié)果的相對(duì)誤差柱狀圖
由圖7可見:
(1) 在工作日中,相對(duì)誤差絕大部分?jǐn)?shù)據(jù)在[-20%,20%]區(qū)間內(nèi)波動(dòng)。星期三的平均相對(duì)誤差較高,而星期四的平均相對(duì)誤差較低。
(2) 星期三、星期五的相對(duì)誤差分布比較集中且非常對(duì)稱,星期一、星期二及與星期二的相對(duì)誤差較分散且非常不平衡。
(3) 星期三對(duì)應(yīng)的箱形圖出現(xiàn)了3個(gè)異常點(diǎn),分別對(duì)應(yīng)8:50~8:55的5 min內(nèi)相對(duì)誤差為23%、8:05~8:10的5 min內(nèi)相對(duì)誤差為17%、7:00-7:05的5 min內(nèi)相對(duì)誤差為-14%;星期五出現(xiàn)1個(gè)異常點(diǎn),對(duì)應(yīng)8:45~8:50的5 min內(nèi)相對(duì)誤差為5%。
為了對(duì)比標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)與改進(jìn)后BP神經(jīng)網(wǎng)絡(luò)算法在客流估計(jì)訓(xùn)練過程中優(yōu)異,本文采用不同的精度進(jìn)行訓(xùn)練仿真,結(jié)果如表5所示。顯然,在訓(xùn)練學(xué)習(xí)速率和訓(xùn)練精度上改進(jìn)BP算法要優(yōu)于標(biāo)準(zhǔn)BP神經(jīng)網(wǎng)絡(luò)算法。
表5 改進(jìn)BP神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對(duì)比
基于上海軌道交通地鐵車站,本文對(duì)Wi-Fi探針獲取擁堵點(diǎn)的Wi-Fi設(shè)備數(shù)據(jù)進(jìn)行了初步的分析及客流量估計(jì)模型的初探。從分析結(jié)果看,Wi-Fi探針采集客流的技術(shù)條件已經(jīng)具備且采集的客流數(shù)據(jù)質(zhì)量基本滿足客流模型分析的要求。但由于部分乘客不攜帶Wi-Fi設(shè)備或不開啟Wi-Fi模塊功能等因素造成數(shù)據(jù)缺失的問題,再加上針對(duì)數(shù)據(jù)的加工處理、數(shù)據(jù)還原、估計(jì)模型精度的提高依然面臨極大挑戰(zhàn),這也是未來研究的重點(diǎn)方向。