国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GPS數(shù)據(jù)的交通出行模式及轉(zhuǎn)換點(diǎn)識別算法

2021-02-24 11:37朱少武孫海春羅萬杰趙曉凡
關(guān)鍵詞:模式識別研判準(zhǔn)確率

朱少武,孫海春,羅萬杰,趙曉凡

(中國人民公安大學(xué) 信息技術(shù)與網(wǎng)絡(luò)安全學(xué)院,北京 102623)

伴隨著移動通訊設(shè)備普及應(yīng)用,全球定位系統(tǒng)(global position system, GPS)產(chǎn)生的數(shù)據(jù)對個人位置的展現(xiàn)越來越充分。依據(jù)GPS數(shù)據(jù)識別個人的交通出行模式,可以對居民出行信息準(zhǔn)確摸排,有助于城市交通規(guī)劃和管理,解決當(dāng)前城市中存在的公交線路規(guī)劃、交通擁堵等問題;也可分析個人的出行特點(diǎn),并有針對地推薦相關(guān)服務(wù)。利用轉(zhuǎn)換點(diǎn)識別算法識別出GPS軌跡數(shù)據(jù)中的出行模式轉(zhuǎn)換點(diǎn),可以分段對GPS數(shù)據(jù)進(jìn)行分析研判,給出出行模式標(biāo)簽,最終得到整段GPS數(shù)據(jù)的出行模式變化過程。

分類算法的不同對最終識別結(jié)果的精度有很大的影響。出行模式識別算法主要使用神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、支持向量機(jī)等分類算法。Liang等[1]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行識別,并加入一些濾波算法對數(shù)據(jù)進(jìn)行平滑處理來降低數(shù)據(jù)的波動,其最高識別精度在94%左右。Xiao等[2]利用貝葉斯網(wǎng)絡(luò)和K2算法,最終得到的步行模式識別率超過97%。Martin等[3]開發(fā)了一種新的分類算法,并與K近鄰分類算法(k-nearest neighbor,KNN)和隨機(jī)森林算法進(jìn)行對比,實(shí)驗(yàn)表明結(jié)合隨機(jī)森林算法的識別準(zhǔn)確率更高,約為94%。Zhu等[4]提出一種出行模式選擇模型和一種有向圖引導(dǎo)的融合Lasso方法,降低了出行模式研判算法的時間復(fù)雜度。Guvensan等[5]提出基于分段的傳輸模式檢測體系結(jié)構(gòu),其綜合識別準(zhǔn)確率在93%左右。此外,有效的識別特征對提升出行模式識別準(zhǔn)確率很有幫助。Sun等[6]結(jié)合譜聚類分析和隱Markov模型,加入位置信息和信號強(qiáng)度等特征,得到的出行模式算法平均識別準(zhǔn)確率超過93%。Dabiri等[7]使用CNN算法,利用急動度和方向變化率輔助算法的識別,相比之前研究的準(zhǔn)確率提升超過10%。

一些研究利用深度數(shù)據(jù)挖掘大幅度提高了單種出行模式的識別準(zhǔn)確率。Wang等[8]提出地鐵模式單獨(dú)識別的方法,并結(jié)合地理信息系統(tǒng)(geographic information system, GIS)進(jìn)行精度識別,使得地鐵模式的識別準(zhǔn)確率超過98%。Zong等[9]提出步行/騎行模式單獨(dú)識別的方法,在3萬余條數(shù)據(jù)中識別正確率接近100%。然而,一段出行記錄中往往涉及多種出行模式。確定出行模式轉(zhuǎn)換點(diǎn)是識別過程的難點(diǎn),而要精準(zhǔn)地識別出一段GPS日志中的不同出行模式更為困難。針對多種模式轉(zhuǎn)換問題的深入研究較少,沈云[10]對轉(zhuǎn)換點(diǎn)進(jìn)行了研究,對比了基于多段窗口識別和基于移動窗口識別,其多段窗口識別率達(dá)到78.8%,移動窗口識別率達(dá)到76.7%。

目前圍繞識別算法的改進(jìn)大多側(cè)重于提供新的識別算法和新的運(yùn)動特征,得到了較高的識別精度。已有研究中速度特征選取以平均速度和分位速度為主,但平均速度和分位速度受其他干擾因素影響較大。受到整體速度變化過程的影響,每個靜止點(diǎn)的增加會在一定程度上降低平均速度和分位速度。同時,停留點(diǎn)的次數(shù)特征受到出行距離的影響,出行距離長的樣本的停留次數(shù)相對更高。本研究通過“穩(wěn)定速度”和“平均停留間隔”兩個特征來彌補(bǔ)以上不足,并提出了基于低速度移動研判的出行模式轉(zhuǎn)換點(diǎn)識別方法,通過轉(zhuǎn)換點(diǎn)將GPS軌跡分段研判,進(jìn)一步提高出行模式識別的準(zhǔn)確率。

1 基于低速度移動研判的轉(zhuǎn)換點(diǎn)識別方法

出行模式轉(zhuǎn)換點(diǎn)識別是出行模式識別過程的重要組成部分,轉(zhuǎn)換點(diǎn)識別的準(zhǔn)確率很大程度上影響了出行模式研判的正確率。目前有兩種典型的轉(zhuǎn)換點(diǎn)識別方法:基于多段窗口的識別方法和基于移動窗口的識別方法[10]。在移動窗口的識別方法中,通常利用遍歷的方式,計(jì)算每一個數(shù)據(jù)點(diǎn)窗口兩側(cè)的歐氏距離;比較兩側(cè)的相似度大小,將低于一定閾值的點(diǎn)認(rèn)定為轉(zhuǎn)換點(diǎn)。

通過觀察個人GPS軌跡數(shù)據(jù),對個人出行模式中交通方式的轉(zhuǎn)換過程進(jìn)行了分析,發(fā)現(xiàn):①每一次交通出行模式轉(zhuǎn)換均包含一定的時間間隙,而這段時間間隙總是被步行模式或者靜止模式占用;②由于步行模式和靜止模式本身的速度特性,相對其他的出行模式來說可以較為簡便地區(qū)分。利用以上特征,對基于移動窗口的轉(zhuǎn)換點(diǎn)識別方法進(jìn)行改進(jìn),提出一種基于低速度移動研判的出行模式轉(zhuǎn)換點(diǎn)識別方法。

將一段GPS軌跡數(shù)據(jù)表示為:G0={g|g=(Lat,Lon,H,date,time)}。其中g(shù)代表某一個時刻的GPS數(shù)據(jù),由5個維度數(shù)據(jù)組成,分別指某個時刻的緯度值、經(jīng)度值、海拔高度、日期、時間;轉(zhuǎn)換點(diǎn)集合表示為T={g|g∈G0∧g是轉(zhuǎn)換點(diǎn)}。此外,設(shè)定一個速度閾值經(jīng)驗(yàn)值V0和研判移動窗口的步長S,其中,V0指步行或者靜止時人的最高移動速度,S決定取樣的時間間隔。

首先將出行模式劃分為步行模式與非步行模式兩類。針對一段GPS軌跡數(shù)據(jù)中的出行模式轉(zhuǎn)換點(diǎn)候選集的研判方法如下:

1)設(shè)定研判窗口大小Δt,設(shè)定研判移動窗口的步長S;

2)對于軌跡數(shù)據(jù)中某一時刻t的GPS數(shù)據(jù)g,依據(jù)研判窗口大小,完成g前后Δt時間內(nèi)的GPS出行軌跡的數(shù)據(jù)取樣;

3)分別研判取樣窗口內(nèi)軌跡數(shù)據(jù)的出行模式。如果兩段樣本中出行模式不同,則g計(jì)入轉(zhuǎn)換點(diǎn)候選集;若果兩段樣本中出行模式相同,g不計(jì)入轉(zhuǎn)換點(diǎn)候選集;

4)移動步長S,選取t+S時刻的GPS數(shù)據(jù)g′;

5)轉(zhuǎn)入2),繼續(xù)研判直到軌跡數(shù)據(jù)結(jié)束。

利用以上方法篩選出一段出行軌跡中的出行模式轉(zhuǎn)換點(diǎn)備選集合。常規(guī)情況下,在較短的時間間隔內(nèi)不會出現(xiàn)多次出行模式的轉(zhuǎn)換。因此,設(shè)定篩選閾值ST,剔除時間范圍內(nèi)歐氏距離較小、相似度較大的轉(zhuǎn)換點(diǎn),留下時間范圍內(nèi)唯一的轉(zhuǎn)換點(diǎn)。依據(jù)測試數(shù)據(jù)集情況設(shè)定時間ST=20 min。

基于低速度移動研判的轉(zhuǎn)換點(diǎn)識別算法:FunctionTPRA(G0,T) 輸入:一段GPS出行軌跡數(shù)據(jù)G0輸出:轉(zhuǎn)換點(diǎn)集合T1: Begin2: 設(shè)置初始變量:研判窗口大小Δt,步長S,速度閾值經(jīng)驗(yàn)值V0,刪選閾值ST,歐式距離度量窗口變量Δt′;3: whilei<|G0|do4: 在G0中取出gi;5: 取gi前Δt區(qū)間內(nèi)的GPS數(shù)據(jù)為data1;4: 取gi后Δt區(qū)間內(nèi)的GPS數(shù)據(jù)為data2;5: 分別研判data1、data2兩個區(qū)間內(nèi)GPS軌跡的出行模式Mode1、Mode2;6: IfMode1≠M(fèi)ode2 7: gi計(jì)入轉(zhuǎn)換點(diǎn)候選集T′;8: endif 9: endwhile 10: Whilei<|T′|do11: 在T′中取出gi;12: gi前Δt′區(qū)間內(nèi)的GPS數(shù)據(jù)為data1′;13: 取gi后Δt′區(qū)間內(nèi)的GPS數(shù)據(jù)為data2′;14: 計(jì)算data1′與data2′的歐式距離dis;15: 保存dis為gi的歐式距離;16: endwhile17: whilej<|T′|do18: ifgj+1與gj的時間距離小于ST19: ifgj+1的歐式距離小于gj的歐式距離20: T′=T′-{gj+1};21: else22: T′=T′-{gj};23: endif24: endif25: endwhile26: T=T′27:End

2 借助轉(zhuǎn)換點(diǎn)識別的GPS軌跡出行模式生成方法

研判輸出一段GPS軌跡的出行模式分5步進(jìn)行:①將一段GPS數(shù)據(jù)進(jìn)行預(yù)處理,如:濾波、插值等,剔除臟數(shù)據(jù);②根據(jù)清洗后的數(shù)據(jù)計(jì)算相關(guān)特征;③通過上一章的轉(zhuǎn)換點(diǎn)識別算法識別出GPS軌跡中的出行模式轉(zhuǎn)換點(diǎn),依據(jù)轉(zhuǎn)換點(diǎn)將一段GPS數(shù)據(jù)分為不同子段;④利用隨機(jī)森林分類器,研判不同子段的出行模式;⑤依照時間次序?qū)⒛J綐?biāo)簽連接,得到整段GPS數(shù)據(jù)攜帶的出行模式信息。方法的總體框架如圖 1所示。

圖1 出行模式識別框架圖

2.1 數(shù)據(jù)預(yù)處理

2.1.1 高斯濾波

鑒于定位系統(tǒng)的準(zhǔn)確性,所有的GPS定位數(shù)據(jù)都無法絕對精確地定位被采集位置,收集的數(shù)據(jù)會在一定范圍內(nèi)波動,產(chǎn)生不必要的噪聲,因此需要將其進(jìn)行平滑處理。參考黃仁等[11]、孫冰怡等[6]、Liang等[1]的工作,利用濾波方法將數(shù)據(jù)進(jìn)行平滑處理。具體地,利用高斯濾波算法,濾除掉數(shù)據(jù)中的高斯白噪聲。

gi.Lat=(gi-1.Lat+gi.Lat+gi+1.Lat)/3。

(1)

其中:gi.Lat為濾波后的第i點(diǎn)經(jīng)緯度值,gi-1.Lat為原GPS數(shù)據(jù)中第i-1點(diǎn)經(jīng)緯度值,gi.Lat為原GPS數(shù)據(jù)中第i點(diǎn)經(jīng)緯度值,gi+1.Lat為原GPS數(shù)據(jù)中第i+1點(diǎn)經(jīng)緯度值。用一點(diǎn)及其附近點(diǎn)的平均值代替這一點(diǎn)的原值,能夠降低數(shù)據(jù)的突變,使軌跡變得更平滑、連續(xù),更符合實(shí)際情況的變化規(guī)律。

2.1.2 插值法

由于信號傳輸?shù)牟环€(wěn)定或定位系統(tǒng)采集的問題,在某些時間點(diǎn)上的數(shù)據(jù)會產(chǎn)生缺失,而在一些信號弱或無信號的隧道等地區(qū)甚至?xí)霈F(xiàn)大面積的數(shù)據(jù)缺失,嚴(yán)重影響模式識別。為此,需要將這些數(shù)據(jù)進(jìn)行修補(bǔ),在一定程度上保持?jǐn)?shù)據(jù)的合理性。

實(shí)驗(yàn)采用了一維線性插值法來補(bǔ)充缺失的數(shù)據(jù),使數(shù)據(jù)頻率更穩(wěn)定。具體地,利用缺失點(diǎn)兩側(cè)的數(shù)據(jù),將兩側(cè)數(shù)據(jù)的時間、經(jīng)緯度取均值,按時間以勻速狀態(tài)插入缺失點(diǎn)。

gi=(gi-1+gi+1)/2。

(2)

其中,gi為缺失點(diǎn)GPS數(shù)據(jù),gi-1為缺失點(diǎn)上一時刻GPS數(shù)據(jù),gi+1為缺失點(diǎn)下一時刻GPS數(shù)據(jù)。對缺失點(diǎn)的值進(jìn)行預(yù)測,數(shù)據(jù)標(biāo)注為缺失點(diǎn)前后相應(yīng)數(shù)據(jù)的均值。

2.2 特征的選擇

實(shí)驗(yàn)選定中位速度、95%分位速度、平均速度、穩(wěn)定速度、平均停留間隔作為出行模式識別算法的基本特征。特征的選擇主要針對速度類進(jìn)行提取,用95%分位速度代替最高速度,是因?yàn)樽罡咚俣扔锌赡軣o法反映真實(shí)的速度,是突變的,波動性較強(qiáng)。中位速度、95%分位速度、平均速度的計(jì)算很多文獻(xiàn)中都有,在此不贅述。

一段完整的速度數(shù)據(jù),必然會有加速-勻速-減速的過程。在運(yùn)動過程中,取均值會受到加減速時速度變化的影響,使得提取值不準(zhǔn)確。而提取穩(wěn)定速度,可以避免加減速對于提取值的影響,從而得到更為準(zhǔn)確的提取值。實(shí)驗(yàn)采用以下方法提取一段GPS軌跡數(shù)據(jù)的穩(wěn)定速度SV。首先,識別出一段完整的加速-勻速-減速的過程,作為運(yùn)動趨勢;在這段運(yùn)動趨勢中取勻速段的平均速度作為穩(wěn)定速度。一段GPS軌跡數(shù)據(jù)G0={g|g=(Lat,Lon,H,date,time)},其中g(shù)代表某一個時刻的GPS數(shù)據(jù)。用符號P=(Lat,Lon,V,A,date,time)表示GPS數(shù)據(jù)的特征數(shù)據(jù),其中6個的維度數(shù)據(jù)分別指某個時刻的緯度值、經(jīng)度值、速度、加速度、日期、時間。g的特征數(shù)據(jù)表示為Pg,G0的特征數(shù)據(jù)表示為PG0。

此外,許多研究在識別中采用停駐點(diǎn)作為研判出行模式的基本特征。如Liang等[12]利用公交站停留點(diǎn)占總停留點(diǎn)的比率,提高了bus模式的識別準(zhǔn)確率。但在實(shí)際中,受到出行段總時間、總距離的影響,停駐次數(shù)會產(chǎn)生較大的差異。出行時間長、距離較長的出行段,停駐次數(shù)更多。因此,結(jié)合出行距離與停駐次數(shù),得到平均停留間隔,在一定程度上消除了出行時間、距離對出行模式研判的干擾影響,對模式識別有較大幫助。

Asd=D/SN。

(3)

其中:Asd為平均停留間隔,D為出行段的總路程,SN為出行段中停駐次數(shù)(采集點(diǎn)后10 s速度小于0.3 m/s時判定為停駐點(diǎn))。平均停留間隔代表平均情況下兩次停駐之間的距離。對于公交、地鐵等停駐有規(guī)律的模式具有較好的識別效果。

穩(wěn)定速度提取算法:FunctionSVE(P,SV) 輸入:一段GPS軌跡的特征數(shù)據(jù)PG0輸出:本段GPS軌跡的穩(wěn)定速度特征SV1: Begin2: Whilei<|PG0|do3: 取出Pgi;4: ifabs(average(Pgi-5.V,Pgi-4.V,…,Pgi-1.V)-Pgi.V)<0.2m/s than5: m=i+5;6: whilem<|PG0|do7: ifabs(average(Pgi+m+5.V,Pgi+m+4.V,…,Pgi+m+1.V)-Pgi+m.V)<0.2m/s than8: MV←i至i+m的中位速度;9: else m+1;10: endif11: endwhile12: i=i+m;13: elsei=i+1;14: endif15: SV←average(MV); endwhile16: End

2.3 隨機(jī)森林分類器

隨機(jī)森林算法的本質(zhì)是利用閾值進(jìn)行的二分法,更適合解決分類問題[12-14]。因此,實(shí)驗(yàn)將一段GPS軌跡的出行模式識別問題轉(zhuǎn)換為分類問題,采用隨機(jī)森林算法完成出行模式識別。

隨機(jī)森林是由決策樹改進(jìn)而來,由多棵決策樹組成。對于單棵樹,在訓(xùn)練模型時,通過隨機(jī)選取數(shù)據(jù)和特征創(chuàng)建結(jié)點(diǎn),結(jié)點(diǎn)值定為將數(shù)據(jù)最優(yōu)分割情況時的界值,即分割后GPS數(shù)據(jù)的出行模式某一種標(biāo)簽占全部數(shù)據(jù)比例最高的情況。當(dāng)標(biāo)簽種類唯一時,停止生長。用模型識別時,將待測數(shù)據(jù)與結(jié)點(diǎn)的值進(jìn)行比較,相應(yīng)落到某一個子結(jié)點(diǎn)中,重復(fù)比較特征。當(dāng)數(shù)據(jù)掉落到某一個葉子結(jié)點(diǎn)中時,葉子結(jié)點(diǎn)的標(biāo)簽就表示為這段GPS軌跡數(shù)據(jù)的識別結(jié)果。將所有決策樹的識別結(jié)果進(jìn)行投票,得票最高的模式標(biāo)簽定為這片隨機(jī)森林的識別結(jié)果。

2.4 算法實(shí)現(xiàn)過程

將一段GPS軌跡數(shù)據(jù)表示成:G0={g|g=(Lat,Lon,H,date,time)},G0對應(yīng)的出行模式序列表示為M=〈M0,M1,…,Mk〉,其中,M0代表G0中第一個子段的出行模式標(biāo)簽。

首先對收集的GPS軌跡數(shù)據(jù)進(jìn)行預(yù)處理和特征計(jì)算,處理過程見2.1和2.2節(jié);然后,將不符合一般規(guī)律的數(shù)據(jù)剔除,如步行速度大于10 m/s的;通過轉(zhuǎn)換點(diǎn)識別將待測數(shù)據(jù)分段,并利用訓(xùn)練好的模型對數(shù)據(jù)進(jìn)行模式識別,得到對應(yīng)的出行模式標(biāo)簽;最后,將得到的模式標(biāo)簽組合形成預(yù)測結(jié)果。

符 號 說 明

3 實(shí)驗(yàn)結(jié)果與分析

3.1 測試條件與數(shù)據(jù)集

實(shí)驗(yàn)所采用的硬件條件是:主板,華碩 X455LJ;CPU,(英特爾)Intel(R)Core(TM)i5-5200U @ 2.20 GHz;內(nèi)存,12.00 GB(1 600 MHz)。軟件環(huán)境是Microsoft Windows 10 企業(yè)版(64位)、Pycharm集成開發(fā)環(huán)境。

由于研究者所采用的數(shù)據(jù)集的收集方式有所不同,因此各個數(shù)據(jù)集中的異常數(shù)據(jù)量會有很大不同,導(dǎo)致識別的準(zhǔn)確率不同,所以需要將差距較大的數(shù)據(jù)集分開對比。收集的數(shù)據(jù)集分為自主收集數(shù)據(jù)集和工程數(shù)據(jù)集。自主收集的數(shù)據(jù)一般是由手機(jī)App的內(nèi)置功能實(shí)現(xiàn),采集個體一段時間內(nèi)的運(yùn)動情況。工程數(shù)據(jù)集是由專業(yè)的某項(xiàng)工程收集測定,例如大多數(shù)研究[4,7,12,13,17]采用的工程—Geo Life project[15-16]。相對于App收集的數(shù)據(jù),工程收集的數(shù)據(jù)更具有專業(yè)性、準(zhǔn)確性、客觀性。實(shí)驗(yàn)選用Geo Life project數(shù)據(jù)并進(jìn)行了篩選,最終采用982條單出行模式個人數(shù)據(jù)、65條多模式個人數(shù)據(jù)完成測試。

GPS數(shù)據(jù)的交通出行模式序列識別算法:FunctionTME(G0,M) 輸入:一段GPS出行軌跡數(shù)據(jù)G0輸出:G0對應(yīng)的出行模式序列M1: Begin2: Whilei<|G0|do3: gi.Lat=(gi-1.Lat+gi.Lat+gi+1.Lat)/3;4: i=i+1;5: Endwhile6: Whilei<|G0|do7: gi=(gi-1+gi+1)/2;8: i=i+1;9: Endwhile10: T=FunctionTPRA(G0,T);11: whilej<|T|do12: G0′={g|gj.time<=g.time

3.2 出行模式識別測試對比結(jié)果

將“穩(wěn)定速度”和“平均停留間隔”這兩個新增特征加入,對以往基于隨機(jī)森林的出行模式識別算法進(jìn)行改進(jìn),并將改進(jìn)后的算法與已有算法的識別準(zhǔn)確率進(jìn)行對比。

測試發(fā)現(xiàn),在每次訓(xùn)練與識別時,算法的準(zhǔn)確率略有不同。為降低測試結(jié)果的偶然性,重復(fù)進(jìn)行30次測試。具體地,進(jìn)行了30次模型訓(xùn)練,產(chǎn)生30片隨機(jī)森林,取30片森林的平均準(zhǔn)確率作為改進(jìn)后算法最終的準(zhǔn)確率,如表1所示。隨機(jī)森林算法訓(xùn)練過程中,樹的數(shù)量直接決定了模型的準(zhǔn)確度,但當(dāng)數(shù)量到達(dá)一定程度后,模型會產(chǎn)生過度擬合,可解釋性減弱,導(dǎo)致準(zhǔn)確率降低,并且會大大增加模型構(gòu)建時間。經(jīng)過多次測試,選定每片森林為60棵樹。此外,實(shí)驗(yàn)計(jì)算了30次識別準(zhǔn)確率的方差,對算法與已有算法的穩(wěn)定性進(jìn)行了分析,如表2所示。

表1 添加新特征前/后的30次訓(xùn)練識別準(zhǔn)確率表

表2 添加新特征前后準(zhǔn)確率對比表

與已有算法比較,本算法的平均準(zhǔn)確率上升了1.3%,識別準(zhǔn)確率波動情況明顯改善。綜合看來,增加穩(wěn)定速度與平均停留間隔兩個特征對提升出行模式識別算法的準(zhǔn)確性有較好效果。

同時,出行模式識別中速度的貢獻(xiàn)度較高(貢獻(xiàn)度高的特征在識別中的重要性越高,識別時所用到的頻率越高,添加后識別準(zhǔn)確率也就越大),最大速度、平均速度、中位速度是出行模式中的最主要特征。而添加新的特征后,識別準(zhǔn)確率有小幅上升,表明所添加的特征對于不同模式的區(qū)分度高于原有特征。

在30片森林中選取識別最優(yōu)的森林模型用作測試出行模式識別混淆矩陣,如表3所示?;煜仃囈卜Q誤差矩陣,用于比較分類結(jié)果和實(shí)際測得值,能夠清晰地反映出識別值與真實(shí)值的關(guān)系。在識別最優(yōu)的情況下,可以最大程度上降低自然誤差,更能反映實(shí)際的數(shù)據(jù)與算法對于識別準(zhǔn)確率的影響,便于對特征和算法的分析。

表3 添加新特征后/前的出行模式識別混淆矩陣

由表3可知,受到數(shù)據(jù)限制,在訓(xùn)練集中bus和subway模式較少,在訓(xùn)練過程中不能很好地?cái)M合這兩種模式的特征,從而bus和subway模式的識別率明顯低于其他模式的識別準(zhǔn)確率。在添加穩(wěn)定速度與停留特征之后,bike模式的識別準(zhǔn)確率略有提升。bike中誤識為walk和bus模式均有減少,表明兩種新特征有助于提高識別的穩(wěn)定性。

在數(shù)據(jù)限制的情況下,bus模式與bike、subway、car模式均有交織,在添加停留特征后,識別率明顯上升。因此對于含有bus模式的識別,添加停留特征有利于提升識別準(zhǔn)確率。

walk與bike模式識別中,相互均有5%~10%的誤識率(walk識別為bike或bike識別為walk)。實(shí)驗(yàn)選取以速度特征為主時,walk與bike模式在速度上有較大的重合,對于識別準(zhǔn)確率產(chǎn)生較大影響。因此,對于需要明確區(qū)分walk與bike模式的場景,需要再添加可以明確區(qū)分兩種模式的特征。

3.3 出行模式轉(zhuǎn)換點(diǎn)測試對比結(jié)果

出行模式轉(zhuǎn)換點(diǎn)識別算法利用了步行模式速度低的特性。設(shè)置了一個速度閾值經(jīng)驗(yàn)值V0和步長S。正常人步行速度約為1.5 m/s,其他模式的正常速度都大于這個數(shù)值,偶爾產(chǎn)生的低速情況持續(xù)時間也較短。研判窗口Δt=300 s能夠排除偶然情況的干擾。將300 s窗口內(nèi)的平均速度與速度閾值經(jīng)驗(yàn)值V對比,能夠有效地區(qū)分步行模式和其他模式。同時,步長過小會使得移動前后的窗口區(qū)別較小,產(chǎn)生無意義的數(shù)據(jù)。在保證識別準(zhǔn)確率的情況下,盡可能地增大步長能夠有效降低識別時間。

對于轉(zhuǎn)換點(diǎn)識別,由于單一的準(zhǔn)確率無法正確描述識別準(zhǔn)確率,給出以下準(zhǔn)確率判別方法:

precision:查準(zhǔn)率,代表識別出的真實(shí)轉(zhuǎn)換點(diǎn)占識別全部轉(zhuǎn)換點(diǎn)數(shù)的比例。

(4)

recall:查全率,代表識別出的真實(shí)轉(zhuǎn)換點(diǎn)占實(shí)際全部轉(zhuǎn)換點(diǎn)的比例。

(5)

F-score:準(zhǔn)確率,代表查準(zhǔn)率與查全率的均值,作為識別的準(zhǔn)確率。

(6)

其中:Nt是識別正確的轉(zhuǎn)換點(diǎn)個數(shù),Np是識別的全部轉(zhuǎn)換點(diǎn)個數(shù),Nr是實(shí)際出行中應(yīng)有的轉(zhuǎn)換點(diǎn)個數(shù)。

將F-score作為最終識別的準(zhǔn)確率可以有效針對識別轉(zhuǎn)換點(diǎn)冗余和漏識問題,較為準(zhǔn)確地描述識別準(zhǔn)確率。轉(zhuǎn)換點(diǎn)識別準(zhǔn)確率如表4所示。

表4 轉(zhuǎn)換點(diǎn)識別準(zhǔn)確率對比

由表4可知,所提出方法的查全率較高,而查準(zhǔn)率較低。在識別正確個數(shù)一定的情況下,查準(zhǔn)率較低而查全率較高,表明識別出的轉(zhuǎn)換點(diǎn)數(shù)量比真實(shí)的全部轉(zhuǎn)換點(diǎn)數(shù)量要多,即識別的轉(zhuǎn)換點(diǎn)冗余較大。橫向比較發(fā)現(xiàn),由于本方法是基于移動窗口的識別方法改進(jìn)的,在程序上還保留著移動窗口的框架,因此準(zhǔn)確率與移動窗口識別類似,呈現(xiàn)查準(zhǔn)率較低、查全率較高和轉(zhuǎn)換點(diǎn)多冗余的特征。

實(shí)驗(yàn)隨機(jī)選取一段GPS數(shù)據(jù),將移動窗口方式與本方式進(jìn)行對比。為避免偶然因素對實(shí)驗(yàn)結(jié)果的影響,對同一段數(shù)據(jù)進(jìn)行10次識別,識別時間如圖 2所示。

圖 2 轉(zhuǎn)換點(diǎn)識別時間對比圖

在移動窗口的研究中,需對數(shù)據(jù)進(jìn)行遍歷,計(jì)算特征的歐氏距離時間復(fù)雜度較高。已有工作[10]對數(shù)據(jù)集中每一點(diǎn)前后的歐氏距離做了計(jì)算,先提取了前后數(shù)據(jù)集的特征,然后通過特征計(jì)算得到前后的歐氏距離,提取歐氏距離的極值點(diǎn),最后進(jìn)行篩選。算法用移動步長代替遍歷,并且只判斷窗口內(nèi)的平均速度,減少了計(jì)算量。判定為初步轉(zhuǎn)換點(diǎn)的窗口后,才進(jìn)行模式識別和歐氏距離計(jì)算。由實(shí)驗(yàn)結(jié)果可知,本算法的時間復(fù)雜度有明顯降低。

3.4 實(shí)驗(yàn)結(jié)論

研究針對GPS數(shù)據(jù)進(jìn)行挖掘,從一段GPS數(shù)據(jù)中研判出這段數(shù)據(jù)的出行模式及其轉(zhuǎn)換點(diǎn)。通過“穩(wěn)定速度”和“平均停留間隔”兩個特征的加入,交通出行模式識別的整體精度和bus模式識別準(zhǔn)確度有較大提高,但對于walk和bike兩種模式的識別效果改善不明顯。此外,由于數(shù)據(jù)集限制,用于訓(xùn)練的數(shù)據(jù)較少,對于bus模式和subway模式的識別尚不能做出精確判斷。

選用訓(xùn)練數(shù)據(jù)集中轉(zhuǎn)換間隔較長的數(shù)據(jù)較多,使本算法對長間隔轉(zhuǎn)換數(shù)據(jù)的識別精確度較高,對于長時間GPS數(shù)據(jù)的轉(zhuǎn)換點(diǎn)識別有較好的應(yīng)用價值。

4 結(jié)束語

本研究提出了一種基于低速度移動研判的出行模式轉(zhuǎn)換點(diǎn)識別方法,增加了兩種用于出行模式研判的新特征。通過步行模式的低速特征和轉(zhuǎn)換點(diǎn)兩端的歐氏距離判斷出GPS軌跡數(shù)據(jù)中的出行模式轉(zhuǎn)換點(diǎn),并利用“穩(wěn)定速度”和“平均停留間隔”提高了出行模式識別的精度。通過對比實(shí)驗(yàn)發(fā)現(xiàn),本研究提出的方法能夠較好地提高長時間GPS數(shù)據(jù)的模式識別的準(zhǔn)確率和轉(zhuǎn)換點(diǎn)識別的準(zhǔn)確率、降低轉(zhuǎn)換點(diǎn)識別的時間復(fù)雜度。但是,研究的轉(zhuǎn)換點(diǎn)研判算法不適用于短時間內(nèi)多次模式轉(zhuǎn)換的情況,模式識別也僅局限在設(shè)定的5種模式中。下一步將針對短時間內(nèi)多次轉(zhuǎn)換的情況進(jìn)行研究。

猜你喜歡
模式識別研判準(zhǔn)確率
輕身調(diào)脂消渴片的指紋圖譜建立、化學(xué)模式識別及含量測定
南京市2017年至2019年道路交通死亡事故分析與研判
I、II類單點(diǎn)故障模式識別與質(zhì)量管控淺析
市場研判 不確定因素困擾市場
全球低軌衛(wèi)星網(wǎng)絡(luò)最新態(tài)勢研判
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
研判當(dāng)前貨幣政策走勢的“量”與“價”
彰化县| 哈尔滨市| 夹江县| 毕节市| 商水县| 云霄县| 中西区| 商城县| 怀仁县| 丰城市| 安西县| 来宾市| 黄龙县| 深泽县| 凤台县| 广元市| 迁西县| 阿合奇县| 房山区| 新晃| 彩票| 双流县| 民县| 读书| 仁布县| 麦盖提县| 石门县| 唐海县| 普宁市| 凤城市| 郁南县| 抚宁县| 甘洛县| 泰兴市| 南华县| 吐鲁番市| 玉山县| 乃东县| 深泽县| 谢通门县| 宣汉县|