国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于出租車運(yùn)營數(shù)據(jù)和POI數(shù)據(jù)的出行目的識別

2018-10-29 05:05:30羅孝羚蔣陽升
關(guān)鍵詞:決策樹目的地出租車

羅孝羚,蔣陽升*

(西南交通大學(xué)a.交通運(yùn)輸與物流學(xué)院;b.綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實(shí)驗室,成都610031)

0 引 言

出租車乘客的出行目的是交通調(diào)查中的重要內(nèi)容,其對城市功能結(jié)構(gòu)規(guī)劃,城市道路網(wǎng)絡(luò)規(guī)劃,交通組織設(shè)計及優(yōu)化具有重要的意義.傳統(tǒng)出租車乘客出行目的調(diào)查方式主要有旅行日記調(diào)查、電話調(diào)查、小組調(diào)查等人工調(diào)查方式[1-3].傳統(tǒng)的調(diào)查方式要求前期準(zhǔn)備、試點(diǎn)調(diào)查、實(shí)地調(diào)查、調(diào)查結(jié)果整理和錄入,需要耗費(fèi)大量的人力和物力.

近年來隨著信息設(shè)備在交通領(lǐng)域的廣泛應(yīng)用,使得一些原始的交通數(shù)據(jù)得以自動傳輸?shù)綌?shù)據(jù)庫系統(tǒng),并保存下來.在這樣的背景下,利用已有的原始數(shù)據(jù),獲取有價值的交通信息成為研究熱點(diǎn).如公交數(shù)據(jù)方面有:利用公交車IC卡數(shù)據(jù)分析票價結(jié)構(gòu)[4-5],利用公交GPS數(shù)據(jù)分析公交車運(yùn)營服務(wù)可靠性[6],融合IC卡數(shù)據(jù)和GPS數(shù)據(jù)獲取乘客出行需求[7-12].出租車數(shù)據(jù)有:利用出租車運(yùn)營數(shù)據(jù)分析路段行程時間和速度[13-15],利用出租車GPS數(shù)據(jù)分析運(yùn)營效率[16].地鐵數(shù)據(jù)有:利用地鐵數(shù)據(jù)對地鐵運(yùn)營現(xiàn)狀進(jìn)行分析[17-18].這些研究都說明通過有效的技術(shù)手段對一些已有的數(shù)據(jù)進(jìn)行挖掘,能夠快速有效地獲取有價值的交通信息,相比于傳統(tǒng)的人工調(diào)查方式,這種方式能夠節(jié)約大量的人力物力.

通過上述分析可知,傳統(tǒng)的出租車出行目的調(diào)查需要耗費(fèi)大量人力物力的問題.為了解決該問題,結(jié)合數(shù)據(jù)挖掘技術(shù),本文通過融合出租車運(yùn)營數(shù)據(jù)及地圖的爬蟲數(shù)據(jù),實(shí)現(xiàn)出租車乘客出行目的的識別.

1 數(shù)據(jù)分析及處理

1.1 出租車運(yùn)營數(shù)據(jù)

本文中所用到的成都市出租車數(shù)據(jù)包含的主要字段為:車輛ID編號,每次觸發(fā)GPS設(shè)備時的時刻,以及在當(dāng)前時刻下車輛所處位置的經(jīng)緯度且是否有乘客在車上.表1為成都市出租車的部分運(yùn)營信息表.

表1 成都出租車數(shù)據(jù)庫系統(tǒng)記錄數(shù)據(jù)Table 1 Recorded data in database system of Chengdu taxi

1.2 調(diào)查數(shù)據(jù)

由于需要訓(xùn)練識別模型和檢驗所訓(xùn)練的模型對出行目的識別的準(zhǔn)確性,因此我們對成都市區(qū)域的乘客進(jìn)行了抽樣問卷調(diào)查,主要的調(diào)查內(nèi)容是乘客的出行目的和出行特征.

在調(diào)查數(shù)據(jù)之后,需要對數(shù)據(jù)進(jìn)行相應(yīng)的處理,如將文字表達(dá)方式數(shù)字化,以及將數(shù)據(jù)區(qū)間化,方便后續(xù)計算機(jī)處理,表2為處理之后的調(diào)查數(shù)據(jù).

1.3 POI點(diǎn)信息及其與出行目的的關(guān)系

本文所用到的POI點(diǎn)信息是利用爬蟲技術(shù)從高德地圖上獲取的,具體步驟是首先在高德地圖申請密鑰,然后根據(jù)獲得的密鑰結(jié)合爬蟲技術(shù)就可以從高德地圖獲取特定區(qū)域所有的POI點(diǎn)信息,表3為部分獲取的POI點(diǎn)信息.

表2 部分轉(zhuǎn)化后的調(diào)查數(shù)據(jù)內(nèi)容Table 2 Partial transformed data content by survey

表3 部分爬取的POI點(diǎn)信息Table 3 Partial information of crawled POI

從上述部分爬取的POI點(diǎn)的信息可知,每個POI點(diǎn)的信息包含其所屬類別,具體類別與該P(yáng)OI點(diǎn)的信息功能相對應(yīng).由于乘客從下車點(diǎn)到最終目的地的距離處于一定范圍內(nèi)(具體范圍為依據(jù)調(diào)查數(shù)據(jù)確定),我們將該乘客從下車點(diǎn)到最終目的地所能夠容忍的距離定義為半徑閾值r,因此,從POI點(diǎn)層面,可以對乘客的出行目的做出相應(yīng)的判斷.如圖1所示,我們認(rèn)為乘客下車之后,可能前往POI 2點(diǎn)作為其最終目的地,由于POI 1點(diǎn)與下車點(diǎn)的距離大于半徑閾值r,乘客將不會選擇POI 1點(diǎn)作為最終出行目的地.

圖1 半徑閾值說明示意圖Fig.1 Sketch map of radius of the threshold

2 出行目的識別模型構(gòu)建

本文提出的基于出租車數(shù)據(jù)和POI點(diǎn)數(shù)據(jù)的出行目的識別方法是從出行特征和所屬POI點(diǎn)類別兩個層面對出行目的進(jìn)行識別,然后依據(jù)兩個層面的識別結(jié)果進(jìn)行綜合判斷

2.1 出行特征判別

依據(jù)出行特征判斷出行目的,本質(zhì)上屬于分類問題,目前該問題已經(jīng)有多種方法可以解決,如神經(jīng)網(wǎng)絡(luò)、貝葉斯、決策樹、支持向量機(jī)、最近鄰等方法.由于不同方法的識別效果不同,因此在實(shí)際使用過程中需要通過測試,然后選擇分類方法.雖然這些方法的原理差別很大,但是這些方法總體都可以表示為依據(jù)特征推導(dǎo)對象所屬類別,具體到該問題為

2.2 下車POI點(diǎn)類別歸屬

由于出租車具有靈活便利,具備門到門的服務(wù)能力,因此在調(diào)查中,乘客乘坐出租車出行的“下車點(diǎn)離最終目的地的距離”這一內(nèi)容進(jìn)行了調(diào)查以確定乘客從下車點(diǎn)到達(dá)可能的最終目的地的閥值半徑r.因此,依據(jù)這個條件,通過POI點(diǎn)層面也可以對其出行目的進(jìn)行判斷,可以表示為

2.3 最終出行目的識別規(guī)則

最終出行目的的識別,需要將依據(jù)特征識別的出行目的和依據(jù)POI點(diǎn)類別識別的出行目的實(shí)現(xiàn)有效融合,才能夠得到最終的出行目的.將兩種不同的方式作為一個集合,則可能出現(xiàn)式(2)~式(5)的情況.

式(2)由于基于POI點(diǎn)識別方式的結(jié)果為空集,最終出行目的只能為依據(jù)出行特征識別的出行目的;式(4)由于兩種方式識別的結(jié)果完全一致,最終出行目的即為任意一種方式識別的出行目的;式(5)則是由于基于POI點(diǎn)識別方式識別出多種出行目的,且多種出行目的中有一種恰好和使用特征識別的出行目的一致,最終出行目的為兩者識別結(jié)果的交集,則以上3種情況的最終識別結(jié)果都可以表示為

式(3)則是基于POI點(diǎn)識別方式的結(jié)果不為空且與基于特征識別的結(jié)果出現(xiàn)不一致的情況,因此在最終確定識別目的時存在兩種方式,一種為以出行特征為主導(dǎo)的即最終識別目的按照式(6)計算(文獻(xiàn)[19]和文獻(xiàn)[20]的出行目的識別方法),另外一種則是以POI點(diǎn)為主導(dǎo)的,可以表示為

式(7)表示出現(xiàn)兩種方式識別不同情況時,采用POI點(diǎn)識別結(jié)果為準(zhǔn),但基于POI點(diǎn)識別的結(jié)果在非空集的情況下可能存在兩種情況,即出現(xiàn)全是同一種出行目的或出現(xiàn)不全為一種出行目的.當(dāng)全是一種出行目的時,最終出行目的即為該目的;但當(dāng)出現(xiàn)不同的出行目的時,我們提出了兩種方法,其中第1種為統(tǒng)計各類出行目的的數(shù)量,并將數(shù)量出現(xiàn)最多的類型作為最早出行目的,第2種為以離下車點(diǎn)距離最短的出行目的地類型作為最終出行目的.

式(8)表示以目的地類型出現(xiàn)次數(shù)最多的作為最終出行目的,式(9)表示以離下車點(diǎn)距離最短的出行目的地類型作為最終出行目的.在后續(xù)實(shí)例驗證中,我們將從實(shí)際實(shí)驗結(jié)果對不同方式進(jìn)行分析和討論.

3 識別算法及流程

Step1 通過調(diào)查數(shù)據(jù)對數(shù)據(jù)特征即目標(biāo)進(jìn)行數(shù)字化和區(qū)間化處理.

Step2 通過調(diào)查數(shù)據(jù)對不同的出行目的的識別模型進(jìn)行訓(xùn)練和驗證,并依據(jù)識別精度選擇最佳的識別模型.

Step3 依據(jù)所提到的出行特征識別方式,通過實(shí)際運(yùn)營的出租車數(shù)據(jù)對乘客的出行特征進(jìn)行識別.

Step4 依據(jù)所提出的下車點(diǎn)經(jīng)緯度,結(jié)合設(shè)定的半徑閥值r對乘客可能的最終目的地POI點(diǎn)類型進(jìn)行判斷.

Step5 融合出行特征和POI點(diǎn)兩種方式獲取的出行特征,得到最終乘客的出行目的.

4 案例分析

4.1 數(shù)據(jù)說明

本文所用到的調(diào)查數(shù)據(jù)為成都市6:00-24:00隨機(jī)調(diào)查數(shù)據(jù),共獲得有效的調(diào)查問卷1 014份,其中調(diào)查數(shù)據(jù)是采用隨機(jī)確定調(diào)查地點(diǎn),然后安排調(diào)查地點(diǎn)進(jìn)行全天(6:00-24:00)的調(diào)查,因此調(diào)查數(shù)據(jù)具有代表性.運(yùn)營數(shù)據(jù)為成都市2016年8月6~12日1周內(nèi)所有出租車運(yùn)營數(shù)據(jù),其中出租車運(yùn)營數(shù)據(jù)每天時段為6:00-24:00,每天該時段出租車自動記錄的數(shù)據(jù)約4 000 000條.選擇該時間區(qū)間的數(shù)據(jù)是因為本文旨在探索非節(jié)假日的出租車乘客出行目的,而所選擇的這1周沒有特殊的節(jié)假日,所以所選取的樣本具有代表性.

4.2 調(diào)查數(shù)據(jù)模型驗證

4.2.1 分類方法測試

為了測試不同分類方法對于本問題的適用性,結(jié)合調(diào)查數(shù)據(jù)采用不同的分類方法對出行目的識別精度進(jìn)行驗證,結(jié)合Matlab工具包,采用十折交叉驗證方法,最終識別效果如圖2所示

圖2 不同識別方法的識別準(zhǔn)確度Fig.2 Recognition accuracy of different approaches

通過圖2的識別結(jié)果可知,不同的識別模型其識別精度差別較大,從47%到65.7%,識別準(zhǔn)確度最高的為決策樹,因此,我們對決策樹的識別結(jié)果的混淆矩陣進(jìn)行了分析,以獲得具體類別識別準(zhǔn)確率的情況,具體混淆矩陣如表4所示.

表4 決策樹識別結(jié)果的混淆矩陣Table 4 Confusion matrix of identified results by decision Tree(%)

從上述決策混淆矩陣的誤識別分析可知,某些不同出行目的由于其出行特征較為類似(上班和上學(xué)、休閑娛樂與購物和醫(yī)療等),因此,僅僅依靠出行特征進(jìn)行識別,容易出現(xiàn)較大的誤識別率.針對這個問題,我們提出基于出租車運(yùn)營數(shù)據(jù)和POI點(diǎn)數(shù)據(jù)的出行目的綜合識別方法.

4.2.2 本文方法應(yīng)用及對比分析

由于在上述6種不同的識別方法中決策樹的識別準(zhǔn)確率最高,因此在出行特征層面的出行目的識別方法仍采用決策樹,然后結(jié)合乘客下車POI點(diǎn)半徑閾值r內(nèi)的可能目的地的POI點(diǎn)類型進(jìn)行綜合決策.為了進(jìn)行對比,數(shù)據(jù)集及識別準(zhǔn)確度的驗證方法與上述一致,依據(jù)本文2.3節(jié)中的最終識別規(guī)則得到的對比識別結(jié)果如圖3所示.

圖3 文獻(xiàn)[19]和[21]及本文方法識別精準(zhǔn)度對比Fig.3 The comparison of recognition accuracy between proposed approach and literatures[19,21]

其中決策樹+POI(I)為式(8)的出行目的的決策方法,決策樹+POI(II)為式(9)的出行目的的決策方法.通過上述不同方法的結(jié)果對比分析可知,本文提出的在現(xiàn)有的出行特征識別出行目的基礎(chǔ)上融合下車點(diǎn)所屬POI點(diǎn)信息的出行目的決策方法具有明顯的優(yōu)勢,相比現(xiàn)有的出行特征估計出行目的的方法,所提出的決策樹+POI(I)能夠提高6.31%的識別準(zhǔn)確率,決策樹+POI(II)能夠提高15.76%的識別準(zhǔn)確率.

4.3 出租車實(shí)際運(yùn)營數(shù)據(jù)出行目的識別

根據(jù)調(diào)查數(shù)據(jù)的測試結(jié)果,我們對出租車數(shù)據(jù)采用決策樹+POI(II)的方法進(jìn)行出行目的的獲取.結(jié)合對所有乘客出行特征的識別結(jié)果,并依據(jù)調(diào)查數(shù)據(jù)設(shè)置乘客下車點(diǎn)可能的POI點(diǎn)的半徑閾值r為50 m,對成都市1周出租車乘客的出行目的進(jìn)行提取,提取的結(jié)果如圖4所示.

依據(jù)所提出的方法,計算成都市1周的出租車運(yùn)營數(shù)據(jù)的識別結(jié)果,共獲得出行人次為219 942人,其中工作日出行人數(shù)為160 895人,節(jié)假日出行的人數(shù)為59 047人.整體來看,1周中成都出租車乘客出行的主要目的是回家及上班,而購物所占的比重非常小.其中,工作日乘客乘坐出租車的主要目的是餐飲、上班、辦事等,而節(jié)假日時乘客乘坐出租車的主要目的是回家.通過分析數(shù)據(jù)可知,節(jié)假日時回家乘客數(shù)量很高是由于這部分出行主要發(fā)生在22:00以后的深夜,因為在這個時間段公交車輛及軌道交通的服務(wù)已經(jīng)暫停,只能夠選擇出租車回家,造成出租車回家的乘客在節(jié)假日比例很高.

圖4 本文方法對實(shí)際出租車運(yùn)營數(shù)據(jù)的乘客出行目的識別結(jié)果Fig.4 Identification result of actual taxi operation data based on proposed approach

5 結(jié)論

本文提出了一種基于出租車運(yùn)營數(shù)據(jù)及POI點(diǎn)數(shù)據(jù)的出租車乘客出行目的識別方法,該方法通過調(diào)查數(shù)據(jù)進(jìn)行驗證,并最終應(yīng)用于實(shí)際的數(shù)據(jù)中,可得到如下結(jié)論:

(1)通過數(shù)據(jù)實(shí)驗表明,本文所提出的基于出車組運(yùn)營數(shù)據(jù)及POI點(diǎn)數(shù)據(jù)的出租車乘客出行目的識別方法,與現(xiàn)有的僅僅根據(jù)出租車運(yùn)營數(shù)據(jù)識別乘客出行目的的方法相比,能夠顯著提高其識別精度.

(2)在所提出的方法中,針對實(shí)際數(shù)據(jù)量較大的問題,我們改進(jìn)了判斷預(yù)定半徑閥值范圍內(nèi)出現(xiàn)的POI點(diǎn)的獲取算法,結(jié)合地理知識,將距離判斷轉(zhuǎn)化為經(jīng)緯度差判斷,能夠非常顯著節(jié)約計算機(jī)計算時間,使所提出的方法能夠有效運(yùn)用于實(shí)踐.

(3)在出租車運(yùn)營數(shù)據(jù)與POI點(diǎn)數(shù)據(jù)進(jìn)行融合識別時,我們實(shí)驗了兩種不同方式的識別判斷方法(決策樹+POI(I)與決策樹+POI(II)).實(shí)驗結(jié)果表明,雖然半徑范圍內(nèi),POI點(diǎn)都有可能成為乘客的目的地,但是乘客更加趨向于距離較短的POI點(diǎn)作為其最終目的地,這也體現(xiàn)了相比于其他公共交通,出租車具有靈活機(jī)動性,能夠?qū)崿F(xiàn)門對門服務(wù).

猜你喜歡
決策樹目的地出租車
向目的地進(jìn)發(fā)
小主人報(2022年7期)2022-08-16 06:59:30
迷宮彎彎繞
乘坐出租車
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
動物可笑堂
憑什么
目的地
基于決策樹的出租車乘客出行目的識別
開往春天的深夜出租車
山東青年(2016年1期)2016-02-28 14:25:29
泰和县| 娱乐| 若尔盖县| 弋阳县| 杨浦区| 城市| 南漳县| 鹤山市| 白山市| 将乐县| 枝江市| 峨山| 盐源县| 静海县| 成武县| 奉新县| 海盐县| 黔江区| 肇庆市| 百色市| 临沧市| 蒙山县| 根河市| 阿拉善右旗| 奉贤区| 天祝| 东平县| 阿拉尔市| 中西区| 渑池县| 潼关县| 黄梅县| 延边| 太和县| 高平市| 石台县| 阳山县| 梅州市| 诸暨市| 连山| 永胜县|