陳瓊
數(shù)萬輛出租車幾個月內(nèi)的行駛軌跡數(shù)據(jù)匯集到一起,能有什么用?鄭宇博士在做的研究,就是要找到其中的玄機。
2006年7月,剛剛在西南交通大學(xué)拿到博士學(xué)位的鄭宇從成都來到北京,順利通過了微軟亞洲研究院(MSRA)的各種測試環(huán)節(jié),成為MSRA的一名研究員,由此開始了他一直有著濃厚興趣的軌跡數(shù)據(jù)研究。
那一年,中國基于地理位置信息的商業(yè)服務(wù)和應(yīng)用還處于萌芽階段,移動互聯(lián)網(wǎng)更是只有朦朧的輪廓,鄭宇所在的研究小組并沒什么特定的應(yīng)用型研究方向,他甚至還琢磨過候鳥遷徙軌跡,并為此做一些數(shù)據(jù)挖掘和分析。但也恰恰是那個時期的計算模型和算法積累,為其日后的研究課題做了扎實的鋪墊。
后來有一天,鄭宇看到了一組數(shù)據(jù),并深感驚訝:在2006年,北京市區(qū)道路內(nèi)每天的平均擁堵時間,竟高達11小時。而很多國內(nèi)核心城市的規(guī)劃者們一直相信,通過新建道路、大力興建和提倡采用公共交通系統(tǒng)、加強交通法規(guī)監(jiān)管等等途徑,是治療城市交通擁堵頑疾的“良藥”。而除了這些猛藥,還有其他辦法嗎?這個問題引發(fā)了鄭宇的注意和思考:能否借助城市交通體系內(nèi)的某些軌跡數(shù)據(jù)分析,為交通狀況的改善做些輔助性的支持和貢獻?一個極具普遍性和代表性的樣本群體和數(shù)據(jù)載體——出租車,進入了他的視野。
下一位乘客
據(jù)鄭宇提供的數(shù)據(jù):北京市目前有約6.7萬輛的運營出租車,這個數(shù)字能在全球排到第4位,位居墨西哥城、曼谷、東京之后,而在紐約之前;北京市市民采用出租車的出行比例約為4.2%。有接近一半的北京出租車中,已被監(jiān)管部門植入了GPS芯片,該芯片不是給司機用的,而主要是為出租車公司的調(diào)度和管理部門提供呼叫服務(wù)和監(jiān)管所用。這些GPS芯片會定時將其位置信息傳至服務(wù)中心,由此匯聚而成大規(guī)模的出租車移動軌跡數(shù)據(jù)。
鄭宇選取了北京市3.3萬輛出租車在2009年和2010年,每年的3月~5月間所產(chǎn)生的所有軌跡數(shù)據(jù),研究就基于這些海量數(shù)據(jù)展開。在這些數(shù)據(jù)背后,不僅可以客觀表征當(dāng)前城市道路上的交通流量,同時也能體現(xiàn)出一名普通的乘客在城市中從A點到B店的移動路線。
而在這些數(shù)據(jù)面前,則是現(xiàn)實中的種種問題:很多北京人抱怨打車難,這種抱怨無論對乘客還是對出租車司機而言,都同樣存在——早晚高峰時,人多車少,街邊四處是招手的乘客;平常時段,車多人少,路上隨處可見空載出租車。
鄭宇課題小組的研究首先就從解決這些問題入手。圍繞這些數(shù)據(jù),鄭宇的小組首先將乘客的打車行為抽象成一個乘客移動模式,同時,通過對海量數(shù)據(jù)進行機器學(xué)習(xí),對出租車載客、上客、下客的整個過程也抽象為一個出租車攬客行為模式。直白地說,就是分析每個路段上出租車攬客行為,把眾多的數(shù)據(jù)集合到一起,計算出每個路段上乘客打到空車的概率。
通過分析乘客的移動模式和出租車司機攬客行為模式,鄭宇所做的這項研究可以向出租車司機推薦更有可能迅速招攬到乘客的地點,并向乘客推薦更容易找到空駛出租車的地點。此項結(jié)果借由“停車地點偵測算法”以及出租車運行軌跡數(shù)據(jù)來獲得(以概率代表),將此輸入一個概率模型后,根據(jù)出租車司機提出推薦請求的時間和地點,該系統(tǒng)還可以評估某個停車待客地點可能帶來的利潤。
據(jù)鄭宇介紹,這套面向乘客以及出租車司機的推薦系統(tǒng),已經(jīng)經(jīng)過了1.2萬輛出租車在110天產(chǎn)生的軌跡數(shù)據(jù)驗證。其中針對乘客的“打車指南”系統(tǒng),還被鄭宇掛到了MSRA的內(nèi)網(wǎng)上,并且有不少同事已經(jīng)是其忠實用戶。由于采用了機器學(xué)習(xí)的算法,這套系統(tǒng)給出的推薦是一種不斷學(xué)習(xí)的結(jié)果,而且出租車也被作為移動傳感器來感知路面流量,這樣的思路應(yīng)用在針對出租車司機的“攬客推薦”系統(tǒng)中,還演化成了一個路線設(shè)計功能,在這里,大量的軌跡數(shù)據(jù)結(jié)合在一起,從中可以分析得出一條最為優(yōu)化的路線推薦給出租車司機。
一座城市級別的計算
其實,圍繞出租車軌跡數(shù)據(jù)所設(shè)計的推薦系統(tǒng)僅僅只是鄭宇研究課題的一部分,城市計算(Urban Computing)才是其全貌。
在該領(lǐng)域,鄭宇通過分析市區(qū)運營出租車的GPS行駛軌跡,探測城市規(guī)劃的缺陷,并驗證當(dāng)前實施的城市規(guī)劃改善成效。由于他所采集的出租車軌跡數(shù)據(jù)為兩個自然年度內(nèi)的同期數(shù)據(jù),所以研究結(jié)果的對照性更加直觀,比如城市內(nèi)新建的某條道路和某條地鐵線路,對周邊交通狀況的改善等。
在研究方法上,鄭宇所領(lǐng)導(dǎo)的研究小組將北京市區(qū)分隔成了若干個有集中性特點的小型區(qū)域,他認為,城市居民的出行往往有很明確的目的性,有比較固定的線路,而所有的線路總是以這些小型區(qū)域為端點。由此,再結(jié)合出租車的軌跡數(shù)據(jù)信息,來分析找出不能很好連接的兩個區(qū)域。
而即便在出租車行駛中并沒有減速的情況,仍然會有線索表明城市規(guī)劃的潛在問題。比如,出租車司機可能會在從A點到B點的線路中,選擇繞行而非直接抵達,這段多出來的距離往往表明,司機很可能知道這是AB之間最快的一條路線。
鄭宇設(shè)計的算法能夠直觀地揭示出某兩個區(qū)域間的路網(wǎng)設(shè)計問題,這將能為城市交通的規(guī)劃和設(shè)計者提供較為準確的參考建議。在某些情況下,某些區(qū)域內(nèi)出現(xiàn)的交通瓶頸現(xiàn)象,往往并不是這些區(qū)域本身的道路設(shè)計問題。比如人們必須通過區(qū)域2才能從區(qū)域1到達區(qū)域3,那么更好的解決之道,是直接打通區(qū)域1和區(qū)域3,而非拓寬區(qū)域2內(nèi)的道路。
當(dāng)然,像鄭宇他們所做的研究只是城市計算龐大課題的冰山一角,作為城市中海量數(shù)據(jù)的其中一個載體,出租車軌跡數(shù)據(jù)所映射出的現(xiàn)實,更多集中于交通層面。而且,這些軌跡數(shù)據(jù)的采集過程中,出租車本身也已被抽象成為了一個個散落分布在城市系統(tǒng)中的傳感器。