江貴林 胡訪(fǎng)宇 石立興
摘要:不同城市功能區(qū)區(qū)域之間具有外在物理差異和內(nèi)在功能差異,且隨時(shí)間和人類(lèi)活動(dòng)不斷發(fā)生演變。針對(duì)衛(wèi)星遙感等傳統(tǒng)監(jiān)測(cè)方法存在運(yùn)行周期長(zhǎng)、成本高,不能表征內(nèi)在功能差異等問(wèn)題,利用通信運(yùn)營(yíng)商提供的用戶(hù)生活數(shù)據(jù)——呼叫詳細(xì)記錄(CDR),進(jìn)行城市功能區(qū)識(shí)別研究。首先,以人工標(biāo)注的方法對(duì)基站小區(qū)進(jìn)行功能區(qū)分類(lèi),得到住宅區(qū)、辦公區(qū)、商業(yè)區(qū)、高校區(qū)、景點(diǎn)區(qū)五類(lèi)訓(xùn)練樣本;然后,提取各功能區(qū)內(nèi)用戶(hù)群體的通話(huà)行為和移動(dòng)行為特征,進(jìn)行差異性對(duì)比分析;最后,利用高斯混合模型(GMM)設(shè)計(jì)出多特征加權(quán)判決的功能區(qū)識(shí)別算法,并用訓(xùn)練集對(duì)該算法進(jìn)行仿真。實(shí)驗(yàn)結(jié)果表明,CDR數(shù)據(jù)可以對(duì)城市功能區(qū)之間的內(nèi)在差異進(jìn)行表征,功能區(qū)性質(zhì)與用戶(hù)的通話(huà)行為和移動(dòng)行為存在對(duì)應(yīng)關(guān)系;判決權(quán)重為0.6時(shí),該算法在現(xiàn)有數(shù)據(jù)集下的功能區(qū)召回率達(dá)到了最大,為51.08%。結(jié)合誤差分析表明CDR數(shù)據(jù)在城市功能區(qū)識(shí)別應(yīng)用上具有可行性。
關(guān)鍵詞:
呼叫詳細(xì)記錄;功能區(qū);機(jī)器學(xué)習(xí);城市感知;高斯混合模型
中圖分類(lèi)號(hào): TP391.9; TN929.5 文獻(xiàn)標(biāo)志碼:A
0引言
城市是一個(gè)復(fù)雜的動(dòng)態(tài)系統(tǒng),一般都要經(jīng)歷規(guī)劃發(fā)展調(diào)整再規(guī)劃這樣一個(gè)循環(huán)往復(fù)的過(guò)程[1]。在這個(gè)過(guò)程中,由于人的生產(chǎn)活動(dòng)以及產(chǎn)業(yè)集聚力和擴(kuò)散力的影響,土地利用和空間結(jié)構(gòu)都在經(jīng)歷不斷的變化,在其內(nèi)部形成了不同的功能區(qū),且不斷發(fā)生著演變。對(duì)城市土地進(jìn)行及時(shí)明確的功能區(qū)劃分,對(duì)于城市管理者來(lái)說(shuō),是檢驗(yàn)城市規(guī)劃合理性以及指導(dǎo)未來(lái)規(guī)劃方向的一個(gè)重要參考。然而,傳統(tǒng)的研究方法都是以人工手繪、實(shí)地調(diào)查和衛(wèi)星遙感[2-3]得來(lái)的數(shù)據(jù)為基礎(chǔ)。一方面,這些數(shù)據(jù)只能描述城市各區(qū)域的外在物理性差別,不能體現(xiàn)其內(nèi)部社會(huì)功能性;另一方面,這些數(shù)據(jù)的獲取需要花費(fèi)大量的人力、物力和時(shí)間;同時(shí)可靠性要受到時(shí)間、地點(diǎn)甚至調(diào)查人員經(jīng)驗(yàn)判斷的影響,難以滿(mǎn)足對(duì)當(dāng)前快速發(fā)展的城市進(jìn)行動(dòng)態(tài)監(jiān)測(cè)的需求。日常生活中,用戶(hù)在使用移動(dòng)手機(jī)、全球定位系統(tǒng)(Global Positioning System, GPS)、無(wú)線(xiàn)網(wǎng)絡(luò)等具有位置傳感器的服務(wù)時(shí),出于計(jì)費(fèi)目的,一些服務(wù)供應(yīng)商的服務(wù)器會(huì)對(duì)數(shù)據(jù)進(jìn)行保存。長(zhǎng)此以往,產(chǎn)生了海量的用戶(hù)生活數(shù)據(jù),例如呼叫詳細(xì)記錄(Call Detail Record, CDR)、出租車(chē)出行記錄、網(wǎng)絡(luò)簽到記錄等。這些數(shù)據(jù)相比傳統(tǒng)數(shù)據(jù)具有覆蓋面廣、時(shí)空分辨率高、成本低廉等優(yōu)勢(shì)。國(guó)內(nèi)外已有學(xué)者在利用相關(guān)數(shù)據(jù)進(jìn)行城市感知方面的研究,例如文獻(xiàn)[4]用CDR數(shù)據(jù)分析了科特迪瓦、波士頓、米蘭等地的用戶(hù)通勤模型,從移動(dòng)距離、時(shí)間等角度進(jìn)行了對(duì)比分析,發(fā)現(xiàn)利用CDR數(shù)據(jù)的分析方法相比傳統(tǒng)方法更具實(shí)用性和可重復(fù)操作性;文獻(xiàn)[5-6]從個(gè)人手機(jī)通話(huà)數(shù)據(jù)中得到用戶(hù)的移動(dòng)模式,結(jié)合移動(dòng)模式進(jìn)行用戶(hù)位置預(yù)測(cè)、城市交通分析等工作;文獻(xiàn)[7]提出了一種基于CDR數(shù)據(jù)發(fā)現(xiàn)城市“間隙”的方法,即通過(guò)分析鄰近基站區(qū)域間人流量的異常值來(lái)判斷城市中河流、公園以及道路障礙的位置。上述研究都表明人類(lèi)活動(dòng)與城市空間結(jié)構(gòu)存在緊密聯(lián)系[8-10],這也為解決城市功能區(qū)的動(dòng)態(tài)監(jiān)測(cè)問(wèn)題提供了一個(gè)新視角。
針對(duì)以衛(wèi)星遙感為代表的傳統(tǒng)方法在解決功能區(qū)識(shí)別問(wèn)題上的不足,本文提出一種基于CDR數(shù)據(jù)進(jìn)行城市功能區(qū)識(shí)別的新方法,并在現(xiàn)有數(shù)據(jù)集上對(duì)其可行性進(jìn)行了驗(yàn)證。
1實(shí)驗(yàn)數(shù)據(jù)集與問(wèn)題定義
移動(dòng)通信網(wǎng)絡(luò)[11]是由彼此相鄰的基站收發(fā)臺(tái)(Base Transceiver Station, BTS)相互連接而成,每一個(gè)BTS的服務(wù)面積可以近似用泰森多邊形來(lái)表示,為該基站的通信小區(qū)。用戶(hù)在一個(gè)通信小區(qū)內(nèi)發(fā)生通話(huà)或使用其他服務(wù)時(shí),運(yùn)營(yíng)商服務(wù)器端都會(huì)產(chǎn)生一條CDR記錄,其主要字段由表1所示。運(yùn)營(yíng)商對(duì)每一個(gè)基站有記錄其具體的位置信息,包括經(jīng)度、緯度和周邊道路、建筑信息。
本文實(shí)驗(yàn)數(shù)據(jù)集由兩部分構(gòu)成:1)取自我國(guó)北方某城市11343244條經(jīng)匿名處理的CDR數(shù)據(jù);2)該市43880個(gè)通信基站的地理位置信息。其中,CDR數(shù)據(jù)由40000名抽樣用戶(hù)在2013年6月產(chǎn)生,抽樣條件為:1)用戶(hù)的號(hào)碼注冊(cè)地位于該市某科技產(chǎn)業(yè)中心;2)用戶(hù)在2013年6月的通話(huà)總時(shí)長(zhǎng)大于100min。
考慮到數(shù)據(jù)抽樣條件的限制,為了選取合適的基站作為研究對(duì)象,從用戶(hù)接入過(guò)的14549個(gè)基站中取“月總接入量”排名靠前的1500個(gè)。借助基站的位置信息和百度地圖公開(kāi)的興趣點(diǎn)(Point Of Interest, POI),對(duì)這1500個(gè)通信小區(qū)以住宅區(qū)、辦公區(qū)、商業(yè)區(qū)、高校區(qū)、景點(diǎn)區(qū)進(jìn)行功能區(qū)標(biāo)注(其中6個(gè)存在2個(gè)以上功能區(qū)標(biāo)簽,被舍棄),結(jié)果如表2所示。
每個(gè)BTS記錄的CDR數(shù)據(jù)包含了該區(qū)域內(nèi)用戶(hù)群體的行為特征信息。這些特征主要包括所有用戶(hù)的通話(huà)時(shí)長(zhǎng)在時(shí)間上的分布,用戶(hù)移動(dòng)性在時(shí)間上的分布以及長(zhǎng)短途通話(huà)比例等。一般而言,受城市布局和社會(huì)工作時(shí)間的影響,用戶(hù)在不同功能區(qū)內(nèi)的行為在時(shí)間分布上會(huì)表現(xiàn)出明顯的不同,比如用戶(hù)在辦公區(qū)域內(nèi)的通話(huà)行為在辦公時(shí)間發(fā)生的概率應(yīng)大于休息時(shí)間。反過(guò)來(lái),從CDR數(shù)據(jù)中若能提取到這些不同點(diǎn),應(yīng)可以用于推斷通信小區(qū)所處位置的土地利用類(lèi)型。為了驗(yàn)證這一猜想,本文在完成對(duì)通信小區(qū)的功能區(qū)標(biāo)注的工作后,以基站為單位提取用戶(hù)群體的通話(huà)行為特征向量,分析不同功能區(qū)中心特征向量的差異性,最后用N折交叉驗(yàn)證方法將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,以最終的召回率均值來(lái)表示CDR數(shù)據(jù)在城市功能區(qū)識(shí)別應(yīng)用方面的能力。
2特征提取及分析
CDR數(shù)據(jù)中,用戶(hù)的每次通話(huà)行為可以由一個(gè)三元組來(lái)表示:
Meta=(BTSn,Dn,Tn)(1)
其中:BTSn為用戶(hù)通話(huà)時(shí)所在的基站標(biāo)識(shí);Dn為通話(huà)的持續(xù)時(shí)間;Tn為通話(huà)起始時(shí)間。同一用戶(hù)連續(xù)兩次通話(huà)之間發(fā)生的事件定義為通話(huà)間隔事件(Call Interval Event, CIV)。如果兩次通話(huà)的地點(diǎn)不同且間隔時(shí)間在2h以?xún)?nèi)則該通話(huà)間隔事件為一次通話(huà)移動(dòng)事件(Call Move Event, CMV),記前一個(gè)BTS所在位置為移動(dòng)起點(diǎn)。
每一個(gè)BTS服務(wù)面積下的用戶(hù)行為特征在時(shí)間上的分布可以用一個(gè)二維矩陣νn=(δ,τ)表示,其中:n∈{1,2,…,N}是基站標(biāo)識(shí),δ∈{1,2,…,30}是日期劃分,τ∈{1,2,…,24}表示每天以1h為單位劃分的時(shí)間槽。矩陣中的每個(gè)元素為該BTS服務(wù)下的用戶(hù)在該時(shí)間槽下的特征值。本文從中提取出兩個(gè)特征,分別為通話(huà)時(shí)長(zhǎng)特征(Call Duration Feature, CDF)和移動(dòng)頻率特征(Move Frequency Feature, MFF),計(jì)算方式分別如式(2其中:M為BTSn服務(wù)下的用戶(hù)數(shù),Di為每次通話(huà)時(shí)長(zhǎng)。
受社會(huì)工作時(shí)間的影響,用戶(hù)在工作日和休息日下的社會(huì)行為會(huì)表現(xiàn)出很大的差別,通話(huà)行為也是這樣。受此啟發(fā),本文將日期劃分為工作日Ω1和休息日Ω2兩類(lèi),其中Ω1包括周一到周五,Ω2包括周六、周日和假日。然后,按照通話(huà)時(shí)間對(duì)每個(gè)人一個(gè)月的通話(huà)記錄以工作日和休息日兩個(gè)模式進(jìn)行聚合,以盡量還原用戶(hù)每日的真實(shí)移動(dòng)軌跡,那么,每個(gè)通信小區(qū)的特征向量Xn可以表示為:
其中“++”表示Ω1和Ω2兩類(lèi)日期模式別在時(shí)間上的連接。
根據(jù)式(2)、(3)和(4)提取1494個(gè)樣本的“通話(huà)時(shí)長(zhǎng)”和“移動(dòng)頻率”兩類(lèi)特征,并求得5類(lèi)功能區(qū)的兩類(lèi)特征中心向量分別如圖1和圖2所示。
從圖1可以看出,所有區(qū)域內(nèi)的用戶(hù)在工作日的通話(huà)時(shí)長(zhǎng)比休息日都要高,但是辦公區(qū)內(nèi)的差別最為明顯;住宅區(qū)和高校區(qū)表2、圖1、2中為高校區(qū),此處的“文教區(qū)”是否應(yīng)該改為“高校區(qū)”?通篇需要統(tǒng)一,請(qǐng)明確。內(nèi)用戶(hù)在晚間20:00~22:00的通話(huà)時(shí)長(zhǎng)總量會(huì)出現(xiàn)一個(gè)明顯的峰值,是相比其他3類(lèi)功能區(qū)的一個(gè)突出特征,而商業(yè)區(qū)和景點(diǎn)區(qū)在通話(huà)時(shí)長(zhǎng)特征方面較難區(qū)分。圖2是5類(lèi)功能區(qū)的移動(dòng)頻率特征中心向量對(duì)比??傮w來(lái)看,各功能區(qū)在工作日的早晨和傍晚均出現(xiàn)一個(gè)移動(dòng)高峰,休息日則較為平穩(wěn);住宅區(qū)的移動(dòng)頻率較低;景點(diǎn)區(qū)的移動(dòng)頻率最高;高校文教區(qū)在工作日夜間的移動(dòng)頻率很低而在休息則比較高;商業(yè)區(qū)在日間的移動(dòng)頻率處于較低水平,而在夜間則有所上升。分析來(lái)看,各功能區(qū)內(nèi)的用戶(hù)通話(huà)和移動(dòng)特征與該地區(qū)的功能類(lèi)型相符合,如果能夠找到合適的方法融合這兩個(gè)特征則可以對(duì)不同基站所處區(qū)域的功能類(lèi)型進(jìn)行區(qū)分。
3基于多特征加權(quán)判決的功能區(qū)識(shí)別
考慮到第2章提到的多特征融合的需求,本文引入一種軟判決的機(jī)器學(xué)習(xí)算法——高斯混合模型(Gaussian Mixture Model, GMM)。該算法在監(jiān)督學(xué)習(xí)中可以得到某一類(lèi)樣本在d維空間中的概率密度分布函數(shù)(d為特征向量的維度),從而可以得到新樣本在該類(lèi)下的隸屬度。本文在該算法的基礎(chǔ)上,設(shè)計(jì)了“基于多特征加權(quán)判決的功能區(qū)識(shí)別”的模型訓(xùn)練和識(shí)別流程。
3.1高斯混合模型
高斯分布(Gaussian Distribution)是一個(gè)在數(shù)學(xué)、物理和其他工程領(lǐng)域內(nèi)一個(gè)重要的連續(xù)概率密度分布函數(shù),用于描述一個(gè)圍繞某個(gè)單值聚集分布的隨機(jī)量。從數(shù)學(xué)的角度可以證明高斯分布的信息熵在所有已知均值和方差的連續(xù)分布中最大,這使得它成為在已知均值和方差情況下最理想的分布選擇。然而,實(shí)際情況是,很多工程應(yīng)用[12-13]中變量的概率分布呈現(xiàn)出多峰現(xiàn)象,也就是說(shuō)單模態(tài)的高斯分布不能對(duì)多模態(tài)的實(shí)際變量概率分布進(jìn)行有效擬合。為了解決這個(gè)問(wèn)題,研究者提出高斯混合模型(Gaussian Mixture Model,GMM)的概念,即用兩個(gè)或兩個(gè)以上高斯分布加權(quán)求和對(duì)實(shí)際變量的分布進(jìn)行表達(dá)。通過(guò)這種方法,只要增加單高斯的個(gè)數(shù),便可以去逼近任意復(fù)雜的連續(xù)變量概率密度分布。
假設(shè)一個(gè)GMM由K個(gè)單高斯分布組成,那么這K個(gè)單高斯分布函數(shù)的線(xiàn)性加權(quán)組合即為該GMM的概率密度函數(shù):
p(x)=∑Kk=1p(k)p(x|k)=∑Kk=1πkN(x|μk,Σk)(5)
其中πk、 μk、Σk此處這兩種書(shū)寫(xiě)方式,采用前一種,還是后一種?即“∑”是求和符號(hào),還是希臘字符?請(qǐng)明確。分別為第k個(gè)單高斯的權(quán)重、均值和方差。訓(xùn)練GMM的過(guò)程就是對(duì)這3個(gè)參數(shù)進(jìn)行估計(jì),一般采用最大似然估計(jì)法。如一個(gè)訓(xùn)練樣本大小為M,則GMM(πk, μk,Σk)的似然函數(shù)如下:
lg∏Mi=1p(xi)=∑Mi=1 lg p(xi)=
∑Mi=1lg(∑Kk=1πkN(x|μk,Σk))(6)
訓(xùn)練樣本根據(jù)式(6)計(jì)算出在該GMM下的似然值越大則說(shuō)明該GMM對(duì)該樣本的概率密度分布擬合得越好。為了得到期望的GMM,本文用最大期望(Expectation Maximization, EM)算法在訓(xùn)練中進(jìn)行迭代求解,得到似然值最大時(shí)的模型參數(shù)。具體的迭代過(guò)程如下所示。
1)參數(shù)初始化,可用聚類(lèi)算法得到初始的πk、 μk、Σk值。
2)期望過(guò)程,估計(jì)訓(xùn)練樣本中每個(gè)數(shù)據(jù)在第k個(gè)單高斯分量下的概率,對(duì)于數(shù)據(jù)xi來(lái)說(shuō),它屬于第k個(gè)單高斯分量的概率為:
γ(i,k)=πkN(xi|μk,Σk)∑Kj=1πjN(xi|μj,Σj)(7)
在迭代過(guò)程中,πk, μk,Σk取上一次計(jì)算出的值。
3)最大化過(guò)程,對(duì)式(7)進(jìn)行求導(dǎo),得到該似然值下的GMM參數(shù):
μk=1Nk∑Mi=1γ(i,k)xi(8)
Σk=1Nk∑Mi=1γ(i,k)(xi-μk)(xi-μk)T此處上標(biāo)T若表示矩陣、矢量或向量的轉(zhuǎn)置,那么xi,μk是否應(yīng)該是矢量、向量或矩陣?請(qǐng)明確。答:T表示轉(zhuǎn)置,(5)~(10)式子中的xi,μk以及式中的x都是向量,經(jīng)檢查沒(méi)有其他需要注明的變量。(9)
Nk=∑Mi=1γ(i,k)(10)
已知∑Kk=1πk=1,所以在GMM的似然函數(shù)中可加入拉格朗日乘子得到lg∏Mi=1p(xi)+λ(∑Kk=1πk-1),求得加入拉格朗日乘子后的似然函數(shù)最大時(shí)對(duì)應(yīng)的πk=Nk/N。
4)檢查似然函數(shù)是否收斂,若收斂則得到最大的似然函數(shù)值,否則繼續(xù)第2)、3)步的迭代過(guò)程,得到最終的模型參數(shù)(πk, μk,Σk)。
3.2多特征加權(quán)判決的功能區(qū)識(shí)別
從CDR數(shù)據(jù)中提取每個(gè)通信小區(qū)的兩個(gè)特征向量之后,利用高斯混合模型算法分別對(duì)每一類(lèi)功能區(qū)下的每個(gè)特征訓(xùn)練集進(jìn)行訓(xùn)練,得到相應(yīng)的GMM。以“住宅區(qū)”樣本為例,其識(shí)別流程主要分為模型訓(xùn)練和樣本預(yù)測(cè)兩個(gè)部分,如圖3所示。其中,CDF集合和MFF集合下的測(cè)試集和訓(xùn)練集內(nèi)的樣本一一對(duì)應(yīng);測(cè)試集中的樣本輸入到對(duì)應(yīng)的GMM特征模型后,便可得到對(duì)應(yīng)的隸屬度。為了綜合兩類(lèi)特征模型的預(yù)測(cè)結(jié)果,引入權(quán)重β來(lái)計(jì)算樣本屬于該功能區(qū)類(lèi)別的最終隸屬度:
P(X∈Y)=βPi+(1-β)Pj(11)
為了確定式(11)中判決權(quán)重β的最佳值,設(shè)置一組梯度值β={0,0.1,…,1.0}分別進(jìn)行仿真,取功能區(qū)召回率最大時(shí)對(duì)應(yīng)的β值作為最終的模型參數(shù)。
1494個(gè)通信小區(qū)中位于住宅區(qū)、辦公區(qū)、商業(yè)區(qū)、高校文教區(qū)和景點(diǎn)區(qū)的各占比30.38%、27.04%、21.22%、11.45%、9.91%,比例可近似為3∶3∶2∶1∶1,本文在使用5折交叉驗(yàn)證時(shí),測(cè)試集和訓(xùn)練集中的通信小區(qū)樣本類(lèi)別分布均近似滿(mǎn)足該比例。根據(jù)圖3的流程可依次訓(xùn)練各類(lèi)功能區(qū)在不同特征集下的GMM,得到一組GMM序列,然后計(jì)算測(cè)試集內(nèi)樣本屬于各功能區(qū)的概率P(X∈住宅區(qū))、P(X∈住宅區(qū)、…、P(X∈景點(diǎn)區(qū)),取概率最大時(shí)對(duì)應(yīng)的功能區(qū)類(lèi)別作為該樣本最終的識(shí)別結(jié)果。
4實(shí)驗(yàn)結(jié)果及誤差分析
4.1實(shí)驗(yàn)結(jié)果
根據(jù)實(shí)驗(yàn)設(shè)置的一組梯度值β={0,0.1,…,1.0},分別進(jìn)行仿真,得到不同β值下的功能區(qū)召回率,如圖4所示。
由圖4可以看出, β=0.6也即通話(huà)時(shí)長(zhǎng)特征和移動(dòng)頻率特征的判決權(quán)重為3∶2時(shí),實(shí)驗(yàn)得到功能區(qū)召回率最高為51.08%,而僅用通話(huà)時(shí)長(zhǎng)特征(β=1.0)時(shí)召回率為44.78%,僅用移動(dòng)頻率特征(β=0.0)時(shí)召回率為40.83%。由此可見(jiàn),兩種特征的結(jié)合可以更好地刻畫(huà)不同功能區(qū)之間的差異性,提高功能區(qū)識(shí)別的召回率。表3給出了β=0.6時(shí)識(shí)別結(jié)果的混淆矩陣,從表3中可以直觀(guān)地看出整個(gè)樣本在本文多特征判決模型下的識(shí)別結(jié)果。其中,住宅區(qū)、辦公區(qū)的識(shí)別率均超過(guò)50%,商業(yè)區(qū)為42%,高校文教區(qū)為31%,景點(diǎn)區(qū)為27%。
商業(yè)區(qū)、高校區(qū)和景點(diǎn)區(qū)中各有50%~30%此處書(shū)寫(xiě)是否有誤,應(yīng)該按照從低至高的順序吧,即30%~50%?請(qǐng)明確?;貜?fù):這個(gè)數(shù)字與前面的商業(yè)區(qū)、高校區(qū)、景點(diǎn)區(qū)一一對(duì)應(yīng)的分別是:51%、47%和44%,因此原句可修改為:“商業(yè)區(qū)、高校區(qū)和景點(diǎn)區(qū)中分別有51%、47%、44%的區(qū)域被誤識(shí)為住宅區(qū)或辦公區(qū)”。
的區(qū)域被誤識(shí)為住宅區(qū)和辦公區(qū),
商業(yè)區(qū)、高校區(qū)和景點(diǎn)區(qū)中分別有51%、47%、44%的區(qū)域被誤識(shí)為住宅區(qū)或辦公區(qū),
這是拉低整體召回率的一個(gè)主要原因。
4.2誤差分析
本節(jié)對(duì)識(shí)別誤差的可能原因進(jìn)行了分析,主要包含以下兩個(gè)方面。
1)通信小區(qū)的功能異質(zhì)性對(duì)識(shí)別結(jié)果的影響。
結(jié)合地圖對(duì)實(shí)驗(yàn)所用的通信小區(qū)內(nèi)的POI信息的分析發(fā)現(xiàn),有些通信小區(qū)所處位置的局部功能與其周邊整體功能存在不一致的情況。比如一些高校區(qū)占地面積較大,其內(nèi)部的一些處于教工宿舍或者研究所附近的通信小區(qū)在整體功能上被劃分到高校區(qū)一類(lèi),然而從它們主要服務(wù)用戶(hù)的作息時(shí)間來(lái)看,局部功能更應(yīng)歸為生活區(qū)和辦公區(qū)一類(lèi),因此,應(yīng)該存在部分通信小區(qū)其在CDR數(shù)據(jù)中所體現(xiàn)的功能性特征與標(biāo)注結(jié)果有所不同。為了驗(yàn)證這一猜想,本文對(duì)模型的識(shí)別結(jié)果作了進(jìn)一步分析,以住宅區(qū)為例,將識(shí)別結(jié)果分為3類(lèi)。
模式Ⅰ為識(shí)別結(jié)果為住宅區(qū)且標(biāo)注型也為住宅區(qū)的通信小區(qū)集合;模式Ⅱ?yàn)樽R(shí)別結(jié)果為住宅區(qū)而標(biāo)注類(lèi)型為其他類(lèi)型的通信小區(qū)集合;模式Ⅲ為識(shí)別結(jié)果為其他功能類(lèi)型而標(biāo)注類(lèi)型為住宅區(qū)的通信小區(qū)集合。圖5(a)、5(b)分別給出了這3類(lèi)集合的通話(huà)時(shí)長(zhǎng)特征和移動(dòng)頻率特征中心向量。
從圖5中可以看出,模式Ⅱ的特征曲線(xiàn)與模式Ⅰ的特征曲線(xiàn)匹配度很高,而模式Ⅲ的特征曲線(xiàn)與模式Ⅰ的有明顯的偏差。這說(shuō)明,在誤識(shí)別的樣本中存在部分通信小區(qū),其服務(wù)范圍內(nèi)的用戶(hù)實(shí)際活動(dòng)類(lèi)型與其標(biāo)注的功能區(qū)類(lèi)型并不一致。致使這一結(jié)果的原因,一方面是通信小區(qū)局部和整體功能不匹配,如前文對(duì)部分位于高校區(qū)內(nèi)的通信小區(qū)的特點(diǎn)分析;另一方面,如果這些通信小區(qū)覆蓋范圍內(nèi)的土地利用類(lèi)型確實(shí)發(fā)生了變化,而運(yùn)營(yíng)商和地圖興趣點(diǎn)并沒(méi)及時(shí)更新相應(yīng)的位置信息,也會(huì)導(dǎo)致相同的結(jié)果。在這次誤差分析中因?yàn)槿狈υ摰貐^(qū)在相應(yīng)數(shù)據(jù)采集時(shí)間段內(nèi)的官方地理信息,無(wú)法對(duì)后者進(jìn)行驗(yàn)證。而功能區(qū)識(shí)別的目的就在于發(fā)現(xiàn)城市區(qū)域土地的當(dāng)前使用方式與歷史記錄是否存在沖突的情況,因此在城市管理中,這些地點(diǎn)應(yīng)成為重點(diǎn)關(guān)注的對(duì)象,分析其背后的原因,以此來(lái)引導(dǎo)后續(xù)的發(fā)展。
2)用戶(hù)訪(fǎng)問(wèn)量對(duì)識(shí)別結(jié)果的影響。
用CDR數(shù)據(jù)中提取的用戶(hù)行為特征去反映通信小區(qū)的功能結(jié)構(gòu),決定了通信小區(qū)的被訪(fǎng)問(wèn)量與反映結(jié)果準(zhǔn)確性之間的關(guān)系。訪(fǎng)問(wèn)量越大,CDR數(shù)據(jù)對(duì)其特征的描述越準(zhǔn)確;反之,CDR數(shù)據(jù)對(duì)通信小區(qū)的功能特點(diǎn)刻畫(huà)能力越弱。本次工作統(tǒng)計(jì)了所有用戶(hù)對(duì)1494個(gè)通信小區(qū)的訪(fǎng)問(wèn)量(發(fā)生通話(huà)事件的次數(shù)),以β=0.6時(shí)的識(shí)別結(jié)果對(duì)訪(fǎng)問(wèn)量和召回率之間的關(guān)系進(jìn)行了分析,二者關(guān)系如表4。
從表4的數(shù)據(jù)可以看出,樣本召回率隨通信小區(qū)訪(fǎng)問(wèn)量的增加而增大,因此,要提高本文所提出的方法在功能識(shí)別應(yīng)用中的召回率,一個(gè)有效的方法就是提高CDR數(shù)據(jù)的抽樣率,增加用戶(hù)數(shù)量。
5結(jié)語(yǔ)
本文通過(guò)分析CDR數(shù)據(jù),得到用戶(hù)在城市生活中所留下的時(shí)空分布信息,并結(jié)合高斯混合模型算法設(shè)計(jì)出基于多特征判決的城市功能區(qū)識(shí)別新方法。該方法在現(xiàn)有數(shù)據(jù)下的召回率達(dá)到了51.08%。誤差分析發(fā)現(xiàn)一部分BTS服務(wù)下的用戶(hù)實(shí)際通話(huà)行為特性與根據(jù)歷史位置信息標(biāo)注的土地利用類(lèi)型并不相符合,且樣本的召回率隨通信小區(qū)的訪(fǎng)問(wèn)量增加而提高。51.08%的召回率雖達(dá)不到實(shí)際應(yīng)用的需求,但可以作為傳統(tǒng)方法的一種輔助手段,減少人力和物力的投入。用CDR數(shù)據(jù)進(jìn)行的城市感知研究,體現(xiàn)了人與環(huán)境之間的相互作用關(guān)系,為城市管理、監(jiān)測(cè)提供了一個(gè)新的視角。
受CDR數(shù)據(jù)獲取途徑的限制,本次工作不能在更大數(shù)據(jù)量下對(duì)本文提出的方法和分析結(jié)果進(jìn)行進(jìn)一步的驗(yàn)證。下一步工作主要從兩個(gè)方向進(jìn)行展開(kāi):第一,獲取更多、更新的CDR數(shù)據(jù)用于該領(lǐng)域的研究;第二,挖掘CDR數(shù)據(jù)中更多的用戶(hù)行為特征,例如長(zhǎng)短途通話(huà)比例、平均通話(huà)時(shí)長(zhǎng)等,從多角度對(duì)不同功能區(qū)間的差異性進(jìn)行表達(dá)。
參考文獻(xiàn):
[1]
EAGLE N, PETLANDA. Reality mining: sensing complex social systems [J]. Personal and Ubiquitous Computing, 2006, 10(4): 255-268.
[2]
劉英,趙榮欽.遙感技術(shù)在中國(guó)城市環(huán)境監(jiān)測(cè)中的應(yīng)用研究進(jìn)展[J].云南地理環(huán)境研究,2006,18(1):101-104.(LIU Y, ZHAO R Q. Research advances in applying remote sensing technology to urban environmental monitoring in china [J]. Yunnan Geographic Environment Research, 2006, 18(1):101-104.)
[3]
郭理橋,林劍遠(yuǎn),王文英.基于高分遙感數(shù)據(jù)的城市精細(xì)化管理應(yīng)用[J].城市發(fā)展研究,2012,19(11):57-63.(GUO L Q, LIN J Y, WANG W Y. Urban fine management application based on high score remote sensing data [J]. Urban Development Studies, 2012, 19(11): 57-63.)
[4]
KUNG K S, GRECO K, SOBOLEVSKY S, et al. Exploring universal patterns in human homework commuting from mobile phone data [J]. PLoS ONE, 2014, 9(6): e96180.
[5]
YADAV K, KUMAR A, BHARTI A, et al. Characterizing mobility patterns of people in developing countries using their mobile phone data [C]// Proceedings of the Sixth International Conference on Communication Systems and Networks. Piscataway, NJ: IEEE, 2014: 1-8.
[6]
GONZALEZ D M C, HIDALGO C A, BARABASI AL, et al. Understanding individual human mobility patterns [J]. Nature, 2008, 453(7196): 779-782.
[7]
XIANG F, TU L, HUANG B. Inferring barriers of urban city using mobile phone record [C]// Proceedings of the 2013 IEEE International Conference on Green Computing and Communications and IEEE Internet of Things and IEEE Cyber, Physical and Social Computing. Piscataway, NJ: IEEE, 2013: 850-855.
[8]
周濤,楊紫陌,汪秉宏,等.人類(lèi)行為時(shí)空特性的統(tǒng)計(jì)力學(xué)[J].電子科技大學(xué)學(xué)報(bào),2013,42(4):481-534.(ZHOU T, YANG Z M, WANG B H, et al. Statistical mechanics on temporal and spatial activities of human [J]. Journal of University of Electronic Science and Technology of China, 2013, 42(4): 481-534.)
[9]
李婷,裴韜,袁燁城,等.人類(lèi)活動(dòng)軌跡的分類(lèi),模式和應(yīng)用研究綜述[J].地理科學(xué)進(jìn)展,2014,33(7):938-948.(LI T, PEI T, YUAN Y C, et al. A review on the classification, patterns and applied research of human mobility trajectory [J]. Progress in Geography, 2014, 33(7): 938-948.)
[10]
劉瑜,康朝貴,王法輝.大數(shù)據(jù)驅(qū)動(dòng)的人類(lèi)移動(dòng)模式和模型研究[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2014,39(6):660-664.(LIU Y, KANG C G, WANG F H. Research on human mobility patterns and model driven by big data [J]. Geomatics and Information Science of Wuhan University, 2014, 39(6): 660:664.)
[11]
戴虎.GSM網(wǎng)絡(luò)體系結(jié)構(gòu)及其網(wǎng)絡(luò)優(yōu)化[J].武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版),2005,27(1):10-14.(DAI H. GSM network architecture and network optimization [J]. Journal of Wuhan University of Technology (Information & Management Engineering), 2005, 24(1): 10-14.)
[12]
TORRESCARRASQUILLO P A, REYNOLDS D, DELLER J R, Jr. Language identification using Gaussian mixture model tokenization [C]// Proceedings of the 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ. IEEE, 2002: I757-I760.
[13]
REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models [J]. Digital Signal Processing, 2000, 10(1): 19-41.