孫煥良,彭程,劉俊嶺,許景科
面向“15分鐘生活圈”社區(qū)結(jié)構(gòu)的表示學(xué)習(xí)
孫煥良,彭程,劉俊嶺*,許景科
(沈陽(yáng)建筑大學(xué) 信息與控制工程學(xué)院,沈陽(yáng) 110168)(*通信作者電子郵箱liujl@sjzu.edu.cn)
利用城市大數(shù)據(jù)發(fā)現(xiàn)社區(qū)結(jié)構(gòu)是城市計(jì)算中重要的研究方向。有效表示面向“15分鐘生活圈”社區(qū)的結(jié)構(gòu)特征可以細(xì)粒度地評(píng)價(jià)生活圈社區(qū)周?chē)脑O(shè)施情況,有利于城市規(guī)劃建設(shè),創(chuàng)造宜居的生活環(huán)境。首先,定義了面向“15分鐘生活圈”的城市社區(qū)結(jié)構(gòu),并采用表示學(xué)習(xí)方法獲取生活圈社區(qū)的結(jié)構(gòu)特征;然后,提出了生活圈社區(qū)結(jié)構(gòu)的嵌入表示框架,框架中利用居民的出行軌跡數(shù)據(jù)確定興趣點(diǎn)(POI)與居民區(qū)的關(guān)系,構(gòu)建反映不同時(shí)段居民出行規(guī)律的動(dòng)態(tài)活動(dòng)圖;最后,對(duì)構(gòu)建的動(dòng)態(tài)活動(dòng)圖采用自編碼器進(jìn)行表示學(xué)習(xí)得到生活圈社區(qū)潛在特征的向量表示,從而有效概括居民日常活動(dòng)所形成的社區(qū)結(jié)構(gòu)。針對(duì)生活圈社區(qū)便利性評(píng)價(jià)、相似性度量等應(yīng)用,利用真實(shí)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)評(píng)估,結(jié)果表明,分POI類(lèi)別的日周期的潛在表示方法優(yōu)于星期周期的潛在表示方法,且前者的歸一化折損累計(jì)增益(NDCG)比后者最少提升了24.28%,最多提升了60.71%,驗(yàn)證了所提方法的有效性。
表示學(xué)習(xí);城市社區(qū);15分鐘生活圈;社區(qū)結(jié)構(gòu);自編碼器
城市社區(qū)結(jié)構(gòu)反映了社區(qū)居民與周?chē)钤O(shè)施、興趣點(diǎn)(Points Of Interest, POI)之間的關(guān)系[1]。現(xiàn)有對(duì)城市社區(qū)結(jié)構(gòu)的研究可以分為兩大類(lèi):一類(lèi)是通過(guò)對(duì)靜態(tài)的城市POI分布進(jìn)行分析來(lái)探索城市空間配置[2-5];另一類(lèi)是通過(guò)對(duì)城市居民活動(dòng)規(guī)律進(jìn)行分析來(lái)識(shí)別城市區(qū)域功能,探索城市區(qū)域間的差異[6-7]?,F(xiàn)有相關(guān)工作大多從宏觀角度研究城市社區(qū)結(jié)構(gòu)[6-8]。
目前,我國(guó)將現(xiàn)有居住區(qū)的近距離生活圈內(nèi)設(shè)施品質(zhì)提升作為規(guī)劃建設(shè)的重要目標(biāo)[9]。2018年住建部《城市居住區(qū)規(guī)劃設(shè)計(jì)標(biāo)準(zhǔn)》中強(qiáng)調(diào)通過(guò)生活圈來(lái)劃分居住單元,重點(diǎn)規(guī)劃建設(shè)“15分鐘生活圈”內(nèi)的設(shè)施,以提升居民的生活質(zhì)量。其中,“15分鐘生活圈”社區(qū)是指從居民區(qū)步行15 min可達(dá)的空間區(qū)域,簡(jiǎn)稱(chēng)為生活圈社區(qū)。對(duì)生活圈社區(qū)結(jié)構(gòu)進(jìn)行量化分析可以從細(xì)粒度角度發(fā)現(xiàn)居民區(qū)周?chē)O(shè)施分布情況,學(xué)習(xí)生活圈社區(qū)結(jié)構(gòu)特征,對(duì)完善社區(qū)周?chē)O(shè)施、便于城市建設(shè)和創(chuàng)造宜居的生活環(huán)境具有重要意義。
本文研究生活圈社區(qū)結(jié)構(gòu)的表示方法,通過(guò)生活圈社區(qū)居民在周?chē)鶳OI活動(dòng)情況,采用表示學(xué)習(xí)技術(shù)發(fā)現(xiàn)生活圈社區(qū)結(jié)構(gòu)。
圖1為生活圈社區(qū)結(jié)構(gòu)示例,其中:圖1(a)為北京市區(qū)某生活圈社區(qū)附近的POI分布情況,是半徑為1 km的圓周范圍,中心為生活圈社區(qū),周?chē)植紴椴煌?lèi)別的POI,如商場(chǎng)、學(xué)校、餐館和生活服務(wù)等;圖1(b)為該生活圈社區(qū)結(jié)構(gòu)圖,表示為星型結(jié)構(gòu),中心為生活圈社區(qū),四周為必要的POI,用線與中心連接。生活圈社區(qū)結(jié)構(gòu)展示了其周?chē)匾腜OI及居民對(duì)這些POI依賴(lài)的程度。
圖1 生活圈社區(qū)結(jié)構(gòu)圖示例
實(shí)現(xiàn)生活圈社區(qū)結(jié)構(gòu)的有效表示具有挑戰(zhàn)性,主要體現(xiàn)在:1)生活圈社區(qū)周?chē)植即罅康腜OI,僅統(tǒng)計(jì)POI數(shù)量并不能準(zhǔn)確地描述生活圈社區(qū)結(jié)構(gòu),確定對(duì)居民日常生活必要的POI是一個(gè)挑戰(zhàn);2)在居民日常生活中,不同POI的重要程度有差異,例如一個(gè)超市的重要性要大于一個(gè)銀行網(wǎng)點(diǎn),因此評(píng)價(jià)POI的重要性也是具有挑戰(zhàn)性的工作;3)居民在生活圈內(nèi)的活動(dòng)具有周期性,構(gòu)建生活圈社區(qū)活動(dòng)圖并進(jìn)行POI嵌入表示也是一個(gè)挑戰(zhàn)。
為了解決以上問(wèn)題,本文比較分析了百度地圖路徑查詢(xún)、出租車(chē)軌跡及共享單車(chē)軌跡數(shù)據(jù),采用行程距離較短可以反映居民日常活動(dòng)軌跡的共享單車(chē)數(shù)據(jù)來(lái)構(gòu)建居民活動(dòng)圖;利用居民區(qū)到POI的軌跡數(shù)據(jù)標(biāo)記生活圈社區(qū)必要的POI,結(jié)合居民訪問(wèn)POI的頻率、居民區(qū)與POI的距離及POI的類(lèi)別確定POI的重要性。
為了構(gòu)建生活圈社區(qū)活動(dòng)圖,本文分析了不同時(shí)段居民的出行規(guī)律,獲取相對(duì)穩(wěn)定的活動(dòng)模式生成動(dòng)態(tài)活動(dòng)圖。對(duì)構(gòu)建的動(dòng)態(tài)活動(dòng)圖集合采用自編碼器表示學(xué)習(xí),得到了生活圈社區(qū)潛在特征的向量表示,有效概括了居民日常活動(dòng)所形成的社區(qū)結(jié)構(gòu)。
本文主要工作如下:
1)定義了面向“15分鐘生活圈”的社區(qū)結(jié)構(gòu),用于描述居民區(qū)周?chē)煌?lèi)別POI的必要性與重要性;
2)提出了生活圈社區(qū)結(jié)構(gòu)的嵌入表示框架,框架中利用共享單車(chē)數(shù)據(jù)構(gòu)建生活圈社區(qū)活動(dòng)圖,采用自編碼器表示學(xué)習(xí)方法對(duì)POI進(jìn)行嵌入表示;
3)針對(duì)生活圈社區(qū)便利性評(píng)價(jià)、相似性度量等應(yīng)用,利用真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)評(píng)估,驗(yàn)證本文方法的有效性。
以下給出相關(guān)定義,并形式化所提出的問(wèn)題。
定義1給出的生活圈社區(qū)結(jié)構(gòu)為一個(gè)星形圖,如圖1(b)所示:中心為生活圈社區(qū),四周分布著不同類(lèi)型的POI。每個(gè)POI有位置、類(lèi)型及重要性等屬性,為居民提供日常生活相關(guān)的服務(wù),居民可以短距離地出行訪問(wèn)這些POI。
居民在生活圈社區(qū)周?chē)幕顒?dòng)是動(dòng)態(tài)的,同時(shí)呈周期性變化[10]。例如,在工作日的早上居民大多上班,活動(dòng)范圍在公交站和地鐵站附近,而在周末的早上居民會(huì)在市場(chǎng)周?chē)顒?dòng)。因此,為了更好地描述生活圈社區(qū)結(jié)構(gòu),定義了生活圈社區(qū)活動(dòng)圖,見(jiàn)定義2。
現(xiàn)有的社區(qū)結(jié)構(gòu)表示方法,如文獻(xiàn)[8]中提出的表示方法無(wú)法直接應(yīng)用于生活圈社區(qū)結(jié)構(gòu)的表示?,F(xiàn)有社區(qū)結(jié)構(gòu)表示關(guān)注大范圍城市社區(qū)結(jié)構(gòu),通過(guò)構(gòu)建社區(qū)內(nèi)反映各POI間聯(lián)通關(guān)系的圖結(jié)構(gòu)進(jìn)行表示學(xué)習(xí)。本文研究面向“15分鐘生活圈”社區(qū),更關(guān)注生活圈社區(qū)周?chē)腜OI分布,通過(guò)構(gòu)建生活圈社區(qū)與POI間的星形活動(dòng)圖進(jìn)行表示學(xué)習(xí)。
隨著感知技術(shù)和計(jì)算環(huán)境的成熟,以城市大數(shù)據(jù)為基礎(chǔ)的城市計(jì)算得到廣泛關(guān)注,城市社區(qū)結(jié)構(gòu)與功能計(jì)算是城市計(jì)算重要的研究方向[11]。
在城市社區(qū)結(jié)構(gòu)方面,文獻(xiàn)[3]中使用街景圖片和POI對(duì)社區(qū)結(jié)構(gòu)進(jìn)行描述;文獻(xiàn)[8]中提出了一個(gè)集體嵌入框架,從人類(lèi)移動(dòng)的多個(gè)周期性時(shí)空?qǐng)D中學(xué)習(xí)社區(qū)結(jié)構(gòu)。
在城市功能區(qū)發(fā)現(xiàn)方面,文獻(xiàn)[4]中使用skip-gram模型和t-SNE技術(shù),利用城市POI數(shù)據(jù)探索城市區(qū)域功能并實(shí)現(xiàn)可視化;文獻(xiàn)[6]中利用POI和出租車(chē)軌跡發(fā)現(xiàn)了城市的區(qū)域功能;文獻(xiàn)[7]中提出了一個(gè)概率潛在因素模型學(xué)習(xí)一個(gè)地區(qū)的城市功能組合。
本文屬于社區(qū)結(jié)構(gòu)發(fā)現(xiàn)方向,現(xiàn)有相關(guān)工作如文獻(xiàn)[6,8],主要關(guān)注大范圍城市社區(qū)結(jié)構(gòu)的表示,對(duì)POI之間的聯(lián)通性或者POI的類(lèi)別進(jìn)行嵌入學(xué)習(xí)。本文研究針對(duì)居民的日常生活圈社區(qū)結(jié)構(gòu),通過(guò)構(gòu)建生活圈社區(qū)與POI星形圖進(jìn)行表示學(xué)習(xí)。
表示學(xué)習(xí)是一種無(wú)監(jiān)督學(xué)習(xí)方法,旨在從復(fù)雜的高維數(shù)據(jù)中提取有效的低維特征,可以分為詞向量表示[12]、圖表示學(xué)習(xí)[13]、時(shí)空?qǐng)D表示學(xué)習(xí)[14]。
表示學(xué)習(xí)最初的應(yīng)用為自然語(yǔ)言處理領(lǐng)域,文獻(xiàn)[12]中提出了基于神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)模型word2vec用于提取單詞的語(yǔ)義特征。
圖表示學(xué)習(xí)旨在學(xué)習(xí)一個(gè)低維向量用于表示頂點(diǎn)或圖[15]。圖表示學(xué)習(xí)算法可分為概率模型、流形學(xué)習(xí)方法與基于重構(gòu)的算法。其中,概率模型的方法是通過(guò)無(wú)監(jiān)督學(xué)習(xí)層次的特征;流形學(xué)習(xí)算法采用基于訓(xùn)練集最近鄰圖的非參數(shù)方法[16];基于重構(gòu)的算法采用自動(dòng)編碼器的方法通過(guò)一系列非線性映射將原始特征表示中的實(shí)例投影到低維特征空間中,最小化原始和重構(gòu)特征之間的損失[17]。
時(shí)空?qǐng)D表示學(xué)習(xí)是時(shí)空環(huán)境下圖表示學(xué)習(xí)的發(fā)展[13]。如文獻(xiàn)[8]中提出了一個(gè)集體嵌入框架學(xué)習(xí)社區(qū)結(jié)構(gòu)。
本文提出的生活圈社區(qū)結(jié)構(gòu)表示是一種時(shí)空表示學(xué)習(xí),重點(diǎn)考慮了居民區(qū)周?chē)鶳OI必要性與重要性,通過(guò)對(duì)居民不同時(shí)間段與不同類(lèi)型POI的活動(dòng)來(lái)學(xué)習(xí)生活圈社區(qū)結(jié)構(gòu)。
本文的重點(diǎn)是開(kāi)發(fā)一個(gè)生活圈社區(qū)結(jié)構(gòu)圖的表示學(xué)習(xí)框架,以獲取由居民活動(dòng)產(chǎn)生的生活圈社區(qū)結(jié)構(gòu)的動(dòng)態(tài)變化,具體結(jié)構(gòu)如圖2所示。該框架由兩個(gè)部分組成:第一部分通過(guò)POI、居民出行軌跡和居民區(qū)數(shù)據(jù)構(gòu)建了多個(gè)生活圈社區(qū)活動(dòng)圖;第二部分將生活圈社區(qū)活動(dòng)圖進(jìn)行嵌入,并使用自動(dòng)編碼器對(duì)活動(dòng)圖進(jìn)行表示。
圖2 生活圈社區(qū)結(jié)構(gòu)表示學(xué)習(xí)框架
本文定義生活圈社區(qū)活動(dòng)圖用于反映居民的活動(dòng)規(guī)律,需要確定哪些POI是所在生活圈社區(qū)必要的POI,以及這些POI的重要性;同時(shí),需要發(fā)現(xiàn)居民周期性的活動(dòng)規(guī)律。因此,本文在構(gòu)建生活圈社區(qū)活動(dòng)圖時(shí)采用如下策略:首先,利用共享單車(chē)軌跡數(shù)據(jù)建立生活圈社區(qū)與POI的關(guān)系;其次,發(fā)現(xiàn)居民周期性的活動(dòng)模式來(lái)劃分生活圈社區(qū)活動(dòng)圖時(shí)間段;最后,根據(jù)POI與居民區(qū)的距離及領(lǐng)域知識(shí)對(duì)POI賦予權(quán)重。
3.2.1 生活圈社區(qū)與POI關(guān)系的建立
本文需要估計(jì)共享單車(chē)軌跡數(shù)據(jù)中居民到達(dá)某POI的可能性,并量化居民區(qū)與POI之間的移動(dòng)連通性。因?yàn)榫用耱T行單車(chē)的下車(chē)點(diǎn)往往在POI附近,無(wú)法與POI重合;同時(shí),居民傾向訪問(wèn)與下車(chē)點(diǎn)距離近的POI。因此,本文采用文獻(xiàn)[17]中基于概率傳播的方法來(lái)估計(jì)居民到達(dá)POI的概率,如式(1)所示:
3.2.2 生活圈社區(qū)活動(dòng)圖時(shí)間段劃分
為了更好地了解居民活動(dòng)規(guī)律,需要對(duì)生活圈社區(qū)活動(dòng)圖進(jìn)行時(shí)間段劃分,獲取相對(duì)穩(wěn)定的活動(dòng)模式。文獻(xiàn)[8]中將周一到周日的數(shù)據(jù)生成7個(gè)動(dòng)態(tài)圖,本文獲取了更細(xì)粒度的時(shí)間片段,將每天的不同時(shí)段進(jìn)行劃分。借鑒了文獻(xiàn)[18]中提出的主題模型方法來(lái)劃分片段,即通過(guò)滑動(dòng)窗口以KL散度(Kullback-Leibler divergence)為度量對(duì)窗口進(jìn)行劃分,如式(2)所示:
3.2.3 POI權(quán)重生成
為了能夠更好地區(qū)別不同POI對(duì)生活圈社區(qū)的影響,需要對(duì)POI賦予權(quán)重,權(quán)重越大說(shuō)明POI的重要性越高。本文考慮了三個(gè)影響權(quán)重的因素,包括居民訪問(wèn)的頻率、與居民區(qū)的距離以及類(lèi)別情況,提出了一種權(quán)重計(jì)算方法,如式(3)所示:
在構(gòu)建了多個(gè)不同時(shí)段的生活圈社區(qū)活動(dòng)圖后,便可以進(jìn)行活動(dòng)圖嵌入表示,以發(fā)現(xiàn)不同生活圈社區(qū)中居民的日常生活規(guī)律所形成的社區(qū)結(jié)構(gòu)。具體的表示方法如圖3所示。
圖3 生活圈社區(qū)結(jié)構(gòu)的嵌入表示
本文所采用的實(shí)驗(yàn)數(shù)據(jù)集均為真實(shí)數(shù)據(jù)集,如表1所示。第一個(gè)數(shù)據(jù)集是從房地產(chǎn)在線(www.soufun.com)網(wǎng)站獲得的,共包含1.3萬(wàn)多個(gè)居民生活圈社區(qū)。第二個(gè)數(shù)據(jù)集為北京市POI數(shù)據(jù)集,通過(guò)調(diào)用騰訊地圖API接口下載,共包括180多萬(wàn)19類(lèi)的POI對(duì)象。第三個(gè)數(shù)據(jù)集為軌跡數(shù)據(jù),包括百度地圖路徑查詢(xún)軌跡、出租車(chē)軌跡及共享單車(chē)軌跡數(shù)據(jù)。其中:百度地圖路徑查詢(xún)軌跡數(shù)據(jù)來(lái)自百度大腦交通數(shù)據(jù)集;共享單車(chē)軌跡數(shù)據(jù)來(lái)自數(shù)據(jù)競(jìng)賽社區(qū)www.biendata.xyz。
表1 實(shí)驗(yàn)數(shù)據(jù)集
為了發(fā)現(xiàn)生活圈社區(qū)人們?nèi)粘;顒?dòng)規(guī)律,本文分析了軌跡數(shù)據(jù)的分布情況。對(duì)軌跡長(zhǎng)度進(jìn)行了統(tǒng)計(jì),共享單車(chē)的平均騎行距離是842 m,出租車(chē)的平均行駛距離是11 016 m,百度查詢(xún)的行程距離是15 302 m。出租車(chē)數(shù)據(jù)和百度查詢(xún)數(shù)據(jù)出行距離過(guò)大,無(wú)法真實(shí)反映居民在生活圈社區(qū)的日常生活活動(dòng),所以本文選用行程距離與15分鐘生活圈范圍基本相符的共享單車(chē)軌跡數(shù)據(jù),并且考慮到共享單車(chē)的普及性,選取北京五環(huán)內(nèi)的地區(qū)作為研究區(qū)域。表1給出了所使用的北京市相關(guān)數(shù)據(jù)集的詳細(xì)情況。在自編碼器編碼和解碼過(guò)程中,文本設(shè)置編碼和解碼的層數(shù)都為3,自編碼器訓(xùn)練輪數(shù)epochs為20,每次訓(xùn)練的樣本數(shù)量batch-size為64。
用生活圈社區(qū)便利性來(lái)度量本文表示學(xué)習(xí)方法的效果,生活圈社區(qū)便利性是指生活圈社區(qū)居民對(duì)周?chē)O(shè)施的滿(mǎn)意度和可達(dá)性[5]。文獻(xiàn)[5]中通過(guò)調(diào)查問(wèn)卷及隨機(jī)森林等技術(shù)標(biāo)記了北京市各區(qū)域的便利性評(píng)分,便利性從低到高分為1到5共5個(gè)等級(jí)。利用現(xiàn)有的表示方法與本文的表示方法分別對(duì)生活圈社區(qū)進(jìn)行表示,生成表示向量,并將文獻(xiàn)[5]的標(biāo)記結(jié)果作為所生成表示向量的便利性等級(jí)標(biāo)簽;接著將表示向量作為預(yù)測(cè)屬性,利用五種現(xiàn)有學(xué)習(xí)排序算法對(duì)生活圈社區(qū)便利性進(jìn)行預(yù)測(cè),通過(guò)預(yù)測(cè)結(jié)果評(píng)價(jià)表示方法。
具體的表示方法如下,其中方法1、2為比較方法,3~5為本文提出的表示方法。
1)顯性特征(Explict Feature, EF)方法:該方法將生活圈社區(qū)的19類(lèi)POI每類(lèi)的總數(shù)作為特征。
2)星期周期的潛在表示方法WLF(Weekly Latent Feature)[8]:該方法采用共享單車(chē)數(shù)據(jù)中生活圈社區(qū)與POI間的軌跡數(shù)據(jù),將一周作為一個(gè)周期,每天生成一個(gè)生活圈社區(qū)活動(dòng)圖,再進(jìn)行嵌入表示。
3)日周期的潛在表示方法DLF(Daily Latent Feature):將一天通過(guò)滑動(dòng)窗口劃分為多個(gè)時(shí)間段,不區(qū)分POI類(lèi)別,構(gòu)建生活圈社區(qū)活動(dòng)圖并進(jìn)行嵌入表示。
4)分POI類(lèi)別的DLF表示方法(Daily Latent Category Feature, DLCF):該方法在DLF方法基礎(chǔ)上增加了POI類(lèi)別,綜合第2.2節(jié)提出的表示策略設(shè)計(jì)的方法。
5)DLCF+EF:將DLCF與EF組合形成的方法。
本文選取了五種學(xué)習(xí)排序方法驗(yàn)證本文表示方法的性能。具體學(xué)習(xí)排序算法包括:
1)Multiple Additive Regression Tree (MART)[20]:增強(qiáng)的樹(shù)模型,使用回歸樹(shù)在函數(shù)空間中執(zhí)行梯度下降。
2)RankBoost(RB)[21]:增強(qiáng)的成對(duì)排序方法,訓(xùn)練多個(gè)弱排序器,并將它們的輸出組合為最終排序。
3)ListNet(LN)[22]:列表排序模型,以轉(zhuǎn)換top-排序似然為目標(biāo)函數(shù),采用神經(jīng)網(wǎng)絡(luò)和梯度下降作為模型和算法。
4)RankNet(RN)[23]:使用神經(jīng)網(wǎng)絡(luò)對(duì)潛在的概率成本函數(shù)進(jìn)行建模。
5)LambdaMART(LM)[24]:基于RankNet通過(guò)LambdaRank改進(jìn)的增強(qiáng)樹(shù)的版本,結(jié)合了MART和LambdaRank。
將以上五種表示方法和五種學(xué)習(xí)排序方法組合來(lái)進(jìn)行比較,采用歸一化折損累計(jì)增益NDCG@(Normalized Discounted Cumulative Gain)評(píng)價(jià)排序結(jié)果,NDCG@值越大,評(píng)價(jià)排序的準(zhǔn)確性越高。如圖4(a)~(d)所示,比較了五種表示方法和五種學(xué)習(xí)排序方法組合而成的25個(gè)組合的性能。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)潛在特征和顯性特征結(jié)合時(shí)性能最優(yōu),本文提出的框架所學(xué)習(xí)的潛在特征也優(yōu)于其他潛在特征學(xué)習(xí)表示,本文的框架的NDCG結(jié)果比其他框架最少提升了24.28%,最多提升了60.71%。結(jié)合生活圈社區(qū)的動(dòng)態(tài)和靜態(tài)結(jié)構(gòu)的信息可以更加有效地表示生活圈社區(qū),使生活圈社區(qū)的便利性評(píng)價(jià)更加準(zhǔn)確。
圖4 生活圈社區(qū)便利性比較
由圖4可知,DLF優(yōu)于WLF,原因是DLF對(duì)時(shí)間段的劃分更加符合居民的活動(dòng)規(guī)律,能更好地描述生活圈社區(qū)結(jié)構(gòu)的特征;DLCF優(yōu)于DLF,因?yàn)镈LCF考慮了POI類(lèi)別,因此能夠更清晰地表示不同類(lèi)別的POI在不同時(shí)段的特征;組合方法DLCF+EF優(yōu)于DLCF,因?yàn)镈LCF+EF將生活圈社區(qū)的靜態(tài)的顯性特征和動(dòng)態(tài)的潛在特征相結(jié)合,能夠更加全面地描述生活圈社區(qū)。
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)潛在特征和顯性特征結(jié)合時(shí)性能最優(yōu),本文提出的框架所學(xué)習(xí)的潛在特征也優(yōu)于其他潛在特征學(xué)習(xí)表示。結(jié)合生活圈社區(qū)的動(dòng)態(tài)和靜態(tài)結(jié)構(gòu)的信息可以更加有效地表示生活圈社區(qū),使生活圈社區(qū)的便利性評(píng)價(jià)更加準(zhǔn)確。
生活圈社區(qū)表示可應(yīng)用于居民生活圈社區(qū)的相似性分析。本文選取了朝陽(yáng)區(qū)東四環(huán)附近3個(gè)真實(shí)生活圈社區(qū),通過(guò)這3個(gè)生活圈社區(qū)的特征向量的余弦相似度來(lái)比較三者之間的相似性。生活圈社區(qū)1和2的余弦相似度為0.964 1,生活圈社區(qū)1和3的余弦相似度為0.889 7。表2給出了三個(gè)生活圈社區(qū)范圍為1 km內(nèi)的不同類(lèi)別POI分布數(shù)量,分析其顯性特征情況。
表2 生活圈社區(qū)POI分布
由表2可知,雖然生活圈社區(qū)1和2的POI分布相差較大,但是兩者在潛在特征方面比較相似。調(diào)查發(fā)現(xiàn)兩個(gè)現(xiàn)象可能導(dǎo)致它們潛特征相似:第一,在生活圈社區(qū)2的1 km范圍內(nèi)有一家大型商場(chǎng),商場(chǎng)里包含著許多購(gòu)物類(lèi)、餐飲類(lèi)和生活服務(wù)類(lèi)POI,使得在相應(yīng)類(lèi)別POI數(shù)量與生活圈社區(qū)1有較大差異。然而,大型商場(chǎng)與生活圈社區(qū)2相隔3個(gè)交通崗使得居民訪問(wèn)數(shù)量較少,導(dǎo)致與生活圈社區(qū)1在相應(yīng)類(lèi)別POI分布的差異減小。第二,在生活圈社區(qū)1和2區(qū)域內(nèi)均有重點(diǎn)中學(xué),并且學(xué)校周?chē)植贾芏嗖惋嬵?lèi)和生活服務(wù)類(lèi)POI,居民的日?;顒?dòng)大部分集中在學(xué)校區(qū)域附近,因此即使POI分布差異較大,兩者的潛在特征仍然比較相似。
生活圈社區(qū)1和3的POI分布數(shù)量十分相似,但其潛在特征差異較大。調(diào)查發(fā)現(xiàn)生活圈社區(qū)1的住宅區(qū)與3的住宅區(qū)距離相近,所以POI分布數(shù)量較為相似;然而,生活圈社區(qū)3的住宅離學(xué)校區(qū)域相對(duì)較遠(yuǎn),使得居民活動(dòng)軌跡并不在學(xué)校區(qū)域周?chē)憩F(xiàn)為居民的訪問(wèn)量較少。因此,即使兩者間的POI分布數(shù)量相似,但其潛在特征并不相似。
通過(guò)對(duì)生活圈社區(qū)潛在特征的學(xué)習(xí),可以從動(dòng)態(tài)的角度尋找相似的居民生活圈社區(qū),發(fā)現(xiàn)不同居民區(qū)之間的潛在相似性,為比較生活圈社區(qū)的相似性提供了新方法。
本文研究了面向“15分鐘生活圈”的城市社區(qū)結(jié)構(gòu)問(wèn)題,提出了生活圈社區(qū)結(jié)構(gòu)的嵌入表示框架。該框架由生活圈社區(qū)活動(dòng)圖及表示學(xué)習(xí)兩部分組成。采用可以反映居民日?;顒?dòng)軌跡的共享單車(chē)數(shù)據(jù)來(lái)建立活動(dòng)圖中的關(guān)系,通過(guò)分析居民活動(dòng)模式得到活動(dòng)圖時(shí)間片段,對(duì)構(gòu)建的動(dòng)態(tài)活動(dòng)圖采用自編碼器表示學(xué)習(xí),得到生活圈社區(qū)潛在特征的向量表示。使用歸一化折損累計(jì)增益作為評(píng)價(jià)指標(biāo)對(duì)生活圈社區(qū)的便利性進(jìn)行評(píng)價(jià),驗(yàn)證了所以出框架的優(yōu)越性。接下來(lái),對(duì)生活圈社區(qū)范圍進(jìn)行更為細(xì)粒度的劃分和進(jìn)行表示學(xué)習(xí)的研究將是我們進(jìn)一步工作的重點(diǎn)。
[1] JIANG S, ALVES A, RODRIGUES F, et al. Mining point of interest data from social networks for urban land use classification and disaggregation[J]. Computers, Environment and Urban Systems, 2015, 53:36-46.
[2] 宋正娜,陳雯,張桂香,等. 公共服務(wù)設(shè)施空間可達(dá)性及其度量方法[J]. 地理科學(xué)進(jìn)展, 2010, 29(10):1217-1224.(SONG Z N, CHEN W, ZHANG G X, et al. Spatial accessibility of public service facilities and its measurement approaches[J]. Progress in Geography, 2010, 29(10):1217-1224.)
[3] LIU X J, LONG Y. Automated identification and characterization of parcels with OpenStreetMap and points of interest[J]. Environment and Planning B: Planning and Design, 2015, 43(2):341-360.
[4] LIU K, YIN L, LU F, et al. Visualizing and exploring POI configurations of urban regions on POI-type semantic space[J]. Cities, 2020, 99: No.102610.
[5] ZHANG X Y, DU S H, ZHANG J X. How do people understand convenience-of-living in cities? a multiscale geographic investigation in Beijing[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 148:87-102.
[6] ZHANG C, ZHANG K Y, YUAN Q, et al. Regions, periods, activities: uncovering urban dynamics via cross-modal representation learning[C]// Proceedings of the 26th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2017:361-370.
[7] FU Y J, LIU G N, PAPADIMITRIOU S, et al. Real estate ranking via mixed land-use latent models[C]// Proceedings of the 21st ACM SIGKD International Conference on Knowledge Discovery and Data Mining. New York:ACM, 2015:299-308.
[8] WANG P Y, FU Y J, ZHANG J W, et al. Learning urban community structures: a collective embedding perspective with periodic spatial-temporal mobility graphs[J]. ACM Transactions on Intelligent Systems and Technology, 2018, 9(6): No.63.
[9] 莊曉平,陶楠,王江萍. 基于POI數(shù)據(jù)的城市15分鐘社區(qū)生活圈便利度評(píng)價(jià)研究-以武漢三區(qū)為例[J]. 華中建筑, 2020, 38(6):76-79.(ZHUANG X P, TAO N, WANG J P. The evaluation of the convenience of 15-minute community life circles based on POI data: taking three districts of Wuhan as an example[J]. Huazhong Architecture, 2020, 38(6):76-79.)
[10] LI Z H, DING B L, HAN J W, et al. Mining periodic behaviors for moving objects[C]// Proceedings of the 16th ACM SIGKD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2010:1099-1108.
[11] BURGES C, SHAKED T, RENSHAW E, et al. Learning to rank using gradient descent[C]// Proceedings of the 22nd International Conference on Machine Learning. New York: ACM, 2005:89-96.
[12] BURGES C J C. From RankNet to LambdaRank to LambdaMART: an overview: MSR-TR-2010-82[R/OL]. (2010-06)[2021-06-20].https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/MSR-TR-2010-82.pdf.
[13] ZHANG Y, CAPRA L, WOLFSON O, et al. Urban computing: concepts, methodologies, and applications[J]. ACM Transactions on Intelligent Systems and Technology, 2014, 5(3): No.38.
[14] COURVILLE A, BERGSTRA J, BENGIO Y. Unsupervised models of images by spike-and-slab RBMs[C]// Proceedings of the 28th International Conference on Machine Learning. Madison, WI: Omnipress, 2011:1145-1152.
[15] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07)[2021-05-23].https://arxiv.org/pdf/1301.3781.pdf.
[16] OU M D, CUI P, PEI J, et al. Asymmetric transitivity preserving graph embedding[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016:1105-1114.
[17] HINTON G E, ZEMEL R S. Autoencoders, minimum description length and Helmholtz free energy[C]// Proceedings of the 6th International Conference on Neural Information Processing Systems. San Francisco: Morgan Kaufmann Publishers Inc., 1993: 3-10.
[18] FU Y J, WANG P Y, DU J D, et al. Efficient region embedding with multi-view spatial networks: a perspective of locality constrained spatial autocorrelations[C]// Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019:906-913.
[19] FU Y J, XIONG F, GE Y, et al. Exploiting geographic dependencies for real estate appraisal: a mutual perspective of ranking and clustering[C]// Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2014:1047-1056.
[20] MEI Q Z, ZHAI C X. Discovering evolutionary theme patterns from text — an exploration of temporal text mining[C]// Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2005:198-207.
[21] YE X Y, TAN H L, ZHANG Y Z, et al. Research on convenience index of urban life based on POI data[J]. Journal of Physics: Conference Series, 2020, 1646: No.012073.
[22] FRIEDMAN J H. Greedy function approximation: a gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5):1189-1232.
[23] FREUND Y, IYER R D, SCHAPIRE R E, et al. An efficient boosting algorithm for combining preferences[J]. Journal of Machine Learning Research, 2003, 4:933-969.
[24] CAO Z, QIN T, LIU T Y, et al. Learning to rank: from pairwise approach to listwise approach[C]// Proceedings of the 24th International Conference on Machine Learning. New York: ACM, 2007:129-136.
Community structure representation learning for "15-minute living circle"
SUN Huanliang, PENG Cheng, LIU Junling*, XU Jingke
(,,110168,)
The discovery of community structures using urban big data is an important research direction in urban computing. Effective representation of the structural characteristics of the communities in the "15-minute living circle" can be used to evaluate the facilities around the living circle communities in a fine-grained manner, which is conducive to urban planning as well as the construction and creation of a livable living environment. Firstly, the urban community structure oriented to "15-minute living circle" was defined, and the structural characteristics of the living circle communities were obtained by representation learning method. Then, the embedding representation framework of the living circle community structure was proposed, in which the relationship between the Points Of Interest (POI) and the residential area was determined by using the travel trajectory data of the residents, and a dynamic activity map reflecting the travel rules of the residents at different times was constructed. Finally, the representation learning to the constructed dynamic activity map was performed by an auto-encoder to obtain the vector representations of the potential characteristics of the communities in the living circle, thus effectively summarizing the community structure formed by the residents’ daily activities. Experimental evaluations were conducted using real datasets for applications such as community convenience evaluation and similarity metrics in living circles. The results show that the daily latent feature expression method based on POI categories is better than the weekly latent feature expression method. Compared to the latter, the minimum increase of Normalized Discounted Cumulative Gain (NDCG) of the former is 24.28% and the maximum increase of NDCG is 60.71%, which verifies the effectiveness of the proposed method.
representation learning; urban community; 15-minute living circle; community structure; auto-encoder
This work is partially supported by National Natural Science Foundation of China (62073227), National Key Research and Development Program of China (2021YFF0306303), Natural Science Foundation of Liaoning Province (2019-MS-264),Project of the Educational Department of Liaoning Province ((LJKZ0582).
SUN Huanliang, born in 1969. Ph. D., professor. His research interests include spatial data management, data mining.
PENG Cheng,born in 1994, M. S. candidate. His research interests include data mining, representation learning.
LIU Junling, born in 1972. Ph. D., associate professor. Her research interests include spatio-temporal data query, data mining.
XU Jingke, born in 1976. Ph. D., professor. His research interests include spatio-temporal database, data mining.
TP391
A
1001-9081(2022)06-1782-07
10.11772/j.issn.1001-9081.2021091750
2021?10?12;
2021?11?15;
2021?11?17。
國(guó)家自然科學(xué)基金資助項(xiàng)目(62073227);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2021YFF0306303);遼寧省自然科學(xué)基金資助項(xiàng)目(2019-MS-264);遼寧省教育廳項(xiàng)目(LJKZ0582)。
孫煥良(1969—),男,黑龍江望奎人,教授,博士,博士生導(dǎo)師,CCF高級(jí)會(huì)員,主要研究方向:空間數(shù)據(jù)管理、數(shù)據(jù)挖掘;彭程(1994—),男,遼寧營(yíng)口人,碩士研究生,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘、表示學(xué)習(xí);劉俊嶺(1972—),女,遼寧沈陽(yáng)人,副教授,博士,CCF會(huì)員,主要研究方向:時(shí)空數(shù)據(jù)查詢(xún)、數(shù)據(jù)挖掘;許景科(1976—),男,遼寧海城人,教授,博士,CCF會(huì)員,主要研究方向:時(shí)空數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘。