周康勝 彭睿哲 李卓
DOI:10.16660/j.cnki.1674-098X.2101-5640-7573
摘? 要:本文通過研究西安市市中心位置處未央?yún)^(qū)、蓮湖區(qū)、新城區(qū)、碑林區(qū)、灞橋區(qū)、雁塔區(qū)和長安區(qū)共7個(gè)行政區(qū)2020年全年的百度地圖興趣點(diǎn)(Point of Interest, POI)數(shù)據(jù),對原始POI數(shù)據(jù)進(jìn)行梳理與分類,根據(jù)旅客出行目的的不同聚類成4大類POI數(shù)據(jù):娛樂出行、醫(yī)療出行、教育出行、辦事出行。然后使用核密度分析方法求得不同大類POI數(shù)據(jù)的核密度之和,以此得到不同出行目的旅客的目的地聚集區(qū)域。本文通過分析發(fā)現(xiàn),不同出行目的的旅客目的地聚集區(qū)域也有所差別,其中碑林區(qū)及與碑林區(qū)接壤的其他行政區(qū)是各類旅客出行目的地的熱門集中區(qū)域,需要防疫部門重點(diǎn)關(guān)注。
關(guān)鍵詞:興趣點(diǎn)? 大數(shù)據(jù)? 出行目的? 新冠疫情
中圖分類號:U125 ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2021)03(c)-0166-05
Analysis of Passenger Travel Purpose under Epidemic Situation Based on Data of Interest Points
ZHOU Kangsheng? PENG Ruizhe? LI Zhuo
(College of Transportation Engineering, Changan University, Xian, Shaanxi Province, 710021 China)
Abstract: This paper studies the point of interest (POI) of the center of Xian, including Weiyang District, Lianhu District, Xincheng District, Beilin District, Baqiao District, Yanta District and Chang'an District, coming from Baidu Map in the whole year of 2020. The original POI data are sorted and classified according to the different travel purposes of passengers, which are clustered into four categories of POI data: entertainment travel, medical travel, education travel and business travel. Then, the sum of the kernel densities of different types of POI data is obtained by using the kernel density analysis method, so as to obtain the destination aggregation area of different travel destinations. Based on the analysis, it is found that the destination gathering areas of passengers with different travel purposes are also different. Beilin District and other administrative districts and their adjacent areas are the popular concentration areas of all kinds of passenger travel destinations, which need to be focused by the epidemic prevention department.
Key Words: Point of interest; Big data; Travel purpose; COVID-19 epidemic
2020年全球籠罩在新型冠狀病毒肺炎疫情的陰影下,各國經(jīng)濟(jì)也因此受到了很大損失,我國雖然成功遏制了疫情的擴(kuò)散,人們的生產(chǎn)生活已經(jīng)步入正軌,但仍有零星的境外輸入、冷鏈貨物傳播等局部疫情的出現(xiàn),防疫形勢依然嚴(yán)峻。通常情況下,有兩種防疫的思路:一種是發(fā)現(xiàn)患者,根據(jù)確診患者的出行軌跡去尋找其密切接觸者,再進(jìn)行隔離觀察、核酸檢測等對其是否患有新冠肺炎進(jìn)行排除;還有一種是倡導(dǎo)不扎堆、不聚集,例如外來人員需隔離一周并做核酸檢測才能恢復(fù)自由或是通過封閉管理等手段,盡可能地切斷傳播途徑。上述方法雖然有效,但是都有一定的滯后性和實(shí)施難度。結(jié)合我國疫情實(shí)際情況,本文在大數(shù)據(jù)背景下提出了一種新的防疫思路:通過對龐大的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,探索數(shù)據(jù)關(guān)系,發(fā)現(xiàn)以前科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識、新規(guī)律[1],可以構(gòu)建出旅客的畫像,預(yù)估其出行目的與方式,對可能的人口聚集區(qū)域做出預(yù)測,有關(guān)部門可以據(jù)此加大此聚集區(qū)域的防疫力度,最大限度地杜絕疫情的傳播。
由于旅客的出行需求多種多樣,包括旅行、出差、訪友、學(xué)習(xí)、探親、科研調(diào)查等,而且,疫情背景下的旅客出行目的也有一定的變化[2]。因此本文利用2020年百度地圖的興趣點(diǎn)(Point of Interest,POI)分析疫情后旅客的出行目的,尋找具有不同類型出行目的的旅客目的地的聚集區(qū)域,對于提高防疫部門工作精確性,合理部署防疫物資有著重要價(jià)值,此外研究城市的興趣點(diǎn)數(shù)據(jù)也有助于有關(guān)部門和市民對城市功能分布有更好的理解[3]。
POI(一般作為Point of Interest的縮寫,也有Point of Information的說法),通常稱作興趣點(diǎn),它是基于位置服務(wù)的核心數(shù)據(jù),泛指互聯(lián)網(wǎng)電子地圖中的點(diǎn)類數(shù)據(jù),基本包含名稱、地址、坐標(biāo)、類別四個(gè)屬性;源于基礎(chǔ)測繪成果DLG(Digital Line Graphic,數(shù)字線劃地圖)產(chǎn)品中點(diǎn)類地圖要素矢量數(shù)據(jù)集;在GIS(Geographic Information System,地理信息系統(tǒng))中指可以抽象成點(diǎn)進(jìn)行管理、分析和計(jì)算的對象。
國外對POI數(shù)據(jù)的研究主要通過用戶行為、社會(huì)影響、地理因素、時(shí)間因素等影響因素分析使用者的后續(xù)特征與行為。在提升POI數(shù)據(jù)預(yù)測準(zhǔn)確性方面,Liu[4]提出GT-BNMF(Geographical-Topical Bayesian Non-negative Matrix Factorization)模型,把潛在空間抓取觀察特征和話題事件的關(guān)聯(lián)與特征值聯(lián)系在一起。Lian D[5]構(gòu)建了地理因式矩陣法(Geographical? Modeling and Matrix Factorization, GEOMF),用投影梯度下降法解決邊界限制的最小平方問題和位置的稀疏性問題。Cheng C[6]為了獲取下一位置處的時(shí)間,提出factorized personalized Markov chains Localized Region(FPMCLR)模型,將POI預(yù)測時(shí)考慮周圍的柵格值縮減到9個(gè)。
國內(nèi)對POI數(shù)據(jù)的研究大部分是結(jié)合城市地理特征以及交通分布特征研究分析對應(yīng)的POI網(wǎng)絡(luò)。周海波[3]提出將滴滴打車的打車點(diǎn)和目的點(diǎn)數(shù)據(jù)與POI數(shù)據(jù)結(jié)合,拓展城市居民出行行為研究,對智能化網(wǎng)約車具有一定的參考價(jià)值。楊健[7]認(rèn)為POI數(shù)據(jù)是城市功能區(qū)識別的重要參考與補(bǔ)充,將POI數(shù)據(jù)與OSM路網(wǎng)劃分相結(jié)合,使城市分區(qū)更加合理。
POI聚類分析,核密度分析是了解城市功能區(qū)和旅客出行目的的重要手段。之前的研究大部分是圍繞POI數(shù)據(jù)的數(shù)量、密度進(jìn)行統(tǒng)計(jì)的,沒有考慮到不同類型POI數(shù)據(jù)之間的影響以及POI數(shù)據(jù)類型的不同。本文通過收集疫情背景下的POI數(shù)據(jù),并將疫情背景下的POI數(shù)據(jù)按照旅客出行目的進(jìn)行聚類,再進(jìn)行核密度分析,尋找具有不同出行目的的旅客的目的地的聚集區(qū)域,對防疫工作的高效開展有著一定的參考價(jià)值。
1? 數(shù)據(jù)來源與研究區(qū)域范圍
本文的數(shù)據(jù)來源于百度地圖2020年全年的興趣點(diǎn)(Point of Interest, POI)數(shù)據(jù),選擇其中西安市區(qū)域范圍內(nèi)約70萬條數(shù)據(jù)作為研究范圍。數(shù)據(jù)文件包含不同興趣點(diǎn)的名稱、類型、地址、郵政編碼所屬區(qū)域等多種屬性信息。通過對總體數(shù)據(jù)的初步篩選,把原始POI數(shù)據(jù)分為汽車服務(wù)、汽車銷售、餐飲服務(wù)、購物服務(wù)、體育休閑、住宿、風(fēng)景名勝等24大類。數(shù)據(jù)文件屬性釋義如表1所示。
2? POI數(shù)據(jù)出行目的分析
2.1 數(shù)據(jù)處理
本文利用網(wǎng)絡(luò)爬蟲技術(shù)獲取有效的信息,通過選取2020年西安市的百度地圖 POI(Point of Interest) 數(shù)據(jù),從娛樂出行、醫(yī)療出行、教育出行、辦事出行4個(gè)方面表征地出行目的的聚集點(diǎn)。通過查閱相關(guān)文獻(xiàn)[8]并結(jié)合疫情背景與西安市實(shí)際,本文選取以下POI數(shù)據(jù)點(diǎn)代表相應(yīng)的出行目的:其中表征娛樂出行的相關(guān)POI興趣點(diǎn),如餐飲服務(wù)、購物服務(wù)、風(fēng)景名勝、體育休閑服務(wù)、住宿服務(wù)等類別;表征醫(yī)療出行的相關(guān)POI興趣點(diǎn),包括醫(yī)療保健服務(wù)等類別;表征辦事出行的POI興趣點(diǎn)數(shù)據(jù)如公司企業(yè)、金融保險(xiǎn)服務(wù)、汽車服務(wù)、生活服務(wù)等類別;代表教育出行的POI興趣點(diǎn)數(shù)據(jù)包括科教文化等類別。上述每個(gè)大類中又包含若干個(gè)小類,如表2所示。
2.2 核密度估計(jì)分析
核密度估計(jì)(Kernel Density Estimation),由Rosenblatt(1955)和Emanuel Parzen(1962)提出,是概率統(tǒng)計(jì)中估計(jì)未知密度的函數(shù),屬于非參數(shù)檢驗(yàn)方法之一,核密度估計(jì)方法不利用有關(guān)數(shù)據(jù)分布的先驗(yàn)知識,對數(shù)據(jù)分布不附加任何假定,是一種從數(shù)據(jù)樣本本身出發(fā)研究數(shù)據(jù)分布特征的方法,因而在統(tǒng)計(jì)學(xué)理論和應(yīng)用領(lǐng)域均受到高度重視。在核密度分析中,每個(gè)點(diǎn)上方均覆蓋著一個(gè)平滑曲面,在點(diǎn)所在位置處表面值最高,隨著與點(diǎn)的距離的增大表面值逐漸減小,在與點(diǎn)的距離等于搜索半徑的位置處表面值為零,僅允許使用圓形鄰域,曲面與下方的平面所圍成的空間的體積等于此點(diǎn)的 Population 字段值,如果將此字段值指定為 NONE 則體積為 1。因此每個(gè)輸出柵格像元的密度均為疊加在柵格像元中心的所有核表面的值之和。如果擬合觀察點(diǎn)的方法為采用平滑的峰值函數(shù),并且根據(jù)點(diǎn)的真實(shí)概率分布進(jìn)行擬合、根據(jù)最近的數(shù)據(jù)點(diǎn)計(jì)算地理中觀測點(diǎn)數(shù)據(jù)分布特征,那么,數(shù)據(jù)不同點(diǎn)聚合越近,產(chǎn)生的密度值越大[9]。概率密度函數(shù)一般形成為:
其中Kernel()為核函數(shù)(不等于0、積分等于1,均值為0)。主要的核函數(shù)有uniform、normal、triangular、biweight等。w>0,平滑參數(shù),稱為帶寬。w越大,函數(shù)越尖銳,反之越平滑[10]。高斯核函數(shù)的表達(dá)式為:
表達(dá)式中,xcenter為核函數(shù)中心,x為不同類型POI數(shù)據(jù),ξ為函數(shù)的寬度參數(shù)。本文利用二次核函數(shù)(高斯核函數(shù)),核密度分析展現(xiàn)了數(shù)據(jù)的聚集狀況,本文使用核密度對2020年西安市POI數(shù)據(jù)進(jìn)行聚類,針對不同的旅客出行目的,具有不同的聚集區(qū)域。
核密度值代表被計(jì)算要素在其周圍鄰域中的密度,由于直接計(jì)算區(qū)域范圍內(nèi)不同類型興趣點(diǎn)數(shù)量,僅能夠反映區(qū)域范圍內(nèi)不同類型的興趣點(diǎn)密度,卻不能夠反映區(qū)域周邊一定空間范圍內(nèi)不同類型興趣點(diǎn)的密度信息[9],因此本文使用核密度值代表被計(jì)算要素在其周圍鄰域中的密度,其中某區(qū)域核密度的值越高,代表以某種相同目的前往該區(qū)域的聚集度越高。
本文利用POI數(shù)據(jù)分析需求分布的方法為:使用ArcGIS軟件,以不同類型POI數(shù)據(jù)點(diǎn)為基點(diǎn),設(shè)置輸出20m×20m的柵格,并以1000m為半徑設(shè)置核密度計(jì)算緩沖區(qū)計(jì)算四類出行目的的POI興趣點(diǎn)的核密度,并計(jì)算在范圍內(nèi)特定類型的POI 核密度值之和。本文選擇西安市市中心位置處的未央?yún)^(qū)、蓮湖區(qū)、新城區(qū)、碑林區(qū)、灞橋區(qū)、雁塔區(qū)和長安區(qū)進(jìn)行各類地理數(shù)據(jù)核密度之和的空間分布計(jì)算分析,如圖1所示。
如圖1所示,顏色由藍(lán)到紅代表了核密度之和從低到高,顏色越藍(lán)代表核密度之和越低,表示以此為目的地的人數(shù)越少;顏色越紅代表核密度之和越高,表示以此為目的地的人數(shù)越多。其中以醫(yī)療出行為目的的旅客的目的地主要集中在碑林區(qū)、蓮湖區(qū)東南部、新城區(qū)南部、雁塔區(qū)中部、灞橋區(qū)東部以及長安區(qū)靠近雁塔區(qū)的一小塊區(qū)域;以教育出行為目的的旅客的目的地主要集中在西安市中軸線附近、碑林區(qū)、雁塔區(qū)北部以及長安區(qū)北部的大學(xué)城附近;以辦事出行為目的的旅客的目的地主要集中在西安市中軸線附近、碑林區(qū)、蓮湖區(qū)與新城區(qū)南部、雁塔區(qū)北部以及未央?yún)^(qū)市政府附近;以娛樂出行為目的的旅客的目的地主要集中在蓮湖區(qū)東南部、新城區(qū)西南部、碑林區(qū)北部與中部、雁塔區(qū)北部靠近西安市中軸線附近以及長安區(qū)未央?yún)^(qū)灞橋區(qū)零星分布的區(qū)域,可以明顯地看出,同一目的的旅客所前往的區(qū)域有一定的聚集性,不同目的POI核密度高的地區(qū)分布也有一定差別。
縱觀四種不同出行目的核密度之和分布,各種出行目的的熱門聚集區(qū)域主要靠近地鐵站沿線分布,各種出行目的地的熱門聚集區(qū)域都包含碑林區(qū)以及其它各區(qū)與碑林區(qū)接壤的區(qū)域,經(jīng)過實(shí)地走訪與查閱相關(guān)地圖,碑林區(qū)主要是西安市城墻以內(nèi)的區(qū)域,其中包含了大量的熱門景點(diǎn)、著名商圈、省委省政府等政府機(jī)關(guān)以及多家三甲醫(yī)院等,是不同出行目的旅客的出行目的地,并且由于位于城市中心地區(qū),這些地區(qū)當(dāng)?shù)厝肆髁勘旧砭褪铸嫶?。因此,碑林區(qū)以及其它各區(qū)與其接壤部分由于外來人員多需要投放更多的防疫力量,嚴(yán)格落實(shí)各項(xiàng)防疫措施;其它各區(qū)域可參考本區(qū)域的不同類型POI核密度之和,可以構(gòu)建出旅客的畫像,以便更好地了解外來人員來到本區(qū)域的目的,并在疫情的環(huán)境下合理分配資源,提高防疫部門的精確性,從而及時(shí)高效地發(fā)現(xiàn)感染者并減少損失。
3? 結(jié)語
本文首先對原始POI數(shù)據(jù)進(jìn)行梳理與分類,根據(jù)旅客出行目的的不同聚類成4種POI數(shù)據(jù):娛樂出行、醫(yī)療出行、教育出行、辦事出行。然后使用核密度分析方法得到不同出行目的旅客的目的地聚集區(qū)域。本文通過分析發(fā)現(xiàn),不同出行目的的旅客的目的地聚集區(qū)域也有所差別,其中碑林區(qū)及各區(qū)與其接壤部分是各類旅客出行目的地的熱門集中區(qū)域,需要防疫部門重點(diǎn)關(guān)注。此外,旅客聚集的區(qū)域隨著出行目的的不同發(fā)生相應(yīng)的變化,結(jié)合POI的具體屬性可以更容易地總結(jié)出旅客的出行目的,更準(zhǔn)確地實(shí)現(xiàn)疫情背景下的旅客出行行為預(yù)測以及疫情的高效防控。
參考文獻(xiàn)
[1] 王家耀,武芳,郭建忠,等.時(shí)空大數(shù)據(jù)面臨的挑戰(zhàn)與機(jī)遇[J].測繪科學(xué), 2017,42(7):1-7.
[2] 詹慶明,范域立,張慧子,等.利用區(qū)域人群流動(dòng)和新興交通數(shù)據(jù)支持疫情防控[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2021,46(2):143-149,202.
[3] 周海波,魏延生,羅洪軍,等.基于感興趣點(diǎn)和滴滴數(shù)據(jù)的打車需求分析[J].地理信息世界,2019,26(2):60-66.
[4] LIU B, FU Y, YAO Z, et al.Learning Geographical Preferences for Point-of-Interest Recommendation[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2013:1043-1051.
[5] LIAN D, ZHAO C, XIE X, et al. GeoMF: Joint Geographical Modeling and Matrix Factorization for Point-of-Interest Recommendation[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining,2014:831-840.
[6] CHENG C, YANG H, LYU M R, et al. Where You Like to Go Next: Successive Point-of-Interest Recommendation[C]//International Joint Conference on Artificial Intelligence,2013.
[7] 楊健,李朝奎,劉彥.融合OSM路網(wǎng)數(shù)據(jù)與POI數(shù)據(jù)的城市功能區(qū)識別方法及其應(yīng)用[J].地理信息世界,2020,27(6):1-6,13.
[8] 張玲.POI的分類標(biāo)準(zhǔn)研究[J].測繪通報(bào),2012 (10):82-84.
[9] 趙鵬軍,曹毓書.基于多源地理大數(shù)據(jù)與機(jī)器學(xué)習(xí)的地鐵乘客出行目的識別方法[J].地球信息科學(xué)學(xué)報(bào),2020,22(9):1753-1765.
[10] 殷俊杰.基于深度學(xué)習(xí)的興趣點(diǎn)推薦系統(tǒng)研究[D].南京:南京郵電大學(xué),2020.