国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于海量POI數(shù)據(jù)的城市小學教育資源信息的提取與分析

2016-08-02 03:29藍振家郭慶勝董慧娟
測繪工程 2016年10期
關(guān)鍵詞:數(shù)據(jù)挖掘

藍振家,郭慶勝,董慧娟,劉 晴,尹 航

(武漢大學 資源與環(huán)境科學學院,湖北 武漢 430070)

?

基于海量POI數(shù)據(jù)的城市小學教育資源信息的提取與分析

藍振家,郭慶勝,董慧娟,劉晴,尹航

(武漢大學 資源與環(huán)境科學學院,湖北 武漢 430070)

摘要:通過網(wǎng)絡(luò)爬蟲獲取海量POI數(shù)據(jù)具有巨大的應(yīng)用前景。文中利用改進后的兩步移動搜索法,計算居民區(qū)的教育資源可達性,評價以市為單位的小學教育資源的狀況,將各市的GDP與教育資源可達性進行相關(guān)性分析,評價各省經(jīng)濟發(fā)展與城市教育發(fā)展的相關(guān)程度,為政府部門提供決策依據(jù)。同時,研究POI數(shù)據(jù)的預(yù)處理方法和分類方法。

關(guān)鍵詞:POI;海量數(shù)據(jù);城市小學教育資源;可達性;數(shù)據(jù)挖掘

大數(shù)據(jù)在近幾年是一個熱門話題。大數(shù)據(jù)(bigdata)是體量巨大(volume)、多種多樣(variety)、高速變化(velocity)、真實質(zhì)差(veracity)、價值密度低(value)的復雜數(shù)據(jù)集合[1-3]。這種定義指出大數(shù)據(jù)最為核心的問題就是如何從規(guī)模巨大、種類繁多、生成快速的數(shù)據(jù)集中挖掘出有用的信息,進而轉(zhuǎn)變成知識,為用戶提供決策服務(wù),實現(xiàn)大數(shù)據(jù)的價值。大數(shù)據(jù)中約有80%的數(shù)據(jù)是與空間位置相關(guān)的[4]。POI的中文含義即興趣點,它沒有嚴格的定義。從地理編碼的角度理解,可以認為凡是對地點地理位置具有指示或標示作用的名稱都可以叫興趣點[5]。興趣點一般包含有名稱、經(jīng)緯度、地址等方面的信息,最大的特點是其中的位置信息[5]。但是,如何僅僅通過POI的位置信息挖掘出具有實際應(yīng)用價值的信息是目前POI應(yīng)用分析的難點。2012年國務(wù)院提出了關(guān)于推進義務(wù)教育均衡發(fā)展的意見,充分認識義務(wù)教育均衡發(fā)展的重要意義。小學教育是9年免費義務(wù)教育的重要一環(huán),對小學教育資源發(fā)展進行評價有著重要意義。

目前,國內(nèi)大部分小學教育資源的研究都針對小范圍內(nèi)的,陳瑩采用GIS技術(shù)分析了北京市宣武區(qū)中小學的均衡性發(fā)展以及空間布局[6];任若菡等利用改進后的兩步移動搜索法對重慶市黔江區(qū)的貧困區(qū)小學教育資源空間配置不合理等問題進行了研究[7];呂毅用GIS和可達性概念,對長沙市雨花區(qū)公立小學設(shè)施的供需現(xiàn)狀進行了分析,對可達性進行評估[8]。很少有針對大區(qū)域范圍內(nèi)的小學教育資源的狀況進行研究。為了滿足對大區(qū)域范圍內(nèi)的小學教育資源分布狀況的評價,本文將利用POI數(shù)據(jù)所包含的信息來挖掘小學教育資源的信息。

1分析方法與技術(shù)路線

小學服務(wù)半徑范圍內(nèi)交通點(公交站,地鐵站)的個數(shù)可以表征該所小學的便捷程度,個數(shù)愈多,便捷程度就越高。教育資源的可達性[6]是指學生從家(居民區(qū))到學校(教育資源)的方便程度,它可以反映學生可獲得的教育資源的多少。按照就近上學的原則,居民區(qū)出行距離范圍內(nèi)最近的小學的便捷程度可以作為居民區(qū)的教育資源可達性。POI數(shù)據(jù)是一種代表現(xiàn)實地理實體的點狀數(shù)據(jù),它可以代表交通點、小學、居民區(qū)甚至是占有一定面積的地理存在,通過海量POI數(shù)據(jù),可以獲取小學、居民區(qū)和交通點的分布情況以及位置關(guān)系信息,計算出便捷程度和教育資源可達性。網(wǎng)上獲取的POI主要是城市范圍內(nèi)的,對小學教育資源信息的分析與提取也是以城市為研究對象。

首先,根據(jù)國家的小學服務(wù)半徑標準,設(shè)定500m為服務(wù)半徑。根據(jù)陳瑩對北京宣武區(qū)教育服務(wù)區(qū)的劃分,當小學服務(wù)半徑取600m(路網(wǎng)距離)時,居民區(qū)被一所學校施教區(qū)覆蓋的比例最大[6],因此小學生出行距離設(shè)置為600m,從而獲得每一所居民區(qū)的教育資源可達性。然后,用ArcGIS的Join和summarize功能對所在市的相應(yīng)居民區(qū)的教育資源可達性求平均值,代表該市每一所居民區(qū)平均可獲得最近小學的便捷程度的多少,作為該市的教育資源可達性;用分級色彩的方式對各市教育資源可達性進行可視化,得到統(tǒng)計專題圖。利用相關(guān)系數(shù)的計算公式(見式(1))計算以省為單位的各個市2013年GDP與教育資源可達性的相關(guān)系數(shù),獲得相關(guān)系數(shù)表。

(1)

其中:σxy表示以省為單位的各市2013年GDP與教育資源可達性的協(xié)方差,σx表示以省為單位的各市2013年GDP的標準差,σy表示以省為單位的各市教育資源可達性的標準差。最后,分析統(tǒng)計專題圖與相關(guān)系數(shù)表,挖掘大區(qū)域范圍內(nèi)的城市小學教育信息。基于GIS和POI的城市小學教育資源分布狀況評價的技術(shù)流程如圖1所示。

圖1 技術(shù)流程

2海量POI數(shù)據(jù)的預(yù)處理

本實驗的POI原始數(shù)據(jù)來源于百度、圖吧、圖盟、騰訊等國內(nèi)主要大型地圖服務(wù)網(wǎng)站,經(jīng)加工處理后的標注總量為13 362 917條,包括全國范圍內(nèi)的24個省/市,成果為分省導出的shp文件,共計13.8G,整理日期為2014-02。每條POI點的記錄有8個字段,分別是FID、Shape、ID、name、X、Y、address、city。其中可用的信息包括name(名稱),X,Y(經(jīng)緯度坐標),address(地址),city(所在城市)。實驗需要的POI數(shù)據(jù)有以下要求:無奇異數(shù)據(jù)、無重復項、保持數(shù)據(jù)格式的一致性、建立統(tǒng)一的坐標系、確定統(tǒng)計單元以及POI點之間的距離是點位置間的歐式距離。針對POI數(shù)據(jù)的要求,做如下處理:

1)去除奇異點。對經(jīng)緯度按從小到大進行排序,刪除經(jīng)緯度不在研究區(qū)域內(nèi)的點。

2)去重處理。刪除名稱相同,經(jīng)緯度坐標相等的點。

3)格式規(guī)范化。對名稱和地址字段中存在的中英文括弧以及數(shù)據(jù)英文全、半角等格式不一致問題進行規(guī)范統(tǒng)一。

4)數(shù)據(jù)源的統(tǒng)一。POI數(shù)據(jù)地理坐標采用Beijing_1954,投影坐標系為蘭伯特投影 (China_Lambert_Conformal_Conic)與1∶400萬基礎(chǔ)地理信息要素坐標參考信息進行統(tǒng)一。

5)統(tǒng)計單元確定。研究對象以“市”為統(tǒng)計單元,將以“省”為單位的shp文件轉(zhuǎn)成以“市”為單位的shp。

6)平面坐標獲取。在ArcGIS中用“計算幾何”功能獲取POI點的平面坐標,利用POI點的平面坐標計算POI點之間的歐式距離。海量POI數(shù)據(jù)預(yù)處理的流程如圖2所示。

圖2 海量POI預(yù)處理流程

3城市小學教育資源數(shù)據(jù)的提取

實驗需要對海量POI數(shù)據(jù)進行分類并提取出小學類、交通點類,居民區(qū)類。POI標注的信息結(jié)構(gòu)主要包括名稱、坐標及地址3種信息。由于坐標信息不帶有文本描述屬性,不具有文本分類的作用[9],地址信息表征的是POI點的相對位置,不具有分類特征屬性,因此,將POI名稱作為分類的重要研究對象?,F(xiàn)階段,對于中文POI名稱分類的方法還比較少,劉曉娟提出一種基于Lucene的中文POI名稱的切分與匹配方法,羅安提出了一種基于角色標準的中文POI名稱語義分類方法等等[9-11],但都未做到完全正確的自動分類[12-14]。本實驗采取特征關(guān)鍵詞與POI名稱進行匹配的方法。例如小學類:名稱字段中包含“小學”字段的POI歸為小學一類。分類后的POI數(shù)據(jù)存在2類問題:①某類POI數(shù)據(jù)中存在其它類別;②重復性的問題,例如:“武漢市黃陂區(qū)前川街道第一小學”,“武漢市黃陂區(qū)前川街道第一小學(南門)”,“武漢市黃陂區(qū)前川街道第一小學(西南門)”,這3條POI數(shù)據(jù)都會是小學類,但是實驗只需要其中的一條數(shù)據(jù)。為保證實驗數(shù)據(jù)的準確性,采用人工交互的手段。3個類別特征關(guān)鍵詞的確定,由于國家對于POI分類沒有制定國家標準規(guī)范,因此采用的是企業(yè)標準,即天地圖有限公司2013年發(fā)布的天地圖POI數(shù)據(jù)分類編碼表。

4改進后的兩步移動搜索法

本文在傳統(tǒng)兩步移動搜索法[15]的基礎(chǔ)上,針對POI數(shù)據(jù)的特點和城市內(nèi)小學生多采取就近上學的原則,進行了兩方面的改進:①考慮到通過POI的位置信息來計算教育資源,將小學的便捷程度代替小學規(guī)模與人口的比值。②以居民區(qū)最近小學的教育資源代替居民區(qū)出行距離內(nèi)小學教育資源的和,來代表居民區(qū)的可達性指標。因此,改進后的兩步移動搜索法的第一步:以小學i為中心,以小學的服務(wù)范圍(d0)為半徑,建立搜尋域i,搜索所有在i距離閾值范圍內(nèi)的交通點m,作為該小學i的便捷程度,見公式(2)。

(2)

第二步:以任一居民區(qū)j為中心,以小學生的上學出行距離(d1)為半徑,建立搜索域j,查找搜尋域內(nèi)所有的小學,選擇評價可達性指標。傳統(tǒng)的是以搜索范圍內(nèi)學校便捷程度的和(見式(3))作為可達性指標,改進后的則是以搜索范圍內(nèi)最近的學校的便捷程度來代表居民區(qū)的可達性。

(3)

5實驗結(jié)果與分析

實驗數(shù)據(jù)有:①預(yù)處理和提取后的山東省、江蘇省、浙江省、福建省以及廣東省東部地區(qū)5個省份的POI數(shù)據(jù)。②1∶400萬基礎(chǔ)地理信息要素。1∶400萬基礎(chǔ)地理信息要素是國家測繪部門公開的數(shù)據(jù),包括國界、省界、縣界、地州界、主要公路、主要河流、主要鐵路、主要湖泊、省級行政區(qū)和省會城市,以及經(jīng)緯網(wǎng),可以作為地理分析結(jié)果可視化的底圖。③2013年全國各市GDP,來源于各地方統(tǒng)計局和宜居城市研究室。

圖3 東部地區(qū)5省城市小學教育資源可達性統(tǒng)計圖

圖3為東部地區(qū)5省小學教育資源可達性的統(tǒng)計專題圖。根據(jù)計算結(jié)果,可達性小于1為低,介于1到2為合格,介于2到5為較高,大于5的為高,將可達性分為4個等級:高、較高、合格、低。由圖3分析可知:東部地區(qū)5省的省會城市除廣州以外,教育資源可達性至少為較高;東部地區(qū)5省大部分城市的教育資源可達性都在合格線以上,只有9個城市的教育資源可達性為低。

以浙江省為例說明各市GDP與教育資源可達性的相關(guān)系數(shù)的計算,如表1所示。東部地區(qū)5省所在市GDP與教育資源可達性相關(guān)系數(shù)如表2所示。

表1 浙江省各市GDP與教育資源可達性以及全省的相關(guān)系數(shù)

表2 各省所在市GDP與教育資源可達性的相關(guān)系數(shù)

相關(guān)程度的劃分:r>0,為正相關(guān);r<0,為負相關(guān)。當|r|≥0.8時,為高度相關(guān);當0.5≤|r|<0.8時,可視為中度相關(guān);當0.3≤|r|<0.5時,視為低度相關(guān);當|r|<0.3時,說明兩個變量之間的相關(guān)程度極弱。由表1和表2分析可知:

1)山東省的各市GDP與教育資源可達性的相關(guān)系數(shù)介于0.5~0.8,為中度正相關(guān),說明山東省的經(jīng)濟發(fā)展促進了城市小學教育的發(fā)展,當?shù)卣畱?yīng)在保持對城市小學教育經(jīng)濟投入的基礎(chǔ)上,更注重教育投入質(zhì)量。

2)廣東省的各市GDP與教育資源可達性的相關(guān)程度為弱負相關(guān),說明當?shù)卣畬πW教育不夠重視,應(yīng)根據(jù)地區(qū)的實際情況加大對城市小學教育的投入。

3)江蘇省、福建省以及浙江省3個省份的各市GDP與教育資源可達性的相關(guān)程度為低度正相關(guān)或弱正相關(guān),說明這些省份的經(jīng)濟發(fā)展對城市小學教育的影響較小。當?shù)卣块T應(yīng)根據(jù)實際的狀況調(diào)整對城市小學教育的投入。

6結(jié)束語

本文從海量POI數(shù)據(jù)的預(yù)處理,到數(shù)據(jù)的計算,最后到數(shù)據(jù)的可視化與分析,實現(xiàn)了從海量POI數(shù)據(jù)中,通過統(tǒng)計專題圖和圖表的形式,評價大區(qū)域范圍內(nèi)城市小學教育資源的可達性,經(jīng)濟與城市小學教育發(fā)展的相關(guān)程度,以及提取城市小學教育資源的信息,從而驗證了實驗方法的可行性。POI數(shù)據(jù)覆蓋的范圍非常廣,除了教育方面的應(yīng)用,還可以應(yīng)用在公共安全、公共醫(yī)療以及城市規(guī)劃等政府關(guān)切的領(lǐng)域。 總的來說,本文對海量POI數(shù)據(jù)信息的挖掘有一定的參考價值,對于海量POI數(shù)據(jù)的應(yīng)用有一定的啟示。

參考文獻:

[1]UNITEDNATIONSGLOBALPULSE.2012,BigDataforDevelopment:Challenges&Opportunities[R].2012.

[2]MCKINSEYGLOBALINSTITUTE.2011BigDatatheNextFrontierforInnovation,Competition,andProductivity[R].2011.

[3]GANTZJ,REINSELD.Extractingvaluefromchaos.IDCiView,2011:1-12.

[4]王樹良,丁剛毅,鐘鳴.大數(shù)據(jù)下的空間數(shù)據(jù)挖掘思考[J].中國電子科學研究院學報,2013,8(1):8-17.

[5]龍軍.基于角色標注的中文POI名稱匹配的研究及原型系統(tǒng)實現(xiàn)[D].重慶:西南大學,2008.

[6]陳瑩.基于GIS的基礎(chǔ)教育資源空間布局研究[D].北京:首都師范大學,2008.

[7]任若菡,王艷慧,何政偉,等.基于改進的兩步移動搜索法的貧困區(qū)小學教育資源可達性分析——以重慶市黔江區(qū)為例[J].地理信息世界,2014(2):22-28.

[8]呂毅.城市小學??蛇_性評價——以長沙市雨花區(qū)為例[D].武漢:武漢大學,2005.

[9]羅安,王勇,張福浩,等.基于角色標準的中文POI名稱語義分類方法[J].測繪通報,2012(S1):521-524.

[10] 張玲.POI的分類標準研究[J].測繪通報,2012(10):82-84.

[11] 劉曉娟.基于Lucene的中文興趣點名稱的切分與匹配研究[J].電腦知識與技術(shù),2011,7(21):5144-5146.

[12] 陳香,李曉明,詹然,等.從城市興趣點中提取多層次地標方法探究[J].測繪與空間地理信息,2015,38(10):129-132.

[13] 陳睿嘉,康志忠,張衛(wèi)濤.基于網(wǎng)絡(luò)爬蟲的導航深度服務(wù)信息自動采集[J].測繪工程,2015,24(1):17-24.

[14] 姚靜.基于ArcGIS的大比例尺矢量電子地圖制圖研究[J].測繪與空間地理信息,2015,38(6):135-136,139.

[15]RADKEJ,MULan.SpatialDecompositions,ModelingandMappingServiceRegionstoPredictAccesstoSocialPrograms[J].GeographicInformationSciences,2000,6(2):105-112.

[責任編輯:劉文霞]

DOI:10.19349/j.cnki.issn1006-7949.2016.10.012

收稿日期:2015-05-26;修回日期:2015-10-26

基金項目:國家863計劃資助項目(2012AA12A402);國家自然科學基金資助項目(41471384;41171350;41071289)

作者簡介:藍振家(1991-),男,碩士研究生.

中圖分類號:P208

文獻標識碼:A

文章編號:1006-7949(2016)10-0059-05

Extraction and analysis of urban primary educational resource information based on massive POI data

LAN Zhenjia,GUO Qingsheng,DONG Huijuan,LIU Qing,YIN Hang

(SchoolofResourceandEnvironmentalSciences,WuhanUniversity,Wuhan430070,China)

Abstract:The massive POI data acquired from the web crawler has a great prospect of application.This paper calculates the educational resource accessibility of every residential area by means of improved two-step floating catchment area method.Then,the situation of the primary education resource in one city and the relevance between the provincial economic development and urban educational development are evaluated through analyzing the relationship between GDP and education resource accessibility.These achievements provide a decision-making basis for the government.Meanwhile,the methods of preprocessing and classifying the POI data are presented.

Key words:POI;mass data;urban primary educational resources;accessibility;data mining

猜你喜歡
數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于事故數(shù)據(jù)挖掘的AEB路口測試場景
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于數(shù)據(jù)挖掘的學業(yè)預(yù)警模型構(gòu)建
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
人工智能推理引擎在微博數(shù)據(jù)挖掘中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐