国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)在社會科學領域的應用探討
——基于POI 大數(shù)據(jù)的案例

2019-06-13 02:11:10巫細波
社科縱橫 2019年5期
關鍵詞:空間結構粵港澳大灣

巫細波

(廣州市社會科學院 廣東 廣州 510410)

隨著信息化、網(wǎng)絡化、智能化及物聯(lián)化的深入發(fā)展,各領域每時每刻都在產(chǎn)生大量數(shù)據(jù),有別于傳統(tǒng)的數(shù)據(jù),大數(shù)據(jù)具有5V(Volume、Velocity、Variety、Value、Veracity)特點[1],即數(shù)據(jù)量大、數(shù)據(jù)生成及處理速度快、數(shù)據(jù)類型多樣、價值密度較低、數(shù)據(jù)準確和可信賴。近年來,大數(shù)據(jù)已經(jīng)引起了國內(nèi)外學者的廣泛關注和研究,在邁爾-舍恩伯格和庫克耶合著的《“大數(shù)據(jù)”時代:生活、工作與思維方式的大變革》中指出大數(shù)據(jù)正在深刻改變經(jīng)濟生活的各領域[2],這本論著掀起了國內(nèi)外大數(shù)據(jù)研究熱潮并成為許多學科的熱點與主流[3][4][5],朱建平對大數(shù)據(jù)的分析理念進行了深入辨析[6],張慶熊(2015)、李天柱(2018)、周良發(fā)(2018)等學者則專門討論了大數(shù)據(jù)在人文社會科學領域的應用及發(fā)展趨勢[7][8][9][10]。隨著網(wǎng)絡地圖服務的快速興起和普及,POI 這種具有地理坐標度信息的數(shù)據(jù)逐漸成為一種社科研究的重要數(shù)據(jù)類型。POI 數(shù)據(jù)是人口、土地、經(jīng)濟、社會等城市主要要素相互作用的綜合體現(xiàn),集地理位置信息和功能分類信息于一體,與傳統(tǒng)數(shù)據(jù)相比較還具有規(guī)模大、覆蓋廣、類別多、易獲取、更新速度快等優(yōu)點,越來越得到用戶認可和青睞,也日益引起研究人員的重視[11][12][13]。與傳統(tǒng)基于城市用地類型劃分的城市功能結構研究不同,通過POI 數(shù)據(jù)識別和分析復雜多變的城市功能空間結構可大量節(jié)省實地調(diào)研的時間,而且能夠從宏觀、中觀及微觀多種尺度對城市空間結構開展分析,使得研究結果也顯得更為精細。一般而言,一個城市的POI 數(shù)據(jù)類型多樣而且數(shù)量非常龐大,以廣州為例,根據(jù)從高德地圖抓取的POI 數(shù)據(jù)量達到128 萬條(數(shù)據(jù)抓取時間為2017年7 月份),常用的Excel、Access、Stata、SPSS 等軟件難以直接處理這么大量的數(shù)據(jù),必須借助數(shù)據(jù)庫進行存儲和處理。對于大部分科研人員而言,免費而且功能足夠的強大的開源數(shù)據(jù)庫成為必然選擇,常用的開源數(shù)據(jù)軟件主要包括MySQL、PostgreSQL、SQLite 等,與商業(yè)數(shù)據(jù)庫相比還有一些差距(見表1)。本文以粵港澳大灣區(qū)的496 萬個POI 數(shù)據(jù)的存儲與分析處理為例,結合PostgreSQL開源數(shù)據(jù)庫探討社會科學大數(shù)據(jù)的處理與應用方法,同時采用空間核密度方法分析粵港澳大灣區(qū)城市空間結構現(xiàn)狀并總結其特征。

表1 主流數(shù)據(jù)庫優(yōu)缺點對比

一、研究數(shù)據(jù)與方法

(一)研究數(shù)據(jù)

POI 數(shù)據(jù)。一種能夠代表真實地理實體的點狀數(shù)據(jù),一般包含點要素的名稱、類別、經(jīng)緯度、電話、所在省市以及地址等基本信息,POI中的坐標數(shù)據(jù)一般為WGS84 地理投影坐標,涉及距離、面積等空間統(tǒng)計分析需要將地理坐標轉換為地圖投影坐標。本文采用的POI 數(shù)據(jù)通過第三方網(wǎng)絡數(shù)據(jù)爬蟲工具從高德地圖開放平臺獲取,數(shù)據(jù)獲取時間為2017 年8 月。借助POI 數(shù)據(jù)之所以能夠?qū)Τ鞘锌臻g結構開展研究關鍵在于每個POI 都是城市物質(zhì)空間中實際存在的一個點,大量POI 集聚分布在空間上形成連片區(qū)域,能夠反映城市功能空間布局特點,同時POI 數(shù)據(jù)還包括社會空間的各種屬性信息,而城市空間結構研究根據(jù)研究目的和對象的不同可以分為城市物質(zhì)空間和城市社會空間的研究,因而借助POI 數(shù)據(jù)可以同時從物質(zhì)空間和社會空間兩個維度研究城市空間結構的演化規(guī)律和各子系統(tǒng)的相互作用機制。高德地圖POI 原始數(shù)據(jù)共包含汽車銷售、餐飲服務購物服務、生活服務、體育休閑服務、醫(yī)療保健服務、住宿服務、風景名勝、商務住宅、政府機構及社會團體、科教文化服務、交通設施服務、金融保險服務、公司企業(yè)、道路附屬設施、地名地址信息、公共設施等23 大類數(shù)據(jù)類型,本文根據(jù)研究目標選取其中的19 類POI 數(shù)據(jù)展開分析,以粵港澳大灣區(qū)范圍內(nèi)的廣州、深圳、香港、佛山、澳門、惠州、肇慶、江門、東莞、中山、珠海等11 個地區(qū)的POI 數(shù)據(jù)為研究對象,POI 數(shù)據(jù)總量接近500 萬條(具體見表2)。限于篇幅限制,本文只對所有POI 數(shù)據(jù)展開總體分析,不對7 大細分類型展開分析。

表2 粵港澳大灣區(qū)七類POI 數(shù)據(jù)情況

(二)研究方法

1.大數(shù)據(jù)分析方法

由于采用數(shù)量龐大的POI 數(shù)據(jù)對粵港澳大灣區(qū)城市空間結構展開分析,傳統(tǒng)基于Excel、TXT、CSV 等文件系統(tǒng)的數(shù)據(jù)處理和分析方法已不可能勝任,必須借助大數(shù)據(jù)分析方法。大數(shù)據(jù)是一類復雜且龐大的數(shù)據(jù)集合,傳統(tǒng)的基于文件系統(tǒng)的數(shù)據(jù)管理工具或者應用已經(jīng)無法勝任其數(shù)據(jù)的處理工作,必須采用單機數(shù)據(jù)庫系統(tǒng)或者分布式網(wǎng)絡數(shù)據(jù)庫進行高效率存儲和數(shù)據(jù)傳輸,為各種數(shù)據(jù)分析提供強大的基本支撐。本文的POI 數(shù)據(jù)為500萬條級別,可以采用單機數(shù)據(jù)庫系統(tǒng)進行,本文采用PostgreSQL 數(shù)據(jù)庫系統(tǒng)(版本為10.4),作為免費而且功能強大的關系型數(shù)據(jù)庫系統(tǒng),非常適合用于社科研究人員開展各類基于大型數(shù)據(jù)的科學研究。

2.空間核密度分析方法

一種將離散數(shù)據(jù)進行空間平滑處理形成連續(xù)分布密度圖的方法,能夠有效地分析出離散數(shù)據(jù)的空間分布特征和趨勢,其計算公式如下:

公式(1)中,(fx)為空間位置x 處的核密度計算函數(shù);h 為距離衰減閾值,可以是固定值,也可以根據(jù)樣本進行計算或者是動態(tài)值,還可以根據(jù)點要素的屬性值進行加權計算;n 為與位置x 的距離小于或等于h 的要素點數(shù)(如果采用加權方法,此處n 則為要素屬性值的總數(shù));k 函數(shù)則表示空間權重函數(shù),一般是距離衰減函數(shù)。核密度計算公式的幾何意義為密度值在每個核心要素ci 處最大,并且在遠離ci 過程中不斷降低,直至與核心ci 的距離達到閾值h 時核密度值降為0。本文采用ArcGIS 軟件進行核密度計算,不采用加權處理,h值會根據(jù)樣本特征進行自動計算。核密度分析方法會產(chǎn)生柵格數(shù)據(jù),為顯示不同區(qū)域POI 數(shù)據(jù)密度差異需要對柵格數(shù)據(jù)進行分組分級,本文主要采用Jenks 自然斷裂法進行分組統(tǒng)計并顯示。

二、基于開源數(shù)據(jù)庫的大數(shù)據(jù)處理方法及步驟

(一)大數(shù)據(jù)分析基本流程

大數(shù)據(jù)的分析主要涉及到數(shù)據(jù)管理和結構支撐、開發(fā)模型和評測、可視化和用戶接口、商業(yè)模型等幾個方面,分析流程一般包括數(shù)據(jù)源、數(shù)據(jù)管理、數(shù)據(jù)建模和數(shù)據(jù)結果分析及可視化(見圖1)。大數(shù)據(jù)分析過程中最耗時和耗力的環(huán)節(jié)就是數(shù)據(jù)的準備階段,因此分析大規(guī)模的數(shù)據(jù)時必須考慮到數(shù)據(jù)存儲、過濾、移植和檢索的效率。此外,選擇何種數(shù)據(jù)庫也是必須考慮的重要問題,主要考慮應用場景、數(shù)據(jù)量及存儲方式、多用戶管理和并發(fā)性等問題??傮w而言,開源數(shù)據(jù)庫的功能也越來越強大,可以滿足絕大部分科研需求。以流行的開源數(shù)據(jù)庫為例,MySQL 易用性較強,主要應用于網(wǎng)絡應用;SQLite 則主要應用于數(shù)據(jù)較小、嵌入式終端而且不需要多用戶并發(fā)訪問數(shù)據(jù)的場景;PostgreSQL 支持完整的SQL 標準、社區(qū)活躍、更新持續(xù)而且對空間數(shù)據(jù)和空間計算支持較好,綜合而言非常適合社科人員使用,尤其適用于本文要處理的POI 數(shù)據(jù)。

(二)數(shù)據(jù)處理步驟

1.數(shù)據(jù)導入

數(shù)據(jù)庫數(shù)據(jù)導入方式一般包括使用SQL 命令、數(shù)據(jù)庫API 編程及圖形化工具等三種方式,圖形化工具比較適合社科領域研究人員采用,如果數(shù)據(jù)不規(guī)整需要整理則采用編程方式比較合適。本文使用的POI 數(shù)據(jù)為CSV 格式,這種格式數(shù)據(jù)可以用PostgreSQL 內(nèi)置的“copy”命令導入,效率高,適合熟悉SQL 語法的研究人員;還可以利用PostgreSQL 內(nèi)置的pgAdmin 可視化工具導入,步驟簡單而且支持中文,適合大部分社科領域的研究人員,本文也采用這種方式。此外,還可以借助Navicat 等第三方數(shù)據(jù)庫管理工具導入,可視化操作更加方便,但一般第三方軟件需要付費。如果需要反復進行大規(guī)模的地理空間查詢和分析,可直接借助PostgreSQL 的空間擴展模塊PostGIS 將POI 數(shù)據(jù)中的地理坐標信息存儲為Geometry 數(shù)據(jù)類型。

2.數(shù)據(jù)分類及合并

由于POI 數(shù)據(jù)源于地圖導航領域,其分類方式需要根據(jù)研究目的對數(shù)據(jù)進行多次分類整理,在不刪除原數(shù)據(jù)的情況下可采用視圖方式對數(shù)據(jù)進行分類檢索。本文以分析粵港澳大灣區(qū)城市空間結構為例,因此根據(jù)商業(yè)、產(chǎn)業(yè)、生活居住、政務辦公、科教文化、休閑、交通等7 大類對POI 數(shù)據(jù)進行分類合并處理,如果需要數(shù)據(jù)交換還可以將分類合并后的每一類POI 保存為視圖也可以導出為CSV 格式數(shù)據(jù),方便下一步分析。這里對不同區(qū)域不同類型POI 數(shù)據(jù)進行分類統(tǒng)計(見表3),每一次查詢都非常快,如果用以往基于文件系統(tǒng)的數(shù)據(jù)查詢方式,基本不可能實現(xiàn)。

3.數(shù)據(jù)分析

由于PostgreSQL 數(shù)據(jù)庫本身的空間統(tǒng)計與空間分析功能很弱,需要將POI 數(shù)據(jù)需要轉換才能夠為地理信息軟件處理(如ArcGIS、QGIS、MapGIS等地理信息軟件)。本文主要采用核密度方法,因此需要將POI 數(shù)據(jù)轉換為地圖投影坐標下的地理空間數(shù)據(jù)并用ArcGIS 進行核密度分析。

4.數(shù)據(jù)制圖

POI 數(shù)據(jù)可以通過多種地理信息軟件進行制圖,一般情況下地理制圖需要包括地圖內(nèi)容及地圖附件(指北針、比例尺、圖例等)。本文采用核密度方法對POI 大數(shù)據(jù)進行分析,其結果為柵格類型的圖并結合粵港澳大灣區(qū)行政邊界矢量數(shù)據(jù)進行顯示,可以非常清晰地展示POI 數(shù)據(jù)的空間密度分布情況。

三、基于POI 大數(shù)據(jù)的案例分析

限于篇幅限制,本文僅對粵港澳大灣區(qū)地區(qū)所有類型的POI 進行總體核密度分析,研究探討粵港澳大灣區(qū)各城市空間結構的總體空間布局特征,不單獨對7 大細分類型POI 展開分析。總體上看,相對于基于傳統(tǒng)統(tǒng)計數(shù)據(jù)的方法,基于POI 大數(shù)據(jù)的分析能夠更加清晰準確地識別出粵港澳大灣區(qū)城市空間結構的網(wǎng)絡化、多中心及空間連片化特征。

(一)城市功能空間整體上呈現(xiàn)高度集聚特征

總體上看,粵港澳大灣區(qū)絕大部分POI 分布于珠江兩岸,其中東岸POI 數(shù)量明顯大于西岸,外圍區(qū)域POI 數(shù)量較少而且集聚規(guī)模較小。從地區(qū)分布看,廣州和深圳兩地的POI 數(shù)量最多而且較為接近,占比均超過了20%,分別達到23.44%和21.39%。采用ArcGIS 軟件對粵港澳大灣區(qū)所有類型POI 進行核密度分析,結果顯示:廣州、深圳兩大城市主城區(qū)均形成了大規(guī)模的高密度集聚區(qū),香港九龍、東莞莞城、佛山禪城則形成了次級高密度集聚區(qū),惠州惠陽、珠海香洲、廣州花都及番禺、中山石岐、江門蓬江、肇慶端州等區(qū)域側形成更小規(guī)模的集聚區(qū)(見圖2)。

(二)多中心城市空間結構特征明顯

廣州、深圳、香港三大城市主城區(qū)是粵港澳大灣區(qū)城市空間的三大中心,各類城市功能POI均呈現(xiàn)高度集聚特征,對七類城市功能空間POI的數(shù)據(jù)分析均支持這一論斷,三大中心在不同領域具有比較優(yōu)勢。其中,廣州在政務辦公、科教文化、商業(yè)、交通等方面占有數(shù)量優(yōu)勢,是大灣區(qū)政治、文化、商業(yè)及交通功能空間的主要核心;深圳在產(chǎn)業(yè)、科技創(chuàng)新等城市功能空間占有相對優(yōu)勢,成為大灣區(qū)新興信息技術產(chǎn)業(yè)及產(chǎn)業(yè)科技創(chuàng)新的核心引擎;香港則在國際化功能空間、高等級科研空間等方面具有相對優(yōu)勢,是目前大灣區(qū)邁向全球化的重要窗口。

(三)城市空間等級化和網(wǎng)絡化特征顯著

粵港澳大灣區(qū)城市空間以廣州、深圳、香港三大城市主城區(qū)為中心,借助完善的公路、鐵路、水運及航空立體化交通網(wǎng)絡,大灣區(qū)其他城市圍繞這三個中心周圍形成等級化、網(wǎng)絡化特征明顯的城市空間結構,整個大灣區(qū)城市空間結構主從關系明確,核心城市突出,居于主導地位。其中,佛山禪城、東莞莞城、珠海香洲、中山石岐、江門蓬江、肇慶端州、廣州花都及番禺等區(qū)域形成大灣區(qū)次級中心區(qū)。東莞虎門及長安、惠州惠東、博羅及惠東、佛山三水及高明、廣州從化及增城、肇慶四會及高要、中山小欖與古鎮(zhèn)、珠海斗門等區(qū)域則形成三級中心城市;大灣區(qū)外圍區(qū)域則圍繞縣域中心形成各類POI 小規(guī)模集聚區(qū),成為大灣區(qū)城市網(wǎng)絡結構體系的重要節(jié)點城市,三大層次城市通過實體交通網(wǎng)絡與虛擬信息網(wǎng)絡形成體系層次分明、等級化、網(wǎng)絡化特征顯著的城市空間結構。

(四)城市功能空間連片化特征明顯

隨著珠三角城市一體化進程不斷深入發(fā)展,大灣區(qū)內(nèi)部各城市之間的各類經(jīng)濟活動與人員往來日益頻繁,各類城市功能空間POI 不但在各自城市行政邊界內(nèi)部形成POI 連片高密度集聚區(qū),也逐漸突破城市行政邊界制約,促使各類城市功能空間POI 在城市之間也逐漸形成了連片化高密度集聚區(qū),這種高密度連片化特征在生活居住空間、交通空間及產(chǎn)業(yè)空間等方面顯得尤為明顯,如廣佛、深莞之間的居住空間POI 連片化特征非常明顯。

結語

隨著物聯(lián)網(wǎng)及智能化時代的到來,社會科學領域的數(shù)據(jù)類型及數(shù)量快速增長,傳統(tǒng)基于文件型的數(shù)據(jù)存儲和處理方法已無法適用,常用的Excel、Access、Stata、SPSS 等軟件難以直接處理這么大量的數(shù)據(jù),必須借助數(shù)據(jù)庫進行存儲和處理。對于大部分科研人員而言,免費而且功能足夠的強大的開源數(shù)據(jù)庫成為必然選擇。本文以粵港澳大灣區(qū)的496 萬個POI 數(shù)據(jù)的存儲與分析處理為例,結合PostgreSQL 開源數(shù)據(jù)庫探討社會科學大數(shù)據(jù)的處理與應用方法。通過研究發(fā)現(xiàn):PostgreSQL 數(shù)據(jù)庫免費、易于適用、性能強大等特點使得非常易于社科研究人員使用,單機數(shù)據(jù)庫系統(tǒng)能夠輕松應付百萬級數(shù)據(jù)量;POI 大數(shù)據(jù)也將隨著網(wǎng)絡地圖服務的深入發(fā)展成為一種重要的社會科學研究數(shù)據(jù);根據(jù)POI 大數(shù)據(jù)的空間核密度分析可以發(fā)現(xiàn)粵港澳大灣區(qū)城市空間呈現(xiàn)高度集聚、多中心、等級化及功能空間連片化特征。如果數(shù)據(jù)量進一步增加以及需要整合跨網(wǎng)絡數(shù)據(jù)源,基于單機數(shù)據(jù)庫的大數(shù)據(jù)處理方法則需要更新改進,必須借助基于云計算的大數(shù)據(jù)方法,這有待下一步的研究探討。

猜你喜歡
空間結構粵港澳大灣
大咖論道:大灣區(qū)超級“極點”強勢崛起!
大灣區(qū)城市大洗牌
格絨追美小說敘事的空間結構
阿來研究(2020年1期)2020-10-28 08:10:22
大灣區(qū)的愛情故事
中國外匯(2019年12期)2019-10-10 07:27:02
編讀往來
首屆粵港澳大灣區(qū)工藝美術博覽會開幕
消費導刊(2018年20期)2018-10-19 08:22:26
摁下粵港澳大灣區(qū)“加速鍵”
金橋(2018年4期)2018-09-26 02:24:50
馬光遠 下一個30年看粵港澳大灣區(qū)
徐州安美固建筑空間結構有限公司
基于社會空間結構流變的統(tǒng)戰(zhàn)工作組織策略研究
嘉善县| 乐安县| 湖口县| 龙岩市| 临沂市| 南木林县| 张家界市| 凤庆县| 方山县| 滨州市| 宝鸡市| 崇礼县| 乌拉特后旗| 金塔县| 万年县| 遂川县| 翁源县| 乐业县| 兴宁市| 灌阳县| 辉县市| 凌源市| 山阳县| 宜都市| 怀来县| 揭东县| 鄂尔多斯市| 久治县| 岐山县| 通州市| 文昌市| 竹北市| 会昌县| 营山县| 丰原市| 苗栗市| 勃利县| 长宁县| 资兴市| 吉水县| 灯塔市|