王強,丁恩俊,劉愿理
1.西南大學 圖書館, 重慶 400715 ; 2.重慶工商大學 工商管理學院, 重慶 400067
大數(shù)據(jù)、云時代的到來為地理科學研究提供了新的機遇和挑戰(zhàn). 1999年中國科學院聯(lián)合19個部委主持召開國際數(shù)字地球會議, 2019年, 國際數(shù)字地球?qū)W會中國國家委員會在北京召開“首屆中國數(shù)字地球大會”, 中國科學院地理科學與資源研究所建立了多個國家級野外觀測研究網(wǎng)絡和科學數(shù)據(jù)中心[1]. GoodChild[2]于2012年發(fā)表論文“Next-generation Digital Earth”, 程昌秀等[3]指出大數(shù)據(jù)對地理學的研究方法、研究進展提供了新的挑戰(zhàn)和機遇, 王戈飛等[4]利用相關數(shù)據(jù)對大規(guī)劃、地理信息系統(tǒng)、地理信息產(chǎn)業(yè)發(fā)展等領域進行了分析研究. 綜上, 這些研究從某種程度上說明數(shù)據(jù)在地理科學研究領域扮演著不可或缺的角色.
數(shù)據(jù)已被廣泛應用于教學科研、管理、生產(chǎn)生活的方方面面, 科學合理地使用數(shù)據(jù)對提高科研水平、推進創(chuàng)新等具有重要作用. 如, 在教育研究領域, 張穎超[5]就大數(shù)據(jù)對高等教育發(fā)展影響進行了系統(tǒng)的分析; 任一明等[6]指出大數(shù)據(jù)對高等教育的研究、創(chuàng)新、發(fā)展發(fā)揮著巨大的影響. 在哲學研究領域, 黃欣榮[7]研究發(fā)現(xiàn), 數(shù)據(jù)將成為科學研究的新對象, 大數(shù)據(jù)可能帶來科學研究范式的變革, 數(shù)據(jù)解釋將成為科學說明的新模式; 董艷麗[8]對大數(shù)據(jù)所涉及的哲學內(nèi)涵進行挖掘. 在經(jīng)濟學領域, 麥肯錫研究機構(gòu)肯定了大數(shù)據(jù)對于提升各個商業(yè)領域價值創(chuàng)造力的巨大潛能, 世界經(jīng)濟論壇甚至將大數(shù)據(jù)定義為類似于黃金或貨幣一樣的新經(jīng)濟資產(chǎn), 李國杰等[9]指出, 在未來科技及經(jīng)濟社會發(fā)展進程中, 大數(shù)據(jù)將扮演重要角色. 在地理學科領域, 楊振山等[10]與甄峰等[11]指出, 大數(shù)據(jù)的發(fā)展對完善人文—經(jīng)濟地理學學科思維和研究方法將起到積極的推動作用; 馬振剛等[12]研究了自然地理學的大數(shù)據(jù)源及相關變革; 裴韜等[13]揭示了地理大數(shù)據(jù)的本質(zhì)特點, 對地理大數(shù)據(jù)挖掘方法進行了分類.
綜上研究大多是從如何利用數(shù)據(jù)以及如何應對大數(shù)據(jù)對學科發(fā)展帶來的機遇、挑戰(zhàn)等方面進行研究, 而基于文獻內(nèi)容計量學分析視角, 系統(tǒng)梳理某一學科領域內(nèi)數(shù)據(jù)來源的識別、歸類及應用特征的文獻較少. 基于此, 本文采用文獻分析計量與編碼相結(jié)合的方法對地理學研究領域中的數(shù)據(jù)名稱進行識別、分類, 探索這些數(shù)據(jù)獲取方式以及在地理學科領域中的應用特征, 以期為地理學學科發(fā)展及相關研究提供參考.
本文選取同時被中國社會科學引文索引(CSSCI)、中國科學引文數(shù)據(jù)庫(CSCD)收錄, 且具有較好代表性的《地理學報》《地理科學》《地理研究》《地理科學進展》和《經(jīng)濟地理》5種期刊2000年以來發(fā)表的所有論文為樣本, 采用人工編碼與數(shù)據(jù)抽取相結(jié)合的方法對這些論文所使用的數(shù)據(jù)進行標識、分類, 探究地理學科領域數(shù)據(jù)獲取方式及應用特征.
在中國知網(wǎng)(CNKI)檢索獲取上文所述5種地理學核心期刊刊載的中文文獻的題錄信息, 包括題名、作者、關鍵詞、摘要、發(fā)表時間等, 采用高級檢索方式進行檢索, 檢索式為: 文獻來源= (地理學報 + 地理科學 + 地理研究 + 地理科學進展 + 經(jīng)濟地理); 檢索時間跨度為2000年1月1日至2021年12月31日. 共獲取文獻24 974篇, 剔除圖書推介、刊物簡介、會議紀要、講話、通知、賀詞等文章, 共獲取可編碼文獻24 903篇.
第一步, 因文獻題錄信息總數(shù)據(jù)量較大, 由2名編碼人員在充分熟悉編碼方案后, 采用人工編碼和自動抽取相結(jié)合的方式對數(shù)據(jù)名稱進行編碼, 在參考地理科學研究常用數(shù)據(jù)相關文獻的基礎上[14-16], 對所獲取的題錄信息按照編碼方案進行識別、統(tǒng)計分析, 具體的編碼方案見表1至表3, 主要處理步驟如下.
由2名編碼人員對選取的《地理學報》所載的6 037篇論文進行人工編碼, 通過進一步討論形成數(shù)據(jù)名稱詞集合, 編碼完成后對編碼結(jié)果進行信度檢驗, 使用編碼交互判別信度K計算編碼的一致性[17].
第二步, 使用Visual Basic對數(shù)據(jù)名稱詞集合與題錄信息內(nèi)容進行自動識別匹配, 若數(shù)據(jù)名稱集合中的詞與題名、關鍵詞及摘要等內(nèi)容的詞實現(xiàn)完全匹配, 則對該文獻自動編碼, 形成自動編碼的數(shù)據(jù)名稱數(shù)據(jù)集.
第三步, 對于利用數(shù)據(jù)名稱集合無法自動識別編碼的文獻, 采用人工編碼的方式完成文獻的編碼. 最后, 對每類數(shù)據(jù)名稱的出現(xiàn)頻次進行統(tǒng)計分析.
3.1.1 人文地理學
人文地理類數(shù)據(jù)來源主要類別有經(jīng)濟地理、人口地理、娛樂地理、城市地理、交通地理. 統(tǒng)計發(fā)現(xiàn), 出現(xiàn)頻次前10的數(shù)據(jù)名稱有就業(yè)類數(shù)據(jù)、產(chǎn)業(yè)企業(yè)類數(shù)據(jù)、貿(mào)易數(shù)據(jù)、交易消費數(shù)據(jù)、人口統(tǒng)計類數(shù)據(jù)、旅游數(shù)據(jù)、房價地價類數(shù)據(jù)、快遞物流數(shù)據(jù)、客運貨運數(shù)據(jù)、經(jīng)濟狀態(tài)類統(tǒng)計數(shù)據(jù). 從以上統(tǒng)計數(shù)據(jù)及表1可知, 人文地理類數(shù)據(jù)品目種類多、來源豐富, 且與人類生產(chǎn)生活密切相關.
3.1.2 自然地理學
自然地理學數(shù)據(jù)來源類別主要有大氣候、地形地貌、水文、植物地理, 由于自然地理學本身更加注重自然地理環(huán)境的組成、形成發(fā)展及空間分異規(guī)律研究, 出現(xiàn)頻次較高的數(shù)據(jù)有溫度氣溫類數(shù)據(jù)、氣候氣象類數(shù)據(jù)、水汽溫度類數(shù)據(jù)、地表河流地形類數(shù)據(jù)、水土水沙類數(shù)據(jù)、水質(zhì)水位數(shù)據(jù)、降水降雨類數(shù)據(jù)、森林植被類數(shù)據(jù). 從以上統(tǒng)計數(shù)據(jù)及表2來看, 自然地理環(huán)境要素與人類活動的關系越密切, 就越容易受到關注, 相關的研究及數(shù)據(jù)也會越多, 如氣溫溫度、氣候氣象、水位水質(zhì)等.
表1 人文地理學數(shù)據(jù)識別及歸類
表2 自然地理學數(shù)據(jù)識別及歸類
3.1.3 地理信息科學及其他
對識別出的地理信息科學數(shù)據(jù)名稱進行統(tǒng)計分析發(fā)現(xiàn), 其數(shù)據(jù)來源主要類別有環(huán)境地理、農(nóng)業(yè)地理、人地關系、能源、衛(wèi)星遙感、位置定位等, 出現(xiàn)頻次靠前的數(shù)據(jù)名稱有空氣質(zhì)量類數(shù)據(jù)、氣體排放類數(shù)據(jù)、農(nóng)作物類數(shù)據(jù)、土地利用變更類數(shù)據(jù)、能源資源類數(shù)據(jù)、衛(wèi)星遙感類數(shù)據(jù)、位置定位類數(shù)據(jù). 從以上統(tǒng)計數(shù)據(jù)及表3來看, 地理信息科學數(shù)據(jù)品目種類多, 與人類生產(chǎn)、生活相關的數(shù)據(jù)出現(xiàn)頻次較高, 數(shù)據(jù)獲取的方式有衛(wèi)星遙感、圖像攝像、數(shù)據(jù)庫、網(wǎng)絡平臺.
表3 地理信息科學及其他數(shù)據(jù)識別及歸類
續(xù)表3 地理信息科學及其他數(shù)據(jù)識別及歸類
3.2.1 高頻使用數(shù)據(jù)類型
對樣本期刊所刊載的789種數(shù)據(jù)類型名稱在論文中的分布情況進行統(tǒng)計發(fā)現(xiàn), 約33.2%的數(shù)據(jù)類型僅被1篇論文使用, 30.1%數(shù)據(jù)類型被5篇或5篇以上的論文使用. 依據(jù)使用頻次統(tǒng)計, 地理學使用頻次靠前的數(shù)據(jù)名稱有面板數(shù)據(jù)、遙感影像、調(diào)查數(shù)據(jù)、TM數(shù)據(jù)、空間數(shù)據(jù)、遙感數(shù)據(jù)、Landsat數(shù)據(jù)、NDVI數(shù)據(jù)、人口普查數(shù)據(jù)、MODIS數(shù)據(jù)、觀測數(shù)據(jù)、土地利用數(shù)據(jù)、歷史文獻數(shù)據(jù)、POI數(shù)據(jù)、ETM數(shù)據(jù)、氣象數(shù)據(jù)、影像數(shù)據(jù)、降水數(shù)據(jù)、企業(yè)數(shù)據(jù)、DEM數(shù)據(jù)、人口數(shù)據(jù)、統(tǒng)計年鑒、實測數(shù)據(jù)、監(jiān)測數(shù)據(jù)、氣溫資料、SPOT數(shù)據(jù)、百度數(shù)據(jù)、夜間燈光數(shù)據(jù).
3.2.2 高頻使用數(shù)據(jù)聚焦主題
利用CiteSpace 軟件對地理學高頻使用數(shù)據(jù)的文獻研究主題進行聚類分析發(fā)現(xiàn), 地理學高頻使用數(shù)據(jù)的文獻研究主題主要聚焦于土地利用、時空分異、青藏高原、長江經(jīng)濟帶、房價、經(jīng)濟貿(mào)易、社會經(jīng)濟、旅游、交通出行、快遞物流、人口地理、能源資源、位置定位、氣候氣象、氣溫降水等.
3.3.1 WOS與CNKI等數(shù)據(jù)庫
地理科學研究常用的國內(nèi)外商業(yè)數(shù)據(jù)庫有CNKI、萬方、維普、CSSCI、WOS、SSCI、JCR. 有學者根據(jù)研究需要, 自建某專題類數(shù)據(jù)庫/集, 如中國科學院張生瑞等[19]構(gòu)建了全國跨省界自然地理實體地名數(shù)據(jù)庫, 中國旅游研究院蔣依依等[20]構(gòu)建了2001-2015年中國出境游客與目的地入境游客規(guī)模數(shù)據(jù)庫.
3.3.2 政府職能部門官方網(wǎng)站
官方網(wǎng)站數(shù)據(jù)主要為政府各職能部門、各行業(yè)類官方統(tǒng)計數(shù)據(jù), 常見的有住房和城鄉(xiāng)建設部、農(nóng)業(yè)農(nóng)村部、自然資源部、海關、氣象局、企業(yè)類官方數(shù)據(jù). 例如, 選取國家氣象信息中心發(fā)布的數(shù)據(jù)分析中國常年氣候季節(jié)空間變化[21], 利用住房和城鄉(xiāng)建設部發(fā)布的數(shù)據(jù)分析中國小城鎮(zhèn)鎮(zhèn)區(qū)土地利用結(jié)構(gòu)特征[22], 利用中國能源統(tǒng)計年鑒發(fā)布的數(shù)據(jù)構(gòu)建能源消耗空間格局預測模型[23].
3.3.3 百度和騰訊等企業(yè)平臺
常見的企業(yè)平臺有百度、騰訊、美團、餓了么、中國移動、高德地圖、攜程. 劉海洋等[24]基于騰訊人口遷徙大數(shù)據(jù)研究了黃河流域城市聯(lián)系網(wǎng)絡格局; 彭詩堯等[25]利用百度地圖POI數(shù)據(jù)分析軌道交通客流的空間特征; 丁亮等[26]基于移動通信用戶的個體移動軌跡數(shù)據(jù), 驗證多中心城市引力模型.
3.3.4 調(diào)研實測
調(diào)研實測是獲取地理學數(shù)據(jù)最重要的基本方法, 可直接收集第一手資料. 例如, 宋昊澤等[27]根據(jù)野外實測數(shù)據(jù)和小型無人機所攝地景影像, 采用地形數(shù)字化方法提取地貌原始數(shù)據(jù), 分析描述羅布泊地區(qū)雅丹形態(tài)特征及演化過程; 李佳等[28]通過實地調(diào)查和訪談獲取數(shù)據(jù)分析了旅游社會—生態(tài)系統(tǒng)的內(nèi)部運行機制; 王澤東等[29]基于山東省124個高校校區(qū)的調(diào)研數(shù)據(jù), 對高等教育用地的時空演化特征進行了系統(tǒng)闡述.
3.3.5 衛(wèi)星遙感
地域性、空間性是地理學科重要特征, 衛(wèi)星遙感技術是獲取該類數(shù)據(jù)的重要方式. 例如, 劉紀遠等[30]基于遙感數(shù)據(jù)分析了中國城鄉(xiāng)建設用地擴張時空特征; 范科科等[31]基于衛(wèi)星遙感數(shù)據(jù)對青藏高原土壤濕度數(shù)據(jù)進行了評估; 劉睿等[32]基于環(huán)境減災衛(wèi)星CCD數(shù)據(jù)對呼倫貝爾地區(qū)植被分類進行了研究.
3.4.1 人文地理類數(shù)據(jù)更豐富
對識別出的數(shù)據(jù)名稱進行統(tǒng)計發(fā)現(xiàn), 地理信息科學數(shù)據(jù)的種類較多, 尤以人文地理類數(shù)據(jù)種類最豐富、數(shù)量最多. 人文地理、地理信息科學類數(shù)據(jù)與其他學科的交叉性、融合性更強, 其所涉及的學科面更廣、更豐富.
3.4.2 數(shù)據(jù)獲取方式及載體形式趨向多樣化、現(xiàn)代化
數(shù)據(jù)信息的獲取方式及載體形式更加多樣化、現(xiàn)代化. 統(tǒng)計發(fā)現(xiàn), 地理類數(shù)據(jù)主要獲取方式有調(diào)研實測、官方網(wǎng)站、商業(yè)數(shù)據(jù)庫、衛(wèi)星遙感、手機APP、企業(yè)平臺等. 近年, 通過手機APP、衛(wèi)星遙感、大數(shù)據(jù)等現(xiàn)代化手段獲取數(shù)據(jù)的方式越來越多. 數(shù)據(jù)的載體形式主要有圖書、期刊論文、學位論文、會議論文、圖片影像、地圖、古籍歷史資料、報紙報告、專利、統(tǒng)計年鑒、遙感軟件等, 近年來, 數(shù)據(jù)載體類型有由紙本化向電子化、數(shù)字化轉(zhuǎn)變的趨勢.
3.4.3 與人類社會活動密切相關
對識別出的數(shù)據(jù)統(tǒng)計分析發(fā)現(xiàn), 數(shù)據(jù)內(nèi)容與人類生產(chǎn)、生活密切相關, 如天氣預報(氣候氣象)、吃喝歡樂(糧食、旅游等)、衣食住行(房價、交通等)、醫(yī)療教育等, 這些事物的空間性、地域性都是地理學科研究領域涉及的范圍, 也是由地理學學科特性的綜合性、社會性所決定.
3.4.4 時代性特征明顯
時代性特征明顯. 無論是數(shù)據(jù)內(nèi)容的研究主題, 還是數(shù)據(jù)獲取方式、載體形式都隨著時代的進步而發(fā)展, 體現(xiàn)出鮮明的時代性特征. 數(shù)據(jù)研究主題與時俱進, 如快遞物流、空氣質(zhì)量、環(huán)境污染、城市房價、交通出行、POI等; 數(shù)據(jù)獲取方式、載體形式亦是如此, 數(shù)據(jù)獲取遠程化、現(xiàn)代化, 數(shù)據(jù)載體電子化、現(xiàn)代化, 如無人機、遙感衛(wèi)星、GIS軟件、電子書刊等.
本文研究發(fā)現(xiàn), 地理學研究高頻使用的數(shù)據(jù)有經(jīng)濟人口數(shù)據(jù)、遙感影像、空間數(shù)據(jù)、調(diào)查數(shù)據(jù)、城市及旅游類數(shù)據(jù)等; 高頻數(shù)據(jù)文獻聚焦主題于時空分異、經(jīng)濟貿(mào)易、青藏高原、長江經(jīng)濟帶、旅游交通、位置定位、氣溫降水等; 數(shù)據(jù)獲取方式主要有數(shù)據(jù)庫、官方數(shù)據(jù)網(wǎng)站、企業(yè)、調(diào)研實測和衛(wèi)星遙感; 數(shù)據(jù)特征為人文地理類數(shù)據(jù)更豐富, 數(shù)據(jù)獲取方式及載體形式現(xiàn)代化, 數(shù)據(jù)內(nèi)容與人類社會活動密切相關, 時代性特征明顯.
對地理學研究領域數(shù)據(jù)的識別及應用特征的分析, 既有利于結(jié)合社會實踐, 解決實際問題, 也利于推動地理學理論與技術、方法的不斷創(chuàng)新, 對地理學研究具有重要的現(xiàn)實意義.