余吳浩淼,劉 倫,曾繁如,高雪松,田兆楠,陳 卓
(1.四川農業(yè)大學資源學院,成都 611130; 2.北京大學政府管理學院,北京 100871; 3. 四川水利職業(yè)技術學院,成都 611800)
【研究意義】通信基建與電子設備的普及使得運用大數(shù)據(jù)研究“三農”問題成為可能。大數(shù)據(jù)作為新的數(shù)據(jù)來源,為“三農”問題研究提供了新的研究方式。因此,總結分析基于大數(shù)據(jù)應用的“三農”問題研究現(xiàn)狀,對于了解該領域研究重點與未來方向具有重要意義。【前人研究進展】隨著信息技術和物聯(lián)網(wǎng)技術的發(fā)展與普及,人類社會產生的數(shù)據(jù)量呈現(xiàn)出爆炸性增長的趨勢。這種大容量、多樣性、綜合性的數(shù)據(jù)流改變了人們的生活方式,也成為了科學研究的關注熱點[1]。相比于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)在內容上呈現(xiàn)出樣本量大、動態(tài)實時、詳細微觀等特點,為解決現(xiàn)實問題提供了新的方向[2]。由于其特征與區(qū)域問題的解決有緊密的關聯(lián),大數(shù)據(jù)在近十年來被大量引入城市區(qū)域研究領域,國內外學者已經(jīng)在居民時空行為[3]、城市功能分區(qū)[4]、城市空間聯(lián)系[5]及智慧城市建設[6]等方面取得了進展。然而,針對于與城市相對應的農村區(qū)域,受限于數(shù)據(jù)覆蓋率與數(shù)據(jù)質量,研究相對較少。但近年來,電子設備的日益普及與政府的基礎設施投資使得在農村區(qū)域運用大數(shù)據(jù)進行研究成為可能。特別是我國政府相當重視新時期農村建設,發(fā)布了《數(shù)字農村發(fā)展戰(zhàn)略綱要》,提出要建設數(shù)字鄉(xiāng)村,加快農村信息發(fā)展,縮小城鄉(xiāng)數(shù)字鴻溝。目前,我國已累計支持13萬個行政村光纖網(wǎng)絡建設,農村及偏遠地區(qū)3.7萬個4G基站建設,全國行政村通光纖、通4G比例均超過98%。截至2020年3月,我國農村地區(qū)互聯(lián)網(wǎng)普及率達到了46.2%[7]。這樣領先的農村網(wǎng)絡覆蓋為我國農村區(qū)域進行大數(shù)據(jù)研究提供了可靠的基礎條件。學者們應用大數(shù)據(jù)對我國農村區(qū)域存在的農業(yè)、農村、農民的“三農”問題展開研究,并取得了一些進展[8-10],為傳統(tǒng)“三農”問題研究注入了新的研究視角與研究范式。【本研究切入點】基于大數(shù)據(jù)應用的我國“三農”問題研究尚處于起步階段,且對該領域研究的綜述總結還比較有限。【擬解決的關鍵問題】本研究分析了“三農”問題研究中常用大數(shù)據(jù)數(shù)據(jù)類型與數(shù)據(jù)質量,從農業(yè)問題研究、農村問題研究、農民問題研究三個方面等對大數(shù)據(jù)在“三農”問題研究中的應用進行了綜述,并討論了該研究領域未來可能的方向與挑戰(zhàn),旨在為相關研究提供參考。
雖然近年來大數(shù)據(jù)才逐漸成為研究熱點,但早在20世紀80年代,大數(shù)據(jù)一詞就已經(jīng)出現(xiàn)在美國社會學家阿爾文·托夫勒的著作中[11]。大數(shù)據(jù),顧名思義,是指規(guī)模較大的數(shù)據(jù)。目前學界對大數(shù)據(jù)的概念暫無統(tǒng)一定義,許多機構與學者從不同角度進行了定義,如加特納(Gartner)咨詢公司將大數(shù)據(jù)定義為“高容量、高速度、多樣性的信息資產,需要高效、創(chuàng)新的信息處理方式,以實現(xiàn)認知與決策的提升以及流程的自動化”,其中高容量(Volume)、多樣性(Variety)、高速度(Velocity)也被廣泛認為是大數(shù)據(jù)的“3‘V’特征”[12],在此基礎上也延展出如變化性(Variability)、真實性(Veracity)、有效性(Validity)等更多的‘V’字特征。隨著應用范圍的不斷擴展,大數(shù)據(jù)的內涵也變得更加豐富。外國學者研究指出“大數(shù)據(jù)并不在于其數(shù)據(jù)規(guī)模之大,更重要的是其搜索、匯集、交互數(shù)據(jù)的能力”[13],并將量級較小的公共部門管理數(shù)據(jù)納入大數(shù)據(jù)范疇[14]。基于這些研究,本文認為大數(shù)據(jù)是指“既包括公共部門主動采集的、高度結構化的管理數(shù)據(jù),也包括由機構與個人的互聯(lián)網(wǎng)活動被動產生的、持續(xù)、自動出現(xiàn)的結構化與非結構化數(shù)據(jù)的大量數(shù)據(jù)”。
關于大數(shù)據(jù)的類型劃分有多種方式,如按數(shù)據(jù)結構可劃分為結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù)。本文選擇采用與研究應用關聯(lián)更為直接的數(shù)據(jù)來源進行劃分,將“三農”問題研究中常用的大數(shù)據(jù)分為互聯(lián)網(wǎng)使用數(shù)據(jù)、通訊傳感設備數(shù)據(jù)、地圖空間數(shù)據(jù)以及機構管理運行數(shù)據(jù)四類。下文將對四類數(shù)據(jù)的具體來源以及在農村地區(qū)的可獲得性與數(shù)據(jù)質量進行分析(表1)。
表1 常用大數(shù)據(jù)類型在鄉(xiāng)村地區(qū)的質量評價
隨著互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)使用數(shù)據(jù)量激增。據(jù)統(tǒng)計,百度日均搜索量已達50億次,微博日均內容發(fā)布量超2.5億,這些都屬于互聯(lián)網(wǎng)使用數(shù)據(jù)的范疇?;ヂ?lián)網(wǎng)使用數(shù)據(jù)主要包括社交媒體數(shù)據(jù)、網(wǎng)頁閱覽數(shù)據(jù)、搜索數(shù)據(jù)、用戶上傳的圖片、音頻、視頻數(shù)據(jù)等內容?;ヂ?lián)網(wǎng)使用數(shù)據(jù)在情報學[15]、經(jīng)濟學[16]、規(guī)劃學[17]等多領域內均有廣泛運用。一些互聯(lián)網(wǎng)使用數(shù)據(jù)也包含了定位數(shù)據(jù),這有助于研究用戶的活動軌跡[18]。我國農村地區(qū)互聯(lián)網(wǎng)覆蓋率較高,信號穩(wěn)定,全國行政村通光纖、通4G比例均超過98%;互聯(lián)網(wǎng)用戶較多,我國農村網(wǎng)民規(guī)模為2.55億,農村互聯(lián)網(wǎng)普及率達46.2%;年齡結構方面我國網(wǎng)民主要集中在10~49歲,占網(wǎng)民群體的79.2%,10歲以下與50歲及以上的網(wǎng)民較少,占20.8%;我國農村居民的互聯(lián)網(wǎng)使用率雖然不及城市地區(qū),但也具備了較高的數(shù)據(jù)覆蓋程度。由于互聯(lián)網(wǎng)數(shù)據(jù)主要來自于API下載與網(wǎng)頁抓取,因此可獲取性與城市居民的互聯(lián)網(wǎng)使用數(shù)據(jù)差異不大。事實上,現(xiàn)有的基于互聯(lián)網(wǎng)數(shù)據(jù)的研究往往并不專門區(qū)分城市與農村用戶,但尚未見到采用互聯(lián)網(wǎng)數(shù)據(jù)對農村問題進行的針對性研究。需要注意的是,農村居民的互聯(lián)網(wǎng)使用習慣可能與城市居民有所差異,包括所訪問的網(wǎng)站、所使用的網(wǎng)站功能等。
通訊傳感設備數(shù)據(jù)類型眾多,常見數(shù)據(jù)包括手機通訊、定位數(shù)據(jù)、道路交通傳感數(shù)據(jù)、車載GPS定位數(shù)據(jù)、空氣質量監(jiān)測數(shù)據(jù)等。通訊設備數(shù)據(jù)主要來自手機使用,可提供手機用戶的活動軌跡與通訊聯(lián)系,對于精細化捕捉人類活動規(guī)律、識別人類活動模式發(fā)揮了巨大作用;傳感設備數(shù)據(jù)來源于各類傳感器,如用于感知道路車輛數(shù)量的壓力傳感器、用于感知空氣質量的化學物質傳感等。農村區(qū)域的傳感器數(shù)據(jù)主要掌握在農業(yè)企業(yè)、科研機構及政府部門等機構內,目前主要應用于農業(yè)生產監(jiān)測與環(huán)境監(jiān)測方面。
手機使用數(shù)據(jù)因其高覆蓋率、高精度、高時效性的特點成為了大數(shù)據(jù)研究的重要數(shù)據(jù)來源,是人口、交通、城鄉(xiāng)規(guī)劃等領域的關注熱點[19],一般獲取自通訊運營商或采集手機GPS信息的APP運營管理方,與城市范圍內的數(shù)據(jù)獲取方式無本質差異,因此影響農村研究中手機通訊數(shù)據(jù)應用性的因素主要為手機用戶的覆蓋率以及手機定位精度。據(jù)2019年中國統(tǒng)計年鑒顯示我國農村居民每百戶擁有257部手機[20],農村地區(qū)手機擁有量高。全國行政村通4G比例超過98%,手機信號覆蓋率高。定位精度方面,由于農村地區(qū)人口與手機基站布局相對稀疏,手機定位精度相較于城市區(qū)域較低,精度大約在1~2 km[21]。
地理空間大數(shù)據(jù)包括開放地圖數(shù)據(jù)、興趣點數(shù)據(jù)、街景圖片數(shù)據(jù)、夜間燈光數(shù)據(jù)等數(shù)據(jù)。這些數(shù)據(jù)已被大量應用于城市研究,在城市熱點區(qū)域識別、建成區(qū)邊界識別、城市空間結構分析等方面產生了大量研究成果[22-23]。目前尚未見到此類數(shù)據(jù)應用于農村研究的文獻,很大程度上在于這類數(shù)據(jù)的采集往往涉及現(xiàn)場作業(yè),如開放地圖(Open Street Map)的貢獻者手持GPS進行現(xiàn)場記錄,街景采集車在相關道路進行實際行駛,因此這類數(shù)據(jù)在農村地區(qū)的覆蓋率仍明顯低于城市地區(qū)。以四川省人口最多的5個地級市為例,根據(jù)百度地圖提供的街景圖片服務可以看出,農村區(qū)域街景圖片覆蓋率顯著低于城市,覆蓋率約為10%,各市之間農村覆蓋率差異不大。我國其他區(qū)域農村街景圖片覆蓋情況還有待進一步研究。夜間燈光數(shù)據(jù)主要通過遙感衛(wèi)星進行收集,在覆蓋率與數(shù)據(jù)質量方面好于其他地圖空間數(shù)據(jù)。但目前常用的夜間燈光數(shù)據(jù)的分辨率為1 km×1 km,運用在空間尺度相對較小的農村區(qū)域效果較差。綜合來講,除夜間燈光數(shù)據(jù)以外,此類數(shù)據(jù)在農村區(qū)域的覆蓋率還較低,有待未來在數(shù)據(jù)可獲得性方面的進一步發(fā)展。
機構管理運行數(shù)據(jù)指政府、企業(yè)等各類機構運行中產生的數(shù)據(jù),包含稅收數(shù)據(jù)、行政處罰數(shù)據(jù)、銀行轉賬數(shù)據(jù)等。雖然就數(shù)據(jù)規(guī)模而言這類數(shù)據(jù)并非嚴格意義上的大數(shù)據(jù),但考慮到這類數(shù)據(jù)經(jīng)過長期積累也提供了可觀的信息量,因此在社會科學研究經(jīng)常也將其納入大數(shù)據(jù)范疇[24]。這類數(shù)據(jù)一方面反映了農村中各類組織機構的運行管理狀況,另一方面也提供了關于個體活動與社會經(jīng)濟系統(tǒng)運行的豐富信息。隨著我國數(shù)據(jù)開放進程的不斷推進,我國已有82個地方政府建立了政府數(shù)據(jù)開放平臺,但關于農業(yè)農村的數(shù)據(jù)集數(shù)量較少,僅占所有數(shù)據(jù)集的5.2%[25],也有待未來進一步整理與公開。
“三農”問題是指我國經(jīng)濟社會發(fā)展過程中出現(xiàn)的農業(yè)、農村、農民這三個問題[26]。自1996年溫鐵軍教授最早提出“三農”問題以來,“三農”問題一直備受關注,數(shù)次登上政府工作報告與中央一號文件,其重要性也逐漸上升至“全黨工作的重中之重”。我國學術界針對“三農”問題開展了大量研究,取得了一些成果。隨著農村基礎設施的不斷完善,“三農”大數(shù)據(jù)成為“三農”問題研究新的數(shù)據(jù)來源,為“三農”問題研究提供了新的研究范式與研究視角。
隨著信息化與農業(yè)現(xiàn)代化的不斷推進,大數(shù)據(jù)與農業(yè)的深度融合在促進農業(yè)生產、解決我國農業(yè)問題方面顯示出了明顯潛力。我國政府先后出臺了《關于促進大數(shù)據(jù)發(fā)展行動綱要》《農業(yè)部關于推進農業(yè)農村大數(shù)據(jù)發(fā)展的實施意見》《農業(yè)農村大數(shù)據(jù)試點方案》等文件和政策,積極推動大數(shù)據(jù)在農業(yè)領域的應用。類似的,英國政府也出臺了《英國農業(yè)技術戰(zhàn)略》,特別提到了大數(shù)據(jù)在推動農業(yè)領域創(chuàng)新中的重要作用[27],美國政府將包括農業(yè)生產、糧食安全、農村發(fā)展、自然資源等在內的農業(yè)數(shù)據(jù)公開,鼓勵企業(yè)與科研機構進行相關研究。
大數(shù)據(jù)可用于農業(yè)生產的全過程中,國內外學者圍繞氣象預報、水肥管理、作物育種、病蟲害預報、高效養(yǎng)殖等方面已經(jīng)開展了大量的研究,如Tesfaye等[28]利用地理大數(shù)據(jù)對非洲南部的干旱情況進行分析,并對耐旱玉米品種在此環(huán)境下的表現(xiàn)進行評估,結果表明,耐旱品種玉米在干旱環(huán)境下的產量優(yōu)勢可能比一般品種高5%~40%;Bendre等[29]提出通過信息和通信技術服務來收集大量數(shù)據(jù),利用程序模型和分布式算法對天氣數(shù)據(jù)處理和預報應用進行了討論,以預警氣象災害與病蟲害,提高農作物產量,降低農戶生產風險;Mabalay等[30]基于遙感圖像與作物生長狀況等數(shù)據(jù)開發(fā)了國家水稻系統(tǒng),以預估糧食產量,保障糧食安全,研究在菲律賓萊特地區(qū)進行了系統(tǒng)模擬 ;Wolfert等[31]綜合過往研究,分析了大數(shù)據(jù)在智慧農業(yè)中的驅動力,將農業(yè)生產中產生的大數(shù)據(jù)分為過程中介數(shù)據(jù)(PM)、機器生成數(shù)據(jù)(MG)和人為源數(shù)據(jù)(HS)三類,并討論了大數(shù)據(jù)的應用過程。相關研究也在業(yè)界獲得了實際應用,形成了一些大數(shù)據(jù)現(xiàn)代化農業(yè)成果,如美國孟山都公司通過土壤傳感器收集田間數(shù)據(jù),結合種子數(shù)據(jù)庫、土壤數(shù)據(jù)庫和基因數(shù)據(jù)庫等多源數(shù)據(jù),建設了一體化農田耕作系統(tǒng),通過手機農業(yè)大數(shù)據(jù)軟件為農戶提供農業(yè)服務[32];美國Trimble公司開發(fā)了網(wǎng)絡農場系統(tǒng),對精準農業(yè)數(shù)據(jù)進行計算分析,可以進行農業(yè)自動作業(yè)管理,為農戶提供了全面的農業(yè)解決方案[33]。
我國大數(shù)據(jù)農業(yè)現(xiàn)代化研究起步晚于國外,也取得了一定成果。如杜克明[8]基于物聯(lián)網(wǎng),研究了小麥生產過程中的大數(shù)據(jù)獲取,為小麥生產管理與災害防控提供了依據(jù);楊波等[34]運用氣象大數(shù)據(jù)對山東省二代玉米螟的發(fā)生程度進行預測,建立了玉米螟動態(tài)氣候預測模型;郭峰[35]利用大蒜產業(yè)大數(shù)據(jù),對大蒜價格波動的主要影響因素進行了分析,研究了大蒜價格變化趨勢的預測辦法,并構建了大蒜價格可視化系統(tǒng);王東杰[36]利用多源大數(shù)據(jù)構建了大數(shù)據(jù)支撐的糧食安全理性預期預警理論,開展了玉米供需預測模擬分析。在實踐領域,目前我國已經(jīng)形成了國家農業(yè)數(shù)據(jù)中心、國家農業(yè)科學數(shù)據(jù)共享中心、全國農技推廣信息平臺等農業(yè)大數(shù)據(jù)平臺[37],各省市也開展了相關實踐,如貴陽市整合了農業(yè)產業(yè)鏈資源,建成了貴陽現(xiàn)代農業(yè)大數(shù)據(jù)交易中心[38]。
總體而言,大數(shù)據(jù)已被應用于農業(yè)生產監(jiān)測與產量提升、農產品市場趨勢預測等農業(yè)生產、經(jīng)營的各個環(huán)節(jié),其中農業(yè)大數(shù)據(jù)的采集涉及農田傳感器等大量新型農業(yè)數(shù)字基礎設施的部署,隨著我們數(shù)字農村戰(zhàn)略的推動,未來農業(yè)相關大數(shù)據(jù)的來源類型與覆蓋率有可能不斷提升,也將為農業(yè)大數(shù)據(jù)分析應用提供更多支撐條件。
因大數(shù)據(jù)中包含大量的定位數(shù)據(jù),現(xiàn)有研究應用大數(shù)據(jù)對農村空間問題進行研究。農村空間是生產、生態(tài)和生活空間的統(tǒng)一體,農村聚落的空間結構、空間演變特征和空間優(yōu)化等研究內容對于支撐農村社會經(jīng)濟發(fā)展以及美麗鄉(xiāng)村建設有著重要意義。
國外學者借助手機信令數(shù)據(jù)等大數(shù)據(jù),結合復雜網(wǎng)絡理論,從不同角度對村鎮(zhèn)空間聯(lián)系進行了分析,為鄉(xiāng)村規(guī)劃提供支撐,如Servillo等[39]基于通勤數(shù)據(jù)對意大利皮埃蒙特區(qū)37個微觀區(qū)域中心進行研究,分析了不同等級中小村鎮(zhèn)聯(lián)系的網(wǎng)絡結構。我國學者鈕心毅等[40]基于杭州桐廬縣和上海奉賢區(qū)的撤制鎮(zhèn)2個研究實例,分析了移動定位大數(shù)據(jù)在鄉(xiāng)村空間研究中的2個使用場合,提出了移動大數(shù)據(jù)在鄉(xiāng)村空間研究中存在時空分辨率與設備普及率2個技術阻礙。趙渺希等[9]以中山三鄉(xiāng)鎮(zhèn)為例,利用手機信令數(shù)據(jù)測算了村鎮(zhèn)聚落的多層級網(wǎng)絡聯(lián)系,結合自容性、群集性、網(wǎng)絡效率等指標對村鎮(zhèn)聚落的網(wǎng)絡結構特征進行分析,結果表明,三鄉(xiāng)鎮(zhèn)呈現(xiàn)簇群式的空間聯(lián)系結構,具有自上而下的垂直聯(lián)系和多層級相互交織的復雜網(wǎng)絡特征。圖爾蓀阿依·如孜等[41]基于人口密度數(shù)據(jù)與夜間燈光數(shù)據(jù)對新疆鄉(xiāng)村聚落的空間變化與演變特征進行研究,結果表明新疆南部、東部和北部地區(qū)鄉(xiāng)村聚落在空間分布、擴張強度和空間演變程度等方面存在差異。周祥勝[42]將對廣東省四會市農村空心化進行了研究,利用居民月度用電數(shù)據(jù)在內的多源數(shù)據(jù)建立了自然村空心化的分類判別方法,對自然村空心化進行了綜合評價。
目前基于大數(shù)據(jù)的農村問題研究主要側重對農村發(fā)展的現(xiàn)狀刻畫,特別是對農村空間環(huán)境的評估,可以發(fā)現(xiàn)大量實際社會經(jīng)濟活動驅動下的農村空間結構與體系。未來研究可進一步關注問題與政策導向,在現(xiàn)狀描述的基礎上對農村發(fā)展政策涉及的關鍵問題展開研究,如農村人居環(huán)境質量的監(jiān)測等,為相關政策制定提供更加直接的支撐。
農民是農業(yè)生產與農村生活的主要參與者,“三農”問題的核心是農民問題[43]。以人為本,尊重農民意愿,真正了解農民心中所想、所需,對于解決“三農”問題有重要意義。隨著信息技術與物聯(lián)網(wǎng)技術的發(fā)展,大數(shù)據(jù)分析成為精準了解農民需求的重要方式。
一方面,應用大數(shù)據(jù)有助于精準了解農民時空行為。農民時空活動是農村自然資源系統(tǒng)演變的重要驅動力,也是農村復雜社會經(jīng)濟問題的體現(xiàn)。傳統(tǒng)農民時空行為研究通常采用傳統(tǒng)調查方法獲取數(shù)據(jù),這種方式具有成本高、樣本少、存在主觀回憶或敘述偏差等缺陷。大數(shù)據(jù)技術的快速發(fā)展尤其是手機定位數(shù)據(jù)為研究農民時空行為提供了新的數(shù)據(jù)來源。
大數(shù)據(jù)在市民時空行為領域已獲得了大量應用,包括分析市民出行規(guī)律特征、得到其時空行為模式等,但在農村地區(qū)的相關研究還方興未艾。Eagle等[44]根據(jù)手機定位數(shù)據(jù),將農村與城市社會的活動模式進行了比較分析,研究發(fā)現(xiàn)農村和城市社區(qū)在個人網(wǎng)絡拓撲和行為特征方面存在顯著差異;Sanya和Mubangiz[45]運用手機定位數(shù)據(jù)研究了人口在城鄉(xiāng)之間的流動動態(tài),并提出了層次人口流動的概念,認為該概念可用于空間人口流動的可視化;Takahiro等[46]將農民時空行為引入自然災害研究,提出了一種基于手機定位數(shù)據(jù)與地理信息的農村洪澇災害探測的方法,通過檢測個體異常行為來實時推斷洪水位置,并利用日本農村兩次嚴重洪災的實際數(shù)據(jù)對該方法進行評估,驗證了該方法的可行性與準確性。
國內在市民時空行為領域的相關研究較少,高雪松等[10]利用手機信令數(shù)據(jù)研究了成都市農村勞動力的職住通勤狀況,實現(xiàn)了成都農村勞動力的職住聯(lián)系的可視化。結果表明,有接近7%的農村勞動力每個工作日通勤到市區(qū)。該研究首次精細化地展現(xiàn)了我國快速城市化時期農村居民的就業(yè)格局與職住聯(lián)系。在此基礎上,高雪松等[47]進一步研究了成都市農村宅基地整理政策對農民生活生產方式的影響。結果表明,宅基地整理增加了農民的工作類出行距離,縮短了非工作類出行距離,提高了農村居民的生活品質。
另一方面,應用大數(shù)據(jù)能精準識別貧困人口助力農村精準扶貧,這是我國學術界一個熱點課題。Blumenstock等[48]基于手機使用數(shù)據(jù)對盧旺達人口的貧富狀況進行了研究。聯(lián)合國與百度也在此領域形成了合作,建立了一個涵蓋互聯(lián)網(wǎng)條件、道路基礎設施在內八個衡量標準的大數(shù)據(jù)分析網(wǎng)絡,用以精準識別貧困[49]。我國地方政府也進行了大數(shù)據(jù)精準扶貧的實踐,并取得了一定的成果,例如貴州省依據(jù)扶貧云平臺信息系統(tǒng),量化評價貧困戶信息,建立扶貧脫貧指標體系,動態(tài)掌握貧困人口狀況,實現(xiàn)了對貧困人口的精準識別與監(jiān)控[50]。
可以看到,目前手機使用與信令定位數(shù)據(jù)作為反映個體行為的高覆蓋度數(shù)據(jù)是農民問題研究的一項主要大數(shù)據(jù)來源,所應用的問題領域主要包括農民時空行為規(guī)律識別及其所反映的農民貧富狀況與生活福祉。與對城市居民的類似研究相比,農民問題研究還較少采用社交媒體網(wǎng)站等互聯(lián)網(wǎng)使用數(shù)據(jù),而這類大數(shù)據(jù)可在客觀行為之外提供農民主觀認知信息,豐富農民問題分析維度,但如何從眾多網(wǎng)站用戶中識別農民用戶、農民群體對各類網(wǎng)站的使用存在何種偏好與差異是未來研究可進一步探索的問題。
雖然在大數(shù)據(jù)時代,與“三農”問題相關的數(shù)據(jù)在不斷增加,使“三農”問題研究的信息來源大為拓展,但與城市地區(qū)相比,農村地區(qū)大數(shù)據(jù)無論在種類還是質量方面都還存在一定差距。首先,在數(shù)據(jù)來源種類方面,由于城市政府的大量智慧城市建設投入、城市居民的高強度互聯(lián)網(wǎng)使用以及商業(yè)機構數(shù)據(jù)采集對城市地區(qū)的側重等原因,目前各類大數(shù)據(jù)的可獲得性在城市與農村之間仍存在明顯差異。例如,城市生活與經(jīng)濟運行的大量信息都可以通過居民在互聯(lián)網(wǎng)上的瀏覽、購物、評論等數(shù)據(jù)進行探測,而農村居民的類似互聯(lián)網(wǎng)使用則相對較少;在人居環(huán)境方面,各類商業(yè)網(wǎng)站已積累了興趣點、街景等有關城市環(huán)境的大量精細數(shù)據(jù),而這些數(shù)據(jù)在農村地區(qū)往往較為稀疏。同時,與農業(yè)生產經(jīng)營相關的特色數(shù)據(jù)通常需要部署大量傳感設備,也導致相關數(shù)據(jù)目前主要以點狀覆蓋為主,尚難以在大范圍內實現(xiàn)同等獲取。在數(shù)據(jù)質量方面,農村大數(shù)據(jù)也可能在數(shù)據(jù)精度、代表性等方面存在不足,如用途廣泛的手機信令定位數(shù)據(jù)在城市地區(qū)的精度一般能夠達到200~300 m,而在農村地區(qū)由于基站分布較為稀疏,定位精度可能下降至1000 m甚至更低,為進一步分析挖掘帶來了挑戰(zhàn)。但隨著“數(shù)字鄉(xiāng)村”等戰(zhàn)略的實施,預計上述城鄉(xiāng)之間的大數(shù)據(jù)資源差異將逐步縮小,各類新型數(shù)據(jù)將為“三農”問題研究帶來更多創(chuàng)新。
上述農村大數(shù)據(jù)的數(shù)據(jù)條件限制對數(shù)據(jù)分析的方法設計提出了更多要求,以實現(xiàn)在有限數(shù)據(jù)條件下對研究對象的準確刻畫。例如,如何通過在數(shù)據(jù)條件較好的片區(qū)采集的局部信息推求整個研究范圍內的總體情況,這類問題可能需要多種數(shù)據(jù)的聯(lián)合分析,如結合局部范圍、高粒度大數(shù)據(jù)與大范圍、粗粒度的傳統(tǒng)統(tǒng)計數(shù)據(jù),通過挖掘數(shù)據(jù)之間的映射關系實現(xiàn)局部信息到整體的擴充。再如,某些研究問題在城市地區(qū)可以通過多種大數(shù)據(jù)的綜合分析進行識別,如綜合居民個體的信令軌跡、職住地點特征、其他訪問地點特征對居民個體的社會經(jīng)濟屬性進行識別,但在農村地區(qū)可有效利用的大數(shù)據(jù)類型可能較為單一,這就需要借助更為豐富的研究方法實現(xiàn)分析目的,如Blumenstock等[48]使用特征工程方法從手機使用原始數(shù)據(jù)中構造出上千個特征變量,在此基礎上構建機器學習模型成功實現(xiàn)了僅依賴手機使用數(shù)據(jù)的用戶貧富水平識別。
大數(shù)據(jù)分析應用并非單純追求方法創(chuàng)新,而是應切實服務于“三農”問題治理與相關政策制定。從更抽象意義上可以認為大數(shù)據(jù)分析是機器智能的一種形式,通過計算機的強大計算能力從大規(guī)模數(shù)據(jù)中挖掘人類所不能直接觀察到的現(xiàn)象與規(guī)律,而在“三農”問題治理方面,相關技術人員與政府管理人員也在長期的實踐工作中形成大量經(jīng)驗積累,如何將機器智能與人類經(jīng)驗有效整合是大數(shù)據(jù)應用于“三農”問題研究所要關注的深層問題,包括算法設計中的經(jīng)驗嵌入、決策過程中的人機交互等。對這一問題的探索無法局限于技術研究領域,而是需要通過技術研究與“三農”問題治理實踐的循環(huán)互動,在應用實踐中探索大數(shù)據(jù)分析的邊界與局限以及與傳統(tǒng)經(jīng)驗的整合途徑。
由前文1、2節(jié)可以看到,雖然與城市問題研究相比大數(shù)據(jù)在農村區(qū)域問題研究方面的應用還相對較少,但國內外學者也已陸續(xù)針對一些相關課題展開探索。在我國農村數(shù)字基礎設施水平不斷提高且“三農”問題在國家發(fā)展中始終占據(jù)重要地位的背景下,利用多樣、精細的新型數(shù)據(jù)對各類“三農”問題展開深入研究具有豐富前景與重要社會經(jīng)濟意義,下文將嘗試就其中可能的研究方向進行探討。
由2.1節(jié)可以看到,國內外學者已針對大數(shù)據(jù)應用于農業(yè)增產展開了若干新技術探索。與此同時,近年來隨著城市化的發(fā)展與互聯(lián)網(wǎng)等技術的傳播,在傳統(tǒng)農業(yè)之外我國農村也出現(xiàn)了多種新型業(yè)態(tài),包括“互聯(lián)網(wǎng)+”模式影響下出現(xiàn)的農村電子商務,傳統(tǒng)農業(yè)與服務業(yè)相結合出現(xiàn)的觀光農業(yè)、體驗農業(yè)、休閑農業(yè)[51]、共享農業(yè)等新式農業(yè),以及農村土地流轉后形成的農業(yè)合作社等。這些新型業(yè)態(tài)的出現(xiàn)有利于促進農村發(fā)展、提高農民收入,但其發(fā)展狀況、發(fā)展機制、對農業(yè)生產與農村社會經(jīng)濟的綜合影響等問題還有待深入研究。
由于許多新型業(yè)態(tài)的運營本身就以互聯(lián)網(wǎng)為重要平臺,因此相關互聯(lián)網(wǎng)大數(shù)據(jù)也是對這類業(yè)態(tài)展開研究的直接信息來源,如電子商務平臺的價格、銷量、評價等數(shù)據(jù)直觀的反映了農村電子商務的發(fā)展情況,新式農業(yè)作為一類休閑旅游活動往往也可通過旅游、點評類網(wǎng)站獲得其經(jīng)營情況及消費者評價相關信息,此外還可利用廣泛反映人群行為的手機軌跡數(shù)據(jù)對農村新型業(yè)態(tài)的經(jīng)營者與消費者行為進行分析。
科學合理的空間規(guī)劃是農村社會經(jīng)濟發(fā)展的重要要素,近年來新農村建設、土地整理等空間規(guī)劃工作在我國農村大規(guī)模開展,急需開展相關研究為農村生產、生活、生態(tài)空間規(guī)劃提供支撐。而現(xiàn)有研究往往主要以地形地貌、土地利用等數(shù)據(jù)為分析依據(jù)[52-53],以物質環(huán)境評估為主,缺乏對當前農村物質空間與社會經(jīng)濟活動互動關系的深入解析。針對這一問題,上文提到的各類新型數(shù)據(jù)應用于農村產業(yè)與農民生活的相關研究路徑均可進一步延伸至農村“三生”空間規(guī)劃研究,如基于手機軌跡數(shù)據(jù)對不同空間格局村莊的農民生產、生活行為與便利度等評價指標進行比較研究,從而總結符合當代農民生產、生活需求的農村空間布局模式。
此外,新型數(shù)據(jù)也可提供較傳統(tǒng)數(shù)據(jù)更為精細的農村空間環(huán)境信息,雖然興趣點、街景圖像等目前已在城市空間環(huán)境研究中得到大量運用的數(shù)據(jù)在我國農村地區(qū)的覆蓋率還較低,但仍存在部分可適當利用的數(shù)據(jù)類型。如航拍、遙感圖片往往覆蓋范圍較廣,通過與計算機視覺技術相結合可提取農村房屋狀況、道路狀況等精細信息,為空心村等農村建設問題研究與改造規(guī)劃提供精準依據(jù);各類平臺中的農村環(huán)境圖像也可采用計算機視覺技術識別提取地域風貌特征[54],為制定具有地域特色的農村空間規(guī)劃與設計提供支撐。
在我國快速城市化背景下,農民生活模式也在不斷變遷,對當代農民生活狀況的準確認知是各類農村政策有效制定的重要基礎。有關農民生活狀況的傳統(tǒng)信息來源主要為問卷調查、訪談等,此類方法面臨著成本高、樣本少、樣本代表性有限等方面的挑戰(zhàn),而前文第2節(jié)中提到的手機定位、互聯(lián)網(wǎng)使用等大數(shù)據(jù)為識別、分析當前我國農民日?;顒优c心理感受提供了有力的信息來源,筆者基于手機軌跡數(shù)據(jù)對成都農民職住格局與日?;顒幽J降难芯考词菍@一研究方向的一項探索。未來研究可進一步探索采用更多類型的新型數(shù)據(jù)對當前我國農民生活狀況進行更為全面的刻畫與分析,如采用空間精度更高的手機GPS定位數(shù)據(jù)可以更精準地識別農民活動地點與活動內容,進而對農民生活方式、生活便利度以及更深入的農村貧困、老齡化等社會經(jīng)濟問題進行解析;采集農民群體的社交媒體數(shù)據(jù),包括內容發(fā)布、瀏覽、評論等,可以對農民的生活滿意度、幸福感等主觀感受進行評估,從而主客觀相結合對當前我國農民的生活狀況進行分析。