馬艷蘭,木 霖,曹志勇,高 儼,郭 晉,陳云輝,劉夢然
(1.云南省農(nóng)業(yè)環(huán)境保護監(jiān)測站,云南昆明 650201;2.云南農(nóng)業(yè)大學(xué),昆明黑龍?zhí)?650201)
隨著互聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等信息技術(shù)的快速發(fā)展,可為數(shù)據(jù)量龐大的云南省農(nóng)業(yè)環(huán)境與農(nóng)產(chǎn)品質(zhì)量現(xiàn)狀調(diào)查與安全評價提供數(shù)據(jù)支撐與保障。云南省農(nóng)業(yè)環(huán)境保護工作在實施耕地及農(nóng)產(chǎn)品協(xié)同監(jiān)測中,不能及時可視化、電子化、信息化,工作模式嚴(yán)重滯后于國家倡導(dǎo)的“智慧農(nóng)業(yè)、數(shù)字農(nóng)業(yè)”,嚴(yán)重影響了全省耕地土壤環(huán)境質(zhì)量與農(nóng)產(chǎn)品質(zhì)量安全評價的時效性與效率,結(jié)合云南省實際,基于云技術(shù)的云南省農(nóng)用地土壤環(huán)境質(zhì)量協(xié)同采樣系統(tǒng)開發(fā)及應(yīng)用數(shù)據(jù)庫的構(gòu)建,通過大數(shù)據(jù)平臺及技術(shù),對土壤及農(nóng)產(chǎn)品的采樣、質(zhì)控、匯總、分析等過程提供云技術(shù)服務(wù),實現(xiàn)耕地土壤和農(nóng)產(chǎn)品調(diào)查、采樣的可視化、實時化、科學(xué)化、空間化,以提高工作效率與數(shù)據(jù)的分析處理能力。
土壤是經(jīng)濟社會可持續(xù)發(fā)展的物質(zhì)基礎(chǔ),關(guān)系人民群眾身體健康,關(guān)系美麗中國建設(shè),保護好土壤環(huán)境是推進(jìn)生態(tài)文明建設(shè)和維護國家生態(tài)安全的重要內(nèi)容。耕地是農(nóng)產(chǎn)品生產(chǎn)的源頭,耕地土壤環(huán)境質(zhì)量直接影響農(nóng)產(chǎn)品質(zhì)量。定期或不定期的對全省耕地土壤環(huán)境質(zhì)量現(xiàn)狀進(jìn)行監(jiān)測與評價,是保護耕地土壤可持續(xù)發(fā)展及農(nóng)產(chǎn)品質(zhì)量安全的基礎(chǔ)。但是長期以來,全省農(nóng)業(yè)環(huán)境保護系統(tǒng)的科技人員在實施耕地及農(nóng)產(chǎn)品協(xié)同監(jiān)測樣品采集、采樣質(zhì)量控制、樣品流轉(zhuǎn)、樣品制樣與樣品分析等一系列工作中依然采用傳統(tǒng)的作業(yè)模式,做不到實時可視化、電子化、信息化,這種工作模式嚴(yán)重滯后于國家倡導(dǎo)的“智慧農(nóng)業(yè)、數(shù)字農(nóng)業(yè)”,嚴(yán)重影響了全省耕地土壤環(huán)境質(zhì)量與農(nóng)產(chǎn)品質(zhì)量安全評價的時效性與效率的提高。
農(nóng)用地土壤環(huán)境質(zhì)量協(xié)同采樣系統(tǒng)通過地圖網(wǎng)格化,經(jīng)緯度定點,土壤樣本采集、食用農(nóng)產(chǎn)品樣本采集,樣本實驗分析,同時通過數(shù)據(jù)挖掘和分析技術(shù),找準(zhǔn)土壤、食用農(nóng)產(chǎn)品數(shù)據(jù)的潛藏價值及聯(lián)系,有效直觀地呈現(xiàn)云南省土壤環(huán)境質(zhì)量現(xiàn)狀和趨勢,為云南省耕地土壤環(huán)境質(zhì)量和農(nóng)產(chǎn)品質(zhì)量安全相關(guān)活動的發(fā)展規(guī)劃、指導(dǎo)、監(jiān)督、管理,提供數(shù)據(jù)支持。系統(tǒng)建設(shè)主要包括以下內(nèi)容:
整個平臺采用基于主流Hadoop的發(fā)行版本CDH (Cloudera’s Distribution Including Apache Hadoop)作為數(shù)據(jù)存儲和計算的基礎(chǔ)平臺。平臺采用分層式的架構(gòu)模式,具有松散耦合、邏輯復(fù)用等特性,可及時響應(yīng)業(yè)務(wù)需求變化和高效應(yīng)對平臺的擴展,其架構(gòu)如圖1。
1.農(nóng)業(yè)環(huán)境大數(shù)據(jù)融合管理平臺。通過數(shù)據(jù)融合任務(wù),將已有的各個部門、州(市)的土壤相關(guān)數(shù)據(jù)、農(nóng)產(chǎn)品數(shù)據(jù)、污染面源數(shù)據(jù)等從各個系統(tǒng)中抽取到平臺或通過Excel、CSV數(shù)據(jù)格式導(dǎo)入到平臺中,并進(jìn)行數(shù)據(jù)的清洗、轉(zhuǎn)換和存儲。數(shù)據(jù)融合平臺負(fù)責(zé)多數(shù)據(jù)源融合、大數(shù)據(jù)平臺管理、系統(tǒng)基礎(chǔ)支撐管理、系統(tǒng)監(jiān)控。在整個項目中總領(lǐng)“心臟”的角色,為整個項目的平穩(wěn)有效運行保駕護航。
完成功能:
(1)開發(fā)Hadoop集群進(jìn)行統(tǒng)一的管理和監(jiān)控功能;
(2)開發(fā)Spark作業(yè)提交、任務(wù)監(jiān)控和資源調(diào)度、任務(wù)提交管理、任務(wù)隊列管理、任務(wù)刪除管理、任務(wù)執(zhí)行策略管理、任務(wù)狀態(tài)管理功能;
(3)實現(xiàn)平臺使用Sqoop組件對外圍業(yè)務(wù)系統(tǒng)的關(guān)系型數(shù)據(jù)庫數(shù)據(jù)的抽?。?/p>
(4)使用Oozie組件對數(shù)據(jù)抽取任務(wù)的計劃調(diào)度管理;
(5)開發(fā)對數(shù)據(jù)抽取任務(wù)的監(jiān)控;
(6)開發(fā)對Excel數(shù)據(jù)表格、CSV數(shù)據(jù)表格數(shù)據(jù)的處理與導(dǎo)入功能;
(7)開發(fā)對大數(shù)據(jù)平臺組件:HDFS、HBase、Hive、Impala、Zookeeper、Sqoop、Spark、Yarn、Oozie、Solr的健康狀態(tài)的實時監(jiān)控、對大數(shù)據(jù)平臺各個節(jié)點的CPU、內(nèi)存、IO使用率的實時監(jiān)控功能;
(8)開發(fā)對大數(shù)據(jù)平臺組件:HDFS、HBase、Hive、Impala、Zookeeper、Sqoop、Spark、Yarn、Oozie、Solr的日志的實時監(jiān)控、日志統(tǒng)計分析功能;
(9)開發(fā)對大數(shù)據(jù)平臺的分角色和應(yīng)用的權(quán)限管理;
(10)開發(fā)系統(tǒng)的基礎(chǔ)管理功能包括:用戶管理、角色管理、權(quán)限管理、菜單管理;
(11)開發(fā)系統(tǒng)監(jiān)控功能:CPU、內(nèi)存、JVM使用率實時監(jiān)控儀表盤、系統(tǒng)操作日志管理。
2.云南省耕地土壤環(huán)境質(zhì)量專題成果基礎(chǔ)檔案分布式數(shù)據(jù)庫。負(fù)責(zé)現(xiàn)場采集app或無人機采集回傳的耕地土壤圖片、視頻,以及包括PDF文檔、Word文檔成果報告、GIS相關(guān)數(shù)據(jù)等結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲,確保數(shù)據(jù)的規(guī)范性與標(biāo)準(zhǔn)性,并對外提供數(shù)據(jù)訪問、數(shù)據(jù)檢索、數(shù)據(jù)交換等共享服務(wù)。
非結(jié)構(gòu)化存儲使用Hadoop框架中的HDFS分布式文件系統(tǒng),具備高度容錯性,適合部署在廉價的機器上。同時其能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。
對于其他結(jié)構(gòu)化的農(nóng)業(yè)耕地土壤詳查數(shù)據(jù)、專題成果基礎(chǔ)檔案數(shù)據(jù)、農(nóng)田資料數(shù)據(jù)、農(nóng)業(yè)資源等數(shù)據(jù),通過數(shù)據(jù)融合后,使用HBase分布式數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲,利用其特點可在廉價PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。
完成功能:
(1)實現(xiàn)HDFS/HBase分布式存儲框架存儲耕地土壤詳查數(shù)據(jù)、專題成果基礎(chǔ)檔案數(shù)據(jù)的結(jié)構(gòu)化數(shù)據(jù);
(2)實現(xiàn)HDFS/HBase分布式存儲框架,存儲采樣調(diào)查中的圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù);
(3)實現(xiàn)使用分布式計算引擎Spark/MapReduce2對耕地土壤數(shù)據(jù)、農(nóng)產(chǎn)品數(shù)據(jù)進(jìn)行批處理計算和分析;
(4)實現(xiàn)流式計算框架Spark Streaming對實時流數(shù)據(jù)進(jìn)行分析計算;
(5)實現(xiàn)分布式數(shù)據(jù)倉庫Hive和Impala對耕地土壤數(shù)據(jù)、農(nóng)產(chǎn)品數(shù)據(jù)構(gòu)建數(shù)據(jù)模型并進(jìn)行存儲;
(6) 實現(xiàn)Yarn對計算資源的統(tǒng)一調(diào)度和管理;
(7)開發(fā)耕地土壤數(shù)據(jù)、農(nóng)產(chǎn)品數(shù)據(jù)的數(shù)據(jù)目錄功能;
(8)開發(fā)耕地土壤數(shù)據(jù)、農(nóng)產(chǎn)品數(shù)據(jù)的數(shù)據(jù)目錄服務(wù)功能;
(9)開發(fā)耕地土壤數(shù)據(jù)、農(nóng)產(chǎn)品數(shù)據(jù)的數(shù)據(jù)共享交換服務(wù)功能;
(10)開發(fā)數(shù)據(jù)共享交換服務(wù)的安全保障功能。
3.云南省耕地土壤環(huán)境質(zhì)量數(shù)據(jù)平臺及分析系統(tǒng)。
一是采樣任務(wù)管理。負(fù)責(zé)現(xiàn)場采集任務(wù)管理、采樣數(shù)據(jù)管理、采樣數(shù)據(jù)匯總分析。擔(dān)任整個項目中“管家”的角色,任務(wù)的操控、數(shù)據(jù)的采集、進(jìn)度的統(tǒng)計都由云南省耕地土壤環(huán)境質(zhì)量數(shù)據(jù)平臺及分析系統(tǒng)管理運作。
管理員可以對采樣任務(wù)進(jìn)行新增、刪除、查詢、修改等管理操作。
每個采樣點系統(tǒng)會生成唯一的編碼(點位編碼)。后續(xù)采樣檢測結(jié)果會依據(jù)該編碼進(jìn)行回填。采樣任務(wù)包括土壤采樣、農(nóng)產(chǎn)品采樣、污染物采樣、其它等類型,創(chuàng)建時可選擇任務(wù)類型。
二是任務(wù)監(jiān)控。各區(qū)縣可監(jiān)控各個采樣點隊伍的采樣任務(wù)完成情況。
各州市可監(jiān)控下轄各個區(qū)縣的采樣任務(wù)完成情況。
省級管理員可監(jiān)控各州市的采樣任務(wù)情況。
三是現(xiàn)場采樣app。采用app可接收平臺下發(fā)的采樣點任務(wù),采樣隊伍收到任務(wù)后即可前往采樣地點完成采樣任務(wù)。采樣隊伍根據(jù)任務(wù)點位來到預(yù)定地點,可打開app進(jìn)行采樣,app調(diào)用拍照功能進(jìn)行現(xiàn)場采樣拍照。完成后,如有網(wǎng)絡(luò)可進(jìn)行上傳,無網(wǎng)絡(luò)則可暫存,等到有網(wǎng)絡(luò)時進(jìn)行上傳。采樣app自動記錄拍照點位精確的經(jīng)緯度信息,以及時間信息,上傳采樣任務(wù)數(shù)據(jù)時,自動上傳經(jīng)緯度和時間信息,確保采樣質(zhì)量。現(xiàn)場采樣完畢后,樣品送到實驗室進(jìn)行檢測,檢測結(jié)果出來后,需進(jìn)入平臺將采樣檢測結(jié)果回填到平臺中。
樣品經(jīng)過實驗室檢測后,可根據(jù)采樣點編碼將采樣檢測結(jié)果回填到對應(yīng)的采樣任務(wù)中。填報完畢后,可提交數(shù)據(jù)進(jìn)行審批校驗。樣品檢測結(jié)果填報完畢后,提交審批員進(jìn)行數(shù)據(jù)審批,審批完成后,任務(wù)狀態(tài)變?yōu)橐淹瓿?,采樣?shù)據(jù)進(jìn)入通過數(shù)據(jù)接口進(jìn)入分布式數(shù)據(jù)庫中。對于非重點監(jiān)測點位,如果采用無人機采集或其他手段采集,可以提供非重點監(jiān)測點位數(shù)據(jù)的填報功能,按設(shè)定的表格填報完成后,提交審批,審批通過后,通過數(shù)據(jù)接口進(jìn)入分布式數(shù)據(jù)庫中。
完成功能:
(1)開發(fā)云南省耕地土壤數(shù)據(jù)平臺,并封裝到農(nóng)業(yè)環(huán)境大數(shù)據(jù)融合管理平臺;
(2)開發(fā)土壤采樣任務(wù)的管理功能,支持采樣任務(wù)系統(tǒng)自動生成;
(3)開發(fā)土壤檢測結(jié)果填報系統(tǒng),支持土壤采樣任務(wù)監(jiān)控功能、支持采樣任務(wù)的催報功能、支持采樣任務(wù)審批;
(4)開發(fā)移動端app,支持任務(wù)接收及數(shù)據(jù)回傳功能;支持自動保存采樣時間和采樣點的經(jīng)緯度坐標(biāo);
(5)開發(fā)云南省土壤基礎(chǔ)信息數(shù)據(jù)管理功能;
(6)開發(fā)土壤檢測化驗數(shù)據(jù)匯總分析功能。
2019年2 月下旬,項目組到玉溪紅塔區(qū)進(jìn)行項目實地測試。根據(jù)項目需求書內(nèi)容,實測了用戶模塊、任務(wù)中心模塊和任務(wù)管理模塊。在實測過程中,信息平臺主要功能均得到實現(xiàn)。同時根據(jù)農(nóng)業(yè)環(huán)境監(jiān)測的要求,通過優(yōu)化算法、增加樣本點位核實功能等手段,對實測中GPS定位精度及協(xié)同檢測工作流程質(zhì)控手段進(jìn)行了優(yōu)化。
2019年3-4 月,采樣app首先在師宗、羅平、會澤、魯?shù)?縣進(jìn)行農(nóng)產(chǎn)品采樣試點工作。在工作過程中,不斷與基層采樣人員溝通、協(xié)同完善采樣功能、優(yōu)化質(zhì)控手段、提高運行效率。項目組成員在培訓(xùn)過程中不斷與采樣人員進(jìn)行溝通交流,聽取基層工作人員對于軟件使用過程中操作細(xì)節(jié)的建議,并將所有建議進(jìn)行完整記錄、匯總分類,之后對軟件進(jìn)行了完善和優(yōu)化。
在師宗縣試點過程中,共完成任務(wù)數(shù)724條,采樣數(shù)556條,核實數(shù)724條,獲得采樣圖片1439張,收集了11條意見,增添了手動添加任務(wù)功能,完善了數(shù)據(jù)采集表單內(nèi)容,優(yōu)化了數(shù)據(jù)同步功能,添加2個范圍標(biāo)識圈,對采集任務(wù)定位誤差的距離做了更加符合基層意見的修改,進(jìn)一步優(yōu)化采樣質(zhì)量控制手段。經(jīng)過對師宗縣試點工作總結(jié),形成通過“試點縣培訓(xùn)+實操指導(dǎo)+獲取修改意見”的軟件迭代更新模式,并將該模式拓展到羅平縣、會澤縣、魯?shù)榭h3縣,不斷完善軟件功能和運行效率。
2019年3月23 日,到羅平縣進(jìn)行了培訓(xùn),之后試點工作共完成任務(wù)數(shù)587條,采樣數(shù)207條,核實數(shù)532條,獲得采樣圖片572張,收集了8條意見,新增步行導(dǎo)航,采樣界面顯示經(jīng)緯度及距離,同時在任務(wù)界面地圖可切換衛(wèi)星影像及電子地圖功能。為進(jìn)一步對采樣進(jìn)行質(zhì)控,對采樣樣品表單修改添加偏移量、偏移說明等字段。
2019年4月2 日,到魯?shù)榭h進(jìn)行了培訓(xùn),共完成任務(wù)數(shù)449條,采樣數(shù)309條,核實數(shù)413條,獲得采樣圖片1363張,獲得3條修改意見,在移動端新增是否采樣狀態(tài)標(biāo)識,并進(jìn)一步優(yōu)化采樣字段。
會澤縣試點工作,共完成任務(wù)數(shù)1127條,采樣數(shù)720條,核實數(shù)645條,獲得采樣圖片1323張,獲得3條修改意見,對后臺各縣任務(wù)進(jìn)度導(dǎo)出功能進(jìn)一步優(yōu)化,對樣品數(shù)據(jù)關(guān)聯(lián)導(dǎo)入核實數(shù)據(jù)進(jìn)行了優(yōu)化。
隨后,在2019年下半年的普及推廣過程中,共協(xié)助27個縣完成7190條采集任務(wù),獲取140種農(nóng)產(chǎn)品樣本,經(jīng)過專業(yè)檢測機構(gòu)評定,最終形成35950組檢測數(shù)據(jù)并順利入庫。2020年,全省剩余98個縣農(nóng)產(chǎn)品協(xié)同檢測樣品采集、信息收集全部采用這個平臺系統(tǒng)。據(jù)后臺統(tǒng)計, 截至2020年7月24日,共完成省級下達(dá)任務(wù)數(shù)8899條,縣級采樣數(shù)5054條,核實數(shù)8475條,獲得采樣圖片35 378張,達(dá)到了農(nóng)產(chǎn)品協(xié)同監(jiān)測采樣、核實、數(shù)據(jù)收集實時質(zhì)量控制要求。
項目進(jìn)行過程中,前期與業(yè)務(wù)單位溝通不及時,部分技術(shù)內(nèi)容未能準(zhǔn)確表達(dá)業(yè)務(wù)意圖。
開發(fā)后期通過與業(yè)務(wù)部門加強溝通,積極深入基層試點示范和培訓(xùn),梳理基層意見,調(diào)整、優(yōu)化軟件功能,保證了項目對業(yè)務(wù)工作支持的可靠和可用。
通過數(shù)據(jù)庫連接、抽取、電子表格數(shù)據(jù)導(dǎo)入、在線監(jiān)測數(shù)據(jù)接入、數(shù)據(jù)上傳接口等多種數(shù)據(jù)融合方式。但因沒有或不能使用地圖底圖圖層數(shù)據(jù)、土壤詳細(xì)數(shù)據(jù)(包含云南省農(nóng)用地土壤分布)、食用農(nóng)產(chǎn)品詳細(xì)數(shù)據(jù)(包含食用農(nóng)產(chǎn)品分布、食用農(nóng)產(chǎn)品種類)、土壤檢測結(jié)果等數(shù)據(jù),故不能快速生成全省土壤質(zhì)量和農(nóng)產(chǎn)品質(zhì)量分析的分布情況、重點污染區(qū)域分布情況,暫不能為決策人員部署實施全省農(nóng)業(yè)環(huán)境污染治理方案提供直觀、有效、科學(xué)的依據(jù)。
為農(nóng)業(yè)環(huán)境監(jiān)測數(shù)據(jù)建立全省統(tǒng)一的采集標(biāo)準(zhǔn)和使用規(guī)范,為現(xiàn)有業(yè)務(wù)數(shù)據(jù)和未來數(shù)據(jù)融合以及使用提供統(tǒng)一標(biāo)準(zhǔn)和規(guī)范。
現(xiàn)有監(jiān)測范圍過窄,監(jiān)測種類數(shù)據(jù)偏少(土壤和農(nóng)產(chǎn)品),無法對農(nóng)業(yè)生態(tài)環(huán)境監(jiān)測信息統(tǒng)一發(fā)布形成有效支撐。
為推廣應(yīng)用農(nóng)產(chǎn)品質(zhì)量安全檔案信息追溯,建立長期有效的農(nóng)產(chǎn)品質(zhì)量安全工作機制,為從農(nóng)田到餐桌“舌尖上的安全”源頭——農(nóng)業(yè)環(huán)境質(zhì)量現(xiàn)狀打下基礎(chǔ)。