郭承坤 劉延忠 陳英義 孫敏 屠星月
摘要 大數(shù)據(jù)的應用已經(jīng)成為各領域的研究熱點。大數(shù)據(jù)理念和技術(shù)在我國農(nóng)業(yè)領域應用方面具有一定的特殊性。重點研究分析大數(shù)據(jù)應用在我國農(nóng)業(yè)領域時可能遇到的主要問題,從應用過程分析,包括數(shù)據(jù)獲取過程中的數(shù)據(jù)量化和數(shù)據(jù)共享問題,數(shù)據(jù)處理過程中的預處理和元數(shù)據(jù)產(chǎn)生問題,數(shù)據(jù)分析解釋過程中的客觀性問題。針對上述問題,提出了發(fā)展農(nóng)業(yè)大數(shù)據(jù)的3大任務,包括農(nóng)業(yè)數(shù)據(jù)整合、農(nóng)業(yè)大數(shù)據(jù)平臺構(gòu)建和多元研究團隊培養(yǎng)。
關(guān)鍵詞 農(nóng)業(yè)大數(shù)據(jù);多源異構(gòu)數(shù)據(jù)整合;大數(shù)據(jù)平臺
中圖分類號 S126 文獻標識碼
A 文章編號 0517-6611(2014)27-09642-04
Major Issues and Missions in Agricultural Big Data
GUO Chengkun1,2, LIU Yanzhong3*,CHEN Yingyi1,2 et al
(1.College of Information and Electrical Engineering, China Agricultural University, Beijing 100083; 2.Key Laboratory of Agricultural Information Acquisition Technology, Ministry of Agriculture, Beijing 100083; 3.Institute of Information Technology, Shandong Academy of Agricultural Sciences, Jinan, Shandong 250100)
Abstract Application of big data has become a research hotspot in various fields. The application of big data concept and technology in agriculture has a certain particularity. The issues are concluded by analyzing the process of big data application. The first is quantification and sharing in data acquisition, the second is preprocessing and metadata generation in dispose of data and the third is objectivity in analyzing and interpretation of data. In order to resolve the issues, the three major missions are proposed including agricultural data integration, agricultural big data platform construction and multiteam cultivating.
Key words Agricultural big data; Multisourced heterogeneous integration; Big data platform
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。近年來,大數(shù)據(jù)技術(shù)已經(jīng)在商業(yè)、金融、通信等領域得到了廣泛應用。目前,關(guān)于大數(shù)據(jù)的概念還沒有統(tǒng)一的定義,但其核心概念和思想是一致的。現(xiàn)在通常用 “5V”理論解釋大數(shù)據(jù),即數(shù)據(jù)量大(volume)、處理速度快(velocity)、數(shù)據(jù)類型多(variety)、價值大(value)、精度高(veracity)[1-2]。另外,一些媒體、學者還指出大數(shù)據(jù)具有1C(complexity)的特性,即指數(shù)據(jù)結(jié)構(gòu)復雜,需要新技術(shù)來滿足異構(gòu)數(shù)據(jù)統(tǒng)一接入和實時數(shù)據(jù)處理方面的需求。
隨著精準農(nóng)業(yè)、智慧農(nóng)業(yè)、農(nóng)業(yè)物聯(lián)網(wǎng)的快速發(fā)展,傳統(tǒng)農(nóng)業(yè)向信息化、智能化農(nóng)業(yè)轉(zhuǎn)型,農(nóng)業(yè)各環(huán)節(jié)、各領域中的信息也呈井噴式增長,從而為大數(shù)據(jù)技術(shù)在農(nóng)業(yè)領域的應用提供了數(shù)據(jù)基礎。農(nóng)業(yè)大數(shù)據(jù)即運用大數(shù)據(jù)理念、技術(shù)和方法,解決農(nóng)業(yè)或涉農(nóng)領域數(shù)據(jù)的采集、存儲、計算與應用等一系列問題[3],為糧食安全、農(nóng)業(yè)生態(tài)環(huán)境監(jiān)測、農(nóng)業(yè)精細生產(chǎn)、農(nóng)產(chǎn)品安全管理與溯源、生物品種感知以及農(nóng)業(yè)科研等農(nóng)業(yè)管理與研究提供科學支撐。
雖然大數(shù)據(jù)的理念和技術(shù)具有一定的普適性,但是運用到農(nóng)業(yè)領域時,又有其特殊性。相比于商業(yè)、工業(yè)、公共衛(wèi)生等其他行業(yè),農(nóng)業(yè)數(shù)據(jù)涵蓋面廣、數(shù)據(jù)源復雜,使得大數(shù)據(jù)思維和技術(shù)在農(nóng)業(yè)中的推廣面臨很多挑戰(zhàn),也是目前為止,大數(shù)據(jù)在農(nóng)業(yè)領域中還沒有成熟運用的原因。筆者將農(nóng)業(yè)大數(shù)據(jù)發(fā)展中的主要問題歸結(jié)為以下3點:數(shù)據(jù)有效性問題、數(shù)據(jù)誤解和數(shù)據(jù)等價性問題,并針對這些問題,結(jié)合我國農(nóng)業(yè)現(xiàn)狀,提出了發(fā)展農(nóng)業(yè)大數(shù)據(jù)的3大任務,包括農(nóng)業(yè)數(shù)據(jù)整合、多元研究團隊培養(yǎng)、農(nóng)業(yè)大數(shù)據(jù)平臺構(gòu)建。下面進行詳述。
1 發(fā)展農(nóng)業(yè)大數(shù)據(jù)面臨的主要問題
1.1 數(shù)據(jù)獲取問題
數(shù)據(jù)是應用大數(shù)據(jù)技術(shù)的根本基礎,我國是世界人口大國,也是農(nóng)業(yè)大國,理應擁有龐大的數(shù)據(jù)資源。但是實際存儲下來的數(shù)據(jù)總量僅僅是北美的7%、日本的60%[4]。其中能被有效利用的數(shù)據(jù)則更少,通過研究分析發(fā)現(xiàn),該問題主要是由于數(shù)據(jù)獲取過程量化能力低與管理過程中數(shù)據(jù)共享少造成的。
1.1.1 數(shù)據(jù)量化能力低。
農(nóng)業(yè)普查目前還是我國獲得農(nóng)作物產(chǎn)量數(shù)據(jù)、農(nóng)產(chǎn)品市場價格數(shù)據(jù)等重要數(shù)據(jù)的主要途徑。而農(nóng)業(yè)普查獲得的數(shù)據(jù)極易受人為因素影響。例如,由于普查人員各人利益的原因或業(yè)務素質(zhì)的原因,可能導致數(shù)據(jù)源頭出現(xiàn)質(zhì)量問題;普查機構(gòu)審核控制不嚴密,決策部門制定的普查方案、普查體系瑕疵[5],也會影響農(nóng)業(yè)普查所得的數(shù)據(jù)質(zhì)量。
隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)在農(nóng)業(yè)領域的普及,由機器提供的數(shù)據(jù),將成為大數(shù)據(jù)的主要來源。其中,物聯(lián)網(wǎng)技術(shù)是實現(xiàn)“一切皆可量化”的重要技術(shù),農(nóng)業(yè)物聯(lián)網(wǎng)的核心是采集農(nóng)業(yè)生產(chǎn)過程中影響動植物生長的溫度、濕度、光照、土壤狀況、水質(zhì)狀況、氣象狀況等信息進行加工、傳輸和利用,為農(nóng)業(yè)生產(chǎn)在各個階段的精準管理和預測預警提供信息支持。目前,我國農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)主要應用在蔬菜大棚種植、牲畜養(yǎng)殖、水產(chǎn)養(yǎng)殖等高端農(nóng)產(chǎn)品領域,其應用范圍有限。其他農(nóng)業(yè)物聯(lián)網(wǎng)應用方向,如農(nóng)業(yè)環(huán)境監(jiān)測、智能化節(jié)水灌溉、智能飼料投喂、動植物疾病遠程診斷大都在試驗階段,還沒有大規(guī)模的商業(yè)應用,獲得的數(shù)據(jù)量小,通常掌握在少數(shù)研究機構(gòu)和農(nóng)業(yè)相關(guān)企業(yè)中。
1.1.2 數(shù)據(jù)共享量少。
在市場經(jīng)濟條件下,農(nóng)業(yè)的分散經(jīng)營和生產(chǎn)模式,使得農(nóng)業(yè)生產(chǎn)很難在全國范圍內(nèi)形成統(tǒng)一規(guī)劃,農(nóng)業(yè)信息也分散在各類不同的涉農(nóng)網(wǎng)站及研究管理機構(gòu)數(shù)據(jù)庫中。但是由于體質(zhì)和利益等原因,這些數(shù)據(jù)相互之間缺乏統(tǒng)一標準和規(guī)范,在功能上不能關(guān)聯(lián)互補、信息不能共享互換、信息與業(yè)務流程和應用相互脫節(jié),形成了所謂的“信息孤島”。
例如,在各地的農(nóng)業(yè)信息網(wǎng)站可以查到地方農(nóng)產(chǎn)品批發(fā)市場的糧食、油料、糖煙茶、蔬菜、果品、藥材、植物油、畜禽產(chǎn)品、水產(chǎn)品當天的價格信息,但是無法查閱或下載農(nóng)產(chǎn)品價格歷史數(shù)據(jù)。其他農(nóng)業(yè)數(shù)據(jù),如農(nóng)作物長勢數(shù)據(jù)、病蟲害數(shù)據(jù)、農(nóng)產(chǎn)品供應、需求數(shù)據(jù)等,目前主要是以半結(jié)構(gòu)化或非結(jié)構(gòu)化的形式分散存儲在一些農(nóng)業(yè)信息平臺上,或者在一些研究機構(gòu)的數(shù)據(jù)庫中,難以形成規(guī)模,以大數(shù)據(jù)的方法進行利用。
另一方面,目前農(nóng)產(chǎn)品質(zhì)量安全追溯系統(tǒng)的應用范圍較大,是農(nóng)業(yè)數(shù)據(jù)的重要來源。國內(nèi)較有影響力的農(nóng)產(chǎn)品溯源系統(tǒng)主要有上海食用農(nóng)副產(chǎn)品質(zhì)量安全信息查詢系統(tǒng)、北京市農(nóng)業(yè)局食用食品(蔬菜)質(zhì)量安全追溯、世紀三農(nóng)“食品安全追溯管理系統(tǒng)”、中國牛肉全程質(zhì)量安全追溯管理系統(tǒng)、國家蔬菜質(zhì)量安全追溯體系[6]。然而,它們從識別碼、存儲信息到網(wǎng)絡查詢系統(tǒng)等各方面都不完全統(tǒng)一,所針對的食品對象也不盡相同。由于開發(fā)商不同,其溯源信息的存儲未能貫通也不能達到共享,無法進行跨系統(tǒng)查詢。
1.2 數(shù)據(jù)處理與管理問題
在小數(shù)據(jù)時代的背景下研究農(nóng)業(yè),要求數(shù)據(jù)精確可靠,所使用的數(shù)學模型也比較復雜。許多學者希望將這些模型、方法直接用在大數(shù)據(jù)上。在一些情況下是可行的,但是通常會遇到下述兩個問題,即數(shù)據(jù)預處理和元數(shù)據(jù)產(chǎn)生的問題。
1.2.1 數(shù)據(jù)預處理。在數(shù)據(jù)量不大的情況下,容易使要求數(shù)據(jù)盡量滿足規(guī)范和需求。而農(nóng)業(yè)大數(shù)據(jù)包含大量多源異構(gòu)數(shù)據(jù),且數(shù)據(jù)質(zhì)量參差不齊。因此在分析運用數(shù)據(jù)之前,有必要對數(shù)據(jù)進行預處理。針對大量結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)需要進行數(shù)據(jù)整合,使其滿足使用需求,能夠完成數(shù)據(jù)之間的交互和協(xié)同。同時,還需對價值不大,或不感興趣的數(shù)據(jù),以及故障數(shù)據(jù)、異常數(shù)據(jù)進行剔除和清理。由于農(nóng)業(yè)分散經(jīng)營,個體差異大,因此如何整合清理來自不同數(shù)據(jù)源的數(shù)據(jù),并使其有效地應用大數(shù)據(jù)分析,是發(fā)展農(nóng)業(yè)大數(shù)據(jù)面臨的巨大挑戰(zhàn)。
1.2.2 元數(shù)據(jù)。
數(shù)據(jù)清理完成后,就需要建立“元數(shù)據(jù)”,即用來描述數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)的主要內(nèi)容是數(shù)據(jù)的來源、采集方式、采集時間、采集人等。不同的行業(yè)或項目的研究目的不同,需要不同的元數(shù)據(jù)格式,如何設計適用于農(nóng)業(yè)的元數(shù)據(jù)格式,將成為一個研究難點。農(nóng)業(yè)大數(shù)據(jù)的多樣性、復雜性、多源異構(gòu)性,要求多模態(tài)的數(shù)據(jù)管理處理方式,而元數(shù)據(jù)的建立是數(shù)據(jù)處理與管理的重要依據(jù)。例如,管理與處理農(nóng)業(yè)教學視頻及農(nóng)產(chǎn)品品種圖片、專家建議語音的過程中,需要對各類數(shù)據(jù)的不同特征進行描述,滿足使用者分析查詢的要求。
1.3 數(shù)據(jù)分析解釋客觀性問題
面對農(nóng)業(yè)領域的大數(shù)據(jù),任何有效的大數(shù)據(jù)工具和方法都可以對其進行分析。但是不同的機構(gòu)有各自的標準和規(guī)范,其解釋數(shù)據(jù)的結(jié)果也必然帶有主觀性,造成“數(shù)據(jù)偏見”。
因此需要考慮用以分析的數(shù)據(jù)能否代表“客觀事實”,分析人員在清洗數(shù)據(jù)時,是否會將“不利”數(shù)據(jù)忽略,在得出統(tǒng)計結(jié)論時,是否被人為地忽略掉一些重要結(jié)論。從技術(shù)層面看,分析人員可以使用多種免費的工具如R、Hadoop、Pig等,結(jié)合具體的統(tǒng)計分析方法,將數(shù)據(jù)“塑造”成其預期的模式[7]。其次,在數(shù)值結(jié)果或者圖表產(chǎn)生后,對數(shù)據(jù)的解釋過程中,也不免受到分析人員的主觀意見影響,從而使數(shù)據(jù)分析結(jié)果偏離客觀現(xiàn)實,難以真實科學地反映科學事實。
2 發(fā)展農(nóng)業(yè)大數(shù)據(jù)的主要任務
2.1 農(nóng)業(yè)數(shù)據(jù)整合
進入大數(shù)據(jù)時代,面對更多、更雜的數(shù)據(jù),研究者在處理數(shù)據(jù)時,思維需要首先發(fā)生重大的變化。在研究農(nóng)業(yè)科學時,不應再追求小范圍內(nèi)的精確數(shù)據(jù),而應接受數(shù)據(jù)的多樣性、混雜性。曾經(jīng)認為是廢棄的數(shù)據(jù),也有其價值。如在農(nóng)業(yè)物聯(lián)網(wǎng)應用場景中,由于傳感器異常導致的錯誤數(shù)據(jù),會影響農(nóng)業(yè)物聯(lián)網(wǎng)的商業(yè)應用和傳統(tǒng)農(nóng)業(yè)科學的研究,但是將此類異常數(shù)據(jù)作為傳感器故障診斷研究的樣本數(shù)據(jù),當其數(shù)據(jù)量足以作為研究故障診斷的“全體數(shù)據(jù)”時,將發(fā)揮重要作用。
在小數(shù)據(jù)時代,統(tǒng)計學家收集樣本的時候,會制定一整套的策略來減少錯誤發(fā)生的概率。在收集好樣本后,還需檢查是否有系統(tǒng)性偏差的發(fā)生。在統(tǒng)計結(jié)果發(fā)布前,檢驗結(jié)果是否在誤差范圍內(nèi)。這些策略的實施,需要制定各種數(shù)據(jù)格式、協(xié)議,需要經(jīng)過專門訓練的專家來采集樣本。這些工作即使在少量數(shù)據(jù)的時候,也耗費巨大。由于農(nóng)業(yè)環(huán)境的復雜性、研究對象的多樣性,在大規(guī)模數(shù)據(jù)的基礎上保持數(shù)據(jù)的質(zhì)量和一致性在目前是不現(xiàn)實的。隨著農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)和數(shù)據(jù)處理技術(shù)的進步,這種不準確性會逐漸減弱,但是一定會長期存在。所以,接受數(shù)據(jù)的不準確性是發(fā)展農(nóng)業(yè)大數(shù)據(jù)時需要堅持的思想。
數(shù)據(jù)融合技術(shù)在整合農(nóng)業(yè)數(shù)據(jù)時將發(fā)揮重大作用,數(shù)據(jù)融合的目的簡而言之就是將來自多個傳感器或多源信息進行綜合處理,從而得到更為準確、可靠的結(jié)論[8]。數(shù)據(jù)融合技術(shù)可以融合來自同一平臺的或者不同平臺的多傳感器數(shù)據(jù)。按照數(shù)據(jù)抽象層次分類的話,數(shù)據(jù)融合技術(shù)可以分為像素級融合、特征級融合和決策級融合3類。目前,對于數(shù)據(jù)融合的研究,多是根據(jù)實際應用問題,使用“定制”的融合方案,還缺乏統(tǒng)一的理論框架和融合模型。建立適用于農(nóng)業(yè)領域的數(shù)據(jù)融合模型也是發(fā)展農(nóng)業(yè)大數(shù)據(jù)的一個重要任務。
數(shù)據(jù)融合系統(tǒng)主要包括3個組件:輸入數(shù)據(jù)預處理模塊、輸入數(shù)據(jù)集融合和過濾模塊、數(shù)據(jù)集后處理模塊。系統(tǒng)運行的主要流程如圖1所示。
預處理組件首先需要對數(shù)據(jù)冗余進行清理,然后將異構(gòu)數(shù)據(jù)格式轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式標準,在數(shù)據(jù)格式轉(zhuǎn)換后,需要對可能產(chǎn)生的誤差進行分析和校正。預處理器的輸出將作為融合系統(tǒng)的輸入,首先輸入到數(shù)據(jù)融合模型中。融合模型的研究是整個數(shù)據(jù)融合系統(tǒng)的重點,目前主要使用的方法有產(chǎn)生式規(guī)則、模糊邏輯、神經(jīng)網(wǎng)絡等。模型處理后的結(jié)果可能存在系統(tǒng)誤差,所以需要對模型結(jié)果進行誤差分析和校正。在數(shù)據(jù)融合后處理器中,對融合結(jié)果進行實際驗證和手動校正,然后將輸出結(jié)果轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)交換格式。
2.2 農(nóng)業(yè)大數(shù)據(jù)平臺搭建
為全面、規(guī)范、及時地采集農(nóng)業(yè)數(shù)據(jù),并在第一時間對大量的、異構(gòu)的農(nóng)業(yè)數(shù)據(jù)進行分析處理,需要建立一個農(nóng)業(yè)大數(shù)據(jù)平臺。首先,需要統(tǒng)一數(shù)據(jù)采集、上報接口。在技術(shù)上,可以基于SOAP(Simple Object Access Protocol)協(xié)議,建立一套適合于農(nóng)業(yè)的數(shù)據(jù)交換協(xié)議,通過該數(shù)據(jù)交換協(xié)議,可以將原來已經(jīng)廣泛存在于Internet上的農(nóng)業(yè)信息通過主動或者被動方式收集起來,還可以為以后的數(shù)據(jù)采集、上報提供一套標準接口。在大數(shù)據(jù)平臺中,還應該使用Web Service等技術(shù),向外提供一套標準數(shù)據(jù)訪問接口,其他農(nóng)業(yè)類網(wǎng)站、政府、研究機構(gòu)可以通過這一接口訪問到平臺中的數(shù)據(jù)。
在數(shù)據(jù)處理方面,為能及時快速地處理大量的、多源的農(nóng)業(yè)數(shù)據(jù),需要探索并應用目前業(yè)界廣為流行的分布式計算以及分布式存儲系統(tǒng),如Hadoop+Hbase的分布式文件系統(tǒng)架構(gòu)。在此之上,為使平臺業(yè)務與數(shù)據(jù)操作相隔離,幫助農(nóng)業(yè)研究者專心于業(yè)務領域,而不是復雜的大數(shù)據(jù)操作,平臺應該基于MVC(Model+View+Controller)的設計架構(gòu),將對文件系統(tǒng)的MapReduce操作封裝到Model層里。在View層和Controller層提供更多的可擴展性和可配置性,以使從事不同農(nóng)業(yè)領域的農(nóng)業(yè)工作者、數(shù)據(jù)上報人員、數(shù)據(jù)分析人員可以根據(jù)自身需求,定制平臺中的相關(guān)功能。
在業(yè)務方面,農(nóng)業(yè)大數(shù)據(jù)平臺應該盡可能覆蓋我國已經(jīng)發(fā)展較好且已有一定信息化基礎的農(nóng)業(yè)產(chǎn)業(yè),如糧食作物、經(jīng)濟作物、果樹種植、蔬菜種植、林木花卉、畜禽養(yǎng)殖、水產(chǎn)養(yǎng)殖、農(nóng)產(chǎn)品物流等至少8項農(nóng)業(yè)產(chǎn)業(yè);提供包括農(nóng)情(苗情、墑情、災情、病蟲害)、市場(價格、供求)、農(nóng)業(yè)資訊(新聞、行業(yè)信息)等信息服務;基于大數(shù)據(jù)技術(shù),研發(fā)智能化的決策支持系統(tǒng),可提供大數(shù)據(jù)分析成果發(fā)布和決策管理信息發(fā)布,為科研機構(gòu)、政府等農(nóng)業(yè)管理者提供技術(shù)和決策支持,為農(nóng)業(yè)從業(yè)者提供個性化的生產(chǎn)指導。
該研究設計了農(nóng)業(yè)大數(shù)據(jù)平臺(圖2), Web網(wǎng)站接收到需要增刪改查數(shù)據(jù)的請求后,將操作數(shù)據(jù)的請求發(fā)送給HBase的HMaster,HMaster負責管理所有的HRegion Server(ZooKeeper用于保存root region地址和跟蹤region服務器),而HRegion Server又管理了多個HRegion。在物理上,HRegion被分為了3個部分:Hmemcache、Hlog、HStore,分別存儲緩存、日志和持久層。在持久層中,每個Store實例包含了1個或多個StoreFile實例,它們是實際數(shù)據(jù)存儲文件HFile的輕量級封裝,而實際存儲文件的功能是由HFile實現(xiàn)的。Hbase的HFile基于Hadoop 的TFile類,對于持久層的操作將被該類作為一個MapReduce請求通過Client提交到Hadoop的JobTracker端,最后到達數(shù)據(jù)的存儲位置DataNode。Hadoop內(nèi)部的數(shù)據(jù)處理過程已經(jīng)超過該研究的討論范圍,詳細內(nèi)容可在相關(guān)書籍中查閱。
2.3 多元團隊培養(yǎng)
建立在相關(guān)關(guān)系分析的基礎上進行預測是大數(shù)據(jù)的核心。傳統(tǒng)農(nóng)業(yè)科學的研究方法基于小而精的數(shù)據(jù)樣本,然后通過機理性的研究對某機理模型中的參數(shù)進行校正,或者采用啟發(fā)式算法對某特定參數(shù)進行預測。兩種方法各有優(yōu)劣。機理模型的研究方法需要提前做出假設,然后通過數(shù)據(jù)進行驗證,其解釋性更好,但是容易受固有思維和偏見的影響,無法發(fā)現(xiàn)新的規(guī)律。啟發(fā)式算法可以不受機理模型的局限,隨著樣本的增大,可以逐漸接近真實情況;但是限于數(shù)據(jù)量的限制和計算的復雜度,通??紤]的因素較少,如在預測養(yǎng)殖水體的溶氧時,輸入模型的參數(shù)通常只有水溶氧、入水溫度、池水溫度、室溫、水深、pH、鹽度和氣壓等,而實際影響溶氧的因素還包括動植物、氣象等各種其他因素。所以傳統(tǒng)啟發(fā)式算法的結(jié)果在解釋性上必然受限。
如上所述,農(nóng)業(yè)科學中因果關(guān)系的探究較為復雜。但是,利用大數(shù)據(jù)技術(shù)進行相關(guān)關(guān)系的分析可以突破這些局限。大數(shù)據(jù)的相關(guān)關(guān)系分析法更準確、更快,而且不易受偏見的影響,可以使人們更好地認識農(nóng)業(yè)領域,甚至發(fā)現(xiàn)新的知識。但是,大數(shù)據(jù)本身并不具有自解釋性,只是為理論研究提供了“客觀真理”。因此,可以在這個“客觀真理”的前提下,提出更合理的假設,指導因果關(guān)系的研究。
對于農(nóng)業(yè)中這些錯綜復雜的因果關(guān)系的研究,需要多學科配合的團隊。農(nóng)業(yè)專家、傳感器及傳感器網(wǎng)絡工程師、氣象學家、IT、統(tǒng)計分析人員[6]都是團隊中不可缺少的成員。收集的數(shù)據(jù)越多、越全面,可以發(fā)掘到的相關(guān)關(guān)系就越多,而對其進行解釋的難度就越大。所以,在將大數(shù)據(jù)技術(shù)應用于農(nóng)業(yè)領域時,構(gòu)建一個多元的學科團隊是十分必要的。
3 結(jié)論和展望
大數(shù)據(jù)、物聯(lián)網(wǎng)、云計算等信息技術(shù)已經(jīng)在軍事、商業(yè)中得到了較為廣泛的應用,這些新一代的信息技術(shù)正在深刻地改變著人們的生產(chǎn)和生活方式。作為我國支柱產(chǎn)業(yè)的農(nóng)業(yè),也正在經(jīng)歷著向信息化和智能化方向的轉(zhuǎn)變。該研究總結(jié)了在農(nóng)業(yè)中使用大數(shù)據(jù)技術(shù)可能遇到的3大問題:數(shù)據(jù)、技術(shù)、思維。在大數(shù)據(jù)時代,數(shù)據(jù)、技術(shù)、思維是3大核心競爭力。三者必居其一,才有可能發(fā)揮大數(shù)據(jù)技術(shù)的優(yōu)勢[9]。要在大數(shù)據(jù)時代發(fā)展農(nóng)業(yè),可以將數(shù)據(jù)、技術(shù)、思維比作大數(shù)據(jù)時代的生產(chǎn)資料、生產(chǎn)工具與生產(chǎn)者。三者互為條件,協(xié)調(diào)發(fā)展,才能保證大數(shù)據(jù)在農(nóng)業(yè)領域能得到充分的應用。今后的研究可以遵循該研究提出的整合農(nóng)業(yè)數(shù)據(jù),構(gòu)建多元團隊,建立農(nóng)業(yè)大數(shù)據(jù)平臺的3個農(nóng)業(yè)大數(shù)據(jù)發(fā)展思路和方法,融合來自農(nóng)業(yè)中不同領域的數(shù)據(jù),結(jié)合各領域?qū)<抑R和大數(shù)據(jù)分析工具,提高農(nóng)業(yè)信息化和智能化水平。
參考文獻
[1]
孟小峰, 慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展, 2013(1):146-169.
[2] LUO S,WANG Z,WANG Z.Bigdata analytics: Challenges, key technologies and prospects[J]. ZTE Communications, 2013(2):11-17.
[3] 孫忠富, 杜克明, 鄭飛翔, 等. 大數(shù)據(jù)在智慧農(nóng)業(yè)中研究與應用展望[J]. 中國農(nóng)業(yè)科技導報, 2013(6):63-71.
[4] 溫孚江.農(nóng)業(yè)大數(shù)據(jù)研究的戰(zhàn)略意義與協(xié)同機制[J].高等農(nóng)業(yè)教育, 2013(11):3-6.
[5] 霍蓉.淺談影響農(nóng)業(yè)普查數(shù)據(jù)質(zhì)量控制的因素與對策[J].青海統(tǒng)計, 2008(3):31-33.
[6] 陳華.食品質(zhì)量溯源系統(tǒng)的現(xiàn)狀及發(fā)展建議[J].湖南農(nóng)業(yè)科學, 2010(21):87.
[7] LUDENA,DENNIS A,AHRARY,et al.Big data's risks and opportunities for ICT agriculture[C]//Advanced Applied Informatics (IIAIAAI), 2013 IIAI International Conference.Los Alamitos, CA,2013:116-120.
[8] 高翔, 王勇.數(shù)據(jù)融合技術(shù)綜述[J].計算機自動測量與控制, 2002(11):706-709.
[9] MAYERSCHNBERGER V,CUKIER K.Big data: A revolution that will transform how we live, work, and think[M].Houghton Mifflin Harcourt, USA, 2014.