吳重言+吳成偉+熊燕玲+陶佩瑩
摘要 近年來,農(nóng)業(yè)數(shù)據(jù)的類型和數(shù)量劇烈增長,給農(nóng)業(yè)大數(shù)據(jù)的獲取、集成、存儲與處理帶來了巨大挑戰(zhàn)。云計算、大數(shù)據(jù)等重要技術(shù)為農(nóng)業(yè)提供了解決方法。本文從大數(shù)據(jù)引出農(nóng)業(yè)大數(shù)據(jù)的概念與發(fā)展現(xiàn)狀,介紹了農(nóng)業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù),包括采集、集成、存儲與處理技術(shù),詳細分析了云計算技術(shù)、MapReduce、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫,并對農(nóng)業(yè)大數(shù)據(jù)面臨的挑戰(zhàn)與解決方案提出了思考。
關(guān)鍵詞 農(nóng)業(yè)大數(shù)據(jù);云計算;物聯(lián)網(wǎng);關(guān)鍵技術(shù)
中圖分類號 S126 文獻標識碼 A 文章編號 1007-5739(2017)17-0290-03
Overview of Agriculture Big Data Research
WU Chong-yan 1 WU Cheng-wei 1 XIONG Yan-ling 1 TAO Pei-ying 2
(1 Zhongnong Online Shopping(Jiangsu)E-commerce Co.,Ltd,Yancheng Jiangsu 224000; 2 College of Computer Science in
Nanjing University of Posts and Telecommunications)
Abstract In recent years,the type and quantity of agricultural data has grown dramatically,which brings great challenge to the agricultural data acquisition,integration,storage and processing.Cloud computing,big data and other important technologies provide a solution to agriculture.This paper drew on the concept and development of agricultural big data from big data,and introduced the key technologies of agricultural big data,including the technology of collection,integration,storage and processing,and analyzed the detail of the cloud computing technology,MapReduce,distributed file system,distributed database. Finally,challenges and solutions to the agricultural big data were put forward.
Key words agricultural big data;cloud computing;Internet of things;key technology
1 大數(shù)據(jù)及農(nóng)業(yè)大數(shù)據(jù)概述
1.1 概念和基本特征
目前,對于大數(shù)據(jù)的定義還沒有明確的規(guī)定。Gartner公司認為大數(shù)據(jù)是需要高效和創(chuàng)新的信息處理方式以增強洞察力和決策能力來適應(yīng)大量,高速和多樣化的信息資產(chǎn)[1]。麥肯錫全球研究所提出,大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件工具捕獲、存儲、管理和分析能力的數(shù)據(jù)集[2]。最初大數(shù)據(jù)有三大特征,分別是規(guī)?;╲olume)、多樣性(va-riety)和高速率(velocity)。隨著對大數(shù)據(jù)了解的不斷深入,國際數(shù)據(jù)公司IDC認為其第四特征為有價值(value),IBM提出第四特征為真實性(veriety),也有學者認為第四特征為活力(vitality)。農(nóng)業(yè)大數(shù)據(jù),就是利用大數(shù)據(jù)的理念、技術(shù)和方法,解決農(nóng)業(yè)或涉農(nóng)領(lǐng)域數(shù)據(jù)的采集、存儲、計算與應(yīng)用等一系列問題,是大數(shù)據(jù)的理論和技術(shù)在農(nóng)業(yè)上的應(yīng)用與實踐[3]。農(nóng)業(yè)大數(shù)據(jù)除了具備大數(shù)據(jù)的三大特征以外還具備以下特征:農(nóng)業(yè)大數(shù)據(jù)無所不在(泛在性);農(nóng)業(yè)大數(shù)據(jù)規(guī)律性變化(周期性);農(nóng)業(yè)大數(shù)據(jù)地域性變化(地域性);農(nóng)業(yè)大數(shù)據(jù)反映社會狀態(tài)變化(社會性);農(nóng)業(yè)大數(shù)據(jù)影響交叉(交叉性);農(nóng)業(yè)大數(shù)據(jù)在不同時間差異大(多變性);農(nóng)業(yè)大數(shù)據(jù)間相互聯(lián)系,相互作用(綜合性);農(nóng)業(yè)大數(shù)據(jù)組織分散(分散性)。
1.2 研究進展
《Nature》雜志[4]及《Science》雜志[5]先后出版大數(shù)據(jù)??砻鞔髷?shù)據(jù)的影響力增加以及為大數(shù)據(jù)的發(fā)展帶來了挑戰(zhàn)與機會。同時,國內(nèi)發(fā)表大數(shù)據(jù)論文[6]、開展大數(shù)據(jù)會議、成立計算機學會大數(shù)據(jù)專家委員會、發(fā)布大數(shù)據(jù)白皮書,探討了大數(shù)據(jù)核心問題和重大意義。2009年土壤抽樣分析服務(wù)商Solum和2011年云端上的農(nóng)場Farmeron成立,表明大數(shù)據(jù)已經(jīng)應(yīng)用到農(nóng)業(yè)中,對于挖掘農(nóng)業(yè)價值,制定生產(chǎn)計劃和獲取利益最優(yōu)化具有重要意義。國內(nèi)謝潤梅[7]、許世衛(wèi)[8]和黎玲萍[9]等人也發(fā)表農(nóng)業(yè)大數(shù)據(jù)方面的論文,分析了農(nóng)業(yè)大數(shù)據(jù)的機遇、應(yīng)用并設(shè)計了智能分析平臺,但是對農(nóng)業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù)論述不夠完善。本文在此基礎(chǔ)上介紹了農(nóng)業(yè)大數(shù)據(jù)的獲取、集成、存儲與處理技術(shù),并分析了面臨挑戰(zhàn)與解決方案,有利于實現(xiàn)指導(dǎo)農(nóng)業(yè)實踐、制定生產(chǎn)計劃和實現(xiàn)利益最優(yōu)化。
2 農(nóng)業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù)
農(nóng)業(yè)大數(shù)據(jù)具有泛在性、多樣性、高速率、規(guī)?;忍卣?,傳統(tǒng)的數(shù)據(jù)獲取、集成、存儲與處理技術(shù)無法滿足農(nóng)業(yè)大數(shù)據(jù)的需求。農(nóng)業(yè)大數(shù)據(jù)的出現(xiàn)也必然伴隨著新的關(guān)鍵技術(shù)。
2.1 農(nóng)業(yè)大數(shù)據(jù)獲取
農(nóng)業(yè)大數(shù)據(jù)獲取指的是利用信息技術(shù)對農(nóng)業(yè)要素進行數(shù)據(jù)采集、傳輸?shù)倪^程。農(nóng)業(yè)大數(shù)據(jù)主要包括農(nóng)業(yè)生產(chǎn)環(huán)境數(shù)據(jù)、農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù)、農(nóng)業(yè)市場數(shù)據(jù)和動植物生命信息數(shù)據(jù)。針對不同的數(shù)據(jù)需要不同的采集技術(shù),農(nóng)業(yè)生產(chǎn)環(huán)境數(shù)據(jù),如土壤濕度和溫度、天氣溫度、風速,主要依靠傳感器技術(shù)和光譜、核磁共振等先進檢測技術(shù)獲??;農(nóng)業(yè)網(wǎng)絡(luò)數(shù)據(jù),如網(wǎng)站、論壇上的最新資訊,主要采用爬蟲技術(shù)采集,有利于了解農(nóng)業(yè)大體方向;農(nóng)業(yè)市場經(jīng)濟技術(shù)獲取,如農(nóng)產(chǎn)品價格、農(nóng)產(chǎn)品流通,主要通過RFID識別技術(shù)與智能終端、APP等移動采集技術(shù)獲?。粍又参锷畔⒅悄芨兄?,如檢測動物體溫、植物氮元素含量,主要通過光譜技術(shù)、熱紅外線等技術(shù)獲取。endprint
2.2 農(nóng)業(yè)大數(shù)據(jù)集成技術(shù)
農(nóng)業(yè)大數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),為了對農(nóng)業(yè)大數(shù)據(jù)進行后續(xù)存儲與分析處理,由于農(nóng)業(yè)大數(shù)據(jù)的多樣性,人們將多種類型的復(fù)雜數(shù)據(jù)轉(zhuǎn)化為單一的、易于處理的數(shù)據(jù)。因為轉(zhuǎn)化得到的數(shù)據(jù)可能不正確、無價值,甚至包含噪聲和干擾項,所以最終需要對其進行過濾。傳統(tǒng)的數(shù)據(jù)集成方法分為數(shù)據(jù)復(fù)制方法和模式映射方法。數(shù)據(jù)復(fù)制方法最常用的是數(shù)據(jù)倉庫方法,模式映射方法主要包括聯(lián)邦數(shù)據(jù)庫、中間件集成方法和P2P數(shù)據(jù)集成方法。
隨著農(nóng)業(yè)大數(shù)據(jù)越來越復(fù)雜,新的異構(gòu)數(shù)據(jù)集成技術(shù)涉包括有本體集成技術(shù)[10]、面向?qū)ο蠹夹g(shù)、XML[11]、分布式對象技術(shù)、網(wǎng)絡(luò)技術(shù)、基于CORBA的異構(gòu)數(shù)據(jù)集成技術(shù)、基于Web Service的異構(gòu)數(shù)據(jù)集成技術(shù)[12]。
2.3 農(nóng)業(yè)大數(shù)據(jù)存儲與處理技術(shù)
2.3.1 云計算技術(shù)。面對大數(shù)據(jù)的影響,傳統(tǒng)的數(shù)據(jù)處理平臺存在可擴展性,容錯性等方面的限制,無法滿足實際需求。Google于2006年開創(chuàng)了云計算的概念。云計算是分布式計算,互聯(lián)網(wǎng)技術(shù)和大規(guī)模資源管理技術(shù)的集成和開發(fā),云計算的提出在學術(shù)界和行業(yè)中引起了廣泛的關(guān)注。相關(guān)研究[13]給出了云計算更完整的定義,即云計算是一個由規(guī)模經(jīng)濟驅(qū)動的大規(guī)模分布式模型,其計算資源是抽象的、虛擬的、動態(tài)可擴展的和可管理的,其計算資源、存儲、平臺和服務(wù)通過互聯(lián)網(wǎng)傳遞給外部客戶端。
云計算是大數(shù)據(jù)分析處理技術(shù)的核心原理,也是大數(shù)據(jù)分析應(yīng)用的基礎(chǔ)平臺。首先,云計算靈活,可以根據(jù)負載動態(tài)分配資源,保持負載均衡。其次,云計算支持異構(gòu)網(wǎng)絡(luò)資源應(yīng)用,并利用資源池共享資源,以提高資源重用率,降低運營成本。最后,針對大數(shù)據(jù)的云計算服務(wù),強調(diào)可用性和容錯性,不再僅僅追求準確性和一致性。云計算是大數(shù)據(jù)處理的基礎(chǔ),也是大數(shù)據(jù)分析的支撐技術(shù)[14]。
2.3.2 MapReduce。MapReduce是一種分布式編程模型,它可以支持大型數(shù)據(jù)集的并行和分布式計算。該模型是在分布式計算系統(tǒng)上運行的并行程序數(shù)據(jù)流的抽象,為用戶提供了2個功能,為Map和Reduce的接口。用戶通過覆蓋這2個功能來交互和操縱數(shù)據(jù)流。在MapReduce中,任務(wù)分為幾個相同大小的子任務(wù)。子節(jié)點執(zhí)行Map功能來處理這些子任務(wù),并生成鍵值對
MapReduce系統(tǒng)解決了傳統(tǒng)數(shù)據(jù)庫中可擴展性這一最大的限制,適合大數(shù)據(jù)處理。但與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)相比,MapReduce系統(tǒng)的執(zhí)行性能和準確性差距很大。MapReduce還有很大的改進空間。
2.3.3 分布式文件系統(tǒng)。分布式文件系統(tǒng)是文件系統(tǒng)中的物理存儲資源,不一定直接連接在本地節(jié)點,而是通過計算機網(wǎng)絡(luò)連接與節(jié)點相連。Google最早開發(fā)了Google文件系統(tǒng)(GFS)以處理種類復(fù)雜與數(shù)據(jù)量大的數(shù)據(jù)。GFS是基于分布式集群的大規(guī)模分布式文件系統(tǒng),為MapReduce提供了底層數(shù)據(jù)存儲。由于存儲數(shù)據(jù)的計算機便宜且不可靠,數(shù)據(jù)故障被認為是正常的,所以GFS至少創(chuàng)建3個副本用于存儲數(shù)據(jù)。副本被分發(fā)到不同的計算節(jié)點以提高系統(tǒng)的可靠性。當節(jié)點發(fā)生故障時,系統(tǒng)將快速調(diào)用副本以提高處理效率。
GFS設(shè)計之初只有一個主服務(wù)器用于元數(shù)據(jù)存儲,其他節(jié)點將數(shù)據(jù)存儲為塊服務(wù)器。主機管理文件系統(tǒng)命名空間和鎖定工具。主機定期與塊服務(wù)器通信,收集管理信息,向服務(wù)器發(fā)送命令,承擔負載均衡和故障修復(fù)工作。圖2顯示了GFS的具體配置。
GFS通過一個主服務(wù)器實現(xiàn)大數(shù)據(jù)分布式存儲,簡化了系統(tǒng)設(shè)計,可能會發(fā)生單一服務(wù)器性能瓶頸?;谶@一點,Google改進了GFS,并提出了Colosuss[15],提出了單點故障問題的有效解決方案。
除了Google提出的GFS和Colosuss,還有Hadoop Distr-ibuted File System(HDFS)[16]、Taobao File System(TFS)、Gen-eral Parallel File System(GPFS)、Parallel File System(PFS)、Taobao File System (TFS)、NFS[17]等,這些分布式文件系統(tǒng)由不同的應(yīng)用需求催生而來,能夠按照不同的應(yīng)用需求提供不同的服務(wù)。
2.3.4 分布式數(shù)據(jù)庫。由于大數(shù)據(jù)時代下數(shù)據(jù)量大,數(shù)據(jù)種類多,設(shè)立理念的差異,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不再滿足數(shù)據(jù)存儲要求,為了解決這個問題,Google走在了時代的前列,提出了BigTable數(shù)據(jù)庫。
BigTable數(shù)據(jù)庫是一個基于GFS的分布式數(shù)據(jù)庫,用戶可以更方便、高效地訪問數(shù)據(jù)庫。BigTable使用NoSQL(Not Only SQL)模型有效地解決了傳統(tǒng)并行數(shù)據(jù)庫在可擴展性方面的缺點,并大大提高了數(shù)據(jù)庫系統(tǒng)的可用性和可擴展性。在BigTable數(shù)據(jù)庫中,數(shù)據(jù)以多維表的形式存儲在子表服務(wù)器中,可以通過行名,列名和時間戳索引數(shù)據(jù),以便于用戶查詢。在數(shù)據(jù)庫中,數(shù)據(jù)存儲結(jié)構(gòu)不受限制,因此適用于存儲非結(jié)構(gòu)化數(shù)據(jù)。Chubby服務(wù)器隨時監(jiān)控每個子表服務(wù)器。當Chubby發(fā)現(xiàn)子表的故障時,會及時向主服務(wù)器報告故障,主服務(wù)器接收到故障信息后,會迅速將數(shù)據(jù)傳輸?shù)狡渌颖砩?,以確保正常使用數(shù)據(jù)。主服務(wù)器還可以根據(jù)需要添加或刪除子服務(wù)器。圖3顯示了BigTable的架構(gòu)。
BigTable數(shù)據(jù)庫支持高讀/寫速度,每秒可以執(zhí)行數(shù)百萬次操作。此外,BigTable還可以實現(xiàn)自我管理,動態(tài)添加/刪除子表服務(wù)器,并自動調(diào)整負載平衡。目前,BigTable已經(jīng)在許多項目中使用,例如Google搜索,谷歌地圖等。谷歌在2012年開發(fā)了基于BigTable的Spanner[18]系統(tǒng)。Spanner是最新的Google數(shù)據(jù)庫系統(tǒng),它是實現(xiàn)全球規(guī)模擴張和支持外部一致性的第一個數(shù)據(jù)庫。
除了BigTable以外,其他的適用于大數(shù)據(jù)存儲的分布式數(shù)據(jù)庫有Yahoo! 的PNUTS和Amazon′s 的Dynamo。
3 農(nóng)業(yè)大數(shù)據(jù)面臨的問題與解決方案
大數(shù)據(jù)技術(shù)面臨諸多挑戰(zhàn),例如異構(gòu)數(shù)據(jù)范圍廣泛、實時問題、數(shù)據(jù)不完整、缺乏先驗知識、隱私等。農(nóng)業(yè)大數(shù)據(jù)面臨的問題與大數(shù)據(jù)技術(shù)相一致,但與大數(shù)據(jù)相比,農(nóng)業(yè)大數(shù)據(jù)在安全或隱私問題上并不敏感,農(nóng)業(yè)數(shù)據(jù)挖掘旨在利用結(jié)果指導(dǎo)農(nóng)業(yè)實踐。因此,農(nóng)業(yè)大數(shù)據(jù)總是面臨以下問題。
3.1 農(nóng)業(yè)大數(shù)據(jù)存儲
3.1.1 異構(gòu)數(shù)據(jù)。農(nóng)業(yè)大數(shù)據(jù)從資源來看,數(shù)據(jù)來自無線電設(shè)備,農(nóng)業(yè)信息網(wǎng)站和各種先進的移動終端;從內(nèi)容上看,不僅包括統(tǒng)計資料,還包括與農(nóng)業(yè)相關(guān)的經(jīng)濟實體的基本信息、投資信息、進出口信息和GIS坐標信息;數(shù)據(jù)類型還包括結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。由于對不同,存儲硬件設(shè)備的處理不同,存儲異構(gòu)數(shù)據(jù)以及讀寫能力將是一個值得研究的問題。除了采用分布式文件系統(tǒng),創(chuàng)建索引也是一種解決方案。
3.1.2 異構(gòu)硬件。異構(gòu)硬件也是存儲農(nóng)業(yè)大數(shù)據(jù)的問題之一。在數(shù)據(jù)中心的不同機器之間會有非常顯著的性能差異,不同的硬件設(shè)備具有不同的識字和處理能力,將浪費大量時間等待較慢的存儲設(shè)備。在這種情況下,存儲設(shè)備和服務(wù)器的線性增長不一定會帶來計算能力的線性增長,“木桶效應(yīng)”限制了整個集群的性能。異構(gòu)硬件問題的一般解決方案是在異構(gòu)硬件環(huán)境中的不同方面使用不同的存儲設(shè)備。當異構(gòu)環(huán)境的規(guī)模擴展到數(shù)千個群集時,問題將變得非常復(fù)雜。
3.2 農(nóng)業(yè)大數(shù)據(jù)分析
3.2.1 數(shù)據(jù)分析技術(shù)。數(shù)據(jù)分析是農(nóng)業(yè)大數(shù)據(jù)全過程的核心,農(nóng)業(yè)大數(shù)據(jù)的價值在大數(shù)據(jù)分析過程中產(chǎn)生。目前,糧食安全、土壤管理、有害生物預(yù)報與預(yù)防、農(nóng)業(yè)消費等方面存在諸多問題。原始數(shù)據(jù)來自農(nóng)業(yè)信息的提取和整合,選擇全部或部分數(shù)據(jù)利用農(nóng)業(yè)大數(shù)據(jù)分析來解決這些問題。傳統(tǒng)的分析技術(shù)不適用于處理農(nóng)業(yè)大數(shù)據(jù),例如數(shù)據(jù)挖掘、機器學習、統(tǒng)計分析等技術(shù)。
3.2.2 數(shù)據(jù)挖掘算法。傳統(tǒng)的數(shù)據(jù)挖掘算法,如機器學習等領(lǐng)域,不再適用于農(nóng)業(yè)大數(shù)據(jù)。一方面,挖掘少量數(shù)據(jù)的算法無法直接應(yīng)用于大數(shù)據(jù);另一方面,農(nóng)業(yè)大數(shù)據(jù)具有特殊性,算法的準確性不再是主要標準,在許多情況下,算法需要在時間和處理精度之間取得平衡。
3.2.3 質(zhì)量分析指標。分析結(jié)果質(zhì)量的指標也是一個重大挑戰(zhàn)。大數(shù)據(jù)類型復(fù)雜,導(dǎo)致算法設(shè)計指標的諸多問題。經(jīng)過多年的研究和開發(fā),數(shù)據(jù)挖掘、機器學習、統(tǒng)計分析等信息分析已經(jīng)被證明對小數(shù)據(jù)有顯著的影響。這些算法可以進行調(diào)整,以適應(yīng)云計算系統(tǒng)。但必須注意的是,在這些算法的調(diào)整過程中應(yīng)考慮農(nóng)業(yè)大數(shù)據(jù)實時和可預(yù)測的特征。
3.2.4 算法與結(jié)果評估。評估農(nóng)業(yè)大數(shù)據(jù)算法的結(jié)果是很重要和困難的。根據(jù)農(nóng)業(yè)大數(shù)據(jù)的特點,利用及時性作為衡量標準,利用先驗知識來測試算法。它可以在一定程度上評估算法的質(zhì)量,還可以考查數(shù)據(jù)結(jié)果的可靠性。
3.3 農(nóng)業(yè)大數(shù)據(jù)的及時性
隨著時間的推移,數(shù)據(jù)的固有價值不斷衰減。因此,在分析農(nóng)業(yè)大數(shù)據(jù)時必須考慮及時性。不及時的數(shù)據(jù)分析可能導(dǎo)致農(nóng)業(yè)災(zāi)害的生產(chǎn),特別是在氣象數(shù)據(jù)以及與數(shù)據(jù)分析相關(guān)的環(huán)境條件等方面。例如,低糧價損害農(nóng)民事件的發(fā)生是管理生產(chǎn)成本和其他信息不及時導(dǎo)致的結(jié)果。因此,及時性的特點在農(nóng)業(yè)大數(shù)據(jù)中尤其重要,是農(nóng)業(yè)大數(shù)據(jù)分析的核心需求。大量的研究也圍繞著這一需求而擴大,確保及時性有3種方法。
3.3.1 流處理模式。雖然流式傳輸模式適用于實時系統(tǒng),但其應(yīng)用領(lǐng)域相對有限。流應(yīng)用模型側(cè)重于實時統(tǒng)計系統(tǒng),在線監(jiān)控。
3.3.2 批處理模式。近年來,批量實時系統(tǒng)的發(fā)展已成為熱點話題,取得了很大的成就。
3.3.3 流處理與批處理組合模式。主要思想是使用Map-Reduce編程模型實現(xiàn)流處理。
4 結(jié)語
本文首先介紹了農(nóng)業(yè)大數(shù)據(jù)的定義、特征、大數(shù)據(jù)的國內(nèi)外發(fā)展現(xiàn)狀、農(nóng)業(yè)大數(shù)據(jù)的國內(nèi)外發(fā)展現(xiàn)狀。然后討論了農(nóng)業(yè)大數(shù)據(jù)的獲取和集成技術(shù),特別對云計算技術(shù)、Map-Reduce、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫等存儲處理技術(shù)進行詳細闡述。最后提出農(nóng)業(yè)大數(shù)據(jù)存儲、農(nóng)業(yè)大數(shù)據(jù)分析和及時性農(nóng)業(yè)大數(shù)據(jù)的問題與解決方案。農(nóng)業(yè)大數(shù)據(jù)具有數(shù)據(jù)規(guī)模大、數(shù)據(jù)類型多、數(shù)據(jù)流轉(zhuǎn)快等特征。農(nóng)業(yè)大數(shù)據(jù)的關(guān)鍵技術(shù)能夠從復(fù)雜、海量、散亂的數(shù)據(jù)集合中提取出有價值的信息,在為戶提供生產(chǎn)決策和提高農(nóng)業(yè)生產(chǎn)效率等方面具有重要意義。
5 參考文獻
[1] GANDOMI A,HAIDER M.Beyond the hype:Big data concepts,methods,and analytics[J].International Journal of Information Management,2015, 35(2):137-144.
[2] MANYIKA J,CHUI M,BROWN B,et al.Big Data:The Next Frontier For Innovation,Competition,And Productivity[R].San Francisco:Mckinsey Global Institute,2011.
[3] 孫忠富,杜克明,鄭飛翔,等.大數(shù)據(jù)在智慧農(nóng)業(yè)中研究與應(yīng)用展望[J].中國農(nóng)業(yè)科技導(dǎo)報,2013(6):63-71.
[4] MITCH W.Big data:Wikiomics[J].Nature,2008,455(7209):22-25.
[5] STAFF S.Dealing with data. Challenges and opportunities.Introduction[J].Science,2011,331(6018):692-693.endprint
[6] 王元卓,靳小龍,程學旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學報,2013,36(6):1125-1138.
[7] 謝潤梅.農(nóng)業(yè)大數(shù)據(jù)的獲取與利用[J].安徽農(nóng)業(yè)科學,2015(30):383-385.
[8] 許世衛(wèi),王東杰,李哲敏.大數(shù)據(jù)推動農(nóng)業(yè)現(xiàn)代化應(yīng)用研究[J].中國農(nóng)業(yè)科學,2015,48(17):3429-3438.
[9] 黎玲萍,毛克彪,付秀麗,等.國內(nèi)外農(nóng)業(yè)大數(shù)據(jù)應(yīng)用研究分析[J].高技術(shù)通訊,2016,26(4):414-422.
[10] 潘佳云.基于本體的異構(gòu)數(shù)據(jù)集成技術(shù)研究[D].上海:東華大學,2013.
[11] 薛欣雨.基于XML的出版社業(yè)務(wù)員異構(gòu)數(shù)據(jù)集成系統(tǒng)的設(shè)計及關(guān)鍵技術(shù)研究[D].長沙:中南大學,2013.
[12] 向寒坤,鐘金宏,李興國.基于Axis2的CORBA/Web Services集成方案[J].計算機應(yīng)用與軟件,2010,27(2):108-110.
[13] BERA S,MISRA S,RODRIGUES J J P C. Cloud Computing Applications for Smart Grid:A Survey[J].IEEE Transactions on Parallel & Distributed Systems,2015,26(5):1477-1494.
[14] YANG C,HUANG Q,LI Z,et al.Big Data and cloud computing:innova-tion opportunities and challenges[J].International Journal ot Digital Earth,2016(3):1-41.
[15] MCKUSICK K,QUINLAN S.GFS:evolution on fast-forward[J].Commu-nications of the Acm,2010,53(3):42-49.
[16] SHAFER J,RIXNER S,COW A L.The Hadoop distributed filesystem:Balancing portability and performance[C]//IEEE International Sympos-ium on PERFORMANCE Analysis of Systems & Software.New York: IEEE,2010:122-133.
[17] DAS S.Parallel Network File System with future scope[J].Psycho-Oncologie,2015,4(1):1-4.
[18] COOPER B F.Spanner:Google′s globally-distributed database[J].Acm Transactions on Computer Systems,2012,31(3):251-264.endprint