王云慧
[摘要]隨著移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等信息技術(shù)不斷發(fā)展,大大的加快了我國農(nóng)業(yè)信息化體系的建設(shè)。結(jié)合大數(shù)據(jù)理論方法,運用Hadoop技術(shù)框架、Hive數(shù)據(jù)分析技術(shù),構(gòu)建了農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺,該平臺能夠解決傳統(tǒng)分析平臺存儲數(shù)據(jù)量小、數(shù)據(jù)結(jié)構(gòu)單一等問題。
[關(guān)鍵詞]大數(shù)據(jù)技術(shù);農(nóng)產(chǎn)品流通;大數(shù)據(jù)分析平臺
[中圖分類號]TP399[文獻(xiàn)標(biāo)識碼]A
新時代信息化背景下,大數(shù)據(jù)無處不在,在“互聯(lián)網(wǎng)+農(nóng)產(chǎn)品流通”模式的視角下,農(nóng)產(chǎn)品流通環(huán)節(jié)面臨數(shù)據(jù)量大、數(shù)據(jù)來源廣泛、數(shù)據(jù)類型多樣、數(shù)據(jù)結(jié)構(gòu)復(fù)雜,難以使用傳統(tǒng)的方法進(jìn)行數(shù)據(jù)的處理和分析等問題。近些年來,隨著大數(shù)據(jù)技術(shù)的不斷推進(jìn),運用大數(shù)據(jù)技術(shù)深入剖析并且有效地整合散落在各處的農(nóng)產(chǎn)品流通過程中產(chǎn)生的大量數(shù)據(jù),進(jìn)行科學(xué)的分析研判,以提高農(nóng)產(chǎn)品資源利用率和流通效率,已成為大家關(guān)注的熱點和政府決策的重點。因此,通過“大數(shù)據(jù)+產(chǎn)業(yè)”策略,構(gòu)建一個農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺,對農(nóng)產(chǎn)品流通環(huán)節(jié)進(jìn)行多個維度(包括農(nóng)產(chǎn)品流通成本、農(nóng)產(chǎn)品市場、農(nóng)產(chǎn)品流通模式、農(nóng)產(chǎn)品流通區(qū)域、農(nóng)產(chǎn)品運輸方式等)的分析和預(yù)測,完善農(nóng)產(chǎn)品流通供應(yīng)鏈,使農(nóng)戶、中小型農(nóng)商企業(yè)更加了解農(nóng)產(chǎn)品信息,幫助農(nóng)戶、農(nóng)商精準(zhǔn)營銷。
1 農(nóng)業(yè)大數(shù)據(jù)
1.1 農(nóng)業(yè)大數(shù)據(jù)簡述
隨著信息技術(shù)的迅速發(fā)展,農(nóng)業(yè)與信息技術(shù)的結(jié)合已逐漸成為農(nóng)業(yè)發(fā)展的新模式。在農(nóng)業(yè)物聯(lián)網(wǎng)新模式中,農(nóng)業(yè)數(shù)據(jù)類型和數(shù)量正以驚人的速度增長。物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,產(chǎn)生了大量的數(shù)據(jù),是大數(shù)據(jù)發(fā)展的源泉,同時,大數(shù)據(jù)也使物聯(lián)網(wǎng)的發(fā)展價值得到了極大的提升空間,它們之間是相輔相成,互相成就的關(guān)系。在我國農(nóng)業(yè)信息化的建設(shè)中,越來越多的以物聯(lián)網(wǎng)傳感器為基礎(chǔ)的終端設(shè)備應(yīng)用到農(nóng)業(yè)中采集大量的數(shù)據(jù),形成了農(nóng)業(yè)大數(shù)據(jù)集,這些農(nóng)業(yè)大數(shù)據(jù)集具有時間性、區(qū)域性、季節(jié)性等特點。從數(shù)據(jù)結(jié)構(gòu)上來講,這些數(shù)據(jù)的結(jié)構(gòu)復(fù)雜,既有結(jié)構(gòu)化數(shù)據(jù),又有半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),這就使海量數(shù)據(jù)在存儲及分析方面存在了問題。近些年來,隨著大數(shù)據(jù)技術(shù)的不斷的推進(jìn),這些問題得到很好的解決,運用大數(shù)據(jù)思維模式對農(nóng)產(chǎn)品從種植到生產(chǎn)、加工再到流通各環(huán)節(jié)的數(shù)據(jù)進(jìn)行深入的剖析,使農(nóng)業(yè)大數(shù)據(jù)的應(yīng)用得到了很好的提升。
1.2 農(nóng)業(yè)大數(shù)據(jù)作用
當(dāng)前,從我國信息化社會建設(shè)的視角出發(fā)分析,大數(shù)據(jù)與產(chǎn)業(yè)的結(jié)合是未來信息化發(fā)展的趨勢。大數(shù)據(jù)與農(nóng)業(yè)相關(guān)學(xué)科進(jìn)行結(jié)合互融,會對我國農(nóng)業(yè)科研的現(xiàn)代化發(fā)展、政府宏觀戰(zhàn)略決策以及涉農(nóng)企業(yè)等領(lǐng)域起到?jīng)Q定性的作用,同時能夠提供全新的思維模式,加快了我國農(nóng)業(yè)信息化的建設(shè)。
1.2.1 大數(shù)據(jù)助力農(nóng)產(chǎn)品流通。農(nóng)產(chǎn)品流通是連接農(nóng)產(chǎn)品生產(chǎn)與消費的紐帶。利用農(nóng)業(yè)大數(shù)據(jù)技術(shù),可以實現(xiàn)農(nóng)產(chǎn)品流通在生產(chǎn)、運輸、包裝、裝卸、搬運、儲存和加工配送等各個環(huán)節(jié)信息的透明化,追溯農(nóng)產(chǎn)品流通的整個過程,很好地解決了傳統(tǒng)農(nóng)產(chǎn)品流通各環(huán)節(jié)中存在的問題。與此同時,還可以更好地預(yù)測農(nóng)產(chǎn)品供需端、產(chǎn)銷端的平衡關(guān)系,并且通過這些數(shù)據(jù)的分析,用于指導(dǎo)農(nóng)戶對農(nóng)產(chǎn)品生產(chǎn)作出決策,維持市場平衡發(fā)展,防止農(nóng)產(chǎn)品價格指數(shù)波動過大,避免農(nóng)戶承受巨大損失。而且,按照預(yù)測,還能夠按需調(diào)配生產(chǎn)資料,經(jīng)過充分調(diào)配,可有效防止生產(chǎn)資料的產(chǎn)能過剩或短缺。同時,運用大數(shù)據(jù)技術(shù)還能夠有效的降低農(nóng)產(chǎn)品追蹤和監(jiān)測的復(fù)雜性,從而提高倉庫、運輸、交易等各個環(huán)節(jié)的運營質(zhì)量。
1.2.2 大數(shù)據(jù)實現(xiàn)農(nóng)業(yè)數(shù)據(jù)資源共享。利用衛(wèi)星定位和物聯(lián)網(wǎng)傳感器設(shè)備采集農(nóng)產(chǎn)品的生長環(huán)境、生產(chǎn)產(chǎn)量、加工存儲、農(nóng)產(chǎn)品安全質(zhì)量檢測、市場流通等數(shù)據(jù),利用大數(shù)據(jù)技術(shù)設(shè)計開發(fā)出農(nóng)業(yè)大數(shù)據(jù)信息資源共享系統(tǒng),讓農(nóng)民人人了解信息技術(shù),促進(jìn)農(nóng)村信息化建設(shè),推進(jìn)物聯(lián)網(wǎng)、大數(shù)據(jù)與農(nóng)業(yè)的深度結(jié)合,從而實現(xiàn)農(nóng)業(yè)大數(shù)據(jù)共享。
2 大數(shù)據(jù)技術(shù)
當(dāng)今社會,大數(shù)據(jù)技術(shù)廣泛使用,它包含了海量復(fù)雜結(jié)構(gòu)的數(shù)據(jù)存儲技術(shù)(HDFS、HBase)、大型數(shù)據(jù)集的分析技術(shù)(Hive),以及數(shù)據(jù)可視化技術(shù)(Echarts)等。目前,以Hadoop生態(tài)圈代表的大數(shù)據(jù)技術(shù),占領(lǐng)了市場的主導(dǎo)地位。
2.1 Hadoop技術(shù)
Hadoop從狹義的角度講,它是一個可以運行在大規(guī)模廉價的計算機(jī)集群上的大數(shù)據(jù)框架,它包括一個分布式文件系統(tǒng)HDFS、一個離線計算框架MapReduce,在Hadoop 2.0之后還增加了一個資源管理器Yarn。由于Hadoop是一個開源的計算框架,它有足夠強(qiáng)大的社群作為支撐,發(fā)展至今已經(jīng)形成了Hadoop生態(tài)體系,也就是宏觀角度上的Hadoop,它在其原有的基礎(chǔ)上還包含了Hive、HBase、Pig、Chukwa、Avro、Zookeeper、Mahout等模塊。下面重點談一下HDFS、MapReduce、Hive、HBase等技術(shù)。
2.2 HDFS技術(shù)
HDFS是基于Hadoop框架下的分布式文件系統(tǒng),它是在谷歌文件系統(tǒng)GFS的基礎(chǔ)上實現(xiàn)了開源,用于將數(shù)據(jù)存儲在廉價計算機(jī)集群上并進(jìn)行管理,適用于大規(guī)模數(shù)據(jù)的存儲并且具有高容錯性、高吞吐量等優(yōu)點,還提供了多種訪問模式。HDFS在設(shè)計上更多的考慮到了數(shù)據(jù)的批處理,而不是用戶交互處理。
2.3 MapReduce技術(shù)
MapReduce是Hadoop的框架的重要組成部分,是一個基于Google公司開源實現(xiàn)的分布式計算框架,谷歌的MapReduce運行在分布式文件系統(tǒng)GFS上,而Hadoop MapReduce則運行在分布式文件系統(tǒng)HDFS上,可以存放和分析各種原始數(shù)據(jù)格式。它具有易于使用、良好的伸縮性、適用于大規(guī)模數(shù)據(jù)處理等特點。在傳統(tǒng)編程時,程序員需要掌握大量的編程細(xì)節(jié),而MapReduce能夠?qū)⒑芏喾爆嵉募?xì)節(jié)隱藏起來,即使沒有經(jīng)驗的程序員也能夠很容易的掌握。
2.4 Hive技術(shù)
Hive是Hadoop架構(gòu)的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)集映射成為一張數(shù)據(jù)庫表,進(jìn)行SQL分析查詢。Hive所有的數(shù)據(jù)都存儲在HDFS,使用的計算模型是MapReduce。它本身沒有特定的數(shù)據(jù)存儲格式,也沒有建立索引,具有熟知,快速,可擴(kuò)展等特點。
2.5 HBase技術(shù)
HBase是Hadoop Database的簡稱,一個分布式的、面向列的開源數(shù)據(jù)庫,屬于NoSQL數(shù)據(jù)庫的一種,可以用來存儲一些非結(jié)構(gòu)化的數(shù)據(jù),用戶可以給行定義一些各種不同的列。HBase提供了Native Java API、HBase Shell、Thrift Gateway、REST Gateway、Pig、Hive等多種訪問接口類型,適合特定的場景使用。它的特點是彌補(bǔ)Hadoop的實時性操作,執(zhí)行效率高,適用于索引方式的訪問。
3 農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺構(gòu)建
3.1 平臺總體框架
本文結(jié)合大數(shù)據(jù)理論方法,運用了Hadoop技術(shù)框架、Hive數(shù)據(jù)分析技術(shù),構(gòu)建了農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺,其包括4個部分:大數(shù)據(jù)采集、大數(shù)據(jù)存儲及處理、大數(shù)據(jù)分析、數(shù)據(jù)可視化。其中平臺總體架構(gòu)如圖1所示:
3.2 大數(shù)據(jù)采集
由于大數(shù)據(jù)來源類型廣泛,大數(shù)據(jù)采集是對不同業(yè)務(wù)系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)、日志文件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行采集。
3.3 大數(shù)據(jù)存儲及處理
3.3.1 大數(shù)據(jù)存儲。利用大數(shù)據(jù)技術(shù)、分布式存儲技術(shù)將多個數(shù)據(jù)源獲取的數(shù)據(jù)進(jìn)行整合并存儲在HDFS中。相對于傳統(tǒng)的本地文件系統(tǒng),HDFS是通過網(wǎng)絡(luò)實現(xiàn)存儲,可將大規(guī)模不同數(shù)據(jù)類型的數(shù)據(jù)存儲在多臺廉價的計算機(jī)上。
3.3.2 大數(shù)據(jù)處理。要對大規(guī)模的數(shù)據(jù)進(jìn)行科學(xué)的分析,由于所采集的數(shù)據(jù)里不是所有的信息都是必需的,而是摻雜了很多無效數(shù)據(jù)。所以,將海量數(shù)據(jù)存儲在分布式存儲集群之后,在此基礎(chǔ)上運用MapReduce做一些簡單的預(yù)處理工作。
3.4 大數(shù)據(jù)分析
大數(shù)據(jù)分析是整個平臺的核心內(nèi)容,用Hive大數(shù)據(jù)分析技術(shù)對農(nóng)產(chǎn)品流通模式、農(nóng)產(chǎn)品流通成本、農(nóng)產(chǎn)品價格、農(nóng)產(chǎn)品流通地區(qū)、農(nóng)產(chǎn)品運輸方式等多個維度進(jìn)行分析挖掘,幫助農(nóng)戶更加精準(zhǔn)的營銷,提高農(nóng)產(chǎn)品流通率。
3.5 數(shù)據(jù)可視化
數(shù)據(jù)通常是枯燥乏味的,相對而言,人們對于大小、圖形、顏色等懷有更加濃厚的興趣。利用Echarts數(shù)據(jù)可視化技術(shù),將分析后的數(shù)據(jù)以柱狀圖、餅圖、折線圖、條形圖、面積圖、散點圖、氣泡圖、燭臺圖等形式呈現(xiàn)給用戶,為用戶提供更加友好的平臺使用體驗,幫助用戶更好的理解數(shù)據(jù)。
4 結(jié)語
本文討論了農(nóng)產(chǎn)品流通大數(shù)據(jù)分析平臺的構(gòu)建,是運用大數(shù)據(jù)技術(shù)Hadoop集群進(jìn)行實現(xiàn)的,將農(nóng)產(chǎn)品流通各個環(huán)節(jié)產(chǎn)生的海量數(shù)據(jù)存儲在HDFS分布式文件系統(tǒng),采用MapReduce進(jìn)行并行計算且與Hive相結(jié)合進(jìn)行多維度數(shù)據(jù)分析,最后將枯燥乏味的數(shù)據(jù)通過Echarts動態(tài)可視化的呈現(xiàn)出來,幫助用戶更好的理解和分析數(shù)據(jù)。該平臺解決了傳統(tǒng)分析平臺存儲數(shù)據(jù)量小、數(shù)據(jù)結(jié)構(gòu)單一等問題,由此可見,基于大數(shù)據(jù)技術(shù)的分析平臺必將成為未來的發(fā)展趨勢。同時,在大數(shù)據(jù)分析過程中使用相應(yīng)的數(shù)據(jù)挖掘算法對數(shù)據(jù)進(jìn)行實時分析,成為下一步研究的重點。
[參考文獻(xiàn)]
[1] 王宏宇.Hadoop平臺在云計算中的應(yīng)用[J].軟件,2011(4):36-38.
[2] 謝晴.大數(shù)據(jù)助力農(nóng)產(chǎn)品流通[J].中國農(nóng)村科技,2014(12):23-25.
[3] 李響.基于Hadoop的云計算基礎(chǔ)架構(gòu)分析[J].計算機(jī)時代,2011(11):20-22.
[4] 楊艷梅.基于Hadoop的應(yīng)用系統(tǒng)框架IMSAA的設(shè)計與實現(xiàn)[D].天津:天津大學(xué),2018.