黃天天 張麒 彭佳紅
摘要:控制農(nóng)業(yè)面源污染,保護(hù)農(nóng)業(yè)生產(chǎn)環(huán)境具有重大意義。采用數(shù)據(jù)挖掘技術(shù)中的聚類Kmeans算法對(duì)2011年我國(guó)各地區(qū)農(nóng)用化肥、農(nóng)藥、農(nóng)膜、地膜、農(nóng)用柴油以及畜禽糞尿排泄使用密度進(jìn)行聚類分析,結(jié)果顯示全國(guó)有15個(gè)省份屬于畜禽養(yǎng)殖重污染區(qū)域,13個(gè)省份屬于農(nóng)資污染偏高,畜禽養(yǎng)殖污染偏低區(qū)域,4個(gè)省份屬于農(nóng)資污染嚴(yán)重區(qū)域,從結(jié)果中了解到了各地農(nóng)業(yè)面源污染形成的原因,能夠輔助農(nóng)業(yè)面源污染的預(yù)防和治理。
關(guān)鍵詞:農(nóng)業(yè)面源污染;數(shù)據(jù)挖掘;聚類算法
中圖分類號(hào): TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)25-5988-03
1 概述
長(zhǎng)期以來(lái),我國(guó)農(nóng)業(yè)生產(chǎn)為了提高產(chǎn)量,大量使用化肥、農(nóng)藥等投入品,引發(fā)了嚴(yán)重的農(nóng)業(yè)面源污染,破壞了農(nóng)業(yè)生態(tài)環(huán)境,制約了農(nóng)業(yè)經(jīng)濟(jì)社會(huì)的可持續(xù)發(fā)展,引起了我國(guó)政府的高度重視,并在《國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十一個(gè)五年規(guī)劃綱要》明確提出要“防治農(nóng)藥、化肥和農(nóng)膜等面源污染”[1]。農(nóng)業(yè)面源污染,又稱農(nóng)業(yè)非點(diǎn)源污染,也稱農(nóng)業(yè)擴(kuò)散性污染,是指在農(nóng)業(yè)生產(chǎn)活動(dòng)中,氮素和磷素等營(yíng)養(yǎng)物質(zhì)、農(nóng)藥以及其它有機(jī)或無(wú)機(jī)污染物通過(guò)農(nóng)田的地表徑流和農(nóng)田滲漏造成水環(huán)境的污染,主要包括化肥污染、農(nóng)藥污染、畜禽養(yǎng)殖污染[2]。農(nóng)業(yè)面源污染的特點(diǎn)是面廣、分散、隱蔽、來(lái)源多、增長(zhǎng)快、處理率低。
聚類分析是多元統(tǒng)計(jì)分析方法中的一種,是非監(jiān)督模式識(shí)別的一個(gè)重要分支。聚類是按照事物的某些屬性,把事物聚集成簇,使簇內(nèi)的對(duì)象之間具有較高的相似性,而不同簇的對(duì)象之間的相似程度較差。采用數(shù)據(jù)挖掘的聚類技術(shù)從現(xiàn)有的農(nóng)業(yè)生產(chǎn)中關(guān)于化肥、農(nóng)藥、農(nóng)膜的投入以及畜禽污染物排泄的數(shù)據(jù)中獲取相關(guān)知識(shí),以加強(qiáng)對(duì)農(nóng)業(yè)面源污染的形成原因進(jìn)行更加全面的認(rèn)識(shí),輔助快速而有效的控制面源污染,便于農(nóng)業(yè)面源污染的預(yù)防和治理。
2 材料與方法
2.1 數(shù)據(jù)來(lái)源
數(shù)據(jù)來(lái)源于2013年中國(guó)農(nóng)村統(tǒng)計(jì)年鑒[4]和2012年中國(guó)農(nóng)業(yè)年鑒[5]。針對(duì)造成農(nóng)業(yè)土壤污染的污染面源,選取化肥使用密度、農(nóng)藥使用密度、農(nóng)膜使用密度、地膜使用密度、農(nóng)用柴油使用密度和畜禽糞尿排泄密度六項(xiàng)項(xiàng)指標(biāo)進(jìn)行測(cè)算,其中化肥、農(nóng)藥、農(nóng)膜、地膜和柴油使用密度這 5 項(xiàng)指標(biāo)分別用農(nóng)作物單位耕地面積的化肥使用量、農(nóng)藥使用量、農(nóng)膜使用量、地膜使用量和柴油使用量來(lái)表示。畜禽糞尿排泄密度用農(nóng)作物單位面積的畜禽糞尿排放量表示, 其中畜禽糞尿排放量用畜禽年末出欄數(shù)量和年排泄系數(shù)[6]的乘積來(lái)表示,處理后的數(shù)據(jù)如表1所示。
2.2 聚類技術(shù)Kmeans算法
聚類通常指一個(gè)類簇內(nèi)的實(shí)體是相似的,不同類簇的實(shí)體不相似;一個(gè)類簇是測(cè)試空間中點(diǎn)的會(huì)聚,同一類簇的任意兩個(gè)點(diǎn)間的距離小于不同類簇的任意兩個(gè)點(diǎn)間的距離。類簇可以描述為一個(gè)包含密度相對(duì)較高的點(diǎn)集的多維空間中的連通區(qū)域 [7]。聚類算法的選取主要取決于所研究數(shù)據(jù)的類型、聚類的目的和應(yīng)用等。聚類算法大致上可分為層次聚類算法、劃分式聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法等[8]。
Kmeans算法是一種基于劃分的聚類算法,它通過(guò)不斷的迭代過(guò)程來(lái)進(jìn)行聚類,當(dāng)算法收斂到一個(gè)結(jié)束條件時(shí)就終止迭代過(guò)程輸出聚類結(jié)果。該算法的基本流程:先指定需要?jiǎng)澐值拇氐膫€(gè)數(shù)k值;然后隨機(jī)地選擇幾個(gè)初始數(shù)據(jù)對(duì)象點(diǎn)作為初始的聚類中心;第三,計(jì)算其余的各個(gè)數(shù)據(jù)對(duì)象到這個(gè)初始聚類中心的距離,把數(shù)據(jù)對(duì)象劃歸到距離它最近的那個(gè)中心所處在的簇類中;最后,調(diào)整新類并且重新計(jì)算出新類的中心,如果兩次計(jì)算出來(lái)的聚類中心未曾發(fā)生任何的變化,那么就可以說(shuō)明數(shù)據(jù)對(duì)象的調(diào)整已經(jīng)結(jié)束,也就是說(shuō)聚類釆用的準(zhǔn)則函數(shù)是收斂的,算法結(jié)束[9]。
2.3 數(shù)據(jù)處理
利用Weka軟件,采用Kmeans聚類算法,對(duì)表1的數(shù)據(jù)進(jìn)行聚類處理,得到的挖掘結(jié)果如下所示:
kMeans
Number of iterations: 3
Within cluster sum of squared errors: 4.435785382426557
Missing values globally replaced with mean/mode
Cluster centroids:
Attribute Full Data ① 第1類包含15個(gè)省份,這些省份單位面積畜禽糞尿排放密度(均值20167.0667)很高,而其他污染面源使用密度較低。
② 第2類包含12個(gè)省份,這些省份農(nóng)用化肥使用密度很高(均值646.275),農(nóng)藥使用密度(均值22.3725)偏高,地膜使用密度(均值96.0375)偏低,其余污染面源均在全國(guó)平均水平。
③ 第3類包含4個(gè)省份,這一區(qū)域單位面積畜禽糞尿排放密度(均值15811.5)明顯偏低,而其他污染面源使用密度都非常高。
3 結(jié)果分析
分析聚類Kmeans算法聚類結(jié)果,我們可以得出以下結(jié)論:
第一類的15個(gè)省份,分別是山西,內(nèi)蒙古,遼寧,吉林,黑龍江,重慶,四川,貴州,云南,西藏,陜西,甘肅,青海,寧夏,新疆,具有畜禽養(yǎng)殖污染嚴(yán)重以及單位面積農(nóng)農(nóng)資投入量較低的特點(diǎn)。該區(qū)域畜牧業(yè)發(fā)達(dá),種植業(yè)欠發(fā)達(dá),畜禽糞尿排放密度高于其它地區(qū),屬于畜禽養(yǎng)殖重污染區(qū)域。
第二類的13個(gè)省份,包括北京,天津,河北,江蘇,安徽,江西,山東,河南,湖北,湖南,廣東,廣西,具有化肥使用密度偏高和畜禽養(yǎng)殖污染較低的特點(diǎn),該類區(qū)域農(nóng)業(yè)生產(chǎn)有一定規(guī)模,畜牧業(yè)也有一定發(fā)展,屬于農(nóng)資污染偏高,畜禽養(yǎng)殖偏低區(qū)域。
第三類的4個(gè)省份,分別是上海,浙江,福建,海南,具有畜禽養(yǎng)殖污染明顯偏低以及單位面積農(nóng)資使用密度突出的特點(diǎn)。該類區(qū)域農(nóng)業(yè)生產(chǎn)規(guī)模大,農(nóng)資投入量很高,各類農(nóng)資單位面積使用量遠(yuǎn)超全國(guó)平均水平,屬于農(nóng)資污染嚴(yán)重區(qū)域。
4 結(jié)論
農(nóng)業(yè)面源污染具有污染源多樣性、非特定性、不確定性等特點(diǎn),已經(jīng)對(duì)我國(guó)農(nóng)業(yè)現(xiàn)代化和農(nóng)村發(fā)展產(chǎn)生嚴(yán)重的影響,因此進(jìn)一步提高對(duì)農(nóng)業(yè)面源污染認(rèn)識(shí),了解其形成原因,輔助快速而有效的控制面源污染具有重大意義。采用數(shù)據(jù)挖掘聚類技術(shù)Kmeans算法對(duì)各省份的農(nóng)業(yè)面源污染數(shù)據(jù)進(jìn)行聚類處理,將全國(guó)各地區(qū)以農(nóng)資和畜禽養(yǎng)殖污染程度為標(biāo)準(zhǔn)分為三個(gè)區(qū)域,從分析結(jié)果中我們了解到了各地農(nóng)業(yè)面源污染形成的原因,從而對(duì)其面源污染進(jìn)行預(yù)警,便于農(nóng)業(yè)面源污染的預(yù)防和治理,從根源上控制農(nóng)業(yè)面源污染。
參考文獻(xiàn):
[1] 周早弘.農(nóng)業(yè)面源污染實(shí)證分析與政策選擇[D].南京:南京林業(yè)大學(xué),2009.
[2] 黃春田.泰山區(qū)農(nóng)業(yè)面源污染狀況及防治策略研究[D].泰安:山東農(nóng)業(yè)大學(xué),2011.
[3] 楊林章,馮彥房,施衛(wèi)明.我國(guó)農(nóng)業(yè)面源污染治理技術(shù)研究進(jìn)展[J].中國(guó)生態(tài)農(nóng)業(yè)學(xué)報(bào),2013,21(1):96-101.
[4] 中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局.中國(guó)農(nóng)村統(tǒng)計(jì)年鑒[M].北京:中國(guó)統(tǒng)計(jì)出版社,2013:47-50.
[5] 中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局.中國(guó)農(nóng)業(yè)年鑒[M].北京:中國(guó)統(tǒng)計(jì)出版社,2012.
[6] 劉培芳,陳振樓,許世遠(yuǎn),等.長(zhǎng)江三角洲城郊畜禽糞便的污染負(fù)荷及其防治對(duì)策[J].長(zhǎng)江流域資源與環(huán)境, 2002(5):456-460.
[7] 孫吉貴.聚類算法研究[J].軟件學(xué)報(bào),2008(1):48-61.
[8] 喻彪.數(shù)據(jù)挖掘聚類算法研究[J].現(xiàn)代制造工程,2009(3):141-145.
[9] 崔丹丹.K_Means聚類算法的研究與改進(jìn)[D].合肥:安徽大學(xué),2012.