吐爾遜·買買提,謝建華
(新疆農(nóng)業(yè)大學(xué) 機械交通學(xué)院,烏魯木齊 830052)
?
基于聚類分析的農(nóng)機化效率區(qū)劃研究
吐爾遜·買買提,謝建華
(新疆農(nóng)業(yè)大學(xué) 機械交通學(xué)院,烏魯木齊 830052)
針對農(nóng)業(yè)機械化效率存在的差異,提出應(yīng)用k均值聚類算法對新疆各地州按農(nóng)機化效率進行區(qū)劃,并以各地州2014年面板數(shù)據(jù)為研究對象進行區(qū)劃。對區(qū)劃結(jié)果應(yīng)用誤差平方和(Sum of Squares for Error) 、輪廊系數(shù)(Silhouette Coefficient)方法進行檢驗和定量分析,同時對結(jié)果根據(jù)地區(qū)農(nóng)機化發(fā)展現(xiàn)狀進行定性分析。結(jié)果表明:新疆各地州按其農(nóng)機化效率分為4組(k=4):第1組昌吉、塔城、阿勒泰、巴州,第2組克拉瑪依、博州,第3組哈密、伊犁、阿克蘇、喀什,第4組烏魯木齊、吐魯番、克州、和田;組間差異最大,組內(nèi)差異最小。該研究可為分類指導(dǎo)各地區(qū)農(nóng)機化發(fā)展提供參考。
農(nóng)機化;效率;聚類;區(qū)劃
省域不同地區(qū)或生產(chǎn)單元在農(nóng)業(yè)機械化發(fā)展中呈現(xiàn)出不同的發(fā)展趨勢,其農(nóng)機化生產(chǎn)的效率表現(xiàn)出全局分異、局部聚集的特征[1]。依據(jù)多個區(qū)域農(nóng)業(yè)機械化效率的差異,對其進行合理的區(qū)劃,有利于明確不同地區(qū)農(nóng)業(yè)機械化的發(fā)展目標(biāo)和主要任務(wù)[2-3]。目前,農(nóng)業(yè)區(qū)劃方面的研究包括水文[4]、生態(tài)[5]、自然災(zāi)害[6]、地形[7]、農(nóng)業(yè)機械化[8]、種植業(yè)、牧業(yè)、漁業(yè)區(qū)劃,以及綜合農(nóng)業(yè)區(qū)劃等[9]。
分析已有的文獻發(fā)現(xiàn):目前,針對新疆的農(nóng)業(yè)區(qū)劃,已有綜合自然區(qū)劃、綜合農(nóng)業(yè)區(qū)劃、農(nóng)業(yè)氣候與資源區(qū)劃、農(nóng)業(yè)地貌區(qū)劃及種植業(yè)區(qū)劃[10]等方面的成果;但針對新疆各地州農(nóng)業(yè)機械化效率的差異方面,尚無發(fā)現(xiàn)有關(guān)文獻。準(zhǔn)確定位區(qū)域農(nóng)業(yè)機械化效率及其水平所屬的類,可以更直接地掌握各區(qū)域農(nóng)業(yè)機械化發(fā)展的現(xiàn)狀,從而為不同地區(qū)農(nóng)業(yè)機械化和農(nóng)業(yè)現(xiàn)代化的發(fā)展制定合理的戰(zhàn)略和目標(biāo)。因此,對區(qū)域農(nóng)業(yè)機械化發(fā)展水平進行科學(xué)的區(qū)劃,具有重要的理論意義和實踐意義。農(nóng)業(yè)機械化生產(chǎn)和管理中傳統(tǒng)的區(qū)域劃分方式一般按地理經(jīng)緯度出發(fā),缺乏對研究對象的針對性。新疆經(jīng)緯度跨度較大,南北疆各地區(qū)在農(nóng)業(yè)機械化以及其效率水平差異懸殊,對各地區(qū)農(nóng)機化效率進行更為科學(xué)、有效的區(qū)劃將有利于充分挖掘農(nóng)業(yè)機械化發(fā)展?jié)摿?,為農(nóng)業(yè)機械化管理和政策制定提供參考。本文采用聚類方法對各地州進行區(qū)劃分析。
聚類效果能否反映研究對象的分布趨勢取決于指標(biāo)和數(shù)據(jù)的選擇及聚類算法。地區(qū)農(nóng)業(yè)機械化效率和農(nóng)機化投入指標(biāo)及其數(shù)量有關(guān),因此參照文獻[11-12]及根據(jù)新疆農(nóng)機化發(fā)展現(xiàn)狀,建立以農(nóng)機總動力Z1、農(nóng)機擁有量Z2(人/千人)、千瓦農(nóng)機作業(yè)收入Z3(元/kW)、播面頃均農(nóng)機動力Z4(kW/hm2)、農(nóng)機人員受教育程度Z5(%)、農(nóng)機教育培訓(xùn)程度Z6(%)和農(nóng)業(yè)勞均播種Z7(hm2/人)組成的農(nóng)機化效率指標(biāo)體系。以新疆2014年統(tǒng)計年鑒、新疆2014年農(nóng)機年報作為數(shù)據(jù)源關(guān)系數(shù)據(jù)模型,如表1所示。
表1 2014年新疆各地州農(nóng)業(yè)機械化投入指標(biāo)值
Table 1 Indicator value of agricultural mechanization investment in Xinjiang Prefecture in 2014
地區(qū)Z1Z2Z3Z4Z5Z6Z7烏魯木齊307857172.87904.827.5280.1790.380.52克拉瑪依30647498.87469.873.0168.9886.182.00吐魯番528444131.81563.4912.4954.1879.170.23哈密353879195.14680.145.0595.3479.980.82昌吉2031392287.98730.323.5984.923.871.69伊犁1678863118.231074.183.1879.8289.190.86塔城2071550250.82650.894.0591.7298.711.98阿勒泰737011209.87669.723.1986.7889.191.89
續(xù)表1
2.1 聚類算法
聚類分析是數(shù)據(jù)挖掘中的重要的方法,目前常用的聚類方法有劃分聚類、層次聚類及密度聚類等。應(yīng)用聚類分析時,應(yīng)根據(jù)研究對象的特征(如取值范圍、分布等)選取不同的算法。本文根據(jù)研究對象的數(shù)據(jù)量少、波動不大等特征,結(jié)合常用的聚類算法的特點,選取k-means聚類方法對數(shù)據(jù)進行分析。K-means算法原理見文獻[13]。
2.2 聚類檢驗
聚類分析中評估算法在聚類對象中的分簇性能是檢驗聚類效果的有效方法。第1種聚類檢驗方法是判斷誤差平方和(Sum of Square Error,SSE)。本文中計算k=n(n=3~8)時的SSE,即各簇內(nèi)的每個點到其所在簇質(zhì)心的距離之平方之和,按此方法計算所有簇SSE的平均,從而獲得k=n時總的SSE。聚類中SSE越小,可判定簇中元素越相似,聚類質(zhì)量越高。
第2種方法是輪廊系數(shù)(Silhouette Coefficient)法,是評估簇的凝聚度和分離度的參數(shù)。簇的評估中這兩個指標(biāo)用來判斷近似的、確定正確的或自然的簇個數(shù),其計算方法見文獻[14]。對于聚類而言,輪廊系數(shù)值在-1~1之間變化,負值表示點到簇內(nèi)點的平均距離a(i)大于顛倒其他簇的最小平均距離b(i)。分析可知:當(dāng)a(i)趨向于0、輪廊系數(shù)趨向于1時,說明同一簇內(nèi)元素的凝聚度和不同簇的分離度達到理想狀態(tài)。
聚類分析中,聚類對象有時可能含一些異常點,或其數(shù)據(jù)格式不符合聚類算法要求,因此需要通過數(shù)據(jù)清洗、離群點檢測等方法對其進行預(yù)處理。另外,為了避免因為各變量的量綱不同而引起聚類的性能下降,需要對數(shù)據(jù)進行標(biāo)準(zhǔn)化。
本文通過最大、最小化方法進行標(biāo)準(zhǔn)化。根據(jù)新疆地州數(shù)量以及聚類算法自身的規(guī)則,設(shè)定最小簇數(shù)和最大簇數(shù)分別3和8,即k=3~8。為了降低出現(xiàn)局部最優(yōu)的概率,最大迭代次數(shù)設(shè)定為15并MatLab2014a中進行聚類。聚類結(jié)果如表2所示。
表2 新疆各地區(qū)2014年農(nóng)業(yè)機械化區(qū)域聚類(k=3~8)
為了直觀地觀察各簇的元素的分布情況,對聚類結(jié)果進行可視化(Visualization)。因原始為多維數(shù)據(jù),應(yīng)用文獻[15]中的方法對標(biāo)準(zhǔn)化后的數(shù)據(jù)進行降維,并獲取2維的指標(biāo)數(shù)據(jù)??梢暬蠼Y(jié)果如圖1所示。
圖1 k=3~8時的聚類結(jié)果
圖1中,x軸和y軸分別為將原地區(qū)農(nóng)機化效率指標(biāo)應(yīng)用Factor analysis算法降維到2維后的結(jié)果。由于有些點高度相似,因而圖中存在數(shù)據(jù)點合并顯示的情形。
應(yīng)用2.1簇檢驗方法檢驗K-means算法的聚類效果,針對本文的研究對象而言,輪廊系數(shù)越小就說明分配到一個簇內(nèi)的地州農(nóng)業(yè)機械化效率指標(biāo)越接近、越相似,簇內(nèi)地區(qū)在農(nóng)業(yè)機械化效率方面有較高的相似度。通過計算可以獲得SSE和輪廊系數(shù),如表3所示。
表3 SSE和輪廊系數(shù)
表3數(shù)據(jù)表示:SSE隨著簇的個數(shù)增加,逐步變小,而輪廊系數(shù)先下降后增加。
圖2和圖3分別為SSE和輪廊系數(shù)分布曲線。由圖2、圖3可知:當(dāng)k=4時,輪廊系數(shù)取最小值,且其曲線有明顯的拐點,SSE也有一個下降趨勢放緩過程。即通過評估度量方法確定的結(jié)果是:當(dāng)k=4時獲得的4簇中,簇內(nèi)對象高度相似,而簇間不相似。通常通過SSE和輪廊曲線評價聚類效果或簇的個數(shù)時,可以通過SSE和輪廊線的拐點、尖峰、下降點或上升點找到簇的自然個數(shù),這種方法通常在數(shù)據(jù)量較少、并簇中無復(fù)雜嵌套簇時比較實用。由于k=7、k=8時輪廊系數(shù)較高,不考慮這種分組情況下。各簇相對應(yīng)的各地州分組結(jié)果如表4所示。
圖2 誤差平方和分布
圖3 輪廊系數(shù)分布
組別k=3k=4k=5k=6第1組克拉瑪依、昌吉、塔城阿勒泰、博州、巴州昌吉、塔城、阿勒泰、巴州克拉瑪依博州吐魯番第2組烏魯木齊、吐魯番克州、和田克拉瑪依、博州烏魯木齊克州、和田伊犁、阿克蘇喀什第3組哈密、伊犁阿克蘇、喀什哈密、伊犁阿克蘇、喀什昌吉、塔城阿勒泰、巴州烏魯木齊克州、和田第4組烏魯木齊、吐魯番克州、和田哈密、伊犁、阿克蘇、喀什哈密、巴州
續(xù)表4
由于各次聚類分析中使用了統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)化、降維方法和聚類算法,所以聚類后的以上4種分類保持了較好的一致性。也就是說,在農(nóng)業(yè)機械化及效率影響因素指標(biāo)值方面,具有接近或相似特征的地區(qū)始終分到同一組。
例如:①克拉瑪依和博州始終分到同一個組。②昌吉、塔城、阿勒泰和博州分別在k=3、4、6時分配到相同的組。其中,昌吉、塔城、阿勒泰始終分配到一個組。③烏魯木齊和克州在四種聚類中分配到同一組。④作為相鄰的地區(qū),阿克蘇和喀什這4種聚類中始終呈現(xiàn)出較高的相似性,即k=3~8時被分配到相同的組。從地區(qū)農(nóng)業(yè)發(fā)展的基本面來分析可知:上述各組之間相似性較弱,而組內(nèi)在各地區(qū)相關(guān)指標(biāo)之間距離較小。
不同之處在于:①k=6時,昌吉、塔城、阿勒泰構(gòu)成一組,巴州和哈密構(gòu)成一組;而k=5時,這兩組被分配到同一組。②吐魯番始終被分配到單獨的一組。③k=5時的第3組成員昌吉、塔城、阿勒泰、巴州和第4組成員哈密、伊犁、阿克蘇和喀什在k=4時分別分配到第1組和第3組,這說明這兩組地區(qū)的農(nóng)業(yè)機械化效率指標(biāo)方面有較高的相似性。從當(dāng)前的地區(qū)各項發(fā)展現(xiàn)狀分析,哈密、伊犁、阿克蘇和喀什分配到同一組較合適,組內(nèi)相似性也較高。另外,從近年來各地區(qū)的農(nóng)業(yè)機械化發(fā)展情況來看,隨著國家對農(nóng)業(yè)的投入的加大,尤其是隨著對南疆扶持力度的加大,克州、和田等南疆地區(qū)農(nóng)業(yè)機械化方面的投入也較大,這些地區(qū)和吐魯番和烏魯木齊也具有較好的凝聚度。從輪廊系數(shù)的計算可知:k=4時,各組之間的簇內(nèi)差異較小,簇間差異較大。從技術(shù)角度分析,這正好達到聚類的基本宗旨。
綜合以上的情況,加上SSE和輪廊系數(shù)的分析,本研究傾向于k=4的聚類方案。即新疆各地州農(nóng)業(yè)機械化效率指標(biāo)區(qū)劃時,從技術(shù)角度和地區(qū)發(fā)展水平出發(fā),分4個區(qū)是比較合理。第1組:昌吉、塔城、阿勒泰、巴州;第2組:克拉瑪依、博州;第3組:哈密、伊犁、阿克蘇、喀什;第4組:烏魯木齊、吐魯番、克州、和田。
1)區(qū)劃與地理位置的相鄰性特征不強,傳統(tǒng)劃分方式和本文區(qū)劃結(jié)果相差較大。例如:第1組南北緯度跨度較大,即有傳統(tǒng)劃分上北疆地區(qū),也有南疆地區(qū);第3組地區(qū)分布于新疆東部哈密到西部喀什;第4組也說明此種情況,打破了傳統(tǒng)南北疆、東疆等區(qū)劃的局限性。
2)新的地域分組特征明顯,組內(nèi)差異小,組間差異大。從最近幾年農(nóng)業(yè)機械化發(fā)展情況來分析,每組都有較強的特征。例如,第1組中各地區(qū)屬于農(nóng)業(yè)生產(chǎn)發(fā)展較快的地區(qū),有較好的土地資源優(yōu)勢;而各組之間在農(nóng)業(yè)生產(chǎn)投入、農(nóng)業(yè)生產(chǎn)資源、社會經(jīng)濟水平方面差異較大。
3)獲取的分組結(jié)果是從技術(shù)和綜合等緯度進行分析的結(jié)果。
本研究結(jié)果基于聚類14個地區(qū)的影響農(nóng)業(yè)機械化效率影響因素指標(biāo)值、評估k值和結(jié)合地區(qū)社會經(jīng)濟發(fā)展水平分析得到,有較大的可信度。
1)以新疆各地區(qū)農(nóng)業(yè)機械化效率投入指標(biāo)作為影響農(nóng)業(yè)機械化效率的主要因素, 以2014年新疆各地區(qū)指標(biāo)值作為源數(shù)據(jù),應(yīng)用K-means聚類對14地區(qū)進行聚類,并應(yīng)用基于技術(shù)和綜合的方法進行分析,結(jié)果表明:k=4時,組間農(nóng)業(yè)機械化效率差異大,組內(nèi)差異小,所分的組能夠反映新疆各地區(qū)農(nóng)業(yè)機械化效率實際情況。
2)和傳統(tǒng)的地區(qū)分組方法相比,本研究主要聚焦于區(qū)域農(nóng)業(yè)機械化效率的區(qū)劃,更具有針對性,且強調(diào)了影響農(nóng)業(yè)機械化效率的因素對農(nóng)業(yè)機械化效率的重要性。通過合理的分組,把相似性較高的地區(qū)放在第1組,提高組內(nèi)相似性。
[1] 張建升.省域全要素生產(chǎn)率地區(qū)差異的動態(tài)演進[J]. 經(jīng)濟經(jīng)緯,2011,28(6):37-41.
[2] 李新廣,郭文杰. 節(jié)約型農(nóng)機化生產(chǎn)體系的研究[J]. 農(nóng)機化研究,2009,31(9):241-243.
[3] 張宗毅,曹光喬. "十五"期間中國農(nóng)機化效率及其地區(qū)差異[J].農(nóng)業(yè)工程學(xué)報,2008,24(7):284-289.
[4] 余世勇,王佳.中國農(nóng)業(yè)機械化效率分析[J].江蘇農(nóng)業(yè)科學(xué),2013,41(12):420-422.
[5] Yang J,Huang Z,Zhang X,et al. The Rapid Rise Of Cross-Regional Agricultural Mechanization Services In China[J].American Journal of Agricultural Economics,2013,95(5):1245-1251.
[6] 王珺鑫,楊學(xué)成.山東省糧食生產(chǎn)波動及主要投入要素效應(yīng)的實證分析—基于17地市的面板數(shù)據(jù)[J].中國農(nóng)業(yè)資源與區(qū)劃,2015,36(3):18-23.
[7] 劉玉海,武鵬.轉(zhuǎn)型時期中國農(nóng)業(yè)全要素耕地利用效率及其影響因素分析[J].金融研究,2011(7):114-127.
[8] 錢玉皓,聶艷,羅毅.基于能值分析的縣域耕地利用效益比較研究[J].湖北大學(xué)學(xué)報:自然科學(xué)版,2012,34(4):387-392.
[9] Kopp R J. The measurement of productive efficiency:reconsideration[J].the Quarterly Journal of Economics,1981,96(3):477-503.
[10] 鄧依萍,劉濤.新疆節(jié)水農(nóng)業(yè)區(qū)劃及分區(qū)對策研究[J].節(jié)水灌溉,2008(10):8-11.
[11] 李衛(wèi),薛彩霞,朱瑞祥,等. 基于前沿面理論的中國農(nóng)業(yè)機械生產(chǎn)配置效率分析[J].農(nóng)業(yè)工程學(xué)報,2012,28(3):38-43.
[12] 李衛(wèi).區(qū)域格局劃分與農(nóng)業(yè)機械化發(fā)展不平衡定量研究[D].楊凌:西北農(nóng)林科技大學(xué),2015.
[13] 周愛武,于亞飛. K-Means聚類算法的研究[J]. 計算機技術(shù)與發(fā)展,2011,21(2):62-65.
[14] 朱連江,馬炳先,趙學(xué)泉. 基于輪廓系數(shù)的聚類有效性分析[J]. 計算機應(yīng)用,2010(S2):139-141.
[15] Maaten L J P V D,Postma E O,Herik H J V D. Dimensionality Reduction: A Comparative Review[J].Journal of Machine Learning Research,2007,10(1):2579-2605.
Regionalization of Agricultural Mechanization's Efficiency Base on Cluster Analysis
Tursun Mamat, Xie Jianhua
The regionalization approach was proposed based on k-means clustering algorithm. On the clustering experiments, the 14 regions was zoned 3, 4, 5, 6,7and 8 zone according to efficiency of agricultural mechanization of each region.The SSE (Sum of squares for error) and silhouette coefficient method was applying for validation the quality of zoning (clustering).On the same time the qualitative analysis for clustering result was applying on the basis of current situation of agricultural mechanization on each region in Xinjiang. The results show that, according to each region’s efficiency of agricultural mechanization in 2014, if the all regions in Xinjiang be zoned for 4 group(k=4), regions were in the same group(cluster)are more similar to each other than to those in other groups(cluster) ,meanwhile the better SSE and silhouette can be obtained as well. The first group included Changji, Tarbaghatay, Altay and Bazhou. The second group included Karmay, Bortala, The third group included Kumul, Yili, Ahsu and Kashghar. Urumqi, Turpan, Kezhou and Hotan were included in forth group. Our approach and results provide useful information for development of agricultural mechanization in management.
agricultural mechanization; efficiency; clustering; regionalization
2016-06-13
國家自然科學(xué)基金項目(51465057)
吐爾遜·買買提(1975-),男(維吾爾族),新疆阿克蘇人,講師,博士,(E-mail)tursun@xjau.edu.cn。
S23-01
A
1003-188X(2017)08-0027-05