朱玉梅
(新疆生產建設兵團農業(yè)廣播電視學校,烏魯木齊830002)
Apriori算法在棉花病蟲害分析中的應用
朱玉梅
(新疆生產建設兵團農業(yè)廣播電視學校,烏魯木齊830002)
為了快速準確地掌握棉花蟲害發(fā)生趨勢,提高蟲情測報的時效性和準確性,采用Apriori算法數據挖掘關聯規(guī)則,對棉花上的3種害蟲棉鈴蟲、棉葉螨、棉蚜的發(fā)生趨勢進行綜合分析。通過Apriori算法尋找出了氣候因素與棉花三大害蟲的發(fā)生發(fā)展有密切的關系,尤其氣溫變化直接影響到棉花害蟲的發(fā)生種類、發(fā)生期及發(fā)生量。關聯規(guī)則數據挖掘技術,在處理大量農業(yè)信息數據中起著非常重要的作用,Apriori算法在棉花病蟲測報工作中將是一項新的技術,具有非常廣泛的應用前景。
關聯規(guī)則;Apriori算法;數據挖掘;Weka平臺;棉花病蟲預測預報;應用前景
現代信息技術的迅速發(fā)展使中國農業(yè)邁向了大數據時代,現代化的農業(yè)必然與大數據發(fā)生各種聯系,農業(yè)大數據的挖掘和應用對于現代農業(yè)的發(fā)展具有非常重要的作用。
農業(yè)發(fā)展過程中積累了大量的農業(yè)數據信息,涉及到與農業(yè)生產過程密切相關的耕地、播種、田管、水肥、植保、收獲及儲運等各個農事作業(yè)環(huán)節(jié),包括各類作物的苗情、土情、肥情、水情、蟲情、氣象和災害等農業(yè)數據,這些數據信息是指導現代農業(yè)精準作業(yè)的寶貴財富[1-2]。但這些復雜而豐富、多維又動態(tài)的數據信息具有不完整和不確定性,導致人們在利用這些農業(yè)數據時總陷入“數據豐富而知識貧乏”的境地[3-5]。如何利用好這些大數據,從中挖掘其背后隱藏的信息,已成為當前加快推進農業(yè)現代化發(fā)展急需解決的問題,也是一個值得思考和實踐的課題。
信息技術在農業(yè)生產中已廣泛應用,通過利用數據挖掘技術對大量的信息進行分析[6-9],尋找各相關因素間內在聯系與規(guī)律,從中發(fā)掘出潛在的信息價值,為農業(yè)生產提供科學依據,對于實現農業(yè)高產、優(yōu)質、高效和可持續(xù)發(fā)展具有十分重要的意義[10-13]。因此,筆者采用Apriori關聯規(guī)則挖掘算法,以新疆棉區(qū)3種害蟲棉鈴蟲、棉葉螨和棉蚜的發(fā)生情況為實例,對氣溫、有效積溫和降雨量3個氣象因子與3種害蟲發(fā)生量進行數據挖掘,借此找出氣象因子與蟲情發(fā)生發(fā)展的內在聯系和規(guī)律,以期幫助基層測報站工作者快速準確掌握各類蟲情發(fā)生發(fā)展的趨勢,通過對蟲情動態(tài)信息的正確分析,提高測報的時效性和準確性,進一步為蟲害的防控決策提供強有力的參考價值和科學依據。
關聯規(guī)則是近年數據挖掘領域的一個研究熱點,關聯規(guī)則數據挖掘技術已在多個領域取得令人滿意的應用效果[14-17]。從海量數據中,通過關聯規(guī)則可以發(fā)現數據中項集之間隱含的聯系,并揭示數據間未知的依賴關系,可以依據這種依賴關系,從某一數據對象的信息推斷出另一數據對象的信息[18-19]。
1.1 Apriori算法概述
Apriori算法1994年由Edu等人[20]提出,是發(fā)現事務數據庫中頻繁項集的最有影響的數據挖掘算法之一,Apriori算法是關聯規(guī)則數據挖掘中的典型算法,目前已應用于商業(yè)、林業(yè)、電信和教育等方面[14-19]。Apriori算法是利用一個層次順序搜索的循環(huán)方法來完成產生關聯規(guī)則的頻繁項集的挖掘工作,包含k個項的集合為k項集,k項集用于探索(k+1)項集。關聯規(guī)則的挖掘在Apriori算法中分為兩步,一是利用候選項集生成頻繁項集,頻繁項集滿足“支持度大于最小支持度閾值”,二是利用最終的頻繁大項集生成關聯規(guī)則,規(guī)則滿足“置信度大于最小置信度”,其中的最小支持度閾值和最小置信度閾值都由用戶事先設定[14,16],也就是依據支持度找出所有頻繁項集(頻度)、依據置信度產生關聯規(guī)則(強度)。
1.2 Apriori算法步驟
采用連接步和剪枝步2種方式,Apriori算法從中找出所有的頻繁項集,形成規(guī)則,其過程由連接(類矩陣運算)與剪枝(去掉那些沒必要的中間結果)組成。1.2.1連接步為找Fk,通過將Fk-1與自己連接產生候選k項集的集合,該候選集的集合記做Lk;設F1和F2是Fk-1中的項集;執(zhí)行連接Fk-1∞Fk-1,其中Fk-1的元素F1和F2是可以連接的。
1.2.2 剪枝步Lk是Fk的超集,Lk的成員可能是也可能不是頻繁的,所有的頻繁k項集都包含在Lk中。掃描數據庫確定Lk中每個候選集計數,判斷是否小于最小支持度計數,如果不是,則認為該候選是頻繁的,并利用Fk-1剪掉Lk中的非頻繁項,從而確定Fk。
近年來農業(yè)病蟲害頻繁發(fā)生,危害各種農作物,病蟲害直接影響農作物的產量和質量。中國每年因病蟲害造成的經濟損失達15%~25%[21-22],在病蟲害預測預報工作中,植保部門每年都積累了大量的病蟲情報數據,隨著大量數據不停的收集和存儲,從數據庫中挖掘關聯規(guī)則顯得越來越有必要性。筆者以新疆兵團農業(yè)團場種植棉區(qū)常年發(fā)生的3種害蟲棉鈴蟲、棉葉螨和棉蚜的發(fā)生情況為實例,采用關聯規(guī)則Apriori算法對3個氣象因子氣溫、有效積溫和降雨量與3種蟲情發(fā)生規(guī)則進行數據挖掘。
2.1 實例數據
棉鈴蟲、棉葉螨和棉蚜的發(fā)生期、發(fā)生量與自然因素有著密切的關系,受氣象因子的影響,害蟲發(fā)生種類及發(fā)生特點也不同。通過收集該地區(qū)2014年4—8月,連續(xù)5個月3種害蟲發(fā)生量的相關數據,包括:有螨(蟲、蚜)株率(%)、百株螨(蟲、蚜)量(頭)、百株卵量(粒),采用主因子分析、回歸分析等方法,選取相關程度密切的3個氣象因子:月平均氣溫(℃)、>10℃的月有效積溫(℃)、月降水量總量(mm)。數據見表1。
2.2 數據預處理
表1 2014年不同月份棉鈴蟲、棉葉螨和棉蚜蟲口發(fā)生量及氣象因子
為了更好地進行關聯規(guī)則挖掘,由于所有的分析數據均為非離散的數值屬性,因此對數據信息進行離散化處理;各數據:月平均氣溫、>10℃有效積溫、降水總量及棉葉螨、棉鈴蟲、棉蚜屬性值分別表示成A、B、C、D、E、F,有螨(蟲、蚜)株率、百株螨(蟲、蚜)量及百株卵量的屬性值分別表示為a、b、c,各因子離散化等級見表2,并對各個數據因子從Ar_001~Ar_011進行編號,采用Weka平臺離散化后的數據[23]如圖1。
通過Apriori算法進行關聯規(guī)則挖掘,設置最小支持度min_sup為50%,最小置信度min_conf為90%,關聯規(guī)則挖掘結果見圖2。
表2 數據離散化參數
圖1 離散化后的數據
圖2 關聯規(guī)則挖掘結果
通過Weka平臺用Apriori算法挖掘的關聯規(guī)則,并非每條規(guī)則都有現實意義,因此對挖掘出的規(guī)則進行篩選,得到有參考價值的關聯規(guī)則,數據見表3。
表3 Apriori算法產生的關聯規(guī)則
3.1 蟲害發(fā)生與氣象因子的關系
結果表明,棉葉螨、棉鈴蟲和棉蚜的發(fā)生量與氣候因子密切相關。3種蟲害的發(fā)生程度受平均氣溫影響顯著,置信度在100%,在平均氣溫相同情況下,蟲害發(fā)生量和為害級別為棉鈴蟲>棉葉螨>棉蚜,當平均氣溫達到25~30℃時,棉鈴蟲有蟲株率達到15%~20%;當平均氣溫達到15~25℃時,棉鈴蟲百株蟲口在35頭以上,棉葉螨百株螨量10~20頭,有螨株率10%~15%,棉蚜有株蚜率10%~15%,百株蚜量達到10~20頭。
3.2 蟲害發(fā)生與季節(jié)的關系
隨著季節(jié)變化氣溫逐步回升,特別進入高溫季節(jié),各類蟲害也會迅速進入發(fā)生高峰期,關聯規(guī)則結果顯示,棉花三大害蟲的發(fā)生高峰期主要在5、6月份,置信度均為100%,5月份平均氣溫在20℃以上,棉鈴蟲百株蟲口數36頭,棉葉螨的百株螨量和百株卵量分別是13頭和5粒,棉蚜有蚜株率和百株蚜量達到23%和43頭。6月份氣溫升高對棉鈴蟲發(fā)生影響最明顯,當氣溫在24.5℃時,棉鈴蟲有蟲株率在達到32%。這與在實踐經驗中總結得到的規(guī)律是基本相符的。
Apriori算法對農業(yè)病蟲害數據分析,可以預測某時段內害蟲發(fā)生種類及發(fā)生趨勢,從而為農業(yè)植保部門病蟲害預測和防治提供決策支持。筆者通過有效的關聯分析,對不同季節(jié)的氣象因子與棉花三大蟲害發(fā)生的規(guī)則挖掘,得到三大蟲害的發(fā)生與氣象因子關系密切,尤其氣溫變化直接影響到棉花害蟲的發(fā)生種類、發(fā)生期及發(fā)生量,以上有價值的信息分析結果已在實踐經驗中得到了驗證和證實。但是種植結構、栽培制度、防治手段及棉花品種抗蟲能力的不同,對害蟲的發(fā)生及調查也會產生一定的影響。
關聯規(guī)則還可以集中在病蟲害動態(tài)監(jiān)測及其風險評估等方面應用,關聯規(guī)則在農業(yè)病蟲害中的應用有待進一步調查研究和總結。利用數據關聯關系挖掘農作物病蟲害產生的原因與環(huán)境等因素之間隱藏的內在聯系,可以驗證已知的經驗規(guī)律,揭示出未知的隱藏信息,對于有效識別、預防及防治農作物病蟲害具有重要的作用和意義。
[1]劉春玲,崔凌云,賈冬青,等.數據挖掘技術在農業(yè)領域的應用[J].農機化研究,2010,32(7):201-204.
[2]羅鳳娥,彭佳紅,胡建強.數據挖掘在農業(yè)領域中的應用研究[J].農業(yè)網絡信息,2009(1):55-58.
[3]劉麗.基于關聯規(guī)則的數據挖掘技術綜述[J].現代計算機:專業(yè)版, 2011(7):25-27.
[4]Fonseca B M,Golgher P B,De Moura E S,et al.Discovering Search Engine Related Query Using Association Rules[J].Journal of Web Engineering 2003,2(4):215-227.
[5]Zhang C,Qin Z,Yan X.Assocaition-Based Segmentation for Chinese-Crossed Query Expansion[J].IEEE Computer Society,2005, 5(5):18-25.
[6]李增祥.數據挖掘技術在農業(yè)生產中的應用[J].微計算機信息, 2010,26(18):150-151.
[7]李文圃,廖桂平.數據挖掘技術在農業(yè)信息網站中的應用研究[J].中國農學通報,2012,28(6):269-275.
[8]梁川,王文生,謝能付.農業(yè)信息資源上數據挖掘的應用[J].中國農學通報,2009,25(11):243-247.
[9]勞飛,朱玉業(yè).數據挖掘技術在農業(yè)中的應用[J].安徽農業(yè)科學, 2007,35(13):4053-4053,4082.
[10]白利果,喬鋼柱,曾建潮.關聯規(guī)則挖掘在農業(yè)產值分析中的應用[J].太原科技大學學報,2008,29(5):335-338.
[11]陳桂芬,曹麗英,馬麗.數據挖掘在精準農業(yè)中的應用現狀及發(fā)展趨勢[J].吉林農業(yè)大學學報,2008,30(4):621-626.
[12]張愛國,高鶴,王麗維.數據挖掘技術在現代農業(yè)上的應用[J].湖北農業(yè)科學,2011(21):4531-4534.
[13]張家愛.數據挖掘技術在農業(yè)決策支持系統中的應用[J].吉林農業(yè)科技學院學報,2010(1):56-57.
[14]馬冬來,張文靜,屈赟.基于改進Apriori算法的農業(yè)病蟲害診斷[J].湖北農業(yè)科學,2014(1):203-205.
[15]鄭繼剛,張靜梅,唐智英.數據挖掘技術在茶葉病蟲害預警中的研究與應用[J].湖北農業(yè)科學,2013(24):6172-6174.
[16]黃世國,林思祖,林大輝.Apriori算法在杉木伴生樹種選擇中的應用[J].福建農林大學學報:自然科學版,2008,37(1):70-72.
[17]王曉峰,王天然,程遠杰,等.Apriori算法在紅外光譜數據挖掘中的應用[J].計算機與應用化學,2001,18(5):477-483.
[18]謝艷新.數據挖掘技術在水稻病蟲害系統中的設計與實現[J].湖北農業(yè)科學,2011,50(11):2340-2342.
[19]邢平平,施鵬飛,熊范綸.數據挖掘技術在農業(yè)數據中的有效應用[J].計算機工程與應用,2001,37(2):4-6.
[20]Edu H C S,Rakesh Agrawal,Ramakrishnan Srikant.Fast algorithm for mining association rules[C].International Conference on Very Large Bata Bases,1994:487-499.
[21]唐智英,王祖鳳.關聯規(guī)則挖掘技術在茶葉病蟲害中的研究與應用[J].計算機光盤軟件與應用,2012(15):114-115.
[22]黃光明.Apriori算法在農業(yè)病蟲害分析中的應用[J].安徽農業(yè)科學,2009,37(13):6028-6029.
[23]周紅紅.基于Apriori算法的Weka數據挖掘應用[J].科技信息,2011 (36):I0104-I0104.
Application of Apriori Algorithm to Analysis of Cotton Diseases and Insect Pests
Zhu Yumei
(Agricultural Broadcasting and Television School,Xinjiang Production and Construction Corps,Urumqi 830002,Xinjiang,China)
To quickly and accurately know the trend of cotton insect pest and improve the timeliness and accuracy of forecast,we applied data mining technology using association rules in Apriori algorithm to comprehensively analyze the occurrence trend of three kinds of cotton pests including cotton bollworm,cotton spider mites and cotton aphid.The results showed that the occurrence of the three major cotton pests had a close relationship with climatic factors.In particular,the changes of temperature directly affected the species, period and amount of pest occurrence.Data mining technology using association rules plays a very important role in dealing with a large number of agricultural information data.Apriori algorithm is a new technology in forecasting cotton pest and has broad application prospect.
Association Rule;Apriori Algorithm;Data Mining;Weka Platform;Forecast of Cotton Diseases and Pests;Application Prospect
S431.9
A論文編號:cjas16030023
師域發(fā)展支持計劃“機采雜交棉等行距優(yōu)質高產栽培綜合調控技術研究”(2015AF016)。
朱玉梅,女,1978年出生,甘肅皋蘭人,農藝師,講師,碩士,從事新型職業(yè)農民教育及農業(yè)科技培訓。通信地址:830002新疆烏魯木齊市天山區(qū)堿泉街2號新疆生產建設兵團農業(yè)廣播電視學校,Tel:0991-2652138,E-mail:125505367@qq.com。
2016-03-28,
2016-09-08。