高風(fēng)昕
(黃淮學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,河南 駐馬店 463000)
豫南地區(qū)是我國(guó)小麥的主產(chǎn)區(qū),其產(chǎn)量高低對(duì)我國(guó)糧食安全有著重要的影響,而小麥蚜蟲(chóng)是危害小麥產(chǎn)量和品質(zhì)的重要害蟲(chóng)。在豫南地區(qū)危害小麥的蚜蟲(chóng)主要是麥長(zhǎng)管蚜、麥二叉蚜等屬于同翅目蚜科,有翅可遷飛,具有遷移性,繁殖能力強(qiáng),1a可以繁殖20余代。麥長(zhǎng)管蚜、麥二叉蚜主要以成蚜、若蚜吸食小麥葉面、莖稈、嫩穗的汁液使小麥缺失營(yíng)養(yǎng)導(dǎo)致葉面逐漸變黃直到枯死,從而使小麥減產(chǎn),據(jù)統(tǒng)計(jì),我國(guó)每年因?yàn)辂溠料x(chóng)的危害使小麥減產(chǎn)2~3億t。因此,預(yù)防預(yù)測(cè)麥蚜蟲(chóng)的危害是科技工作者的一項(xiàng)重要任務(wù)。
目前國(guó)內(nèi)外對(duì)小麥蚜蟲(chóng)的預(yù)測(cè)模型主要有經(jīng)驗(yàn)法、實(shí)驗(yàn)法和統(tǒng)計(jì)預(yù)測(cè)法等。如,李文峰等[1]利用逐步回歸的方法構(gòu)建蚜蟲(chóng)預(yù)報(bào)預(yù)測(cè)模型;丁世飛等[2]用逐步判別方法構(gòu)建麥蚜蟲(chóng)發(fā)生期的模型;王純枝等利用相關(guān)分析法和主成分法構(gòu)建蚜蟲(chóng)適宜度的預(yù)測(cè)預(yù)報(bào)模型;luo等[3]利用spss中的邏輯回歸方法給出蚜蟲(chóng)預(yù)報(bào)預(yù)測(cè)模型;孫淑梅、丁世飛、李鴻怡等利用模糊數(shù)學(xué)的方法構(gòu)建小麥蚜蟲(chóng)預(yù)報(bào)預(yù)測(cè)模型。以上專家給出的預(yù)測(cè)模型對(duì)小麥蚜蟲(chóng)的防治都起到了積極的作用,但這些模型大多以天氣條件作為主要因素,預(yù)測(cè)的準(zhǔn)確率和時(shí)效性不夠高。支持向量機(jī)在小樣本訓(xùn)練方面比其它方法更勝一籌,而且該方法的泛化能力非常強(qiáng),支持向量機(jī)大多運(yùn)用在證券、金融、電子商務(wù)、大氣污染物濃度的預(yù)測(cè)中[7-10],小麥蚜蟲(chóng)發(fā)生程度的預(yù)測(cè)模型研究國(guó)內(nèi)外文獻(xiàn)資料涉及很少,基于此,本文運(yùn)用支持向量機(jī)回歸對(duì)豫南地區(qū)小麥蚜蟲(chóng)發(fā)生程度進(jìn)行預(yù)測(cè),構(gòu)建了支持向量機(jī)回歸的小麥蚜蟲(chóng)發(fā)生程度的短期預(yù)測(cè)模型,填補(bǔ)了支持向量機(jī)回歸在小麥蚜蟲(chóng)短時(shí)預(yù)測(cè)的不足,通過(guò)測(cè)試樣本驗(yàn)證該方法時(shí)效性和泛化能力強(qiáng)、預(yù)測(cè)精度高,具有良好的研究和應(yīng)用前景。
支持向量機(jī)(SVM)將每個(gè)樣本數(shù)據(jù)表示為空間中的點(diǎn),使不同類別的樣本點(diǎn)盡可能明顯地區(qū)分開(kāi),通過(guò)將非線性低維空間上的樣本數(shù)據(jù)映射到高維空間中,使樣本數(shù)據(jù)在高維空間中轉(zhuǎn)化線性樣本數(shù)據(jù),然后尋找最優(yōu)化區(qū)分兩類數(shù)據(jù)的超平面,使各類到超平面的距離最大化,距離越大表示SVM的分類誤差越小,即使數(shù)據(jù)集的邊緣點(diǎn)到分界超平面的距離最大,稱邊緣點(diǎn)為支持向量。
設(shè)低維空間上的訓(xùn)練樣本為(x1,y1),(x1,y1),…,(xn,yn),xi∈Rn,yi∈R,其中xi為i個(gè)n維輸入向量,yi為對(duì)應(yīng)的輸出值,通過(guò)一個(gè)非線性映射Φ(x)將訓(xùn)練樣本由低維空間映射到高維空間中,在高維空間中再對(duì)樣本進(jìn)行線性回歸分析,根據(jù)風(fēng)險(xiǎn)最小化準(zhǔn)則構(gòu)建高維空間中擬合最優(yōu)的線性回歸函數(shù)f(x)=ω·φ(x)+b(ω為權(quán)重向量,b為偏置常數(shù)),然后使用該函數(shù)對(duì)另外的樣本進(jìn)行預(yù)測(cè),把線性回歸問(wèn)題轉(zhuǎn)化為求如下的最優(yōu)化問(wèn)題。
(1)
(2)
模型(1)、(2)的對(duì)偶問(wèn)題:
(3)
(4)
(5)
式中,k(xi,x)為核函數(shù)。常用的核函數(shù)有線性核函數(shù)、多項(xiàng)核函數(shù)、徑向基核函數(shù)和sigmod核函數(shù)。根據(jù)專家經(jīng)驗(yàn),徑向基核函數(shù)(KBF)能使支持向量機(jī)取得最好的效果,所以選擇KBF作為核函數(shù)。
對(duì)支持向量機(jī)回歸參數(shù)估計(jì)有多種,比較各種參數(shù)估計(jì)方法從預(yù)測(cè)精度上考慮常選擇網(wǎng)格搜索法來(lái)確定懲罰因子C,核參數(shù)σ,損失函數(shù)中的參數(shù)ε。
本文選取豫南地區(qū)駐馬店市、信陽(yáng)市、南陽(yáng)市2009—2020年小麥種植區(qū)的氣象和小麥蚜蟲(chóng)發(fā)生程度的數(shù)據(jù)資料,氣象各因子資料來(lái)源于豫南地區(qū)逐日氣象觀測(cè)資料,小麥蚜蟲(chóng)的發(fā)生程度和天敵的數(shù)據(jù)資料來(lái)源于當(dāng)?shù)刂脖2块T(mén),氣象資料采取每月每旬作為時(shí)間周期,小麥蚜蟲(chóng)的發(fā)生程度和天敵數(shù)據(jù)資料是指每個(gè)地市至少選擇5個(gè)樣本采集區(qū),每5d采集1次樣本。影響小麥發(fā)生程度的因子有日最高氣溫、日最低氣溫、平均氣溫、日照時(shí)數(shù);平均相對(duì)濕度、最小相對(duì)濕度、平均降水量、平均水氣壓;平均風(fēng)速、最大風(fēng)速、最大風(fēng)速風(fēng)向、極大風(fēng)速、極大風(fēng)速風(fēng)向;日最高本站氣壓、日最低本站氣壓、平均氣壓;七星瓢蟲(chóng)、異色瓢蟲(chóng)、食蚜蠅幼蟲(chóng)、草蛉幼蟲(chóng)、寄生性天敵。本文以2009—2020年,每年2月1日—5月20日,以每旬作為時(shí)間周期,為了減少因子個(gè)數(shù)把天敵作為一個(gè)因子,共17個(gè)指標(biāo)187個(gè)解釋變量。根據(jù)中華人民共和國(guó)農(nóng)業(yè)行業(yè)標(biāo)準(zhǔn)(NY/T612-2002)《小麥蚜蟲(chóng)測(cè)報(bào)調(diào)查規(guī)范》,麥蚜發(fā)生程度根據(jù)百株蚜量(y,頭)分為5級(jí),分級(jí)標(biāo)準(zhǔn)為一級(jí)(y≤500)、二級(jí)(500
利用影響小麥蚜蟲(chóng)發(fā)生程度的指標(biāo)因子和小麥蚜蟲(chóng)發(fā)生程度數(shù)據(jù)組成的樣本集,(xi,yi),i=1,2,…n,xi∈Rn,yi∈R,構(gòu)建小麥蚜蟲(chóng)發(fā)生程度的SVR預(yù)測(cè)模型。由于各影響因子的量綱不盡相同,為了克服各因子由于量綱的不同對(duì)預(yù)測(cè)結(jié)果的影響,同時(shí)為了提高各個(gè)數(shù)據(jù)間的可比性和數(shù)據(jù)的收斂速度,減少模型的訓(xùn)練時(shí)間,先對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,利用公式(6)可將原始數(shù)據(jù)壓縮到[0,1]。
(6)
本文通過(guò)構(gòu)建因子分析和支持向量機(jī)回歸組合預(yù)測(cè)模型(FA-SVR預(yù)測(cè)模型),提高模型的預(yù)測(cè)精度和時(shí)效性,根據(jù)指標(biāo)構(gòu)建原則(全面性、簡(jiǎn)明性、可操作性、經(jīng)濟(jì)性、代表性、規(guī)范性等)選取17個(gè)指標(biāo)的評(píng)價(jià)體系,對(duì)樣本數(shù)據(jù)標(biāo)準(zhǔn)化處理,克服量綱和大數(shù)據(jù)對(duì)結(jié)果的影響,利用因子分析法提取5個(gè)公共因子(光熱因子、水分因子、風(fēng)因子、氣壓因子、天敵因子),從而減少支持向量機(jī)指標(biāo)的輸入個(gè)數(shù),分別以所得公共因子為自變量,以麥蚜發(fā)生程度為因變量分別進(jìn)行多元線性回歸分析和支持向量機(jī)回歸分析,根據(jù)以上分析可以確定FA-SVR預(yù)測(cè)模型的流程圖,如圖1。
以旬為單位收集了2009—2020年12a的210個(gè)樣本數(shù)據(jù),其中選取2009—2017年的樣本數(shù)據(jù)作為訓(xùn)練樣本,2018—2020年樣本數(shù)據(jù)作為測(cè)試樣本。對(duì)于訓(xùn)練樣本選取徑向基核函數(shù)(KBF)構(gòu)建式(5)的ε-SVR預(yù)測(cè)模型。同時(shí)利用170個(gè)訓(xùn)練樣本使用LIBSVM 3.22軟件包,采用網(wǎng)絡(luò)遍歷法和K(K=10)折交叉驗(yàn)證法選擇最優(yōu)參數(shù),結(jié)果C=2257672.96512,g=0.000038896503529,P=0.0338。
以因子分析得到的5個(gè)公共因子為解釋變量,利用FA-SVR模型和多元線性回歸模型(MLR)得到麥蚜發(fā)生程度的預(yù)測(cè)值與觀測(cè)值之間的數(shù)據(jù)如表1,并且利用FA-SVR模型得到麥蚜發(fā)生程度的預(yù)測(cè)值與實(shí)際值之間的相關(guān)系數(shù)接近于1,利用多元線性回歸模型得到麥蚜發(fā)生程度的預(yù)測(cè)值與觀測(cè)值之間的相關(guān)系數(shù)為0.97,這表明麥蚜發(fā)生程度實(shí)際觀測(cè)值與預(yù)測(cè)值之間具有高度的相關(guān)性,并且通過(guò)FA-SVR模型得到的訓(xùn)練樣本的預(yù)測(cè)值與實(shí)際觀測(cè)值相符合,如表1,測(cè)試集樣本數(shù)據(jù)的預(yù)測(cè)值與實(shí)際觀測(cè)值相符合,如表2。
表1 訓(xùn)練樣本實(shí)際觀測(cè)值與預(yù)測(cè)值對(duì)比
表2 測(cè)試樣本實(shí)際觀測(cè)值與預(yù)測(cè)值對(duì)比
為評(píng)價(jià)模型的質(zhì)量,常用FA-SVR模型的預(yù)測(cè)值與觀測(cè)值的進(jìn)行比較,通常采用以下統(tǒng)計(jì)量對(duì)FA-SVR模型進(jìn)行評(píng)價(jià),比較結(jié)果如表3。
表3 訓(xùn)練和測(cè)試樣本誤差因子比較
平均絕對(duì)誤差:
均方誤差:
均方根誤差:
平均絕對(duì)百分比誤差:
本文首次將FA-SVR模型應(yīng)用于豫南地區(qū)小麥蚜蟲(chóng)發(fā)生程度的預(yù)測(cè)模型中,通過(guò)實(shí)證分析可以看出,預(yù)測(cè)值和實(shí)際值呈現(xiàn)高度的相關(guān)性并且基本一致。由表4中3個(gè)模型比較可以得出,F(xiàn)A-SVR組合模型具有較高的預(yù)測(cè)精度,所以FA-SVR組合模型的應(yīng)用能夠準(zhǔn)確及時(shí)地發(fā)布豫南地區(qū)小麥蚜蟲(chóng)監(jiān)測(cè)預(yù)警信息,能夠有效地進(jìn)行小麥蚜蟲(chóng)的科學(xué)防控,并且本模型的預(yù)測(cè)精度和泛化能力都較高,所以,F(xiàn)A-SVR組合模型用于豫南地區(qū)小麥發(fā)生程度的預(yù)測(cè)是可行的。
表4 訓(xùn)練樣本誤差比較