高丙朋,姜波,南新元
摘要:番茄醬生產(chǎn)企業(yè)為了更好地規(guī)劃生產(chǎn),合理地利用資源,降低成本,需要詳細(xì)掌握不同品種番茄的產(chǎn)量。采用最小二乘法支持向量機(jī)(LS-SVM)引入不同品種產(chǎn)量預(yù)測加權(quán)系數(shù)及番茄產(chǎn)量預(yù)測過程中番茄生長及環(huán)境數(shù)據(jù)完整性在線處理,合理解決了番茄產(chǎn)量在線預(yù)測問題,預(yù)測效果理想,為企業(yè)安排生產(chǎn)和統(tǒng)籌規(guī)劃提供參考依據(jù)。
關(guān)鍵詞:番茄產(chǎn)量;LS-SVM;數(shù)據(jù)處理;預(yù)測
中圖分類號(hào):S126;S641.2文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0439-8114(2012)05-1025-03
The On-line Prediction of Tomato Yield Based on LS-SVM
GAO Bing-peng,JIANG Bo,NAN Xin-yuan
(The Electric Engineering College, Xinjiang University, Urmuqi 830049, China)
Abstract: In order to make better production plan, rational use of resources, reduce costs, it is necessary for tomato paste producers to master the yield of different tomato varieties in detail. Reasonable solution to the tomato yield online prediction was given based on the different varieties yield prediction weighting factor and online processing of integrity tomatoes physiological growth and environmental data introduced by least squares support vector machine(LS-SVM). It provides a theoretical reference for the production and overall planning of the enterprise.
Key words: tomato yield; LS-SVM; data processing; prediction
新疆的番茄年加工量約占全國番茄加工總量的90%,番茄醬加工產(chǎn)業(yè)被稱作新疆的“紅色產(chǎn)業(yè)”之一。然而不同品種的番茄成熟期、單株產(chǎn)量都存在著一定的差異,企業(yè)為了更好地規(guī)劃生產(chǎn),合理地利用資源,降低單位成本,需掌握不同品種番茄的產(chǎn)量。
目前,國內(nèi)關(guān)于番茄產(chǎn)量預(yù)測的研究報(bào)道較少,關(guān)于糧食、棉花等的預(yù)測居多。糧食產(chǎn)量的預(yù)測大都是根據(jù)歷年的生產(chǎn)數(shù)據(jù)進(jìn)行一個(gè)總量的預(yù)測,而番茄的預(yù)測與之不同,其需要預(yù)測不同品種、不同成熟期的產(chǎn)量,以滿足番茄醬生產(chǎn)企業(yè)對(duì)新鮮番茄的持續(xù)和及時(shí)供應(yīng),使番茄產(chǎn)量與加工能力相匹配。番茄產(chǎn)量預(yù)測可以利用建立在歷年產(chǎn)量靜態(tài)數(shù)據(jù)基礎(chǔ)上的預(yù)測模型進(jìn)行研究,也可以利用線性規(guī)劃方法進(jìn)行番茄產(chǎn)量預(yù)測,但因?yàn)橛绊懛旬a(chǎn)量的因素很多,包括土壤濕度、日照、施肥、溫度等,而這些因素又是非線性的,這兩種方法都不能較精確地預(yù)測出番茄的產(chǎn)量,所以,采用了改進(jìn)型的最小二乘法支持向量機(jī)(LS-SVM)對(duì)番茄產(chǎn)量進(jìn)行預(yù)測,效果較好。
1LS-SVM基本原理
LS-SVM是從支持向量機(jī)(SVM)發(fā)展而來的,它將SVM中的不等式約束改為等式約束,且將誤差平方和損失函數(shù)作為訓(xùn)練集的經(jīng)驗(yàn)損失函數(shù),這樣就把解二次規(guī)劃問題轉(zhuǎn)化為求解線性方程組問題。具體可以表述如下[1,2]:
對(duì)于一個(gè)訓(xùn)練樣本集
S={(xk,yk|k=1,2,N;xk∈Rn,yk∈R)},其中預(yù)測目標(biāo)函數(shù)可以在特征空間中被描述為:
min J(w,ξ)=wTw+Cξ(1)
s.t.yi=wT(xi)+b+ξi,i=1,2,…,N (2)
在目標(biāo)函數(shù)(1)中,w為權(quán)值矢量,C為懲罰因子,ξi為誤差參數(shù),約束條件(2)中b為偏差。
與傳統(tǒng)的SVM相比,LS-SVM具有更小的計(jì)算復(fù)雜性和更快的運(yùn)算速度等優(yōu)點(diǎn),同時(shí),探尋SVM、神經(jīng)網(wǎng)絡(luò)、高斯過程和貝葉斯技術(shù)的本質(zhì),它可以融合他們的特點(diǎn);它也可以被擴(kuò)展為一個(gè)自動(dòng)回歸模型去處理動(dòng)態(tài)問題[3]。引入Lagrange乘數(shù)αi∈R,等式(1)Lagrange函數(shù)可以被定義為
L(w,b,ξ,α)=J(w,ξ)-∑αi{wT(xi)+b+ξi-yi}
(3)
αi≥0,i=1,2,…,N
根據(jù)KKT條件,可以得到如下函數(shù)
=0→w=αi(xi)(4)
=0→αi=0(5)
=0→αi=Cξi(6)
=0→wT(xi)+b+ξi-yi=0(7)
消去w,ξ,可以得到
0 ITIΩ+bα=0Y(8)
在這里x=[x1…xN],y=[y1…yN],I=[1…1],α=[α1…αN],同時(shí)Ωkl=(xk,xl)=φ(xk)Tφ(xl),k,l=1,…,N,滿足Mercer條件,存在一個(gè)函數(shù)φ,和核函數(shù)
(?,?),則
(xk,xl)=φ(xk)Tφ(xl) (9)
因此,LS-SVM預(yù)測函數(shù)為
y(x)=αk(x,xk)+b(10)
1.1選擇核函數(shù)
核函數(shù)的作用主要是通過映射將輸入變量映射到高維空間,具有重要的作用,常用的核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)及神經(jīng)網(wǎng)絡(luò)核函數(shù),考慮到參數(shù)的數(shù)量將影響模型的復(fù)雜程度,線性核函數(shù)和神經(jīng)網(wǎng)絡(luò)核函數(shù)屬于高斯徑向基核函數(shù)(RBF)的特例,而RBF數(shù)學(xué)計(jì)算比較簡單,因此在本系統(tǒng)中我們選用RBF[4-6],其表達(dá)式為
(x,xk)=exp{-||x-xk||2/2σ2}
1.2確定模型參數(shù)
在RBF核函數(shù)中懲罰參數(shù)C和核參數(shù)σ是兩個(gè)重要的參數(shù),為了選擇理想?yún)?shù)去提高模型訓(xùn)練的結(jié)果,有很多參數(shù)選擇的方法,如經(jīng)驗(yàn)法、提升計(jì)劃法、交叉驗(yàn)證法、VC維平面法和統(tǒng)計(jì)學(xué)習(xí)理論推導(dǎo)法等[7]。采用交叉驗(yàn)證法來確定懲罰參數(shù)C和核參數(shù)σ。
2數(shù)據(jù)樣本訓(xùn)練
番茄的生長期為16周左右,這期間的降水情況、積溫情況、施肥情況都將直接影響到番茄的產(chǎn)量,因此對(duì)于番茄最終產(chǎn)量預(yù)測應(yīng)是一個(gè)完整數(shù)據(jù)樣本的預(yù)測,而番茄生長的數(shù)據(jù)是隨時(shí)間不斷積累和更新的,但是為了能夠合理地安排生產(chǎn)和銷售,企業(yè)需要?jiǎng)討B(tài)地把握番茄的產(chǎn)量,因此對(duì)于需要預(yù)測產(chǎn)量的年份,預(yù)測函數(shù)輸入是一個(gè)隨時(shí)間動(dòng)態(tài)變化的多維變量,且在時(shí)間小于16周的時(shí)候是一組不完備的數(shù)據(jù),這與最終的番茄產(chǎn)量預(yù)測所需完整數(shù)據(jù)形成了一個(gè)矛盾。那么N周后的16-N周的數(shù)據(jù)如何得到?在本課題中采用歷史數(shù)據(jù)替代法,即(N+1,16)周的數(shù)據(jù)采用近5年同一時(shí)期的平均值,新的數(shù)據(jù)產(chǎn)生后自動(dòng)覆蓋,并再次進(jìn)行番茄產(chǎn)量預(yù)測。
以番茄生長16周的積溫?cái)?shù)據(jù)為例
X=[x1,…,xN,xN+1, …,x16](11)
其中xN為當(dāng)前周的數(shù)據(jù),xN+1=x′N+1即過去5年同一時(shí)期的平均值。
3預(yù)測系數(shù)
不同品種番茄產(chǎn)量預(yù)測的系數(shù)是不同的,對(duì)于生長數(shù)據(jù)匱乏的番茄品種的產(chǎn)量預(yù)測,首先應(yīng)選定一個(gè)具有豐富歷史數(shù)據(jù)的品種,作為關(guān)系樣本D,利用K年的非關(guān)系樣本品種的平均畝產(chǎn)量之和與關(guān)系樣本K年的平均畝產(chǎn)量之和的比值的平均值作為加權(quán)系數(shù)βj。
βj=j(luò)=1,2,…,m;j≠l(12)
其中考慮到品種的原因,K值一般取為5;而θij為第j個(gè)非關(guān)系樣本品種的第i年的平均畝產(chǎn)量,為關(guān)系樣本的第i年平均畝產(chǎn)量,而關(guān)系樣本的加權(quán)系數(shù)為1。
yj=βj*yl (13)
4預(yù)測步驟及結(jié)果
4.1預(yù)測步驟
對(duì)具有可變因素的預(yù)測系統(tǒng),近工作點(diǎn)數(shù)據(jù)對(duì)系統(tǒng)的影響要大于遠(yuǎn)工作點(diǎn)的數(shù)據(jù),作為系統(tǒng)的改變,新數(shù)據(jù)被收集,而原來利用離線數(shù)據(jù)建立起來的模型,已經(jīng)不能夠準(zhǔn)確地描述系統(tǒng)的真實(shí)狀態(tài);新數(shù)據(jù)應(yīng)該用于建立一個(gè)新的模型去更精確地反映當(dāng)前系統(tǒng)的狀態(tài)。因此為了滿足番茄產(chǎn)量預(yù)測的需要,對(duì)傳統(tǒng)的LS-SVM進(jìn)行了改進(jìn)。
1)選擇訓(xùn)練樣本集,同時(shí)為了消除各個(gè)因子由于量綱和單位不同的影響,需要把樣本的輸入和輸出參數(shù)規(guī)范化在(-1,+1)之間,即對(duì)數(shù)據(jù)進(jìn)行歸一化處理。
2)選擇模型參數(shù),確定預(yù)測系數(shù)。
3)樣本稀疏處理。
4)運(yùn)用LS-SVM訓(xùn)練樣本。
5)預(yù)測數(shù)據(jù)。
6)當(dāng)?shù)冢危敝苄碌臄?shù)據(jù)產(chǎn)生后,在下一次預(yù)測過程中,第N+1周的數(shù)據(jù)自動(dòng)替換掉過去五年同一時(shí)期的平均數(shù)據(jù)。
7)返回4)。
4.2預(yù)測結(jié)果
數(shù)據(jù)來源于中糧新疆屯河股份有限公司吉木薩爾番茄制品分公司,根據(jù)種植品種,積溫大小、灌溉和施肥情況的分析,番茄產(chǎn)量與品種和生長時(shí)期的管理有很大關(guān)系。
采用2003~2008年的醬用番茄部分早熟品種數(shù)據(jù)用來進(jìn)行訓(xùn)練,在線學(xué)習(xí),利用LS-SVM預(yù)測算法預(yù)測2009年的番茄生理期后5周的動(dòng)態(tài)產(chǎn)量,根據(jù)樣本的數(shù)量采用交叉驗(yàn)證法確定懲罰參數(shù)C和核參數(shù)σ。預(yù)測效果較理想,結(jié)果見表1。
5小結(jié)
番茄產(chǎn)量的預(yù)測與普通糧食、棉花的預(yù)測有些不同,因?yàn)榉旬a(chǎn)量的預(yù)測結(jié)果直接影響到企業(yè)生產(chǎn)的安排和原料的供給計(jì)劃,而糧食、棉花等產(chǎn)量預(yù)測的宏觀意義更大,因此對(duì)于番茄產(chǎn)量預(yù)測的算法實(shí)現(xiàn)有一定的特殊性。一種新的針對(duì)番茄產(chǎn)量LS-SVM在線預(yù)測算法的提出,解決了產(chǎn)量預(yù)測過程中番茄生長及環(huán)境數(shù)據(jù)不完整的缺陷,豐富了LS-SVM預(yù)測算法的應(yīng)用范圍,同時(shí)對(duì)于果蔬產(chǎn)業(yè)原料產(chǎn)量預(yù)測提供了一種思路,為企業(yè)的生產(chǎn)安排和統(tǒng)籌規(guī)劃提供參考依據(jù),由于數(shù)據(jù)量較大,產(chǎn)量預(yù)測窗口為一周,若預(yù)測窗口為一天,則預(yù)測精度還可能進(jìn)一步提高,同時(shí)還可以采用數(shù)據(jù)挖掘技術(shù)進(jìn)一步研究。
參考文獻(xiàn):
[1] SUYKENS J A K,DEBRABANTER J,LUKAS L,et al. Weighted least squares support vector machines:robustness and sparse approximation[J]. Neurocomputing,2002,48(1):85-105.
[2] 魏聰,肖玉峰,董平川. 最小二乘支持向量機(jī)在儲(chǔ)層流體識(shí)別中的應(yīng)用[J]. 石油天然氣學(xué)報(bào),2009,31(2):275-278.
[3] SUYKENS J A K,VANDEWALLE J. Least square support vector machines classifiers[J]. Neural Processing Letters,1999, 9(3):293-300.
[4] 俞啟香,王凱,楊勝強(qiáng). 中國采煤工作面瓦斯涌出規(guī)律及其控制研究[J].中國礦業(yè)大學(xué)學(xué)報(bào),2000,1(1):9-14.
[5] CHANG C C,LIN C J. Training v-support vector classifiers: theory and algorithms[J]. Neural Computation,2001,13(9):2119-2147.
[6] HSU C W, LIN C J. A simple decomposition method for support vector machines[J]. Machine Learning,2002,46:291-314.
[7] 鄭小霞, 錢鋒. 基于支持向量機(jī)的在線建模方法及應(yīng)用[J]. 信息與控制,2005(5):636-640.