樓皓,曹倩,李海生
北京工商大學計算機與信息工程學院,食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室(北京 100048)
在經(jīng)濟全球化背景下,食品的流通貿(mào)易變得頻繁,食品安全問題成為世界各國最關(guān)注的民生問題之一。由于食品安全受到多種復雜因素影響,中國每年出口歐盟的食品中,會有部分食品因不符合歐盟食品安全標準遭到歐盟食品及飼料快速預警系統(tǒng)(RASFF)通報。因此,加強中國出口食品的安全預測,有助于深度了解中國對外食品貿(mào)易走勢,具有重要的長期實踐意義[1-3]。
當前食品安全預測方法眾多,傳統(tǒng)預測方法基于數(shù)據(jù)是線性變化為前提,代表有差分自動回歸移動平均(ARIMA)[4],但不能準確地描述食品安全與其影響因子間的非線性關(guān)系,使用十分受限。近年來出現(xiàn)的神經(jīng)網(wǎng)絡(luò)、支持向量機(SVM)等技術(shù)卻非常善于發(fā)掘非線性變化規(guī)律數(shù)據(jù)中存在的聯(lián)系[5-6]。中國對外出口食品數(shù)據(jù)不僅具有一定周期性變化特點,同時也有相當一部分隨機性特點。因此,單一模型對食品數(shù)據(jù)無法準確預測。 為了解決這個問題,提出一種基于ARIMA和SVM的食品安全預測模型。選擇差分自動回歸移動平均模型對食品數(shù)據(jù)的時間序列進行建模,采用支持向量機對差分自動回歸移動平均的預測殘差進行建模,兩者結(jié)果相加以得到最終的食品安全預測結(jié)果。試驗表明,基于ARIMA-SVM模型較單一模型有更高的預測精度,為今后食品安全預測問題提供建模工具[7]。
ARIMA是最典型的時間序列預測方法,擁有簡單、短期預測效果良好的特點。ARIMA(p, d, q)模型由3部分組成,即自回歸模型(Auto regression,AR),其中p為相應的回歸項;單整階數(shù)(Integration,I),d為差分階數(shù),用來得到平穩(wěn)序列;移動平均模型(Moving average,MA),q為相應的移動平均項。時間序列模型要建立計量模型,需滿足平穩(wěn)性序列這一條件,若時間序列是非平穩(wěn)序列,則要通過差分轉(zhuǎn)換為平穩(wěn)性序列。ARIMA(p, d, q)模型是把非平穩(wěn)時間序列經(jīng)d階差分后得到平穩(wěn)時間序列,構(gòu)成ARMA(p,q),其一般形式為式(1)。
式中:wt表示平穩(wěn)時間序列;εt表示白噪聲;φi(i=1,2, …, p)表示{wt}的參數(shù);θj(j=1, 2, …, q)表示{εt}的參數(shù)。將非平穩(wěn)時間序列轉(zhuǎn)化為平穩(wěn)時間序列后,需要對平穩(wěn)時間序列分別繪制其自相關(guān)系數(shù)ACF圖和偏自相關(guān)系數(shù)PACF圖,通過對圖形的分析,得到最佳自回歸階層p和移動平均階數(shù)q,模型參數(shù)φi和θj由階數(shù)q確定。在最小信息量準則(AIC)和貝葉斯信息量準則(SIC)基礎(chǔ)上進行模型確定。
式中:n表示模型中參數(shù)個數(shù);L表示模型的極大似然函數(shù)。AIC和BIC準則的提出可有效彌補自相關(guān)圖和片自相關(guān)圖定階的主觀性,能在有限的階數(shù)范圍內(nèi)更快找到最優(yōu)擬合模型。
支持向量機(SVM)的概念由Cortes和Vapnik于1995年第一次提出,基于統(tǒng)計學VC維理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上提出,最初應用于模式的分類,其核心是通過核函數(shù)的引入,將低維空間中的非線性問題通過映射到高維度空間,進而轉(zhuǎn)化為高維度中的線性凸二次規(guī)劃問題。其優(yōu)點是利用內(nèi)積核函數(shù)代替高維空間的非線性映射,最終結(jié)果的決定取決于少數(shù)支持向量,計算復雜度只與支持向量的數(shù)目相關(guān),與樣本空間維度無關(guān),某種意義上避免“維數(shù)災難”,保證了解的唯一性和全局最優(yōu)性,且算法簡單,魯棒性強。
由于SVM模型是用于線性不可分的預測殘差進行分析,假設(shè)給定一個特征空間上的訓練數(shù)據(jù)集T={(x1, y1), (x2, y2), …, (xN,yN)},其中xi∈Rn,yi∈{+1, -1},i=1, 2, …, N,引入松弛因子ξi≥0,對應的最優(yōu)化問題如式(4)所示。
由最優(yōu)w*和b*求得分離超平面,見式(5),進而確定分類決策函數(shù),如式(6)所示。
支持向量機回歸是支持向量機的擴展應用,其核心是ε-insensitive誤差函數(shù)和核函數(shù),定義松弛變量εi和基于ε不敏感損失函數(shù)的支持向量機回歸模型如式(7)所示。
式中:εi和εi表示松弛變量,定義模型的誤差范圍;C表示正則化參數(shù),其主要功能是對松弛變量和置信范圍的度量優(yōu)化。推導可得最終支持向量機回歸函數(shù)。如式(8)所示。
對式(7)轉(zhuǎn)化為等價的二次規(guī)劃問題求解后可得αi*和αi,在KKT準則的基礎(chǔ)上可求得偏差b。式中K(xi, yi)稱為滿足Mercer條件的任意對稱函數(shù),也即核函數(shù),很大程度上決定模型性能的優(yōu)良。經(jīng)過分析可知,在采用交叉(CV)和網(wǎng)格尋優(yōu)算法(GS)驗證基礎(chǔ)上,分別嘗試各種常用的核函數(shù),找出模型擬合效果最好誤差最小的一種,在反復試驗基礎(chǔ)上,確定徑向基函數(shù)(RBF)最符合試驗要求[8]。
圖1 組合預測模型流程圖
中國出口歐盟食品安全受多種風險源因素的影響,因此,將中國出口歐盟不合格食品通報次數(shù)的時間序列Yt以月度分布構(gòu)建時間序列,作為輸入變量帶入ARIMA模型進行預測,得到符合線性變化規(guī)律的結(jié)果Yl*,此時預測殘差Yn=Yt-Yl*。因為預測殘差Yn中包含時間序列的非線性部分,故使用SVM模型進行回歸預測,將Yn作為支持向量機模型的輸入變量得到預測結(jié)果Yn*。此時,通過單獨的ARIMA模型和SVM模型分別得到預測值Yl*和Yn*,將兩者相加即是ARIMASVM組合預測模型的最終預測結(jié)果Yt*=Yl*+Yn*[9-15]。組合預測模型建模步驟如圖1所示。
選取歐盟食品及飼料快速預警系統(tǒng)門戶網(wǎng)站(RASFF)上2009年1月至2018年12月共計120個自然月的歐盟對華食品邊境拒絕通報次數(shù)的時間序列作為研究對象,以前108個月的數(shù)據(jù)樣本作為訓練樣本對模型進行構(gòu)建,后12個月的數(shù)據(jù)樣本作為測試樣本。圖2為2009年1月至2018年12月歐盟對華邊境通報次數(shù)變化圖。
圖2 2009年1月至2018年12月歐盟對華食品出口邊境通報次數(shù)變化圖
為更直觀評價ARIMA-SVM組合預測模型的預測效果,采用均方根誤差(Root mean squared error,RMSE)和平均絕對誤差(Mean absolute percent error,MAPE)作為評價指標,對模型的預測效果進行評估,均方根誤差和平均絕對誤差定義。
式中:xi表示實際值;表示預測值;n表示預測樣本數(shù)量。
對2009年1月至2018年12月歐盟對華邊境通報次數(shù)做月度序列圖分析可知(圖2),其呈緩慢上升的趨勢,屬于明顯的非平穩(wěn)時間序列,并存在較大波動,整個月度時間序列方差差別顯著。以2017年12月為切點,將整個數(shù)據(jù)集分為兩部分。以2009年1月至2017年12月的數(shù)據(jù)作為組合預測模型的建模數(shù)據(jù),2018年1月至12月的數(shù)據(jù)作為驗證數(shù)據(jù),對通報次數(shù)進行預測進而評估模型的預測可靠性。
對原始數(shù)據(jù)時間序列進行一階差分,相關(guān)試驗的軟硬件環(huán)境分別為EVIEWS 10,Windows 10教育版,2.6 GHz CPU、8 GB內(nèi)存的筆記本電腦。原始時間序列經(jīng)過一階差分處理后如圖3和圖4所示。由圖3可知,一階差分均值基本維持在0左右,基本可以判斷是穩(wěn)定的時間序列。由圖4時間序列ADF單位根檢驗可知,p-value小于0.05且檢驗值的絕對值均大于臨界值的絕對值,拒絕原假設(shè)。故原始時間序列經(jīng)一階差分后變成了平穩(wěn)時間序列。故確定ARIMA(p,d,q)模型中的d=1。
圖3 一階差分時間序列圖
圖4 一階差分時間序列ADF檢驗圖
一階差分后殘差自相關(guān)系數(shù)(ACF)和偏自相關(guān)系數(shù)(PACF)如圖5所示,可知lag=12(滯后值)時,自相關(guān)系數(shù)滯后2階后開始有衰減的趨勢且系數(shù)都不為0,可視為2階拖尾;偏自相關(guān)系數(shù)滯后2階后也開始衰減且系數(shù)不為0,視為2階拖尾。自相關(guān)和偏自相關(guān)均為拖尾,故適用AR(2)模型。
圖5 殘差自相關(guān)和偏自相關(guān)系數(shù)圖
因此ARIMA模型階數(shù)可初步定為ARIMA(1, 1,0),ARIMA(2, 1, 0),ARIMA(1, 1, 1)和ARIMA(2, 1,1),利用Eviews軟件分別對4個模型進行計算,根據(jù)最小信息量原則,最終確定最優(yōu)模型為ARIMA(2, 1,1),各ARIMA模型的AIC和SIC檢驗值如表1所示。
表1 差分自移動回歸平均模型相關(guān)信息量檢驗值
預測結(jié)果及RASFF對華出口食品邊境通報次數(shù)的殘差值、觀測值及擬合值的對比分別如圖6和圖7所示。ARIMA模型對RASFF對華食品邊境通報次數(shù)1月至10月的預測趨勢與實際值的趨勢是非常接近的,但預測值只有在3,5,8和9月的預測值與實際值非常接近,其余各月預測值與實際值相差很大擬合效果不是很理想,仍有待進一步優(yōu)化。
圖6 差分自回歸移動平均模型ARIMA(2, 1, 1)預測結(jié)果
圖7 我國出口歐盟食品邊境通報次數(shù)的殘差值、觀測值及擬合值的對比圖
模型ARIMA(2, 1, 1)殘差包含非線性部分,故使用SVM模型對殘差進行訓練。試驗采用MATLAB R2014b版本,調(diào)用Libsvm 3.23工具箱實現(xiàn)。SVM模型的2個重要參數(shù)分別為核函數(shù)和特征空間向量,經(jīng)過多次試驗分析,確定核函數(shù)選擇徑向基核函數(shù)(RBF),定義為:
確定SVM模型核函數(shù)使用徑向基函數(shù),在反復多次試驗的基礎(chǔ)上確定模型參數(shù)分別為C=53,σ=3.6,ε=0.01。根據(jù)參數(shù)對2018年1月至2018年12月RASFF對華出口食品邊境通報次數(shù)進行預測,預測結(jié)果與實際結(jié)果對比圖見圖8。
SVM模型預測趨勢在1-3,4-5,7-9及10-12月是符合實際值趨勢的,與ARIMA模型相比略有不足。在預測值精準度上,SVM模型的預測值與實際值的差別幅度要大于ARIMA模型,仍有待優(yōu)化。
圖8 支持向量機模型預測值與實際值結(jié)果對比圖
在ARIMA(2, 1, 1)模型的預測值及殘差部分SVM模型的預測值的基礎(chǔ)上進行求和,得到ARIMA-SVM組合預測模型的預測值,將各模型對2018年1-12月RASFF對華食品出口邊境通報次數(shù)的預測值進行對比,結(jié)果如圖9所示。
由圖9可知,ARIMA模型預測值在5-9月期間的預測值與實際值變化趨勢相同,預測值與實際值相差不大。SVM模型在1-5月期間的預測值與實際值變化趨勢相同,但預測值與實際值誤差要大于ARIMA模型。單模型預測的情況下,ARIMA模型擬合精度要高于SVM模型。而ARIMA-SVM組合模型不論是數(shù)據(jù)變化趨勢或是數(shù)據(jù)誤差方面,均要優(yōu)于任一單模型。因此單模型只適用于短期預測,長期預測使用組合預測模型效果更佳[16-19]。各模型預測結(jié)果及預測精度分別如表2和表3所示。
圖9 2018年1-12月我國出口歐盟食品出口邊境通報次數(shù)各模型預測結(jié)果對比圖
表2 各模型預測結(jié)果
表3 各模型預測精度
不論是單獨的ARIMA模型或是SVM模型,都不能兼顧捕捉到數(shù)據(jù)中存在的線性特征和非線性特征。組合模型的優(yōu)勢就在于分別保留ARIMA模型和SVM模型的優(yōu)勢部分,利用ARIMA模型對數(shù)據(jù)線性特征進行建模,利用SVM模型對數(shù)據(jù)的非線性特征進行建模,從而有效避免ARIMA模型對數(shù)據(jù)非線性特征處理的短板。表2和表3數(shù)據(jù)顯示出組合模型相比較單一模型在預測結(jié)果和預測精度上有較為明顯的優(yōu)勢,說明ARIMA-SVM組合預測模型對原始數(shù)據(jù)中隱藏的數(shù)據(jù)關(guān)系的認知上要比單一模型表現(xiàn)更佳,有效克服單一模型的局限性[20]。同時,試驗結(jié)果驗證組合預測模型對中國出口歐盟食品質(zhì)量安全的預測結(jié)果是可靠的,對今后中國出口歐盟食品的質(zhì)量起到有效監(jiān)管作用。
1) 一定時間節(jié)點內(nèi)RASFF對華出口食品通報次數(shù)的時間序列是食品安全和數(shù)據(jù)關(guān)系的一種直觀反映?;谕诰蚴称钒踩嚓P(guān)數(shù)據(jù)的時間序列自身隱含信息的角度出發(fā),建立ARIMA-SVM的時間序列組合預測模型。實證研究表明,基于2009年至2018年RASFF對華食品出口邊境通報次數(shù)的數(shù)據(jù),利用2018年1-12月的數(shù)據(jù)進行驗證,結(jié)果表明不論是預測值或是預測精度,組合模型均優(yōu)于單一模型。
2) ARIMA-SVM預測模型較單一預測模型短期內(nèi)能夠較為準確反映出中國出口歐盟食品的質(zhì)量安全,對中國食品出口安全風險起到一個有效評估,但模型參數(shù)的選擇、數(shù)據(jù)噪聲等影響因子仍然會對組合模型的預測精度產(chǎn)生影響。此外,影響食品安全的不確定因素遠頗多,也會在一定程度上影響預測的精度,導致預測精度下降。