葛彥 趙紅梅
? 【摘要】本文針對區(qū)域物流需求問題,建立支持向量機(jī)預(yù)測模型。運(yùn)用基于改進(jìn)求核算法的屬性約簡方法篩選預(yù)測指標(biāo),以貨運(yùn)量為目標(biāo)函數(shù),建立預(yù)測指標(biāo)體系;進(jìn)行數(shù)據(jù)的歸一化處理,利用Lagrange乘子法、徑向基核函數(shù),建立SVM基本模型,并簡述SVM參數(shù)確定的兩種方法:五折交叉驗(yàn)證法、人工魚群算法,最終建立完整的區(qū)域物流需求預(yù)測模型。
【關(guān)鍵詞】支持向量機(jī) 屬性約簡法 區(qū)域物流 需求預(yù)測
一、引言
區(qū)域物流需求預(yù)測是物流系統(tǒng)發(fā)展的關(guān)鍵技術(shù),可為上級管理部門規(guī)劃和下級物流企業(yè)決策提供指導(dǎo)。目前,我國廣大學(xué)者為準(zhǔn)確預(yù)測區(qū)域物流需求未來變化趨勢,曾提出多種物流需求預(yù)測方法,而隨著計算機(jī)發(fā)展、人工智能技術(shù)不斷成熟,BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)等新型預(yù)測方法也孕育而生。如何更為行之有效地進(jìn)行區(qū)域物流需求預(yù)測,對整個區(qū)域內(nèi)物流系統(tǒng)規(guī)劃與管理、運(yùn)行與決策具有重大意義。
二、預(yù)測指標(biāo)體系
(一)基于屬性約簡法的預(yù)測指標(biāo)篩選
根據(jù)國內(nèi)經(jīng)濟(jì)物流發(fā)展情況與關(guān)系,初步確定區(qū)域物流需求八大預(yù)測指標(biāo):區(qū)域生產(chǎn)總值、第一產(chǎn)業(yè)產(chǎn)值、第二產(chǎn)業(yè)產(chǎn)值、第三產(chǎn)業(yè)產(chǎn)值、區(qū)域社會消費(fèi)品零售總額、區(qū)域人均消費(fèi)水平、區(qū)域進(jìn)出口總額、區(qū)域快遞業(yè)務(wù)量。貨運(yùn)量為物流需求的量化變量。
為減少計算量,選用屬性約簡法進(jìn)行指標(biāo)篩選。
1.屬性約簡方法的選擇。屬性約簡[1-2]是粗糙集理論研究的核心內(nèi)容之一。屬性組合爆炸是致使最小屬性約簡成為NP-hard問題的原因,因此為得到一個最優(yōu)或次優(yōu)的約簡集,常常運(yùn)用啟發(fā)式算法。
基于正區(qū)域算法的屬性約簡無需建立可分辨矩陣,時間與空間復(fù)雜度相對可分辨矩陣較小,更具優(yōu)勢。因此本文選用基于正區(qū)域算法的屬性約簡作為預(yù)測指標(biāo)的篩選方法。
2.基于改進(jìn)求核算法的屬性約簡。篇幅限制,不再贅述粗糙集理論,下面詳細(xì)介紹基于正區(qū)域算法的屬性約簡。
在粗糙集理論中,往往需要求出核,再利用啟發(fā)式信息進(jìn)行約簡。而核是通過正區(qū)域定義的,因此正區(qū)域的有效計算對整個屬性約簡至關(guān)重要。
目前最行之有效的算法之一是徐章艷等[3]設(shè)計的一種基于基數(shù)排序的改進(jìn)的求核算法(正區(qū)域算法),時間復(fù)雜度為O(|C||U|),具體步驟如下:
Step1:基于基數(shù)排序的屬性連續(xù)化
設(shè)決策表S={U,C,D,V,f},條件屬性集合C中元素α的最大、最小值分別為Mα、mα。
(1)取α最值間隔為1,根據(jù)包括首尾在內(nèi)的間隔數(shù)建立相應(yīng)數(shù)量的空隊列;
(2)若?字存在于論域U中,將?字加至第f(?字,α)-m個隊列中,修改該隊列首尾的指針;
(3)count初始化為零;
(4)依次搜索隊列,若為非空,則將該隊列中所有元素在屬性α上的值改為count,執(zhí)行后count值自增1;
(5)得到在α上有序且值連續(xù)的新決策表S,其值域?yàn)閇0,M’α]。
Step2:計算簡化決策表S’
其實(shí)質(zhì)是刪除決策表重復(fù)元素,定義如下:
決策表S={U,D,D,V,f}中,記U/C={[u’1]C,[u’2]C,…,[u’m]C},U’={u’1,…u’m};
設(shè)POSC(D)=[ui1’]CU…U[uis’]C,其中?坌uis’∈U’且uis’/D的絕對值等于1(s=1,…,t);記U’pos={ui1’,…,uit’},U’neg=U’-U’pos,則有簡化決策表S’={U’,C,D,V,f}。
計算步驟如下:
(1)計算U/C={X1,X2,…,Xm};
(2)對于?坌Xi∈U/C,若Xi/D的絕對值等于1,則任意取元素?字∈Xi,令x.is_pos=1,U’pos新增元素?字,反之?字.is+pos=0,U’heg新增元素?字。
Step3:基于簡化決策表S’的改進(jìn)求核算法
(1)初始i=0,當(dāng)i<|C|時執(zhí)行循環(huán)體,循環(huán)體每執(zhí)行一次則i++,否則break;
(2)內(nèi)部循環(huán):
循環(huán)1:
若i≥0,則第i-1屬性執(zhí)行基數(shù)排序;
循環(huán)2:?字指向鏈表首地址;
循環(huán)3:若?字?埸?覫
循環(huán)3.1:
若f(?字,D≠f(x→link,D)且?字與?字→link同屬正區(qū)域的同一等價類或分屬正負(fù)區(qū)域的同一等價類,
則Core(C)=Core(C)U{ci},break;
循環(huán)3.2:
若?字與?字→link非同一等價類,則?字為鏈表下一元素指針;
(3)得到原始決策表S的核Core(C)。
以上提出的算法是基于不相容決策表執(zhí)行的,對于相容或不相容決策表均能實(shí)現(xiàn)求解,適應(yīng)范圍廣。對于相容決策表,循環(huán)3.1執(zhí)行條件可簡化為f(?字,D)≠f(?字->link,D)且?字與?字→link屬于同一等價類。這樣就得到基于正區(qū)域算法的屬性約簡結(jié)果。
(二)預(yù)測指標(biāo)體系的建立
以江蘇省為例,根據(jù)江蘇省統(tǒng)計年鑒,篩選后的預(yù)測指標(biāo)為自變量,貨運(yùn)量為目標(biāo)函數(shù),建立區(qū)域物流預(yù)測指標(biāo)體系,如下圖所示:
圖1 江蘇省物流需求預(yù)測指標(biāo)體系
受數(shù)據(jù)的可獲得性限制,實(shí)際預(yù)測時可能會調(diào)整指標(biāo)應(yīng)用情況。
三、基于SVM的物流需求預(yù)測模型
(一)預(yù)測模型的選擇
回歸分析、時間序列均為線性模型,不能滿足求出系統(tǒng)發(fā)展主要因素的條件;灰色關(guān)聯(lián)分析具有樣本需求少、計算簡單的優(yōu)勢,然而根據(jù)通過原始數(shù)據(jù)預(yù)測未來的工作特點(diǎn),其同樣缺乏對影響因素的考慮;BP神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)、自適應(yīng)特性克服了非定量因素?zé)o法用數(shù)學(xué)公式嚴(yán)謹(jǐn)表達(dá)難題,較傳統(tǒng)預(yù)測方法,精確性更高,但結(jié)果容易陷入局部最優(yōu)、出現(xiàn)擬合或發(fā)生維數(shù)災(zāi)難。而支持向量機(jī)[4-5]憑借結(jié)構(gòu)風(fēng)險最小化原理可避免BP神經(jīng)網(wǎng)絡(luò)過學(xué)習(xí)或欠學(xué)習(xí)現(xiàn)象,獲得全局最優(yōu)解,在處理有限樣本問題中具有非線性擬合精度高、抗噪聲性能強(qiáng)等無可比擬的強(qiáng)大優(yōu)勢。
(二)預(yù)測模型的建立
1.數(shù)據(jù)歸一化處理。本文中七個輸入輸出指標(biāo)量綱不一致,采用極差最大值變換法進(jìn)行歸一化處理,
公式如下:
通過上式將各指標(biāo)數(shù)據(jù)轉(zhuǎn)化至區(qū)間[-1,1]內(nèi),可以提高支持向量機(jī)收斂速度。
2.支持向量機(jī)基本模型。支持向量機(jī)基本原理是通過非線性映射,將低維空間即輸入因素x1,x2,…,xn變換到高維特征空間,從而進(jìn)行線性建模,尋找輸入輸出變量之間的關(guān)系。如下圖所示:
圖2 STV原理圖——最優(yōu)分隔超平面
設(shè)樣本?字i為d維向量(i=1,2,…,n),訓(xùn)練集L={(?字i,yi)|i=1,2,…,n},根據(jù)一個帶有權(quán)值向量與偏置量的映射函數(shù),在高維特征空間建立的數(shù)學(xué)模型為:f(?字)=ωT·φ(?字)+b(1)
其中,ω、b分別為模型辨識參數(shù)——權(quán)值向量和偏置量。
根據(jù)最小風(fēng)險原則,對辨識參數(shù)ω、b進(jìn)行處理:
(2)
其中,C(ei)、Remp(f)、‖ω‖2分別為損失函數(shù)、經(jīng)驗(yàn)風(fēng)險和置信風(fēng)險。
進(jìn)一步分析,想要求解式(2),即可轉(zhuǎn)化為一個約束優(yōu)化問題:
(3)
其中,γ為懲罰系數(shù)(又稱正則化系數(shù)),ei為誤差。
為方便計算,上述約束優(yōu)化方程組可利用Lagrange乘子αi,轉(zhuǎn)換為以無約束優(yōu)化問題形式存在于對偶空間內(nèi)的方程,即:
(4)
至此,建立Lagrange函數(shù)后,SVM使優(yōu)化問題轉(zhuǎn)化為求解線性方程組。
令y=(y1,y2,…,yn)T,α=(α1,α2,…,αn)T,根據(jù)KKT條件可以得到矩陣:
(5)
其中,1N為元素向量,E為單位矩陣,。
在非線性數(shù)據(jù)建模中,人們普遍認(rèn)為徑向基(Radial basis function,簡稱RBF)函數(shù)性能為支持向量機(jī)眾多核函數(shù)中最優(yōu),徑向基函數(shù)為:
(6)
基于RBF函數(shù)構(gòu)造的支持向量機(jī)分類函數(shù)為:
(7)
其中,σ為徑向基函數(shù)的寬度系數(shù)。
3.支持向量機(jī)參數(shù)的確定。在SVM算法中,根據(jù)其工作原理可知,懲罰系數(shù)γ與核函數(shù)寬度系數(shù)σ是支持向量機(jī)學(xué)習(xí)性能的共同決定參數(shù),兩參數(shù)值的大小決定了擬合情況的好壞。現(xiàn)常采用的參數(shù)確定方法為交叉驗(yàn)證法,這里選用五折交叉檢驗(yàn)法,具體方法不再贅述。取多次交叉檢驗(yàn)的差錯率的均值,重復(fù)多次交叉驗(yàn)證,再取平均,得到對算法精度的估計值。
參考文獻(xiàn)[6]提出利用人工魚群算法優(yōu)化參數(shù),通過模仿魚群覓食追尾行為,進(jìn)行高效率搜索,根據(jù)文章中給出的算法流程,總結(jié)出以下物流預(yù)測步驟:
圖3 物流預(yù)測步驟流程圖
四、結(jié)語
區(qū)域物流需求預(yù)測是個復(fù)雜的建模過程,通過上文研究,可以得到整個建模流程:確定研究對象;了解背景,查閱相關(guān)資料;分析研究對象影響因素,初步確定指標(biāo);利用改進(jìn)屬性約簡法分析篩選預(yù)測指標(biāo),確立預(yù)測指標(biāo)體系;選擇SVM作為預(yù)測模型;建立預(yù)測模型;在最后,收集到原始數(shù)據(jù)后,需對不同的預(yù)測方法進(jìn)行檢驗(yàn)分析,并證明預(yù)測結(jié)果合理性。
參考文獻(xiàn)
[1]黃鑫.基于DTRS-SVM模型的廣東省物流需求預(yù)測研究[D].廣東工業(yè)大學(xué),2015.
[2]鄒志超.基于正區(qū)域的屬性約簡算法的研究和改進(jìn)[D].暨南大學(xué),2011.
[3]徐章艷,劉作鵬,楊炳儒.一個復(fù)雜度為max(O(||U|),O(|C|~2|U/C|))的快速屬性約簡算法[J].計算機(jī)學(xué)報,03:391-399,2006.
[4]梁毅剛,耿立艷,張占福.基于核主成分——最小二乘支持向量機(jī)的區(qū)域物流需求預(yù)測[J].鐵道運(yùn)輸與經(jīng)濟(jì),34(11):63-67,2012.
[5]李自立.基于支持向量機(jī)的區(qū)域物流需求預(yù)測研究[D].武漢科技大學(xué),2009.
[6]陳海英,張萍,柳合龍.人工魚群算法優(yōu)化支持向量機(jī)的物流需求預(yù)測模型研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,46(2):69-75,2016.
基金項目:本論文受2016年大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目(xcx2016021)資助。
作者簡介:葛彥(1997-),女,江蘇南通人,學(xué)歷:本科;趙紅梅(1971-),女,安徽人,學(xué)歷:博士研究生,職稱:教授。