李爭艷, 王向前
(安徽理工大學 經(jīng)濟與管理學院, 安徽 淮南 232001)
科技創(chuàng)新是轉(zhuǎn)變經(jīng)濟發(fā)展方式和調(diào)整經(jīng)濟產(chǎn)業(yè)結(jié)構(gòu)的重要支撐,其效率的高低是直接反應(yīng)科學技術(shù)運用與科技創(chuàng)新能力的重要指標。因此準確地預測一個國家或者某個地區(qū)的科技創(chuàng)新效率具有相當重要的現(xiàn)實意義。
關(guān)于科技創(chuàng)新效率評價方面,李鴻禧等通過DEA-t檢驗尋找出顯著影響企業(yè)科技創(chuàng)新效率的關(guān)鍵指標:規(guī)模以上工業(yè)企業(yè)R&D經(jīng)費內(nèi)部支出、財政科技經(jīng)費投入、科技從業(yè)人員數(shù)、技術(shù)市場成交額、規(guī)模以上工業(yè)企業(yè)新產(chǎn)品產(chǎn)值[1]。朱鵬頤等運用超效率數(shù)據(jù)包絡(luò)分析視窗模型分析研究對象科技創(chuàng)新效率的動態(tài)變化[2]。章文光等綜合考慮創(chuàng)新的經(jīng)濟產(chǎn)出、科技產(chǎn)出和社會環(huán)境效益,構(gòu)建DEA的CCR和BCC模型測算各個城市的綜合效率[3]。關(guān)于支持向量機(SVM)優(yōu)化方面,周曉輝等提出了混沌粒子群優(yōu)化算法對支持向量回歸算法中參數(shù)c和g進行優(yōu)化,克服了傳統(tǒng)時間序列模型僅局限于線性系統(tǒng)的缺點[4]。路世昌等提出基于模糊信息?;?FIG)支持向量機預測模型,并通過交叉驗證法優(yōu)化選取支持向量機參數(shù)[5]。曹志強等運用平均絕對誤差和均方誤差比值作為精度檢驗標準,從而判斷基于遺傳算法的支持向量回歸機(SVR)比ARIMA和灰色預測具有更優(yōu)的預測效果[6]。Haibo Liang為了實現(xiàn)鉆井風險的實時動態(tài)評估,提出了一種基于粒子群優(yōu)化的模糊多級算法,以優(yōu)化支持向量回歸機[7]。大多數(shù)論文關(guān)注于對研究對象的效率評價,而Quan Zhang等提出了一種新的效率預測模型,該模型首次將信息?;椭С窒蛄繖C與DEA模型相結(jié)合,以評估決策單元的未來效率[8]。
目前,眾多學者關(guān)于科技創(chuàng)新效率評價方面取得了較多的研究成果,但是較少涉及效率預測;同時針對SVM參數(shù)優(yōu)化方面,大多研究只采用單一方法對粒化后的數(shù)據(jù)進行處理。因此針對上述研究的不足,本文結(jié)合FIG-SVR和DEA模型對決策單元的未來效率進行評價,同時采用兩種參數(shù)優(yōu)化方法分別對模糊粒子進行SVR參數(shù)優(yōu)化,以提高模型預測精度。
由于自身特征的原因,單一的SVR模型只能得到未來一年的效率指標預測值,這不利于決策者關(guān)于未來科技創(chuàng)新效率變化趨勢的把握。模糊信息?;菍⒄w樣本劃分為多個子樣本進行研究,同時能夠使子樣本數(shù)據(jù)仍保持原樣本數(shù)據(jù)特性,將之引入SVR模型中能夠得到更多時間段的預測值,為決策者提供更多的有效信息。
1979年,L.A.Zadch教授基于模糊集合理論首次提出了信息粒的概念,即將一組具有相似特征的研究元素組合在一起作為一個整體或者將整體劃分為部分進行研究,每個組合或者劃分后的部分則為信息粒[9~10]。在很多研究中非模糊信息?;荒軠蚀_描述研究對象的特征,因此本文選擇模糊信息粒化進行數(shù)據(jù)處理,主要包括兩個步驟:劃分窗口和模糊化。劃分窗口是將時間序列劃分為若干個子序列,并將這些子序列作為若干個操作窗口[11]。
假設(shè)時間序列X={x1,x2,…,xk} 是單一窗口,則模糊化就是在給定的序列上建立一個模糊粒子P使之能夠合理地描述X的模糊概念G。A是模糊概念G的隸屬函數(shù),確定函數(shù)A的過程在一定程度上便是模糊化的過程。本文采用的是三角形模糊粒子,其隸屬函數(shù)如下所示:
其中,a描述的是在相應(yīng)窗口中原始數(shù)據(jù)變化的最小值,m反映的是變化的平均水平,而b表示的是原始數(shù)據(jù)變化的最大值。
20世紀90年代,Vapnik等提出的支持向量機適用于處理小樣本數(shù)據(jù),能夠有效克服維數(shù)災(zāi)難和局部極小點的問題[12-13]。SVM通過定義最優(yōu)回歸超平面來解決線性回歸問題,通過引入核函數(shù)來解決非線性問題[14]。SVR是SVM在回歸和函數(shù)逼近問題上的應(yīng)用,對于給定的訓練樣本:
T={(x1,y1),(x2,y2),…(xl,yl)},xi∈X=Rn,yi∈Y=R,i=1,2,…l
SVR可以尋找到最優(yōu)函數(shù)y=f(x)從而推測出與x對應(yīng)的y值。
SVR通過使用非線性映射算法φ將低維線性不可分的樣本映射到高維特征空間使其線性可分,從而能夠在高維特征空間中對樣本的非線性特征采用線性算法進行線性分析[15]。SVR的函數(shù)表達式為:
其中,K(xi,xj)=φ(xi)·φ(xj)為核函數(shù).相較于其核函數(shù),高斯核函數(shù)K(xi,xj)=exp{-g‖xi-xj‖2}能夠更好地處理非線性樣本,同時具有更低的超參數(shù)復雜度[14],因此本文選擇高斯核函數(shù)構(gòu)造支持向量回歸機。
1.支持向量機的參數(shù)優(yōu)化方法
懲罰參數(shù)c以及核函數(shù)參數(shù)g對于支持向量回歸機的預測效果有很大的影響 ,因此為了得到良好的回歸效果,需要對這兩個參數(shù)進行優(yōu)化選取。本文選取K折交叉驗證法和遺傳算法對支持向量機的參數(shù)進行優(yōu)化,并比較這兩種方法的優(yōu)化效果,確定c和g的最優(yōu)值。
(1)K折交叉驗證法。K折交叉驗證法是將原始數(shù)據(jù)劃分成K個子樣本,然后每次選取一個不同的子樣本作為測試集,其他K-1個樣本作為訓練集。將經(jīng)過K次訓練得到的K個結(jié)果取均值作為評價該模型性能的指標。
(2)遺傳算法。遺傳算法是通過模擬自然選擇進行最優(yōu)解搜索,針對初代產(chǎn)生的“種群”,按照優(yōu)勝劣汰的原則對樣本進行篩選[17]。該方法借助遺傳算子進行組合交叉和變異等操作,并根據(jù)個體的適應(yīng)度大小對樣本進行選擇從而保留更“優(yōu)秀”的樣本。通過循環(huán)反復的篩選,使得最終進行代數(shù)可作為原問題的近似最優(yōu)解。
數(shù)據(jù)包絡(luò)分析被廣泛用于評估多投入多產(chǎn)出的相對效率。該方法通過構(gòu)建線性規(guī)劃模型從而確定有效生產(chǎn)前沿,并認為處于生產(chǎn)前沿上的決策單元的效率最優(yōu)[18]。
設(shè)有l(wèi)個決策單元,每個決策單元都有m種投入和n種產(chǎn)出。第r個決策單元的第i個投入量與第j個產(chǎn)出量分別為xir,yjr,該決策單元的投入產(chǎn)出指標權(quán)重為λr。評價第k個決策單元的具體函數(shù)模式如下所示:
si-,sj+≥0,λr≥0,r=1,2,…,n
該模型最優(yōu)解分為以下三種情況:當θ=1,si-=0,sj+=0 ,決策單元為DEA有效;當θ=1,si-和sj+存在任一大于0,則決策單元為弱DEA有效;當θ<1時,則該決策單元為DEA無效。
模型預測流程如圖1所示。從圖1可以看出,效率預測過程包括五個步驟:(1)獲取浙江省歷年科技創(chuàng)新投入產(chǎn)出指標的數(shù)據(jù);(2)利用三角形模糊信息?;P头謩e對上述各組數(shù)據(jù)(R&D人員投入、R&D經(jīng)費投入、技術(shù)市場交易和專利授權(quán)數(shù))進行處理得到Low、R、Up三組數(shù)值;(3)采用K折交叉驗證法和遺傳算法分別對每一項數(shù)據(jù)處理所得的Low、R、Up進行參數(shù)尋優(yōu),確定最優(yōu)c和g,以提高SVR模型預測準確度;(4)利用c和g對SVR模型訓練,建立最優(yōu)回歸預測模型,進而預測出浙江省未來一段時間內(nèi)的科技創(chuàng)新投入產(chǎn)出指標數(shù)值;(5)根據(jù)預測的投入產(chǎn)出數(shù)值,利用DEA模型進行計算從而可得到未來一段時間內(nèi)的科技創(chuàng)新效率;同時,結(jié)合步驟(1)所獲取的往年數(shù)據(jù),可計算出浙江省歷年的科技創(chuàng)新效率。
圖1 基于FIG-SVM的DEA模型預測流程圖
本文數(shù)據(jù)來源于浙江省統(tǒng)計局和中國統(tǒng)計年鑒,選取1990~2018年浙江省R&D人員投入、R&D經(jīng)費投入、技術(shù)市場交易和專利授權(quán)數(shù)作為科技創(chuàng)新效率研究指標并進行數(shù)據(jù)分析[19]。其中,投入指標為R&D人員投入和R&D經(jīng)費投入,產(chǎn)出指標為技術(shù)市場交易和專利授權(quán)數(shù)。
本文選取三角形模糊粒子對DEA模型的投入產(chǎn)出數(shù)據(jù)分別進行模糊信息?;;翱诖笮?且共有14個窗口。其中,Low,R,和Up分別對應(yīng)模糊粒子隸屬函數(shù)的三個參數(shù)a,m,b,它們分別表示每個模糊粒子數(shù)據(jù)變化的最小值、平均值和最大值。對原始數(shù)據(jù)進行模糊?;蟮慕Y(jié)果如圖2所示。
圖2 數(shù)據(jù)模糊信息?;Y(jié)果
1.SVR參數(shù)優(yōu)化處理
核函數(shù)參數(shù)的選擇對支持向量機泛化能力有較大的影響,因此對SVR參數(shù)進行優(yōu)化處理是必不可少的過程。本文利用K折交叉驗證法和遺傳算法對懲罰參數(shù)c和高斯核函數(shù)參數(shù)g進行尋優(yōu)處理,并比較這兩種方法所得的優(yōu)化結(jié)果進而確定參數(shù)c和g。相比于只采用單一的優(yōu)化方法,這種參數(shù)優(yōu)化處理能夠更好地選擇SVR參數(shù),提升模型預測精度。
(1)K折交叉驗證法。利用K折交叉驗證法分別對R&D人員投入、R&D經(jīng)費投入、技術(shù)市場交易額和專利申請授權(quán)數(shù)?;蟮腖ow、R、Up進行參數(shù)優(yōu)化。使用Matlab R2018a軟件運行,用函數(shù)SVMcgForRegress實現(xiàn)參數(shù)c和g的優(yōu)化,其具體形式如下所示[20]:
[mse,bestc,bestg]=SVMcgForRegress(train_label,train,cmin,cmax,gmin,gmax,v,cstep,gstep,msestep)
以R&D人員投入模糊信息?;髷?shù)據(jù)最低值Low為例,通過K折交叉驗證對SVM模型進行優(yōu)化,圖3的等高線圖和3D視圖為參數(shù)尋優(yōu)過程的展示。
(a)參數(shù)選擇等高線圖 (b)參數(shù)選擇3D視圖
(2)遺傳算法。利用遺傳算法分別對R&D人員投入、R&D經(jīng)費投入、技術(shù)市場交易額和專利申請授權(quán)數(shù)粒化后的Low、R、Up進行參數(shù)優(yōu)化。使用Matlab R2018a軟件運行,用函數(shù)gaSVMcgForRegress實現(xiàn)參數(shù)c和g的優(yōu)化,其具體形式如下所示[20]:
[BestMSE,Bestc,Bestg,ga_option]=gaSVMcgForRegress(train_label,train_data,ga_option)
以R&D人員投入模糊信息粒化后數(shù)據(jù)最低值Low為例,通過遺傳算法對SVM模型進行優(yōu)化,圖4為參數(shù)尋優(yōu)過程的展示。
圖4 遺傳算法參數(shù)選擇結(jié)果圖
(3)優(yōu)化算法擬合結(jié)果比較。利用K折交叉驗證法和遺傳算法對每一個指標模糊信息粒化后的Low、R、Up進行參數(shù)優(yōu)化,并比較這兩種方法的擬合結(jié)果,選擇擬合效果更好的預測數(shù)值。以R&D人員投入模糊信息?;髷?shù)據(jù)最低值Low為例,利用K折交叉驗證法可得該模糊粒子SVR機參數(shù)c和g為724.077和0.015 625,利用遺傳算法得到的結(jié)果為79.430 3和0.023 841 9,比較兩種方法優(yōu)化后的均方誤差和相關(guān)系數(shù)最終確定參數(shù)c和g。具體內(nèi)容如表1所示。
表1 優(yōu)化算法擬合結(jié)果比較
從表1可以看出,兩種優(yōu)化方法相關(guān)系數(shù)大小相近,但是K折交叉驗證法的均方誤差相對于遺傳算法來說要略微小一點,因此對于R&D人員投入模糊信息?;瘏?shù)Low而言,選擇K折交叉驗證法進行參數(shù)優(yōu)化的效果更為理想。利用該方法優(yōu)化后得到的均方誤差比較小,相關(guān)系數(shù)與1十分接近,因此可以表明預測曲線擬合效果較好。
本文針對每一指標均采用兩種方法進行參數(shù)優(yōu)化,最終優(yōu)化方法以及最優(yōu)c和g的參數(shù)選擇結(jié)果如表2所示。
表2 各指標模糊信息粒子參數(shù)優(yōu)化結(jié)果
表2列出的最優(yōu)c和g均是根據(jù)本節(jié)(3)中所述內(nèi)容進行選擇的,通過對每組數(shù)據(jù)的均方誤差和相關(guān)系數(shù)大小進行比較從而確定最優(yōu)參數(shù)的數(shù)值。
2.基于SVR對?;瘮?shù)據(jù)的回歸預測
針對R&D人員投入模糊信息粒化參數(shù)Low,利用K折交叉驗證法得到的參數(shù)訓練支持向量機對之進行回歸預測,原始數(shù)據(jù)與回歸預測數(shù)據(jù)對比如圖5所示。
圖5 原始數(shù)據(jù)與回歸預測數(shù)據(jù)對比
從圖5可以看出,除去個別偏差點外,原始數(shù)據(jù)與預測數(shù)據(jù)大小十分接近。針對該組數(shù)據(jù),基于K折交叉驗證法的支持向量機預測模型具有較高的預測精度,因此選擇合適的優(yōu)化方法能夠有效提升回歸預測準確率。
利用選擇后的最優(yōu)懲罰參數(shù)c和核函數(shù)參數(shù)g訓練支持向量回歸機模型,進而得出科技創(chuàng)新效率各項指標2019年和2020年的預測結(jié)果。具體數(shù)值如表3所示。
表3 技術(shù)創(chuàng)新效率指標預測結(jié)果
1.SVR參數(shù)優(yōu)化處理
根據(jù)4.2.1所述步驟對原始數(shù)據(jù)采用K折交叉驗證法和遺傳算法進行參數(shù)尋優(yōu),兩種方法優(yōu)化后的均方誤差和相關(guān)系數(shù)如表4、表5所示。
表4 優(yōu)化算法擬合結(jié)果比較
比較MSE和R2大小,根據(jù)MSE越小表明預測結(jié)果誤差越小,R2越大表明預測相關(guān)程度越大這兩個原則最終確定參數(shù)c和g,具體內(nèi)容如表5所示。
表5 各指標模糊信息粒子參數(shù)優(yōu)化結(jié)果
SVR模型的預測精度與參數(shù)的選擇有關(guān),參數(shù)的選擇與優(yōu)化后的MSE和R2有關(guān),因此比較模型的這兩個指標可以判斷模型預測效果的優(yōu)劣,其具體內(nèi)容如表6所示。
表6 FIG-SVR模型與SVR模型參數(shù)優(yōu)化效果比較
從表6可以看出,F(xiàn)IG-SVR模型參數(shù)優(yōu)化后的MSE要更小,同時R2大部分都比SVR模型更大,因此可以得出,相比于SVR模型,F(xiàn)IG-SVR模型在預測準確性方面表現(xiàn)得更好。
2.基于SVR對原數(shù)據(jù)的回歸預測
利用上文得到的c,g建立回歸預測模型,得到各項指標預測結(jié)果,具體內(nèi)容如表7所示。
表7 技術(shù)創(chuàng)新效率指標預測結(jié)果
從數(shù)據(jù)處理結(jié)果來看,僅使用支持機模型應(yīng)用于科技創(chuàng)新效率投入產(chǎn)出指標的預測是可行的,但不足之處在于,采用該方法僅預測出未來一年的指標中間值。因此,根據(jù)預測精度及預測范圍的大小,后文將選取FIG-SVR模型預測所得的數(shù)據(jù)進行效率計算。
通過利用FIG-SVM模型預測出了2019—2020年浙江省R&D人員投入、R&D經(jīng)費投入、技術(shù)市場交易額和專利申請授權(quán)數(shù),同時結(jié)合1990—2018年的科技創(chuàng)新投入產(chǎn)出的相關(guān)數(shù)據(jù),運用DEAP軟件計算1990—2020年浙江省科技創(chuàng)新效率。具體效率變化趨勢及預測范圍如表8所示(圖中加黑部分表示2019和2020年的科技創(chuàng)新效率預測值)。
表8 浙江省科技創(chuàng)新效率變化及預測
從表4可以看出浙江省歷年科技創(chuàng)新效率和各階段平均效率的變化。其中,2019和2020年浙江省科技創(chuàng)新效率預測的最小值、平均值和最大值分別為0.873、0.886和1。結(jié)合歷年效率來看,2013—2018年浙江省科技創(chuàng)新效率與其他階段相比有明顯的提高,這與2012年提出的創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略密不可分;同時從預測結(jié)果中可以看出,2019和2020年的平均效率會略低于2014—2018年,但大體上仍然與之保持相同水平;與2018年相比,預測值表明2019和2020年的科技創(chuàng)新效率有所下降。將指標預測值與2018年實際數(shù)據(jù)對比可以發(fā)現(xiàn),未來的R&D人員平均投入、專利申請授權(quán)數(shù)量會降低,此外全國疫情的爆發(fā)對2020年浙江省的經(jīng)濟生產(chǎn)及科技創(chuàng)新有著可預見性的影響。因此,浙江省仍需要對各項投入進行調(diào)整以提升科技創(chuàng)新效率,推進經(jīng)濟高質(zhì)量發(fā)展。本文選取的是浙江省29年的科技創(chuàng)新效率指標進行回歸預測,如果能獲得更多的樣本進行分析,則能夠取得更為可靠的效率預測結(jié)果。
本文將模糊信息?;⒅С窒蛄炕貧w機以及DEA模型相結(jié)合,從而能夠有效預測下一個窗口的數(shù)值范圍,預測年數(shù)的多少取決于窗口大小劃分。由于支持向量回歸機模型的預測精度在很大程度上取決于核函數(shù)參數(shù)和懲罰參數(shù)的選取,因此本文比較K折交叉驗證法和遺傳算法進行參數(shù)優(yōu)化后的擬合效果,然后選擇效果更好的參數(shù)對SVR進行訓練,從而更進一步提升模型預測精度。
實驗證明,與SVR模型比較,F(xiàn)IG-SVR模型更準確地預測了浙江省科技創(chuàng)新效率未來一段時間的投入產(chǎn)出指標,同時結(jié)合DEA模型計算未來一段時間內(nèi)的效率,因此該模型的運用在一定程度上能夠為決策者提供具有參考性的決策依據(jù),從而避免資源浪費并提高資源利用率。為了進一步優(yōu)化預測模型,提高效率預測精確性,未來的研究工作會注重于對數(shù)據(jù)的信息粒化處理以及支持向量機核函數(shù)的選擇。