李佳穎,吳 迪
(1. 廣州南洋理工職業(yè)學(xué)院 經(jīng)濟(jì)管理學(xué)院, 廣州 510540; 2. 哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱 541004;3. 齊齊哈爾大學(xué) 計(jì)算機(jī)與控制工程學(xué)院, 黑龍江 齊齊哈爾 161006)
區(qū)域經(jīng)濟(jì)是國民經(jīng)濟(jì)結(jié)構(gòu)中不可或缺的部分。由于產(chǎn)業(yè)結(jié)構(gòu)、勞動(dòng)力規(guī)模、改革水平等因素不同[1],區(qū)域經(jīng)濟(jì)發(fā)展呈現(xiàn)較大差異。一般而言,通過對區(qū)域不同行業(yè)經(jīng)濟(jì)指標(biāo)的預(yù)測及量化分析,可助力該區(qū)域針對產(chǎn)業(yè)行業(yè)發(fā)展情況制定相應(yīng)的經(jīng)濟(jì)發(fā)展策略。實(shí)現(xiàn)區(qū)域經(jīng)濟(jì)多指標(biāo)的準(zhǔn)確預(yù)測,離不開預(yù)測算法的支持[2]。機(jī)器學(xué)習(xí)作為解決非線性復(fù)雜問題的常用方法,被廣泛應(yīng)用于經(jīng)濟(jì)預(yù)測研究,故基于機(jī)器學(xué)習(xí)技術(shù)的經(jīng)濟(jì)預(yù)測算法成為研究熱點(diǎn)。吳峰等[3]將雙流長短期記憶(Long short term memory,LSTM)算法應(yīng)用于標(biāo)普500 指數(shù)趨勢預(yù)測,準(zhǔn)確率較高,但僅完成了宏觀經(jīng)濟(jì)的單指標(biāo)預(yù)測,未能就其他經(jīng)濟(jì)指標(biāo)的預(yù)測性能進(jìn)行分析。高振斌等[4]采用支持向量回歸(Support vector regression,SVR)算法進(jìn)行區(qū)域經(jīng)濟(jì)預(yù)測,并借助最小二乘法遺傳算法(Partial least squares genetic algorithm,PLS-GA)對SVR 進(jìn)行優(yōu)化,取得了較高的預(yù)測準(zhǔn)確度。但PLS、SVR 等技術(shù)通常需要大量的計(jì)算,而引入GA 算法進(jìn)行優(yōu)化,又可能進(jìn)一步增加計(jì)算復(fù)雜性,導(dǎo)致模型訓(xùn)練和優(yōu)化耗時(shí)長,預(yù)測效率較低。相對于深度學(xué)習(xí)模型(如LSTM)和一些復(fù)雜的核方法(如SVR),隨機(jī)森林算法的使用和調(diào)整更簡便,其默認(rèn)參數(shù)在處理各種問題時(shí)均表現(xiàn)良好,且可通過調(diào)整決策樹參數(shù)進(jìn)行優(yōu)化。因此,本文將隨機(jī)森林算法應(yīng)用于區(qū)域經(jīng)濟(jì)多指標(biāo)預(yù)測,并借助元學(xué)習(xí)算法對投票權(quán)重進(jìn)行優(yōu)化,以降低隨機(jī)森林算法應(yīng)對不同規(guī)模經(jīng)濟(jì)樣本多指標(biāo)預(yù)測的誤差率。
元學(xué)習(xí)(Meta-Learning)算法是一種機(jī)器學(xué)習(xí)方法,旨在使機(jī)器學(xué)習(xí)模型能自動(dòng)學(xué)習(xí)如何適應(yīng)和泛化到新任務(wù)上。模型無關(guān)元學(xué)習(xí)(Model-Agnostic Meta-Learning,MAML)算法是元學(xué)習(xí)中的一種經(jīng)典算法,其核心思想是通過優(yōu)化模型的初始化參數(shù),使模型能更快地適應(yīng)新任務(wù),并在少量樣本的情況下也能取得較好的效果。MAML 具有通用性,在小樣本學(xué)習(xí)、遷移學(xué)習(xí)和自適應(yīng)學(xué)習(xí)等領(lǐng)域具有潛在的應(yīng)用前景。
θi在上進(jìn)行評估,則MAML 的目標(biāo)函數(shù)為[6]
其中,? 表示適用于所有任務(wù)的參數(shù)。
MAML 通過兩個(gè)循環(huán)獲得權(quán)重優(yōu)化結(jié)果,令θi,0=θ,則第i 個(gè)任務(wù)的j 步內(nèi)循環(huán)權(quán)重的更新方式為[7]
MAML 本質(zhì)是通過尋找θ,發(fā)現(xiàn)適用于新任務(wù)的? 值,對損失函數(shù)進(jìn)行最大似然估計(jì)得[8]
根據(jù)式(8)求出θ,獲得MAML 優(yōu)化模型。
隨機(jī)森林作為機(jī)器學(xué)習(xí)算法之一,在復(fù)雜問題預(yù)測研究中具備較強(qiáng)的適用性。下面對其數(shù)學(xué)方法進(jìn)行描述。
設(shè)集合S 包含m 個(gè)類別Ci(i = 1,2,…,m),其中Ci類的樣本個(gè)數(shù)為si,s 為樣本總數(shù),k 為樣本的特征總數(shù)。
求解所有樣本期望熵[10],
再計(jì)算樣本特征A 的期望熵[6],
式中,k 是特征總數(shù),sij表示類別i 第j 維特征,有
根據(jù)式(9)與(10),計(jì)算A 的熵增益[11]G(A),
接著計(jì)算熵增益率[12]G′(A),
由k 棵決策樹h1(x),h2(x),…,hk(x)組成的隨機(jī)森林中,特征X 和Y 的邊緣函數(shù)為ma(X,Y)[13],
其中,I(·)是轉(zhuǎn)換函數(shù)[14],Y 與N 為正負(fù)類別,avk(·)是均值計(jì)算函數(shù)。
進(jìn)行區(qū)域經(jīng)濟(jì)預(yù)測時(shí),區(qū)域經(jīng)濟(jì)特征的有效提取對預(yù)測準(zhǔn)確度影響較大。而影響區(qū)域經(jīng)濟(jì)發(fā)展的耦合指標(biāo)較多,在分析前若不進(jìn)行去耦合操作,勢必提升預(yù)測復(fù)雜度,影響預(yù)測精度和效率。參閱多篇文獻(xiàn),并借助主成分分析法,提取區(qū)域經(jīng)濟(jì)預(yù)測指標(biāo)如表1。
表1 區(qū)域經(jīng)濟(jì)預(yù)測指標(biāo)
隨機(jī)森林的投票權(quán)重對其預(yù)測精度影響顯著,若設(shè)置不當(dāng),將會(huì)影響區(qū)域經(jīng)濟(jì)預(yù)測精度。手動(dòng)調(diào)整的方法缺點(diǎn)較多,因此考慮采用算法自動(dòng)調(diào)整策略[15]。在投票權(quán)重?cái)?shù)較少時(shí),采用一般優(yōu)化算法對其進(jìn)行優(yōu)化,因樣本數(shù)量少,可能導(dǎo)致優(yōu)化精度不理想。作為小樣本分析的經(jīng)典方法[16],MAML 通過任務(wù)樣本可以有效提高隨機(jī)森林權(quán)重的優(yōu)化精度。因此,在采用隨機(jī)森林算法進(jìn)行區(qū)域經(jīng)濟(jì)預(yù)測基礎(chǔ)上,借助元學(xué)習(xí)算法降低經(jīng)濟(jì)指標(biāo)預(yù)測誤差,以增強(qiáng)隨機(jī)森林算法的預(yù)測適用性,流程如圖1 所示。
圖1 元學(xué)習(xí)優(yōu)化隨機(jī)森林算法的區(qū)域經(jīng)濟(jì)預(yù)測流程
為驗(yàn)證元學(xué)習(xí)優(yōu)化的隨機(jī)森林算法在區(qū)域經(jīng)濟(jì)預(yù)測中的性能,選取某市5 個(gè)區(qū)2003—2022年的經(jīng)濟(jì)數(shù)據(jù)作為研究對象,進(jìn)行區(qū)域經(jīng)濟(jì)預(yù)測,經(jīng)濟(jì)數(shù)據(jù)來源于該市統(tǒng)計(jì)年鑒。首先,分別采用隨機(jī)森林算法和元學(xué)習(xí)優(yōu)化隨機(jī)森林算法對經(jīng)濟(jì)樣本進(jìn)行訓(xùn)練,繪制區(qū)域生產(chǎn)總值的訓(xùn)練擬合圖并計(jì)算擬合誤差,同時(shí)采用最優(yōu)模型對2020—2022年該市的生產(chǎn)總值進(jìn)行測試樣本預(yù)測,并分析元學(xué)習(xí)對隨機(jī)森林算法的經(jīng)濟(jì)預(yù)測結(jié)果帶來的影響。接著采用隨機(jī)森林算法和元學(xué)習(xí)優(yōu)化隨機(jī)森林算法分別對該市不同區(qū)的經(jīng)濟(jì)指標(biāo)進(jìn)行預(yù)測仿真,驗(yàn)證算法對小規(guī)模區(qū)域經(jīng)濟(jì)樣本的預(yù)測性能。
3.1.1 生產(chǎn)總值預(yù)測
分別采用隨機(jī)森林算法和元學(xué)習(xí)優(yōu)化隨機(jī)森林算法對2003—2019 年的該市所有區(qū)域生產(chǎn)總值進(jìn)行訓(xùn)練仿真,結(jié)果如圖2 所示。
圖2 區(qū)域生產(chǎn)總值預(yù)測結(jié)果
從圖2 可知,將元學(xué)習(xí)優(yōu)化隨機(jī)森林算法用于該市2003—2019 年的區(qū)域生產(chǎn)總值訓(xùn)練,大部分年度的訓(xùn)練結(jié)果曲線與實(shí)際生產(chǎn)總值曲線重合度高;而隨機(jī)森林算法僅在2004—2008 年的擬合度高,其他年份的訓(xùn)練結(jié)果均出現(xiàn)一定偏差,但整體偏差并不大。這表明隨機(jī)森林算法在區(qū)域生產(chǎn)總值指標(biāo)的預(yù)測性能方面具有較高適應(yīng)性。
采用2003—2019 年訓(xùn)練得到的優(yōu)化預(yù)測模型對2020—2022 年的測試樣本進(jìn)行生產(chǎn)總值預(yù)測,統(tǒng)計(jì)結(jié)果如表2、表3。
表2 隨機(jī)森林算法對生產(chǎn)總值的預(yù)測
表3 元學(xué)習(xí)優(yōu)化隨機(jī)森林算法對生產(chǎn)總值的預(yù)測
對于實(shí)際生產(chǎn)總值指標(biāo)預(yù)測,隨機(jī)森林算法在2022 年的預(yù)測誤差率最低,為5.08%,在2021 年的誤差率最高,為6.79 %;而元學(xué)習(xí)優(yōu)化隨機(jī)森林算法在2021 年預(yù)測誤差率最低,為2.18 %,在2022 年的誤差率最高,為2.89%。元學(xué)習(xí)優(yōu)化隨機(jī)森林算法對2020—2022 年區(qū)域生產(chǎn)總值的預(yù)測誤差率,相比隨機(jī)森林算法分別下降了63.27%、67.89 %、43.11 %。兩種算法對比結(jié)果表明,元學(xué)習(xí)優(yōu)化隨機(jī)森林算法表現(xiàn)出顯著優(yōu)勢,隨機(jī)森林投票權(quán)重經(jīng)元學(xué)習(xí)優(yōu)化后,求解精度顯著提高。
3.1.2 月進(jìn)口總額增長率預(yù)測
分別采用隨機(jī)森林算法和元學(xué)習(xí)優(yōu)化隨機(jī)森林算法對該市2022 年度的月進(jìn)口總額增長率進(jìn)行預(yù)測,結(jié)果如圖3 所示。
圖3 2022 年度月進(jìn)口總額增長率預(yù)測性能
由圖3 可知,元學(xué)習(xí)優(yōu)化隨機(jī)森林算法的預(yù)測性能較好,僅在3 月和7 月出現(xiàn)較大偏差,其他月份預(yù)測準(zhǔn)確度均較高;隨機(jī)森林算法的預(yù)測效果欠佳,僅在2 月誤差較小,其他月份誤差較大,特別是4 月、6 月和9 月,偏離實(shí)際值較大;在9月,元學(xué)習(xí)優(yōu)化隨機(jī)森林算法的預(yù)測誤差率較隨機(jī)森林算法降低約86 %。
3.1.3 居民消費(fèi)價(jià)格指數(shù)預(yù)測
分別采用隨機(jī)森林算法和元學(xué)習(xí)優(yōu)化隨機(jī)森林算法對該市2022 年度12 個(gè)月的居民消費(fèi)價(jià)格指數(shù)進(jìn)行預(yù)測,結(jié)果如圖4。由圖4 可知,兩種算法對該市2022 年度12 個(gè)月的消費(fèi)價(jià)格指數(shù)預(yù)測結(jié)果均有一定偏差,但元學(xué)習(xí)優(yōu)化的隨機(jī)森林算法相較于隨機(jī)森林算法,其預(yù)測結(jié)果的波動(dòng)明顯更小。
圖4 2022 年度居民消費(fèi)價(jià)格指數(shù)預(yù)測性能
為了進(jìn)一步驗(yàn)證元學(xué)習(xí)優(yōu)化的隨機(jī)森林算法在不同區(qū)域的預(yù)測性能,分別對該市5 個(gè)區(qū)的主要經(jīng)濟(jì)指標(biāo)進(jìn)行預(yù)測仿真。選取2020—2022 年的生產(chǎn)總值和消費(fèi)價(jià)格指數(shù)進(jìn)行預(yù)測,結(jié)果如表4和表5。
表4 不同區(qū)域的生產(chǎn)總值預(yù)測結(jié)果
表5 不同區(qū)域的居民消費(fèi)價(jià)格指數(shù)預(yù)測結(jié)果
從表4 知,對比該市5 個(gè)區(qū)的生產(chǎn)總值,元學(xué)習(xí)優(yōu)化隨機(jī)森林算法預(yù)測誤差率均不高,其中2022 年度C 區(qū)的生產(chǎn)總值預(yù)測誤差率最低,僅為0.061 54 %,最高的是2020 年度B 區(qū)預(yù)測誤差率,為3.630 %。該市5 個(gè)區(qū)產(chǎn)業(yè)結(jié)構(gòu)與經(jīng)濟(jì)發(fā)展特色均有較大差異,而元學(xué)習(xí)優(yōu)化的隨機(jī)森林算法在對這5 個(gè)差異較大的經(jīng)濟(jì)樣本集預(yù)測時(shí),均表現(xiàn)出較準(zhǔn)確的預(yù)測結(jié)果,表明本文算法在微觀樣本的經(jīng)濟(jì)預(yù)測中仍表現(xiàn)出較穩(wěn)定的預(yù)測性能。
表5 給出了元學(xué)習(xí)優(yōu)化的隨機(jī)森林算法對5個(gè)區(qū)的居民消費(fèi)價(jià)格指數(shù)預(yù)測情況。其中,預(yù)測準(zhǔn)確度最高的為D 區(qū)2021 年度消費(fèi)價(jià)格指數(shù),預(yù)測誤差率僅為0.195 9 %,預(yù)測誤差率最高的發(fā)生在2020 年度的A 區(qū),其誤差率為0.689 7 %??傮w而言,本文算法對5 個(gè)區(qū)的消費(fèi)價(jià)格指數(shù)預(yù)測準(zhǔn)確度均較高。
將隨機(jī)森林機(jī)器學(xué)習(xí)算法與元學(xué)習(xí)優(yōu)化方法相結(jié)合,應(yīng)用于區(qū)域經(jīng)濟(jì)常用指標(biāo)預(yù)測,獲得了較高的預(yù)測準(zhǔn)確率。本文的應(yīng)用仿真主要完成了對市和區(qū)的中等規(guī)模樣本量的經(jīng)濟(jì)預(yù)測,取得了較好效果。后續(xù)將對本文算法應(yīng)用于更大規(guī)模量的數(shù)據(jù)樣本預(yù)測多個(gè)經(jīng)濟(jì)指標(biāo)進(jìn)行研究,驗(yàn)證算法預(yù)測性能,同時(shí)將更多的機(jī)器學(xué)習(xí)算法與元學(xué)習(xí)方法相結(jié)合,不斷測試多種方法相結(jié)合的區(qū)域經(jīng)濟(jì)預(yù)測性能,找到適合不同規(guī)模樣本的經(jīng)濟(jì)預(yù)測算法,以增強(qiáng)機(jī)器學(xué)習(xí)算法在區(qū)域經(jīng)濟(jì)預(yù)測中的適用性。