劉 斌,趙天舒,張冉霞
(大連海事大學(xué) 航運(yùn)經(jīng)濟(jì)與管理學(xué)院,遼寧 大連 116024)
隨著我國經(jīng)濟(jì)健康持續(xù)發(fā)展,社會(huì)收入水平不斷提高,城市化步伐逐漸加快,我國的個(gè)人汽車保有量在連年攀升[1]。個(gè)人汽車保有量是指公安交通管理部門按照《機(jī)動(dòng)車注冊(cè)登記工作規(guī)范》,已注冊(cè)登記領(lǐng)有民用車輛牌照的全部私人汽車數(shù)量,也可以稱為私人或私家的汽車擁有量。根據(jù)《中國統(tǒng)計(jì)年鑒》[2-5],1985年我國個(gè)人汽車保有量只有約28萬輛,隨著改革開放的深入進(jìn)行,我國汽車工業(yè)目前進(jìn)入全面高速發(fā)展階段,2003年我國個(gè)人汽車保有量首次突破1 000萬輛。2006年,個(gè)人汽車保有量突破2 000萬輛,僅3年時(shí)間數(shù)量翻了一番。2013年我國個(gè)人汽車保有量突破了1億輛。截止到2018年,我國個(gè)人汽車保有量超過2億輛。
個(gè)人汽車帶給我們方便的同時(shí),也為我們的生活帶來了一系列問題,如道路擁堵、交通事故頻發(fā),停車?yán)щy、停車位昂貴,能耗嚴(yán)重、環(huán)境污染加劇,交通設(shè)施更替加速等。通過對(duì)個(gè)人汽車保有量的預(yù)測(cè),可以為城市道路交通規(guī)劃工作的展開提供數(shù)據(jù)支撐,為政府對(duì)交通設(shè)施建設(shè)的投資成本預(yù)算提供依據(jù)[6]。
對(duì)于汽車保有量的預(yù)測(cè),國外學(xué)者首先做了較多的研究,提出了許多模型,比如基于集合模型的Comperta模型[7]、基于非集合模型的多項(xiàng)Logit模型及多項(xiàng)Probit模型等,這些模型基于當(dāng)?shù)氐娜丝?、社?huì)等數(shù)據(jù)信息,已經(jīng)成功應(yīng)用于發(fā)達(dá)國家。近年來國外學(xué)者也對(duì)印度等發(fā)展中國家汽車保有量建立模型進(jìn)行了分析,Dash等提出分段線性多項(xiàng)Logit模型對(duì)印度個(gè)人汽車保有量進(jìn)行了研究[8]。Shaygan等對(duì)伊朗的汽車保有量模型進(jìn)行了綜述性分析,指出需要對(duì)已有模型進(jìn)行更多改進(jìn)才可適用于當(dāng)?shù)爻鞘衃9]。從中可以看出國外預(yù)測(cè)模型存在一定的區(qū)域性,由于國外汽車文化和經(jīng)濟(jì)水平與國內(nèi)相差較大,所以難以直接將其應(yīng)用于國內(nèi)的個(gè)人汽車保有量分析[10-11]。
國內(nèi)的汽車保有量預(yù)測(cè)研究起步較晚,同樣也提出了許多模型與方法。陳勇和孔峰利用BP神經(jīng)網(wǎng)絡(luò)建立了具有時(shí)間序列預(yù)測(cè)模型對(duì)我國私人汽車保有量進(jìn)行了分析和預(yù)測(cè)[12]。朱開永等利用灰色系統(tǒng)理論建立私家車保有量預(yù)測(cè)模型對(duì)某地區(qū)1996—2007年私家車保有量分析[13]。張雪伍和常晉義通過主成分分析法將影響汽車保有量因子間的重復(fù)信息進(jìn)行消除,建立了PCA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)南京市1978—2005年的汽車保有量進(jìn)行分析,并對(duì)未來南京市汽車保有量進(jìn)行預(yù)測(cè)[11]。王傳鑫等基于改進(jìn)密度峰值聚類方法研究了不同地區(qū)間私人汽車保有量影響因素的差異性,為研究的兩類地區(qū)私人汽車發(fā)展提供一定的參考[14]。蔣艷梅和趙文平建立了分別基于遺傳算法和非線性最小二乘法的Logistic模型,對(duì)我國汽車保有量進(jìn)行了預(yù)測(cè),并和其他文獻(xiàn)進(jìn)行對(duì)比,結(jié)果表明Logistic模型預(yù)測(cè)私人汽車保有量的精確度比其他模型高[15]。張?zhí)m怡和胡喜生等通過對(duì)影響汽車保有量的8個(gè)指標(biāo)進(jìn)行主成分分析,得到了綜合經(jīng)濟(jì)發(fā)展值的預(yù)測(cè)方程,并采用Logistic模型預(yù)測(cè)福建省2020年汽車保有量[16]。任玉瓏等基于傳統(tǒng)Logistic模型和以灰色理論為基礎(chǔ)的極差格式的Logistic模型為基礎(chǔ),建立了以誤差標(biāo)準(zhǔn)差為權(quán)重的Logistic組合模型對(duì)我國汽車保有量進(jìn)行預(yù)測(cè),得出了到2020年我國汽車保有量達(dá)到2.35億輛的結(jié)論[17]。
通過對(duì)國內(nèi)外相關(guān)文獻(xiàn)進(jìn)行整理可以發(fā)現(xiàn),汽車保有量的發(fā)展趨勢(shì)比較符合隨時(shí)間變化呈S型變化的Logistic模型,同時(shí)許多研究都是通過分析影響汽車保有量的因素進(jìn)行展開。主成分分析法可以通過“線性”降維技術(shù)將多個(gè)影響因素盡可能壓縮為少數(shù)幾個(gè)代表性綜合指標(biāo),再結(jié)合Logistic模型可以對(duì)汽車保有量進(jìn)行分析和預(yù)測(cè)。但在實(shí)際應(yīng)用中,影響因素可能存在非線性關(guān)系,尤其是對(duì)于時(shí)間跨度較長的數(shù)據(jù),直接用傳統(tǒng)主成分分析的線性方法會(huì)影響降維效果,進(jìn)而影響預(yù)測(cè)精度[18]。因此,本研究使用對(duì)數(shù)變換法對(duì)傳統(tǒng)主成分分析法進(jìn)行了改進(jìn),結(jié)合Logistic模型,提出了改進(jìn)PCA-Logistic模型,并對(duì)我國個(gè)人汽車保有量進(jìn)行分析和預(yù)測(cè)。通過實(shí)證分析結(jié)果可以表明,改進(jìn)PCA-Logistic模型可以消除數(shù)據(jù)之間的非線性影響,使得模型的模擬精度更高。
傳統(tǒng)的主成分分析法是一種“線性”降維方法,如果變量間存在非線性關(guān)系,會(huì)導(dǎo)致降維效果不明顯,因此需要對(duì)傳統(tǒng)主成分分析法進(jìn)行改進(jìn)。常見的改進(jìn)方法有均值法、對(duì)數(shù)變換法和平方根變換等,對(duì)原始影響因素?cái)?shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其隨著時(shí)間呈現(xiàn)類似指數(shù)形式的變化趨勢(shì),于是改進(jìn)方法采用對(duì)數(shù)變換法,以達(dá)到更好的降維效果。具體步驟如下[18]:
(1)對(duì)原始數(shù)據(jù)進(jìn)行對(duì)數(shù)變換:設(shè)原始數(shù)據(jù)矩陣為X=(xij)n×p,令yij=lnxij,對(duì)數(shù)變換后矩陣為:Y=(yij)n×p,其中i=1,2,…,n;j=1,2,…,p。
(2)以yij作為新的數(shù)據(jù)代替原始數(shù)據(jù),并對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,以消除各個(gè)特征在數(shù)量級(jí)或量綱上的影響,公式如下:
(1)
式中,μ為各個(gè)指標(biāo)數(shù)據(jù)的平均值;σ為各個(gè)指標(biāo)數(shù)據(jù)的標(biāo)準(zhǔn)差。
(3)根據(jù)標(biāo)準(zhǔn)化矩陣,計(jì)算其協(xié)方差矩陣,計(jì)算公式為:
(2)
式中,c為協(xié)方差矩陣;n為數(shù)據(jù)指標(biāo)的元素個(gè)數(shù);Y*為標(biāo)準(zhǔn)化的數(shù)據(jù)。
(4)根據(jù)協(xié)方差矩陣計(jì)算特征值與特征向量,并將特征值從大到小進(jìn)行排列。
(5)計(jì)算主成分貢獻(xiàn)率及累積貢獻(xiàn)率,并根據(jù)計(jì)算結(jié)果提取主成分。通常選取累積貢獻(xiàn)率在85%以上的對(duì)應(yīng)成分作為主成分。
Logistic方程由比利時(shí)數(shù)學(xué)家P.F.Verhulst在1838年首次提出,它是描述因變量隨時(shí)間變動(dòng)趨勢(shì)的模型,能較好地描述某些呈現(xiàn)S型曲線增長的現(xiàn)象,并已經(jīng)廣泛應(yīng)用于農(nóng)業(yè)、經(jīng)濟(jì)學(xué)、醫(yī)學(xué)等領(lǐng)域。對(duì)于產(chǎn)品市場(chǎng)擴(kuò)展分析,采用美國Edwin Mansfield提出的Logistic模型微分方程為[19]:
(3)
式中,b為常數(shù);F=y(t)/m,它是t時(shí)刻市場(chǎng)汽車保有量y(t)與市場(chǎng)最大保有量m的比值。
由分離變量法求解式(3)得:
(4)
式中,a為常數(shù)。最終得t時(shí)刻汽車保有量為:
y(t)=m×F(t)。
(5)
結(jié)合前面兩個(gè)方法,提出改進(jìn)PCA-Logistic模型。首先選取影響我國個(gè)人汽車保有量的幾個(gè)代表性因素作為評(píng)價(jià)指標(biāo),將原始數(shù)據(jù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換,以消除非線性的影響,再進(jìn)行標(biāo)準(zhǔn)化處理以消除量綱或數(shù)量級(jí)上的差異。然后再利用SPSS軟件中的降維因子分析模塊對(duì)其進(jìn)行改進(jìn)的主成分分析,確定主成分,并計(jì)算主成分得分。
根據(jù)主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率的計(jì)算結(jié)果,選擇第一主成分FAC1_1作為自變量,個(gè)人汽車保有量作為因變量,對(duì)其進(jìn)行Logistic模型回歸分析,由于沒有采用時(shí)間序號(hào)作為自變量,對(duì)公式(4)進(jìn)行等價(jià)變換,最終采取的模型方程為:
(6)
式中,α0和α1為待求參數(shù)。采用非線性最小二乘法進(jìn)行參數(shù)求解,首先選取合適的最大個(gè)人汽車保有量m作為固定值,然后給出參數(shù)α0和α1初始值進(jìn)行迭代求解,迭代算法為麥夸特法。
通過文獻(xiàn)資料的搜集與整理可以發(fā)現(xiàn)[20],影響我國個(gè)人汽車保有量變化的因素有多種,如經(jīng)濟(jì)因素,包括人均GDP、居民收入、經(jīng)濟(jì)產(chǎn)業(yè)結(jié)構(gòu)、居民消費(fèi)水平等;社會(huì)因素,包括城市人口、城市化率、失業(yè)率、擁塞成本等;環(huán)境因素,包括公路網(wǎng)規(guī)模、基礎(chǔ)設(shè)施完善度等??紤]長期完整數(shù)據(jù)的可獲得性,選取了城市人口、城市化水平、人均GDP、居民消費(fèi)水平、公路里程、第一產(chǎn)業(yè)生產(chǎn)值所占比重、第二產(chǎn)業(yè)生產(chǎn)值所占比重、第三產(chǎn)業(yè)生產(chǎn)值所占比重這8個(gè)代表性的影響因素進(jìn)行分析。我國個(gè)人汽車保有量及其影響因素的樣本數(shù)據(jù)見表1,選取區(qū)間為1985—2018年,統(tǒng)計(jì)數(shù)據(jù)均來源于《中國統(tǒng)計(jì)年鑒》[2-5]。
表1 我國個(gè)人汽車保有量與影響指標(biāo)因素?cái)?shù)據(jù)(1985—2018)Tab.1 Data of private car ownership in China and influencing factors(1985—2018)
應(yīng)用SPSS22.0計(jì)算軟件,對(duì)我國個(gè)人汽車保有量的影響因素按以下步驟提取主成分:
(1)將原始數(shù)據(jù)進(jìn)行對(duì)數(shù)變換處理。
(2)將變換后的8個(gè)影響因素標(biāo)準(zhǔn)化處理后,再進(jìn)行主成分分析,得到解釋的總方差見表2。
表2 總方差解釋Tab.2 Explanation of total variance
由表2可以看到,第一主成分的特征值為6.865,其方差占總方差比為85.812%,對(duì)個(gè)人汽車保有量影響占主要作用,根據(jù)主成分選擇標(biāo)準(zhǔn),將原來的8個(gè)影響因素用這一個(gè)主成分來代替。
(3)成分得分系數(shù)矩陣見表3。根據(jù)表3可以寫出第一主成分的因子表達(dá)式為:
Y1=0.146P1+0.145P2+0.145P3+0.144P4+
0.142P5-0.145P6-0.008P7+0.143P8。
(7)
表3 成分得分系數(shù)矩陣Tab.3 Component score coefficient matrix
根據(jù)上述表達(dá)式對(duì)標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行計(jì)算,計(jì)算后的第一主成分FAC1_1相關(guān)數(shù)據(jù)見表4。
利用1985-2018年之間我國個(gè)人汽車保有量的影響因素原始數(shù)據(jù),采用傳統(tǒng)主成分分析法進(jìn)行分析。圖1與圖2分別表示用傳統(tǒng)主成分分析法與改進(jìn)主成分分析法擬合得到的第一主成分FAC1_1與時(shí)間序號(hào)的回歸曲線,從兩個(gè)圖可以看出傳統(tǒng)主成分分析法的回歸曲線與時(shí)間幾乎呈現(xiàn)二次非線性關(guān)系,而改進(jìn)主成分分析法得到的回歸曲線和時(shí)間幾乎呈現(xiàn)線性關(guān)系。由于主成分分析方法更適用于線性結(jié)構(gòu)數(shù)據(jù),可以看出通過改進(jìn)主成分分析法消除了數(shù)據(jù)之間的非線性關(guān)系,更符合主成分分析法的原則,從而有利于提高預(yù)測(cè)的準(zhǔn)確性。
表4 第一主成分FAC1_1計(jì)算數(shù)據(jù)Tab.4 Calculated data of 1st principal component FAC1_1
圖1 傳統(tǒng)主成分分析法的第一主成分FAC1_1與 時(shí)間序號(hào)的回歸曲線Fig.1 Regression curve of 1st principal component FAC1_1 vs. time serial number by conventional PCA
圖2 改進(jìn)主成分分析法的第一主成分FAC1_1與 時(shí)間序號(hào)的回歸曲線Fig.2 Regression curve of 1st principal component FAC1_1 vs. time serial number by improved PCA
利用線性回歸模型可得改進(jìn)主成分分析法的第一主成分FAC1_1與時(shí)間序號(hào)t之間的回歸公式為:
FAC1_1=-1.754+0.1t。
(8)
2.4Logistic模型回歸分析2.4.1改進(jìn)主成分分析法的Logistic回歸分析
利用Logistic模型對(duì)第一主成分FAC1_1和個(gè)人汽車保有量進(jìn)行回歸分析,由于最大汽車保有量m具有不確定性,需要提前進(jìn)行估算。對(duì)m的估算方法大致有3種,分別是直接選取最大值法、專家判斷法和純粹數(shù)學(xué)推導(dǎo)法。本研究采用專家判斷法確定個(gè)人汽車最大保有量m。根據(jù)文獻(xiàn)[21],國家信息中心信息資源部主任徐長明認(rèn)為,汽車保有量最高可達(dá)4.5億輛。根據(jù)表1中個(gè)人汽車保有量占比的歷年數(shù)據(jù),可以看出該比值一直呈增長趨勢(shì),1985年為8.87%,2018年為88.57%,為了合理地預(yù)估我國個(gè)人汽車保有量極限,本研究假設(shè)其極限占比為90%,計(jì)算得出我國個(gè)人汽車最大保有量為4.05億輛,則原公式(6)變?yōu)椋?/p>
(9)
令α0和α1的初始值為1,利用計(jì)算工具SPSS22.0對(duì)樣本數(shù)據(jù)進(jìn)行Logistic非線性回歸,得到的參數(shù)估計(jì)結(jié)果見表5。
表5 改進(jìn)PCA-Logistic模型的參數(shù)估計(jì)結(jié)果Tab. 5 Estimated parameters by improved PCA-Logistic model
根據(jù)表5可得到擬合程度的相關(guān)系數(shù)為R2=0.998。當(dāng)R2越接近于1,表明回歸曲線與數(shù)據(jù)越接近,可以看出得到的Logistic回歸曲線擬合程度非常高,最后曲線方程為:
(10)
2.4.2主成分分析法改進(jìn)前后的Logistic回歸比較
同樣根據(jù)上述步驟,利用傳統(tǒng)PCA-Logistic模型對(duì)我國個(gè)人汽車保有量進(jìn)行回歸分析,得到的參數(shù)估計(jì)結(jié)果見表6,此時(shí)R2=0.996<0.998,說明改進(jìn)PCA-Logistic模型的回歸曲線擬合程度更好,會(huì)使預(yù)測(cè)結(jié)果更準(zhǔn)確。
表6 傳統(tǒng)PCA-Logistic模型的參數(shù)估計(jì)結(jié)果Tab.6 Estimated parameters by conventional PCA-Logistic model
圖3是主成分分析法改進(jìn)前后通過Logistic模型得到的個(gè)人汽車保有量預(yù)測(cè)曲線與實(shí)際汽車保有量數(shù)據(jù)點(diǎn)的比較,橫坐標(biāo)為時(shí)間序號(hào)。由圖可以看出,在2007年之前,傳統(tǒng)PCA-Logistic模型得到的個(gè)人汽車保有量預(yù)測(cè)數(shù)據(jù)曲線要高于實(shí)際個(gè)人汽車保有量數(shù)據(jù)點(diǎn),而在2007年之后,其又低于實(shí)際個(gè)人汽車保有量數(shù)據(jù)點(diǎn)。而改進(jìn)PCA-Logistic得到的個(gè)人汽車保有量數(shù)據(jù)曲線更接近實(shí)際個(gè)人汽車保有量數(shù)據(jù)點(diǎn),這也再次證明改進(jìn)主成分分析法有利于提升Logistic回歸曲線的擬合度,并提高預(yù)測(cè)的準(zhǔn)確度。
圖3 主成分分析法改進(jìn)前后Logistic模型的預(yù)測(cè)值 與實(shí)際值對(duì)比Fig.3 Comparison of predicted and actual values obtained by Logistic model before and after PCA improvement
為了預(yù)測(cè)我國2019—2024年的個(gè)人汽車保有量,將對(duì)應(yīng)時(shí)間序號(hào)代入公式(8)中得相應(yīng)的FAC1_1值,再將所得結(jié)果代入Logistic模型公式(10),可得2019—2024年個(gè)人汽車保有量預(yù)測(cè)值見表7。
表7 2019—2024年個(gè)人汽車保有量預(yù)測(cè)值Tab.7 Predicted values of private car ownership from 2020 to 2024
經(jīng)過預(yù)測(cè),我國個(gè)人汽車保有量在2021年可能會(huì)突破3億。2019年實(shí)際個(gè)人汽車保有量為22 635萬輛,發(fā)現(xiàn)預(yù)測(cè)值大于實(shí)際值,這可能是因?yàn)榻鼇砟陣覟榱司徑饨煌〒頂D壓力而實(shí)施的限購限號(hào)等政策延緩了汽車保有量的高速增長,說明國家政策會(huì)短期性的影響個(gè)人汽車保有量的變化。
通過對(duì)數(shù)變換法對(duì)傳統(tǒng)主成分分析法進(jìn)行了改進(jìn),并結(jié)合Logistic模型,提出了改進(jìn)PCA-Logistic模型。采用改進(jìn)主成分分析法對(duì)影響我國個(gè)人汽車保有量的8個(gè)代表性主要因素進(jìn)行“非線性”降維處理并提取主成分,利用Logistic回歸模型研究主成分與汽車保有量之間的關(guān)系。
通過將PCA-Logistic模型改進(jìn)前后得到的估計(jì)結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)改進(jìn)PCA-Logistic模型可以有效地消除長時(shí)間跨度的數(shù)據(jù)之間的非線性關(guān)系,得到的線性主成分回歸曲線更符合主成分分析法原則,同時(shí)也有效地提高Logistic模型回歸的擬合度,從而更準(zhǔn)確地預(yù)測(cè)未來我國個(gè)人汽車保有量。經(jīng)過預(yù)測(cè),我國個(gè)人汽車保有量在2021年可能會(huì)突破3億。
本研究在提取主成分時(shí)僅僅對(duì)影響因素進(jìn)行分析,沒有考慮其與汽車保有量之間的關(guān)系,也沒有考慮國家政策對(duì)汽車保有量的影響,后續(xù)工作會(huì)考慮更多的影響因素進(jìn)行分析,從而對(duì)汽車保有量進(jìn)行更合理的評(píng)價(jià)。