国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于可視化及多元線性回歸探究影響人均GDP的因素

2019-11-11 13:10蔣秉燁
價(jià)值工程 2019年29期
關(guān)鍵詞:國(guó)內(nèi)生產(chǎn)總值多元線性回歸可視化分析

蔣秉燁

摘要:在國(guó)民經(jīng)濟(jì)發(fā)展的過(guò)程中,國(guó)內(nèi)生產(chǎn)總值(GDP)無(wú)疑是衡量一個(gè)國(guó)家綜合國(guó)力的重要指標(biāo),本文通過(guò)使用CIA所收集的各國(guó)經(jīng)濟(jì)數(shù)據(jù),基于可視化分析及基本統(tǒng)計(jì)數(shù)據(jù)尋找與人均GDP相關(guān)的數(shù)據(jù)特征,并通過(guò)多元線性回歸預(yù)測(cè)各國(guó)人均GDP,此方法可為相應(yīng)的決策部門(mén)提供科學(xué)依據(jù)。

Abstract: In the process of national economic development, gross domestic product (GDP) is undoubtedly an important indicator to measure a country's overall national strength.? This paper uses the economic data collected by CIA to find the data characteristics related to GDP per capital based on visual analysis and basic statistical data, and predicts the GDP per capital of each country through multiple linear regression. This method can provide scientific basis for the corresponding decision-making departments.

關(guān)鍵詞:國(guó)內(nèi)生產(chǎn)總值;經(jīng)濟(jì)數(shù)據(jù);可視化分析;多元線性回歸

Key words: gross domestic product;economic data;visual analysis;multiple linear regression

中圖分類號(hào):O212.4? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2019)29-0011-04

0? 引言

國(guó)內(nèi)生產(chǎn)總值(GDP),是一個(gè)國(guó)家(或地區(qū))所有常住單位在一定時(shí)期內(nèi)生產(chǎn)活動(dòng)的最終成果。GDP是國(guó)民經(jīng)濟(jì)核算的核心指標(biāo),也是衡量一個(gè)國(guó)家或地區(qū)經(jīng)濟(jì)狀況和發(fā)展水平的重要指標(biāo)[1]。

在經(jīng)濟(jì)形勢(shì)分析中,常常需要對(duì)主要經(jīng)濟(jì)指標(biāo)進(jìn)行預(yù)測(cè),特別是對(duì)GDP的總量和增長(zhǎng)速度進(jìn)行預(yù)測(cè)(政府統(tǒng)計(jì)部門(mén)和發(fā)展計(jì)劃部門(mén)的這種要求尤為迫切)。對(duì)GDP的增長(zhǎng)速度以及總量的分析是主要的經(jīng)濟(jì)形勢(shì)分析指標(biāo),準(zhǔn)確地對(duì)未來(lái)幾年的GDP狀況進(jìn)行了科學(xué)預(yù)測(cè)[2],并對(duì)影響GDP發(fā)展的主要因素進(jìn)行了系統(tǒng)分析,確定了各因素相對(duì)于GDP發(fā)展的關(guān)聯(lián)程度,為相應(yīng)的決策部門(mén)提供科學(xué)依據(jù)。

本文通過(guò)可視化分析數(shù)據(jù)的基本屬性以探究人均GDP與多因素間的關(guān)系,并構(gòu)建多元線性回歸模型預(yù)測(cè)各國(guó)人均GDP,相關(guān)決策單位可對(duì)預(yù)測(cè)值進(jìn)行分析,并對(duì)接下來(lái)的經(jīng)濟(jì)以及其相關(guān)領(lǐng)域的發(fā)展方式做出判斷和改良。

1? 相關(guān)研究

精準(zhǔn)地預(yù)測(cè)地區(qū)或國(guó)家GDP對(duì)指導(dǎo)發(fā)展具有重要的意義,不少研究表明基于統(tǒng)計(jì)的方法可推算出各類經(jīng)濟(jì)指標(biāo)的發(fā)展趨勢(shì),如劉海濤對(duì)國(guó)內(nèi)外GDP質(zhì)量的評(píng)估研究進(jìn)行綜合評(píng)述,后根據(jù)多個(gè)原則設(shè)計(jì)了中國(guó)GDP質(zhì)量的評(píng)價(jià)指標(biāo)體系,基于層次分析法,離散數(shù)據(jù)法,綜合指數(shù)法測(cè)算出中國(guó)GDP質(zhì)量水平發(fā)展趨勢(shì)[3]。

綜合多種預(yù)測(cè)模型或考慮數(shù)據(jù)時(shí)間序列的方法也獲得高模型精度[4,5,6],如薛倩,涂值鳳等人應(yīng)用時(shí)間序列分析中的指數(shù)平滑法和ARIMA模型以及組合預(yù)測(cè)模型分別對(duì)重慶市GDP進(jìn)行預(yù)測(cè),結(jié)果表明組合預(yù)測(cè)模型精度最高[7];王紅超,王紅蕾等基于指數(shù)平滑法和回歸分析相關(guān)理論對(duì)時(shí)間序列歷史數(shù)據(jù)近期數(shù)據(jù)構(gòu)建預(yù)測(cè)模型,并對(duì)我國(guó)2017年進(jìn)行預(yù)測(cè),結(jié)果表明該方法在數(shù)據(jù)短中期預(yù)測(cè)時(shí)的可行性[8]。

在預(yù)測(cè)GDP的未來(lái)趨勢(shì)中,使用單變量的方法難以綜合考慮各類影響因子,如劉瀏使用一元線性回歸對(duì)甘肅省GDP進(jìn)行預(yù)測(cè),雖然結(jié)果基本符合國(guó)家十三五規(guī)劃期間預(yù)測(cè)值[9],但僅利用單一變量進(jìn)行預(yù)測(cè),模型缺乏復(fù)雜度無(wú)法真正擬合GDP的數(shù)據(jù)特征,故本文提出以多變量的線性回歸對(duì)各國(guó)人均GDP進(jìn)行預(yù)測(cè)。

2? 研究方法與分析

2.1 數(shù)據(jù)基本分析

本文使用數(shù)據(jù)來(lái)自于CIA所收集的World Factbook數(shù)據(jù),其包含世界227個(gè)國(guó)家的基礎(chǔ)資料,包括國(guó)土面積、人口數(shù)量及密度、歷史GDP指數(shù)、各工業(yè)產(chǎn)值、出生率及死亡率、所屬大洲等20個(gè)欄位。

在分析數(shù)據(jù)前,本文對(duì)數(shù)據(jù)進(jìn)行前處理,包括對(duì)以數(shù)據(jù)平均值填充空數(shù)據(jù)NaN、轉(zhuǎn)換數(shù)據(jù)格式以符合模型的處理規(guī)格。為了篩選與人均GDP相關(guān)的因素,本文對(duì)數(shù)據(jù)進(jìn)行基本的統(tǒng)計(jì)及可視化分析,如圖1是CIA收集的人均GDP前20的國(guó)家。

度量?jī)蓚€(gè)變量之間線性相關(guān)性常常用皮爾遜相關(guān)性統(tǒng)計(jì)量。從圖2分析可知,人均GDP高的國(guó)家,其服務(wù)業(yè)占經(jīng)濟(jì)產(chǎn)值總比較高,而農(nóng)業(yè)占比較低,同時(shí),這類國(guó)家的人們識(shí)字率也相對(duì)較高,推論得知識(shí)字率較高的人群往往受比較好的教育,而其生育欲望也較為低下,這與數(shù)字所表示的出生率、死亡率與人均GDP呈反比。另外,每千人手機(jī)擁有量也與人均GDP高度相關(guān),21世紀(jì)科技的高速發(fā)展也是導(dǎo)致這一現(xiàn)象的原因之一,推測(cè)手機(jī)等通訊設(shè)備可促進(jìn)信息的流通。

2.2 多元線性回歸

為了對(duì)上文線性相關(guān)圖表作進(jìn)一步分析,以探究與人均GDP相關(guān)聯(lián)的因素與選取線性回歸模型所需的特征值,本文通過(guò)分析各變量與人均GDP的散點(diǎn)圖,如圖3所示,其中千人手機(jī)擁有量、服務(wù)業(yè)占GDP比重、識(shí)字率、凈移民與GDP呈正相關(guān);出生率、嬰兒死亡率、農(nóng)業(yè)呈負(fù)相關(guān);而農(nóng)作物收成率、死亡率與GDP無(wú)明顯相關(guān)。

綜上分析,本文選取人口數(shù)、國(guó)家面積、人口密度、海岸線的長(zhǎng)度、凈移民、嬰兒死亡率、識(shí)字率、每千人手機(jī)擁有量、出生率、死亡率及各產(chǎn)業(yè)所占比值等13個(gè)變量作為線性回歸的變量特征。

2.3 流程介紹

本文設(shè)計(jì)研究流程框架如圖4所示,首先將收集的數(shù)據(jù)進(jìn)行前處理,包括對(duì)數(shù)據(jù)缺失值及錯(cuò)誤數(shù)據(jù)的刪除,隨后將數(shù)據(jù)劃分為訓(xùn)練集及測(cè)試集。

在構(gòu)建模型之前,本文隨后以基本統(tǒng)計(jì)分析和可視化分析兩種方法找出影響GDP的關(guān)聯(lián)因素,使用Sklearn建立多元線性回歸模型并進(jìn)行訓(xùn)練及模型評(píng)估。Sklearn是一個(gè)用于分類、回歸、聚類、模型選擇等機(jī)器學(xué)習(xí)的Python工具庫(kù);多元線性回歸是一個(gè)預(yù)測(cè)模型,根據(jù)歷史數(shù)據(jù)樣本,在不需要未來(lái)數(shù)據(jù)的情況下預(yù)測(cè)未來(lái)回歸參數(shù),并將預(yù)測(cè)結(jié)果與實(shí)際值進(jìn)行比較分析[10]。

2.4 比較與分析

在評(píng)估模型性能表現(xiàn)上,本文選用RMSE(均方根誤差)與MSLE(均方對(duì)數(shù)誤差)計(jì)算模型損失[11]。RMSE是一種常用的測(cè)量數(shù)值之間差異的量度,其數(shù)值常為模型預(yù)測(cè)的量或是被觀察到的估計(jì)量。MSLE計(jì)算的損失是對(duì)數(shù)變換的真實(shí)值和預(yù)測(cè)值之間的平方差異的平均值,如公式(1)。

公式(1)MSLE計(jì)算模型損失

模型的損失如表1所示,可看到其在訓(xùn)練集和測(cè)試集的表現(xiàn)較為接近,而由于人均GDP的數(shù)據(jù)特點(diǎn),使用RMSE顯得損失太大,故如果在多模型進(jìn)行對(duì)比時(shí),可考慮使用MSLE進(jìn)行評(píng)估。

3? 結(jié)論

本文通過(guò)使用CIA所收集的各國(guó)經(jīng)濟(jì)數(shù)據(jù),基于可視化分析及基本統(tǒng)計(jì)數(shù)據(jù)尋找與人均GDP相關(guān)的數(shù)據(jù)特征,并通過(guò)多元線性回歸預(yù)測(cè)各國(guó)人均GDP,最終使用兩種損失計(jì)算評(píng)估模型性能。

準(zhǔn)確的預(yù)測(cè)國(guó)家人均GDP具有重要的意義,本文研究發(fā)現(xiàn)千人手機(jī)擁有量、服務(wù)業(yè)占GDP比重、識(shí)字率、凈移民與GDP呈正相關(guān);出生率、嬰兒死亡率、農(nóng)業(yè)呈負(fù)相關(guān);而多元線性回歸的結(jié)果表明通過(guò)一個(gè)國(guó)家的基本經(jīng)濟(jì)數(shù)據(jù),可以較為準(zhǔn)確地預(yù)測(cè)國(guó)家的GDP。在未來(lái)的研究中,學(xué)者可以收集更加詳細(xì)以及具備時(shí)間序列的經(jīng)濟(jì)數(shù)據(jù),從而更加準(zhǔn)確地預(yù)測(cè)經(jīng)濟(jì)的發(fā)展。

參考文獻(xiàn):

[1]徐菁.對(duì)財(cái)政收入與GDP相關(guān)性的分析[J].浙江金融,2007(1):49-50.

[2]James, Spencer L., et al. "Developing a comprehensive time series of GDP per capita for 210 countries from 1950 to 2015." Population health metrics 10.1 (2012): 12.

[3]GB/T 7714 劉海濤.中國(guó)GDP質(zhì)量的評(píng)價(jià)體系研究[D].西北師范大學(xué),007.

[4]李凱,張濤. 上海市2017-2020年GDP預(yù)測(cè)研究——基于改進(jìn)的GM(1,1)模型[J].華東經(jīng)濟(jì)管理,2017,31(10):11-15.

[5]張靜.基于貝葉斯時(shí)序模型的甘肅省人均GDP預(yù)測(cè)[J].數(shù)理統(tǒng)計(jì)與管理,2018(2):205-210.

[6]張競(jìng)文,李洋,孫德山.時(shí)間序列模型在遼寧省GDP預(yù)測(cè)中的應(yīng)用[J].中國(guó)集體經(jīng)濟(jì),2017(7):61-62.

[7]薛倩,牟鳳云,涂植鳳.組合預(yù)測(cè)方法在重慶市GDP預(yù)測(cè)中的應(yīng)用[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(1).

[8]王紅超,王紅蕾.基于指數(shù)平滑法與回歸分析相結(jié)合的GDP預(yù)測(cè)[J].經(jīng)濟(jì)研究導(dǎo)刊,2018(7):1-6.

[9]劉瀏.基于線性回歸的甘肅省“十三五”時(shí)期GDP預(yù)測(cè)[J]. 淮海工學(xué)院學(xué)報(bào)(人文社會(huì)科學(xué)版),2017(3):90-92.

[10]王惠文,孟潔.多元線性回歸的預(yù)測(cè)建模方法[J].北京航空航天大學(xué)學(xué)報(bào),2007,33(4):500-504.

[11]Willmott, Cort J., and Kenji Matsuura. "Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance." Climate research 30.1 (2005): 79-82.

猜你喜歡
國(guó)內(nèi)生產(chǎn)總值多元線性回歸可視化分析
我國(guó)職業(yè)教育師資研究熱點(diǎn)可視化分析
聲波吹灰技術(shù)在SCR中的應(yīng)用研究
我國(guó)稅收收入影響因素研究
GDP的缺陷研究
唐山市| 武威市| 灵山县| 沽源县| 吐鲁番市| 兴安盟| 丰台区| 大埔区| 新田县| 张家港市| 西吉县| 湘潭县| 读书| 辽宁省| 儋州市| 鄂尔多斯市| 阳城县| 兴安盟| 金湖县| 德州市| 舞阳县| 烟台市| 万年县| 罗山县| 商城县| 雷州市| 建阳市| 九台市| 白沙| 乐平市| 穆棱市| 朝阳区| 青川县| 武夷山市| 沁水县| 衡阳市| 娄烦县| 莱芜市| 江安县| 日土县| 南和县|