国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Python關(guān)于世界自殺率影響因素的分析以及機器學習預(yù)測

2019-10-09 05:48:54劉子樺馬若炎
電子技術(shù)與軟件工程 2019年17期
關(guān)鍵詞:因變量線性年齡

文/劉子樺 馬若炎

1 引言

自殺是一種全球性的現(xiàn)象。根據(jù)WHO提供的數(shù)據(jù)顯示,2012年,自殺死亡占全世界死亡總數(shù)的1.4%,在2012年的死因排序中居于第15位。

本文利用1985-2016年世界101個國家的自殺人數(shù)以及宏觀參數(shù)的數(shù)據(jù)集,考慮時間(年),人口,HDI指數(shù),GDP指數(shù)以及其衍生變量對自殺率的影響,并且對數(shù)據(jù)進行相關(guān)性分析,探究單個因素與總自殺率的線性相關(guān)性。最后利用多元線性回歸與隨機森林進行預(yù)測模型的生成。

2 相關(guān)性分析

2.1 相關(guān)分析的工具與實現(xiàn)方法

本論文主要采用皮爾森相關(guān)系數(shù)逐個分析單一變量對最后因變量(自殺率)之間的相關(guān)程度。相關(guān)計算方式如下:估算樣本的協(xié)方差和標準差,可得到樣本皮爾遜系數(shù),常用英文小寫字母r代表:

r 亦可由(Xi,Yi)樣本點的標準分數(shù)均值估計,得到與上式等價的表達式:

2.2 單一變量相關(guān)性分析

2.2.1 自殺率與人口增長速度以及年齡分布之間的關(guān)系

選取101個不同國家人口的增長速度為自變量,自殺率為因變量。由計算可知,在全球的范圍內(nèi),自殺率與人口增加率之間成線性關(guān)系的擬合系數(shù)為0.0185。Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為0.131,0.217,0.135。說明二者整體上成正相關(guān),即人口增長速率增加會導(dǎo)致自殺率的增加,但是這種相關(guān)關(guān)系十分微弱。

圖1:隨機森林與多元線性回歸比較

在探究年齡分布情況時,選取年齡分布為自變量,自殺率為因變量。為了能夠更好的表示一個國家的年齡分布,將5-14歲,15-24歲,25-34歲,35-54歲,55-74歲,74歲以上等不同年齡段分別賦予1-6的加權(quán)分數(shù)并且進行加權(quán)平均獲得一個總分。利用Sklearn對1985-2015年之間全球的年齡組成與自殺率之間的進行線性擬合。根據(jù)相關(guān)性分析可知,在全球的范圍內(nèi),自殺率與年齡組成之間成弱中等線性關(guān)系,擬合系數(shù)R^2為0.0928。Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為-0.242,-0.206,-0.305。說明二者整體上成負相關(guān),即年齡組成增加(老齡化)會導(dǎo)致自殺率的減少。

2.2.2 自殺率與性別組成之間的關(guān)系以及國家人類發(fā)展指數(shù)(HDI)之間的關(guān)系

選取男女性別比例為自變量,自殺率為因變量。由線性擬合可知,在全球的范圍內(nèi),自殺率與年齡組成之間成強線性關(guān)系,擬合系數(shù)為0.55261。Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為0.540,0.742,0.743。說明二者整體上成強正相關(guān)關(guān)系,即性別比例的增大會大概率導(dǎo)致自殺率的增大。十分具有參考性,對人口政策具有指導(dǎo)意義。

HDI指數(shù)是聯(lián)合國1990開發(fā)計劃署創(chuàng)立了人類發(fā)展指數(shù),以“預(yù)期壽命、教育水平和生活質(zhì)量”三項基礎(chǔ)變量,按照一定的計算方法,衡量各個國家人類發(fā)展水平。本文選取不同國家HDI指數(shù)為自變量,自殺率為因變量。根據(jù)計算顯示,在全球的范圍內(nèi),自殺率與年齡組成之間成弱線性關(guān)系,擬合系數(shù)為0.578。Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為0.215、0.333、0.241。說明二者整體上成正相關(guān),即性別比例的增大會導(dǎo)致自殺率的增大,但是這種相關(guān)關(guān)系較弱。

2.2.3 自殺率與人均GDP之間的關(guān)系

選取不同國家人均GDP為自變量,自殺率為因變量。由計算得知,在全球的范圍內(nèi),自殺率與人均GDP之間成相關(guān)關(guān)系的概率很低。擬合函數(shù)為0.021,Kendall與Spearmans以及Pearsonr相關(guān)系數(shù)的值分別為0.161,0.224,0.145,說明二者整體上成正相關(guān),但是這種關(guān)系很弱,幾乎可以視為不相關(guān)。

3 多元線性擬合與決策樹及隨機森林預(yù)測模型構(gòu)建

3.1 多元線性擬合

對于多元線性回歸,我們應(yīng)該考慮每個特征值xj與其權(quán)重w乘積之和:

并且使用梯度下降算法,不斷縮小損失函數(shù):

計算當L(f)最小時候,對應(yīng)的w與b的值:

在具體實施中,選取在本文中提到的人口增長率、性別比例、年齡組成、以及人均GDP四個相對獨立的因素,進行歸一化操作,然后合并作為特征向量構(gòu)成因變量,目標變量為自殺率,生成4維向量進行多元線性回歸。整個數(shù)據(jù)被分為90%的訓(xùn)練集以及10%的測試集。得到的多元線性回歸擬合的擬合方程如下:

利用此方程對訓(xùn)練集數(shù)據(jù)與測試集數(shù)據(jù)進行線性擬合,結(jié)果顯示訓(xùn)練集上均方差為0.678,測試集為0.596。

3.2 利用隨機森林進行預(yù)測

隨機森林是利用多棵樹對樣本進行訓(xùn)練并預(yù)測的一種分類器。在本文中,使用50個決策樹(Decison Tree)進行概率分類,進行投票程序,最終得到了誤差更小,使用度更高的機器學習預(yù)測模型。利用隨機森林生成的預(yù)測模型在訓(xùn)練集上的誤差為0.606,在測試集上的誤差較為理想,達到了0.098,是比較好的預(yù)測模型。如圖1所示。

4 結(jié)束語

本文通過開放數(shù)據(jù)集,利用Python Pandas以及scikit-learn進行數(shù)據(jù)探索與分析,探究了國家宏觀因素與自殺率之間的相關(guān)系數(shù)。并且建立多元回歸模型、隨機森林預(yù)測模型,其中隨機森林預(yù)測的殘差僅為0.0980,起到了很好的自殺率預(yù)測效果。

猜你喜歡
因變量線性年齡
變小的年齡
漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
調(diào)整有限因變量混合模型在藥物經(jīng)濟學健康效用量表映射中的運用
中國藥房(2022年7期)2022-04-14 00:34:30
線性回歸方程的求解與應(yīng)用
適應(yīng)性回歸分析(Ⅳ)
——與非適應(yīng)性回歸分析的比較
二階線性微分方程的解法
TOO YOUNG TO LOCK UP?
偏最小二乘回歸方法
年齡歧視
算年齡
辛集市| 上思县| 稷山县| 长沙县| 金昌市| 松潘县| 新田县| 陆河县| 孙吴县| 洪江市| 广平县| 安仁县| 大化| 漯河市| 哈巴河县| 滕州市| 芷江| 饶河县| 长宁区| 建宁县| 德清县| 法库县| 哈尔滨市| 龙游县| 友谊县| 北京市| 娱乐| 沅江市| 洛宁县| 晋中市| 民丰县| 万山特区| 浠水县| 大城县| 五华县| 神池县| 万州区| 徐州市| 麻江县| 甘孜| 彰武县|