国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隨機森林在甘肅省農(nóng)村貧困戶識別中的應(yīng)用

2018-05-14 17:05李佳容
農(nóng)村經(jīng)濟與科技 2018年4期
關(guān)鍵詞:隨機森林精準扶貧貧困戶

李佳容

[摘 要]本文根據(jù)甘肅省農(nóng)村入戶調(diào)查資料,利用隨機森林分類方法對其進行貧困戶識別,經(jīng)過研究發(fā)現(xiàn)隨機森林分類在貧困戶識別的中表現(xiàn)出了其在離散變量中的優(yōu)勢,識別正例的命中率達到71%。因此,在貧困戶識別方法上可以有所借鑒。

[關(guān)鍵詞]貧困戶;隨機森林;識別方法;精準扶貧

[中圖分類號]F323.8 [文獻標識碼]A

自改革開放以來,雖然甘肅已取得了顯著的減貧效果,但2011年國家提高貧困線(2300元)以后,甘肅的貧困覆蓋面增大,據(jù)2013年的統(tǒng)計數(shù)據(jù),甘肅共有552.2萬貧困人口,貧困發(fā)生率為26.5%。因此,實現(xiàn)“精準扶貧”是當前需要解決的重要問題。本文結(jié)合目前應(yīng)用廣泛的隨機森林方法,嘗試精準識別貧困,為今后在貧困戶識別方法上提供借鑒。

1 隨機森林的應(yīng)用及理論背景介紹

隨機森林算法是Leo Breiman和Adele Cutler在2001年提出的一種集成學習算法,它是通過將bagging和隨機特征選擇結(jié)合起來,對決策樹模型添加額外的多樣性。即每次隨機選擇一些特征變量,獨立建立決策樹模型,不斷重復(fù)。而且,需要確保每次建樹時,特征變量等可能的被選擇,這樣在樹的集成產(chǎn)生之后,使用投票的方法來組合預(yù)測結(jié)果。在隨機森林被提出到現(xiàn)在,在生物學、經(jīng)濟、金融等很多領(lǐng)域都有廣泛的應(yīng)用。從隨機森林算法提出至今,人們對隨機森林算法進行了深入的研究,作出多種優(yōu)化改進策略并取得了良好的效果。

2 隨機森林模型識別貧困戶

2.1 數(shù)據(jù)介紹與清洗

本文采用隨機森林的方法對2015年甘肅省86個縣(區(qū))入戶調(diào)查資料進行貧困戶識別實證研究。數(shù)據(jù)信息包括住戶基本信息、主要固定資產(chǎn)信息和期末耐用商品信息。因為調(diào)查戶從業(yè)類型的不同,資產(chǎn)擁有情況也有明顯的差異。由于本研究是對農(nóng)村貧困戶的識別挖掘,因此重點研究調(diào)查戶中農(nóng)業(yè)戶的家庭情況。農(nóng)村最低生活保障(簡稱“低?!保┲贫仁侵刚畬彝ツ耆司兪杖氲陀诋?shù)剞r(nóng)村居民最低生活保障標準的農(nóng)村常住居民家庭實行的基本生活救助制度。所以領(lǐng)取低保的農(nóng)業(yè)戶通常是經(jīng)濟基礎(chǔ)較差,生活有困難的住戶,可以視為貧困戶。

農(nóng)業(yè)戶調(diào)查數(shù)據(jù)主要包括住戶基本信息、主要固定資產(chǎn)信息和期末耐用商品信息等,共有27個變量信息??傮w描述如表1:

將原始調(diào)查數(shù)據(jù)經(jīng)過簡單的處理,主要為了方便導(dǎo)入R軟件進行分析重新命名變量,然后導(dǎo)入到R軟件中。對數(shù)據(jù)處理的步驟如下:對空值處理;對變量標準化;處理缺失值;處理異常值;對數(shù)據(jù)量非常少的變量處理。經(jīng)過數(shù)據(jù)清洗整理,數(shù)據(jù)集共有12個屬性變量、3296條記錄。其中領(lǐng)取低保的農(nóng)業(yè)戶有722戶,占所有調(diào)查的農(nóng)業(yè)戶的28%。

2.2 貧困戶分類

首先將整理后數(shù)據(jù)集按70%和30%劃分為訓練集和測試集,并經(jīng)過Kolmogorov-Smirnov(柯爾莫哥洛夫-斯莫洛夫)同質(zhì)性檢驗,通過R語言中的函數(shù)ks.test()實現(xiàn),由檢驗結(jié)果可知訓練集與測試集具有同質(zhì)性。

2.2.1 模型的構(gòu)建過程

本文采用的是R語言中的party包中的cforest(函數(shù)訓練的隨機森林模型,具體模型構(gòu)建過程:(1)通過party包中的cforest(函數(shù)對數(shù)據(jù)集train構(gòu)建隨機森林;(2)根據(jù)選取不同的樹的數(shù)量值,構(gòu)建隨機森林,確定最優(yōu)的樹的數(shù)量。這里根據(jù)每次預(yù)測值計算的auc值來評價分類器的優(yōu)劣,最終確定最優(yōu)樹數(shù)量是220棵;(3)將測試集test代入構(gòu)建好的隨機森林,并用predict函數(shù)進行預(yù)測,并繪制箱線圖可視化結(jié)果;(4)繪制混淆矩陣,展示預(yù)測值的情況,并直觀顯示預(yù)測值與真實值之間的差距,來說明模型的準確性;(5)繪制ROC曲線圖,來評價模型的適用性。

2.2.2 模型的結(jié)果及檢驗

根據(jù)模型在測試集預(yù)測結(jié)果建立混淆矩陣如下:

可以看出,預(yù)測的正確率為(410+157)/(410+356+65+157)= 58%;正例的覆蓋率為157/(157+356)=31%,正例的命中率為157/(65+157)=71%??梢娬拿新时容^高,說明對貧困戶識別的正確率比較高。

再次,對模型性能進行評價,繪制ROC曲線圖(見圖1)。根據(jù)評估結(jié)果,可以看出,隨機森林模型表現(xiàn)得比較好。

3 總結(jié)與展望

精準扶貧在政府和學術(shù)界一直都是關(guān)注的重點,經(jīng)濟發(fā)展到今天,我們國家已經(jīng)脫離了貧窮落后走向了繁榮富強,但是由于經(jīng)濟發(fā)展的不平衡,在一些地區(qū)仍然有貧困現(xiàn)象,那么如何在龐大的人群中準確地找到他們,是現(xiàn)在面臨的一個難題。因此,本文嘗試應(yīng)用隨機森林對甘肅省入戶調(diào)查數(shù)據(jù)進行貧困戶識別的實證研究。實證分析選擇缺失數(shù)據(jù)較少的農(nóng)業(yè)戶生產(chǎn)性固定資產(chǎn)和期末耐用商品的擁有情況數(shù)據(jù)作為研究樣本數(shù)據(jù)。由隨機森林預(yù)測結(jié)果可知,正例命中率到達71%。因此對比邏輯回歸方法,在相同數(shù)據(jù)集中,隨機森林表現(xiàn)較好。

對于本次研究來說,由于數(shù)據(jù)集選取的是農(nóng)業(yè)戶的生產(chǎn)性固定資產(chǎn)和期末耐用商品的情況,無法全面得描述農(nóng)業(yè)戶家庭的整體情況,這也對分類分析造成一定的局限。為了得到更好的貧困戶識別的準確性,在以后的研究里可以將更多的家庭情況考慮進來。因此,希望在今后的研究中可以有所借鑒。

[參考文獻]

[1] 汪三貴.論中國的精準扶貧[J].貴州社會科學,2015(05).

[2] 汪三貴,王姮,王萍萍.中國農(nóng)村貧困家庭的識別[J].農(nóng)業(yè)技術(shù)經(jīng)濟,2007(01).

[3] 李昊源,崔琪琪.農(nóng)村居民家庭貧困的特征與原因研究[J].上海經(jīng)濟研究,2015(04).

[4] 韓旭峰,豆紅玉.甘肅省農(nóng)村最低生活保障標準測算與分析——基于擴展線性支出模型[J].西北人口,2017(01).

猜你喜歡
隨機森林精準扶貧貧困戶
杜造海:從貧困戶到脫貧致富帶頭人
重視“非貧困戶”的滿意度
播州區(qū)委離退局開展春節(jié)走訪慰問掛幫貧困戶
隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
基于二次隨機森林的不平衡數(shù)據(jù)分類算法
拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
“精準扶貧”視角下的高校資助育人工作
貧困戶建檔立卡工作示意圖及參考文本
虎林市| 白河县| 洱源县| 津市市| 鹤峰县| 青阳县| 澄城县| 神农架林区| 鄂尔多斯市| 都匀市| 平陆县| 宜黄县| 清新县| 綦江县| 新闻| 武清区| 瑞金市| 宜黄县| 光泽县| 莆田市| 清流县| 沙河市| 天等县| 宜黄县| 土默特左旗| 黎城县| 琼海市| 鄂尔多斯市| 东乡族自治县| 玉林市| 昌图县| 谢通门县| 北宁市| 资兴市| 陇川县| 达日县| 石景山区| 永济市| 铁岭市| 双鸭山市| 邢台县|