李春雷 王文生 郭雷風(fēng) 陳桂鵬
摘要:2020年底精準(zhǔn)扶貧工作勝利完成,但絕對(duì)貧困和區(qū)域性整體貧困的消除并不意味著貧困的消失和扶貧工作的結(jié)束。黨中央多次強(qiáng)調(diào)要健全防止返貧動(dòng)態(tài)監(jiān)測(cè)和幫扶機(jī)制,對(duì)易返貧致貧人口實(shí)施常態(tài)化監(jiān)測(cè)。當(dāng)前對(duì)返貧動(dòng)態(tài)監(jiān)測(cè)的研究多為宏觀政策性內(nèi)容,對(duì)貧困人口進(jìn)行返貧識(shí)別的微觀操作性研究較少。針對(duì)上述問(wèn)題,利用貧困戶建檔立卡數(shù)據(jù)進(jìn)行數(shù)據(jù)處理選取14維特征,構(gòu)建基于集成學(xué)習(xí)算法的返貧人口識(shí)別模型進(jìn)行貧困人口分類。結(jié)果表明,經(jīng)調(diào)優(yōu)的XGBoost算法模型取得最優(yōu)結(jié)果,對(duì)已脫貧、未脫貧及返貧3類人員分別達(dá)97.43%、92.44%、97.04%的識(shí)別準(zhǔn)確率,總體達(dá)到96.81%的準(zhǔn)確率,能夠較好識(shí)別出貧困人口貧困類別。為幫扶工作人員的防返貧動(dòng)態(tài)監(jiān)測(cè)和幫扶工作提供技術(shù)支持。
關(guān)鍵詞:建檔立卡;集成學(xué)習(xí);返貧識(shí)別;動(dòng)態(tài)監(jiān)測(cè)
中圖分類號(hào): F323.8;TP181? 文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2021)17-0231-07
收稿日期:2021-02-02
基金項(xiàng)目:江西現(xiàn)代農(nóng)業(yè)科研協(xié)同創(chuàng)新專項(xiàng)(編號(hào):JXXTCX201801-03)。
作者簡(jiǎn)介:李春雷(1994—),男,河北邢臺(tái)人,碩士研究生,主要從事信息技術(shù)農(nóng)業(yè)應(yīng)用相關(guān)研究。E-mail:lcl050024@126.com。
通信作者:王文生,博士,研究員,博士生導(dǎo)師,主要從事農(nóng)業(yè)信息化相關(guān)研究。E-mail:13911359883@163.com。
在2020年12月3日中共中央政治局常務(wù)委員會(huì)會(huì)議上,中共中央總書(shū)記習(xí)近平宣布,經(jīng)過(guò)8年持續(xù)奮斗,現(xiàn)行標(biāo)準(zhǔn)下農(nóng)村貧困人口全部脫貧,消除了絕對(duì)貧困和區(qū)域性整體貧困,取得了脫貧攻堅(jiān)重大勝利。隨著精準(zhǔn)扶貧的完成,全國(guó)約9 900萬(wàn)貧困人口實(shí)現(xiàn)脫貧,貧困地區(qū)的已脫貧貧困人員返貧問(wèn)題也隨之顯現(xiàn)。2020年以來(lái)受極端氣候?yàn)?zāi)害、新冠疫情等突發(fā)事件以及國(guó)際形勢(shì)變化的影響,已脫貧人口面臨較大的返貧壓力,以及部分邊緣人口也面臨致貧風(fēng)險(xiǎn)。因此,“后扶貧時(shí)代”的關(guān)注焦點(diǎn)是怎樣實(shí)現(xiàn)可持續(xù)脫貧。黨的十九大明確,農(nóng)村絕對(duì)貧困人口實(shí)現(xiàn)脫貧,并不意味著農(nóng)村貧困的消失和扶貧工作的結(jié)束,要進(jìn)一步鞏固建設(shè)成果,防止返貧。
現(xiàn)階段對(duì)防止返貧監(jiān)測(cè)預(yù)警的研究多為政策干預(yù)層面,如根據(jù)多維指標(biāo)建立評(píng)價(jià)體系進(jìn)行相對(duì)貧困預(yù)警監(jiān)測(cè)分級(jí),采取分級(jí)治理措施[1]。而對(duì)于返貧人口的識(shí)別監(jiān)測(cè)工作的具體操作研究較少,主要工作方式仍是依賴精準(zhǔn)扶貧階段建設(shè)的扶貧工作體系,扶貧干部、信息員等一線扶貧工作者入戶摸排進(jìn)行信息采集和回訪,將入戶結(jié)果整理后自下向上層層上報(bào)[2]。在2020年12月28日中央農(nóng)村工作會(huì)議上,黨中央決定從脫貧之日起設(shè)立5年過(guò)渡期,過(guò)渡期內(nèi)要保持主要幫扶政策總體穩(wěn)定,逐步實(shí)現(xiàn)向全面推進(jìn)鄉(xiāng)村振興平穩(wěn)過(guò)渡。這個(gè)過(guò)程中,扶貧工作隊(duì)以及各單位抽調(diào)的幫扶人員必然要逐步撤出,原有的扶貧工作機(jī)制必然要有所轉(zhuǎn)變。加強(qiáng)對(duì)大數(shù)據(jù)等信息技術(shù)的利用,是實(shí)現(xiàn)對(duì)重點(diǎn)人群常態(tài)化監(jiān)測(cè)的必然要求,也是減輕扶貧工作人員工作壓力、提高返貧監(jiān)測(cè)和幫扶工作效率的重要保障。
近幾年大數(shù)據(jù)、機(jī)器學(xué)習(xí)等技術(shù)也開(kāi)始被應(yīng)用于扶貧工作中。在貧困人口精準(zhǔn)識(shí)別工作中利用隨機(jī)森林算法對(duì)貧困人口進(jìn)行精準(zhǔn)識(shí)別能夠取得不錯(cuò)的效果[3],但相關(guān)工作多采用社會(huì)科學(xué)調(diào)查數(shù)據(jù),存在成本較高、周期較長(zhǎng)的不足。部分研究人員提出利用大數(shù)據(jù)信息系統(tǒng)進(jìn)行返貧預(yù)警[4],但是對(duì)如何利用大數(shù)據(jù)進(jìn)行返貧預(yù)警的操作多為宏觀闡述。國(guó)外學(xué)者在研究減貧問(wèn)題過(guò)程中提出利用深度學(xué)習(xí)技術(shù)基于低成本高分辨微星圖像估計(jì)區(qū)域財(cái)富和消費(fèi)水平,以此彌補(bǔ)缺乏大規(guī)??煽抗矓?shù)據(jù)的缺陷[5]。
自精準(zhǔn)扶貧工作開(kāi)展以來(lái),在中央和地方共同努力下,各地針對(duì)本地區(qū)貧困戶進(jìn)行了建檔立卡等多方面數(shù)據(jù)采集工作[6],積累了大量的能夠反映區(qū)域特征的貧困人口數(shù)據(jù)?;诂F(xiàn)有的大規(guī)模、細(xì)粒度的數(shù)據(jù)優(yōu)勢(shì),深入挖掘利用建檔立卡數(shù)據(jù),以此提升精準(zhǔn)識(shí)別精度、為幫扶政策制定提供決策依據(jù)。有研究者利用機(jī)器學(xué)習(xí)算法結(jié)合建檔立卡數(shù)據(jù)進(jìn)行幫扶方式推薦[7],為扶貧工作者提供扶貧方式參考。而當(dāng)前對(duì)挖掘到的建檔立卡數(shù)據(jù)進(jìn)行返貧識(shí)別的研究較少。本研究利用精準(zhǔn)扶貧工作中積累的建檔立卡數(shù)據(jù),采用能夠處理多數(shù)據(jù)類型、訓(xùn)練速度快、魯棒性較強(qiáng)的XGBoost等集成學(xué)習(xí)算法建模,對(duì)貧困人口進(jìn)行已脫貧、貧困、返貧三分類識(shí)別,對(duì)已脫貧人口長(zhǎng)期跟蹤,對(duì)返貧貧困人口動(dòng)態(tài)監(jiān)測(cè)和及時(shí)干預(yù),減輕扶貧工作人員工作壓力,提高工作效率,使精準(zhǔn)扶貧已取得的工作成果得到保障。
1 數(shù)據(jù)來(lái)源及處理
1.1 數(shù)據(jù)來(lái)源及試驗(yàn)設(shè)備
本研究所用的數(shù)據(jù)來(lái)源于筆者所在團(tuán)隊(duì)對(duì)國(guó)家級(jí)貧困縣H省B市F縣建設(shè)的幫扶項(xiàng)目“精準(zhǔn)扶貧大平臺(tái)”,該項(xiàng)目旨在從全要素、全生命周期提升當(dāng)?shù)氐木珳?zhǔn)扶貧工作的信息化水平,項(xiàng)目建設(shè)期間幫助F縣當(dāng)?shù)馗鲉挝粠头鋈藛T幫扶信息系統(tǒng),利用web端平臺(tái)、手機(jī)app等多種方式助力F縣精準(zhǔn)扶貧工作,提升精準(zhǔn)扶貧工作效率。所用的數(shù)據(jù)節(jié)點(diǎn)為2020年初F縣貧困人員信息,共計(jì)貧困戶31 438戶92 482人,其中尚未脫貧11 367人,已脫貧 79 777 人,返貧人員1 338人。
所用開(kāi)發(fā)語(yǔ)言為Python 3.7配合sklearn工具包和XGBoost、LightGBM及CatBoost對(duì)應(yīng)的Python工具包;所有計(jì)算運(yùn)行環(huán)境均為Win10操作系統(tǒng),采用i5-9600KF 6Core處理器。
1.2 原始數(shù)據(jù)處理及特征構(gòu)建
貧困人員家庭人均純收入是其一段時(shí)期內(nèi)的收入反映,但這一指標(biāo)容易受到短期幫扶政策因素或者貧困人員家庭變故的影響。故僅憑借收入這一單獨(dú)指標(biāo)來(lái)認(rèn)定貧困人口脫貧狀態(tài)存在一定的局限性,在當(dāng)下以及日后的扶貧以及防止返貧工作中是遠(yuǎn)遠(yuǎn)不夠的。運(yùn)用多維貧困測(cè)度方法,從多個(gè)維度對(duì)貧困人口進(jìn)行識(shí)別,更加精準(zhǔn)地發(fā)現(xiàn)貧困人口困難所在,有針對(duì)性進(jìn)行幫扶,對(duì)貧困人口脫貧動(dòng)態(tài)追蹤管理,才能夠有效提升精準(zhǔn)扶貧效率[8]。
根據(jù)羅麗在可持續(xù)升級(jí)分析框架的基礎(chǔ)上構(gòu)建的多維貧困識(shí)別指標(biāo)體系中的指標(biāo)[3],從勞動(dòng)能力、教育文化、勞動(dòng)技能、基礎(chǔ)設(shè)施、家庭收入等方面對(duì)建檔立卡數(shù)據(jù)進(jìn)行格式統(tǒng)一整理、轉(zhuǎn)化和清洗,對(duì)收集到的貧困人口原始數(shù)據(jù)進(jìn)行處理和特征篩選。各地大量記錄表明,疾病醫(yī)療是導(dǎo)致貧困或返貧的重要原因之一[9]。許多原本依靠自身務(wù)工擺脫貧困的家庭,由于家庭成員患病失去務(wù)工收入且還有可能需要家中其他勞動(dòng)力辭工照顧,使得本已脫貧的家庭再度返貧。故據(jù)此增加構(gòu)建家庭疾病人口比率這一特征,及根據(jù)戶號(hào)、家庭人口數(shù)量以及人員健康情況信息計(jì)算患病和殘疾人數(shù)占家庭人口總數(shù)比例。為便于建模分析,將原始數(shù)據(jù)中的各項(xiàng)貧困特征類別數(shù)據(jù)轉(zhuǎn)化為數(shù)值數(shù)據(jù),具體數(shù)值定義見(jiàn)表1。
原始數(shù)據(jù)中的每戶人數(shù)、外出務(wù)工時(shí)間(月)、平均收入3項(xiàng)數(shù)值型數(shù)據(jù)均不做轉(zhuǎn)換處理。根據(jù)表中數(shù)值定義將貧困人口原始數(shù)據(jù)轉(zhuǎn)換為數(shù)值型,轉(zhuǎn)換過(guò)后貧困人口數(shù)據(jù)轉(zhuǎn)換成為一個(gè)貧困數(shù)據(jù)矩陣,即可作為算法的輸入數(shù)據(jù)進(jìn)而構(gòu)建貧困人口分類算法模型,最終構(gòu)建成為包含14個(gè)特征92 482條數(shù)據(jù)的數(shù)據(jù)集。利用sklearn工具包的數(shù)據(jù)劃分工具,將數(shù)據(jù)隨機(jī)打亂,根據(jù)類別比例,80%劃分為訓(xùn)練集,其他用作驗(yàn)證集。
2 模型介紹
本研究采用近年來(lái)在實(shí)際業(yè)務(wù)場(chǎng)景中有優(yōu)異表現(xiàn)的集成學(xué)習(xí)算法來(lái)構(gòu)建貧困人口識(shí)別模型。集成學(xué)習(xí)即使用一系列的學(xué)習(xí)器進(jìn)行學(xué)習(xí),采用某種規(guī)則將得到的學(xué)習(xí)器的學(xué)習(xí)結(jié)果進(jìn)行整合,從而得到更好的學(xué)習(xí)效果。
2.1 極端梯度提升(XGBoost)
XGBoost是由陳天奇博士團(tuán)隊(duì)2014年開(kāi)源的機(jī)器學(xué)習(xí)項(xiàng)目,在2016年機(jī)器學(xué)習(xí)比賽中大放異彩,之后便成為了各類比賽的首選算法[10]。XGBoost的目標(biāo)函數(shù):
L(φ)=∑il(y^i,yi)+∑kΩ(fk)。(1)
相比于原始GBDT,多了正則項(xiàng),能夠減少過(guò)擬合的可能,同時(shí)加快了收斂速度。
Ω(f)=γT+12λ‖w‖2。(2)
式中:γ表示樹(shù)分裂難度系數(shù),來(lái)控制樹(shù)的生成;T表示葉子節(jié)點(diǎn)個(gè)數(shù);λ表示的是L2正則系數(shù),如此對(duì)葉子節(jié)點(diǎn)個(gè)數(shù)進(jìn)行懲罰,相當(dāng)于在訓(xùn)練過(guò)程中剪枝。將損失函數(shù)用泰勒公式二階展開(kāi),如此新的目標(biāo)函數(shù)能夠取得更快的收斂速度和準(zhǔn)確性,最終目標(biāo)函數(shù)變?yōu)楣剑?)。
obj(i)=-12∑Tj=1(∑i∈Ijgi)2∑i∈Ijhi+λ+γT。(3)
式中:Ij{q(Xi)=j}表示該樹(shù)中索引為j的葉子上含有的樣本集合,在XGBoost中用q(xi)表示樣本xi輸入到模型后會(huì)被劃分到哪個(gè)葉子節(jié)點(diǎn)hi為損失函數(shù)L(φ)的二階導(dǎo)數(shù);gi為損失函數(shù)L(φ)的一階導(dǎo)數(shù)。
2.2 LightGBM
LightGBM為2017年微軟亞洲研究院開(kāi)源的模型[11],是在XGBoost上進(jìn)一步改進(jìn)的,也是基于GBDT算法演變而來(lái)的。XGBoost在選擇最優(yōu)分裂點(diǎn)時(shí)需要掃描每一個(gè)樣本點(diǎn)的特征,非常耗費(fèi)時(shí)間和內(nèi)存。LightGBM主要解決了GBDT在大數(shù)據(jù)情況下的問(wèn)題,讓GBDT更方便用于實(shí)踐。LightGBM采用histogram算法,將樣本浮點(diǎn)特征離散化,進(jìn)行分桶形成K個(gè)整數(shù)特征,同時(shí)構(gòu)造寬度為K的直方圖。在遍歷同時(shí),將離散值作為累計(jì)索引進(jìn)行統(tǒng)計(jì),根據(jù)離散值尋找最佳分割點(diǎn)。利用直方圖做差加速,將原本需要遍歷葉子節(jié)點(diǎn)所有數(shù)據(jù)簡(jiǎn)化為遍歷直方圖的K個(gè)桶。LightGBM使用帶有深度限制的按葉子生長(zhǎng)(leaf-wise)算法,更加高效。每次從當(dāng)前所有葉子中,找到分裂增益最大的葉子進(jìn)行分裂,如此循環(huán)。在分裂次數(shù)相同的情況下,leaf-wise可以降低更多誤差,取得更好的精度。防止產(chǎn)生較深的決策樹(shù),出現(xiàn)過(guò)擬合,LightGBM增加了一個(gè)最大深度限制用來(lái)防止過(guò)擬合。
2.3 CatBoost
CatBoost同樣在2017年由俄羅斯的搜索引擎公司Yandex的研究團(tuán)隊(duì)提出的一種基于boosting的算法[12]。其對(duì)類別特征有著很好的支持。一般的梯度提升算法,最常用的是將類別特征轉(zhuǎn)換為數(shù)值型來(lái)處理,類別數(shù)量差異較大時(shí),這種做法容易產(chǎn)生過(guò)擬合。CatBoost給出一種解決方案,可以減少過(guò)擬合發(fā)生。首先對(duì)所有樣本進(jìn)行隨機(jī)排序,原順序?yàn)?c=(c1,…,cn),產(chǎn)生c的一次隨機(jī)遍歷序列,用遍歷的前p個(gè)記錄針對(duì)類別型特征中的某個(gè)取值,每個(gè)樣本的該特征轉(zhuǎn)為數(shù)值型時(shí)都是基于排列在該樣本之前的類別標(biāo)簽取均值,同時(shí)加入先驗(yàn)值P和參數(shù)α>0來(lái)控制低頻類別噪音,公式如下:
∑pj=1[xj,k-xi,k]·Yi+α·P∑nj=1[xj,k=xi,k]+α。(4)
CatBoost采用排序提升(ordered boosting)的方式替換傳統(tǒng)GDBT算法中的梯度計(jì)算方法,能夠減小梯度估計(jì)偏差,提升模型泛化能力。
3 結(jié)果與分析
3.1 評(píng)價(jià)指標(biāo)
混淆矩陣(confusion matrix)是評(píng)價(jià)模型精度的標(biāo)準(zhǔn)格式,使用n行n列的矩陣形式表示。矩陣每一列代表預(yù)測(cè)值,每一行代表實(shí)際值(表2)。它的作用是表明每個(gè)類別之間是否有混淆,也就是模型到底判斷對(duì)了多少個(gè)結(jié)果,判斷錯(cuò)了多少個(gè)結(jié)果。同時(shí)混淆矩陣也能夠幫助理解準(zhǔn)確率、精確率和召回率,并利用F1值綜合衡量精確率和召回率。
3.2 模型結(jié)果比較
利用3種算法XGBoost、LightGBM、CatBoost構(gòu)建迭代次數(shù)1 500次,其余參數(shù)默認(rèn)的基線模型,比較基線模型初步結(jié)果(表3)。
將3個(gè)模型基線結(jié)果的混淆矩陣可視化見(jiàn)圖1。
由混淆矩陣可以很清晰發(fā)現(xiàn),3種模型對(duì)類別0(已脫貧)貧困人口識(shí)別效果非常好,均能達(dá)到98%以上的準(zhǔn)確率。對(duì)類別1(未脫貧)貧困人口識(shí)別稍差,XGBoost與LightGBM可以達(dá)到70%以上,而CatBoost只有61.3%。在對(duì)類別2(返貧)的貧困人口識(shí)別上,XGBoost最好,能夠達(dá)到66.1%,LightGBM能夠達(dá)到52.6%,有一定的識(shí)別能力,CatBoost分類效果較差,幾乎是隨機(jī)預(yù)測(cè),不能夠有效進(jìn)行識(shí)別。
3.3 模型調(diào)優(yōu)及分析
根據(jù)基線模型結(jié)果選擇XGBoost和LightGBM等2個(gè)結(jié)果較為相近且效果較好的模型進(jìn)行進(jìn)一步調(diào)優(yōu)比較。
(1)對(duì)XGBoost模型采用網(wǎng)格搜索(GridSearchCV)方法[13]以及五折交叉驗(yàn)證進(jìn)行關(guān)鍵參數(shù)調(diào)優(yōu)。最優(yōu)參數(shù)見(jiàn)表4。
XGBoost模型在設(shè)置為表4中最優(yōu)參數(shù)時(shí),模型在測(cè)試集上的總體分類正確率達(dá)到96.87%,相比較基線有1.20%的提升。模型訓(xùn)練的損失及錯(cuò)誤率曲線見(jiàn)圖2。在迭代次數(shù)2 000次后,模型損失和錯(cuò)誤率不再有明顯下降,再增加迭代次數(shù)只會(huì)加大模型復(fù)雜度,增加模型過(guò)擬合概率。
(2)對(duì)LightGBM模型采用網(wǎng)格搜索(GridSearchCV)方法[14]以及五折交叉驗(yàn)證進(jìn)行關(guān)鍵參數(shù)調(diào)優(yōu)。最優(yōu)參數(shù)如表5所示。從表5可以看出,LightGBM模型在設(shè)置中最優(yōu)參數(shù)時(shí),模型在測(cè)試集上的總體分類正確率達(dá)到96.55%,相比較基線有1.31%的提升。模型訓(xùn)練的損失及錯(cuò)誤率曲線見(jiàn)圖3。在迭代次數(shù)2 200次后,模型在驗(yàn)證集的損失有增加趨勢(shì),為過(guò)擬合產(chǎn)生的表現(xiàn),不適宜再增加迭代次數(shù)。
XGBoost模型與LightGBM模型經(jīng)過(guò)調(diào)優(yōu)后的各類別指標(biāo)對(duì)比結(jié)果(表6)顯示,XGBoost模型在各類別精確率以及召回率上均有微弱優(yōu)勢(shì)?;煜仃噷?duì)比圖見(jiàn)圖4,XGBoost模型總體分類準(zhǔn)確率比LightGBM模型高0.32%,對(duì)于類別0(已脫貧)和類別1(未脫貧)的分類準(zhǔn)確率差距很小,只有0.2%~
0.3%;對(duì)于類別2(返貧)的分類準(zhǔn)確率,XGBoost模型比LightGBM模型高3.7%,有較為明顯的差距,但是其訓(xùn)練運(yùn)行時(shí)間約為L(zhǎng)ightGBM模型的4倍。
2個(gè)模型的特征重要性評(píng)估比較見(jiàn)圖5,XGBoost和LightGBM等2個(gè)模型對(duì)特征重要性排序是完全一致的,僅僅是不同特征重要性值不同,排在前5的特征均為平均收入、住址、年齡、家庭勞動(dòng)人口比率以及家庭人口數(shù)。根據(jù)特征重要性反映,在進(jìn)行貧困類別判定時(shí),更應(yīng)該關(guān)注貧困人口收入、住址、家庭人口數(shù)以及健康醫(yī)療相關(guān)屬性,著力加強(qiáng)這些方面的幫扶能夠幫助貧困人口盡早脫貧。幫扶人員入戶調(diào)查工作中,除填寫(xiě)一戶一冊(cè)幫扶手冊(cè)以外還應(yīng)及時(shí)上報(bào)更新幫扶對(duì)象的收入、家庭人口健康狀況等信息。通過(guò)最新的貧困人口信息經(jīng)由模型判斷貧困人口最新的脫貧狀態(tài),以及追蹤貧困人口貧困狀態(tài)變化的最新影響因素。
4 結(jié)論
本研究利用團(tuán)隊(duì)精準(zhǔn)扶貧工作中積累的貧困戶建檔立卡數(shù)據(jù),從中抽取14維特征,構(gòu)建了基于集成學(xué)習(xí)的返貧人口識(shí)別模型,采用混淆矩陣、準(zhǔn)確率以及f1值等多指標(biāo)對(duì)返貧人口識(shí)別模型進(jìn)行了對(duì)比分析,基于XGBoost算法的返貧人口識(shí)別模型能夠利用建檔立卡數(shù)據(jù)對(duì)已脫貧、未脫貧及返貧3類人員分別達(dá)到97.43%、92.44%、97.04%的識(shí)別準(zhǔn)確率,總體達(dá)到96.81%的準(zhǔn)確率,能夠較好識(shí)別出貧困人口貧困類別。通過(guò)構(gòu)建基于集成學(xué)習(xí)算法的返貧人口識(shí)別模型,激活精準(zhǔn)扶貧沉淀數(shù)據(jù),為后脫貧時(shí)代的返貧動(dòng)態(tài)監(jiān)測(cè)預(yù)警工作提供實(shí)際案例支持, 對(duì)我國(guó)由脫貧攻堅(jiān)向全面推進(jìn)鄉(xiāng)村振興平穩(wěn)過(guò)渡有重要意義。本研究仍存在不足之處,如對(duì)貧困戶數(shù)據(jù)采集維度較少,粒度較粗、數(shù)據(jù)類別存在不均衡等。在今后的防返貧工作中,要協(xié)調(diào)多方部門(mén)補(bǔ)充資產(chǎn)、政策補(bǔ)貼等數(shù)據(jù),做到高時(shí)效、高精度防止返貧監(jiān)測(cè)預(yù)警。
參考文獻(xiàn):
[1]李 洪,蔣龍志,何思妤. 農(nóng)村相對(duì)貧困識(shí)別體系與監(jiān)測(cè)預(yù)警機(jī)制研究——來(lái)自四川省X縣的數(shù)據(jù)[J]. 農(nóng)村經(jīng)濟(jì),2020,457(11):69-78.
[2]范和生. 返貧預(yù)警機(jī)制構(gòu)建探究[J]. 中國(guó)特色社會(huì)主義研究,2018,139(1):57-63.
[3]羅 麗. 基于隨機(jī)森林算法的貧困精準(zhǔn)識(shí)別模型研究[J]. 華中農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019,144(6):21-29,160.
[4]楊 瑚. 返貧預(yù)警機(jī)制研究[D]. 蘭州:蘭州大學(xué),2019.
[5]Ermon S. Combining satellite imagery and machine learning to predict poverty[J]. Science,2016(6301):790-794.
[6]梁 驍,張 明,覃 琳. 一種基于機(jī)器學(xué)習(xí)識(shí)別貧困人口的數(shù)據(jù)分析方法研究[J]. 企業(yè)科技與發(fā)展,2017,427(5):39-41.
[7]魏嫣嬌,易葉青. 基于多源機(jī)器學(xué)習(xí)的脫貧方式智能推薦研究[J]. 信息與電腦(理論版),2019,420(2):37-39,44.
[8]張 浩. 提升農(nóng)村地區(qū)精準(zhǔn)扶貧效率的多維貧困識(shí)別方法[J]. 農(nóng)村經(jīng)濟(jì)與科技,2020,31(6):199-200.
[9]余 昕,汪早容. “后扶貧時(shí)代”返貧問(wèn)題及對(duì)策[J]. 中國(guó)經(jīng)貿(mào)導(dǎo)刊(中),2021,992(1):109-111.
[10]Chen T,Guestrin C. Xgboost:A scalable tree boosting system[C]//Proceedings of the 22nd Acm Sigkdd International Conference on Knowledge Discovery and Data Mining(Association for Computing Machinery),2016:785-794.
[11]Ke G,Meng Q,F(xiàn)inley T,et al. Lightgbm:A highly efficient gradient boosting decision tree[J]. Advances in Neural Information Processing Systems,2017,30:3146-3154.
[12]Dorogush A V,Ershov V,Gulin A. Catboost:Gradient boosting with categorical features support[J]. Arxiv E-prints,2018.
[13]岳 鵬,侯凌燕,楊大利,等. 基于XGBoost特征選擇的疾病診斷XLC-Stacking方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2020,56(17):136-141.
[14]陳維剛,張會(huì)林. 基于RF-LightGBM算法在風(fēng)機(jī)葉片開(kāi)裂故障預(yù)測(cè)中的應(yīng)用[J]. 電子測(cè)量技術(shù),2020,43(1):162-168.