国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于XGBoost-LightGBM的保險(xiǎn)理賠預(yù)測(cè)研究

2023-05-14 21:49:59丁海博張睿崔麗玲
計(jì)算機(jī)時(shí)代 2023年5期

丁海博 張睿 崔麗玲

摘? 要: 為提高保險(xiǎn)公司對(duì)保險(xiǎn)理賠的預(yù)測(cè)精度,提出一種基于多模型融合的XGBoost-LightGBM預(yù)測(cè)方法。構(gòu)建XGBoost模型與LightGBM模型,使用Optuna框架對(duì)模型參數(shù)進(jìn)行優(yōu)化,結(jié)合MAPE-RW(Mean Absolute Error-reciprocalweight)算法確定融合權(quán)重,將兩個(gè)模型的預(yù)測(cè)結(jié)果加權(quán)結(jié)合作為最終組合模型的預(yù)測(cè)結(jié)果。以Allstate公司的數(shù)據(jù)為例,對(duì)該組合模型進(jìn)行驗(yàn)證,結(jié)果表明:與隨機(jī)森林、Lasso回歸、SVM及單個(gè)XGBoost模型、LightGBM模型相比較,XGBoost-LightGBM組合模型有最低的平均絕對(duì)誤差(MAE)值,預(yù)測(cè)精度最高。

關(guān)鍵詞: XGBoost; LightGBM; 多模型融合; 保險(xiǎn)理賠預(yù)測(cè)

中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? 文章編號(hào):1006-8228(2023)05-61-04

Research on insurance claims prediction based on XGBoost-LightGBM

Ding Haibo, Zhang Rui, Cui Liling

(Hunan University of? Technology, Zhuzhou, Hunan 412007, China)

Abstract: In order to improve the prediction accuracy of insurance claims by insurance companies, an XGBoost-LightGBM prediction method based on multi-model fusion is proposed. The XGBoost model and LightGBM model are constructed, the model parameters are optimized using the Optuna framework, the fusion weights are determined by combining the mean absolute percentage error-reciprocal weight (MAPE-RW) algorithm, and the prediction results of the two models are weighted and combined as the final combined model prediction results. Taking the data of Allstate company as an example to verify the combined model, the results show that compared with the random forest, Lasso, SVM, single XGBoost model and LightGBM model, the XGBoost-LightGBM combined model has the lowest mean absolute error (MAE) value and the highest prediction accuracy.

Key words: XGBoost; LightGBM; multi-model fusion; insurance claim forecast

0 引言

保險(xiǎn)理賠預(yù)測(cè)是指運(yùn)用理賠的歷史經(jīng)驗(yàn),對(duì)投保人提出的理賠要求進(jìn)行分析和預(yù)測(cè),判斷其存在保險(xiǎn)欺詐的可能性,預(yù)測(cè)的精度至關(guān)重要[1]。

保險(xiǎn)理賠預(yù)測(cè)問(wèn)題是典型的回歸問(wèn)題。目前,機(jī)器學(xué)習(xí)算法被廣泛用于解決各種回歸問(wèn)題上,如支持向量機(jī)(SVM)[2]、隨機(jī)森林[3]、神經(jīng)網(wǎng)絡(luò)[4]等。使用單一模型繼續(xù)提高預(yù)測(cè)精度已變得十分困難,因?yàn)閱我荒P驮谔幚砟硞€(gè)問(wèn)題時(shí)容易遇到模型泛化瓶頸。模型融合通過(guò)科學(xué)的方法對(duì)多個(gè)模型進(jìn)行融合,綜合各個(gè)模型的優(yōu)點(diǎn)從而提高模型的泛化能力。多模型融合方法被廣泛應(yīng)用于各種精度預(yù)測(cè)問(wèn)題上。文獻(xiàn)[5]使用自適應(yīng)權(quán)重的組合模型對(duì)發(fā)電量進(jìn)行預(yù)測(cè);文獻(xiàn)[6]提出一種基于多特征融合和XGBoost-LightGBM-ConvLSTM的組合模型對(duì)短期光伏發(fā)電量進(jìn)行預(yù)測(cè);文獻(xiàn)[7]構(gòu)建基于Stacking的集成學(xué)習(xí)模型,融合多種機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)資源價(jià)格進(jìn)行預(yù)測(cè)。上述研究都使用了較為復(fù)雜的模型進(jìn)行融合,取得了比較簡(jiǎn)單、單一模型更高的預(yù)測(cè)精度。目前被廣泛使用的集成學(xué)習(xí)、深度學(xué)習(xí)等模型的參數(shù)較多并且復(fù)雜性較大,使用傳統(tǒng)的網(wǎng)格搜索調(diào)整參數(shù)計(jì)算量大,而隨機(jī)搜索不能保證給出最好的參數(shù)組合,模型的參數(shù)優(yōu)化十分依賴個(gè)人經(jīng)驗(yàn)。

為進(jìn)一步提高保險(xiǎn)理賠預(yù)測(cè)的精度,本文提出一種XGBoost-LightGBM組合模型,構(gòu)建單個(gè)XGBoost模型和LightGBM模型,針對(duì)網(wǎng)格搜索和隨機(jī)搜索在參數(shù)尋優(yōu)時(shí)遇到的問(wèn)題,使用Optuna[8]框架對(duì)模型進(jìn)行參數(shù)優(yōu)化,結(jié)果表明參數(shù)優(yōu)化后的模型在預(yù)測(cè)精度上有較大的提升。分別使用優(yōu)化后的XGBoost模型和LightGBM模型對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè),根據(jù)模型在驗(yàn)證集上的表現(xiàn),通過(guò)平均絕對(duì)百分誤差倒數(shù)權(quán)重(MAPE-RW)[9]確定模型融合權(quán)重并得到最終的XGBoost-LightGBM組合模型。本文使用美國(guó)Allstate公司的數(shù)據(jù)對(duì)組合模型的預(yù)測(cè)精度進(jìn)行驗(yàn)證,結(jié)果表明,相較于隨機(jī)森林、Lasso回歸、SVM以及單個(gè)XGBoost、LightGBM模型,XGBoost-LightGBM組合模型有更高的預(yù)測(cè)精度。

1 相關(guān)理論

1.1 XGBoost模型

集成學(xué)習(xí)通過(guò)組合多個(gè)學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù),XGBoost(extreme Gradient Boosting)是一種基于Boosting樹(shù)模型的集成學(xué)習(xí)算法,由陳天奇等人于2016年提出[10]。XGBoost高效地實(shí)現(xiàn)了GBDT算法并進(jìn)行了算法和工程上的許多改進(jìn),被工業(yè)界廣泛應(yīng)用[11,12]。

XGBoost是由[k]個(gè)基模型組成的一個(gè)加法模型:

[yi=k=1Kfkxi]? ⑴

其中,[k]表示樹(shù)的個(gè)數(shù)。[yi]為對(duì)第[i]個(gè)樣本的預(yù)測(cè)值,[fk]為第[k]個(gè)樹(shù)對(duì)樣本[xi]的預(yù)測(cè)值。如圖1所示。

構(gòu)建目標(biāo)函數(shù):

[obj=i=1nlyi,yi+k=1KΩfk]? ⑵

其中,[Ω(f)=γT+12λω2]為XGBoost中的正則項(xiàng),[T]為葉節(jié)點(diǎn)個(gè)數(shù),[ω]為每個(gè)葉子節(jié)點(diǎn)所對(duì)應(yīng)的分?jǐn)?shù)。傳統(tǒng)的GBDT為了控制樹(shù)的復(fù)雜度只會(huì)對(duì)樹(shù)的葉子個(gè)數(shù)加正則項(xiàng)來(lái)控制,這是XGBoost相較于GBDT在算法層面的一個(gè)改進(jìn)。

假設(shè)[y(0)i=0],則

[y1i=f1xi+y0i=f1xi+0]? ⑶

[y2i=f2xi+y1i=f2xi+f1xi]? ⑷

[yki=f1xi+f2xi+…+fkxi=yk-1i+fkxi]? ⑸

即[y(k)i=y(k-1)i+fk(xi)],假設(shè)共有[k]棵樹(shù),則對(duì)樣本[xi]的預(yù)測(cè)結(jié)果[yi=y(k)i],目標(biāo)函數(shù)可改寫為:

[obj=i=1nlyi,yk-1i+fkxi+j=1K-1Ωfj+ΩfK]? ⑹

XGBoost相較于GBDT在算法層面的另一個(gè)改進(jìn)就是引入二階泰勒展開(kāi),將目標(biāo)函數(shù)簡(jiǎn)化為如下的形式:

[minimize:i=1ngi?fkxi+12hi?f2kxi+ΩfK]? ⑺

其中,[gi=?y(k-1)il(yi,yk-1i)],[hi=?2yk-1il(yi,y(k-1)i)]分別為損失函數(shù)關(guān)于[yk-1i]的一階導(dǎo)和二階導(dǎo),因此在訓(xùn)練第[k]棵樹(shù)時(shí),[hi,gi]是已知的。

將遍歷對(duì)象從樣本改為葉子結(jié)點(diǎn),樣本[xi]落在葉結(jié)點(diǎn)[q(xi)]上,[Wq(xi)]為該葉節(jié)點(diǎn)的值,[Ij]為該葉節(jié)點(diǎn)的樣本的集合。目標(biāo)函數(shù)可化為:

[i=1ngi?Wqxi+12hi?W2qxi+γT+12λt=1Twt2]

[=j=1Ti∈Ijgi?wj+12i∈Ijhi+λ?wj2+λT] ⑻

[Hj=i∈Ijhi]? ⑼

當(dāng)樹(shù)的結(jié)構(gòu)固定時(shí),可求得葉節(jié)點(diǎn)最佳的權(quán)重[w*j]以及最佳目標(biāo)函數(shù)分別為:

[w*j=-GtHt+λ]? ⑽

[obj=-12j=1TG2jHj+λ+γT]? ⑾

確定目標(biāo)函數(shù)后,對(duì)于每個(gè)特征,訓(xùn)練樣本按特征值進(jìn)行排序并選擇分裂點(diǎn),分列前的目標(biāo)函數(shù)記作:

[obj1=-12GL+GR2HL+HR+λ+γ]? ⑿

分裂后的目標(biāo)函數(shù)為:

[obj2=-12G2LHL+λ+G2RHR+λ+2γ]? ⒀

計(jì)算分裂的收益為:

[Gain=12G2LHL+λ+G2RHR+λ-GL+GR2HL+HR+λ-γ] ⒁

選擇收益最大的分裂特征和分裂點(diǎn)。

1.2 LightGBM

輕量級(jí)梯度提升機(jī)LightGBM是一個(gè)實(shí)現(xiàn)GBDT算法的框架,由微軟提出[13]。LightGBM被用于排序、分類、回歸等多種機(jī)器學(xué)習(xí)的任務(wù),支持高效率的并行訓(xùn)練[14]。LightGBM主要有一下改進(jìn):

⑴ 使用單邊梯度采樣算法,在計(jì)算信息增益時(shí),只使用具有高梯度的數(shù)據(jù),減少了時(shí)間開(kāi)銷。

⑵ 使用互斥特征捆綁可以將許多互斥的特征綁定為一個(gè)特征,這樣達(dá)到了降維的目的。

⑶ LightGBM算法在尋找最佳分裂點(diǎn)的時(shí)候,使用直方圖算法,使得時(shí)間復(fù)雜度從O((特征值個(gè)數(shù)-1)*特征數(shù))降到O((每個(gè)特征分箱個(gè)數(shù)-1)*特征數(shù))。

⑷ 帶深度限制的Leaf-wise的葉子生長(zhǎng)策略,只對(duì)信息增益最大的點(diǎn)進(jìn)行分裂,避免過(guò)擬合。

2 XGBoost-LightGBM組合模型

基于多模型融合的XGBoost-LightGBM組合模型構(gòu)建流程如圖2所示。

Optuna是一個(gè)自動(dòng)超參數(shù)調(diào)整框架,可以與Pytorch、TensorFlow、Sklearn等其他框架一起使用。Optuna可使用網(wǎng)格搜索、隨機(jī)搜索、貝葉斯搜索等采樣器自動(dòng)調(diào)整超參數(shù)。

使用Optuna框架對(duì)XGBoost和LightGBM模型進(jìn)行參數(shù)優(yōu)化后分別輸出在驗(yàn)證集上的MAE值。為了提高組合后預(yù)測(cè)的精度,我們希望預(yù)測(cè)精度更高的模型所占權(quán)重越高,所以,結(jié)合MAE-RW算法對(duì)組合模型的權(quán)重進(jìn)行計(jì)算。模型[i]在驗(yàn)證集上的測(cè)試結(jié)果為[MAEi],則權(quán)重[Wi]和最終的預(yù)測(cè)值[f]為:

[Wi=MAEjMAEi+MAEj]? ⒂

[f=WXGBoost?fXGBoost+WLightGBM?fLightGBM]? ⒃

其中[fXGBoost]、[fLightGBM]分別為XGBoost和LightGBM的預(yù)測(cè)值。

3 數(shù)據(jù)預(yù)處理

3.1 數(shù)據(jù)描述

本文數(shù)據(jù)來(lái)自美國(guó)保險(xiǎn)巨頭Allstate公司,該數(shù)據(jù)集包含188318個(gè)樣本,每個(gè)樣本包含116個(gè)類別屬性(cat1~cat116)和14個(gè)連續(xù)屬性(cont1~cont14),loss為保險(xiǎn)賠償?shù)恼鎸?shí)值。

3.2 數(shù)據(jù)預(yù)處理

該數(shù)據(jù)集沒(méi)有缺失數(shù)據(jù),因此無(wú)需填充缺失值。將離散特征cat1~cat116轉(zhuǎn)化為category特征,并重新編碼。數(shù)據(jù)轉(zhuǎn)換前后對(duì)比如圖3所示。

偏度是統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的度量,可以反應(yīng)分布的不對(duì)稱性。

[SkewX=EX-μσ3=k3σ3=k3k322]? ⒄

公式⒄中,[k2],[k3]分別表示二階和三階中心矩。計(jì)算loss的偏度值為3.794,偏度值大于1,說(shuō)明數(shù)據(jù)是傾斜的。為了更有利于后續(xù)建模,對(duì)loss值進(jìn)行對(duì)數(shù)化后偏度值變?yōu)?.092,轉(zhuǎn)換前后的數(shù)據(jù)如圖3所示,使用轉(zhuǎn)換后的loss值進(jìn)行訓(xùn)練。

3.3 數(shù)據(jù)劃分

按9:1的方式將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集與測(cè)試集樣本數(shù)如表1所示。

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)環(huán)境

本次實(shí)驗(yàn)在Windows11系統(tǒng)上進(jìn)行,CPU為Inteli7-10700 @ 2.90GHz,16G內(nèi)存,Python版本為3.7.13,開(kāi)發(fā)環(huán)境為VS Code+ Anaconda3,使用了Numpy、Pandas、XGBoost、LightGBM等第三方庫(kù)。

4.2 評(píng)價(jià)指標(biāo)

本文使用平均絕對(duì)誤差MAE作為模型的評(píng)價(jià)指標(biāo)。

[MAE=1Ni=1Nyi-yi]? ⒅

其中,[N]為預(yù)測(cè)樣本數(shù),[yi]和[yi]分別為模型對(duì)第[i]個(gè)樣本的預(yù)測(cè)值和該樣本的真實(shí)值。

4.3 模型構(gòu)建與結(jié)果分析

使用Optuna框架分別對(duì)XGBoost和LightGBM進(jìn)行參數(shù)尋優(yōu)。使用測(cè)試集分別對(duì)優(yōu)化前后的XGBoost模型和LightGBM模型進(jìn)行測(cè)試,結(jié)果如表2所示。

從表2可以看出,使用Optuna框架優(yōu)化后XGBoost和LightGBM相較于優(yōu)化前平均絕對(duì)誤差分別下降了6.297%、2.134%。優(yōu)化后XGBoost和LightGBM的參數(shù)分別如表3、表4所示。

使用測(cè)試集對(duì)組合模型進(jìn)行測(cè)試,將優(yōu)化后的XGBoost模型和LightGBM模型并聯(lián)起來(lái)通過(guò)MAE-RW算法得出最終的預(yù)測(cè)結(jié)果。同時(shí),為了驗(yàn)證XGBoost-LightGBM組合模型相較于其他模型的泛化性能,本次實(shí)驗(yàn)給出了隨機(jī)森林(RF)、Lasso回歸、支持向量機(jī)(SVM)在測(cè)試集上的MAE值,實(shí)驗(yàn)結(jié)果如表5所示。

由表5可以看出,XGBoost-LightGBM組合模型相較于XGBoost模型和LightGBM模型預(yù)測(cè)誤差均有下降,說(shuō)明融合策略提高了預(yù)測(cè)精度。與RF、Lasso回歸、SVM相比,XGBoost-LightGBM組合模型的MAE值分別降低了7.050%、11.426%、9.034%,實(shí)現(xiàn)了更高精度的預(yù)測(cè)。

5 結(jié)論

為提高保險(xiǎn)理賠預(yù)測(cè)精度,本文提出一種基于多模型融合的XGBoost-LightGBM預(yù)測(cè)方法。使用并行的XGBoost、LightGBM模型,分別對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)并對(duì)結(jié)果進(jìn)行融合,通過(guò)平均MAPE-RW算法確定模型融合權(quán)重。針對(duì)XGBoost、LightGBM模型參數(shù)較多,調(diào)參復(fù)雜的問(wèn)題,本文使用Optuna框架分別對(duì)XGBoost、LightGBM模型進(jìn)行參數(shù)尋優(yōu),提高了單一模型的預(yù)測(cè)精度。

實(shí)驗(yàn)結(jié)果表明,與RF、Lasso回歸、SVM以及單一XGBoost、LightGBM模型相比,該組合模型在測(cè)試集上表現(xiàn)出了更高的預(yù)測(cè)精度。

參考文獻(xiàn)(References):

[1] 張健,馮建華.數(shù)據(jù)預(yù)處理在保險(xiǎn)理賠預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2005(9):2537-2539,2564

[2] 陳榮.基于支持向量回歸的旅游短期客流量預(yù)測(cè)模型研究[D].博士,合肥工業(yè)大學(xué),2014

[3] 夏曉圣,陳菁菁,王佳佳,等.基于隨機(jī)森林模型的中國(guó)PM_(2.5)濃度影響因素分析[J].環(huán)境科學(xué),2020,41(5):2057-2065

[4] 焦李成,楊淑媛,劉芳,等.神經(jīng)網(wǎng)絡(luò)七十年:回顧與展望[J].計(jì)算機(jī)學(xué)報(bào),2016,39(8):1697-1716

[5] 賈睿,楊國(guó)華,鄭豪豐,等.基于自適應(yīng)權(quán)重的CNN-LSTM&GRU組合風(fēng)電功率預(yù)測(cè)方法[J].中國(guó)電力,2022,55(5):47-56,110

[6] 王俊杰,畢利,張凱,等.基于多特征融合和XGBoost-LightGBM-ConvLSTM的短期光伏發(fā)電量預(yù)測(cè)[J].太陽(yáng)能學(xué)報(bào),2021:1-7

[7] 沈俊鑫,趙雪杉.基于Stacking多算法融合模型的數(shù)據(jù)資源定價(jià)方法研究[J].情報(bào)理論與實(shí)踐,2022:1-12

[8] Akiba T, Sano S, Yanase T, et al. Optuna: A next-generation hyperparameter optimization framework[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining,2019:2623-2631

[9] 莊家懿,楊國(guó)華,鄭豪豐,等.基于多模型融合的CNN-LSTM-XGBoost短期電力負(fù)荷預(yù)測(cè)方法[J].中國(guó)電力,2021,54(5):46-55

[10] Chen T, Guestrin C. Xgboost: A scalable tree boostingsystem[C]//Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining,2016:785-794

[11] Ogunleye A, Wang Q G. XGBoost model for chronickidney disease diagnosis[J]. IEEE/ACM transactions on computational biology and bioinformatics,2019,17(6):2131-2140

[12] Dhaliwal S S, Nahid A A, Abbas R. Effective intrusiondetection system using XGBoost[J]. Information,2018,9(7):149

[13] Ke G, Meng Q, Finley T, et al. Lightgbm: A highlyefficient gradient boosting decision tree[J]. Advances in neural information processing systems,2017,30

[14] 馬曉君,沙靖嵐,牛雪琪. 基于LightGBM算法的P2P項(xiàng)目信用評(píng)級(jí)模型的設(shè)計(jì)及應(yīng)用[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2018,35(5):144-160

海原县| 大连市| 正镶白旗| 泰安市| 新野县| 芦溪县| 巍山| 广河县| 沂南县| 麦盖提县| 安新县| 涿州市| 中方县| 上蔡县| 马边| 墨玉县| 荔波县| 南部县| 海口市| 汉中市| 二手房| 闻喜县| 云浮市| 体育| 洛浦县| 津市市| 大同市| 四川省| 福清市| 杭州市| 宣汉县| 湖口县| 来宾市| 龙南县| 富顺县| 文昌市| 南郑县| 库尔勒市| 永川市| 晋宁县| 古丈县|