摘? 要:車(chē)輛保險(xiǎn)的購(gòu)買(mǎi)意向預(yù)測(cè)是一個(gè)二分類(lèi)預(yù)測(cè)問(wèn)題,可分為有意向購(gòu)買(mǎi)和無(wú)意向購(gòu)買(mǎi),使用XGBoost算法和Logistic Regression算法對(duì)車(chē)輛保險(xiǎn)數(shù)據(jù)集進(jìn)行模型構(gòu)建和分類(lèi)預(yù)測(cè)。該研究首先對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,然后使用網(wǎng)格搜索法,采取五折交叉驗(yàn)證來(lái)對(duì)模型進(jìn)行超參數(shù)優(yōu)化并構(gòu)建預(yù)測(cè)模型,最后選擇ROC曲線(xiàn)和AUC值作為預(yù)測(cè)模型的評(píng)價(jià)指標(biāo)對(duì)模型的泛化能力進(jìn)行性能評(píng)估,結(jié)果表明XGBoost算法具有最好的預(yù)測(cè)效果。
關(guān)鍵詞:XGBoost算法;數(shù)據(jù)預(yù)處理;網(wǎng)格搜索;模型評(píng)估;ROC曲線(xiàn)
中圖分類(lèi)號(hào):TP391? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? 文章編號(hào):2096-4706(2023)06-0031-04
Research on Application of XGBoost Algorithm in Vehicle Insurance Purchase Prediction
WANG Chaoqiang
(School of Information Engineering, North China University of Water Resources and Electric Power, Zhengzhou? 450046, China)
Abstract: The purchase intention prediction of vehicle insurance is a binary prediction problem, which can be divided into intentional purchase and unintentional purchase. This paper uses the XGBoost algorithm and Logistic Regression algorithm to carry out model construction and classification prediction of the vehicle insurance data set. The research firstly performs data preprocessing on the original dataset. Then, the grid search method and five-fold cross-validation are used to optimize the hyperparameters of the model and construct a prediction model. Finally, the ROC curve and AUC value are selected as the evaluation indicators of the prediction model to evaluate the generalization ability of the model. The results show that the XGBoost algorithm has a very good prediction effect.
Keywords: XGBoost algorithm; data preprocessing; grid search; model evaluation; ROC curve
0? 引? 言
在如今新能源汽車(chē)快速發(fā)展的情況下,車(chē)輛保險(xiǎn)行業(yè)的機(jī)遇和挑戰(zhàn)也同時(shí)到來(lái),學(xué)術(shù)界的很多專(zhuān)家和學(xué)者也將機(jī)器學(xué)習(xí)方法應(yīng)用到了車(chē)輛保險(xiǎn)相關(guān)研究中。劉璐[1]等人依據(jù)影響車(chē)輛保險(xiǎn)需求的相關(guān)要素,運(yùn)用了多元線(xiàn)性回歸方法建立模型,為發(fā)掘車(chē)輛保險(xiǎn)市場(chǎng)的需求潛力提出了有關(guān)建議。朱南軍[2]等人在車(chē)輛保險(xiǎn)的營(yíng)銷(xiāo)中心信息不對(duì)稱(chēng)問(wèn)題上,運(yùn)用了兩種不同參數(shù)檢驗(yàn)方法,不相關(guān)概率單位回歸模型,進(jìn)行信息不對(duì)稱(chēng)檢驗(yàn),為探索減少車(chē)輛保險(xiǎn)信息的不對(duì)稱(chēng)提供了新的思路。郭念國(guó)[3]在車(chē)輛保險(xiǎn)領(lǐng)域,索賠風(fēng)險(xiǎn)分類(lèi)問(wèn)題上運(yùn)用了樸素貝葉斯算法,并在該問(wèn)題上與常用的廣義線(xiàn)性模型進(jìn)行了比較分析,結(jié)果表明了樸素貝葉斯算法在該問(wèn)題上的可行性。Cheng[4]等人在汽車(chē)保險(xiǎn)直銷(xiāo)市場(chǎng)的機(jī)器學(xué)習(xí)應(yīng)用中,使用樸素貝葉斯、決策樹(shù)和神經(jīng)網(wǎng)絡(luò)方法建立了精度較高的預(yù)測(cè)模型,為保險(xiǎn)業(yè)定位車(chē)輛保險(xiǎn)市場(chǎng)的潛在客戶(hù)提供了有用信息。
該研究通過(guò)對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,調(diào)整模型超參數(shù)來(lái)構(gòu)建XGBoost預(yù)測(cè)模型,并對(duì)模型的進(jìn)行泛化能力進(jìn)行評(píng)估,最終得到一個(gè)分類(lèi)預(yù)測(cè)能力很好的XGBoost預(yù)測(cè)模型,可以協(xié)助車(chē)險(xiǎn)行業(yè)在購(gòu)買(mǎi)預(yù)測(cè)方向的研究,具有十分重要的研究意義。
1? 理論基礎(chǔ)
1.1? XGBoost算法
XGBoost算法是一種boosting算法,相較于傳統(tǒng)的GBDT算法,XGBoost算法可以并行化處理,效率比GBDT高,效果也比GBDT好[5]。它是由k個(gè)基模型組成的一個(gè)加法運(yùn)算式:
(1)
其中fk為第k個(gè)基模型, 為第i個(gè)樣本的預(yù)測(cè)值。為了防止過(guò)擬合,單個(gè)基模型的正則項(xiàng)是:
(2)
其中T代表樹(shù)的葉節(jié)點(diǎn),X落到了某個(gè)葉節(jié)點(diǎn)上的輸出值是ω,γ和λ是非負(fù)系數(shù),ωj是第j個(gè)節(jié)點(diǎn)的輸出值。由此XGBoost損失函數(shù)定義為:
(3)
利用泰勒二階展開(kāi)式得到損失函數(shù)的極小值,然后,采用精確或近似方法貪心搜索出得分最高的切分點(diǎn),進(jìn)行下一步切分并擴(kuò)展葉節(jié)點(diǎn)[6]。
1.2? Logistic Regression算法
Logistic Regression模型中的因變量只有1-0(如“是”和“否”“發(fā)生”和“不發(fā)生”)兩種取值[7]。假設(shè)在p個(gè)獨(dú)立自變量x1, x2,…, xp的作用下,記y取1的概率是p=
P(y=1|x),取0的概率是1-p,取1和取0的概率之比為 ,成為事件的優(yōu)勢(shì)比(odds),對(duì)odds取自然對(duì)數(shù)即得Logistic變換 。
令 ,則 ,即為L(zhǎng)ogistic函數(shù),最后用邏輯函數(shù)把線(xiàn)性回歸的結(jié)果從(-∞,∞)映射到(0,1)。
2? 實(shí)驗(yàn)分析
2.1? 數(shù)據(jù)背景
數(shù)據(jù)集來(lái)自數(shù)據(jù)科學(xué)競(jìng)賽網(wǎng)站https://www.kaggle.com,共有381 109條數(shù)據(jù)記錄,包含十二個(gè)特征字段,該研究將所有字段都定義為變量,其中Response字段為因變量,其余字段為自變量,各個(gè)字段變量的含義如表1所示。
2.2? 數(shù)據(jù)預(yù)處理
數(shù)據(jù)集中的海量原始數(shù)據(jù)存在大量缺失值、數(shù)據(jù)類(lèi)型不一致、冗余值、異常值等,不進(jìn)行處理則會(huì)影響模型的學(xué)習(xí)效果。另外,在用各種模型算法時(shí)也要牢記監(jiān)督學(xué)習(xí)的假設(shè),即正負(fù)樣本要平衡且訓(xùn)練集和測(cè)試集樣本是獨(dú)立同分布的。而且,在模型訓(xùn)練時(shí),數(shù)據(jù)規(guī)范化的操作可以讓梯度下降算法收斂得更快,也就是更快地找到最優(yōu)超參數(shù)。
該研究將根據(jù)車(chē)險(xiǎn)數(shù)據(jù)集的實(shí)際情況對(duì)數(shù)據(jù)集的數(shù)據(jù)預(yù)處理為異常值的檢測(cè)和處理、數(shù)據(jù)類(lèi)型轉(zhuǎn)換、數(shù)據(jù)不平衡處理和數(shù)據(jù)規(guī)范化。
2.2.1? 異常值處理
異常值又稱(chēng)離群點(diǎn),即數(shù)據(jù)集中存在的明顯偏離了其他值的值,箱型圖檢測(cè)法作為常用的異常值檢測(cè)方法可以很直觀地將異常值表現(xiàn)出來(lái),箱型圖有六個(gè)數(shù)據(jù)節(jié)點(diǎn),分別是上四分位數(shù)(Q1)、中位數(shù)(Q2)、下四分位數(shù)(Q3)、四分位距(IQR,IQR=Q3-Q1)、上限(最大值區(qū)域:Q3+1.5IQR)、下限(最小值區(qū)域:Q1-1.5IQR)、異常值(即被定義為小于Q1-1.5IQR或大于Q3+1.5IQR),該研究使用箱型圖檢測(cè)法,利用異常值的定義來(lái)編輯代碼篩選出異常值,因原始數(shù)據(jù)集中的異常值占比較少,所以直接將異常值數(shù)據(jù)刪除,如圖1所示。
2.2.2? 數(shù)據(jù)類(lèi)型轉(zhuǎn)換
原始數(shù)據(jù)集中的Gender、Vehicle_Age和Vehicle_Damage均屬于字符型特征的數(shù)據(jù),這對(duì)于多數(shù)機(jī)器學(xué)習(xí)算法來(lái)說(shuō)并不能直接作為輸入進(jìn)行模型訓(xùn)練,必須把字符型特征轉(zhuǎn)換為數(shù)值型的數(shù)據(jù)才能正常工作。數(shù)據(jù)集中的ID列僅代表客戶(hù)的唯一標(biāo)識(shí),在實(shí)際建模時(shí)無(wú)用,故將ID列作刪除處理;利用序號(hào)編碼的方法將Gender列中的“Male”和“Female”替換為0和1,Vehicle_Age列中“< 1 Year”,“1-2 Year”以及“> 2 Year”替換為0、1和2,Vehicle_Damage列中的“Yes”和“No”替換為0和1;將Region_Code列和Policy Sales Channel列中的數(shù)據(jù)由浮點(diǎn)型轉(zhuǎn)換為整型。
2.2.3? 數(shù)據(jù)不平衡處理
該研究的數(shù)據(jù)集中的Response標(biāo)簽列感興趣和不感興趣的比例約為1:7,屬于極度不平衡的數(shù)據(jù),而主流的分類(lèi)算法都是基于數(shù)據(jù)平衡的,因此必須對(duì)數(shù)據(jù)進(jìn)行不平衡處理。不平衡數(shù)據(jù)主要有三種處理方法,分別為欠采樣、過(guò)采樣、混合采樣[8]。該研究采用混合采樣進(jìn)行數(shù)據(jù)不平衡處理,如圖2所示。
2.2.4? 數(shù)據(jù)規(guī)范化
對(duì)數(shù)值類(lèi)型的數(shù)據(jù)進(jìn)行歸一化處理之后,便可以將所有的輸入特征縮放到一個(gè)大致的數(shù)值區(qū)間之內(nèi),使得不同列不同范圍的數(shù)據(jù)之間具有可比性。數(shù)據(jù)歸一化的常用方法有兩種,分別是線(xiàn)性函數(shù)歸一化和零均值歸一化方法。線(xiàn)性歸一化是通過(guò)線(xiàn)性函數(shù)對(duì)原始數(shù)據(jù)進(jìn)行線(xiàn)性變換,將變換后的結(jié)果映射到[0,1]區(qū)間內(nèi),實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的特征縮放,線(xiàn)性函數(shù)歸一化的函數(shù)公式為:
(4)
零均值歸一化將數(shù)據(jù)集中的各列數(shù)據(jù)映射到一個(gè)均值為0、標(biāo)準(zhǔn)差為1的分布上,即假設(shè)某列特征的均值為μ、標(biāo)準(zhǔn)差為σ,則可得出零均值歸一化公式:
(5)
該研究采用線(xiàn)性函數(shù)歸一化方法將不同字段特征的數(shù)據(jù)進(jìn)行歸一化處理。
2.3? XGBoost預(yù)測(cè)模型的構(gòu)建和評(píng)估
本研究在JupyterLab實(shí)驗(yàn)平臺(tái)利用Python中的機(jī)器學(xué)習(xí)模塊包sklearn中的XGBoost算法和Logistic Regression算法進(jìn)行車(chē)輛保險(xiǎn)購(gòu)買(mǎi)意向預(yù)測(cè)模型的構(gòu)建。通過(guò)網(wǎng)格搜索法對(duì)超參數(shù)使用五折交叉驗(yàn)證進(jìn)行超參數(shù)的優(yōu)化,選擇一組在訓(xùn)練集上得分最高的超參數(shù)值對(duì)XGBoost算法和Logistic Regression算法的預(yù)測(cè)模型進(jìn)行構(gòu)建。在預(yù)測(cè)模型構(gòu)建完成之后選擇模型評(píng)價(jià)指標(biāo)對(duì)XGBoost算法和Logistic Regression算法預(yù)測(cè)模型的泛化能力進(jìn)行評(píng)估。XGBoost模型的混淆矩陣如表3所示。
準(zhǔn)確率如式(6)所示:
(6)
其中,TP表示預(yù)測(cè)為1,預(yù)測(cè)正確,即實(shí)際也為1;TN表示預(yù)測(cè)為0,預(yù)測(cè)正確,即實(shí)際也為0;FP表示預(yù)測(cè)為1,預(yù)測(cè)錯(cuò)誤,即實(shí)際是0;FN表示預(yù)測(cè)為0且預(yù)測(cè)錯(cuò)誤,即實(shí)際是1。由式(6)可得XGBoost模型的準(zhǔn)確率為88.27%。
如表4所示是Logistic Regression模型的混淆矩陣,而在該研究中使用Logistic Regression算法進(jìn)行建模得到的預(yù)測(cè)模型的準(zhǔn)確率為77.19%,表明XGBoost算法模型具有很好的分類(lèi)預(yù)測(cè)能力。
該研究的原始數(shù)據(jù)集正負(fù)樣本的比例約為7:1,屬于極度不平衡的樣本,故引入不受樣本數(shù)據(jù)不平衡影響的ROC曲線(xiàn)(受試者工作特性曲線(xiàn))和AUC值(ROC曲線(xiàn)下的面積)評(píng)價(jià)指標(biāo)更直觀地體現(xiàn)預(yù)測(cè)模型的性能度量[9]。
ROC曲線(xiàn)的橫坐標(biāo)是假陽(yáng)性率(FPR),即:
(7)
縱坐標(biāo)叫真陽(yáng)性率(TPR),即:
(8)
如圖3所示,可以明顯地看出算法預(yù)測(cè)模型的ROC曲線(xiàn)十分靠近左上角,Logistic Regression模型的ROC曲線(xiàn)則在XGBoost模型的ROC曲線(xiàn)的下方,ROC曲線(xiàn)越靠近左上角越說(shuō)明模型的泛化能力越好,XGBoost模型的AUC值為0.953 6,而Logistic Regression模型的AUC值為0.845 0,表明XGBoost算法預(yù)測(cè)模型具有非常好的泛化能力。
如表5所示,通過(guò)XGBoost算法預(yù)測(cè)模型和Logistic Regression算法預(yù)測(cè)模型的對(duì)比研究發(fā)現(xiàn),XGBoost算法預(yù)測(cè)模型在準(zhǔn)確率、ROC曲線(xiàn)、AUC值等模型評(píng)估指標(biāo)均高于Logistic Regression算法預(yù)測(cè)模型,該實(shí)驗(yàn)結(jié)果表明XGBoost算法預(yù)測(cè)模型的二分類(lèi)預(yù)測(cè)效果比Logistic Regression算法預(yù)測(cè)模型的二分類(lèi)預(yù)測(cè)效果要好得多。
3? 結(jié)? 論
機(jī)器學(xué)習(xí)中的XGBoost算法在各個(gè)數(shù)據(jù)競(jìng)賽平臺(tái)都有不俗的表現(xiàn),而近年來(lái)關(guān)于如何將該算法更好地應(yīng)用于車(chē)輛保險(xiǎn)行業(yè),也是學(xué)界和業(yè)界的研究熱點(diǎn),該研究將XGBoost算法創(chuàng)新性地應(yīng)用到車(chē)輛保險(xiǎn)購(gòu)買(mǎi)意向的預(yù)測(cè)中,對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)變換、數(shù)據(jù)規(guī)范化和數(shù)據(jù)不平衡處理,利用網(wǎng)格搜索法調(diào)整模型超參數(shù),進(jìn)而構(gòu)造出預(yù)測(cè)模型,XGBoost模型準(zhǔn)確率為88.27%,表明該模型具有非常好的分類(lèi)預(yù)測(cè)效果,AUC值為0.953 6,而相比其他模型XGBoost模型具有更強(qiáng)的模型泛化能力。因此,XGBoost算法在車(chē)輛保險(xiǎn)購(gòu)買(mǎi)預(yù)測(cè)領(lǐng)域的應(yīng)用研究中具有很高的研究?jī)r(jià)值。
參考文獻(xiàn):
[1] 劉璐,張博江.我國(guó)機(jī)動(dòng)車(chē)輛保險(xiǎn)市場(chǎng)發(fā)展的需求拉動(dòng)因素研究 [J].保險(xiǎn)研究,2012(8):83-88.
[2] 朱南軍,王敬瑜.我國(guó)車(chē)輛保險(xiǎn)市場(chǎng)信息不對(duì)稱(chēng)問(wèn)題分析 [J].保險(xiǎn)研究,2016(9):16-27.
[3] 郭念國(guó).樸素貝葉斯算法與車(chē)輛風(fēng)險(xiǎn)分類(lèi) [J].河南城建學(xué)院學(xué)報(bào),2020,29(3):87-92.
[4] CHENG X T. Machine Learning Application in Car Insurance Direct Marketing [J].International Journal of Data Science and Advanced Analytics,2020,2(2):18-25.
[5] LIANG W Z,LUO S-Z,ZHAO G Y,et al. Predicting Hard Rock Pillar Stability Using GBDT,XGBoost,and LightGBM Algorithms [J].Mathematics,2020,8(5):765.
[6] PESANTEZ-NARVAEZ J,GUILLEN M,ALCA?IZ M. Predicting Motor Insurance Claims Using Telematics Data—XGBoost versus Logistic Regression [J].Risks,2019,7(2):70.
[7] 宋玉萍,朱家明,張雅嫻,等.基于Logistic回歸對(duì)影響汽車(chē)保險(xiǎn)續(xù)保因素的分析 [J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào),2020,36(4):16-23.
[8] HANAFY M,MING R X. Improving Imbalanced Data Classification in Auto Insurance by the Data Level Approaches [J].International Journal of Advanced Computer Science and Applications,2021,12(6):493-499.
[9] CARRINGTON A M,MANUEL D G,F(xiàn)IEGUTH P W,et al. Deep ROC Analysis and AUC as Balanced Average Accuracy to Improve Model Selection,Understanding and Interpretation [J/OL].arXiv:2103.11357 [stat.ME].(2021-03-21).https://arxiv.org/abs/2103.11357.
作者簡(jiǎn)介:王超強(qiáng)(1995—),男,漢族,河南周口人,碩士研究生在讀,研究方向:大數(shù)據(jù)與云計(jì)算。
收稿日期:2022-11-01