多元有序Logistic模型在車(chē)險(xiǎn)索賠次數(shù)預(yù)測(cè)中的應(yīng)用

2022-01-18 07:02李浩男

保險(xiǎn)職業(yè)學(xué)院學(xué)報(bào) 2021年6期

李浩男

（南開(kāi)大學(xué)金融學(xué)院，天津300350）

一、引言

車(chē)險(xiǎn)定價(jià)一直以來(lái)都是研究的熱點(diǎn)，2020年9月19日啟動(dòng)的商業(yè)車(chē)險(xiǎn)綜合改革，對(duì)車(chē)險(xiǎn)定價(jià)的精確性和合理性提出更高的要求，是我國(guó)車(chē)險(xiǎn)高質(zhì)量發(fā)展的重要契機(jī)。廣義線性模型作為車(chē)險(xiǎn)索賠的建模分析重要手段之一，自1972年Nelder J A和Wedderburn R 首次給出定義以來(lái)，學(xué)術(shù)界不斷為該方法增加新元素，例如Anderson等（2004）［1］對(duì)指數(shù)分布族的深入討論；同時(shí)國(guó)內(nèi)外相關(guān)的著作也越來(lái)越豐富，如Frees（2010）［2］、孟生旺等（2015）［3］。

由于免賠額與無(wú)賠款優(yōu)待等條款的存在，實(shí)務(wù)中車(chē)險(xiǎn)索賠數(shù)據(jù)存在大量的零次索賠，傳統(tǒng)的廣義線性模型無(wú)法解決索賠數(shù)據(jù)零膨脹、過(guò)離散以及異質(zhì)性的特征。此時(shí)，解決零膨脹的一個(gè)有效的方法是將模型分為零點(diǎn)概率和計(jì)數(shù)分布兩個(gè)部分，即（a，b，1）型的零膨脹模型。Yip 和Yau（2005）［4］首次使用零膨脹模型分析了車(chē)險(xiǎn)索賠次數(shù)，分別討論了泊松分布與負(fù)二項(xiàng)分布下的零膨脹模型。為了提升擬合結(jié)果，進(jìn)一步完善零膨脹模型一直是研究熱點(diǎn)。孟生旺和楊亮（2015）［5］基于傳統(tǒng)零膨脹模型增加了隨機(jī)效應(yīng)，以此分析索賠數(shù)據(jù)組內(nèi)的相依性。張連增和王締（2019）［6］對(duì)比零膨脹模型與Hurdle 模型，實(shí)證結(jié)果顯示零膨脹負(fù)二項(xiàng)模型更好。徐昕（2020）［7］探討了零膨脹廣義泊松模型的推廣形式，并給出了模型和參數(shù)估計(jì)方法。

為了進(jìn)一步解決零膨脹特征導(dǎo)致的過(guò)離散和異質(zhì)性問(wèn)題，在零膨脹模型的基礎(chǔ)上提出了混合泊松模型（Mixed Poisson， MP）。 Joe 和Zhu（2005）［8］、Nikoloulopoulos和Karlis（2008）［9］先后對(duì)比了不同的混合泊松模型，分析了索賠頻率數(shù)據(jù)的零膨脹、過(guò)離散以及厚尾特征。王選鶴等（2018）［10］研究了零膨脹混合泊松的有限混合模型，實(shí)證結(jié)果表明該模型有助于改進(jìn)對(duì)索賠次數(shù)的估計(jì)結(jié)果；殷崔紅等（2019）［11］討論了開(kāi)放式的混合泊松模型，提升了模型的自適應(yīng)性。

綜合已有研究可以發(fā)現(xiàn)，學(xué)者們大多使用混合泊松或零膨脹泊松來(lái)研究索賠次數(shù)，在一定程度上可以解決零膨脹、過(guò)離散和尾部概率的問(wèn)題。但是在應(yīng)用層面，此類(lèi)模型計(jì)算復(fù)雜、模型求解比較困難，同時(shí)參數(shù)難以直觀解釋?zhuān)涣硪环矫?，確定混合泊松模型的混合個(gè)數(shù)時(shí)仍包含較大的主觀性。索賠次數(shù)的零膨脹問(wèn)題可以視為（a，b，0）型計(jì)數(shù)模型的“后遺癥”，因?yàn)椴煌螖?shù)之間的發(fā)生概率需滿足遞推關(guān)系（Panjer，1981）［12］，使用極大似然估計(jì)方法會(huì)受到該遞推關(guān)系的影響。大量零次索賠的存在將迫使模型給予零點(diǎn)概率過(guò)高的權(quán)重，從而“拉偏”了對(duì)尾部風(fēng)險(xiǎn)的估計(jì)，導(dǎo)致模型結(jié)果并不理想。

為了避免計(jì)數(shù)分布遞推關(guān)系對(duì)模型的影響，已有學(xué)者使用二元Logistic 回歸研究車(chē)險(xiǎn)索賠次數(shù)（張連增和孫維偉，2012；Duan等，2018）［13，14］，但是這些討論僅限于是否發(fā)生索賠，只使用了索賠次數(shù)中的部分信息。本文將索賠次數(shù)視為有序分類(lèi)變量，引入多元有序Logistic 回歸模型（Ordered Lo?gistic Regression，OLR），該模型作為L(zhǎng)ogistic模型的一個(gè)重要分類(lèi)，其較多應(yīng)用于醫(yī)學(xué)分析中，如Kanbayashi 等（2018）［15］利用OLR 模型探究了不同程度膽堿能綜合征的發(fā)病因素。在保險(xiǎn)領(lǐng)域，劉威和劉昌平（2018）［16］使用該模型分析了社保對(duì)農(nóng)村老年人健康狀況的影響，討論了模型異質(zhì)性。

本文采用OLR 模型分析索賠頻率數(shù)據(jù)。首先，參考Agresti（2003）［17］對(duì)OLR 連接函數(shù)的討論，選擇了3種不同的連接函數(shù)建立OLR模型；其次，基于OLR模型的概率意義，定義了相對(duì)風(fēng)險(xiǎn)系數(shù)，以分析風(fēng)險(xiǎn)因素變動(dòng)引起的索賠概率的相對(duì)變化；最后，利用一組車(chē)險(xiǎn)索賠數(shù)據(jù)，實(shí)證分析的結(jié)果驗(yàn)證了該方法在車(chē)險(xiǎn)索賠領(lǐng)域的實(shí)用價(jià)值。OLR模型相較于已有方法在模型構(gòu)建、參數(shù)估計(jì)、結(jié)果分析上都更為容易。

二、模型構(gòu)建與評(píng)價(jià)

傳統(tǒng)的（a，b，0）型計(jì)數(shù)分布必須滿足式（1）（Panjer，1981）［12］：

上式中只有a、b兩個(gè)參數(shù)，3 個(gè)概率值構(gòu)成的兩個(gè)方程即可完全確定分布。使用傳統(tǒng)分布估計(jì)時(shí)，當(dāng)索賠次數(shù)超過(guò)3 次以后，索賠次數(shù)估計(jì)值會(huì)出現(xiàn)較大偏差（薛智雯，2018）［18］。即使是將零點(diǎn)概率單獨(dú)剝離出來(lái)的零膨脹模型，也仍然沒(méi)有擺脫這種遞推關(guān)系，模型估計(jì)的靈活性同樣受到限制。零膨脹混合泊松模型通過(guò)多個(gè)分布的混合擴(kuò)展了參數(shù)的個(gè)數(shù)，提升了模型估計(jì)的準(zhǔn)確性，但是一方面，混合模型降低了參數(shù)的可解釋性，另一方面，混合個(gè)數(shù)的確定包含了過(guò)多的主觀性。

為了避免計(jì)數(shù)分布遞推關(guān)系的影響，本文將索賠次數(shù)作為分類(lèi)變量，應(yīng)用多元有序Logistic 回歸模型，該模型可拓展性較強(qiáng)，并且結(jié)果具有概率意義，解釋力更強(qiáng)。索賠次數(shù)的高低可以反映駕駛員風(fēng)險(xiǎn)等級(jí)的排序，所以將索賠次數(shù)視作分類(lèi)變量在實(shí)際意義上是合理的。

（一）模型構(gòu)建

OLR 模型作為廣義線性模型的一個(gè)重要分支，其連接函數(shù)是累積概率的轉(zhuǎn)換形式。本文實(shí)證結(jié)果表明，不同的連接函數(shù)對(duì)模型的預(yù)測(cè)結(jié)果影響很小，故選擇更為平滑的Logit 連接函數(shù)，構(gòu)建的OLR模型如下：

其中pi= Pr(Y=i|X)是索賠次數(shù)為i次的概率，K為索賠次數(shù)最大值。根據(jù)式（2），可以推出索賠k次的概率pk，即：

同時(shí)考慮概率的規(guī)范性約束：

Mccullagh（1980）［19］證明了當(dāng)樣本數(shù)n足夠大時(shí)，極大似然法得到的有序模型是唯一確定的。將模型參數(shù)的估計(jì)值代入式（3）和（4），可以計(jì)算出不同索賠次數(shù)的發(fā)生概率。

Logistic模型的結(jié)果具有概率意義，駕駛員或車(chē)輛信息發(fā)生變化時(shí)，將引起索賠概率的變動(dòng)，從而影響預(yù)期索賠頻率。定義相對(duì)風(fēng)險(xiǎn)系數(shù)I來(lái)分析解釋變量變動(dòng)對(duì)預(yù)期索賠頻率的影響，計(jì)算公式為：

其中xb為解釋變量的基礎(chǔ)類(lèi)別。

（二）模型評(píng)價(jià)

為了客觀評(píng)價(jià)OLR 模型的預(yù)測(cè)能力，將OLR模型與泊松模型（Poisson）、零膨脹泊松模型（ZIP）和零膨脹負(fù)二項(xiàng)模型（ZINB）相比較，選用相同的解釋變量訓(xùn)練模型。由于這些模型之間不存在嵌套關(guān)系，赤池信息準(zhǔn)則（AIC）、貝葉斯信息準(zhǔn)則（BIC）和偏差（Deviance）等模型評(píng)價(jià)指標(biāo)并不能客觀地反映模型的優(yōu)劣（Kuha，2004）［20］。另一方面，由于數(shù)據(jù)集本身的“零膨脹”特點(diǎn)，如果按照最小化貝葉斯誤差來(lái)確定分類(lèi)，那么所有駕駛員的索賠次數(shù)都將被預(yù)測(cè)為0次，所以比較預(yù)測(cè)的準(zhǔn)確率也沒(méi)有任何實(shí)際意義。

一個(gè)保險(xiǎn)合同組中不同索賠次數(shù)的情況往往更值得關(guān)注，參考殷崔紅等（2019）［11］使用的模型比較方法，本文選擇卡方檢驗(yàn)來(lái)評(píng)價(jià)模型對(duì)合同組的預(yù)測(cè)能力，卡方統(tǒng)計(jì)量定義為：

上式中，Oi為實(shí)際觀測(cè)到索賠i次的樣本數(shù)，Ei為索賠i次樣本數(shù)的預(yù)測(cè)值。

三、實(shí)證分析

本文以國(guó)內(nèi)2017年某車(chē)險(xiǎn)數(shù)據(jù)為分析樣本，包含172254 條有效數(shù)據(jù)①。原數(shù)據(jù)中包含索賠次數(shù)和17個(gè)解釋變量，本文從泊松回歸模型出發(fā)，根據(jù)AIC 準(zhǔn)則，使用向前向后逐步回歸，確定最終模型包含8 個(gè)解釋變量，如表1。在使用OLR 模型時(shí)，本文將被解釋變量索賠次數(shù)視為分類(lèi)變量。

表1 變量符號(hào)及說(shuō)明

連續(xù)變量描述統(tǒng)計(jì)如表2，分類(lèi)變量頻數(shù)統(tǒng)計(jì)如表3。

表2 連續(xù)變量描述統(tǒng)計(jì)

表3 分類(lèi)變量頻數(shù)統(tǒng)計(jì)

數(shù)據(jù)集中零次索賠的占比約為94.8%，索賠次數(shù)有明顯的“零膨脹”特征。為了保證數(shù)據(jù)結(jié)構(gòu)的一致性，本文根據(jù)索賠次數(shù)隨機(jī)分層抽樣，將樣本數(shù)據(jù)分為訓(xùn)練集（70%，樣本數(shù)為120578）和測(cè)試集（30%，樣本數(shù)為51676）。

（一）模型估計(jì)

為了對(duì)比OLR 模型與泊松模型、ZIP 模型和ZINB模型的差異，所有模型使用相同的解釋變量，差異僅為索賠次數(shù)的變量類(lèi)型。本文將分類(lèi)變量中頻數(shù)最多的分類(lèi)視為基礎(chǔ)類(lèi)別，使用R軟件得到OLR模型極大似然估計(jì)結(jié)果，如表4。

表4 極大似然估計(jì)結(jié)果（連接函數(shù)為L(zhǎng)ogit）

CarKindOthers Age CarAge NonDeductible0 LYClaim1截距項(xiàng)0|1 1|2 2|3 3|4 4|5-10.0339 0.0056 0.0439-0.5588 0.2290 3.1003 5.7936 8.7370 10.5142 11.3963 0.0000 0.0031 0.0096 0.0393 0.0836 0.1273 0.1442 0.3303 0.7531 1.1610-4.68E+07 1.8084 4.5935-14.2190 2.7396 24.3522 40.1710 26.4488 13.9606 9.8159 0.0000 0.0706 0.0000 0.0000 0.0062 0.0000 0.0000 0.0000 0.0000 0.0000解釋變量Estimate 標(biāo)準(zhǔn)誤 t統(tǒng)計(jì)量P值

使用似然比檢驗(yàn)對(duì)整個(gè)模型進(jìn)行檢驗(yàn)，p值顯著小于0.05，模型整體有意義，如表5。

表5 模型整體檢驗(yàn)（原假設(shè)為模型僅包含截距項(xiàng)）

（二）模型評(píng)價(jià)

參考Agresti（2003）［17］對(duì)連接函數(shù)的討論，本文分別選擇Logit、Probit 和負(fù)雙對(duì)數(shù)（Nloglog）三種連接函數(shù)建立OLR 模型，并與Poisson、ZIP 和ZINB模型相比較，索賠次數(shù)預(yù)測(cè)結(jié)果如表6。

表6 測(cè)試集索賠次數(shù)預(yù)測(cè)結(jié)果比較

由表6可以發(fā)現(xiàn)，泊松模型完全未考慮數(shù)據(jù)中的零膨脹、過(guò)離散和異質(zhì)性，其卡方值為863.19，顯著高于其他5個(gè)模型，尾部概率的估計(jì)明顯偏離實(shí)際值。ZIP 和ZINB 的卡方值非常接近，一定程度上解決了零膨脹問(wèn)題，但是當(dāng)索賠次數(shù)超過(guò)3 次后，預(yù)測(cè)效果明顯降低。OLR模型的卡方值最小，并且對(duì)尾部風(fēng)險(xiǎn)的預(yù)測(cè)效果更好。其中，以Probit為連接函數(shù)的OLR 模型預(yù)測(cè)結(jié)果最優(yōu)，但是三個(gè)OLR 模型的卡方值屬于同一個(gè)量級(jí)，差異可能來(lái)源于隨機(jī)性，所以無(wú)法在統(tǒng)計(jì)意義上確定哪一種連接函數(shù)的OLR模型更好。

估計(jì)索賠頻率是車(chē)險(xiǎn)精算建模的重要工作，因?yàn)閺V義線性模型的分析基于被解釋變量的均值（王選鶴等，2018）［10］，所以不同模型對(duì)索賠頻率的估計(jì)差異較小，如下表。

表7 測(cè)試集索賠頻率估計(jì)及誤差

OLR 模型整體上優(yōu)于泊松模型和零膨脹模型，以Probit 為連接函數(shù)的OLR模型的誤差最小，僅為0.002583。

（三）模型應(yīng)用

不同連接函數(shù)的OLR 模型差異較小，本文選擇更平滑且更常用的Logit 作為連接函數(shù)，進(jìn)行下一步分析。按照OLR 模型的思路，分析某一變量對(duì)于不同索賠次數(shù)發(fā)生概率的影響，本文以車(chē)型（CarKind）為例，討論不同車(chē)型索賠概率的差異。

固定其他條件不變，設(shè)定連續(xù)變量取值為平均值，分類(lèi)變量取值為基礎(chǔ)類(lèi)別，計(jì)算不同車(chē)型的索賠概率，結(jié)果如圖1。樣本數(shù)據(jù)中，車(chē)型為Others的索賠次數(shù)全為0，所以圖1中Others類(lèi)別的車(chē)型0次索賠概率接近1，其他次數(shù)索賠幾乎為0。

圖1 不同車(chē)型索賠概率對(duì)比

由于Others 樣本數(shù)僅為96，考慮到統(tǒng)計(jì)顯著性，主要分析其他三種車(chē)型相對(duì)風(fēng)險(xiǎn)關(guān)系。在3種車(chē)型中Type2索賠的概率最高，而Type3發(fā)生索賠的概率最低。另外，索賠1-5 次的圖形具有極高的相關(guān)性，在發(fā)生索賠的條件下，不同車(chē)型的相對(duì)風(fēng)險(xiǎn)關(guān)系是穩(wěn)定的，也就是說(shuō)索賠次數(shù)的大小，并沒(méi)有影響解釋變量與被解釋變量之間的相關(guān)關(guān)系。使用相對(duì)風(fēng)險(xiǎn)系數(shù)I來(lái)評(píng)估不同車(chē)型對(duì)索賠頻率的影響，結(jié)果如表8。

表8 不同車(chē)型相對(duì)風(fēng)險(xiǎn)系數(shù)

就這3 種車(chē)型而言，Type3 的相對(duì)風(fēng)險(xiǎn)系數(shù)為T(mén)ype2 的0.7745 倍。如果僅考慮這一樣本集的經(jīng)驗(yàn)數(shù)據(jù)，在其他條件一樣的情況下，Type3 車(chē)型保單的純保費(fèi)應(yīng)為T(mén)ype2的0.7745倍。類(lèi)似地，可以根據(jù)不同投保人的特征計(jì)算對(duì)應(yīng)的相對(duì)風(fēng)險(xiǎn)系數(shù)，為差異化定價(jià)提供參考。

四、小結(jié)

為解決車(chē)險(xiǎn)索賠次數(shù)建模面臨的零膨脹等一系列問(wèn)題，本文選擇了多元有序Logistic 回歸模型，分別使用Logit、Probit和Nloglog三種連接函數(shù)建立OLR 模型，并與泊松模型、ZIP 模型和ZINB模型相比較。OLR模型解決了部分“零膨脹”帶來(lái)的問(wèn)題，該模型顯著優(yōu)于現(xiàn)有的泊松模型、ZIP 模型和ZINB模型，以Probit作為連接函數(shù)的OLR模型卡方值最小。特別是，OLR 模型克服了傳統(tǒng)計(jì)數(shù)分布的限制，參數(shù)估計(jì)更靈活，對(duì)尾部概率的預(yù)測(cè)也更準(zhǔn)確。但是不同連接函數(shù)的OLR模型的預(yù)測(cè)能力相近，卡方值的差異可能來(lái)源于隨機(jī)因素，所以無(wú)法從統(tǒng)計(jì)意義上確定使用哪種連接函數(shù)的OLR模型更適合分析車(chē)險(xiǎn)索賠次數(shù)。

在保險(xiǎn)實(shí)務(wù)中，不同風(fēng)險(xiǎn)因素對(duì)索賠概率的影響是關(guān)注的重點(diǎn)，而模型的預(yù)測(cè)能力與解釋性呈反比關(guān)系，現(xiàn)有的混合泊松模型已經(jīng)開(kāi)始面臨參數(shù)解釋性差的難題，復(fù)雜的混合分布讓風(fēng)險(xiǎn)來(lái)源更加難以識(shí)別。OLR 模型不僅具有很好的預(yù)測(cè)能力，并且結(jié)果具有概率意義，所以較好的解釋力是其與生俱來(lái)的優(yōu)勢(shì)。在解決“零膨脹”問(wèn)題的基礎(chǔ)上，OLR模型可以分析不同風(fēng)險(xiǎn)因素變動(dòng)對(duì)索賠概率的影響。例如，本文對(duì)車(chē)型（CarKind）的分析，不同車(chē)型的相對(duì)風(fēng)險(xiǎn)系數(shù)可以作為車(chē)險(xiǎn)定價(jià)的參考。另外，在模型應(yīng)用過(guò)程中，當(dāng)研究不同索賠次數(shù)的發(fā)生概率時(shí)，解釋變量與索賠次數(shù)之間的相關(guān)關(guān)系是不變的。

上述結(jié)論證明OLR模型可以合理應(yīng)用于承保核保等一系列環(huán)節(jié)，能幫助險(xiǎn)企綜合考慮人、車(chē)等多個(gè)因素，以實(shí)現(xiàn)風(fēng)險(xiǎn)識(shí)別，選擇目標(biāo)客戶群體。

［注釋?zhuān)?/p>

①本文的數(shù)據(jù)來(lái)自國(guó)內(nèi)某財(cái)產(chǎn)保險(xiǎn)公司2017年的機(jī)動(dòng)車(chē)輛保險(xiǎn)業(yè)務(wù)，車(chē)輛類(lèi)型為貨車(chē)。原數(shù)據(jù)共有173335 條保單數(shù)據(jù)，剔除了“賠付金額”為負(fù)的8 條數(shù)據(jù)和“NCD 滿期基準(zhǔn)保費(fèi)”為負(fù)的1073 條數(shù)據(jù)，保留了172254 條有效數(shù)據(jù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

多元有序Logistic模型在車(chē)險(xiǎn)索賠次數(shù)預(yù)測(cè)中的應(yīng)用

一、引言

二、模型構(gòu)建與評(píng)價(jià)

（一）模型構(gòu)建

（二）模型評(píng)價(jià)

三、實(shí)證分析

（一）模型估計(jì)

（二）模型評(píng)價(jià)

（三）模型應(yīng)用

四、小結(jié)

一、引言

二、模型構(gòu)建與評(píng)價(jià)

三、實(shí)證分析