国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多元有序Logistic模型在車(chē)險(xiǎn)索賠次數(shù)預(yù)測(cè)中的應(yīng)用

2022-01-18 07:02李浩男
關(guān)鍵詞:車(chē)險(xiǎn)次數(shù)概率

李浩男

(南開(kāi)大學(xué)金融學(xué)院,天津300350)

一、引言

車(chē)險(xiǎn)定價(jià)一直以來(lái)都是研究的熱點(diǎn),2020年9月19日啟動(dòng)的商業(yè)車(chē)險(xiǎn)綜合改革,對(duì)車(chē)險(xiǎn)定價(jià)的精確性和合理性提出更高的要求,是我國(guó)車(chē)險(xiǎn)高質(zhì)量發(fā)展的重要契機(jī)。廣義線性模型作為車(chē)險(xiǎn)索賠的建模分析重要手段之一,自1972年Nelder J A和Wedderburn R 首次給出定義以來(lái),學(xué)術(shù)界不斷為該方法增加新元素,例如Anderson等(2004)[1]對(duì)指數(shù)分布族的深入討論;同時(shí)國(guó)內(nèi)外相關(guān)的著作也越來(lái)越豐富,如Frees(2010)[2]、孟生旺等(2015)[3]。

由于免賠額與無(wú)賠款優(yōu)待等條款的存在,實(shí)務(wù)中車(chē)險(xiǎn)索賠數(shù)據(jù)存在大量的零次索賠,傳統(tǒng)的廣義線性模型無(wú)法解決索賠數(shù)據(jù)零膨脹、過(guò)離散以及異質(zhì)性的特征。此時(shí),解決零膨脹的一個(gè)有效的方法是將模型分為零點(diǎn)概率和計(jì)數(shù)分布兩個(gè)部分,即(a,b,1)型的零膨脹模型。Yip 和Yau(2005)[4]首次使用零膨脹模型分析了車(chē)險(xiǎn)索賠次數(shù),分別討論了泊松分布與負(fù)二項(xiàng)分布下的零膨脹模型。為了提升擬合結(jié)果,進(jìn)一步完善零膨脹模型一直是研究熱點(diǎn)。孟生旺和楊亮(2015)[5]基于傳統(tǒng)零膨脹模型增加了隨機(jī)效應(yīng),以此分析索賠數(shù)據(jù)組內(nèi)的相依性。張連增和王締(2019)[6]對(duì)比零膨脹模型與Hurdle 模型,實(shí)證結(jié)果顯示零膨脹負(fù)二項(xiàng)模型更好。徐昕(2020)[7]探討了零膨脹廣義泊松模型的推廣形式,并給出了模型和參數(shù)估計(jì)方法。

為了進(jìn)一步解決零膨脹特征導(dǎo)致的過(guò)離散和異質(zhì)性問(wèn)題,在零膨脹模型的基礎(chǔ)上提出了混合泊松模型(Mixed Poisson, MP)。 Joe 和Zhu(2005)[8]、Nikoloulopoulos和Karlis(2008)[9]先后對(duì)比了不同的混合泊松模型,分析了索賠頻率數(shù)據(jù)的零膨脹、過(guò)離散以及厚尾特征。王選鶴等(2018)[10]研究了零膨脹混合泊松的有限混合模型,實(shí)證結(jié)果表明該模型有助于改進(jìn)對(duì)索賠次數(shù)的估計(jì)結(jié)果;殷崔紅等(2019)[11]討論了開(kāi)放式的混合泊松模型,提升了模型的自適應(yīng)性。

綜合已有研究可以發(fā)現(xiàn),學(xué)者們大多使用混合泊松或零膨脹泊松來(lái)研究索賠次數(shù),在一定程度上可以解決零膨脹、過(guò)離散和尾部概率的問(wèn)題。但是在應(yīng)用層面,此類(lèi)模型計(jì)算復(fù)雜、模型求解比較困難,同時(shí)參數(shù)難以直觀解釋?zhuān)涣硪环矫?,確定混合泊松模型的混合個(gè)數(shù)時(shí)仍包含較大的主觀性。索賠次數(shù)的零膨脹問(wèn)題可以視為(a,b,0)型計(jì)數(shù)模型的“后遺癥”,因?yàn)椴煌螖?shù)之間的發(fā)生概率需滿足遞推關(guān)系(Panjer,1981)[12],使用極大似然估計(jì)方法會(huì)受到該遞推關(guān)系的影響。大量零次索賠的存在將迫使模型給予零點(diǎn)概率過(guò)高的權(quán)重,從而“拉偏”了對(duì)尾部風(fēng)險(xiǎn)的估計(jì),導(dǎo)致模型結(jié)果并不理想。

為了避免計(jì)數(shù)分布遞推關(guān)系對(duì)模型的影響,已有學(xué)者使用二元Logistic 回歸研究車(chē)險(xiǎn)索賠次數(shù)(張連增和孫維偉,2012;Duan等,2018)[13,14],但是這些討論僅限于是否發(fā)生索賠,只使用了索賠次數(shù)中的部分信息。本文將索賠次數(shù)視為有序分類(lèi)變量,引入多元有序Logistic 回歸模型(Ordered Lo?gistic Regression,OLR),該模型作為L(zhǎng)ogistic模型的一個(gè)重要分類(lèi),其較多應(yīng)用于醫(yī)學(xué)分析中,如Kanbayashi 等(2018)[15]利用OLR 模型探究了不同程度膽堿能綜合征的發(fā)病因素。在保險(xiǎn)領(lǐng)域,劉威和劉昌平(2018)[16]使用該模型分析了社保對(duì)農(nóng)村老年人健康狀況的影響,討論了模型異質(zhì)性。

本文采用OLR 模型分析索賠頻率數(shù)據(jù)。首先,參考Agresti(2003)[17]對(duì)OLR 連接函數(shù)的討論,選擇了3種不同的連接函數(shù)建立OLR模型;其次,基于OLR模型的概率意義,定義了相對(duì)風(fēng)險(xiǎn)系數(shù),以分析風(fēng)險(xiǎn)因素變動(dòng)引起的索賠概率的相對(duì)變化;最后,利用一組車(chē)險(xiǎn)索賠數(shù)據(jù),實(shí)證分析的結(jié)果驗(yàn)證了該方法在車(chē)險(xiǎn)索賠領(lǐng)域的實(shí)用價(jià)值。OLR模型相較于已有方法在模型構(gòu)建、參數(shù)估計(jì)、結(jié)果分析上都更為容易。

二、模型構(gòu)建與評(píng)價(jià)

傳統(tǒng)的(a,b,0)型計(jì)數(shù)分布必須滿足式(1)(Panjer,1981)[12]:

上式中只有a、b兩個(gè)參數(shù),3 個(gè)概率值構(gòu)成的兩個(gè)方程即可完全確定分布。使用傳統(tǒng)分布估計(jì)時(shí),當(dāng)索賠次數(shù)超過(guò)3 次以后,索賠次數(shù)估計(jì)值會(huì)出現(xiàn)較大偏差(薛智雯,2018)[18]。即使是將零點(diǎn)概率單獨(dú)剝離出來(lái)的零膨脹模型,也仍然沒(méi)有擺脫這種遞推關(guān)系,模型估計(jì)的靈活性同樣受到限制。零膨脹混合泊松模型通過(guò)多個(gè)分布的混合擴(kuò)展了參數(shù)的個(gè)數(shù),提升了模型估計(jì)的準(zhǔn)確性,但是一方面,混合模型降低了參數(shù)的可解釋性,另一方面,混合個(gè)數(shù)的確定包含了過(guò)多的主觀性。

為了避免計(jì)數(shù)分布遞推關(guān)系的影響,本文將索賠次數(shù)作為分類(lèi)變量,應(yīng)用多元有序Logistic 回歸模型,該模型可拓展性較強(qiáng),并且結(jié)果具有概率意義,解釋力更強(qiáng)。索賠次數(shù)的高低可以反映駕駛員風(fēng)險(xiǎn)等級(jí)的排序,所以將索賠次數(shù)視作分類(lèi)變量在實(shí)際意義上是合理的。

(一)模型構(gòu)建

OLR 模型作為廣義線性模型的一個(gè)重要分支,其連接函數(shù)是累積概率的轉(zhuǎn)換形式。本文實(shí)證結(jié)果表明,不同的連接函數(shù)對(duì)模型的預(yù)測(cè)結(jié)果影響很小,故選擇更為平滑的Logit 連接函數(shù),構(gòu)建的OLR模型如下:

其中pi= Pr(Y=i|X)是索賠次數(shù)為i次的概率,K為索賠次數(shù)最大值。根據(jù)式(2),可以推出索賠k次的概率pk,即:

同時(shí)考慮概率的規(guī)范性約束:

Mccullagh(1980)[19]證明了當(dāng)樣本數(shù)n足夠大時(shí),極大似然法得到的有序模型是唯一確定的。將模型參數(shù)的估計(jì)值代入式(3)和(4),可以計(jì)算出不同索賠次數(shù)的發(fā)生概率。

Logistic模型的結(jié)果具有概率意義,駕駛員或車(chē)輛信息發(fā)生變化時(shí),將引起索賠概率的變動(dòng),從而影響預(yù)期索賠頻率。定義相對(duì)風(fēng)險(xiǎn)系數(shù)I來(lái)分析解釋變量變動(dòng)對(duì)預(yù)期索賠頻率的影響,計(jì)算公式為:

其中xb為解釋變量的基礎(chǔ)類(lèi)別。

(二)模型評(píng)價(jià)

為了客觀評(píng)價(jià)OLR 模型的預(yù)測(cè)能力,將OLR模型與泊松模型(Poisson)、零膨脹泊松模型(ZIP)和零膨脹負(fù)二項(xiàng)模型(ZINB)相比較,選用相同的解釋變量訓(xùn)練模型。由于這些模型之間不存在嵌套關(guān)系,赤池信息準(zhǔn)則(AIC)、貝葉斯信息準(zhǔn)則(BIC)和偏差(Deviance)等模型評(píng)價(jià)指標(biāo)并不能客觀地反映模型的優(yōu)劣(Kuha,2004)[20]。另一方面,由于數(shù)據(jù)集本身的“零膨脹”特點(diǎn),如果按照最小化貝葉斯誤差來(lái)確定分類(lèi),那么所有駕駛員的索賠次數(shù)都將被預(yù)測(cè)為0次,所以比較預(yù)測(cè)的準(zhǔn)確率也沒(méi)有任何實(shí)際意義。

一個(gè)保險(xiǎn)合同組中不同索賠次數(shù)的情況往往更值得關(guān)注,參考殷崔紅等(2019)[11]使用的模型比較方法,本文選擇卡方檢驗(yàn)來(lái)評(píng)價(jià)模型對(duì)合同組的預(yù)測(cè)能力,卡方統(tǒng)計(jì)量定義為:

上式中,Oi為實(shí)際觀測(cè)到索賠i次的樣本數(shù),Ei為索賠i次樣本數(shù)的預(yù)測(cè)值。

三、實(shí)證分析

本文以國(guó)內(nèi)2017年某車(chē)險(xiǎn)數(shù)據(jù)為分析樣本,包含172254 條有效數(shù)據(jù)①。原數(shù)據(jù)中包含索賠次數(shù)和17個(gè)解釋變量,本文從泊松回歸模型出發(fā),根據(jù)AIC 準(zhǔn)則,使用向前向后逐步回歸,確定最終模型包含8 個(gè)解釋變量,如表1。在使用OLR 模型時(shí),本文將被解釋變量索賠次數(shù)視為分類(lèi)變量。

表1 變量符號(hào)及說(shuō)明

連續(xù)變量描述統(tǒng)計(jì)如表2,分類(lèi)變量頻數(shù)統(tǒng)計(jì)如表3。

表2 連續(xù)變量描述統(tǒng)計(jì)

表3 分類(lèi)變量頻數(shù)統(tǒng)計(jì)

數(shù)據(jù)集中零次索賠的占比約為94.8%,索賠次數(shù)有明顯的“零膨脹”特征。為了保證數(shù)據(jù)結(jié)構(gòu)的一致性,本文根據(jù)索賠次數(shù)隨機(jī)分層抽樣,將樣本數(shù)據(jù)分為訓(xùn)練集(70%,樣本數(shù)為120578)和測(cè)試集(30%,樣本數(shù)為51676)。

(一)模型估計(jì)

為了對(duì)比OLR 模型與泊松模型、ZIP 模型和ZINB模型的差異,所有模型使用相同的解釋變量,差異僅為索賠次數(shù)的變量類(lèi)型。本文將分類(lèi)變量中頻數(shù)最多的分類(lèi)視為基礎(chǔ)類(lèi)別,使用R軟件得到OLR模型極大似然估計(jì)結(jié)果,如表4。

表4 極大似然估計(jì)結(jié)果(連接函數(shù)為L(zhǎng)ogit)

CarKindOthers Age CarAge NonDeductible0 LYClaim1截距項(xiàng)0|1 1|2 2|3 3|4 4|5-10.0339 0.0056 0.0439-0.5588 0.2290 3.1003 5.7936 8.7370 10.5142 11.3963 0.0000 0.0031 0.0096 0.0393 0.0836 0.1273 0.1442 0.3303 0.7531 1.1610-4.68E+07 1.8084 4.5935-14.2190 2.7396 24.3522 40.1710 26.4488 13.9606 9.8159 0.0000 0.0706 0.0000 0.0000 0.0062 0.0000 0.0000 0.0000 0.0000 0.0000解釋變量Estimate 標(biāo)準(zhǔn)誤 t統(tǒng)計(jì)量P值

使用似然比檢驗(yàn)對(duì)整個(gè)模型進(jìn)行檢驗(yàn),p值顯著小于0.05,模型整體有意義,如表5。

表5 模型整體檢驗(yàn)(原假設(shè)為模型僅包含截距項(xiàng))

(二)模型評(píng)價(jià)

參考Agresti(2003)[17]對(duì)連接函數(shù)的討論,本文分別選擇Logit、Probit 和負(fù)雙對(duì)數(shù)(Nloglog)三種連接函數(shù)建立OLR 模型,并與Poisson、ZIP 和ZINB模型相比較,索賠次數(shù)預(yù)測(cè)結(jié)果如表6。

表6 測(cè)試集索賠次數(shù)預(yù)測(cè)結(jié)果比較

由表6可以發(fā)現(xiàn),泊松模型完全未考慮數(shù)據(jù)中的零膨脹、過(guò)離散和異質(zhì)性,其卡方值為863.19,顯著高于其他5個(gè)模型,尾部概率的估計(jì)明顯偏離實(shí)際值。ZIP 和ZINB 的卡方值非常接近,一定程度上解決了零膨脹問(wèn)題,但是當(dāng)索賠次數(shù)超過(guò)3 次后,預(yù)測(cè)效果明顯降低。OLR模型的卡方值最小,并且對(duì)尾部風(fēng)險(xiǎn)的預(yù)測(cè)效果更好。其中,以Probit為連接函數(shù)的OLR 模型預(yù)測(cè)結(jié)果最優(yōu),但是三個(gè)OLR 模型的卡方值屬于同一個(gè)量級(jí),差異可能來(lái)源于隨機(jī)性,所以無(wú)法在統(tǒng)計(jì)意義上確定哪一種連接函數(shù)的OLR模型更好。

估計(jì)索賠頻率是車(chē)險(xiǎn)精算建模的重要工作,因?yàn)閺V義線性模型的分析基于被解釋變量的均值(王選鶴等,2018)[10],所以不同模型對(duì)索賠頻率的估計(jì)差異較小,如下表。

表7 測(cè)試集索賠頻率估計(jì)及誤差

OLR 模型整體上優(yōu)于泊松模型和零膨脹模型,以Probit 為連接函數(shù)的OLR模型的誤差最小,僅為0.002583。

(三)模型應(yīng)用

不同連接函數(shù)的OLR 模型差異較小,本文選擇更平滑且更常用的Logit 作為連接函數(shù),進(jìn)行下一步分析。按照OLR 模型的思路,分析某一變量對(duì)于不同索賠次數(shù)發(fā)生概率的影響,本文以車(chē)型(CarKind)為例,討論不同車(chē)型索賠概率的差異。

固定其他條件不變,設(shè)定連續(xù)變量取值為平均值,分類(lèi)變量取值為基礎(chǔ)類(lèi)別,計(jì)算不同車(chē)型的索賠概率,結(jié)果如圖1。樣本數(shù)據(jù)中,車(chē)型為Others的索賠次數(shù)全為0,所以圖1中Others類(lèi)別的車(chē)型0次索賠概率接近1,其他次數(shù)索賠幾乎為0。

圖1 不同車(chē)型索賠概率對(duì)比

由于Others 樣本數(shù)僅為96,考慮到統(tǒng)計(jì)顯著性,主要分析其他三種車(chē)型相對(duì)風(fēng)險(xiǎn)關(guān)系。在3種車(chē)型中Type2索賠的概率最高,而Type3發(fā)生索賠的概率最低。另外,索賠1-5 次的圖形具有極高的相關(guān)性,在發(fā)生索賠的條件下,不同車(chē)型的相對(duì)風(fēng)險(xiǎn)關(guān)系是穩(wěn)定的,也就是說(shuō)索賠次數(shù)的大小,并沒(méi)有影響解釋變量與被解釋變量之間的相關(guān)關(guān)系。使用相對(duì)風(fēng)險(xiǎn)系數(shù)I來(lái)評(píng)估不同車(chē)型對(duì)索賠頻率的影響,結(jié)果如表8。

表8 不同車(chē)型相對(duì)風(fēng)險(xiǎn)系數(shù)

就這3 種車(chē)型而言,Type3 的相對(duì)風(fēng)險(xiǎn)系數(shù)為T(mén)ype2 的0.7745 倍。如果僅考慮這一樣本集的經(jīng)驗(yàn)數(shù)據(jù),在其他條件一樣的情況下,Type3 車(chē)型保單的純保費(fèi)應(yīng)為T(mén)ype2的0.7745倍。類(lèi)似地,可以根據(jù)不同投保人的特征計(jì)算對(duì)應(yīng)的相對(duì)風(fēng)險(xiǎn)系數(shù),為差異化定價(jià)提供參考。

四、小結(jié)

為解決車(chē)險(xiǎn)索賠次數(shù)建模面臨的零膨脹等一系列問(wèn)題,本文選擇了多元有序Logistic 回歸模型,分別使用Logit、Probit和Nloglog三種連接函數(shù)建立OLR 模型,并與泊松模型、ZIP 模型和ZINB模型相比較。OLR模型解決了部分“零膨脹”帶來(lái)的問(wèn)題,該模型顯著優(yōu)于現(xiàn)有的泊松模型、ZIP 模型和ZINB模型,以Probit作為連接函數(shù)的OLR模型卡方值最小。特別是,OLR 模型克服了傳統(tǒng)計(jì)數(shù)分布的限制,參數(shù)估計(jì)更靈活,對(duì)尾部概率的預(yù)測(cè)也更準(zhǔn)確。但是不同連接函數(shù)的OLR模型的預(yù)測(cè)能力相近,卡方值的差異可能來(lái)源于隨機(jī)因素,所以無(wú)法從統(tǒng)計(jì)意義上確定使用哪種連接函數(shù)的OLR模型更適合分析車(chē)險(xiǎn)索賠次數(shù)。

在保險(xiǎn)實(shí)務(wù)中,不同風(fēng)險(xiǎn)因素對(duì)索賠概率的影響是關(guān)注的重點(diǎn),而模型的預(yù)測(cè)能力與解釋性呈反比關(guān)系,現(xiàn)有的混合泊松模型已經(jīng)開(kāi)始面臨參數(shù)解釋性差的難題,復(fù)雜的混合分布讓風(fēng)險(xiǎn)來(lái)源更加難以識(shí)別。OLR 模型不僅具有很好的預(yù)測(cè)能力,并且結(jié)果具有概率意義,所以較好的解釋力是其與生俱來(lái)的優(yōu)勢(shì)。在解決“零膨脹”問(wèn)題的基礎(chǔ)上,OLR模型可以分析不同風(fēng)險(xiǎn)因素變動(dòng)對(duì)索賠概率的影響。例如,本文對(duì)車(chē)型(CarKind)的分析,不同車(chē)型的相對(duì)風(fēng)險(xiǎn)系數(shù)可以作為車(chē)險(xiǎn)定價(jià)的參考。另外,在模型應(yīng)用過(guò)程中,當(dāng)研究不同索賠次數(shù)的發(fā)生概率時(shí),解釋變量與索賠次數(shù)之間的相關(guān)關(guān)系是不變的。

上述結(jié)論證明OLR模型可以合理應(yīng)用于承保核保等一系列環(huán)節(jié),能幫助險(xiǎn)企綜合考慮人、車(chē)等多個(gè)因素,以實(shí)現(xiàn)風(fēng)險(xiǎn)識(shí)別,選擇目標(biāo)客戶群體。

[注 釋?zhuān)?/p>

①本文的數(shù)據(jù)來(lái)自國(guó)內(nèi)某財(cái)產(chǎn)保險(xiǎn)公司2017年的機(jī)動(dòng)車(chē)輛保險(xiǎn)業(yè)務(wù),車(chē)輛類(lèi)型為貨車(chē)。原數(shù)據(jù)共有173335 條保單數(shù)據(jù),剔除了“賠付金額”為負(fù)的8 條數(shù)據(jù)和“NCD 滿期基準(zhǔn)保費(fèi)”為負(fù)的1073 條數(shù)據(jù),保留了172254 條有效數(shù)據(jù)。

猜你喜歡
車(chē)險(xiǎn)次數(shù)概率
概率統(tǒng)計(jì)中的決策問(wèn)題
概率統(tǒng)計(jì)解答題易錯(cuò)點(diǎn)透視
車(chē)險(xiǎn)占財(cái)險(xiǎn)比例降至46.93%
基于改進(jìn)DeepFM的車(chē)險(xiǎn)索賠預(yù)測(cè)模型的研究
2020年,我國(guó)汽車(chē)召回次數(shù)同比減少10.8%,召回?cái)?shù)量同比增長(zhǎng)3.9%
概率與統(tǒng)計(jì)(1)
概率與統(tǒng)計(jì)(2)
最后才吃梨
俄羅斯是全球閱兵次數(shù)最多的國(guó)家嗎?
車(chē)險(xiǎn)監(jiān)管力度加大,24家機(jī)構(gòu)被叫停商車(chē)險(xiǎn)