基于核函數(shù)法進(jìn)行拒絕推斷的信用評(píng)分模型

2012-09-26 09:10魏秋萍張景肖

統(tǒng)計(jì)與決策 2012年12期

魏秋萍，張景肖,張波

0 引言

銀行在利用歷史數(shù)據(jù)創(chuàng)建信用評(píng)分模型時(shí)，能夠采集到兩大類客戶群的數(shù)據(jù)：曾經(jīng)被批準(zhǔn)的申請(qǐng)人和曾經(jīng)被拒絕的申請(qǐng)人的信息。對(duì)于曾經(jīng)被批準(zhǔn)的申請(qǐng)人，銀行不僅有申請(qǐng)信息，還能根據(jù)其過去的表現(xiàn)判斷其是好客戶還是壞客戶。而對(duì)于曾經(jīng)被拒絕的申請(qǐng)人，銀行除了知道他們的申請(qǐng)信息以外，無(wú)法知道他們是好還是壞客戶。由于被拒絕的申請(qǐng)人信息缺失，在創(chuàng)建信用評(píng)分模型的時(shí)候這些樣本的數(shù)據(jù)常常被忽略。而信用評(píng)分模型的應(yīng)用對(duì)象應(yīng)該是未來(lái)所有的申請(qǐng)人構(gòu)成的總體，這個(gè)總體也稱為入門總體[16]。由所有被接受的申請(qǐng)人構(gòu)成的建模樣本顯然并不是總體的代表樣本。這樣如何推斷那些曾經(jīng)被拒絕的申請(qǐng)人的好壞定性并把他們也加入到建模樣本中來(lái)，就是困擾信用評(píng)分領(lǐng)域多年的拒絕推斷問題[12]。

對(duì)于拒絕推斷問題的理論研究始于上個(gè)世紀(jì)70年代末，在過去的30年間，一些學(xué)者圍繞是否該做拒絕推斷以及如何做拒絕推斷展開了研究。Hsia[12]基于假設(shè)P(default|X,rejected)=P(default|X,accepted)提出了用augmentation或re-weighting的方法來(lái)做拒絕推斷。Heckman[11]首次提出了用雙值型的二階段模型來(lái)做拒絕推斷。Boyes等[2]對(duì)信貸審批決策和違約模型這兩個(gè)序貫事件創(chuàng)建雙值型的probit模型，以此避免了樣本偏差。Poirier[17]認(rèn)為如果不引入一個(gè)額外的數(shù)據(jù)集則不可能評(píng)估由于樣本偏差帶來(lái)的損失。Hand等[10]深入研究了拒絕推斷問題，他們認(rèn)為除非對(duì)好壞客戶的違約分布做出額外的假設(shè)，否則拒絕推斷問題并不能起作用。Joanes[14]首先針對(duì)被接受的申請(qǐng)人組成的樣本用logistic回歸創(chuàng)建信用評(píng)分模型，然后應(yīng)用到被拒絕的申請(qǐng)人來(lái)做拒絕推斷。Copas和Li[6]認(rèn)為非隨機(jī)缺失問題導(dǎo)致絕大多數(shù)統(tǒng)計(jì)方法難以用來(lái)解決拒絕推斷問題。 Feelder[9]用EM（Expectation-Maximizarion）算法把拒絕推斷作為缺失值填補(bǔ)來(lái)處理，他考慮了非隨機(jī)缺失的情況，也就是被接受樣本和拒絕樣本的違約概率分布是不同的，但是他提出的算法使用了隨機(jī)缺失的假設(shè)。Chen和?stebro[4]認(rèn)為被接受的樣本可以代表所有申請(qǐng)人這個(gè)總體，不需要做拒絕推斷；被接受的樣本和被拒絕的樣本中好客戶的比例是一樣的和接受樣本和拒絕樣本中的違約分布不同需要拒絕推斷。Feelders[9]指出解決拒絕推斷唯一的方法是雙值型二階段模型，該方法曾經(jīng)被認(rèn)為是無(wú)效的。Ash和Meester[1]建議使用信用局?jǐn)?shù)據(jù)，通過考察被拒絕的申請(qǐng)人在其它銀行的表現(xiàn)來(lái)推斷他到底是好客戶還是壞客戶。Jacobson和Roszbach[13]用實(shí)證分析說(shuō)明了P(default|X,rejected)不等于 P(default|X,accepted)，并且用雙值型的Probit模型創(chuàng)建了信用評(píng)分模型。Banasik、Crook和Thomas[8]用模擬數(shù)據(jù)討論了信用評(píng)分模型中的樣本偏差。Crook和Banasik[7]研究了重抽樣和外推法的效率，認(rèn)為這些技巧并沒有比只是使用被接受客戶的模型要好。Verstraeten等[20]通過實(shí)證分析來(lái)探索信用評(píng)分模型中的樣本偏差。Kim和Sohn[19]用雙值型模型來(lái)做拒絕推斷，他們的結(jié)論表明，只是使用被接受的客戶創(chuàng)建模型的確存在樣本偏差，拒絕推斷可以提高模型的效果但是并不能完全解決樣本偏差的問題。Banasik和Crook[2]試圖探索Heckman樣本選擇模型和改變樣本權(quán)重是否可以改善模型的預(yù)測(cè)能力，但是實(shí)證研究表明這兩種方法單獨(dú)或者結(jié)合起來(lái)使用都只有微小的成效。

對(duì)于信用評(píng)分模型中建模樣本的偏差（稱為拒絕偏差（Reject Bias））[18]:173，是否需要通過拒絕推斷來(lái)校正以及到底如何做拒絕推斷，到目前為止并沒有一個(gè)定論。但是這個(gè)問題對(duì)于提升信用評(píng)分模型的預(yù)測(cè)準(zhǔn)確性有極其重要的意義，值得進(jìn)一步的研究和探討。

1 拒絕推斷的理論價(jià)值

可以把被接受的申請(qǐng)人組成的樣本稱為接受樣本，把被拒絕的申請(qǐng)人組成的樣本稱為拒絕樣本。毋庸置疑，接受樣本和拒絕樣本中都有真正的好客戶和壞客戶。假設(shè)接受樣本中的好客戶的數(shù)量用nag，壞客戶的數(shù)量用nab來(lái)表示，拒絕樣本中的好客戶的數(shù)量用nrg，壞客戶的數(shù)量用nrb來(lái)表示。

信用評(píng)分模型采用的模型大都可以用

這個(gè)一般形式來(lái)概括，其中 pt=P(yt=1|xt)或者pt=P(yt=0|xt)。因此，模型的優(yōu)比：

是模型參數(shù)估計(jì)過程中必須重視的參數(shù)之一。如果建模樣本只是使用接受樣本，則該樣本中好壞客戶發(fā)生比odds1=nag/nab。如果建模樣本中同時(shí)使用了接受樣本和拒絕樣本，即建模過程中使用了拒絕推斷的技術(shù)，則該樣本中好壞客戶的發(fā)生比為

無(wú)論是接受樣本還是拒絕樣本，其中的客戶都是通過一定的審批機(jī)制來(lái)決定到底是被接受還是被拒絕的。這個(gè)審批機(jī)制可能是一個(gè)專家評(píng)分模型也可能是原先的信用評(píng)分模型。拒絕推斷是否必要和這個(gè)原先的審批機(jī)制不無(wú)干系。下面分三種情形來(lái)探討拒絕推斷的必要性。

情景1：原有的審批機(jī)制完全無(wú)效，拒絕樣本中的申請(qǐng)人是完全隨機(jī)抽取的。因此壞客戶在接受樣本和拒絕樣本中隨機(jī)等可能出現(xiàn)的，這兩個(gè)樣本中的好壞客戶比（odds）是相等的，即

可得 nagnrb=nrgnab。所以

因此，在原有的審批機(jī)制完全無(wú)效的情況下，是否使用拒絕推斷對(duì)模型的預(yù)測(cè)效果沒有任何影響。

情景2：原有的審批機(jī)制完全有效，基于其做出的決策也是完全正確的，也就是接受樣本中全是好客戶，而拒絕樣本中全是壞客戶，即nab=0,nrg=0，所以

如果只是使用被接受客戶建模，就會(huì)錯(cuò)誤的認(rèn)為所有的申請(qǐng)人都是好客戶，這顯然不符合邏輯。只有把被拒絕客戶也加入進(jìn)來(lái)構(gòu)建新的建模樣本才會(huì)有比較合理的好壞客戶比

盡管這種情形是一個(gè)非常理想的狀態(tài)，一般不可能在現(xiàn)實(shí)中出現(xiàn)，但是在這種情況下拒絕推斷是非常必要的。

情景3：原有的審批機(jī)制是有效的，接受樣本中絕大多數(shù)是好客戶，拒絕樣本中絕大多數(shù)是壞客戶。一般來(lái)說(shuō)，在實(shí)際應(yīng)用過程中，銀行會(huì)把評(píng)分從高到底排序分成若干個(gè)評(píng)分池[22]。具體來(lái)說(shuō)，假如某評(píng)分模型分成了i+j個(gè)評(píng)分池，如果某個(gè)申請(qǐng)人的評(píng)分落在了第1,2,…,i個(gè)評(píng)分池中，則表明他可以被批準(zhǔn)；如果其評(píng)分落在了第i+1,i+2,…,i+j個(gè)評(píng)分池中，則表明他應(yīng)該被拒絕。一個(gè)有效的評(píng)分模型能夠保證分?jǐn)?shù)高的評(píng)分池中的好壞客戶比要大于分?jǐn)?shù)低的評(píng)分池中的好壞客戶比，即

在這種情況下，可以證明

也就是只是使用接受樣本的好壞比要大于使用了拒絕推斷的建模樣本中的好壞比。

證明：（8）的證明可以用不完全歸納法。

假設(shè)當(dāng)i=k,j=l時(shí)，odds1＞odds2成立，可以令

則有

且

則當(dāng)i=k+1,j=l+1時(shí)，有

也成立。證畢。

所以，（8）式成立，當(dāng)原先的審批機(jī)制是有效的時(shí)，odds1＞odds2肯定成立，拒絕推斷是需要的。

綜上所述，除非原有的審批機(jī)制完全無(wú)效，否則拒絕推斷就是必要的。從原先的審批機(jī)制出發(fā)，根據(jù)是否使用拒絕推斷的建模樣本的優(yōu)比比較，不難分析出，在實(shí)際應(yīng)用中，必須使用拒絕推斷技術(shù)來(lái)校正被接受樣本和總體的樣本偏差。

2 核函數(shù)推斷法在拒絕推斷中的應(yīng)用

信用評(píng)分模型的拒絕推斷是要推斷出拒絕樣本中那些被拒絕的申請(qǐng)人到底是好客戶還是壞客戶。從理論的角度看，這就是缺失值處理問題。如何做拒絕推斷，可以通過分析三類缺失值的產(chǎn)生機(jī)制[15]來(lái)進(jìn)行討論。

令y=1表示某個(gè)申請(qǐng)人會(huì)成為壞客戶，y=0表示該申請(qǐng)人的確是好客戶；令a=1表示該申請(qǐng)人在過去得到審批通過，而a=0表示該申請(qǐng)人曾經(jīng)被拒絕。三類缺失值產(chǎn)生的機(jī)制如下：

①完全隨機(jī)缺失(Missing completely at random(MCAR))：當(dāng)好壞客戶標(biāo)識(shí)y被觀測(cè)到的概率不依賴于y的值也不依賴于預(yù)測(cè)變量組X的值時(shí)，即

則y缺失就是完全隨機(jī)缺失。

②隨機(jī)缺失(Missing at Random(MAR))：當(dāng)好壞客戶標(biāo)志y被觀測(cè)到也就是a=1的概率不依賴于y的值，但是會(huì)依賴于預(yù)測(cè)變量組X的值時(shí)，即

則y如果缺失就是隨機(jī)缺失。

③非隨機(jī)缺失(Missing not at Random(MNAR))：當(dāng)好壞客戶標(biāo)志y被觀測(cè)到也就是a=1的概率既依賴于y的值，又依賴于預(yù)測(cè)變量組X的值時(shí)，即

則y如果缺失就是非隨機(jī)缺失。

完全有效的審批機(jī)制和完全無(wú)效的審批機(jī)制在在實(shí)際中一般不會(huì)出現(xiàn)。而有效的審批機(jī)制對(duì)應(yīng)的是非隨機(jī)缺失。因此，從推斷法的角度來(lái)解決信用評(píng)分領(lǐng)域的拒絕推斷問題，就是要解決非隨機(jī)缺失因變量的缺失值填補(bǔ)問題?；诖?，核函數(shù)推斷法是一種可以用來(lái)嘗試解決信用評(píng)分模型的拒絕推斷問題的一種方法。

Cheng[5]和Wang[21]都曾經(jīng)用核分布來(lái)對(duì)缺失的響應(yīng)變量做出補(bǔ)缺處理。因?yàn)轫憫?yīng)變量是自變量的函數(shù)，估計(jì)響應(yīng)變量的值就是估計(jì)

其核估計(jì)為

這里，K((x-Xi)/hn)是核函數(shù)，hn是核函數(shù)的光滑參數(shù)，也稱為帶寬，當(dāng)n→∞時(shí)，帶寬hn→0。核函數(shù)的選擇可以根據(jù)具體情況而定，在以往的研究中，常用正態(tài)函數(shù)、三角函數(shù)和二次函數(shù)等對(duì)稱的概率密度函數(shù)作為核函數(shù)。

核函數(shù)補(bǔ)缺恰好解決了非隨機(jī)缺失的缺失值補(bǔ)充問題。在信用評(píng)分模型的建模樣本中，每一個(gè)觀測(cè)都搜集有三方面的因素(Xi,Yi,ai)(i=1,2,...,n)。其中，Xi=(x1i,x2i,…,xdi)是一個(gè)d維的向量，該因素基本都能夠觀測(cè)到，當(dāng)ai=1時(shí)Yi能夠觀測(cè)到，當(dāng)ai=0時(shí)Yi不能觀測(cè)到。由于這里的因變量是離散變量，可以選擇示性函數(shù)I(x=Xi)作為核函數(shù)，即

因此，可用的核估計(jì)為

在信用評(píng)分模型的開發(fā)過程中，可獲得的自變量的個(gè)數(shù)很多，如果用示性函數(shù)I(x=Xi)作為核函數(shù)，就會(huì)遭遇維度的詛咒。自變量個(gè)數(shù)越多，兩條觀測(cè)完全相同的概率就越小，則I(x=Xi)幾乎都為0，核估計(jì)沒有意義，這對(duì)于拒絕推斷這個(gè)實(shí)際應(yīng)用沒有任何幫助。為了避免維度的詛咒帶來(lái)的影響，必須對(duì)核函數(shù)的形式做一些調(diào)整，有以下可以使用的調(diào)整方法：

（1）最相似法

即，對(duì)于每個(gè)被拒絕的申請(qǐng)人，首先把他的d個(gè)自變量和樣本中所有被批準(zhǔn)的申請(qǐng)人的d個(gè)自變量分別作比較，如果雙方的第k個(gè)自變量相同則取1，否則取0。然后再把這d個(gè)判斷值相加得到，則核估計(jì)的取值與使得最大的那個(gè)被批準(zhǔn)的申請(qǐng)人的因變量的取值相同。這種推斷方法的思想就是為每一個(gè)被拒絕的申請(qǐng)人尋找在特征上最相似的被批準(zhǔn)的申請(qǐng)人，看他到底是好客戶還是壞客戶，以此決定這個(gè)被拒絕的申請(qǐng)人到底是好客戶還是壞客戶。最相似法的核估計(jì)的取值只有0或者1，可以直接作為被拒絕的申請(qǐng)人的因變量的取值，不需要任何對(duì)于拒絕樣本的先驗(yàn)信息。

（2）加權(quán)平均法

即對(duì)于每個(gè)被拒絕的申請(qǐng)人，首先把他的d個(gè)自變量和樣本中所有被批準(zhǔn)的申請(qǐng)人的d個(gè)自變量分別作比較，如果雙方的第k個(gè)自變量相同則取1不同則取0，然后再把這d個(gè)判斷值相加得到，然后再求出這種推斷法的思想就是用特征的相似程度作為權(quán)重，以樣本中被批準(zhǔn)的申請(qǐng)人的因變量取值做加權(quán)平均得到這個(gè)被拒絕的申請(qǐng)人的核估計(jì)取值。在信用評(píng)分模型中，因變量是取值為1或0的離散變量，而加權(quán)平均法中因變量的核估計(jì)是介于0和1之間的數(shù)，因變量的核估計(jì)并不能直接作為因變量的值。這時(shí)就需要被拒絕樣本中壞客戶占比的先驗(yàn)信息百分之π0，然后選擇核估計(jì)為從高到低排序前百分之π0的觀測(cè)的因變量的取值為1，其余觀測(cè)的因變量取值為0。

（3）Q1加權(quán)平均法

這種核函數(shù)推斷法的思想和加權(quán)平均法的相類似，主要區(qū)別在于：不是取所有被批準(zhǔn)的申請(qǐng)人，而是根據(jù)特征的相似程度選擇被批準(zhǔn)的申請(qǐng)人的前百分之一，隨后的處理方法與加權(quán)平均法相似，求因變量的加權(quán)平均值作為一個(gè)被拒絕的申請(qǐng)人的核估計(jì)取值。同樣，Q1加權(quán)平均法中因變量的核估計(jì)并不能直接作為因變量的值。這時(shí)就需要被拒絕樣本中壞客戶占比的先驗(yàn)信息百分之π0，然后選擇核估計(jì)為從高到低排序前百分之π0的觀測(cè)的因變量的取值為1，其余觀測(cè)的因變量取值為0。

3 實(shí)證分析

對(duì)拒絕推斷問題進(jìn)行實(shí)證研究面臨的最大困難是數(shù)據(jù)，要獲得被拒絕的申請(qǐng)人到底是好壞客戶的結(jié)論只有兩種途徑：一是利用實(shí)驗(yàn)設(shè)計(jì)，選擇某些本應(yīng)被拒絕的申請(qǐng)人給予批準(zhǔn)，并通過嚴(yán)密的跟蹤監(jiān)控來(lái)確認(rèn)到底是好客戶還是壞客戶。這種方法有很大的風(fēng)險(xiǎn)，將會(huì)給銀行的風(fēng)險(xiǎn)控制帶來(lái)巨大的挑戰(zhàn)；二是查詢?nèi)诵姓餍判畔ⅲ鶕?jù)被拒絕的客戶在其它銀行的表現(xiàn)來(lái)決定其到底是好客戶還是壞客戶。這種方法比較耗費(fèi)人力，并且不能保證查到所有被拒絕的申請(qǐng)人的征信記錄。

本文利用某銀行信用卡業(yè)務(wù)的數(shù)據(jù)來(lái)做拒絕推斷的實(shí)證研究，拒絕樣本中的申請(qǐng)人到底是好客戶還是壞客戶是通過實(shí)驗(yàn)設(shè)計(jì)的思路判斷得出的。接受樣本的樣本量為12292，其中好壞客戶比為96.75：3.25；拒絕樣本的樣本量為8250條記錄，其中好壞客戶比為81.7：18.3。驗(yàn)證樣本有12325條記錄，其中好壞客戶比為90.7：9.3，驗(yàn)證樣本相當(dāng)于入門總體的有效代表。

可以設(shè)計(jì)如下的方法來(lái)做拒絕推斷的實(shí)證分析研究：

（1）不做拒絕推斷，只是使用接受樣本創(chuàng)建信用評(píng)分模型，并用驗(yàn)證樣本做模型效果的驗(yàn)證。

（2）用三種核函數(shù)推斷法對(duì)拒絕樣本做拒絕推斷，并把推斷出因變量取值的拒絕樣本和接受樣本匯總后再創(chuàng)建信用評(píng)分模型，然后利用驗(yàn)證樣本做模型效果的驗(yàn)證。這里，對(duì)于每一種核函數(shù)推斷法又有三種子方案：①選擇樣本中的全部自變量（25個(gè)）做核函數(shù)推斷；②選擇部分精選的自變量（18個(gè)）做核函數(shù)推斷；③選擇全部自變量（25個(gè)）做核函數(shù)推斷。為了避免自變量的取值過于分散而導(dǎo)致核函數(shù)全部為0，在這里對(duì)自變量做了分組處理，分組方法參考信用評(píng)分領(lǐng)域常用的信息量IV值IV=(p1-p0)*ln(p1/p0)，把連續(xù)變量分成若干個(gè)區(qū)間和壓縮分類變量的類別時(shí)都要保證信息量的損失盡可能的小。

（3）用信用評(píng)分領(lǐng)域的打包（Parcelling）方法來(lái)對(duì)拒絕樣本做拒絕推斷，并把推斷出因變量取值的拒絕樣本和接受樣本匯總后再創(chuàng)建信用評(píng)分模型，然后利用驗(yàn)證樣本做模型效果驗(yàn)證。打包方法首先利用接受樣本創(chuàng)建初步的信用評(píng)分模型，并把預(yù)測(cè)概率排序分組，然后給拒絕樣本中的申請(qǐng)人打分，并對(duì)打分得到的預(yù)測(cè)概率按照接受樣本中的預(yù)測(cè)概率分組規(guī)則進(jìn)行分組。該方法假設(shè)在同一概率組中，拒絕樣本中的壞客戶比例是相對(duì)應(yīng)的接受樣本中壞客戶比例的若干倍，這個(gè)倍數(shù)就叫做事件增長(zhǎng)率。事件增長(zhǎng)率需要業(yè)務(wù)人員根據(jù)經(jīng)驗(yàn)給出估計(jì)，是一種先驗(yàn)信息。

（4）用信用評(píng)分領(lǐng)域的硬截止的方法做拒絕推斷，并把推斷出因變量取值的拒絕樣本和接受樣本匯總后再創(chuàng)建信用評(píng)分模型，然后利驗(yàn)證樣本做模型效果驗(yàn)證。硬截止方法首先利用接受樣本創(chuàng)建信用評(píng)分模型，并據(jù)此給拒絕樣本中的申請(qǐng)人打分。該方法假設(shè)得分高于某個(gè)臨界值的為好客戶，低于臨界值的為壞客戶，這里的臨界值也需要業(yè)務(wù)人員給出壞客戶率的先驗(yàn)估計(jì)。

（5）把外部數(shù)據(jù)加入建模樣本中然后創(chuàng)建模型，然后利用驗(yàn)證樣本做模型效果驗(yàn)證。這里的外部數(shù)據(jù)是通過實(shí)驗(yàn)設(shè)計(jì)獲得的被拒絕申請(qǐng)人到底是好客戶還是壞客戶的信息。

具體結(jié)果如表1。

表1 拒絕推斷的實(shí)證分析

根據(jù)實(shí)證分析的結(jié)果可知：

（1）由于樣本數(shù)據(jù)的限制，拒絕推斷的實(shí)證分析結(jié)果并不是很理想，除了Lift值以外，AUC統(tǒng)計(jì)量、K-S統(tǒng)計(jì)量和GINI系數(shù)的值都偏小，這表明該模型的預(yù)測(cè)準(zhǔn)確性相對(duì)偏低。

（2）三種核函數(shù)拒絕推斷法都能提升模型的預(yù)測(cè)準(zhǔn)確性，相對(duì)來(lái)說(shuō)，加權(quán)平均法的提升能力最強(qiáng)。利用18個(gè)自變量做核函數(shù)推斷的加權(quán)平均法的AUC和GINI系數(shù)的值僅次于利用外部數(shù)據(jù)的驗(yàn)證值。同時(shí)這三種核函數(shù)推斷法對(duì)模型的影響取決于用于核估計(jì)的自變量X是否就是真正影響因變量的因素，也取決于這些自變量的取值是否集中。如果用于做核函數(shù)估計(jì)的自變量選擇的好，能大大提高拒絕推斷的準(zhǔn)確性并提高模型的預(yù)測(cè)能力。實(shí)證分析的結(jié)果也表明，選擇18個(gè)精選自變量做核函數(shù)推斷的方法普遍要好于使用25個(gè)自變量的驗(yàn)證結(jié)果。因此，利用核函數(shù)推斷方法做拒絕推斷時(shí)，選準(zhǔn)了自變量可以取得更加理想的效果。

（3）打包法和硬截止法也都提升了模型的預(yù)測(cè)效果。但是，打包方法受事件增加率影響，硬截止方法受臨界值的影響，臨界值選的好才能保證提升的幅度。

（4）使用外部數(shù)據(jù)來(lái)做拒絕推斷的驗(yàn)證指標(biāo)的值最大，它是提升信用評(píng)分模型預(yù)測(cè)準(zhǔn)確性的最有效方法。

q總而言之，使用外部數(shù)據(jù)來(lái)獲取真實(shí)信息是最有效的拒絕推斷方法，但是這種方法也最耗費(fèi)人力和物力，銀行一般不愿意承擔(dān)獲取真實(shí)信息的風(fēng)險(xiǎn)和成本，該種方法適合小范圍的推斷。核函數(shù)推斷法、打包法和硬截止法都能在一定程度上提升模型的預(yù)測(cè)效果，但是這些方法基本都需要事先知道壞客戶率這個(gè)先驗(yàn)信息，必須依賴于業(yè)務(wù)人員的經(jīng)驗(yàn)。相對(duì)來(lái)說(shuō)，核函數(shù)推斷法在業(yè)務(wù)邏輯上更易于理解，利用精選的自變量對(duì)拒絕樣本中的申請(qǐng)人做核函數(shù)推斷能獲得比較理想的推斷效果，可以作為一種新的拒絕推斷方法應(yīng)用于實(shí)際中。

4 小結(jié)

被接受的申請(qǐng)人構(gòu)成的樣本是所有申請(qǐng)人這個(gè)總體的有偏樣本，用被接受的申請(qǐng)人組成的樣本創(chuàng)建的信用評(píng)分模型存在樣本偏差。為了獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果，必須要做拒絕推斷來(lái)校正這種偏差。

通常情況下，當(dāng)對(duì)接受樣本和拒絕樣本所做的一些總體假設(shè)正確有效時(shí)，拒絕推斷方法一般都能夠提高模型的預(yù)測(cè)準(zhǔn)確性，但是準(zhǔn)確性的提升幅度往往受可獲得信息的制約。人民銀行征信數(shù)據(jù)或者銀行自身的實(shí)驗(yàn)設(shè)計(jì)都能提供額外的信息使得拒絕推斷更加合理，從而保證信用評(píng)分模型更加準(zhǔn)確更加合理。人行征信數(shù)據(jù)可以免除商業(yè)銀行為了獲得拒絕樣本的信息而承擔(dān)的風(fēng)險(xiǎn)，是更加可取的方法，在國(guó)內(nèi)大力推廣人行征信體系意義重大。由于中國(guó)的人行征信體系目前還處于發(fā)展過程中，核函數(shù)推斷法是現(xiàn)階段可行的拒絕推斷替代方法。

[1]Ash D.,Meester S.Best Practices in Reject Inference,Presentation at Credit Risk Modeling and Decision Conference[Z].Wharton Financial Institutions Center,Philadelphia,2002.

[2]Banasik J.,Crook J.Reject Inference,Augmentation,and Sample Se?lection[J].European Journal of Operational Research,2007,(183).

[3]Boyes W.J.,Hoffman D.L.,Low,S.A.An Econometric Analysis of the Bank Credit Scoring Problem[J].Journal of Econometrics,1989，3～14.

[4]Chen G.,?stebro T.Bound and Collapse Bayesian Reject Inference when Dataare Missingnot at Random[R].University of Toronto,2006.

[5]Cheng Philip E.Nonparametric Estimation of Mean Functional with Data Missing at Random[J].Journal of the American Statistical Associ?ation,1994,89(425).

[6]Copas J.B.,Li H.G.Inference for Non-random Samples[J].Journal of the Royal Statistical Society,B,1997,(59).

[7]Crook J.,Banasik J.Does Reject Inference Really Improve the Perfor?mance of Application Scoring Models[J].Journal of Banking and Fi?nance,2004,(28).

[8]Crook,J.,Banasik,J.,Thomas,L.C.Sample Selection Bias in Credit Scoring Models[J].Journal of the Operational Research Society,2003,(54).

[9]Feelders A.J.An Overview of Model Based Reject Inference for Cred?it Scoring[R].Technical Report,Utrecht University,Institute for Infor?mation and Computing Sciences,2003.

[10]Hand M.D.J.,Sebastiani P.,Henley W.E.Inference about Rejected Cases in Discriminant Analysis.In New Approaches in Classifica?tion and Data Analysis[M].New York:Springer,1994.

[11]Heckman J.J.Sample Selection Bias as a Specification Error[J].Econometrica,1979,47(1).

[12]Hsia D.C.Credit Scoring and the Equal Credit Opportunity Act[J].The Hastings Law Journal,1978,(30).

[13]Jacobson Tor,Kasper F.Roszbach.Evaluating Bank Lending Policy and Consumer Credit Risk[J].Computational Finance,1999,(3).

[14]Joanes D.N.Reject Inference Applied to Logistic Regression for Cred?it Scoring[J].IMA Journal of Mathematics Applied in Business and Industry,1993,5(4).

[15]Little R.J.A.,Rubin D.B.Statistical Analysis with Missing Data[M].New York:John Wiley&Sons,1987.

[16]Naeem Siddiqi.Credit Risk Scorecards[M].JNew York:ohn Wiley&Sons,2006.

[17]Poirier,Dale J.Partial Observability in Bivariate Probit Model[J].Journal of Econometrics,1980,(12).

[18]Lyn C.Thomas,David B.,Edelman,Jonathan N.Crook.信用評(píng)分及其應(yīng)用[M].北京：中國(guó)金融出版社,2006.

[19]Kim Y.,Sohn S.Y.Technology Scoring Model Considering Rejected Applicantsand Effect of Reject Inference[J].Journal of the Operation?al Research Society,2007,(58).

[20]Verstraeten G,Van Den Poel D.The Impact of Sample Bias on Con?sumer Credit Scoring Performance and Profitability[J].Journal of the Operational Research Society,2005,(56).

[21]Wang Qihua,et al.Empirical Likelihood-Based Inference under Im?putation for Missing Response Data[J].The Annals of Statistics,2002,(30).

[22]陳建.信用評(píng)分模型技術(shù)與應(yīng)用[M].北京：中國(guó)財(cái)政經(jīng)濟(jì)出版社,2005.