国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Group MCP Logistic模型的個(gè)人信用評(píng)價(jià)分析

2015-08-10 14:35:10胡小寧何曉群馬學(xué)俊
現(xiàn)代管理科學(xué) 2015年8期

胡小寧 何曉群 馬學(xué)俊

摘要:在利用Logistic模型分析個(gè)人信用評(píng)價(jià)問(wèn)題時(shí),需要進(jìn)行變量選擇。Group MCP不僅可以將相關(guān)變量以組為單位進(jìn)行變量選擇,還可以對(duì)組內(nèi)變量進(jìn)行選擇。文章根據(jù)個(gè)人信貸數(shù)據(jù),建立了Group MCP Logistic模型,并與Group Lasso、Group Bridge所得的結(jié)果進(jìn)行比較,綜合考慮模型復(fù)雜度和預(yù)測(cè)正確率,發(fā)現(xiàn)根據(jù)Group MCP建立的模型效果是最優(yōu)的。

關(guān)鍵詞:Group MCP;Logistic模型;個(gè)人信用評(píng)價(jià);變量選擇

一、 引言

個(gè)人消費(fèi)信貸在我國(guó)迅速發(fā)展,對(duì)拉動(dòng)經(jīng)濟(jì)增長(zhǎng)起到了一定的促進(jìn)作用。但其中也隱藏著很大的潛在風(fēng)險(xiǎn),即信貸資產(chǎn)不能及時(shí)有效地收回。因此,急需建立完善的個(gè)人信用評(píng)價(jià)體系,從而降低信貸風(fēng)險(xiǎn)。個(gè)人信用評(píng)價(jià)的核心是建立不同客戶的信用評(píng)價(jià)模型,根據(jù)信用評(píng)價(jià)模型對(duì)信貸申請(qǐng)人進(jìn)行評(píng)分,從而決定是否給予貸款。

個(gè)人信用評(píng)價(jià)分析中,應(yīng)用最廣泛的方法有統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)兩類,前者在模型穩(wěn)健性和可解釋性上有很大的優(yōu)勢(shì)。統(tǒng)計(jì)分析方法中,學(xué)者最關(guān)注的是Logistic模型,其計(jì)算方法簡(jiǎn)單、預(yù)測(cè)準(zhǔn)確率高、變量解釋能力強(qiáng)。但當(dāng)Logistic模型涉及的變量很多時(shí),直接使用也存在多重共線性和計(jì)算復(fù)雜度等問(wèn)題。因此,變量選擇是個(gè)人信用評(píng)價(jià)問(wèn)題的重點(diǎn)和難點(diǎn)。

傳統(tǒng)的變量選擇方法有最優(yōu)子集法和逐步回歸法,但這些方法計(jì)算量大,且不穩(wěn)定,當(dāng)數(shù)據(jù)有微小變化時(shí),可能得到完全不同的模型,其結(jié)果往往是局部最優(yōu)解,并非全局最優(yōu)解,尤其當(dāng)變量個(gè)數(shù)大于樣本量時(shí),方法失效。Lasso是目前應(yīng)用廣泛的變量選擇方法,但在個(gè)人信用評(píng)價(jià)問(wèn)題研究中,許多解釋變量是定性變量,對(duì)其進(jìn)行數(shù)量化后引入大量的虛擬變量。在利用最優(yōu)子集、逐步回歸或Lasso進(jìn)行變量選擇時(shí),只能選擇某個(gè)虛擬變量,而不是將相關(guān)的虛擬變量作為整體進(jìn)行選擇。Group Lasso將相關(guān)虛擬變量作為整體進(jìn)行選擇,使其能夠整體剔除或保留在模型中,但并不能實(shí)現(xiàn)對(duì)群組內(nèi)變量的選擇。Group Bridge既可以實(shí)現(xiàn)選擇重要的組,也可以選擇這些組里面的重要變量,但其懲罰函數(shù)在某些點(diǎn)不可微。Group MCP(Group Minimax Concavepenalty)解決了Group Bridge不可微的問(wèn)題。

本文將建立基于Group MCP的Logistic模型,對(duì)個(gè)人信用評(píng)價(jià)的影響因素進(jìn)行選擇和分析,并將其與基于Group Lasso、Group Bridge所得的結(jié)果進(jìn)行比較。

二、 Group MCP Logistic模型

三、 實(shí)例分析

1. 數(shù)據(jù)來(lái)源。本文數(shù)據(jù)選用的是德國(guó)某銀行的個(gè)人信貸數(shù)據(jù)集合。該數(shù)據(jù)集中有1 000條記錄,包括21個(gè)字段,其中前20個(gè)字段為信貸申請(qǐng)人的個(gè)人特征描述,最后1個(gè)字段是銀行對(duì)客戶信用級(jí)別的定義:0為“差客戶”,1為“好客戶”。

本文所用數(shù)據(jù)包括21個(gè)字段,將其進(jìn)行處理、編碼后的結(jié)果(解釋變量20組共52個(gè),因變量1個(gè))見(jiàn)表1。

原始數(shù)據(jù)中,信貸期限(x2)、貸款金額(x5)、當(dāng)前居住地居住時(shí)間(x11)、年齡(x13)為連續(xù)型數(shù)據(jù),為克服量綱的影響,將其標(biāo)準(zhǔn)化處理后再進(jìn)行分析。

本文所用數(shù)據(jù)集中,包括700條信用“好客戶”和300條信用“差客戶”,分別從中隨機(jī)抽取80%用作訓(xùn)練集,剩余20%用作測(cè)試集。訓(xùn)練集中信用“差客戶”與“好客戶”的數(shù)量比為3:7,數(shù)據(jù)不平衡比較明顯,為了降低數(shù)據(jù)不平衡對(duì)分析結(jié)果造成的影響。采用Random Oversampling方法在信用差客戶中生成120條記錄參與建立模型。

2. Group MCP Logistic模型的建立。本文數(shù)據(jù)分析通過(guò)R軟件的grpreg程序包完成,得到非零解釋變量11組共18個(gè),系數(shù)壓縮為零的解釋變量9組共34個(gè),見(jiàn)表2。

由表2可以看出:現(xiàn)有支票賬戶(x1組)額度越高的客戶,違約的概率越小(x1_13. 模型比較。本文還建立了基于Group Lasso和GroupBridge的Logistic模型,其參數(shù)估計(jì)的結(jié)果見(jiàn)表3。

從模型復(fù)雜度上來(lái)比較:Group Lasso保留了13組共31個(gè)變量;Group Bridge保留了7組共17個(gè)解釋變量;Group MCP保留了11組共18個(gè)變量。Group MCP與Group Lasso相比,保留變量的組數(shù)差不多,但變量個(gè)數(shù)前者比后者大大減少,Group MCP在組內(nèi)選擇變量的優(yōu)勢(shì)得到體現(xiàn)。Group MCP與Group Bridge相比,保留的變量個(gè)數(shù)只差1個(gè),但前者比后者保留的組數(shù)多了4個(gè),表明Group MCP保留了更多的組信息。

從模型預(yù)測(cè)正確率上來(lái)比較,表3說(shuō)明,基于Group MCP建立的Logistic模型,在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)正確率要優(yōu)于Group Bridge;在訓(xùn)練集上預(yù)測(cè)的正確率,Group Lasso要高于Group MCP和Group Bridge,而測(cè)試集上的預(yù)測(cè)正確率,Group MCP要優(yōu)于Group Lasso,尤其是“差客戶”的預(yù)測(cè)正確率上提升很大,這可能是由于Group Lasso沒(méi)有進(jìn)行組內(nèi)變量選擇,從而保留了過(guò)多的解釋變量,有一定的過(guò)擬合現(xiàn)象。因此,綜合考慮,Group MCP的Logistic模型效果最好。

四、 結(jié)論

建立Logistic模型是個(gè)人信用評(píng)價(jià)分析中應(yīng)用最為廣泛的方法。當(dāng)解釋變量尤其是虛擬變量過(guò)多時(shí),需要進(jìn)行以組為單位的變量選擇。Group Lasso可以解決組變量的選擇問(wèn)題,將相關(guān)的變量作為組進(jìn)行整體剔除或保留在模型中,但在組內(nèi),不能夠進(jìn)行變量選擇。Group MCP改進(jìn)了Group Lasso算法,不僅僅能夠進(jìn)行組變量選擇,也能在組內(nèi)淘汰掉不顯著的解釋變量。

本文利用具體的個(gè)人信貸數(shù)據(jù),建立了Group MCP Logistic模型,與Group Lasso和Group Bridge方法進(jìn)行比較,綜合考慮模型復(fù)雜度和預(yù)測(cè)正確率,發(fā)現(xiàn)Group MCP方法是最優(yōu)的。

因此,基于Group MCP方法建立的Logistic模型,能夠很好地應(yīng)用在個(gè)人信用評(píng)價(jià)問(wèn)題研究中。銀行可以結(jié)合自己積累的數(shù)據(jù),運(yùn)用Group MCP Logistic模型,選擇出對(duì)信用評(píng)分影響顯著的變量,對(duì)信貸申請(qǐng)人進(jìn)行信用評(píng)分后再?zèng)Q定是否給予貸款,可以很大程度上降低個(gè)人信貸風(fēng)險(xiǎn)。

參考文獻(xiàn):

[1] 方匡南,章貴軍,張惠穎.基于Lasso-logistic模型的個(gè)人信用風(fēng)險(xiǎn)預(yù)警方法[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究, 2014,(2):125-136.

[2] 朱曉明,劉治國(guó).信用評(píng)分模型綜述[J].統(tǒng)計(jì)與決策, 2007,(1):103-105.

[3] 石慶焱.一個(gè)基于神經(jīng)網(wǎng)絡(luò)-logistic回歸的混合兩階段個(gè)人信用評(píng)分模型研究[J].統(tǒng)計(jì)研究,2005,22(5):45-49.

[4] 胡心瀚,葉五一,繆柏其.上市公司信用風(fēng)險(xiǎn)分析模型中的變量選擇[J].數(shù)理統(tǒng)計(jì)與管理,2012,31(6): 1117-1124.

[5] 何曉群,劉文卿.應(yīng)用回歸分析(第三版)[M].北京:中國(guó)人民大學(xué)出版社,2011.

[6] 張景肖,劉燕平.函數(shù)性廣義線性模型曲線選擇的正則化方法[J].統(tǒng)計(jì)研究,2012,29(9):95-102.

[7] 龐素琳,鞏吉璋.C5.0分類算法及在銀行個(gè)人信用評(píng)級(jí)中的應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2009,29(12): 94-104.

基金項(xiàng)目:國(guó)家社科基金項(xiàng)目“個(gè)人信用評(píng)級(jí)的統(tǒng)計(jì)建模研究與應(yīng)用”(項(xiàng)目號(hào):13BTJ004)。

作者簡(jiǎn)介:何曉群(1954-),男,漢族,陜西省西安市人,中國(guó)人民大學(xué)應(yīng)用統(tǒng)計(jì)科學(xué)研究中心、中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院教授、博士生導(dǎo)師,研究方向?yàn)榻y(tǒng)計(jì)模型、六西格瑪管理;胡小寧(1986-),男,漢族,河南省濮陽(yáng)市人,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院博士生,研究方向?yàn)閼?yīng)用數(shù)理統(tǒng)計(jì);馬學(xué)?。?986-),男,漢族,安徽省潁上縣人,中國(guó)人民大學(xué)統(tǒng)計(jì)學(xué)院博士生,研究方向?yàn)閼?yīng)用數(shù)理統(tǒng)計(jì)。

收稿日期:2015-06-16。

阿拉善左旗| 福泉市| 宁波市| 浦城县| 临城县| 榕江县| 嘉兴市| 辽阳县| 尼木县| 云安县| 神池县| 寻乌县| 渝北区| 平顺县| 京山县| 略阳县| 临城县| 奉贤区| 乌兰浩特市| 湖北省| 独山县| 渝中区| 宜都市| 右玉县| 南华县| 海丰县| 舒城县| 新巴尔虎左旗| 壶关县| 桃园县| 宁远县| 大余县| 孟村| 曲阜市| 苗栗市| 新化县| 温泉县| 莲花县| 胶州市| 灵川县| 济阳县|