混合型數(shù)據(jù)判別的二階段法及其在個(gè)人信用評(píng)級(jí)中的應(yīng)用

2023-01-06 10:48:24趙雪艷徐新華

南昌大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版) 2022年6期

趙雪艷，徐新華

(南昌大學(xué) 經(jīng)濟(jì)管理學(xué)院，江西南昌 330031)

一、引言

數(shù)量化理論是由日本學(xué)者林知己夫教授在1940年提出，他先后提出了六類數(shù)量化理論，其中數(shù)量化Ⅰ—Ⅳ類已被國(guó)內(nèi)外廣泛使用。菅民郎等對(duì)定性數(shù)據(jù)進(jìn)行判別的數(shù)量化Ⅱ類方法及應(yīng)用進(jìn)行了梳理[1]53；巖坪秀一對(duì)數(shù)量化理論進(jìn)行了研究[2]63。在日本最常用的定性數(shù)據(jù)判別分析方法是數(shù)量化Ⅱ類，在法國(guó)是Disqual法，對(duì)應(yīng)分析法是研究定性變量構(gòu)成的交互匯總表揭示變量之間的聯(lián)系，出現(xiàn)了“弓形效應(yīng)”。Ter Bcjf提出對(duì)應(yīng)分析法存在一個(gè)弊端，第二排序軸在許多情況下是第一軸的二次變形，把這種現(xiàn)象稱為“弓形效應(yīng)”[3]168。為修正“弓形效應(yīng)”，避免可能導(dǎo)致錯(cuò)誤分析結(jié)果，Hill和Gauch在對(duì)應(yīng)分析法的基礎(chǔ)上提出了除趨勢(shì)對(duì)應(yīng)分析(Detrended Correspondence Analysis，DCA)[4]49，Braak提出了除趨勢(shì)典范對(duì)應(yīng)分析(Detrended Canonical Correspond Analysis，DCCA)[5]18，Saito和Otsu提出了OSMOD MODEL[6]8；足立浩平提出了等質(zhì)性分析[7]489；Aoki和Sato提出了Hermitian多項(xiàng)式的修正法[8]6。

據(jù)調(diào)查，國(guó)內(nèi)關(guān)于對(duì)應(yīng)分析法弓形效應(yīng)修正方法的研究較少，主要在修正方法的應(yīng)用上，提出典型相關(guān)分析的增量建模方法，通過(guò)協(xié)方差分解，實(shí)現(xiàn)對(duì)典型相關(guān)性的精確計(jì)算，在保證計(jì)算準(zhǔn)確性的前提下，提高了運(yùn)算效率。賈曉妮對(duì)DCA、典型相關(guān)分析(Canonical Correlation Analysis，CCA)和DCCA三種排序方法進(jìn)行了總結(jié)，討論了它們?cè)谥袊?guó)草地植被群落中的應(yīng)用現(xiàn)狀，并且提出由于DCCA考慮了“弓形效應(yīng)”修正，因此DCCA的使用效果最佳[9]392。李鎮(zhèn)清用描述群落最小剩余碼的平均碼長(zhǎng)L(S)測(cè)度群落總復(fù)雜性，用Renyi熵測(cè)度非組織復(fù)雜性，并將它們之差(S)作為組織復(fù)雜性或群落結(jié)構(gòu)復(fù)雜性的測(cè)度，以CCA和剩余分析RA為基礎(chǔ)，發(fā)展一種包括環(huán)境、空間格局和物種相互作用三個(gè)方面因素的植物群落數(shù)量分析方法，并在數(shù)據(jù)變化中分離出了這幾個(gè)方面的變化[10]320。

人們?cè)絹?lái)越多地意識(shí)到數(shù)據(jù)的重要性，對(duì)大數(shù)據(jù)分析方法進(jìn)行了大量的研究。何育朋提出大規(guī)模數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)多具有混合屬性，傳統(tǒng)算法往往忽視多種屬性之間的關(guān)聯(lián)性，算法復(fù)雜，聚類速度慢，效果差，對(duì)此提出一種基于劃分聚類的混合大規(guī)模數(shù)據(jù)庫(kù)中數(shù)值型數(shù)據(jù)聚類算法，實(shí)現(xiàn)了混合大規(guī)模數(shù)據(jù)庫(kù)中數(shù)值型數(shù)據(jù)的聚類[11]120。劉超等為了解決混合型數(shù)據(jù)的聚類問(wèn)題，將聚類方法K-prototypes與ClustMD進(jìn)行比較，改進(jìn)了關(guān)鍵參數(shù)選擇方法。結(jié)果表明，當(dāng)數(shù)據(jù)相關(guān)關(guān)系強(qiáng)、數(shù)據(jù)缺失嚴(yán)重或非連續(xù)變量較多時(shí)，建議使用K-prototypes[12]65。李鑫、白亮將基聚類與原數(shù)據(jù)看作一個(gè)混合型數(shù)據(jù)，提出了一種基于混合型數(shù)據(jù)表示的聚類集成算法，該算法通過(guò)不斷迭代更新獲得更好的基聚類，且結(jié)果保持了對(duì)原數(shù)據(jù)類結(jié)構(gòu)和基聚類的一致性，與其他聚類集成算法進(jìn)行了比較，基于混合型數(shù)據(jù)表示的聚類集成算法是有效的[13]91。

關(guān)于信用評(píng)級(jí)方法研究，目前最常用的方法有判別分析法、神經(jīng)網(wǎng)絡(luò)、Logistic模型。在國(guó)外，Wiginton將Logistic模型與判別分析法對(duì)比，認(rèn)為L(zhǎng)ogistic模型比判別分析法效果更好[14]759。West認(rèn)為神經(jīng)網(wǎng)絡(luò)模型并不比Logistic預(yù)測(cè)效果好[15]1133。Myers和Forgy采用判別分析法建立了信用評(píng)分模型對(duì)特定領(lǐng)域作了實(shí)證分析[16]780。在國(guó)內(nèi)，方匡南等運(yùn)用判別分析法構(gòu)建樣本評(píng)分模型，再用神經(jīng)網(wǎng)絡(luò)法對(duì)樣本進(jìn)行評(píng)分預(yù)測(cè)，并對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)得分進(jìn)行降序排列得到有序樣本，最后進(jìn)行有序樣本最優(yōu)分割，實(shí)現(xiàn)了個(gè)人信用的等級(jí)劃分[17]93。廖欣婷等隨機(jī)抽取了8 371名銀行信用卡客戶的樣本數(shù)據(jù),利用構(gòu)建Probit與Logistics模型對(duì)其信用卡逾期風(fēng)險(xiǎn)進(jìn)行評(píng)估[18]72。陳湘州等以2014—2019年深交所中小企業(yè)板制造業(yè)中符合要求的中小企業(yè)為樣本,基于MLP神經(jīng)網(wǎng)絡(luò)構(gòu)建了中小企業(yè)供應(yīng)鏈金融信用風(fēng)險(xiǎn)評(píng)估模型，結(jié)果表明，所建立模型的準(zhǔn)確率高、穩(wěn)定性強(qiáng),是中小企業(yè)供應(yīng)鏈金融信用風(fēng)險(xiǎn)評(píng)估的理想模型。邱澤國(guó)等基于Lasso-RF兩階段特征選擇，選取邏輯回歸、支持向量機(jī)、隨機(jī)森林、決策樹(shù)等常用的信用評(píng)估分類算法，分別從準(zhǔn)確率、精確率、召回率和F1值4個(gè)指標(biāo)證明了兩階段特征選擇方法在個(gè)人信用風(fēng)險(xiǎn)評(píng)估上具有更好的分類效果[19]90。曹小林等以貝葉斯網(wǎng)絡(luò)理論為基礎(chǔ)，構(gòu)建了基于貝葉斯網(wǎng)絡(luò)的個(gè)人信用評(píng)價(jià)模型，采用隨機(jī)森林算法對(duì)各指標(biāo)的重要性進(jìn)行了預(yù)測(cè)，并以人人貸數(shù)據(jù)為研究樣本建立樹(shù)增強(qiáng)樸素貝葉斯網(wǎng)絡(luò)模型進(jìn)行實(shí)證研究，通過(guò)對(duì)樣本內(nèi)和外預(yù)測(cè)精度的考察，驗(yàn)證了模型的穩(wěn)健性[20]154。王曉慧、李云飛針對(duì)個(gè)人信用等級(jí)的多分類問(wèn)題進(jìn)行了研究，通過(guò)建立個(gè)人信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系，運(yùn)用判別分析法構(gòu)建關(guān)于樣本的評(píng)分模型，得到判別得分；再用神經(jīng)網(wǎng)絡(luò)法對(duì)樣本進(jìn)行評(píng)分預(yù)測(cè)，得到對(duì)應(yīng)得分，并對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)得分進(jìn)行降序排列得到有序樣本，最后進(jìn)行有序樣本最優(yōu)分割，從而實(shí)現(xiàn)個(gè)人信用的等級(jí)劃分[21]65。趙海鵬、李丹從個(gè)人信貸的定義出發(fā)，先總結(jié)了國(guó)內(nèi)外個(gè)人信貸評(píng)估的經(jīng)驗(yàn)理論，再根據(jù)模型評(píng)價(jià)和綜合評(píng)判兩個(gè)方面進(jìn)行模式創(chuàng)新，通過(guò)實(shí)證研究，挖掘出了決定我國(guó)個(gè)人信用狀況的重要變量，又利用Logistic回歸這一經(jīng)典計(jì)量模型擴(kuò)展了客戶進(jìn)行信用評(píng)分[22]113。

國(guó)內(nèi)外學(xué)者在對(duì)應(yīng)分析法“弓形效應(yīng)”修正方法及應(yīng)用方面已經(jīng)取得了豐富的研究成果，避免了可能錯(cuò)誤的分析結(jié)果。關(guān)于定性數(shù)據(jù)的數(shù)量化理論，日本學(xué)者林知己夫先后提出了六類數(shù)量化理論，經(jīng)研究發(fā)現(xiàn)數(shù)量化Ⅱ類出現(xiàn)了“弓形效應(yīng)”，“弓形效應(yīng)”的出現(xiàn)會(huì)降低正判別率(Correct Discriminant Rate，CDR)，同時(shí)不能真實(shí)再現(xiàn)原始數(shù)據(jù)信息，可能導(dǎo)致錯(cuò)誤的分析結(jié)果，需要修正。隨著大數(shù)據(jù)時(shí)代的來(lái)臨，人們?cè)絹?lái)越重視數(shù)據(jù)的重要性。如何從大量的、雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出具有某些特定價(jià)值、意義的數(shù)據(jù)顯得至關(guān)重要，國(guó)內(nèi)外學(xué)者對(duì)于大數(shù)據(jù)分析方法研究取得了一定成果。信用評(píng)級(jí)目前最常用的方法——判別分析法、神經(jīng)網(wǎng)絡(luò)和Logistic模型中，哪一種判別方法的判別性能更好，目前還沒(méi)有一致的結(jié)論。本研究的目的是提出一種修正數(shù)量化Ⅱ類“弓形效應(yīng)”，同時(shí)實(shí)現(xiàn)混合型大數(shù)據(jù)判別分析方法二階段判別分析法(以下簡(jiǎn)稱二階段法)，并將其應(yīng)用到個(gè)人信用評(píng)級(jí)中。

本文的創(chuàng)新點(diǎn)主要體現(xiàn)在三個(gè)方面。第一，檢驗(yàn)了數(shù)量化Ⅱ類“弓形效應(yīng)”的存在及存在形式，根據(jù)變量間相關(guān)關(guān)系的強(qiáng)弱，提出了“弓形效應(yīng)”修正方法二階段法的兩種模型M3、M4。第二，隨著云時(shí)代的來(lái)臨，大數(shù)據(jù)吸引了越來(lái)越多的關(guān)注，人們?cè)絹?lái)越多地意識(shí)到數(shù)據(jù)的重要性，大數(shù)據(jù)的特點(diǎn)是定量與定性數(shù)據(jù)混合于一體，數(shù)據(jù)量龐雜，然而只能對(duì)定性或定量數(shù)據(jù)進(jìn)行判別的數(shù)量化Ⅱ類、Disqual法、線性判別分析法等不能滿足現(xiàn)實(shí)需求。為實(shí)現(xiàn)大數(shù)據(jù)分析，需要對(duì)二階段法進(jìn)行進(jìn)一步的拓展研究，提出判別模型M5，使其實(shí)現(xiàn)定性定量混合型數(shù)據(jù)的判別，更好的服務(wù)實(shí)務(wù)界。第三，將拓展后的二階段法M5應(yīng)用到個(gè)人信用評(píng)級(jí)中，個(gè)人信貸數(shù)據(jù)為定量定性混合型，研究結(jié)果顯示二階段法的判定性能優(yōu)異。

二、混合型數(shù)據(jù)判別方法的理論基礎(chǔ)

數(shù)量化Ⅱ類研究定性數(shù)據(jù)是根據(jù)個(gè)體觀測(cè)指標(biāo)特征來(lái)推斷該個(gè)體所屬類型的一種判別分析方法。其基本思想是以反應(yīng)矩陣為基礎(chǔ)，對(duì)各類目賦予適當(dāng)?shù)牡梅郑鶕?jù)已知若干母體中的n個(gè)樣本對(duì)于Q個(gè)項(xiàng)目的觀測(cè)結(jié)果尋求線性判別函數(shù)，進(jìn)而對(duì)母體的樣本進(jìn)行判別分類。

(1)

根據(jù)Fisher判別準(zhǔn)則，借助方差分析的思想，通過(guò)準(zhǔn)則函數(shù)方差比η2最大，求解線性判別函數(shù)，尋找最優(yōu)的判別系數(shù)αjk，將不同性質(zhì)的類在最大程度上進(jìn)行分離，從而達(dá)到類判別的效果。方差比為：

(2)

(3)

對(duì)式(3)進(jìn)行整理：

等式兩邊同時(shí)乘以T的逆矩陣：

(T-1B-λI)α=0

(4)

I表示單位矩陣，λ(=η2)表示特征值，α表示特征向量。

求解式(4)，需除去各項(xiàng)目中的任意一類目(可為第1個(gè)或最后1個(gè))，找到T-1B的特征值λ，求解特征向量α。特征向量即判別系數(shù)矩陣α是將特征向量按照特征值λ大小順序從左往右排列的矩陣，記為α=[α1,α2,…,αm]。將α中的α1、α2作為第一、二象限判別系數(shù)，在二維坐標(biāo)軸上做出相應(yīng)的散點(diǎn)圖，其散點(diǎn)圖呈現(xiàn)“弓形”，把這種現(xiàn)象稱為“弓形效應(yīng)”。數(shù)量化Ⅱ類存在“弓形效應(yīng)”，對(duì)判別結(jié)果存在兩個(gè)方面的不良影響：

(1)根據(jù)個(gè)體指標(biāo)推斷該個(gè)體屬于哪個(gè)類別時(shí)，由于出現(xiàn)“弓形效應(yīng)”，會(huì)降低正判別率(CDR)。

(2)對(duì)判別結(jié)果進(jìn)行因子分析時(shí)，不能正確反映潛在連續(xù)型變量(Potentially Continuous Variables，PCV)即原始數(shù)據(jù)信息(本文設(shè)定原始數(shù)據(jù)信息為等間隔遞增)，可能導(dǎo)致分析結(jié)果與PCV信息不符，得出錯(cuò)誤結(jié)論。

為修正“弓形效應(yīng)”，本文提出二階段法M3、M4，為實(shí)現(xiàn)混合型數(shù)據(jù)判別提出拓展的二階段法M5。

(一)二階段法(M3、M4)——“弓形效應(yīng)”修正

傳統(tǒng)定性數(shù)據(jù)判別分析法數(shù)量化Ⅱ類存在“弓形效應(yīng)”，對(duì)判別結(jié)果主要存在兩個(gè)方面的不良影響：

(1)主要目的是對(duì)樣本數(shù)據(jù)進(jìn)行群判別時(shí)，第一、二排序軸間的相關(guān)關(guān)系將產(chǎn)生“弓形效應(yīng)”，影響判別性能，降低正判別率。

(2)主要目的是對(duì)判別結(jié)果進(jìn)行因子分析時(shí)，由于“弓形效應(yīng)”的存在將導(dǎo)致不能正確反映潛在連續(xù)型變量信息，可能導(dǎo)致錯(cuò)誤的分析結(jié)果。

另外，在實(shí)際應(yīng)用中，自變量間存在較強(qiáng)相關(guān)關(guān)系和較弱或沒(méi)有相關(guān)關(guān)系的情況。二階段法根據(jù)變量間的相關(guān)關(guān)系強(qiáng)弱提出兩種判別模型M3、M4，M3主要針對(duì)自變量間存在較強(qiáng)相關(guān)關(guān)系的情況，M4主要針對(duì)變量間存在較弱或不相關(guān)，但自變量與基準(zhǔn)變量間存在較強(qiáng)相關(guān)關(guān)系的情況。二階段法主要包括兩個(gè)步驟：

步驟1：找到適合的第一象限判別系數(shù)，對(duì)定性數(shù)據(jù)進(jìn)行數(shù)量化；

(1)M3：CCA(Gjvs G-j|GE)

GE表示基準(zhǔn)變量，Gj表示其中一個(gè)自變量，G-j表示除Gj以外的所有自變量，從Gj以及G-j中除去GE的回歸效果后進(jìn)行CCA。當(dāng)各自變量間存在較強(qiáng)相關(guān)關(guān)系情況下，去除基準(zhǔn)變量GE的影響，可以期待提高判別系數(shù)的有效性，提高正判別率。

(2)M4：CCA(Gjvs GE|G-j)

從Gj以及GE中除去G-j的回歸效果后進(jìn)行CCA，當(dāng)各自變量間相關(guān)關(guān)系較弱，但是各自變量與基準(zhǔn)變量間存在較強(qiáng)相關(guān)關(guān)系的情況下，去除其他自變量的影響，可以期待提高判別系數(shù)的有效性，提高正判別率。

步驟2：對(duì)數(shù)量化后的數(shù)據(jù)進(jìn)行線性判別分析LDA。

(二)拓展的二階段法M5——混合型數(shù)據(jù)判別

數(shù)據(jù)多為定量、定性的混合型，只能對(duì)定性數(shù)據(jù)進(jìn)行判別的二階段法不能適應(yīng)當(dāng)下需求，因此對(duì)二階段法需要做進(jìn)一步的拓展研究，使其實(shí)現(xiàn)混合型數(shù)據(jù)判別，主要包括三個(gè)步驟：

(1)為定性變量找到最適合的第一象限數(shù)量化系數(shù)M3：CCA(Gjvs G(-j)|Ge)，從Gj以及G-j中除去GE的回歸效果后進(jìn)行CCA。通過(guò)數(shù)量化系數(shù)對(duì)定性變量進(jìn)行數(shù)量化，生成連續(xù)型數(shù)據(jù)。

(2)將自變量中的定量變量與數(shù)量化后的連續(xù)型變量進(jìn)行合并，生成判別分析模型中的連續(xù)型自變量。

(3)對(duì)連續(xù)型自變量與基準(zhǔn)變量進(jìn)行線性判別分析LDA，實(shí)現(xiàn)混合型數(shù)據(jù)判別。

為了對(duì)以上模型的判別性能進(jìn)行對(duì)比及檢驗(yàn)，將進(jìn)行模擬數(shù)據(jù)分析，主要從CDR指標(biāo)進(jìn)行評(píng)價(jià)。

三、數(shù)量化Ⅱ類“弓形效應(yīng)”檢驗(yàn)

對(duì)應(yīng)分析法在對(duì)定性數(shù)據(jù)數(shù)量化過(guò)程中出現(xiàn)了“弓形效應(yīng)”，“弓形效應(yīng)”的存在可能導(dǎo)致錯(cuò)誤的分析結(jié)果，為此關(guān)于對(duì)應(yīng)分析法“弓形效應(yīng)”的修正方法進(jìn)行了大量研究，并取得了豐富的研究成果。數(shù)量化Ⅱ類是對(duì)定性數(shù)據(jù)進(jìn)行數(shù)量化再進(jìn)行判別分析，那么在對(duì)定性數(shù)據(jù)數(shù)量化過(guò)程中是否存在“弓形效應(yīng)”？如果存在，是以怎樣的形式存在？本文通過(guò)模擬數(shù)據(jù)對(duì)這兩個(gè)問(wèn)題進(jìn)行考察。

(一)模擬數(shù)據(jù)生成

1.生成潛在連續(xù)型變量

潛在連續(xù)型變量滿足正態(tài)假定，生成要素包括：樣本容量N；基準(zhǔn)變量GE，E表示類別號(hào)；自變量(x1，x2，…，xn)；均值向量μE；相關(guān)系數(shù)矩陣∑=(σij)n×n，其中σij=cov(xi,xj)，i,j=1,2,…,n。根據(jù)以上要素生成潛在連續(xù)型變量(Potential Continuous Variables，PCV)，即原始數(shù)據(jù)信息。

2.生成定性變量

對(duì)生成的連續(xù)型變量可采用兩種方式生成定性變量：(1)對(duì)自變量進(jìn)行等段數(shù)、等間隔、遞增的分割；(2)對(duì)自變量進(jìn)行不等段數(shù)、等間隔、遞增的分割。具體采用哪一種方式可根據(jù)數(shù)據(jù)的分布情況進(jìn)行選擇，對(duì)分割后的變量賦予相應(yīng)的類別數(shù)據(jù)，即生成定性變量。生成的定性變量將保持潛在連續(xù)型變量遞增的特性。如圖1所示生成的連續(xù)型自變量x1、x2、x3，可以采用第二種方式，不等段數(shù)、等間隔、遞增的分割，生成定性變量。

(二)“弓形效應(yīng)”的檢驗(yàn)

數(shù)量化Ⅱ類是否存在“弓形效應(yīng)”，要從理論證明存在一定困難，目前最直接有效的方法是通過(guò)模擬數(shù)據(jù)進(jìn)行檢驗(yàn)。通過(guò)以上方法生成的定性數(shù)據(jù)進(jìn)行數(shù)量化Ⅱ類分析，檢驗(yàn)“弓形效應(yīng)”是否存在?！肮涡?yīng)”存在形式的影響因素主要考慮樣本容量n。

樣本容量n分別取300、1500、6000、30000，圖1是自變量x1、x2、x3第一、二象限數(shù)量化系數(shù)分布圖,判別影響大小排序x1>x2>x3。

“Ο”表示x1、“△”表示x2、“×”表示x3圖1 變量x1、x2、x3的第一、二象限數(shù)量化系數(shù)分布圖

(三)檢驗(yàn)結(jié)論

1.生成的潛在連續(xù)型變量是按照等間隔遞增分割的，那么希望數(shù)量化Ⅱ類對(duì)定性數(shù)據(jù)進(jìn)行數(shù)量化后，數(shù)量化系數(shù)能夠反映遞增這一原始數(shù)據(jù)信息，從圖1的研究結(jié)果發(fā)現(xiàn)，第一、二象限數(shù)量化系數(shù)沒(méi)有真實(shí)再現(xiàn)遞增現(xiàn)象，出現(xiàn)了“弓形效應(yīng)”。

2.數(shù)據(jù)的樣本容量無(wú)論大小都存在“弓形效應(yīng)”，對(duì)“弓形效應(yīng)”強(qiáng)弱的影響不大。

3.對(duì)判別效果影響最大的變量x1，受“弓形效應(yīng)”影響最顯著。

四、二階段法與數(shù)量化Ⅱ類判別性能的比較

(一)M3與數(shù)量化Ⅱ類的比較

二階段法M3，當(dāng)各自變量間存在較強(qiáng)相關(guān)關(guān)系情況下，在數(shù)量化過(guò)程中去除基準(zhǔn)變量GE的影響，可以提高判別系數(shù)的有效性，提高正判別率。模擬數(shù)據(jù)分析首先通過(guò)訓(xùn)練數(shù)據(jù)建立判別模型，再通過(guò)測(cè)試數(shù)據(jù)檢驗(yàn)?zāi)Ｐ偷呐袆e性能，比較M3與數(shù)量化Ⅱ類判別性能的優(yōu)劣。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分別選取多種不同的自變量個(gè)數(shù)、樣本容量，分別生成100組數(shù)據(jù)，應(yīng)用M3和數(shù)量化Ⅱ類對(duì)數(shù)據(jù)進(jìn)行判別分析，可計(jì)算出M3的100個(gè)CDR和數(shù)量化Ⅱ類的100個(gè)CDR，兩兩進(jìn)行比較并分別累計(jì)優(yōu)勝次數(shù)，并對(duì)比較結(jié)果進(jìn)行Wilcoxon檢驗(yàn)，如表(1)所示。

(二)M4與數(shù)量化Ⅱ類的比較

二階段法M4，當(dāng)各自變量間相關(guān)關(guān)系較弱，但是各自變量與基準(zhǔn)變量間存在較強(qiáng)相關(guān)關(guān)系的情況下，去除其他自變量的影響，可以期待提高判別系數(shù)的有效性，提高正判別率。M4與數(shù)量化Ⅱ類的對(duì)比分析如表2所示。

表1 M3與數(shù)量化Ⅱ類的CDR比較與Wilcoxon檢驗(yàn)

(三)M3與潛在連續(xù)型變量及數(shù)量化ⅡCDR的比較

1.M3與潛在連續(xù)型變量及數(shù)量化ⅡCDR的比較

表3取K=10，對(duì)數(shù)據(jù)進(jìn)行潛在連續(xù)型變量、數(shù)量化Ⅱ類和M3三種判別方法進(jìn)行了判別分析，發(fā)現(xiàn)當(dāng)樣本容量小于1500時(shí)，數(shù)量化Ⅱ類的平均CDR大于潛在連續(xù)型變量的CDR，這屬于不合理現(xiàn)象，表明數(shù)量化Ⅱ類在樣本容量N很小的情況下會(huì)夸大CDR。

2.M4與潛在連續(xù)型變量及數(shù)量化ⅡCDR的比較

表4取K=10，對(duì)數(shù)據(jù)進(jìn)行潛在連續(xù)型變量、數(shù)量化Ⅱ類和M4三種判別方法進(jìn)行判別分析，與M3的分析結(jié)論一樣，當(dāng)樣本容量小于1500時(shí)，數(shù)量化Ⅱ類的平均CDR大于潛在連續(xù)型變量的CDR，再次表明數(shù)量化Ⅱ類在樣本容量N很小的情況下會(huì)夸大CDR。

表2 M4與數(shù)量化Ⅱ類的CDR比較與Wilcoxon檢驗(yàn)

表3 潛在連續(xù)型變量、數(shù)量化Ⅱ類和M3的判別性能比較

(四)0.632 Bootstrap推斷

在實(shí)際數(shù)據(jù)分析中，沒(méi)有測(cè)試數(shù)據(jù)，只有樣本數(shù)據(jù)，希望從樣本數(shù)據(jù)中推斷出測(cè)試數(shù)據(jù)的結(jié)果，因此，使用0.632 Bootstrap推斷。檢驗(yàn)數(shù)量化Ⅱ類和M3、數(shù)量化Ⅱ和M4的判別性能，對(duì)數(shù)據(jù)進(jìn)行0.632 Bootstrap推斷，訓(xùn)練集中含有63.2%的數(shù)據(jù)，測(cè)試集中含有36.8%的數(shù)據(jù)，是小數(shù)據(jù)錯(cuò)誤率估計(jì)的最好辦法。結(jié)果如表5、表6所示。

表4 潛在連續(xù)型變量、數(shù)量化Ⅱ類和M4的判別性能比較

(五)結(jié)論

數(shù)量化Ⅱ類出現(xiàn)了弓形效應(yīng)，降低了正判別率，為修正弓形效應(yīng)提出二階段法，即在第一階段進(jìn)行數(shù)量化，修正弓形效應(yīng)；在第二階段進(jìn)行線性判別，以便在不受弓形效應(yīng)影響的情況下進(jìn)行判別分析。作為第一階段的數(shù)量化方法，提出了兩種模型M3和M4。當(dāng)說(shuō)明變量間存在較高相關(guān)關(guān)系的情況下應(yīng)用M3模型，當(dāng)說(shuō)明變量間相關(guān)關(guān)系較低時(shí)應(yīng)用M4模型。表5和表6的分析結(jié)果如下：

表5 數(shù)量化Ⅱ類和M3的判別性能比較(0.632 Rootstrap)

表6 數(shù)量化Ⅱ類和M4的判別性能比較(0.632 Rootstrap)

1.訓(xùn)練數(shù)據(jù)

(1)表1、表2的CDR優(yōu)勝次數(shù)表明，樣本容量越增加M3、M4優(yōu)于數(shù)量化Ⅱ類的效果越明顯。

(2)表1、表2的分析結(jié)果顯示，當(dāng)變量個(gè)數(shù)K較小時(shí)，M3、M4與數(shù)量化Ⅱ類判別性能分界點(diǎn)所需的樣本容量較小；當(dāng)變量個(gè)數(shù)K較大時(shí)，M3、M4與數(shù)量化Ⅱ類判別性能分界點(diǎn)所需的樣本容量較大。

(3)表3、表4的分析結(jié)果顯示，當(dāng)樣本容量較小時(shí)數(shù)量化Ⅱ類的CDR比潛在連續(xù)型變量的CDR大，說(shuō)明當(dāng)樣本容量較小時(shí)數(shù)量化Ⅱ類夸大了CDR，二階段法M3、M4的CDR接近但小于潛在連續(xù)型變量，沒(méi)有出現(xiàn)夸大CDR的情況。

2.測(cè)試數(shù)據(jù)

(1)表1、表2的分析結(jié)果顯示，對(duì)于所有樣本，M3、M4的判別性能都高于數(shù)量化Ⅱ類。

(2)表1、表2的CDR優(yōu)勝次數(shù)表明，隨著樣本容量的增加，M3、M4優(yōu)于數(shù)量化Ⅱ類的效果越明顯。

(3)表5、表6的0.632Bootstrap分析結(jié)果顯示，測(cè)試數(shù)據(jù)二階段法M3、M4的CDR均高于數(shù)量化Ⅱ類，說(shuō)明0.632Bootstrap做出了比較精準(zhǔn)的推斷。

五、二階段法的拓展M5

(一)模擬數(shù)據(jù)生成

1.連續(xù)型變量的生成

生成連續(xù)型變量，將變量分成兩組，一組A1，A2，……用來(lái)進(jìn)行數(shù)量化，另外一組B1，B2，……，對(duì)判別分析影響排序A1>A2>……，B1>B2>……，基準(zhǔn)變量GE，E表示類別號(hào)。

2.定性變量生成

(二)找到適合的第一象限系數(shù)對(duì)定性數(shù)據(jù)進(jìn)行數(shù)量化

(三)線性判別分析LDA

(四)模擬數(shù)據(jù)研究

由表7的分析結(jié)果顯示，M5的判別性能會(huì)隨著自變量個(gè)數(shù)和樣本容量的增加而更加優(yōu)異。

表7 M5的判別性能

六、二階段法在個(gè)人信用評(píng)級(jí)中的應(yīng)用

個(gè)人信用評(píng)級(jí)體系是一個(gè)國(guó)家信用體系的重要組成部分，在國(guó)民經(jīng)濟(jì)增長(zhǎng)與社會(huì)生活的各個(gè)方面，尤其是在商業(yè)銀行開(kāi)展個(gè)人消費(fèi)信貸業(yè)務(wù)中發(fā)揮重要作用。在西方發(fā)達(dá)國(guó)家，個(gè)人信貸制度已有100多年歷史，這些國(guó)家的個(gè)人信用評(píng)級(jí)體系已經(jīng)相當(dāng)發(fā)達(dá)和完善。完善的個(gè)人信用評(píng)級(jí)體系不僅能進(jìn)一步提高市場(chǎng)資源配置效率，而且可以促進(jìn)個(gè)人信貸消費(fèi)，拉動(dòng)市場(chǎng)消費(fèi)狀況，從而改變目前主要由投資拉動(dòng)的經(jīng)濟(jì)增長(zhǎng)方式，進(jìn)一步改善社會(huì)信用狀況。銀行信用政策，包括信用形式、期限金額等的確定，必須建立在對(duì)客戶信用狀況科學(xué)評(píng)估分析的基礎(chǔ)上，才能達(dá)到既從客戶的交易中獲取最大收益，又將客戶信用風(fēng)險(xiǎn)控制在最低限度的目的。由于未對(duì)客戶信用狀況作科學(xué)評(píng)估，一味追求客戶定單，而造成壞賬損失的教訓(xùn)屢見(jiàn)不鮮，如何對(duì)客戶信用狀況作科學(xué)評(píng)估分析，就需要科學(xué)的評(píng)估方法。本文將運(yùn)用二階段法M5建立判別模型，對(duì)銀行信用卡客戶違約情況進(jìn)行判別，對(duì)客戶信用狀況作科學(xué)評(píng)估，進(jìn)一步檢驗(yàn)M5的判別性能。

(一)樣本選擇與數(shù)據(jù)來(lái)源

本文選取了商業(yè)銀行信用卡客戶資料庫(kù)數(shù)據(jù)為研究對(duì)象，判定的對(duì)象為客戶是否違約，拖欠貸款3個(gè)月以上視為違約，將數(shù)據(jù)分為違約和非違約兩個(gè)群，樣本容量為3000，其中違約的樣本量為1000，約占總樣本量的33.3%，非違約的樣本量為2000，約占總樣本量的66.7%。

(二)變量的選擇

個(gè)人信用主要受到以下幾個(gè)方面的影響：個(gè)人基本情況、家庭基本情況、收入情況、信用卡使用情況、不良記錄等，因此本文選取了與之相關(guān)的13個(gè)自變量即G1～G13，其中G1～G7為定性變量，G8～G13為定量變量，基準(zhǔn)變量為GE，各變量說(shuō)明如表8所示。

(三)數(shù)據(jù)處理與判別分析

表8 變量說(shuō)明

表9 M5的判別性能

七、結(jié)語(yǔ)

假定定性自變量后存在潛在連續(xù)型變量，基準(zhǔn)變量與自變量可以通過(guò)線性判別函數(shù)進(jìn)行判別。第一，檢驗(yàn)了數(shù)量化Ⅱ類“弓形效應(yīng)”的存在及存在形式，提出了“弓形效應(yīng)”修正方法二階段法；第二，隨著大數(shù)據(jù)時(shí)代的來(lái)臨，吸引了越來(lái)越多的關(guān)注，人們?cè)絹?lái)越多的意識(shí)到數(shù)據(jù)的重要性，大數(shù)據(jù)的特點(diǎn)是定量與定性數(shù)據(jù)混合于一體，數(shù)據(jù)量龐雜，然而只能對(duì)定性或定量數(shù)據(jù)進(jìn)行判別的判別分析法不能滿足現(xiàn)實(shí)需求，提出的二階段法M3、M4雖然修正了“弓形效應(yīng)”的影響，提高了正判別率，但是只能對(duì)定性數(shù)據(jù)進(jìn)行判別并不能滿足實(shí)務(wù)界的需求，為了實(shí)現(xiàn)大數(shù)據(jù)分析，需要對(duì)二階段法做進(jìn)一步的拓展研究，使其實(shí)現(xiàn)定性定量混合型數(shù)據(jù)的判別，更好的服務(wù)實(shí)務(wù)界；第三，將拓展后的二階段法應(yīng)用到個(gè)人信用評(píng)級(jí)中，個(gè)人信貸數(shù)據(jù)為定量定性混合型，研究結(jié)果顯示二階段法M5的判定性能優(yōu)異。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

混合型數(shù)據(jù)判別的二階段法及其在個(gè)人信用評(píng)級(jí)中的應(yīng)用

一、引言

二、混合型數(shù)據(jù)判別方法的理論基礎(chǔ)

(一)二階段法(M3、M4)——“弓形效應(yīng)”修正

(二)拓展的二階段法M5——混合型數(shù)據(jù)判別

三、數(shù)量化Ⅱ類“弓形效應(yīng)”檢驗(yàn)

(一)模擬數(shù)據(jù)生成

(二)“弓形效應(yīng)”的檢驗(yàn)

(三)檢驗(yàn)結(jié)論

四、二階段法與數(shù)量化Ⅱ類判別性能的比較

(一)M3與數(shù)量化Ⅱ類的比較

(二)M4與數(shù)量化Ⅱ類的比較

(三)M3與潛在連續(xù)型變量及數(shù)量化ⅡCDR的比較

(四)0.632 Bootstrap推斷

(五)結(jié)論

五、二階段法的拓展M5

(一)模擬數(shù)據(jù)生成

(二)找到適合的第一象限系數(shù)對(duì)定性數(shù)據(jù)進(jìn)行數(shù)量化

(三)線性判別分析LDA

(四)模擬數(shù)據(jù)研究

六、二階段法在個(gè)人信用評(píng)級(jí)中的應(yīng)用

(一)樣本選擇與數(shù)據(jù)來(lái)源

(二)變量的選擇

(三)數(shù)據(jù)處理與判別分析

七、結(jié)語(yǔ)

一、引言

二、混合型數(shù)據(jù)判別方法的理論基礎(chǔ)

(一)二階段法(M3、M4)——“弓形效應(yīng)”修正

三、數(shù)量化Ⅱ類“弓形效應(yīng)”檢驗(yàn)

四、二階段法與數(shù)量化Ⅱ類判別性能的比較

五、二階段法的拓展M5

六、二階段法在個(gè)人信用評(píng)級(jí)中的應(yīng)用

七、結(jié)語(yǔ)