趙雪艷,徐新華
(南昌大學(xué) 經(jīng)濟(jì)管理學(xué)院,江西 南昌 330031)
數(shù)量化理論是由日本學(xué)者林知己夫教授在1940年提出,他先后提出了六類數(shù)量化理論,其中數(shù)量化Ⅰ—Ⅳ類已被國(guó)內(nèi)外廣泛使用。菅民郎等對(duì)定性數(shù)據(jù)進(jìn)行判別的數(shù)量化Ⅱ類方法及應(yīng)用進(jìn)行了梳理[1]53;巖坪秀一對(duì)數(shù)量化理論進(jìn)行了研究[2]63。在日本最常用的定性數(shù)據(jù)判別分析方法是數(shù)量化Ⅱ類,在法國(guó)是Disqual法,對(duì)應(yīng)分析法是研究定性變量構(gòu)成的交互匯總表揭示變量之間的聯(lián)系,出現(xiàn)了“弓形效應(yīng)”。Ter Bcjf提出對(duì)應(yīng)分析法存在一個(gè)弊端,第二排序軸在許多情況下是第一軸的二次變形,把這種現(xiàn)象稱為“弓形效應(yīng)”[3]168。為修正“弓形效應(yīng)”,避免可能導(dǎo)致錯(cuò)誤分析結(jié)果,Hill和Gauch在對(duì)應(yīng)分析法的基礎(chǔ)上提出了除趨勢(shì)對(duì)應(yīng)分析(Detrended Correspondence Analysis,DCA)[4]49,Braak提出了除趨勢(shì)典范對(duì)應(yīng)分析(Detrended Canonical Correspond Analysis,DCCA)[5]18,Saito和Otsu提出了OSMOD MODEL[6]8;足立浩平提出了等質(zhì)性分析[7]489;Aoki和Sato提出了Hermitian多項(xiàng)式的修正法[8]6。
據(jù)調(diào)查,國(guó)內(nèi)關(guān)于對(duì)應(yīng)分析法弓形效應(yīng)修正方法的研究較少,主要在修正方法的應(yīng)用上,提出典型相關(guān)分析的增量建模方法,通過(guò)協(xié)方差分解,實(shí)現(xiàn)對(duì)典型相關(guān)性的精確計(jì)算,在保證計(jì)算準(zhǔn)確性的前提下,提高了運(yùn)算效率。賈曉妮對(duì)DCA、典型相關(guān)分析(Canonical Correlation Analysis,CCA)和DCCA三種排序方法進(jìn)行了總結(jié),討論了它們?cè)谥袊?guó)草地植被群落中的應(yīng)用現(xiàn)狀,并且提出由于DCCA考慮了“弓形效應(yīng)”修正,因此DCCA的使用效果最佳[9]392。李鎮(zhèn)清用描述群落最小剩余碼的平均碼長(zhǎng)L(S)測(cè)度群落總復(fù)雜性,用Renyi熵測(cè)度非組織復(fù)雜性,并將它們之差(S)作為組織復(fù)雜性或群落結(jié)構(gòu)復(fù)雜性的測(cè)度,以CCA和剩余分析RA為基礎(chǔ),發(fā)展一種包括環(huán)境、空間格局和物種相互作用三個(gè)方面因素的植物群落數(shù)量分析方法,并在數(shù)據(jù)變化中分離出了這幾個(gè)方面的變化[10]320。
人們?cè)絹?lái)越多地意識(shí)到數(shù)據(jù)的重要性,對(duì)大數(shù)據(jù)分析方法進(jìn)行了大量的研究。何育朋提出大規(guī)模數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)多具有混合屬性,傳統(tǒng)算法往往忽視多種屬性之間的關(guān)聯(lián)性,算法復(fù)雜,聚類速度慢,效果差,對(duì)此提出一種基于劃分聚類的混合大規(guī)模數(shù)據(jù)庫(kù)中數(shù)值型數(shù)據(jù)聚類算法,實(shí)現(xiàn)了混合大規(guī)模數(shù)據(jù)庫(kù)中數(shù)值型數(shù)據(jù)的聚類[11]120。劉超等為了解決混合型數(shù)據(jù)的聚類問(wèn)題,將聚類方法K-prototypes與ClustMD進(jìn)行比較,改進(jìn)了關(guān)鍵參數(shù)選擇方法。結(jié)果表明,當(dāng)數(shù)據(jù)相關(guān)關(guān)系強(qiáng)、數(shù)據(jù)缺失嚴(yán)重或非連續(xù)變量較多時(shí),建議使用K-prototypes[12]65。李鑫、白亮將基聚類與原數(shù)據(jù)看作一個(gè)混合型數(shù)據(jù),提出了一種基于混合型數(shù)據(jù)表示的聚類集成算法,該算法通過(guò)不斷迭代更新獲得更好的基聚類,且結(jié)果保持了對(duì)原數(shù)據(jù)類結(jié)構(gòu)和基聚類的一致性,與其他聚類集成算法進(jìn)行了比較,基于混合型數(shù)據(jù)表示的聚類集成算法是有效的[13]91。
關(guān)于信用評(píng)級(jí)方法研究,目前最常用的方法有判別分析法、神經(jīng)網(wǎng)絡(luò)、Logistic模型。在國(guó)外,Wiginton將Logistic模型與判別分析法對(duì)比,認(rèn)為L(zhǎng)ogistic模型比判別分析法效果更好[14]759。West認(rèn)為神經(jīng)網(wǎng)絡(luò)模型并不比Logistic預(yù)測(cè)效果好[15]1133。Myers和Forgy采用判別分析法建立了信用評(píng)分模型對(duì)特定領(lǐng)域作了實(shí)證分析[16]780。在國(guó)內(nèi),方匡南等運(yùn)用判別分析法構(gòu)建樣本評(píng)分模型,再用神經(jīng)網(wǎng)絡(luò)法對(duì)樣本進(jìn)行評(píng)分預(yù)測(cè),并對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)得分進(jìn)行降序排列得到有序樣本,最后進(jìn)行有序樣本最優(yōu)分割,實(shí)現(xiàn)了個(gè)人信用的等級(jí)劃分[17]93。廖欣婷等隨機(jī)抽取了8 371名銀行信用卡客戶的樣本數(shù)據(jù),利用構(gòu)建Probit與Logistics模型對(duì)其信用卡逾期風(fēng)險(xiǎn)進(jìn)行評(píng)估[18]72。陳湘州等以2014—2019年深交所中小企業(yè)板制造業(yè)中符合要求的中小企業(yè)為樣本,基于MLP神經(jīng)網(wǎng)絡(luò)構(gòu)建了中小企業(yè)供應(yīng)鏈金融信用風(fēng)險(xiǎn)評(píng)估模型,結(jié)果表明,所建立模型的準(zhǔn)確率高、穩(wěn)定性強(qiáng),是中小企業(yè)供應(yīng)鏈金融信用風(fēng)險(xiǎn)評(píng)估的理想模型。邱澤國(guó)等基于Lasso-RF兩階段特征選擇,選取邏輯回歸、支持向量機(jī)、隨機(jī)森林、決策樹(shù)等常用的信用評(píng)估分類算法,分別從準(zhǔn)確率、精確率、召回率和F1值4個(gè)指標(biāo)證明了兩階段特征選擇方法在個(gè)人信用風(fēng)險(xiǎn)評(píng)估上具有更好的分類效果[19]90。曹小林等以貝葉斯網(wǎng)絡(luò)理論為基礎(chǔ),構(gòu)建了基于貝葉斯網(wǎng)絡(luò)的個(gè)人信用評(píng)價(jià)模型,采用隨機(jī)森林算法對(duì)各指標(biāo)的重要性進(jìn)行了預(yù)測(cè),并以人人貸數(shù)據(jù)為研究樣本建立樹(shù)增強(qiáng)樸素貝葉斯網(wǎng)絡(luò)模型進(jìn)行實(shí)證研究,通過(guò)對(duì)樣本內(nèi)和外預(yù)測(cè)精度的考察,驗(yàn)證了模型的穩(wěn)健性[20]154。王曉慧、李云飛針對(duì)個(gè)人信用等級(jí)的多分類問(wèn)題進(jìn)行了研究,通過(guò)建立個(gè)人信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系,運(yùn)用判別分析法構(gòu)建關(guān)于樣本的評(píng)分模型,得到判別得分;再用神經(jīng)網(wǎng)絡(luò)法對(duì)樣本進(jìn)行評(píng)分預(yù)測(cè),得到對(duì)應(yīng)得分,并對(duì)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)得分進(jìn)行降序排列得到有序樣本,最后進(jìn)行有序樣本最優(yōu)分割,從而實(shí)現(xiàn)個(gè)人信用的等級(jí)劃分[21]65。趙海鵬、李丹從個(gè)人信貸的定義出發(fā),先總結(jié)了國(guó)內(nèi)外個(gè)人信貸評(píng)估的經(jīng)驗(yàn)理論,再根據(jù)模型評(píng)價(jià)和綜合評(píng)判兩個(gè)方面進(jìn)行模式創(chuàng)新,通過(guò)實(shí)證研究,挖掘出了決定我國(guó)個(gè)人信用狀況的重要變量,又利用Logistic回歸這一經(jīng)典計(jì)量模型擴(kuò)展了客戶進(jìn)行信用評(píng)分[22]113。
國(guó)內(nèi)外學(xué)者在對(duì)應(yīng)分析法“弓形效應(yīng)”修正方法及應(yīng)用方面已經(jīng)取得了豐富的研究成果,避免了可能錯(cuò)誤的分析結(jié)果。關(guān)于定性數(shù)據(jù)的數(shù)量化理論,日本學(xué)者林知己夫先后提出了六類數(shù)量化理論,經(jīng)研究發(fā)現(xiàn)數(shù)量化Ⅱ類出現(xiàn)了“弓形效應(yīng)”,“弓形效應(yīng)”的出現(xiàn)會(huì)降低正判別率(Correct Discriminant Rate,CDR),同時(shí)不能真實(shí)再現(xiàn)原始數(shù)據(jù)信息,可能導(dǎo)致錯(cuò)誤的分析結(jié)果,需要修正。隨著大數(shù)據(jù)時(shí)代的來(lái)臨,人們?cè)絹?lái)越重視數(shù)據(jù)的重要性。如何從大量的、雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出具有某些特定價(jià)值、意義的數(shù)據(jù)顯得至關(guān)重要,國(guó)內(nèi)外學(xué)者對(duì)于大數(shù)據(jù)分析方法研究取得了一定成果。信用評(píng)級(jí)目前最常用的方法——判別分析法、神經(jīng)網(wǎng)絡(luò)和Logistic模型中,哪一種判別方法的判別性能更好,目前還沒(méi)有一致的結(jié)論。本研究的目的是提出一種修正數(shù)量化Ⅱ類“弓形效應(yīng)”,同時(shí)實(shí)現(xiàn)混合型大數(shù)據(jù)判別分析方法二階段判別分析法(以下簡(jiǎn)稱二階段法),并將其應(yīng)用到個(gè)人信用評(píng)級(jí)中。
本文的創(chuàng)新點(diǎn)主要體現(xiàn)在三個(gè)方面。第一,檢驗(yàn)了數(shù)量化Ⅱ類“弓形效應(yīng)”的存在及存在形式,根據(jù)變量間相關(guān)關(guān)系的強(qiáng)弱,提出了“弓形效應(yīng)”修正方法二階段法的兩種模型M3、M4。第二,隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)吸引了越來(lái)越多的關(guān)注,人們?cè)絹?lái)越多地意識(shí)到數(shù)據(jù)的重要性,大數(shù)據(jù)的特點(diǎn)是定量與定性數(shù)據(jù)混合于一體,數(shù)據(jù)量龐雜,然而只能對(duì)定性或定量數(shù)據(jù)進(jìn)行判別的數(shù)量化Ⅱ類、Disqual法、線性判別分析法等不能滿足現(xiàn)實(shí)需求。為實(shí)現(xiàn)大數(shù)據(jù)分析,需要對(duì)二階段法進(jìn)行進(jìn)一步的拓展研究,提出判別模型M5,使其實(shí)現(xiàn)定性定量混合型數(shù)據(jù)的判別,更好的服務(wù)實(shí)務(wù)界。第三,將拓展后的二階段法M5應(yīng)用到個(gè)人信用評(píng)級(jí)中,個(gè)人信貸數(shù)據(jù)為定量定性混合型,研究結(jié)果顯示二階段法的判定性能優(yōu)異。
數(shù)量化Ⅱ類研究定性數(shù)據(jù)是根據(jù)個(gè)體觀測(cè)指標(biāo)特征來(lái)推斷該個(gè)體所屬類型的一種判別分析方法。其基本思想是以反應(yīng)矩陣為基礎(chǔ),對(duì)各類目賦予適當(dāng)?shù)牡梅郑鶕?jù)已知若干母體中的n個(gè)樣本對(duì)于Q個(gè)項(xiàng)目的觀測(cè)結(jié)果尋求線性判別函數(shù),進(jìn)而對(duì)母體的樣本進(jìn)行判別分類。
(1)
根據(jù)Fisher判別準(zhǔn)則,借助方差分析的思想,通過(guò)準(zhǔn)則函數(shù)方差比η2最大,求解線性判別函數(shù),尋找最優(yōu)的判別系數(shù)αjk,將不同性質(zhì)的類在最大程度上進(jìn)行分離,從而達(dá)到類判別的效果。方差比為:
(2)
(3)
對(duì)式(3)進(jìn)行整理:
等式兩邊同時(shí)乘以T的逆矩陣:
(T-1B-λI)α=0
(4)
I表示單位矩陣,λ(=η2)表示特征值,α表示特征向量。
求解式(4),需除去各項(xiàng)目中的任意一類目(可為第1個(gè)或最后1個(gè)),找到T-1B的特征值λ,求解特征向量α。特征向量即判別系數(shù)矩陣α是將特征向量按照特征值λ大小順序從左往右排列的矩陣,記為α=[α1,α2,…,αm]。將α中的α1、α2作為第一、二象限判別系數(shù),在二維坐標(biāo)軸上做出相應(yīng)的散點(diǎn)圖,其散點(diǎn)圖呈現(xiàn)“弓形”,把這種現(xiàn)象稱為“弓形效應(yīng)”。數(shù)量化Ⅱ類存在“弓形效應(yīng)”,對(duì)判別結(jié)果存在兩個(gè)方面的不良影響:
(1)根據(jù)個(gè)體指標(biāo)推斷該個(gè)體屬于哪個(gè)類別時(shí),由于出現(xiàn)“弓形效應(yīng)”,會(huì)降低正判別率(CDR)。
(2)對(duì)判別結(jié)果進(jìn)行因子分析時(shí),不能正確反映潛在連續(xù)型變量(Potentially Continuous Variables,PCV)即原始數(shù)據(jù)信息(本文設(shè)定原始數(shù)據(jù)信息為等間隔遞增),可能導(dǎo)致分析結(jié)果與PCV信息不符,得出錯(cuò)誤結(jié)論。
為修正“弓形效應(yīng)”,本文提出二階段法M3、M4,為實(shí)現(xiàn)混合型數(shù)據(jù)判別提出拓展的二階段法M5。
傳統(tǒng)定性數(shù)據(jù)判別分析法數(shù)量化Ⅱ類存在“弓形效應(yīng)”,對(duì)判別結(jié)果主要存在兩個(gè)方面的不良影響:
(1)主要目的是對(duì)樣本數(shù)據(jù)進(jìn)行群判別時(shí),第一、二排序軸間的相關(guān)關(guān)系將產(chǎn)生“弓形效應(yīng)”,影響判別性能,降低正判別率。
(2)主要目的是對(duì)判別結(jié)果進(jìn)行因子分析時(shí),由于“弓形效應(yīng)”的存在將導(dǎo)致不能正確反映潛在連續(xù)型變量信息,可能導(dǎo)致錯(cuò)誤的分析結(jié)果。
另外,在實(shí)際應(yīng)用中,自變量間存在較強(qiáng)相關(guān)關(guān)系和較弱或沒(méi)有相關(guān)關(guān)系的情況。二階段法根據(jù)變量間的相關(guān)關(guān)系強(qiáng)弱提出兩種判別模型M3、M4,M3主要針對(duì)自變量間存在較強(qiáng)相關(guān)關(guān)系的情況,M4主要針對(duì)變量間存在較弱或不相關(guān),但自變量與基準(zhǔn)變量間存在較強(qiáng)相關(guān)關(guān)系的情況。二階段法主要包括兩個(gè)步驟:
步驟1:找到適合的第一象限判別系數(shù),對(duì)定性數(shù)據(jù)進(jìn)行數(shù)量化;
(1)M3:CCA(Gjvs G-j|GE)
GE表示基準(zhǔn)變量,Gj表示其中一個(gè)自變量,G-j表示除Gj以外的所有自變量,從Gj以及G-j中除去GE的回歸效果后進(jìn)行CCA。當(dāng)各自變量間存在較強(qiáng)相關(guān)關(guān)系情況下,去除基準(zhǔn)變量GE的影響,可以期待提高判別系數(shù)的有效性,提高正判別率。
(2)M4:CCA(Gjvs GE|G-j)
從Gj以及GE中除去G-j的回歸效果后進(jìn)行CCA,當(dāng)各自變量間相關(guān)關(guān)系較弱,但是各自變量與基準(zhǔn)變量間存在較強(qiáng)相關(guān)關(guān)系的情況下,去除其他自變量的影響,可以期待提高判別系數(shù)的有效性,提高正判別率。
步驟2:對(duì)數(shù)量化后的數(shù)據(jù)進(jìn)行線性判別分析LDA。
數(shù)據(jù)多為定量、定性的混合型,只能對(duì)定性數(shù)據(jù)進(jìn)行判別的二階段法不能適應(yīng)當(dāng)下需求,因此對(duì)二階段法需要做進(jìn)一步的拓展研究,使其實(shí)現(xiàn)混合型數(shù)據(jù)判別,主要包括三個(gè)步驟:
(1)為定性變量找到最適合的第一象限數(shù)量化系數(shù)M3:CCA(Gjvs G(-j)|Ge),從Gj以及G-j中除去GE的回歸效果后進(jìn)行CCA。通過(guò)數(shù)量化系數(shù)對(duì)定性變量進(jìn)行數(shù)量化,生成連續(xù)型數(shù)據(jù)。
(2)將自變量中的定量變量與數(shù)量化后的連續(xù)型變量進(jìn)行合并,生成判別分析模型中的連續(xù)型自變量。
(3)對(duì)連續(xù)型自變量與基準(zhǔn)變量進(jìn)行線性判別分析LDA,實(shí)現(xiàn)混合型數(shù)據(jù)判別。
為了對(duì)以上模型的判別性能進(jìn)行對(duì)比及檢驗(yàn),將進(jìn)行模擬數(shù)據(jù)分析,主要從CDR指標(biāo)進(jìn)行評(píng)價(jià)。
對(duì)應(yīng)分析法在對(duì)定性數(shù)據(jù)數(shù)量化過(guò)程中出現(xiàn)了“弓形效應(yīng)”,“弓形效應(yīng)”的存在可能導(dǎo)致錯(cuò)誤的分析結(jié)果,為此關(guān)于對(duì)應(yīng)分析法“弓形效應(yīng)”的修正方法進(jìn)行了大量研究,并取得了豐富的研究成果。數(shù)量化Ⅱ類是對(duì)定性數(shù)據(jù)進(jìn)行數(shù)量化再進(jìn)行判別分析,那么在對(duì)定性數(shù)據(jù)數(shù)量化過(guò)程中是否存在“弓形效應(yīng)”?如果存在,是以怎樣的形式存在?本文通過(guò)模擬數(shù)據(jù)對(duì)這兩個(gè)問(wèn)題進(jìn)行考察。
1.生成潛在連續(xù)型變量
潛在連續(xù)型變量滿足正態(tài)假定,生成要素包括:樣本容量N;基準(zhǔn)變量GE,E表示類別號(hào);自變量(x1,x2,…,xn);均值向量μE;相關(guān)系數(shù)矩陣∑=(σij)n×n,其中σij=cov(xi,xj),i,j=1,2,…,n。根據(jù)以上要素生成潛在連續(xù)型變量(Potential Continuous Variables,PCV),即原始數(shù)據(jù)信息。
2.生成定性變量
對(duì)生成的連續(xù)型變量可采用兩種方式生成定性變量:(1)對(duì)自變量進(jìn)行等段數(shù)、等間隔、遞增的分割;(2)對(duì)自變量進(jìn)行不等段數(shù)、等間隔、遞增的分割。具體采用哪一種方式可根據(jù)數(shù)據(jù)的分布情況進(jìn)行選擇,對(duì)分割后的變量賦予相應(yīng)的類別數(shù)據(jù),即生成定性變量。生成的定性變量將保持潛在連續(xù)型變量遞增的特性。如圖1所示生成的連續(xù)型自變量x1、x2、x3,可以采用第二種方式,不等段數(shù)、等間隔、遞增的分割,生成定性變量。
數(shù)量化Ⅱ類是否存在“弓形效應(yīng)”,要從理論證明存在一定困難,目前最直接有效的方法是通過(guò)模擬數(shù)據(jù)進(jìn)行檢驗(yàn)。通過(guò)以上方法生成的定性數(shù)據(jù)進(jìn)行數(shù)量化Ⅱ類分析,檢驗(yàn)“弓形效應(yīng)”是否存在?!肮涡?yīng)”存在形式的影響因素主要考慮樣本容量n。
樣本容量n分別取300、1500、6000、30000,圖1是自變量x1、x2、x3第一、二象限數(shù)量化系數(shù)分布圖,判別影響大小排序x1>x2>x3。
“Ο”表示x1、“△”表示x2、“×”表示x3圖1 變量x1、x2、x3的第一、二象限數(shù)量化系數(shù)分布圖
1.生成的潛在連續(xù)型變量是按照等間隔遞增分割的,那么希望數(shù)量化Ⅱ類對(duì)定性數(shù)據(jù)進(jìn)行數(shù)量化后,數(shù)量化系數(shù)能夠反映遞增這一原始數(shù)據(jù)信息,從圖1的研究結(jié)果發(fā)現(xiàn),第一、二象限數(shù)量化系數(shù)沒(méi)有真實(shí)再現(xiàn)遞增現(xiàn)象,出現(xiàn)了“弓形效應(yīng)”。
2.數(shù)據(jù)的樣本容量無(wú)論大小都存在“弓形效應(yīng)”,對(duì)“弓形效應(yīng)”強(qiáng)弱的影響不大。
3.對(duì)判別效果影響最大的變量x1,受“弓形效應(yīng)”影響最顯著。
二階段法M3,當(dāng)各自變量間存在較強(qiáng)相關(guān)關(guān)系情況下,在數(shù)量化過(guò)程中去除基準(zhǔn)變量GE的影響,可以提高判別系數(shù)的有效性,提高正判別率。模擬數(shù)據(jù)分析首先通過(guò)訓(xùn)練數(shù)據(jù)建立判別模型,再通過(guò)測(cè)試數(shù)據(jù)檢驗(yàn)?zāi)P偷呐袆e性能,比較M3與數(shù)量化Ⅱ類判別性能的優(yōu)劣。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分別選取多種不同的自變量個(gè)數(shù)、樣本容量,分別生成100組數(shù)據(jù),應(yīng)用M3和數(shù)量化Ⅱ類對(duì)數(shù)據(jù)進(jìn)行判別分析,可計(jì)算出M3的100個(gè)CDR和數(shù)量化Ⅱ類的100個(gè)CDR,兩兩進(jìn)行比較并分別累計(jì)優(yōu)勝次數(shù),并對(duì)比較結(jié)果進(jìn)行Wilcoxon檢驗(yàn),如表(1)所示。
二階段法M4,當(dāng)各自變量間相關(guān)關(guān)系較弱,但是各自變量與基準(zhǔn)變量間存在較強(qiáng)相關(guān)關(guān)系的情況下,去除其他自變量的影響,可以期待提高判別系數(shù)的有效性,提高正判別率。M4與數(shù)量化Ⅱ類的對(duì)比分析如表2所示。
表1 M3與數(shù)量化Ⅱ類的CDR比較與Wilcoxon檢驗(yàn)
1.M3與潛在連續(xù)型變量及數(shù)量化ⅡCDR的比較
表3取K=10,對(duì)數(shù)據(jù)進(jìn)行潛在連續(xù)型變量、數(shù)量化Ⅱ類和M3三種判別方法進(jìn)行了判別分析,發(fā)現(xiàn)當(dāng)樣本容量小于1500時(shí),數(shù)量化Ⅱ類的平均CDR大于潛在連續(xù)型變量的CDR,這屬于不合理現(xiàn)象,表明數(shù)量化Ⅱ類在樣本容量N很小的情況下會(huì)夸大CDR。
2.M4與潛在連續(xù)型變量及數(shù)量化ⅡCDR的比較
表4取K=10,對(duì)數(shù)據(jù)進(jìn)行潛在連續(xù)型變量、數(shù)量化Ⅱ類和M4三種判別方法進(jìn)行判別分析,與M3的分析結(jié)論一樣,當(dāng)樣本容量小于1500時(shí),數(shù)量化Ⅱ類的平均CDR大于潛在連續(xù)型變量的CDR,再次表明數(shù)量化Ⅱ類在樣本容量N很小的情況下會(huì)夸大CDR。
表2 M4與數(shù)量化Ⅱ類的CDR比較與Wilcoxon檢驗(yàn)
表3 潛在連續(xù)型變量、數(shù)量化Ⅱ類和M3的判別性能比較
在實(shí)際數(shù)據(jù)分析中,沒(méi)有測(cè)試數(shù)據(jù),只有樣本數(shù)據(jù),希望從樣本數(shù)據(jù)中推斷出測(cè)試數(shù)據(jù)的結(jié)果,因此,使用0.632 Bootstrap推斷。檢驗(yàn)數(shù)量化Ⅱ類和M3、數(shù)量化Ⅱ和M4的判別性能,對(duì)數(shù)據(jù)進(jìn)行0.632 Bootstrap推斷,訓(xùn)練集中含有63.2%的數(shù)據(jù),測(cè)試集中含有36.8%的數(shù)據(jù),是小數(shù)據(jù)錯(cuò)誤率估計(jì)的最好辦法。結(jié)果如表5、表6所示。
表4 潛在連續(xù)型變量、數(shù)量化Ⅱ類和M4的判別性能比較
數(shù)量化Ⅱ類出現(xiàn)了弓形效應(yīng),降低了正判別率,為修正弓形效應(yīng)提出二階段法,即在第一階段進(jìn)行數(shù)量化,修正弓形效應(yīng);在第二階段進(jìn)行線性判別,以便在不受弓形效應(yīng)影響的情況下進(jìn)行判別分析。作為第一階段的數(shù)量化方法,提出了兩種模型M3和M4。當(dāng)說(shuō)明變量間存在較高相關(guān)關(guān)系的情況下應(yīng)用M3模型,當(dāng)說(shuō)明變量間相關(guān)關(guān)系較低時(shí)應(yīng)用M4模型。表5和表6的分析結(jié)果如下:
表5 數(shù)量化Ⅱ類和M3的判別性能比較(0.632 Rootstrap)
表6 數(shù)量化Ⅱ類和M4的判別性能比較(0.632 Rootstrap)
1.訓(xùn)練數(shù)據(jù)
(1)表1、表2的CDR優(yōu)勝次數(shù)表明,樣本容量越增加M3、M4優(yōu)于數(shù)量化Ⅱ類的效果越明顯。
(2)表1、表2的分析結(jié)果顯示,當(dāng)變量個(gè)數(shù)K較小時(shí),M3、M4與數(shù)量化Ⅱ類判別性能分界點(diǎn)所需的樣本容量較小;當(dāng)變量個(gè)數(shù)K較大時(shí),M3、M4與數(shù)量化Ⅱ類判別性能分界點(diǎn)所需的樣本容量較大。
(3)表3、表4的分析結(jié)果顯示,當(dāng)樣本容量較小時(shí)數(shù)量化Ⅱ類的CDR比潛在連續(xù)型變量的CDR大,說(shuō)明當(dāng)樣本容量較小時(shí)數(shù)量化Ⅱ類夸大了CDR,二階段法M3、M4的CDR接近但小于潛在連續(xù)型變量,沒(méi)有出現(xiàn)夸大CDR的情況。
2.測(cè)試數(shù)據(jù)
(1)表1、表2的分析結(jié)果顯示,對(duì)于所有樣本,M3、M4的判別性能都高于數(shù)量化Ⅱ類。
(2)表1、表2的CDR優(yōu)勝次數(shù)表明,隨著樣本容量的增加,M3、M4優(yōu)于數(shù)量化Ⅱ類的效果越明顯。
(3)表5、表6的0.632Bootstrap分析結(jié)果顯示,測(cè)試數(shù)據(jù)二階段法M3、M4的CDR均高于數(shù)量化Ⅱ類,說(shuō)明0.632Bootstrap做出了比較精準(zhǔn)的推斷。
1.連續(xù)型變量的生成
生成連續(xù)型變量,將變量分成兩組,一組A1,A2,……用來(lái)進(jìn)行數(shù)量化,另外一組B1,B2,……,對(duì)判別分析影響排序A1>A2>……,B1>B2>……,基準(zhǔn)變量GE,E表示類別號(hào)。
2.定性變量生成
由表7的分析結(jié)果顯示,M5的判別性能會(huì)隨著自變量個(gè)數(shù)和樣本容量的增加而更加優(yōu)異。
表7 M5的判別性能
個(gè)人信用評(píng)級(jí)體系是一個(gè)國(guó)家信用體系的重要組成部分,在國(guó)民經(jīng)濟(jì)增長(zhǎng)與社會(huì)生活的各個(gè)方面,尤其是在商業(yè)銀行開(kāi)展個(gè)人消費(fèi)信貸業(yè)務(wù)中發(fā)揮重要作用。在西方發(fā)達(dá)國(guó)家,個(gè)人信貸制度已有100多年歷史,這些國(guó)家的個(gè)人信用評(píng)級(jí)體系已經(jīng)相當(dāng)發(fā)達(dá)和完善。完善的個(gè)人信用評(píng)級(jí)體系不僅能進(jìn)一步提高市場(chǎng)資源配置效率,而且可以促進(jìn)個(gè)人信貸消費(fèi),拉動(dòng)市場(chǎng)消費(fèi)狀況,從而改變目前主要由投資拉動(dòng)的經(jīng)濟(jì)增長(zhǎng)方式,進(jìn)一步改善社會(huì)信用狀況。銀行信用政策,包括信用形式、期限金額等的確定,必須建立在對(duì)客戶信用狀況科學(xué)評(píng)估分析的基礎(chǔ)上,才能達(dá)到既從客戶的交易中獲取最大收益,又將客戶信用風(fēng)險(xiǎn)控制在最低限度的目的。由于未對(duì)客戶信用狀況作科學(xué)評(píng)估,一味追求客戶定單,而造成壞賬損失的教訓(xùn)屢見(jiàn)不鮮,如何對(duì)客戶信用狀況作科學(xué)評(píng)估分析,就需要科學(xué)的評(píng)估方法。本文將運(yùn)用二階段法M5建立判別模型,對(duì)銀行信用卡客戶違約情況進(jìn)行判別,對(duì)客戶信用狀況作科學(xué)評(píng)估,進(jìn)一步檢驗(yàn)M5的判別性能。
本文選取了商業(yè)銀行信用卡客戶資料庫(kù)數(shù)據(jù)為研究對(duì)象,判定的對(duì)象為客戶是否違約,拖欠貸款3個(gè)月以上視為違約,將數(shù)據(jù)分為違約和非違約兩個(gè)群,樣本容量為3000,其中違約的樣本量為1000,約占總樣本量的33.3%,非違約的樣本量為2000,約占總樣本量的66.7%。
個(gè)人信用主要受到以下幾個(gè)方面的影響:個(gè)人基本情況、家庭基本情況、收入情況、信用卡使用情況、不良記錄等,因此本文選取了與之相關(guān)的13個(gè)自變量即G1~G13,其中G1~G7為定性變量,G8~G13為定量變量,基準(zhǔn)變量為GE,各變量說(shuō)明如表8所示。
表8 變量說(shuō)明
表9 M5的判別性能
假定定性自變量后存在潛在連續(xù)型變量,基準(zhǔn)變量與自變量可以通過(guò)線性判別函數(shù)進(jìn)行判別。第一,檢驗(yàn)了數(shù)量化Ⅱ類“弓形效應(yīng)”的存在及存在形式,提出了“弓形效應(yīng)”修正方法二階段法;第二,隨著大數(shù)據(jù)時(shí)代的來(lái)臨,吸引了越來(lái)越多的關(guān)注,人們?cè)絹?lái)越多的意識(shí)到數(shù)據(jù)的重要性,大數(shù)據(jù)的特點(diǎn)是定量與定性數(shù)據(jù)混合于一體,數(shù)據(jù)量龐雜,然而只能對(duì)定性或定量數(shù)據(jù)進(jìn)行判別的判別分析法不能滿足現(xiàn)實(shí)需求,提出的二階段法M3、M4雖然修正了“弓形效應(yīng)”的影響,提高了正判別率,但是只能對(duì)定性數(shù)據(jù)進(jìn)行判別并不能滿足實(shí)務(wù)界的需求,為了實(shí)現(xiàn)大數(shù)據(jù)分析,需要對(duì)二階段法做進(jìn)一步的拓展研究,使其實(shí)現(xiàn)定性定量混合型數(shù)據(jù)的判別,更好的服務(wù)實(shí)務(wù)界;第三,將拓展后的二階段法應(yīng)用到個(gè)人信用評(píng)級(jí)中,個(gè)人信貸數(shù)據(jù)為定量定性混合型,研究結(jié)果顯示二階段法M5的判定性能優(yōu)異。
南昌大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版)2022年6期