国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大中型煤炭企業(yè)信用風(fēng)險(xiǎn)評(píng)估體系研究

2022-05-16 11:31宋思遠(yuǎn)王洛鋒張新生暴子旗
中國(guó)礦業(yè) 2022年5期
關(guān)鍵詞:互信息特征選擇信用風(fēng)險(xiǎn)

宋思遠(yuǎn),王洛鋒,張新生,暴子旗

(1.西安建筑科技大學(xué)資源工程學(xué)院,陜西 西安 710055; 2.洛陽(yáng)欒川鉬業(yè)集團(tuán)股份有限公司,河南 洛陽(yáng) 471500; 3.西安建筑科技大學(xué)管理學(xué)院,陜西 西安 710055)

0 引 言

目前煤炭仍然是中國(guó)的主體能源[1],近年來(lái),全球煤炭產(chǎn)量呈現(xiàn)震蕩走勢(shì),2017—2019年全球煤炭產(chǎn)量保持連續(xù)增長(zhǎng),2020年受新冠肺炎疫情影響,全球煤炭產(chǎn)量增勢(shì)未能延續(xù),導(dǎo)致需求下滑、產(chǎn)量下降、國(guó)際煤炭貿(mào)易萎縮,煤炭?jī)r(jià)格在上半年大幅下降,且煤炭銷售價(jià)格易受到煤炭市場(chǎng)價(jià)波動(dòng)影響,從而易出現(xiàn)產(chǎn)業(yè)虧損等問題。在這種情況下,煤炭企業(yè)如何在金融市場(chǎng)上進(jìn)行有效的融資成為其發(fā)展的原動(dòng)力,而能否有效融資與企業(yè)自身的信用風(fēng)險(xiǎn)密切相關(guān),信用風(fēng)險(xiǎn)是借款人因各種原因未能及時(shí)、足額償還債務(wù)或銀行貸款而違約的可能性,其高低直接決定了融資力度的強(qiáng)弱。大中型煤炭企業(yè)不同于小微企業(yè),其風(fēng)險(xiǎn)特點(diǎn)和表現(xiàn)形式均不同,具體表現(xiàn)為宏觀市場(chǎng)經(jīng)濟(jì)關(guān)聯(lián)度高、隱蔽性較高、風(fēng)險(xiǎn)損失大等,因此大中型煤炭企業(yè)一旦出現(xiàn)經(jīng)營(yíng)狀況,對(duì)于銀行、投資者以及企業(yè)本身來(lái)說都損失巨大。

隨著人工智能、大數(shù)據(jù)技術(shù)不斷深入各行各業(yè),對(duì)企業(yè)進(jìn)行信用風(fēng)險(xiǎn)的標(biāo)準(zhǔn)化評(píng)估顯得尤為重要,信用評(píng)價(jià)是一個(gè)開放式評(píng)價(jià)過程,指標(biāo)的選擇往往決定評(píng)價(jià)結(jié)果的準(zhǔn)確性,因此信用風(fēng)險(xiǎn)評(píng)價(jià)分為指標(biāo)體系建立與指標(biāo)篩選兩個(gè)方面。在指標(biāo)體系建立方面,業(yè)界流行的“5C原則”[2]是企業(yè)信用評(píng)價(jià)指標(biāo)體系的主要標(biāo)準(zhǔn)之一,“5C原則”通過資本(capital)、品德(character)、擔(dān)保(collateral)、能力(capacity)、環(huán)境(condition)五個(gè)方面對(duì)借款人如期償還本息的意愿和能力進(jìn)行評(píng)價(jià)。在煤炭企業(yè)的信用風(fēng)險(xiǎn)評(píng)估方面,張濤等[3]使用簽約合同金額履約率作為評(píng)價(jià)指標(biāo)來(lái)構(gòu)建風(fēng)險(xiǎn)預(yù)警指標(biāo)體系;唐海偉[4]選取礦產(chǎn)資源儲(chǔ)量、生產(chǎn)能力、產(chǎn)品方案、采選技術(shù)指標(biāo)和生產(chǎn)成本作為評(píng)估參數(shù);HUANG等[5]通過供應(yīng)鏈、行業(yè)狀況、企業(yè)創(chuàng)新能力、盈利能力、償債能力和宏觀經(jīng)濟(jì)環(huán)境等建立了企業(yè)信用評(píng)級(jí)體系;林軍[6]從礦產(chǎn)資源型企業(yè)風(fēng)險(xiǎn)入手,從宏觀環(huán)境風(fēng)險(xiǎn)、行業(yè)市場(chǎng)風(fēng)險(xiǎn)、勘查風(fēng)險(xiǎn)、開采風(fēng)險(xiǎn)、經(jīng)營(yíng)風(fēng)險(xiǎn)、資源枯竭風(fēng)險(xiǎn)等六大方面進(jìn)行模型構(gòu)建。在指標(biāo)篩選方面,HUI等[7]利用T檢驗(yàn)方法降低指標(biāo)體系信息冗余度,使用Logistic回歸方法與多目標(biāo)規(guī)劃模型構(gòu)建評(píng)分模型;孟斌等[8]采用方差齊性檢驗(yàn)和R聚類對(duì)指標(biāo)進(jìn)行篩選,建立能顯著區(qū)分違約狀態(tài)與否的債信評(píng)級(jí)指標(biāo)體系;林宇等[9]使用偏相關(guān)分析以及Twin-SVR模型構(gòu)建信用風(fēng)險(xiǎn)預(yù)測(cè)模型;LABORDA等[10]分別使用Filter和兩種Wrapper方法降低信用風(fēng)險(xiǎn)評(píng)估中出現(xiàn)的維數(shù)災(zāi)難問題,實(shí)驗(yàn)表明前向搜索方法在使用的分類器性能中表現(xiàn)最佳;ELSSIED等[11]針對(duì)特征空間數(shù)據(jù)維數(shù)高等問題,基于單項(xiàng)方差分析F檢驗(yàn)進(jìn)行特征選擇。

綜上所述,現(xiàn)有研究在上市企業(yè)的信用風(fēng)險(xiǎn)評(píng)價(jià)方面已經(jīng)取得了一定的進(jìn)展,但也存在兩個(gè)問題:一是大部分指標(biāo)體系仍是遵循著金融類企業(yè)的指標(biāo)體系原則所建立,不能很好地表現(xiàn)煤炭企業(yè)的特點(diǎn);二是在指標(biāo)的篩選上,現(xiàn)有方法存在刪除變量過多、不能很好預(yù)測(cè)違約狀態(tài)等問題?;诖耍紫仍谕ㄓ弥笜?biāo)選擇上結(jié)合煤炭企業(yè)風(fēng)險(xiǎn)因素提出兩個(gè)新指標(biāo):抗風(fēng)險(xiǎn)能力、煤炭及加工產(chǎn)品業(yè)務(wù)銷售毛利率,然后構(gòu)建Filter-Wrapper兩階段特征選擇算法對(duì)信用風(fēng)險(xiǎn)指標(biāo)體系進(jìn)行篩選并預(yù)測(cè),建立大中型煤炭企業(yè)信用風(fēng)險(xiǎn)評(píng)估模型。

1 信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系建立方法

1.1 指標(biāo)體系建立

通過廣泛梳理國(guó)內(nèi)外經(jīng)典文獻(xiàn),基于業(yè)界普遍認(rèn)可“5C原則”,在大部分企業(yè)構(gòu)建的信用風(fēng)險(xiǎn)要素的基礎(chǔ)上,多方面考慮大中型煤炭企業(yè)的風(fēng)險(xiǎn)特點(diǎn),最終從煤炭企業(yè)外部環(huán)境、企業(yè)財(cái)富創(chuàng)造能力、償債來(lái)源三大類別進(jìn)行分析。一方面,針對(duì)現(xiàn)有煤炭企業(yè)指標(biāo)體系較少涉及信用風(fēng)險(xiǎn)因素的問題,提出了兩個(gè)新指標(biāo):抗風(fēng)險(xiǎn)能力、煤炭及加工產(chǎn)品業(yè)務(wù)銷售毛利率,以適用于大中型煤炭企業(yè);另一方面,全面將定性指標(biāo)與定量指標(biāo)相結(jié)合,使指標(biāo)體系更加完整。基于此,選擇煤炭企業(yè)外部環(huán)境等3個(gè)一級(jí)指標(biāo),行業(yè)風(fēng)險(xiǎn)、企業(yè)狀況等6個(gè)二級(jí)指標(biāo),抗風(fēng)險(xiǎn)能力、司法訴訟等22個(gè)三級(jí)指標(biāo)開展評(píng)價(jià),建立如圖1所示的大中型煤炭企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)體系。

1.1.1 抗風(fēng)險(xiǎn)能力(ARA)

為了對(duì)煤炭行業(yè)經(jīng)濟(jì)進(jìn)行整體把握,同時(shí)可以分析煤炭行業(yè)變動(dòng)狀況,并反應(yīng)煤炭企業(yè)的抗風(fēng)險(xiǎn)能力,在此引入了煤炭行業(yè)景氣指數(shù)與企業(yè)的凈利潤(rùn)增長(zhǎng)率。

行業(yè)景氣指數(shù)又稱為景氣度,它是對(duì)企業(yè)景氣調(diào)查中的各種指標(biāo)進(jìn)行加權(quán)編制,綜合反映某一特定調(diào)查群體或某一社會(huì)經(jīng)濟(jì)現(xiàn)象所處的狀態(tài)或發(fā)展趨勢(shì)的指標(biāo);凈利潤(rùn)增長(zhǎng)率是一個(gè)企業(yè)經(jīng)營(yíng)的最終成果,凈利潤(rùn)增長(zhǎng)率的多少代表著企業(yè)經(jīng)營(yíng)效益的優(yōu)劣,它是衡量一個(gè)企業(yè)經(jīng)營(yíng)效益的主要指標(biāo)。由此,通過式(1)可得出抗風(fēng)險(xiǎn)能力指標(biāo)。

ARAi=

(1)

式中:ARAi為企業(yè)第i年抗風(fēng)險(xiǎn)能力;Ni為第i年凈利潤(rùn);Ni-1為第i-1年凈利潤(rùn);CPi為第i年煤炭行業(yè)景氣指數(shù);CPi-1為第i-1年煤炭行業(yè)景氣指數(shù)。

抗風(fēng)險(xiǎn)能力表示煤炭企業(yè)在每年行業(yè)景氣變化情況下穩(wěn)定和發(fā)展的能力,是評(píng)判企業(yè)信用風(fēng)險(xiǎn)的重要指標(biāo)。

1.1.2 煤炭及加工產(chǎn)品業(yè)務(wù)銷售毛利率(CPPM)

大中型煤炭企業(yè)大多以煤炭開采及加工產(chǎn)品為主營(yíng)業(yè)務(wù),主營(yíng)業(yè)務(wù)銷售毛利率反映了主營(yíng)業(yè)務(wù)的獲利能力,也體現(xiàn)了企業(yè)的財(cái)富創(chuàng)造能力,而利潤(rùn)率卻不能完全體現(xiàn)企業(yè)的生產(chǎn)經(jīng)營(yíng)狀況,因此考慮將煤炭及加工產(chǎn)品業(yè)務(wù)銷售毛利率作為企業(yè)財(cái)富創(chuàng)造能力的指標(biāo),計(jì)算見式(2)。

(2)

式中:CPPMi為企業(yè)第i年煤炭及加工產(chǎn)品業(yè)務(wù)銷售毛利率;CPPRi為第i年煤炭及加工產(chǎn)品業(yè)務(wù)收入;CPPCi為第i年煤炭及加工產(chǎn)品業(yè)務(wù)成本。

煤炭及加工產(chǎn)品業(yè)務(wù)銷售毛利率體現(xiàn)了大中型煤炭企業(yè)的財(cái)富創(chuàng)造能力,獲利能力強(qiáng)弱與信用風(fēng)險(xiǎn)有著直接的關(guān)系。

1.2 兩階段特征選擇方法

1.2.1 特征選擇方法框架

構(gòu)建大中型煤炭企業(yè)信用風(fēng)險(xiǎn)評(píng)價(jià)模型的最大挑戰(zhàn)是判斷哪些指標(biāo)與違約狀態(tài)密切相關(guān),不相關(guān)或冗余的數(shù)據(jù)特征都可能使得評(píng)價(jià)模型出現(xiàn)判斷失誤等情況。當(dāng)數(shù)據(jù)空間隨著維度或特征數(shù)量的增長(zhǎng)而以非??斓乃俣仍鲩L(zhǎng)時(shí),就會(huì)出現(xiàn)維數(shù)災(zāi)難。休斯現(xiàn)象指出,在同等條件下,分類器或回歸器的預(yù)測(cè)能力隨著特征數(shù)量的增加而增加,但在數(shù)量達(dá)到臨界點(diǎn)后下降[12]。多特征的模型往往很復(fù)雜,復(fù)雜的模型也需要更多的時(shí)間來(lái)擬合數(shù)據(jù),易造成過擬合。因此在數(shù)據(jù)量相對(duì)較小的情況下,可以通過減少特征數(shù)量來(lái)緩解這種情況,主要包括Filter、Wrapper、Embedded三種方法。

本文采用的是結(jié)合Filter方法與Wrapper方法的兩階段特征選擇方法,首先以Filter法——假設(shè)檢驗(yàn)的算法(互信息和方差齊性檢驗(yàn))完成特征變量的預(yù)篩選,篩選出對(duì)違約樣本與非違約樣本的非顯著性特征,從而降低數(shù)據(jù)維度,保證后續(xù)Wrapper方法運(yùn)算量能夠控制在合理的程度;然后在Wrapper階段,結(jié)合使用序列前向選擇算法(sequential forward selection,SFS)進(jìn)行特征最優(yōu)子集的搜索,進(jìn)一步篩選變量。算法流程圖如圖2所示。

圖2 兩階段特征選擇算法流程Fig.2 Two-stage feature selection algorithm flow

1.2.2 階段一:Filter方法

Filter方法也稱為過濾式方法,一般依據(jù)評(píng)價(jià)準(zhǔn)則來(lái)增強(qiáng)特征與類的相關(guān)性,弱化特征之間的相關(guān)性。特征屬性分為兩種類型:連續(xù)性和離散型,而目標(biāo)屬性為離散型。根據(jù)屬性類型的不同,可以分為兩種情況:①X和Y都是離散型屬性;②X是連續(xù)型屬性,Y是離散型屬性。針對(duì)以上情況,使用互信息和F檢驗(yàn)來(lái)實(shí)現(xiàn),互信息主要用于篩選離散值屬性,方差分析用于篩選連續(xù)型屬性。

1) 針對(duì)X和Y都是離散型的情況,通過互信息檢驗(yàn)X和Y的獨(dú)立性,評(píng)價(jià)自變量對(duì)因變量的相關(guān)性。互信息是衡量不同變量之間相關(guān)性的有效標(biāo)準(zhǔn),描述兩個(gè)變量之間的共享信息。設(shè)X有s種可能取值,x為隨機(jī)變量X的具體取值,Y有t種可能取值,則Pi=P(X=xi)(i=1…s),p(x,y)為X和Y的聯(lián)合分布,通過互信息式(3)計(jì)算得出每個(gè)變量與Y之間的互信息。

(3)

由互信息的定義得知,當(dāng)隨機(jī)變量X和Y沒有共享信息時(shí),互信息為最小值0;當(dāng)隨機(jī)變量X和Y間的共享信息越多或者說兩變量依賴程度越強(qiáng),他們之間互信息的值越大。通過設(shè)置閾值來(lái)篩掉互信息值較小的特征。

2) 針對(duì)連續(xù)型屬性特征進(jìn)行F檢驗(yàn),F(xiàn)檢驗(yàn)又稱為ANOVA、方差齊性檢驗(yàn),是用來(lái)捕捉標(biāo)簽與每個(gè)特征之間線性關(guān)系的過濾方法,通過檢驗(yàn)各總體的均值是否相等來(lái)判斷分類型自變量對(duì)數(shù)值型因變量是否有顯著影響。F檢驗(yàn)的計(jì)算如下所述。

令X={x1,x2,…,xn}和Y={y1,y2,…,yn}為兩個(gè)服從正態(tài)分布的獨(dú)立時(shí)間序列,則有兩個(gè)序列的均值表示為式(4)。

(4)

兩個(gè)序列的方差為式(5)和式(6)。

(5)

(6)

由此可計(jì)算出F(n-1,m-1),見式(7)。

(7)

F檢驗(yàn)會(huì)返回F值與P值兩個(gè)統(tǒng)計(jì)量,在進(jìn)行F檢驗(yàn)時(shí),可以根據(jù)樣本的某個(gè)特征的F值判斷特征對(duì)預(yù)測(cè)類別的幫助,F(xiàn)值越大,預(yù)測(cè)能力也就越強(qiáng),相關(guān)性就越大。而P值是結(jié)果可信水平的一個(gè)遞減指標(biāo),樣本中變量的關(guān)聯(lián)可以認(rèn)為是總體中個(gè)變量關(guān)聯(lián)的可靠指標(biāo),P值越小,特征的預(yù)測(cè)能力就越強(qiáng)。

1.2.3 階段二:Wrapper方法

Wrapper方法也稱為包裹式方法,其評(píng)價(jià)的策略是使用后續(xù)學(xué)習(xí)算法的分類性能來(lái)評(píng)價(jià)特征子集的優(yōu)勢(shì),該方法需要回歸器或分類器來(lái)進(jìn)行特征選擇,嘗試不同的特征組合,并通過在驗(yàn)證集上測(cè)試模型來(lái)對(duì)每個(gè)子集進(jìn)行評(píng)分。

階段一的Filter方法雖然能夠過濾數(shù)據(jù)集中無(wú)關(guān)的特征,但無(wú)法去除一些冗余特征,因此本階段利用Filter階段所選出的共有特征子集作為Wrapper階段的原始特征子集,采用序列前向選擇進(jìn)一步對(duì)特征進(jìn)行過濾,并以AUC值作為衡量指標(biāo)構(gòu)建特征評(píng)價(jià)值,以RF(random forest)作為分類器檢測(cè)分類的效果,從而獲得最終特征子集。SFS選擇步驟如所述。

Step1:根據(jù)評(píng)估標(biāo)準(zhǔn),選擇返回最佳性能的特征作為初始特征。

Step2:將初始特征與剩余所有特征進(jìn)行雙特征組合,選擇最佳性能的一對(duì)。

Step3:通過前向選擇繼續(xù)添加新的特征,并選擇最佳性能的組合。

Step4:到達(dá)設(shè)定特征個(gè)數(shù)條件即停止,輸出所選擇的特征組合。

2 大中型煤炭企業(yè)實(shí)證研究

2.1 數(shù)據(jù)來(lái)源與樣本處理

2.1.1 數(shù)據(jù)來(lái)源

考慮到數(shù)據(jù)的可獲取性、真實(shí)性和有效性,選取的相關(guān)財(cái)務(wù)數(shù)據(jù)來(lái)自于Choice金融終端,非財(cái)務(wù)數(shù)據(jù)來(lái)自于天眼查與中國(guó)執(zhí)行信息公開網(wǎng)。其中,選取38家煤炭行業(yè)上市公司2000—2018年的相關(guān)數(shù)據(jù)對(duì)大中型煤炭企業(yè)信用風(fēng)險(xiǎn)進(jìn)行實(shí)證研究,數(shù)據(jù)中違約是指公司被滬深證券交易所標(biāo)記為ST(special treatment)的情況,未被標(biāo)記的則認(rèn)定為非違約。

由于ST狀態(tài)是指上市公司經(jīng)審計(jì)兩個(gè)會(huì)計(jì)年度出現(xiàn)財(cái)務(wù)狀況或其他異常狀況,導(dǎo)致其股票存在上市風(fēng)險(xiǎn),從而在下一年實(shí)行風(fēng)險(xiǎn)警示。因此以在t年某公司被標(biāo)記為ST為例,意味著公司在t-1年、t-2年連續(xù)兩年虧損,若是以這兩年的x來(lái)預(yù)測(cè)t年的違約風(fēng)險(xiǎn)變量y,則不符合實(shí)際預(yù)測(cè)情形,不具有說服力和時(shí)效性。因此,當(dāng)構(gòu)建樣本過程中出現(xiàn)此種情形時(shí),以t-3年的x來(lái)預(yù)測(cè)t年的ST狀態(tài)。

2.1.2 樣本處理

1) 違約樣本的選取。由于單個(gè)年份的煤炭類上市公司違約樣本數(shù)量太少,不利于建模,為了充分利用每一年的違約樣本,本文包括了煤炭企業(yè)從2000—2020年所有被標(biāo)記為ST的年份,共選取了40個(gè)被標(biāo)記為ST的違約樣本,并使用t-3年的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

2) 非違約樣本的選取。選取2000—2020年未被標(biāo)為ST的年份作為非違約樣本,由于違約狀態(tài)的年份均為2018年以前,則對(duì)于非違約樣本也采用2018年之前的指標(biāo)數(shù)據(jù)進(jìn)行建模。

3) 樣本預(yù)處理。首先將違約樣本與非違約樣本合并為一個(gè)數(shù)據(jù)集,然后對(duì)數(shù)據(jù)完整度低于90%的年份進(jìn)行刪除,由于煤炭企業(yè)信用風(fēng)險(xiǎn)指標(biāo)量綱不統(tǒng)一,最后進(jìn)行指標(biāo)數(shù)據(jù)歸一化。

正向指標(biāo)是指數(shù)值越大、企業(yè)經(jīng)營(yíng)狀況越好、信用狀況越好的指標(biāo),如利潤(rùn)總額等指標(biāo);負(fù)向指標(biāo)是指數(shù)值越小、企業(yè)償還能力越強(qiáng)、信用狀況越好的指標(biāo),如償債保障比率等指標(biāo)。設(shè)xij為第i個(gè)指標(biāo)第j個(gè)企業(yè)的標(biāo)準(zhǔn)化值;vij為第i個(gè)指標(biāo)第j個(gè)企業(yè)的原始數(shù)值;n為樣本總數(shù)。根據(jù)正向指標(biāo)和負(fù)向指標(biāo)的標(biāo)準(zhǔn)化公式見式(8)和式(9)。

(8)

(9)

2.2 實(shí)驗(yàn)分析

2.2.1 指標(biāo)集

根據(jù)數(shù)據(jù)類型情況,將大中型煤炭企業(yè)數(shù)據(jù)年份劃分為ST與非ST兩種情況,被標(biāo)為ST的標(biāo)簽為1,非ST的標(biāo)簽為0,具體指標(biāo)情況見表1。

表1 指標(biāo)集Table 1 Index set

2.2.2 分類指標(biāo)選擇

實(shí)驗(yàn)所選指標(biāo)為準(zhǔn)確率(Accuracy)、AUC(Area under curve)、F1分?jǐn)?shù)(F1-score)、精確率(Precision)、召回率(Recall)以及特異度(Specificity),從各個(gè)方面表現(xiàn)對(duì)違約樣本的識(shí)別效果以及模型的穩(wěn)健程度,計(jì)算公式見式(10)~式(14),TP、TN、FP、FN見表2。

(10)

(11)

(12)

(13)

(14)

表2 混淆矩陣Table 2 Confusion matrix

2.2.3 預(yù)選學(xué)習(xí)算法

表3為六個(gè)預(yù)選算法在大中型煤炭企業(yè)信用風(fēng)險(xiǎn)原始數(shù)據(jù)集中的表現(xiàn)。由表3可知,RF相較于其他5個(gè)模型而言,6個(gè)指標(biāo)表現(xiàn)均較好,可以有效識(shí)別違約非違約樣本,因此選用RF作為階段二特征篩選的學(xué)習(xí)算法,算法均采用5折交叉驗(yàn)證進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果為10次實(shí)驗(yàn)的平均值。

2.2.4 階段一選擇結(jié)果

圖3為互信息篩選離散型特征結(jié)果,圖3(a)為互信息值,互信息用于衡量離散型變量與標(biāo)簽的信息相關(guān)程度,互信息值越大,依賴程度越大,因此借助圖3(a)可得到圖3(b)的學(xué)習(xí)曲線,表現(xiàn)為刪除特征個(gè)數(shù)對(duì)應(yīng)的模型準(zhǔn)確率結(jié)果。圖3(b)最高點(diǎn)為刪除x19(失信被執(zhí)行記錄)與x22(大股東性質(zhì)3)這兩個(gè)特征,模型準(zhǔn)確率可達(dá)到最高,為0.942 8,說明篩選出的特征對(duì)煤炭企業(yè)是否違約的分類準(zhǔn)確率較好,因此在互信息這一步驟中,刪去這兩個(gè)特征作為結(jié)果。

圖4和表4為方差齊性檢驗(yàn)結(jié)果,用于判斷連續(xù)型變量對(duì)因變量是否有顯著影響, 所得F統(tǒng)計(jì)量越大、P統(tǒng)計(jì)量越小,預(yù)測(cè)能力越強(qiáng),而在許多研究領(lǐng)域,0.05的P值通常被認(rèn)為是可接受錯(cuò)誤的邊界水平,因此在16個(gè)連續(xù)型變量的分析中,保留P≤0.05的9個(gè)變量(即x1、x2、x7、x8、x9、x10、x11、x15、x16)作為預(yù)選連續(xù)型特征集。另一方面,由圖4和表4可以看出,指標(biāo)x1(ARA)與x2(CPPM)處于相對(duì)靠前的位置,證明了這兩個(gè)指標(biāo)與是否是違約狀態(tài)具有強(qiáng)相關(guān)性,驗(yàn)證了指標(biāo)的有效性。

表3 六個(gè)預(yù)選算法在初始數(shù)據(jù)集中的表現(xiàn)Table 3 The performance of six preselection algorithms on the initial data set

圖3 互信息篩選Fig.3 Mutual information screening

圖4 F檢驗(yàn)篩選Fig.4 F-test screening

表4 方差齊性檢驗(yàn)Table 4 Test for homogeneity of variance

2.2.5 階段二選擇結(jié)果

在階段一Filter方法篩選出來(lái)的13個(gè)候選特征的基礎(chǔ)上,階段二Wrapper使用基于RF的序列前向搜索方法選擇最優(yōu)特征子集。根據(jù)1.2.3部分的描述,使用AUC值作為特征集效果評(píng)價(jià)指標(biāo),采用序列前向選擇算法從空集逐步增加特征,直至達(dá)到最優(yōu),經(jīng)過多輪的迭代最終選擇出了10個(gè)優(yōu)選特征。由圖5可以看出,當(dāng)指標(biāo)為10個(gè)時(shí),AUC值表現(xiàn)最好,即保留x1、x2、x7、x8、x9、x11、x17、x18、x20、x21作為最終優(yōu)化特征集。

2.2.6 實(shí)驗(yàn)結(jié)果說明

表5為原始數(shù)據(jù)、階段一篩選之后的特征、階段二篩選之后的特征分別使用分類器預(yù)測(cè)之后的實(shí)驗(yàn)結(jié)果。由表5可知,經(jīng)歷兩個(gè)階段的特征篩選之后,各類指標(biāo)均得到了增長(zhǎng),模型具有較高的Specificity與Recall,說明對(duì)正負(fù)樣本可以有針對(duì)性地進(jìn)行識(shí)別,對(duì)煤炭企業(yè)信用風(fēng)險(xiǎn)的分類預(yù)測(cè)效果較好且穩(wěn)健,指標(biāo)由22個(gè)刪減到10個(gè),大大增加了模型計(jì)算效率。本文使用最后選擇出的特征子集進(jìn)行模型訓(xùn)練既可以保證良好的預(yù)測(cè)效果,又可以保證沒有冗余變量干擾分類,這在大中型煤炭企業(yè)信用風(fēng)險(xiǎn)預(yù)測(cè)中具有較大的現(xiàn)實(shí)意義。

圖5 特征個(gè)數(shù)與AUC值的關(guān)系Fig.5 The relationship between the feature number and AUC value

表6為無(wú)x1(ARA)、x2(CPPM)特征的情況下,原始數(shù)據(jù)、階段一篩選之后的特征、階段二篩選之后的特征使用分類器的預(yù)測(cè)結(jié)果,圖6~圖8為有無(wú)x1、x2特征的情況下的實(shí)驗(yàn)對(duì)比結(jié)果。實(shí)驗(yàn)結(jié)果表明,x1、x2對(duì)于模型的分類精度以及穩(wěn)健程度具有重要作用,各類指標(biāo)均優(yōu)于無(wú)x1、x2的指標(biāo),證明了所提出的兩個(gè)指標(biāo)的有效性。

表5 實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparison of experimental results

表6 無(wú)x1、x2特征實(shí)驗(yàn)結(jié)果對(duì)比Table 6 Comparison of experimental results without x1 and x2 features

圖6 原始數(shù)據(jù)對(duì)比Fig.6 Raw data comparison

圖7 階段一之后數(shù)據(jù)對(duì)比Fig.7 Data comparison after stage one

圖8 階段二之后數(shù)據(jù)對(duì)比Fig.8 Data comparison after stage two

3 結(jié) 語(yǔ)

本文建立了基于Filter-Wrapper兩階段特征選擇方法的大中型煤炭企業(yè)信用風(fēng)險(xiǎn)評(píng)估模型,根據(jù)大中型煤炭企業(yè)的特點(diǎn),在通用指標(biāo)選擇上結(jié)合煤炭企業(yè)風(fēng)險(xiǎn)因素提出兩個(gè)新指標(biāo):抗風(fēng)險(xiǎn)能力、煤炭及加工產(chǎn)品業(yè)務(wù)銷售毛利率;構(gòu)建的Filter-Wrapper兩階段特征選擇方法通過實(shí)驗(yàn)證明對(duì)ST狀態(tài)的分類準(zhǔn)確率高、對(duì)煤炭企業(yè)信用風(fēng)險(xiǎn)違約樣本識(shí)別率較高且提高了預(yù)測(cè)效率,準(zhǔn)確率高達(dá)95%,對(duì)違約樣本識(shí)別率高達(dá)96%;實(shí)驗(yàn)結(jié)果將特征選擇前后的數(shù)據(jù)集進(jìn)行預(yù)測(cè)對(duì)比,驗(yàn)證了煤炭企業(yè)信用風(fēng)險(xiǎn)評(píng)估指標(biāo)的有效性以及特征選擇方法的可行性,說明該模型能夠很好地對(duì)煤炭企業(yè)信用風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),從而合理防范風(fēng)險(xiǎn)、調(diào)控市場(chǎng)、減少銀行、投資者以及企業(yè)本身的損失。

猜你喜歡
互信息特征選擇信用風(fēng)險(xiǎn)
油氣貿(mào)易企業(yè)信用風(fēng)險(xiǎn)管理研究
正交基低冗余無(wú)監(jiān)督特征選擇法
大數(shù)據(jù)背景下的電子商務(wù)信用風(fēng)險(xiǎn)預(yù)警方法
基于詞向量的文本特征選擇方法研究
基于特征聚類集成技術(shù)的在線特征選擇
基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
Kmeans 應(yīng)用與特征選擇
京東商城電子商務(wù)信用風(fēng)險(xiǎn)防范策略
基于互信息的圖像分割算法研究與設(shè)計(jì)
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
隆林| 长丰县| 新和县| 陕西省| 西畴县| 于都县| 海原县| 衢州市| 灌云县| 六盘水市| 大城县| 吴川市| 砚山县| 高雄市| 襄垣县| 黄浦区| 长岛县| 广州市| 崇明县| 北宁市| 平遥县| 顺义区| 永善县| 田林县| 甘洛县| 高要市| 安徽省| 弥渡县| 宁波市| 石棉县| 诏安县| 罗平县| 交城县| 衡阳县| 格尔木市| 龙江县| 六安市| 绥芬河市| 芦溪县| 双鸭山市| 高清|