国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Isomap融合樸素貝葉斯分類器的信用預(yù)測

2021-02-28 11:53:54許義仿陳晉李林張波司思思
電腦知識與技術(shù) 2021年35期

許義仿 陳晉 李林 張波 司思思

摘要:因為金融數(shù)據(jù)存在海量、高維度、非線性的特點,所以如何選擇原始數(shù)據(jù)中的本質(zhì)特征關(guān)系到分類器的精度。本文提出了一種基于Isomap算法的樸素貝葉斯分類器。該算法的核心本質(zhì)是對高維大樣本的金融數(shù)據(jù)運用Isomap算法進(jìn)行降維處理,進(jìn)而在此基礎(chǔ)上運用樸素貝葉斯分類算法進(jìn)行分類。選取1069家公司的財務(wù)指標(biāo)數(shù)據(jù)進(jìn)行實證分析,結(jié)果證明該分類器的預(yù)測準(zhǔn)確率優(yōu)于樸素貝葉斯分類器。

關(guān)鍵詞:Isomap;樸素貝葉斯;信用風(fēng)險評估

中圖分類號:TP311 ? ? ?文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2021)35-0125-02

1 引言

信用評估指的是信用評估機(jī)構(gòu)使用專家判斷和數(shù)學(xué)分析方法, 對企業(yè)或個人履約各種承諾能力、詳細(xì)評價其信譽程度, 并用簡潔的文字或符號表達(dá)出來,進(jìn)而滿足贖回需要的市場行為。

鑒于此,本文在現(xiàn)有的研究基礎(chǔ)上針對非線性、高維度的財務(wù)數(shù)據(jù)提出了基于Isomap的樸素貝葉斯(ISOMAP-NB)信用評估模型, 把數(shù)據(jù)降維當(dāng)成數(shù)據(jù)預(yù)處理中的一步,簡化了樸素貝葉斯分類模型的結(jié)構(gòu), 并選取了1069家企業(yè)的財務(wù)指標(biāo)數(shù)據(jù)集進(jìn)行實證研究,結(jié)果證明該模型好于樸素貝葉斯分類模型,在企業(yè)信用預(yù)測方面提高了預(yù)測的準(zhǔn)確率。

2 ISOMAP-NB模型

2.1 Isomap 算法

Isomap算法是在多維尺度變換(MDS)的根基之上,力圖保持?jǐn)?shù)據(jù)點的內(nèi)在幾何性質(zhì),也就是說保持2點間的測地距離。

Isomap算法步驟如下[1]:

步驟1 算出樣本點之間的歐氏距離矩陣, 構(gòu)建鄰域關(guān)系圖[GV,E],對每個[xi(i=1,2,...,N)]計算其[k]近鄰[xi1,xi2,…xik], 記為[Nj], 以點[xi]為定點, 歐氏距離[d(xi,xij)]為邊, 建立鄰域關(guān)系圖[GV,E]。

確定近鄰點有2種方法:

i) 利用[ε-]近鄰法, 如果[xi-xj2≤ε],則點對[xi,xj]可視為近鄰點.

ii) 利用[k-]近鄰法, 事先給定近鄰個數(shù)[k], 然后確定近鄰點。

步驟 2 計算測地距離[D=(dij)n×n],在近鄰關(guān)系圖[GV,E]中尋找最短路徑,即:

[dij=dij?xj∈Ni or xi∈Nminkdij,dik+dkjotherwise]

步驟3 對距離[D=(dij)N×N]運用古典MDS方法,求出最低維嵌入[Y={y1,y2,...,yN}]。

2.2 樸素貝葉斯分類算法

樸素貝葉斯的分類說明步驟如下[2-4]:

(1) 把每個數(shù)據(jù)樣本數(shù)值化,用一個[n]維特征向量[X={x1,x2...xn}]表示樣本屬性的[n]個度量。

(2) 假定[m]個類[C1,C2,...,Cm]。給定一個待分類的樣本[X], 根據(jù)貝葉斯定理可得樣本[X]的概率為:

[P(Ci|X)=P(X|Ci)P(Ci)P(X)]

(3) 由于[P(X)]對所有類都是常數(shù),即只需[P(X|Ci)P(Ci)]最大。假如類的先驗概率不明,則通常情況下這些類是等概率的。即[P(C1)=P(C2)=...P(Cm)],所以只需[P(X|Ci)]為最大。

(4) 為了計算[P(X|Ci)],我們往往做類條件獨立的樸素假定. 則:

[P(X|Ci)=k=1nP(Xk|Ci)]

即概率[P(X1|Ci),P(X2|Ci),…P(Xn|Ci)]由訓(xùn)練樣本估計,其中:

i) 如果[Ak]是分類屬性,則:

[P(Xk|Ci)=SikSi]

其中[Sik]是屬性[Ak]上具有[Xk]的類[Ci] 的訓(xùn)練樣本數(shù), 而[Si]是[Ci]中的訓(xùn)練樣本數(shù);

ii) 假如是連續(xù)屬性, 則往往假設(shè)該屬性服從高斯分布。 因而:

[P(Xk|Ci)=g(xk,uci,σci)=12πσcie(x-uci,)22σci2]其中給定類樣本的[Ci]的訓(xùn)練樣本屬性[Ak]的值[g(xk,uci,σci)]是屬性[Ak]的高斯密度函數(shù),因而[uci],[σci]分別為平均值和密度差。

(5) 對未知樣本[X]分類, 計算[P(X|Ci)P(Ci)],比較[P(X|Ci)P(Ci)]與[P(X|Cj)P(Cj)],如果[P(X|Ci)][P(Ci)>] [P(X|Cj)P(Cj)],則[X]被分到[Ci]類中,反之則分到[Cj]。

3 實證分析

3.1 研究樣本的獲取

我們利用在滬深交易所上市的1069家企業(yè)2015年的財務(wù)指標(biāo)數(shù)據(jù)(數(shù)據(jù)均選自新浪財經(jīng)),并從其中選用了15個財務(wù)指標(biāo)當(dāng)成關(guān)鍵變量,且這15個指標(biāo)都是數(shù)值型屬性變量, 類變量是有兩個狀態(tài){good, bad}, 相應(yīng)地將1069家企業(yè)劃分為兩類:good, 代表“具有信用好的條件”的企業(yè)和bad表示“不具有信用好的條件”的企業(yè). 并從其中抽取769個樣本作為訓(xùn)練集, 剩下300個樣本作為測試集。

3.2 指標(biāo)體系的選擇

財務(wù)指標(biāo)指的是企業(yè)概括和評價財務(wù)狀況和經(jīng)營成果的相對指標(biāo)。我們往往通過分解和解剖企業(yè)的財務(wù)指標(biāo)對企業(yè)經(jīng)濟(jì)效益的好壞做出準(zhǔn)確的評價與推斷,用來判定銀行是否貸款給這些企業(yè)。

經(jīng)過研究文獻(xiàn)[5-7]以及大公國際信用評級的關(guān)鍵財務(wù)指標(biāo),本文選取了上市公司的15個財務(wù)指標(biāo)。這15個財務(wù)指標(biāo)分為四大類:償債能力指標(biāo)(現(xiàn)金比率、流動比率、資產(chǎn)負(fù)債率、速動比率)、運營能力(存貨周轉(zhuǎn)率、流動資產(chǎn)周轉(zhuǎn)率、應(yīng)收賬款周轉(zhuǎn)率)、盈利能力(凈資產(chǎn)收益率、毛利率、凈利率、每股主營業(yè)收入)、發(fā)展能力(股東權(quán)益增長率、凈資產(chǎn)增長率、總資產(chǎn)增長率、每股收益增長率)。

3.3 構(gòu)建ISOMAP-NB模型

通過Isomap算法對數(shù)據(jù)進(jìn)行降維并將其當(dāng)成樸素貝葉斯分類算法的前置數(shù)據(jù)預(yù)處理系統(tǒng)。對非線性、高維度的企業(yè)財務(wù)樣本實行降維處理,進(jìn)而精簡了樸素貝葉斯分類模型結(jié)構(gòu),減少訓(xùn)練時間, 提高分類精度。

融合Isomap數(shù)據(jù)降維的樸素貝葉斯分類模型架構(gòu)圖如圖1所示。

算法描述如下:

(1) 指標(biāo)體系的建立:從財務(wù)數(shù)據(jù)庫中選取描述企業(yè)信用級別的指標(biāo)。

(2) 特征提?。豪肐somap算法減小特征向量的維數(shù)。

(3) 建立分類器:利用樸素貝葉斯算法將樣本進(jìn)行分類處理。

3.4 離差標(biāo)準(zhǔn)化處理

依據(jù)原始數(shù)據(jù)顯現(xiàn)的特征,如果數(shù)據(jù)之間存在很大的變異程度, 就考慮實行離差標(biāo)準(zhǔn)化處理[8]。由于本文選取的數(shù)據(jù)量綱不同且數(shù)據(jù)的差異很大,故我們對源數(shù)據(jù)進(jìn)行離差標(biāo)準(zhǔn)化處理,利用公式[xik=xik-min(xk)Rk]將原始數(shù)據(jù)變化到(0,1)之間。

3.5 利用Isomap降維

本文利用Isomap算法對高維數(shù)據(jù)進(jìn)行降維處理中,我們使用了最近鄰居方法,帶入[k]值[(k=3,…30)], 以此進(jìn)行參數(shù)尋優(yōu), 直至找到產(chǎn)生最小殘差的[k]。[k]是Isomap算法中最近鄰居點個數(shù). 本文在Matlab軟件上運行Isomap代碼, 并不斷改變參數(shù)[k]的值取得一系列低維嵌入的殘差圖,通過對取不同[k]值得到的殘差圖進(jìn)行分析,表明[k=4]的時候產(chǎn)生的是最小殘差,殘差圖如圖2。隨著橫坐標(biāo)維數(shù)(Isomap dimensionality)的增加,縱坐標(biāo)殘差也隨之變小, 這表明了通過Isomap算法是可以實現(xiàn)數(shù)據(jù)的維數(shù)降低的。但是,需要經(jīng)過尋找曲線突然停止顯著下降的“肘”點來判斷[9]數(shù)據(jù)的“內(nèi)在”維度。

從圖2得知,當(dāng)維數(shù)[d<3]時,殘差曲線顯著下降至“肘”點,當(dāng)維數(shù)[d>3]時,殘差曲線明顯變得平緩、殘差幾乎相同, ?這表明我們成功實現(xiàn)對1069家企業(yè)的財務(wù)數(shù)據(jù)進(jìn)行了降維。進(jìn)而可以得出結(jié)果:通過Isomap算法降維后,得出[d=4]是真實“內(nèi)在”維數(shù)。

3.6 對比試驗

為了驗證ISOMAP-NB評估模型的分類性能, 我們選擇未用Isomap算法進(jìn)行數(shù)據(jù)降維的樸素貝葉斯模型做對比分析。

非降維的樸素貝葉斯分類器對“good”這類企業(yè)數(shù)據(jù)的預(yù)測準(zhǔn)確率是99.3%,優(yōu)于樸素貝葉斯的預(yù)測準(zhǔn)確率98.95%。這兩種模型對“bad”這類企業(yè)數(shù)據(jù)的預(yù)測準(zhǔn)確率基本持平??偟膩碚f, 降維后的分類器的準(zhǔn)確率為95.4%,非降維的樸素貝葉斯分類器的準(zhǔn)確率為95%,結(jié)果數(shù)據(jù)表明ISOMAP-NB評估模型在一定程度上好于樸素貝葉斯模型.綜上所述,基于Isomap的樸素貝葉斯分類模型在經(jīng)過Isomap的降維處理后,不但簡化了樸素貝葉斯分類模型結(jié)構(gòu),減小了樸素貝葉斯模型的計算復(fù)雜度, 并且提高了模型的分類精度。在一定程度上協(xié)助銀行對企業(yè)進(jìn)行較為客觀的信用評估。

4 結(jié)束語

針對非線性、高維度的大樣本財務(wù)數(shù)據(jù)進(jìn)行分類處理,本文首先應(yīng)用了Isomap算法做降維處理,將原始數(shù)據(jù)從15維變量降到了4維變量,然后再利用樸素貝葉斯分類器對降維后的數(shù)據(jù)做分類處理,構(gòu)建了基于Isomap的樸素貝葉斯分類模型,并選取2015年1069家企業(yè)的財務(wù)指標(biāo)數(shù)據(jù)進(jìn)行實驗研究,結(jié)果顯示該分類模型有效地提高了樸素貝葉斯的分類精度。不但把Isomap用在非線性的金融數(shù)據(jù)上,還可以為銀行信用評估創(chuàng)新了一種判斷方法。

參考文獻(xiàn):

[1] 段志臣,芮小平,張立媛.基于流形學(xué)習(xí)的非線性維數(shù)約簡方法[J].數(shù)學(xué)的實踐與認(rèn)識,2012,42(8):230-241.

[2] 曹根,葛孝堃,楊麗琴.基于K-近鄰法的局部加權(quán)樸素貝葉斯分類算法[J].計算機(jī)應(yīng)用與軟件,2011,28(9):267-268,291.

[3] 孫程,邢建春,楊啟亮,等.基于改進(jìn)樸素貝葉斯的入侵檢測方法[J].微型機(jī)與應(yīng)用,2017,36(1):8-10,14.

[4] 楊光祖,王國軍.一種新的樸素貝葉斯屬性選擇算法[J].科學(xué)技術(shù)與工程,2009,9(4):978-980.

[5] 趙志沖,遲國泰.基于似然比檢驗的工業(yè)小企業(yè)債信評級研究[J].中國管理科學(xué),2017,25(1):45-56.

[6] 遲國泰,張亞京,石寶峰.基于Probit回歸的小企業(yè)債信評級模型及實證[J].管理科學(xué)學(xué)報,2016,19(6):136-156.

[7] 劉麗杰.中國企業(yè)債券信用評級指標(biāo)體系研究與創(chuàng)新[J].中國證券期貨,2010(9):23.

[8] 王志.基于PCA-NBC算法的股票分類研究[D].蘭州:蘭州大學(xué),2014.

[9] Tenenbaum J B,de Silva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290(5500):2319-2323.

【通聯(lián)編輯:李雅琪】

皋兰县| 徐州市| 剑川县| 大城县| 闻喜县| 化隆| 治多县| 三都| 仁怀市| 新安县| 顺昌县| 青河县| 申扎县| 临海市| 六盘水市| 房山区| 永安市| 眉山市| 饶阳县| 通许县| 阿合奇县| 潞城市| 阿鲁科尔沁旗| 临湘市| 靖边县| 图片| 客服| 晋宁县| 桂林市| 大方县| 寻乌县| 乌拉特前旗| 蚌埠市| 唐山市| 安平县| 镇原县| 灵台县| 信宜市| 吐鲁番市| 霍邱县| 横峰县|