周學(xué)忠,彭朝暉,曾楊
(1.長沙理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖南 長沙,410114;2.長沙理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,湖南 長沙,410114)
基于隨機(jī)森林模型的上市公司財(cái)務(wù)失敗預(yù)警研究
周學(xué)忠1,彭朝暉2,曾楊1
(1.長沙理工大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖南 長沙,410114;2.長沙理工大學(xué) 經(jīng)濟(jì)管理學(xué)院,湖南 長沙,410114)
基于2003年1月—2016年5月我國A股連續(xù)2年財(cái)務(wù)虧損的上市公司樣本,實(shí)證研究了隨機(jī)森林模型對(duì)上市公司財(cái)務(wù)失敗預(yù)警的應(yīng)用。通過與邏輯斯蒂回歸模型所得結(jié)果比較,證明了隨機(jī)森林模型的預(yù)測精度高于邏輯斯蒂回歸模型。
財(cái)務(wù)失敗;預(yù)警;隨機(jī)森林
改革開放以來,我國的資本市場快速發(fā)展,資本市場已經(jīng)成為我國企業(yè)的籌集資金的重要途徑。上市公司作為資本市場的主體,其財(cái)務(wù)狀況對(duì)資本市場有重要影響。因此,上市公司的財(cái)務(wù)失敗預(yù)警研究有重要的意義。財(cái)務(wù)失敗預(yù)警是分析企業(yè)財(cái)務(wù)數(shù)據(jù),建立預(yù)測模型來預(yù)測財(cái)務(wù)失敗的發(fā)生。國內(nèi)外學(xué)者對(duì)財(cái)務(wù)失敗預(yù)警做過許多研究,如:單變量預(yù)警模型[1-2]、多變變量預(yù)警模型[3-4]、多元邏輯回歸模型[5-6]、神經(jīng)網(wǎng)絡(luò)模型[7-9]、支持向量機(jī)模型[10]。然而國內(nèi)外學(xué)者應(yīng)用數(shù)據(jù)挖掘中組合分類技術(shù)研究財(cái)務(wù)預(yù)警的相關(guān)文獻(xiàn)較少。組合分類技術(shù)是把多個(gè)模型組合在一起,旨在創(chuàng)建一個(gè)復(fù)合分類模型。對(duì)于給定新數(shù)據(jù),每個(gè)模型獨(dú)立給出預(yù)測,組合分類基于多個(gè)模型預(yù)測結(jié)果給出最終預(yù)測,不僅可以有效地提高單個(gè)分類模型的準(zhǔn)確率,而且具有更好的魯棒性。本文主要目的是建立基于隨機(jī)森林的上市公司財(cái)務(wù)失敗預(yù)警模型,并與邏輯斯蒂回歸模型比較。
1.1 數(shù)據(jù)來源
本文選取2003年1月—2016年5月連續(xù)2年財(cái)務(wù)虧損的上市公司為財(cái)務(wù)失敗的樣本。本文所有數(shù)據(jù)均來源于萬德數(shù)據(jù)庫。剔除樣本期間信息缺失的公司,最終得到512家上市公司為財(cái)務(wù)失敗樣本。其中金融業(yè)7家,公用事業(yè)56家,房地產(chǎn)業(yè)63家,綜合業(yè)27家,工業(yè)327家,商業(yè)32家。配對(duì)樣本來源于樣本期內(nèi)從未被 ST的公司??紤]到采用單維特征變量進(jìn)行配對(duì)容易導(dǎo)致錯(cuò)配問題,本文引入 PSM方法,根據(jù)總資產(chǎn)規(guī)模、股東權(quán)益、總資產(chǎn)利潤率、市盈率、資產(chǎn)負(fù)債比5維特征,在(t?3)年的同一行業(yè)內(nèi)對(duì)512家ST公司按1︰1的比例進(jìn)行配對(duì),經(jīng)配對(duì)后共獲得1 024個(gè)樣本。
1.2 指標(biāo)體系選取
本文在前人財(cái)務(wù)失敗預(yù)警模型[11-15]研究基礎(chǔ)上,從上市公司的盈利能力、償債能力、資本結(jié)構(gòu)水平、現(xiàn)金流量水平、營運(yùn)能力、成長能力等 6個(gè)方面選取了23個(gè)財(cái)務(wù)指標(biāo)。盈利能力包括凈資產(chǎn)收益率(roe)、總資產(chǎn)利潤率(rota)、每股收益(eps)、每股凈資產(chǎn)(vps)、流動(dòng)負(fù)債比(rmd)。償債能力包括資產(chǎn)負(fù)債率(rd)、流動(dòng)比率(rwc)、速動(dòng)比率(rq)、利息支付倍數(shù)(mip)。成長能力包括凈利潤增長率(rnpg)、總資產(chǎn)增長率(rtag)、營業(yè)總收入增長率(rorg)、市盈率(rpe)。營運(yùn)能力包括存貨周轉(zhuǎn)率(rit)、固定資產(chǎn)周轉(zhuǎn)率(rfat)、總資產(chǎn)周轉(zhuǎn)率(rtat)、營運(yùn)資本資產(chǎn)比(roca)。現(xiàn)金流能力包括現(xiàn)金比率(rc)、現(xiàn)金流動(dòng)負(fù)債比(rctcd)。其他包括股東權(quán)益(esh)、機(jī)構(gòu)投資者持股比率(rish)、資產(chǎn)規(guī)模(az)、應(yīng)收賬款周轉(zhuǎn)率(rrt)。為了克服異常值影響,本文對(duì)所有指標(biāo)按照5%標(biāo)準(zhǔn)進(jìn)行了縮尾處理。
1.3 樣本基本統(tǒng)計(jì)分析
為了了解每個(gè)指標(biāo)對(duì)財(cái)務(wù)失敗影響,本文對(duì)PSM配對(duì)樣本中財(cái)務(wù)正常上市公司、財(cái)務(wù)失敗上市公司的各個(gè)指標(biāo)做了基本統(tǒng)計(jì)分析。表1給出了PSM配對(duì)樣本上市公司的各個(gè)財(cái)務(wù)指標(biāo)均值和中位數(shù)。由表1可知:rota、roe、rpe等指標(biāo)財(cái)務(wù)正常和財(cái)務(wù)失敗的均值、中位數(shù)存在較大差異;vps,rit,rnpg等指標(biāo)差異較小。
本文對(duì)財(cái)務(wù)正常、財(cái)務(wù)失敗上市公司各指標(biāo)做了t檢驗(yàn)。表2給出了各指標(biāo)的t檢驗(yàn)結(jié)果。在5%水平下,rota,roe,rc,esh,rtat等20個(gè)指標(biāo)有顯著差異,對(duì)財(cái)務(wù)失敗具有很好的預(yù)警能力。
表1 PSM配對(duì)樣本企業(yè)財(cái)務(wù)指標(biāo)均值和中位數(shù)
表2t檢驗(yàn)結(jié)果
2.1 隨機(jī)森林模型簡介
隨機(jī)森林是一種組合分類技術(shù)。2001年被Leo Breiman[16]首次提出,隨機(jī)森林是由很多CART決策樹分類模型組成的模型,它的構(gòu)建步驟:第1步,利用Bootstrap重抽樣方法從原始樣本中抽取n個(gè)Bootstrap樣本,對(duì)于每個(gè)Bootstrap樣本,再從原始m個(gè)自變量選擇k個(gè)輸入變量(k<<m);第2步,對(duì)n個(gè)Bootstrap樣本分別建立CART決策樹模型,得到n個(gè)分類結(jié)果;第3步,根據(jù)這n個(gè)分類結(jié)果決定最終分類結(jié)果。一般采用給出最終結(jié)果。H(x)表示隨機(jī)森林分類模型,hi(x)表示單個(gè)CART決策樹分類模型,Y表示輸出變量,I(·)表示示性函數(shù)。隨機(jī)森林模型訓(xùn)練每棵CART決策樹時(shí),從原始樣本進(jìn)行有放回隨機(jī)抽樣得到Bootstrap樣本,每個(gè)數(shù)據(jù)未被抽中的概率為(1? 1/N)N。當(dāng)N很大時(shí),(1 ? 1/N)N極限為1/e ≈ 37%,也就是說有37%的數(shù)據(jù)未被抽中,這些數(shù)據(jù)被稱為袋外數(shù)據(jù)。隨機(jī)森林模型用袋外數(shù)據(jù)不僅可以檢驗(yàn)?zāi)P偷念A(yù)測效果,還可以給出變量重要性度量。
2.2 隨機(jī)森林模型的建立
由于az、esh、rd、rota、rpe已用于PSM配對(duì),不參與隨機(jī)森林模型的構(gòu)建。圖1為采用隨機(jī)森林基尼系數(shù)法,剩余18個(gè)變量的重要性圖,縱坐標(biāo)為變量名稱,橫坐標(biāo)為基尼指數(shù)值(值越大代表變量越重要)。根據(jù)圖1選取前8個(gè)指標(biāo)作為隨機(jī)森林模型原始輸入變量,即用rish、roe、rc、rtat、rfat、eps、mip、rwc建立基于隨機(jī)森林的財(cái)務(wù)預(yù)警模型。
由隨機(jī)森林模型的簡介可知,隨機(jī)森林模型有 2個(gè)參數(shù)需要設(shè)置,即決策樹數(shù)量和每棵決策樹隨機(jī)輸入變量個(gè)數(shù)。決策樹數(shù)量通常設(shè)置為500棵,每棵決策樹隨機(jī)變量個(gè)數(shù)一般為原始輸入變量個(gè)數(shù)開方的近似值。由于隨機(jī)森林原始輸入變量為8,所以每棵決策樹隨機(jī)輸入變量數(shù)為3。按3︰1比例隨機(jī)抽取768家公司作為訓(xùn)練數(shù)據(jù)集,用于構(gòu)建模型;其余256家公司作測試數(shù)據(jù)集,用于檢驗(yàn)?zāi)P汀8鶕?jù)隨機(jī)森林分類結(jié)果,得到隨機(jī)森林模型的訓(xùn)練數(shù)據(jù)集準(zhǔn)確率為76.17%,測試數(shù)據(jù)集準(zhǔn)確率(預(yù)測正確數(shù)/樣本數(shù))為77.34%,正常公司錯(cuò)分率(正常公司錯(cuò)分?jǐn)?shù)/正常公司數(shù))為21.29%,ST公司錯(cuò)分率(ST公司錯(cuò)分?jǐn)?shù)/ST公司數(shù))為26.37%。
圖1 變量重要性
2.3 模型比較
為了評(píng)估隨機(jī)森林模型結(jié)果,本文在訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集不變,仍然選取前文8個(gè)原始輸入變量,建立了邏輯斯蒂回歸模型,并計(jì)算了邏輯斯蒂回歸模型的訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集的準(zhǔn)確率。表3為隨機(jī)森林模型與邏輯斯蒂回歸模型的準(zhǔn)確率對(duì)比??梢钥闯?隨機(jī)森林模型訓(xùn)練集準(zhǔn)確率為76.17%,邏輯斯蒂回歸模型訓(xùn)練集準(zhǔn)確率為70.44%,前者高于后者。同樣,前者測試集準(zhǔn)確率亦高于后者。因此,隨機(jī)森林模型預(yù)測效果優(yōu)于邏輯斯蒂回歸模型。
表3 模型的比較 /%
本文在PSM配對(duì)方法基礎(chǔ)上,探討了隨機(jī)森林模型在上市公司財(cái)務(wù)失敗預(yù)警中的應(yīng)用。通過上述研究,可以看出隨機(jī)森林模型具有較高的預(yù)測精度,其訓(xùn)練集和測試集準(zhǔn)確率都高于75%。因此,隨機(jī)森林模型對(duì)財(cái)務(wù)失敗預(yù)警有較好識(shí)別能力。通過與邏輯斯蒂回歸模型比較,隨機(jī)森林模型預(yù)測精度高于邏輯斯蒂回歸模型,這說明隨機(jī)森林模型在財(cái)務(wù)失敗預(yù)警中有應(yīng)用前景和實(shí)踐價(jià)值。
[1]Fitzpatrick P.A comparison of ratios of successful industrial enterprises with those of failed firms [J].Certified Public Accountant,1932(2):598-605.
[2]William Beaver.Financail ratio as predictors of failure [J].Empirical Research in Accounting,1966(4):71-111.
[3]Altman E.Financial rations.Discrinimant analysis and the prediction of corporate bankruptcy [J].Journal of Finance,1968,9:589-609.
[4]Haldeman A E,Narayanan P.ZETA Analysis:A new model to identify bankruptcy risk of corporations [J].Journal of Banking and Finance,1977(1):32-39.
[5]McGurr P.Predicting business failure of retail firms:an analysis using mixed industry models [J].Journal of Business Research,1977,43:169-176.
[6]Ohlson J A.Financial ratios and the probabilistic prediction of bankruptcy [J].Journal of Accounting Research,1980,19:109-131.
[7]Dutta S,Shekhar S.Bond rating:a non-conservative application of neural networks [C]//Proceeding of the IEEE International Conference on Neural Networks.Los Alamitos:IEEE Press,1988:443-450.
[8]楊淑娥,王樂平.基于BP神經(jīng)網(wǎng)絡(luò)和面板數(shù)據(jù)的上市公司財(cái)務(wù)預(yù)警[J].系統(tǒng)工程理論與實(shí)踐,2007(2):66-67.
[9]姚宏善.基于支持向量機(jī)的財(cái)務(wù)困境預(yù)測研究[D].武漢:華中科技大學(xué),2006.
[10]吳冬梅,朱俊,莊新田,等.基于支持向量機(jī)的財(cái)務(wù)危機(jī)預(yù)警模型[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,31(4):601-604.
[11]Breiman L.Random forests [J].Machine Learing,2001,45(1):5-32.
[12]李應(yīng)求,李依帆.我國創(chuàng)業(yè)板企業(yè)內(nèi)部人交易擇時(shí)行為研究[J].經(jīng)濟(jì)數(shù)學(xué),2015,32(1):10-18.
[13]李應(yīng)求,劉薇,陳文鋒.聚類分析視角下地區(qū)保險(xiǎn)業(yè)發(fā)展差異研究——基于湖南省各地市的截面數(shù)據(jù)分析[J].時(shí)代金融,2009(1):117-119.
[14]李應(yīng)求,劉朝才,彭朝暉.不確定條件下企業(yè)的投資規(guī)模決策[J].運(yùn)籌學(xué)學(xué)報(bào),2008,12(2):121-128.
[15]李應(yīng)求,甘柳,魏民.一類多險(xiǎn)種復(fù)合Poisson-Geometric過程風(fēng)險(xiǎn)模型研究[J].統(tǒng)計(jì)與決策,2010,7:53-55.
[16]李應(yīng)求,楊揚(yáng),歐陽迪飛,等.基于MGPD模型的地質(zhì)災(zāi)害風(fēng)險(xiǎn)的統(tǒng)計(jì)度量[J].數(shù)理統(tǒng)計(jì)與管理,2016,35(3):381-390.
(責(zé)任編校:劉剛毅)
Financial crisis warning model based on the random forest
Zhou Xuezhong1,Peng Zhaohui2,Zeng Yang1
(1.College of Mathematics and Statistics,Changsha University of Science and Technology,Changsha 410114,China;2.School of Economics and Management,Changsha University of Science and Technology,Changsha 410114,China)
Using the sample that losses for two consecutive years of listed companies in China'sA shares from January 2003 to May 2016,the application of Random Forest on the prediction of listed companies financial failure is studied.Compare with Logistic model,it is confirmed that the accurace rate of the Random Forest is better than Logistic model.
financial crisis;crisis warning;random forest
F 222.3
A
1672-6146(2017)02-0017-04
周學(xué)忠,zhoisha@qq.com。
2017-01-20
國家自然科學(xué)基金(11571052);湖南省研究生科研創(chuàng)新項(xiàng)目(CX2016B417)。
10.3969/j.issn.1672-6146.2017.02.005