王瑞臻+林婧
[摘 要]文章利用四種不同的分類模型Logistic模型、決策樹模型、BP神經(jīng)網(wǎng)絡(luò)以及隨機(jī)森林對(duì)2015年創(chuàng)業(yè)板與主板上市公司差異性財(cái)務(wù)數(shù)據(jù)進(jìn)行了識(shí)別。研究發(fā)現(xiàn)不同的識(shí)別方法,識(shí)別結(jié)果有一定差異,在識(shí)別差異性數(shù)據(jù)的此類問題上,隨機(jī)森林具有一定的優(yōu)勢。隨機(jī)森林識(shí)別出的兩板差異性數(shù)據(jù)主要有速動(dòng)比率、流動(dòng)比率、應(yīng)收賬款周轉(zhuǎn)率等。
[關(guān)鍵詞]隨機(jī)森林;上市公司;財(cái)務(wù)數(shù)據(jù);差異性識(shí)別
[DOI]10.13939/j.cnki.zgsc.2018.02.188
1 引 言
2009年啟動(dòng)創(chuàng)業(yè)板,至今已有600多家公司成功發(fā)行。雖然創(chuàng)業(yè)板與主板市場的準(zhǔn)入條件、交易規(guī)則以及投資者特征等方面不同,但可以根據(jù)統(tǒng)計(jì)財(cái)務(wù)數(shù)據(jù)對(duì)兩市場進(jìn)行對(duì)比研究,找出兩個(gè)市場在哪些方面存在差異,分析差異的原因,并通過彼此之間的借鑒來加以完善,這對(duì)我國股市持續(xù)穩(wěn)定的發(fā)展具有參考價(jià)值。為識(shí)別出兩板上市公司差異性財(cái)務(wù)數(shù)據(jù),通常涉及傳統(tǒng)的ANOVA方差分析,與此同時(shí),分類模型可為此類問題提供一種方法。分類問題在醫(yī)學(xué)、經(jīng)濟(jì)管理等領(lǐng)域經(jīng)常涉及,針對(duì)這一類問題通常采用統(tǒng)計(jì)學(xué)方法Logistic進(jìn)行分析。近年來,越來越多的機(jī)器學(xué)習(xí)方法對(duì)分類模型給出了新的解決方案,常見的機(jī)器學(xué)習(xí)分類模型如決策樹模型、BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林等,一般來說,建立的分類模型是用來預(yù)測。但無論是Logistic模型還是上述的機(jī)器學(xué)習(xí)都可以對(duì)輸入的變量按重要性提取出關(guān)鍵變量,這對(duì)我們識(shí)別創(chuàng)業(yè)板與主板上市公司的差異性財(cái)務(wù)數(shù)據(jù)提供了另外一種可行的方法。進(jìn)一步通過上述多類模型的比較,可以選取出適合差異性差別的方法。
2 變量選擇與數(shù)據(jù)預(yù)處理
2.1 研究對(duì)象
本文財(cái)務(wù)數(shù)據(jù)來自國泰安數(shù)據(jù)服務(wù)中心中國上市公司財(cái)務(wù)指標(biāo)分析數(shù)據(jù)庫,剔除一些異常上市公司和極端值后,選取2015年創(chuàng)業(yè)板的491家上市公司,1249家主板上市公司,共計(jì)1740個(gè)觀測值。由于本文是為了識(shí)別差異性財(cái)務(wù)數(shù)據(jù),充分使用數(shù)據(jù)進(jìn)行建模,所以把所有數(shù)據(jù)作為訓(xùn)練樣本進(jìn)行訓(xùn)練且充當(dāng)檢驗(yàn)樣本進(jìn)行檢驗(yàn)。
2.2 變量選擇
依照選取財(cái)務(wù)指標(biāo)的全面性、重要性、科學(xué)性的原則從上市公司共選取30個(gè)財(cái)務(wù)指標(biāo),如表1所示。
即使其中有的指標(biāo)之間可能高度相關(guān) ,但本文采用的方法比較均能較好地處理高度相關(guān)性,選取較多的財(cái)務(wù)數(shù)據(jù)將盡量包含比較多的信息 ,盡可能多地從各方面識(shí)別出主板與創(chuàng)業(yè)板上市公司的差異性財(cái)務(wù)數(shù)據(jù)。
2.3 缺失值處理與數(shù)據(jù)標(biāo)準(zhǔn)化
缺失值對(duì)于上述模型有著很顯著的影響,為了降低這一影響,利用統(tǒng)計(jì)軟件SPSS19.0中的以缺失值鄰近點(diǎn)的算術(shù)平均值進(jìn)行替代。再對(duì)所有指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理。采用Z-score標(biāo)準(zhǔn)化方法也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化函數(shù)為:
其中σ用所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差估計(jì),μ用所有樣本數(shù)據(jù)的均值估計(jì)。
3 基于隨機(jī)森林的差異性指標(biāo)識(shí)別
隨機(jī)森林算法是組合分類模型中的一種,該分類器最早由LeoBreiman和AdeleCutler提出。隨機(jī)森林是由很多CART決策樹分類模型集成的組合分類模型,在給定自變量X后,每個(gè)決策樹分類模型都有一票投票權(quán)來選擇最優(yōu)的分類結(jié)果。其基本步驟為:首先利用Bootstrap重抽樣方法從原始訓(xùn)練樣本中抽取n個(gè)樣本,且每個(gè)樣本的容量都與原始訓(xùn)練集中的樣本個(gè)數(shù)相同,對(duì)n個(gè)樣本建立n個(gè)CART決策樹模型得到各個(gè)分類結(jié)果,最后投票記錄并決定最終分類結(jié)果。隨機(jī)森林的每棵樹都不剪枝,讓其充分生長,最終的模型結(jié)果是對(duì)所有的決策數(shù)的結(jié)果的簡單平均。
在R3.33版本中利用程序包RandomForest可以快速地對(duì)數(shù)據(jù)進(jìn)行建模。隨機(jī)森林變量重要性識(shí)別的方法是置換精度重要性,其原理是:隨機(jī)刪減某些變量,這時(shí)如果預(yù)測精度大大降低,則說明該變量特別重要。首先使用RandomForest函數(shù),使用樣本量為500(Ntree=500),對(duì)每個(gè)樣本建立一棵決策樹,并按照置換精度重要性輸出自變量重要性。
自變量重要性如表2所示,重要性大小的從大到小排序前十位依次為:速動(dòng)比率、流動(dòng)比率、應(yīng)收賬款周轉(zhuǎn)率、市銷率、市凈率、本利比、總資產(chǎn)增長率、資產(chǎn)負(fù)債率、股東權(quán)益比率、產(chǎn)權(quán)比率。
4 不同分類模型比較
4.1 分類模型擬合混淆矩陣
根據(jù)綜上建立的四個(gè)分類模型輸出的混淆矩陣,進(jìn)行匯總得到表3。分類模型的擬合判別正確率會(huì)對(duì)差異性指標(biāo)的識(shí)別造成影響。
從擬合效果分析來看,隨機(jī)森林?jǐn)M合效果最好為100%,其次分別為BP神經(jīng)網(wǎng)絡(luò)、決策樹、Logistic模型,這樣的結(jié)果通常是可以理解的。
4.2 分類模型優(yōu)劣分析
第一,Logistic模型作為傳統(tǒng)的統(tǒng)計(jì)方法,其特點(diǎn)是識(shí)別線性特征,對(duì)于非線性特征的處理存在一定的劣勢。
第二,決策樹對(duì)于識(shí)別非線性特征有優(yōu)勢且易于理解和分析,在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果,但其對(duì)異常值過于敏感, 很容易導(dǎo)致樹的結(jié)構(gòu)的巨大變換。
第三,BP神經(jīng)網(wǎng)絡(luò)其非線性映射能力非常強(qiáng),能夠處理內(nèi)部機(jī)制非常復(fù)雜的問題,并且容錯(cuò)能力也很有優(yōu)勢,在部分神經(jīng)元被破壞的條件下依然能夠保持較高的精度。但其缺點(diǎn)也是很明顯的,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇不一會(huì)導(dǎo)致每次訓(xùn)練得到不同結(jié)果的,同時(shí)模型復(fù)雜不易理解。這給神經(jīng)網(wǎng)絡(luò)的應(yīng)用在一定程度上造成了一些影響。
第四,隨機(jī)森林作為組合模型針對(duì)差異性指標(biāo)識(shí)別問題有著很大的優(yōu)勢,隨機(jī)森林可實(shí)現(xiàn)隱式特征選擇,并且提供一個(gè)很好的特征重要性指標(biāo)。由于隨機(jī)森林在每棵樹的每個(gè)節(jié)點(diǎn)僅僅隨機(jī)選擇少數(shù)變量來競爭拆分變量,限制了強(qiáng)勢變量,很多變量都進(jìn)入了決策樹,這對(duì)隨機(jī)變量的誤判率降低提供了很大的幫助。更重要的是在識(shí)別差異性指標(biāo)這類問題,隨機(jī)森林這種節(jié)點(diǎn)競爭變量隨機(jī)限量選擇的做法使得一些弱勢變量可以有機(jī)會(huì)參加建模,這對(duì)差異性指標(biāo)的識(shí)別效果的提升幫助很大。除此之外,隨機(jī)森林的訓(xùn)練速度快也是其受歡迎的一個(gè)原因。endprint
5 差異性指標(biāo)比較分析
隨機(jī)森林識(shí)別的差異性指標(biāo)前四位為速動(dòng)比率、流動(dòng)比率、應(yīng)收賬款周轉(zhuǎn)率與市銷率。其中流動(dòng)比率與速動(dòng)比率反映的是上市公司短期償債能力;應(yīng)收賬款周轉(zhuǎn)率通常反映上市公司的營運(yùn)能力;市銷率通常能夠反映成長能力。結(jié)合相關(guān)參考文獻(xiàn),得到如下結(jié)論。
5.1 流動(dòng)比率與速動(dòng)比率
流動(dòng)比率與速動(dòng)比率通常反映企業(yè)償還短期債務(wù)的能力。從上市公司經(jīng)營者角度來看:首先,流動(dòng)比率越高意味著過多的資金滯留在持有的流動(dòng)資產(chǎn)上,就會(huì)影響資金在生產(chǎn)經(jīng)營過程中高效地運(yùn)轉(zhuǎn)。從比較數(shù)據(jù)來看創(chuàng)業(yè)板上市公司的流動(dòng)比率遠(yuǎn)遠(yuǎn)高于主板上市公司,主板上市公司的流動(dòng)比率在正常范圍內(nèi),而創(chuàng)業(yè)板上市公司的流動(dòng)速率超出正常營運(yùn)需求,這就意味著大量資金停留在流動(dòng)資產(chǎn)上。創(chuàng)業(yè)板沒有合理充分地運(yùn)用超募資金,創(chuàng)業(yè)板上市公司規(guī)模較小,會(huì)發(fā)生資金籌集到手但新創(chuàng)意和新項(xiàng)目卻未產(chǎn)生的情況。速動(dòng)比率的高低能直接反映企業(yè)的短期償債能力強(qiáng)弱,它是對(duì)流動(dòng)比率的補(bǔ)充,通過對(duì)速動(dòng)比率的差異也進(jìn)一步印證了上市公司超募的情況。
5.2 應(yīng)收賬款周轉(zhuǎn)率
應(yīng)收賬款周轉(zhuǎn)率能夠反映企業(yè)營運(yùn)能力,其值越高,表示平均應(yīng)收賬款周期越短,資金回收越快,所以一般來說,應(yīng)收賬款周轉(zhuǎn)率越高企業(yè)營運(yùn)能力越強(qiáng)。數(shù)據(jù)表明創(chuàng)業(yè)板營運(yùn)資金過多呆滯在應(yīng)收賬款上,影響正常資金周轉(zhuǎn)及償債能力,進(jìn)一步影響公司的營運(yùn)能力。但在創(chuàng)業(yè)板超募的情況下,企業(yè)有超額的資金進(jìn)行運(yùn)營,這種應(yīng)收賬款風(fēng)險(xiǎn)并未暴露出來,進(jìn)而也未影響到公司的正常運(yùn)營。
5.3 市銷率
市銷率是總市值除以(年度)主營業(yè)務(wù)收入的值。一般來說,市銷率越低,估值越低,上漲潛力越大。主板上市公司的市銷率小于創(chuàng)業(yè)板的市銷率,這說明創(chuàng)業(yè)板的估值水平相對(duì)主板來說要高,這與實(shí)際情況相符。通常認(rèn)為創(chuàng)業(yè)板的成長性較主板有很大優(yōu)勢,其成長性優(yōu)勢通常反映市值估計(jì),進(jìn)而反映到市銷率。
6 結(jié) 論
綜上所述,本文從眾多財(cái)務(wù)數(shù)據(jù)中識(shí)別出在兩板塊上市公司差異性數(shù)據(jù),通過分類模型的比較發(fā)現(xiàn),隨機(jī)森林在解決此類問題上有很大的優(yōu)勢。通過隨機(jī)森林識(shí)別出來的差異性財(cái)務(wù)數(shù)據(jù)顯示,創(chuàng)業(yè)板較主板上市公司來說總體存在著超募、高估值以及營運(yùn)能力較差的情況,這與實(shí)際情況相符。創(chuàng)業(yè)板與主板市場的準(zhǔn)入條件、交易規(guī)則以及投資者特征等方面不同,進(jìn)而導(dǎo)致財(cái)務(wù)數(shù)據(jù)上的差異。這種差異如果在合理的范圍內(nèi)是屬于正常現(xiàn)象,創(chuàng)業(yè)板設(shè)立的目的是為中小企業(yè)提供上市融資的渠道,進(jìn)一步激發(fā)中小企業(yè)在經(jīng)濟(jì)發(fā)展中的驅(qū)動(dòng)作用。
參考文獻(xiàn):
[1]楊淑娥,黃禮.基于BP神經(jīng)網(wǎng)絡(luò)的上市公司財(cái)務(wù)預(yù)警模型[J].系統(tǒng)工程理論與實(shí)踐,2005(1):12-18,26.
[2]陳善廣,鮑勇.BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法研究[J].應(yīng)用基礎(chǔ)與工程科學(xué)學(xué)報(bào),1995(4):105-110.
[3]孟杰.隨機(jī)森林模型在財(cái)務(wù)失敗預(yù)警中的應(yīng)用[J].統(tǒng)計(jì)與決策,2014(4):179-181.
[4]方匡南,吳見彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011(3):32-38.
[5]趙振順.流動(dòng)、速動(dòng)和資產(chǎn)負(fù)債比率的分析及運(yùn)用[J].會(huì)計(jì)之友,1995(1):34.
[6]潘宗英.基于杜邦模型的財(cái)務(wù)比較研究——來自主板與創(chuàng)業(yè)板上市公司的數(shù)據(jù)[J].財(cái)會(huì)通訊,2012(26):99-100.
[7]吳喜之.應(yīng)用回歸及分類:基于R[M].北京:中國人民大學(xué)出版社,2016:171-190.endprint