周文泳,馮麗霞,段春艷
(1.同濟大學經濟與管理學院,上海 200092;2.同濟大學機械與能源工程學院,上海 201804)
企業(yè)破產是企業(yè)財務困境中最為嚴峻的情形,企業(yè)經營狀況不僅關系到企業(yè)的生存和發(fā)展,還影響到全球的經濟,因此準確預測企業(yè)經營狀況至關重要。傳統(tǒng)的企業(yè)經營風險預測常常是決策者依據(jù)經驗對企業(yè)當前情況進行判斷,然而這對決策者提出了很高的要求,且決策過程也易受決策者的主觀意識或外界因素干擾。如今隨著大數(shù)據(jù)時代的到來,這種傳統(tǒng)的預測方法已不能滿足現(xiàn)代社會經濟發(fā)展的需求。
早期建立了單變量判別模型[1]、多元線性判別模型[2]等用于破產預測的數(shù)學模型,而后多元邏輯回歸模型在財務困境預測研究中漸漸發(fā)展,解決了判別分析中的許多問題,如受假設條件的約束[3]。自20世紀90年代以來,隨著人工智能和機器學習的興起,決策樹、支持向量機、神經網絡等先進技術在破產預測領域得到了快速發(fā)展,眾多研究也證實了神經網絡、決策樹等機器學習算法在破產預測中具有更優(yōu)的預測效果[4-9]。然而,實際預測的樣本中往往是破產企業(yè)數(shù)量遠小于未破產企業(yè)數(shù)量,樣本數(shù)據(jù)的不均衡總是導致機器學習的預測性能下降。這一問題的主要特征表現(xiàn)為,在少數(shù)類樣本量極少的情況下,分類器無法充分學習到少數(shù)類樣本的特征,進而難以識別少數(shù)類樣本。常見的解決思路是在數(shù)據(jù)層面將數(shù)據(jù)進行預處理,通過重抽樣調整多數(shù)類與少數(shù)類的數(shù)量以實現(xiàn)類間樣本量的平衡;此外在算法層面,運用集成學習算法對分類器進行增強[10]。Galar等[11]根據(jù)不同的基本集成學習算法和處理類不平衡問題的手段,劃分了四類集成解決方案——代價敏感提升和數(shù)據(jù)預處理后分別基于提升、自助匯聚,以及結合提升與自舉匯聚的雙集成學習,并選擇了4.5分類器(Classifier 4.5,C4.5)決策樹作為基分類器,證明了在數(shù)據(jù)不平衡情形下,通過聯(lián)合預處理技術(隨機欠抽樣等)和集成學習算法,可以獲得更好的預測效果。而后也有一些研究基于支持向量機、人工神經網絡、C4.5決策樹等模型,將人工少數(shù)類過采樣法(SMOTE)和自助匯聚、自適應提升等集成技術結合,獲得了較好的分類結果[12-14]。Shen等[15]基于SMOTE抽樣,對比了支持向量機、決策樹等多種集成分類器,發(fā)現(xiàn)RF的分類效果較優(yōu)。然而,過大的數(shù)據(jù)量會限制支持向量機的使用能力,此外決定其預測能力的核函數(shù)往往也需要慎重地手動選擇[16]。相反,神經網絡不僅適用于大樣本,其自動提取數(shù)據(jù)特征的能力可一定程度上緩解核函數(shù)帶來的問題[17]。目前已有學者將神經網絡集成用于信息安全[18-19]、環(huán)境質量鑒別[20]、工業(yè)故障診斷[21]等多個研究領域,而用于公司破產預測領域的研究還較少。
因此,本文在前人研究基礎上,選取神經網絡和決策樹作為基分類器,將數(shù)據(jù)預處理與集成算法結合構建公司破產預測模型,并對加利福尼亞大學爾灣分校(University of California Irvine,UCI)機器學習數(shù)據(jù)庫提供的2007~2013年間一萬多家波蘭制造業(yè)公司進行實驗。主要貢獻包括:①在數(shù)據(jù)層面,選擇三種重抽樣方法——隨機欠抽樣、隨機過抽樣、SMOTE抽樣進行預處理以實現(xiàn)類間樣本量的平衡,并擇優(yōu)選出適合不同基分類器的抽樣方法;②在算法層面,整合集成學習自助匯聚思想以提高單一分類器的預測效果。實驗得出以神經網絡為基分類器的模型結果優(yōu)于以決策樹為基分類器的模型結果,表明本文的研究方法能更有效地消除實際應用中不平衡數(shù)據(jù)的影響,且在企業(yè)破產預測領域具有較高的適用性,可為企業(yè)經營檢測提供積極支撐。
數(shù)據(jù)的預處理旨在預先對初始數(shù)據(jù)采取相關的審查、篩選、排序等必要措施[22]。數(shù)據(jù)預處理技術包含缺失、冗余信息處理,指標集優(yōu)化篩選,標準化處理,抽樣消除樣本數(shù)據(jù)不平衡等多個階段。
首先,初始樣本數(shù)據(jù)往往存在缺失值,在所有待考察的屬性下并非均有對應的數(shù)值,若不預先處理掉缺失值,會致使一些分類模型無法建立,如神經網絡等。一般可通過特殊值、均值或眾數(shù)等數(shù)值進行插補,而當存在缺失值的個案在數(shù)據(jù)集里的占比很小時亦可采取直接剔除的手段。
其次,在眾多經濟指標中,各指標之間難免會有相關性,因而導致數(shù)據(jù)冗余。若將所有指標直接代入建立分類模型,不僅會拖慢分類器的運行速度,還容易降低分類精度和模型的可解釋性,因此選擇類似主成分分析這樣的手段根據(jù)指標間的相關性進行線性重組,進而得到能表示原始指標信息的少數(shù)幾個綜合性指標。
此外,為了像神經網絡這樣的模型能夠較好地運行,其輸入數(shù)據(jù)需進行標準化處理以消除量綱的影響,常見的方法如零-均值標準化、最小-最大標準化等。零-均值法適用于當數(shù)據(jù)呈正態(tài)分布時,通過轉化函數(shù)為將其化為標準正態(tài)分
布,其中μ為樣本數(shù)據(jù)的均值,σ為樣本數(shù)據(jù)的標準差。而當數(shù)據(jù)呈現(xiàn)非正態(tài)或均勻分布時,可對每一個輸入的數(shù)值型向量x,減去x中的最小值再除以x中值的范圍以此將數(shù)據(jù)化至0~1范圍內,函數(shù)表達式為
最后,由于分類器對不均衡數(shù)據(jù)集的有偏性,即多數(shù)類樣本容易識別而少數(shù)類樣本識別困難。本文分別通過隨機過抽樣、隨機欠抽樣、SMOTE抽樣處理來平衡數(shù)據(jù)集。隨機欠抽樣主要是對多數(shù)類觀測數(shù)采取隨機剔除的方式,使得數(shù)據(jù)集達到平衡,該方法在數(shù)據(jù)量很大時非常有效。隨機過抽樣以隨機重復少數(shù)類觀測的方式來增添樣本數(shù)目。SMOTE抽樣也稱人工數(shù)據(jù)合成法,利用生成人工數(shù)據(jù)來消除不平衡現(xiàn)象,而不僅是重復原始觀測值。該方法基于特征空間(而非數(shù)據(jù)空間)產生與少數(shù)類觀測相似的新數(shù)據(jù),而相似性則通過歐氏距離得以衡量。
決策樹算法是用于建立預測模型的有監(jiān)督學習算法,是一種以樹形結構來建立模型的遞歸劃分探索法[17],結構示意圖如圖1所示。
圖1 決策樹結構示意圖Fig.1 Schematic diagram of decision tree structure
決策樹通過很多算法都可以實現(xiàn),5.0分類器(Classifier 5.0,C5.0)是其最知名算法之一。它是由計算機科學家J.Ross Quinlan對之前的C4.5算法的改進,運算速度更快且更精準。C5.0決策樹算法使用熵(entropy)來度量特征數(shù)據(jù)X的純度,如式(1)所示[23];然后再計算信息增益(gain)來決定根據(jù)哪一個特征進行分割,如式(2)所示[23]。決策樹對于絕大多數(shù)的分類問題均適用。
人工神經網絡是通過仿照生物神經網絡而開拓出來的進行信息處理的模型[24]。其中,多層前饋網絡是應用最廣泛和最受歡迎的人工神經網絡之一,特別是在分類判別問題的應用中。圖2顯示了該網絡的基本結構[25]。輸入數(shù)據(jù)的特征數(shù)量直接決定網絡輸入層的節(jié)點個數(shù),輸出層的節(jié)點個數(shù)則由需要得出的結果數(shù)目決定。而對于隱藏層的節(jié)點個數(shù),當下尚且并無一個絕對的標準。需要反復訓練擁有不同節(jié)點數(shù)的模型,然后對比并適當?shù)丶踊驕p其個數(shù)。隱層節(jié)點數(shù)目過大則使得模型易于出現(xiàn)過擬合,且計算量大、訓練緩慢;過小則容易導致無法分類。
圖2 多層前饋網絡示意圖[25]Fig.2 Schematic diagram of multilayer feedforward network[25]
集成學習算法的核心是通過整合眾多的單個弱學習器來建立強學習器。首先,輸入訓練數(shù)據(jù)建立多個模型,產生多個預測;之后,再利用投票表決或其他更復雜的方法來決定最終預測結果。使用集成學習的好處就是能節(jié)省尋找單一最佳模型的時間,并且由于集合了多個學習器的結果,也降低了單一學習器過擬合的可能性。自助匯聚法于1996年由Breiman[26]提出,該集成方法通過在一個訓練集合上重復訓練進而得到多個分類器。它對相對不穩(wěn)定的單一學習器(如決策樹和神經網絡(neural network,NN))能產生較好的分類效果,因為此類學習器會由于數(shù)據(jù)的細小改變而產生差別很大的模型。
本文將數(shù)據(jù)預處理技術與集成算法結合構建企業(yè)破產預測模型,在數(shù)據(jù)層面,涵蓋缺失值處理、冗余信息處理、消除樣本不平衡等多個階段;再在算法層面,選取單隱層前饋神經網絡和C5.0決策樹作為基分類器,并結合集成學習自助匯聚思想來提高基分類器的預測性能。本文的模型構建路徑如圖3所示。
圖3 基于不平衡數(shù)據(jù)的公司破產預測模型構建路徑Fig.3 Building path of corporate bankruptcy prediction model based on imbalanced data
首先,將原始樣本加載至R軟件中進行初步的數(shù)據(jù)預處理。由于本文所用樣本量較大,因此選擇直接刪除法進行缺失值處理。在冗余信息處理時,采用主成分分析法對通過缺失值處理的剩余指標進行降維,從縱向上精簡輸入屬性的維數(shù)。然后按9:1的比例將主成分分析之后產生的新數(shù)據(jù)集拆分為訓練集和測試集。用0表示未破產類別,1表示破產類別。
其次,為了消除不均衡數(shù)據(jù)的影響,先在數(shù)據(jù)處理層面進行重抽樣處理,分別通過隨機過抽樣、隨機欠抽樣、SMOTE抽樣三種抽樣處理,使兩類數(shù)據(jù)量的比例達到1:1。
進而,將隨機過抽樣、隨機欠抽樣、SMOTE抽樣三種抽樣技術分別與C5.0決策樹、單隱層前饋神經網絡兩種基分類器相結合,創(chuàng)建6種不同的單一分類器,并在測試集上進行測試,通過比較選擇出最適合各個基分類器的抽樣方法。
最后,再從提高單一分類器性能的角度,將最優(yōu)抽樣技術與集成算法自助匯聚法結合,形成隨機森林(random forest,RF)和神經網絡集成兩類集成分類器。其中,RF是通過C5.0決策樹算法與自助匯聚算法整合,為決策樹模型增添多樣性;神經網絡集成則是通過單隱層前饋神經網絡與自助匯聚算法整合,以重新抽取訓練數(shù)據(jù)集的方式來增添神經網絡集成的差異程度。兩者均是從橫向角度對訓練集實施多次選取得到多個有差異的網絡個體,進而獲得有差異的分類器。同樣在測試集上進行檢測,最終比較擇出分類效果最佳的破產預測模型。
(1)ROC曲線下面積
對于不平衡數(shù)據(jù)的分類問題,傳統(tǒng)的分類精度評價準則確實能從宏觀上映現(xiàn)分類性能,但并不表示能得出對的分類結果。因為當多數(shù)類樣本數(shù)目遠大于少數(shù)類時,后者能被識別的概率幾乎為零。所以即使把所有樣本都歸為多數(shù)類,評價的精度依舊很高。Weiss等[27]的研究也證實,一般的分類精度評價標準會致使少數(shù)類的分類性能不佳。
受試者操作特征(receiver operating characteristic,ROC)曲線一般用于查驗尋找真陽性與規(guī)避假陽性兩者的權衡性。分別以假陽性比、真陽性比作為橫、縱坐標畫平面圖,得到ROC曲線,示意圖見圖4[28]。為了更好地計量,計算ROC曲線的下方面積(area under the ROC,AUC)值來評判其二元分類的優(yōu)劣,它表示預測的陽性類排在陰性類前面的概率。因其同時考慮了分類器對陽性類和陰性類的分類性能,因此即使在樣本數(shù)據(jù)不平衡的情況下也能對分類器性能做出合理評價[29]。通常AUC的值使用如下評分體系:0.9~1.0=A(優(yōu)秀),0.8~0.9=B(良好),0.7~0.8=C(一般),0.6~0.7=D(較差),0.5~0.6=F(無法區(qū)分)。
圖4 ROC曲線[28]Fig.4 The ROC curve[28]
(2)十折交叉驗證
本文所選取的決策樹和神經網絡兩類基分類器均屬于相對不穩(wěn)定的學習器,為了使訓練效果取得較為準確的評價,對每個模型都進行十折交叉驗證。將數(shù)據(jù)集分成10部分,依次把9份合并當成訓練集,剩余1份單獨當成驗證集來進行測驗。每次試驗都會產生相應的評價值,然后將10次結果的均值作為其最終評價。
本文采用的波蘭公司財務狀況數(shù)據(jù)集由UCI機器學習數(shù)據(jù)庫提供。樣本數(shù)據(jù)包括64個財務指標,收集了近700家在2007-2013年間破產的公司和10 000多家仍在運營的公司數(shù)據(jù)。根據(jù)數(shù)據(jù)預測周期建立了5個分類案例。數(shù)據(jù)預處理步驟如下:
(1)統(tǒng)一數(shù)據(jù)類型。將數(shù)據(jù)文件加載至R軟件中,前64列的財務指標均轉化為數(shù)值型,最后一列分類指標轉化為因子型——“0”表示未破產,“1”表示破產。
(2)缺失值處理。本文所用樣本量較大,首先統(tǒng)計了有缺失數(shù)據(jù)的行,即指標數(shù)據(jù)有缺失的公司,發(fā)現(xiàn)超過50%的公司都有缺失數(shù)據(jù)。接著對列進行缺失值統(tǒng)計,發(fā)現(xiàn)了指標x21(銷售(n)/銷售(n-1))和x37((流動資產-存貨)/長期負債)在5個預測期的樣本數(shù)據(jù)中存在著大面積的缺失,因此首先剔除掉這兩個指標。此時再統(tǒng)計含有缺失值的公司個數(shù),發(fā)現(xiàn)缺失率都降到了15%以內,這時即可直接刪除這些公司數(shù)據(jù)。
(3)指標降維。利用主成分分析方法對通過缺失值處理的62個剩余經濟指標進行降維。為消除各不同指標中量綱的影響,先將數(shù)據(jù)通過零-均值標準化,再用函數(shù)提取主成分。當方差累積貢獻率至80%時即舍棄剩余的部分。本實驗中第1至第5年的樣本得到的主成分個數(shù)分別是10、10、13、15、14個,各碎石圖如圖5所示。
圖5 第1至第5年的樣本的主成分碎石圖Fig.5 Principal component lithotripsy diagrams of the samples from the first to the fifth years
(4)創(chuàng)建隨機的測試集和訓練集。為保證分類器的訓練效果,以9:1的比例對主成分分析后的數(shù)據(jù)集進行劃分,即90%的訓練集和10%的測試集。劃分后的樣本數(shù)量如表1所示。
表1 劃分后的樣本數(shù)量Tab.1 The number of samples after partition
(5)抽樣處理不平衡數(shù)據(jù)。對訓練數(shù)據(jù)采取重抽樣——分別通過隨機過抽樣、隨機欠抽樣、SMOTE抽樣。利用R軟件中的添加包ROSE(Random Over Sampling Examples,隨機過抽樣例子)以實現(xiàn)數(shù)據(jù)量1:1的平衡。例如第1年有5 593個原始多數(shù)類樣本,采用隨機過采樣法把少數(shù)類樣本也增添至5 593個,由此數(shù)據(jù)集共有11 186條觀測。
本實驗分別測試C5.0決策樹模型和單隱層前饋神經網絡模型在采用隨機過抽樣、隨機欠抽樣、SMOTE抽樣技術后的分類性能,選擇最適合本實驗數(shù)據(jù)的抽樣技術;然后再將最優(yōu)抽樣技術與自助匯聚法結合,尋找分類性能最佳的應用模型,并運用十折交叉驗證得到的AUC值進行分類效果評價。
(1)三類抽樣法與C5.0決策樹。使用C5.0添加包建立決策樹模型,將抽樣技術處理過后的訓練數(shù)據(jù)集用于訓練C5.0決策樹模型,然后再對仍舊保持不平衡狀態(tài)的測試數(shù)據(jù)集進行測試。
(2)三類抽樣法與神經網絡。為了確保神經網絡運行,其輸入數(shù)據(jù)最好是在0附近,因此先將數(shù)據(jù)采用最小-最大標準化。使用NNET添加包構建單隱層前饋神經網絡模型。對于參數(shù)的選擇上,本文根據(jù)以往研究經驗,對隱藏層的節(jié)點個數(shù),依照經驗公式初始設置為5,再適當加上和減去一點余量,反復訓練模型并測試[30]。其次為了更好防止過擬合,設置權重衰減參數(shù)。根據(jù)每個模型訓練的實際情況進行權重衰減參數(shù)值在0.001~0.1之間的調整。
(3)RF與神經網絡集成。兩者都是基于自助匯聚法思想,其中,RF是通過C5.0決策樹算法與自助匯聚法算法整合,為決策樹模型增添多樣性;神經網絡集成則是將單隱層的前饋神經網絡與自助匯聚法算法整合,以重新抽取訓練數(shù)據(jù)集的方式來增添神經網絡集成的差異程度。本文意圖通過實驗將兩者進行比較。使用RF和CARET兩個添加包分別構建RF模型和神經網絡集成模型。最終所有模型都通過十折交叉驗證求出AUC值,作為其分類評價結果。
根據(jù)前面幾節(jié)所介紹的步驟,把5個預測期的數(shù)據(jù)都分別代入單一分類器和集成分類器進行運算,得到對公司破產預測的分類評價結果如表2和表3所示。
表2 單一分類器的預測效果(AUC值及評價等級)Tab.2 Prediction effect of single classifier(AUC value and evaluation grade)
表3 集成分類器的預測效果(AUC值及評價等級)Tab.3 Prediction effect of ensemble classifier(AUC value and evaluation level)
(1)單一分類器比較
首先比較3種數(shù)據(jù)重抽樣技術分別對C5.0決策樹和單隱層前饋神經網絡的分類效果的影響。對于C5.0決策樹,通過五期AUC的平均值來比較三類不同抽樣法,結果顯示與欠抽樣技術結合的決策樹(C等)的分類性能更佳。因此為了后續(xù)模型性能的提升,選擇欠抽樣法與RF結合。對于單隱層前饋神經網絡,發(fā)現(xiàn)與欠抽樣、SMOTE抽樣結合的模型性能都比較優(yōu)良(均為C等),因此為后面階段神經網絡的集成選擇隨機欠抽樣與SMOTE抽樣。兩種分類器的實驗結果均顯示欠抽樣技術在處理不均衡數(shù)據(jù)上的良好效用。其次,比較兩類單一分類器,從AUC平均數(shù)值上來看,欠抽樣、SMOTE抽樣下的單隱層前饋神經網絡(0.79、0.77),更優(yōu)于欠抽樣下的C5.0決策樹(0.73)。
(2)集成分類器比較
從集成學習的角度比較集成分類器和單一分類器,結果顯示無論是通過集成學習之后的決策樹模型還是集成神經網絡,模型的預測性能都有所提升。尤其是針對那些集成前分類效果較差的預測期數(shù)據(jù),模型集成后其性能有顯著的提升,如第3年數(shù)據(jù)的決策樹模型(從D到C)和第5年數(shù)據(jù)的神經網絡模型(從D到B)。再從不同分類器的角度比較隨機欠抽樣下的RF,與隨機欠抽樣、SMOTE抽樣下的神經網絡集成,從評價均值上來看后兩者對于公司破產預測效果更優(yōu)(C、B、B)。
2020年新冠疫情的爆發(fā)更是加大了企業(yè)對破產預測的重視程度。本文著眼于破產預測中樣本類別數(shù)據(jù)不均衡且樣本規(guī)模較大的問題,從增加分類器差異度的角度,對傳統(tǒng)的預測模型進行改進,建立了基于重抽樣技術和自助匯聚集成算法兩者聯(lián)合的機器學習模型,并對UCI機器學習數(shù)據(jù)庫中一萬余條波蘭制造業(yè)公司數(shù)據(jù)進行實驗。本研究選取C5.0決策樹與單隱層前饋神經網絡兩種基分類器,結合數(shù)據(jù)層和算法層兩方面的改進,并通過十折交叉驗證的AUC值進行評判。
最終實證結果顯示:
(1)針對類別不平衡的公司破產預測樣本,隨機欠抽樣和SMOTE抽樣技術能輔助單一分類器獲得更優(yōu)良的預測效果;
(2)進而結合集成學習自助匯聚思想時,神經網絡集成模型的預測結果不僅優(yōu)于其單一分類器模型,也更優(yōu)于RF模型。本文構建的預測模型結合了數(shù)據(jù)層面和算法層面的改進,通過大量的樣本數(shù)據(jù)進行模型訓練,有效消減了實際應用中不平衡訓練集帶來的影響,得到了具有較好預測性能的集成分類器,能準確預測公司破產風險,可應用于記錄了眾多財務指標屬性的公司數(shù)據(jù)集中,為公司經營檢測提供積極支撐,進而使公司及早實施相關措施預防破產。
總而言之,建立科學、準確且實用的公司破產預測模型,不僅能夠幫助企業(yè)管理者及時地識別公司潛在的經營風險,還能幫助投資者等眾多利益相關方做出正確的投融資決定以免遭受巨大損失,同時對國家及地方政府的資金、人力等投入規(guī)劃的制定也具有重要的輔助作用。此外,隨著技術的不斷更新升級,公司破產預測模型也依舊是在不斷變化中發(fā)展的。從起初企業(yè)家的經驗判斷、判別分析,到如今的機器學習算法,公司破產預測研究始終是一個永恒且熱門的話題。面對新時代背景下不斷涌現(xiàn)的新的難題與挑戰(zhàn),未來應不斷探索新途徑,持續(xù)對破產預測模型進行調整和創(chuàng)新,以完善公司破產預測領域的研究。
未來研究可進一步從此方向入手:針對神經網絡這種黑箱方法,建立更優(yōu)參數(shù)配置的神經網絡集成模型,提升集成學習后的預測效果;除了常用的單隱層前饋神經網絡,還可以嘗試采用徑向基神經網絡等其他方法。
作者貢獻聲明:
周文泳:指導研究方案和論文撰寫,全文審閱。
馮麗霞:數(shù)據(jù)收集與處理,算法實現(xiàn),撰寫論文。
段春艷:指導研究方案和論文撰寫,審閱及修訂論文。