洪欣琪
摘要:基于集成思想選擇L1、隨機(jī)森林、極限樹、f_classif、XGBoost五種方法構(gòu)建特征選擇集成評(píng)分模型并篩選出關(guān)鍵特征,利用SMOTE算法處理非平衡數(shù)據(jù),在此數(shù)據(jù)預(yù)處理基礎(chǔ)上基于LightGBM算法建立財(cái)務(wù)困境預(yù)測(cè)模型并將實(shí)驗(yàn)結(jié)果與以邏輯回歸、支持向量機(jī)、決策樹、XGBoost等算法為基礎(chǔ)建立的預(yù)測(cè)模型對(duì)比。結(jié)果顯示,在測(cè)試集上LightGBM集成學(xué)習(xí)模型對(duì)中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)準(zhǔn)確率高達(dá)0.950 877、AUC值為0.975 8遠(yuǎn)遠(yuǎn)高于基于其他算法的預(yù)測(cè)模型。這對(duì)金融企業(yè)精準(zhǔn)評(píng)價(jià)中小企業(yè)的財(cái)務(wù)風(fēng)險(xiǎn)以及政府實(shí)施中小企業(yè)政策扶持提供決策參考。
關(guān)鍵詞:財(cái)務(wù)困境預(yù)測(cè);集成學(xué)習(xí);LightGBM;特征選擇
中圖分類號(hào):F275;TP311.1? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1008-4657(2021)03-0057-17
引言
我國(guó)中小企業(yè)是在經(jīng)濟(jì)運(yùn)行中發(fā)揮關(guān)鍵作用的社會(huì)主義經(jīng)濟(jì)發(fā)展主體,在穩(wěn)定就業(yè)、平穩(wěn)經(jīng)濟(jì)增長(zhǎng)、促進(jìn)技術(shù)創(chuàng)新和推動(dòng)結(jié)構(gòu)轉(zhuǎn)型中作用顯著。2018年末我國(guó)中小企業(yè)達(dá)到1? 807萬(wàn)家[ 1 ],在全部規(guī)模的企業(yè)單位中占比99.8%。截至2019年,我國(guó)中小企業(yè)營(yíng)業(yè)收入已達(dá)到約78.1萬(wàn)億元,2019~2023預(yù)計(jì)年均復(fù)合增長(zhǎng)率約為3.75%,2023年將達(dá)到90.5萬(wàn)億元。2018年中小企業(yè)吸納就業(yè)人口23? 300.4萬(wàn)人,在全部企業(yè)就業(yè)人口中占比79.4%[ 2 ]。中小企業(yè)雖然地位關(guān)鍵,但絕大多數(shù)中小企業(yè)將會(huì)面臨“第三門檻”的現(xiàn)象[ 3 ],即中小企業(yè)到達(dá)第三個(gè)經(jīng)營(yíng)年份將會(huì)面臨破產(chǎn)的風(fēng)險(xiǎn),這主要是由于企業(yè)出現(xiàn)財(cái)務(wù)困境而導(dǎo)致,所以利用技術(shù)手段辨別可能會(huì)陷入財(cái)務(wù)困境的中小企業(yè)對(duì)銀行、政府以及中小企業(yè)自身發(fā)展非常必要。
建立財(cái)務(wù)困境預(yù)警體系以及預(yù)警模型從而精準(zhǔn)識(shí)別可能會(huì)出現(xiàn)財(cái)務(wù)困境中小企業(yè)的過程尤為重要。傳統(tǒng)的財(cái)務(wù)困境預(yù)警模型以利用計(jì)量方法為主導(dǎo),但隨著科技的發(fā)展和學(xué)術(shù)研究發(fā)現(xiàn)利用機(jī)器學(xué)習(xí)方法建立的財(cái)務(wù)困境預(yù)警模型比計(jì)量模型更準(zhǔn)確且高效。本文在傳統(tǒng)的機(jī)器學(xué)習(xí)算法的基礎(chǔ)上,以集成思想為主導(dǎo),創(chuàng)新性的采用2017年由微軟亞洲研究院提出的輕量化梯度促進(jìn)機(jī)(Light Gradient Boosting Machine, LightGBM)算法建立中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)模型,為了提高模型預(yù)測(cè)精度和準(zhǔn)確性在數(shù)據(jù)預(yù)處理階段通過過采樣處理非平衡財(cái)務(wù)數(shù)據(jù),并建立特征選擇集成評(píng)分模型來進(jìn)一步篩選影響判斷財(cái)務(wù)狀況的關(guān)鍵特征。在與邏輯回歸、支持向量機(jī)、決策樹、XGBoost等算法做對(duì)比實(shí)驗(yàn)時(shí),LightGBM財(cái)務(wù)困境預(yù)測(cè)模型的預(yù)測(cè)準(zhǔn)確性高達(dá)0.950? 877,遠(yuǎn)高于其他預(yù)測(cè)模型。實(shí)驗(yàn)結(jié)果表明本文對(duì)LightGBM算法的創(chuàng)新應(yīng)用不僅具有理論研究意義,對(duì)銀行、政府和中小企業(yè)自身具有現(xiàn)實(shí)的實(shí)踐意義。
1? ? ? ? ?文獻(xiàn)綜述
在中小企業(yè)財(cái)務(wù)困境的界定上,不同的學(xué)者持有不同的看法。在國(guó)外,以Beaver? ? W H等[ 4 ]的研究觀點(diǎn)作為最經(jīng)典的財(cái)務(wù)困境的定義,即出現(xiàn)債務(wù)拖欠、無法支付股息紅利出現(xiàn)違約行為,最終企業(yè)實(shí)行破產(chǎn)清算。Carmichael? ?D? R[ 5 ]在前者的研究基礎(chǔ)上擴(kuò)大了對(duì)財(cái)務(wù)困境定義的范圍,認(rèn)為當(dāng)企業(yè)出現(xiàn)流動(dòng)資金短缺、股本不足時(shí)也視作出現(xiàn)財(cái)務(wù)困境的信號(hào)。在國(guó)內(nèi),吳世農(nóng)等[ 6 ]提出公司陷入財(cái)務(wù)困境的過程就是從正常到逐步惡化的過程。張金昌等[ 7 ]對(duì)財(cái)務(wù)困境的界定更加全面,不僅將財(cái)務(wù)困境界定義為從資金緊張、債務(wù)違約到企業(yè)失敗破產(chǎn)的動(dòng)態(tài)過程還將企業(yè)財(cái)務(wù)困境問題歸結(jié)為資金供求失衡。
上世紀(jì)80年代以來,機(jī)器學(xué)習(xí)算法在各個(gè)領(lǐng)域廣泛應(yīng)用逐漸取代了數(shù)理統(tǒng)計(jì)建模方法并走向成熟,邏輯回歸、神經(jīng)網(wǎng)絡(luò)、決策樹、隨機(jī)森林、支持向量機(jī)等方法在中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)上均有著廣泛的應(yīng)用。其中在邏輯回歸算法研究中Dreiseitl S等[ 8 ]提出邏輯回歸能夠?qū)崿F(xiàn)向前、向后和逐步變量選擇,令模型更易理解實(shí)現(xiàn)更小的泛化錯(cuò)誤。眾多文獻(xiàn)中對(duì)于支持向量機(jī)的研究較為豐富,更多的是與其他算法的對(duì)比分析,Huh J等[ 9 ]利用小樣本實(shí)驗(yàn)對(duì)比支持向量機(jī)與BP神經(jīng)網(wǎng)絡(luò)的分類效果并發(fā)現(xiàn)支持向量機(jī)的效果更好。方匡南等[ 10 ]建立的SGL-SVM方法以及Mehdipour V等[ 11 ]在支持向量機(jī)與GEP的對(duì)比實(shí)驗(yàn)中也得出了相同結(jié)論。神經(jīng)網(wǎng)絡(luò)在企業(yè)財(cái)務(wù)困境預(yù)測(cè)的應(yīng)用中,Odom M D等[ 12 ]率先引入ANN模型來預(yù)測(cè)公司破產(chǎn),Sung? T? K等[ 13 ]等學(xué)者使用辨別算法、遺傳算法、神經(jīng)網(wǎng)絡(luò)來編輯決策樹,其結(jié)果可解釋并改善機(jī)器學(xué)習(xí)的“黑箱”特性。當(dāng)對(duì)機(jī)器學(xué)習(xí)算法深入研究之后,學(xué)者們逐漸意識(shí)到單一學(xué)習(xí)器存在許多弊端,為了優(yōu)化研究結(jié)果,集成學(xué)習(xí)成為研究熱點(diǎn)[ 14 ]。集成學(xué)習(xí)將單一學(xué)習(xí)器作為基學(xué)習(xí)器以投票算法集成最終實(shí)驗(yàn)結(jié)果[ 15 ]。Dietterich T? G[ 16 ]在文章中總結(jié)道最原始的集成算法是采用多數(shù)投票制的貝葉斯平均。Jiang? M R等[ 17 ]集成模式分解、極限學(xué)習(xí)、改進(jìn)的和諧搜索算法等預(yù)測(cè)股票價(jià)格。Zhao Y等[ 18 ]將深層自然網(wǎng)絡(luò)模型和Bagging集成模型相結(jié)合建立SDAE-B模型,以上學(xué)者均得出結(jié)論:基于集成算法的模型在回歸和預(yù)測(cè)方面的表現(xiàn)優(yōu)于單一算法模型。2017年在集成學(xué)習(xí)領(lǐng)域再次實(shí)現(xiàn)了創(chuàng)新,提出了LightGBM算法,該算法在集成學(xué)習(xí)的基礎(chǔ)上從數(shù)據(jù)和特征兩方面進(jìn)行改進(jìn),實(shí)現(xiàn)對(duì)大型數(shù)據(jù)集的學(xué)習(xí)并降低了內(nèi)存的消耗[ 18 ]。作為集成學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),Minastireanu? E? A[ 19 ]利用LightGBM算法建立個(gè)人網(wǎng)絡(luò)貸款違約預(yù)測(cè)模型,我國(guó)學(xué)者Sun? P? C [ 20 ]和馬曉君等[ 21 ]對(duì)以LightGBM算法為基礎(chǔ)的個(gè)人網(wǎng)絡(luò)貸款違約預(yù)測(cè)模型進(jìn)行了深入研究。在許多復(fù)雜問題的預(yù)測(cè)上,包括GPU惡意軟件預(yù)測(cè)[ 22 ]、房?jī)r(jià)預(yù)測(cè)[ 23 ]、谷歌商店顧客購(gòu)買力預(yù)測(cè)[24]等,LightG BM算法均提供了良好的解決路徑和精確的實(shí)驗(yàn)結(jié)果,并且眾多研究根據(jù)LightG BM模型的預(yù)測(cè)結(jié)果能夠獲取研究問題的主要影響因素[ 25 ]。通過對(duì)國(guó)內(nèi)外文獻(xiàn)的梳理我們發(fā)現(xiàn)LightG BM算法在許多學(xué)科的應(yīng)用上表現(xiàn)極佳,主要包括提升了訓(xùn)練速度、訓(xùn)練精度,降低了訓(xùn)練內(nèi)存、支持并行學(xué)習(xí)、更快的處理海量數(shù)據(jù)等。本文認(rèn)為將性能優(yōu)良的LightGBM算法應(yīng)用于中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)上將會(huì)促進(jìn)該領(lǐng)域的發(fā)展。
對(duì)財(cái)務(wù)困境預(yù)測(cè)的研究一直是金融領(lǐng)域或者會(huì)計(jì)領(lǐng)域研究的熱點(diǎn)問題,如果企業(yè)走向破產(chǎn)不僅會(huì)對(duì)自身和與之合作的金融機(jī)構(gòu)帶來致命打擊還會(huì)引起整個(gè)金融市場(chǎng)的波動(dòng),因此對(duì)企業(yè)財(cái)務(wù)困境進(jìn)行科學(xué)而準(zhǔn)確的預(yù)測(cè)至關(guān)重要。隨著機(jī)器學(xué)習(xí)領(lǐng)域的研究成果逐漸豐富,在財(cái)務(wù)困境預(yù)測(cè)問題上應(yīng)用集成學(xué)習(xí)深入研究更具有理論意義和實(shí)踐意義。通過對(duì)以往學(xué)者針對(duì)集成學(xué)習(xí)以及LightGBM算法應(yīng)用的總結(jié)發(fā)現(xiàn),LightG BM算法發(fā)展時(shí)間較短,眾多針對(duì)LightG BM算法的研究并不豐富且很少涉及中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)問題。本文創(chuàng)新性的將LightG BM算法應(yīng)用于中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)方面并建立財(cái)務(wù)困境預(yù)測(cè)模型,而且在數(shù)據(jù)預(yù)處理時(shí)利用過采樣處理非平衡財(cái)務(wù)數(shù)據(jù)集并建立特征選擇集成評(píng)分模型篩選重要實(shí)驗(yàn)特征并在此基礎(chǔ)上進(jìn)一步提高財(cái)務(wù)困境預(yù)測(cè)的準(zhǔn)確性。
2? ? ? ? ?理論基礎(chǔ)
通過建立財(cái)務(wù)預(yù)警模型能夠?qū)赡艹霈F(xiàn)的財(cái)務(wù)危機(jī)進(jìn)行及時(shí)反映,對(duì)企業(yè)和相關(guān)金融機(jī)構(gòu)來說根據(jù)財(cái)務(wù)困境預(yù)測(cè)模型結(jié)果能夠基本掌握企業(yè)自身或是目標(biāo)客戶財(cái)務(wù)狀況,及時(shí)采取應(yīng)對(duì)措施降低財(cái)務(wù)風(fēng)險(xiǎn);對(duì)于政府來說,及時(shí)了解眾多公司的財(cái)務(wù)狀況有助于其科學(xué)而全面的管控維持市場(chǎng)秩序。但是建立精準(zhǔn)的財(cái)務(wù)困境預(yù)警模型對(duì)技術(shù)要求非常高,若不能保證模型預(yù)測(cè)精度和準(zhǔn)確性將會(huì)給市場(chǎng)上的多方主體帶來巨大損失。2017年由亞洲微軟研究院研發(fā)并開源的LightGBM算法是一個(gè)基于梯度決策樹的框架。作為集成學(xué)習(xí)技術(shù)框架下的新的分支LightGBM算法的提出主要為了解決XGBoost算法在運(yùn)算時(shí)間和運(yùn)算內(nèi)存損耗上的弊端,兩種算法的核心思想以及理論支撐基本一致。LightGBM算法以決策樹為基礎(chǔ)、將GBDT作為核心并通過二階泰勒展開,利用直方圖算法、優(yōu)化葉子生長(zhǎng)策略、直方圖差加速等方法改進(jìn)GBDT,在數(shù)據(jù)和特征兩方面分別利用GOSS方法和EFB方法做了加速處理。LightGBM提出后在諸多應(yīng)用中實(shí)現(xiàn)了高速、高準(zhǔn)確率以及大規(guī)模數(shù)據(jù)處理的作用現(xiàn)已成為機(jī)器學(xué)習(xí)算法領(lǐng)域的應(yīng)用熱點(diǎn)。下文將以LightGBM算法理論實(shí)現(xiàn)的邏輯順序梳理相關(guān)算法的理論支撐。
2.1? ? ? ? ?決策樹
決策樹形成的二叉樹結(jié)構(gòu)可以作為多層的規(guī)則集合或者類空間和特定空間的條件概率分布,既可以用于分類任務(wù)也可以用于回歸任務(wù),本文主要以決策樹二分類算法為基礎(chǔ)來討論。各個(gè)節(jié)點(diǎn)的排放順序決定決策樹的構(gòu)建,有3種排放節(jié)點(diǎn)順序的策略包括:信息增益、增益比、基尼系數(shù),這3種策略決定了決策樹的劃分標(biāo)準(zhǔn),一般選擇信息增益最大的屬性作為根節(jié)點(diǎn)并通過遞歸計(jì)算最優(yōu)的節(jié)點(diǎn)屬性便組成最優(yōu)決策樹。
信息增益? =? 樣本熵 - 所有測(cè)試屬性熵的合
其中,熵是指樣本集純度,理論上熵值越小樣本集純度越高,熵的計(jì)算公式如下所示
在上述公式中,pm為第m類樣本的占比。
信息熵指帶入測(cè)試的屬性對(duì)于樣本集純度的增益效果,即對(duì)樣本純度的提升效果。與熵值相反,信息熵則是越大越好。信息熵計(jì)算公式如下所示
在上式中,AW為滿足某個(gè)測(cè)試屬性的樣本集。
為避免過擬合并能夠在未知的測(cè)試集樣本中取得較好得效果,“剪枝”過程非常重要。決策樹中“剪枝”包括“預(yù)剪枝”和“后剪枝”,“預(yù)剪枝”是指在劃分節(jié)點(diǎn)之前計(jì)算,若該節(jié)點(diǎn)劃分不能實(shí)現(xiàn)泛化能力的提高則停止劃分;“后剪枝”是指生成決策樹后自下而上對(duì)非節(jié)點(diǎn)進(jìn)行考察,若葉節(jié)點(diǎn)被子樹替代能夠提高泛化能力則將此葉節(jié)點(diǎn)替換為子樹。
2.2? ? ? ? 集成學(xué)習(xí)
集成學(xué)習(xí)(Ensemble Learning)是將若干個(gè)基學(xué)習(xí)器相結(jié)合最終實(shí)現(xiàn)超過單一學(xué)習(xí)器學(xué)習(xí)效果的目的。集成學(xué)習(xí)根據(jù)需要預(yù)測(cè)的樣本集生成若干基學(xué)習(xí)器,基學(xué)習(xí)器首先進(jìn)行訓(xùn)練得到各自的預(yù)測(cè)結(jié)果,之后按照集成策略將基學(xué)習(xí)器得到的結(jié)果進(jìn)行結(jié)合,最后獲得最優(yōu)結(jié)果。當(dāng)下,有兩種集成學(xué)習(xí)方法被廣泛使用:一種是裝袋算法(Bootstrap aggregating, Bagging)對(duì)訓(xùn)練集抽取時(shí)采取有放回的方式,產(chǎn)生眾多子數(shù)據(jù)集,根據(jù)子數(shù)據(jù)集建立若干基學(xué)習(xí)器在互不干擾的條件下分別進(jìn)行訓(xùn)練得到訓(xùn)練結(jié)果,利用簡(jiǎn)單投票法或加權(quán)求和法結(jié)合基學(xué)習(xí)器產(chǎn)生的結(jié)果得到更為精確的數(shù)據(jù)。Bagging方法能夠?qū)?shù)據(jù)并行化處理,在隨機(jī)森林算法中有充分體現(xiàn)。另一種是提升算法(Boosting),Boosting方法建立一系列機(jī)制能夠?qū)⑷鯇W(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器,體現(xiàn)一種整體思想。首先對(duì)完整數(shù)據(jù)集進(jìn)行訓(xùn)練得到一個(gè)弱學(xué)習(xí)器并獲取訓(xùn)練誤差,更新數(shù)據(jù)權(quán)重,讓誤差數(shù)據(jù)在下一輪訓(xùn)練中加強(qiáng)學(xué)習(xí),經(jīng)過反復(fù)學(xué)習(xí)迭代,訓(xùn)練誤差將會(huì)逐漸降低,最終得到最為準(zhǔn)確的訓(xùn)練結(jié)果。GBDT、XGBoost算法、LightGBM算法均采用了Boosting算法。
2.3? ? ? ? GBDT
GBDT在提升樹(BDT)算法的每棵樹殘差疊加過程進(jìn)行改進(jìn),向損失函數(shù)負(fù)梯度方向進(jìn)行優(yōu)化,提升弱回歸樹最終形成強(qiáng)回歸樹。
設(shè)每顆決策樹有N個(gè)子葉,故每棵樹劃分了N個(gè)不相干的區(qū)域,分別為R1m,R2m,…R3m,并將Rnm的預(yù)測(cè)值確定為bnm?;貧w樹可以用下方公式描述
在x∈Rnm時(shí)I(*)值為1,其他情況為0。
將改進(jìn)模型的梯度下降步長(zhǎng)設(shè)置為βm,則新的回歸樹公式為:
其中,L(y1,fm-1(x1))為梯度提升決策回歸樹的損失函數(shù),梯度下降的優(yōu)化條件是使損失函數(shù)最小化,利用回歸樹替換,上式可以轉(zhuǎn)化為:
2.4? ?LightGBM算法
在GBDT的基礎(chǔ)上LightGBM算法在很多方面做出了改進(jìn),除了在數(shù)據(jù)和特征兩方面提升了訓(xùn)練速度,還利用二階泰勒展開式優(yōu)化了算法的目標(biāo)函數(shù)將決策樹的復(fù)雜度作為正則項(xiàng)。
LightGBM算法為了使指定的損失函數(shù)L(y1,f(x))最小化,通過訓(xùn)練找到f(x)的近似值f(x),其中f(x)又叫做優(yōu)化函數(shù),可以表示成
在LightGBM模型中集成K顆回歸樹來擬合最終的模型,這一過程可以表示為
模型中回歸樹用Mq(x),q∈{1,2,…,J}表示,M為葉子節(jié)點(diǎn)樣本權(quán)重向量,J為回歸樹中葉子個(gè)數(shù)。特別的,在生成第t顆樹時(shí)之前的(t-1)顆樹的信息均會(huì)被利用,因此經(jīng)過t次迭代生成的目標(biāo)函數(shù)將如下所示
在上式中,Ω(fm(x))為正則化項(xiàng),目的式為讓模型在訓(xùn)練數(shù)據(jù)時(shí)避免過擬合的現(xiàn)象。對(duì)目標(biāo)函數(shù)進(jìn)行二階泰勒展開,則展開后的目標(biāo)函數(shù)可以表示為
在確定樹結(jié)構(gòu)為q(x)后,相應(yīng)的目標(biāo)函數(shù)為
上式中為每個(gè)葉子節(jié)點(diǎn)的最優(yōu)權(quán)值得分,模型需要實(shí)現(xiàn)的最優(yōu)化問題是指將目標(biāo)函數(shù)最小化,通過計(jì)算回歸樹葉子節(jié)點(diǎn)的分裂收益使分裂收益達(dá)到最大,并選擇收益最大的分裂特征,將這一過程持續(xù)迭代,直到滿足條件為止。分裂收益可以由下式表示
隨著機(jī)器學(xué)習(xí)所面對(duì)的問題日益復(fù)雜、數(shù)據(jù)逐漸龐大,特征維度不斷提高,LightGBM算法模型能夠深化訓(xùn)練層次,通過使用直方圖算法、Leaf-wise葉子生長(zhǎng)策略、直方圖加速算法來降低計(jì)算速度、減少算法復(fù)雜度、降低計(jì)算機(jī)內(nèi)存使用最關(guān)鍵的是很大程度上提高了模型訓(xùn)練的準(zhǔn)確性。
3? ?研究設(shè)計(jì)
3.1? ?樣本選取
本文實(shí)驗(yàn)數(shù)據(jù)均來源于國(guó)泰安數(shù)據(jù)庫(kù),共選取777家中小上市公司2015~2019年的財(cái)務(wù)數(shù)據(jù),其中被“ST”處理的企業(yè)為77家,正常企業(yè)為707家,符合實(shí)際市場(chǎng)情況。由于企業(yè)連續(xù)兩年出現(xiàn)虧損會(huì)被“ST”處理,即被認(rèn)為企業(yè)出現(xiàn)財(cái)務(wù)困境,本文認(rèn)為若企業(yè)在T年被“ST”處理一般此消息在T-1年的年報(bào)中就已經(jīng)公布,所以選擇T-2年的財(cái)務(wù)數(shù)據(jù)進(jìn)行財(cái)務(wù)困境預(yù)測(cè)建模更合理。考慮到企業(yè)應(yīng)對(duì)財(cái)務(wù)危機(jī)存在時(shí)滯且模型結(jié)果容易出現(xiàn)過擬合,本文選擇利用T-2、T-3、T-4年的中小企業(yè)財(cái)務(wù)數(shù)據(jù)和非財(cái)務(wù)數(shù)據(jù)分別建模,其中非財(cái)務(wù)數(shù)據(jù)的選擇參考了王瑞芳[ 26 ]、楊青龍等[ 27 ]學(xué)者的研究成果選擇了企業(yè)管理類指標(biāo)數(shù)據(jù)。為了減少實(shí)驗(yàn)過程中可能會(huì)出現(xiàn)的異常情況,在數(shù)據(jù)集構(gòu)建時(shí)根據(jù)以下標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行預(yù)篩選:
剔除銀行業(yè)、證券業(yè)等價(jià)格波動(dòng)較大的公司;
剔除財(cái)務(wù)報(bào)表公布不完整的公司;
剔除因其他原因被ST處理的公司。
財(cái)務(wù)數(shù)據(jù)由60個(gè)反映中小企業(yè)的償債能力、發(fā)展能力、經(jīng)營(yíng)能力、每股指標(biāo)、現(xiàn)金流和盈利能力的財(cái)務(wù)指標(biāo)和4個(gè)反映中小企業(yè)股權(quán)信息指標(biāo)構(gòu)成,如下表1所示。在樣本的劃分上,將被“ST”處理的中小企業(yè)設(shè)定為存在財(cái)務(wù)困境的企業(yè),“非ST”的中小企業(yè)設(shè)定為正常公司,以數(shù)據(jù)集的70%作為訓(xùn)練集,訓(xùn)練分類模型,以30%作為測(cè)試集來檢驗(yàn)?zāi)P偷膶?shí)際分類效果。
3.2? ?數(shù)據(jù)預(yù)處理
3.2.1? ?缺失值探索及插補(bǔ)
由于中小企業(yè)規(guī)模較小財(cái)務(wù)管理水平有限,從數(shù)據(jù)庫(kù)獲取的原始數(shù)據(jù)存在部分缺失現(xiàn)象,本文首先利用python對(duì)所獲取的中小企業(yè)64個(gè)財(cái)務(wù)指標(biāo)進(jìn)行缺失值探索,結(jié)果如下表2所示。
由上表可知共有25個(gè)特征不存在缺失值,但某些財(cái)務(wù)特征缺失值達(dá)78.14%,簡(jiǎn)單刪除缺失值將會(huì)損失大量數(shù)據(jù)造成模型訓(xùn)練效果不佳,故本文選擇對(duì)數(shù)據(jù)集缺失值進(jìn)行插補(bǔ)。經(jīng)過數(shù)據(jù)分布的抽樣檢驗(yàn)結(jié)果如圖1所示,該數(shù)據(jù)集不服從正態(tài)分布所以無法利用平均值、眾數(shù)等簡(jiǎn)單方法進(jìn)行填補(bǔ),本文使用的K-最近鄰(KNN)法通過相關(guān)性分析或歐氏距離確定與缺失值最近的K個(gè)樣本,通過對(duì)K個(gè)樣本值的加權(quán)平均來估計(jì)缺失值實(shí)現(xiàn)較好的插補(bǔ)效果。
3.2.2? ?異常值處理
由于中小企業(yè)財(cái)務(wù)管理水平有限或者人工統(tǒng)計(jì)數(shù)據(jù)時(shí)出現(xiàn)紕漏,所獲取的中小企業(yè)財(cái)務(wù)數(shù)據(jù)中存在不符合整體數(shù)據(jù)特征的情況,當(dāng)數(shù)據(jù)集中包含大量異常值將會(huì)影響最終實(shí)驗(yàn)結(jié)果。本文利用描述性統(tǒng)計(jì)對(duì)數(shù)據(jù)集中的異常值進(jìn)行探索,結(jié)果如表3所示。
本文對(duì)財(cái)務(wù)數(shù)據(jù)的描述性統(tǒng)計(jì)包括平均值、最大值、最小值以及在1%、5%、10%...99%時(shí)的數(shù)據(jù)分布,根據(jù)描述性統(tǒng)計(jì)結(jié)果共有10個(gè)財(cái)務(wù)指標(biāo)數(shù)據(jù)整體出現(xiàn)異常,部分?jǐn)?shù)據(jù)出現(xiàn)嚴(yán)重的量綱不統(tǒng)一的現(xiàn)象例如Max最小的僅有2.79最大卻達(dá)到了12 212,某些數(shù)據(jù)在99%分布時(shí)占比為81.64出現(xiàn)了嚴(yán)重右偏,本文將10個(gè)整體異常的異常值刪除,并統(tǒng)一數(shù)據(jù)量綱。異常財(cái)務(wù)指標(biāo)如表4所示。
3.2.3? ?非平衡數(shù)據(jù)的處理
現(xiàn)實(shí)中,“ST”處理的中小企業(yè)數(shù)量要遠(yuǎn)遠(yuǎn)小于正常企業(yè),所以收集的原始數(shù)據(jù)集高度不平衡,當(dāng)使用非平衡數(shù)據(jù)訓(xùn)練預(yù)測(cè)模型時(shí)便會(huì)出現(xiàn)分類器失真的現(xiàn)象。其中本文數(shù)據(jù)中正常樣本有707個(gè)但存在財(cái)務(wù)困境樣本有70個(gè)存在嚴(yán)重不平衡,經(jīng)過綜合分析選擇利用抗噪性更強(qiáng)、更適用于本文數(shù)據(jù)的SMOTE算法來平衡數(shù)據(jù)集,SMOTE算法的核心思想是人工合成少數(shù)類實(shí)現(xiàn)數(shù)據(jù)樣本平衡。
3.2.4? ?特征選擇
為了選擇與中小企業(yè)發(fā)生財(cái)務(wù)困境關(guān)聯(lián)密切的財(cái)務(wù)特征,本文對(duì)所收集到的64個(gè)中小企業(yè)財(cái)務(wù)指標(biāo)進(jìn)行特征選擇。許多研究在進(jìn)行特征選擇時(shí)方法較為單一,對(duì)預(yù)測(cè)模型效果有一定的影響,本文集成L1正則化(L1)、極限樹、隨機(jī)森林、特征選擇過濾器(f_classif)、XGBoost五種特征選擇方法構(gòu)建特征選擇評(píng)分模型。
本文所選擇構(gòu)建特征選擇集成模型的5種特征選擇算法涵蓋了兩大主流特征選擇方法:?jiǎn)巫兞刻卣鬟x擇和Embedding特征選擇法。其中f_classif代表了單變量特征選擇主要解決分類任務(wù)的特征選擇需要,保留評(píng)分最高的K個(gè)特征;L1特征選擇與極限樹特征選擇屬于Embedding特征選擇法這一類,通過設(shè)置懲罰項(xiàng)得到稀疏解從而實(shí)現(xiàn)降維的目的并且可以根據(jù)重要性對(duì)所選特征進(jìn)行打分,其中極限樹又叫做極端隨機(jī)數(shù),與隨機(jī)森林采用的Bagging模型不同,極限樹采用的是所有樣本并且完全隨機(jī)地得到分叉值,因?yàn)榉至堰^程是隨機(jī)的所以特征選擇也是隨機(jī)進(jìn)行的。這樣的特性使得極限樹在某種程度上能夠取得比隨機(jī)森林更好更全面的結(jié)果;基于隨機(jī)森林和XGBoost算法建立的特征選擇模型將機(jī)器學(xué)習(xí)算法中的打分機(jī)制引入特征選擇,逐漸成為主流方法。本文通過集成這5種特征選擇方法最終從64個(gè)財(cái)務(wù)指標(biāo)中篩選出14個(gè)實(shí)驗(yàn)特征,特征選擇評(píng)分模型流程圖如圖2所示。
根據(jù)構(gòu)建的特征選擇評(píng)分模型,5種特征選擇方法分別按照對(duì)財(cái)務(wù)困境預(yù)測(cè)的重要性進(jìn)行排序,其中L1特征選擇篩選出19個(gè)財(cái)務(wù)指標(biāo),隨機(jī)森林特征選擇篩選出15個(gè)財(cái)務(wù)指標(biāo),極限樹特征選擇篩選出19個(gè)財(cái)務(wù)指標(biāo),f_classif特征選擇篩選出24個(gè)財(cái)務(wù)指標(biāo),XGBoost特征選擇篩選出18個(gè)財(cái)務(wù)指標(biāo),在評(píng)分模型中當(dāng)財(cái)務(wù)指標(biāo)被1種特征選擇方法選中時(shí)計(jì)1分,評(píng)分達(dá)到3分或3分以上的財(cái)務(wù)指標(biāo)作為最終的訓(xùn)練特征。各種方法及評(píng)分模型最終篩選出的財(cái)務(wù)指標(biāo)如表5、表6所示。
在5種特征選擇方法中,極限樹算法不僅可以挑選出關(guān)鍵特征還能生成所有特征對(duì)于企業(yè)財(cái)務(wù)困境預(yù)測(cè)重要性排序有助于深入分析企業(yè)財(cái)務(wù)特征與非財(cái)務(wù)特征對(duì)中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)的影響程度。生成的結(jié)果如表7所示。
由上表展示的結(jié)果可知代表中小上市公司發(fā)展能力的財(cái)務(wù)指標(biāo)在財(cái)務(wù)困境預(yù)測(cè)中的占據(jù)十分重要的地位。重要性排在前十位的指標(biāo)分別是總資產(chǎn)增長(zhǎng)率、每股留存收益、資產(chǎn)報(bào)酬率、流動(dòng)資產(chǎn)凈利潤(rùn)率、總資產(chǎn)凈利潤(rùn)率、每股未分配利潤(rùn)、凈資產(chǎn)收益率、營(yíng)業(yè)利潤(rùn)率、可持續(xù)增長(zhǎng)率、權(quán)益乘數(shù)。本文認(rèn)為特征重要性排序可以作為特征選擇集成模型結(jié)果的有效補(bǔ)充并增添機(jī)器學(xué)習(xí)算法的可解釋性。無論是最終選擇的實(shí)驗(yàn)特征還是特征重要性排序,本文發(fā)現(xiàn)非財(cái)務(wù)指標(biāo)對(duì)財(cái)務(wù)困境預(yù)測(cè)的影響較小,建立模型時(shí)還是以財(cái)務(wù)指標(biāo)數(shù)據(jù)作為最終實(shí)驗(yàn)數(shù)據(jù)。
3.3? ?評(píng)價(jià)指標(biāo)
為了辨別LightGBM集成學(xué)習(xí)模型的分類效果以及與其他分類器相比是否更優(yōu),本文引入6種評(píng)價(jià)指標(biāo),分別為準(zhǔn)確率、精準(zhǔn)率、召回率、f1_score、AUC(Area Under the Curve)和ROC曲線(Receiver Operating characteristic Curve)。首先,我們根據(jù)樣本真實(shí)的類別和模型預(yù)測(cè)類別的組合形成4類,分別為TP(真正例)、FP(假正例)、TN(真反例)、FN(假反例)。很明顯將這4類所包含的樣本相加就是完整的數(shù)據(jù)集,分類結(jié)果的混淆矩陣如表8所示。
3.3.1? ?準(zhǔn)確率
準(zhǔn)確率(accuarcy)正確分類的樣本占總樣本的比率即正確分類的概率,是判斷分類模型分類效果最直觀的評(píng)價(jià)指標(biāo),計(jì)算公式為
準(zhǔn)確率的判斷受數(shù)據(jù)是否平衡的影響較大,當(dāng)數(shù)據(jù)非平衡時(shí),準(zhǔn)確率會(huì)出現(xiàn)虛高的情況,需要預(yù)先處理非平衡數(shù)據(jù)以及與其他評(píng)價(jià)指標(biāo)相結(jié)合。
3.3.2? ?精準(zhǔn)率、召回率與f1_score
精準(zhǔn)率(precision)又稱作查準(zhǔn)率,表示在分類器判別為正例的樣本中有多少是真正的正例。精準(zhǔn)率公式如下所示
召回率(recall)又稱作查全率,表示樣本的所有正例中有多少被準(zhǔn)確的分辨出來。召回率公式如下所示
精準(zhǔn)率與召回率是一對(duì)相互矛盾的概念,當(dāng)精準(zhǔn)率高時(shí)召回率便低,所以在實(shí)際情況下在不同的領(lǐng)域側(cè)重于不同的指標(biāo),例如在傳染病例辨別中需要100%將病例辨別出來這就需要較高的召回率。為了調(diào)和精準(zhǔn)率與召回率產(chǎn)生的結(jié)果,本文引入f_score評(píng)價(jià)指標(biāo)。f_score又稱作平衡F分?jǐn)?shù),是精準(zhǔn)率與召回率的調(diào)和平均數(shù),公式如下所示
3.3.3? ?AUC值與ROC曲線
ROC曲線是受試者工作特征曲線的簡(jiǎn)稱,以真陽(yáng)率(TPR)為縱坐標(biāo),假陽(yáng)率(FPR)為橫坐標(biāo)的感受性曲線。ROC曲線之所以被廣泛應(yīng)用是因?yàn)椴煌趥鹘y(tǒng)二分類的評(píng)價(jià)方式在ROC曲線上可以反映更多模糊的中間狀態(tài),適應(yīng)范圍更廣泛。
如果一個(gè)分類器的ROC曲線將另一個(gè)分類器的ROC曲線包裹住,則說明前者的分類效果更出色。但是,如果兩個(gè)分類器的ROC曲線相交則無法通過曲線圖來分辨效果,因此本文引入表示ROC曲線下方面積的AUC值,設(shè)ROC曲線是由眾多點(diǎn)連接而成,點(diǎn)的坐標(biāo)分別為{(x1,y1),(x2,y2),…,(xn,yn)},則
AUC值越高說明模型分類效果越好。
3.4? ?實(shí)驗(yàn)結(jié)果及分析
本文通過代碼實(shí)現(xiàn)建立了LightGBM集成學(xué)習(xí)模型,通過對(duì)訓(xùn)練集的學(xué)習(xí)來訓(xùn)練模型,再利用測(cè)試集檢驗(yàn)?zāi)P偷姆诸愋Ч罱KT年基于LightGBM算法財(cái)務(wù)困境預(yù)測(cè)模型的準(zhǔn)確率達(dá)到95.0877%,實(shí)驗(yàn)結(jié)果與真實(shí)值之間的均方誤差為0.233 2,并獲得LightGBM最終的ROC曲線和AUC值,LightGBM模型ROC曲線和AUC值如圖3所示。
為了驗(yàn)證基于LightGBM算法的財(cái)務(wù)困境分類模型的實(shí)際分類效果,基于T年的數(shù)據(jù)利用對(duì)邏輯回歸、支持向量機(jī)、決策樹等機(jī)器學(xué)習(xí)模型以及XGBoost集成學(xué)習(xí)模型進(jìn)行訓(xùn)練和測(cè)試,在本文所選的對(duì)比算法中邏輯回歸與支持向量機(jī)是典型的線性分類器,主要處理二分類問題。其中邏輯回歸不僅能夠處理大規(guī)模數(shù)據(jù)實(shí)現(xiàn)分類還能夠生成具有定性作用的連續(xù)型數(shù)值,而支持向量機(jī)在運(yùn)算速度和運(yùn)算準(zhǔn)確性上遠(yuǎn)高于邏輯回歸。決策樹算法是典型的非線性分類器能夠完成多分類任務(wù),并且能夠處理相關(guān)性不高的數(shù)據(jù),通過剪枝操作能夠使決策樹模型更具有靈活性在準(zhǔn)確性的提高上和適應(yīng)數(shù)據(jù)范圍上有了進(jìn)一步的發(fā)展。XGBoost不同于以上4種機(jī)器學(xué)習(xí)方法而是屬于集成學(xué)習(xí)范疇并且在集成學(xué)習(xí)中占據(jù)重要地位,作為一種優(yōu)化分布式梯度增強(qiáng)庫(kù)在實(shí)現(xiàn)過程中表現(xiàn)出更高效、更便捷、更靈活等特點(diǎn),是一種新穎的處理稀松數(shù)據(jù)的樹學(xué)習(xí)算法。實(shí)驗(yàn)結(jié)果如表9所示。
T年財(cái)務(wù)數(shù)據(jù)建立的所有模型訓(xùn)練集的效果要優(yōu)于測(cè)試集,集成學(xué)習(xí)模型的分類預(yù)測(cè)效果整體好于機(jī)器學(xué)習(xí)模型。在機(jī)器學(xué)習(xí)模型中,決策樹模型在訓(xùn)練集上的效果最好,召回率達(dá)到0.999 6,AUC值達(dá)到0.999 5,接近于完全正確分類,但是在測(cè)試集上結(jié)果卻不理想,AUC值僅0.754 3;支持向量機(jī)模型和邏輯回歸模型在測(cè)試集上都展現(xiàn)出良好的分類效果,AUC值分別為0.959 4和0.941 5;在集成學(xué)習(xí)模型的對(duì)比中,無論在訓(xùn)練集還是在測(cè)試集上LightGBM都表現(xiàn)出出眾的的分類效果,各種分類評(píng)價(jià)指標(biāo)略高于另一個(gè)集成學(xué)習(xí)算法XGBoost,其中在測(cè)試集上AUC值達(dá)到0.975 8是所有分類預(yù)測(cè)模型中最高的,并且LightGBM集成學(xué)習(xí)模型所花費(fèi)的時(shí)間更短,分類預(yù)測(cè)效率更高。
為了更直觀的對(duì)比不同分類預(yù)測(cè)模型的效果,本文還在實(shí)驗(yàn)中實(shí)現(xiàn)了各種模型的ROC曲線圖,如圖4~8所示。
由以上每種分類模型的ROC曲線圖可以看出,比起機(jī)器學(xué)習(xí)分類模型,XGBoost和LightGBM集成分類模型的ROC曲線更凸向左上方,而LightGBM模型的ROC曲線將XGBoost包裹住,說明LightGBM集成學(xué)習(xí)模型的分類效果是最好的。
為了檢驗(yàn)不同年份的財(cái)務(wù)數(shù)據(jù)對(duì)識(shí)別中小企業(yè)財(cái)務(wù)困境的效果產(chǎn)生的影響,本文利用T-2、T-3、T-4年的數(shù)據(jù)對(duì)邏輯回歸、支持向量機(jī)、決策樹等機(jī)器學(xué)習(xí)模型以及XGBoost、LightGBM集成學(xué)習(xí)模型進(jìn)行訓(xùn)練和測(cè)試,對(duì)比結(jié)果如下表10~12所示。
通過對(duì)表10~12所示的實(shí)驗(yàn)結(jié)果比較可知距離T年越近的財(cái)務(wù)數(shù)據(jù)反映中小企業(yè)財(cái)務(wù)問題就越明顯劃分預(yù)測(cè)中小企業(yè)是否出現(xiàn)財(cái)務(wù)困境的準(zhǔn)確性就越高。無論是機(jī)器學(xué)習(xí)算法還是集成算法訓(xùn)練集正確率要高于測(cè)試集,這是符合理論邏輯的,經(jīng)過結(jié)果對(duì)比可以發(fā)現(xiàn)在機(jī)器學(xué)習(xí)算法中支持向量機(jī)和決策樹的分類效果要優(yōu)于邏輯回歸,而支持向量機(jī)與決策樹在不同的評(píng)價(jià)指標(biāo)下表現(xiàn)各異。在集成學(xué)習(xí)算法中,XGBoost與LightGBM在訓(xùn)練集上均表現(xiàn)出完美的分類效果,在測(cè)試集上基于LightGBM算法建立的中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)模型要明顯優(yōu)于基于XGBoost算法建立的模型,在T-2年LightGBM算法實(shí)現(xiàn)了高達(dá)0.968 8的AUC值。
4? ?結(jié)論與展望
本文從國(guó)泰安數(shù)據(jù)庫(kù)獲取777家中小上市公司的財(cái)務(wù)指標(biāo)數(shù)據(jù)和非財(cái)務(wù)數(shù)據(jù)作為原始數(shù)據(jù),并將原始非平衡數(shù)據(jù)進(jìn)行平衡化處理,利用L1、隨機(jī)森林、極限樹、f_classif、XGBoost等5種特征選擇構(gòu)建特征選擇評(píng)分模型,從64個(gè)財(cái)務(wù)指標(biāo)中篩選出14個(gè)作為本文的實(shí)驗(yàn)特征組成更加緊湊、更高密度的數(shù)據(jù)集使得訓(xùn)練后的模型預(yù)測(cè)效果更好。本文首次將LightGBM集成學(xué)習(xí)模型在中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)上應(yīng)用,并將經(jīng)過預(yù)處理的數(shù)據(jù)以7:3的比例劃分訓(xùn)練集與測(cè)試集,利用訓(xùn)練集訓(xùn)練模型,測(cè)試集檢驗(yàn)最終結(jié)果,最終結(jié)果顯示LightGBM集成學(xué)習(xí)模型測(cè)試集上的準(zhǔn)確率達(dá)到95.087 7%,AUC值達(dá)到97.58%。在與不同的分類模型分類效果的比較中,集成學(xué)習(xí)模型的分類效果要優(yōu)于簡(jiǎn)單的機(jī)器學(xué)習(xí)模型,在眾多的集成學(xué)習(xí)模型中,LightGBM的分類效果最好。
中小企業(yè)在我國(guó)國(guó)民經(jīng)濟(jì)中占據(jù)重要地位,為我國(guó)稅收和就業(yè)貢獻(xiàn)巨大力量,對(duì)中小企業(yè)財(cái)務(wù)困境預(yù)測(cè)現(xiàn)在和未來都將會(huì)是會(huì)計(jì)與金融領(lǐng)域的熱點(diǎn)問題,中小企業(yè)的財(cái)務(wù)困境的預(yù)測(cè)對(duì)金融機(jī)構(gòu)和監(jiān)管機(jī)構(gòu)都非常重要。本文通過特征選擇集成評(píng)分模型篩選實(shí)驗(yàn)特征并對(duì)所選中小上市公司各類指標(biāo)重要性進(jìn)行排序發(fā)現(xiàn)代表企業(yè)發(fā)展能力的財(cái)務(wù)指標(biāo)對(duì)是否出現(xiàn)財(cái)務(wù)困境問題的影響較大,據(jù)此實(shí)驗(yàn)結(jié)果為提高我國(guó)中小上市公司綜合發(fā)展能力提出幾點(diǎn)建議:
首先為提高中小上市公司的可持續(xù)發(fā)展能力在不同的生命周期應(yīng)該關(guān)注的焦點(diǎn)各不相同[ 28 ]。在企業(yè)初始創(chuàng)立時(shí)期整體較為脆弱,應(yīng)該關(guān)注企業(yè)所處行業(yè)環(huán)境、政府的政策支持、初創(chuàng)產(chǎn)品的優(yōu)勢(shì)以及企業(yè)自身的技術(shù)條件;當(dāng)企業(yè)進(jìn)入成長(zhǎng)期便應(yīng)該追求外部大量的資金支持其擴(kuò)大再生產(chǎn)、內(nèi)部嚴(yán)謹(jǐn)?shù)慕M織結(jié)構(gòu)配合企業(yè)的進(jìn)一步發(fā)展;在企業(yè)步入成熟期后需要將各方面的條件協(xié)調(diào)起來共同發(fā)揮作用,包括經(jīng)營(yíng)規(guī)范、管理制度、組織結(jié)構(gòu)和人力資源等;如果企業(yè)出現(xiàn)財(cái)務(wù)困境轉(zhuǎn)而進(jìn)入衰退期則需要在技術(shù)創(chuàng)新和企業(yè)轉(zhuǎn)型上投入大量精力并利用企業(yè)文化激發(fā)內(nèi)部二次創(chuàng)業(yè)的激情。
其次為提高中小上市公司的創(chuàng)新發(fā)展能力應(yīng)該增加對(duì)以下六個(gè)方面的關(guān)注[ 29 ]:以國(guó)家政策方向作為企業(yè)發(fā)展大方向,把握國(guó)家的政策優(yōu)勢(shì);依托國(guó)家新基建發(fā)展力量,實(shí)現(xiàn)企業(yè)轉(zhuǎn)型;提高金融體系的創(chuàng)新力度,降低金融與實(shí)體之間資金對(duì)接壁壘;將內(nèi)部管理流程責(zé)任制分配,實(shí)現(xiàn)企業(yè)內(nèi)部組織模式優(yōu)化;結(jié)合中小上市公司“小規(guī)模、輕資產(chǎn)”的特點(diǎn)形成供應(yīng)鏈多方合作機(jī)制;營(yíng)造企業(yè)創(chuàng)新發(fā)展的健康生態(tài),實(shí)現(xiàn)發(fā)展模式創(chuàng)新。
本文通過對(duì)數(shù)據(jù)預(yù)處理、特征選擇以及集成學(xué)習(xí)模型的探討提出以下幾點(diǎn)展望:
第一,由于中國(guó)的中小上市公司所有權(quán)結(jié)構(gòu)和治理結(jié)構(gòu)的特殊性,導(dǎo)致數(shù)據(jù)有一定的限制性,而且金融數(shù)據(jù)的非平衡性是普遍現(xiàn)象,未來可以拓寬中小上市公司的數(shù)據(jù)類型,并進(jìn)一步探索非平衡數(shù)據(jù)的處理。第二,在模型訓(xùn)練過程中不同類型的誤差將會(huì)造成不同的損失,可以給誤差“不等成本”計(jì)算“成本敏感”,嘗試引入假設(shè)檢驗(yàn)、交叉驗(yàn)證t檢驗(yàn)和McNemar檢驗(yàn)來比較在泛化功能上是否將優(yōu)于其他分類器。第三,本文提出的特征選擇評(píng)分模型以及LightGBM集成學(xué)習(xí)模型可以嘗試應(yīng)用于深度學(xué)習(xí)領(lǐng)域,并試驗(yàn)性地探索和解釋模型的“黑箱”特性。
參考文獻(xiàn):
[1] 馮海波,陸倩倩.對(duì)中小企業(yè)減稅可以提高其吸納就業(yè)能力嗎——基于中小板上市公司數(shù)據(jù)的分析[J].稅務(wù)研究,2020(10):21-28.
[2] 國(guó)家統(tǒng)計(jì)局.我國(guó)企業(yè)信息化水平持續(xù)提升——第四次全國(guó)經(jīng)濟(jì)普查系列報(bào)告之四[EB/OL].(2019-12-05)[2021-2-8].http://www.stats.gov.cn/tjsj/zxfb/201912/t20191205_1715468.html.
[3] 陽(yáng)友明.對(duì)中小企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警體系構(gòu)建研究[J].財(cái)會(huì)學(xué)習(xí),2017(7):61.
[4] Beaver W H, Financial ratios as predictors of failure[J]. Journal of Accounting Research, 1966(4): 71-111.
[5] Carmichael D R. The auditors reporting obligation: The meaning and implementation of the fourth standard of reporting[J]. Audit Res Monogr, 1972(2): 94.
[6] 吳世農(nóng),盧賢義.我國(guó)上市公司財(cái)務(wù)困境的預(yù)測(cè)模型研究[J].經(jīng)濟(jì)研究,2001(6):46-55.
[7] 張金昌,王大偉.財(cái)務(wù)困境預(yù)警:概念界定與理論辨析[J].財(cái)經(jīng)論叢,2020(12):61-69.
[8] Dreiseitl S, Ohno-Machado Lucila. Logistic regression and artificial neural network classification models: A methodology review[J]. Journal of Biomedical Informatics, 2002, 35(5)352-359.
[9] Huh J, Park Jong hun, Shin Dong min, et al. A hierarchical svm based behavior inference of human operators using a hybrid sequence kernel[J]. Sustainability, 2019, 11(18): 4 836.
[10] 方匡南,楊陽(yáng).SGL-SVM方法研究及其在財(cái)務(wù)困境預(yù)測(cè)中的應(yīng)用[J].統(tǒng)計(jì)研究,2018,35(8):104-115.
[11] Mehdipour V,Memarianfard M. Application of support vector machine and gene expression programming on tropospheric ozone prognosticating for tehran metropolitan[J]. Civil Engineering Journal,2017,3(8): 557.
[12] Odom M D, Sharda R. A neural network model for bankruptcy prediction[J].International Joint Conference on Neural Networks, 1990(2): 163-168.
[13] Sung T K, Chang Namsik, Gunhee Lee. Dynamics of modeling in data mining: Interpretive approach to bankruptcy prediction[J/OL].Dynamics of Modeling in Data Mining: Interpretive Approach to Bankruptcy Prediction,1999,16(1): 63-85.
[14] Tsai C F,Hsu Y F,Yen David C. A comparative study of classifier ensembles for bankruptcy prediction[J]. Applied Soft Computing,2014(24): 977-984.
[15] Zhu Y, Zhou L, Xie C, et al. Forecasting SMEscredit risk in supply chain finance with an enhanced hybrid ensemble machine learning approach[J]. Prod Econ,2019(211): 22-33.
[16] Dietterich T G. Ensemble methods in machine learning[J]. International Workshop on Multiple Classifier Systems, 2000(1):1-2.
[17] Jiang M R, Jia L F, Chen Z S, et al. The two-stage machine learning ensemble models for stock price prediction by combining mode decomposition, extreme learning machine and improved harmony search algorithm[J]. Annals of Operations Research, 2020.
[18] Zhao Y, Li J P, Yu L. A deep learning ensemble approach for crude oil price forecasting[J].Energy Economics, 2017(66): 9-16.
[19] Minastireanu E A.Light GBM Machine Learning Algorithm to Online Click Fraud Detection[J]. Journal of Information Assurance & Cybersecurity. 2019:263928.
[20] Sun P C. Research on credit rating model of P2P project based on LightGBM algorithms[C].Proceedings of 2019 6th International Conference on Machinery, Mechanics, Materials, and Computer Engineering. Huhhot: Francis Academic Press, 2019: 345-348.
[21] 馬曉君,沙靖嵐,牛雪琪.基于LightGBM算法的P2P項(xiàng)目信用評(píng)級(jí)模型的設(shè)計(jì)及應(yīng)用[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2018,35(5):144-160.
[22] Yadkikar P R. GPU based malware prediction using LightGBM and XGBoost[D]. California: California State University, 2020.
[23] 顧桐,許國(guó)良,李萬(wàn)林,等. 基于集成LightGBM和貝葉斯優(yōu)化策略的房?jī)r(jià)智能評(píng)估模型[J].計(jì)算機(jī)應(yīng)用,2020,40(9):2 762-2 767.
[24] 葉志宇,馮愛民,高航.基于深度LightGBM集成學(xué)習(xí)模型的谷歌商店顧客購(gòu)買力預(yù)測(cè)[J]. 計(jì)算機(jī)應(yīng)用,2019,39(12):3 434-3 439.
[25] Soo Y K. Predicting hospitality financial distress with ensemble models: The case of US hotels, restaurants, and amusement and recreation[J].Serv Bus,2018(12): 483-503.
[26] 王瑞芳.基于Lasso-logistic和XGBoost的上市公司財(cái)務(wù)困境預(yù)測(cè)[D].武漢:中南財(cái)經(jīng)政法大學(xué),2019.
[27] 楊青龍,田曉春,胡佩媛.基于LASSO方法的企業(yè)財(cái)務(wù)困境預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2016(23):170-173.
[28] 張小紅.生命周期視角下中小企業(yè)可持續(xù)發(fā)展能力評(píng)價(jià)研究[J].管理觀察,2019,(28):15-16.
[29] 李波,林詩(shī)敏,洪露,等.提升科技型中小企業(yè)創(chuàng)新發(fā)展能力[N].貴州日?qǐng)?bào),2020-05-13(010).
[責(zé)任編輯:鄭筆耕]