【摘要】近年來, 全球經(jīng)濟(jì)一體化與金融市場發(fā)展導(dǎo)致上市公司財(cái)務(wù)舞弊頻發(fā)。隨著上市公司財(cái)務(wù)數(shù)據(jù)積累和財(cái)務(wù)比率多樣性增加, 大數(shù)據(jù)與機(jī)器學(xué)習(xí)方法在識別舞弊中的應(yīng)用成為研究熱點(diǎn)。然而, 機(jī)器學(xué)習(xí)模型受限于其“黑盒”特性, 如何在提高模型精度的同時(shí), 增加其透明度和可解釋性, 已成為學(xué)界和業(yè)界共同面臨的挑戰(zhàn)。本文引入一種基于XGBoost框架的可解釋機(jī)器學(xué)習(xí)模型, 使用加權(quán)交叉熵?fù)p失函數(shù)處理非均衡樣本, 通過將加權(quán)模型簡化為單棵決策樹, 以清晰的樹狀結(jié)構(gòu)為業(yè)界決策者提供明確的邏輯解釋。同時(shí), 創(chuàng)新性結(jié)合上市公司年報(bào)中的MD&A文本信息, 實(shí)證檢驗(yàn)文本變量在提升財(cái)務(wù)舞弊識別性能上的有效性。研究結(jié)果表明: 加入文本變量后, 模型識別準(zhǔn)確率達(dá)到89.32%, 較僅考慮財(cái)務(wù)與非財(cái)務(wù)指標(biāo)時(shí)提升了15.73%; 利用加權(quán)交叉熵為少數(shù)類樣本賦予更高權(quán)重后, 召回率提高至86.51%。本文引入的可解釋機(jī)器學(xué)習(xí)方法以其簡單、 透明及高準(zhǔn)確性的特點(diǎn), 為財(cái)務(wù)舞弊識別提供了一種可解釋的代價(jià)敏感解決方案, 為業(yè)界決策者提供了指導(dǎo)。
【關(guān)鍵詞】財(cái)務(wù)舞弊;可解釋性;機(jī)器學(xué)習(xí);文本分析
【中圖分類號】F275;TP181 【文獻(xiàn)標(biāo)識碼】A 【文章編號】1004-0994(2024)19-0020-9
一、 引言
近年來, 全球經(jīng)濟(jì)融合與證券市場發(fā)展推動了上市公司財(cái)務(wù)舞弊現(xiàn)象的增加。盡管2020年修訂的《證券法》加強(qiáng)了監(jiān)管, 但疫情加大了企業(yè)的生存壓力, 部分公司通過粉飾財(cái)務(wù)報(bào)表應(yīng)對嚴(yán)苛的上市標(biāo)準(zhǔn), 導(dǎo)致惡性財(cái)務(wù)舞弊數(shù)量上升(羅黨論等,2022)。此類行為不僅會損害公司聲譽(yù)及投資者利益, 還會威脅金融市場穩(wěn)定與社會公共利益。
隨著上市公司財(cái)務(wù)數(shù)據(jù)積累和財(cái)務(wù)比率多樣性增加, 傳統(tǒng)方法如邏輯回歸(LR)和線性判別分析難以捕捉經(jīng)濟(jì)指標(biāo)之間的非線性關(guān)系, 而大數(shù)據(jù)和機(jī)器學(xué)習(xí)方法在財(cái)務(wù)舞弊識別中展現(xiàn)出巨大潛力。同單分類器相比, 集成學(xué)習(xí)算法以其減少偏差和方差的能力而聞名, 在破產(chǎn)預(yù)測、 欺詐檢測、 信用評分等金融領(lǐng)域被廣泛應(yīng)用。Boosting算法如自適應(yīng)提升算法(Adaptive Boosting,AdaBoost)(Bao等,2020)、 梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)(Hancock和Khoshgoftaar,2021)、 極端梯度提升(eXtreme Gradient Boosting,XGBoost)(Lei等,2020), 通過串行迭代訓(xùn)練分類器并分配不同權(quán)重, 有效減小訓(xùn)練誤差, 提高分類性能。最近的證據(jù)表明, XGBoost在預(yù)測上市公司財(cái)務(wù)舞弊方面取得了成功(周衛(wèi)華等,2022)。
傳統(tǒng)基于機(jī)器學(xué)習(xí)的財(cái)務(wù)舞弊識別模型從歷史財(cái)務(wù)數(shù)據(jù)中學(xué)習(xí)正常和異常模式, 強(qiáng)調(diào)對異常模式的檢測和對多樣化舞弊手法的適應(yīng)性。財(cái)務(wù)舞弊識別模型屬于典型的不平衡學(xué)習(xí)問題, Cheng等(2021)、 伍彬等(2022)通過重采樣策略操縱財(cái)務(wù)舞弊數(shù)據(jù)集的分布以解決不公平偏見問題, 但這種操作可能引發(fā)過擬合或欠擬合等問題?,F(xiàn)有的基于機(jī)器學(xué)習(xí)的財(cái)務(wù)舞弊識別方法研究側(cè)重于開發(fā)高精度的模型, 忽視了財(cái)務(wù)舞弊識別模型背后的決策邏輯。機(jī)器學(xué)習(xí)模型的“黑盒”特性使財(cái)務(wù)舞弊識別在實(shí)際應(yīng)用中變得難以解釋, 因而難以向投資者和監(jiān)管者等利益相關(guān)方傳遞透明且可理解的信息。
上述局限促使我們引入一種可解釋的失衡財(cái)務(wù)舞弊識別模型, 以實(shí)現(xiàn)準(zhǔn)確的財(cái)務(wù)舞弊識別。Liu等(2022)在研究財(cái)務(wù)困境預(yù)警問題時(shí), 提出了一種基于加權(quán)XGBoost的樹模型(XGBoost-W-BT), 旨在降低對未被分類為財(cái)務(wù)困境公司的誤判。該方法首先考慮魯棒性較高的XGBoost集成框架, 以減小預(yù)測誤差; 其次構(gòu)建一個代價(jià)敏感優(yōu)化目標(biāo)任務(wù)并嵌入Boosting框架, 以解決非均衡數(shù)據(jù)集的問題; 最后采用近似機(jī)制, 將代價(jià)敏感的XGBoost簡化為一棵樹, 使其提出的方法XGBoost-W-BT成為可解釋性財(cái)務(wù)困境預(yù)警模型的代價(jià)感知解決方案。因此, 本文從處理非平衡樣本和提高模型可解釋性雙重視角出發(fā), 借助Liu等(2022)提出的可解釋機(jī)器學(xué)習(xí)方法構(gòu)建財(cái)務(wù)舞弊識別模型, 利用貝葉斯優(yōu)化調(diào)整模型參數(shù), 增強(qiáng)對舞弊公司的識別。同時(shí), 通過對財(cái)務(wù)舞弊識別模型決策邏輯進(jìn)行可視化與引入本福特定律(Benford's Law), 提升模型的可靠性。此外, 本文結(jié)合文本分析技術(shù), 從情感、 可讀性和相似性角度分析年報(bào)中的管理層討論與分析(Management Discussion and Analysis,MD&A)文本, 識別潛在的誤導(dǎo)信息, 增強(qiáng)舞弊檢測機(jī)制。
二、 文獻(xiàn)回顧
(一) 上市公司財(cái)務(wù)舞弊識別指標(biāo)
財(cái)務(wù)舞弊識別指標(biāo)的研究主要聚焦在財(cái)務(wù)和非財(cái)務(wù)指標(biāo)上, 財(cái)務(wù)數(shù)據(jù)因易于獲取而被廣泛利用。Beneish(1999)提出的M-Score模型利用財(cái)務(wù)比率識別異常行為, 成為經(jīng)典工具, 并在后續(xù)研究中得到驗(yàn)證(Repousis,2016)。Zhao和Bai(2022)、 Islam等(2024)分析了交易數(shù)據(jù)與財(cái)務(wù)指標(biāo), 強(qiáng)調(diào)流動比率和資產(chǎn)周轉(zhuǎn)率在異常檢測中的重要性。隨著研究的深入, 非財(cái)務(wù)指標(biāo)(如公司治理和內(nèi)部控制)在財(cái)務(wù)舞弊檢測中的作用被逐步認(rèn)可(Jan,2021), 劉云菁等(2022)結(jié)合財(cái)務(wù)與非財(cái)務(wù)指標(biāo)提升了模型表現(xiàn)。同時(shí), 一些研究開始關(guān)注財(cái)務(wù)報(bào)告中的文本信息, Craja等(2020)、 趙納暉和張?zhí)煅螅?022)通過提取MD&A文本特征, 發(fā)現(xiàn)其能提高模型準(zhǔn)確性。綜上, 有效利用指標(biāo)的組合可以提高財(cái)務(wù)舞弊識別的準(zhǔn)確性。
(二) 上市公司財(cái)務(wù)舞弊識別方法
早期財(cái)務(wù)舞弊識別主要依賴統(tǒng)計(jì)分析和判別分析模型, 如F-Score、 M-Score和Z-Score等經(jīng)典模型。隨著科技的進(jìn)步, 研究者開始運(yùn)用機(jī)器學(xué)習(xí)構(gòu)建更高效的模型, 如錢蘋和羅玫(2015)基于M-Score和F-Score模型開發(fā)的C-Score模型, 以及周衛(wèi)華等(2022)基于XGBoost構(gòu)建的X-Score模型, 均表現(xiàn)出較好的預(yù)測性能。盡管判別分析法在財(cái)務(wù)舞弊識別中發(fā)揮了重要作用, 但其嚴(yán)格的統(tǒng)計(jì)假設(shè)和有限的指標(biāo)數(shù)量帶來了一定的局限性。機(jī)器學(xué)習(xí)算法被廣泛應(yīng)用于財(cái)務(wù)舞弊識別, 常見算法如LR(洪文洲等,2014)、 決策樹(Decision Tree,DT)(Eweoya等,2019)、 支持向量機(jī)(Support Vector Machine,SVM)(曹德芳和劉柏池,2019)等提升了檢測準(zhǔn)確性。隨著單分類器性能瓶頸的顯現(xiàn), 集成學(xué)習(xí)算法因其能夠整合多個模型的優(yōu)勢, 逐漸成為主流。例如, 隨機(jī)森林(Random Forest,RF)作為Bagging算法的代表, 在比較研究中展示出超越LR、 SVM、 DT等單分類器模型的優(yōu)越性(Ye等,2019)。Stacking算法則通過集成多個基學(xué)習(xí)器的預(yù)測, 進(jìn)一步優(yōu)化了模型表現(xiàn), Zhang等(2022)以RF、 AdaBoost和GBDT為基學(xué)習(xí)器, 研究發(fā)現(xiàn)Stacking集成學(xué)習(xí)模型要優(yōu)于LR、 SVM和RF模型。Boosting算法則通過迭代串行訓(xùn)練加權(quán)分類器以減小誤差, 包括AdaBoost、 GBDT和XGBoost算法等。Ali等(2023)基于XGBoost算法并結(jié)合合成少數(shù)類過采樣技術(shù)(Synthetic Minority Over-sampling Technique,SMOTE)處理數(shù)據(jù)不平衡, 研究發(fā)現(xiàn)優(yōu)化之后XGBoost的預(yù)測結(jié)果優(yōu)于LR、 DT、 SVM、 AdaBoost、 RF模型。
綜上所述, 國內(nèi)外已有大量學(xué)者致力于財(cái)務(wù)舞弊識別研究, 并取得了豐碩的研究成果, 尤其是基于機(jī)器學(xué)習(xí)模型的嘗試。然而, 同單分類器相比, 集成方法通過聚合多個不同的假設(shè), 其日益增加的復(fù)雜性限制了財(cái)務(wù)舞弊識別的可解釋性。本文試圖從可解釋性角度構(gòu)建一個我國上市公司財(cái)務(wù)舞弊識別模型并予以應(yīng)用。
三、 基于可解釋機(jī)器學(xué)習(xí)的上市公司財(cái)務(wù)舞弊識別模型
本文采用Liu等(2022)提出的基于XGBoost算法的可解釋機(jī)器學(xué)習(xí)模型(簡稱“改良XGBoost”), 該模型具備高準(zhǔn)確性、 強(qiáng)泛化能力以及特征重要性解釋能力。改良XGBoost以XGBoost算法為基礎(chǔ), 通過加權(quán)融合方法, 整合決策規(guī)則, 生成新的決策樹。為適應(yīng)財(cái)務(wù)舞弊數(shù)據(jù)集, 本文引入貝葉斯優(yōu)化方法, 利用其自適應(yīng)性智能地進(jìn)行超參數(shù)優(yōu)化, 以進(jìn)一步提升模型的準(zhǔn)確性和泛化能力?;诟牧糥GBoost構(gòu)建的上市公司財(cái)務(wù)舞弊識別模型原理如圖1所示。
(一) 優(yōu)化XGBoost目標(biāo)函數(shù)
XGBoost是一種基于梯度提升框架的機(jī)器學(xué)習(xí)算法, 通過迭代地添加弱學(xué)習(xí)器(如決策樹)構(gòu)建強(qiáng)學(xué)習(xí)器。與GBDT相比, XGBoost采用獨(dú)特的目標(biāo)函數(shù), 由訓(xùn)練損失和正則項(xiàng)組成。訓(xùn)練損失用于衡量模型預(yù)測值與實(shí)際值的差異, 正則項(xiàng)用于控制模型復(fù)雜度以防止過擬合。XGBoost的高效性和強(qiáng)大的適應(yīng)性使其成為適用于多種任務(wù)的數(shù)據(jù)處理工具。改良XGBoost通過引入加權(quán)交叉熵?fù)p失函數(shù), 減少了分類任務(wù)中不同錯誤的影響, 具體優(yōu)化后的損失函數(shù)為:
Loss=y×aFP×lnp+(1-y)×aFN×ln(1-p) (1)
其中: y是實(shí)際標(biāo)簽, 表示樣本的正、 負(fù)類別; p是模型的預(yù)測概率; aFP與aFN是用于調(diào)整錯誤權(quán)重的系數(shù)。
與Liu等(2022)通過網(wǎng)格搜索確定最優(yōu)權(quán)重, 重點(diǎn)關(guān)注在財(cái)務(wù)困境預(yù)測中減少假陰性錯誤不同, 本文采用貝葉斯優(yōu)化來確定最佳參數(shù)。優(yōu)化完成后, 重新訓(xùn)練XGBoost模型, 并用平均假陽率[Average False Positive Rate,aFP=FP/(FP+TN)]和平均假陰率[Average False Negative Rate,aFN=FN/(FN+TP)]替代aFP與aFN, 以更好地反映財(cái)務(wù)舞弊檢測中不同類型錯誤的影響。
(二) 加權(quán)融合XGBoost的決策規(guī)則
由于改良XGBoost算法的本質(zhì)是通過一棵可解釋的決策樹來近似加權(quán)NokW4xemNUgKnW0oSsxMqqb1otQoz1OUx8rsy8lw+zg=XGBoost, 為了更好地評估模型在不同時(shí)間點(diǎn)上的泛化能力與性能變化, 采用決策規(guī)則合并機(jī)制: 通過比較相鄰決策樹的決策路徑, 識別出具有相同特征但取值不同的規(guī)則, 進(jìn)行相應(yīng)調(diào)整, 形成交叉規(guī)則集, 并計(jì)算其準(zhǔn)確率。以下為決策路徑合并時(shí)更新其新決策路徑概率的核心公式:
pt,i←[12](pt,i+pt-1,j) (2)
其中, pt,i表示第t棵決策樹的決策路徑集合中第i條路徑的概率, pt-1,j表示第t-1棵決策樹的決策路徑集合中第j條路徑的概率。通過加權(quán)融合t和t-1兩棵相鄰決策樹的決策路徑形成一條新的決策路徑, 實(shí)現(xiàn)更為平穩(wěn)的樹結(jié)構(gòu)。交叉規(guī)則集的準(zhǔn)確率計(jì)算公式為:
Rule_Acc=[ 2] (3)
其中, Rulet表示第t棵決策樹的決策路徑準(zhǔn)確率, Rulet-1表示第t-1棵決策樹的決策路徑準(zhǔn)確率, 計(jì)算兩者均值即得到Rule_Acc。
(三) 使用融合規(guī)則生成新決策樹
在循環(huán)合并XGBoost輸出的所有決策樹規(guī)則后, 獲得決策路徑交集RT。為控制新決策樹的復(fù)雜度, 改良XGBoost算法根據(jù)決策路徑的預(yù)測概率排序, 選擇排名前L條決策路徑構(gòu)成規(guī)則集合, 同時(shí)將該規(guī)則集合中的規(guī)則按分裂特征提取并存儲在哈希表中。隨后, 通過優(yōu)先使用最佳規(guī)則從上到下逐層構(gòu)建決策樹, 一直到達(dá)設(shè)定的決策樹深度, 旨在逼近原始加權(quán)XGBoost的決策邏輯。
在構(gòu)建新決策樹時(shí), 改良XGBoost算法通過最大化信息增益(Information Gain, IG)選擇最佳分裂特征, 并遞歸構(gòu)建樹結(jié)構(gòu)。信息增益基于損失函數(shù)公式(1), 在每個決策節(jié)點(diǎn)的分裂過程中, 通過最小化每個節(jié)點(diǎn)的損失, 減小整體的預(yù)測誤差。信息增益計(jì)算公式如下:
-E(Rule) (4)
其中, |RuleL|和|RuleR|分別表示左子集和右子集的規(guī)則數(shù)量, E(RuleL)和E(RuleR)分別表示左子集和右子集的損失, E(Rule)表示選擇所有路徑的損失。
四、 實(shí)證研究與結(jié)果分析
(一) 樣本及數(shù)據(jù)來源
本文選取2013 ~ 2022年首次受到中國證監(jiān)會、 財(cái)政部和滬深證券交易所處罰的上市公司作為舞弊樣本, 這些公司因涉嫌虛列資產(chǎn)、 虛構(gòu)利潤、 虛假記載和重大遺漏而受到了處罰, 標(biāo)記為1。同時(shí), 將未涉及上述違規(guī)行為的上市公司作為非舞弊樣本, 標(biāo)記為0。訓(xùn)練集和測試集的比例為8∶2。為確保研究的準(zhǔn)確性, 在樣本篩選過程中剔除金融行業(yè)、 存在缺失值的樣本以及上市不足3年的上市公司。最終獲得927個舞弊公司樣本和4348個非舞弊公司樣本, 詳見表1。
本文的財(cái)務(wù)和非財(cái)務(wù)數(shù)據(jù)來源于CSMAR數(shù)據(jù)庫, 包括違規(guī)處理、 財(cái)務(wù)指標(biāo)分析、 治理結(jié)構(gòu)和財(cái)務(wù)報(bào)告審計(jì)意見等數(shù)據(jù)庫。此外, 文本數(shù)據(jù)來自CNRDS數(shù)據(jù)庫的管理層討論與分析(CMDA)數(shù)據(jù)庫。
(二) 灰色樣本剔除
在財(cái)務(wù)舞弊識別中, 灰色樣本指尚未明確為舞弊但可能存在異常的樣本。為提高數(shù)據(jù)可靠性, 本文采用周衛(wèi)華等(2022)提出的本福特風(fēng)險(xiǎn)因子排除非舞弊樣本中的灰色樣本。當(dāng)滿足以下任一條件時(shí), 非舞弊樣本被視為灰色樣本: 本福特定律相關(guān)系數(shù)r<0.9; 第二位數(shù)字“0”的χ2>0.18; 卡方檢驗(yàn)(置信度95%)結(jié)果為“拒絕”。
任務(wù)1: 計(jì)算本福特定律首位或第二位數(shù)字的理論分布概率X; 計(jì)算上市公司資產(chǎn)負(fù)債表、 利潤表、 現(xiàn)金流量表數(shù)據(jù)的首位和第二位數(shù)字的實(shí)際分布概率Y; 計(jì)算X與Y的相關(guān)系數(shù)r。其中r的計(jì)算公式如下:
[r= ] (5)
任務(wù)2: 計(jì)算上市公司資產(chǎn)負(fù)債表、 利潤表、 現(xiàn)金流量表數(shù)據(jù)的首位數(shù)字或第二位數(shù)字“0”的頻數(shù)Oi與理論頻數(shù)Ei; 計(jì)算上市公司資產(chǎn)負(fù)債表、 利潤表、 現(xiàn)金流量表財(cái)務(wù)數(shù)據(jù)的χ2統(tǒng)計(jì)量與χ2標(biāo)準(zhǔn)值; 比較χ2統(tǒng)計(jì)量與χ2標(biāo)準(zhǔn)值的大小, 若χ2統(tǒng)計(jì)量>χ2標(biāo)準(zhǔn)值(置信度95%), 則判斷為假, 拒絕原假設(shè)。其中, χ2統(tǒng)計(jì)量的計(jì)算公式如下:
χ2= (6)
通過對本福特風(fēng)險(xiǎn)因子進(jìn)行判斷, 本文發(fā)現(xiàn)非舞弊樣本中存在1554條灰色樣本。剔除后, 非舞弊樣本從4348個減少至2794個。整個樣本中, 舞弊樣本占比從17.57%增加至24.91%。同時(shí), 訓(xùn)練集中舞弊樣本占比由17.58%增加至24.92%。
(三) 研究變量選擇
1. 財(cái)務(wù)與非財(cái)務(wù)指標(biāo)。本文的變量選取基于Zhang等(2022)的研究, 遵循科學(xué)性、 系統(tǒng)性和全面性原則, 從財(cái)務(wù)指標(biāo)分析數(shù)據(jù)庫中提取出反映上市公司財(cái)務(wù)狀況和經(jīng)營成果的財(cái)務(wù)指標(biāo), 同時(shí)從治理結(jié)構(gòu)數(shù)據(jù)庫和財(cái)務(wù)報(bào)告審計(jì)意見數(shù)據(jù)庫中提取出顯示公司內(nèi)部控制情況的非財(cái)務(wù)指標(biāo), 初步建立一個涵蓋財(cái)務(wù)與非財(cái)務(wù)指標(biāo)的體系。在此基礎(chǔ)上, 進(jìn)一步增加財(cái)務(wù)比率結(jié)構(gòu)指標(biāo), 以及內(nèi)部控制是否存在缺陷、 內(nèi)部控制是否有效、 審計(jì)費(fèi)用合計(jì)、 會計(jì)師事務(wù)所是否變更等非財(cái)務(wù)指標(biāo)。具體指標(biāo)詳見表2。
2. 文本分析與指標(biāo)計(jì)算。文本分析即文本挖掘, 是將非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的過程。財(cái)務(wù)領(lǐng)域常用方法包括自然語言處理、 詞袋法(Bag of Words,BOW)和機(jī)器學(xué)習(xí)。Zhang等(2022)和Choi等(2020)的研究表明, 詞袋法在分析MD&A文本中表現(xiàn)優(yōu)異。本文借鑒Li等(2023)的多維度分析方法, 使用詞袋法從情感、 可讀性和相似性三個維度分析MD&A文本。
詞袋法的關(guān)鍵在于詞典的選擇。姚加權(quán)等(2021)基于LM金融情感詞典及眾多中文詞庫構(gòu)建了金融領(lǐng)域中文情緒詞典。在本文的文本分析過程中, 筆者采用了該中文情緒詞典中正式和非正式的積極與消極情感詞匯。
MD&A文本能有效補(bǔ)充財(cái)務(wù)報(bào)表數(shù)據(jù), 幫助識別財(cái)務(wù)舞弊行為。已有研究表明, 舞弊企業(yè)的管理層更傾向于使用積極詞匯描述公司運(yùn)營情況和前景, 以及使用長句或?qū)I(yè)性強(qiáng)的語句降低文本可讀性(Gao等2020;Yang等,2023)。因此, 本文借鑒Gao等(2020)的研究, 基于Python中的jieba分詞工具進(jìn)行分詞處理, 使用姚加權(quán)等(2021)構(gòu)建的情緒詞典分析MD&A文本的凈積極語調(diào)(V1)與情感極性[包括積極(V2)和消極(V3)]; 使用搜狗細(xì)胞詞庫中財(cái)經(jīng)金融詞匯大全詞典分析文本中的專業(yè)術(shù)語(V4), 并結(jié)合平均句子長度(V5)和文本長度(V6)衡量文本可讀性。同時(shí), 基于余弦相似性評估MD&A的文本相似性(V7)(Li等,2023)。文本指標(biāo)選取與量化如表3所示。
(四) 特征提取
本文選取了91個財(cái)務(wù)指標(biāo)、 11個非財(cái)務(wù)指標(biāo)和7個MD&A文本指標(biāo), 構(gòu)成財(cái)務(wù)舞弊識別模型的初始特征集??紤]到不同指標(biāo)對財(cái)務(wù)舞弊識別的貢獻(xiàn)不同, 選擇對模型貢獻(xiàn)較大的特征, 以提高模型的效率。此外, 過多指標(biāo)之間的相關(guān)性可能導(dǎo)致過擬合, 從而影響預(yù)測準(zhǔn)確性。因此, 本文采用統(tǒng)計(jì)學(xué)方法中的卡方檢驗(yàn)和相關(guān)系數(shù)法對特征進(jìn)行篩選, 利用Python工具輔助實(shí)現(xiàn), 旨在提升特征集的整體質(zhì)量。
第一步, 進(jìn)行描述性統(tǒng)計(jì)與卡方檢驗(yàn)。本文通過計(jì)算財(cái)務(wù)與非財(cái)務(wù)指標(biāo)的均值、 標(biāo)準(zhǔn)差、 中位數(shù)以及四分位數(shù)等描述性統(tǒng)計(jì)量, 評估數(shù)據(jù)分布的均勻性。通過觀察表4的結(jié)果可知, 財(cái)務(wù)與非財(cái)務(wù)指標(biāo)的數(shù)據(jù)分布可分為集中型和分散型兩種: 集中型指標(biāo)展示出較小的標(biāo)準(zhǔn)差和接近的均值與中位數(shù), 如X1、 X2、 X3等; 分散型指標(biāo)則顯示出較大的標(biāo)準(zhǔn)差和顯著不同的均值與中位數(shù), 如X4、 X21、 X22、 X23等。卡方檢驗(yàn)是基于卡方統(tǒng)計(jì)量(Chi-Squared Statistic)來評估特征與標(biāo)簽之間的相關(guān)性。卡方值越大, 代表特征與標(biāo)簽之間的相關(guān)性越強(qiáng), 對目標(biāo)變量的預(yù)測貢獻(xiàn)度也就越大。然而, 卡方檢驗(yàn)只能處理離散變量, 不能處理連續(xù)變量。因此, 本文首先對財(cái)務(wù)與非財(cái)務(wù)指標(biāo)中的連續(xù)變量進(jìn)行離散化處理。結(jié)合表4的分析結(jié)果, 對集中型指標(biāo)采用等距離散化方法, 將連續(xù)的數(shù)據(jù)按照相等的間隔劃分為若干個類別; 對分散型指標(biāo)采用K均值(K-means)聚類算法, 將數(shù)據(jù)集劃分成K個不重疊的簇。然后, 合并離散化后的連續(xù)變量與離散變量。接著, 計(jì)算各個變量與目標(biāo)變量之間的卡方值和P值。最后, 選擇卡方值高且P<0.05的前30個特征作為候選特征集A, 如表5所示。
第二步, 采用相關(guān)系數(shù)法剔除高度相關(guān)的指標(biāo)。通過計(jì)算財(cái)務(wù)與非財(cái)務(wù)指標(biāo)中所有連續(xù)變量的相關(guān)系數(shù), 移除其中相關(guān)系數(shù)超過0.7的變量, 此過程保留了53個指標(biāo), 構(gòu)成候選特征集B, 包括X4、 X8、 X12、 X13、 X16、 X17、 X18、 X20、 X21、 X22、 X23、 X24、 X25、 X27、 X28、 X29、 X35、 X44、 X45、 X47、 X48、 X49、 X50、 X51、 X52、 X53、 X54、 X56、 X60、 X62、 X63、 X64、 X65、 X66、 X67、 X69、 X70、 X74、 X86、 X87、 X90、 X91、 X92、 X93、 X94、 X95、 X96、 X97、 X98、 X99、 X100、 X101、 X102。
第三步, 提取最終特征。通過合并候選特征集A和B, 并去除重復(fù)項(xiàng), 共得到68個財(cái)務(wù)與非財(cái)務(wù)指標(biāo)。結(jié)合7個文本指標(biāo), 本文最終為上市公司財(cái)務(wù)舞弊識別模型保留了75個特征。
(五) 數(shù)據(jù)標(biāo)準(zhǔn)化
為了消除不同特征之間的量綱差異, 提高模型的穩(wěn)定性和準(zhǔn)確性, 本文采用Z-Score標(biāo)準(zhǔn)化法對所有財(cái)務(wù)指標(biāo)數(shù)據(jù)進(jìn)行歸一化處理。該處理將數(shù)據(jù)轉(zhuǎn)換為均值為0、 標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布, 其轉(zhuǎn)換公式如下:
[zi=xi-μiσi] (7)
其中, xi是原始特征的值, μi是原始特征xi的均值, σi是原始特征xi的標(biāo)準(zhǔn)差, zi是標(biāo)準(zhǔn)化后的特征值。
(六) XGBoost超參數(shù)優(yōu)化
本文引入的改良XGBoost算法以XGBoost為整體框架, 基于XGBoost模型訓(xùn)練輸出的規(guī)則構(gòu)建新的決策樹。在模型訓(xùn)練過程中, 需要指定模型參數(shù), 本文選取貝葉斯優(yōu)化方法作為參數(shù)調(diào)整策略, 旨在最大化XGBoost模型的準(zhǔn)確率。本文參考Dalal等(2022)的研究, 選擇colsample_bytree、 gamma、 max_delta_step、 max_depth、 min_child_weight、 subsample作為待優(yōu)化參數(shù)。經(jīng)過50次迭代訓(xùn)練, 最終確定一組最優(yōu)參數(shù), 詳見表6。
(七) 實(shí)證結(jié)果分析
如表7所示, 二分類問題最終會有以下四組分類結(jié)果: TP表示被模型準(zhǔn)確預(yù)測為舞弊的樣本數(shù); FP表示被模型預(yù)測為舞弊但標(biāo)記為非舞弊的樣本數(shù); TN為被模型準(zhǔn)確預(yù)測為非舞弊的樣本數(shù); FN表示被模型預(yù)測為非舞弊但標(biāo)記為舞弊的樣本數(shù)。
為了全面有效地比較模型性能, 本文選擇了一系列常用的分類任務(wù)指標(biāo), 包括準(zhǔn)確率(Accuracy)、 精確率(Precision)、 召回率(Recall)、 F1分?jǐn)?shù)、 真正率(True Positive Rate, TPR)、 真負(fù)率(True Negative Rate, TNR)、 G-mean和AUC值。準(zhǔn)確率指模型將樣本正確分類的比例, 該值越接近1, 模型分類效果越好; 精確率指被分類為舞弊的樣本中實(shí)際為舞弊的比例; 召回率指所有實(shí)際為舞弊的樣本中被模型正確分類的比例; F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均數(shù), 數(shù)值越接近1, 表示模型在精確率和召回率上的表現(xiàn)越好; TPR同召回率; TNR表示模型正確識別非舞弊樣本的比例; G-mean是一種適用于不平衡數(shù)據(jù)集的二分類模型評估指標(biāo), 它綜合考慮了模型對舞弊和非舞弊樣本準(zhǔn)確預(yù)測的比例; AUC值是ROC曲線下的面積, 以假正率(FPR)為橫軸、 真正率(TPR)為縱軸, 該值越接近1, 模型性能越好。以下是上述部分指標(biāo)的計(jì)算公式:
Accuracy=[TP+TNTP+FP+TN+FN]×100% (8)
Precision=[TPTP+FP]×100% (9)
Recall=TPR=[TPTP+FN]×100% (10)
[F1=2× ]×100% (11)
TNR=[TNTN+FP]×100% (12)
G-mean= (13)
1. 模型識別結(jié)果分析。為驗(yàn)證上市公司財(cái)務(wù)報(bào)告中的MD&A文本信息對提高財(cái)務(wù)舞弊識別效果的增量作用, 本文對比分析了僅考慮財(cái)務(wù)與非財(cái)務(wù)指標(biāo)(標(biāo)記為“F”)和引入文本指標(biāo)(標(biāo)記為“T”)兩種情況下的分類結(jié)果, 詳見表8。
研究結(jié)果顯示, 納入MD&A文本指標(biāo)后財(cái)務(wù)舞弊識別模型的性能顯著提升, 其中準(zhǔn)確率、 精確率、 召回率、 F1分?jǐn)?shù)、 真正率、 G-mean和AUC值均有所改善, 盡管真負(fù)率下降了0.19%, 但準(zhǔn)確率與召回率分別提高了15.73%和29.35%, 提升幅度較大, 說明MD&A文本為識別財(cái)務(wù)舞弊提供了有效補(bǔ)充。具體而言: 文本指標(biāo)的引入豐富了模型的特征集, 使其能夠捕捉到更為復(fù)雜的舞弊模式; 同時(shí), MD&A文本通過提供細(xì)致的財(cái)務(wù)表現(xiàn)和風(fēng)險(xiǎn)描述, 揭示了傳統(tǒng)財(cái)務(wù)指標(biāo)所未涉及的關(guān)鍵信息。因此, 結(jié)合財(cái)務(wù)和文本分析對提升財(cái)務(wù)舞弊識別的準(zhǔn)確性至關(guān)重要。
2. 與其他分類器模型的對比分析。
(1) 與未經(jīng)平衡處理的財(cái)務(wù)舞弊識別模型對比。本文通過對比分析基于改良XGBoost算法及文本信息構(gòu)建的上市公司財(cái)務(wù)舞弊識別模型與未經(jīng)數(shù)據(jù)平衡處理的其他分類器模型的性能(如LR、DT、SVM等傳統(tǒng)模型), 驗(yàn)證了改良XGBoost在財(cái)務(wù)舞弊識別任務(wù)中的有效性。改良XGBoost能夠自適應(yīng)處理不平衡的數(shù)據(jù)集, 而傳統(tǒng)模型未特別針對數(shù)據(jù)集的不平衡性進(jìn)行調(diào)整, 這些模型通常用于處理相對平衡的數(shù)據(jù)集, 簡稱“平衡模型”。與平衡模型的分類結(jié)果對比如表9所示。
由表9可知, 改良XGBoost能夠自適應(yīng)處理不平衡數(shù)據(jù), 具有較好的召回率和F1分?jǐn)?shù)表現(xiàn)。在不平衡數(shù)據(jù)集上, 改良XGBoost的真正率與真負(fù)率更為均衡, 召回率達(dá)86.51%, 優(yōu)于其他平衡模型。此外, 雖然改良XGBoost的精確率低于RF和LightGBM, 但其F1分?jǐn)?shù)最優(yōu)。盡管其AUC值低于其他大部分模型, 但也超過了86%, 顯示了模型在處理不平衡數(shù)據(jù)時(shí)的穩(wěn)健性和泛化能力。由于財(cái)務(wù)舞弊識別誤判成本較高, 改良XGBoost憑借較高的召回率展現(xiàn)出優(yōu)勢。
(2) 與經(jīng)平衡處理的財(cái)務(wù)舞弊識別模型對比。同理, 對比分析發(fā)現(xiàn), 基于改良XGBoost算法及融合文本指標(biāo)構(gòu)建的上市公司財(cái)務(wù)舞弊識別模型與其他經(jīng)過數(shù)據(jù)平衡處理的分類器模型相比性能有所提升。特別地, 本文選取了若干處理數(shù)據(jù)不平衡問題的代表性算法進(jìn)行深入比較, 包括隨機(jī)欠采樣(Random Under Sampling,RUS)、 隨機(jī)過采樣(Random Over Sampling,ROS)、 SMOTE、 RUSBoost、 SMOTEBoost及AdaCost等, 這些模型常用于處理不平衡數(shù)據(jù)集, 簡稱“失衡模型”。與失衡模型的分類結(jié)果對比如表10所示。
從表10可以看出: 改良XGBoost和RUSBoost展現(xiàn)了最高的準(zhǔn)確率, 分別為89.32%和89.17%; ROS以92.50%的精確率表現(xiàn)處于領(lǐng)先位置; AdaCost以89.72%的召回率表現(xiàn)最佳。盡管AdaCost在召回率上表現(xiàn)突出, 但其準(zhǔn)確率、 精確率、 真負(fù)率及G_mean指標(biāo)值相對較低, 表明該模型在識別正類樣本時(shí)過于激進(jìn), 從而增加了將負(fù)類樣本錯誤分類為正類樣本的風(fēng)險(xiǎn)。同時(shí), SMOTEBoost和RUSBoost在精確率上的表現(xiàn)不盡如人意, 暗示這些模型在將樣本預(yù)測為正類時(shí)可能產(chǎn)生較多的誤判。因此, 無論是從提升模型整體的準(zhǔn)確性, 還是關(guān)注不遺漏任何正類樣本(追求高召回率), 或是在維持正、 負(fù)類樣本之間良好平衡的目標(biāo)來看, 改良XGBoost均為最為理想的選擇。
3. 模型解釋性分析。圖2展示了基于改良XGBoost和文本信息構(gòu)建的財(cái)務(wù)舞弊識別模型應(yīng)用于不平衡數(shù)據(jù)集(訓(xùn)練集)上的淺層決策樹可視化結(jié)果, 圖中包括分裂特征與分裂值, 不同分裂條件下的訓(xùn)練樣本數(shù)量(samples)、 正負(fù)樣本數(shù)量(value[負(fù)樣本數(shù),正樣本數(shù)])及該條件下的舞弊概率(Prob)。從圖中可以觀察到, 該決策樹以文本相似性(V7)指標(biāo)作為根節(jié)點(diǎn), 其分裂值為0.6726。文本相似性指標(biāo)指的是上市公司在連續(xù)兩年年報(bào)MD&A文本中重復(fù)出現(xiàn)的文本(單詞或短語)的比例, 最早由Brown和Tucker(2011)提出, 并將其作為評估年報(bào)信息變化的一種方式。他們的研究指出, MD&A文本的高度相似性可能預(yù)示著公司對資本市場的積極回應(yīng)。然而, 過高的文本相似性意味著公司存在隱瞞或欺詐行為的可能。通常情況下, 公司每年的經(jīng)營狀況和戰(zhàn)略均有所變化, 理應(yīng)在MD&A文本中披露出新的經(jīng)營信息。當(dāng)文本過于雷同時(shí), 意味著管理層有意回避披露最新的經(jīng)營情況, 說明其通過信息掩蓋或誤導(dǎo)性的行為蒙蔽投資者等利益相關(guān)者。
(1) 特征重要性分析。全局可解釋性的核心目標(biāo)是確保決策模型的運(yùn)作過程及其內(nèi)在的決策邏輯對用戶透明且可理解。DT因其訓(xùn)練高效、 決策邏輯可解釋而被廣泛應(yīng)用于檢測上市公司的財(cái)務(wù)舞弊活動。而改良XGBoost本質(zhì)上近似于一棵決策樹, 通過分析該模型中決策樹的重構(gòu)過程, 可以輸出排名前十的特征重要性得分, 從而幫助解釋模型的運(yùn)作機(jī)制。圖3展示了特征重要性得分排在前十位的指標(biāo), 其中文本相似性作為決策樹的根節(jié)點(diǎn)是最重要的特征, 表明MD&A的文本相似性(V7)越高, 公司存在財(cái)務(wù)舞弊的可能性越大。期間費(fèi)用率(X46)、 消極(V3)、 營業(yè)收入增長率(X67)等特征與財(cái)務(wù)舞弊行為相關(guān), 當(dāng)公司年報(bào)中MD&A的文本相似性(V7)處于較高水平時(shí), 若期間費(fèi)用率(X46)與消極(V3)較高且營業(yè)收入增長率(X67)較高, 則公司被標(biāo)記為舞弊的可能性較大。同理, 當(dāng)公司年報(bào)中MD&A的文本相似性(V7)較低時(shí), 信息披露較為真實(shí), 無論是MD&A文本中的專業(yè)術(shù)語(V4)較多且流通股比例(X95)較高, 還是專業(yè)術(shù)語(V4)較少但文本長度(V6)適當(dāng), 均表明公司被標(biāo)記為舞弊的可能性較低。因?yàn)閷I(yè)術(shù)語(V4)體現(xiàn)出公司對自身業(yè)務(wù)的深入理解和對未來發(fā)展的規(guī)劃; 流通股比例(X95)則與公眾投資者掌握的公司股票有關(guān), 體現(xiàn)投資者對公司經(jīng)營狀況的監(jiān)督??傮w來看, 改良XGBoost的全局解釋與語義信息高度一致, 增強(qiáng)了模型的邏輯連貫性和可解釋性。
(2) 決策路徑分析。局部可解釋性使分析者能夠了解人工智能模型是如何對每個財(cái)務(wù)舞弊樣本進(jìn)行預(yù)測的。給定一個記錄公司財(cái)務(wù)與MD&A文本信息的樣本, 改良XGBoost會根據(jù)其訓(xùn)練的結(jié)構(gòu)和決策節(jié)點(diǎn)條件, 為樣本指派最適合的決策規(guī)則。圖4展示了一個示例, 說明了改良XGBoost如何識別財(cái)務(wù)舞弊案例并提供局部解釋。改良XGBoost將該樣本分類為舞弊公司, 圖中虛線表示給定測試樣本的決策路徑, 其概率為0.88。當(dāng)文本相似性(V7)=0.779756時(shí), 超過閾值0.6726, 說明MD&A的文本相似性偏高, 可能缺乏透明性, 同時(shí)期間費(fèi)用率(X46)>0.0599且消極(V3)>0.0196, 表明公司可能在費(fèi)用控制上較松懈, 或存在人為調(diào)整跡象, 增加了財(cái)務(wù)舞弊的可能性。
五、 結(jié)論
本文基于可解釋機(jī)器學(xué)習(xí)和文本信息構(gòu)建了上市公司財(cái)務(wù)舞弊識別模型, 并以2013 ~ 2022年首次舞弊的公司為樣本, 通過提取情感語調(diào)、 情感極性、 可讀性和相似性等文本指標(biāo), 驗(yàn)證了MD&A文本指標(biāo)對于財(cái)務(wù)舞弊識別的增量貢獻(xiàn)。此外, 識別和解釋上市公司的財(cái)務(wù)舞弊對投資者等利益相關(guān)者至關(guān)重要。然而, 舞弊公司和非舞弊公司之間的不平衡分布為財(cái)務(wù)舞弊的識別帶來了挑戰(zhàn)。為了追求效率并降低誤識成本, 傳統(tǒng)的不平衡財(cái)務(wù)舞弊識別的解決方案試圖以集成方式提高模型的復(fù)雜性, 但忽略了財(cái)務(wù)舞弊識別模型的可解釋性。為了平衡性能和解釋性之間的關(guān)系, 本文引入一種可解釋機(jī)器學(xué)習(xí)算法, 該算法通過合并和篩選XGBoost中的決策規(guī)則來構(gòu)建新決策樹, 旨在近似于原模型, 但更為簡化和易于解釋。本文的研究結(jié)論如下: 第一, 引入MD&A文本指標(biāo)后, 模型準(zhǔn)確率提升至89.32%, 比僅考慮財(cái)務(wù)與非財(cái)務(wù)指標(biāo)時(shí)提升了15.73%。第二, 本文采用加權(quán)交叉熵?fù)p失函數(shù)解決類別不平衡問題, 無需額外處理數(shù)據(jù)集, 在實(shí)際操作上更為簡單直接, 通過給予數(shù)目較少的類別更大的權(quán)重以減少模型的偏見, 提升了少類別的預(yù)測準(zhǔn)確性, 本文構(gòu)建的財(cái)務(wù)舞弊識別模型的召回率達(dá)到86.51%。本文引入的改良XGBoost為業(yè)界提供了透明且高效的財(cái)務(wù)舞弊識別工具, 簡化了復(fù)雜模型。
【 主 要 參 考 文 獻(xiàn) 】
曹德芳,劉柏池.SVM財(cái)務(wù)欺詐識別模型[ J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2019(2):295 ~ 299+304.
洪文洲,王旭霞,馮海旗.基于Logistic回歸模型的上市公司財(cái)務(wù)報(bào)告舞弊識別研究[ J].中國管理科學(xué),2014(S1):351 ~ 356.
劉云菁,伍彬,張敏.上市公司財(cái)務(wù)舞弊識別模型設(shè)計(jì)及其應(yīng)用研究——基于新興機(jī)器學(xué)習(xí)算法[ J].?dāng)?shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2022(7):152 ~ 175.
羅黨論,黃悅昕,何建梅.上市公司財(cái)務(wù)舞弊的治理:經(jīng)驗(yàn)與理論分析[ J].財(cái)會月刊,2022(22):29 ~ 37.
錢蘋,羅玫.中國上市公司財(cái)務(wù)造假預(yù)測模型[ J].會計(jì)研究,2015(7):18 ~ 25+96.
伍彬,劉云菁,張敏.基于機(jī)器學(xué)習(xí)的分析師識別公司財(cái)務(wù)舞弊風(fēng)險(xiǎn)的研究[ J].管理學(xué)報(bào),2022(7):1082 ~ 1091.
姚加權(quán),馮緒,王贊鈞等.語調(diào)、情緒及市場影響:基于金融情緒詞典[ J].管理科學(xué)學(xué)報(bào),2021(5):26 ~ 46.
趙納暉,張?zhí)煅螅贛D&A文本和深度學(xué)習(xí)模型的財(cái)務(wù)報(bào)告舞弊識別[ J].會計(jì)之友,2022(8):140 ~ 149.
周衛(wèi)華,翟曉風(fēng),譚皓威.基于XGBoost的上市公司財(cái)務(wù)舞弊預(yù)測模型研究[ J].?dāng)?shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2022(7):176 ~ 196.
Ali A. A., Khedr A. M., El-Bannany M., et al.. A powerful predicting model for financial statement fraud based on optimized XGBoost ensemble learning technique[ J].Applied Sciences,2023(4):2272.
Bao Y., Ke B., Li B., et al.. Detecting accounting fraud in publicly traded U.S. firms using a machine learning approach[ J].Journal of Accounting Research,2020(1):199 ~ 235.
Beneish M. D.. The detection of earnings manipulation[ J].Financial Analysts Journal,1999(5):24 ~ 36.
Brown S. V., Tucker J. W.. Large-sample evidence on firms' year-over-year MD&A modifications[ J].Journal of Accounting Research,2011(2):309 ~ 346.
Cheng C. H., Kao Y. F., Lin H. P.. A financial statement fraud model based on synthesized attribute selection and a dataset with missing values and imbalanced classes[ J].Applied Soft Computing,2021(108):107487.
Choi J., Suh Y., Jung N.. Predicting corporate credit rating based on qualitative information of MD&A transformed using document vectorization techniques[ J].Data Technologies and Applications,2020(2):151 ~ 168.
Craja P., Kim A., Lessmann S.. Deep learning for detecting financial statement fraud[ J].Decision Support Systems,2020(139):113421.
Dalal S., Seth B., Radulescu M., et al.. Predicting fraud in financial payment services through optimized hyper-parameter-tuned XGBoost model[ J].Mathematics,2022(24):4679.
Eweoya I. O., Adebiyi A. A., Azeta A. A.. Fraud prediction in bank loan administration using decision tree[ J].Journal of Physics: Conference Series, 2019(1299):012037.
Gao Y., Liang N., Niu G., et al.. A method for company-specific risk factors analysis in the view of cross analysis[ J].Procedia Computer Science,2020(174):375 ~ 381.
Hancock J. T., Khoshgoftaar T. M.. Gradient boosted decision tree algorithms for medicare fraud detection[ J].SN Computer Science,2021(4):1 ~ 11.
Islam S., Haque M., Karim A. R.. A rule-based machine learning model for financial fraud detection[ J].International Journal of Electrical and Computer Engineering,2024(1):759 ~ 771.
Jan C. L.. Detection of financial statement fraud using deep learning for sustainable development of capital markets under information asymmetry[ J].Sustaina-
bility,2021(17):9879.
Lei S., Ke X. U., Huang Y. Z., et al.. An XGBoost based system for financial fraud detection[ J].E3S Web of Conferences,2020(214):02042.
Li J., Li N., Xia T., et al.. Textual analysis and detection of financial fraud: Evidence from Chinese manufacturing firms[ J].Economic Modelling,2023(126):106428.
Liu W., Fan H., Xia M., et al.. Predicting and interpreting financial distress using a weighted boosted tree-based tree[ J].Engineering Applications of Artificial Intelligence,2022(116):105466.
Repousis S.. Using Beneish model to detect corporate financial statement fraud in Greece[ J].Journal of Financial Crime,2016(4):1063 ~ 1073.
Yang F., David J. M., Chang C. C.. Detecting financial statement fraud through multidimensional analysis of text readability[ J].Journal of Forensic Accounting Research,2023(1):74 ~ 96.
Ye H., Xiang L., Gan Y.. Detecting financial statement fraud using random forest with SMOTE[ J].IOP Conference Series: Materials Science and Enginee-
ring,2019(5):052051.
Zhao Z., Bai T.. Financial fraud detection and prediction in listed companies using SMOTE and machine learning algorithms[ J].Entropy,2022(8):1157.
Zhang Z., Ma Y., Hua Y.. Financial fraud identification based on stacking ensemble learning algorithm: Introducing MD&A text information[ J].Computational Intelligence and Neuroscience,2022(4):1 ~ 14.