李林杰
隨著大數(shù)據(jù)時代的到來與機器學習方法的不斷的發(fā)展,如何系統(tǒng)挖掘并識別企業(yè)的財務報表中的欺詐風險,建立高識別率的財務欺詐風險預警模型,對于證券市場的規(guī)范運作,高效率完成審計工作具有重要意義。本文以我國制造業(yè)A股上市公司為例,在基本財務數(shù)據(jù)的基礎上從靜態(tài)、個體、時間三個維度進行指標構建,訓練了lightgbm、xgboost、catboost、svm4種模型,根據(jù)模型的特點不同分別采用貝葉斯優(yōu)化與網格搜索法進行參數(shù)調優(yōu),最終將調優(yōu)后的模型采用等權重voting法進行模型融合。結果發(fā)現(xiàn):測試集上的AUC值可達到0.8,能夠對發(fā)生財務欺詐的企業(yè)進行有效識別,希冀能夠為機器學習方法在財務欺詐風險預警中的應用提供一定的思路與參考。
一、引言
近年來,隨著上市公司規(guī)模的增大,越來越多的財務欺詐開始出現(xiàn)。財務欺詐發(fā)生時將會對資本市場,個人投資者造成巨大傷害,不利于金融市場的良好發(fā)展,因此如何對財務欺詐進行有效識別與預警成為一個備受關注的問題。
在財務欺詐的方面,可以劃分為傳統(tǒng)人力審計與大數(shù)據(jù)識別模型兩種。傳統(tǒng)方法大多基于具有一定專業(yè)知識的審計類財務人員,運用其財務知識對企業(yè)的財務數(shù)據(jù)報表進行審查,這將耗費巨大的人力,效率與準確率都具有較大的局限性。隨著大數(shù)據(jù)技術的不斷發(fā)展,運用機器學習方法建立有效、高識別率的財務欺詐預警模型成為了可能。
本文的貢獻包括兩個方面:第一,特征工程。在從盈利、償債、資產管理、現(xiàn)金、成長五個維度構建靜態(tài)財務指標的基礎上,從公司個體維度構建橫向動態(tài)指標、從時間維度構建縱向動態(tài)財務指標,最終完成靜態(tài)、個體、時間三個維度的特征構建。第二,模型融合。在應用xgboost、lightGbm、catBoost、svm等優(yōu)異的機器學習方法基礎上,通過等權重voting方法進行模型融合,進一步提高了對財務欺詐識別模型的準確率。
二、相關理論
(一)財務欺詐的動機
上市公司財務欺詐即因自身利益而在財務報告中采用故意錯報、瞞報等方式,以虛假的財務信息欺騙財務報表使用者的行為。財務欺詐的動機可分為外因和內因兩個部分:
外部原因主要體現(xiàn)在監(jiān)管體制、會計制度和證券機制三個方面。由于監(jiān)管體制的放松,會計制度在某些層面規(guī)定不嚴密,證券機制要求公司在上市前三年必須實現(xiàn)連續(xù)盈利,因此某些公司會鋌而走險發(fā)生財務欺詐行為。
內部原因即企業(yè)的利益驅動。經濟利益是企業(yè)的核心目的,為了吸取融資公司會通過財務欺詐來騙取投資方的信任。
(二)財務欺詐表現(xiàn)
雖然財務欺詐的表現(xiàn)形式多種多樣,總體來說可概括成以下四個方面:
1.會計資料:編制虛假會計報表、會計資料和其他資料。
2.會計政策方面:蓄意披露和使用與經濟事實不符的會計政策,掩蓋事實真相。
3.會計確認與計量:隨意變更財務指標,諸如資產、負債以及所有者權益等確認標準。
4.交易事項及記錄:沒有如實按實際的業(yè)務結果予以記錄。
三、實證分析
(一)數(shù)據(jù)來源
本文的研究對象為A股的制造業(yè)上市公司,其中企業(yè)的財務數(shù)據(jù)包括盈利、償債、現(xiàn)金等多個維度,包括5年的年度財務數(shù)據(jù),涉及到300余個變量。數(shù)據(jù)來源為某大數(shù)據(jù)挖掘平臺。
(二)數(shù)據(jù)預處理
在數(shù)據(jù)預處理階段,主要對缺失值進行處理,將來原始數(shù)據(jù)中缺失值大于10%的變量剔除。剔除缺失值高的變量之后,在數(shù)據(jù)填充方面,對于每個指標,若公司有往年相關數(shù)據(jù)的話,使用公司歷年指標的平均值進行填充;若該公司沒有該指標的數(shù)據(jù)的話,通過該指標行業(yè)的平均值進行填充。
(三)特征工程
1.靜態(tài)指標
基于上市發(fā)生財務數(shù)據(jù)造假的動因及數(shù)據(jù)維度的劃分,借鑒張宏斌(2020)等學者的指標構建思路,本文從盈利、償債、資產管理、現(xiàn)金、成長五個維度構造靜態(tài)財務指標,如表1所示:
2.動態(tài)指標
考慮到機器學習方法對大數(shù)據(jù)的強擬合能力以及企業(yè)發(fā)生財務欺詐的動因與數(shù)據(jù)表現(xiàn),本文在靜態(tài)財務指標的基礎上構建動態(tài)財務指標。在動態(tài)指標方面,從個體與時間維度分別構造橫向動態(tài)指標與縱向動態(tài)指標:
橫向動態(tài)指標即對當年與該行業(yè)其它公司的平均值做差值,幫助發(fā)現(xiàn)企業(yè)今年相對于行業(yè)平均變動的異常變動,若存在缺失值則用同年份該指標均值填充。
縱向動態(tài)指標即靜態(tài)指標與該公司往年指標的平均值做差值,幫助發(fā)現(xiàn)企業(yè)今年與往年相比是否存在指標的異常變動。其中若存在缺失值則用平均值進行填充;若該公司每年的指標均缺失,則用所有公司對應指標的平均值進行填充。
(四)數(shù)據(jù)集劃分
將前4年的數(shù)據(jù)為訓練集,以第5年的數(shù)據(jù)為測試集來對調優(yōu)后的模型進行性能評估。為了不改變原始樣本的分布,在數(shù)據(jù)集劃分時通過python數(shù)據(jù)預處理函數(shù)train_test_split中的stratify參數(shù)進行分層劃分,劃分后的訓練集、驗證集、測試集的樣本量分別為6054、2595、2660。
(五)財務欺詐預警模型構建及調優(yōu)
將經過靜態(tài)、個體、時間三個維度所構建特征作為自變量,以企業(yè)是否發(fā)生財務欺詐為因變量,分別訓練lightgbm、xgboost、catboost、svm模型,最終通過voting方法進行等權重模型融合,最終得到企業(yè)是否發(fā)生財務欺詐的預測結果,模型構建過程如圖1所示:
其中,在機器學習模型的訓練過程中將進行參數(shù)調優(yōu)。參數(shù)調優(yōu)的方法包括貝葉斯優(yōu)化、網格搜索方法。貝葉斯優(yōu)化方法的其主要思想是:給定優(yōu)化的目標函數(shù),然后不斷地添加樣本點,進而更新目標函數(shù)的后驗分布。相比于常規(guī)的網格搜索法而言具有以下優(yōu)勢:
第一, 貝葉斯調參采用高斯過程,即利用之前的參數(shù)信息,不斷地更新先驗;而網格搜索未考慮之前的參數(shù)信息;
第二, 貝葉斯調參迭代次數(shù)少,速度快;而網格搜索速度慢,并且參數(shù)較多時易導致維度爆炸;
第三, 貝葉斯調參針對非凸問題依然穩(wěn)健;網格搜索針對非凸問題易陷入局部最優(yōu)。
考慮到不同模型與調參方法的優(yōu)點,采用貝葉斯全局優(yōu)化方法對lightgbm、xgboost、catboost模型的多個參數(shù)進行調優(yōu);采用網格搜索對svm模型進行參數(shù)調優(yōu),最終基于模型在測試集上的AUC指標對調參效果進行評價。各模型在測試集上的擬合效果對比結果如圖2所示:
通過圖2可以發(fā)現(xiàn),在經過模型的參數(shù)調優(yōu)后,各模型的AUC值均得到了提升,說明參數(shù)調優(yōu)有效,得到了最優(yōu)的單一模型。
(六)模型融合
在通過參數(shù)調優(yōu)獲得最優(yōu)的單一模型結果的基礎上,運用等權重voting投票法進行模型融合,結果如表2所示:
經過voting融合后,模型在測試集上的auc值達到了0.8,相對于單一的機器學習方法,模型融合進一步提升了對財務欺詐的識別能力,驗證了本文提出的財務欺詐風險預警模型的有效性。
四、結語
本文在上市公司基本財務數(shù)據(jù)的基礎上,對缺失值在10%以上的指標進行剔除處理??紤]到上市公司發(fā)生財務數(shù)據(jù)造假的動機、表現(xiàn)以及機器學習對高維數(shù)據(jù)的強擬合能力,從盈利、償債、資產管理、現(xiàn)金、成長五個維度構建了靜態(tài)財務指標,并在此基礎上從個體維度與時間維度分別構建了橫向動態(tài)指標與縱向動態(tài)指標,并將指標作為機器學習的輸入特征用于預測企業(yè)是否發(fā)生財務欺詐。通過lightgbm、xgboost、catboost、svm模型的訓練及調優(yōu)后發(fā)現(xiàn),除了svm模型外,其余模型在測試集上的auc值均能達到0.7以上,且相對于調參前的auc值均有效提高,說明經過調參的有效性。最終,采用Voting等權重投票法進行模型融合,最終結果在測試集上的auc值可達到0.8,能夠對財務欺詐風險進行有效的識別與預警。本文的核心工作在于特征構建與前沿機器學習方法、貝葉斯優(yōu)化、模型融合的應用,通過制造業(yè)上市公司的財務數(shù)據(jù)的實證結果證明了本文的財務欺詐預警模型的有效性。
(作者單位:上海對外經貿大學)