卞平原
(池州職業(yè)技術學院 國際經濟貿易系,安徽 池州 247000)
納稅人的數(shù)量與規(guī)模正隨著經濟的快速發(fā)展和經濟主體的多元化而快速擴張,與此同時,也出現(xiàn)一些偷稅漏稅的行為。[1]我國一直致力于改革稅收征管模式,其中的重點內容就是要防范稅收流失并最大程度規(guī)避稅收執(zhí)法的相關風險。[2]風險管理是通過各種信息化和非信息化的手段對可能出現(xiàn)的各類風險進行識別、分析和解決,盡可能降低風險帶來的不利影響和后果。[3-4]風險管理中的風險識別要求稅務機關在稅收征管工作中確定所有可能帶來損失和不確定性的風險來源,及時評估其危害度和可能造成的不利后果,并提前做好應對準備工作。[5-6]企業(yè)所得稅具有稅務重、難以轉嫁和計算復雜的特點,更容易出現(xiàn)納稅人出于主觀意愿或無意識的偷稅漏稅現(xiàn)象。[7]研究基于大數(shù)據(jù)背景,對隨機森林算法做出了相應的改進,并將其用于企業(yè)所得稅的稅收風險識別中,旨在為稅務機關開展稅收風險管理提供參考。
隨機森林(Random Forest,RF)算法是使用多個分類回歸樹(Classification And Regression Tree,CART)對數(shù)據(jù)樣本進行訓練和預測的一種分類器,但是RF算法較決策樹分類器擁有更優(yōu)秀的泛化能力和分類效果。[8-9]研究在RF算法的基礎上,根據(jù)決策樹的分類精度和樹間相似性進行決策樹數(shù)量約簡,進一步提高RF算法的分類性能。改進后得到的基于決策樹約簡的隨機森林算法(Random forest algorithm based on decision tree reduction,RFDTR)的流程圖如圖1所示。
圖1 RFDTR算法的流程圖
由圖1可知,RFDTR算法主要包括兩個部分,一為傳統(tǒng)的RF算法,二為約簡決策樹過程。通過約簡的方式可去除不符合要求的決策樹模型,將留下來的樹組合為子森林,以此來減少模型存儲和預測時間的成本。RF算法通過bootstrap抽樣進行有放回地抽取原始樣本后,采用CART構建基分類器模型。具體方式是通過基尼指數(shù)最小化準則或均方誤差(Mean Average Error,MAE)最小化準則從分裂特征集中選擇最優(yōu)分裂特征和切分點用于分類或回歸。如式(1)所示計算樣本集合D的基尼指數(shù)G(D)。
(1)
式(1)中,Pk為第k類樣本所占的比例,K為樣本類別的數(shù)量。假設某一個特征H有n個取值,那么可以定義樣本集合D在H已知的情況下的基尼指數(shù)G_index(D,H)如式(2)所示。
(2)
根據(jù)式(2)可得到基于基尼系數(shù)的最優(yōu)劃分特征標準。然后需要對決策樹進行約簡,約簡操作分為選取高精度子森林和聚類選擇多樣性子森林兩步。選取高精度子森林時利用驗證集計算單棵決策樹的AUC值,將AUC值作為決策樹的分類精度。然后找到比原始森林F中的單棵決策樹的分類精度平均值A_Auc更高的子森林SubF,如式(3)所示。
(3)
式(3)中,ti是第i棵決策樹,Auci是其AUC值。該選取方式選擇決策樹的數(shù)目是不固定的,如果子森林SubF中的決策樹數(shù)量超過了原始森林中決策樹數(shù)量B的2/3,那么將SubF作為待聚類子森林,否則就降低選擇標準繼續(xù)選取高精度決策樹。具體的策略是計算所有決策樹AUC值的標準差σ,然后如式(4)所示繼續(xù)選擇決策樹,直到組成待聚類子森林。
SubF={ti:Auci≥A_Auc-σ}
(4)
選取高精度子森林的操作在一定程度上導致了隨機森林整體多樣性下降,在進行分類時可能會出現(xiàn)分類結果集中、相似度高的情況。在這種情況下出現(xiàn)分類錯誤就會導致與之相似度高的其他決策樹也出現(xiàn)分類錯誤。研究采用改進的K-Means++聚類算法對待聚類子森林SubF進行聚類,該算法的運行流程如圖2所示。
圖2 K-Means++聚類算法的流程
如圖2所示,算法首先從SubF對驗證樣本的分類結果數(shù)據(jù)X中選擇M個數(shù)據(jù)作為初始聚類中心。具體步驟是隨機選擇一個樣本作為初始聚類中心,然后遍歷數(shù)據(jù)并將每個數(shù)據(jù)x與聚類中心成對多樣性度量作為兩者的最短距離Dist(x)。Dist(x)越大的點越有可能被選取為聚類中心,其被選取的概率Pc如式(5)所示。
(5)
然后使用輪盤法選擇下一個聚類中心,直到選擇出的M個聚類中心保持不變或得到最大迭代次數(shù)。該算法使用輪廓系數(shù)來衡量聚類效果并確定最佳K值。不同簇的輪廓系數(shù)如式(6)所示進行計算。
(6)
式(6)中,DAa和DAb分別表示樣本點xi到該類簇和最近類簇中所有樣本點的平均距離。整體的輪廓系數(shù)如式(7)所示。
(7)
式(7)中,N為數(shù)據(jù)集中的樣本數(shù)量。通過聚類選擇高精度低相似的決策樹組成隨機森林后,對分類結果進行統(tǒng)計得到最終的預測結果,再使用如式(8)所示的簡單多數(shù)投票決策得到最優(yōu)的分類結果。
(8)
式(8)中,T(α)為測試樣本α的組合分類模型;A為測試樣本集中樣本的數(shù)量。Y為輸出變量;I(·)為指示性函數(shù)。
稅收風險廣義上是指相關企業(yè)在進行納稅申報、申請退稅、代扣代繳、開具發(fā)票等一系列涉稅活動時,由于主觀故意或者客觀過失而發(fā)生的,在一定程度上違反了稅務機關某些規(guī)定的,會影響行為人利益帶來的不確定性。[10-11]房地產行業(yè)由于兼具實體與金融行業(yè),其財務處理具有一定的復雜性。而房地產行業(yè)稅收風險識別需要兼顧及時性和有效性。這是因為房地產行業(yè)的財務資料在較長的開發(fā)周期中如果出現(xiàn)保管不當、財務人員工作更替或業(yè)務水平不足的情況,就很容易造成財務數(shù)據(jù)的不真實性,進而影響相關稅務機關的檢查工作。為滿足稅收風險識別的任務要求,首先需要對相關企業(yè)的數(shù)據(jù)進行抽樣、清洗和轉換等預處理操作。稅務核心征收數(shù)據(jù)為通過相關的查詢途徑,根據(jù)時間維度獲取到的2020年某市房地產行業(yè)數(shù)據(jù),來源于企業(yè)的納稅申報和稅務登記。出于數(shù)據(jù)安全的考慮,相關數(shù)據(jù)已進行了相應的加密處理,如企業(yè)名稱采用數(shù)字編號代替。數(shù)據(jù)清洗又稱數(shù)據(jù)過濾,是通過剔除樣本數(shù)據(jù)中不符合判定規(guī)則的數(shù)據(jù)來提高分析結果的準確率,具體包括了數(shù)據(jù)初始化、注銷和非正常企業(yè)的去除和殘缺或明顯有誤數(shù)據(jù)的刪除等操作。然后研究以稅務核心征收數(shù)據(jù)為風險指標建立的支撐,以企業(yè)依法納稅產生的申報數(shù)據(jù)為風險指標的選擇依據(jù),從資產、成本、費用和收入等角度建立了稅收風險指標。企業(yè)所得稅稅收風險指標如表1所示。
表1 企業(yè)所得稅稅收風險指標體系
不同風險指標對于風險識別的影響程度是不相同的,因此在確定模型使用的風險指標體系后,還需要根據(jù)隨機森林的重要性度量確定對識別結果影響最大的指標。對隨機森林中的任一棵決策樹,首先使用OOB數(shù)據(jù)計算其數(shù)據(jù)誤差erOOB1(xi),再對OOB數(shù)據(jù)中所有樣本的特征xi加入噪聲干擾并重新計算誤差erOOB2(xi)。對N棵決策樹進行重復操作,如式(9)所示計算特征xi的重要性。
(9)
式(9)中,IM(xi)代表了變量的重要性,其數(shù)值大小與特征的重要性成正比。IM(xi)<0說明該變量有明顯噪聲,會對模型產生負面影響。研究選擇正確率、精確率、召回率和F1分數(shù)四個指標來評估基于隨機森林算法的風險識別模型的分類性能。F-Measure是精確率和召回率加權調和平均,如式(10)所示。
(10)
式(10)中,β∈[0,∞),其取值代表了對精確率和召回率的不同側重,β=1時的結果,即為F1分數(shù)。
成功構建基于隨機森林的企業(yè)所得稅稅收風險識別模型后,研究進行了模型參數(shù)選擇與模型性能檢驗實驗和企業(yè)稅收風險識別實驗。實驗使用的稅務核心征收數(shù)據(jù)為通過相關的查詢途徑,根據(jù)時間維度獲取到的2020年某市房地產行業(yè)數(shù)據(jù),數(shù)據(jù)來源為企業(yè)的納稅申報和稅務登記。實驗數(shù)據(jù)集中包含了該市2035戶行業(yè)門類為房地產業(yè)的企業(yè),通過數(shù)據(jù)清洗剔除667戶企業(yè)數(shù)據(jù)后得到的最終實驗樣本為1368戶。隨機森林算法中有兩個參數(shù)對算法的運行效率和分類結果有重要影響:決策樹個數(shù)和每次隨機屬性的個數(shù),兩者與OOB誤差率的關系如圖3所示。
圖3 隨機森林相關參數(shù)的選擇
從圖3(a)中可以看出,隨機森林中的決策樹為300時,誤差率有劇烈波動,此后個數(shù)一直增加到400,中間仍有小幅度波動。當決策樹個數(shù)等于400時誤差線趨于平穩(wěn),因此模型中設置決策樹為400棵。觀察圖3(b)可以發(fā)現(xiàn)誤差率最低點對應的屬性個數(shù)為6,因此隨機森林算法中參數(shù)mtry設置為6。隨機森林算法的評估分析實驗結果如圖4所示。
圖4 不同算法的ROC曲線圖
圖4所示的ROC曲線可以反映分類識別模型的敏感度和模型自身的特異性連續(xù)變量的客觀評價依據(jù)。但當分類模型準確率相差不大時無法憑借肉眼判斷優(yōu)劣,這時就需要使用ROC曲線組成的圖像面積數(shù)值來標識分給模型的好壞。這個面積數(shù)值在評價中被稱為AUC,如圖4所示,隨機森林分類識別模型的AUC為0.95,而決策樹的AUC僅為0.87,實驗結果表明,隨機森林算法具有較好的分類性能。企業(yè)所得稅風險識別模型的性能檢驗結果如圖5所示。
圖5 企業(yè)所得稅稅收風險識別模型的性能
如圖5所示,隨機森林算法和改進的隨機森林算法在7種算法中均擁有較高的正確率和F1值。而基于改進隨機森林算法的識別模型的準確率和F1分數(shù)最高,分別為90.20%和88.70%,較次優(yōu)秀的隨機森林算法分別提升了5.13%和4.60%。同時改進隨機森林算法識別模型的運行時間也是7種算法中最低的,較原始的隨機森林算法減少了33.33%,既驗證了改進措施的有效性,又表明識別模型可以有效識別企業(yè)所得稅的稅收風險。某房地產企業(yè)所得稅稅收風險識別結果報告如表2所示。
表2 某房地產企業(yè)所得稅稅收風險識別結果報告
由表2可知,該企業(yè)的申報值與模型判斷值具有較大差異,其中風險點營業(yè)收入和利潤總額的風險概率均在70%以上,證明該房地產企業(yè)明顯有少繳納企業(yè)所得稅的問題,主要問題指向為少計營業(yè)收入和多計銷售費用。在企業(yè)一般收入風險報告中,該企業(yè)的營業(yè)收入風險概率為78.21%,可能存在完工項目未及時結轉收入、銀行按揭?guī)捨醇皶r確認收入、拆遷安置房收入未入賬、租賃收入未申報等問題。一般企業(yè)成本支出顯示營業(yè)外支出的風險概率為70.20%,存在較大差異,表明該企業(yè)可能存在的問題有:捐贈是否按稅法政策合理扣除、是否存在自然災害造成的非正常損失、資產盤點是否真實有效、是否按流程處置固定資產和無形資產等。具體的風險點需要通過核查企業(yè)賬目信息才能確定。
企業(yè)所得稅是我國稅務部門目前征收的18個稅種中稅源覆蓋范圍最廣的,占稅收收入總額的比重也在逐年上升。企業(yè)所得稅對會計核算的要求很高,稅收流失的風險也遠高于其他稅種。因此研究考慮到隨機森林算法優(yōu)秀的泛化性能和分類精度,通過約簡決策樹進一步提高RF算法的分類性能,在建立企業(yè)所得稅稅收風險指標體系的基礎上構建了稅收風險識別模型。在模型算法的性能評估實驗中,RF算法獲得了最高0.95的AUC,驗證了隨機森林算法用于風險識別模型的可行性。對不同算法構建的識別模型進行識別檢測實驗后發(fā)現(xiàn),基于改進隨機森林算法的識別模型準確率、F1分數(shù)和運行速度較原始的隨機森林算法模型分別提升了5.13%、4.60%和33.33%,可以運用到企業(yè)所得稅稅收風險識別中。