国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林的偷漏稅行為自動識別

2018-10-29 11:09吳超羅璟
軟件導(dǎo)刊 2018年8期
關(guān)鍵詞:自動識別決策樹納稅人

吳超 羅璟

摘要:企業(yè)偷漏稅手段呈多樣化、專業(yè)化、普遍化、隱蔽化趨勢。為更好地識別企業(yè)是否存在偷漏稅行為,基于Python語言,在Anaconda集成開發(fā)環(huán)境下通過機器學(xué)習(xí)的Scikit-Learn包構(gòu)建隨機森林模型,通過交叉驗證算法選擇最優(yōu)模型。對汽車銷售行業(yè)納稅人是否存在偷漏稅行為進行自動識別。結(jié)果表明,基于隨機森林模型的偷漏稅行為自動識別相對于其它常見的分類模型(k-近鄰算法、邏輯回歸模型、決策樹模型和Adaboost算法),具有較高的準(zhǔn)確率,分類性能更好,可以滿足偷漏稅行為的自動識別需求。

關(guān)鍵詞:

隨機森林;機器學(xué)習(xí);偷漏稅行為;分類算法

DOIDOI:10.11907/rjdk.181865

中圖分類號:TP312

文獻標(biāo)識碼:A 文章編號文章編號:1672-7800(2018)008-0013-04

英文摘要Abstract:In recent years, tax evasion has become a diversification, specialization, universalization and concealment. Therefore, in order to better identify whether the company has tax evasion behavior, it builds a random forest model based on Python language in the Anaconda integrated development environment through the Scikit-Learn package of Machine learning, selects the optimal model through cross validation algorithm, and then sells the automobile. Whether the industry taxpayer has tax evasion and conduct automatic identification. The results show that the automatic identification of tax evasion behavior based on random forest model has better accuracy than other common classification models (k-nearest neighbor algorithm, logistic regression model, decision tree model and Adaboost algorithm) and has more Good classification performance can satisfy the automatic identification of tax evasion behavior. Based on this, it will automatically identify 15 taxpayers in the automobile sales industry for tax evasion.

In view of the diversified, specialized, universal, and concealed development trend of corporate tax evasion in recent years, in order to better identify whether the company has tax evasion, A random forest model is constructed by the Scikit-Learn package through machine learning in the Anaconda integrated development environment and the optimal model is selected by a cross-validation algorithm. Whether the taxpayers in the automobile sales industry are automatically identified for tax evasion. The results show that the automatic identification of tax evasion behavior based on random forest model has higher accuracy than other common classification models (k-nearest neighbor, logistic regression model, decision tree model and Adaboost algorithm), and the classification performance is better so that the automatic identification of tax evasion is successfully conducted.

英文關(guān)鍵詞Key Words:random forest;machine learning;tax evasion behavior;classification algorithm

0 引言

稅收是國家賴以生存的物質(zhì)基礎(chǔ),與國家興衰息息相關(guān),然而稅收涉及的兩個主體:征稅人和納稅人之間永遠(yuǎn)存在“博弈”關(guān)系[1]。近年來,企業(yè)偷漏稅現(xiàn)象屢見不鮮,給國家造成了很大的經(jīng)濟損失和不良的社會影響[2]。稅務(wù)稽查對打擊偷逃騙稅等違法活動,增強納稅人守法意識發(fā)揮著重要作用。傳統(tǒng)的稽查選案以舉報信息為依據(jù),主要依靠專業(yè)稽查人員的經(jīng)驗和直覺識別偷漏稅行為[3]。但企業(yè)偷漏稅手段已呈多樣化、專業(yè)化、普遍化、隱蔽化的趨勢[4]。機器學(xué)習(xí)模型和算法應(yīng)用于稅務(wù)稽查效果明顯。相關(guān)研究有:李亙[5]利用決策樹模型和SLIQ算法進行簡單分類,然后對稅務(wù)稽查進行計算機選案。劉鵬[6]在決策樹模型分類的基礎(chǔ)上進行聚類分析,驗證了基于劃分的分析方法在實際稅務(wù)稽查工作中存在一定的問題。所以,決策樹模型對于偷漏稅行為的識別并非最佳。

隨機森林是基于Bagging實現(xiàn)的一種機器學(xué)習(xí)模型,是以決策樹算法為機器學(xué)習(xí)的集成學(xué)習(xí)模型。隨機森林模型在醫(yī)學(xué)、水利工程、電力工程、企業(yè)決策等不同領(lǐng)域有很好的應(yīng)用,能取得很高的預(yù)測準(zhǔn)確率[7-13]。汽車產(chǎn)業(yè)存在偷漏稅現(xiàn)象[14-15],汽車銷售行業(yè)在稅收上存在少開發(fā)票金額、少計收入,上牌、按揭、保險等一條龍服務(wù)不入賬,不及時確認(rèn)保修索賠等情況,造成大量稅收流失[16-17]。本文將隨機森林模型應(yīng)用于稅務(wù)稽查的計算機選案,針對汽車銷售行業(yè)進行偷漏稅行為自動識別。通過收集汽車銷售行業(yè)的部分經(jīng)營數(shù)據(jù),基于機器學(xué)習(xí)方法,結(jié)合汽車銷售行業(yè)納稅人屬性,衡量納稅人經(jīng)營特征,利用隨機森林算法建立偷漏稅行為識別模型,對納稅人進行識別。

1 CART決策樹與隨機森林算法

1.1 CART決策樹

決策樹(Decision Tree, DT)是一種集成學(xué)習(xí)算法,屬于一種描述分類的樹形結(jié)構(gòu),由節(jié)點和向邊組成,根據(jù)遞歸特征對數(shù)據(jù)集進行分割,使子數(shù)據(jù)集有一個最好的分類過程。這個過程是對特征空間的劃分,也是對決策樹的構(gòu)建。

分類與回歸(classification and regression tree,CART)算法由Breiman等在1984年提出,是一種決策樹學(xué)習(xí)方法。CART決策樹的生成是遞歸構(gòu)建二叉決策樹過程,分類樹用基尼指數(shù)(Gini index)最小化準(zhǔn)則選擇最優(yōu)特征,同時決定該特征的最優(yōu)二值切分點。

CART決策樹的生成通過計算基尼指數(shù),使基尼指數(shù)最小作為特征選擇的準(zhǔn)則。從根節(jié)點開始,遞歸產(chǎn)生決策樹,將訓(xùn)練集分割為基本正確分類的子集。

1.2 隨機森林算法

Bagging是一種并行式集成學(xué)習(xí)框架,基于自助采樣法(bootstrap sampling)。給定包含m個樣本的數(shù)據(jù)集,先隨機取出一個樣本放入采樣集,再把該樣本放回到初始數(shù)據(jù)集,保證下次該樣本仍有可能被選中,這樣m次隨機采樣得到包含m個樣本的采樣集。然后采樣出T個含m個訓(xùn)練樣本的采樣集,基于每個采樣集訓(xùn)練出一個基學(xué)習(xí)器,再將這些基學(xué)習(xí)器結(jié)合。在對預(yù)測輸出進行結(jié)合時,Bagging通常采用簡單投票法。

隨機森林(Random Forest,RF)是基于Bagging 實現(xiàn)的,以決策樹算法為基學(xué)習(xí)器,在構(gòu)建Bagging采樣基礎(chǔ)上,進一步在決策樹訓(xùn)練中引入隨機屬性。

隨機森林算法實現(xiàn)步驟:①采用自助采樣法(bootstrap sampling)從樣本集中選取n個樣本作為一個訓(xùn)練集;②用抽樣得到的樣本集生成一棵決策樹。在生成的每一個節(jié)點隨機不重復(fù)地選擇d個特征,然后利用這d個特征分別對樣本集進行劃分,找到最佳的劃分特征(使用基尼指數(shù)最小作為特征選擇的準(zhǔn)則);③重復(fù)步驟①、步驟②共k次,k為隨機森林中決策樹的個數(shù);④用訓(xùn)練得到的隨機森林對測試樣本進行預(yù)測,并用票選法決定預(yù)測結(jié)果。

2 自動識別模型建立與評價

2.1 樣本和指標(biāo)選取

偷漏稅指納稅人以不繳或少繳稅款為目的,采取各種不公開手段,隱瞞真實情況,欺騙稅務(wù)機關(guān)的行為。本文參照稅務(wù)稽查指標(biāo),針對汽車銷售行業(yè)選擇12個指標(biāo)作為偷漏稅行為自動識別模型的預(yù)測指標(biāo),包括汽車銷售平均毛利(x1)、維修毛利(x2)、企業(yè)維修收入占銷售收入比重(x3)、增值稅稅負(fù)(x4)、存貨周轉(zhuǎn)率(x5)、成本費用利潤率(x6)、整體理論稅負(fù)(x7)、整體稅負(fù)控制數(shù)(x8)、辦牌率(x9)、單臺辦牌手續(xù)費收入(x10)、代辦保險率(x11)和保費返還率(x12)。

根據(jù)這12個指標(biāo),選擇汽車銷售行業(yè)124個納稅人的124組數(shù)據(jù)作為樣本,各企業(yè)銷售模式包括4S店、多品牌經(jīng)營店、一級代理商、二級及二級以下代理商和其它類型。其中124個納稅人中有55個存在偷漏稅行為,69個不存在偷漏稅行為。樣本數(shù)據(jù)中,輸出為“正?!焙汀爱惓!保謩e用“1”代表“正?!?,表示不存在偷漏稅行為,“0”代表“異?!保硎敬嬖谕德┒愋袨?。

基于上述12個指標(biāo),本文采用Python的集成開發(fā)環(huán)境Anaconda,借助機器學(xué)習(xí)的Scikit-Learn包構(gòu)建基于隨機森林的偷漏稅行為自動識別模型。

2.2 數(shù)據(jù)預(yù)處理

2.2.1 缺失值處理

在原始數(shù)據(jù)中發(fā)現(xiàn)存在數(shù)據(jù)缺失現(xiàn)象,如果刪除這組數(shù)據(jù)將會影響最終的計算結(jié)果。因此,為了達(dá)到較好的建模效果,需要對缺失值進行處理,本文采用拉格朗日插值法對缺失值進行插補。

其中,x為缺失值對應(yīng)的下標(biāo)序號,Ln(x)為插值結(jié)果,xi為非缺失值yi的下標(biāo)序號。

2.2.2 規(guī)范化

2.3 模型構(gòu)建

2.3.1 數(shù)據(jù)劃分

對樣本數(shù)據(jù)隨機選取20%作為測試樣本,剩下的80%作為訓(xùn)練數(shù)據(jù),用訓(xùn)練集樣本在各種條件下(不同的參數(shù))訓(xùn)練模型,從而得到不同的模型。在測試集上評價各個模型,然后選出最優(yōu)模型。

2.3.2 交叉驗證

“k折交叉驗證”是將數(shù)據(jù)D劃分為k個大小相似的子集,且D=D1∪D1∪…∪Dk,Di∩Dj=φ(i≠j),子集Di保持?jǐn)?shù)據(jù)分布的一致性。選擇k-1個子集的并集作為訓(xùn)練集,剩下的那個子集作為測試集進行k次訓(xùn)練和測試,最終選擇最優(yōu)的模型和參數(shù)。

預(yù)測結(jié)果如圖1所示,其中Training score表示驗證集上的準(zhǔn)確率,n_estimators表示決策樹的數(shù)量。從圖中可以看出,當(dāng)決策樹數(shù)量(n_estimators)比較小時(小于150),隨著決策樹數(shù)目的增加,模型預(yù)測精度會有一定提升;當(dāng)決策樹數(shù)量達(dá)到一定數(shù)目時(大于150),隨機森林模型的預(yù)測精度基本保持不變,穩(wěn)定在88.90%,這說明RF模型具有良好的不易過擬合性質(zhì)。因此,隨機森林預(yù)測中n_estimators屬性值選擇150。

另外,針對同樣的訓(xùn)練集和測試集樣本,利用k-近鄰算法(KNN)、邏輯回歸模型(LR)、決策樹模型(DT)和Adaboost算法進行預(yù)測,與隨機森林算法預(yù)測結(jié)果進行比較,預(yù)測結(jié)果見表1。從表中可以看出,KNN模型和RF模型的預(yù)測準(zhǔn)確率都達(dá)到了80%以上,具有較好的分類效果。但相比KNN、LR和DT這樣的單一機器學(xué)習(xí)模型,集成學(xué)習(xí)模型(AdaBoost和RF)訓(xùn)練耗時較大。另外,DT模型在驗證集有較好的訓(xùn)練得分,但在測試集上訓(xùn)練準(zhǔn)確率相對較低,模型可能存在過擬合現(xiàn)象,不適合作為本文的分類器。

2.3.3 模型評價

5個模型分類準(zhǔn)確率相差不大,特別是KNN模型和RF模型。為了進一步評估模型性能,采用其它評價指標(biāo)進行評價。

對于二分類問題,可將數(shù)據(jù)集按真實類別和分類器預(yù)測類別組合劃分為真正例(TP)、假正例(FP)、真反例(TN)和假反例(FN)4種情況,其中,TP表示將正類預(yù)測為正類數(shù), FN表示將正類預(yù)測為負(fù)類數(shù),F(xiàn)P表示將負(fù)類預(yù)測為正類數(shù),TN表示將負(fù)類預(yù)測為負(fù)類數(shù)。評價二分類問題性能的指標(biāo)包括精確率(P)和召回率(R),單獨使用這兩個指標(biāo)進行評價是不全面的。實際上,F(xiàn)1值可以反映精確率和召回率的整體性能,F(xiàn)1定義為精確率和召回率的調(diào)和平均,即:

為了更好地比較不同模型的預(yù)測性能,采用ROC曲線進行評價,通過比較ROC曲線下的面積(AUC值)大小,分別計算出不同模型對應(yīng)的精確率、召回率、F1值和AUC值,詳細(xì)結(jié)果如表2所示。

從表2可以看出,不同模型的F1值相差不大,不能很好地說明RF模型具有顯著的分類性能。但是,比較5種模型的AUC值,RF模型的AUC值達(dá)到了0.831,相比其它模型更加顯著,因此RF模型分類性能較好,可以應(yīng)用于汽車銷售行業(yè)的偷漏稅自動識別。

2.3.4 自動識別結(jié)果

選擇15個汽車銷售行業(yè)納稅人的12個指標(biāo)數(shù)據(jù),經(jīng)過數(shù)據(jù)處理得到模型輸入數(shù)據(jù),利用構(gòu)建的偷漏稅行為自動識別模型計算偷漏稅行為識別結(jié)果,并與實際結(jié)果對比,如表3所示。其中,x1-x12是12個特征指標(biāo),y是實際輸出值,y_pred是預(yù)測輸出值,“*”表示預(yù)測結(jié)果錯誤的納稅人。從表中可以看出,總的汽車銷售行業(yè)納稅人有15個,正確識別出偷漏稅行為的納稅人有13個,偷漏稅行為識別錯誤的納稅人有2個,預(yù)測準(zhǔn)確率達(dá)到86.67%,整體上顯示自動識別偷漏稅行為準(zhǔn)確率較高。

3 結(jié)語

本文基于Python語言,在Anaconda集成開發(fā)環(huán)境下,通過機器學(xué)習(xí)的Scikit-Learn包構(gòu)建隨機森林模型,通過交叉驗證算法選擇最優(yōu)模型,對汽車銷售行業(yè)納稅人是否存在偷漏稅行為進行自動識別。結(jié)果表明,基于隨機森林模型的偷漏稅行為自動識別相對于其它模型(k-近鄰算法、邏輯回歸模型、決策樹模型和Adaboost算法)具有較高的準(zhǔn)確率。為了進一步評價模型的分類性能,計算出隨機森林模型的AUC值為0.831,高于其它常見的分類模型,表示隨機森林模型對于偷漏稅行為的識別具有較高的準(zhǔn)確率,而且具有更好的分類性能,可以滿足偷漏稅行為自動識別需求。

參考文獻:

[1] 齊鑫鑫.識別偷稅的稅務(wù)稽查方法研究[D].長春:吉林大學(xué),2010.

[2] 魯華軍.企業(yè)偷漏稅的識別[J].湖北財稅:理論版,2000(10):35-36.

[3] 陳仕鴻,張英明.二分類Logistic回歸分析在稅務(wù)稽查中的應(yīng)用[J].華南金融電腦,2009(6):48-49.

[4] 王真華.淺析企業(yè)偷漏稅原因及防范措施[J].時代經(jīng)貿(mào),2010(23):78-79.

[5] 李亙.數(shù)據(jù)挖掘技術(shù)在稅務(wù)稽查選案中的應(yīng)用[J].電腦知識與技術(shù):學(xué)術(shù)交流,2007(23):1224-1225,1377.

[6] 劉鵬.數(shù)據(jù)挖掘技術(shù)在稅務(wù)稽查中的研究與實現(xiàn)[D].西安:西安電子科技大學(xué),2011.

[7] 王宇燕,王杜娟,王延章,等.改進隨機森林的集成分類方法預(yù)測結(jié)直腸癌存活性[J].管理科學(xué),2017(1):95-106.

[8] 胡添翼,戴波,何啟,等.基于隨機森林分類算法的邊坡穩(wěn)定預(yù)測模型[J].人民黃河,2017(5):115-118.

[9] 盛夏,李斌,張迪.基于數(shù)據(jù)挖掘的上市公司信用評級變動預(yù)測[J].統(tǒng)計與決策,2016(15):159-162.

[10] 孫菲菲,曹卓,肖曉雷.基于隨機森林的分類器在犯罪預(yù)測中的應(yīng)用研究[J].情報雜志,2014,33(10):148-152.

[11] 賀建章,王海波,季知祥,等.基于隨機森林理論的配電變壓器重過載預(yù)測[J].電網(wǎng)技術(shù),2017,41(8):593-597.

[12] 李偉,陳海波.急傾斜煤層頂煤可放性隨機森林模型分類預(yù)測及應(yīng)用[J].黑龍江科技大學(xué)報,2016,26(4):373-377.

[13] 沈晶磊,虞慧群,范貴生,等.基于隨機森林算法的推薦系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機學(xué)報,2017,44(11):164-167,186.

[14] 劉宗巍,王悅,郝瀚,等.中國汽車產(chǎn)業(yè)稅收分配機制及改革策略[J].稅務(wù)與經(jīng)濟,2016(2):1-9.

[15] 劉錦君.JL汽車公司核心稅種的稅務(wù)籌劃研究[D].沈陽:遼寧大學(xué),2016.

[16] 張霏佳,陸偉強.完善汽車銷售行業(yè)稅收征管[J].浙江經(jīng)濟,2011(18):44-45.

[17] 饒瑤瑤.關(guān)于汽車4S店稅務(wù)風(fēng)險管理的調(diào)研報告[D].杭州:浙江財經(jīng)大學(xué),2016.

[18] 周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:173-178.

[19] 李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:58-72.

[20] 張良均.Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機械工業(yè)出版社,2015:33-37.

(責(zé)任編輯:杜能鋼)

猜你喜歡
自動識別決策樹納稅人
涉稅刑事訴訟中的舉證責(zé)任——以納稅人舉證責(zé)任為考察對象
納稅人隱私權(quán)的確立、限制與保護
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應(yīng)用
自動識別系統(tǒng)
國地稅聯(lián)合開辦2017年第一季度納稅人學(xué)堂
服務(wù)于納稅人 讓納稅人滿意
金屬垃圾自動識別回收箱
基于決策樹的出租車乘客出行目的識別
基于IEC61850的配網(wǎng)終端自動識別技術(shù)