国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

集成學(xué)習(xí)在消費(fèi)金融審計(jì)中的應(yīng)用
——以隨機(jī)森林檢測(cè)信用卡欺詐為例

2022-08-25 02:55:10石向榮教授郭鵬賽鄭祺葉一飛
商業(yè)會(huì)計(jì) 2022年15期
關(guān)鍵詞:欺詐信用卡分類器

石向榮(教授) 郭鵬賽 鄭祺 葉一飛

(1浙江財(cái)經(jīng)大學(xué)信息管理與人工智能學(xué)院 2浙江財(cái)經(jīng)大學(xué)會(huì)計(jì)學(xué)院 浙江杭州 310018)

一、引言

近年來,隨著居民個(gè)人收入水平的提升、家庭財(cái)富的不斷積累,我國經(jīng)濟(jì)向消費(fèi)主導(dǎo)型轉(zhuǎn)變。根據(jù)中投產(chǎn)業(yè)研究院發(fā)布的《2020—2024年中國消費(fèi)金融行業(yè)深度調(diào)研及投資前景預(yù)測(cè)報(bào)告》,2015到2020年,我國消費(fèi)金融市場(chǎng)規(guī)模從19萬億元增長(zhǎng)到45萬億元,消費(fèi)金融業(yè)務(wù)量增速較快。截至2020年,銀保監(jiān)會(huì)公布的全國持有消費(fèi)金融牌照的公司達(dá)30家,消費(fèi)金融的廣闊前景使這一市場(chǎng)成為資本的熱門賽道。但是高速發(fā)展的消費(fèi)金融也引發(fā)了一些問題,如現(xiàn)金貸的授信過度、交易平臺(tái)的欺詐行為等,本文關(guān)注的信用卡欺詐也是情形之一。

2016—2020年,我國信用卡及借貸合一卡人均持卡量呈現(xiàn)持續(xù)增長(zhǎng)趨勢(shì),五年間從人均0.39張?jiān)鲋?.57張;信用卡逾期半年未償總額增長(zhǎng)幅度在6.4%—18.9%之間(見表1),這也和我國過去五年消費(fèi)金融市場(chǎng)的增長(zhǎng)情況相一致。

表1 2016—2020年人均持卡量、逾期半年未償總額

2020年12月,銀保監(jiān)會(huì)發(fā)布《消費(fèi)金融公司監(jiān)管評(píng)級(jí)管理辦法(試行)的通知》,這一管理辦法的施行體現(xiàn)出監(jiān)管部門對(duì)促進(jìn)消費(fèi)金融行業(yè)合法合規(guī)經(jīng)營(yíng)的決心。2021年9月,中國銀行業(yè)協(xié)會(huì)發(fā)布《中國銀行卡產(chǎn)業(yè)發(fā)展藍(lán)皮書(2021)》,提出要繼續(xù)全面提升風(fēng)險(xiǎn)防控能力,加強(qiáng)金融科技與銀行風(fēng)控的結(jié)合,優(yōu)化行業(yè)自律機(jī)制,有效防范和打擊銀行卡欺詐、反催收聯(lián)盟等,完善風(fēng)險(xiǎn)管理體系。由于監(jiān)管部門及社會(huì)公眾和消費(fèi)金融機(jī)構(gòu)之間存在信息不對(duì)稱,需要審計(jì)等社會(huì)力量作為中介,打破信息壁壘,通過技術(shù)手段及早介入并揭示問題,防范風(fēng)險(xiǎn)進(jìn)一步放大。為此,本文提出基于集成學(xué)習(xí)算法的審計(jì)思路,也是對(duì)科技強(qiáng)審工作要求的具體實(shí)踐。

二、文獻(xiàn)綜述

尹振濤、程雪軍(2019)針對(duì)我國場(chǎng)景消費(fèi)金融快速發(fā)展的背景,對(duì)我國場(chǎng)景消費(fèi)金融的風(fēng)險(xiǎn)防控相關(guān)問題進(jìn)行了研究,認(rèn)為當(dāng)前我國場(chǎng)景消費(fèi)金融市場(chǎng)的主要風(fēng)險(xiǎn)為用戶信用風(fēng)險(xiǎn)、欺詐與套現(xiàn)風(fēng)險(xiǎn)、法律滯后糾紛頻發(fā)風(fēng)險(xiǎn)、資金流動(dòng)性風(fēng)險(xiǎn)、金融科技風(fēng)險(xiǎn)和內(nèi)部管理風(fēng)險(xiǎn)等。劉艷暢(2019)認(rèn)為,一些借款人惡意逃避債務(wù)形成的重大錯(cuò)報(bào)風(fēng)險(xiǎn),是網(wǎng)貸平臺(tái)審計(jì)風(fēng)險(xiǎn)的重要來源之一,并對(duì)網(wǎng)絡(luò)信貸平臺(tái)審計(jì)提出了新的方法和思路,以降低審計(jì)風(fēng)險(xiǎn)。

對(duì)于信用卡欺詐檢測(cè)模型的研究,國內(nèi)外學(xué)者主要集中在機(jī)器學(xué)習(xí)的模型訓(xùn)練。國內(nèi)學(xué)者徐永華(2011)研究發(fā)現(xiàn),采用支持向量機(jī)的信用卡欺詐檢測(cè)精度達(dá)到95%以上;陳啟偉、王偉等(2018)基于Ext-GBDT集成的類別不平衡信用評(píng)分模型,使用欠采樣的方法對(duì)數(shù)據(jù)集進(jìn)行切割,結(jié)果表明該模型的性能較好;王紅雨(2019)研究了基于機(jī)器學(xué)習(xí)的信用卡欺詐檢測(cè)方案,對(duì)比了不同學(xué)習(xí)模型的檢測(cè)效果,提出了基于訓(xùn)練集劃分和聚類的集成學(xué)習(xí)框架、主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)相結(jié)合的欺詐檢測(cè)方案等;郭建山等(2020)研究了基于隨機(jī)森林(Random Forest,RF)的信用卡違約預(yù)測(cè),提出了SSD算法改進(jìn)的隨機(jī)森林檢測(cè)模型;琚春華等(2021)提出了基于kNN-Smote-LSTM的消費(fèi)金融風(fēng)險(xiǎn)檢測(cè)模型,對(duì)判別分類器、生成器進(jìn)行了融合,認(rèn)為該模型對(duì)于降低噪音、提升分類性能、降低誤分類呈現(xiàn)了更好的性能。

國外學(xué)者也對(duì)信用卡欺詐檢測(cè)展開了研究,Bhatnagar Vishal等(2021)設(shè)計(jì)了一個(gè)深度學(xué)習(xí)欺詐檢測(cè)框架,具體是采用基于神經(jīng)網(wǎng)絡(luò)的序列分類技術(shù),同時(shí)引入閾值以度量交易(與正常交易之間的)偏離,以此對(duì)信用卡交易欺詐進(jìn)行檢測(cè)。Angela Makolo等(2021)提出了一種利用機(jī)器學(xué)習(xí)進(jìn)行金融欺詐檢測(cè)的直觀方案,具體是建立基于遺傳算法和多元正態(tài)分布的異常檢測(cè)模型,識(shí)別信用卡上的欺詐交易。Kalhotra Satish Kumar等(2022)重點(diǎn)研究了C4.5、CART、J48、Na?ve Bayes、EM、Apriori、SVM等多種數(shù)據(jù)挖掘算法,并對(duì)結(jié)果的準(zhǔn)確性和精度進(jìn)行了分析對(duì)比。

從以上文獻(xiàn)可以看出,諸多學(xué)者對(duì)信用卡欺詐檢測(cè)模型進(jìn)行了較為充分的研究,但所完成的工作仍有改進(jìn)提升空間:一是單一分類器存在擬合不足或過度擬合的狀況;二是對(duì)模型評(píng)估指標(biāo)不夠全面,對(duì)模型的準(zhǔn)確率(accuracy,Acc)、召回率(recall)、查準(zhǔn)率(precision)、AUC值、F1值缺少綜合分析。本文的貢獻(xiàn)在于:(1)提出并驗(yàn)證了綜合評(píng)估指標(biāo)下檢測(cè)性能優(yōu)越的分類模型。本文結(jié)合幾種性能較好的基分類器進(jìn)行對(duì)比分析,得出隨機(jī)森林、CatBoost的分類性能較好并且比較穩(wěn)定,在此基礎(chǔ)上采用基于馬氏距離的SMOTE改進(jìn)算法,即過采樣方案以應(yīng)對(duì)信用卡數(shù)據(jù)集兩類樣本的不平衡問題。應(yīng)用多個(gè)指標(biāo)對(duì)所提出的復(fù)合模型進(jìn)行評(píng)估,結(jié)論是Maha-Smote-RF有著最為優(yōu)越的檢測(cè)性能。(2)提出將檢測(cè)模型應(yīng)用于信用卡欺詐審計(jì)的具體思路。本文在驗(yàn)證Maha-Smote-RF模型性能的基礎(chǔ)上,進(jìn)一步提出可行的審計(jì)思路,可幫助審計(jì)師精準(zhǔn)、高效地鎖定欺詐交易行為和交易主體。(3)豐富了消費(fèi)金融行業(yè)的審計(jì)方法。消費(fèi)金融行業(yè)在互聯(lián)網(wǎng)的沖擊下出現(xiàn)新的業(yè)態(tài),傳統(tǒng)的審計(jì)方法面對(duì)“科技+金融”的業(yè)務(wù)模式難以發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的舞弊情形,必須采用機(jī)器學(xué)習(xí)等新工具,才能讓審計(jì)插上信息化的翅膀,本文為基于數(shù)據(jù)的消費(fèi)金融審計(jì)工作提供了有益借鑒。

三、模型原理介紹

(一)隨機(jī)森林模型原理

隨機(jī)森林模型于1995年由貝爾實(shí)驗(yàn)室的Tin Kam Ho提出,它的基本單元是決策樹。由成百上千棵數(shù)構(gòu)成了所謂森林,這種構(gòu)成方式體現(xiàn)了集成學(xué)習(xí)的思想。通過組合多個(gè)弱分類器,并對(duì)弱分類器的結(jié)果投票表決,從而構(gòu)成整體的強(qiáng)分類器。隨機(jī)森林算法的優(yōu)越性能,主要?dú)w功于“隨機(jī)”和“森林”,前者使它具有抗過擬合能力,后者使它更加精準(zhǔn),模型工作原理見圖1。

圖1 隨機(jī)森林工作原理

(二)隨機(jī)森林算法流程

1.構(gòu)造n組隨機(jī)樣本。從原始數(shù)據(jù)中,隨機(jī)抽取n次樣本,為簡(jiǎn)潔起見,每次抽取的樣本數(shù)目均相同,設(shè)為m。

2.對(duì)每組樣本進(jìn)行特征抽樣。假設(shè)每個(gè)樣本數(shù)據(jù)都有K個(gè)特征,從所有特征中隨機(jī)地選取k(k≤K)個(gè),結(jié)合步驟1,形成樣本1、樣本2、…、樣本n,它們的大小均為m×k。

3.選擇最佳分割屬性作為節(jié)點(diǎn)建立n棵CART決策樹,這也是所謂的森林。

4.對(duì)以上n棵決策樹的預(yù)測(cè)結(jié)果進(jìn)行投票,確定樣本的最后預(yù)測(cè)類別。對(duì)于最常見的二類分類問題,須注意設(shè)置n為奇數(shù),以保障最終投票不產(chǎn)生平局。

(三)SMOTE方法

由于在現(xiàn)實(shí)世界中,欺詐行為發(fā)生的概率總是小的,大量的樣本所對(duì)應(yīng)的是正常交易,因此基于真實(shí)數(shù)據(jù)的原始數(shù)據(jù)集中,“正?!焙汀捌墼p”兩類樣本數(shù)目相差懸殊,這就是所謂的樣本不平衡問題。樣本不平衡會(huì)導(dǎo)致模型偏差較大,預(yù)測(cè)精度下降。解決樣本不平衡問題的思路有二:一是對(duì)正常類樣本進(jìn)行下采樣,以縮小兩者差異。但這樣做的缺點(diǎn)明顯,就是丟棄了大量有價(jià)值的正常類樣本數(shù)據(jù)。二是對(duì)欺詐類數(shù)據(jù)進(jìn)行上采樣,即:在現(xiàn)有數(shù)據(jù)點(diǎn)的“周邊”構(gòu)造新的數(shù)據(jù),以使得兩類樣本的數(shù)目相當(dāng)或接近相當(dāng)。這個(gè)思路就是SMOTE(Synthetic Minority Over-Sampling Technique),SMOTE方法解決的是不平衡樣本中的少數(shù)類樣本數(shù)量過少的問題,具體做法是:

找出每個(gè)樣本的k個(gè)鄰居(鄰居通過距離來度量),然后分別在原樣本和個(gè)鄰居之間進(jìn)行隨機(jī)線性插值,這樣保證了所構(gòu)造的新樣本處于原樣本的周邊,具體算法如下:

并且k是一個(gè)可靈活調(diào)節(jié)的參數(shù),一輪操作之后,樣本數(shù)量變?yōu)樵瓟?shù)量的k倍,若不平衡問題依然存在,可繼續(xù)重復(fù)上述過程。可見,隨著不斷重復(fù),新樣本的總數(shù)目將呈幾何式增長(zhǎng)。

(四)結(jié)合馬氏距離的SMOTE方法:Maha-Smote

在上文提及的SMOTE方法中,須對(duì)距離進(jìn)行度量,根據(jù)距離找出k個(gè)鄰居,可見距離的定義是一個(gè)重要問題。在眾多距離的度量方式中,最常見的是歐式距離,但對(duì)本研究所面臨的問題,使用歐式距離并不合適,因?yàn)樗鼰o差別地對(duì)待每一個(gè)特征,而不考慮特征之間量綱的差異性。因此,由歐式距離方案所得的最近鄰點(diǎn),在很大程度上由量綱小而數(shù)值大的特征所決定,這當(dāng)然是一種不合理的、需要解決的問題。為此,本文提出馬氏距離(Mahalanobis Distance)方案。對(duì)數(shù)據(jù)集X中的兩點(diǎn)x、x,馬氏距離定義如下:

式中,∑為X的協(xié)方差矩陣,而Q是∑的特征向量組成的矩陣,以上均可通過主流數(shù)據(jù)分析模塊的線性代數(shù)函數(shù)計(jì)算求得。

綜上,通過馬氏距離方案定義距離,依據(jù)所定義距離實(shí)施SMOTE上采樣,構(gòu)造新的建模數(shù)據(jù),在更均衡的建模數(shù)據(jù)下實(shí)施隨機(jī)森林集成學(xué)習(xí),最終可得到理想的分類模型和預(yù)測(cè)結(jié)果。

四、案例分析

本文對(duì)真實(shí)的信用卡欺詐數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理、模型訓(xùn)練以及實(shí)驗(yàn)分析對(duì)比,采用的數(shù)據(jù)集由比利時(shí)布魯塞爾ULB(Université Libre de Bruxelles)的研究小組Worldline and the Machine Learning Group搜集整理,可從kaggle官網(wǎng)下載。數(shù)據(jù)集包含由歐洲持卡人于2013年9月某兩天使用信用卡交易所產(chǎn)生的記錄,共284 807筆,其中492筆被認(rèn)定為欺詐,欺詐樣本占總交易數(shù)的0.172%??梢?,欺詐樣本占比嚴(yán)重偏少,屬于典型的樣本不均衡情形。該數(shù)據(jù)集共有31列,其中Time(時(shí)間)和Amount(金額)是原始數(shù)據(jù),最后一列為類別標(biāo)簽,其余28列為從大量特征經(jīng)由PCA變換得到的28維新特征,記為V1、V2、…、V28。經(jīng)PCA處理后,既降低了樣本復(fù)雜度,又起到了保密原始數(shù)據(jù)、對(duì)原始數(shù)據(jù)進(jìn)行脫敏的作用。

(一)數(shù)據(jù)預(yù)處理

該數(shù)據(jù)集是經(jīng)過清洗的數(shù)據(jù),已經(jīng)進(jìn)行了降維處理,故而28維特征的準(zhǔn)確含義無法定性描述??纱_定的是28維特征相互正交,特征之間不存在線性相關(guān)。Time列表示每個(gè)事務(wù)與數(shù)據(jù)集中第一個(gè)事務(wù)之間所相差的秒數(shù),在本模型中未使用,故可作剔除處理。

(二)模型訓(xùn)練

我們同時(shí)訓(xùn)練了邏輯回歸(Logistic Regression)、支持向量機(jī)(Supprot Vector Machine,SVM)、CatBoost、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)以及隨機(jī)森林(Random Forest,RF)五個(gè)業(yè)界應(yīng)用廣泛的基分類器。按照主流的模型數(shù)據(jù)相對(duì)多、測(cè)試數(shù)據(jù)相對(duì)少的配置,從284 807條總體中隨機(jī)抽取80%作為建模數(shù)據(jù),用于模型訓(xùn)練,其余20%作為測(cè)試數(shù)據(jù),用于模型評(píng)價(jià)。

對(duì)每組建模數(shù)據(jù)進(jìn)行訓(xùn)練,設(shè)置決策樹數(shù)目n為15,特征數(shù)目k為28,即k=K,將測(cè)試數(shù)據(jù)代入訓(xùn)練模型,得到預(yù)測(cè)值,根據(jù)預(yù)測(cè)值和真實(shí)值的對(duì)比,計(jì)算出多個(gè)評(píng)價(jià)指標(biāo),分別為準(zhǔn)確率、召回率、查準(zhǔn)率、AUC值、F1值。設(shè)真實(shí)值為Y,預(yù)測(cè)值為Y,定義混淆矩陣為:

表2 混淆矩陣表

基于TP、FN、FP、TN,定義4個(gè)評(píng)價(jià)指標(biāo)為:

AUC(Area Under Curve)值被定義為ROC曲線下的面積,ROC曲線全稱為受試者工作特征曲線,它是以真陽性率(敏感性)為縱坐標(biāo)、假陽性率(1-特異性)為橫坐標(biāo)繪制的曲線。根據(jù)以上定義,可編程或調(diào)用主流數(shù)據(jù)分析模塊的函數(shù)求得AUC值,該值介于0、1之間,值越大分類器的性能越好。

重復(fù)以上步驟30次,以得到對(duì)評(píng)價(jià)指標(biāo)更全面和準(zhǔn)確的觀察。

(三)實(shí)驗(yàn)結(jié)果對(duì)比分析

通過循環(huán)實(shí)驗(yàn),發(fā)現(xiàn)所選取模型都有著較高的準(zhǔn)確率,其中四個(gè)超過99.9%,相比而言,RF和CatBoost的準(zhǔn)確率更高,達(dá)99.95%。需要說明的是,準(zhǔn)確率每萬分之一的差距,就代表每一萬筆交易中有一個(gè)欺詐檢測(cè)判斷錯(cuò)誤。根據(jù)中國人民銀行《2021年支付體系運(yùn)行總體情況》的報(bào)告,2021年全國銀行共辦理非現(xiàn)金支付業(yè)務(wù)4 395.06億筆,若每提升萬分之一的準(zhǔn)確率,將至少減少四千萬個(gè)檢測(cè)錯(cuò)誤發(fā)生??梢姕?zhǔn)確率的微小提高,放到全社會(huì)來看,都會(huì)產(chǎn)生較重大的影響。實(shí)驗(yàn)所得具體數(shù)據(jù)見下頁表3。

表3 模型分類預(yù)測(cè)對(duì)比分析

在此基礎(chǔ)上對(duì)比召回率、查準(zhǔn)率、F1值,也都處于較高的水平,但RF和CatBoost模型略有領(lǐng)先,從AUC對(duì)比來看,RF和CatBoost相對(duì)于LR、SVM、GBDT有著明顯的優(yōu)勢(shì)。因此,選擇RF和CatBoost作為基礎(chǔ)分類器進(jìn)行模型提升。

五、模型提升及結(jié)果分析

基于上文基分類器的實(shí)驗(yàn)結(jié)果,將分類效果表現(xiàn)優(yōu)異的CatBoost以及RF作進(jìn)一步提升,引入結(jié)合馬氏距離的SMOTE過采樣方法,設(shè)置近鄰鄰居數(shù)目k為1,增加欺詐數(shù)據(jù)的樣本量至8萬條,增加之后總樣本量為324 298條,此時(shí)欺詐樣本占總樣本的21.96%,樣本均衡性顯著改善。兩個(gè)模型使用相同的方案進(jìn)行提升,并且同樣隨機(jī)抽取80%和20%作為訓(xùn)練數(shù)據(jù)、測(cè)試數(shù)據(jù),進(jìn)行30次的循環(huán)實(shí)驗(yàn),并求取平均值,使所得實(shí)驗(yàn)結(jié)果具有充分的可比性。兩個(gè)提升后的模型同原模型各項(xiàng)指標(biāo)的對(duì)比見表4。

表4 提升模型、基分類器分類效果比較

可見,模型提升后,Maha-Smote-RF相較于基分類器在準(zhǔn)確率方面提升了萬分之三,召回率相應(yīng)下降,但從重要性的角度來說,準(zhǔn)確率的提升更為重要。此外,AUC值提升了0.1108,其他方面也有小幅提升,有著較為理想的綜合改進(jìn)效果。Maha-Smote-CatBoost在AUC值上有提升,但其他方面尤其是準(zhǔn)確率上并沒有表現(xiàn)得更好。四個(gè)模型的單個(gè)指標(biāo)30次循環(huán)變化情況見圖2—圖6。

圖2 準(zhǔn)確率循環(huán)變化圖

圖3 召回率循環(huán)變化圖

圖4 查準(zhǔn)率循環(huán)變化圖

圖5 AUC值循環(huán)變化圖

圖6 F1值循環(huán)變化圖

實(shí)驗(yàn)表明,Maha-Smote-RF模型在信用卡欺詐檢測(cè)問題上,預(yù)測(cè)準(zhǔn)確率達(dá)99.8%,在所有模型中最高,F(xiàn)1值高于其他模型,AUC值一直接近于1,表明分類效果高度穩(wěn)定,查準(zhǔn)率和召回率兩個(gè)指標(biāo)也都處于模型中的前兩位,綜合誤分類水平最低。綜上,Maha-Smote-RF模型在五個(gè)指標(biāo)上綜合表現(xiàn)優(yōu)于Maha-Smote-CatBoost、RF、CatBoost三個(gè)模型,欺詐檢測(cè)性能最為優(yōu)越。

六、Maha-Smote-RF模型應(yīng)用于審計(jì)實(shí)務(wù)

(一)新形勢(shì)下傳統(tǒng)審計(jì)工作面臨的困境

我國信用卡業(yè)務(wù)規(guī)模激增,用卡環(huán)境日趨復(fù)雜。在卡片申請(qǐng)階段,銀行和客戶之間信息不對(duì)稱,加之部分銀行為了搶占市場(chǎng),增加發(fā)卡量,疏忽了對(duì)風(fēng)險(xiǎn)的管理和控制;在用卡階段,移動(dòng)支付的普及應(yīng)用造成支付環(huán)節(jié)的安全性下降,信用卡欺詐手段日益復(fù)雜多樣?,F(xiàn)階段我國商業(yè)銀行信用卡審計(jì)工作方法主要是書面資料審閱、客觀實(shí)物證實(shí)以及溝通分析調(diào)查方法等。新的經(jīng)濟(jì)形勢(shì)下,傳統(tǒng)的審計(jì)工作面臨著以下三方面的困境。

1.審計(jì)抽樣方法效度低。商業(yè)銀行有大量的信用卡用戶以及相應(yīng)的交易記錄,依靠現(xiàn)有的審計(jì)方法,加之人力資源和時(shí)間資源的限制,只能進(jìn)行統(tǒng)計(jì)抽樣和經(jīng)驗(yàn)抽樣審計(jì),即使是各個(gè)部門相互配合,也難以做到對(duì)信用卡客戶以及交易的全面精準(zhǔn)把握,容易遺漏欺詐風(fēng)險(xiǎn)點(diǎn)。

2.審計(jì)分析方法滯后。商業(yè)銀行現(xiàn)有的信用卡審計(jì)分析系統(tǒng)主要是建立在信貸審計(jì)需求之上,然而信用卡業(yè)務(wù)和信貸業(yè)務(wù)在交易筆數(shù)、交易方式、審核授信以及業(yè)務(wù)總量等主要風(fēng)險(xiǎn)點(diǎn)有較大差距,再加上信用卡營(yíng)銷和發(fā)卡環(huán)節(jié)中便攜式發(fā)卡機(jī)、網(wǎng)絡(luò)虛擬卡、營(yíng)銷APP等新技術(shù)層出不窮,信用卡審計(jì)分析系統(tǒng)滯后于業(yè)務(wù)發(fā)展。因此,現(xiàn)有的信用卡審計(jì)分析系統(tǒng)無法滿足信用卡業(yè)務(wù)日益復(fù)雜的審計(jì)要求。

3.信息科技審計(jì)人才短缺。信息科技審計(jì)要求相關(guān)的專業(yè)人員了解掌握兩種語言,一種是信息語言,一種是審計(jì)語言,將審計(jì)需求轉(zhuǎn)化成可以實(shí)現(xiàn)的技術(shù)手段,通過模型工具獲取審計(jì)所需要的相關(guān)數(shù)據(jù),甚至利用技術(shù)打破原有的審計(jì)思維模式,提供更加有效的審計(jì)證據(jù)。然而目前,無論是內(nèi)部審計(jì)部門還是會(huì)計(jì)師事務(wù)所,這樣的復(fù)合型人才都十分稀缺,并且短期內(nèi)難以培養(yǎng)成熟的專業(yè)人員。

綜上,當(dāng)前我國信用卡業(yè)務(wù)審計(jì)方法不夠有效,風(fēng)險(xiǎn)管控機(jī)制不夠成熟,審計(jì)效果不夠理想。在大數(shù)據(jù)背景下,審計(jì)部門如何利用信用卡海量的數(shù)據(jù)資源,將大數(shù)據(jù)和信息化審計(jì)手段有效結(jié)合,從而提升信用卡業(yè)務(wù)審計(jì)的質(zhì)量,已成為審計(jì)部門面臨的重要問題。

(二)信用卡欺詐審計(jì)工作思路

信用卡欺詐可分為申請(qǐng)欺詐、交易欺詐和用途欺詐三種類型。本文結(jié)合當(dāng)前信用卡業(yè)務(wù)審計(jì)工作困境,提出可信賴的高性能信用風(fēng)險(xiǎn)和異常交易分類模型,即Maha-Smote-RF欺詐檢測(cè)模型,其應(yīng)用于信用卡欺詐審計(jì)思路如下:第一步,構(gòu)建數(shù)據(jù)庫。金融機(jī)構(gòu)對(duì)信用卡申請(qǐng)、交易等所產(chǎn)生的歷史數(shù)據(jù),以及已發(fā)現(xiàn)欺詐的客戶進(jìn)行記錄,實(shí)時(shí)存儲(chǔ),形成數(shù)據(jù)庫,將這部分?jǐn)?shù)據(jù)作為模型的原始數(shù)據(jù)。第二步,預(yù)處理訓(xùn)練數(shù)據(jù)。數(shù)據(jù)庫中包含的原始數(shù)據(jù)可能是多源、異構(gòu)、高維度的,無法直接用于模型訓(xùn)練,必須首先對(duì)數(shù)據(jù)進(jìn)行清洗、整理、去重、并采用諸如本文歐洲持卡人數(shù)據(jù)集中的PCA降維處理方法,最終得到與上列案例類似的規(guī)范輸入數(shù)據(jù)。第三步,訓(xùn)練模型。對(duì)輸入數(shù)據(jù)采用與本文案例類似方法進(jìn)行Maha-Smote-RF模型訓(xùn)練,構(gòu)造集成學(xué)習(xí)強(qiáng)分類器。第四步,檢測(cè)目標(biāo)交易。用訓(xùn)練后的Maha-Smote-RF模型對(duì)目標(biāo)交易進(jìn)行分類識(shí)別,獲取預(yù)測(cè)結(jié)果。對(duì)客戶信用卡申請(qǐng)、交易的狀況做出判斷,標(biāo)定異常交易和異??蛻?,并以此作為審計(jì)疑點(diǎn),提交相關(guān)部門進(jìn)一步核實(shí)查證。

七、結(jié)語

本文以信用卡欺詐檢測(cè)為例,基于真實(shí)的信用卡欺詐數(shù)據(jù)集,通過對(duì)不平衡分類、機(jī)器學(xué)習(xí)、集成學(xué)習(xí)技術(shù)等方面的研究,提出了融合基礎(chǔ)分類器、數(shù)據(jù)生成器的Maha-Smote-RF欺詐檢測(cè)模型,該模型與其他信用卡欺詐檢測(cè)方法相比,可以更好地克服不平衡樣本誤分類的缺陷。從實(shí)驗(yàn)結(jié)果看,模型準(zhǔn)確率達(dá)到99.98%,AUC值達(dá)到0.9998,查準(zhǔn)率達(dá)到99.99%,各方面表現(xiàn)優(yōu)越。

在實(shí)驗(yàn)的基礎(chǔ)上,結(jié)合當(dāng)前審計(jì)工作的難點(diǎn),本文提出檢測(cè)模型在信用卡欺詐審計(jì)實(shí)務(wù)中的應(yīng)用思路,以提升金融機(jī)構(gòu)內(nèi)部審計(jì)部門、會(huì)計(jì)師事務(wù)所等識(shí)別信用卡欺詐行為的效率和審計(jì)工作的效果,可有效防范金融風(fēng)險(xiǎn)放大。本文是集成學(xué)習(xí)技術(shù)在消費(fèi)金融審計(jì)領(lǐng)域的探索,為大數(shù)據(jù)審計(jì)實(shí)務(wù)拓寬了思路,為科技強(qiáng)審開辟了可行路徑。

猜你喜歡
欺詐信用卡分類器
關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
警惕國際貿(mào)易欺詐
中國外匯(2019年10期)2019-08-27 01:58:04
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
信用卡資深用戶
信用卡詐騙
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
網(wǎng)購遭欺詐 維權(quán)有種法
辦信用卡透支還債夫妻均獲刑10年
公民與法治(2016年6期)2016-05-17 04:10:39
靖西县| 界首市| 克拉玛依市| 卓资县| 类乌齐县| 栾川县| 萨嘎县| 阜城县| 潜江市| 滦南县| 绥化市| 宁波市| 横峰县| 宜都市| 聊城市| 榆树市| 长春市| 苏尼特右旗| 华蓥市| 鲁甸县| 涪陵区| 唐河县| 金门县| 苍南县| 本溪市| 吉木萨尔县| 汉阴县| 原阳县| 库尔勒市| 阳东县| 鄂托克旗| 南安市| 辽宁省| 昭觉县| 万荣县| 汝州市| 岑巩县| 察雅县| 尼玛县| 潼关县| 浪卡子县|