劉 波, 梁龍躍
(貴州大學(xué) 經(jīng)濟(jì)學(xué)院, 貴陽(yáng) 550025)
金融科技的發(fā)展使人們獲得了更為便捷的交易方式, 其中, 信用卡交易成為了線上和線下最為流行的支付方式之一, 隨著信用卡交易數(shù)量的增加, 信用卡欺詐也時(shí)常發(fā)生. 根據(jù)2019 年中國(guó)銀行業(yè)協(xié)會(huì)發(fā)布的《中國(guó)銀行卡產(chǎn)業(yè)發(fā)展藍(lán)皮書》數(shù)據(jù)顯示, 截至2018 年末,我國(guó)信用卡累計(jì)發(fā)卡量為9.7 億張, 同比增長(zhǎng)22.8%;信用卡交易總額為38.2 萬(wàn)億元, 同比增長(zhǎng)24.9%; 信用卡未償信貸總額為6.85 萬(wàn)億元, 同比增長(zhǎng)23.2%; 信用卡損失率為1.27%, 較上一年度1.17%略有提升; 銀行卡欺詐率為1.16 基點(diǎn), 較上年下降0.2 基點(diǎn).
信用卡欺詐是一種為獲取經(jīng)濟(jì)利益為目的的犯罪欺騙行為, 它會(huì)擾亂正常的金融發(fā)展秩序, 制約金融行業(yè)的普惠目標(biāo)和創(chuàng)新發(fā)展, 對(duì)金融業(yè)的穩(wěn)定發(fā)展產(chǎn)生深遠(yuǎn)影響. 因此, 對(duì)信用卡欺詐的檢測(cè)已經(jīng)成為金融機(jī)構(gòu)核心能力之一. 中國(guó)銀行業(yè)協(xié)會(huì)在《中國(guó)銀行卡產(chǎn)業(yè)發(fā)展藍(lán)皮書(2019)》中提到, 要完善欺詐風(fēng)險(xiǎn)防控體系建設(shè), 提升銀行卡欺詐防范水平, 構(gòu)建“銀行+持卡人”風(fēng)控體系, 提升欺詐監(jiān)控精準(zhǔn)度. 可見(jiàn), 對(duì)信用卡欺詐的識(shí)別已經(jīng)成為銀行風(fēng)險(xiǎn)控制的關(guān)鍵因素.
信用卡欺詐檢測(cè)是通過(guò)挖掘持卡人的征信數(shù)據(jù)中所蘊(yùn)含的信息, 從中找出規(guī)律判斷其是否存在欺詐行為, 其實(shí)質(zhì)是一個(gè)二分類問(wèn)題. 然而在構(gòu)建信用卡欺詐檢測(cè)模型時(shí), 樣本數(shù)據(jù)分布極度不平衡, 欺詐樣本的數(shù)量遠(yuǎn)少于非欺詐樣本數(shù)量, 這會(huì)使得模型在進(jìn)行訓(xùn)練時(shí)不能有效挖掘欺詐樣本信息, 容易造成對(duì)欺詐樣本的誤判. 對(duì)于金融機(jī)構(gòu)來(lái)說(shuō), 對(duì)欺詐客戶誤判造成的損失通常比對(duì)非欺詐客戶的誤判造成的損失大. 因此, 如何通過(guò)處理不平衡數(shù)據(jù)以使模型高效而穩(wěn)定地識(shí)別具有欺詐性的交易, 成為信用欺詐檢測(cè)領(lǐng)域亟需解決的問(wèn)題.
對(duì)信用卡欺詐檢測(cè)模型的研究一直以來(lái)備受學(xué)術(shù)界關(guān)注. Srivastava 等人[1]使用隱馬爾可夫模型 (HMM)對(duì)信用卡交易處理中的操作序列進(jìn)行建模, 并展示如何將其用于欺詐檢測(cè). ?z?elik 等人[2]使用遺傳算法對(duì)銀行信用卡欺詐檢測(cè), 該算法能夠很好地解決信用卡欺詐檢測(cè)的可變錯(cuò)誤分類成本的分類問(wèn)題. ?ahin 等人[3]提出了C50, CART、CHAID 三種決策樹算法和支持向量機(jī)(SVM)分類器對(duì)銀行信用卡欺詐進(jìn)行檢測(cè), 四種算法均取得較好的檢測(cè)效果. Bahnsen 等人[4]提出了一種基于貝葉斯最小風(fēng)險(xiǎn)的成本敏感方法檢測(cè)發(fā)生欺詐時(shí)造成的實(shí)際財(cái)務(wù)成本, 以此構(gòu)建一個(gè)成本敏感的信用卡欺詐檢測(cè)系統(tǒng). Carneiro 等人[5]將由多層感知器組成的人工神經(jīng)網(wǎng)絡(luò)和聚類分析應(yīng)用于信用卡欺詐預(yù)防. Fu 等人[6]首次提出了使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于信用卡欺詐的檢測(cè), 模型顯示出了優(yōu)越的分類性能.Jurgovsky 等人[7]首次將信用卡欺詐檢測(cè)問(wèn)題描述為序列分類任務(wù), 并采用長(zhǎng)短期記憶(LSTM) 網(wǎng)絡(luò)來(lái)合并交易序列進(jìn)行欺詐檢測(cè), 提高了持卡人離線交易的檢測(cè)準(zhǔn)確性. Carcillo 等人[8]提出了一種混合有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的方法, 對(duì)欺詐樣本出現(xiàn)的異常值分?jǐn)?shù)定義的不同粒度級(jí)別進(jìn)行評(píng)估來(lái)提高欺詐檢測(cè)的準(zhǔn)確率. Hussein 等人[9]提出了通過(guò)堆疊集成技術(shù)將多個(gè)分類器組合用于信用卡欺詐檢測(cè), 改進(jìn)了模型最終檢測(cè)結(jié)果.
重采樣方法是當(dāng)前一個(gè)主流的解決類不平衡的方法, 它包括欠采樣和過(guò)采樣兩種方法. 其中, 過(guò)采樣是通過(guò)增加少數(shù)樣本數(shù)量使其接近多數(shù)樣本數(shù)量以達(dá)到樣本均衡的目的, 其以合成少數(shù)類技術(shù)(SMOTE)為代表. Almhaithawi 等人[10]使用SMOTE 過(guò)采樣方法來(lái)處理類不均衡問(wèn)題, 發(fā)現(xiàn)SMOTE 平衡數(shù)據(jù)后, 所有模型的欺詐檢測(cè)結(jié)果都有所增強(qiáng). 然而, 當(dāng)樣本數(shù)據(jù)極度不平衡, 或者樣本存在一定數(shù)量的噪聲、離群點(diǎn)時(shí), SMOTE方法在某種程度上會(huì)放大無(wú)效樣本的影響, 進(jìn)而降低分類精[11]. 琚春華等人[12]整合SMOTE 算法和K 最鄰近算法篩選生成欺詐樣本, 克服了SMOTE 算法在生成新樣本時(shí)的盲目性和局限性, 在一定程度上提高欺詐檢測(cè)模型的分類性能.
為了進(jìn)一步提高信用卡欺詐識(shí)別率, 本文構(gòu)建了一個(gè)基于CNN 網(wǎng)絡(luò)的信用卡欺詐檢測(cè)的基分類器,CNN 算法可以完全逼近任何復(fù)雜的非線性關(guān)系, 魯棒性和容錯(cuò)性強(qiáng), 可以高速找到處理數(shù)據(jù)的優(yōu)化方案. 針對(duì)信用卡交易數(shù)據(jù)的不平衡性, 本文利用K-means 算法聚類的優(yōu)點(diǎn), 結(jié)合SVMSMOTE 算法對(duì)數(shù)據(jù)進(jìn)行平衡處理.
K-means 算法[13]的核心思想是將樣本集按照樣本間的距離劃分為K個(gè)簇, 簇內(nèi)間各個(gè)樣本盡量緊密連在一起, 而簇間的距離盡量遠(yuǎn)離. K-means 聚類流程如下:
1) 從樣本中中隨機(jī)選擇k個(gè)樣本作為初始聚類質(zhì)心.
2) 計(jì)算其余樣本到各質(zhì)心中心的距離, 并將其歸類到距離最近的簇中.
3) 重新計(jì)算每個(gè)類別簇的聚類中心.
4) 重復(fù)步驟2)和步驟3), 直到每個(gè)簇的聚類中心不再改變.
K-means 聚類的目標(biāo)函數(shù)如式(1)所示:
其中,xi表示數(shù)據(jù)集中第i個(gè)數(shù)據(jù)樣本;ci表示第i個(gè)聚類簇;μi表示第i個(gè)聚類簇的簇心.
SVMSMOTE 算法是SMOTE 的改進(jìn)算法, 傳統(tǒng)的SMOTE 算法通過(guò)隨機(jī)線性插值的方法在兩個(gè)少數(shù)類樣本間合成新的樣本, 從而實(shí)現(xiàn)數(shù)據(jù)均衡化的目的[14].其在合成新的樣本時(shí)存在盲目性, 當(dāng)少數(shù)類樣本占比及其小時(shí), 新生成的少數(shù)類樣本會(huì)出現(xiàn)重疊問(wèn)題[15]. 除此之外, SMOTE 算法生成的樣本是基于原始少數(shù)樣本而來(lái), 這些少數(shù)樣本包含了一些噪音數(shù)據(jù), 容易造成分布邊緣化問(wèn)題.
針對(duì)傳統(tǒng)SMOTE 算法出現(xiàn)的以上問(wèn)題, Han 等人[16]提出關(guān)注邊界附近的少數(shù)樣本并進(jìn)行采樣, 可以使模型取得更好的分類效果. 同時(shí), 在對(duì)邊界樣本進(jìn)行分類時(shí), 容易將其類別錯(cuò)分, 而邊界樣本的正確分類對(duì)估計(jì)最佳分類邊界尤為重要, 通過(guò)沿分類邊界合成少數(shù)類樣本, 可以避免對(duì)所有少數(shù)樣本進(jìn)行采樣而存在的數(shù)據(jù)分布邊緣化和隨機(jī)生成數(shù)據(jù)的盲目性問(wèn)題, 對(duì)此, Tang 等人[17]使用SVMSMOTE 算法在邊界附近創(chuàng)建新的少數(shù)類樣本.
SVMSMOTE 算法是一種基于支持向量的過(guò)采樣方法, 它通過(guò)在訓(xùn)練集上訓(xùn)練標(biāo)準(zhǔn)的SVM 分類器后獲得支持向量來(lái)近似邊界線區(qū)域, 并在邊界附近生成新的少數(shù)類樣本數(shù)據(jù). SVMSMOTE 的最近鄰決策機(jī)制如圖1 所示. 若某一少數(shù)類樣本xj的k個(gè)鄰近樣本中, 少數(shù)類樣本的數(shù)量為s(s≤k), 多數(shù)類樣本的數(shù)量為t(t≤k), 當(dāng)k=t時(shí), 則將本xj歸類為噪聲樣本; 若s
圖1 SVMSMOTE 的最近鄰決策機(jī)制
將K-means 聚類算法和SVMSMOTE 算法融合,形成一個(gè)全新的過(guò)采樣改進(jìn)算法KM-SVMSMOTE. 其核心思想為: 利用K-means 算法對(duì)少數(shù)類樣本進(jìn)行精確聚類, 然后使用SVMSMOTE 算法基于精確聚類簇進(jìn)行插值, 達(dá)到增加少數(shù)樣本數(shù)量的目的使正負(fù)樣本得以平衡.
卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛應(yīng)用于圖像處理領(lǐng)域, 是圖像處理領(lǐng)域的主流模型. 隨著深度學(xué)習(xí)的發(fā)展,近年來(lái)CNN 也被應(yīng)用于各類大型數(shù)據(jù)的處理之中, 其通過(guò)網(wǎng)絡(luò)中的卷積層對(duì)整體數(shù)據(jù)進(jìn)行特征提取, 再通過(guò)池化等操作對(duì)數(shù)據(jù)進(jìn)行降維, 故其適合訓(xùn)練大量數(shù)據(jù), 并且具有避免模型過(guò)擬合的機(jī)制. CNN 模型基礎(chǔ)結(jié)構(gòu)如圖2 所示.
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
CNN 的第i層特征圖的計(jì)算過(guò)程為:
其中,Hi表示經(jīng)過(guò)池化層后的特征圖.
原始數(shù)據(jù)經(jīng)過(guò)卷積層-池化層的轉(zhuǎn)化后, 被輸送到全連接層實(shí)現(xiàn)對(duì)提取特征的分類識(shí)別, 通常使用Softmax 函數(shù)接收這個(gè)N維數(shù)據(jù)作為輸入, 然后將每一維的值轉(zhuǎn)換成(0, 1)之間的一個(gè)實(shí)數(shù)作為識(shí)別概率, 它的公式為:
KM-SVMSMOTE-CNN 信用卡欺詐檢測(cè)模型是通過(guò)改進(jìn)傳統(tǒng)SMOTE 算法的CNN 模型, 其通過(guò)K-means聚類算法將少數(shù)類樣本聚類, 然后使用 SVM 在分類邊界附近生成新少數(shù)類樣本數(shù)據(jù)來(lái)提升CNN 模型檢測(cè)性能, 模型構(gòu)建及實(shí)現(xiàn)過(guò)程如圖3 所示.
圖3 KM-SVMSMOTE-CNN 信用卡欺詐檢測(cè)模型
信用卡交易數(shù)據(jù)樣本規(guī)模較大, 計(jì)算復(fù)雜程度高,針對(duì)這一問(wèn)題, 本文采用基于CNN 的信用卡欺詐檢測(cè)模型對(duì)是否欺詐進(jìn)行分類. 其通過(guò)卷積核不斷提取數(shù)據(jù)特征, 不同區(qū)域的數(shù)據(jù)都共享一個(gè)卷積核, 即共享同一組參數(shù), 這便是CNN 的參數(shù)共享機(jī)制, 參數(shù)的共享使得網(wǎng)絡(luò)參數(shù)數(shù)量大幅減少, 同時(shí)池化層提取經(jīng)過(guò)卷積運(yùn)算后的數(shù)據(jù)的主要特征, 進(jìn)一步減少參數(shù)數(shù)量, 減少了計(jì)算復(fù)雜度的同時(shí)防止模型出現(xiàn)過(guò)擬合現(xiàn)象. 針對(duì)信用卡交易數(shù)據(jù)的極端不平衡性, 即欺詐樣本僅占總樣本的很小部分, 本文采用KM-SVMSMOTE 算法對(duì)少數(shù)樣本進(jìn)行擴(kuò)充, 解決數(shù)據(jù)不平衡帶來(lái)的對(duì)欺詐交易識(shí)別率較低問(wèn)題.
本文所使用的CNN 模型結(jié)構(gòu)包括兩個(gè)用于提取數(shù)據(jù)特征的卷積層、兩個(gè)用于解決過(guò)擬合問(wèn)題的batch normalization (BN)層、兩個(gè)用于提高模型捕獲邊緣信息能力的max-pooling 層、一個(gè)全連接層和一個(gè)用于預(yù)測(cè)客戶是否欺詐的節(jié)點(diǎn), 模型的整體連接結(jié)構(gòu)如圖4 所示.
圖4 CNN 模型結(jié)構(gòu)
本文實(shí)驗(yàn)的數(shù)據(jù)集采用了Kaggle 平臺(tái)上發(fā)布的信用卡欺詐數(shù)據(jù), 該數(shù)據(jù)集由源訊科技(Worldline)公司和布魯塞爾自由大學(xué)(Université Libre de Bruxelles)機(jī)器學(xué)習(xí)小組合作收集整理而來(lái), 包含了2013 年9 月歐洲部分信用卡持卡人兩天內(nèi)發(fā)生的交易信息. 本文使用的實(shí)驗(yàn)數(shù)據(jù)包含了24627 條交易記錄, 其中有492 條欺詐數(shù)據(jù), 約占實(shí)驗(yàn)數(shù)據(jù)集的2%, 數(shù)據(jù)及其不平衡. 數(shù)據(jù)共包含30 個(gè)特征數(shù)據(jù)和一個(gè)標(biāo)簽數(shù)據(jù),V1–V2828 個(gè)特征出于保密原因, 已由主成分分析方法進(jìn)行了處理, 無(wú)法獲取其原始數(shù)據(jù)的特征信息. 其余的兩個(gè)特征中, time 表示每筆交易與數(shù)據(jù)集中第一筆交易間隔的秒數(shù); amount 表示每筆交易發(fā)生的金額; 標(biāo)簽數(shù)據(jù)class 表示類別, 0 表示交易正常, 1 表示欺詐交易.
本文首先將time 特征刪除, 同時(shí)由于amount 列數(shù)值與其他特征數(shù)值范圍差異較大, 故對(duì)amount 列數(shù)據(jù)做歸一化處理, 歸一化規(guī)則如式(5)所示.
其中, max(x)和min(x)分別表示amount 列數(shù)據(jù)中的最大值與最小值,x'表示數(shù)據(jù)在進(jìn)行歸一化后的值.
由于欺詐數(shù)據(jù)的極不平衡, 采用了KM-SVMSMOTE算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行平衡處理, 本文的訓(xùn)練樣本占總樣本的70%, 包含17238 個(gè)交易數(shù)據(jù), 其中345 個(gè)數(shù)據(jù)為欺詐數(shù)據(jù), 16893 個(gè)數(shù)據(jù)為正常交易數(shù)據(jù). 通過(guò)KMSVMSMOTE 算法生成欺詐類數(shù)據(jù)后, 樣本達(dá)到平衡狀態(tài).
深度學(xué)習(xí)模型輸入的實(shí)驗(yàn)數(shù)據(jù)為3D 數(shù)組, 信用卡交易數(shù)據(jù)通常被視為橫截面數(shù)據(jù), 本文試圖讓模型識(shí)別包含29 個(gè)特征信息的欺詐客戶, 原始訓(xùn)練集數(shù)據(jù)經(jīng)過(guò)KM-SVMSMOTE 算法平衡后, 最終數(shù)據(jù)形狀為33786×29 (33786 行, 29 列). 為了適應(yīng)模型的輸入, 本文對(duì)平衡后的數(shù)據(jù)進(jìn)行3D 數(shù)組的轉(zhuǎn)化, 轉(zhuǎn)化后整個(gè)“新數(shù)據(jù)集X”的形狀為33786×1×29, 輸出的目標(biāo)“數(shù)據(jù)集Y”的形狀為33786×1, 對(duì)于測(cè)試集也做同樣的處理.
除了使用CNN 模型進(jìn)行訓(xùn)練外, 本文還訓(xùn)練了邏輯斯蒂回歸(Logistic)、決策樹、隨機(jī)森林、梯度提升決策樹(GBDT)、極限梯度提升(XGBoost)等基礎(chǔ)模型, 各模型經(jīng)過(guò)交叉驗(yàn)證選擇的參數(shù)如表1 所示.
表1 模型參數(shù)表
本文采用準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、F1 值(F1_score)、AUC 值(area under curve)作為模型評(píng)價(jià)指標(biāo). 而根據(jù)樣本數(shù)據(jù)的真實(shí)類別與欺詐檢測(cè)模型檢測(cè)的類別可得到如表2 所示的混淆矩陣, 其中,T P指被正確分類的正類樣本,F N指被錯(cuò)誤分類的正類樣本,FP指被錯(cuò)誤分類的負(fù)類樣本,TN指被正確分類的負(fù)類樣本. 則準(zhǔn)確率accuracy=(TP+TN)/(TP+TN+FP+FN), 精確率precision=TP/(TP+FP),召回率recall=TP/(TP+FN),F1 值F1_score=2×precision×recall/(precision+recall).
表2 混淆矩陣
由混淆矩陣可得到真正例率(TPR) 和假正例率(FPR), 其中,TPR=TP/(TP+FN),FPR=FP/(FP+TN). 以FPR為橫軸,TPR為縱軸便可繪制出ROC (receiver operating characteristic)曲線, 可以通過(guò)ROC 曲線所覆蓋的范圍評(píng)價(jià)模型性能的好壞.
本文將數(shù)據(jù)集按照7:3 比例劃分為訓(xùn)練集和測(cè)試集之后, 將CNN 模型和邏輯斯蒂回歸、決策樹、隨機(jī)森林、GBDT、XGBoost 等基礎(chǔ)模型進(jìn)行對(duì)比, 實(shí)驗(yàn)結(jié)果如表3 所示, 各模型ROC 曲線如圖5 所示.
表3 各模型欺詐檢測(cè)結(jié)果
圖5 各模型ROC 曲線與AUC 值
從表3 可以看出, 決策樹和隨機(jī)森林兩種傳統(tǒng)樹模型的預(yù)測(cè)結(jié)果極為接近, 他們結(jié)果比當(dāng)前更有效的樹模型GBDT 和XGBoost 的預(yù)測(cè)結(jié)果略遜一籌, 且GBDT 模型和XGBoost 模型算法評(píng)估結(jié)果也較為接近. Logistic 模型和CNN 模型表現(xiàn)出了比上述4 個(gè)模型更好的綜合分類能力, 其中Logistic 模型作為傳統(tǒng)的分類模型卻得到了較好的評(píng)估結(jié)果, 可能的原因是引入l2 懲罰項(xiàng)后, 模型的泛化能力得到增強(qiáng). 進(jìn)一步分析發(fā)現(xiàn), CNN 模型的各項(xiàng)評(píng)價(jià)指標(biāo)的結(jié)果均達(dá)到90%以上, 其中準(zhǔn)確率和AUC 值更是分別達(dá)到了99.76%和0.9582, 表明了深度學(xué)習(xí)模型CNN 的抗噪能力和泛化能力均優(yōu)于其他機(jī)器學(xué)習(xí)模型. 綜上所述, 本文采用CNN模型作為信用卡欺詐檢測(cè)的基礎(chǔ)模型.
為了進(jìn)一步分析KM-SVMSMOTE-CNN 信用卡欺詐模型的有效性, 本文還使用了未平衡數(shù)據(jù)下得CNN模型, 以及平衡采樣算法中的隨機(jī)欠采樣(Random-UnderSampler)、隨機(jī)過(guò)采樣(RandomOverSampler)、SMOTE、BorderlineSMOTE 對(duì)數(shù)據(jù)平衡處理后結(jié)合CNN 模型對(duì)信用卡欺詐進(jìn)行檢測(cè)并作對(duì)比, 實(shí)驗(yàn)結(jié)果如表4 所示.
表4 不同平衡算法下欺詐檢測(cè)結(jié)果
從表中可以看出, KM-SVMSMOTE-CNN 信用卡欺詐檢測(cè)模型擁有更為優(yōu)秀的檢測(cè)性能, 未平衡數(shù)據(jù)下CNN 模型的AUC 值最低, 為0.8427. 其他平衡算法下模型的F1 值最高為0.8889, 最低的是RandomUnder-Sampler-CNN 模型, 僅為0.6702, 而KM-SVMSMOTECNN 模型的F1 值高達(dá)0.9389, 除此之外, 其擁有最高的AUC 值, 再次說(shuō)明KM-SVMSMOTE-CNN 模型擁有較強(qiáng)的泛化能力和分類性能.
樣本極不均衡是信用卡欺詐檢測(cè)需要解決的問(wèn)題, 它能影響模型對(duì)信用欺詐評(píng)估的精確度. 本文通過(guò)對(duì)平衡算法和深度學(xué)習(xí)模型的研究, 提出了KM-SVMSMOTECNN 信用卡欺詐檢測(cè)模型. 一方面, 提出了KM-SVMSMOTE對(duì)樣本進(jìn)行平衡, 克服傳統(tǒng)SMOTE 算法在生成少數(shù)樣本存在的邊緣化和盲目性等問(wèn)題. 另一方面, 為了充分挖信用卡交易數(shù)據(jù)中所包含的信息, 使用深度學(xué)習(xí)技術(shù)構(gòu)建模型并對(duì)信用卡欺詐進(jìn)行檢測(cè). 實(shí)證結(jié)果得出模型的準(zhǔn)確率為99.76%, AUC 值達(dá)到0.9582, 表明KM-SVMSMOTE-CNN 模型能夠很好地處理信用欺詐中不均衡數(shù)據(jù)問(wèn)題, 顯著提高企業(yè)對(duì)信用卡欺詐檢測(cè)的效率, 能夠?yàn)榻鹑跈C(jī)構(gòu)和監(jiān)管機(jī)構(gòu)在有效管理信用卡風(fēng)險(xiǎn)方面提供參考. 可將更為復(fù)雜的信用卡欺詐數(shù)據(jù)應(yīng)用于此算法, 也可以將其應(yīng)用于其他需要平衡數(shù)據(jù)的研究領(lǐng)域中.
未來(lái)可將此模型與多種機(jī)器學(xué)習(xí)算法融合, 構(gòu)建更為強(qiáng)大的欺詐檢測(cè)分類器, 以獲得更好的預(yù)測(cè)性能.