国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于動(dòng)態(tài)集成選擇算法的信用卡審批異常檢測(cè)

2023-11-09 09:57:12程建華龐夢(mèng)蘭
關(guān)鍵詞:欺詐信用卡分類器

程建華,龐夢(mèng)蘭

(安徽大學(xué)大數(shù)據(jù)與統(tǒng)計(jì)學(xué)院,合肥 230601)

隨著中國(guó)經(jīng)濟(jì)的快速發(fā)展,信用卡市場(chǎng)規(guī)模也得到快速增長(zhǎng)。截至2021年末,中國(guó)的信用卡發(fā)行量已達(dá)8億張。隨著交易次數(shù)的增加,利用信用卡進(jìn)行欺詐行為不斷增多。盡管欺詐行為在整個(gè)信用卡交易中的比例很低,但一旦發(fā)生,將會(huì)給各商業(yè)銀行造成巨額經(jīng)濟(jì)損失。據(jù)中國(guó)銀行業(yè)協(xié)會(huì)發(fā)布的《中國(guó)銀行卡產(chǎn)業(yè)發(fā)展藍(lán)皮書(2022)》數(shù)據(jù)顯示,截至2021 年末,信用卡逾期半年未償信貸總額達(dá)860.4 億元,較上年增加2.6%。鑒于此,如何迅速、有效識(shí)別信用卡欺詐行為以防范風(fēng)險(xiǎn),已成為銀行風(fēng)險(xiǎn)控制領(lǐng)域的研究課題。

信用卡欺詐檢測(cè)領(lǐng)域存在兩個(gè)主要問題:首先,實(shí)際生活中,欺詐樣本的數(shù)據(jù)標(biāo)簽獲取困難,人工標(biāo)記數(shù)據(jù)成本較高,而且已標(biāo)記的樣本數(shù)據(jù)量不足以反映真實(shí)的欺詐狀況,在大多數(shù)情況下,商業(yè)銀行面臨的是沒有標(biāo)簽的數(shù)據(jù)集;其次,信用卡交易數(shù)據(jù)存在類別極端不平衡的現(xiàn)象,即欺詐樣本遠(yuǎn)小于正常樣本。鑒于此,針對(duì)數(shù)據(jù)集中標(biāo)簽缺失的情況,本文通過(guò)挖掘客戶特征中的潛在信息,對(duì)潛在風(fēng)險(xiǎn)較高的申請(qǐng)發(fā)出預(yù)警,識(shí)別“異??蛻簟?,旨在從授信審批方面把好關(guān),以此降低欺詐風(fēng)險(xiǎn)。

1 文獻(xiàn)綜述

國(guó)外在信用卡欺詐檢測(cè)方面起步較早,早期的檢測(cè)方法主要采用傳統(tǒng)的統(tǒng)計(jì)分析方法。20 世紀(jì)90年代以來(lái),學(xué)者們開始探索基于數(shù)據(jù)挖掘的信用卡欺詐檢測(cè)方法,如決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。隨著人工智能技術(shù)的發(fā)展,一些學(xué)者將深度學(xué)習(xí)技術(shù)應(yīng)用到信用卡欺詐檢測(cè)領(lǐng)域:Jurgovsky 等[1]將欺詐檢測(cè)問題轉(zhuǎn)化為序列分類任務(wù),使用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè),從而有效提高檢測(cè)準(zhǔn)確率;Fiore等[2]訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)模型,利用該模型生成欺詐類樣本,將這些樣本與原始數(shù)據(jù)集合并,從而構(gòu)建一種有效的欺詐檢測(cè)機(jī)制。目前的欺詐檢測(cè)研究大多是基于有監(jiān)督的機(jī)器學(xué)習(xí)模型,但數(shù)據(jù)標(biāo)簽很難獲取,而且已標(biāo)記的數(shù)據(jù)樣本量有限,無(wú)法反映出真實(shí)的欺詐情況,此外,信用卡交易類別的分布不平衡,給信用卡欺詐檢測(cè)帶來(lái)了挑戰(zhàn)。

在數(shù)據(jù)樣本僅包含特征而沒有標(biāo)簽的情況下,異常檢測(cè)可以通過(guò)對(duì)數(shù)據(jù)樣本特征的分析揭示樣本間的內(nèi)在規(guī)律,以發(fā)現(xiàn)與一般行為或模式有顯著差異的少數(shù)樣本。[3]由于極難獲得欺詐交易的標(biāo)簽,部分學(xué)者把欺詐樣本視為異常點(diǎn),并通過(guò)異常檢測(cè)技術(shù)將其與正常樣本分離。Van 等[4]利用無(wú)監(jiān)督異常檢測(cè)技術(shù)識(shí)別醫(yī)療保險(xiǎn)索賠的欺詐樣本,實(shí)驗(yàn)結(jié)果表明,通過(guò)異常檢測(cè)技術(shù)可以檢測(cè)出潛在的新型欺詐模式。Porwal 等[5]采用基于聚類的集成方法來(lái)獲得每個(gè)數(shù)據(jù)樣本的異常分?jǐn)?shù),這種方法可以檢測(cè)出大型數(shù)據(jù)集中的異常樣本,并且能夠?qū)Σ粩嘧兓钠墼p模式具有較強(qiáng)的穩(wěn)健性。采用無(wú)監(jiān)督的異常檢測(cè)方法識(shí)別欺詐樣本更具有實(shí)際意義和價(jià)值,有效地解決了標(biāo)簽缺失的問題,此外還可以發(fā)現(xiàn)新的欺詐模式。

目前,處理不平衡數(shù)據(jù)的方法可以歸納為兩類:一類是從數(shù)據(jù)層面通過(guò)欠采樣或過(guò)采樣的方法調(diào)整樣本類別分布,另一類是以代價(jià)敏感學(xué)習(xí)和集成學(xué)習(xí)為代表的算法層面的處理方式[6]?;趩蝹€(gè)機(jī)器學(xué)習(xí)分類算法進(jìn)行不平衡數(shù)據(jù)的分類預(yù)測(cè)可能會(huì)導(dǎo)致一定的偏差,而集成學(xué)習(xí)將多樣性、互相補(bǔ)充的多個(gè)基分類器融合成一個(gè)強(qiáng)分類器,利用該強(qiáng)分類器對(duì)不平衡數(shù)據(jù)進(jìn)行分類,可以有效提升模型的準(zhǔn)確率和穩(wěn)定性。近年來(lái),越來(lái)越多學(xué)者將Bagging、Boosting 等集成學(xué)習(xí)方法應(yīng)用于不平衡數(shù)據(jù)集,李秀芳等[7]利用Bagging集成技術(shù)進(jìn)行保險(xiǎn)欺詐識(shí)別;盧冰潔等[8]將多個(gè)集成模型運(yùn)用于車險(xiǎn)欺詐識(shí)別;胡忠義等[9]通過(guò)K 均值聚類將樣本劃分為多個(gè)區(qū)域,在每個(gè)區(qū)域上進(jìn)行多分類器集成,進(jìn)行P2P 借貸樣本的違約風(fēng)險(xiǎn)評(píng)估,這些研究結(jié)果都表明,集成模型在處理不平衡數(shù)據(jù)時(shí)比單個(gè)模型更有優(yōu)勢(shì)。

集成學(xué)習(xí)已被廣泛應(yīng)用于欺詐識(shí)別,但傳統(tǒng)的集成學(xué)習(xí)采用的是靜態(tài)集成,即構(gòu)建一個(gè)基分類器集合,將所有分類器進(jìn)行集成,而不同分類器對(duì)于不同待測(cè)樣本的分類性能不盡相同,因此需要根據(jù)不同待測(cè)樣本的特征來(lái)選擇合適的分類器組進(jìn)行集成,動(dòng)態(tài)選擇(Dynamic Selection,DS)正逐漸成為多分類器系統(tǒng)的一個(gè)研究熱點(diǎn),原理是并非基分類器集合中的每個(gè)分類器都是分類所有待測(cè)樣本的專家,而是每個(gè)分類器是特定特征空間上的專家。[10]動(dòng)態(tài)集成選擇(Dynamic Ensemble Selection,DES)通過(guò)評(píng)估每個(gè)分類器在不同特征空間的分類能力,為待測(cè)樣本選擇最佳的分類器組進(jìn)行集成。Wang 等[11]在無(wú)監(jiān)督學(xué)習(xí)的框架下,提出了一種自適應(yīng)的K近鄰算法,基于一類分類器構(gòu)建動(dòng)態(tài)集成異常檢測(cè)模型,實(shí)驗(yàn)結(jié)果表明其具有比單個(gè)模型和各種靜態(tài)集成模型更優(yōu)的檢測(cè)性能。劉子華等[12]提出了基于動(dòng)態(tài)能力區(qū)域策略的DES-DCR-CIER 算法,并將其應(yīng)用于乳腺腫塊診斷,實(shí)驗(yàn)結(jié)果表明相比于其他16 種算法,基于DESDCR-CIER 的診斷模型具有最優(yōu)的綜合性能。越來(lái)越多的研究結(jié)果表明,相較于傳統(tǒng)的集成方式,動(dòng)態(tài)集成選擇技術(shù)具有更加優(yōu)越的性能。DES首先針對(duì)大量的基分類器進(jìn)行訓(xùn)練,然后動(dòng)態(tài)地從訓(xùn)練集中選擇樣本組成待測(cè)樣本的能力區(qū)域(Competence Region,CR),接著根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)基于CR 評(píng)估各個(gè)分類器的性能,最后從中選擇一組最優(yōu)的分類器進(jìn)行集成。其中,評(píng)價(jià)標(biāo)準(zhǔn)通常為分類準(zhǔn)確率,但在數(shù)據(jù)集標(biāo)簽缺失的情況下,這一評(píng)價(jià)標(biāo)準(zhǔn)失效,從而無(wú)法使用動(dòng)態(tài)集成選擇算法。

本文提出一種以無(wú)監(jiān)督異常檢測(cè)算法為基分類器,融合無(wú)監(jiān)督學(xué)習(xí)和動(dòng)態(tài)集成選擇的異常檢測(cè)模型DES-HBOS,首先采用基于直方圖的異常檢測(cè)方法生成基分類器集合,根據(jù)異常得分集合構(gòu)造訓(xùn)練集客戶的偽標(biāo)簽,然后確定待測(cè)客戶能力區(qū)域,使用Pearson 相關(guān)系數(shù)評(píng)估所有分類器的分類能力,最后選擇一組較優(yōu)的分類器進(jìn)行集成,將其應(yīng)用于信用卡授信審批異常檢測(cè)。

2 動(dòng)態(tài)集成選擇

動(dòng)態(tài)集成選擇主要包括以下3個(gè)步驟:

(1)構(gòu)建基分類器集合。目前,DES算法中生成基分類器的方法可以分為兩類:同構(gòu)分類器生成和異構(gòu)分類器生成。[13]同構(gòu)分類器生成是由同一學(xué)習(xí)算法得到的,根據(jù)數(shù)據(jù)集的劃分方式不同可以分為2種:訓(xùn)練樣本集的隨機(jī)選取,例如Bagging;待選特征的隨機(jī)選取,例如隨機(jī)子空間和特征選擇;此外,還可以通過(guò)調(diào)整分類器的參數(shù)得到不同的分類器,同構(gòu)分類器通過(guò)調(diào)整數(shù)據(jù)集或參數(shù)來(lái)增加分類器的多樣性。而異構(gòu)分類器生成是由不同的學(xué)習(xí)算法應(yīng)用于整個(gè)數(shù)據(jù)集得到的。

(2)對(duì)不同待測(cè)樣本選擇對(duì)應(yīng)的最優(yōu)分類器組。此階段主要包括2 個(gè)步驟:1)確定待測(cè)樣本的能力區(qū)域,假定CR內(nèi)的樣本與待測(cè)樣本的特征有較高的相似度[14],即從訓(xùn)練集中選擇一組與待測(cè)樣本特征相似的樣本,現(xiàn)有經(jīng)典的DES 算法大多采用K 近鄰算法來(lái)確定待測(cè)樣本的CR,如KNORA(K-Nearest Oracles)、DES-KNN(Dynamic Ensemble Selection based on K-Nearest Neighbor)等;2)根據(jù)某一評(píng)價(jià)標(biāo)準(zhǔn)基于CR 評(píng)估分類器的性能,即采用CR 代表待測(cè)樣本對(duì)分類器集合中的分類器進(jìn)行性能評(píng)估,主要評(píng)價(jià)標(biāo)準(zhǔn)為分類準(zhǔn)確率,分類準(zhǔn)確率越高代表分類性能越好,說(shuō)明分類器是該特征空間上的專家,將該分類器應(yīng)用于與CR 特征相似的待測(cè)樣本,如KNORA 算法選擇至少能正確預(yù)測(cè)待測(cè)樣本的CR 中一個(gè)樣本的分類器,通過(guò)這種方式為待測(cè)樣本選擇最優(yōu)的分類器組。

(3)分類器集成。將選擇的分類器組進(jìn)行集成,主要包括平均法、動(dòng)態(tài)加權(quán)法等,其中多數(shù)經(jīng)典的DES算法的集成方式為多數(shù)投票法,即采用多數(shù)分類器的投票結(jié)果。

3 基于動(dòng)態(tài)集成選擇算法的異常檢測(cè)

信用卡欺詐風(fēng)險(xiǎn)主要是指信用卡持有者有目的的辦理信用卡,并在信用卡辦理成功后蓄意消費(fèi)透支,并在還款日到來(lái)之前更改預(yù)留手機(jī)號(hào)等信息,出現(xiàn)拒不還款等狀況,造成商業(yè)銀行經(jīng)濟(jì)損失[15]。針對(duì)這一風(fēng)險(xiǎn),商業(yè)銀行主要是根據(jù)客戶的特征信息建立風(fēng)險(xiǎn)防控模型,對(duì)其是否有可能進(jìn)行欺詐行為作出評(píng)估,從授信審批入手,發(fā)現(xiàn)異??蛻?,以達(dá)到將欺詐風(fēng)險(xiǎn)降至最低。

本文設(shè)計(jì)的基于動(dòng)態(tài)集成選擇算法的信用卡審批異常檢測(cè)模型DES-HBOS 主要包括以下四個(gè)部分:構(gòu)造客戶偽標(biāo)簽、確定能力區(qū)域、分類器性能評(píng)估、分類器集成,如圖1所示。

圖1 DES-HBOS模型整體結(jié)構(gòu)圖

3.1 構(gòu)造客戶偽標(biāo)簽

3.1.1 HBOS模型

直方圖方法(Histogram-based Outlier Score,HBOS)是Goldstein 等[16]提出的一種基于非參數(shù)統(tǒng)計(jì)的無(wú)監(jiān)督異常檢測(cè)算法,不依賴超參數(shù),避免了超參數(shù)選擇不當(dāng)導(dǎo)致的偏差;基于特征間獨(dú)立性的假設(shè),該方法將對(duì)高維數(shù)據(jù)的處理拆解為多個(gè)單特征的計(jì)算,在互聯(lián)網(wǎng)背景下,客戶特征日益增多,對(duì)數(shù)據(jù)處理提出更高要求,而直方圖方法對(duì)高維數(shù)據(jù)有較好的適應(yīng)性,其快速計(jì)算的性能使得其對(duì)海量高維數(shù)據(jù)的處理非常高效。因此,本文采用HBOS作為識(shí)別異??蛻舻姆椒ǎ淠P捅磉_(dá)式如下

HBOS為每個(gè)特征構(gòu)建單變量直方圖,并將其標(biāo)準(zhǔn)化使得直方圖最大高度為1,每個(gè)箱子的高度代表概率密度估計(jì),概率密度大致呈“鐘形曲線”,概率密度越低,則客戶的這一特征值偏離大多數(shù)客戶,異常得分越高。直方圖可以反映出所有客戶某一特征的分布情況,概率密度越小的特征值,越有可能異常,最終通過(guò)客戶的所有特征綜合判斷異常情況。

3.1.2 生成偽標(biāo)簽

本文采用同構(gòu)分類器生成的方式構(gòu)造基分類器集合,以HBOS 為學(xué)習(xí)算法,改變參數(shù)即箱的個(gè)數(shù)得到一系列不同的基分類器,參數(shù)為10~50 之間的隨機(jī)整數(shù),構(gòu)成基分類器集合C={C1,C2,...,Cη}。表示訓(xùn)練集表示待測(cè)集,其中每個(gè)客戶有m個(gè)特征。所有基分類器在同一訓(xùn)練集下進(jìn)行訓(xùn)練,得到訓(xùn)練集Xtrain的異常得分矩陣S(Xtrain),即

其中:Cj(Xtrain)(j=1,2,...,η)表示第個(gè)分類器在訓(xùn)練集上的異常得分向量,且經(jīng)過(guò)標(biāo)準(zhǔn)化處理;表示訓(xùn)練集中第個(gè)客戶在第個(gè)分類器下的異常得分。

本文通過(guò)平均所有分類器的輸出結(jié)果來(lái)對(duì)訓(xùn)練集中的客戶進(jìn)行標(biāo)記,訓(xùn)練集中客戶的偽標(biāo)簽可表示為

3.2 確定能力區(qū)域

確定待測(cè)客戶的能力區(qū)域CR。從訓(xùn)練集中選擇與待測(cè)客戶特征相似的客戶構(gòu)成CR,具有相似特征的客戶有相似的行為趨勢(shì)。一般地,“近朱者赤,近墨者黑”,傳統(tǒng)的K 近鄰算法(K-Nearest Neighbor,KNN)被用來(lái)判斷相似性,采用歐式距離度量客戶特征的相似程度,距離越近越相似。

Zhao 等[17]改進(jìn)傳統(tǒng)的KNN 算法,緩解了維數(shù)災(zāi)難問題,相比于聚類算法有更高的精確度,將待測(cè)客戶xα的能力區(qū)域CRα定義為:

其中:Xtrain表示訓(xùn)練集:knnα表示與待測(cè)客戶xα特征相似的客戶集合。

通過(guò)以下步驟確定knnα。首先,為特征個(gè)數(shù),隨機(jī)構(gòu)造組新的特征空間,維數(shù)在;其次在每組特征空間下,使用歐氏距離度量待測(cè)客戶xα在訓(xùn)練集中的個(gè)最近鄰客戶,得到組個(gè)最“相似”客戶;最后,出現(xiàn)次數(shù)超過(guò)t2的“相似”客戶構(gòu)成集合knnα。

3.3 分類器性能評(píng)估

不同分類器對(duì)于待測(cè)客戶的分類能力有所差別,動(dòng)態(tài)集成中的“動(dòng)態(tài)”是指進(jìn)行集成的分類器組不是固定的,CR內(nèi)的客戶與待測(cè)客戶的特征相似,采用CR代表待測(cè)客戶對(duì)所有分類器進(jìn)行性能評(píng)估,找到最適合待測(cè)客戶的分類器組。通過(guò)動(dòng)態(tài)的方式提高分類器組對(duì)待測(cè)客戶的異常檢測(cè)能力。

異常得分可以轉(zhuǎn)化為二元變量,再通過(guò)分類準(zhǔn)確率評(píng)估分類器性能。但定義閾值很有挑戰(zhàn),使用相似度評(píng)估分類器的異常檢測(cè)能力使結(jié)果更加穩(wěn)定。本文采用Pearson相關(guān)系數(shù)進(jìn)行相似度評(píng)估。對(duì)于待測(cè)客戶xα,確定其在訓(xùn)練集中的“相似”客戶集CRα,根據(jù)target(Xtrain)得到CRα的偽標(biāo)簽target(CRα),將分類器Cj(j=1,2,...,η)在CRα上的標(biāo)準(zhǔn)化異常得分表示為Cj(CRα),計(jì)算target(CRα)與Cj(CRα)的Pearson相關(guān)系數(shù)ρα,j,如下:

其中:Cov為協(xié)方差函數(shù);Starget表示target(CRα)的標(biāo)準(zhǔn)差;表示Cj(CRa)的標(biāo)準(zhǔn)差。

使用ρα,j評(píng)估各分類器在CRα上的異常檢測(cè)能力,具有最大ρα,j的分類器Cj被認(rèn)為是CRα上性能最好的分類器。

3.4 分類器集成

在缺少訓(xùn)練集標(biāo)簽的情況下,僅選擇一個(gè)分類器的風(fēng)險(xiǎn)較高,通過(guò)集成的方式為待測(cè)客戶選擇一組分類器,可以降低單個(gè)分類器過(guò)擬合的風(fēng)險(xiǎn),使檢測(cè)結(jié)果更加可信。集成方式主要包括平均法、動(dòng)態(tài)加權(quán)法等,其中最經(jīng)典的集成方法是多數(shù)投票法,即采用多數(shù)分類器的投票結(jié)果。

類似于多數(shù)投票法,對(duì)于某一待測(cè)客戶,基于CR 對(duì)所有分類器的異常檢測(cè)能力進(jìn)行評(píng)估得到Pearson 相關(guān)系數(shù),將其繪制成具有等間隔的直方圖,選取頻率最高的間隔內(nèi)的分類器作為分類器組,平均這組檢測(cè)器的異常得分得到該待測(cè)客戶的異常得分,異常得分越高,風(fēng)險(xiǎn)系數(shù)越大。將待測(cè)客戶的異常得分降序排序,設(shè)定一個(gè)異常比例,排名靠前的待測(cè)客戶被認(rèn)為是異常的,系統(tǒng)將發(fā)出預(yù)警信息。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 數(shù)據(jù)描述

本實(shí)驗(yàn)的數(shù)據(jù)集credictcard 是Worldline 和ULB 的機(jī)器學(xué)習(xí)小組在合作大數(shù)據(jù)挖掘和欺詐行為識(shí)別研究期間,對(duì)歐洲持卡人2013 年9 月某兩天的信用卡客戶數(shù)據(jù)進(jìn)行收集得到的,來(lái)源于Kaggle 網(wǎng)站。在284 807 個(gè)客戶中,欺詐客戶有492 個(gè),占所有客戶的0.172%,由于保密問題,原始數(shù)據(jù)沒有提供背景信息,脫敏后的原始數(shù)據(jù)的客戶特征V1,V2,...,V28經(jīng)過(guò)PCA 變換得到,V1,V2,...,V28相互獨(dú)立,“Acount”為金額,“Class”為樣本標(biāo)簽,0 表示正??蛻簦? 表示欺詐客戶。在模型訓(xùn)練的過(guò)程中不使用樣本標(biāo)簽,“Class”列的數(shù)據(jù)信息僅用于最終的模型性能評(píng)估。

4.2 實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)環(huán)境為Windows10-64bit,Intel Core i5 處理器,8GB 運(yùn)行環(huán)境和Python3.8.5 語(yǔ)言,在Jupyter Notebook上實(shí)現(xiàn)。

本實(shí)驗(yàn)選擇基于直方圖的方法(Histogram-based Outlier Score,HBOS),K 近鄰(K-Nearest Neighbor,KNN),一類支持向量機(jī)(One-Class Support Vector Machine,OCSVM),局部異常因子(Local Outlier Factor,LOF),主成分分析(Principal Component Analysis,PCA)、孤立森林(Isolation Forest,IForest)這6 種在異常檢測(cè)領(lǐng)域應(yīng)用廣泛且效果較優(yōu)的分類器作對(duì)比,算法的重要參數(shù)設(shè)置如表1 所示,其余參數(shù)使用Python3.8的sklearn庫(kù)中的默認(rèn)參數(shù)。

表1 模型重要參數(shù)設(shè)置表

本實(shí)驗(yàn)采用小批量數(shù)據(jù)集,前14 個(gè)數(shù)據(jù)集的數(shù)據(jù)量為20 000,最后一個(gè)數(shù)據(jù)集的數(shù)據(jù)量為4 807,將每個(gè)數(shù)據(jù)集按照7:3的比例劃分為訓(xùn)練集和測(cè)試集,隨機(jī)種子數(shù)設(shè)置為42。DES-HBOS 的算法參數(shù)設(shè)定如下:箱的個(gè)數(shù)n_bins為10~50之間的隨機(jī)整數(shù),異常比例contamination設(shè)定為0.01,經(jīng)過(guò)參數(shù)調(diào)優(yōu)過(guò)程,確定基分類器數(shù)量η為20。

4.3 評(píng)價(jià)指標(biāo)

異常檢測(cè)結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn):精確率(Precision)、召回率(Recall)、F1以及AUC,這些指標(biāo)常用于不平衡分類問題的模型評(píng)估,值越大,代表模型的分類效果越好。將所有客戶根據(jù)其真實(shí)類別和預(yù)測(cè)類別劃分得到混淆矩陣,如表2所示。

表2 信用卡客戶的混淆矩陣

其中:TN表示被正確分類的正??蛻?;FP表示被錯(cuò)誤分類的正常客戶;FN表示被錯(cuò)誤分類的欺詐客戶;TP表示被正確分類的欺詐客戶。

具體評(píng)價(jià)方式如下:

(1)精確率(Precision)表示被正確分類的欺詐客戶占所有預(yù)測(cè)欺詐客戶的比例,公式如下

(2)召回率(Recall)表示被正確分類的欺詐客戶占所有欺詐客戶的比例,公式如下

(3)F1表示精確率和召回率的調(diào)和平均值,公式如下

(4)AUC 表示ROC(Receiver Operating Characteristics)曲線下方的面積,介于0 到1,值越接近1,說(shuō)明模型的分類性能越優(yōu)。

4.4 消融實(shí)驗(yàn)

考慮DES-HBOS 中的基分類器數(shù)量η對(duì)模型性能的影響,η太大或太小都會(huì)影響模型性能,因此本實(shí)驗(yàn)將η設(shè)置為10,20,30,40,50 進(jìn)行實(shí)驗(yàn),探究η對(duì)模型性能的影響,Recall 和AUC 是DESHBOS在15個(gè)測(cè)試集上的平均值,繪制折線圖如圖2所示。通過(guò)圖2可以看出基分類器數(shù)量對(duì)模型性能的影響較小,Recall 隨η的增加先小幅增加而后降低,AUC 相對(duì)穩(wěn)定,基本在0.95左右波動(dòng),主要原因是η=10時(shí),集成分類器數(shù)目略少,模型性能較弱,隨著η增加,分類器多樣性增加,模型性能有所增強(qiáng),Recall 和AUC 值都有增加,但是η>20 時(shí),Recall 值先保持不變而后下降,AUC 值小幅下降但基本穩(wěn)定,可能是分類器集合中性能較弱的分類器增加導(dǎo)致模型整體性能下降,但因?yàn)镈ES-HBOS擇優(yōu)選擇分類器,所以模型性能相對(duì)穩(wěn)定。

圖2 Recall和AUC關(guān)于η變化圖

當(dāng)η=20時(shí),模型性能較優(yōu),且分類器數(shù)量少使得模型運(yùn)行時(shí)間短,因此本實(shí)驗(yàn)將η的值設(shè)定為20。

4.5 對(duì)比實(shí)驗(yàn)

本實(shí)驗(yàn)使用6 種不同的算法與DES-HBOS 進(jìn)行對(duì)比實(shí)驗(yàn),包括單分類器算法HBOS,KNN,OCSVM,LOF,PCA和靜態(tài)集成算法IForest。在模型訓(xùn)練過(guò)程中,7個(gè)模型在15個(gè)數(shù)據(jù)集上都是基于同一測(cè)試集進(jìn)行評(píng)估,并將7個(gè)模型在15個(gè)測(cè)試集上的各項(xiàng)指標(biāo)值進(jìn)行簡(jiǎn)單平均,實(shí)驗(yàn)結(jié)果如表3所示。

表3 模型對(duì)比結(jié)果

通過(guò)表3 可以發(fā)現(xiàn),DES-HBOS 相比于其他5 種單分類器,Recall 均有較大提升,但Precision 降低即模型的精準(zhǔn)度降低。對(duì)比5種單分類器算法,KNN的表現(xiàn)最好。對(duì)比DES-HBOS、5種單分類器和靜態(tài)集成的實(shí)驗(yàn)結(jié)果,可以看出DES-HBOS 和5 種單分類器普遍優(yōu)于后者,這可能是因?yàn)樵诩蛇^(guò)程中強(qiáng)分類器受到弱分類器的影響,使得靜態(tài)集成算法不如單分類器算法和DES-HBOS算法。

考慮實(shí)際情況,Recall 為商業(yè)銀行最值得關(guān)注的指標(biāo),它反映了被檢測(cè)出來(lái)的欺詐客戶占欺詐客戶的比例,欺詐客戶帶來(lái)的損失成本很高,Recall 的提高可以極大減少損失成本;Precision 降低代表模型將更多正常客戶認(rèn)定為異??蛻?,導(dǎo)致精準(zhǔn)度降低,這種錯(cuò)誤只是造成機(jī)會(huì)成本損失,二者損失不等價(jià),因此Recall的提升能幫助商業(yè)銀行減少高額損失。

在數(shù)據(jù)集標(biāo)簽缺失的情況下,本文提出的DES-HBOS 能相對(duì)有效地檢測(cè)信用卡交易中的異??蛻?,從授信審批方面把好客戶準(zhǔn)入關(guān),以此降低欺詐風(fēng)險(xiǎn)。此外,這一模型檢測(cè)出的異??蛻粜栌缮虡I(yè)銀行的專業(yè)人員進(jìn)行審查,為不同客戶群制定差異化的風(fēng)控策略,通過(guò)技術(shù)防控和人工防控相結(jié)合的方式降低風(fēng)險(xiǎn),以起到防范預(yù)警的作用。

4.6 多個(gè)數(shù)據(jù)集對(duì)比實(shí)驗(yàn)

4.6.1 數(shù)據(jù)描述

為了驗(yàn)證DES-HBOS 在不平衡數(shù)據(jù)集上的通用性,從UCI repository 和KEEL 數(shù)據(jù)庫(kù)中選取了4 個(gè)公開數(shù)據(jù)集,下面簡(jiǎn)單介紹一下這4個(gè)數(shù)據(jù)集。

Breast Cancer Wisconsin(BCW):UCI repository的美國(guó)威斯康星州乳腺癌原始數(shù)據(jù)集,該數(shù)據(jù)集有699個(gè)病例,包括線束厚度、細(xì)胞大小、細(xì)胞形狀、邊緣附著力、單個(gè)上皮細(xì)胞大小、裸核、純白染色質(zhì)、正常核苷酸和有絲分裂這9 個(gè)特征,類別0 表示良性乳腺腫塊,類別1 表示惡性乳腺腫塊,惡性乳腺腫塊有241例,不平衡率為1.9。

Ecoil:UCI repository的蛋白酶裂解位點(diǎn)預(yù)測(cè)數(shù)據(jù)集,該數(shù)據(jù)集有336條肽鏈,包括Mcg、Gvh、Lip、Chg、Aac、Alm1和Alm2這7個(gè)蛋白質(zhì)序列特征,類別0表示非裂解位點(diǎn)上下游的氨基酸構(gòu)成的肽鏈,反之為類別1,類別1包含77條肽鏈,不平衡率為3.36。

Vowel0:KEEL的元音識(shí)別數(shù)據(jù)集,有988條數(shù)據(jù),包括TT、SpeakerNumber、Sex、F0、F1、F2、...、F9這13個(gè)特征,類別0為正樣本,類別1為負(fù)樣本,有90條負(fù)樣本數(shù)據(jù),不平衡率為9.98。

Vehicle0:KEEL 的車型識(shí)別數(shù)據(jù)集,該數(shù)據(jù)集有846 條數(shù)據(jù),包括Compactness、Circularity 等18 個(gè)車輛輪廓特征,類別0為非Van類型的車輛,類別1為Van類型的車輛,類別1有199輛,不平衡率為3.25。

4.6.2 實(shí)驗(yàn)結(jié)果分析

在4 個(gè)公開數(shù)據(jù)集上將DES-HBOS 與HBOS 的異常檢測(cè)效果進(jìn)行對(duì)比,異常比例設(shè)定為0.1,實(shí)驗(yàn)結(jié)果如表4所示。DES-HBOS的Recall均較高,提升了3.1%~19.4%,能將更多的真實(shí)異常點(diǎn)識(shí)別出來(lái);然而從Precision 來(lái)看,兩個(gè)模型的精準(zhǔn)度較為接近;綜合考慮這兩個(gè)指標(biāo)可以使用F1,F(xiàn)1 越大代表檢測(cè)效果越好,DES-HBOS的F1在這4個(gè)數(shù)據(jù)集上均高于HBOS,提升了3.5%~11.8%。綜上所述,DES-HBOS的異常檢測(cè)效果優(yōu)于HBOS。

表4 多個(gè)數(shù)據(jù)集異常檢測(cè)結(jié)果對(duì)比

t-SNE(t-Distributed Stochastic Neighbor Embedding)是Van 等[18]提出的一種數(shù)據(jù)降維與可視化技術(shù),將高維空間數(shù)據(jù)通過(guò)t-SNE 技術(shù)投影到2維或3維空間進(jìn)行可視化。本實(shí)驗(yàn)使用t-SNE 技術(shù)將高維空間數(shù)據(jù)投影至2維平面,圖3是DES-HBOS 在數(shù)據(jù)集BCW 和Vowel0上的異常檢測(cè)結(jié)果,左側(cè)是真實(shí)異常點(diǎn)分布情況,右側(cè)是模型檢測(cè)到的異常點(diǎn)分布情況。數(shù)據(jù)集BCW 的Precision 為1,模型檢測(cè)到的異常點(diǎn)均為真實(shí)異常點(diǎn),而Recall 只有0.346,即大部分真實(shí)異常點(diǎn)沒有被檢測(cè)出來(lái);數(shù)據(jù)集Vowel0 的Recall 為0.71,模型將71%的真實(shí)異常點(diǎn)都識(shí)別出來(lái)了,而Precision 只有0.5,即模型檢測(cè)到的一半異常點(diǎn)是真實(shí)異常點(diǎn)。

圖3 數(shù)據(jù)集BCW和Vowel0的異常檢測(cè)結(jié)果

對(duì)比2個(gè)數(shù)據(jù)集可知,BCW 和Vowel0的真實(shí)異常比例分別為34.48%和9.11%,在樣本標(biāo)簽缺失的情況下,對(duì)數(shù)據(jù)集本身異常比例的不了解將會(huì)對(duì)檢測(cè)結(jié)果造成影響,因此在異常檢測(cè)之前,需要根據(jù)經(jīng)驗(yàn)法則設(shè)定模型的異常比例,可以使檢測(cè)結(jié)果更加準(zhǔn)確。

5 結(jié)語(yǔ)

針對(duì)數(shù)據(jù)集標(biāo)簽缺失且類別分布極不平衡的信用卡欺詐檢測(cè)問題,本文提出一種基于動(dòng)態(tài)集成選擇算法的信用卡審批異常檢測(cè)模型。為了解決標(biāo)簽缺失問題,利用無(wú)監(jiān)督異常檢測(cè)算法構(gòu)造訓(xùn)練集客戶的偽標(biāo)簽,并為了緩解類別分布極不平衡的問題,確定待測(cè)客戶的CR,根據(jù)Pearson 相關(guān)系數(shù)采用CR 代表待測(cè)客戶對(duì)分類器集合中的分類器進(jìn)行性能評(píng)估,將分類性能優(yōu)的多個(gè)分類器融合之后得到一個(gè)強(qiáng)分類器。在真實(shí)信用卡客戶數(shù)據(jù)集和4個(gè)不平衡數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)比其他模型,DES-HBOS的Recall均有提高,能將更多的真實(shí)異常點(diǎn)識(shí)別出來(lái)。在未來(lái)的工作中,可以考慮對(duì)待測(cè)樣本能力區(qū)域確定方法進(jìn)行探究,使得能力區(qū)域與待測(cè)客戶特征更相似,以便找到更優(yōu)的分類器組。

猜你喜歡
欺詐信用卡分類器
關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
警惕國(guó)際貿(mào)易欺詐
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
信用卡資深用戶
信用卡詐騙
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
網(wǎng)購(gòu)遭欺詐 維權(quán)有種法
辦信用卡透支還債夫妻均獲刑10年
公民與法治(2016年6期)2016-05-17 04:10:39
扶沟县| 南川市| 濮阳市| 梁平县| 增城市| 连平县| 廉江市| 安徽省| 盘锦市| 兴义市| 穆棱市| 尼玛县| 高密市| 三江| 宿州市| 台北县| 北安市| 内黄县| 克拉玛依市| 会昌县| 平原县| 黎川县| 朝阳市| 曲阳县| 阿瓦提县| 额济纳旗| 东海县| 黎川县| 阿荣旗| 天峻县| 东安县| 阜宁县| 泾源县| 宁波市| 乃东县| 青冈县| 夹江县| 商都县| 庆元县| 利津县| 修武县|