肖 琨,王 云,張桂剛
1(湖北經(jīng)濟(jì)學(xué)院 信息與通信工程學(xué)院,武漢 430205) 2(中國(guó)科學(xué)院自動(dòng)化研究所,北京 100190)E-mail:guigang.zhang@ia.ac.cn
洗錢(qián)(ML)是指通過(guò)商業(yè)銀行、投資銀行、保險(xiǎn)公司等金融機(jī)構(gòu),對(duì)黑錢(qián)的來(lái)源和性質(zhì)進(jìn)行偽裝和清洗,使非法所得合法化的行為.幾十年來(lái),洗錢(qián)幾乎對(duì)所有國(guó)家都構(gòu)成嚴(yán)重的危害.這不僅是因?yàn)橄村X(qián)涉及的金額巨大,可能?chē)?yán)重破壞一個(gè)國(guó)家的金融體系,并且助長(zhǎng)了其他類(lèi)型犯罪的發(fā)生.而且還因?yàn)槠浣Y(jié)構(gòu)復(fù)雜、發(fā)展迅速,使得檢測(cè)工作很難進(jìn)行.幸運(yùn)的是,人工智能技術(shù)的發(fā)展為提高反洗錢(qián)檢測(cè)系統(tǒng)的效率提供了機(jī)會(huì),并且可以及時(shí)發(fā)現(xiàn)新出現(xiàn)的反洗錢(qián)模式和交易規(guī)則,從而應(yīng)對(duì)這些威脅.
反洗錢(qián)一般分為三個(gè)階段:預(yù)防階段、檢測(cè)與報(bào)告階段和處罰階段.預(yù)防策略包括對(duì)反洗錢(qián)的公眾教育、開(kāi)戶和交易所需的綜合信息、頒布諸如《金融機(jī)構(gòu)反洗錢(qián)條例》等法律.檢測(cè)與報(bào)告是指利用人工智能和數(shù)據(jù)挖掘技術(shù)對(duì)可疑的金融交易進(jìn)行檢測(cè),這也是本文研究的重點(diǎn).處罰階段是指對(duì)被偵查出來(lái)的洗錢(qián)犯罪分子的經(jīng)濟(jì)和刑事處罰.
對(duì)于檢測(cè)與報(bào)告部分,一般通過(guò)在線監(jiān)測(cè)系統(tǒng)進(jìn)行可疑檢測(cè),之后發(fā)送有關(guān)目標(biāo)群體的報(bào)告,以便分析員進(jìn)一步調(diào)查和判斷.目前對(duì)反洗錢(qián)可疑行為檢測(cè)的研究主要集中在開(kāi)發(fā)算法上,以便將潛在的非法交易與合法交易區(qū)分開(kāi)來(lái).但就目前而言,開(kāi)發(fā)一個(gè)能夠識(shí)別非法交易的系統(tǒng),為分析人員提供可靠的參考,可在一定程度上降低勞動(dòng)成本,并且有利于反洗錢(qián)工作的發(fā)展.該系統(tǒng)能根據(jù)交易模式的特征,對(duì)非法交易行為與哪種犯罪有著可靠的預(yù)測(cè).這也是本文主要的研究目的.
信息技術(shù)在反洗錢(qián)工作中的應(yīng)用最早提出于20世紀(jì)90年代.[1]中詳細(xì)介紹了FAI(FinCEN美國(guó)金融犯罪執(zhí)法網(wǎng)絡(luò)的人工智能系統(tǒng)),該系統(tǒng)采用基于規(guī)則的方法對(duì)各類(lèi)金融業(yè)務(wù)進(jìn)行評(píng)估,以識(shí)別反洗錢(qián)和其他犯罪行為.這些規(guī)則主要是通過(guò)專(zhuān)家的知識(shí)和經(jīng)驗(yàn)來(lái)設(shè)定的,這使得它的準(zhǔn)確性高,缺點(diǎn)是它不足以匹配快速發(fā)展的洗錢(qián)方法.因此在此基礎(chǔ)上,通過(guò)進(jìn)一步研究提出了改進(jìn)的檢測(cè)系統(tǒng),提高了檢測(cè)系統(tǒng)的精度、自動(dòng)化程度、靈活性等.例如,[2]提出了一種基于支持向量機(jī)(SVM)的檢測(cè)算法,代替了預(yù)先設(shè)定的規(guī)則,其結(jié)果表明該算法降低了誤報(bào)率.
檢測(cè)系統(tǒng)的改進(jìn)是通過(guò)兩種方式來(lái)實(shí)現(xiàn)的.第一種是開(kāi)發(fā)先進(jìn)的算法,以便根據(jù)客戶的個(gè)人信息更好地分析客戶情況.例如,[3]提出了一種用于洗錢(qián)的決策樹(shù)方法,其結(jié)果證明了該模型的有效性.該方法的是基于從企業(yè)客戶檔案中提取的四個(gè)屬性(行業(yè)、位置、業(yè)務(wù)規(guī)模和客戶購(gòu)買(mǎi)的產(chǎn)品)來(lái)實(shí)現(xiàn)的.[4]提出基于每個(gè)銀行賬戶的交易行為,建立一個(gè)多維自適應(yīng)概率矩陣,并根據(jù)每個(gè)銀行賬戶自身的行為模式進(jìn)行判斷.但由于突發(fā)性并不等于可疑性或違法性,該系統(tǒng)對(duì)AML的檢測(cè)并不總是有所幫助.[5]引入小波分析(Haar 以及 bior3.7),根據(jù)交易的時(shí)間和數(shù)量序列來(lái)衡量客戶的可疑程度.
另一種方式主要在團(tuán)體規(guī)模上改進(jìn)異常檢測(cè)算法.該方法確實(shí)提供了有用的信息,因?yàn)镸L操作總是涉及三個(gè)以上賬戶.[6]介紹了聯(lián)系分析的概念,這意味著要找到個(gè)人之間的關(guān)系,并將他們分為不同的群體,以便于調(diào)查.進(jìn)行分類(lèi)的方法稱(chēng)為聚類(lèi),包括BIRCH[7,8],k-means[9],GDBSCAN[10,11]介紹了使用(半)超監(jiān)視和無(wú)監(jiān)督方法進(jìn)行基于圖的異常檢測(cè)的詳細(xì)和結(jié)構(gòu)化知識(shí).此外,還有一些其它的方法直接應(yīng)用在AML.[12]針對(duì)洗錢(qián)犯罪開(kāi)發(fā)了一種新的解決方案“CORAL for LDCA”(基于相關(guān)性分析的鏈路發(fā)現(xiàn)).[13]提出了CELOF算法(基于聚類(lèi)的局部異常因子),取得了較好的效果.[14]對(duì)ML檢測(cè)領(lǐng)域中應(yīng)用的典型聚類(lèi)算法進(jìn)行了全面總結(jié).另外一些算法也很有效.[15]采用near-k-step neighborhoods方法進(jìn)行網(wǎng)絡(luò)分析.[16]提出了使用從用戶專(zhuān)業(yè)文件和自適應(yīng)模糊系統(tǒng)中提取的特征.[17]引入了SARDBN,它是聚類(lèi)和DBN的組合.[18]用于為合法和非法比特幣交易用戶建立社區(qū).此外,今年還出現(xiàn)了一些新的工具.例如,[19]指出自然語(yǔ)言處理(NLP)在新聞文章、社交媒體等各種信息來(lái)源上的有效性,其所提取的信息有助于AML減少30%的調(diào)查時(shí)間和成本.[20]對(duì)檢測(cè)方法進(jìn)行了綜述,驗(yàn)證了可伸縮圖卷積神經(jīng)網(wǎng)絡(luò)的有效性.
由于目前我國(guó)90%以上的洗錢(qián)[21,22]活動(dòng)和涉案金額都是通過(guò)金融機(jī)構(gòu),特別是商業(yè)銀行,已經(jīng)成為反洗錢(qián)的主要戰(zhàn)場(chǎng),因此銀行賬戶之間的交易是該研究的重點(diǎn).準(zhǔn)備工作包括兩個(gè)部分:根據(jù)交易過(guò)程中顯示的不同特征對(duì)犯罪進(jìn)行分類(lèi),以及從第一手資料中提取特征.然后基于結(jié)合的特征數(shù)據(jù),開(kāi)發(fā)了兩個(gè)模型.一個(gè)是可疑交易監(jiān)控模型.另一個(gè)模型經(jīng)過(guò)培訓(xùn),以確定每一條欺詐(或被認(rèn)定為欺詐)交易信息所涉及的最接近的犯罪類(lèi)型.模型均在監(jiān)督學(xué)習(xí)下訓(xùn)練,并經(jīng)歷了技術(shù)的變化.最后,將這兩個(gè)模型串聯(lián)起來(lái),對(duì)可疑行為進(jìn)行檢測(cè)和分類(lèi),并對(duì)其性能進(jìn)行了測(cè)試.
反洗錢(qián)系統(tǒng)的算法如圖1所示.需要注意的一點(diǎn)是,單獨(dú)使用模型2評(píng)估其性能時(shí),數(shù)據(jù)A的80%用于訓(xùn)練,其余的20%用于測(cè)試.
圖1 反洗錢(qián)系統(tǒng)流程圖Fig.1 Flow chart of AML system
系統(tǒng)算法架構(gòu):
輸入:交易信息數(shù)據(jù)集A,所有欺詐交易數(shù)據(jù)集F;
輸出:S′,A的測(cè)試集A2上可疑交易的識(shí)別和犯罪類(lèi)別的分類(lèi);
步驟:
1.基于數(shù)據(jù)集A創(chuàng)建用戶檔案P;
2.從P中提取關(guān)于每個(gè)事務(wù)的發(fā)起者和接收者的附加特征,并將它們添加到原始數(shù)據(jù)集A中;
3.將A分為訓(xùn)練組A1(80%)和測(cè)試組A2(20%);
4.在模型1上分別采用邏輯回歸,多層感知和梯度增強(qiáng)等方法對(duì)A1進(jìn)行訓(xùn)練,并在A2上進(jìn)行測(cè)試,獲得可疑交易集S;
5.在F-S上訓(xùn)練模型2并在S上進(jìn)行測(cè)試,獲得標(biāo)有相關(guān)犯罪類(lèi)別的可疑交易集S′;
6.返回S′.
出于隱私保護(hù),公共可用數(shù)據(jù)集的缺乏在金融服務(wù)中很常見(jiàn),特別是在貨幣交易領(lǐng)域.幸運(yùn)的是,為了模擬事務(wù)的正常運(yùn)行,目前有幾種基于真實(shí)數(shù)據(jù)生成合成數(shù)據(jù)集的模擬器.在本文采用了Paysim模擬器創(chuàng)建的貨幣交易數(shù)據(jù).它所依賴的樣本是從一家跨國(guó)公司提供的非洲國(guó)家的一個(gè)月財(cái)務(wù)日志中提取的真實(shí)交易.為了使它更真實(shí)可靠,改進(jìn)了一些數(shù)據(jù).財(cái)務(wù)日志中提取的真實(shí)交易.為了使它更真實(shí)可靠,改進(jìn)了一些數(shù)據(jù).
洗錢(qián)與販毒、走私、恐怖主義、腐敗等其他有組織犯罪有著密切的關(guān)系.根據(jù)他們的交易性質(zhì),罪行分為五類(lèi),如表1所示.當(dāng)對(duì)第二種模型進(jìn)行訓(xùn)練時(shí),分類(lèi)結(jié)果將起到標(biāo)簽的作用.
表1 與洗錢(qián)有關(guān)的五大類(lèi)犯罪Table 1 Five main categories of crimes related with money laundering
第一手交易數(shù)據(jù)的特征包括每筆交易的簡(jiǎn)單信息,如表2所示.對(duì)于現(xiàn)實(shí)商業(yè)銀行信息存儲(chǔ)的真實(shí)模式,為了提取更有用的潛在數(shù)據(jù)并提高模型訓(xùn)練的準(zhǔn)確性,基于交易信息建立了用戶檔案,如表3所示.
用戶檔案文件有助于提取客戶的特征.除了個(gè)別參與方,網(wǎng)絡(luò)效應(yīng)可能是反洗錢(qián)檢測(cè)的一個(gè)重要因素,因?yàn)榻灰卓偸前l(fā)生在網(wǎng)絡(luò)上.擁有非零cheat_time的個(gè)體更有可能進(jìn)行另一筆欺詐交易,而與擁有非零cheat_time有聯(lián)系的個(gè)體也會(huì)產(chǎn)生懷疑,但交易邊緣等因素削弱了犯罪的可能性.為了量化地度量這種效果,我們應(yīng)用了一個(gè)名為suspic_cheat的變量,并如公式(1)計(jì)算.
表2 第一手?jǐn)?shù)據(jù)的特征Table 2 Features for the first-hand data
表3 用戶檔案樣本Table 3 User profile example
對(duì)于給定客戶a與交易對(duì)象[b1,b2,…,bn],n具有非零cheat_time,并且每個(gè)bi具有交易對(duì)象[a,c1,c2,…,cni],(ni+1)具有非零cheat_time,suspic_cheat如公式(1)所示:
suspic_cheat= 2×m+ 1 × Σmi
(1)
特征suspic_cheat_org和suspic_cheat_dest代表一個(gè)事務(wù)中兩個(gè)帳戶的suspic_cheat.下面列出了從用戶配置文件派生的其他特征:
frequency_org:交易的頻率,計(jì)算為開(kāi)始交易的客戶的交易總次數(shù).
frequency_dest:交易頻率,計(jì)算為作為交易接收方的客戶的交易總次數(shù).
part_num_org:開(kāi)始交易的人的貿(mào)易伙伴數(shù)量.
part_num_dest:接收交易的人員的貿(mào)易伙伴數(shù)量.
Prct_org:計(jì)算為金額除以old_balance_org.
Prct_dest:計(jì)算為金額除以new_balance_dest.
在舊特征和新特征相結(jié)合之后,交易的最終版本的特征包括:type,amount,old_balance_org,new_balance_dest,is_foreign,suspic_cheat_org,suspic_cheat_dest,frequency_org,frequency_dest,part_num_org,part_num_dest,prct_org,prct_dest和標(biāo)簽:is_fruad(用于ML檢測(cè)模型),fraud_catg(用于ML分類(lèi)模型).
由于金融體系日益復(fù)雜,金融衍生品層出不窮,洗錢(qián)手段正在迅速發(fā)生變化.因此,高水平的檢測(cè)模型將受益于其靈活性.本文采用了三種監(jiān)督學(xué)習(xí)模型:邏輯回歸(LR)、多層感知(MLP)、梯度增強(qiáng)(GB).
被用于訓(xùn)練和測(cè)試的交易信息有168,599條,其中涉及洗錢(qián)的1047條.本文將其中80%的樣本用于訓(xùn)練,20%的樣本進(jìn)行測(cè)試.為了對(duì)模型性能進(jìn)行魯棒性評(píng)估,采用k-fold cross validation,其中k=10.指標(biāo)包括混淆矩陣、準(zhǔn)確率、召回率、F1和AUC.
樣本類(lèi)別(0:167552,1:1047)的不對(duì)稱(chēng)性是反洗錢(qián)研究的一個(gè)常見(jiàn)問(wèn)題,如果處理不當(dāng)會(huì)降低模型的準(zhǔn)確性.LR最容易受到這里采用的三種算法之間的不平衡的影響.如果沒(méi)有采取補(bǔ)救措施,那么將趨向于將所有類(lèi)別歸類(lèi)為類(lèi)別0以最小化損失函數(shù).為了克服這一問(wèn)題,人們開(kāi)發(fā)了幾種方法,如過(guò)度抽樣、抽樣不足、重量變化等.本文應(yīng)用第三種方法,即調(diào)整損失函數(shù)中正樣本和負(fù)樣本的權(quán)重,以平衡兩類(lèi)樣本.結(jié)果表明這是有效的.
測(cè)試集的混淆矩陣如表4-表6所示.精確率,召回率,F1,cross validation scores和AUC如表7所示.圖2顯示了使用LR預(yù)測(cè)的欺詐概率.
表4 邏輯回歸模型的混淆矩陣Table 4 Confusion matrix for logistic regression model
表5 MLP模型的混淆矩陣Table 5 Confusion matrix for MLP model
表6 梯度增強(qiáng)模型的混淆矩陣Table 6 Confusion matrix for gradient boosting model
圖2 使用LR預(yù)測(cè)欺詐概率Fig.2 Predicted probability of fraud using LR
三種型號(hào)的主要參數(shù)如下:
LR:C=50,class_weight={0:0.06,1:0.94},solver=′liblinear′,penalty=′l1′.
MLP:activation=′relu′,max_iter=200,hidden_layer_size=(50,).
GB:max_depth=2,n_estimator=100.
上述結(jié)果表明,該模型在訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集上都具有良好的功能,基本上適用于實(shí)際應(yīng)用.在參數(shù)優(yōu)化過(guò)程中,目標(biāo)設(shè)定為最大化F1分?jǐn)?shù).但在實(shí)際情況下可能會(huì)發(fā)生變化.在大多數(shù)情況下,在線監(jiān)控系統(tǒng)判斷并鎖定目標(biāo)群體之后,人工分析師將根據(jù)他們的經(jīng)驗(yàn)進(jìn)行進(jìn)一步調(diào)查.通過(guò)表7對(duì)3種算法的性能對(duì)比,可以發(fā)現(xiàn)MLP算法的精確率高于LR以及GB.其Train和Test數(shù)據(jù)集的精確率分別達(dá)到了93.90%和95.28%.并且MLP在F1值,Cross validation score,以及AUC的表現(xiàn)均優(yōu)于其它兩個(gè)算法.綜合以上分析,MLP應(yīng)被選作模型一的算法.
為了使該系統(tǒng)更有效和實(shí)用,進(jìn)行了進(jìn)一步的研究.
表7 性能指標(biāo)Table 7 Performance indicators
建立了第二個(gè)模型來(lái)預(yù)測(cè)欺詐交易的最可能犯罪類(lèi)別.用于模型訓(xùn)練的特征與可疑檢測(cè)模型部分相同,標(biāo)簽改為fraud_catg.
對(duì)于多分類(lèi),這里使用了另外三種有監(jiān)督的學(xué)習(xí)技術(shù):支持向量機(jī)(SVM)、LR和MLP.培訓(xùn)和測(cè)試過(guò)程中使用了1047項(xiàng)欺詐交易.其中80%用于訓(xùn)練集,20%用于測(cè)試集.第1,2,3,4,5類(lèi)犯罪的數(shù)量分別為302,214,282,203和46.指標(biāo)包括混淆矩陣,精確率,召回率和F1.
混淆矩陣如等式(2)-式(4)所示.精確率,召回率,F1見(jiàn)表8.
(2)
(3)
(4)
三種型號(hào)的主要參數(shù)如下:
SVM:kernel=′rbf′,decision_function_shape=′ovo′,C=100.
LR:C=100,multi_class=′multinomial′,solver=′sag′.
MLP:activation=′relu′,max_iter=500,hidden_layer_size=(100,).
該模型在訓(xùn)練和測(cè)試數(shù)據(jù)集上表現(xiàn)良好.研究結(jié)果表明,犯罪分類(lèi)對(duì)于模型訓(xùn)練是合理可行的,并且是反洗錢(qián)系統(tǒng)研究多分類(lèi)問(wèn)題的良好開(kāi)端.由表8性能指標(biāo)分析可得出,MLP在精確率、召回率和F1的性能表現(xiàn)優(yōu)于SVM以及LR.因此,模型二選用MLP為多分類(lèi)算法.目前的一個(gè)局限是,隨著經(jīng)濟(jì)和犯罪技術(shù)的發(fā)展,為了保持對(duì)犯罪類(lèi)型預(yù)測(cè)的良好準(zhǔn)確性,對(duì)犯罪類(lèi)型的分類(lèi)應(yīng)該經(jīng)常變化.
表8 性能指標(biāo)Table 8 Performance indicators
在分別評(píng)估了兩種模型的精度后,我們對(duì)模型的性能進(jìn)行了串聯(lián)測(cè)試.圖3顯示了系統(tǒng)的概述.在提取和結(jié)合特征之后,模型1用于從測(cè)試集鎖定可疑交易集S.然后,在欺詐交易集F上訓(xùn)練模型2(這里排除已經(jīng)由模型1檢測(cè)到的欺詐交易,以使模型2的預(yù)測(cè)更有說(shuō)服力).然后利用模型2對(duì)集合S上的犯罪類(lèi)型進(jìn)行分類(lèi),最后將結(jié)果報(bào)告給情報(bào)分析人員,以便進(jìn)一步調(diào)查和判斷.
圖3 系統(tǒng)運(yùn)行框架Fig.3 System framework
基于對(duì)模型一以及模型二的單獨(dú)分析,應(yīng)用MLP來(lái)訓(xùn)練模型1和2的系列.每個(gè)模型的主要參數(shù)如下.
模型1:MLP:activation=′tanh′,max_iter=200,hidden_layer_size=(100,).
模型 2:MLP:activation=′tanh′,max_iter=500,hidden_layer_size=(200,).
混淆矩陣如等式(5)所示.召回率為78.61%,準(zhǔn)確率為74.63%,F1為76.56%.
(5)
結(jié)果表明,性能比較滿意,雖然這兩種模型單獨(dú)使用時(shí)效果都不理想(只有對(duì)詐騙罪的判斷和對(duì)犯罪的分類(lèi)同時(shí)正確時(shí),預(yù)測(cè)才是正確的,這是一個(gè)更嚴(yán)格的要求),它仍然為實(shí)際應(yīng)用和未來(lái)研究具有積極的意義.
本文采用監(jiān)督學(xué)習(xí)的方法,建立了一個(gè)基于交易數(shù)據(jù)的洗錢(qián)檢測(cè)和犯罪類(lèi)別分類(lèi)兩種模型的系統(tǒng).結(jié)果表明,每個(gè)模型對(duì)于樣本數(shù)據(jù)都非常有用,并且對(duì)不同的訓(xùn)練方法表現(xiàn)出良好的魯棒性.當(dāng)模型組合在一起時(shí),可以為手工檢查提供有價(jià)值的參考.用戶可以根據(jù)不同的用途選擇使用哪種模型(或兩者),但在實(shí)踐中需要對(duì)提取的數(shù)據(jù)特征和模型參數(shù)進(jìn)行微調(diào).本文的不足之處在于缺乏真實(shí)的多維數(shù)據(jù).考慮到信息研究需求的高度隱私性,這是該領(lǐng)域的一個(gè)很難解決的問(wèn)題.然而,添加客戶信息(如性別,年齡,工作,位置)的模擬數(shù)據(jù)是可能的,而且會(huì)有很大的貢獻(xiàn).另一個(gè)局限性是缺乏對(duì)各種因素的評(píng)估.例如,可疑水平與個(gè)體的時(shí)間和數(shù)量序列有關(guān),這些交易可以借助于小波分析進(jìn)行測(cè)量.同時(shí),未來(lái)應(yīng)考慮無(wú)監(jiān)督學(xué)習(xí)(例如聚類(lèi)).此外,如何提取適當(dāng)?shù)奶卣鞑糠忠蕾囉谌祟?lèi)對(duì)ML過(guò)程的經(jīng)驗(yàn)和理解,并且在一定程度上顯著影響最終結(jié)果.就研究的局限性而言,需要進(jìn)一步的工作來(lái)改進(jìn)系統(tǒng)的算法和穩(wěn)健性.