高赫
(北京金融安全產(chǎn)業(yè)園,北京 100005)
經(jīng)濟全球化不斷深入,為各參與方帶來顯著收益,中國近幾十年的發(fā)展成就便是極好例證。但與此同時,洗錢犯罪等負面效應也日漸顯現(xiàn),不僅影響到金融業(yè)健康發(fā)展,也嚴重破壞經(jīng)濟秩序。銀行體系作為洗錢犯罪的常見領域,應得到尤其重視。當前,常見的反洗錢手段仍是依據(jù)既有案例,手動篩查疑似交易,耗時耗力。
隨著大數(shù)據(jù)和AI技術的發(fā)展,銀行數(shù)據(jù)資產(chǎn)價值日益凸顯,將大數(shù)據(jù)和AI相結合,完善補充現(xiàn)有反洗錢規(guī)則,縮小審查范圍,降低審查成本,是極為有益的嘗試。本次研究致力于探索在構造關聯(lián)網(wǎng)絡的基礎上,應用圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network,GCN),建立反洗錢模型。
洗錢是通過隱瞞、掩飾非法資金的來源和性質,通過某種手法把它變成看似合法資金的行為和過程?!吨腥A人民共和國反洗錢法》第二條規(guī)定:反洗錢是指為了預防通過各種方式掩飾、隱瞞毒品犯罪、黑社會性質的組織犯罪、恐怖活動犯罪、走私犯罪、貪污賄賂犯罪、破壞金融管理秩序犯罪、金融詐騙犯罪所得及其收益的來源和性質的洗錢活動,依法采取相關措施的行為。
反洗錢風險監(jiān)測方法的演進大致經(jīng)歷了四個階段,即純人工判斷、規(guī)則策略引擎、量化指標引擎,以及本文討論的人工智能引擎。當前,傳統(tǒng)金融機構大多處于量化指標引擎向人工智能引擎過渡階段,仍有較為明顯的局限性,無法覆蓋全部業(yè)務場景和各類洗錢手段。而洗錢團伙通過有針對性地偽裝,可有效規(guī)避既有規(guī)則,甚至人為操控關鍵量化指標,對金融機構造成誤導,成為反洗錢工作的一大挑戰(zhàn)。
本次研究基于賬戶歷史交易數(shù)據(jù),構建洗錢行為識別模型,對疑似案件及時預警。
在反洗錢應用領域,KNN、SVM、RF、GBDT、XgBoost等有監(jiān)督機器學習模型,是以專家打好標簽的歷史樣本為基礎進行學習,包括客戶的年齡、性別、交易方式、交易額等,最終得到一個分類器,將嫌疑交易和正常交易分離。而K-means、Apriori、FP-Growth、DBSCAN等無監(jiān)督模型,則不依賴任何標簽信息,而是根據(jù)數(shù)據(jù)點特征,歸納關聯(lián)關系,或尋找異常點。半監(jiān)督學習綜合上述兩類模型的優(yōu)勢,將少量專家標注樣本與大量無標簽數(shù)據(jù)結合,訓練出更具強泛化能力的模型,GCN則是近期較為流行的一種基于圖數(shù)據(jù)結構的半監(jiān)督學習方法。
洗錢通常依賴團伙協(xié)作,樣本之間關聯(lián)度高,且樣本間的關聯(lián)又含有重要風險信息。針對此類場景,可將樣本間關聯(lián)信息組成復雜網(wǎng)絡,再使用GCN模型處理。
主要技術實現(xiàn)步驟如下:
(1)數(shù)據(jù)處理:數(shù)據(jù)樣本大小為7185萬,來自合作金融機構近18個月發(fā)生的交易,訓練集為前15個月,測試集為后3個月。通過數(shù)據(jù)預處理將多源異構數(shù)據(jù)轉為模型可識別的數(shù)據(jù)結構。
(2)特征工程:將原始數(shù)據(jù)轉為可更好表示業(yè)務邏輯的特征,便于算法模型直接使用,以提高機器學習性能。
(3)模型構建:基于上述數(shù)據(jù)源,綜合運用關聯(lián)網(wǎng)絡和GCN模型進行學習建模,最終訓練出穩(wěn)定且符合預期的識別模型。
原始數(shù)據(jù)包含經(jīng)脫敏的賬戶基礎信息、交易信息、主案例表、可疑案例表等。
數(shù)據(jù)處理主要包括數(shù)據(jù)的提取、轉換及加載(Extract-Transform-Load,ETL),清除重復部分,修正/移除錯誤數(shù)據(jù),補充缺失數(shù)據(jù),為后續(xù)建模環(huán)節(jié)做準備。本次處理工作主要涉及3部分:缺失值、異常值和噪音[1]。
缺失值主要包含兩類:數(shù)值型和字符型。數(shù)值型變量缺失值可以通過總體均值填充、類均值填充、回歸預測填充等方法實現(xiàn)。本次研究采用總體均值結合業(yè)務實際進行填充。字符型變量缺失值則一律設為空值。
異常值即取值較極端或出現(xiàn)頻率極低的變量點。處理方法如下:
(1)統(tǒng)計量計算:通過計算樣本數(shù)據(jù)的統(tǒng)計量,判斷異常值的取值是否超出了合理的取值范圍,如客戶年齡為負值,或超出常見平均壽命等。
(2)業(yè)務邏輯判定:對于具有業(yè)務實際意義的數(shù)值變量,根據(jù)業(yè)務邏輯處理;字符型變量則基于樣本分布,結合業(yè)務邏輯處理。
噪音指樣本中的錯誤或異常數(shù)據(jù),無實際意義,且會對數(shù)據(jù)分析造成干擾。有2種處理方法:
(1)分箱法:考察噪音數(shù)據(jù)的臨近值來排除干擾。按照屬性值劃分子區(qū)間,將相同屬性值放入對應子區(qū)間(“箱子”)內,并考察每個箱子中的數(shù)據(jù),分別對各箱中數(shù)據(jù)進行局部光滑。常見的有均值光滑、中位數(shù)光滑或邊界值光滑。
(2)回歸法:用函數(shù)擬合數(shù)據(jù)實現(xiàn)噪聲點光滑,即通過回歸得到合適的表達式,從而消除噪聲。
特征工程主要從客戶畫像、賬戶狀態(tài)、交易動態(tài)三大維度進行分析。
主要考察:賬戶類型(個人、公司)、個人賬戶是否“三地一致”(開戶地、身份證歸屬地、手機號碼歸屬地),對公賬戶注冊資金額度,是否外籍開戶人姓名異常,開戶人年齡,是否為離岸賬戶,是否外籍客戶來自高風險國家,外籍個人客戶英文名稱類似公司名稱,開戶日期距離案例天數(shù)以及洗錢風險等級等。
主要考察:交易量是否存在激增,是否涉及多類幣種,是否存在外幣大額高頻提現(xiàn)(如頻率大于5次/周且額度大于等值10000美元),是否存在大額轉入分次轉出(如小額POS消費),是否余額頻繁降至10元以下等。
4.3.1 交易金額
主要考察:是否交易金額有特殊性(如為千元或萬元整數(shù)倍、折合美元為千元或萬元整數(shù)倍、特定金額的整數(shù)倍或接近倍數(shù)、個人賬戶貸方特定金額占比高、個人賬戶借方特定金額占比高等),特殊金額段轉入、轉出金額及在總額中占比多少,小額試探的筆數(shù)及占比多少,轉入、轉出金額的統(tǒng)計特征,相鄰交易額差值、絕對差值的統(tǒng)計特征等。
4.3.2 交易筆數(shù)
主要考察:轉入、轉出筆數(shù)及在總筆數(shù)中的占比,是否存在單日等額特定金額存取各1筆,是否存在同網(wǎng)點單日多賬戶存取各一筆,跨境交易筆數(shù)及占比,跨境交易金額及占比,是否存在個人客戶外幣多筆大額交易,是否存在公職人員多筆大額交易,是否存在個人貸方多筆大額交易等。
4.3.3 交易時間差
主要考察:相鄰交易時間間隔的統(tǒng)計特征。
4.3.4 交易對手
主要考察:是否交易對手眾多且涉及多省,單個賬戶的對手個數(shù),與特定對手連續(xù)及分散交易的次數(shù),對手中公司和個人的數(shù)量及比例等。
常見的數(shù)據(jù)特征及對應的處理方法如表1所示。
表1 常見的數(shù)據(jù)特征及對應的處理方法
針對個人和公司賬戶,借助格蘭杰因果關系(Granger causality test)方法[2]構建關聯(lián)網(wǎng)絡[3]。
采用非參數(shù)格蘭杰因關系檢驗方法,采用有向二值方式定義賬戶間連接數(shù),并進行關聯(lián)檢驗。即:
通過循環(huán)測算連結數(shù)可判斷在不同時段各賬戶間關聯(lián)程度,并構建下述網(wǎng)絡中心性度量和關聯(lián)網(wǎng)絡度量,以測度各賬戶間關聯(lián)水平。
5.1.1 網(wǎng)絡中心性
將每一賬戶視作一個節(jié)點,從關系角度給出衡量單一賬戶網(wǎng)絡中心性的量化指標:度數(shù)中心度和中介中心度。
前者衡量的是與單一節(jié)點直接相連的節(jié)點數(shù),賬戶的度數(shù)中心度越高,則與其直接相關聯(lián)的賬戶越多,該賬戶在網(wǎng)絡中更接近中心位置,對其余賬戶影響范圍更大。
后者是單一節(jié)點在其他兩相關節(jié)點關聯(lián)路徑內作為中介節(jié)點的個數(shù),如果某節(jié)點經(jīng)常出現(xiàn)在其他節(jié)點關聯(lián)路徑中,則中介中心度越高,該賬戶在系統(tǒng)內更能推動信息向其他節(jié)點傳播。
5.1.2 關聯(lián)網(wǎng)絡
根據(jù)非參數(shù)格蘭杰因果關系檢驗,可判斷非參數(shù)格蘭杰因果關聯(lián)水平(Degree of Nonparametric Granger Causality,DGC),即賬戶關聯(lián)關系緊密度,其數(shù)值越大,則關系越密切。對于N個賬戶間可能存在的最大關聯(lián)數(shù)目為N(N-1),計算公式:
為測度單個賬戶與系統(tǒng)的連結度情況,特定義以下3個指標:
其中,j表示第j個賬戶,s表示賬戶系統(tǒng)。Out表示系統(tǒng)中賬戶j是其他賬戶非線性格蘭杰影響原因的個數(shù),In表示其他賬戶是賬戶j的非線性格蘭杰影響原因的個數(shù)。In+Out為2個指標之和的均值。
為測度不同賬戶間的連結情況,特定義以下3個指標:
其中,α,β分別代表不同類型的賬戶。Out-to-other表示由賬戶j非線性格蘭杰影響非本類型賬戶i的個數(shù);In-from-other表示賬戶j被非本類型賬戶i非線性格蘭杰影響的個數(shù);In+Out-other為前2個指標之和的均值。
在賬戶關聯(lián)網(wǎng)絡的基礎上應用圖卷積神經(jīng)網(wǎng)絡算法訓練模型[4],基本原理為:
假設有N層網(wǎng)絡,每層輸出記為H(1),H(2),…,H(N)。令A為圖的鄰接矩陣,H(0)=X,X為圖上節(jié)點的特征,則計算過程如下:
其中,W為每層網(wǎng)絡權重,P為計算出的樣本標簽分布(預測分布)。在反洗錢模型中,對P取交叉熵作為上述GCN的Loss函數(shù)。
采用反向傳播算法對該網(wǎng)絡參數(shù)進行學習,設GCN深度為1,學習率為0.001,正則化系數(shù)為10,對關聯(lián)網(wǎng)絡中的賬戶進行識別。
在測試集上的部分測試結果如表2所示。
表2 測試結果
重復30次測試,F(xiàn)1均值為0.952,表明模型對疑似洗錢行為有較好識別力。
本次研究采用關聯(lián)網(wǎng)絡及GCN模型,可較準確識別疑似洗錢行為,有助于提升金融機構服務能力和監(jiān)管效率。隨著更多的專家指標和交易信息納入數(shù)據(jù)集,全面綜合人、交易、行為等數(shù)據(jù),持續(xù)優(yōu)化賬戶洗錢風險評估方式及可疑交易認定方法,可進一步提高洗錢識別的有效性,建立完善的反洗錢風控體系,提升對監(jiān)管要求和風險監(jiān)測的精準把控。