陳澤瀛 于衛(wèi)國
摘 要:隨著互聯(lián)網(wǎng)金融的迅猛發(fā)展,交易欺詐手法呈現(xiàn)出快速多變的發(fā)展趨勢,而受制于人力、時間、空間等多種因素,僅憑專家經(jīng)驗的方式難以應對復雜多變的外部風險。為更好適應收單業(yè)務互聯(lián)網(wǎng)化的發(fā)展趨勢,防范各類欺詐風險,需要將以經(jīng)驗驅(qū)動為主導的工作方式轉(zhuǎn)變?yōu)橐詳?shù)據(jù)驅(qū)動為主導的工作方式,通過應用大數(shù)據(jù)、人工智能等技術(shù)將沉淀的數(shù)據(jù)轉(zhuǎn)換成有用的風控模型,提高智能化風險管控能力。本文研究利用機器學習的方法,識別收單業(yè)務中信用卡套現(xiàn)行為,并對建模方法給了完整呈現(xiàn)。
關(guān)鍵詞:風險管理系統(tǒng);機器學習;信用卡套現(xiàn)
中圖分類號:TP181 文獻標識碼:A 文章編號:1671-2064(2019)14-0058-03
1 建模過程
1.1 業(yè)務問題定義
信用卡套現(xiàn)是指在銀行卡收單業(yè)務場景中,商家和持卡人合謀以虛構(gòu)交易的形式消費,然后商家以現(xiàn)金返還給刷卡人。傳統(tǒng)的反信用卡欺詐依賴于專家規(guī)則,需要大量的人工核查成本,并且具有明顯的滯后性。利用機器學習方法構(gòu)建分類器,從大量、高維歷史數(shù)據(jù)中學習套現(xiàn)行為模式,并精準識別存在典型套現(xiàn)行為的商家,打擊此類違法行為。
1.2 數(shù)據(jù)基礎(chǔ)
收單機構(gòu)在業(yè)務過程中積累了大量的商戶數(shù)據(jù),交易數(shù)據(jù)和樣本數(shù)據(jù)。結(jié)合以往的業(yè)務經(jīng)驗,對這些數(shù)據(jù)進行分析,盡可能的構(gòu)建更多特征來刻畫商戶行為,形成最終特征寬表。本業(yè)務構(gòu)建的特征寬表包含靜態(tài)特征21維,動態(tài)特征979維。動態(tài)特征可按照日期間隔動態(tài)配置為天、周、月、季、年等不同的維度。
1.3 數(shù)據(jù)抽取
在2016年1月至2017年12月的流水數(shù)據(jù)和商戶數(shù)據(jù)基礎(chǔ)上,構(gòu)建特征寬表。由于2016年和2017年黑樣本數(shù)量差距過大,數(shù)據(jù)分布不同,所以選擇2016年數(shù)據(jù)進行建模。訓練集選取2016年2月到2016年7月的樣本,測試集分別選取2016年8,9月的樣本。模型更新測試選取2016年4月到2016年9月的樣本為訓練集,選取2016年10月的樣本為測試集。數(shù)據(jù)抽取為分層采樣,抽取10%的白樣本和100%黑樣本,采樣比例約為1:50。特征寬表樣本數(shù)量分布如表1所示。
按照業(yè)務要求,定義以商戶、日期為一個樣本,每個樣本需要涵蓋商戶過去交易、商戶畫像等特征信息。由于樣本特征都是按天統(tǒng)計的結(jié)果,所以首先需要將流水表里的數(shù)據(jù)按照商戶和日期分組,然后對金額、筆數(shù)等字段進行匯總,從而得到特征寬表。
1.4 分析建模
1.4.1 冗余處理
為了剔除明顯沒有套現(xiàn)風險的白樣本,在數(shù)據(jù)進入模型之前采用一些規(guī)則過濾部分數(shù)據(jù)。原則是在減少少量黑樣本的條件下大幅減少白樣本。方法是首先篩選黑樣本,然后觀察商戶當天信用卡交易筆數(shù)、金額、最大交易金額、交易筆數(shù)占比、商戶分店數(shù)、終端數(shù)的分位數(shù)分布,取值大于等于1/4分位數(shù)的那些樣本。規(guī)則篩選前后樣本數(shù)量(2016-02到2016-12)分布如下。
從上表2可以看出,規(guī)則篩選后,黑樣本減少了約40%,白樣本減少了約90%。事先用規(guī)則剔除樣本的作用有三點:
(1)減少數(shù)據(jù)量,提高模型運算速度,減少模型運算時長。
(2)保證在訓練集抽樣過程中,盡量抽取到與黑樣本較難區(qū)分的白樣本,使模型的訓練更有針對性,提高模型預測精度。
(3)剔除不準確標記的黑樣本,減少錯誤標記對模型的干擾。
1.4.2 異常值控制
建模過程中涉及對樣本數(shù)據(jù)的異常值確認。一般通過大量的統(tǒng)計工作,將明顯異常的觀測值排除出建模樣本,或者采用分位數(shù)來確定數(shù)據(jù)的正常值范圍。樹模型對異常值不敏感,因此當選用GBDT模型來構(gòu)建分類器時,無需對異常值進行處理。
1.4.3 特征選擇
過高的數(shù)據(jù)維度往往增加了模型訓練和預測時的資源消耗,甚至降低模型效果。根據(jù)樹模型輸出的特征重要性排序,通過多次實驗,使用模型輸出的前100個重要特征重新建模,依然能維持甚至提升模型效果。
利用原始特征建立模型,然后根據(jù)模型的輸出對變量重要性進行評估。線性模型系數(shù)通常反應特征對響應變量的影響程度,GBDT模型可以輸出入模特征的重要性,數(shù)值越大表示該特征重要性越強。
1.4.4 模型訓練
使用機器學習平臺構(gòu)建的完整建模流程圖如圖1所示。
HiveTable:從Hive表中讀取帶有標記的特征寬表。
TimeFilter:按時間切分,把特征寬表中數(shù)據(jù)分為訓練集和測試集,以2016-08-01為切分時間點,前6個月的數(shù)據(jù)(2016-2-1到2016-7-31)為訓練集,后1個月數(shù)據(jù)為測試集。
QuataRandomSample:對數(shù)據(jù)進行抽樣。當輸入為訓練集時,表示對訓練集按照某一列進行抽樣。
GbdtClassification:調(diào)用GBDT模型,輸入為抽樣之后的訓練集數(shù)據(jù)。
EvaluateClassificationModel:觀測模型在訓練集中的表現(xiàn),評估模型效果, 默認閾值為0.5。
PredictClassification:對測試集數(shù)據(jù)進行預測。
EvaluateClassificationModelOnly:評估模型預測效果,展示在不同閾值下模型的Precision,Recall,F(xiàn)-Score,Auc等指標。
1.5 模型評估
表3是GBDT模型在相同訓練集條件下不同測試集中的表現(xiàn)結(jié)果。在2016年8月份的測試集中,閾值為0.5時,模型精度和召回分別能達到0.32和0.35。精度和召回兩項指標中套現(xiàn)場景更加注重模型的精度表現(xiàn),在提高閾值后,模型在多個測試集中的精度均能達到0.5以上。
隨著時間增長,模型效果呈下降趨勢,但整體保持穩(wěn)定。表4顯示了用2016年4月到9月數(shù)據(jù)訓練模型之后,效果有顯著提升。閾值為0.9時,更新之后的模型將精度和召回分別從原來的0.53和0.05提升到了0.66和0.11。因此為了保證模型有較好的預測水平,應該定期對模型進行更新,用最新的數(shù)據(jù)訓練模型。隨著閾值提高,模型召回率在下降,精確率在提升。對精度要求高于召回要求的場景,應該設置較高的閾值,提高黑樣本的置信度。
2 應用分析
現(xiàn)有場景中只設置了規(guī)則,規(guī)則需要經(jīng)驗豐富的業(yè)務專家來設置調(diào)整,并且這個過程需要一定的時間要求和人員能力要求。現(xiàn)有規(guī)則觸發(fā)量大,面對風險交易無法及時阻斷調(diào)查,對于風險交易需要一定的人力去調(diào)查。
機器學習模型系統(tǒng)對于現(xiàn)有規(guī)則系統(tǒng)的主觀經(jīng)驗是一種替代和強化。機器學習模型的方式可以極大的增加預測的準確率,并且在一定程度上可以彌補規(guī)則的短板,模型的輸出是概率值,可根據(jù)實際業(yè)務情況調(diào)整閾值,比較靈活。
在現(xiàn)有的模型中,主要能起到以下幾個作用:
(1)能夠提供及時的預測,提高業(yè)務效率。
(2)能夠輸出套現(xiàn)概率,有利于業(yè)務人員的決策。
(3)能夠?qū)σ?guī)則進行補充,捕捉到大量灰樣本。
3 結(jié)語
一方面,目前模型的效果在以往規(guī)則基礎(chǔ)上提升了十余倍,極大地降低了業(yè)務人員案例核查成本。另一方面,模型仍然有很大的提升空間。優(yōu)化的方向可以參考以下幾點:
(1)本次建模過程中測試過集成模型,具體思路是用第一個模型識別出大量的白樣本,用第二個模型針對性識別預測為黑的樣本,但效果提升不大。未來可以進一步分析該種集成方法的可行性和具體集成模型構(gòu)建方案。
(2)有監(jiān)督模型訓練集抽樣時,先利用聚類方法,從不同的類簇中抽取白樣本,使抽取到的白樣本更能準確代表總體白樣本分布,從而提高模型識別精度。
(3)根據(jù)業(yè)務風險,構(gòu)建更具相關(guān)性的特征,對建模過程多次迭代優(yōu)化。
(4)更進一步分析不同的套現(xiàn)場景,建立各自不同的特征,不同的黑白樣本標注準則,對每個場景分開建模。
(5)對每個分支機構(gòu)單獨建模。
參考文獻
[1] 方向,肖曉飛.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在CRM中的應用研究[J].太原科技,2008(02):39-40.
[2] 謝平,鄒傳偉.互聯(lián)網(wǎng)金融模式研究[J].金融研究,2012(12):11-22.
[3] 劉鎮(zhèn).人工智能和機器學習在金融領(lǐng)域的發(fā)展及對金融穩(wěn)定的影響[J].吉林金融研究,2018(02):36-38.
[4] 吳載斌.互聯(lián)網(wǎng)時代的信用卡欺詐風險管理淺析[J].中國信用卡,2017(04):15-17.
[5] 蔡文學,羅永豪,張冠湘,鐘慧玲.基于GBDT與Logistic回歸融合的個人信貸風險評估模型及實證分析[J].管理現(xiàn)代化,2017,37(02):1-4.