機器學習在收單系統(tǒng)信用卡套現(xiàn)偵測中的應用分析

2019-09-18 03:58陳澤瀛于衛(wèi)國

中國科技縱橫 2019年14期

關(guān)鍵詞：機器學習

陳澤瀛于衛(wèi)國

摘要：隨著互聯(lián)網(wǎng)金融的迅猛發(fā)展，交易欺詐手法呈現(xiàn)出快速多變的發(fā)展趨勢，而受制于人力、時間、空間等多種因素，僅憑專家經(jīng)驗的方式難以應對復雜多變的外部風險。為更好適應收單業(yè)務互聯(lián)網(wǎng)化的發(fā)展趨勢，防范各類欺詐風險，需要將以經(jīng)驗驅(qū)動為主導的工作方式轉(zhuǎn)變?yōu)橐詳?shù)據(jù)驅(qū)動為主導的工作方式，通過應用大數(shù)據(jù)、人工智能等技術(shù)將沉淀的數(shù)據(jù)轉(zhuǎn)換成有用的風控模型，提高智能化風險管控能力。本文研究利用機器學習的方法，識別收單業(yè)務中信用卡套現(xiàn)行為，并對建模方法給了完整呈現(xiàn)。

關(guān)鍵詞：風險管理系統(tǒng);機器學習;信用卡套現(xiàn)

中圖分類號：TP181 文獻標識碼：A 文章編號：1671-2064（2019）14-0058-03

1 建模過程

1.1 業(yè)務問題定義

信用卡套現(xiàn)是指在銀行卡收單業(yè)務場景中，商家和持卡人合謀以虛構(gòu)交易的形式消費，然后商家以現(xiàn)金返還給刷卡人。傳統(tǒng)的反信用卡欺詐依賴于專家規(guī)則，需要大量的人工核查成本，并且具有明顯的滯后性。利用機器學習方法構(gòu)建分類器，從大量、高維歷史數(shù)據(jù)中學習套現(xiàn)行為模式，并精準識別存在典型套現(xiàn)行為的商家，打擊此類違法行為。

1.2 數(shù)據(jù)基礎(chǔ)

收單機構(gòu)在業(yè)務過程中積累了大量的商戶數(shù)據(jù)，交易數(shù)據(jù)和樣本數(shù)據(jù)。結(jié)合以往的業(yè)務經(jīng)驗，對這些數(shù)據(jù)進行分析，盡可能的構(gòu)建更多特征來刻畫商戶行為，形成最終特征寬表。本業(yè)務構(gòu)建的特征寬表包含靜態(tài)特征21維，動態(tài)特征979維。動態(tài)特征可按照日期間隔動態(tài)配置為天、周、月、季、年等不同的維度。

1.3 數(shù)據(jù)抽取

在2016年1月至2017年12月的流水數(shù)據(jù)和商戶數(shù)據(jù)基礎(chǔ)上，構(gòu)建特征寬表。由于2016年和2017年黑樣本數(shù)量差距過大，數(shù)據(jù)分布不同，所以選擇2016年數(shù)據(jù)進行建模。訓練集選取2016年2月到2016年7月的樣本，測試集分別選取2016年8，9月的樣本。模型更新測試選取2016年4月到2016年9月的樣本為訓練集，選取2016年10月的樣本為測試集。數(shù)據(jù)抽取為分層采樣，抽取10%的白樣本和100%黑樣本，采樣比例約為1：50。特征寬表樣本數(shù)量分布如表1所示。

按照業(yè)務要求，定義以商戶、日期為一個樣本，每個樣本需要涵蓋商戶過去交易、商戶畫像等特征信息。由于樣本特征都是按天統(tǒng)計的結(jié)果，所以首先需要將流水表里的數(shù)據(jù)按照商戶和日期分組，然后對金額、筆數(shù)等字段進行匯總，從而得到特征寬表。

1.4 分析建模

1.4.1 冗余處理

為了剔除明顯沒有套現(xiàn)風險的白樣本，在數(shù)據(jù)進入模型之前采用一些規(guī)則過濾部分數(shù)據(jù)。原則是在減少少量黑樣本的條件下大幅減少白樣本。方法是首先篩選黑樣本，然后觀察商戶當天信用卡交易筆數(shù)、金額、最大交易金額、交易筆數(shù)占比、商戶分店數(shù)、終端數(shù)的分位數(shù)分布，取值大于等于1/4分位數(shù)的那些樣本。規(guī)則篩選前后樣本數(shù)量（2016-02到2016-12）分布如下。

從上表2可以看出，規(guī)則篩選后，黑樣本減少了約40%，白樣本減少了約90%。事先用規(guī)則剔除樣本的作用有三點：

（1）減少數(shù)據(jù)量，提高模型運算速度，減少模型運算時長。

（2）保證在訓練集抽樣過程中，盡量抽取到與黑樣本較難區(qū)分的白樣本，使模型的訓練更有針對性，提高模型預測精度。

（3）剔除不準確標記的黑樣本，減少錯誤標記對模型的干擾。

1.4.2 異常值控制

建模過程中涉及對樣本數(shù)據(jù)的異常值確認。一般通過大量的統(tǒng)計工作，將明顯異常的觀測值排除出建模樣本，或者采用分位數(shù)來確定數(shù)據(jù)的正常值范圍。樹模型對異常值不敏感，因此當選用GBDT模型來構(gòu)建分類器時，無需對異常值進行處理。

1.4.3 特征選擇

過高的數(shù)據(jù)維度往往增加了模型訓練和預測時的資源消耗，甚至降低模型效果。根據(jù)樹模型輸出的特征重要性排序，通過多次實驗，使用模型輸出的前100個重要特征重新建模，依然能維持甚至提升模型效果。

利用原始特征建立模型，然后根據(jù)模型的輸出對變量重要性進行評估。線性模型系數(shù)通常反應特征對響應變量的影響程度，GBDT模型可以輸出入模特征的重要性，數(shù)值越大表示該特征重要性越強。

1.4.4 模型訓練

使用機器學習平臺構(gòu)建的完整建模流程圖如圖1所示。

HiveTable：從Hive表中讀取帶有標記的特征寬表。

TimeFilter：按時間切分，把特征寬表中數(shù)據(jù)分為訓練集和測試集，以2016-08-01為切分時間點，前6個月的數(shù)據(jù)（2016-2-1到2016-7-31）為訓練集，后1個月數(shù)據(jù)為測試集。

QuataRandomSample：對數(shù)據(jù)進行抽樣。當輸入為訓練集時，表示對訓練集按照某一列進行抽樣。

GbdtClassification：調(diào)用GBDT模型，輸入為抽樣之后的訓練集數(shù)據(jù)。

EvaluateClassificationModel：觀測模型在訓練集中的表現(xiàn)，評估模型效果，默認閾值為0.5。

PredictClassification：對測試集數(shù)據(jù)進行預測。

EvaluateClassificationModelOnly：評估模型預測效果，展示在不同閾值下模型的Precision，Recall，F(xiàn)-Score，Auc等指標。

1.5 模型評估

表3是GBDT模型在相同訓練集條件下不同測試集中的表現(xiàn)結(jié)果。在2016年8月份的測試集中，閾值為0.5時，模型精度和召回分別能達到0.32和0.35。精度和召回兩項指標中套現(xiàn)場景更加注重模型的精度表現(xiàn)，在提高閾值后，模型在多個測試集中的精度均能達到0.5以上。

隨著時間增長，模型效果呈下降趨勢，但整體保持穩(wěn)定。表4顯示了用2016年4月到9月數(shù)據(jù)訓練模型之后，效果有顯著提升。閾值為0.9時，更新之后的模型將精度和召回分別從原來的0.53和0.05提升到了0.66和0.11。因此為了保證模型有較好的預測水平，應該定期對模型進行更新，用最新的數(shù)據(jù)訓練模型。隨著閾值提高，模型召回率在下降，精確率在提升。對精度要求高于召回要求的場景，應該設置較高的閾值，提高黑樣本的置信度。

2 應用分析

現(xiàn)有場景中只設置了規(guī)則，規(guī)則需要經(jīng)驗豐富的業(yè)務專家來設置調(diào)整，并且這個過程需要一定的時間要求和人員能力要求。現(xiàn)有規(guī)則觸發(fā)量大，面對風險交易無法及時阻斷調(diào)查，對于風險交易需要一定的人力去調(diào)查。

機器學習模型系統(tǒng)對于現(xiàn)有規(guī)則系統(tǒng)的主觀經(jīng)驗是一種替代和強化。機器學習模型的方式可以極大的增加預測的準確率，并且在一定程度上可以彌補規(guī)則的短板，模型的輸出是概率值，可根據(jù)實際業(yè)務情況調(diào)整閾值，比較靈活。

在現(xiàn)有的模型中，主要能起到以下幾個作用：

（1）能夠提供及時的預測，提高業(yè)務效率。

（2）能夠輸出套現(xiàn)概率，有利于業(yè)務人員的決策。

（3）能夠?qū)σ?guī)則進行補充，捕捉到大量灰樣本。

3 結(jié)語

一方面，目前模型的效果在以往規(guī)則基礎(chǔ)上提升了十余倍，極大地降低了業(yè)務人員案例核查成本。另一方面，模型仍然有很大的提升空間。優(yōu)化的方向可以參考以下幾點：

（1）本次建模過程中測試過集成模型，具體思路是用第一個模型識別出大量的白樣本，用第二個模型針對性識別預測為黑的樣本，但效果提升不大。未來可以進一步分析該種集成方法的可行性和具體集成模型構(gòu)建方案。

（2）有監(jiān)督模型訓練集抽樣時，先利用聚類方法，從不同的類簇中抽取白樣本，使抽取到的白樣本更能準確代表總體白樣本分布，從而提高模型識別精度。

（3）根據(jù)業(yè)務風險，構(gòu)建更具相關(guān)性的特征，對建模過程多次迭代優(yōu)化。

（4）更進一步分析不同的套現(xiàn)場景，建立各自不同的特征，不同的黑白樣本標注準則，對每個場景分開建模。

（5）對每個分支機構(gòu)單獨建模。

參考文獻

[1] 方向，肖曉飛.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在CRM中的應用研究[J].太原科技，2008（02）：39-40.

[2] 謝平，鄒傳偉.互聯(lián)網(wǎng)金融模式研究[J].金融研究，2012（12）：11-22.

[3] 劉鎮(zhèn).人工智能和機器學習在金融領(lǐng)域的發(fā)展及對金融穩(wěn)定的影響[J].吉林金融研究，2018（02）：36-38.

[4] 吳載斌.互聯(lián)網(wǎng)時代的信用卡欺詐風險管理淺析[J].中國信用卡，2017（04）：15-17.

[5] 蔡文學，羅永豪，張冠湘，鐘慧玲.基于GBDT與Logistic回歸融合的個人信貸風險評估模型及實證分析[J].管理現(xiàn)代化，2017，37（02）：1-4.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

機器學習在收單系統(tǒng)信用卡套現(xiàn)偵測中的應用分析