黃鏡霖
摘要:近年來(lái),網(wǎng)上銀行在金融交易中變得越來(lái)越流行。但是欺詐行為也隨之急劇增加,給銀行造成了很大的損失。針對(duì)這種情況,提出了一種新的基于集成學(xué)習(xí)的數(shù)據(jù)挖掘技術(shù)。集成模型包括一組單獨(dú)的分類(lèi)器,它們的預(yù)測(cè)被組合以預(yù)測(cè)新的傳入實(shí)例。我們主要考慮了三個(gè)最新的單個(gè)組件分類(lèi)器:隨機(jī)森林,XGBoost和CNN卷積神經(jīng)網(wǎng)絡(luò)。提出了一種創(chuàng)新的集成學(xué)習(xí)方法,通過(guò)多個(gè)模型的集成,并考慮了數(shù)據(jù)本身的特征,來(lái)提升模型的性能。實(shí)證結(jié)果表明,與單個(gè)組件分類(lèi)器相比,這種集成學(xué)習(xí)的方法在真實(shí)的金融欺詐數(shù)據(jù)上具有優(yōu)越的性能。
關(guān)鍵詞:金融反欺詐;集成學(xué)習(xí);機(jī)器學(xué)習(xí)
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)01-0216-04
1概述
隨著經(jīng)濟(jì)的高速發(fā)展,金融在線(xiàn)交易也持續(xù)增加,隨之帶來(lái)了金融欺詐行為。相對(duì)于合法交易,欺詐交易的數(shù)量很少,但是我們每天數(shù)百萬(wàn)計(jì)的巨大交易量中包含的欺詐交易會(huì)給銀行造成巨大的經(jīng)濟(jì)損失。欺詐檢測(cè)涉及監(jiān)視用戶(hù)群體的行為,以便估計(jì)、檢測(cè)或避免不合法行為。不合法行為是一個(gè)廣義術(shù)語(yǔ),包括違法,欺詐,入侵和賬戶(hù)拖欠。機(jī)器學(xué)習(xí)技術(shù)用于數(shù)據(jù)分析和模式識(shí)別,因此可以在數(shù)據(jù)挖掘應(yīng)用程序的開(kāi)發(fā)中發(fā)揮關(guān)鍵作用。越來(lái)越多的研究人員也在使用機(jī)器學(xué)習(xí)來(lái)檢測(cè)欺詐行為。
在機(jī)器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)算法中,我們的目標(biāo)是學(xué)習(xí)一個(gè)在各個(gè)方面都表現(xiàn)良好的穩(wěn)定模型,但是實(shí)際情況通常并不理想,有時(shí)我們只能獲得具有偏好的單個(gè)弱模型。集成學(xué)習(xí)是在這里結(jié)合多個(gè)弱監(jiān)督模型,以獲得更好,更全面的強(qiáng)監(jiān)督模型。集成學(xué)習(xí)的潛在思想是,即使一個(gè)弱分類(lèi)器得到錯(cuò)誤的預(yù)測(cè),其他弱分類(lèi)器也可以糾正此錯(cuò)誤。
Stacking是用于構(gòu)造集成模型的常見(jiàn)集成學(xué)習(xí)方法。分類(lèi)器集合是指一組分類(lèi)器,其各個(gè)決策以某種方式組合在一起以對(duì)新實(shí)例進(jìn)行分類(lèi)。Stacking將多個(gè)分類(lèi)器組合在一起,得到新的集成學(xué)習(xí)模型?;诸?lèi)器通常會(huì)產(chǎn)生不同的分類(lèi)錯(cuò)誤。因此,集成模型成功學(xué)會(huì)了何時(shí)信任單個(gè)基分類(lèi)器的結(jié)果來(lái)提高整體的性能。
在本文中,我們主要考慮了三個(gè)基分類(lèi)器:隨機(jī)森林,XGBoost和卷積神經(jīng)網(wǎng)絡(luò)(cNN)。然后我們提出了一種創(chuàng)新的集成學(xué)習(xí)方法,即基于邏輯組合的集成方法。為了展示該方法的性能,我們與傳統(tǒng)的機(jī)器學(xué)習(xí)方法做對(duì)比,我們的集成模型在檢測(cè)欺詐行為的F1-score和G-means兩項(xiàng)指標(biāo)都優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)分類(lèi)器。
2研究現(xiàn)狀
目前,已經(jīng)有學(xué)者提出了相關(guān)機(jī)器學(xué)習(xí)方法來(lái)克服這些挑戰(zhàn)。Kokkinakit61提出了決策樹(shù)和布爾邏輯函數(shù)來(lái)表征正常交易模式,以檢測(cè)欺詐性交易。但是,無(wú)法識(shí)別某些類(lèi)似于合法交易模式的欺詐交易。因此,神經(jīng)網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)”被提出。Ghosh使用神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)信用卡欺詐。貝葉斯信任網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)也已被引入以解決該問(wèn)題。但是這些模型用于檢測(cè)欺詐行為過(guò)于復(fù)雜,并且極有可能過(guò)度擬合。為了揭示欺詐交易的潛在模式并避免模型過(guò)度擬合,Kang Fu使用卷積神經(jīng)網(wǎng)絡(luò)有效地減少了特征冗余。
2.1CNN卷積神經(jīng)網(wǎng)絡(luò)
因?yàn)镃NN模型適合訓(xùn)練大量數(shù)據(jù),并且具有避免模型過(guò)度擬合的機(jī)制。卷積神經(jīng)網(wǎng)絡(luò)已成功應(yīng)用于某些領(lǐng)域,例如圖像分類(lèi)和語(yǔ)音信號(hào)處理。但是,并非所有類(lèi)型的數(shù)據(jù)都適用于CNN模型。針對(duì)這點(diǎn),提出了特征變換的方法來(lái)適應(yīng)CNN模型。信用卡交易的功能可以分為幾個(gè)組。每個(gè)組在不同的時(shí)間窗口具有不同的特征。不同時(shí)間窗口的相同特征類(lèi)型的兩個(gè)特征具有很強(qiáng)的關(guān)聯(lián)性。因此,在特征矩陣中,這兩個(gè)特征設(shè)置在靠近的位置。原始特征是一維的,我們需要將它們重塑為特征矩陣,其中行代表不同的特征類(lèi)型,列代表不同的時(shí)間窗口,如圖1。
2.2集成學(xué)習(xí)
Stacking是一種集成學(xué)習(xí)技術(shù),其中將子模型集合的預(yù)測(cè)作為第二級(jí)學(xué)習(xí)算法的輸入。該第二級(jí)算法經(jīng)過(guò)訓(xùn)練,可以最佳地組合子模型來(lái)預(yù)測(cè)最終的預(yù)測(cè)集。許多機(jī)器學(xué)習(xí)從業(yè)者已經(jīng)成功使用Stacking和相關(guān)集成學(xué)習(xí)技術(shù)來(lái)將預(yù)測(cè)準(zhǔn)確性提高到任何單個(gè)模型都到達(dá)不了的水平。建模人員也已經(jīng)成功地將Stacking其應(yīng)用于各種問(wèn)題,包括化學(xué)計(jì)量學(xué),垃圾郵件過(guò)濾和從UCI機(jī)器學(xué)習(xí)存儲(chǔ)庫(kù)提取的大量數(shù)據(jù)集。Neff-lix Prize競(jìng)賽是模型集成功能的最新杰出代表。約瑟夫·西爾(Joseph Sill)提出了特征加權(quán)線(xiàn)性Stacking(FWLS),與標(biāo)準(zhǔn)線(xiàn)性Stacking相比,其準(zhǔn)確性顯著提高。
3組合式集成學(xué)習(xí)模型
3.1問(wèn)題分析
集成學(xué)習(xí)方法(stacking)旨在通過(guò)混合來(lái)自多個(gè)機(jī)器學(xué)習(xí)模型的預(yù)測(cè)結(jié)果來(lái)提高模型的性能。來(lái)自每個(gè)單個(gè)模型的預(yù)測(cè)結(jié)果是元特征,這些元特征作為第二層分類(lèi)器的輸入。但是僅考慮元特征是不夠的。數(shù)據(jù)本身的特征也很重要。在這里,我們提出一種組合方法,使用多個(gè)模型的組合來(lái)重建訓(xùn)練數(shù)據(jù)。同時(shí)考慮了元特征和數(shù)據(jù)本身的特征。組合方式代表了不同模型之間的互補(bǔ)性。
3.2方法
表1顯示了我們所使用特征的詳細(xì)信息。所有這些特征都是從原始交易數(shù)據(jù)中提取的。我們使用3個(gè)最先進(jìn)的分類(lèi)器作為基本分類(lèi)器:隨機(jī)森林,XGBoost和CNN卷積神經(jīng)網(wǎng)絡(luò)。CNN卷積神經(jīng)網(wǎng)絡(luò)使用圖1中特征矩陣作為模型的輸入,特征可以分為幾組。每個(gè)小組在不同的時(shí)間范圍內(nèi)具有不同的功能:30分鐘,1小時(shí),2小時(shí),1天,3天,1周,2周和1個(gè)月。在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的過(guò)程中,所有原始交易特征都將轉(zhuǎn)換為9x9特征矩陣。
3.3集成模型
3.3.1離線(xiàn)訓(xùn)練
3.3.2在線(xiàn)測(cè)試
如圖3所示,說(shuō)明了我們系統(tǒng)的測(cè)試部分。我們使用預(yù)先訓(xùn)練的分類(lèi)器來(lái)生成交易類(lèi)標(biāo)簽。此標(biāo)簽的值是1到18,表示組合的類(lèi)型。然后,選擇器將通過(guò)這種組合類(lèi)型選擇基本分類(lèi)器。例如,一個(gè)交易的多類(lèi)結(jié)果為10,如表2所示,我們將此交易放入c1,c2和C3(Ci代表第i個(gè)基分類(lèi)器預(yù)測(cè)結(jié)果1,邏輯組合結(jié)果c1或c2或c3的值是最終的預(yù)測(cè)結(jié)果。
3.3.3重構(gòu)訓(xùn)練數(shù)據(jù)
在訓(xùn)練的第二部分中,我們將交易數(shù)據(jù)重構(gòu)為多個(gè)交易數(shù)據(jù)。對(duì)于每個(gè)重構(gòu)的交易數(shù)據(jù),我們保留其特征,但更改其標(biāo)簽。交易數(shù)據(jù)的新標(biāo)簽為ny(I<=ny<=18),表示三個(gè)基本分類(lèi)器的第ny組合可以正確識(shí)別此交易數(shù)據(jù)。一個(gè)示例如圖4所示。
3.3.4調(diào)度優(yōu)化
對(duì)于一個(gè)實(shí)時(shí)在線(xiàn)交易欺詐檢測(cè)系統(tǒng),時(shí)延是一個(gè)非常重要的指標(biāo),為了降低系統(tǒng)運(yùn)行時(shí)間,我們提出了一種調(diào)度優(yōu)化方法。如圖5所示。選擇器同時(shí)維護(hù)三個(gè)進(jìn)程隊(duì)列,隊(duì)列中的每一列代表同一條交易,數(shù)字1,2,3,...代表唯一的一條交易id,x代表當(dāng)前基分類(lèi)器沒(méi)有被選擇。一條新到來(lái)的交易數(shù)據(jù)無(wú)須等待上一條交易數(shù)據(jù)預(yù)測(cè)完成,因此,所有的交易都會(huì)被很快的發(fā)送給選擇器。不僅如此,基學(xué)習(xí)器c1,c2,c3也不需要等待別的基學(xué)習(xí)器完成預(yù)測(cè)。它們持續(xù)執(zhí)行分類(lèi)操作直到在它們的隊(duì)列中不再有新的交易數(shù)據(jù)傳入。
4實(shí)驗(yàn)結(jié)果
我們的實(shí)驗(yàn)基于真實(shí)的交易數(shù)據(jù)。我們?cè)诨诸?lèi)器和集成分類(lèi)器之間進(jìn)行了對(duì)比實(shí)驗(yàn)。
4.1數(shù)據(jù)集
為了評(píng)估所提出的方法,我們使用了來(lái)自某銀行的真實(shí)在線(xiàn)交易數(shù)據(jù)。所有交易于2017年4月至6月進(jìn)行。如表3所示。
4.2評(píng)價(jià)指標(biāo)
我們主要采用打擾率、召回率、F1-Score和G-mean作為欺詐檢測(cè)效果的評(píng)價(jià)指標(biāo)。表4為混淆矩陣,代表分類(lèi)正確和分類(lèi)錯(cuò)誤的交易,通過(guò)混淆矩陣,我們給出了打擾率、召回率、F1-Score以及G-mean的計(jì)算公式。
我們使用訓(xùn)練集訓(xùn)練基分類(lèi)器(隨機(jī)森林,XGBoost,CNN),然后將測(cè)試集分為兩部分,即測(cè)試集的前四分之三和后四分之一,并將基分類(lèi)器測(cè)試結(jié)果作為集成模型訓(xùn)練的基分類(lèi)器。測(cè)試集的最后四分之一作為集成模型分類(lèi)器的測(cè)試集。結(jié)果如表5所示,從結(jié)果來(lái)看,我們的集成學(xué)習(xí)模型優(yōu)于所有當(dāng)前的單獨(dú)分類(lèi)器。在真實(shí)金融數(shù)據(jù)集上十分有效。
5結(jié)束語(yǔ)
本文介紹了一種新的基于集成學(xué)習(xí)的金融反欺詐模型,我們使用集成學(xué)習(xí)的方法,挖掘用戶(hù)行為關(guān)聯(lián)特征,設(shè)計(jì)和選擇子機(jī)器學(xué)習(xí)模型,使用更具有現(xiàn)實(shí)意義的線(xiàn)上方法構(gòu)建欺詐檢測(cè)系統(tǒng)。我們主要?jiǎng)?chuàng)新在于利用多個(gè)模型融合的方法,并且綜合利用了原始數(shù)據(jù)的多元特征,實(shí)現(xiàn)面向數(shù)據(jù)各個(gè)特性的維度的融合。這種新穎的線(xiàn)上欺詐檢測(cè)方法具有很好應(yīng)用價(jià)值與潛在經(jīng)濟(jì)效益。