国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于隨機森林的可疑交易檢測方法

2021-03-24 02:05:52李林瑛孫永義
關(guān)鍵詞:特征選擇分類器交易

盧 睿,李林瑛, 孫永義

(1. 遼寧警察學院 信息系,遼寧 大連 116036;2. 大連外國語大學 軟件學院,遼寧 大連 116044)

0 引言

目前,金融欺詐犯罪案件高發(fā),但損失的追回率低,全球每年僅因信用卡詐騙遭受的損失就達數(shù)億美元.對可疑的交易進行識別并報告,不僅是金融機構(gòu)減少損失的關(guān)鍵活動,也是公安機關(guān)打擊新型詐騙、進行案件調(diào)查的一項重要手段.可疑交易的檢測是一項非典型的分類和預測任務.許多研究已經(jīng)表明,將為某個特定行業(yè)、市場或國家而準備的模型應用于其他環(huán)境并不可行[1],因此在現(xiàn)實工作中可疑交易的檢測任務需要采用特定的方法.

目前,實踐中采用的一些監(jiān)測指標和模型設(shè)計存在針對性不足、未能充分結(jié)合用戶地區(qū)、職業(yè)、年齡與賬戶交易等進行綜合評價等情況.可疑交易檢測的研究也面臨很多限制,其中一項重要限制是缺乏真實數(shù)據(jù)集.原因是出于隱私保護,金額機構(gòu)不會將客戶交易數(shù)據(jù)輕易公布出來.另外,合法交易和非法交易的統(tǒng)計屬性隨時間變化,新特征不斷出現(xiàn),分類器需要具有更高適用性.另一方面可疑交易數(shù)據(jù)庫是典型高度不平衡的數(shù)據(jù)集合,即合法交易的數(shù)據(jù)量遠遠超過非法或欺詐交易的數(shù)據(jù)量.通常在真實交易數(shù)據(jù)中,98%的交易是合法的,只有2%的交易為欺詐交易[2].對可疑交易檢測任務而言,一項核心挑戰(zhàn)是合理處理非典型特征,即眾多合法交易中只有少量非法交易樣本可以用于學習.這一特點使傳統(tǒng)的學習方法習得的分類器表現(xiàn)不佳,檢測需要在不平衡樣本環(huán)境下研究分類方法.

本文針對可疑信用卡詐騙犯罪偵查中的可疑交易檢測分類問題,通過考察不同參數(shù)環(huán)境下屬性重要性的敏感性,結(jié)合隨機森林方法進行特征選擇,構(gòu)建了可疑交易的檢測模型和方法,在不平衡數(shù)據(jù)集下進行了分類預測,并通過實驗對方法進行驗證.

1 相關(guān)研究綜述

可疑交易檢測需要圍繞特定業(yè)務,檢測方法是機器學習和計算智能領(lǐng)域廣泛關(guān)注的問題.但是目前公開可用的方法數(shù)量相當少見,大多數(shù)算法都在內(nèi)部隱藏模型的細節(jié).在可見文獻中,貝葉斯算法、K-Nearest Neighbor、支持向量機等方法被應用于檢測過程,均嘗試在提高詐騙檢測率的同時降低誤報率.目前的研究主要分為監(jiān)督學習方法和無監(jiān)督學習方法.

無監(jiān)督學習方法中沒有有關(guān)欺詐和合法的預先定義好的分類標簽,分類器通過檢測異常模式與正常交易模式之間的顯著偏差來判斷新樣本的類別.將異?;蚍闯=灰滓暈闈撛诘脑p騙交易實例,如果某個客戶的新交易未分配給普通客戶組,則會針對該交易發(fā)出警報[3].無監(jiān)督技術(shù)包括Peer Group Analysis[4]和自組織映射[5].

監(jiān)督學習在有分類標簽的情況下學習,基于已經(jīng)標記為詐騙和正常交易的樣本訓練分類模型,然后使用分類器模型對新交易的可疑性進行判斷.最普遍的監(jiān)督學習技術(shù)是人工神經(jīng)網(wǎng)絡(luò)(ANN)[6-7],優(yōu)點是性能高,缺點是黑盒模型缺乏解釋性.

近年來集成方法在欺詐方面表現(xiàn)良好[8-10],其核心是利用學習方法訓練出多個分類器并以相應的方法進行組合.當需要學習的特征較多時,集成學習中的隨機森林(Random Forest)方法的效果顯著[11-12].其他用于欺詐監(jiān)督學習的技術(shù)是元學習[13]、基于案例推理方法[14]、貝葉斯信念網(wǎng)絡(luò)[15]、決策樹[6,16-17]、邏輯回歸[6,8]、隱馬爾可夫模型[18]、關(guān)聯(lián)規(guī)則[19]、支持向量機[8]、貝葉斯最小風險[5,21]和遺傳算法[22].

雖然監(jiān)督學習方法是被使用最多的信用卡欺詐檢測方法,但存在較大風險.因為根據(jù)歷史數(shù)據(jù)得到的模型只能檢測出曾經(jīng)出現(xiàn)過的詐騙方式或手段,但無法發(fā)現(xiàn)未出現(xiàn)過的詐騙或手段和方式發(fā)生變化的詐騙交易.與大多數(shù)集合創(chuàng)建技術(shù)僅借助一種類型的分類器進行不同,另一思路是將幾種不同類型的分類器系統(tǒng)加以組合.這些分類器系統(tǒng)可以在相同或不同的模型和數(shù)據(jù)集上構(gòu)建,使用不同規(guī)則和信息抽取方法的組合來做出分類決策,其性能可優(yōu)于只采用一種分類器的傳統(tǒng)方法.基于不同分類器創(chuàng)建集合的方法稱為多分類器系統(tǒng),目前也得到了積極的研究[23].

2 基于隨機森林的特征選擇

特征選擇的目的之一是為提高分類預測的準確性,二是需要從候選屬性集中識別出與分類結(jié)果最為相關(guān)的屬性或最具信息性的屬性,去除對分類結(jié)果影響不大或沒有影響的屬性.通常有以下變量選擇方法:特征過濾、包裝篩選和嵌入式方法.

本文針對兩個目標進行特征選擇,一是找出與反應變量高度相關(guān)的重要變量進行解釋,目的是放大所有重要變量;二是找出少量能獲得較好分類性能的變量,目的是獲得足夠精簡的重要變量集合.采用隨機森林方法進行特征評價和選擇,正確選擇隨機森林參數(shù)有助于更好地區(qū)分重要變量和無用變量,還可以提高屬性重要性評分的穩(wěn)定性.

采用2013 年9 月的一組信用卡交易數(shù)據(jù)集進行屬性重要度的計算和特征選擇.該數(shù)據(jù)集具有典型的不平衡特征,在共284 807 筆交易中只有492筆欺詐交易,占所有交易的0.172%.為降低復雜性,在特征選擇階段采用下采樣的方式平衡交易樣本的數(shù)量關(guān)系.

2.1 屬性重要度的敏感性

在很多應用問題中,屬性重要度是解釋數(shù)據(jù)和理解基本現(xiàn)象的重要依據(jù),計算屬性重要度是可疑交易檢測任務中的關(guān)鍵環(huán)節(jié)之一[24].本文借助隨機森林方法衡量屬性重要度,在逐步形成預測模型之前對變量進行排序.根據(jù)兩個方面來研究隨機森林變量重要性:第一個是屬性重要度對獲得樣本數(shù)量n和入選屬性數(shù)量p的敏感性;第二個是屬性重要度對隨機森林中樹的數(shù)量ntree和每個分支上隨機選擇的輸入屬性數(shù)量nsplt的敏感性.

(1)對訓練樣本數(shù)量與屬性數(shù)量的敏感性

考慮樣本數(shù)量與樣本屬性個數(shù)的關(guān)系,特別是高維屬性條件下樣本數(shù)量較低時對屬性重要度值的影響.

通過隨機復制樣本中的某些屬性而獲得更多的樣本屬性,Xi?j代表通過復制屬性Xj而得到的新屬性.圖1 說明在不同樣本數(shù)量n和屬性數(shù)量p情況下,以ntree= 10和為參數(shù)迭代運行20 次隨機森林方法所得到的屬性重要性 VI(Variance Importance).為方便展示,只繪制重要變量并按重要性排序.如果屬性Xj的重要度較高,則Xi?j成為重要屬性的機率也會增大,本節(jié)更傾向于考慮重要屬性Xj(原始或復制于屬性jX)在不同參數(shù)下的屬性重要度穩(wěn)定性.

圖1(a)~圖1(c)中樣本數(shù)量n均為688,屬性數(shù)量p分別取原始樣本的28 和復制屬性后的50 和100.圖1(a)由原始樣本數(shù)據(jù)(p=28)求得,視為參照圖.觀察當維度上升(p=50 和p=100)時屬性重要度及排序,并由此判斷訓練樣本與屬性數(shù)量對屬性重要度的影響.從圖1(b)、圖1(c)可見,隨著維度升高,原始屬性入選的幾率顯著降低,更多的復制屬性入選,而且屬性被選擇的幾率越小,成為重要屬性的可能性越小.重要度相對較高的屬性的重要性值降低,且部分屬性的相對排序發(fā)生變化,如屬性12 在兩組高維樣本中的排序均較之屬性11 有所提升.但值得注意的是,通過原始樣本求得的低重要度屬性在高維復制樣本中也表現(xiàn)出相對較低的重要度,而高重要度的屬性仍然保留在入選屬性集合中.

圖1(d)~圖1(f)中樣本的數(shù)量降低,因此求解難度較圖1(a)~圖1(c)數(shù)據(jù)有所提高,同樣觀察屬性維度p=50 和p=100 較之p=28 時屬性重要性變化,圖1(d)視為參照圖.當屬性增加時部分屬性發(fā)生變化,如屬性12 的重要性值和排序均下降,而屬性7、9、16 和27 均在p=100 時從重要屬性集合中消失.但在參照圖中出現(xiàn)的較重要屬性也出現(xiàn)在了高維度情況下,只是排序稍有變化.另外,當p=28 時,在樣本數(shù)量提高的情況下兩個參照圖中均得到了一致的重要屬性集合.

圖1 屬性重要性對n 和p 的敏感性Fig.1 variable importance sensitivity to n and p

(2)對隨機森林參數(shù)的敏感性

隨機森林中nsplt和ntree參數(shù)的選擇關(guān)系到算法的求解質(zhì)量.本節(jié)中將樣本屬性固定為n=488 和p=50,考察ntree=50,100 和nsplt=7,20,50 時的屬性重要度的表現(xiàn),見圖2.

圖2 屬性重要性對Random Forest 參數(shù)敏感性Fig.2 variable importance sensitivity to RF parameters

從圖2 中可見,隨著nsplt取值增大,最重要屬性的重要度顯著提升,但其他屬性重要度值急速降低,屬性重要度更加不穩(wěn)定.當ntree增大時,除圖2(d)較圖2(a)出現(xiàn)了屬性重要度和重要屬性排序上的較大變化外,在相同nsplt值的情況下,屬性重要度較為穩(wěn)定.

2.2 特征選擇

特征選擇需從特征候選集合中識別出最相關(guān)或最具信息性的屬性.屬性的重要性不僅僅源于屬性本身,還源于對所研究的問題具有強信息性.即在實際數(shù)據(jù)中,有的屬性本身并不重要,但卻與其他具有信息性的屬性有關(guān)聯(lián)且可以影響問題的結(jié)果.

本文以兩個階段來實現(xiàn)屬性選擇:第一階段得到與反應變量高度相關(guān)的重要屬性集合,第二階段從重要屬性集合中抽取出盡可能少量的可以達到較好分類結(jié)果的變量用于分類.通過擾動屬性值的方式來測試該屬性與其他屬性的關(guān)聯(lián)程度.如果同時擾動多個屬性值,反應變量作為幾個屬性同時擾動時得到的特例,無法如實地反應出某一個屬性的重要性.只對單獨的某屬性Xj進行擾動,隨機森林仍可以選擇其他具有信息性賦以較高的重要性,并可能賦予屬性Xj較低的重要性.因此仿真運行之后,Xj的重要性分布會與以原始數(shù)據(jù)得到重要性有所不同,因此可用于測試某屬性的相關(guān)性.另外,在可疑交易的檢測中需要考慮變量之間的關(guān)系,因為即使自身不具信息性的屬性也可能對預測結(jié)果具有影響.

通過以下步驟實現(xiàn)特征選擇:

步驟1獲得屬性重要性的排序,初步消除非重要屬性

通過原始數(shù)據(jù)確定屬性重要性(采用隨機森林方法),并將屬性按重要性降序排序;

去除重要性較低的屬性(如屬性重要性低于0.03),保留下來的m0個屬性進入步驟 2;

步驟2屬性選擇

結(jié)合在初始步驟中評估的原始重要性度量VI(j)和擾動后屬性重要性的分布評估每個變量的α值,令若屬性Xj的α<0.05,則該屬性被去除,本步驟保留下來1m個屬性.

建包含k個變量的嵌套隨機森林模型,對于,選擇模型中所涉及的能夠獲得最小OOB error 的變量;

保留的有序變量開始,通過逐步調(diào)用和測試變量來構(gòu)建隨機森林模型的遞增序列,最后一個模型的變量被選中.

經(jīng)過屬性選擇,保留下來的屬性為(X14,X10,X4,X12,X11,X20,X7,X17,X21,X3,X13,X8,X19,X22,X25,X16,X15).

3 基于隨機森林的分類模型構(gòu)建

模型的構(gòu)建和訓練中,仍采用2 節(jié)中數(shù)據(jù)集.該數(shù)據(jù)集包含了兩天內(nèi)發(fā)生的在線交易的一個子集,具有典型的樣本不平衡特征.

3.1 處理樣本不平衡

處理樣本不平衡問題是模型訓練階段需要解決的首要問題,常用方法可以為采樣方法和基于代價的方法(Cost-based Methods).基于采樣的方法在采用傳統(tǒng)分類方法之前將訓練集中的數(shù)據(jù)進行平衡化處理;而基于代價的方法則通過對占少數(shù)的分類設(shè)置更大的錯誤分類代價來修改學習算法.

本文在特征選擇階段使用了下采樣方法,但在模型訓練階段需要大樣本,因此以過采樣方法對樣本進行平衡化處理.統(tǒng)計數(shù)據(jù)集中正負樣本數(shù)量,對少數(shù)類樣本進行隨機復制使其數(shù)量達到與多數(shù)類的平衡.隨機方式雖然簡單高效,但上采樣后的數(shù)據(jù)集中可能過多地出現(xiàn)重復樣本,從而產(chǎn)生一定程度的過擬合.為避免這一問題,在生成新數(shù)據(jù)時加入輕微隨機擾動,此外還考慮了改變分類器的評價指標,即加入ROC(AUC),Kappa 等評價.

3.2 構(gòu)建分類流程

可疑交易檢測過程是面向具體業(yè)務的,其特征選擇過程更依賴于領(lǐng)域知識和專家經(jīng)驗.數(shù)據(jù)挖掘分類器通常可以在初始階段有效地將明顯的欺詐交易案例過濾掉,將更細微的可疑交易案例交由人工審查.本節(jié)構(gòu)建基于隨機森林的分類預測流程,見圖3.

圖3 基于隨機森林的分類預測流程Fig.3 procedure of random forest based on classification

流程將人工審核過的記錄與待分類的原始數(shù)據(jù)一起進行預處理.處理后的數(shù)據(jù)根據(jù)業(yè)務規(guī)則和專家經(jīng)驗,采用前文所提到的特征抽取方法進行特征選擇,但在實際業(yè)務中還需根據(jù)業(yè)務特點進行特征的衍生,形成特征集合.

除了對特征進行歸一化等常規(guī)處理之外,在抽取特征時也要考慮交易的時間順序?qū)π袨榻5挠绊?在實際建模過程中,根據(jù)各字段的屬性,按是否考慮與時間順序的關(guān)系,特征抽取的方式分為兩種:不考慮本條數(shù)據(jù)記錄與歷史數(shù)據(jù)的關(guān)系,如交易金額直接作為特征;另一種需要考慮與歷史數(shù)據(jù)的關(guān)系,如對本次記錄的IP 或終端進行特征的衍化,若在以往交易中未出現(xiàn),則將此特征值記為0;若出現(xiàn)過,則將出現(xiàn)的頻度作為該特征的值.

新的特征集合與經(jīng)驗特征集合一起進行訓練,形成隨機森林模型,并進行分類預測;將分類結(jié)果反饋到源數(shù)據(jù)庫和下一輪的分類過程中,并成為下一輪訓練的標記數(shù)據(jù).在檢測模型中應考慮變化/演變因素[12,25],即持卡人通常會隨時間推移而改變消費行為和消費時間,如節(jié)日期間交易增多.新的欺詐行為也會隨時間推移而改變,欺詐方法也隨時間而更加復雜,因此不可能存在長期穩(wěn)定的模型.流程中增強模型的反饋能力,一旦模型效用降低,則需要重新學習.

4 實驗與討論

本文采用信用卡交易數(shù)據(jù)對所提出的方法進行測試和討論.實驗將數(shù)據(jù)集分為訓練集和測試集,對支持向量機和邏輯回歸方法,以及所提出的隨機森林方法進行比較驗證.

4.1 評價指標

可疑交易檢測是典型的樣本失衡情況下的二分類問題,準確率(Accuracy)指標不再適用.機器學習在此類問題中,對模型進行評估的指標一般包含精確率(Precision)、召回率(Recall)、F1 指標和ROC 指標.其中,Precision 表示模型預測為正樣本的樣本中真正為正樣本的比例;Recall 表示模型準確預測為正樣本的數(shù)量占所有正樣本數(shù)量的比例.F1 指標是Precision 和Recall 的調(diào)和平均數(shù),用于綜合度量算法性能,F(xiàn)1 越大,分類器的效果越佳.

ROC 提供了一種可視化不同結(jié)果的方法,通過繪制真陽性率與假陽性率來檢查分類器質(zhì)量的指標,理想的ROC 曲線具有100%的敏感性和100%的特異性.由于ROC 曲線具有不隨樣本比例而改變的良好性質(zhì),因此適用于在樣本比例不平衡的情況下評價分類器.

4.2 實驗結(jié)果

首先對訓練集進行進一步的分割,部分用于實際訓練,其余部分用于尋找邏輯回歸、支持向量機和隨機森林三個模型的最佳參數(shù).從邏輯回歸、支持向量機和隨機森林三類模型中,首先確定每個模型的最佳參數(shù),通過10 次10 折交叉驗證進行測試.

支持向量機利用核技巧將數(shù)據(jù)映射到高維特征空間.測試在正則化項C、內(nèi)核系數(shù)和Kernel 上發(fā)生變化.實驗表明在采用徑向基核函數(shù)時效果最差;當采用線性核函數(shù)且正則化C= 1,Gamma=1 時,得到了最好的結(jié)果,見表1.

表1 SVM 的交叉驗證結(jié)果

邏輯回歸是一種廣泛使用的分類和回歸方法,為簡化計算,本實驗僅改變正則化項,如表2 所示.

表2 Logistic Regression 的交叉驗證結(jié)果Tab.2 cross validation result of Logistic Regression

隨機森林模型中變化的參數(shù)包括樹的數(shù)目、樹中每個節(jié)點的最小特征數(shù)、節(jié)點分割質(zhì)量標準(Gini 雜質(zhì)或熵).通常,樹的數(shù)量更多會得到更高的分類性能,但也會導致更多的計算時間.經(jīng)過測試,在本數(shù)據(jù)集上多于100 棵樹并未得到更好的性能,因此將樹的數(shù)量固定在100 棵.經(jīng)過實驗的綜合考量,認為使用信息熵可以獲得更好的效果,最小特征數(shù)量為6,見表3.

表3 隨機森林的交叉驗證結(jié)果Tab.3 cross validation result of Random Forest

將隨機森林方法與支持向量機和邏輯回歸方法進行比較,除了Precision、Recall 和F1 指標,還引入了適用于樣本不平衡條件下評判分類精度的指標Cohen’s kappa 估計,score>0.8 意味著好的分類.從實驗結(jié)果可見,參數(shù)設(shè)置對支持向量機的結(jié)果較為重要,其在不同指標上的表現(xiàn)均不理想.在眾多研究中,相對簡單和易于理解的邏輯回歸已經(jīng)成為許多實際數(shù)據(jù)挖掘應用中的標準技術(shù).本文的實驗中,邏輯回歸也表現(xiàn)出了良好的性能,超過支持向量機模型.由圖4可以看到,在Precision 指標上邏輯回歸的表現(xiàn)最好,隨機森林次之;在Recall、F1 和Kappa 指標上,隨機森林的性能均優(yōu)于其他兩種方法.

采用AUC 衡量結(jié)果指標,ROC 曲線見圖5,隨機森林算法同樣優(yōu)于其他兩種算法.綜合幾種指標下的表現(xiàn),可以認為隨機森林方法考慮了屬性重要性對不同參數(shù)的敏感性并有效進行了特征選擇,因此捕獲了更多的欺詐案例,而假陽性更少.這是欺詐檢測模型在實際應用中的一個重要考慮因素,說明該模型具有較好的應用效果.

圖4 隨機森林、邏輯回歸和支持向量機的比較Fig.4 Performance Comparison of RF, LG and SV M

圖5 ROC 曲線Fig.5 ROC Curve

5 結(jié)論

(1)與經(jīng)濟卡有關(guān)的詐騙通常是精心策劃和隱藏并且耗費時間的犯罪,常表現(xiàn)為很多類型和形式.數(shù)據(jù)挖掘常用于解決涉及風險數(shù)據(jù)問題的方法,如研究信用卡風險模型、客戶流失預警和生存分析等.

(2)因隨機森林技術(shù)的易用性和高效性,本文將其應用于可疑交易檢測中,在樣本不平衡數(shù)據(jù)環(huán)境中,對屬性重要度的敏感性進行了分析,設(shè)計了特征選擇的算法,提高了重要屬性和具有強信息性屬性的入選率.利用一個真實數(shù)據(jù)集進行屬性選擇和分類預測,同時在同一數(shù)據(jù)集上運用隨機森林、支持向量機和邏輯回歸方法并進行比較,結(jié)果表明隨機森林的綜合評價要高于其他兩種方法.

(3)本文的研究限于某月中兩天的實際交易記錄所表現(xiàn)出來的特征,且以二分類的形式給出預測結(jié)果.未來在獲取更多數(shù)據(jù)樣本的情況下,可以進一步研究概念漂移下的預測模型,識別新的監(jiān)督信息;并在模型中允許以概率的形式給出預測結(jié)果,結(jié)合人工審查對結(jié)果進行核實.

猜你喜歡
特征選擇分類器交易
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
Kmeans 應用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
聯(lián)合互信息水下目標特征選擇算法
交易流轉(zhuǎn)應有新規(guī)
上海國資(2015年8期)2015-12-23 01:47:28
大宗交易
《吃飯的交易》
驚人的交易
科學啟蒙(2014年10期)2014-11-12 06:15:39
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
旌德县| 临西县| 乌兰察布市| 南江县| 额敏县| 塔城市| 阳江市| 嘉善县| 石柱| 巩义市| 乌恰县| 北票市| 玉林市| 紫云| 密云县| 尉犁县| 宣威市| 惠州市| 长葛市| 福鼎市| 开原市| 贵德县| 玉树县| 绥宁县| 新巴尔虎左旗| 青冈县| 泽普县| 广丰县| 南投市| 利津县| 哈巴河县| 安康市| 瓦房店市| 宾阳县| 陵水| SHOW| 垣曲县| 房产| 工布江达县| 云林县| 蒲城县|