呂林濤+袁琴琴+呂暉+李婉榮
摘 要: 針對洗錢交易的大數(shù)據(jù)大額可疑特征和量化特點,基于凝聚和優(yōu)化指標(biāo)的思想,提出一種ML?CDBIE算法。該算法根據(jù)節(jié)點信息熵的相似性和社區(qū)信息熵的穩(wěn)定性進行洗錢社區(qū)發(fā)現(xiàn)。根據(jù)增加節(jié)點后社區(qū)熵的變化是否劇烈可以判斷節(jié)點的劃分是否正確,是否屬于社區(qū)的成員,從而實現(xiàn)洗錢社區(qū)的發(fā)現(xiàn)。實驗結(jié)果表明,該算法不僅具有洗錢賬戶識別率高和良好的社區(qū)結(jié)構(gòu),而且為金融網(wǎng)絡(luò)洗錢社區(qū)發(fā)現(xiàn)提供了一種新途徑。
關(guān)鍵詞: 金融網(wǎng)絡(luò); 洗錢交易; 信息熵; 社區(qū)發(fā)現(xiàn); 社區(qū)劃分
中圖分類號: TN911.1?34; TP393 文獻標(biāo)識碼: A 文章編號: 1004?373X(2017)17?0131?04
An information entropy based new money laundering community
discovery algorithm of financial network
L? Lintao1, YUAN Qinqin1, L? Hui2, LI Wanrong3
(1. Department of Information Engineering, Xijing University, Xian 710123, China;
2. College of Civil Engineering, Chongqing University, Chongqing 400044, China;
3. College of Computer Science and Engineering, Xian University of Technology, Xian 710048, China)
Abstract: According to the large quantity and suspicious characteristic and quantitative features of money laundering transaction, a money laundering community discovery algorithm based on information entropy (ML?CDBIE) is proposed according to the thoughts of aggregation and indicator optimization. The characteristic of the algorithm is to discover money laundering community according to the similarity of nodes information entropy and stability of community information entropy. According to the dramatic change of the community entropy after nodes addition, it can determine whether the nodes division is correct, or belongs to the community, which can discover the money laundering community. The experimental results show that the algorithm has high recognition rate and perfect community structure of money laundering account, and also provides a new way to discover the money laundering community of financial network.
Keywords: financial network; money laundering transaction; information entropy; community discovery; community division
0 引 言
隨著金融系統(tǒng)的全球化、信息化和網(wǎng)絡(luò)化發(fā)展,使得資本在世界范圍內(nèi)以更快更便捷的方式流動,但是如何有效防范金融網(wǎng)絡(luò)中的洗錢犯罪行為已成為當(dāng)前人們關(guān)注的熱點。
目前,社區(qū)發(fā)現(xiàn)技術(shù)不僅應(yīng)用于網(wǎng)絡(luò)結(jié)構(gòu)、分析網(wǎng)絡(luò)個體間關(guān)系,而且也是解決挖掘網(wǎng)絡(luò)中隱藏有價值的大數(shù)據(jù)的一種有效途徑。因此,為了有效獲取復(fù)雜金融網(wǎng)絡(luò)的洗錢社區(qū),本文基于信息熵的社區(qū)發(fā)現(xiàn)技術(shù),根據(jù)金融網(wǎng)絡(luò)中的交易結(jié)構(gòu)及洗錢交易的大額和可疑特征,建立了將交易賬戶映射為網(wǎng)絡(luò)中的節(jié)點,賬戶間的交易關(guān)系映射為網(wǎng)絡(luò)中邊的數(shù)學(xué)模型,并針對洗錢交易的大數(shù)據(jù)大額可疑特征和量化等特點,提出一種基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法,通過應(yīng)用后表明,該方法不僅解決了金融網(wǎng)絡(luò)中節(jié)點社區(qū)快速有效的劃分,而且也能依據(jù)可疑交易特征發(fā)現(xiàn)洗錢社區(qū),從而為金融安全交易提供了有力保障。
1 洗錢特征的提取與量化
金融網(wǎng)絡(luò)中的洗錢[1]是通過交易金額、交易頻率、交易周期、交易方式等一系列復(fù)雜的賬戶交易達到資金的非法流動,其操作過程主要分為入賬、分賬和融合三個階段,如文獻[2]給出的洗錢交易網(wǎng)絡(luò)圖如圖1所示。
圖1中的A1~A11表示交易賬戶;箭頭代表交易方向和交易類型,包括存款、轉(zhuǎn)賬和取款;邊上的數(shù)字代表交易金額,單位為萬元。由圖1分析可知,洗錢交易所涉及的單筆和累計交易金額都非常巨大,遠遠高于普通賬戶的平均水平,并且在一定時間內(nèi),賬戶之間的頻繁交易使得其交易頻次也體現(xiàn)出大于普通賬戶的特征。若根據(jù)中國政府制定的相關(guān)可疑交易監(jiān)測標(biāo)準(zhǔn)[3]中的規(guī)定,一般情況下,對于交易金額超過一定銀行規(guī)定下限的賬戶以及交易行為符合異常交易監(jiān)測標(biāo)準(zhǔn)中描述的賬戶需要進行報告、監(jiān)測和追蹤,因為這些賬戶都屬于可疑洗錢交易賬戶。endprint
針對上述特點,本文提取了能夠進行量化的交易金額和交易頻次這兩個主要特征作為洗錢社區(qū)發(fā)現(xiàn)的特征向量集。本文提取的是賬戶在某段時間內(nèi)累計的交易金額和交易頻次,并采用鄰接矩陣和進行量化表達及存儲:
(1)
式中表示有效賬戶個數(shù)。
設(shè)表示一個金融網(wǎng)絡(luò)(n表示賬戶個數(shù)),每個節(jié)點代表一個交易賬戶,是所有節(jié)點的集合,是所有邊的集合,其中賬戶的存(?。┛罱灰子靡粭l零節(jié)點指向節(jié)點(由節(jié)點指向零節(jié)點)的邊表示。如果賬戶和賬戶之間存在交易關(guān)系,則有邊否則。因此式(1)簡化為式(2)的求解:
(2)
式中:表示邊上的權(quán)值,即交易金額和交易頻次。如果賬戶和賬戶之間存在交易,的值就不為0,否則的值為0;表示賬戶自身的交易金額和交易頻次信息。
2 基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法
2.1 節(jié)點信息熵的定義
信息熵[4]在數(shù)學(xué)理論上是一個較為抽象的概念,主要是指某種特定信息的出現(xiàn)概率,一般用來標(biāo)記一個事件的信息熵。對于由個事件構(gòu)成的系統(tǒng)每一個事件發(fā)生的概率為其產(chǎn)生的信息熵為整個系統(tǒng)的信息熵為。
通過對洗錢交易特征[5?9]的分析,如果賬戶的交易行為同時滿足大額交易和可疑交易特征,則作為洗錢賬戶被識別的概率就很大。相應(yīng)地,這種賬戶節(jié)點的信息熵就大于其他的賬戶節(jié)點。
根據(jù)矩陣中賬戶交易金額的值,賬戶的交易金額為網(wǎng)絡(luò)交易金額為為賬戶的交易金額占網(wǎng)絡(luò)總交易金額的比例,的值越大,賬戶屬于大額交易賬戶的概率越大;根據(jù)矩陣中賬戶交易頻次的值,賬戶的交易頻次網(wǎng)絡(luò)交易頻次為為賬戶的交易頻次占網(wǎng)絡(luò)交易頻次的比例,的值越大,賬戶屬于可疑交易賬戶的概率就越大。只有當(dāng)一個賬戶同時滿足大額交易和可疑交易特征,才能被認為是洗錢交易賬戶。因此,賬戶在由金融網(wǎng)絡(luò)構(gòu)成的交易系統(tǒng)中作為洗錢賬戶發(fā)生的概率為:。賬戶節(jié)點的信息熵為。
網(wǎng)絡(luò)的信息熵可以通過計算該網(wǎng)絡(luò)所有節(jié)點的信息熵的均值得到,為網(wǎng)絡(luò)中包含的賬戶個數(shù),即。
2.2 洗錢社區(qū)的發(fā)現(xiàn)算法構(gòu)建
基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法(以下簡稱ML?CDBIE)是基于凝聚和優(yōu)化指標(biāo)的思想,根據(jù)節(jié)點信息熵的相似性和社區(qū)信息熵的穩(wěn)定性[10?11]進行洗錢社區(qū)發(fā)現(xiàn)。根據(jù)本文社區(qū)的定義,相同社區(qū)內(nèi)部的節(jié)點具有相似的屬性和緊密的聯(lián)系,因此社區(qū)內(nèi)部的節(jié)點會具有相似的信息熵,并且整個社區(qū)的信息熵也會相對穩(wěn)定。在對節(jié)點進行社區(qū)劃分時,如果節(jié)點加入到社區(qū),造成社區(qū)熵的劇烈增加或減少,表明這個節(jié)點不應(yīng)該被劃分到該社區(qū),否則應(yīng)該將該節(jié)點劃分到該社區(qū)。根據(jù)增加節(jié)點后社區(qū)熵的變化是否劇烈,可以判斷節(jié)點的劃分是否正確,是否屬于社區(qū)的成員,從而實現(xiàn)社區(qū)發(fā)現(xiàn)。
根據(jù)社區(qū)發(fā)現(xiàn)的原理,本文定義了一個閾值作為判斷節(jié)點劃分的依據(jù)。如果添加節(jié)點到洗錢社區(qū)之后的信息熵增量絕對值小于閾值,則添加,否則不添加??紤]到賬戶交易在交易金額以及交易頻次上具有的不確定性和波動性,采用網(wǎng)絡(luò)平均信息熵和節(jié)點信息熵的標(biāo)準(zhǔn)差作為信息熵增量閾值的標(biāo)準(zhǔn):
(3)
(4)
因此,基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法可以通過兩個階段進行。
第一階段:主要完成洗錢社區(qū)節(jié)點的劃分。設(shè)是所有網(wǎng)絡(luò)節(jié)點的集合,其算法描述如下:
Step1:計算所有節(jié)點的信息熵,并選取節(jié)點信息熵最大的節(jié)點作為初始社區(qū)核節(jié)點;
Step2:將核節(jié)點的鄰接點以及核節(jié)點作為初始社區(qū)計算社區(qū)的熵如果繼續(xù)下一步。否則從中去掉中的節(jié)點;
Step3:從的鄰接點中選取信息熵最大的節(jié)點如果繼續(xù)下一步,否則從中去掉中的節(jié)點和的鄰接點;
Step4:計算加入新節(jié)點之后的信息熵差如果添加該節(jié)點到洗錢社區(qū),否則不進行添加,并從中剔除該節(jié)點;
Step5:重復(fù)以上步驟,直到所有滿足條件的節(jié)點都被劃分到洗錢社區(qū)為止。
第二階段:主要完成洗錢社區(qū)的相關(guān)合并。合并算法描述如下:
Step1:洗錢社區(qū)的合并;
Step2:對有邊相連的相鄰社區(qū)進行合并;
Step3:計算合并兩個社區(qū)之后的信息熵與原社區(qū)的信息熵增量的絕對值,如果增量的絕對值在范圍內(nèi),則合并兩個社區(qū),否則不合并;
Step4:重復(fù)上述步驟直到?jīng)]有滿足合并條件的子社區(qū)為止。最終生成的社區(qū)結(jié)構(gòu)就是洗錢交易社區(qū)。
3 實驗與分析
3.1 數(shù)據(jù)預(yù)處理
實踐表明,洗錢交易周期一般為20天左右。因此本實驗的原始數(shù)據(jù)集選取了某商業(yè)銀行2005年3月—5月的流水交易結(jié)算數(shù)據(jù)。共3 026條交易記錄,860個交易賬號。部分原始交易數(shù)據(jù)集如表1所示。
對原始數(shù)據(jù)需要進行預(yù)處理,剔除不必要的屬性;交易金額的記賬單位改為萬,并截取后四位小數(shù)作為精度計算;交易賬號也依次進行了從的編號;并且刪除非活躍賬戶,即沒有發(fā)生轉(zhuǎn)賬交易的賬戶。預(yù)處理之后的交易數(shù)據(jù)集示例如表2所示。
3.2 算法評價指標(biāo)
為了驗證ML?CDBIE算法的有效性,本文提出了兩個算法評價標(biāo)準(zhǔn)對算法的識別準(zhǔn)確率和社區(qū)結(jié)構(gòu)進行評價。
3.2.1 ML?CDBIE算法準(zhǔn)確率評價
從理論上講,洗錢交易社區(qū)應(yīng)該包括所有的可疑交易節(jié)點,即符合大額交易和異常交易特征的賬戶,并且正常賬戶或者不符合該社區(qū)特征的交易賬戶都不應(yīng)該被劃分到洗錢社區(qū)中。因此,算法識別的準(zhǔn)確率評價對評價算法的有效性至關(guān)重要。
通過對原始交易數(shù)據(jù)中相應(yīng)賬戶的交易明細進行分析、判斷和統(tǒng)計,設(shè)是具有可疑洗錢交易特征且被正確劃分到社區(qū)的節(jié)點個數(shù),是不具有洗錢交易特征但被劃分到社區(qū)的節(jié)點個數(shù),是具有洗錢交易特征但是沒有被正確劃分到社區(qū)的節(jié)點個數(shù)。本文算法對洗錢交易識別的準(zhǔn)確率定義為:endprint
(5)
洗錢交易社區(qū)的劃分精度為:
(6)
3.2.2 社區(qū)結(jié)構(gòu)評價
Newman提供了模塊度對社區(qū)結(jié)構(gòu)的劃分質(zhì)量進行評價[12]。假設(shè)網(wǎng)絡(luò)經(jīng)過社區(qū)劃分之后一共有個子社區(qū),矩陣是一個維的對稱矩陣,元素表示連接兩個不同社區(qū)和的邊在所有網(wǎng)絡(luò)邊中占據(jù)的比例。表示與社區(qū)中的節(jié)點相連的邊在網(wǎng)絡(luò)所有邊中所占的比例。模塊度的計算公式定義為:
(7)
式中:的上限為1,的值越接近1,社區(qū)結(jié)構(gòu)就越明顯,在實際網(wǎng)絡(luò)中,該值通常位于0.3~0.7之間。
3.3 實驗結(jié)果
將預(yù)處理后的數(shù)據(jù)進行ML?CDBIE算法處理,最終生成了具有可疑洗錢交易特征的4個子洗錢社區(qū),如圖2所示。
在4個洗錢社區(qū)中,有的子社區(qū)之間依然有邊相連,但是他們不符合合并社區(qū)的條件;子社區(qū)與其他子社區(qū)沒有邊相連,是一個獨立的子社區(qū),因為這些節(jié)點對應(yīng)的賬戶只在該社區(qū)范圍內(nèi)進行交易。這些社區(qū)中的節(jié)點基本都符合大額交易和可疑交易的特征。
3.4 結(jié)果分析
3.4.1 準(zhǔn)確率
通過對數(shù)據(jù)的分析,其中社區(qū)內(nèi)部共有111個節(jié)點,符合可疑判斷標(biāo)準(zhǔn)賬戶節(jié)點一共有98個,不符合的共有13個,社區(qū)外部符合判斷標(biāo)準(zhǔn)的賬戶節(jié)點共有15個,根據(jù)式(5)和式(6)對ML?CDBIE算法的準(zhǔn)確率進行計算。ML?CDBIE算法對洗錢交易識別的準(zhǔn)確率為:
洗錢交易社區(qū)的劃分精度為:
通過計算可知,ML?CDBIE有較高的識別準(zhǔn)確率和精確度。
3.4.2 社區(qū)模塊度
通過實驗結(jié)果對社區(qū)結(jié)構(gòu)評價指標(biāo)進行計算和分析。以下是4×4維的對稱矩陣
按照模塊度的計算公式對社區(qū)的模塊度進行計算,社區(qū)模塊度=0.403 3≈0.4。一般網(wǎng)絡(luò)的模塊度都在0.3~0.7之間,該社區(qū)的網(wǎng)絡(luò)模塊度介于該值之間,模塊度良好。
4 結(jié) 語
本文提出基于信息熵的洗錢社區(qū)發(fā)現(xiàn)算法,通過應(yīng)用社區(qū)發(fā)現(xiàn)技術(shù)和信息熵的原理結(jié)合,針對洗錢交易的大額交易和可疑交易特征,較好地解決了通過金融網(wǎng)絡(luò)中的節(jié)點社區(qū)劃分從而發(fā)現(xiàn)洗錢交易社區(qū)問題。實驗結(jié)果表明,本文提出的算法不僅具有較高的識別準(zhǔn)確率,而且具有良好的社區(qū)結(jié)構(gòu),因此,本文提出的算法在反洗錢技術(shù)領(lǐng)域具有重要的理論和實用價值。
參考文獻
[1] 魏萊.反洗錢監(jiān)管體系與檢測方法研究[D].湖南:湖南大學(xué),2011.
[2] 李玉華,易鑫,孫小林.基于圖熵的鏈接發(fā)現(xiàn)算法在反洗錢領(lǐng)域的應(yīng)用[J].計算機工程與科學(xué),2007,29(11):50?52.
[3] 中國人民銀行.金融機構(gòu)大額交易和可疑交易報告管理辦法[EB/OL].[2016?12?30].http://www.pbc.gov.cn/publish/Tiaofasi/274/ index.html.
[4] 王剛,鐘國祥.基于信息熵的社區(qū)發(fā)現(xiàn)算法研究[J].計算機科學(xué),2011,38(2):238?240.
[5] 張曉宇,鄧昌智,王宏安.面向地下錢莊洗錢行為的可視化交互分析平臺[J].計算機應(yīng)用研究,2015,32(1):170?175.
[6] ZHANG Chengwei, WANG Yubo. Research on application of distributed data mining in anti?money laundering monitoring system [C]// Proceedings of 2010 the 2nd IEEE International Conference on Advanced Computer Control. Shenyang, China: IEEE, 2010: 133?135.
[7] DE KOKER L. Aligning anti?money laundering, combating of financing of terror and financial inclusion: questions to consider when FATF standards are clarified [J]. Journal of financial crime, 2011, 18(4): 361?386.
[8] LIU Keyan, YU Tingting. An improved support?vector network model for anti?money laundering [C]// Proceedings of 2011 the Fifth International Conference on Management of E?Commerce and E?Government. Wuhan, China: IEEE, 2011: 193?196.
[9] ZHANG Chenghu, ZHAO Xiaohu. Research on money laundering recognition based on decision tree algorithm [J]. Journal of Wuhan University of Technology, 2008, 30(2): 154?156.
[10] 鐘芬芬.復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法研究[D].西安:西安電子科技大學(xué),2012.
[11] 蔡波斯,陳翔.基于行為相似度的微博社區(qū)發(fā)現(xiàn)研究[J].計算機工程,2013,39(8):55?59.
[12] 王林,戴冠中,趙煥成.一種新的評價社區(qū)結(jié)構(gòu)的模塊度研究[J].計算機工程,2010,36(14):227?229.endprint