呂芳,湯豐赫,黃俊恒,王佰玲
金融網(wǎng)絡(luò)頻繁鏈路發(fā)現(xiàn)算法
呂芳,湯豐赫,黃俊恒,王佰玲
(哈爾濱工業(yè)大學(xué)(威海)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 威海 264209)
隨著各種非法金融活動的泛濫,從金融網(wǎng)絡(luò)中發(fā)現(xiàn)犯罪線索的分析研究越來越引起學(xué)者的重視。對銀行賬戶交易數(shù)據(jù)的特點(diǎn)進(jìn)行了詳細(xì)分析,建立了銀行賬戶交易網(wǎng)絡(luò)通用模型。在此基礎(chǔ)上,為解決金融實(shí)體之間關(guān)系強(qiáng)度的評估問題,提出了雙向活躍邊搜索計(jì)算方法。為了還原犯罪組織的資金流動方式,提出了深度可控的廣度優(yōu)先頻繁鏈路發(fā)現(xiàn)方法。在真實(shí)銀行數(shù)據(jù)上的實(shí)驗(yàn)證明,上述方法能有效解決同伙預(yù)測和資金追蹤問題。
雙向活躍邊;頻繁鏈路;同伙預(yù)測;資金追蹤
多年來,非法傳銷、非法集資、洗錢和詐騙等金融犯罪組織或犯罪活動屢禁不止。這些組織或活動在進(jìn)行資金吸納和資金運(yùn)作時,離不開銀行賬戶間的資金交易。隨著我國社會經(jīng)濟(jì)的飛速發(fā)展,銀行賬戶的開戶數(shù)量以及賬戶間的交易數(shù)目和交易金額大幅增長。交易的非現(xiàn)金支付占整個支付系統(tǒng)比例超過70%。非現(xiàn)金支付和DT(data technology)時代的到來,使金融數(shù)據(jù)呈爆炸式增長。美國波士頓咨詢公司2015年發(fā)布的《互聯(lián)網(wǎng)金融生態(tài)系統(tǒng)2020系列報(bào)告之大數(shù)據(jù)篇》中指出,銀行業(yè)每創(chuàng)收1×106美元,平均產(chǎn)生820 GB的數(shù)據(jù)。金融犯罪組織的資金運(yùn)轉(zhuǎn)線索隱藏在這龐大的銀行數(shù)據(jù)中。從銀行海量交易中挖掘賬戶實(shí)體的關(guān)系強(qiáng)度、挖掘非法資金的交易鏈路,對打擊經(jīng)濟(jì)犯罪活動有直接的指導(dǎo)意義。
目前,由于銀行數(shù)據(jù)的保密性質(zhì),針對資金交易數(shù)據(jù)的分析研究還處于初級階段,有關(guān)研究主要體現(xiàn)在下幾個方面。
1) 在欺詐檢測方面:Yu等[1]將隨機(jī)游走算法應(yīng)用于欺詐檢測中,以路徑是否經(jīng)過認(rèn)證節(jié)點(diǎn)為依據(jù),判定節(jié)點(diǎn)是否可疑。Tran等[2]在文獻(xiàn)[1]的基礎(chǔ)上,提出一種在隨機(jī)游走算法上結(jié)合廣度優(yōu)先搜索的改進(jìn)系統(tǒng)。不同于上述從正常節(jié)點(diǎn)出發(fā)預(yù)測可疑節(jié)點(diǎn)的策略,Yang等[3]提出一種從已知可疑節(jié)點(diǎn)出發(fā)搜索可疑節(jié)點(diǎn)的算法;劉梟等[4]提出一種利用概率圖檢測可疑節(jié)點(diǎn)的方法。此外,結(jié)合規(guī)則庫的設(shè)計(jì),丁濛濛[5]提出一個基于規(guī)則引擎的反欺詐模型,研究了規(guī)則匹配過程的優(yōu)化方法。
2) 在反洗錢研究方面:張成虎等[6]基于AI技術(shù)設(shè)計(jì)了一種反洗錢系統(tǒng)。喻煒等[7]基于交易網(wǎng)絡(luò)特征向量中心度量,提出了一種可疑洗錢行為檢測系統(tǒng)。孫景等[8]提出利用復(fù)雜網(wǎng)絡(luò)理論研究反洗錢的思路和方法。劉麗芳等[9]利用拓?fù)錂C(jī)構(gòu)分析工具,分析了洗錢關(guān)聯(lián)賬戶之間的資金流轉(zhuǎn)關(guān)系。
3) 在非法傳銷研究方面:Wang等[10]提出了利用決策樹理論識別可疑客戶的框架。Liu等[11]采用線性判別和中心圖發(fā)現(xiàn)技術(shù),建立了傳銷網(wǎng)絡(luò)核心人物和同伙判定模型。李艷麗等[12]從用戶社交行為數(shù)據(jù)中識別傳銷網(wǎng)絡(luò)模型,分別建立了正常、傳銷等不同性質(zhì)用戶的“自我中心網(wǎng)絡(luò)”,進(jìn)而根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)特性分析了傳銷用戶的行為特征。
以上這些研究均針對特定的金融犯罪活動,根據(jù)犯罪活動的不同模式和特點(diǎn),設(shè)計(jì)啟發(fā)式、機(jī)器學(xué)習(xí)等方法檢測異常個體或異常組織。
在非法傳銷、非法集資、洗錢和虛開發(fā)票等需要多人協(xié)作完成犯罪的非法金融活動中,普遍存在初始資金通過多個賬戶中轉(zhuǎn)最終到達(dá)匯集賬戶的現(xiàn)象。如何快速、準(zhǔn)確地挖掘出進(jìn)行上述非法資金轉(zhuǎn)移的關(guān)系賬戶和交易鏈路,對打擊非法金融組織有直接的指導(dǎo)意義。
本文通過詳細(xì)分析銀行賬戶交易數(shù)據(jù)特點(diǎn),首先構(gòu)建了金融交易數(shù)據(jù)通用網(wǎng)絡(luò)模型;其次,在對銀行賬戶交易數(shù)據(jù)特點(diǎn)分析的基礎(chǔ)上,分別提出了評估賬戶實(shí)體關(guān)系強(qiáng)度的“雙向活躍邊”搜索計(jì)算方法和還原資金流向的深度可控廣度優(yōu)先“頻繁鏈路”發(fā)現(xiàn)算法。在真實(shí)銀行數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果證明,“雙向活躍邊”算法能有效預(yù)測傳銷同伙,“頻繁鏈路”發(fā)現(xiàn)算法能有效追蹤傳銷資金的去向。
如果把每一個銀行賬戶表示為網(wǎng)絡(luò)中的節(jié)點(diǎn),賬戶間的交易關(guān)系表示為節(jié)點(diǎn)之間的有向邊,兩個節(jié)點(diǎn)之間交易的時間、金額、次數(shù)等信息表示為有向邊的權(quán)重,則銀行賬戶之間的交易構(gòu)成一個有向加權(quán)金融交易網(wǎng)絡(luò)。根據(jù)金融交易網(wǎng)絡(luò)的特點(diǎn),本文定義銀行賬戶交易網(wǎng)絡(luò)數(shù)學(xué)模型如下。
根據(jù)定義2,本文提出了一種雙向活躍邊搜索計(jì)算方法。
1) 雙向活躍邊搜索計(jì)算方法1
算法1 雙向活躍邊搜索計(jì)算方法1
5) end if
6) end for
2) 雙向活躍邊搜索計(jì)算方法2
算法2 雙向活躍邊搜索計(jì)算方法2
7) end if
8) end for
9) end for
在非法傳銷、非法集資、洗錢和詐騙等涉眾型非法金融活動中,資金的流向、流通方式均受違法者操控,即初始資金往往通過多個賬戶周轉(zhuǎn)到最終獲利賬戶,而且中轉(zhuǎn)賬戶在特定場景下是固定的??梢姡谝欢螘r間內(nèi),被操控的非法資金會多次由固定的賬戶順次進(jìn)行流通。本文把這種多次發(fā)生的交易賬戶路徑稱作頻繁鏈路。
算法3 深度可控的廣度優(yōu)先頻繁鏈路發(fā)現(xiàn)算法
9) end if
10) end for
11) end if
12) end while
Inter(R) Core i7-7700HQ CPU@ 2.80 GHz,內(nèi)存(RAM) 16 GB。軟件環(huán)境為:Python語言,Windows 7操作系統(tǒng)。
實(shí)驗(yàn)數(shù)據(jù)來自某經(jīng)偵部門經(jīng)過脫敏處理、包含某大型線下傳銷組織的長期資金交易的銀行賬戶交易數(shù)據(jù),包含15 685個交易賬戶和227 231條交易信息,其中傳銷賬戶為1305個,可疑賬戶對之間的交易記錄為18 549條。
賬號對之間的直接交易反映了賬號的親密關(guān)系,多個賬號之間的頻繁資金流動反映了組織的資金流動模式。本節(jié)首先說明了線下傳銷組織的資金交易特點(diǎn),然后分析了資金交易網(wǎng)絡(luò)中雙向活躍邊的存在情況,進(jìn)而驗(yàn)證了雙向活躍邊搜索計(jì)算算法在預(yù)測傳銷同伙應(yīng)用中的準(zhǔn)確性。針對頻繁鏈路挖掘算法,本文首先分析了傳銷組織交易頻繁環(huán)路的存在情況,然后給出了該算法用于資金追蹤的有效性。
1) 線下傳銷組織資金交易特點(diǎn)
線下傳銷組織的成員關(guān)系結(jié)構(gòu)呈金字塔型,自頂向下的等級明確且不可逾越,且上下級之間是一對多的所屬關(guān)系。上級以拉人頭的形式進(jìn)行會員擴(kuò)張,下級以繳納會員費(fèi)的形式加入組織,該過程中上級的收益方式為依據(jù)自身層級等因素獲得相應(yīng)比例的返利提成。資金頻繁地從多個下級賬戶匯集到塔尖的最大獲利賬戶。因此,傳銷組織在資金流動上也呈現(xiàn)出一定的定向、環(huán)路現(xiàn)象。
圖1 線下傳銷資金流動方式
2) 雙向活躍邊實(shí)驗(yàn)分析
3) 利用雙向活躍邊預(yù)測傳銷同伙
圖3 值對傳銷賬戶預(yù)測準(zhǔn)確率的影響
4) 傳銷網(wǎng)絡(luò)中頻繁環(huán)路分析
由圖1可知,傳銷組織之間的資金交易關(guān)系存在穩(wěn)定的環(huán)結(jié)構(gòu)。去掉資金交易發(fā)生的時間順序,將交易網(wǎng)絡(luò)視為靜態(tài)網(wǎng)絡(luò),則網(wǎng)絡(luò)中由可疑賬戶產(chǎn)生的最大長度為8的交易鏈路共有233 764 835條。對真實(shí)網(wǎng)絡(luò)中存在于可疑賬戶之間的環(huán)結(jié)構(gòu)的大小及相應(yīng)數(shù)量分析如表1所示。
由表1可知,交易網(wǎng)絡(luò)中可疑賬戶之間存在的2節(jié)點(diǎn)環(huán)結(jié)構(gòu)數(shù)量為210個,可見,傳銷組織中雙向的存在比例較低,且由實(shí)驗(yàn)3)可知,當(dāng)雙向邊的活躍度提高到一定閾值時,2節(jié)點(diǎn)環(huán)結(jié)構(gòu)對傳銷組織的覆蓋率可達(dá)到70%。隨著環(huán)結(jié)構(gòu)的增大,網(wǎng)絡(luò)中環(huán)結(jié)構(gòu)的數(shù)量急劇增加,且長度為7時達(dá)到最大??梢?,可疑賬戶存在長度為7的環(huán)結(jié)構(gòu)的概率極高。因此,驗(yàn)證了圖1中資金交易的網(wǎng)絡(luò)關(guān)系。
表1 環(huán)結(jié)構(gòu)存在情況分析
5) 頻繁鏈路挖掘算法分析
圖4 頻繁鏈路數(shù)隨閾值值變化
此外,實(shí)驗(yàn)還分析了頻繁鏈路與傳銷組織資金交易鏈路的重合情況,如圖5所示。
圖5 頻繁鏈路對傳銷節(jié)點(diǎn)的覆蓋率
針對金融網(wǎng)絡(luò)實(shí)體關(guān)系強(qiáng)度計(jì)算問題,本文提出了雙向活躍邊的概念和搜索計(jì)算方法,該算法在傳銷同伙的預(yù)測方面取得了良好的效果。在實(shí)際應(yīng)用中發(fā)現(xiàn),兩個賬號除具有直接關(guān)系外,還具有其他間接關(guān)系,為提高預(yù)測準(zhǔn)確率,在下一步的研究中將加入對間接關(guān)系的計(jì)算。針對涉眾型金融犯罪的資金追蹤問題,本文提出了頻繁鏈路的概念和一種深度可控的廣度優(yōu)先頻繁鏈路挖掘算法,在真實(shí)的傳銷網(wǎng)絡(luò)的資金追蹤應(yīng)用中取得了很好的效果。
以上兩種方法在面對海量數(shù)據(jù)量時容易遇到性能瓶頸。近年來,遺傳、蟻群等仿生算法在很多領(lǐng)域取得了很好的效果,接下來將開展利用仿生算法解決金融問題的分析研究。
[1] YU H, KAMINSKY M, Gibbons P B, et al. SybilGuard: defending against sybil attacks via social networks[J]. IEEE/ACM Transactions on Networking, 2008, 16(3):576-589.
[2] TRAN N, LI J, SUBRAMANIAN L, et al. Optimal Sybil-resilient node admission control[C]// IEEE Infocom. 2015.
[3] YANG C, HARKREADER R, ZHANG J, et al. Analyzing spammers' social networks for fun and profit: a case study of cyber criminal ecosystem on twitter[C]//International Conference on World Wide Web. 2012.
[4] 劉梟, 王曉國. 基于概率圖的銀行電信詐騙檢測方法[J]. 計(jì)算機(jī)科學(xué), 2018, 45(7):122-128.
LIU X, WANG X G. Probabilistic graphical model based approach for bank telecommunication fraud detection[J]. Computer Science, 2018, 45(7): 122-128.
[5] 丁濛濛. 基于規(guī)則引擎的互聯(lián)網(wǎng)金融反欺詐研究[J]. 電腦知識與技術(shù), 2018, 14(1):1-3.
DING M M. Internet finance anti-fraud research based on rule engine[J]. Computer Knowledge and Technology, 2018, 14(1):1-3.
[6] 張成虎, 李時. 基于AI技術(shù)的反洗錢系統(tǒng)設(shè)計(jì)[J]. 中國金融電腦,2005, (3):44-47.
ZHANG C H, LI S. Design of anti-money laundering system based on AI technology[J]. Financial Computer of China, 2005, (3): 44-47.
[7] 喻煒, 王建東. 基于交易網(wǎng)絡(luò)特征向量中心度量的可疑洗錢識別系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用, 2009,29(9):2581-2585.
YU Y, WANG J D. Suspicious money laundering detection system based on eigenvector centrality measure of transaction network[J]. Journal of Computer Applications, 2009, 29(9): 2581-2585.
[8] 孫景, 陳婧, 萬紅. 基于復(fù)雜網(wǎng)絡(luò)的可疑金融交易識別研究[J]. 數(shù)字技術(shù)與應(yīng)用, 2013, 4(149):206-207.
SUN J, CHEN J, WAN H. Research on suspicious financial transaction identification based on complex network[J]. Digital Technology and Application, 2013, 4(149):206-207.
[9] 劉麗芳, 陶文立, 陳延妙. 拓?fù)涔ぞ咴诜聪村X關(guān)聯(lián)賬戶資金流分析中的運(yùn)用[J]. 福建金融, 2013, 2:39-44.
LIU L F, TAO W L, CHEN Y M. Application of topology tools in analysis of fund flow of anti-money laundering related accounts[J]. Fujian Finance, 2013, 2:39-44.
[10] WANG S N, YANG J G. A money laundering risk evaluation method based on decision tree[C]//International Conference on Machine Learning and Cybernetics. 2007.
[11] LIU Y. Based on social network crime organization relation mining and central figure determining[C]//IEEE 3rd International Conference on Software Engineering and Service Science. Beijing, China, 2012.
[12] 李艷麗, 劉陽, 謝文波, 等. 大數(shù)據(jù)發(fā)現(xiàn)非法傳銷網(wǎng)絡(luò)[J]. 大數(shù)據(jù), 2017, 3(5):106-112.
LI Y L, LIU Y, XIE W B, et al. Detecting illegal pyramid scheme network in big data[J]. Big Data, 2017, 3(5):106-112.
Frequent path discovery algorithm for financial network
LYU Fang, TANG Fenghe, HUANG Junheng, WANG Bailing
School of Computer Science and Technology, Harbin Institute of Technology(weihai), Weihai 264209, China
With the proliferation of various illegal financial activities, more and more attention is paid to the research of finding criminal cues in financial network by scholars. The characteristics of the transaction data generated by bank accounts are analyzed in detail, and a general model of bank account transaction network is established. On this basis, a two-direction active edge searching method is proposed to solve the problem of evaluating the relationship strength between financial entities. And then, a breadth-first frequent path discovery algorithm with depth controlled is presented, with which the way how the financial flows is restored. Experiment results on the real bank data show that the above two methods are effective in solving the problem of peer prediction and financial tracking respectively.
two-direction active edge, frequent path, peer prediction, financial tracking
呂芳(1990? ),女,山東陽谷人,哈爾濱工業(yè)大學(xué)(威海)博士生,主要研究方向?yàn)閺?fù)雜網(wǎng)絡(luò)、信息內(nèi)容安全、數(shù)據(jù)挖掘。
湯豐赫(1998? ),男,滿族,內(nèi)蒙古呼和浩特人,主要研究方向?yàn)樾畔?nèi)容安全。
黃俊恒(1966? ),男,河南新鄉(xiāng)人,哈爾濱工業(yè)大學(xué)(威海)副教授,主要研究方向?yàn)閿?shù)據(jù)挖掘、人工智能。
王佰玲(1978? ),男,黑龍江哈爾濱人,哈爾濱工業(yè)大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)樾畔埂⑿畔踩?、信息搜索、移動網(wǎng)絡(luò)、金融安全。
TP393
A
10.11959/j.issn.2096?109x.2019050
2018?11?28;
2019?02?10
王佰玲,wbl@hit.edu.cn
國家重點(diǎn)研發(fā)計(jì)劃重點(diǎn)專項(xiàng)基金資助項(xiàng)目(No.2018YFB2004201, No.2017YFB0801804);前沿科技創(chuàng)新專項(xiàng)基金資助項(xiàng)目(No.2016QY05X1002-2);國家區(qū)域創(chuàng)新中心科技專項(xiàng)基金資助項(xiàng)目(No.2017QYCX14);山東省重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目(No.2017CXGC0706);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(No.HIT.NSRIF.2020098);2017威海市大學(xué)共建基金資助項(xiàng)目
The National Key Research and Development Program of China (No.2018YFB2004201, No.2017YFB0801804), Frontier Science and Technology in Notation of China (No.2016QY05X1002-2), National Regional Innovation Center Science and Technology Special Project of China (No.2017QYCX14), Key Research and Development Program of Shandong Province (No.2017CXGC0706), The Fundamental Research Funds for the Central Universities (No.HIT.NSRIF.2020098), 2017 University Co-construction Project in Weihai City
呂芳, 湯豐赫, 黃俊恒, 等. 金融網(wǎng)絡(luò)頻繁鏈路發(fā)現(xiàn)算法[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2019, 5(5): 48-55.
LYU F, TANG F H, HUANG J H, et al. Frequent path discovery algorithm for financial network[J]. Chinese Journal of Network and Information Security, 2019, 5(5): 48-55.