摘 要:
區(qū)塊鏈非法交易檢測(cè)任務(wù)需要充分挖掘歷史交易數(shù)據(jù)中固有的時(shí)間和空間特征。針對(duì)現(xiàn)有的非法交易檢測(cè)方法存在誤差較大的問(wèn)題,提出一種基于強(qiáng)化圖卷積和時(shí)空循環(huán)門的區(qū)塊鏈非法交易檢測(cè)方法(RGCN-SRG)。首先,利用比特幣區(qū)塊鏈歷史交易數(shù)據(jù)構(gòu)造交易圖譜,引入一組具有不同尺寸卷積核的強(qiáng)化圖卷積網(wǎng)絡(luò)(RGCN),全面地提取該圖譜的拓?fù)湫畔⒉⑸商卣飨蛄?;另外,考慮到區(qū)塊鏈交易的時(shí)序特點(diǎn),提出一種時(shí)空循環(huán)門結(jié)構(gòu)(SRG),在傳統(tǒng)門結(jié)構(gòu)中引入圖卷積運(yùn)算,以提取交易圖多個(gè)時(shí)空維度的依賴信息。最后,經(jīng)過(guò)一個(gè)線性層和激活函數(shù)輸出非法交易檢測(cè)的預(yù)測(cè)結(jié)果。將提出的方法與GCN、DEDGAT、EGT以及GCN+MLP進(jìn)行比較,在F1方面,分別提高了18.4、10.7、9.3和4.9百分點(diǎn);在精度方面,分別提高了11.5、11.2、7.7和3.7百分點(diǎn)。
關(guān)鍵詞:區(qū)塊鏈;比特幣網(wǎng)絡(luò);圖卷積網(wǎng)絡(luò);非法交易識(shí)別
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)09-004-2592-06
doi:10.19734/j.issn.1001-3695.2023.12.0616
Blockchain fraud detection method based on reinforced graph convolutional network and spatiotemporal recurrent gates
Xia Xin, Ren Xiuli
(College of Information, Liaoning University, Shenyang 110036, China)
Abstract:
The task of fraud detection in blockchain requires a thorough exploration of the inherent temporal and spatial characteristics in historical transaction data. Existing fraud detection methods suffer from large prediction errors. To address this issue, this paper proposed a blockchain fraud detection method, named RGCN-SRG, based on reinforced graph convolutional network(RGCN) and spatiotemporal recurrent gate(SRG). Firstly, leveraging Bitcoin’s historical transaction data for the construction of the transaction graph, the method used a reinforced graph convolutional network with different kernel sizes to comprehensively extract the graph’s topology information and generate feature vectors. Additionally, considering the temporal characteristics of blockchain transactions, the method introduced a spatiotemporal recurrent gate structure that incorporated graph convolutional operations into the traditional gate structure to extract dependency information from multiple spatiotemporal dimensions of the transaction graph. Finally, it obtained the prediction results of money laundering detection through a linear layer and activation function. The proposed fraud detection method was evaluated by the constructed dataset. Compared with GCN, DEDGAT, EGT and GCN+MLP F1 by the proposed method improves 18.4, 10.7, 9.2 and 4.9-per centage poiuts, respectively; the precision improves 11.5, 11.2, 7.7 and 3.7-per centage poiuts, respectively.
Key words:blockchain; bitcoin network; graph convolutional network; illegal transaction identification
0 引言
區(qū)塊鏈?zhǔn)且环N去中心化的分布式記賬工具,用于記錄不同用戶之間的交易。比特幣作為區(qū)塊鏈領(lǐng)域的主要虛擬貨幣,相較于傳統(tǒng)的信用貨幣,具有更高的安全性[1]。但是,由于其信任構(gòu)建不依靠單一中心組織,并且用戶交易以匿名形式進(jìn)行,使得區(qū)塊鏈上的整個(gè)交易過(guò)程無(wú)法對(duì)用戶的真實(shí)身份進(jìn)行核驗(yàn),這也給從事非法交易的不法分子以便利[2]。例如,2019年,總部位于塞舌爾的加密貨幣交易所KuCoin遭到嚴(yán)重的黑客攻擊,價(jià)值約為2.81億美元的加密貨幣被盜[3]。2021年,全球最大的跨鏈去中心化金融平臺(tái)Poly Network,其智能合約遭到網(wǎng)絡(luò)入侵,損失總價(jià)值超過(guò)6.1億美元的數(shù)字資產(chǎn)。至2021年,利用網(wǎng)絡(luò)釣魚(yú)、非法融資和洗錢等方式進(jìn)行的非法交易約占全球區(qū)塊鏈交易總量的0.15%,涉及金額超過(guò)140億美元。根據(jù)區(qū)塊鏈分析機(jī)構(gòu)Chainalysis的統(tǒng)計(jì)數(shù)據(jù)顯示,截至2023年,區(qū)塊鏈中非法交易金額為242億美元,增長(zhǎng)率超過(guò)70%[4]。非法交易破壞了區(qū)塊鏈交易市場(chǎng)的穩(wěn)定, 為了更好地打擊發(fā)生在區(qū)塊鏈上的非法交易活動(dòng),必須通過(guò)區(qū)塊鏈公開(kāi)的歷史賬單數(shù)據(jù)進(jìn)行非法交易檢測(cè),從而維護(hù)整個(gè)交易市場(chǎng)的穩(wěn)定[5]。
在過(guò)去,對(duì)抗區(qū)塊鏈非法交易的有效手段主要以經(jīng)典的機(jī)器學(xué)習(xí)算法為主,包括邏輯回歸[6]、支持向量機(jī)[7]和隨機(jī)森林等[8]。這些算法普遍依賴于復(fù)雜的特征工程,而對(duì)于區(qū)塊鏈交易網(wǎng)絡(luò)這種復(fù)雜的圖結(jié)構(gòu),往往難以很好地實(shí)現(xiàn)[9]。因此經(jīng)典的機(jī)器學(xué)習(xí)算法在區(qū)塊鏈非法交易檢測(cè)中存在精度較低的問(wèn)題。近年來(lái),以圖卷積網(wǎng)絡(luò)為代表的圖表示學(xué)習(xí)技術(shù),可以有效地從圖結(jié)構(gòu)中學(xué)習(xí)特征,從而避免了繁雜的特征工程操作,同時(shí)極大地提高了非法交易檢測(cè)的精度[10]?,F(xiàn)有的方法大多利用區(qū)塊鏈的歷史記錄構(gòu)建交易圖,并利用圖卷積方法對(duì)圖中的每一個(gè)交易實(shí)體進(jìn)行分類。
雖然基于傳統(tǒng)圖卷積網(wǎng)絡(luò)的區(qū)塊鏈非法交易檢測(cè)方法是有效的,但是仍然有兩個(gè)局限性:a)忽視了整個(gè)交易圖中高階近鄰節(jié)點(diǎn)的影響力,最后導(dǎo)致非法交易檢測(cè)結(jié)果不佳。如圖1所示,在時(shí)刻t=1時(shí)fraudster1雖然沒(méi)有和任何的victim用戶進(jìn)行交易,但通過(guò)相鄰的fraudster2可以與victim1進(jìn)行間接交易。b)忽略了比特幣交易圖中不同交易實(shí)體之間的關(guān)聯(lián)關(guān)系隨時(shí)間t的動(dòng)態(tài)變化。如圖1所示,t=1時(shí)fraudster1與victim1之間并沒(méi)有任何交易往來(lái),但是到t=3時(shí)兩者之間進(jìn)行了交易。
為了解決上述存在的問(wèn)題, 本文提出一種基于強(qiáng)化圖卷積和時(shí)空循環(huán)門的區(qū)塊鏈非法交易檢測(cè)方法(reinforcement graph convolutional network and spatiotemporal recurrent gate,RGCN-SRG)。首先,利用比特幣的原始交易數(shù)據(jù),構(gòu)建一個(gè)以交易實(shí)體為節(jié)點(diǎn),以交易實(shí)體間關(guān)聯(lián)關(guān)系為邊的比特幣交易圖。其次,設(shè)計(jì)強(qiáng)化圖卷積網(wǎng)絡(luò)和時(shí)空循環(huán)門結(jié)構(gòu)來(lái)自動(dòng)學(xué)習(xí)個(gè)體的時(shí)序變化特征和交易圖的拓?fù)浣Y(jié)構(gòu)特征。然后,構(gòu)造非法交易預(yù)測(cè)模塊實(shí)現(xiàn)時(shí)空特征維度轉(zhuǎn)換和信息整合,并作出檢測(cè)輸出。最后,利用真實(shí)的比特幣交易數(shù)據(jù)驗(yàn)證RGCN-SRG的高效性和準(zhǔn)確性。本文的貢獻(xiàn)如下:
a)利用比特幣公開(kāi)的交易賬單數(shù)據(jù),本文構(gòu)建了以交易實(shí)體為節(jié)點(diǎn)、交易實(shí)體之間的關(guān)系為邊的比特幣交易圖;
b)提出了一個(gè)基于強(qiáng)化圖卷積和時(shí)空循環(huán)門的區(qū)塊鏈非法交易檢測(cè)方法,可以更好地提取交易圖的時(shí)空依賴關(guān)系,從而更加準(zhǔn)確地識(shí)別非法交易;
c)通過(guò)在所構(gòu)建數(shù)據(jù)集上的大量實(shí)驗(yàn),結(jié)果表明本文提出的方法在非法交易檢測(cè)任務(wù)上性能優(yōu)秀,能夠滿足金融監(jiān)管機(jī)構(gòu)對(duì)區(qū)塊鏈非法交易檢測(cè)的迫切需求。
1 相關(guān)工作
傳統(tǒng)的銀行業(yè)非法交易檢測(cè)方法主要依賴于金融從業(yè)者的業(yè)務(wù)經(jīng)驗(yàn)和專業(yè)知識(shí)來(lái)制定[11,12],比如統(tǒng)計(jì)規(guī)則和黑名單攔截[13]。由于區(qū)塊鏈交易的匿名性,且交易數(shù)據(jù)具有非結(jié)構(gòu)化特點(diǎn),此類方法很難對(duì)區(qū)塊鏈非法交易行為作出檢測(cè)。
目前,基于區(qū)塊鏈交易數(shù)據(jù)的非法交易檢測(cè)方法主要分為監(jiān)督學(xué)習(xí)[14~16]、無(wú)監(jiān)督學(xué)習(xí)[17~19]和半監(jiān)督學(xué)習(xí)[20~22]三類。
在監(jiān)督學(xué)習(xí)方面,F(xiàn)arrugia等人[14]利用以太坊公開(kāi)的歷史交易數(shù)據(jù)構(gòu)建數(shù)據(jù)集,應(yīng)用XGBoost算法,集成大量性能較弱的基礎(chǔ)檢測(cè)器,從而形成精度較高的以太坊非法交易檢測(cè)模型。Vassallo等人[15]在梯度提升模型的基礎(chǔ)之上,通過(guò)多層次的自適應(yīng)堆疊,提出基于自適應(yīng)堆疊極限梯度提升的非法交易檢測(cè)模型,并被應(yīng)用于檢測(cè)加密貨幣領(lǐng)域的各種非法交易。Elbaghdadi等人[16]基于比特幣交易記錄進(jìn)行特征處理、降維,使用one-class單分類支持向量機(jī)進(jìn)行非法交易檢測(cè)。
在無(wú)監(jiān)督學(xué)習(xí)方面,Rocha等人[17] 通過(guò)使用K近鄰算法,根據(jù)賬戶之間交易行為的異常性指標(biāo)來(lái)判斷是否存在非法交易,從而有效識(shí)別潛在的欺詐賬戶。Hu等人[18]提出使用聚類系數(shù)的方法來(lái)提取出非法交易與普通交易間的差異,然后使用基于DeepWalk算法的分類器對(duì)非法交易進(jìn)行分類處理。Nan等人[19]提出使用自動(dòng)編碼器來(lái)進(jìn)行圖嵌入操作,并利用節(jié)點(diǎn)嵌入生成節(jié)點(diǎn)的低維表示,運(yùn)用K-均值算法對(duì)節(jié)點(diǎn)進(jìn)行聚類操作,以檢測(cè)交易是否合法。
在半監(jiān)督學(xué)習(xí)方面,主流方法有:深度生成模型、圖注意力機(jī)制(GAT)[20]和圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)[21]。其中,GCN方法[22]運(yùn)用最為廣泛,Weber等人[23]利用區(qū)塊鏈歷史數(shù)據(jù),使用GCN方法來(lái)檢測(cè)非法交易,并與主流的檢測(cè)模型對(duì)比,結(jié)果顯示GCN方法表現(xiàn)最佳。但傳統(tǒng)的GCN方法存在檢測(cè)精度較低和穩(wěn)定性較差的問(wèn)題[24],對(duì)此很多文獻(xiàn)都提出過(guò)改進(jìn)方案。Alarab等人[25]提出了一種改進(jìn)GCN的非法交易檢測(cè)方法GCN+MLP,利用局部鄰域聚合和自循環(huán)的方式構(gòu)建卷積層,捕獲給定節(jié)點(diǎn)的特征,并引入MLP結(jié)構(gòu)來(lái)增強(qiáng)GCN模型對(duì)復(fù)雜數(shù)據(jù)特征的敏感性,提高整體模型的性能。Wang[26]已經(jīng)考慮到區(qū)塊鏈交易圖的時(shí)序變化信息并提出EGT方法,利用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)對(duì)GCN參數(shù)進(jìn)行更新,使用位置編碼器捕獲節(jié)點(diǎn)之間的結(jié)構(gòu)相似性。
2 強(qiáng)化圖卷積和時(shí)空循環(huán)門檢測(cè)模型
本章提出強(qiáng)化圖卷積和時(shí)空循環(huán)門檢測(cè)模型的總體結(jié)構(gòu)和各模塊的設(shè)計(jì)細(xì)節(jié),通過(guò)構(gòu)建交易圖方法,無(wú)須進(jìn)行傳統(tǒng)的特征工程來(lái)處理原始的交易數(shù)據(jù),快速高效地檢測(cè)區(qū)塊鏈中的非法交易。
2.1 總體結(jié)構(gòu)
強(qiáng)化圖卷積和時(shí)空循環(huán)門檢測(cè)模型主要分為如下三個(gè)部分,總體結(jié)構(gòu)如圖2所示。
a)比特幣交易圖構(gòu)建模塊:該模塊的輸入是原始的比特幣交易數(shù)據(jù),這些數(shù)據(jù)都進(jìn)行了匿名化處理;輸出為包含節(jié)點(diǎn)特征和邊特征的圖結(jié)構(gòu)數(shù)據(jù)。具體來(lái)講,首先,利用比特幣的原始交易記錄,將每一個(gè)交易實(shí)體表示為比特幣交易圖中獨(dú)立的節(jié)點(diǎn),這些節(jié)點(diǎn)擁有基本屬性特征,包括時(shí)間戳、交易實(shí)體ID和賬戶余額等。接著,依照交易實(shí)體間復(fù)雜的交易關(guān)系生成相應(yīng)的邊。據(jù)此,比特幣交易的原始數(shù)據(jù)可以被轉(zhuǎn)換為比特幣交易圖中的節(jié)點(diǎn)和邊,該圖數(shù)據(jù)將作為強(qiáng)化圖卷積和時(shí)空循環(huán)門模塊的輸入。
b)強(qiáng)化圖卷積和時(shí)空循環(huán)門模塊:該模塊的輸入為比特幣交易圖,由于該圖的拓?fù)浣Y(jié)構(gòu)是隨著時(shí)序變化而改變的,所以非法交易檢測(cè)需要聚合時(shí)間和空間上的多維度特征。首先,強(qiáng)化圖卷積網(wǎng)絡(luò)通過(guò)擴(kuò)大當(dāng)前交易實(shí)體節(jié)點(diǎn)的感知半徑大小聚合高階近鄰的拓?fù)涮卣?,這些聚合后的節(jié)點(diǎn)特征將進(jìn)一步輸入到時(shí)空循環(huán)門。接著,時(shí)空循環(huán)門利用時(shí)間穩(wěn)定門和空間穩(wěn)定門結(jié)構(gòu)捕獲比特幣交易圖的長(zhǎng)程時(shí)空變化特征。強(qiáng)化圖卷積和時(shí)空循環(huán)門實(shí)現(xiàn)了充分利用時(shí)間和空間的不同維度特征來(lái)檢測(cè)區(qū)塊鏈上的非法交易。
c)非法交易預(yù)測(cè)模塊:本模塊以具有比特幣交易圖長(zhǎng)程依賴關(guān)系的時(shí)空特征為輸入,通過(guò)全連接層進(jìn)行維度轉(zhuǎn)換和信息整合,之后通過(guò)激活函數(shù)獲得最終分類結(jié)果。
2.2 比特幣交易圖構(gòu)建模塊
由于比特幣的每一筆交易都具有公開(kāi)性和溯源性,所以可通過(guò)訪問(wèn)區(qū)塊鏈上的歷史交易記錄來(lái)獲取原始數(shù)據(jù)。本文將比特幣交易圖的結(jié)構(gòu)描述為G=(V,E),其中節(jié)點(diǎn)的集合記作V={v1,v2,…,v|V|},每一個(gè)節(jié)點(diǎn)代表一個(gè)交易實(shí)體,符號(hào)|V|代表交易圖中節(jié)點(diǎn)的數(shù)量。交易圖中邊的集合記為E={e1,e2,…,e|E|},每一條邊都表示交易實(shí)體之間的交易關(guān)系,符號(hào)|E|代表交易圖中邊的數(shù)量。
經(jīng)過(guò)上述過(guò)程,原始的比特幣交易數(shù)據(jù)將被轉(zhuǎn)換為復(fù)雜的交易圖數(shù)據(jù),這些圖結(jié)構(gòu)數(shù)據(jù)將依次作為后續(xù)強(qiáng)化圖卷積和時(shí)空循環(huán)門模塊的輸入特征。
2.3 強(qiáng)化圖卷積和時(shí)空循環(huán)門模塊
2.3.1 強(qiáng)化圖卷積網(wǎng)絡(luò)
對(duì)于比特幣動(dòng)態(tài)交易圖中的任意節(jié)點(diǎn)而言,每提取一次該節(jié)點(diǎn)的特征,就會(huì)聚合更高一階鄰居節(jié)點(diǎn)的信息。若用節(jié)點(diǎn)的聚合半徑來(lái)表示鄰居節(jié)點(diǎn)的最高階數(shù),那么聚合半徑隨著圖卷積網(wǎng)絡(luò)層數(shù)的增加而變大。在某一閾值之后,節(jié)點(diǎn)的輸出特征就會(huì)變得過(guò)度平滑[27]。為了防止該現(xiàn)象發(fā)生,圖卷積網(wǎng)絡(luò)一般只會(huì)使用一到兩層結(jié)構(gòu)[28],而這又會(huì)導(dǎo)致不能有效地提取節(jié)點(diǎn)的空間特征,造成傳統(tǒng)的圖卷積方法往往不能有效的獲取比特幣交易圖的拓?fù)湫畔ⅲ?9] 。不同于原始的圖卷積網(wǎng)絡(luò),本文利用強(qiáng)化圖卷積網(wǎng)絡(luò)(reinforcement graph convolutional network,RGCN)來(lái)擴(kuò)大節(jié)點(diǎn)的感受野范圍,從而更加充分地捕捉交易實(shí)體拓?fù)浣Y(jié)構(gòu)的空間相關(guān)特征。
圖卷積方法可分為基于譜方法和基于空間方法,本文采用譜方法推導(dǎo)[30],圖卷積拉普拉斯矩陣L定義為L(zhǎng)=D-A,正則化的 L^如式(1)所示。
其中:A^=A+I為鄰接矩陣A與單位矩陣I之和,D^為A^的度矩陣,σ為激活函數(shù),矩陣H(l-1)和H(l)為經(jīng)過(guò)第l-1層和第l層圖卷積操作所得到的特征矩陣,W(l-1)為第l-1層的系數(shù)矩陣。由式(3)可以看出,圖卷積操作主要依賴于矩陣A來(lái)聚合當(dāng)前節(jié)點(diǎn)近鄰的拓?fù)湫畔?,該矩陣是一個(gè)可進(jìn)行相似對(duì)角化操作的實(shí)對(duì)稱矩陣,擁有自身節(jié)點(diǎn)和其周圍近鄰節(jié)點(diǎn)的所有拓?fù)湫畔?,在空間上可以表示近鄰節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的影響程度。
在圖信號(hào)處理中,為了提高當(dāng)前頂點(diǎn)的感知域信號(hào)強(qiáng)度,常用k階近鄰頂點(diǎn)的圖信號(hào)值的線性加權(quán)組合來(lái)表示頂點(diǎn)處的圖信號(hào)[31],即當(dāng)前頂點(diǎn)的濾波器可以由鄰接矩陣的1,2,…,k次冪的線性加權(quán)求和來(lái)表示。將該方法引入到普通的圖卷積操作當(dāng)中,可以極大地提高卷積操作的感受野范圍,從而更好地聚合空間特征。可以將強(qiáng)化圖卷積定義為式(4)。
H(l)=σ(∑Kk=0AkW(l-1)Λ(l-1)k)(4)
其中:Λ(l)k代表第l層圖卷積的k階近鄰的可學(xué)習(xí)系數(shù)矩陣。將時(shí)刻t時(shí)比特幣交易圖數(shù)據(jù)作為強(qiáng)化圖卷積的輸入,則輸出結(jié)果為特征H(l)t,此特征將作為時(shí)空循環(huán)門的輸入。
2.3.2 時(shí)空循環(huán)門
傳統(tǒng)門循環(huán)結(jié)構(gòu)能夠在時(shí)序上解決長(zhǎng)期依賴問(wèn)題,但它并不能很好地解決空間上的長(zhǎng)期依賴問(wèn)題。即使圖卷積中的特征值得到了很好的保留,隨著時(shí)間的增加,交易圖中的某些交易實(shí)體或交易關(guān)系也可能具有更高的權(quán)重值,從而導(dǎo)致空間上分布的不平衡[32]。尤其,當(dāng)交易圖中的某些部分具有更高的連接性時(shí),隨著時(shí)間的增加,高度連接結(jié)構(gòu)的拓?fù)涮卣骺赡軙?huì)覆蓋掉其他局部稀疏的結(jié)構(gòu)特征,造成難以保留交易圖局部的長(zhǎng)期變化信息[33]。所以,傳統(tǒng)門結(jié)構(gòu)并不適合比特幣交易圖這樣的動(dòng)態(tài)變化的拓?fù)浣Y(jié)構(gòu)。因此,本文設(shè)計(jì)了一種時(shí)空循環(huán)門(spatiotemporal recurrent gate,SRG)結(jié)構(gòu),以確保特征信息在時(shí)空分布上的平衡性。SRG由時(shí)間穩(wěn)定門和空間穩(wěn)定門兩部分構(gòu)成,分別負(fù)責(zé)捕獲動(dòng)態(tài)比特幣交易圖在時(shí)間和空間上的依賴信息,如式(5)(6)所示。
2.5 方法實(shí)現(xiàn)
本節(jié)通過(guò)一個(gè)完整的區(qū)塊鏈非法交易監(jiān)測(cè)系統(tǒng)進(jìn)一步說(shuō)明RGCN-SRG方法如何運(yùn)行。如圖4所示,當(dāng)區(qū)塊鏈中發(fā)生一筆買賣交易時(shí),首先,利用基于規(guī)則編寫(xiě)的SQL語(yǔ)句對(duì)交易的賬單信息進(jìn)行初步篩查,如果被規(guī)則檢測(cè)為非法交易,則將該筆交易上交給領(lǐng)域?qū)<遗袛?;如果未被識(shí)別為非法,則開(kāi)始構(gòu)建比特幣交易圖。接著,將構(gòu)建好的交易圖輸入給RGCN-SRG模型,RGCN-SRG將對(duì)該筆交易做進(jìn)一步的檢測(cè),若預(yù)測(cè)結(jié)果為非法交易,則將該筆交易上交給領(lǐng)域?qū)<遗袛?;若預(yù)測(cè)的結(jié)果為合法交易,則將該筆交易標(biāo)記為合法并存入標(biāo)簽數(shù)據(jù)庫(kù)中。所有經(jīng)專家判斷后確認(rèn)為非法的交易,將被標(biāo)記為非法并存入標(biāo)簽數(shù)據(jù)庫(kù)中。本檢測(cè)系統(tǒng)可以利用更新后的標(biāo)簽數(shù)據(jù)庫(kù)定期訓(xùn)練RGCN-SRG模型,從而使整個(gè)系統(tǒng)更為高效和穩(wěn)定地運(yùn)行。
3 實(shí)驗(yàn)驗(yàn)證
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本文實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于2016年2月1日至 2020年10 月 30 日之間的部分比特幣交易記錄。在上述時(shí)間區(qū)間內(nèi)的數(shù)據(jù)中,選擇比特幣官方公布的全部非法交易并標(biāo)記為非法交易樣本,其余的樣本則被標(biāo)記為合法或未知樣本,共包含4 031條非法交易數(shù)據(jù),32 764條合法交易數(shù)據(jù)和125 649條未知交易數(shù)據(jù)。如圖5所示,數(shù)據(jù)集由45個(gè)時(shí)間步長(zhǎng)所組成,其中每個(gè)時(shí)間步長(zhǎng)都代表過(guò)去三個(gè)小時(shí)之內(nèi)在比特幣區(qū)塊鏈中的交易集合,即每個(gè)連通圖都與唯一的時(shí)間步長(zhǎng)相對(duì)應(yīng)。在訓(xùn)練過(guò)程中,本文使用前30個(gè)時(shí)間步長(zhǎng)的數(shù)據(jù)作為訓(xùn)練集,測(cè)試集由余下的15個(gè)時(shí)間步長(zhǎng)的數(shù)據(jù)構(gòu)成。本文采用五折交叉驗(yàn)證的方式訓(xùn)練模型并進(jìn)行相應(yīng)參數(shù)選擇與調(diào)優(yōu)工作,接著,在測(cè)試集上給出整個(gè)模型的性能表現(xiàn)。
3.2 評(píng)價(jià)指標(biāo)
為了評(píng)估本文所提出的非法交易檢測(cè)方法的性能,使用精度、召回率、F1值和準(zhǔn)確度四個(gè)評(píng)價(jià)指標(biāo),如式(11)所示。對(duì)于該方法的判別結(jié)果,被判別為非法交易的樣本中實(shí)際為非法交易的比例叫做精度;被預(yù)測(cè)為非法交易的樣本占全部實(shí)際為非法交易的比例叫做召回率,而F1值是精確值和召回率的調(diào)和均值,準(zhǔn)確度則是用來(lái)綜合衡量模型分類性能的指標(biāo)。
precision=TPTP+FP
recall=TPTP+FN
F1=2×precision×recallprecision+recall
accuracy=TP+TNTP+TN+FP+FN(11)
其中: TP是將正類預(yù)測(cè)為正類的數(shù)目,TN是將負(fù)類預(yù)測(cè)為負(fù)類的數(shù)目, FP是將負(fù)類預(yù)測(cè)為正類的錯(cuò)誤預(yù)測(cè)數(shù), FN是將正類預(yù)測(cè)為負(fù)類的錯(cuò)誤預(yù)測(cè)數(shù)目。
3.3 實(shí)驗(yàn)設(shè)置
本文的實(shí)驗(yàn)利用Python編程語(yǔ)言和幾個(gè)基于Python語(yǔ)言的統(tǒng)計(jì)及可視化開(kāi)發(fā)包實(shí)現(xiàn),如Sckit-learn、Numpy、Pandas、PyTorch Geometric和Matplotlib。實(shí)驗(yàn)環(huán)境配置為2.3 GHz四核Intel Xeon,內(nèi)存為16 GB,圖形處理器為RTX 4070TI,操作系統(tǒng)為CentOS 8.0。在所構(gòu)建的數(shù)據(jù)集當(dāng)中選取前30個(gè)時(shí)間步長(zhǎng)為訓(xùn)練集,剩下的15個(gè)時(shí)間步長(zhǎng)為測(cè)試集。為了對(duì)超參數(shù)進(jìn)行無(wú)偏調(diào)優(yōu),隨機(jī)選取訓(xùn)練集中的6個(gè)時(shí)間步長(zhǎng)作為驗(yàn)證集。強(qiáng)化圖卷積的超參數(shù)K設(shè)置為3。選擇期望交叉熵函數(shù)和Adam優(yōu)化器來(lái)計(jì)算損失并更新模型的參數(shù)。進(jìn)行50個(gè)周期的訓(xùn)練并且將學(xué)習(xí)率固定在0.01。此外,本文將丟棄率設(shè)定為0.7,從而避免過(guò)度擬合的發(fā)生。
3.4 實(shí)驗(yàn)結(jié)果與分析
為了全面評(píng)估本文方法,將其與一系列基線和最先進(jìn)的模型在非法交易檢測(cè)上的表現(xiàn)進(jìn)行了比較:
a)GCN[23],該方法利用圖卷積操作對(duì)交易圖的拓?fù)浣Y(jié)構(gòu)信息進(jìn)行提取,從而聚合交易節(jié)點(diǎn)間的關(guān)系。本文所提出的RGCN就是在GCN的基礎(chǔ)上,捕獲當(dāng)前交易節(jié)點(diǎn)高階近鄰的拓?fù)湫畔ⅰ?/p>
b)EvolveGCN [23],該方法使用RNN來(lái)更新多層結(jié)構(gòu)圖卷積網(wǎng)絡(luò)的系數(shù)矩陣,以此捕獲圖序列的動(dòng)態(tài)信息。
c)GCN+MLP[25],該方法利用局部鄰域聚合和自循環(huán)的方式構(gòu)建卷積層,捕獲給定節(jié)點(diǎn)的特征,并引入MLP結(jié)構(gòu)來(lái)增強(qiáng)GCN模型對(duì)復(fù)雜數(shù)據(jù)特征的敏感性。
d)DyGEM[35],該方法利用圖嵌入技術(shù),使用由密集層和循環(huán)層組成的深層架構(gòu)來(lái)學(xué)習(xí)動(dòng)態(tài)交易圖中的演化信息。
e)ASXGBoost[15],該方法通過(guò)多層次的自適應(yīng)堆疊,將多個(gè)弱分類器組合成一個(gè)強(qiáng)分類器,以提高檢測(cè)精度。
f)DEDGAT[34],該方法將注意力機(jī)制引入圖神經(jīng)網(wǎng)絡(luò)當(dāng)中,通過(guò)計(jì)算節(jié)點(diǎn)之間的注意力從而確定鄰居聚合時(shí)的權(quán)重,建模交易圖當(dāng)中的鄰接關(guān)系信息來(lái)豐富交易節(jié)點(diǎn)的信息。
g)EGT[26],該方法使用LSTM結(jié)構(gòu)來(lái)更新單層結(jié)構(gòu)圖卷積網(wǎng)絡(luò)的系數(shù)矩陣,接著利用位置編碼器捕獲節(jié)點(diǎn)之間的結(jié)構(gòu)相似性。
如表1所示,分別給出了RGCN-SRG方法和其他方法的節(jié)點(diǎn)分類性能。結(jié)果顯示,RGCN-SRG模型在召回率、精度、F1值和準(zhǔn)確度這四項(xiàng)衡量指標(biāo)上均明顯優(yōu)于其他幾種傳統(tǒng)的區(qū)塊鏈非法交易檢測(cè)方法。具體來(lái)講,在同時(shí)使用本文所構(gòu)建數(shù)據(jù)集的前提下,將RGCN-SRG與GCN、EGT、DEDGAT以及GCN+MLP進(jìn)行比較,在F1方面,分別提高了18.4、10.7、9.3和4.9百分點(diǎn);在精度方面,分別提高了11.5、11.2、7.7、和3.7百分點(diǎn)。實(shí)驗(yàn)結(jié)果說(shuō)明,RGCN-SRG可以更好地捕捉比特幣交易圖的時(shí)空特征,區(qū)分合法和非法樣本,更適合解決區(qū)塊鏈非法交易風(fēng)險(xiǎn)問(wèn)題。
從表1中可以看出,對(duì)于僅使用GCN的非法交易檢測(cè)方法表現(xiàn)明顯低于其他方法,說(shuō)明當(dāng)前節(jié)點(diǎn)感受野的范圍大小對(duì)于提取交易圖的拓?fù)浣Y(jié)構(gòu)信息至關(guān)重要,同時(shí)交易圖的時(shí)序變化信息對(duì)于非法交易檢測(cè)也十分重要。而使用基于改進(jìn)注意力機(jī)制的方法,如DEDGAT和EGT明顯優(yōu)于GCN方法,這是因?yàn)樽⒁饬C(jī)制可以捕獲交易圖的全局拓?fù)浣Y(jié)構(gòu),且EGT還利用LSTM結(jié)構(gòu)進(jìn)一步捕獲交易圖的時(shí)間特征。以上方法的檢測(cè)能力均不如RGCN-SRG,原因在于本文方法通過(guò)構(gòu)建RGCN結(jié)構(gòu)來(lái)捕獲交易節(jié)點(diǎn)高階近鄰的空間特征,克服傳統(tǒng)GCN結(jié)構(gòu)過(guò)度平滑的問(wèn)題;SRG結(jié)構(gòu)則可以很好地保證交易圖特征信息在時(shí)空分布上的平衡性。
3.5 消融實(shí)驗(yàn)
在本文所構(gòu)建的數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)來(lái)驗(yàn)證本文所提出的RGCN-SRG方法中每個(gè)模塊的有效性。RGCN-SRG主要包括強(qiáng)化圖卷積網(wǎng)絡(luò)和時(shí)空循環(huán)門兩個(gè)模塊。于是,本消融實(shí)驗(yàn)使用一個(gè)線性層代替其中一個(gè)模塊,分為RGCN+Linear、Linear +SRG和RGCN-SRG三個(gè)部分做消融研究,所得結(jié)果如表2所示。
從表2中可以得出以下結(jié)論:a)RGCN-SRG的性能始終優(yōu)于RGCN+Linear和Linear+SRG,這說(shuō)明RGCN-SRG具有優(yōu)異的非法交易檢測(cè)能力;b)在性能上Linear+SRG均要優(yōu)于RGCN+Linear,這是因?yàn)樵贚inear+SRG之中的SRG結(jié)構(gòu)可以有效地捕獲比特幣交易圖的時(shí)空信息,而RGCN+Linear只能聚合交易圖的高階拓?fù)湫畔ⅰ?/p>
3.6 參數(shù)敏感性實(shí)驗(yàn)
為了得到具有最優(yōu)預(yù)測(cè)結(jié)果的模型,將不斷擴(kuò)大式(4)中的參數(shù)K,從而改變強(qiáng)化圖卷積的感受野范圍。如圖6所示,使用5個(gè)不同的值K=1,2,3,4,5,通過(guò)驗(yàn)證數(shù)據(jù)集觀察精度的變化結(jié)果,可知,隨著 K 值的增加,模型的精度值會(huì)明顯增大,當(dāng) K=3時(shí)達(dá)到最大的精度值,繼續(xù)增大K的值會(huì)導(dǎo)致精度值持續(xù)減小。
學(xué)習(xí)率的設(shè)置對(duì)于模型的性能和收斂速度具有重要影響。圖7顯示了通過(guò)調(diào)節(jié)學(xué)習(xí)率的數(shù)值來(lái)觀察模型精度的變化情況,可以發(fā)現(xiàn),當(dāng)學(xué)習(xí)率從0.001增加至0.01時(shí),模型的精度值顯著提升。隨后,學(xué)習(xí)率在0.01至0.1的區(qū)間內(nèi)保持了平穩(wěn)性,并在最高點(diǎn)附近波動(dòng)。然而,當(dāng)學(xué)習(xí)率進(jìn)一步增加時(shí),模型性能開(kāi)始緩慢下降。
綜上所述,本文提出的RGCN-SRG模型在參數(shù)K和學(xué)習(xí)率設(shè)定上都具有良好的穩(wěn)定性。
4 結(jié)束語(yǔ)
本文基于強(qiáng)化圖卷積神經(jīng)網(wǎng)絡(luò)和時(shí)空循環(huán)門結(jié)構(gòu)提出了一個(gè)全新的區(qū)塊鏈非法交易檢測(cè)方法RGCN-SRG。相較于傳統(tǒng)基于GCN的非法交易檢測(cè)方法,本方法更加高效地利用交易圖的時(shí)空變化信息,擁有更強(qiáng)的特征提取能力,大大提高了該方法對(duì)區(qū)塊鏈中非法交易活動(dòng)的檢測(cè)能力。實(shí)驗(yàn)結(jié)果表明,本文所提出的RGCN-SRG方法相比于傳統(tǒng)基于圖卷積網(wǎng)絡(luò)的非法交易檢測(cè)方法擁有更加優(yōu)秀的性能。在本文所構(gòu)建的數(shù)據(jù)集中,大約只有近4%的數(shù)據(jù)標(biāo)記了非法或合法交易標(biāo)簽,剩下的近96%的數(shù)據(jù)并沒(méi)有標(biāo)簽。所以如何利用有限的標(biāo)簽數(shù)據(jù)來(lái)訓(xùn)練出更加精準(zhǔn)的非法交易檢測(cè)模型是一個(gè)很有挑戰(zhàn)性的研究方向。在未來(lái)的研究工作之中,將考慮改進(jìn)現(xiàn)有的主動(dòng)學(xué)習(xí)框架,通過(guò)在數(shù)據(jù)集中選取最有代表性的數(shù)據(jù)樣本進(jìn)行模型訓(xùn)練,從而進(jìn)一步提高非法交易檢測(cè)的準(zhǔn)確性。后續(xù)計(jì)劃將本方法擴(kuò)展到區(qū)塊鏈之外的其他領(lǐng)域,如貸記卡交易、網(wǎng)上轉(zhuǎn)賬等。
參考文獻(xiàn):
[1]Tushar W,Saha T,Yuen C,et al. Peer-to-peer trading in electricity networks: an overview [J]. IEEE Trans on Smart Grid,2020,11(4): 3185-3200.
[2]Sun Yujing,Xiong Hao,Yiu Siuming,et al. Bitanalysis: a visualization system for bitcoin wallet investigation [J]. IEEE Trans on Big Data,2023,9(2): 621-636.
[3]孫國(guó)梓,李芝,肖榮宇,等. 區(qū)塊鏈交易安全問(wèn)題研究 [J]. 南京郵電大學(xué)學(xué)報(bào): 自然科學(xué)版,2021,41(2): 36-48. (Sun Guozi,Li Zhi,Xiao Rongyu,et al. Research on the security of blockchain transactions [J]. Journal of Nanjing University of Posts and Telecommunications: Natural Science Edition,2021,41(2): 36-48.)
[4]Guo Chaopeng,Zhang Sijia,Zhang Pengyi,et al. LB-GLAT: long-term bi-graph layer attention convolutional network for anti-money laundering in transactional blockchain [J]. Mathematics,2023,11(18): 3927-3947.
[5]Shahsavari Y,Zhang Kaiwen,Talhi C,et al. A theoretical model for block propagation analysis in bitcoin network [J]. IEEE Trans on Engineering Management,2022,69(4): 1459-1476.
[6]Lorenz J,Silva M,Aparício D,Machine learning methods to detect money laundering in the bitcoin blockchain in the presence of label scarcity [C]// Proc of the 1st ACM International Conference on AI in Finance. New York: ACM Press,2020: 1-8.
[7]Trivedi N,Simaiya S,Lilhore U,et al. An efficient credit card fraud detection model based on machine learning methods [J]. International Journal of Advanced Science and Technology,2020,29(5): 3414-3424.
[8]Kumar M,Soundarya V,Kavitha S,et al. Credit card fraud detection using random forest algorithm [C]// Proc of the 3rd International Conference on Computing and Communications Technologies. Piscataway,NJ:IEEE Press,2019: 149-153.
[9]Wang Daixin,Lin Jianbin,Cui Peng,et al. A semi-supervised graph attentive network for financial fraud detection [C]// Proc of IEEE International Conference on Data Mining. Piscataway,NJ:IEEE Press,2019: 598-607.
[10]Wu Zonghan,Pan Shirui,Chen Fengwen,et al. A comprehensive survey on graph neural networks [J]. IEEE Trans on Neural Networks and Learning Systems,2021,32(1): 4-24.
[11]程大偉,牛志彬,劉新海,等. 復(fù)雜擔(dān)保網(wǎng)絡(luò)中傳染路徑的風(fēng)險(xiǎn)評(píng)估 [J]. 中國(guó)科學(xué): 信息科學(xué),2021,51(7): 1068-1083. (Cheng Dawei,Niu Zhibin,Liu Xinhai,et al. Risk assessment of infection pathways in complex guarantee networks [J]. Science in China: Information Science,2021,51(7): 1068-1083.)
[12]Carneiro N,F(xiàn)igueira G,Costa M. A data mining based system for credit-card fraud detection in e-tail [J]. Decision Support Systems,2019,95(1): 91-101.
[13]鄭迎飛,陶文納,趙旭,等. 人機(jī)耦合反洗錢監(jiān)測(cè)系統(tǒng)構(gòu)建與機(jī)器學(xué)習(xí)算法優(yōu)化 [J]. 系統(tǒng)管理學(xué)報(bào),2021,30(6): 1198-1206. (Zhen Yingfei,Tao Wenna,Zhao Xu,et al. Construction of a human-machine coupling anti-money laundering monitoring system and optimization of machine learning algorithm [J]. Journal of Systems & Management,2021,30(6): 1198-1206.)
[14]Farrugia S,Ellul J,Azzopardi G. Detection of illicit accounts over the ethereum blockchain [J]. Expert Systems with Applications,2020,150(1): 113318-113329.
[15]Vassallo D,Vella V,Ellul J. Application of gradient boosting algorithms for anti-money laundering in cryptocurrencies [J]. SN Computer Science,2021,2(1): 1-15.
[16]Elbaghdadi A,Mezroui S,Oualkadi A. SVM: an approach to detect illicit transaction in the bitcoin network [J]. Innovations in Smart Cities Applications,2021,4(1): 1130-1141.
[17]Rocha J,Segovia M,Camacho M. Detection of shell companies in financial institutions using dynamic social network [J]. Expert Systems with Applications,2022,207(3): 117-131.
[18]Hu Yining,Seneviratne S,Thilakarathna K,et al. Characterizing and detecting money laundering activities on the bitcoin network [EB/OL]. (2019-12-27). https://arxiv. org/pdf/1912. 12060. pdf.
[19]Nan Lihao,Tao Dacheng. Bitcoin mixing detection using deep autoencoder [C]// Proc of the 3rd IEEE International Conference on Data Science in Cyberspace. Piscataway,NJ:IEEE Press,2018: 280-287.
[20]譚朋柳,周葉. 基于GAT與SVM的區(qū)塊鏈異常交易檢測(cè) [J]. 計(jì)算機(jī)應(yīng)用研究,2024,41(1): 21-25,31. (Tan Pengliu,Zhou Ye. Blockchain anomaly transaction detection based on GAT and SVM [J]. Application Research of Computers,2024,41(1): 21-25,31.)
[21]Abu S,Kapoor A,Perozzi B,et al. N-GCN: multi-scale graph convolution for semi-supervised node classification [C]// Proc of the 35th Uncertainty in Artificial Intelligence Conference. New York: ACM Press,2020: 841-851.
[22]Fu Bingxue,Wang Yixuan,F(xiàn)eng Tao,et al. CT-GCN+: a high-performance cryptocurrency transaction graph convolutional model for phishing node classification [J]. Cybersecurity,2024,7(3): 23-33.
[23]Weber M,Domeniconi G,Chen Jie,et al. Anti-money laundering in bitcoin: experimenting with graph convolutional networks for financial forensics [EB/OL]. (2019-07-31). https://arxiv. org/pdf/1908. 02591v1. pdf.
[24]Shehnepoor S,Togneri R; Liu Wei,et al. Spatio-temporal graph representation learning for fraudster group detection [J]. IEEE Trans on Neural Networks and Learning Systems,2022,10(1): 1-15.
[25]Alarab I,Prakoonwit S,Nacer M. Competence of graph convolutional networks for anti-money laundering in bitcoin blockchain [C]// Proc of the 5th International Conference on Machine Learning Technologies. New York: ACM Press,2020: 23-27
[26]Wang Cheng. Associations dynamic evolution: evolving graph transformer [J]. Anti-Fraud Engineering for Digital Finance,2023,10(1): 189-207.
[27]Gama F,Isufi E,Geert L,et al. Graphs,convolutions,and neural networks: from graph filters to graph neural networks [J]. IEEE Signal Processing Magazine,2020,37(6): 128-138.
[28]Xie Yu,Lu Shengze,Qian Yuhua,et al. Active and semi-supervised graph neural networks for graph classification [J]. IEEE Trans on Big Data,2022,8(4): 920-932.
[29]Shi Min,Tang Yufei,Zhu Xingquan. Topology and content co-alignment graph convolutional learning [J]. IEEE Trans on Neural Networks and Learning Systems,2021,33(12): 7899-7907.
[30]Wu Jiajing,Liu Jieli,Zhao Yijiang,et al. Analysis of cryptocurrency transactions from a network perspective: an overview [J]. Journal of Network and Computer Applications,2021,190(1): 103-139.
[31]Li Dun,Han Dezhi,Xia Benhui,et al. Fabric-GC: a blockchain-based Gantt chart system for cross organizational project management [J]. Computer Science and Information Systems,2022,19(1): 24-29.
[32]Diao Chunyan,Zhang Dafang,Liang Wei,et al. A novel spatial-temporal multi-scale alignment graph neural network security model for vehicles prediction [J]. IEEE Trans on Intelligent Transportation Systems,2022,24(1): 904-914.
[33]Gao Chao,Zhu Junyou,Zhang Fan,et al. A novel representation learning for dynamic graphs based on graph convolutional networks [J]. IEEE Trans on Cybernetics,2022,53(6): 3599-3612.
[34]Wu Jiafu,Yao Mupeng,Wu Dong,et al. DEDGAT: dual embedding of directed graph attention networks for detecting financial risk [EB/OL]. (2023-03-06). https://arxiv. org/pdf/2303. 03933. pdf.
[35]Goyal P,Chhetri S,Canedo A. dyngraph2vec: capturing network dynamics using dynamic graph representation learning [J]. Knowledge-Based Systems,2020,187(1): 48-58.
收稿日期:2023-12-25;修回日期:2024-02-19 基金項(xiàng)目:遼寧省教育廳資助項(xiàng)目(LYB201617);國(guó)家重點(diǎn)研發(fā)計(jì)劃資助項(xiàng)目(2019YFB1406002);國(guó)家自然科學(xué)基金資助項(xiàng)目(61871107);遼寧省自然科學(xué)基金資助項(xiàng)目(201202089)
作者簡(jiǎn)介:夏鑫(1992—),男,河北張家口人,碩士研究生,CCF會(huì)員,主要研究方向?yàn)閰^(qū)塊鏈;任秀麗(1965—),女(通信作者),吉林四平人,教授,碩導(dǎo),博士(后),主要研究方向?yàn)閰^(qū)塊鏈(rxl@lnu.edu.cn).