陳卓,朱淼,杜軍威
(青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)
欺詐行為是指對(duì)事實(shí)錯(cuò)誤的表達(dá),是以使人發(fā)生錯(cuò)誤認(rèn)識(shí)為目的的故意行為。欺詐有多種類別,包括社交網(wǎng)絡(luò)中的虛假信息、金融欺詐[1]、廣告流量欺詐等,有效檢測(cè)出欺詐行為對(duì)安全、金融等領(lǐng)域發(fā)展有著至關(guān)重要的作用。
由于圖可以對(duì)現(xiàn)實(shí)世界中的關(guān)系進(jìn)行良好建模,研究者將圖神經(jīng)網(wǎng)絡(luò)(GNN,graph neural network)運(yùn)用到欺詐檢測(cè)中。基于圖的異常檢測(cè)方法是識(shí)別可疑行為最常用的技術(shù)之一[2]。
FRAUDER(fraud detection dual-resistant)[3]利用圖結(jié)構(gòu)無關(guān)的編碼器學(xué)習(xí)欺詐節(jié)點(diǎn)和相鄰正常節(jié)點(diǎn)不同的表示,從而判別欺詐節(jié)點(diǎn)和正常節(jié)點(diǎn);而semiGNN[4]從節(jié)點(diǎn)的多視角信息出發(fā),利用層次注意力聚合節(jié)點(diǎn)不同視角之間的信息,學(xué)習(xí)了不同節(jié)點(diǎn)之間的交互以及不同視角之間的關(guān)系,以此進(jìn)行分類。
然而,在欺詐檢測(cè)任務(wù)中,欺詐者的數(shù)量遠(yuǎn)少于正常用戶的數(shù)量,以Amazon 數(shù)據(jù)集為例[5],只有9.5%的用戶是欺詐者,而其他用戶則是正常的。類不平衡問題使現(xiàn)有的欺詐檢測(cè)算法在多數(shù)類中過擬合,忽略了少數(shù)類的特征,從而導(dǎo)致檢測(cè)效果差。此外,在現(xiàn)實(shí)生活中,欺詐者通常連接大量的正常用戶以實(shí)施欺詐行為,欺詐節(jié)點(diǎn)之間缺乏必要的連接,這可能導(dǎo)致欺詐者信息被隱藏在正常信息中,研究者將之稱為欺詐者偽裝行為。由于圖神經(jīng)網(wǎng)絡(luò)的效果依賴于同質(zhì)性假設(shè),即距離相近的節(jié)點(diǎn)具有相似的信息,簡(jiǎn)單的圖神經(jīng)網(wǎng)絡(luò)在聚合鄰居節(jié)點(diǎn)信息后易掩蓋其中的欺詐信息,難以識(shí)別欺詐節(jié)點(diǎn),這也是欺詐檢測(cè)任務(wù)的難點(diǎn)之一?,F(xiàn)有研究[6-7]通過重采樣的方法過濾掉欺詐節(jié)點(diǎn)相鄰的正常節(jié)點(diǎn)以滿足GNN 的同質(zhì)性假設(shè)。同時(shí),利用重采樣的方法對(duì)正常節(jié)點(diǎn)進(jìn)行欠采樣,對(duì)欺詐節(jié)點(diǎn)進(jìn)行過采樣也可以解決類不平衡問題。但圖神經(jīng)網(wǎng)絡(luò)容易被一些微小的擾動(dòng)迷惑[8],特別是若某一層刪減了過多的邊,隨著圖結(jié)構(gòu)的演化將會(huì)導(dǎo)致GNN 過平滑。
針對(duì)上述問題,本文提出基于多視角圖神經(jīng)網(wǎng)絡(luò)的欺詐檢測(cè)(MGFD,multi-view graph neural network for fraud detection)算法,結(jié)合結(jié)構(gòu)無關(guān)的編碼器和層次注意力思想構(gòu)建多視角特征嵌入模塊,利用節(jié)點(diǎn)與子圖對(duì)構(gòu)建學(xué)習(xí)樣本,并設(shè)計(jì)標(biāo)簽從而解決欺詐檢測(cè)中的類不平衡問題,最終預(yù)測(cè)標(biāo)簽來判斷節(jié)點(diǎn)是否為欺詐節(jié)點(diǎn)。本文的工作主要有以下幾點(diǎn)。
1) 設(shè)計(jì)多視角特征嵌入模塊,首先使用結(jié)構(gòu)無關(guān)的編碼器學(xué)習(xí)欺詐節(jié)點(diǎn)與正常節(jié)點(diǎn)之間的差異性表示,再利用層次注意力機(jī)制融合節(jié)點(diǎn)多視角信息,學(xué)習(xí)節(jié)點(diǎn)不同關(guān)系之間的信息,利用包含豐富信息的表示解決欺詐者偽裝問題。
2) 構(gòu)建節(jié)點(diǎn)與子圖對(duì),設(shè)計(jì)實(shí)例對(duì)標(biāo)簽以平衡數(shù)據(jù)的類別,通過學(xué)習(xí)正常節(jié)點(diǎn)與欺詐節(jié)點(diǎn)的差異使節(jié)點(diǎn)和子圖對(duì)不斷擬合標(biāo)簽,最終預(yù)測(cè)標(biāo)簽來判斷節(jié)點(diǎn)類別,在不改變圖結(jié)構(gòu)的條件下解決類不平衡問題。
3) 在公開數(shù)據(jù)集中進(jìn)行廣泛的實(shí)驗(yàn),驗(yàn)證算法檢測(cè)欺詐節(jié)點(diǎn)的有效性。
本節(jié)首先給出不平衡比、多關(guān)系不平衡圖、節(jié)點(diǎn)子圖相關(guān)定義,然后給出針對(duì)圖異常檢測(cè)問題的形式化描述。
問題描述:基于圖的欺詐檢測(cè)。在多關(guān)系不平衡圖G=(V,ε,A,X,C)中,節(jié)點(diǎn)被標(biāo)記為欺詐節(jié)點(diǎn)或正常節(jié)點(diǎn)?;趫D的欺詐檢測(cè)的目的是在多關(guān)系不平衡圖G上發(fā)現(xiàn)欺詐節(jié)點(diǎn)與正常節(jié)點(diǎn)之間的顯著差異,也可以表述為不平衡節(jié)點(diǎn)分類問題。
下面,從基于圖的欺詐檢測(cè)和不平衡學(xué)習(xí)兩方面介紹本文的相關(guān)工作。
1.2.1 基于圖的欺詐檢測(cè)
GraphRAD(graph-based risky account detection)[9]將圖神經(jīng)網(wǎng)絡(luò)運(yùn)用于欺詐檢測(cè)任務(wù),以欺詐節(jié)點(diǎn)為種子節(jié)點(diǎn),向外發(fā)散生成局部社區(qū),從而通過學(xué)習(xí)賬戶之間的關(guān)系圖檢測(cè)有潛在風(fēng)險(xiǎn)的賬戶。雙向圖卷積網(wǎng)絡(luò)(Bi-GCN,bi-directional graph convolutional network)[10]使用圖卷積網(wǎng)絡(luò)檢測(cè)社交網(wǎng)絡(luò)中的謠言,提出謠言源頭和末端雙向圖模型,從而從深度和廣度兩方面檢測(cè)謠言。文獻(xiàn)[11]提供了一種新的異質(zhì)信息網(wǎng)絡(luò)節(jié)點(diǎn)聚合方法,針對(duì)用戶節(jié)點(diǎn)、評(píng)論節(jié)點(diǎn)以及商品節(jié)點(diǎn)分別提出聚合器,聚合各自鄰居節(jié)點(diǎn)的信息,同時(shí)通過評(píng)論之間的相似性,構(gòu)建了一個(gè)同質(zhì)的評(píng)論圖,從而檢測(cè)虛假的評(píng)論。這些方法結(jié)合數(shù)據(jù)特性利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行欺詐檢測(cè),但沒有考慮到欺詐節(jié)點(diǎn)偽裝以及樣本不平衡問題。近期,部分工作針對(duì)欺詐者偽裝以及類不平衡問題對(duì)網(wǎng)絡(luò)進(jìn)行改進(jìn),如GraphConsis[6]提供了一種新的GNN 框架用于解決欺詐者偽裝問題,在聚合鄰居節(jié)點(diǎn)時(shí)通過度量節(jié)點(diǎn)之間的一致性過濾不一致的節(jié)點(diǎn),學(xué)習(xí)欺詐節(jié)點(diǎn)之間潛在的特征,從而對(duì)節(jié)點(diǎn)進(jìn)行分類。CARE-GNN(camouflage resistance-GNN)[7]基于強(qiáng)化學(xué)習(xí)的方法學(xué)習(xí)節(jié)點(diǎn)的最優(yōu)鄰居節(jié)點(diǎn)數(shù),利用標(biāo)簽相似度對(duì)鄰居節(jié)點(diǎn)進(jìn)行選擇,以解決欺詐者的偽裝問題。上述方法雖然可以在一定程度上解決欺詐者偽裝問題,但檢測(cè)效果仍受標(biāo)簽不平衡限制,且在相鄰層網(wǎng)絡(luò)中輸入不同的圖結(jié)構(gòu)易使網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定。
1.2.2 不平衡學(xué)習(xí)
由于欺詐檢測(cè)任務(wù)中欺詐節(jié)點(diǎn)遠(yuǎn)少于正常節(jié)點(diǎn),欺詐檢測(cè)涉及不平衡分類問題?,F(xiàn)有的不平衡分類方法可分為重采樣和重加權(quán)。重采樣又可進(jìn)一步分為過采樣和欠采樣。SMOTE(synthetic minority over-sampling technique)[12]是一種典型的重采樣插值方法,通過對(duì)少數(shù)類過采樣和多數(shù)類欠采樣獲得更好的分類結(jié)果。Wang 等[13]提出通過生成少數(shù)類樣本以實(shí)現(xiàn)過采樣。Chi 等[14]提出基于元學(xué)習(xí)的強(qiáng)化學(xué)習(xí)以學(xué)習(xí)欠采樣。重加權(quán)算法可以通過成本敏感方法[15]和基于元學(xué)習(xí)的方法[16]實(shí)現(xiàn)。Cao 等[15]提出了感知標(biāo)簽分布的邊緣損失,并將重加權(quán)與損失相結(jié)合以解決類不平衡問題。Hu 等[16]將監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合,利用強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)動(dòng)態(tài)調(diào)整數(shù)據(jù)加權(quán)。
目前,針對(duì)解決圖數(shù)據(jù)中類不平衡問題的研究仍然較少。Shi 等[17]對(duì)圖數(shù)據(jù)中類不平衡問題進(jìn)行研究,提出了一種包含2 種正則化的新型圖卷積網(wǎng)絡(luò),訓(xùn)練所有未標(biāo)記節(jié)點(diǎn)使其與訓(xùn)練良好的節(jié)點(diǎn)具有類似的數(shù)據(jù)分布從而促進(jìn)不同類之間的平衡訓(xùn)練。該算法的局限性在于難以泛化到大規(guī)模圖上。Zhao 等[18]提出通過生成節(jié)點(diǎn)和邊進(jìn)行過采樣以平衡分類。由于不斷生產(chǎn)新的圖結(jié)構(gòu),這種方法有可能降低基于GNN 方法的穩(wěn)健性。
為了學(xué)習(xí)欺詐節(jié)點(diǎn)和正常節(jié)點(diǎn)之間顯著差異并解決類不平衡問題,本文提出了MGFD 算法,其由多視角特征嵌入、構(gòu)建節(jié)點(diǎn)子圖對(duì)標(biāo)簽、欺詐節(jié)點(diǎn)判別三部分組成,算法架構(gòu)如圖1 所示。首先使用結(jié)構(gòu)無關(guān)的編碼器增強(qiáng)欺詐節(jié)點(diǎn)與正常節(jié)點(diǎn)之間的差異,基于層次注意力聚合節(jié)點(diǎn)得到包含節(jié)點(diǎn)多視角信息的差異化表示;然后,進(jìn)行子圖采樣,基于不同類別的節(jié)點(diǎn)特性構(gòu)建節(jié)點(diǎn)子圖對(duì)標(biāo)簽,解決類不平衡問題并學(xué)習(xí)正常節(jié)點(diǎn)與欺詐節(jié)點(diǎn)之間的不一致信息;最后,判別標(biāo)簽得出節(jié)點(diǎn)是否為欺詐節(jié)點(diǎn)。
圖1 MGFD 算法架構(gòu)
由于欺詐節(jié)點(diǎn)與正常節(jié)點(diǎn)具有不同的特征,但兩者在拓?fù)浣Y(jié)構(gòu)上聯(lián)系緊密,直接聚合鄰居節(jié)點(diǎn)信息會(huì)平滑欺詐節(jié)點(diǎn)潛在的特征,因此在進(jìn)行信息聚合之前,首先基于節(jié)點(diǎn)屬性對(duì)節(jié)點(diǎn)進(jìn)行結(jié)構(gòu)無關(guān)編碼,即在對(duì)節(jié)點(diǎn)屬性進(jìn)行編碼時(shí)不考慮節(jié)點(diǎn)的結(jié)構(gòu)信息,如式(1)所示。
其中,xi為節(jié)點(diǎn)vi的特征向量;σ為非線性激活函數(shù),對(duì)節(jié)點(diǎn)屬性進(jìn)行非線性變換;We為可學(xué)習(xí)的權(quán)重矩陣;hi為學(xué)習(xí)到的節(jié)點(diǎn)vi的第一層嵌入。
由于節(jié)點(diǎn)具有不同豐富的特征,為聚合不同視角下鄰居節(jié)點(diǎn)的特征,使算法更易于區(qū)分欺詐節(jié)點(diǎn)和正常節(jié)點(diǎn),減少對(duì)欺詐節(jié)點(diǎn)的錯(cuò)誤判斷,本文基于多層次的注意力機(jī)制分別對(duì)節(jié)點(diǎn)層和不同視角層進(jìn)行信息融合,以學(xué)習(xí)不同關(guān)系下節(jié)點(diǎn)間的聯(lián)系。
給定用戶vj,vrj為用戶vi在視角r下的鄰居,hj為節(jié)點(diǎn)vrj的初始嵌入,利用節(jié)點(diǎn)vi和vrj之間的關(guān)系學(xué)習(xí)注意力系數(shù),如式(2)所示。
為了獲得節(jié)點(diǎn)更全面的信息,需要融合不同視角的信息,以獲得高階的語(yǔ)義信息。由于不同視角得到的節(jié)點(diǎn)表示位于不同的空間域,直接融合難以在低維空間中捕獲不同視角之間的相關(guān)性[4]。因此在融合多視角信息前,使用多層感知器(MLP,multilayer perceptron)將特定視角的節(jié)點(diǎn)表示映射到高維的空間中,第l層的表示為
不同視角表示對(duì)欺詐檢測(cè)任務(wù)具有不同的貢獻(xiàn),因此本文提出視角級(jí)的注意力機(jī)制。同理,視角級(jí)注意力系數(shù)的計(jì)算式為
其中,為可學(xué)習(xí)的視角權(quán)重向量。
得到不同視角的權(quán)重向量后,結(jié)合不同視角的嵌入得到節(jié)點(diǎn)的多視角特征嵌入,如式(6)所示。
其中,||表示拼接操作,拼接不同視角下節(jié)點(diǎn)表示。
在欺詐檢測(cè)任務(wù)中,由于欺詐者通常連接正常用戶以偽裝自己,且欺詐節(jié)點(diǎn)遠(yuǎn)少于正常節(jié)點(diǎn),直接聚合鄰居節(jié)點(diǎn)易使欺詐者特征被掩蓋。本文基于節(jié)點(diǎn)子圖對(duì)構(gòu)建平衡標(biāo)簽以解決上述問題。由于正常節(jié)點(diǎn)與欺詐節(jié)點(diǎn)具有不同的行為模式和特征,本文利用節(jié)點(diǎn)子圖作為新的學(xué)習(xí)樣本,通過構(gòu)建節(jié)點(diǎn)與其子圖對(duì),學(xué)習(xí)判別節(jié)點(diǎn)與其子圖不同的交互模式,將欺詐節(jié)點(diǎn)與其子圖對(duì)稱為負(fù)樣本,正常節(jié)點(diǎn)與其子圖對(duì)稱為正樣本。為解決樣本不均衡問題,將不平衡比作為少數(shù)類節(jié)點(diǎn)和多數(shù)類節(jié)點(diǎn)的子圖采樣輪數(shù)之比,以平衡正負(fù)樣本數(shù),使分類器充分學(xué)習(xí)到負(fù)樣本的特征,避免算法在多數(shù)類上過擬合,忽略負(fù)樣本的信息。
由多視角特征嵌入模塊得到節(jié)點(diǎn)的表示后,首先確定目標(biāo)節(jié)點(diǎn),子圖為從目標(biāo)節(jié)點(diǎn)采樣的局部子圖,利用帶重啟的隨機(jī)游走(RWR,random walk with restart)算法[19]得到節(jié)點(diǎn)的多個(gè)子圖。RWR 算法表示在游走時(shí)有一定概率回到起點(diǎn),如式(7)所示。
其中,是起點(diǎn)向量;是終點(diǎn)向量;Wi,j表示圖中邊的權(quán)重,即從節(jié)點(diǎn)i到節(jié)點(diǎn)j的概率,在本文中為鄰接矩陣;c為重啟概率,當(dāng)c=0 時(shí)游走回起點(diǎn)。對(duì)于正常節(jié)點(diǎn),由游走得到K個(gè)子圖,為第k個(gè)子圖,為節(jié)點(diǎn)i的第k個(gè)子圖表示,對(duì)于欺詐節(jié)點(diǎn),由游走得到個(gè)子圖,其中,利用平均池化作為讀出函數(shù)Readout(·) 融合節(jié)點(diǎn)表示,具體如式(8)和式(9)所示。
為度量節(jié)點(diǎn)與其子圖的一致性,采用雙線性映射函數(shù)Bilinear(·) 計(jì)算其相似度,對(duì)于正常節(jié)點(diǎn),節(jié)點(diǎn)與子圖對(duì)即正樣本的分?jǐn)?shù)為
其中,WS為可學(xué)習(xí)參數(shù)矩陣。對(duì)于欺詐節(jié)點(diǎn),節(jié)點(diǎn)與子圖對(duì)即負(fù)樣本的分?jǐn)?shù)為
其中,WP為可學(xué)習(xí)參數(shù)矩陣。
通過以上模型訓(xùn)練,每一個(gè)對(duì)比實(shí)例對(duì)都可以得到一個(gè)預(yù)測(cè)標(biāo)簽值si。最終,模型的對(duì)比目標(biāo)使s與標(biāo)簽yi盡可能接近。本文使用標(biāo)準(zhǔn)交叉熵?fù)p失目標(biāo)函數(shù),即
將節(jié)點(diǎn)輸入訓(xùn)練好的對(duì)比模型后,模型對(duì)其進(jìn)行子圖采樣,將樣本輸入分類器中,由J個(gè)子圖得到。將判別值表示為樣本節(jié)點(diǎn)子圖對(duì)預(yù)測(cè)標(biāo)簽平均值,即
正常節(jié)點(diǎn)分?jǐn)?shù)趨于0,欺詐節(jié)點(diǎn)分?jǐn)?shù)趨于1,相較于正常節(jié)點(diǎn),欺詐節(jié)點(diǎn)具有較大的判別分?jǐn)?shù),因此節(jié)點(diǎn)是否為欺詐節(jié)點(diǎn)的概率為
基于以上論述,基于多視角圖神經(jīng)網(wǎng)絡(luò)的欺詐檢測(cè)算法的偽代碼過程如算法1 所示。
算法1基于多視角圖神經(jīng)網(wǎng)絡(luò)的欺詐檢測(cè)算法
輸入多關(guān)系不平衡圖G=(V,ε,A,X,C),訓(xùn)練集Vtrain,訓(xùn)練輪數(shù)epoch,訓(xùn)練批次大小batch_size
輸出節(jié)點(diǎn)i的欺詐預(yù)測(cè)標(biāo)簽si
本文在廣泛使用的公開數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),分別為Yelpchi 數(shù)據(jù)集[20]和Amazon 數(shù)據(jù)集[5]。Yelpchi數(shù)據(jù)集收集了Yelp 網(wǎng)站的酒店和餐廳評(píng)論。Yelpchi數(shù)據(jù)集中的節(jié)點(diǎn)是具有100 維特征的評(píng)論,包含以下3 個(gè)關(guān)系:1) R-U-R 連接同一用戶發(fā)布的評(píng)論;2)R-S-R 連接同一產(chǎn)品下的評(píng)論,具有相同的星級(jí)評(píng)級(jí);3) R-T-R 連接當(dāng)月發(fā)布的同一產(chǎn)品下的評(píng)論。Amazon數(shù)據(jù)集包括了Amazon 網(wǎng)站樂器類別下的產(chǎn)品評(píng)論。Amazon 數(shù)據(jù)集中圖的節(jié)點(diǎn)是具有100 維特征的用戶,包含以下3 個(gè)關(guān)系:1) U-P-U 連接至少查看過同一個(gè)產(chǎn)品的用戶;2) U-S-U 連接在一周內(nèi)擁有至少一個(gè)相同評(píng)級(jí)的用戶;3) U-V-U 連接具有前5%的TF-IDF(term frequency inverse document frequency)相似性的用戶。這2 個(gè)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表1 所示,其中標(biāo)簽相似度為欺詐節(jié)點(diǎn)與其一階鄰居節(jié)點(diǎn)標(biāo)簽平均相似度。從表1 可以看出,除了Yelpchi 數(shù)據(jù)集中的R-U-R關(guān)系外,其他關(guān)系下欺詐節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)的標(biāo)簽相似度都很低,說明圖中的欺詐節(jié)點(diǎn)與正常節(jié)點(diǎn)普遍的連接性以及欺詐節(jié)點(diǎn)之間缺乏必要連接的數(shù)據(jù)特性。
表1 數(shù)據(jù)集統(tǒng)計(jì)數(shù)據(jù)
為了評(píng)估模型欺詐檢測(cè)性能,本文選取了GCN以及幾種先進(jìn)方法進(jìn)行對(duì)比實(shí)驗(yàn)。
GCN[21]。圖卷積網(wǎng)絡(luò)對(duì)空間域中的節(jié)點(diǎn)嵌入進(jìn)行卷積操作,即聚合鄰居的信息來表示節(jié)點(diǎn)。
FdGars[22]。該方法基于GCN 對(duì)虛假評(píng)論賬戶進(jìn)行檢測(cè),針對(duì)評(píng)論的語(yǔ)義特點(diǎn)設(shè)計(jì)特征,并通過GCN 對(duì)節(jié)點(diǎn)特征進(jìn)一步編碼。
GraphConsis[6]。該方法通過鄰居節(jié)點(diǎn)距離及標(biāo)簽信息均衡采樣,解決欺詐檢測(cè)領(lǐng)域不一致即欺詐者偽裝問題。
CARE-GNN[7]。該方法針對(duì)欺詐者偽裝問題,利用強(qiáng)化學(xué)習(xí)思想設(shè)計(jì)自適應(yīng)的閾值用來篩選鄰居節(jié)點(diǎn)。
FRAUDER[3]。該方法是一種基于圖神經(jīng)網(wǎng)絡(luò)的欺詐檢測(cè)算法,通過設(shè)計(jì)節(jié)點(diǎn)信息聚合機(jī)制以及損失函數(shù),實(shí)現(xiàn)對(duì)圖不一致和類不平衡問題的雙重抵抗能力。
由于欺詐檢測(cè)類不平衡問題,本文選用3 個(gè)被廣泛使用的對(duì)類無偏差的度量指標(biāo):AUC、Recall-macro和F1-macro。AUC 為受試者操作特征(ROC,receiver operator characteristic)曲線的下面積,AUC 表示隨機(jī)選擇一個(gè)欺詐節(jié)點(diǎn),其排名高于正常節(jié)點(diǎn)的預(yù)測(cè)概率。Recall-macro 評(píng)估檢測(cè)到的欺詐節(jié)點(diǎn)和正常節(jié)點(diǎn)占實(shí)際數(shù)量的比例的未加權(quán)平均值。F1 分?jǐn)?shù)是召回率和精度之間的權(quán)衡,而F1-macro 是正常節(jié)點(diǎn)和欺詐節(jié)點(diǎn)F1分?jǐn)?shù)的未加權(quán)平均值。
在多視角特征嵌入模塊,節(jié)點(diǎn)表示維度對(duì)后續(xù)欺詐檢測(cè)的影響如圖2~圖4 所示。節(jié)點(diǎn)表示維度超過64 維時(shí),欺詐檢測(cè)效果在3 個(gè)評(píng)價(jià)指標(biāo)上都呈下降趨勢(shì),因此選擇輸出節(jié)點(diǎn)表示維度為64 維。
圖2 參數(shù)選擇AUC 指標(biāo)結(jié)果
圖3 參數(shù)選擇Recall-macro 指標(biāo)結(jié)果
圖4 參數(shù)選擇 F1-macro 指標(biāo)結(jié)果
MGFD 算法與對(duì)比方法在不同數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可以看出,在給定評(píng)價(jià)指標(biāo)上,MGFD 算法均取得了最好的檢測(cè)效果。
表2 對(duì)比實(shí)驗(yàn)結(jié)果
1) MGFD 算法在2 個(gè)數(shù)據(jù)集上都取得了最好的效果,這說明MGFD 算法能夠有效解決欺詐檢測(cè)任務(wù)中節(jié)點(diǎn)不一致以及類不平衡問題,并學(xué)習(xí)到欺詐節(jié)點(diǎn)潛在的學(xué)習(xí)模式。MGFD 算法效果好于FRAUDER 說明多視角的特征嵌入增強(qiáng)了節(jié)點(diǎn)自身與其他節(jié)點(diǎn)之間的不一致信息以便識(shí)別欺詐節(jié)點(diǎn)。
2) GCN 表現(xiàn)不好的原因在于其對(duì)于分類任務(wù)的有效性依賴于同質(zhì)性假設(shè),即節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)具有相似的特征,但這一假設(shè)在欺詐檢測(cè)任務(wù)中并不成立。因此GCN 在欺詐檢測(cè)任務(wù)中效果不好。
為驗(yàn)證MGFD 算法多視角嵌入模塊以及構(gòu)建節(jié)點(diǎn)子圖對(duì)標(biāo)簽的有效性,本文對(duì)以上2 個(gè)模塊進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5~圖7 所示,其中,without MV 表示不進(jìn)行多角度的特征嵌入,對(duì)節(jié)點(diǎn)進(jìn)行簡(jiǎn)單的卷積得到嵌入;without IL 表示不構(gòu)建節(jié)點(diǎn)子圖對(duì)標(biāo)簽;MGFD-ALL 表示完整的算法。
圖5 消融實(shí)驗(yàn)AUC 結(jié)果
圖6 消融實(shí)驗(yàn)Recall-macro 指標(biāo)結(jié)果
圖7 消融實(shí)驗(yàn)F1-macro 指標(biāo)結(jié)果
從圖5~圖7 可以看出,多視角特征嵌入模塊和構(gòu)建節(jié)點(diǎn)子圖對(duì)標(biāo)簽均對(duì)檢測(cè)效果具有正面的影響,其中由于構(gòu)建節(jié)點(diǎn)子圖對(duì)標(biāo)簽針對(duì)欺詐節(jié)點(diǎn)偽裝以及類不平衡問題,其對(duì)檢查效果具有更重要的影響。
為驗(yàn)證多視角特征嵌入模塊可以學(xué)習(xí)到正常節(jié)點(diǎn)和欺詐節(jié)點(diǎn)的差異性表示,本文設(shè)計(jì)實(shí)驗(yàn)評(píng)估相鄰節(jié)點(diǎn)之間的相似度,表3 和表4 分別展示了所選數(shù)據(jù)集上正常節(jié)點(diǎn)和欺詐節(jié)點(diǎn)與其一階鄰居節(jié)點(diǎn)在不同關(guān)系下的平均余弦相似度,其中初始嵌入即節(jié)點(diǎn)屬性,P1表示節(jié)點(diǎn)經(jīng)過結(jié)構(gòu)無關(guān)的屬性編碼器后的輸出,P2表示經(jīng)過層次注意力機(jī)制聚合的節(jié)點(diǎn)表示。
表3 Amazon 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表4 Yelpchi 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
以Amazon 數(shù)據(jù)集在關(guān)系U-P-U 下為例,當(dāng)欺詐節(jié)點(diǎn)連接正常節(jié)點(diǎn)偽裝自己時(shí),欺詐節(jié)點(diǎn)與其一階鄰居節(jié)點(diǎn)之間的相似度高達(dá)0.690 7,但經(jīng)過模型訓(xùn)練后,P1和P2分別降低到0.069 0 和0.069 1,而正常節(jié)點(diǎn)相似度則變化不明顯,可見MGFD 算法有效地學(xué)習(xí)了欺詐節(jié)點(diǎn)與其正常鄰居節(jié)點(diǎn)之間的差異化表示,為后續(xù)的欺詐檢測(cè)提供了有力支撐。在Yelpchi 數(shù)據(jù)集的R-U-R 關(guān)系下,訓(xùn)練后的P1和P2相較于其他關(guān)系略高,這是由于在此關(guān)系下,欺詐節(jié)點(diǎn)與其一階鄰居節(jié)點(diǎn)的標(biāo)簽相似度為0.951 1,即欺詐節(jié)點(diǎn)與欺詐節(jié)點(diǎn)連接較多,但是由于欺詐節(jié)點(diǎn)行為不穩(wěn)定,欺詐節(jié)點(diǎn)之間也可以學(xué)習(xí)到差異性表示,訓(xùn)練過后其與一階鄰居節(jié)點(diǎn)的相似度也有一定程度的降低。
針對(duì)現(xiàn)有圖欺詐檢測(cè)任務(wù)中欺詐節(jié)點(diǎn)偽裝問題以及類不平衡問題,本文多視角特征嵌入機(jī)制面向多種關(guān)系學(xué)習(xí)節(jié)點(diǎn)表示,針對(duì)偽裝問題學(xué)習(xí)節(jié)點(diǎn)的一致與不一致信息,并利用采樣策略解決類不平衡問題,從而對(duì)圖中的欺詐節(jié)點(diǎn)進(jìn)行檢測(cè)。在公共圖數(shù)據(jù)集上的相關(guān)實(shí)驗(yàn)驗(yàn)證了本文算法具有較好的欺詐檢測(cè)效果。后續(xù)研究將針對(duì)現(xiàn)實(shí)世界中特定領(lǐng)域數(shù)據(jù)中的異常信息,設(shè)計(jì)預(yù)處理步驟,從而加強(qiáng)領(lǐng)域異常信息的發(fā)掘以提升欺詐檢測(cè)的效果。