傅湘玲,閆晨巍,趙朋亞,宋美琦,仵偉強
(1.北京郵電大學(xué) 計算機學(xué)院(國家示范性軟件學(xué)院),北京 100876;2.北京郵電大學(xué) 可信分布式與服務(wù)教育部重點實驗室,北京 100876;3.渤海銀行股份有限公司,天津 300204;4.北京郵電大學(xué)-渤海銀行智慧銀行聯(lián)合實驗室,天津 300204)
隨著消費金融的快速發(fā)展,與之而來的消費金融欺詐也逐漸引起人們的關(guān)注。據(jù)《數(shù)字金融反欺詐白皮書》統(tǒng)計,2017年金融欺詐相關(guān)從業(yè)者超過了150萬人,涉及金額達(dá)到千億級別[1]。一般來說,欺詐主要包括個人欺詐以及團伙欺詐,隨著反欺詐手段和技術(shù)的提升,欺詐行為越來越難以由個體實施,而是依賴于欺詐團伙有組織的進(jìn)行,消費金融欺詐逐漸呈現(xiàn)出團伙化和專業(yè)化的趨勢。因此,團伙欺詐的檢測成為了金融反欺詐中的重要問題。
為了應(yīng)對欺詐行為的復(fù)雜性及多樣性,主流的消費金融欺詐檢測方法從最開始的黑白名單、基于專家系統(tǒng)的規(guī)則引擎,逐漸轉(zhuǎn)變?yōu)橐詸C器學(xué)習(xí)為主的檢測手段。以機器學(xué)習(xí)為主的欺詐檢測方法的核心是提取用戶的特征,常用的用戶特征包括用戶年齡、職業(yè)、收入等,這些特征屬于用戶的固有屬性,也稱為固有特征。通過對這些固有特征的學(xué)習(xí)和表示,構(gòu)建出機器學(xué)習(xí)模型來預(yù)測用戶的欺詐概率。但是,這些方法在對欺詐團伙進(jìn)行識別的時候能力有限,原因在于團伙中的部分節(jié)點從用戶的固有特征角度單獨觀測時,欺詐的概率很難判斷,這對消費金融行業(yè)的風(fēng)險防控提出了新的挑戰(zhàn)。
針對團伙欺詐識別,如何更有效地提取用戶特征,從而捕捉欺詐者或者欺詐團伙的根本特征是關(guān)鍵。通過對欺詐團伙的深入分析可以發(fā)現(xiàn),欺詐團伙內(nèi)部往往分工明確,合作緊密[1]。如圖1所示,節(jié)點代表用戶,邊代表用戶之間的通話關(guān)系,不難看出,左側(cè)虛線框中存在著高度緊密相連的節(jié)點團,其中包括一個中心節(jié)點,剩余節(jié)點均與之相連,這是一類典型的欺詐團伙結(jié)構(gòu)。如果單從每個節(jié)點的年齡、性別、學(xué)歷等用戶固有特征進(jìn)行分析時,很難判斷單一節(jié)點的欺詐概率,但是將所有節(jié)點以圖的形式展示出來,結(jié)合該節(jié)點周圍節(jié)點的信息,則可以更準(zhǔn)確地判斷出欺詐團伙。
圖1 用戶之間的關(guān)聯(lián)關(guān)系圖
也就是說,每個節(jié)點是否應(yīng)該被預(yù)測為欺詐者,不僅由每個節(jié)點的自身特征決定,還受到其鄰居節(jié)點的特征的影響。用戶的特征不僅包括自身信息,而且用戶與用戶之間的往來關(guān)系也反映出許多有用的信息。例如,在社交網(wǎng)絡(luò)中,用戶之間相互關(guān)注、評論和轉(zhuǎn)發(fā)形成用戶關(guān)系網(wǎng)絡(luò),這些互動關(guān)系在一定程度上可以反映出用戶的親密程度,對用戶群進(jìn)行社區(qū)發(fā)現(xiàn)分析,可以推理出用戶的共同興趣愛好等。根據(jù)用戶之間的通信數(shù)據(jù)可以生成通話網(wǎng)絡(luò),其中通話頻次、時長等都是用戶關(guān)系緊密程度的直接反映,對這些通信數(shù)據(jù)進(jìn)行分析,是風(fēng)控實踐的重要手段[2]。也就是說,社交網(wǎng)絡(luò)、通話網(wǎng)絡(luò)、IP 地址、Wi-Fi地址等信息可以作為用戶關(guān)聯(lián)網(wǎng)絡(luò)的數(shù)據(jù)基礎(chǔ),這對團伙欺詐檢測具有重要作用。
因此,本文從用戶之間的關(guān)聯(lián)關(guān)系的角度出發(fā),利用用戶和用戶之間的通話關(guān)系構(gòu)建用戶關(guān)聯(lián)網(wǎng)絡(luò),將用戶信息整合為節(jié)點屬性,然后從圖結(jié)構(gòu)信息、節(jié)點信息等多個維度對圖數(shù)據(jù)進(jìn)行分析,通過Deep Walk算法[3]將當(dāng)前節(jié)點與其鄰居節(jié)點信息進(jìn)行編碼,最終獲得豐富的節(jié)點表示,充分地擴充用戶特征,更全面地捕捉欺詐者的特征屬性,提高機器學(xué)習(xí)模型的欺詐檢測性能,精準(zhǔn)、全面地識別欺詐者。
在欺詐風(fēng)險檢測領(lǐng)域,最初的研究大多是由經(jīng)驗驅(qū)動的,即主要依賴于從大量歷史交易中總結(jié)出來的專家經(jīng)驗和規(guī)則[4-5],形成多個規(guī)則構(gòu)成的規(guī)則集,如設(shè)立IP黑名單、電子郵件域等。這種方法仍廣泛應(yīng)用于銀行等金融公司的風(fēng)控系統(tǒng)中,如交通銀行于2010年開始運行“反欺詐管理系統(tǒng)”,通過分析以往風(fēng)險案例形成規(guī)則和模型,對可疑交易進(jìn)行監(jiān)控。但單純依賴基于規(guī)則的方法,反欺詐能力薄弱,而且容易誤傷無辜的需求[2]。隨著機器學(xué)習(xí)的發(fā)展,邏輯回歸[6]、支持向量機[7-8]、決策樹[9-10]、K近鄰[11]、自組織映射[12]等方法被用于預(yù)測欺詐風(fēng)險。但這些研究關(guān)注于單一用戶的基本信息、交易信息等用戶自身特征,沒有考慮多個用戶之間可能存在的關(guān)聯(lián),從而丟失了用戶間關(guān)系所蘊含的大量信息。
當(dāng)從用戶關(guān)系的角度來挖掘用戶間的特征時,可以利用通信記錄、交易往來、公用IP地址、公司或家庭地址等數(shù)據(jù)[13]形成用戶關(guān)聯(lián)圖。在反欺詐實踐中,常常會把用戶之間的相關(guān)信息連接起來,形成一個同質(zhì)或異質(zhì)的網(wǎng)絡(luò),或者稱之為圖。圖結(jié)構(gòu)是天然的關(guān)系分析工具,可以反映出欺詐者之間的關(guān)聯(lián)關(guān)系特征,例如以圖中邊的連接關(guān)系和權(quán)重大小來描述節(jié)點間的關(guān)系遠(yuǎn)近。Peng等人[14]通過抽取通話記錄進(jìn)而轉(zhuǎn)化成網(wǎng)絡(luò),根據(jù)用戶特征及用戶間特征的相似度,進(jìn)行欺詐社區(qū)的發(fā)現(xiàn)。趙朋亞等人[15]利用標(biāo)簽傳播算法(Label Propagation Algrithom)在關(guān)聯(lián)網(wǎng)絡(luò)上計算無標(biāo)簽用戶的欺詐概率。郭琦等人[16]通過用戶關(guān)注關(guān)系對社交網(wǎng)絡(luò)中的用戶進(jìn)行建模,采用帶權(quán)采樣的GraphSAGE 算法來增強對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息的學(xué)習(xí)。總的來說,基于用戶自身特征的欺詐檢測方法已經(jīng)難以滿足欺詐團伙化的新趨勢,圖特征的引入,有利于捕捉多個欺詐者之間的關(guān)聯(lián)關(guān)系,給欺詐檢測提供了新的視角。
反欺詐模型是否能夠做出正確的預(yù)測,很大程度上取決于輸入的特征。當(dāng)輸入特征蘊含了足夠豐富且有區(qū)分度的信息時,模型更容易將欺詐者與正常用戶區(qū)分開來。因此,如何從原始數(shù)據(jù)中提取和創(chuàng)造出對預(yù)測欺詐有幫助的特征,是提升模型預(yù)測能力的關(guān)鍵。
我們將從用戶關(guān)系網(wǎng)絡(luò)中提取出來的特征稱為網(wǎng)絡(luò)特征或者圖特征,其提取方法根據(jù)所提取的圖特征的類型而有所不同。度、度中心性、PageRank值等網(wǎng)絡(luò)統(tǒng)計指標(biāo)是常用的圖特征之一,也可稱之為圖結(jié)構(gòu)特征。這些指標(biāo)是衡量網(wǎng)絡(luò)中的節(jié)點重要性的一種手段,以度中心性為例,一個節(jié)點的中心性越高,即與之關(guān)聯(lián)節(jié)點數(shù)目越多,則該節(jié)點在網(wǎng)絡(luò)中越重要,影響力也更大。除此以外,還包括自定義的統(tǒng)計指標(biāo)等。張寶明等人[17]通過計算朋友個數(shù)、是否是小組成員等網(wǎng)絡(luò)統(tǒng)計指標(biāo)來引入用戶之間的關(guān)系特征,進(jìn)而預(yù)測欺詐風(fēng)險。此類圖結(jié)構(gòu)特征能夠?qū)D的拓?fù)浣Y(jié)構(gòu)進(jìn)行很好的描述和表示。
另一類重要的圖特征是通過網(wǎng)絡(luò)表示學(xué)習(xí)得到的圖節(jié)點特征。假設(shè)一個用戶與欺詐用戶聯(lián)系十分緊密,近朱者赤,近墨者黑,則該用戶的欺詐概率將大大提升。當(dāng)傳統(tǒng)的機器學(xué)習(xí)模型對節(jié)點進(jìn)行編碼生成低維的向量表示時,只將用戶自身的特征作為輸入,忽略了用戶周圍的信息對用戶的影響。而用Deep Walk[3]、Node2vec[18]、Line[19]、SDNE[20]等 網(wǎng)絡(luò)表示學(xué)習(xí)算法在對節(jié)點編碼時,可以在圖上游走,對該節(jié)點及周圍與之關(guān)聯(lián)強度較高的節(jié)點的信息進(jìn)行采樣,將其與節(jié)點自身信息融合,最終生成的節(jié)點在嵌入空間中的低維表示也近似于原結(jié)構(gòu)中各個節(jié)點的相似性關(guān)系。目前,這種以網(wǎng)絡(luò)表示學(xué)習(xí)方式提取圖特征的方式逐漸成為了主流。Chen等人[21]在識別運費險欺詐的研究中,通過設(shè)備共享信息、交易信息和朋友關(guān)系建立三類賬戶關(guān)系圖,利用網(wǎng)絡(luò)表示學(xué)習(xí)算法來獲取節(jié)點的嵌入表示,提取用戶特征。Liu等人[22]以圖神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)節(jié)點的表示,在對不同的鄰居節(jié)點采樣時,進(jìn)行過濾和篩選,減輕有關(guān)聯(lián)的正常用戶和欺詐用戶之間的彼此噪聲干擾。
總的來說,圖特征可以通過網(wǎng)絡(luò)統(tǒng)計指標(biāo)和網(wǎng)絡(luò)表示學(xué)習(xí)算法進(jìn)行提取。相比于非圖特征,圖特征更好地吸收了當(dāng)前節(jié)點周圍的信息,也可以更好地對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行刻畫。
欺詐風(fēng)險監(jiān)測模型以用戶關(guān)系圖G作為模型的輸入,該圖以用戶為節(jié)點,以用戶固有屬性為節(jié)點屬性,以用戶之間的通話關(guān)系為邊。該圖可形式化地表示為G=(V,E),V為節(jié)點集合,E為邊集合,其中vi表示節(jié)點i,ei,j表示從節(jié)點vi到節(jié)點vj的邊。對圖G中任意節(jié)點vi∈V,其包含K=(1,2,3,…,k)類固有特征,可將該節(jié)點的固有特征向量表示為{xi1,xi2,xi3,…,xik}。xik為第i個節(jié)點的第k類特征。然后對圖中每個節(jié)點從節(jié)點屬性、圖結(jié)構(gòu)的統(tǒng)計指標(biāo)和節(jié)點網(wǎng)絡(luò)表示三個維度進(jìn)行特征提取,得到特征的向量化表示后,輸入到LightGBM 中進(jìn)行訓(xùn)練,得到最終的預(yù)測結(jié)果。整體過程如圖2所示。
圖2 基于圖的團伙欺詐風(fēng)險檢測模型
節(jié)點固有特征也稱為用戶固有特征,主要包括年齡、性別、安裝的App等。首先我們對每類節(jié)點屬性進(jìn)行Multi-Hot編碼。隨著屬性值的種類越來越多,Multi-Hot表示逐漸變得非常稀疏,直接使用不利于后續(xù)的特征存儲以及模型訓(xùn)練。因此我們使用主成分分析(Principal Component Analysis,PCA)、非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)、線性判別分析(Linear Discriminant Analysis,LDA)三種降維方法分別對節(jié)點屬性的Multi-Hot表示進(jìn)行降維處理,以減少在降維過程中的信息損失,得到d維的低維稠密的向量表示后,將降維后的特征進(jìn)行拼接,最終得到的節(jié)點i的固有特征表示如式(1)所示。
其中,K為固有特征類別數(shù),d為降維之后的向量表示的維度。
圖3給出了以“用戶安裝的App”這一節(jié)點屬性為例的特征提取示意圖,我們首先根據(jù)構(gòu)建的App詞典,將用戶的App 轉(zhuǎn)化為Multi-Hot表示,之后分別使用PCA、NMF、LDA 等降維方法將單個用戶的App列表轉(zhuǎn)化為32維的低維向量表示,拼接起來共32×3=96維向量作為App數(shù)據(jù)的降維表示特征。
圖3 節(jié)點屬性“用戶安裝的App”的三種降維表示及拼接過程
我們利用度、帶權(quán)度、度中心性、Hits值、PageRank值,以及一些自定義的網(wǎng)絡(luò)統(tǒng)計指標(biāo)來抽取節(jié)點的統(tǒng)計值特征,這部分特征稱為節(jié)點統(tǒng)計指標(biāo)特征。
在本文構(gòu)建的通話關(guān)聯(lián)網(wǎng)絡(luò)中,針對節(jié)點vi0,提取了如表1所示的相關(guān)指標(biāo)。不同規(guī)模的網(wǎng)絡(luò)中有相同度值的節(jié)點有不同的影響力,為了進(jìn)行比較,一般對度中心性做歸一化處理,定義節(jié)點vi0的歸一化度中心性指標(biāo)如式(2)所示。
表1 度相關(guān)指標(biāo)及計算方式
其中,di為節(jié)點的度,n為網(wǎng)絡(luò)中的節(jié)點數(shù)量。
我們還使用了HITs值和PageRank值兩個統(tǒng)計指標(biāo)。與度中心性類似,這類指標(biāo)可以計算網(wǎng)絡(luò)中節(jié)點的重要程度和權(quán)威程度。度中心性認(rèn)為,一個節(jié)點的關(guān)聯(lián)節(jié)點數(shù)目越多,則該節(jié)點在網(wǎng)絡(luò)中越重要,因而是網(wǎng)絡(luò)分析中刻畫節(jié)點中心性的最直接度量指標(biāo)。而HITs值分別利用權(quán)威值(Authority Scores)用來衡量節(jié)點對網(wǎng)絡(luò)信息中的原創(chuàng)性的貢獻(xiàn),用樞紐值(Hub Scores)衡量了節(jié)點對網(wǎng)絡(luò)中信息傳遞的貢獻(xiàn)。PageRank則是根據(jù)鏈接到當(dāng)前節(jié)點的其他節(jié)點的質(zhì)量和數(shù)量來衡量當(dāng)前節(jié)點的重要性。
此外,我們還定義了一些自定義的指標(biāo),比如節(jié)點的“朋友圈大小”。由于本文中的原始通話關(guān)系是一個單向關(guān)系,為了避免某些用戶節(jié)點由于職業(yè)關(guān)系,比如快遞、中介等造成對上述的評價指標(biāo)的干擾,本文添加了節(jié)點“朋友”的定義,即只有當(dāng)用戶A和用戶B之間都有過通話關(guān)系時,才認(rèn)定用戶A 和用戶B之間是朋友關(guān)系。由此,我們統(tǒng)計了每個節(jié)點的朋友數(shù)量。
網(wǎng)絡(luò)中節(jié)點表示的最直觀的方式是通過鄰接矩陣來表示。與自然語言處理中詞向量的獨熱編碼類似,使用獨熱編碼表示某一單詞時,詞典共含有多少個單詞,最后表示該單詞的向量維度就有多少維。對于一個包含|V|個節(jié)點的網(wǎng)絡(luò),其鄰接矩陣中每行的向量代表節(jié)點的向量表示,即每個節(jié)點可以用一個N維向量表示。這種表示的缺點是維度過高,而且無法將節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)信息很好地反映在向量表示中。因此考慮網(wǎng)絡(luò)表示學(xué)習(xí)算法來學(xué)習(xí)每個節(jié)點的分布式表示。
網(wǎng)絡(luò)表示學(xué)習(xí)是學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點的低維度的分布式向量表示,所學(xué)習(xí)到的特征表示可以用作基于圖的各種任務(wù)的特征[23]??梢詫⑵溥^程形式化地表示為,對于圖G=(V,E)中的節(jié)點vi,學(xué)習(xí)如式(3)所示的映射關(guān)系。
其中,zi是一個輸出的多維向量,并且滿足drep?|V|。
該過程將原來鄰接矩陣表示的|V|維向量映射到drep維向量,通常drep的大小遠(yuǎn)小于|V|,以此解決后續(xù)的存儲和計算問題。映射后的低維向量要保留節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)信息,原本網(wǎng)絡(luò)結(jié)構(gòu)相似的節(jié)點通常反映到節(jié)點低維向量之間的距離上,而且相比較于傳統(tǒng)特征工程,網(wǎng)絡(luò)表示學(xué)習(xí)采用模型自動學(xué)習(xí)數(shù)據(jù)的隱式特征,不依賴于專家經(jīng)驗,減少人工特征的限制與影響。
因此,我們采用Deepwalk 算法在圖上進(jìn)行隨機游走,隨機游走的過程實際上是對網(wǎng)絡(luò)進(jìn)行重構(gòu),將以點、邊構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)轉(zhuǎn)化為多個節(jié)點序列,通過對節(jié)點vi的前k個節(jié)點和后k個節(jié)點采樣,獲取鄰居節(jié)點間的信息。多節(jié)點的多次隨機游走將產(chǎn)生等價于NLP中句子語料的節(jié)點語料信息,最后使用Skip-gram 來獲得節(jié)點的向量表示,
這種方法很好地將網(wǎng)絡(luò)鄰居結(jié)構(gòu)存入向量中,原來在網(wǎng)絡(luò)結(jié)構(gòu)中關(guān)聯(lián)緊密的節(jié)點,隨機游走后有更大的概率出現(xiàn)在同一個隨機游走節(jié)點序列中,進(jìn)而這些節(jié)點在最后的訓(xùn)練中得到的向量表示越相似。
在獲得上述三類特征后,我們將其拼接起來,共同作為Light GBM 的輸入,預(yù)測節(jié)點的欺詐概率。其中,我們將節(jié)點統(tǒng)計指標(biāo)特征和節(jié)點網(wǎng)絡(luò)表示學(xué)習(xí)特征統(tǒng)稱為圖特征。
在真實的欺詐檢測場景下,需要盡可能多地找出欺詐者,同時保持對正常用戶的盡可能低的誤殺率,對應(yīng)到機器學(xué)習(xí)中的評價指標(biāo),期望獲得更高的精確率(Precision)和召回率(Recall)。F1值是這兩個指標(biāo)的綜合考量,計算如式(4)所示。
此外,AUC(AOC 曲線下的面積)是另一個評價預(yù)測結(jié)果區(qū)分度的重要指標(biāo)。因此本文使用F1值和AUC作為評價指標(biāo)來衡量模型的性能。
本文數(shù)據(jù)集使用真實的消費金融公司數(shù)據(jù)集中的通話數(shù)據(jù),共包含18 959個有標(biāo)簽的用戶數(shù)據(jù),其中2 882個是欺詐用戶,16 077 個是正常用戶。根據(jù)該通話數(shù)據(jù)構(gòu)成關(guān)聯(lián)網(wǎng)絡(luò),其中用戶為節(jié)點,用戶之間的通話關(guān)系為邊。網(wǎng)絡(luò)中的邊為有向邊,因為通話數(shù)據(jù)中的通話關(guān)系是一種有向關(guān)系,即用戶A 打電話給用戶B,和用戶B打電話給用戶A 是以兩條邊的形式存在。結(jié)合無標(biāo)簽的用戶,最終構(gòu)建的關(guān)聯(lián)網(wǎng)絡(luò)共包含33 728 365個節(jié)點、251 786 211條邊。該關(guān)聯(lián)網(wǎng)絡(luò)的一些統(tǒng)計指標(biāo)如表2所示。
表2 關(guān)聯(lián)網(wǎng)絡(luò)指標(biāo)
模型采用五折交叉檢驗進(jìn)行訓(xùn)練,每次訓(xùn)練的訓(xùn)練集和測試集比例為8:2,即15 167個樣本作為訓(xùn)練集,剩余樣本作為測試集。
Deepwalk模型需要依賴隨機游走產(chǎn)生的節(jié)點序列,因此需要指定每個節(jié)點隨機游走的次數(shù)以及每次隨機游走的長度。此外,還要設(shè)置相應(yīng)的Word2vec模型參數(shù),包括生成的向量維度及上下文的窗口大小、學(xué)習(xí)率的設(shè)置。主要的模型參數(shù)如表3所示。
表3 Deep Walk模型參數(shù)
為了更好地對實驗進(jìn)行驗證,我們對節(jié)點網(wǎng)絡(luò)表示特征的抽取算法進(jìn)行了實驗對比,采用了Node2Vec和Line 兩個模型作為基線模型,與Deepwalk的抽取效果進(jìn)行了對比。獲得訓(xùn)練后的特征向量后,使用LightGBM 對向量訓(xùn)練預(yù)測。實驗結(jié)果如表4所示。
表4 三種網(wǎng)絡(luò)表示學(xué)習(xí)方法效果
Node2Vec在Deep Walk 的基礎(chǔ)上提供了p和q兩個參數(shù)來控制隨機游走的節(jié)點序列生成策略,通過調(diào)整p和q的大小來控制模型偏向于保留局部信息還是是保留廣度信息。本實驗中Node2Vec是采用了p=0.5、q=1參數(shù)的結(jié)果。
Line分別指定了是采用一階相似、二階相似、一階+二階相似,其中一階相似度表示節(jié)點與直接鄰居之間的相似性,二階相似度表示節(jié)點與高階鄰居之間的相似性。從指標(biāo)結(jié)果來看,用Deepwalk表示學(xué)習(xí)算法來提取節(jié)點網(wǎng)絡(luò)表示特征的效果最好,其AUC為0.657。
在特征部分,我們共選取了3組特征,節(jié)點固有特征、節(jié)點統(tǒng)計指標(biāo)特征和節(jié)點網(wǎng)絡(luò)表示特征,結(jié)果如圖4所示。下面的消融實驗從特征的角度進(jìn)行實驗,每組實驗只保留一組特征,以觀測每組特征對最終預(yù)測結(jié)果的作用。
圖4 不同特征組的預(yù)測結(jié)果
實驗結(jié)果表明,僅利用節(jié)點固有特征單獨預(yù)測的AUC為0.614,而單獨利用節(jié)點統(tǒng)計指標(biāo)特征和節(jié)點網(wǎng)絡(luò)表示特征的AUC 分別為0.617和0.657,均優(yōu)于節(jié)點固有特征。將節(jié)點統(tǒng)計指標(biāo)特征和節(jié)點網(wǎng)絡(luò)表示特征同時使用,則可以獲得更高的性能提升,僅次于所有特征一起使用。
可以看出,圖特征尤其是基于表示學(xué)習(xí)的節(jié)點網(wǎng)絡(luò)表示特征,相比于單純的節(jié)點固有特征,在進(jìn)行欺詐檢測時預(yù)測能力更強,且網(wǎng)絡(luò)表示學(xué)習(xí)對特征工程的要求更低,將數(shù)據(jù)處理成關(guān)聯(lián)網(wǎng)絡(luò)后,節(jié)點的圖特征容易利用算法獲取,避免了手工特征的大量數(shù)據(jù)分析、特征編碼及降維的煩瑣步驟。
在網(wǎng)絡(luò)表示學(xué)習(xí)中,節(jié)點表示所生成的向量的維度大小是一個重要的參數(shù),維度的大小需要根據(jù)不同的數(shù)據(jù)集具體調(diào)整。針對較大的數(shù)據(jù)集,如果設(shè)置的維度過小,則向量的長度不足以保留足夠的原始信息,導(dǎo)致表達(dá)能力不足;設(shè)置的維度過小,則導(dǎo)致表示學(xué)習(xí)模型優(yōu)化計算過程中計算量過大,也不利于后續(xù)的向量保存。
對此,本文對維度大小為64、128、192、256的向量表示進(jìn)行對比實驗,將Deep Walk 模型得到的不同維度的節(jié)點向量表示分別輸入到Light GBM 模型進(jìn)行訓(xùn)練,采用AUC 指標(biāo)進(jìn)行評價。具體的實驗結(jié)果如圖5所示??梢钥吹?在向量維度分別為64、128、192、256 維時,使用192維的向量來預(yù)測時的效果最好。
圖5 網(wǎng)絡(luò)表示學(xué)習(xí)的不同特征維度下的預(yù)測結(jié)果
我們進(jìn)一步研究了不同的集成模型對于模型預(yù)測能力的影響,因此我們選用了Random Forest[24]、XGBoost[25]、LightGBM[26]和DNN[27]作為對比模型。其中,RF、XGBoost、LightGBM 都屬于集成學(xué)習(xí)算法,DNN是深度神經(jīng)網(wǎng)絡(luò)算法,又被經(jīng)常稱為多層感知機(Multi-Layer Perceptron,MLP)。
根據(jù)表5中的結(jié)果可以看到,四種模型中無論是在三部分特征組上單獨訓(xùn)練,還是在所有特征組上訓(xùn)練預(yù)測,LightGBM 模型表現(xiàn)都是最好,其次是XGBoost。一部分原因在于LightGBM 和XGBoost這類Boosting的模型從原理層面相對于RF這類Bagging的模型可以降低預(yù)測模型的誤差,另一方面,由于訓(xùn)練集內(nèi)訓(xùn)練樣本的特征屬性值存在缺失情況,LightGBM 可以對含有缺失值的樣本在分裂時計算如何分裂增益最大,進(jìn)一步降低模型的損失。此外,實驗結(jié)果再次證明了,網(wǎng)絡(luò)表示特征和統(tǒng)計指標(biāo)特征這兩類圖特征的加入可以提高最終模型的效果。以LightGBM 模型為例,加入的圖特征可以對最終的模型AUC有0.073的AUC增益。
表5 不同集成模型的各特征組效果
為了更進(jìn)一步分析節(jié)點固有特征、圖特征(包括節(jié)點統(tǒng)計指標(biāo)特征和節(jié)點網(wǎng)絡(luò)表示特征)這兩部分特征在最終模型預(yù)測中發(fā)揮的作用,本文通過特征重要性[28](Feature Importance)打分來評估,特征重要性可以給出當(dāng)前模型在訓(xùn)練過程中特征對最終模型的預(yù)測發(fā)揮作用的程度。
Light GBM 作為一種基于樹分裂的集成學(xué)習(xí)模型,本身提供了兩種計算方式來評估特征重要性,分別是“Split-分裂次數(shù)”和“Gain-信息增益”,其中前者是通過該特征被用來作為樹模型分裂的次數(shù)來進(jìn)行排序,被選擇分裂的次數(shù)越多,則代表該特征在預(yù)測過程中起的作用越大。后者是通過該特征在整個樹模型構(gòu)建的過程中獲得的總的信息增益來排序,信息增益通過樹節(jié)點分裂前后的樣本分布計算得到,總的信息增益越大,則代表該特征在預(yù)測過程中起的作用越大。
為了分析圖特征和固有特征在最終模型預(yù)測中起到的特征作用大小,我們計算了LightGBM 模型在所有特征組上的特征重要性,分別統(tǒng)計了Top10、Top30、Top50里的圖特征和固有特征占比,具體如表6所示。
表6 圖特征與固有特征的重要性分析
結(jié)果表明,在Top10、Top30和Top50上,圖特征的占比都要遠(yuǎn)遠(yuǎn)高于固有特征,再次驗證了圖特征的重要性,說明加入圖特征可以提高欺詐檢測的效果。
端到端的圖神經(jīng)網(wǎng)絡(luò)在基于圖的應(yīng)用研究中取得了不錯的表現(xiàn),因此,我們采用基于GCN[29]的用戶表征學(xué)習(xí)進(jìn)行了對比實驗。由于本研究的數(shù)據(jù)規(guī)模較大,全圖節(jié)點超過3 000萬個,邊的數(shù)量則超過了2.5億條,難以在全圖上實現(xiàn)圖神經(jīng)網(wǎng)絡(luò)的計算。
為此,我們對數(shù)據(jù)做了抽樣,以18 959個有標(biāo)簽的用戶節(jié)點為出發(fā)點,從所有邊數(shù)據(jù)集中抽取與之一度相連的用戶節(jié)點,抽樣生成的子網(wǎng)絡(luò)共計節(jié)點2 155 286個、邊2 850 165條?;谠撟泳W(wǎng)絡(luò),我們采用GCN 模型,得到的AUC為0.664。根據(jù)表5所報告的實驗結(jié)果,Deep Walk 模型僅采用圖特征的AUC 為0.673,而采用全部特征的AUC 為0.687。
由于采用的是抽樣后的數(shù)據(jù)集,所以該結(jié)果與其他模型的結(jié)果已不具有可比性,但我們也不難推斷出,在圖規(guī)模較大,且算力又有限的情況下,使用Deep Walk算法進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí),與其他特征拼接仍不失為一種高效的方式。
本文將用戶的特征分為節(jié)點固有特征、節(jié)點統(tǒng)計指標(biāo)特征和節(jié)點網(wǎng)絡(luò)表示特征三部分,通過多種方式分別進(jìn)行提取。節(jié)點固有特征中的風(fēng)險行為數(shù)據(jù)、標(biāo)簽數(shù)據(jù)、App 數(shù)據(jù),采用特征工程的方式,如One-Hot編碼、Multi-Hot編碼、降維表示等方式轉(zhuǎn)化為向量表示。同時,利用通話數(shù)據(jù)構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò),一方面利用網(wǎng)絡(luò)表示學(xué)習(xí)方法,得到關(guān)聯(lián)網(wǎng)絡(luò)中每個節(jié)點的向量表示,作為一部分圖特征。另一部分圖特征則是利用網(wǎng)絡(luò)中常見的節(jié)點統(tǒng)計指標(biāo)來計算,對提取的圖特征和固有特征進(jìn)行融合,使用機器學(xué)習(xí)模型LightGBM 進(jìn)行訓(xùn)練和預(yù)測。這兩類方法均充分利用了圖的拓?fù)浣Y(jié)構(gòu)信息和節(jié)點的鄰居節(jié)點信息,彌補了在檢測團伙欺詐過程中固有信息不足的問題。實驗證明,相對于只使用固有特征,融合圖特征的模型取得了更好的效果。
目前,我們對關(guān)聯(lián)網(wǎng)絡(luò)的使用仍是有限的,本研究中主要是利用了節(jié)點和邊的基本信息,在接下來的研究工作中,我們將嘗試?yán)藐P(guān)聯(lián)關(guān)系中更豐富的數(shù)據(jù)來進(jìn)行檢測。另外,考慮到欺詐樣本的數(shù)量較少,我們也會深入探究基于深度圖卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí),在少量欺詐樣本的情況下更準(zhǔn)確地判斷欺詐風(fēng)險。