国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖卷積算法的信貸風險防控研究

2021-07-02 11:49倪琦瑄
市場周刊 2021年6期
關鍵詞:卷積信貸風險信貸

倪琦瑄

(南京財經(jīng)大學,江蘇 南京210023)

一、引言

風險貫穿金融工作信貸業(yè)務的始終,防范風險是金融工作永恒的主題。當前,受新冠疫情的影響,國內(nèi)經(jīng)濟發(fā)展增速放緩,金融機構風險管理顯得尤為重要。信貸風險防控本質(zhì)上是對信貸用戶信用的一種評估方式,通過綜合分析客戶的各種信息,進而對客戶是否能按時還款做出有效的評估,這種分析方式很大程度上依賴于客戶信息的特征挖掘。傳統(tǒng)信貸防控風險通過復雜網(wǎng)絡分析法,采用構建鄰接矩陣的方式描繪復雜網(wǎng)絡,從而去挖掘社會網(wǎng)絡的淺層特征,如節(jié)點的度、中心性、網(wǎng)絡密度等。隨著大數(shù)據(jù)時代的到來,許多金融科技公司積累了數(shù)億的個人用戶及商戶場景,在此基礎上,應充分有效運用現(xiàn)有的數(shù)據(jù)資源,突破傳統(tǒng)信貸服務模式,形成大數(shù)據(jù)信貸風險防控能力。因此,論文探討大數(shù)據(jù)時代下信貸風險防控研究所面臨的諸多挑戰(zhàn),介紹基于圖卷積算法(GCN)的信貸風險防控研究方法,并對信貸風險防控提出建議與展望。

二、大數(shù)據(jù)時代下信貸風險防控的挑戰(zhàn)

(一)用戶信息的傳染性,使得傳統(tǒng)的人工數(shù)據(jù)分析難以鑒別有效特征

傳統(tǒng)的信貸防控方式嚴重依賴于專業(yè)的數(shù)據(jù)分析人員進行人工分析檢驗,但事實上,每一位數(shù)據(jù)分析人員其經(jīng)驗和精力都相對有限,數(shù)據(jù)分析人員的主觀意識也會對結果造成一定的影響,因此,此類方式在可擴展性和準確性上都存在一定的局限性。同時,許多在同一條產(chǎn)業(yè)鏈上的企業(yè)都相互關聯(lián),當其中一家企業(yè)出現(xiàn)問題時,其他相關企業(yè)也會受到牽連,這種傳染性也加大了出現(xiàn)信貸風險的可能性,使得傳統(tǒng)的人為分析難以有效預測。而基于圖卷積這類深度學習框架的網(wǎng)絡表示學習方法,可以自發(fā)式地挖掘信貸用戶信息的非線性關系,從而極大地提高信貸風險防控的準確度。

(二)用戶關系的稀疏性以及用戶數(shù)量的大規(guī)模性,使得傳統(tǒng)分析法難以應對時間與空間挑戰(zhàn)

傳統(tǒng)的復雜網(wǎng)絡分析法將金融機構收集到的用戶信息整合抽象為復雜網(wǎng)絡的形式,即信貸用戶網(wǎng)絡,利用鄰接矩陣的方式描繪網(wǎng)絡的復雜結構。在互聯(lián)網(wǎng)金融快速發(fā)展的當下,用戶數(shù)目出現(xiàn)上百萬甚至上百億的爆發(fā)式增長,同時,用戶連接呈現(xiàn)冪律分布的特點,即網(wǎng)絡中大部分節(jié)點只有少量的連接,而小部分的關鍵節(jié)點具有較多的連接。由于網(wǎng)絡中大部分節(jié)點連接的稀疏性,傳統(tǒng)的鄰接矩陣方法存在嚴重的計算機存儲資源浪費的現(xiàn)象,也難以挖掘網(wǎng)絡中更高階更復雜的關系。在具體的信貸風險分析過程中,其在時間與空間復雜度上都面臨極大的挑戰(zhàn)。

(三)用戶屬性特征的高維性,使得傳統(tǒng)分析法難以挖掘其隱式關系

信息社會背景下,用戶的一切行為都可以轉(zhuǎn)化為各種類型的數(shù)據(jù)信息,包括結構數(shù)據(jù)信息與非結構數(shù)據(jù)信息,傳統(tǒng)的復雜網(wǎng)絡分析法,通過對信貸客戶的關聯(lián)關系進行建模,構造信貸用戶網(wǎng)絡,再利用網(wǎng)絡中的一些表層信息,例如節(jié)點的出度和入度,去觀測網(wǎng)絡中的關鍵用戶,或者是通過計算各類節(jié)點中心性,以判斷節(jié)點在網(wǎng)絡中的位置。這種方法重視了網(wǎng)絡中的顯式連接,考慮了用戶之間的交互行為關系,但忽略了網(wǎng)絡中的非結構關系。在互聯(lián)網(wǎng)快速發(fā)展的當下,客戶的屬性特征也展現(xiàn)出前所未有的多元化,如何從大量冗余信息中提取更有用的關鍵信息,挖掘?qū)傩耘c屬性之間的隱式關系,是當前需要考慮的一個問題。與此同時,深度學習方法例如圖卷積,同時重視結構數(shù)據(jù)信息與非結構數(shù)據(jù)信息,能夠高效挖掘海量信息中的非顯性關系。

三、基于圖卷積算法的信貸風險防控方法

(一)圖卷積算法概述

圖卷積算法(GCN)旨在將節(jié)點映射到潛在空間,并保留豐富的結構信息和屬性特征,為網(wǎng)絡分析任務提供了一種新的解決方法,已在許多現(xiàn)實應用場景中驗證了其挖掘網(wǎng)絡特征的有效性。其數(shù)學模型定義如下:

其中,

F

表示網(wǎng)絡的屬性特征矩陣,

A

表示網(wǎng)絡的鄰接矩陣,

W

W

分別為兩層的參數(shù)矩陣,

Z

表示通過學習得到的隱層向量表示。其模型流程如圖1所示,通過輸入網(wǎng)絡的屬性特征矩陣和鄰接矩陣,疊加兩層的圖卷積層,再設置相應的分類或預測任務目標函數(shù),根據(jù)目標函數(shù)進行梯度下降更新,優(yōu)化模型中的各類參數(shù),反復迭代至收斂,即可得到最終的網(wǎng)絡分析結果。

圖1 圖卷積流程示意圖

(二)信貸用戶網(wǎng)絡構建

信貸風險管理通常考慮用戶的兩個方面,一是其內(nèi)部的基本信息屬性,二是其在社會中與其他個人用戶或企業(yè)用戶的交互行為。在進行基于圖卷積算法的信貸風險分析前,首先需要構造信貸用戶網(wǎng)絡以刻畫用戶之間的交互信息,其關聯(lián)可以從原始的客戶數(shù)據(jù)中提取,其中用戶、商戶、公司等作為網(wǎng)絡中的節(jié)點,用戶之間的社交行為、消費互動、位置關系、業(yè)務關聯(lián)等作為節(jié)點之間的連接。通過這種方式,可以將原始用戶數(shù)據(jù)抽象成如圖2所示的可視化網(wǎng)絡。其結構關系信息由鄰接矩陣

A

=

a

進行描繪,當

a

=1時,表示用戶

i

和用戶

j

之間存在某種關聯(lián),反之,則沒有連接。此外,除用戶之間的關聯(lián)信息外,每個用戶也包含著豐富的屬性信息,其屬性信息則可以由特征矩陣

F

=[

f

,

f

,

f

,…,

f

]加以描繪,如個人的性別、年齡、收入?yún)^(qū)間、過往借貸史等信息,網(wǎng)絡中的每個節(jié)點對應一組代表屬性信息的向量

f

,其中

N

表示網(wǎng)絡中的用戶總數(shù)。對于大規(guī)模信貸用戶網(wǎng)絡而言,單純的鄰接矩陣方式存在難以挖掘更深層次聯(lián)系的問題,而單一的屬性特征矩陣又由于現(xiàn)實用戶屬性存在大量冗余,其每一維特征之間的關聯(lián)難以直接辨別。因此,在構建信貸用戶網(wǎng)絡之后,仍需要更有效的方式去挖掘信貸用戶網(wǎng)絡中的更深層次的信息。針對網(wǎng)絡中各種顯示連接或隱式屬性關系,采用圖卷積的方式可以有效對客戶的財務狀況、還款意愿、履約能力等各方面的因素綜合量化,挖掘客戶之間的深層信息,從而根據(jù)不同的風險等級制定相應的個性化策略。

圖2 信貸用戶網(wǎng)絡構建示意圖

論文以銀聯(lián)商務信貸用戶數(shù)據(jù)集為例,該數(shù)據(jù)集來源于2018年銀聯(lián)商務所舉辦的“信貸用戶逾期預測”算法大賽,以1∶2的逾期與未逾期用戶比例選取6450條用戶信息,其屬性信息包括描繪用戶基本屬性、消費力信息、理財習慣以及信用信息共計40維的特征向量。論通過分析用戶行為數(shù)據(jù)之間的相似度,對于擁有相似用戶消費偏好的用戶,為其構建連邊。

(三)基于圖卷積算法的信貸風險分析建模與應用

在信貸用戶網(wǎng)絡中,節(jié)點周圍鄰居的信用資質(zhì)可以影響甚至反映其自身信用資質(zhì)。圖卷積算法其根本思想在于通過節(jié)點和節(jié)點之間的連接信息以聚合鄰居節(jié)點的屬性信息到當前節(jié)點上,從而得到包含用戶關聯(lián)結構信息和其屬性特征信息的節(jié)點表示。在具體分析中,論文疊加了兩層的圖卷積層,將網(wǎng)絡的屬性特征矩陣

F

以及鄰接矩陣

A

作為模型的輸入,根據(jù)不同的分析任務,設置相對應的目標函數(shù),最終即可得到相關的分析結果,論文主要針對以下兩個方面進行分析。

1.反欺詐

反欺詐是信貸風險控制的重要一環(huán),目的是檢驗出帶有欺詐意圖的客戶,在現(xiàn)實生活中,有時一些企業(yè)或個人會隱藏自身與其他用戶之間的關系,將自身偽裝成信用良好的客戶。傳統(tǒng)的應對策略往往是通過線下面談或人工電話等手段進行多方數(shù)據(jù)的交叉驗證。這些傳統(tǒng)手段通常耗費大量的人力和物力資源。論文在圖卷積模型的最后一環(huán)設置相應的鏈路預測目標函數(shù),即可有效對于網(wǎng)絡中的缺失連接或是虛假連接進行比對,從而進行反欺詐,提升信貸安全性。其目標函數(shù)具體如下:

該目標函數(shù)為交叉熵函數(shù),通過計算網(wǎng)絡中用戶隱層向量表示的內(nèi)積來重構網(wǎng)絡中的原始連接,不斷優(yōu)化后可以有效預測網(wǎng)絡中未知連接的存在。

論文將銀聯(lián)商務信貸用戶網(wǎng)絡的真實連接以3∶7的比例劃分為測試集和訓練集,將已確定的真實連接作為圖卷積模型的輸入,通過迭代訓練得到隱層表示,將其表示向量的內(nèi)積結果作為每對節(jié)點即每組用戶對之間存在連接的可能性,以預測被隱藏的測試集中的連接,其最終準確率可以達到79.2%。在現(xiàn)實反欺詐過程中,通過將預測的連接結果與現(xiàn)有數(shù)據(jù)進行對比,可以有效發(fā)現(xiàn)網(wǎng)絡隱層信息與現(xiàn)有信息的差別,從而精準定位用戶之間被掩藏的關聯(lián)。

2.信用評估

如何有效劃分用戶信用度的高低也是信貸風控需要著重考慮的問題。通過構建信貸關系復雜網(wǎng)絡,利用圖卷積算法進行關系網(wǎng)絡中每個用戶的表示學習,區(qū)別于傳統(tǒng)的復雜網(wǎng)絡分析法,金融機構可以由此得到帶有用戶深層特征的表征向量。通過對部分信用度良好的用戶進行打分,同時確立相應的不良信用庫,將不同的用戶標注信用評分作為其標簽信息,以預測標簽與已知標簽的交叉熵函數(shù)作為其目標函數(shù),可以有效對網(wǎng)絡中未標注信用信息的用戶進行評估。其信用評估預測目標函數(shù)設置如下:

其中,

y

表示真實的已標注信用等級標簽的用戶的標簽集合,

Y

表示該網(wǎng)絡(

L

×

N

)維的標簽矩陣,

Z

表示模型中最終所學習得到的隱層表示。通過計算其隱層表示與現(xiàn)有標簽的損失值,可以有效訓練該分類模型。

論文以銀行商務信貸數(shù)據(jù)集為例進行了信用評估的試驗驗證,以1∶2的逾期與未逾期用戶比例選取了20%的數(shù)據(jù)集作為訓練集進行訓練,隱藏余下80%的數(shù)據(jù)集標簽作為驗證集,逾期用戶其信用標簽為0,未逾期則標簽為1,在每次迭代訓練后,得到網(wǎng)絡中帶有少量標簽監(jiān)督的每個用戶節(jié)點的表示向量,通過Softmax函數(shù)計算其每個標簽的得分作為預測結果,與真實數(shù)據(jù)對比計算交叉熵作為損失值反向更新模型中的參數(shù)矩陣,經(jīng)過200次迭代訓練后,最終準確率可以達到74.6%。

四、對策和展望

(一)提升數(shù)字化風險防控意識

通過充分利用論文所述的圖卷積方法可以幫助企業(yè)實現(xiàn)高效的信貸風險管理。在“互聯(lián)網(wǎng)+”時代,金融企業(yè)急需轉(zhuǎn)變傳統(tǒng)思維,加強數(shù)字化信貸風險防控意識,將所掌握的用戶的基本情況、消費行為、理財偏好等多方信息整合收集,提升信貸風險防控環(huán)節(jié)的數(shù)據(jù)利用率,構建大數(shù)據(jù)風險防控體系,通過動態(tài)增量式的學習方式持續(xù)優(yōu)化金融企業(yè)的信貸分析模型,引入更多的新興技術以增強其風險分析的有效性和準確性。

(二)打通平臺信息,共享數(shù)據(jù)倉庫

當前,運用圖卷積等大數(shù)據(jù)相關技術進行信貸風控分析,面臨的一個問題是用戶數(shù)據(jù)的分散性。由于缺乏有效的信息共享機制,會導致用戶信息缺失和重復取證的人力資源浪費現(xiàn)象,現(xiàn)實互聯(lián)網(wǎng)金融用戶信息的復雜性和大規(guī)模性使得構建共享數(shù)據(jù)倉庫日趨重要。文中所使用的數(shù)據(jù)集樣本數(shù)量較少,屬性特征以及結構信息也不充分,在現(xiàn)實大規(guī)模數(shù)據(jù)分析中可以通過自然語言處理、情感分析等深度學習方式綜合考慮互聯(lián)網(wǎng)時代的更多信息如用戶的網(wǎng)購記錄、社交發(fā)言等,以建立健全個人用戶及企業(yè)用戶的共享數(shù)據(jù)倉庫。

(三)加強大數(shù)據(jù)管理

一方面,大數(shù)據(jù)風險控制依靠圖卷積等深度學習高新技術,去除了人為的主觀影響,帶來了高效的新型信貸風險分析方法;另一方面,隨著金融科技行業(yè)的發(fā)展,大量的互聯(lián)網(wǎng)用戶信息被收集,其本身也具有一定的風險性。如用戶隱私泄露問題,其對互聯(lián)網(wǎng)技術的安全管理提出了更高的要求,一旦出現(xiàn)用戶信息被非法截取或篡改,將會對用戶隱私和權益造成巨大傷害。另外,互聯(lián)網(wǎng)海量信息的涌入使得用戶數(shù)據(jù)的真實性受到影響,直接決定后期信用評估結果的可靠性。因此,機構需創(chuàng)新數(shù)據(jù)安全防范措施,在信息的收集、管理、使用等環(huán)節(jié)都要有第三方監(jiān)督以及嚴格的制度規(guī)范,同時,也應加強科研投入提升信息鑒別能力,提升管理人員水平,以便切實保障用戶信息的真實性和安全性。

猜你喜歡
卷積信貸風險信貸
基于全卷積神經(jīng)網(wǎng)絡的豬背膘厚快速準確測定
基于圖像處理與卷積神經(jīng)網(wǎng)絡的零件識別
農(nóng)村信用社信貸風險管控思考
基于深度卷積網(wǎng)絡與空洞卷積融合的人群計數(shù)
卷積神經(jīng)網(wǎng)絡概述
商業(yè)銀行信貸風險形成的內(nèi)部因素