鄭雪輝 熊俊
摘要:在風(fēng)控流程中,需要針對用戶提供的各類信息進(jìn)行資質(zhì)篩選或風(fēng)險評估,根據(jù)評估結(jié)果,提前發(fā)現(xiàn)各類潛在風(fēng)險,一般會利用綜合模型和人工審核來實(shí)現(xiàn)。而用戶在注冊、申請等各個環(huán)節(jié)都會提供基于LBS的信息,人工審核會根據(jù)各個環(huán)節(jié)的LBS信息進(jìn)行比對,根據(jù)經(jīng)驗判斷用戶案件是否存在欺詐偽冒等各類風(fēng)險,如在某些賬號被盜案件中,用戶近期提交的LBS地址會出現(xiàn)異常的偏移。在實(shí)際應(yīng)用過程中,人工審核方式常會出現(xiàn)一些識別誤差。鑒于此,文章提出基于LBS的識別算法,其主要作用是取代人工審核對LBS信息進(jìn)行比對,通過機(jī)器學(xué)習(xí)的方式提升風(fēng)險識別效率。本算法通過分析客戶在產(chǎn)品使用各個流程的LBS信息來形成用戶的行為軌跡,利用機(jī)器學(xué)習(xí)XGBoost算法建立風(fēng)險識別模型,通過對用戶行為軌跡分類來量化識別風(fēng)險。最后,通過實(shí)驗詳解基于LBS的風(fēng)險識別算法,證明基于機(jī)器學(xué)習(xí)的算法優(yōu)于人工審核。
關(guān)鍵詞:LBS;風(fēng)險識別;XGBoot
中圖法分類號:TP309文獻(xiàn)標(biāo)識碼:A
Risk identification algorithm based on LBS
ZHENG Xuehui,XIONG Jun
(Shanghai Urban Construction Vocational College,Shanghai 201415,China)
Abstract:In the risk control process, it is necessary to conduct qualification screening or risk assessment for all kinds of information provided by users, and according to the assessment results, potential risks are found in advance, and generally comprehensive models and manual audits are used to achieve this process. The user will provide LBS-based information in all aspects of registration, application, etc., and the manual review will compare the LBS information according to each link, and judge whether the user case has various risks such as fraud and forgery according to experience, such as in some account theft cases, the LBS address recently submitted by the user will be abnormally offset. In the actual application process, there are often some identification errors in the manual review method. Therefore, this paper proposes an LBS-based recognition algorithm, which mainly functions instead of manual review of LBS information comparison, and improves the risk identification efficiency through machine learning. This algorithm forms the user's behavior trajectory by analyzing the LBS information of each process used by customers in the product, establishes a risk identification model by using the machine learning XGBoost algorithm, and quantifies and identifies the risk by classifying the user's behavior trajectory. Finally, the LBS-based risk identification algorithm is explained in detail, which proves that the machine learning-based algorithm is better than manual review.
Key words: LBS, risk identification,XGBoot
1 引言
互聯(lián)網(wǎng)的快速發(fā)展以及智能終端的普及,使得人們足不出戶就可以通過網(wǎng)絡(luò)辦理很多業(yè)務(wù),如網(wǎng)上購物、電子銀行等。但隨之也會面臨一些風(fēng)險,如欺詐、偽冒、盜用、用戶資質(zhì)低等。
現(xiàn)有的技術(shù)對于 LBS 信息的使用基本還停留在地址的比對上,LBS 信息使用的維度比較單一,并且每次出現(xiàn)一個新的案件后,需要由審核人員查看多條 LBS 信息,勾稽比對后判斷案件風(fēng)險性質(zhì)。用戶在注冊、申請等各個流程環(huán)節(jié)都會提供基于 LBS 的信息,其中基于位置的服務(wù)( Location Based Services,LBS)能夠獲取用戶移動軌跡,并在一定程度上反應(yīng)用戶位置信息,這導(dǎo)致需要專門人員去做審核,人工判斷標(biāo)準(zhǔn)的差異容易造成風(fēng)險識別率不高,而隨著案件量的增大,人工抽樣的樣本量每天是有限的,容易忽略某些 LBS 信息異常造成的潛在風(fēng)險。
使用本文提出的基于 LBS 信息的全流程用戶行為軌跡風(fēng)險識別方法后,通過現(xiàn)有業(yè)務(wù)風(fēng)險的標(biāo)記,如偽冒、盜用、用戶資質(zhì)低等,將與 LBS 相關(guān)的各類信息根據(jù)時間維度加入模型中,形成大量 LBS 行為軌跡特征,結(jié)合XGBoost算法對樣本進(jìn)行分類。在模型判斷出用戶 LBS 行為軌跡存在風(fēng)險后,便可以模型分類結(jié)果進(jìn)行批量自動化審核,釋放人力,從而實(shí)現(xiàn)智能風(fēng)險識別的目的。
本系統(tǒng)能夠取代傳統(tǒng)人工審核的 LBS 地址比對,實(shí)現(xiàn)自動化審核,節(jié)省審核的人力資源。本系統(tǒng)能夠涵蓋 LBS 相關(guān)的各個維度信息,由傳統(tǒng)的簡單 LBS 單點(diǎn)信息,擴(kuò)展形成全流程各個時間段的 LBS 行為軌跡,更加全面地評估 LBS 存在的潛在風(fēng)險。本系統(tǒng)基于機(jī)器學(xué)習(xí)XGBoost算法,利用大量 LBS 行為軌跡特征進(jìn)行模型運(yùn)算,從而根據(jù)模型結(jié)果得到更精準(zhǔn)的風(fēng)險識別方法,彌補(bǔ)人工識別準(zhǔn)確率的不足。
2 數(shù)據(jù)選取方案
數(shù)據(jù)獲取階段主要是獲取申請用戶的設(shè)備信息(包括 MAC 和 IMEI 等)、申請時的 LBS 地址信息、用戶的通信錄信息,并在此過程中判斷是否獲取成功,如若獲取失敗,需要做缺失標(biāo)記的處理,最終存儲作為原始數(shù)據(jù)(圖1)。
3 算法描述
本算法技術(shù)包含4個重要步驟(圖2)。
步驟1:將風(fēng)控案件對應(yīng)的 LBS 信息導(dǎo)入,其中包括回溯時間、LBS 地址、LBS 關(guān)聯(lián)案件、LBS 關(guān)聯(lián)城市標(biāo)記等。本算法中,所述風(fēng)控案件的全流程包括風(fēng)控案件從第一次業(yè)務(wù)流程到最近一次處理業(yè)務(wù)流程期間的所有業(yè)務(wù)流程。其中,所述業(yè)務(wù)流程包括注冊、登錄、交易等。以賬號被盜案件為例,賬號被盜案件的全流程包括從賬號注冊到最近一次業(yè)務(wù)期間的所有業(yè)務(wù)流程,包括該時間段內(nèi)發(fā)送的所有賬號注冊、賬號登錄、賬號取款、賬號轉(zhuǎn)賬、賬號存款等業(yè)務(wù)流程。所述與案件風(fēng)險相關(guān)的 LBS 信息涵蓋 LBS 相關(guān)的各個風(fēng)險維度的信息,其不僅包括 LBS 地址,還包括與案件風(fēng)險相關(guān)的 LBS 信息。其中,所述風(fēng)險維度信息是以可能產(chǎn)生風(fēng)險的因素作為維度的信息,如回溯時間等。本算法中,所述與案件風(fēng)險相關(guān)的 LBS 信息包括回溯時間、LBS 地址、LBS 關(guān)聯(lián)案件、LBS 關(guān)聯(lián)城市標(biāo)記中的至少一種。所述 LBS 關(guān)聯(lián)案件是指全流程中獲取的所有 LBS 地址相同的案件,所述 LBS 關(guān)聯(lián)城市標(biāo)記是根據(jù)風(fēng)控案件對應(yīng)賬號的常住城市、出差城市、旅游城市等作的標(biāo)記[1]。例如,將風(fēng)控案件對應(yīng)賬號的常住城市標(biāo)記為 C,將風(fēng)控案件對應(yīng)賬號的出差城市標(biāo)記為 N,將風(fēng)控案件對應(yīng)賬號的旅游城市標(biāo)記為 L。
步驟2:根據(jù)導(dǎo)入的 LBS 信息,通過時間和空間維度加工成案件的各種行為軌跡特征。
步驟3:采用XGBoost機(jī)器學(xué)習(xí)算法,加入步驟2中的行為軌跡特征進(jìn)行運(yùn)算,根據(jù)風(fēng)險類型,調(diào)整模型參數(shù),訓(xùn)練得到準(zhǔn)確率高穩(wěn)定性好的模型。具體而言,將行為軌跡特征輸入預(yù)設(shè)模型中進(jìn)行訓(xùn)練。所述預(yù)設(shè)模型優(yōu)選為XGBoost模型。XGBoost算法采用 CART 樹作為模型,針對分類問題,由于 CART 樹的葉子節(jié)點(diǎn)對應(yīng)的值是一個實(shí)際的分?jǐn)?shù),而非一個確定的類別,這將有利于實(shí)現(xiàn)高效的優(yōu)化算法。此外,XGBoost模型在求解損失函數(shù)極值時使用了牛頓法,將損失函數(shù)泰勒展開到二階,另外損失函數(shù)中加入了正則化項,從而能更高效地實(shí)現(xiàn)包含大量變量特征的分類運(yùn)算。
步驟4:部署模型至風(fēng)控決策系統(tǒng),之后進(jìn)入的案件就可以調(diào)用訓(xùn)練好的模型,計算出模型結(jié)果,并根據(jù)模型結(jié)果識別潛在的風(fēng)險。
4 實(shí)驗
該示例性實(shí)施例的電子設(shè)備400以通用數(shù)據(jù)處理設(shè)備的形式表現(xiàn)。電子設(shè)備400的組件可以包括但不限于:至少一個處理單元410、至少一個存儲單元420、連接不同電子設(shè)備組件(包括存儲單元420和處理單元410)的總線430、顯示單元440等。其中,所述存儲單元420存儲有計算機(jī)可讀程序,其可以是源程序或是只讀程序的代碼。所述程序可以被處理單元410執(zhí)行,使得所述處理單元410執(zhí)行本算法各種實(shí)施方式的步驟。圖3所示為系統(tǒng)結(jié)構(gòu)。
所述存儲單元420可以包括易失性存儲單元形式的可讀介質(zhì),如隨機(jī)存取存儲單元( RAM)4201和/或高速緩存存儲單元4202,還可以進(jìn)一步包括只讀存儲單元(ROM)4203。所述存儲單元420還可以包括具有一組(至少一個)程序模塊4205的程序/實(shí)用工具4204,這樣的程序模塊4205包括但不限于:操作電子設(shè)備、一個或者多個應(yīng)用程序、其他程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。
總線430可以為表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲單元總線或者存儲單元控制器、外圍總線、圖形加速端口、處理單元或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。電子設(shè)備400也可以與一個或多個外部設(shè)備300(如鍵盤、顯示器、網(wǎng)絡(luò)設(shè)備、藍(lán)牙設(shè)備等)通信,使得用戶能經(jīng)由這些外部設(shè)備400與該電子設(shè)備400交互,和/或使得該電子設(shè)備400能與一個或多個其他數(shù)據(jù)處理設(shè)備(如路由器、調(diào)制解調(diào)器等)進(jìn)行通信。這種通信可以通過輸入/輸出(I/O)接口450進(jìn)行,還可以通過網(wǎng)絡(luò)適配器460與一個或者多個網(wǎng)絡(luò)(如局域網(wǎng)( LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò))進(jìn)行[2]。網(wǎng)絡(luò)適配器460可以通過總線430與電子設(shè)備400的其他模塊通信。從中可知,盡管圖3中未示出,但電子設(shè)備400中可使用其他硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、 RAID 電子設(shè)備、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲電子設(shè)備等。
圖4是本算法的一個計算機(jī)可讀介質(zhì)實(shí)施例的示意圖。如圖4所示,所述計算機(jī)程序可以存儲于一個或多個計算機(jī)可讀介質(zhì)上。計算機(jī)可讀介質(zhì)可以是可讀信號介質(zhì)或者可讀存儲介質(zhì)。例如,可讀存儲介質(zhì)可以為電、磁、光、電磁、紅外線或半導(dǎo)體的電子設(shè)備、裝置以及器件,以及任意以上的組合??勺x存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式盤、硬盤、隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPROM 或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD?ROM)、光存儲器件、磁存儲器件或者上述的任意合適的組合。當(dāng)所述計算機(jī)程序被一個或多個數(shù)據(jù)處理設(shè)備執(zhí)行時,使得該計算機(jī)可讀介質(zhì)能夠?qū)崿F(xiàn)本算法的上述方法,即獲取風(fēng)控案件全流程中與案件風(fēng)險相關(guān)的基于位置的服務(wù) LBS 信息;將所述 LBS 信息加工,生成風(fēng)控案件的行為軌跡特征;通過所述行為軌跡特征訓(xùn)練預(yù)設(shè)模型;通過訓(xùn)練后的預(yù)設(shè)模型識別風(fēng)險。
通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員易于理解,本算法描述的示例性實(shí)施例可以通過軟件實(shí)現(xiàn),也可以通過軟件結(jié)合必要的硬件的方式來實(shí)現(xiàn)。因此,根據(jù)本算法實(shí)施方式的技術(shù)方案可以以軟件產(chǎn)品的形式展現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個計算機(jī)可讀的存儲介質(zhì)(可以是 CD?ROM 和 U 盤、移動硬盤等)中或網(wǎng)絡(luò)上,包括若干指令,使得一臺數(shù)據(jù)處理設(shè)備(可以是個人計算機(jī)、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本算法的上述方法。
所述計算機(jī)可讀存儲介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了可讀程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合??勺x存儲介質(zhì)還可以是可讀存儲介質(zhì)以外的任何可讀介質(zhì),該可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行電子設(shè)備、裝置或者器件使用或者與其結(jié)合使用的程序??勺x存儲介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于無線、有線、光纜、RF 等,或者上述的任意合適的組合。
以一種或多種程序設(shè)計語音的任意組合來編寫用于執(zhí)行本算法操作的程序代碼,所述程序設(shè)計語音包括面向?qū)ο蟮某绦蛟O(shè)計語言—諸如 Java 和 C++等,還包括常規(guī)的過程式程序設(shè)計語言—諸如“C ”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算設(shè)備上執(zhí)行、部分地在用戶設(shè)備上執(zhí)行、作為一個獨(dú)立的軟件包執(zhí)行、部分在用戶計算設(shè)備上部分在遠(yuǎn)程計算設(shè)備上執(zhí)行,或者完全在遠(yuǎn)程計算設(shè)備或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計算設(shè)備的情形中,遠(yuǎn)程計算設(shè)備可以通過任意種類的網(wǎng)絡(luò),包括局域網(wǎng)(LAN)或廣域網(wǎng)( WAN),連接到用戶計算設(shè)備,或者可以連接到外部計算設(shè)備(如利用網(wǎng)絡(luò)服務(wù)提供商來通過網(wǎng)絡(luò)連接)。
綜上所述,本算法可以執(zhí)行計算機(jī)程序的方法、裝置、電子設(shè)備或計算機(jī)可讀介質(zhì)來實(shí)現(xiàn)。可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器( DSP)等通用數(shù)據(jù)處理設(shè)備來實(shí)現(xiàn)本算法的一些或者全部功能。
以上所述的具體實(shí)施例,對本算法的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步說明。應(yīng)理解的是,本算法不與任何特定計算機(jī)、虛擬裝置或者電子設(shè)備相關(guān),各種通用裝置也可以實(shí)現(xiàn)本算法。
5 結(jié)論
本文針對審核場景中容易出現(xiàn)的 LBS 風(fēng)險,結(jié)合實(shí)際風(fēng)險情況和 LBS 的各類信息可衍生出的行為軌跡特征,彌補(bǔ)人工審核標(biāo)準(zhǔn)單一的不足,再通過機(jī)器學(xué)習(xí)XGBoost算法,將大量的行為軌跡特征進(jìn)行統(tǒng)一的模型運(yùn)算,擬合形成標(biāo)準(zhǔn)化的機(jī)器學(xué)習(xí)分類模型,用于自動化識別風(fēng)險,這縮減了判斷風(fēng)險案件的時間,提高了風(fēng)險識別的準(zhǔn)確率。
本文利用案件的全流程 LBS 信息,將人工審核進(jìn)行量化處理,其中案件的 LBS 信息需要從時間回溯、關(guān)聯(lián)案件等各個角度進(jìn)行特征化處理,形成能夠區(qū)分風(fēng)險的行為軌跡特征?;谶@些特征,再利用機(jī)器學(xué)習(xí)XGBoost的建模方法,經(jīng)過參數(shù)調(diào)整,模型結(jié)果就能精準(zhǔn)地反映正常案件和風(fēng)險案件在 LBS 行為軌跡上的區(qū)別。
參考文獻(xiàn):
[1] 吳佳,王麗芳,蔣澤軍.基于中間件的 LBS 系統(tǒng)總體設(shè)計[J].科學(xué)技術(shù)與工程,2008(5):1311?1314+1326.
[2] 梁清翰,沈占鋒,駱劍承,等.構(gòu)建 LBS 系統(tǒng)的數(shù)據(jù)庫連接池技術(shù)研究[J].計算機(jī)工程,2006(18):39?41.
作者簡介:
鄭雪輝(1990—),碩士,教師,研究方向:人工智能。