陸文紅,劉劍(中國聯(lián)通黑龍江省分公司,黑龍江哈爾濱 150001)
近年來,電信詐騙嚴重影響了人民群眾獲得感、幸福感、安全感。國家高度重視電信詐騙治理工作,運營商作為電信詐騙整個鏈條中的一個環(huán)節(jié),亦投入大量人力物力、技術(shù)資金等開展電信詐騙專項治理。運營商如何利用技術(shù)手段進行反詐,一直以來都是研究重點。最初電信詐騙特征并不復(fù)雜,通過一些簡單的行為分析與內(nèi)容檢測就可以達到不錯的反詐效果。隨著詐騙分子與反詐人員技術(shù)對抗不斷升級,電信詐騙在通信網(wǎng)側(cè)的行蹤已經(jīng)越來越隱蔽,技術(shù)手段越來越先進,因此,反詐工作亟需提升技術(shù)水平和能力,運用決策樹、隨機森林、貝葉斯分類器等典型的機器學(xué)習(xí)算法,結(jié)合LightGBM、人工智能、大數(shù)據(jù)等先進技術(shù)來綜合判別詐騙電話,進而對詐騙電話進行關(guān)停、溯源和關(guān)聯(lián)分析。
隨著通信技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,詐騙分子頻繁利用電信網(wǎng)和互聯(lián)網(wǎng)對廣大人民群眾實施非接觸式詐騙,并逐步呈現(xiàn)智能化、職業(yè)化的特點。詐騙分子利用電話、改號軟件、短信、惡意程序(包括仿冒應(yīng)用)、詐騙網(wǎng)址、偽基站等工具瘋狂作案,“話術(shù)”多樣,“套路”重重,影響面廣,涉及金額巨大,成為國家和相關(guān)部委關(guān)注的重點。
在通信過程中,終端會因為開關(guān)機、路由區(qū)更新、呼叫業(yè)務(wù)、短消息業(yè)務(wù)觸發(fā)鑒權(quán)向量消息,被叫和短消息業(yè)務(wù)會觸發(fā)尋呼消息,針對用戶漫入漫出詐騙特征分析的主要方法是通過正常用戶的行為建立基線,發(fā)現(xiàn)非正常終端的通聯(lián)關(guān)系。但是,電話反詐存在詐騙場景多變、舉報樣本不純、數(shù)據(jù)不均衡、數(shù)據(jù)表現(xiàn)不一致等治理難點。
如圖1 所示,從整體架構(gòu)上,平臺主要由5 個部分構(gòu)成:應(yīng)用展示層/系統(tǒng)管理/監(jiān)控部分、數(shù)據(jù)源、機器建模層、數(shù)據(jù)接入層、接口。
圖1 整體架構(gòu)圖
各層功能如下。
a)應(yīng)用展示層。提供綜合展現(xiàn)、系統(tǒng)首頁、檢出號碼列表、失信號碼溯源、信息查詢等展示全網(wǎng)涉詐電話的狀態(tài),通過一鍵處置對涉詐電話進行關(guān)停,提高處置效率。
b)數(shù)據(jù)源。通過各類接口技術(shù),如FTP、SFTP、XML、API、JDBC等進行各類數(shù)據(jù)的收集。
c)機器建模層。通過特征篩選技術(shù)、機器學(xué)習(xí)技術(shù)對模型進行訓(xùn)練,對訓(xùn)練后的模型效果進行評估,評估通過的模型正式上線運行,后續(xù)通過自動+人工的方式不斷對模型進行迭代升級來反詐新的詐騙場景。
d)數(shù)據(jù)接入層。對收集的數(shù)據(jù)進行規(guī)范化處理后壓縮入庫,通過大數(shù)據(jù)技術(shù)對入庫數(shù)據(jù)進行抽取、清洗、轉(zhuǎn)換、壓縮、特征提取、數(shù)據(jù)探索等工作,為后續(xù)建模準(zhǔn)備數(shù)據(jù)環(huán)境。
e)接口。通過運營商現(xiàn)有平臺實現(xiàn)短信接口、關(guān)停監(jiān)控接口、集團接口等功能對接,實現(xiàn)多環(huán)節(jié)功能自動完成。
2.2.1 大數(shù)據(jù)采集
大數(shù)據(jù)采集數(shù)據(jù)源包括移動網(wǎng)Mc 接口XDR 話單和信令話單(O域話單)以及計費話單(B域話單)。
2.2.2 數(shù)據(jù)預(yù)處理
為了確保分析數(shù)據(jù)的準(zhǔn)確性,需要對數(shù)據(jù)進行加工處理,包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)關(guān)聯(lián),不規(guī)則數(shù)據(jù)需要進行數(shù)據(jù)補齊,滿足數(shù)據(jù)的完整性和一致性。通過數(shù)據(jù)預(yù)處理組件可實現(xiàn)按照一定的規(guī)則,對已采集的數(shù)據(jù)進行清洗,對無用的數(shù)據(jù)進行過濾。將不合理或不滿足數(shù)據(jù)結(jié)構(gòu)要求的數(shù)據(jù),進行字段取值、字段類型轉(zhuǎn)換,以滿足實際數(shù)據(jù)結(jié)構(gòu)要求。
大數(shù)據(jù)處理層主要是對接大數(shù)據(jù)全域數(shù)據(jù)匯聚中心,完成數(shù)據(jù)清洗、轉(zhuǎn)換、過濾、壓縮、篩選、加密等處理與數(shù)據(jù)存儲等功能。
2.2.3 詐騙電話數(shù)據(jù)處理流程
詐騙電話數(shù)據(jù)包括詐騙電話、鷹眼數(shù)據(jù)、省分數(shù)據(jù)和IQ 指標(biāo),從數(shù)據(jù)采集開始,將數(shù)據(jù)送到反欺詐引擎,再到分布式解析引擎后存儲,最后送到Portal 分布式應(yīng)用,處理流程如圖2所示。
圖2 詐騙電話數(shù)據(jù)處理流程圖
國際國內(nèi)詐騙事件分析算法主要采用適用性優(yōu)良、精確度高、理論基礎(chǔ)佳、學(xué)術(shù)成果前沿的機器學(xué)習(xí)算法對通信行為模式進行挖掘和準(zhǔn)確識別,如邏輯回歸、隨機森林、支持向量機、樸素貝葉斯、梯度提升決策樹等。
本文為了解決詐騙場景多變、舉報樣本不純、數(shù)據(jù)不均衡、數(shù)據(jù)表現(xiàn)不一致等治理難點,使用了上述機器學(xué)習(xí)算法的組合算法,引入公安涉案數(shù)據(jù)、用戶舉報數(shù)據(jù)增加正樣本數(shù)量。同時使用LightGBM 框架,訓(xùn)練決策樹時使用直方圖算法,采用leaf-wise 生長策略,每次從當(dāng)前所有葉子中找到分裂增益最大(一般也是數(shù)據(jù)量最大)的一個葉子,然后分裂,如此循環(huán),但此過程會生長出比較深的決策樹,產(chǎn)生過擬合。因此LightGBM 在leaf-wise 之上增加了一個最大深度的限制,在保證高效率的同時防止過擬合。從直方圖獲得分裂收益,選取最佳分裂特征、分裂閾值,根據(jù)最佳分裂特征、分裂閾值將樣本切分。通過直方圖做差,繼續(xù)選取最佳分裂葉子、分裂特征、分裂閾值,切分樣本,直到達到葉子數(shù)目限制或者所有葉子不能分割。本文選擇LightGBM 是因為它支持高效率的并行訓(xùn)練,并且具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更高的準(zhǔn)確率、支持分布式、可以快速處理海量數(shù)據(jù)等優(yōu)點。關(guān)于梯度提升樹算法的流程如下。
首先,輸入訓(xùn)練集樣本T={(x1,y1),(x2,y2),…(xm,ym)},最大迭代次數(shù)T,損失函數(shù)L。
其次,輸出強學(xué)習(xí)器f(x),過程如下。
b)對迭代輪數(shù)t=1,2,…T,進行以下操作。
(a)對樣本i=1,2,…m,計算負梯度rti。
(b)利用(xi,rti),(i=1,2,…m),擬合1 顆CART 回歸樹,得到第t顆回歸樹,其對應(yīng)的葉子節(jié)點區(qū)域為Rtj,j=1,2,…J。其中J是回歸樹t的葉子節(jié)點個數(shù)。
(c)對葉子節(jié)點區(qū)域j=1,2,…J,計算最佳擬合值ctj。
(d)更新強學(xué)習(xí)器。
c)得到強學(xué)習(xí)器表達式。
經(jīng)過近2年實驗室模型訓(xùn)練,放寬初篩條件,結(jié)合現(xiàn)階段詐騙涉案特征集,開展生產(chǎn)環(huán)境實踐。
正樣本:根據(jù)公安提供的警情涉案數(shù)據(jù)和用戶舉報數(shù)據(jù),提取本場景的詐騙號碼,選取其被報案日的歷史前7 天及當(dāng)天數(shù)據(jù),將經(jīng)初篩剩余的號碼作為初始正樣本,經(jīng)過初篩條件的正樣本為48個。由于正樣本過少,樣本不均衡,采取過采樣,將正樣本復(fù)制為3倍,為144個正樣本。
負樣本:隨機選取2021 年5 月13 日的話單數(shù)據(jù),通過初篩的號碼查詢網(wǎng)絡(luò)標(biāo)簽,將去除詐騙標(biāo)簽剩余的樣本作為負樣本,經(jīng)過初篩及過濾標(biāo)簽,最終負樣本為5 805個。將數(shù)據(jù)分為訓(xùn)練集和測試集,進行5折的交叉驗證,最終的混淆矩陣如下。
a)5 折訓(xùn)練集混淆矩陣展示。如表1 所示,其準(zhǔn)確率為99.83%,AUC 為99.98%,召回率為95.83%,精準(zhǔn)率為97.18%。
表1 5折訓(xùn)練集混淆矩陣展示
b)測試集混淆矩陣展示。如表2 所示,其AUC 為99.99%,召回率為100%,精準(zhǔn)率為96.55%。
表2 測試集混淆矩陣展示
測試集上ROC曲線及AUC值如圖3所示。
圖3 測試集上ROC曲線及AUC值
模型創(chuàng)新點有2個,一是在正樣本較少的情況下,正負樣本極度不均衡,通過初篩對負樣本進行隨機欠采樣(ROS),很好地解決了樣本不均衡帶來的問題;二是對模型的精準(zhǔn)度要求很高的同時,對覆蓋也有高要求,放寬了初篩的條件,讓更多的數(shù)據(jù)能進入模型,迭代特征集合選取現(xiàn)階段最優(yōu)的特征集合。
系統(tǒng)已具備標(biāo)準(zhǔn)的B 域基礎(chǔ)數(shù)據(jù)接口,并采用SFTP進行加密傳輸,保證了數(shù)據(jù)的機密性。系統(tǒng)與集團鷹眼數(shù)據(jù)接口采用API 接口方式,獲取鷹眼系統(tǒng)的檢出結(jié)果,接口遵循《中國聯(lián)通API接口規(guī)范》,避免其他系統(tǒng)直接操作數(shù)據(jù)庫,降低系統(tǒng)數(shù)據(jù)庫由于誤操作帶來的風(fēng)險。
系統(tǒng)從用戶信息、狀態(tài)信息、通話信息、漫游信息、開戶信息等9 大維度,分析號碼的50 多個指標(biāo),反欺詐工作人員可根據(jù)經(jīng)驗,靈活配置使用自定義的監(jiān)控規(guī)則,預(yù)測新的不良號碼。同時,還可新增支持更多指標(biāo)閾值設(shè)置,支持指標(biāo)的與或非邏輯、概率函數(shù)運算等。
業(yè)務(wù)實現(xiàn)處理流程見圖4,具體說明如下。
圖4 業(yè)務(wù)實現(xiàn)流程
a)指標(biāo)展示。展示相關(guān)的指標(biāo)項,設(shè)置指標(biāo)的范圍以及監(jiān)控周期。
b)規(guī)則的校驗和添加。規(guī)則添加時,使用昨日指標(biāo)數(shù)據(jù)校驗當(dāng)前規(guī)則設(shè)置是否合適,合適則添加,不合適直接返回提示信息。
c)規(guī)則任務(wù)的拆分。將添加的規(guī)則,拆分成可以執(zhí)行的任務(wù)。
d)規(guī)則匹配與結(jié)果數(shù)據(jù)的存儲。從數(shù)據(jù)存儲中心獲取匹配的指標(biāo)數(shù)據(jù),并將結(jié)果數(shù)據(jù)存儲至本地數(shù)據(jù)庫。
e)關(guān)停。關(guān)停不良號碼。
根據(jù)上述規(guī)則輸出模型數(shù)據(jù),包括GOIP、漫游通用模型、仿冒公檢法、仿冒領(lǐng)導(dǎo)熟人等每月輸出檢出數(shù)據(jù),如表3所示。
表3 月數(shù)據(jù)輸出
針對2022 年3 月份業(yè)務(wù)部門反饋的模型結(jié)果進行核驗還不足以驗證系統(tǒng)模型檢出異常號碼的準(zhǔn)確性,所以本文引入集團鷹眼詐騙模型分布情況與平臺檢出結(jié)果進行對比,如表4 所示。命中率最高的模型規(guī)則為仿冒領(lǐng)導(dǎo)熟人,其命中率達到100%,命中率最低的模型規(guī)則為基于lac 的GOIP 模型(B 域)的模型規(guī)則,其命中率為4%。
表4 數(shù)據(jù)檢出驗證
本文提出的基于大數(shù)據(jù)+AI 機器學(xué)習(xí)模式創(chuàng)新建立的反詐模型已應(yīng)用于黑龍江反詐態(tài)勢感知大數(shù)據(jù)平臺。運營商反詐人員通過反詐監(jiān)控獲取整體反詐情況,如圖5所示,該平臺可以直觀的呈現(xiàn)各類月度趨勢及當(dāng)日走勢,實現(xiàn)反詐集中運營與監(jiān)控。
圖5 黑龍江反詐態(tài)勢感知大數(shù)據(jù)平臺
面對當(dāng)前不斷翻新的詐騙手段,變化多端的通信欺詐行為,運營商的管控任務(wù)艱巨。本文通過反詐態(tài)勢感知大數(shù)據(jù)平臺,針對常見的詐騙話務(wù)行為進行分析,借助反欺詐業(yè)務(wù)模型及機器學(xué)習(xí)模型的迭代調(diào)優(yōu),建立針對詐騙電話的事前風(fēng)險預(yù)防、事中風(fēng)險阻斷、事后風(fēng)險處理的全流程閉環(huán)反詐管控體系,降低了詐騙號碼誤判率,有效減少反詐人員工作量,提高勞動生產(chǎn)率,在實際應(yīng)用中取得了良好的效果。此外,在反欺詐防控過程中,因為算法精度可能存在部分用戶號碼偏差。因此,未來可在以下2 個方面進一步提高反欺詐模型的精度:一是不斷迭代新模型+社會工程學(xué)來適應(yīng)各種欺詐場景;二是嘗試通過貝葉斯、GBDT等算法,進一步優(yōu)化模型,來提高準(zhǔn)確性。