馬云海
中國電信股份有限公司連云港分公司
近年來通信詐騙日益泛濫,社會危害性越來越大。隨著通信技術(shù)的發(fā)展,數(shù)據(jù)源種類越來越多,因此而產(chǎn)生的數(shù)據(jù)量呈現(xiàn)指數(shù)級增加,這也進一步加大了反詐工作中詐騙數(shù)據(jù)分析的難度。根據(jù)目前的通信詐騙現(xiàn)狀,國內(nèi)外學(xué)者進行了廣泛的探索,傳統(tǒng)的治理方式主要是結(jié)合已知詐騙號碼情況對電話號碼的結(jié)構(gòu)分析,從而對疑似號碼進行攔截。也有部分學(xué)者開始基于大數(shù)據(jù)挖掘技術(shù)分析詐騙違法行為號碼,嘗試提前預(yù)測詐騙行為,并取得了一定的進展。對于我國的運營商而言,傳統(tǒng)的防詐技術(shù)很難滿足他們要在很短時間內(nèi)分析海量數(shù)據(jù)、識別詐騙號碼,同時還要盡可能地減少對用戶正常通信干擾的需求。本文提出的是一種基于大數(shù)據(jù)挖掘技術(shù)的通信反詐分析模型。該技術(shù)能夠?qū)崿F(xiàn)對通話情況提取疑似號碼的話務(wù)特征,利用大數(shù)據(jù)分析挖掘模型快速研判和處置并進行有效分析,從而在較短時間內(nèi)實現(xiàn)詐騙號碼的確認(rèn)并進行攔截,最終有效防止通信詐騙的發(fā)生。從某種意義上來講,該模型填補了現(xiàn)有電信攔截技術(shù)的短板,為以后有效防范通信詐騙提供了新的思路。
從判斷通信詐騙的方法上,決策樹模型和樸素貝葉斯模型這兩類傳統(tǒng)的分類模型有著較為廣泛的使用,但是傳統(tǒng)模型的使用前提是要有獨立屬性的假定樣本,這和實際情況嚴(yán)重脫節(jié),所以通過這些模型得出的結(jié)論較難復(fù)制到實際生產(chǎn)中。新出現(xiàn)的支持向量機(SVM:Support Vector Machine)是一種常見的監(jiān)督核學(xué)習(xí)(kernel learning)方法,SVM 可以在使用較少的抽樣數(shù)據(jù)的情況下,通過非線性分類方法將經(jīng)驗風(fēng)險降到最低,并且能歸納出較好的統(tǒng)計規(guī)律。能夠避開高維度空間是SVM 方法的一個最大的優(yōu)點,借助空間內(nèi)核函數(shù)可以將線性不可分的情況進一步轉(zhuǎn)化成線性可分問題,然后再通過對線性可分問題的解決方案,解決相應(yīng)的高維空間難題。使用SVM 對潛在的通訊詐騙號碼進行檢測,如果選取的號碼話務(wù)特征僅包含呼叫次數(shù)和呼叫時長,那么就很難全面的提煉出疑似詐騙號碼的特征。如果相關(guān)的測試驗證不結(jié)合實際數(shù)據(jù),就算能夠取得很高的命中率也只是針對于測試數(shù)據(jù),很難進行實際應(yīng)用。
(1)算法簡介
熵值法是一種客觀賦權(quán)法。其根據(jù)各項指標(biāo)觀測值所提供的信息大小來確定指標(biāo)權(quán)重。在信息論中,熵和不確定性是一個正比關(guān)系,與信息量成反比。熵值可以用來判斷某個指標(biāo)的離散程度,離散程度越大,那么它對結(jié)果的影響也越大。因此,信息熵可以在建模中用來為多指標(biāo)計算權(quán)重,選擇出那些對判定影響大的變量。
(2)熵值法的優(yōu)缺點
熵值法是一種客觀的賦權(quán)法,是根據(jù)各種指標(biāo)的指標(biāo)值變化程度來確定相關(guān)指標(biāo)的權(quán)數(shù),它可以避免人為因素帶來的主觀偏差,但是這種方式忽略了指標(biāo)本身的重要程度,而且熵值法也不能減少評價指標(biāo)的維度數(shù)。
本地網(wǎng)詐騙攔截工作起始于2017 年,當(dāng)時公安部下發(fā)的重點監(jiān)控區(qū)域有9 個地市,要求重點監(jiān)控漫游到以上地區(qū)的用戶呼叫情況。但是通信詐騙的勢頭并沒有被遏制住,反而愈演愈烈。因此國家十三部委聯(lián)合下文整治詐騙號碼,并在全國開展“斷卡行動”。根據(jù)連云港市反詐中心每月通報,連云港市涉詐號碼數(shù)量在全國排名較高,曾排名全國前20,被發(fā)黃牌。中國電信連云港分公司成立專班開展通信詐騙的防范工作。
目前通信詐騙傳統(tǒng)的治理方法,主要是結(jié)合投訴數(shù)據(jù)對用戶號碼的結(jié)構(gòu)進行簡單分析,通過這種方法來確定是否是詐騙號碼,納入灰名單數(shù)據(jù)庫,從而實現(xiàn)對疑似號碼進行呼叫攔截。但是隨著詐騙分子不斷升級更新相關(guān)詐騙手段,通過對現(xiàn)有的案例進行統(tǒng)計分析發(fā)現(xiàn),目前的反詐工作存在以下幾個難點:(1)涉詐號碼均符合實名制管控的相關(guān)規(guī)范要求,日常稽核較難發(fā)現(xiàn);(2)號卡涉及買賣和非法收購;(3)通信詐騙具有跨區(qū)域性、隱蔽性、判定滯后性的特點;(4)詐騙號碼的使用行為不斷升級更新。
為了及時打擊涉詐犯罪分子,減少群眾財產(chǎn)損失,同時降低連云港手機號碼被舉報率,公司專班提出主動追蹤挖掘詐騙號碼的需求和設(shè)想:精準(zhǔn)定位疑似號碼,及時封停高危號碼,便捷復(fù)機申訴通道,消除潛在高危號卡。
通信詐騙預(yù)警系統(tǒng)主要包含詐騙號碼識別、號碼封停、申述復(fù)機,沉默卡號處理和白名單等幾個模塊。系統(tǒng)根據(jù)話單數(shù)據(jù)中主叫異常特征及呼叫頻率來預(yù)判詐騙號碼,通過話務(wù)相似特征來辨別是否實施了通信詐騙,使用大數(shù)據(jù)挖掘技術(shù)對號碼的歷史通話記錄,辦理的套餐和裝機時間等資料進行分析研判。目前反詐預(yù)警模型使用的主要是話務(wù)數(shù)據(jù)中的幾個變量,根據(jù)這幾個變量運用大數(shù)據(jù)篩選,將異常號碼標(biāo)識為涉詐號碼。在話單數(shù)據(jù)、EDA 數(shù)據(jù)中提取疑似詐騙號碼的所有話務(wù)特征,根據(jù)熵值法和SVM 判斷是否為詐騙號碼。若判斷為詐騙號碼,則通過緊急停機流程進行風(fēng)險單停,限制號碼的呼叫功能,從而終止該號碼的詐騙行為。同時對該號碼同一身份證下的所有號碼進行關(guān)聯(lián)停機,并上報專班進行多維度分析,對同批辦理的號碼進行篩查,發(fā)現(xiàn)疑似號碼進行相應(yīng)處置。
3.2.1 現(xiàn)有詐騙卡號特征的大數(shù)據(jù)挖掘
在通信詐騙預(yù)警模型建立之前,首先從公安機關(guān)提供的涉案號碼、用戶投訴的詐騙號碼以及反詐專班通報的數(shù)據(jù)中抽取樣本,分析他們的通話行為、裝機時間、受理渠道、套餐類型、年齡等特征,確定詐騙號碼特征判定規(guī)則。根據(jù)分析發(fā)現(xiàn):大部分詐騙電話的入網(wǎng)時間都較短;詐騙電話基本都是漫游到異地;受理渠道一般是網(wǎng)上渠道;每次通話的時間較短、撥打的時間比較集中,被叫話單少、主叫話單多。根據(jù)以上的特征進行建模,集中挖掘特定場景下的詐騙行為。
3.2.2 詐騙電話特征探索
采用熵值法,首先對選取的涉案用戶數(shù)據(jù)的卡號信息、受理信息、當(dāng)月通話情況、歷史通話情況進行采集挖掘。采集數(shù)據(jù)如表1 所示。
表1 數(shù)據(jù)采集
建模變量需要選用區(qū)分能力強的變量,連續(xù)離散化可以顯著提升變量的區(qū)分能力。將詐騙號碼入網(wǎng)的時間、被叫區(qū)號離散度、主叫話單占比、被叫號碼離散度等變量根據(jù)熵值法進行離散化的處理。然后對變量進行劃分,選取其中總熵值最小的分裂點變量。
抽取12321 公安偵辦下發(fā)的詐騙號碼對主叫話單被叫號碼離散度進行分析,如圖1 所示,基本分布在80%到100%區(qū)間。
圖1 被叫號碼離散度
根據(jù)話務(wù)數(shù)據(jù)篩選,發(fā)現(xiàn)92%的詐騙用戶是在入網(wǎng)一個月內(nèi)就開始實施詐騙,并且此類用戶很少接聽電話,主叫話單占總話單數(shù)的90%以上,這些主叫話單的被叫號碼均為長途號碼,且重復(fù)情況極低,主叫話單中被叫號碼的離散度大于85%。根據(jù)以往經(jīng)驗,將用戶的主叫話單占比和被叫號碼離散度這兩個變量收入建模變量。根據(jù)對詐騙號碼目標(biāo)判定影響大小排序,最后選出被叫區(qū)號離散度字段對目標(biāo)變量的判定有著較大影響,數(shù)據(jù)分析結(jié)論如表2 所示。
表2 數(shù)據(jù)分析結(jié)論
通過Python 篩選,主叫話單占比、長途話單數(shù)量、被叫號碼離散度、被叫區(qū)號離散度、主叫撥打頻次這幾個變量對判定詐騙號碼區(qū)分能力較為顯著,可作為建模的變量來使用。
3.2.3 建立挖掘模型
在完成模型變量篩選后,開始選擇建模的方法。通過比對樸素貝葉斯模型、決策樹模型、隨機森林算法和線性回歸算法等方法,根據(jù)評估的效果,預(yù)警模型選擇了支持向量機(SVM)這一算法。
根據(jù)以上對數(shù)據(jù)變量篩選以及話務(wù)特征的分析,根據(jù)SVM 建立了詐騙號碼的匹配模型。如表3 所示,詐騙號碼匹配模型為:異地的長途話單撥打頻次每小時主叫大于等于9張,被叫號碼離散度大于等于0.8,且不同被叫區(qū)號個數(shù)大于3 個,標(biāo)記為高度疑似詐騙號碼;漫游用戶在3 個小時內(nèi)主叫話單張數(shù)大于等于20 張,被叫號碼離散度大于等于0.8,且被叫區(qū)號個數(shù)大于3 個,標(biāo)記為高度疑似詐騙號碼。剔除199 以上主卡、政企行客VPN、名稱包含電信、后三位相同的吉祥號和攜入用戶等白名單用戶。
表3 詐騙號碼匹配規(guī)則
(1)普通話務(wù)小時模型
在ORACLE 數(shù)據(jù)庫中建立定時任務(wù):LYG.MYH_ZP_XYH_2021_JOB 每30 分鐘運行一次,掃描本地網(wǎng)的移動詳單表,篩選出掃描時間點前一個小時的主叫話單張數(shù)大于等于9張的用戶SERVID,同時給這些號碼標(biāo)識出被叫號碼的離散度(不同被叫號碼個數(shù)/主叫話單張數(shù)),標(biāo)記為:小時話務(wù)量異常A 模型。
(2)基站話務(wù)模型
在ORACLE 數(shù)據(jù)庫中建立定時任務(wù):LYG.MYH_ZPJK_2021JZ_JOB 每天9 點運行一次,掃描本地網(wǎng)的移動詳單表,篩選已被小時話務(wù)量異常A 模型標(biāo)記出來的疑似詐騙號碼與話務(wù)較為集中的基站ID 是否存在交集,如果存在交集那么可以判斷為有GORP 設(shè)備用于詐騙活動,該設(shè)備危害性更大,需要及時反饋給省公司和公安反詐中心。
通信詐騙和騷擾數(shù)據(jù)分析及大數(shù)據(jù)攔截模型投入運行以后,優(yōu)化預(yù)警范圍和準(zhǔn)確度,實時攔截疑似的詐騙號碼,大大提升了處理的及時性和準(zhǔn)確性。如圖2 所示,反詐模型投入使用后詐騙號碼迅速從2021 年4 月份的24 個降低到2021 年6 月份1 個,反詐效果明顯。經(jīng)過不斷地優(yōu)化,2022 年上半年更是保持0 個記錄。同時通過運用該模型的大數(shù)據(jù)分析協(xié)助公安部門破獲了多起通信詐騙案件,有效控制了連云港詐騙案發(fā)率,讓連云港公司擺脫了被動局面,并使該項工作在全省名列前茅。
圖2 公安偵辦派單
通信詐騙預(yù)警系統(tǒng)設(shè)計研發(fā)時間緊任務(wù)重,可以借鑒的經(jīng)驗較少,在運行期間詐騙分子的詐騙手段還在不斷地升級更新,所以還需要在應(yīng)用中對公安部門下發(fā)的漏網(wǎng)詐騙號碼進行進一步的分析,對模型逐步改進完善。