張青
【摘? 要】為了自動識別各類詐騙電話,有效提升用戶通話體驗,減少用戶經(jīng)濟(jì)損失,采用挖掘分析中的統(tǒng)計和數(shù)據(jù)建模方法,通過分析用戶通話信令,研究通話業(yè)務(wù)模式,構(gòu)建異常通話自動識別的聚類算法。經(jīng)過實驗驗證了該聚類算法在假冒領(lǐng)導(dǎo)詐騙電話自動識別的有效性,可有針對性地指導(dǎo)接下來的詐騙電話細(xì)分。
【關(guān)鍵詞】聚類算法;詐騙電話;自動識別
1? ?引言
截止2018年第二季度末,我國手機(jī)用戶已超過15億,固定電話用戶約為2億,中國已成為全球電話用戶最多的通信大國。但是,在電信產(chǎn)業(yè)快速發(fā)展的同時,利用高科技通訊技術(shù)和金融轉(zhuǎn)賬方式的便利進(jìn)行的各種違法犯罪活動也日益猖獗起來[1-3]。
通信信息詐騙是犯罪分子以非法占有為目的,利用網(wǎng)絡(luò)、手機(jī)、固定電話、短信等通信工具,采取遠(yuǎn)程、非接觸的方式,通過虛構(gòu)事實誘使受害人往指定的賬號打款或轉(zhuǎn)賬,騙取他人財物的一種犯罪行為。假冒領(lǐng)導(dǎo)詐騙場景中,騙子通過電話冒充領(lǐng)導(dǎo)或熟人進(jìn)行騙錢,從“猜猜我是誰”,到“我是你領(lǐng)導(dǎo)”,使不少電信用戶上當(dāng)受騙,蒙受巨額經(jīng)濟(jì)損失。
常見的通信信息防詐騙技術(shù)方法是通過在網(wǎng)絡(luò)側(cè)對短時高頻發(fā)話行為進(jìn)行識別和攔截來實現(xiàn)的。而目前大部分詐騙場景,例如假冒領(lǐng)導(dǎo)、網(wǎng)購詐騙等,其人工發(fā)話行為已經(jīng)和正常的通話非常類似。如果僅僅通過發(fā)話頻次特征來識別,其準(zhǔn)確率和覆蓋率達(dá)不到預(yù)定的目標(biāo),需要運(yùn)用大數(shù)據(jù)挖掘算法來尋找更能有效區(qū)分詐騙通話行為的特征。
對詐騙行為的識別是一個典型的二分類問題,用于分類的算法大致分為有監(jiān)督學(xué)習(xí)(決策樹、樸素貝葉斯、SVM等)和無監(jiān)督學(xué)習(xí)(聚類等)兩類。在詐騙識別的初始階段,樣本一般來源于有經(jīng)濟(jì)損失的詐騙受害者到公安的報案以及來自于工信部12321網(wǎng)站上的舉報信息,這個樣本量占詐騙總量的極小一部分,對模型樣本的訓(xùn)練不具備有監(jiān)督學(xué)習(xí)的條件。
本文在深入分析通話信令的業(yè)務(wù)模型的前提下,在異常通話模式中,采用挖掘建模中的聚類算法,有效提取假冒領(lǐng)導(dǎo)詐騙電話的通話特征,從而為自動識別假冒領(lǐng)導(dǎo)詐騙電話提供有效的手段[4]。
2? ?聚類算法概述
聚類算法起源于分類學(xué),在古老的分類學(xué)中,人們主要依靠經(jīng)驗和專業(yè)知識來實現(xiàn)分類,很少利用數(shù)學(xué)工具進(jìn)行定量的分類。隨著人類科學(xué)技術(shù)的快速發(fā)展,對分類的要求越來越高,以致有時僅憑經(jīng)驗和專業(yè)知識難以確切地進(jìn)行分類,于是人們逐漸把數(shù)學(xué)工具引用到了分類學(xué)中,形成了數(shù)值分類學(xué),之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué)形成了聚類算法[5]。聚類算法研究內(nèi)容非常豐富,具體包括系統(tǒng)聚類法、動態(tài)聚類法、模糊聚類法、圖論聚類法、有序樣品聚類法、聚類預(yù)報法等。
在機(jī)器學(xué)習(xí)中,聚類是一種無監(jiān)督學(xué)習(xí),是在預(yù)先不知道欲劃分類的情況下,根據(jù)信息相似度原則進(jìn)行信息聚類的一種方法。聚類的目的是使得屬于同類別的對象之間的差別盡可能的小,而不同類別上的對象之間的差別盡可能的大。因此,聚類的意義就在于將觀察到的內(nèi)容組織成類分層結(jié)構(gòu),把類似的事物組織在一起。
3? ?聚類算法的數(shù)據(jù)挖掘
下面采用跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM(Cross-Industry Standard Process for Data Mining)來闡述如何使用聚類算法對假冒領(lǐng)導(dǎo)詐騙電話進(jìn)行自動識別的全過程。
3.1? 業(yè)務(wù)理解
在大量手機(jī)和固話的通話信令中,詐騙電話的通話行為往往都隱藏在異常通話行為中。何謂異常通話行為,具體包括利用特殊設(shè)備,對批量號碼進(jìn)行外呼等。包括不等待被叫用戶接通即掛斷的“響一聲”,誘騙用戶回?fù)芎筮M(jìn)行廣告或詐騙行為;自動語音外呼,又稱“惡意呼叫”,是一種機(jī)器行為,通過播放虛假信息,例如停機(jī)、欠費(fèi)等進(jìn)行詐騙;精準(zhǔn)人工詐騙,在獲取被叫用戶姓名等信息的情況下,采取人工批量外呼,實施詐騙行為。下面對某運(yùn)營商在廣東某地的通話信令進(jìn)行分析,進(jìn)而對其中涉及上述三類異常通話行為來構(gòu)建業(yè)務(wù)模型。
(1)“響一聲”
1)通話場景
目前的“響一聲”主叫號碼可以分為兩類,一類是普通手機(jī)號碼,另一類是聲訊臺號碼。
“響一聲”大部分是普通手機(jī)號碼發(fā)呼,例如130-139,150-159等手機(jī)號段,這類響一聲電話主要目的有三種:
◆部分企業(yè)誘導(dǎo)用戶回?fù)茈娫掃M(jìn)行廣告宣傳;
◆部分不法分子誘導(dǎo)用戶回?fù)茈娫掃M(jìn)行六合彩、賣淫等信息宣傳;
◆部分不法分子誘導(dǎo)用戶回?fù)茈娫掃M(jìn)行通信詐騙活動。
此外,還有一類顯示的是非普通號碼,例如96,168等開頭的聲訊臺號碼,這些號碼主要被取得正規(guī)運(yùn)營資質(zhì)的聲訊臺或者信息服務(wù)公司擁有,回?fù)苓@類號碼可能會產(chǎn)生信息服務(wù)費(fèi)。
主要關(guān)注利用“響一聲”進(jìn)行詐騙的行為,所以會關(guān)注普通手機(jī)號碼的外呼行為。
2)通話信令特征
◆高頻(日通話次數(shù)為500次以上,在三類異常通話行為中發(fā)呼頻次為最高);
◆通話時長callduration=0(主叫側(cè)掛機(jī));
◆6 s<呼叫時長occupancyduration <10 s;
◆特征:看通話時長為0的次數(shù)同時結(jié)合呼叫平均時長小于7 s,判斷為機(jī)器行為。
(2)自動語音外呼
1)通話場景
自動語音外呼是通過電腦自動往外撥打用戶電話,將錄制好的語音通過電腦播放給用戶,將電腦電話集成一體,這是現(xiàn)代客戶服務(wù)中心系統(tǒng)必不可少的一個組成部分。通過錄制語速適中清晰的語音,批量外呼后實現(xiàn)自動播放通知、廣告等??蛻粲信d趣的話,可以通過按鍵進(jìn)行咨詢,這時候便轉(zhuǎn)接到人工話務(wù)員。而通過播放虛假信息,例如停機(jī)、欠費(fèi)等進(jìn)行詐騙也就隱匿在其中。
2)通話信令特征
◆高頻,但日通話次數(shù)較“響一聲”發(fā)呼頻次少;
◆語音外呼;
◆3 s<通話時長callduration<10 s(被叫未上當(dāng)),被叫側(cè)掛斷,詐騙上當(dāng)者平均通話時長callduration大于120 s;
◆呼叫時長occupancyduration遠(yuǎn)大于6 s;
◆每天平均通話時長小于10 s(大部分電話打不通或由于被叫用戶警惕性高,接通后很快掛機(jī),拉低通話均值,根據(jù)統(tǒng)計信息:一般正常通話時長平均為40 s
~60 s)。
(3)人工高頻外呼
1)通話場景
人工在短時間內(nèi)多次撥打用戶電話,假冒領(lǐng)導(dǎo)就是其中典型的詐騙場景之一。騙子通過電話冒充領(lǐng)導(dǎo)或熟人進(jìn)行騙錢。從“猜猜我是誰”,到“我是你領(lǐng)導(dǎo)”,一旦被叫用戶上當(dāng),落入騙子的圈套進(jìn)行轉(zhuǎn)賬操作,用戶將會蒙受巨大的經(jīng)濟(jì)損失。
2)通話信令特征
◆高頻:每天通話次數(shù)在100次左右;
◆人工外呼(類似熟人,有被叫人準(zhǔn)確信息,例如姓名等);
◆通話時長callduration類似正常通話;
◆每天平均通話長小于10 s(大部分打不通或被叫用戶警惕性高,接通后很快掛機(jī),拉低通話時間長的均值);
◆按日通話開始時間點(diǎn)分布:考慮到人工性和詐騙場景的特殊性(第二天上午去找領(lǐng)導(dǎo)回訪),通話時間點(diǎn)集中在下午到晚上。
3.2? 數(shù)據(jù)準(zhǔn)備
通過對三種異常通話業(yè)務(wù)場景的分析,可以初步推測,理論上某些通話特征是可以將三種異常通話行為區(qū)隔開來,例如平均通話時長、通話時長分段占比、呼叫時長等。作為建模的基礎(chǔ),構(gòu)建一張挖掘用寬表,該表按天按主叫號碼匯總。原始的通話信令中包含主叫號碼、被叫號碼、通話時長、呼叫時長等信息,為構(gòu)建更多的特征,采用特征工程獲取衍生變量構(gòu)成挖掘?qū)挶?,其中用到歸一化、均值化等特征處理方法。挖掘?qū)挶碜侄伟ㄖ鹘刑柎a、總通話次數(shù)、總通話時長(callduration)、平均通話時長(ave_callduration)、總非零通話時長(no_zero_callduration)、平均非零通話時長(ave_calldur_no_zero)、零通話時長占比(zero_callduration_rate)、零通話次數(shù)、被叫號碼個數(shù)、總呼叫時長(occupancyduration)、平均呼叫時長(ave_occpduration)、按日最早發(fā)話時間點(diǎn)、按日最晚發(fā)話時間點(diǎn)等特征。
根據(jù)上面分析的三類異常通話場景,篩選按天按主叫號碼統(tǒng)計的通話次數(shù)大于等于100的寬表記錄,用聚類算法來區(qū)分三類異常通話行為的特征。
3.3? 數(shù)據(jù)建模
對多種聚類算法模型(Kmeans、DBscan、兩步聚類等)的訓(xùn)練結(jié)果進(jìn)行比較后,最終采用兩步聚類分析方法[6-8],聚類結(jié)果如圖1所示。其中,Cluster Quality = 0.7,聚類效果比較好。
對特征零通話時長占比(zero_callduration_rate)及平均非零通話時長(ave_calldur_no_zero)采用直方圖可以進(jìn)行輔助分析,零通話時長占比高是因為異常通話中被叫的警惕性高,未接通的比例相對正常通話要高;而平均非零通話時長的直方圖中,一類幾乎全部集中在0 s~5 s內(nèi),這是類似“響一聲”的通話行為,還有一類是有部分在0 s~5 s內(nèi)(警惕性高接聽后未上當(dāng)主動掛斷),同時也有類似正常的通話行為。示例如圖2所示。
從業(yè)務(wù)模型的關(guān)鍵參數(shù)——平均呼叫時長(ave_occpduration)和平均非零通話時長(ave_calldur_no_zero),并結(jié)合上文3.1章節(jié)中三類異常通話業(yè)務(wù)模型的通話信令特征,可以初步分析出:類別3為響一聲(其平均非零呼叫時長ave_occpduration約為6.44 s,平均通話時長ave_callduration為0.09 s,幾乎為0);類別2包含假冒領(lǐng)導(dǎo)詐騙號碼(平均通話時長為16 s,遠(yuǎn)小于正常通話時長40 s~60 s的范圍),具體如圖3所示。
3.4? 模型優(yōu)化
將類別2號碼的通話信令清單導(dǎo)出,進(jìn)一步嘗試增加新的特征,包括通話移固比例、接通后分段通話時長占比、主叫歸屬地與被叫歸屬地相同的占比等,從而對假冒領(lǐng)導(dǎo)的典型模型做進(jìn)一步優(yōu)化。
(1)步驟1,篩選出類別2的清單。
代碼示例如下:
select t1.ano,t1.bno,t1.starttime,t1.callduration,t1.opcname,t1.acity,t1.bcity,t1.Protocol,t1.occupancyduration
from
(select ano,bno,starttime,callduration,opcname,acity,bcity,Protocol,occupancyduration from(通話清單表)where p_day='2016-06-12'and SignalFrom='(詐騙發(fā)話地)'and Protocol in ('1','2'))t1 join select ano from (類型2的號碼表) where…
(2)步驟2,新增特征:被叫號碼中移動和固定電話號碼的占比等。
代碼示例如下:
select t1.ano,t1.call_sum,
(case when t2.mb_num is null then 0 else t2.mb_num end) mb_num,t1.zero_callduration,(t1.call_sum- t1.zero_callduration)no_zero_calldur,t1.zero_callduration_rate, t1.bno_num, t1.callduration_sum,…
(3)步驟3,新增一卡雙號和撥打特殊號碼的特征。
◆增加廣東全省一卡雙號的主副號對應(yīng)關(guān)系表。
◆繼而觀察當(dāng)天詐騙發(fā)話的主號打往銀行、充值平臺、10000/10001號客服的情況,代碼示例如下:
select t01.ahome,t01.ano,count(*)yh_call_sum,count(distinct t01.bno)yh_call_cont from
select ahome,ano,bno from (通話清單表) where p_day ='2016-06-28' and acl='3'…
◆綜合主副號特征、副號的發(fā)話時段、呼叫頻次、被叫離散度、主被叫歸屬地、被叫移固占比等特征、終端價格分檔、黑基站、黑銀行賬號短信以及包括相關(guān)主號呼叫特服號碼,包括銀行、充值平臺、電信客服號碼,主副號發(fā)話行為具有時間上的接續(xù)性等特征。
3.5? 模型驗證
通過對聚類模型的特征及算法的多次優(yōu)化,接下來用通話信令數(shù)據(jù)聚類后的結(jié)果進(jìn)行業(yè)務(wù)效果驗證。
(1)驗證樣本選取
根據(jù)某通信運(yùn)營商某日通話信令清單,在模型預(yù)測的正樣本中,篩取一定量樣本,按最大化覆蓋正樣本的原則,獲取通話時長不低于5 s的記錄,以便有效回訪被叫。
(2)驗證方法
為確定是否發(fā)生詐騙案,本方法以多種信息相互印證,包括客觀詐騙事實、被叫用戶證詞以及互聯(lián)網(wǎng)舉報信息。
具體如下:
1)樣本通話后存在被叫發(fā)出過110電話
2)被叫證詞:對樣本抽取的被叫回訪了解
◆其所接電話是否涉嫌假冒身份詐騙;
◆存在被叫向陌生人轉(zhuǎn)賬匯款事實;
◆是否報警處理。
3)互聯(lián)網(wǎng)舉報信息:通過百度、360搜索引擎檢索
◆該號碼樣本是否被公眾標(biāo)記為詐騙電話;
◆樣本是否與公開號碼相似度較高。
(3)樣本核定標(biāo)準(zhǔn)
對于因用戶原因拒絕回訪是否詐騙的樣本不予計算,以上三種驗證方法只要符合其一,則認(rèn)為該樣本為真正的正樣本。
(4)驗證步驟
◆后臺數(shù)據(jù)庫查詢相關(guān)主被叫通話信令記錄;
◆對正樣本通話時間長的被叫優(yōu)先進(jìn)行回訪;
◆檢查話單,該被叫是否事后打過110;
◆互聯(lián)網(wǎng)檢索。
(5)驗證情況匯總
從2016年9月1日的通話信令中共提取15個正樣本,通話共701次,涉及614個被叫。選擇通話大于等于5 s的被叫用戶進(jìn)行回訪,愿意受訪的有15人,涉及14個正樣本。
◆13人已意識到樣本屬假冒領(lǐng)導(dǎo)或熟人詐騙,涉及13個正樣本,按交流情況分析有13個正樣本為真正的正樣本,1個正樣本無法確定;
◆1人已報警處理,涉及正樣本1個;
◆存在3個被叫向陌生人轉(zhuǎn)賬匯款,涉及正樣本3個;
◆互聯(lián)網(wǎng)舉報信息:通過百度、360搜索引擎檢索情況無結(jié)果。
(6)驗證結(jié)論
按被叫證詞、報警、轉(zhuǎn)賬等情況分析,14個正樣本中13個為真正的正樣本(有一個未能確認(rèn)),假冒領(lǐng)導(dǎo)模型分析精確率為:13/14=92.85%。
3.6? 模型部署
將模型固化到生產(chǎn)系統(tǒng)中,持續(xù)篩選假冒領(lǐng)導(dǎo)的詐騙號碼并對其主叫號碼進(jìn)行實時攔截。經(jīng)過一段時間的模型篩選和持續(xù)攔截,在集團(tuán)發(fā)布的12321用戶投訴記錄中,假冒領(lǐng)導(dǎo)詐騙類型的投訴率大大降低。
4? ?結(jié)束語
隨著大數(shù)據(jù)分析挖掘技術(shù)的不斷發(fā)展,傳統(tǒng)詐騙電話的識別方法將出現(xiàn)大的變化。本文基于某省電信運(yùn)營商通話信令數(shù)據(jù),通過構(gòu)建異常通話業(yè)務(wù)模型,采用挖掘分析中的統(tǒng)計和聚類建模方法,有效進(jìn)行假冒領(lǐng)導(dǎo)詐騙電話的自動識別,可有針對性地指導(dǎo)接下來的詐騙電話細(xì)分。隨著詐騙場景的變化,可進(jìn)一步將聚類算法拓展運(yùn)用到例如網(wǎng)購詐騙、中獎詐騙等詐騙場景中[9-10]。
參考文獻(xiàn):
[1] 馬在鑫. 電信詐騙犯罪的形勢與對策[J]. 法制與社會, 2016(34): 58-59.
[2] 吳勇. 通信網(wǎng)絡(luò)詐騙犯罪現(xiàn)狀及情境預(yù)防探析[J]. 法制與社會, 2016(32): 268-269.
[3] 包瑯允,陽平,徐愛華. 通信信息詐騙防范解決方案探討[J]. 電信技術(shù), 2017(7): 59-63.
[4] 羅漢斌,薛崢. 基于大數(shù)據(jù)的通信信息詐騙治理模式研究[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2017(3): 71-76.
[5] 胡宗海,曹立勇,姚程寬. 數(shù)據(jù)挖掘聚類分析方法研究[J]. 科技廣場, 2017(3): 6-9.
[6] 施卓敏,孫健英,何曉濤. 基于兩步聚類分析方法的ARP系統(tǒng)用戶分析[J]. 計算機(jī)與現(xiàn)代化, 2014(3): 73-76.
[7] 李莉,梁帝炎,王進(jìn),等. 基于兩步聚類算法的社區(qū)蔬菜直銷點(diǎn)顧客滿意度分析[J]. 農(nóng)村經(jīng)濟(jì)與科技, 2013(9): 32-33.
[8] 楊美潔. 基于兩步聚類算法的高血壓電子病歷數(shù)據(jù)挖掘研究[J]. 醫(yī)學(xué)信息學(xué)雜志, 2016,37(12): 14-17.
[9] 吳珂,劉雅文. 如何識別電話詐騙[J]. 百姓生活, 2018(2): 43.
[10] 李銘. 電信防詐騙電話系統(tǒng)的運(yùn)用探討[J]. 信息通信, 2017(1): 245-246.