王薇鈉 盧忠渭 張堅(jiān) 吳俊 王振東
(中國(guó)電信股份有限公司杭州分公司 浙江省杭州市 310005)
隨著電信詐騙犯罪形式的逐年遞增,公安系統(tǒng)也逐漸開(kāi)始完善其大數(shù)據(jù)發(fā)展戰(zhàn)略,綜合打造核心的互聯(lián)網(wǎng)信息綜合平臺(tái),從政策分離到后期的信息鏈接,再到最后的大數(shù)據(jù)增強(qiáng)過(guò)程,都對(duì)案件的詐騙過(guò)程綜合整理過(guò)程做出了具有建設(shè)意義的貢獻(xiàn)。通過(guò)大數(shù)據(jù)技術(shù)開(kāi)展電信詐騙的偵查工作能夠適應(yīng)和應(yīng)對(duì)時(shí)代的快速發(fā)展需求,通過(guò)技術(shù)處理、深度挖掘以及項(xiàng)目偵查的過(guò)程能夠有效的預(yù)防和打擊違法犯罪活動(dòng),刑偵業(yè)務(wù)和信息技術(shù)的深度融合成為了刑偵部門提升核心戰(zhàn)斗力的核心關(guān)鍵。
電信詐騙過(guò)程主要是基于通信技術(shù)和信息化技術(shù)開(kāi)展而來(lái),在信息技術(shù)不斷更迭的背景下,很多學(xué)者也結(jié)合著社會(huì)目前的現(xiàn)狀對(duì)電信詐騙進(jìn)行概念界定。其主要內(nèi)容是指犯罪嫌疑人為了非法獲得相關(guān)財(cái)務(wù),通過(guò)電話、短信以及網(wǎng)絡(luò)等方式向被害人傳遞虛假信息的過(guò)程,由此來(lái)誘導(dǎo)被害人主動(dòng)交出財(cái)務(wù)的詐騙行為。
隨著電信詐騙案件的頻發(fā),犯罪人員在功能組成、手段模式以及犯罪類型上呈現(xiàn)出一種多元化的犯罪模式,同時(shí)也存在一些的共性特征。
(1)案件涉及人員數(shù)量多,涉及金額較大。電信詐騙的案件通常關(guān)聯(lián)到諸多的犯罪人員,這是典型的經(jīng)濟(jì)詐騙過(guò)程,大多數(shù)采用的都是團(tuán)體作案的形式,人員分工較為密切,不僅涵蓋各類技術(shù)部門,同時(shí)在各類的系統(tǒng)維護(hù)以及后勤保障上都有一定的維護(hù)過(guò)程和功能。
(2)受眾群體逐漸趨向于年輕化發(fā)展,從受害者的角度來(lái)說(shuō),電信詐騙的過(guò)程往往是通過(guò)“廣泛撒網(wǎng)”的技術(shù)手段進(jìn)行詐騙,通過(guò)在某一段時(shí)間內(nèi)或者是某一地區(qū)內(nèi)進(jìn)行密集的電話和短信傳播過(guò)程來(lái)實(shí)現(xiàn)基本的網(wǎng)絡(luò)傳播活動(dòng),導(dǎo)致受害者涵蓋社會(huì)發(fā)展的各個(gè)階層,波及面域較廣,同時(shí)社會(huì)影響較為惡劣。對(duì)于基本防范意識(shí)較為薄弱的人來(lái)說(shuō)很容易會(huì)上當(dāng)受騙,部分年輕群體社會(huì)經(jīng)驗(yàn)較為不足,對(duì)電信詐騙的基本防范意識(shí)較為薄弱,成為被騙群體的高發(fā)人群。
(3)職業(yè)化和地域化的發(fā)展特點(diǎn)較為突出。從案件偵破的角度來(lái)說(shuō),電信詐騙的犯罪行為逐漸趨向于是職業(yè)化和地域化的范疇之中,這類犯罪的過(guò)程具有著非正面接觸并且隱蔽性較強(qiáng)的特點(diǎn),同時(shí)犯罪的周期也較短,涉及到的案件金額較大,犯罪成本較低的特點(diǎn)。進(jìn)而逐漸形成了職業(yè)化甚至是地域產(chǎn)業(yè)化的形式。
(4)詐騙的類型和形式較為多樣化,涉案人員通過(guò)偽造身份以及設(shè)定假活動(dòng)等形式來(lái)誘導(dǎo)受害者,并且詐騙手法緊緊抓住受害者的心理活動(dòng)和時(shí)代熱點(diǎn),流動(dòng)性和機(jī)動(dòng)性較大,為辦案人員帶來(lái)了巨大的辦案難度。
(5)偵查的取證過(guò)程較難,信息數(shù)據(jù)流動(dòng)過(guò)大,導(dǎo)致案件的實(shí)際可操作性不強(qiáng),目前電信詐騙的案件取證過(guò)程主要集中信息流的調(diào)配以及資金流的查明等環(huán)節(jié)上,在網(wǎng)絡(luò)空間的形式案件中,電信詐騙所遺留的信息痕跡和信息種類類型較多,各個(gè)證據(jù)和信息流之間有著較為密切的關(guān)系,關(guān)系網(wǎng)較為復(fù)雜,對(duì)傳統(tǒng)辦案人員的關(guān)聯(lián)性思維要求較高,進(jìn)而導(dǎo)致證據(jù)的收集過(guò)程和收集途徑較小,實(shí)際的可操作性不強(qiáng)。
目前針對(duì)電信詐騙的號(hào)卡治理主要是基于名單庫(kù)和業(yè)務(wù)規(guī)則兩種方式進(jìn)行研判。第一種通過(guò)黑白名單機(jī)制進(jìn)行號(hào)卡過(guò)濾的方法,其有效性主要依賴于名單庫(kù)的實(shí)效。常用的黑白名單數(shù)據(jù)來(lái)源包括并不限于公安部門涉案通報(bào)、用戶舉報(bào)等。這類名單庫(kù)通常是在事后再進(jìn)入系統(tǒng),研判的實(shí)效性和涉詐號(hào)卡捕獲的全面性都有明顯的短板。另一種是基于歷史黑名單進(jìn)行業(yè)務(wù)數(shù)據(jù)分析,提煉出地域?qū)傩?、頻次屬性等的強(qiáng)業(yè)務(wù)規(guī)則,這類業(yè)務(wù)規(guī)則的研判方式都充分依賴于專家經(jīng)驗(yàn),存在著維護(hù)困難、攔截準(zhǔn)確率不可預(yù)估等問(wèn)題。
同時(shí)在市場(chǎng)化的應(yīng)用進(jìn)程中還有一類相關(guān)反詐平臺(tái),為受騙高危人群提供了自動(dòng)呼入勸阻、預(yù)警電話服務(wù)。這類平臺(tái)的應(yīng)用進(jìn)程主要是從受害人預(yù)警機(jī)制出發(fā),從底層架構(gòu)上減少民眾的受騙概率,對(duì)此系統(tǒng)的設(shè)計(jì)需要關(guān)鍵解決詐騙電話的源頭進(jìn)行綜合識(shí)別,綜合預(yù)測(cè)不同種類的問(wèn)題。
考慮到上述現(xiàn)狀方案的劣勢(shì),在系統(tǒng)的設(shè)計(jì)過(guò)程中綜合應(yīng)用了數(shù)據(jù)挖掘和大數(shù)據(jù)分析的相關(guān)方法,提出了基于話務(wù)數(shù)據(jù)的準(zhǔn)實(shí)時(shí)詐騙電話識(shí)別模式,改進(jìn)了現(xiàn)有詐騙電話研判方案當(dāng)中所存在的延時(shí)性高、精準(zhǔn)度低等問(wèn)題。此外,提供一種大數(shù)據(jù)反詐分析管控系統(tǒng),為通信運(yùn)營(yíng)商搭建反詐管理平臺(tái)、實(shí)現(xiàn)反詐工作的智能化運(yùn)營(yíng)和管理等過(guò)程提供了一套切實(shí)可行的建設(shè)方案。最后對(duì)于系統(tǒng)方案和歷史方案設(shè)計(jì)過(guò)程進(jìn)行對(duì)照組實(shí)驗(yàn),綜合評(píng)判模型的真實(shí)實(shí)驗(yàn)結(jié)果,驗(yàn)證了方案設(shè)計(jì)的合理性,提升詐騙電話治理的時(shí)效性、精準(zhǔn)性。
相比于傳統(tǒng)的名單規(guī)則事后處置過(guò)程,設(shè)計(jì)的反詐系統(tǒng)能夠?yàn)橛脩籼峁┰p騙電話的事前攔截服務(wù),有利于提升通信運(yùn)營(yíng)商的服務(wù)水平、服務(wù)質(zhì)量以及用戶滿意度。另一方面,作為運(yùn)營(yíng)商設(shè)計(jì)和落地智能化的涉詐電話卡話務(wù)行為分析和識(shí)別方案,可直接提升網(wǎng)內(nèi)反詐管控工作的成效、提升防范打擊治理效能,承擔(dān)了凈化通信網(wǎng)絡(luò)環(huán)境的社會(huì)責(zé)任。
整體實(shí)時(shí)數(shù)據(jù)的實(shí)現(xiàn)流程進(jìn)行綜合評(píng)析時(shí),數(shù)據(jù)的分類形式涵蓋“離線數(shù)據(jù)”以及“近實(shí)時(shí)”數(shù)據(jù)兩種主要數(shù)據(jù)類型,依據(jù)數(shù)據(jù)的不同種類進(jìn)行分別的數(shù)據(jù)處理,數(shù)據(jù)處理過(guò)程如圖1所示。
圖1:實(shí)時(shí)預(yù)測(cè)的實(shí)現(xiàn)流程
同時(shí)對(duì)涉詐號(hào)碼的實(shí)時(shí)識(shí)別控制系統(tǒng)進(jìn)行綜合設(shè)計(jì),涵蓋特征抽取器以及模型訓(xùn)練等過(guò)程,其識(shí)別方法如圖2所示。
圖2:準(zhǔn)實(shí)時(shí)詐騙電話識(shí)別方法
對(duì)此具體的實(shí)施過(guò)程和方法步驟主要涵蓋:
步驟1:有效樣本篩選
為了減少計(jì)算特征的時(shí)間消耗以及減輕數(shù)據(jù)樣本不均衡的情況,通過(guò)屬性關(guān)聯(lián)挖掘社區(qū)發(fā)現(xiàn)(community detection),專家咨詢等手段初始篩選出欺詐樣本占比更高的樣本子集,在此基礎(chǔ)上進(jìn)行后續(xù)計(jì)算步驟。
步驟2:特征計(jì)算
上述數(shù)據(jù)按照手機(jī)號(hào)碼歸并,數(shù)據(jù)每小時(shí)進(jìn)行離線計(jì)算得到多維特征,并將多維特征進(jìn)行行為融合,生成候選特征矩陣X,用于后續(xù)步驟的模型訓(xùn)練和預(yù)測(cè)。
步驟3:模型訓(xùn)練
將步驟【2】計(jì)算的特征,分成K組(K-Fold),將每個(gè)子集數(shù)據(jù)分別做一次驗(yàn)證集,其余的K-1組子集數(shù)據(jù)作為訓(xùn)練集,使用隨機(jī)森林算法進(jìn)行模型訓(xùn)練,隨機(jī)森林是是將多個(gè)決策樹(shù)的結(jié)果進(jìn)行集成,每棵樹(shù)都隨機(jī)選取部分?jǐn)?shù)量的特征以及部分?jǐn)?shù)量的特征屬性進(jìn)行決策,最終結(jié)果由多顆決策樹(shù)投票產(chǎn)生。該模型根據(jù)softmax損失函數(shù)對(duì)于模型參數(shù)進(jìn)行優(yōu)化,使得最終對(duì)于訓(xùn)練數(shù)據(jù)的預(yù)測(cè)結(jié)果與所提供的標(biāo)簽差異最小。
步驟4:調(diào)參及評(píng)估
使用precision,recall,F(xiàn)1score等多個(gè)評(píng)價(jià)指標(biāo)對(duì)步驟【3】模型預(yù)測(cè)結(jié)果進(jìn)行評(píng)估,模型輸入的特征由不同類型的特征組成特征候數(shù)據(jù)集,{X1,X2,X3,X4}多種類型特征組合并輸入到模型當(dāng)中,并使用網(wǎng)格搜索,隨機(jī)搜索等超參數(shù)搜索方法進(jìn)行模型參數(shù)優(yōu)化,和特征篩選。并將訓(xùn)練完成模型文件輸出PMML文件保存,用于預(yù)測(cè)。
步驟5:模型結(jié)果預(yù)測(cè)
將新增號(hào)碼及特征輸入已訓(xùn)練的模型,得到該目標(biāo)為異常的預(yù)測(cè)概率P,根據(jù)概率P與閾值對(duì)于目標(biāo)進(jìn)行風(fēng)險(xiǎn)類別判斷。為增強(qiáng)模型的可解釋性,利于前線運(yùn)營(yíng)人員排查原因,本系統(tǒng)利用eli5工具計(jì)算得到各特征的貢獻(xiàn)度,通過(guò)貢獻(xiàn)度可以有效提煉目標(biāo)異常的特征以及判定原因,并有助于專家進(jìn)行進(jìn)一步地解讀。
本文以異常漫游涉詐場(chǎng)景為例,重點(diǎn)闡述了系統(tǒng)準(zhǔn)實(shí)時(shí)詐騙電話識(shí)別方法在該模式下的實(shí)施步驟和實(shí)驗(yàn)結(jié)果,實(shí)施流程為:
首先需要解決涉詐號(hào)碼檢測(cè)問(wèn)題中通常存在的不均衡樣本問(wèn)題,即:正負(fù)樣本比例差別很大,原始數(shù)據(jù)中的正常用戶占比要遠(yuǎn)高于涉詐樣本占比,不均衡樣本處理的好壞也會(huì)直接影響到檢測(cè)效果。機(jī)器學(xué)習(xí)方法論中有豐富的數(shù)據(jù)采樣方法進(jìn)行樣本處理,算法層面也有諸多對(duì)損失函數(shù)的優(yōu)化方法來(lái)彌補(bǔ)數(shù)據(jù)的不均衡。同時(shí)還要在系統(tǒng)的設(shè)計(jì)過(guò)程中提供基于業(yè)務(wù)層面的樣本篩選方法,初始篩選出欺詐樣本占比更高的樣本子集,在此基礎(chǔ)上進(jìn)行模型訓(xùn)練。一來(lái)減少了模型訓(xùn)練的資源消耗,二來(lái)將原始數(shù)據(jù)的極度不均衡樣本問(wèn)題轉(zhuǎn)化為了樣本子集的輕度不均衡、減少了數(shù)據(jù)處理難度。
通過(guò)話單數(shù)據(jù)的探索性分析發(fā)現(xiàn),語(yǔ)音和流量活動(dòng)的沉默周期、活躍周期在正常用戶和涉詐用戶之間的分布差異較大。語(yǔ)音沉默周期為一個(gè)月到兩個(gè)月之間,涉詐用戶的占比是正常用戶占比的1.98倍。類似的,流量沉默周期為14天到1個(gè)月之間,涉詐用戶的占比是正常用戶占比的1.2倍。
按照連續(xù)活躍天數(shù)來(lái)定義活躍周期,按照詐騙電話號(hào)碼從進(jìn)入活躍狀態(tài),到暫時(shí)停止連續(xù)活躍之間的天數(shù)計(jì)算活躍周期。詐騙號(hào)碼的活躍周期明顯小于正常號(hào)碼。82.4%的詐騙號(hào)碼最長(zhǎng)連續(xù)活躍天數(shù)不超過(guò)7天,94.0%的詐騙號(hào)碼最長(zhǎng)連續(xù)活躍天數(shù)不超過(guò)30天;而僅7.25%的正常號(hào)碼最長(zhǎng)連續(xù)活躍天數(shù)較低,不超過(guò)7天,有62.88%的正常號(hào)碼連續(xù)活躍天數(shù)都超過(guò)了30天。
由此,樣本篩選上采用語(yǔ)音沉默30天或流量沉默14天或連續(xù)活躍天數(shù)不超過(guò)7天來(lái)篩選出待預(yù)測(cè)的疑似涉詐用戶。負(fù)樣本占比從千分之一擴(kuò)展到了20%以上,樣本不均衡性明顯減弱,且根據(jù)過(guò)去12個(gè)月的歷史數(shù)據(jù)驗(yàn)證,篩選掉的均為正樣本。
首先,分別根據(jù)通話、短信、流量、地域四個(gè)維度進(jìn)行用戶畫(huà)像提取特征,再分別基于目標(biāo)變量進(jìn)行特征篩選和模型訓(xùn)練。通話特征主要反映通話頻次和行為,包括:每3小時(shí)主被叫通話次數(shù)、每1小時(shí)主被叫通話次數(shù)、每日主被叫通話次數(shù)、每日主被叫應(yīng)答時(shí)長(zhǎng)的統(tǒng)計(jì)指標(biāo)等,共20維特征。短信特征主要反映短信頻次和行為,包括:每3小時(shí)發(fā)送/接收短信次數(shù)、每1小時(shí)發(fā)送/接收短信次數(shù)、每日發(fā)送/接收短信次數(shù)等,共7維特征。流量特征主要反映流量使用行為,包括:每日上下行流量的活躍時(shí)長(zhǎng)、流量持續(xù)活躍時(shí)長(zhǎng),流量活躍的基站數(shù)量等,共9維特征。地域特征主要反映跨地區(qū)的話單活躍行為,包括:主叫號(hào)碼基站離散度、被叫號(hào)碼基站離散度、單日漫游主叫的次數(shù)等特征等,共21維特征。
其次,在多維度融合模型中,還加入了同時(shí)考慮兩方面數(shù)據(jù)合理性的跨維度特征,包括:通話、短信、流量活躍天數(shù)的一致性,通話漫游、短信、流量漫游地的一致性,共6維特征。
隨機(jī)森林算法是一種基于boosting的集成樹(shù)算法,是解決監(jiān)督問(wèn)題的高效算法之一?;陔S機(jī)篩選樣本、特征的原理,隨機(jī)森林算法的計(jì)算效率更高。基于集成算法的多數(shù)投票原理,節(jié)約了對(duì)數(shù)據(jù)進(jìn)行WOE分箱的前處理步驟,預(yù)測(cè)結(jié)果也保持穩(wěn)定。隨機(jī)森林算法的訓(xùn)練分為兩個(gè)步驟:基于學(xué)習(xí)器的生成和基于學(xué)習(xí)器的集成。
本發(fā)明中基學(xué)習(xí)器的生成為訓(xùn)練決策樹(shù)模型的過(guò)程,采用訓(xùn)練CART樹(shù)的方法。其結(jié)點(diǎn)劃分值所依據(jù)的損失函數(shù)的表達(dá)式為如下的基尼系數(shù),表示從樣本中有放回的抽取兩個(gè)樣本,類別不同的概率。
使用樣本訓(xùn)練CART樹(shù),其中的基尼系數(shù)可以表示為:
機(jī)器學(xué)習(xí)器的集成方法有多種,不同的集成方法構(gòu)成不同的算法。隨機(jī)森林算法的集成方法為Bagging,采用抽樣、投票形式進(jìn)行多個(gè)學(xué)習(xí)器分類結(jié)果的加權(quán)平均組合。假如特征空間共有D個(gè)特征,從D個(gè)特征中隨機(jī)選擇其中的d個(gè)特征(d 采用pmml文件形式進(jìn)行模型參數(shù)固化和存儲(chǔ)。提煉特征貢獻(xiàn)度前3的重要特征,進(jìn)行模型結(jié)果解讀,重要特征在涉詐號(hào)碼和正常號(hào)碼人群中的特征值分布差異明顯。驗(yàn)證模型具有良好的數(shù)據(jù)處理效果。為了增加機(jī)器學(xué)習(xí)模型的可解釋性,便于前線運(yùn)營(yíng)人員排查單個(gè)樣本的被識(shí)別原因,采用了Eli5算法進(jìn)行黑箱模型的預(yù)測(cè)解釋。由于入模的特征維度多、不同詐騙團(tuán)伙的異常表現(xiàn)不同,不同的樣本被判定為負(fù)樣本的原因不同。通過(guò)最強(qiáng)貢獻(xiàn)度標(biāo)簽,可以直觀的了解該樣本相比于其他白樣本的主要異常點(diǎn)。按特征貢獻(xiàn)度倒序排列,貢獻(xiàn)度前幾的特征,為影響樣本分類結(jié)果的主要特征。由此,對(duì)每個(gè)預(yù)測(cè)樣本,都可以輸出對(duì)應(yīng)預(yù)測(cè)標(biāo)簽的一個(gè)或多個(gè)最強(qiáng)貢獻(xiàn)度特征。 近年來(lái),移動(dòng)數(shù)據(jù)通訊領(lǐng)域內(nèi)的詐騙活動(dòng)較為嚴(yán)重,雖然在各個(gè)層面上都開(kāi)展了相關(guān)的解決和預(yù)防措施,但是未從根本途徑上解決詐騙問(wèn)題。數(shù)據(jù)挖掘及其相關(guān)技術(shù)為解決電話詐騙提供了全新的解決思路和技術(shù)方案,專門針對(duì)運(yùn)營(yíng)商的話務(wù)業(yè)務(wù)進(jìn)行反欺詐風(fēng)險(xiǎn)識(shí)別,涉及了基于話務(wù)行為的詐騙電話識(shí)別方法和反詐管控平臺(tái)的系統(tǒng)設(shè)計(jì)。有效的將數(shù)據(jù)信息和通訊過(guò)程部署在數(shù)據(jù)鏈條當(dāng)中,在保證了用戶基本數(shù)據(jù)安全的基礎(chǔ)上,杜絕了危險(xiǎn)數(shù)據(jù)信息的傳輸過(guò)程,建立了良好的通信過(guò)程,防止騷擾和詐騙事件的發(fā)生。但是本文設(shè)計(jì)的相關(guān)系統(tǒng)和算法還存在著許多挑戰(zhàn),主要涵蓋算法本身的局限性以及二者結(jié)合之后的制約因素,這些都需要在不斷完善去中心化操作后才能夠促進(jìn)整個(gè)系統(tǒng)完整運(yùn)行,這些都會(huì)為監(jiān)管過(guò)程帶來(lái)一定的挑戰(zhàn),同時(shí)這也是未來(lái)系統(tǒng)設(shè)計(jì)和優(yōu)化的重點(diǎn)所在。5 結(jié)語(yǔ)