(中國(guó)移動(dòng)通信集團(tuán)上海有限公司,上海 200060)
基于大數(shù)據(jù)的通信信息詐騙治理模式研究
羅漢斌,薛崢
(中國(guó)移動(dòng)通信集團(tuán)上海有限公司,上海 200060)
鑒于當(dāng)前通信信息詐騙形勢(shì)嚴(yán)峻,需要提供行之有效的治理模式,通過建立基于大數(shù)據(jù)挖掘分析的治理平臺(tái),研究分析各類詐騙電話特征,建立有效的分析模型,實(shí)現(xiàn)對(duì)通信信息詐騙有效治理。
詐騙電話;號(hào)碼資源庫(kù);行為分析
近年來欺詐電話在整個(gè)騷擾詐騙類電話的比例逐年上升,且危害程度遠(yuǎn)遠(yuǎn)大于普通的騷擾電話。
根據(jù)互聯(lián)網(wǎng)公司、公安部門統(tǒng)計(jì)數(shù)據(jù)顯示2015年詐騙電話超過3億次,電信詐騙發(fā)案59萬余起,涉案金額222億元。境內(nèi)單案件平均損失為1.85萬元,境外案件平均損失為11.12萬元;跨境電話詐騙形式呈現(xiàn)案件數(shù)量快速增長(zhǎng),單案件平均損失大的趨勢(shì)。
2015年,上海因電信詐騙犯罪導(dǎo)致群眾經(jīng)濟(jì)損失15.1億元。全市共破獲電信詐騙案件4209起,同比上升64.8%;抓獲犯罪嫌疑人1393名,同比上升20.2%;搗毀平臺(tái)、窩點(diǎn)共計(jì)197個(gè),同比上升18.7%。但是,電信詐騙案的破案率和贓款追回率卻極低。
鑒于目前的形勢(shì),中國(guó)移動(dòng)上海公司項(xiàng)目組開展了基于大數(shù)據(jù)的通信信息詐騙治理模式研究與應(yīng)用試點(diǎn)工作,主要包括以下幾方面工作。
充分利用內(nèi)外部資源優(yōu)勢(shì),建立相關(guān)數(shù)據(jù)資源庫(kù),完善并豐富違規(guī)電話應(yīng)用場(chǎng)景,以用于違規(guī)電話建模及治理;圍繞違規(guī)電話治理,主要開展基于主被叫號(hào)碼的機(jī)器學(xué)習(xí)、以及基于被叫號(hào)碼的詐騙事件場(chǎng)景模型研究與試點(diǎn),并做好違規(guī)電話號(hào)碼的驗(yàn)證,以及可視化呈現(xiàn)等工作;梳理通信信息詐騙整體流程分析,基于海量信令數(shù)據(jù),結(jié)合公安、互聯(lián)網(wǎng)等相關(guān)數(shù)據(jù),實(shí)施等多環(huán)節(jié)聯(lián)動(dòng)分析。
為實(shí)現(xiàn)研究與試點(diǎn)工作的相關(guān)內(nèi)容,項(xiàng)目組制定了如下具體的項(xiàng)目目標(biāo):
建立完善敏感號(hào)碼庫(kù)及黑名單庫(kù),通過搜集整理分析,獲取并建立基于公檢法號(hào)碼、銀行客服、運(yùn)營(yíng)商客服、電商號(hào)碼的敏感號(hào)碼庫(kù),通過系統(tǒng)分析公安等反饋建立黑名單號(hào)碼庫(kù)。
欺詐電話識(shí)別提高精準(zhǔn)度,疑似欺詐電話識(shí)別如何驗(yàn)證,并通過驗(yàn)證的結(jié)果改進(jìn)識(shí)別方法和手段。同時(shí)分析定位出危害性高的欺詐電話作為重點(diǎn)打擊對(duì)象尤為必要。
理清欺詐流程,便于有效治理,欺詐分子在實(shí)施欺詐過程中,往往采用預(yù)先編輯好的欺詐劇本,逐步誘騙用戶上當(dāng),且劇本往往隨著外界事件環(huán)境變化和時(shí)間的推移而發(fā)生變化,需要采用有效的方法,識(shí)別出其欺詐流程,根據(jù)欺詐所發(fā)生的不同階段采用對(duì)應(yīng)的手段加以治理。
3.1 號(hào)碼資源庫(kù)研究
在各類欺詐電話中,仿冒類欺詐電話往往占有比較大的比例,且此類電話一旦用戶上當(dāng),往往損失慘重。在詐騙過程中,此類欺詐電話一般都會(huì)涉及到仿冒公安、銀行、客服的情況,因此針對(duì)此類號(hào)碼建立號(hào)碼資源庫(kù),對(duì)后續(xù)的數(shù)據(jù)分析會(huì)起到很大的幫助。項(xiàng)目組將號(hào)碼資源庫(kù)劃分為兩大類,分別是黑名單號(hào)碼庫(kù)以及敏感號(hào)碼庫(kù)。
3.1.1 黑名單庫(kù)
黑名單號(hào)碼是已經(jīng)經(jīng)過確認(rèn)存在欺詐呼叫行為的號(hào)碼。涉及仿冒各省市公安局、派出所號(hào)碼,仿冒各類電商、銀行、證券公司客服號(hào)碼,冒充各類警官、銀行工作人員等手機(jī)號(hào)碼。
3.1.1.1 特征及來源
黑名單號(hào)碼,包含各類已被確認(rèn)的欺詐號(hào)碼,同時(shí)根據(jù)黑名單號(hào)碼的危害程度,將黑名單號(hào)碼建立欺詐級(jí)別加以區(qū)分。黑名單號(hào)碼的認(rèn)定主要包括以下來源:公安提供的涉案號(hào)碼;互聯(lián)網(wǎng)公司確認(rèn)的涉及欺詐的號(hào)碼;系統(tǒng)識(shí)別并經(jīng)過公安反饋確認(rèn)的號(hào)碼。
3.1.1.2 黑名單號(hào)碼庫(kù)的優(yōu)缺點(diǎn)
通過對(duì)黑名單號(hào)碼庫(kù)在實(shí)際分析中的應(yīng)用,項(xiàng)目組發(fā)現(xiàn),黑名單號(hào)碼庫(kù)房具有明顯的優(yōu)缺點(diǎn)。
優(yōu)點(diǎn):識(shí)別效率高,僅需將待查信令數(shù)據(jù)與黑名單號(hào)碼進(jìn)行簡(jiǎn)單比對(duì),即可確認(rèn)是否為欺詐呼叫,操作簡(jiǎn)單;且一點(diǎn)號(hào)碼被標(biāo)記,對(duì)于假冒警察、銀行工作人員等有可能不具備其他欺詐特征的號(hào)碼也能高效識(shí)別。
缺點(diǎn)1:生命周期短,此類欺詐使用的主叫號(hào)碼一般生命周期都非常短,絕大部分欺詐號(hào)碼活躍周期較短,超過90%的號(hào)碼僅活躍1-5天,僅有個(gè)別號(hào)碼,其活躍周期達(dá)到10天以上。說明欺詐分子在實(shí)施欺詐的過程中,為了逃避管控,選擇在很短的時(shí)間內(nèi)更換號(hào)碼的的方式,因此高效的抓取號(hào)碼特征,可以迅速分析、有效篩出不斷變化的號(hào)碼。
缺點(diǎn)2:號(hào)碼容易變異,黑名單號(hào)碼庫(kù)目前主要包括兩大類,仿冒類號(hào)碼及普通的手機(jī)號(hào)碼,其中僅有用于冒充警官、銀行工作人員等等的手機(jī)號(hào)碼,基本不存在變異情況,其他仿冒類號(hào)碼很容易出現(xiàn)變異情況, 該號(hào)碼一旦變異,其黑名單號(hào)碼本身就失去了比對(duì)的意義。
鑒于上述缺點(diǎn)的存在,僅僅基于黑名單庫(kù)進(jìn)行號(hào)碼特征分析以及詐騙治理模式研究勢(shì)必存在很大的局限性,為解決這種局限性,項(xiàng)目組引入了敏感號(hào)碼庫(kù)做黑名單號(hào)碼庫(kù)的必要補(bǔ)充。
3.1.2 敏感號(hào)碼庫(kù)
3.1.2.1 敏感號(hào)碼庫(kù)建立的機(jī)制
項(xiàng)目組針對(duì)敏感號(hào)碼采用模糊匹配方式,通過此方法可有效的解決號(hào)碼變異快和生命周期短的問題。而實(shí)現(xiàn)模糊匹配的基礎(chǔ)即需要一個(gè)全面的基礎(chǔ)敏感號(hào)碼庫(kù)作為模糊匹配模板。
3.1.2.2 敏感號(hào)碼分類
為了便于后續(xù)模型建立,項(xiàng)目組將敏感號(hào)碼依據(jù)其特征,進(jìn)行分類,劃分為公檢法號(hào)碼類、金融號(hào)碼類、運(yùn)營(yíng)商號(hào)碼類、電商號(hào)碼類以及其他公眾號(hào)碼類等多個(gè)類型。
公檢法號(hào)碼:包括110、公安局、檢察院、法院、派出所等職能部門號(hào)碼。
金融號(hào)碼:包括各大銀行5位客服號(hào)碼,信用卡中心,證券基金公司等對(duì)外提供客戶服務(wù)的相關(guān)號(hào)碼。
運(yùn)營(yíng)商號(hào)碼:包括移動(dòng)、聯(lián)通、電信客服號(hào)碼、充值平臺(tái)號(hào)碼以及其他對(duì)外提供服務(wù)的相關(guān)號(hào)碼。
電商號(hào)碼:包括阿里、騰訊、京東等對(duì)外提供服務(wù)的號(hào)碼。
其他公眾號(hào)碼:包括社保、醫(yī)保、各類保險(xiǎn)公司、電力、燃?xì)獾认嚓P(guān)部門對(duì)外提供服務(wù)的號(hào)碼。
3.2 治理模型研究
3.2.1 基于敏感號(hào)碼庫(kù)的分析模型
3.2.1.1 模型建立依據(jù)
敏感號(hào)碼庫(kù)的模型主要應(yīng)用于主叫號(hào)碼變異,修改的情況,此類呼叫主叫號(hào)碼進(jìn)行了偽裝,顯示為(或接近)公檢法、客服等公眾號(hào)碼,使得被叫容易上當(dāng)受騙;為了躲避現(xiàn)網(wǎng)系統(tǒng)的防范,犯罪分子往往對(duì)相關(guān)號(hào)碼進(jìn)行修改與變異,增加其隱蔽性。為識(shí)別此類呼叫,項(xiàng)目組采用主叫號(hào)碼與敏感號(hào)碼及黑名單號(hào)碼庫(kù)模糊匹配的方式進(jìn)行識(shí)別。
3.2.1.2 基于敏感號(hào)碼庫(kù)的模糊匹配分析模型建立流程
該流程主要通過對(duì)信令數(shù)據(jù)中主被叫號(hào)碼與敏感號(hào)碼庫(kù)中的號(hào)碼進(jìn)行模糊匹配計(jì)算獲得匹配度,并根據(jù)匹配度確定號(hào)碼的欺詐可能性。具體匹配方式如下:
號(hào)碼匹配比對(duì):系統(tǒng)將呼叫記錄的主叫號(hào)碼分別與敏感號(hào)碼庫(kù)和黑名單號(hào)碼庫(kù)中的號(hào)碼進(jìn)行匹配。
匹配度計(jì)算:考慮到欺詐號(hào)碼的偽裝性及變異性,在進(jìn)行匹配時(shí)不是簡(jiǎn)單進(jìn)行全號(hào)碼匹配,而是對(duì)號(hào)碼進(jìn)行模糊匹配并進(jìn)行匹配度計(jì)算,對(duì)號(hào)碼相對(duì)應(yīng)的每一位的匹配程度進(jìn)行累加,匹配度越高的號(hào)碼,其欺詐可能性也越高。
變異度計(jì)算:對(duì)于個(gè)別號(hào)碼位置發(fā)生移位和變異的主叫號(hào)碼,也能夠標(biāo)記出來,即通過變異度匹配計(jì)算公式,計(jì)算出號(hào)碼的變異程度。
特征評(píng)估:根據(jù)匹配度及變異度建立號(hào)碼分級(jí),達(dá)到高匹配度的即認(rèn)為疑似欺詐號(hào)碼,因此通過此方法可以有效的識(shí)別出各類變異欺詐號(hào)碼,提供系統(tǒng)的準(zhǔn)確率和覆蓋率。
3.2.1.3 匹配度計(jì)算
模糊匹配模型準(zhǔn)確性的基礎(chǔ)是基于敏感號(hào)碼庫(kù)的匹配度計(jì)算,即通過公式算法計(jì)算出目標(biāo)號(hào)碼與敏感號(hào)碼的差異情況,作為是否為欺詐號(hào)碼的判別標(biāo)準(zhǔn)之一。
本次研究對(duì)于號(hào)碼匹配度計(jì)算主要運(yùn)用了以下算法。
Karp-Rabin(KR)算法:利用hash函數(shù)的特性進(jìn)行字符串匹配的。 KR算法對(duì)模式串和循環(huán)中每一次要匹配的子串按一定的hash函數(shù)求值,如果hash值相同,才進(jìn)一步比較這兩個(gè)串是否真正相等。
Horspool算法:將主串中匹配窗口的最后一個(gè)字符跟模式串中的最后一個(gè)字符比較。如果相等,繼續(xù)從后向前對(duì)主串和模式串進(jìn)行比較,直到完全相等或者在某個(gè)字符處不匹配為止(如圖1中的α與σ失配) 。如果不匹配,則根據(jù)主串匹配窗口中的最后一個(gè)字符β在模式串中的下一個(gè)出現(xiàn)位置將窗口向右移動(dòng)。
圖1 Horspool算法示意圖
基于以上匹配度算法,項(xiàng)目組確立了如下的匹配度范圍:
全匹配計(jì)算(高匹配) :判斷目標(biāo)號(hào)碼是否與敏感號(hào)碼所有位置完全匹配。
尾匹配計(jì)算(高匹配):判斷目標(biāo)號(hào)碼是否尾部與敏感號(hào)碼匹配,頭部不計(jì)算。
中間匹配計(jì)算(中匹配) :判斷目標(biāo)號(hào)碼是否中間部分與敏感號(hào)碼匹配,頭部和尾部不計(jì)算。
變異匹配計(jì)算(高匹配) :判斷目標(biāo)號(hào)碼是否通過去位可以與敏感號(hào)碼匹配。
變異+尾部匹配計(jì)算(中高匹配) :判斷目標(biāo)號(hào)碼尾部是否通過去位可以與敏感號(hào)碼匹配。
變異+中部匹配計(jì)算(中匹配) :判斷目標(biāo)號(hào)碼中部是否通過去位可以與敏感號(hào)碼匹配。
圖2為模糊化匹配示例。
3.2.2 基于欺詐流程的關(guān)聯(lián)度分析模型
3.2.2.1 模型建立依據(jù)
從海量系統(tǒng)數(shù)據(jù)分析以及公安相關(guān)報(bào)案涉案號(hào)碼上可以看出,欺詐電話基本都不是孤立存在的,在大量的電信詐騙案件中,往往一個(gè)被叫號(hào)碼(被騙用戶)會(huì)涉及到1個(gè)以上的主叫號(hào)碼(欺詐號(hào)碼),而這些欺詐號(hào)碼又會(huì)涉及到更多其他被叫號(hào)碼。
就詐騙流程上講,對(duì)公安報(bào)案數(shù)據(jù)進(jìn)行分析,一般涉及到“透支”、“洗錢”的詐騙,會(huì)遵循派出所、警官、銀行、警官等來電的流程;涉及到“快遞”、 “中獎(jiǎng)”的詐騙,會(huì)遵循快遞客服、電商、銀行等來電的流程,即詐騙過程涉及多次通話。因此,項(xiàng)目組判定詐騙電話基本不是孤立存在的,在大量的電信詐騙案件中,被害用戶在被騙過程中,一般都會(huì)涉及到多個(gè)主叫號(hào)碼(詐騙號(hào)碼)的呼入,而這些詐騙號(hào)碼又會(huì)扮演不同的“角色”。
圖2 模糊化匹配示例
此外,就詐騙者本身而言,也不會(huì)僅針對(duì)單個(gè)用戶進(jìn)行欺詐,而是采取廣撒網(wǎng)的方式,即同一個(gè)詐騙號(hào)碼會(huì)涉及多個(gè)被叫用戶。
鑒于圖3中展現(xiàn)的欺詐流程單一被叫(被騙用戶)涉及多個(gè)主叫號(hào)碼以及單一主叫(欺詐號(hào)碼)涉及多個(gè)被叫的特征,項(xiàng)目組認(rèn)為建立一套欺詐流程的關(guān)聯(lián)度分析模型尤為必要。其中,建模依據(jù)來自公安等反饋的案例信息以及海量數(shù)據(jù)分析形成的特征樣本。
3.2.2.2 欺詐流程關(guān)聯(lián)分析模型的建立流程
欺詐流程關(guān)聯(lián)分析模型的建立流程如下:
(1)被叫號(hào)碼呼叫提?。合到y(tǒng)根據(jù)模糊匹配模型篩選出對(duì)應(yīng)的被叫號(hào)碼,將該被叫號(hào)碼在周期內(nèi)全量呼叫信息從原始信令數(shù)據(jù)中提取處理;
(2) 呼叫關(guān)聯(lián)分析:通過聚類分析及交叉關(guān)聯(lián)分析關(guān)聯(lián)相關(guān)主叫號(hào)碼;
(3) 欺詐流程模型匹配:結(jié)合關(guān)聯(lián)后主叫號(hào)碼與欺詐流程模型進(jìn)行匹配;
(4) 關(guān)聯(lián)評(píng)估:根據(jù)匹配程度,判斷是否存在欺詐可能。
3.2.2.3 欺詐流程關(guān)聯(lián)分析算法FP增長(zhǎng)算法
欺詐流程關(guān)聯(lián)分析模型建立的關(guān)鍵是關(guān)聯(lián)分析,即如何從多樣的欺詐案例中查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。本次研究主要采用了FP增長(zhǎng)算法以實(shí)現(xiàn)相關(guān)需求。
FP增長(zhǎng)算法原理是將事務(wù)數(shù)據(jù)表中的各個(gè)事務(wù)數(shù)據(jù)項(xiàng)按照支持度排序后,把每個(gè)事務(wù)中的數(shù)據(jù)項(xiàng)按降序依次插入到一棵以NULL為根結(jié)點(diǎn)的樹中,同時(shí)在每個(gè)結(jié)點(diǎn)處記錄該結(jié)點(diǎn)出現(xiàn)的支持度。建立 FPTree樹之后,再遍歷整棵樹獲取滿足一定置信度的關(guān)聯(lián)規(guī)則。
在實(shí)際建模過程中,項(xiàng)目組將大量欺詐案例作為分析事務(wù),并根據(jù)涉案內(nèi)容將類似案件劃分相同的事務(wù)集合,同時(shí)將涉案環(huán)節(jié)提取出作為事務(wù)項(xiàng),利用算法,計(jì)算支持度和置信度,從而發(fā)掘頻繁項(xiàng)集。
圖3 詐騙流程示例
3.2.2.4 欺詐流程關(guān)聯(lián)算法(聚類算法) k-means算法
通過對(duì)大量欺詐電話大數(shù)據(jù)分析研究發(fā)現(xiàn),欺詐電話在行為上往往具備其獨(dú)有的特征,通過聚類分析方法可以抽象出其同質(zhì)性及區(qū)別與普通呼叫的異質(zhì)性,從而獲得欺詐電話的特征性描述。
k-means算法原理:接受輸入量k;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類以便使得所獲得的聚類滿足:同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”(引力中心)來進(jìn)行計(jì)算的。
k-means 算法基本步驟如下:
(1) 從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;
(2) 根據(jù)每個(gè)聚類對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;
(3) 重新計(jì)算每個(gè)(有變化)聚類的均值(中心對(duì)象);
(4) 計(jì)算標(biāo)準(zhǔn)測(cè)度函數(shù),當(dāng)滿足一定條件,如函數(shù)收斂時(shí),則算法終止;如果條件不滿足則回到步驟(2)。
項(xiàng)目組提取了主叫號(hào)碼原始信令數(shù)據(jù)集合X1-Xn的相關(guān)屬性C(振鈴時(shí)長(zhǎng),撥打時(shí)間,呼叫間隔,被叫號(hào)碼特征,呼叫頻次,通話時(shí)長(zhǎng)等指標(biāo)),從中提取質(zhì)心,并計(jì)算各主叫號(hào)我們提取到原始數(shù)據(jù)的集合為碼屬性相異度,重復(fù)該步驟直至聚類結(jié)果不在發(fā)生變化。由此可以得出欺詐呼叫區(qū)別于其他呼叫的行為特征。
圖4 k-means 算法示例
3.2.3 基于各模型的組合處理提高分析精準(zhǔn)性
上述所建立的各類分析模型并不是孤立存在,而是相互關(guān)聯(lián),彼此組合,在完成建模的基礎(chǔ)上,項(xiàng)目組通過各模型間的組合處理,有效提高了數(shù)據(jù)篩選的準(zhǔn)確性。
對(duì)各類模型篩選出的黑名單號(hào)碼或欺詐號(hào)碼進(jìn)行統(tǒng)計(jì)學(xué)統(tǒng)計(jì)預(yù)測(cè)分析,可獲得此類號(hào)碼呼叫中統(tǒng)計(jì)學(xué)特征,并且由于號(hào)碼的不斷更新,此類特征可準(zhǔn)實(shí)時(shí)反映現(xiàn)網(wǎng)實(shí)際情況,可有效分析出更多欺詐呼叫。
此外,根據(jù)聚類分析算法,如圖5所示,在篩選出疑似被騙用戶的同時(shí),還可根據(jù)對(duì)關(guān)鍵事件的綜合判斷,確定被騙用戶的級(jí)別,即高危用戶(深度詐騙:即該用戶被詐騙的可能性極大,很可能馬上或已經(jīng)造成了財(cái)產(chǎn)損失)、中低危險(xiǎn)用戶(淺度詐騙:即該用戶可能僅僅是接到過詐騙電話,目前被騙并造成財(cái)產(chǎn)損失的可能性不大,但不排除后續(xù)隨著詐騙流程推進(jìn),受騙上當(dāng)?shù)目赡埽?/p>
3.3 總體分析流程
結(jié)合上述的分析方法項(xiàng)目組建立了一套有效的數(shù)據(jù)分析模型體系,其處理流程如下:
針對(duì)單一的呼叫記錄,進(jìn)行號(hào)碼特征分析(模糊匹配分析)計(jì)算該呼叫的敏感號(hào)碼或黑名單號(hào)碼匹配度;
若屬于高匹配度呼叫,則本別針對(duì)主被叫號(hào)碼建立關(guān)聯(lián)索引表,尋找與主被叫號(hào)碼相關(guān)聯(lián)的其他呼叫;
對(duì)關(guān)聯(lián)后的呼叫中的主叫號(hào)碼進(jìn)行主叫呼叫行為分析及號(hào)碼匹配分析,并標(biāo)記出疑似號(hào)碼;
對(duì)關(guān)聯(lián)后的呼叫中的被叫號(hào)碼進(jìn)行被叫呼叫行為分析,并標(biāo)記是否為高危被叫號(hào)碼;
完成以上流程,標(biāo)記并輸出疑似欺詐呼叫、疑似欺詐號(hào)碼、疑似高危被叫號(hào)碼,同時(shí)完成號(hào)碼去重。
相關(guān)流程示例見圖6所示。
為了驗(yàn)證研究模型的準(zhǔn)確性,目前項(xiàng)目組已在上海移動(dòng)開展了欺詐電話分析系統(tǒng)試點(diǎn),其中原始數(shù)據(jù)主要采集了信令監(jiān)控系統(tǒng)獲取的呼叫事件信令,結(jié)合從上海公安、互聯(lián)網(wǎng)公司等相關(guān)數(shù)據(jù)進(jìn)行系統(tǒng)分析。
通過數(shù)據(jù)分析模型的運(yùn)行,每日可輸出疑似欺詐呼叫、疑似高危用戶號(hào)碼及相關(guān)報(bào)表。同時(shí)向上海公安提供疑似高危用戶號(hào)碼及呼叫列表,并獲取上海公安反饋結(jié)果。
圖5 聚類分析算法示例
圖6 試點(diǎn)組網(wǎng)示例
4.1 試點(diǎn)組網(wǎng)
試點(diǎn)系統(tǒng)由采集服務(wù)器,挖掘分析服務(wù)器,Web/數(shù)據(jù)呈現(xiàn)服務(wù)器及用支持服務(wù)平臺(tái)等幾部分組成,如圖6所示。
4.2 數(shù)據(jù)準(zhǔn)備
為保證治理模式研究的準(zhǔn)確性,數(shù)據(jù)準(zhǔn)備階段需要做到數(shù)據(jù)全面、準(zhǔn)確,因此本次研究收集了多方面的數(shù)據(jù)作為研究基礎(chǔ),并對(duì)數(shù)據(jù)做了必要的有效性篩選和規(guī)整。
4.2.1 數(shù)據(jù)來源
數(shù)據(jù)來源主要考慮包括以下內(nèi)容:
從信令監(jiān)控系統(tǒng)獲取的A口呼叫事件信令;從省公司采集互聯(lián)互通關(guān)口局呼叫事件信令;從公安獲取的黑名單數(shù)據(jù);互聯(lián)網(wǎng)數(shù)據(jù);敏感號(hào)碼庫(kù);黑名單庫(kù)。
4.2.2 信令數(shù)據(jù)采集
原始信令數(shù)據(jù)經(jīng)過數(shù)據(jù)采集器,傳輸?shù)讲杉?wù)器,通過過濾、篩選、規(guī)整、合成、輸出統(tǒng)一格式數(shù)據(jù)表表單。
4.3 階段成果
根據(jù)上海公安反饋,2016年5-7月上海境內(nèi)詐騙案件數(shù)量同比下降12.1%, 冒充公檢法號(hào)碼詐騙案件同比下降47.2%,案值同比下降34.9%。
防范打擊通訊信息詐騙是一項(xiàng)系統(tǒng)性、持續(xù)性的工程,基于前期成果,后續(xù)本項(xiàng)目將繼續(xù)不斷充實(shí)號(hào)碼資源庫(kù),并持續(xù)完善詐騙流程模型,繼續(xù)分析整理相關(guān)案例,完善已有詐騙流程關(guān)聯(lián)模型,不斷發(fā)掘新的詐騙流程并建立相關(guān)模型,以期進(jìn)一步提升疑似詐騙通話的識(shí)別率。
Research on the management mode of communication information fraud based on big data
LUO Han-bin, XUE Zheng
(China Moblie Group Design Institute Co., Ltd. Shanghai Branch, Shanghai 200060, China)
View of the current form of communication information fraud is serious, need to provide effective governance model, based on the analysis of large data mining management platform, research and analysis of various types of telephone fraud characteristics, establish the analysis model effectively, realize the effective governance of telecommunications fraud information.
telephone fraud; number library; behavior analysis
TN929.5
A
1008-5599(2017)03-0071-06
2016-11-24