張瑾
摘要:移動(dòng)通信的快速發(fā)展為人們帶來(lái)了便利,同時(shí)也伴隨著商業(yè)目的的營(yíng)銷(xiāo)甚至一些非法信息的傳播,導(dǎo)致騷擾電話的泛濫。騷擾電話已成為用戶投訴電信運(yùn)營(yíng)商的重要原因之一,也對(duì)通信設(shè)備的負(fù)荷造成了重大影響。本文通過(guò)對(duì)用戶通話行為特征進(jìn)行分析,從運(yùn)營(yíng)商數(shù)據(jù)中提取了包含傳統(tǒng)特征的多維融合特征,如平均通話距離、外賣(mài)時(shí)間占比、物理位置變化率等生成騷擾電話識(shí)別模型,有效地識(shí)別了騷擾電話,同時(shí)降低了快遞外賣(mài)以及一些社區(qū)醫(yī)院、水站等符合社區(qū)居民利益的正常電話的誤檢測(cè)率,并通過(guò)投訴數(shù)據(jù)和實(shí)際檢測(cè)結(jié)果不斷優(yōu)化已有模型,提高識(shí)別準(zhǔn)確率。
關(guān)鍵詞:騷擾電話;運(yùn)營(yíng)商數(shù)據(jù);通話行為特征
Abstract: The rapid development of mobile communications has brought convenience to people, accompanied by marketing for commercial purposes and even the spread of some illegal information. The proliferation of harassing calls has become one of the important reasons for users to complain to telecom operators, and has also caused a significant impact on the load of communication equipment.This article analyzes user call behavior features and extracts multi-dimensional fusion features including traditional features from operator data, such as average call distance, take-out time ratio, and physical location change rate to generate harassing phone recognition models. It reduces the false detection rate of delivery and some normal calls such as community hospitals and water stations, and optimizes existing strategies through complaint data.
Keywords: harassing calls; mobile operator data; call behavioral feature
1 引言
隨著移動(dòng)通信業(yè)務(wù)不斷發(fā)展,移動(dòng)通信在給人們帶來(lái)了便利的同時(shí),也使一些人為了商業(yè)目的而進(jìn)行電話營(yíng)銷(xiāo)、騷擾。其中騷擾電話的泛濫已成為用戶投訴電信運(yùn)營(yíng)商的重要原因之一,也對(duì)通信網(wǎng)絡(luò)設(shè)備的負(fù)荷造成了重大影響[2]。2018年7月30日,工信部等13個(gè)部門(mén)聯(lián)合發(fā)布《綜合整治騷擾電話專(zhuān)項(xiàng)行動(dòng)方案》的通知,通知里提出,即將在全國(guó)范圍內(nèi)嚴(yán)厲整治騷擾電話亂象。
本文首先通過(guò)對(duì)運(yùn)營(yíng)商信令數(shù)據(jù)和話單數(shù)據(jù)進(jìn)行分析,得出典型場(chǎng)景下的騷擾電話的通話行為特征。然后通過(guò)大數(shù)據(jù)技術(shù)[4],對(duì)運(yùn)營(yíng)商的信令監(jiān)測(cè)數(shù)據(jù)進(jìn)行計(jì)算,得出每個(gè)用戶的通話行為特征值,生成騷擾電話識(shí)別模型,經(jīng)過(guò)識(shí)別模型的過(guò)濾,得出疑似騷擾電話號(hào)碼。最后通過(guò)投訴數(shù)據(jù)調(diào)整模型閾值,進(jìn)一步優(yōu)化模型的準(zhǔn)確性。
2 騷擾電話行為特征分析
2.1 通話行為特征概括
騷擾電話由于其特殊的目的,與正常呼叫電話的通話行為上存在比較明顯的區(qū)別。經(jīng)過(guò)調(diào)查研究,總結(jié)出現(xiàn)有網(wǎng)絡(luò)環(huán)境中騷擾電話存在如下特點(diǎn)。
1)騷擾電話的呼叫頻次高;
2)騷擾號(hào)碼呼出與呼入的比例高;
3)騷擾電話的騷擾目標(biāo)離散度高;
4)被騷擾號(hào)碼的相關(guān)性較小;
5)騷擾電話的通話時(shí)長(zhǎng)較低,且被叫先掛機(jī)的概率大;
6)騷擾號(hào)碼與所有的被騷擾號(hào)碼間的重復(fù)通話次數(shù)相對(duì)較少;
7)騷擾電話的物理位置變化較小,常常在同一個(gè)地方產(chǎn)生大量外呼;
8)真實(shí)的騷擾電話常常配有多個(gè)終端、多張手機(jī)卡,往往一張卡被關(guān)停后更換另一張卡繼續(xù)撥打騷擾電話。
2.2 傳統(tǒng)特征和多維融合特征分析
基于以上對(duì)通話行為的特點(diǎn)進(jìn)行分析,本文從如下多維融合特征來(lái)考量騷擾電話的判別依據(jù)。
各維度的含義及計(jì)算方式如下。
1)主叫頻次:指某一號(hào)碼作主叫時(shí)的試呼次數(shù)。
2)忙時(shí)主叫頻次:指工作時(shí)間段的主叫頻次。
3)主叫占比:指某一號(hào)碼作為主叫時(shí)的頻次與其作為主叫和作為被叫的總頻次之和的比值。
4)被叫號(hào)碼離散度:指某一主叫對(duì)應(yīng)的所有被叫號(hào)碼去重后的數(shù)量與該主叫號(hào)碼的主叫頻次的比值。
5)被叫空間離散度:指某一主叫對(duì)應(yīng)的所有被叫號(hào)碼的歸屬地去重后的數(shù)量與中國(guó)省份數(shù)量的比值。
6)外省呼叫占比:指某一主叫撥打外省的頻次在其主叫頻次所占的比重。
7)接通率:指某一主叫號(hào)碼外呼的所有電話中被接通的次數(shù)的占比。
8)平均通話時(shí)長(zhǎng):指某一主叫號(hào)碼所有被接通的通話記錄的通話時(shí)長(zhǎng)的平均值。
9)平均振鈴時(shí)長(zhǎng):指某一主叫號(hào)碼所有外呼記錄的振鈴時(shí)長(zhǎng)的平均值。
10)ci去重后數(shù)量:指某一主叫號(hào)碼所有外呼記錄中的ci值(或cell值)去重后的數(shù)量。
11)物理位置變化率:指某一主叫號(hào)碼的ci去重后數(shù)量與主叫頻次之比。
12)外賣(mài)時(shí)間占比:指某一號(hào)碼在外賣(mài)時(shí)間(11:00-14:00,17:00-20:00)外呼的頻次與主叫頻次的比值。
13)15秒以下通話占比:指某一主叫號(hào)碼通話時(shí)長(zhǎng)小于15秒的記錄數(shù)量與主叫頻次之比。
14)個(gè)人名下黑名單數(shù)量:指某一主叫號(hào)碼對(duì)應(yīng)的使用人,其名下已被判定為騷擾電話號(hào)碼的數(shù)量。
2.3 信令數(shù)據(jù)介紹與處理
2.3.1 信令數(shù)據(jù)
針對(duì)投訴率居高不下的痛點(diǎn),我們利用信令數(shù)據(jù)、精分?jǐn)?shù)據(jù)和話單數(shù)據(jù),綜合第三方標(biāo)記數(shù)據(jù)庫(kù),全面分析了所有用戶的通話行為特征。
2.3.2 數(shù)據(jù)處理
本文使用的數(shù)據(jù)主要包括用戶的mc口數(shù)據(jù)、nc口數(shù)據(jù)、4g(VoLTE)信令系統(tǒng)接口數(shù)據(jù)、話單數(shù)據(jù)和用戶簽約數(shù)據(jù)。
1)不同來(lái)源的信令數(shù)據(jù)聚合
2)號(hào)碼和IMSI對(duì)應(yīng)補(bǔ)全
3 多維融合特征模型
由于特征選取的豐富性,本文將多維融合特征模型的所有判定策略分為基礎(chǔ)策略模型、主叫策略模型、信息關(guān)聯(lián)策略模型和專(zhuān)題模型。
3.1基礎(chǔ)策略
考慮到所有騷擾電話的共同特點(diǎn)主要有:主叫頻次高、同一主叫號(hào)碼對(duì)應(yīng)的被叫號(hào)碼離散度高、主叫占比高。此外,主要治理本省騷擾電話,故主叫歸屬地都為本省。
3.2主叫行為策略
基礎(chǔ)策略中使用的特征維度為幾乎所有騷擾電話的通用特征,排除這些通用特征后,其他一些特征如忙時(shí)主叫頻次、平均通話時(shí)長(zhǎng)、外省呼叫占比、平均振鈴時(shí)長(zhǎng)、接通率、位置信息等也可以作為判斷騷擾電話的特征維度。
3.2.1工作日高頻騷擾策略
工作日高頻騷擾指在工作日忙時(shí)(08:00~12:00,14:00~18:00)主叫頻次超過(guò)50次/小時(shí)且平均通話時(shí)長(zhǎng)小于30秒,且外賣(mài)時(shí)間占比小于60%,則判定該主叫號(hào)碼為疑似工作日忙時(shí)高頻騷擾號(hào)碼。
3.2.2本省用戶對(duì)外地用戶的騷擾策略
本省用戶對(duì)外地用戶的騷擾指主叫為本省,被叫外地的通話記錄的占比超過(guò)90%,且平均通話時(shí)長(zhǎng)小于30s時(shí),則判定該主叫號(hào)碼為疑似本省用戶對(duì)外地用戶騷擾號(hào)碼。
3.2.3物理位置不變
物理位置不變是指騷擾電話撥出的位置不變,判定條件是時(shí)間類(lèi)型為主叫,一段時(shí)間內(nèi)主叫號(hào)碼位置信息不變,且平均通話時(shí)長(zhǎng)小于30s,如同時(shí)滿足上述三個(gè)條件,則判定該主叫號(hào)碼為疑似物理位置不變騷擾號(hào)碼。
3.3信息關(guān)聯(lián)策略
3.3.1個(gè)人身份信息關(guān)聯(lián)策略
個(gè)人身份信息關(guān)聯(lián)是指同一個(gè)人身份證下的騷擾電話數(shù)量超過(guò)3個(gè),則將該身份證下的其他號(hào)碼也加入騷擾電話黑名單。
3.3.2設(shè)備信息關(guān)聯(lián)策略
設(shè)備信息關(guān)聯(lián)是指某一主叫號(hào)碼對(duì)應(yīng)的IMEI號(hào)若已存在IMEI黑名單中,則將該IMEI下的其他號(hào)碼也納入騷擾電話黑名單。
3.4專(zhuān)題策略
3.4.1貸款理財(cái)策略
貸款理財(cái)類(lèi)騷擾電話通常針對(duì)特定年齡段(18~35)的人群,這類(lèi)人群有比較強(qiáng)烈的信貸消費(fèi)需求,如買(mǎi)房買(mǎi)車(chē)等。本文通過(guò)被叫的年齡信息和接通率來(lái)判定是否歸屬貸款理財(cái)類(lèi)騷擾電話。
4 實(shí)驗(yàn)結(jié)果與評(píng)估
4.1 策略模型流程
將所有的信令數(shù)據(jù)、話單數(shù)據(jù)和用戶簽約數(shù)據(jù)采集過(guò)來(lái)后,首先進(jìn)行數(shù)據(jù)清洗和初步處理,將所有的數(shù)據(jù)進(jìn)行聚合匯總,形成一張聚合表。再按照各維度的特征值對(duì)所有的主叫號(hào)碼進(jìn)行過(guò)濾,找出能被各策略命中的疑似號(hào)碼。
需要注意的是,基礎(chǔ)策略和主叫行為策略、專(zhuān)題策略需要配合使用。信息關(guān)聯(lián)策略與基礎(chǔ)策略則相互獨(dú)立,依賴(lài)歷史數(shù)據(jù)中的黑名單。對(duì)于曾經(jīng)被關(guān)停過(guò)的騷擾電話號(hào)碼,若新得到的號(hào)碼其IMEI號(hào)與黑IMEI號(hào)相同,則直接進(jìn)行關(guān)停。
4.2 傳統(tǒng)特征模型和多維融合特征模型對(duì)比計(jì)算
選取連續(xù)一周的號(hào)碼進(jìn)行檢測(cè),其中多維融合特征模型連續(xù)一周的準(zhǔn)確率超過(guò)95%,而傳統(tǒng)特征模型連續(xù)一周的準(zhǔn)確率最高為80.2%,最低為59.9%,說(shuō)明新添加的特征對(duì)快遞外賣(mài)等正常號(hào)碼的識(shí)別效果較好,有效地降低了識(shí)別誤差。5 結(jié)論
本文提出了一種改進(jìn)的基于通話行為特征的騷擾電話檢測(cè)方法。通過(guò)分析騷擾電話的通話行為特征,生成騷擾電話識(shí)別模型。利用大數(shù)據(jù)技術(shù)計(jì)算得到所有用戶的通話行為特征值,然后經(jīng)過(guò)模型識(shí)別過(guò)濾后得出所有騷擾電話號(hào)碼。在傳統(tǒng)的用戶通話行為特征的基礎(chǔ)上,通過(guò)添加各維度融合特征,提出了一種多維融合特征檢測(cè)模型,有效地減少了對(duì)快遞外賣(mài)、社區(qū)水站、社區(qū)醫(yī)院等非騷擾電話的誤判率。進(jìn)行第三方平臺(tái)驗(yàn)證以及人工撥測(cè)驗(yàn)證,準(zhǔn)確率達(dá)到95%以上,是一種可靠的騷擾電話檢測(cè)方法。
參考文獻(xiàn)
[1] 王彥青,王瀚辰. 一種識(shí)別騷擾電話的組合算法研究[J].電信科學(xué),2017,33(7)112-119.
[2] 劉劍. 基于數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)騷擾電話識(shí)別[D]. 北京.中國(guó)地質(zhì)大學(xué)(北京).2011
[3] 王丹陽(yáng). 數(shù)據(jù)挖掘技術(shù)在騷擾電話監(jiān)控系統(tǒng)的應(yīng)用研究 [D].湖南大學(xué),2010.
[4] HUANG Y J, FENG M, DING S Y, et al. Discussion on the devolpment strategy of telecom operators[J]. Telecommunications Science, 2013, 29(3): 6-11.
(中國(guó)移動(dòng)通信集團(tuán)天津有限公司)