国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于信令數(shù)據(jù)的業(yè)務(wù)推銷類騷擾電話識(shí)別方法

2020-08-13 07:19全俊斌張士珣劉崢
移動(dòng)通信 2020年7期
關(guān)鍵詞:騷擾電話識(shí)別

全俊斌 張士珣 劉崢

【摘? 要】為治理網(wǎng)絡(luò)不良信息,研究了業(yè)務(wù)推銷類騷擾電話的識(shí)別方法。通過(guò)采集分析通話信令數(shù)據(jù),統(tǒng)計(jì)異常通話特征,并運(yùn)用加權(quán)綜合評(píng)分方法,創(chuàng)新實(shí)現(xiàn)了業(yè)務(wù)推銷類細(xì)分場(chǎng)景下的騷擾電話識(shí)別,與現(xiàn)有詐騙電話、高頻騷擾電話的識(shí)別方法存在區(qū)別,有效擴(kuò)大了騷擾電話識(shí)別范圍。

【關(guān)鍵詞】推銷;騷擾電話;識(shí)別

doi:10.3969/j.issn.1006-1010.2020.07.016? ? ? ? 中圖分類號(hào):TN915.08

文獻(xiàn)標(biāo)志碼:A? ? ? ? 文章編號(hào):1006-1010(2020)07-0093-04

引用格式:全俊斌,張士珣,劉崢. 一種基于信令數(shù)據(jù)的業(yè)務(wù)推銷類騷擾電話識(shí)別方法[J]. 移動(dòng)通信, 2020,44(7): 93-96.

0? ?引言

騷擾電話持續(xù)泛濫,已嚴(yán)重干擾了人們正常生活。而有效的騷擾電話綜合治理措施,有賴于對(duì)騷擾電話的精準(zhǔn)識(shí)別與細(xì)化分類,如業(yè)務(wù)推銷類(房產(chǎn)中介、貸款、保險(xiǎn))、違法犯罪類(黃、賭、毒)、惡意騷擾類(“呼死你”)等[1]?,F(xiàn)有騷擾電話識(shí)別技術(shù)中,基于用戶標(biāo)記的號(hào)碼庫(kù)[2],極依賴于用戶投訴標(biāo)記數(shù)據(jù),時(shí)效性差,識(shí)別范圍有限,且具有主觀性,可能存在誤報(bào)?;诤艚行袨榈奶?hào)碼分類[3-6],識(shí)別結(jié)果為通用類騷擾電話(如高頻電話),識(shí)別范圍有限,更難以區(qū)分騷擾電話類型,不利于實(shí)施下一步針對(duì)性處置措施。基于通話內(nèi)容的號(hào)碼分類[7-8],對(duì)軟硬件要求高,投入成本巨大,且涉及用戶敏感信息,存在數(shù)據(jù)安全風(fēng)險(xiǎn)。在無(wú)需采集用戶敏感信息前提下,快速準(zhǔn)確識(shí)別出業(yè)務(wù)推銷類別的騷擾電話,是業(yè)界的技術(shù)難點(diǎn)。

1? ?信令數(shù)據(jù)采集

信令作為用戶呼叫數(shù)據(jù),包含著海量的端到端信息,是運(yùn)營(yíng)商掌控網(wǎng)絡(luò)的重要手段。在現(xiàn)網(wǎng)中,通過(guò)分光、分流、匯聚、負(fù)載均衡等步驟,將核心網(wǎng)元的接口數(shù)據(jù)(一般包括X2、S1-MME、S1-U、S6a等)接入采集服務(wù)器,完成信令數(shù)據(jù)的采集。再經(jīng)過(guò)信令解碼、合成、存儲(chǔ)、共享等步驟,生成信令話單數(shù)據(jù),獲取用戶號(hào)碼的通話信息。網(wǎng)絡(luò)信令數(shù)據(jù)的采集原理如圖1所示。

2? ?識(shí)別技術(shù)方法

通過(guò)分析用戶投訴舉報(bào)的業(yè)務(wù)推銷類騷擾電話樣本號(hào)碼,發(fā)現(xiàn)此類號(hào)碼具有靜默期長(zhǎng)、多使用手機(jī)號(hào)碼主叫、被叫多為手機(jī)號(hào)碼、主叫占比高、平均通話時(shí)長(zhǎng)較短等明顯特征。因此基于上述通話特征,建立數(shù)據(jù)初篩條件,在歷史通話話單中篩選出疑似新啟用的騷擾號(hào)碼,減少后續(xù)當(dāng)天話單的號(hào)碼分析量,提升分析效率。接著統(tǒng)計(jì)樣本的行為規(guī)律,如通話所在地與被叫歸屬地不一致、被叫先掛機(jī)、被叫號(hào)碼分散等,篩選出統(tǒng)計(jì)特征,進(jìn)一步提升識(shí)別準(zhǔn)確率。相比于現(xiàn)有技術(shù)只能識(shí)別出騷擾電話此通用大類別,本方法可識(shí)別出騷擾電話中的業(yè)務(wù)營(yíng)銷細(xì)化類別,分析結(jié)果、選取分析特征均存在不同。

方法主要分為話單獲取、數(shù)據(jù)初篩、特征統(tǒng)計(jì)、綜合評(píng)分四個(gè)環(huán)節(jié)。

2.1? 話單獲取

獲取當(dāng)天及歷史N天的信令話單數(shù)據(jù),包括以下字段信息:主叫號(hào)碼、被叫號(hào)碼、通話開始時(shí)間、通話時(shí)長(zhǎng)、主叫號(hào)碼歸屬地、被叫號(hào)碼歸屬地、通話所在地、通話掛機(jī)方向等。

2.2? 數(shù)據(jù)初篩

在每個(gè)號(hào)碼當(dāng)天及歷史N天的通話記錄中,篩選出疑似新啟用的騷擾號(hào)碼,條件如下:

(1)號(hào)碼活躍時(shí)間為當(dāng)天,即僅在當(dāng)天主叫次數(shù)大于0,而歷史前N天內(nèi)主被叫次數(shù)為0;

(2)號(hào)碼為11位長(zhǎng)的手機(jī)號(hào)碼。即去除0086、+86、86等國(guó)家碼前綴后,號(hào)碼位長(zhǎng)為11位,首三位數(shù)字符合已知運(yùn)營(yíng)商號(hào)段規(guī)則(如130、131等);

(3)當(dāng)天未撥打過(guò)短號(hào)。短號(hào)是指號(hào)碼位長(zhǎng)為3位且第一位數(shù)字是“5”,或者號(hào)碼位長(zhǎng)為5-6位且第一位數(shù)字是“6”的號(hào)碼;

(4)當(dāng)天未撥打過(guò)固話號(hào)碼。固話號(hào)碼是指號(hào)碼位數(shù)為11位且前三或四位為區(qū)號(hào),或者號(hào)碼位數(shù)為7至8位且第一位數(shù)字非“0”;

(5)當(dāng)天“主叫占比”大于指定閾值,其中主叫占比等于主叫次數(shù)除以總通話次數(shù);

(6)當(dāng)天“通話次數(shù)”在指定次數(shù)區(qū)間范圍內(nèi);

(7)當(dāng)天“平均通話時(shí)長(zhǎng)”在指定時(shí)長(zhǎng)區(qū)間范圍內(nèi),其中平均通話時(shí)長(zhǎng)等于各次通話時(shí)長(zhǎng)的平均值。

如以上條件均滿足,則判斷為疑似新啟用的騷擾號(hào)碼。

2.3? 特征統(tǒng)計(jì)

對(duì)于疑似新啟用的騷擾號(hào)碼,提取其當(dāng)天作為主叫時(shí)的通話話單,分析對(duì)應(yīng)被叫的統(tǒng)計(jì)特征:

(1)被叫為手機(jī)號(hào)碼的占比=被叫為手機(jī)號(hào)碼的通話次數(shù)/總通話次數(shù)。其中,判斷是否手機(jī)號(hào)碼的條件為:去除0086、+86、86等國(guó)家碼前綴后,號(hào)碼位長(zhǎng)為11位,首三位數(shù)字符合已知運(yùn)營(yíng)商號(hào)段規(guī)則;

(2)主叫號(hào)碼通話所在地與被叫號(hào)碼歸屬地不一致的占比=主叫號(hào)碼通話所在地與被叫號(hào)碼歸屬地不一致的通話次數(shù)/總通話次數(shù);

(3)被叫號(hào)碼歸屬同一省份的最大占比=被叫號(hào)碼歸屬同一省份的通話次數(shù)最大值/總通話次數(shù);

(4)被叫掛機(jī)占比=掛機(jī)方向?yàn)楸唤刑?hào)碼的通話次數(shù)/總通話次數(shù);

(5)被叫號(hào)碼離散度=去重后被叫號(hào)碼總個(gè)數(shù)/總通話次數(shù)。

輸出每個(gè)疑似新啟用騷擾號(hào)碼對(duì)應(yīng)的特征統(tǒng)計(jì)結(jié)果列表,格式如:[統(tǒng)計(jì)特征A,統(tǒng)計(jì)特征B,...,統(tǒng)計(jì)特征E]。

2.4? 綜合評(píng)分

對(duì)每個(gè)疑似新啟用騷擾號(hào)碼的特征統(tǒng)計(jì)數(shù)值進(jìn)行歸一化及加權(quán)綜合打分,輸出得分高于指定閾值的號(hào)碼,判斷為業(yè)務(wù)推銷類的騷擾電話號(hào)碼,步驟如下:

(1)特征數(shù)值歸一化:對(duì)每個(gè)號(hào)碼的統(tǒng)計(jì)特征列表[特征A,特征B,……,特征E],進(jìn)行歸一化處理。歸一化公式如下:

歸一化結(jié)果=(該號(hào)碼對(duì)應(yīng)的該列特征值-所有號(hào)碼該列特征的最小值)/(所有號(hào)碼該列特征的最大值-所有號(hào)碼該列特征的最小值)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)

所有號(hào)碼對(duì)應(yīng)的統(tǒng)計(jì)特征如表1所示:

其中某個(gè)號(hào)碼x對(duì)應(yīng)特征A的歸一化方法如下:

號(hào)碼x對(duì)應(yīng)特征A歸一化結(jié)果=(Ax-min(特征A列))/(max(特征A列)-min(特征A列))? ? ? ? ? ? ? ?(2)

其中,max(特征A列)表示特征A列當(dāng)中的最大值,min(特征A列)表示特征A列當(dāng)中的最小值。

將每個(gè)號(hào)碼對(duì)應(yīng)的所有統(tǒng)計(jì)特征進(jìn)行歸一化處理,得到每個(gè)號(hào)碼對(duì)應(yīng)的歸一化特征列表[歸一化特征a,歸一化特征b,……,歸一化特征e],每個(gè)歸一化特征取值在[0, 1]間。

(2)加權(quán)綜合評(píng)分:對(duì)于每個(gè)號(hào)碼對(duì)應(yīng)的歸一化統(tǒng)計(jì)特征,依據(jù)預(yù)設(shè)的權(quán)重列表[特征權(quán)重a',特征權(quán)重b',……,特征權(quán)重e'],按如下公式計(jì)算每個(gè)號(hào)碼綜合得分:

號(hào)碼綜合得分=歸一化特征a×特征權(quán)重a'+歸一化特征b×特征權(quán)重b'+……+歸一化特征e×特征權(quán)重e'

(3)

其中,所有特征權(quán)重之和為100,則號(hào)碼綜合得分取值范圍是[0, 100]間。

(3)評(píng)分結(jié)果判斷:對(duì)于每個(gè)號(hào)碼對(duì)應(yīng)的綜合得分,與預(yù)設(shè)閾值進(jìn)行比較。若得分高于預(yù)設(shè)閾值,則判斷該號(hào)碼屬于業(yè)務(wù)推銷類騷擾電話。

2.5? 實(shí)現(xiàn)效果

基于hadoop/spark構(gòu)建大數(shù)據(jù)環(huán)境,實(shí)現(xiàn)信令數(shù)據(jù)的清洗、轉(zhuǎn)換、過(guò)濾、壓縮、篩選、存儲(chǔ)等功能。同時(shí),基于上述識(shí)別方法建立模型分析信令數(shù)據(jù),輸出號(hào)碼識(shí)別結(jié)果。根據(jù)實(shí)際生產(chǎn)結(jié)果,為兼顧識(shí)別準(zhǔn)確率及覆蓋率,選擇重要特征變量的取值如下,得到圖2結(jié)果樣例:

(1)歷史7天話單(N=7);

(2)主叫占比閾值0.9;

(3)通話次數(shù)大于等于20;

(4)平均通話時(shí)長(zhǎng)為10 s至100 s;

(5)加權(quán)特征權(quán)重設(shè)置為[25, 20, 15, 10, 30];

(6)綜合得分閾值80。

對(duì)連續(xù)多周結(jié)果的疑似號(hào)碼進(jìn)行回訪撥測(cè),驗(yàn)證識(shí)別準(zhǔn)確率達(dá)95%以上。同時(shí),識(shí)別結(jié)果中有90%以上的號(hào)碼,未被現(xiàn)有其它騷擾詐騙電話檢測(cè)技術(shù)(如高頻電話)識(shí)別出,有效擴(kuò)大了騷擾電話的識(shí)別范圍。

3? ? 結(jié)束語(yǔ)

本文基于信令數(shù)據(jù)的采集分析,提出了一種業(yè)務(wù)推銷類騷擾電話的識(shí)別方法。通過(guò)提取當(dāng)天及歷史通話話單,分析活躍時(shí)間、非手機(jī)號(hào)碼呼叫行為、主叫占比、通話次數(shù)、通話時(shí)長(zhǎng)等主叫特征,識(shí)別疑似新開戶騷擾電話號(hào)碼,接著提取其當(dāng)天主叫通話話單,分析對(duì)應(yīng)被叫的五類統(tǒng)計(jì)特征,并對(duì)特征數(shù)值進(jìn)行歸一化及加權(quán)綜合打分,識(shí)別出業(yè)務(wù)推銷類騷擾電話。實(shí)踐表明,方法可準(zhǔn)確識(shí)別出業(yè)務(wù)推銷類細(xì)分場(chǎng)景下的騷擾電話,彌補(bǔ)現(xiàn)時(shí)此類電話號(hào)碼的自動(dòng)識(shí)別技術(shù)空白。同時(shí),方法只需提取通話話單的部分字段數(shù)據(jù),統(tǒng)計(jì)通話號(hào)碼及行為特征,不涉及用戶敏感數(shù)據(jù),不存在信息安全風(fēng)險(xiǎn),可有效支撐不良信息防治工作。

參考文獻(xiàn):

[1]? ? 葛健,周楠. 騷擾電話治理的應(yīng)對(duì)與挑戰(zhàn)[J]. 信息通信技術(shù)與政策, 2019(1): 32-35.

[2]? ? 李娜,陳福,毛國(guó)君,等. 基于區(qū)塊鏈的防電話騷擾欺詐模型[J]. 應(yīng)用科學(xué)學(xué)報(bào), 2019(2): 235-243.

[3]? ?韓研. “呼死你”騷擾電話防治方案[J]. 電信科學(xué), 2018(Z1): 269-274.

[4]? ? 趙越,王瑜,葛陽(yáng),等. 基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)防詐騙能力研究與應(yīng)用[J]. 江蘇通信, 2019(4): 64-66.

[5]? ? ?王彥青,王瀚辰. 一種識(shí)別騷擾電話的組合算法研究[J].

電信科學(xué), 2017(7): 112-119.

[6]? ? ?田紀(jì)軍,夏雪玲,朱堯,等. 基于信令監(jiān)測(cè)系統(tǒng)的騷擾電

話監(jiān)控分析方法[J]. 信息通信, 2015(11): 244-245.

[7]? ? ?杜海濤,張峰,高曼穎,等. 基于話音識(shí)別的騷擾電話呼

叫檢測(cè)技術(shù)分析[J]. 電信工程技術(shù)與標(biāo)準(zhǔn)化, 2014(12) :

5-9.

[8]? ? ?任中崗,周松. 一種基于通話內(nèi)容的騷擾電話攔截方法[J]. 電子世界, 2014(5): 85.

作者簡(jiǎn)介

全俊斌(orcid.org/0000-0002-8530-6281):碩士,現(xiàn)任職于中國(guó)移動(dòng)通信集團(tuán)廣東有限公司,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全。

張士珣:學(xué)士,現(xiàn)任職于中國(guó)移動(dòng)通信集團(tuán)廣東有限公司,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全。

劉崢:碩士,現(xiàn)任職于中國(guó)移動(dòng)通信集團(tuán)廣東有限公司,主要研究方向?yàn)榫W(wǎng)絡(luò)信息安全。

收稿日期:2019-12-03

猜你喜歡
騷擾電話識(shí)別
騷擾電話有增無(wú)減 運(yùn)營(yíng)商難辭其咎
阿里將上線AI防騷擾電話應(yīng)用程序
陜西綜合治理騷擾電話
13部門聯(lián)手重拳整治騷擾電話
瘋狂編輯部之騷擾電話
法學(xué)意義上的弱者識(shí)別問(wèn)題研究
青島市中山公園園林樹木易混淆品種識(shí)別
論犯罪危險(xiǎn)人格的識(shí)別
遇到騷擾電話怎么辦?
敦煌市| 阿荣旗| 延津县| 甘南县| 永德县| 建湖县| 惠州市| 阿荣旗| 东莞市| 乐亭县| 公安县| 泸溪县| 梁平县| 安顺市| 凯里市| 屯门区| 裕民县| 五指山市| 勐海县| 高雄县| 昭苏县| 涪陵区| 浙江省| 慈溪市| 神木县| 崇阳县| 金湖县| 荔波县| 积石山| 贺州市| 扎赉特旗| 蒙山县| 河间市| 淮滨县| 平昌县| 梨树县| 鱼台县| 德江县| 孟州市| 郓城县| 凤台县|