[黃凱方 吳文波 王育飛]
近年來(lái),未經(jīng)用戶同意或請(qǐng)求,撥打電話進(jìn)行商業(yè)營(yíng)銷(xiāo)、惡意騷擾甚至開(kāi)展詐騙等不法行為的問(wèn)題日益突出,嚴(yán)重影響了廣大人民群眾的正常生活,甚至存在安全隱患。根據(jù)中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)12321 網(wǎng)絡(luò)不良與垃圾信息舉報(bào)受理中心數(shù)據(jù),2018年第2季度,騷擾電話舉報(bào)量近14萬(wàn)件次。騰訊手機(jī)管家騷擾電話標(biāo)記量分別為8 289 萬(wàn)件次。綜合各類(lèi)舉報(bào)投訴標(biāo)記數(shù)據(jù)對(duì)騷擾電話的類(lèi)別進(jìn)行分析,多數(shù)騷擾電話為商業(yè)營(yíng)銷(xiāo)類(lèi),廣告主商家主要分布在金融、保險(xiǎn)、房產(chǎn)中介、教育培訓(xùn)、食藥等行業(yè)。涉嫌違法犯罪類(lèi)、惡意騷擾類(lèi)電話在總體規(guī)模上明顯少于商業(yè)營(yíng)銷(xiāo)類(lèi)電話,但對(duì)于用戶的危害程度更加惡劣,典型的問(wèn)題有詐騙犯罪、“呼死你”、“響一聲”等。
為貫徹落實(shí)國(guó)務(wù)院治理騷擾電話有關(guān)部署要求,工信部等十三部委自2018 年7 月起至2019 年12 月底,在全國(guó)開(kāi)展綜合整治騷擾電話專(zhuān)項(xiàng)行動(dòng),開(kāi)啟了社會(huì)共治騷擾電話問(wèn)題的新局面。根據(jù)職責(zé)調(diào)整,中國(guó)電信廣東公司智能云網(wǎng)調(diào)度運(yùn)營(yíng)中心2020 年11 月起承擔(dān)騷擾電話治理工作,承接時(shí)工單存在人工處理步驟多、速度慢、易出錯(cuò)等問(wèn)題,迫切需要自動(dòng)化處理來(lái)解決。
目前騷擾電話治理工作主要有以下幾個(gè)網(wǎng)站需要登錄處理:(1)工信部12321網(wǎng)站;(2)工信部網(wǎng)間聯(lián)動(dòng)網(wǎng)站;(3)電話核查系統(tǒng)網(wǎng)站;(4)10999 網(wǎng)站;(5)信通院申訴核減網(wǎng)站。
限于篇幅,本文以工信部網(wǎng)間聯(lián)動(dòng)網(wǎng)站為例,說(shuō)明防騷擾工單全自動(dòng)化處理的方式。
總體方案大致分為工單信息下載、號(hào)碼比對(duì)、信令查詢、回單、藍(lán)盾登錄置黑等幾部分,如圖1 所示。
圖1 整體流程
后面就這幾部分分別說(shuō)明。
工單信息下載流程如圖2 所示,我們采用Python 的request 模塊,模擬發(fā)送https 請(qǐng)求來(lái)登錄網(wǎng)間聯(lián)動(dòng)網(wǎng)站。
圖2 工單信息下載流程
其中涉及到驗(yàn)證碼識(shí)別,網(wǎng)站驗(yàn)證碼存在干擾線,普通OCR 無(wú)法識(shí)別。經(jīng)過(guò)分析,我們采用google 的深度學(xué)習(xí)技術(shù)tensorflow 訓(xùn)練識(shí)別,首先通過(guò)程序批量下載網(wǎng)站驗(yàn)證碼圖片,如圖3 所示,并對(duì)每張圖片進(jìn)行正確答案標(biāo)注命名。
圖3 標(biāo)注驗(yàn)證碼
然后構(gòu)建CNN,訓(xùn)練分類(lèi)器,通過(guò)運(yùn)行代碼進(jìn)行訓(xùn)練,通過(guò)幾千次的迭代,訓(xùn)練出來(lái)的分類(lèi)器模型在驗(yàn)證集上識(shí)別的準(zhǔn)確率為97.5%。
最后利用模型識(shí)別驗(yàn)證碼,識(shí)別通過(guò)后訪問(wèn)工單信息鏈接,將需要待處理的廣東電信工單保存下來(lái)。
下載下來(lái)的工單號(hào)碼中,夾雜著虛商號(hào)碼、他網(wǎng)固話、他網(wǎng)手機(jī)號(hào)碼以及外省號(hào)碼,需要剔除這些號(hào)碼。我們采用Python 的pandas 模塊來(lái)進(jìn)行對(duì)比計(jì)算,步驟如下。
(1)首先Python讀取虛商號(hào)碼表、他網(wǎng)固話表、手機(jī)H 碼表等表轉(zhuǎn)換為pandas 格式。
(2)Python 讀取待處理工單,根據(jù)第一步各種號(hào)段表的長(zhǎng)度,分別將待處理工單的號(hào)碼截取前六位、七位或者八位,利用程度逐一進(jìn)行比對(duì),對(duì)非電信號(hào)碼進(jìn)行標(biāo)注。
(3)將第二步比對(duì)的屬于電信的號(hào)碼合成一張中電信號(hào)碼表,其余號(hào)碼合成另外一張非中電信表,以便后面信令查詢和回單。
根據(jù)防騷擾工作的要求,需要對(duì)上一步屬于中電信的號(hào)碼進(jìn)行話單與信令才查詢,根據(jù)話單和信令查詢結(jié)果進(jìn)行回單,而傳統(tǒng)的話單信令查詢需要通過(guò)手工通過(guò)4A 登錄信令監(jiān)測(cè)系統(tǒng)和設(shè)備話單逐一輸入號(hào)碼逐個(gè)查詢,而且信令系統(tǒng)有IMS、移動(dòng)網(wǎng)、網(wǎng)間關(guān)口局、VOLTE、軟交換多種網(wǎng)絡(luò)類(lèi)型,每個(gè)網(wǎng)絡(luò)類(lèi)型又有SIP/ISUP/DIAMETER/WIN/TUP 等多種協(xié)議,一個(gè)號(hào)碼要在多個(gè)頁(yè)面分別查詢,查詢時(shí)長(zhǎng)長(zhǎng),也容易漏掉信令或者話單,需要通過(guò)自動(dòng)化來(lái)解決這個(gè)問(wèn)題。
我們研發(fā)了信令系統(tǒng)和話單查詢模塊,實(shí)施步驟如圖4 信令話單查詢流程。
圖4 信令話單查詢流程
(1)首先根據(jù)號(hào)碼的查詢時(shí)間范圍、號(hào)碼的網(wǎng)絡(luò)類(lèi)型、號(hào)碼的歸屬地等信息規(guī)整成一個(gè)TXT 文檔;
(2)然后上傳指定的FTP;
(3)FTP收到號(hào)碼后啟動(dòng)調(diào)度查詢程序,同時(shí)向IT接口查詢?cè)拞魏托帕畋O(jiān)測(cè)系統(tǒng)接口查詢信令;
(4)FTP上生成兩個(gè)結(jié)果,一個(gè)是每個(gè)號(hào)碼有無(wú)話單信令的結(jié)果,另外一個(gè)是具體的信令話單結(jié)果;
(5)從FTP上取下結(jié)果,作后續(xù)進(jìn)一步的處理。
根據(jù)信令話單的查詢結(jié)果進(jìn)行回單,網(wǎng)間聯(lián)動(dòng)網(wǎng)站提供了批量回單的地方,需要根據(jù)模板填寫(xiě)并上傳,具體到程序上,我們采用Python request 模塊,模擬發(fā)送https 請(qǐng)求,具體步驟如圖5 所示。
圖5 自動(dòng)回單流程
藍(lán)盾置黑也是模擬發(fā)送https 請(qǐng)求,但是藍(lán)盾系統(tǒng)登錄有所不同,通過(guò)抓包發(fā)現(xiàn),輸入賬號(hào)密碼后,還會(huì)進(jìn)行二次校驗(yàn),生成加密的字符串。經(jīng)過(guò)多次分析發(fā)現(xiàn),中間經(jīng)過(guò)了128 位AES 加密算法,如果通不過(guò)這層校驗(yàn)無(wú)法進(jìn)入藍(lán)盾系統(tǒng)進(jìn)行下一步操作。為了解決這個(gè)問(wèn)題,進(jìn)行了多次嘗試。
(1)通過(guò)抓包找到密鑰,但是密鑰每次都不一樣,毫無(wú)規(guī)律可循,方法失敗。
(2)找到網(wǎng)上的AES 128 位加密算法,編寫(xiě)成Python 程序,發(fā)現(xiàn)生成的密鑰跟藍(lán)盾上的不一致,方法依舊失敗。
(3)通過(guò)多次debug 找到藍(lán)盾的AES 加密程序,但此程序是一個(gè)js文件,無(wú)法在Python或者Java程序上運(yùn)行。針對(duì)這個(gè)問(wèn)題經(jīng)過(guò)摸索也有兩種解決方案。
①讀懂此加密js 文件,通過(guò)Python 重寫(xiě)此程序。但是這個(gè)js 文件前后數(shù)百行,多重嵌套調(diào)用,且用了大量的縮寫(xiě)引用,晦澀難懂,花了幾天時(shí)間勉強(qiáng)讀完用Python程序重寫(xiě)后依然無(wú)法通過(guò)密鑰校驗(yàn),看來(lái)此方法坑太多,失敗。
②通過(guò)Python 調(diào)用js 文件生成密鑰,通過(guò)網(wǎng)上查詢,發(fā)現(xiàn)有node.js、selenium+phantomjs、pyexecjs等多種方法。通過(guò)多次調(diào)試,并修改js 文件,最終用pyexecjs 模塊調(diào)用js 生成了正確的密鑰,問(wèn)題解決。
密鑰生成后,通過(guò)發(fā)送https 請(qǐng)求,把信令話單查詢結(jié)果中不是雙無(wú)的號(hào)碼生成excel 文件,并上傳到藍(lán)盾置黑,這一步順利完成。
本文提出并部署的防騷擾工單全自動(dòng)化處理辦法,能夠快速、準(zhǔn)確地處理工單,極大減輕工作負(fù)擔(dān)。后續(xù)網(wǎng)站會(huì)出現(xiàn)一些需要人工識(shí)別的附件,比如營(yíng)業(yè)執(zhí)照、身份證、保證書(shū)以及各種錄音,需要人工智能技術(shù),如圖像識(shí)別、NLP 等技術(shù)來(lái)處理,如何實(shí)現(xiàn)高效、準(zhǔn)確地識(shí)別值得深入研究。