錢慶鋒等
【摘要】 當(dāng)短信已經(jīng)成為人們生活當(dāng)中不可或缺的通信方式時(shí),短消息業(yè)務(wù)也為信息垃圾的傳播提供了一條便捷的渠道,因此針對(duì)垃圾短信的攔截成為各運(yùn)營商的社會(huì)責(zé)任和網(wǎng)絡(luò)運(yùn)維的一部分。但低速、短信內(nèi)容頻繁變異讓傳統(tǒng)的攔截策略束手無策,而中文的博大精深又讓新穎的語義分析攔截法命中率低及誤攔率高。本文以不變應(yīng)萬變,抽取垃圾短信內(nèi)容中的聯(lián)系電話、詐騙卡號(hào)等數(shù)字串信息作為特征碼進(jìn)行攔截,則實(shí)現(xiàn)了對(duì)垃圾短信的精準(zhǔn)打擊,收到事半功倍的效果;如果進(jìn)一步建立垃圾短信的大數(shù)據(jù)平臺(tái),則可使得基于廣義數(shù)字的垃圾短信攔截策略如虎添翼。
【關(guān)鍵詞】 垃圾短信 廣義數(shù)字 變異數(shù)字 攔截 大數(shù)據(jù)一、背景
隨著無線通信服務(wù)功能的不斷增強(qiáng)和完善,短消息業(yè)務(wù)已成為人們生活中最普及的電信增值業(yè)務(wù)。然而,短消息業(yè)務(wù)在為用戶提供便捷消息服務(wù)的同時(shí),也為信息垃圾的傳播提供了一條方便的渠道。隨著我國移動(dòng)通信網(wǎng)絡(luò)建設(shè)的不斷完善以及越來越多的可提供給用戶短消息服務(wù)的平臺(tái)的出現(xiàn),垃圾短消息有愈演愈烈的趨勢。
垃圾短消息的存在給用戶與運(yùn)營商均帶來了不少的煩惱:用戶可能被恐嚇、騷擾,往往也被犯罪分子利用來進(jìn)行違法活動(dòng),破壞安定團(tuán)結(jié)的政治局面;而運(yùn)營商也會(huì)由于用戶錯(cuò)誤的界定垃圾短消息的來源而受到用戶的誤解,給公司努力建立的良好聲譽(yù)和品牌形象造成嚴(yán)重的影響。因此,目前各運(yùn)營商在網(wǎng)絡(luò)側(cè)都大大加強(qiáng)了垃圾短信的整治力度,采用了眾所周知的過濾和攔截,如流量規(guī)則、傳統(tǒng)的關(guān)鍵字規(guī)則及其它發(fā)送行為規(guī)則,但由于這些規(guī)則本身的限制及垃圾短信發(fā)送者的“靈活”調(diào)整,使得現(xiàn)有的垃圾短信過濾策略總是滯后于垃圾短信發(fā)送行為,同時(shí)因?yàn)檎`攔與攔截效果兩者之間的矛盾而使現(xiàn)有的垃圾短信攔截很難達(dá)到理想的效果。
因此,各運(yùn)營商雖投入了大量的人力物力與垃圾短信發(fā)送者“斗智斗勇”,但效果仍不理解,仍因?yàn)轭l繁的垃圾、詐騙短信的發(fā)送而受到用戶的各種詬病。
二、垃圾短信的關(guān)鍵特征分析
隨著垃圾短信的整治工作的深入,垃圾短信由于以下特點(diǎn)而現(xiàn)有的大量策略面臨命中率或誤攔率高的窘境:
1. 低速發(fā)送。垃圾短信發(fā)送者采用大量號(hào)碼,單一的發(fā)送號(hào)碼至同一區(qū)域或省份的垃圾短信發(fā)送數(shù)量很小,內(nèi)容分散。
2. 垃圾短信關(guān)鍵信息頻繁變異,是傳統(tǒng)的關(guān)鍵字抽樣和語義分析等攔截手段一直的“惡夢”,如兜售發(fā)票的垃圾短信,可以將發(fā)票變異成“發(fā)漂”、“發(fā)票”、“發(fā)piao”等,由于漢字的博大精深,所以短信內(nèi)容中的中文可以變異成無數(shù)種,讓運(yùn)營商的垃圾攔截策略來不及變化和調(diào)整。
基于低速、短信內(nèi)容的變異和中文的博大精深讓傳統(tǒng)的攔截策略束手無策,如果全部采用人工審核和確認(rèn)的方式進(jìn)行,為了保證正常短信的時(shí)延不能增加,必須進(jìn)行系統(tǒng)擴(kuò)容和大量的人工審核人力投入,并且人工審核量巨大。
但是,垃圾短信的內(nèi)容無論怎么變異,無論怎么低速,無論發(fā)給誰,其中必不可少的關(guān)鍵特征是聯(lián)系電話或詐騙電話的銀行卡號(hào)等。因此,無論垃圾短信的發(fā)送號(hào)碼如何變化,但由于成本關(guān)系,垃圾短信中所帶的數(shù)字信息不會(huì)頻繁變化。
【案例1】發(fā)送號(hào)碼:86159xxxx7205;垃圾短信內(nèi)容:“宏達(dá)汽貿(mào)銷售九成新(套牌)車本田豐田3萬,奧迪寶馬5萬,現(xiàn)代1,5萬越野車可送貨當(dāng)面交易電話137xxx36768劉經(jīng)理”
【案例1】發(fā)送號(hào)碼:86159xxxx8307;垃圾短信內(nèi)容:“汽貿(mào)銷售九成新(套片卑)車本田豐田3萬,奧迪寶馬5萬,現(xiàn)代1,5萬越野車。聯(lián)系電話137xxx36768王經(jīng)理”
因此,根據(jù)垃圾短信中的數(shù)字信息這一關(guān)鍵特征進(jìn)行攔截,將擊中垃圾短信發(fā)送者的軟肋,在垃圾短信攔截系統(tǒng)或手機(jī)中加以應(yīng)用,可以取得事半功倍的效果。而基于短信內(nèi)容中的數(shù)字進(jìn)行攔截,是目前眾多研究者和攔截策略所忽略的,且很多采用復(fù)雜算法的攔截策略還首先過濾了其中的數(shù)字等ASCII碼,將垃圾短信中相對(duì)不變的關(guān)鍵特征“拋棄”了。
三、基于廣義數(shù)字的攔截
3.1 主要功能模塊
針對(duì)垃圾短信中的數(shù)字信息關(guān)鍵特征進(jìn)行攔截,主要模塊如下圖1所示:
1. 廣義數(shù)字。垃圾短信中所包含的電話號(hào)碼、賬號(hào)等數(shù)字,很多時(shí)候已不是簡單的阿拉伯?dāng)?shù)字,不法分子為了避免被攔截,往往通過各種各樣的形式來表達(dá)數(shù)字信息:阿拉伯?dāng)?shù)字、中文簡體數(shù)字(如一、二、三)、繁體數(shù)字(如壹、貳、叁)、諧音數(shù)字、帶符號(hào)的數(shù)字(①、?)、以全角或上下標(biāo)表示的數(shù)字(如?、?)等等。我們把這些表現(xiàn)形式多樣的“數(shù)字”定義為廣義數(shù)字。
2. 廣義數(shù)字庫。即定義0~9每個(gè)阿拉伯?dāng)?shù)字分別可以等價(jià)于哪些廣義數(shù)字,這是針對(duì)垃圾短信中的數(shù)字信息關(guān)鍵特征進(jìn)行攔截成果與否的關(guān)鍵,系統(tǒng)攔截策略將根據(jù)此“廣義數(shù)字庫”進(jìn)行判定字符是否為“數(shù)字”。如廣義數(shù)字庫中定義的數(shù)字1包括:1、1、①、?、?、1、一、壹。由于可以理解的變異數(shù)字不會(huì)像漢字那樣千變?nèi)f化,因此“廣義數(shù)字庫”樣本量將會(huì)非常小,易于維護(hù)、攔截效率高。例如,垃圾短信內(nèi)容將聯(lián)系號(hào)碼變異為“壹③91ooOO0000”,攔截系統(tǒng)也會(huì)根據(jù)“廣義數(shù)字庫”識(shí)別出“139100000000”的數(shù)字串。隨著新的變異數(shù)字的出現(xiàn),可以將新出現(xiàn)的變異數(shù)字加入“廣義數(shù)字庫”。
3. 短消息輸入源。通常為短信中心、垃圾短信接收服務(wù)器或手機(jī)終端,根據(jù)“廣義數(shù)字”攔截策略所布署的位置而變化。當(dāng)布署于垃圾短信攔截系統(tǒng)中時(shí),就是從短信中心接收過來的原始的短消息內(nèi)容。
4. 短消息預(yù)處理。垃圾短信發(fā)送者同樣會(huì)在詐騙卡號(hào)或聯(lián)系電話中夾雜空格等無效的ASCII碼或其它字符,干擾攔截策略。因此預(yù)處理模塊會(huì)首先將定義的一組字符進(jìn)行過濾,包括“廣義數(shù)字”中定義的數(shù)字以外的ASCII碼、自定義的其它字符等。
5. 數(shù)字串黑名單。系統(tǒng)根據(jù)策略人工或自動(dòng)將定性為垃圾短信中的聯(lián)系電話、銀行號(hào)碼加入“數(shù)字串黑名單”中,作為后續(xù)“廣義數(shù)字策略”判定的標(biāo)準(zhǔn)。
6. 廣義數(shù)字策略判定。根據(jù)“廣義數(shù)字庫”,按一定規(guī)則抽取短信內(nèi)容的廣義數(shù)字并轉(zhuǎn)換為標(biāo)準(zhǔn)的數(shù)字串,如果該數(shù)字串在“數(shù)字串黑名單”中,則判定為垃圾短信。
3.2 基于廣義數(shù)字的攔截流程
基于廣義數(shù)字?jǐn)r截策略的攔截流程如下圖2所示。
3.3 特殊約束
為了避免廣義數(shù)字?jǐn)r截策略產(chǎn)生誤攔截,因此需要進(jìn)行一些特殊約束:
1. 從短信內(nèi)容中抽樣出的數(shù)字串s1,必須滿足一定的長度,即m≤length(s1) ≤n。對(duì)于長度過短的數(shù)字串,如10086、銀行類的9xxxx開頭的聯(lián)系電話、短信內(nèi)容中出現(xiàn)的短數(shù)字等,均為正常,因此長度過短或過長均應(yīng)排除。
2. 數(shù)字串白名單。將一些容易出現(xiàn)在短信內(nèi)容中的正常的數(shù)字串加入數(shù)字串白名單列表中,此列表中的數(shù)字串判定為正常短信。
3.4 應(yīng)用效果
通過將廣義數(shù)字?jǐn)r截策略應(yīng)用在試驗(yàn)環(huán)境,在數(shù)字串長度、數(shù)字串白名單等特殊約束條件下,廣義數(shù)字?jǐn)r截策略攔截準(zhǔn)確率達(dá)到100%。如果布署在生產(chǎn)環(huán)境,將會(huì)大大減少人工投入,大幅降低垃圾短信判定的人工審核量。
四、結(jié)束語
現(xiàn)有常規(guī)的垃圾短信攔截策略已無法適應(yīng)新的垃圾短信發(fā)送特征。而通過抽取垃圾短信內(nèi)容中最本質(zhì)的數(shù)字信息特征,利用廣義數(shù)字?jǐn)r截策略,以不變應(yīng)萬變,將垃圾短信內(nèi)容中的聯(lián)系電話、詐騙卡號(hào)等數(shù)字串加入黑名單,則可實(shí)現(xiàn)對(duì)垃圾短信的精準(zhǔn)打擊,收到事半功倍的效果。同時(shí),切中垃圾短信發(fā)送者要害的廣義數(shù)字?jǐn)r截策略原理簡單,易于推廣和應(yīng)用。
而隨著大數(shù)據(jù)時(shí)代的到來,各運(yùn)營商更可以針對(duì)垃圾短信建立全集團(tuán)的大樣本量。這樣,即使每個(gè)號(hào)碼往某一地區(qū)只發(fā)少量垃圾短信,但從匯集全集團(tuán)范圍內(nèi)的大數(shù)據(jù)中仍可以抽取可觀的數(shù)字特征串,豐富各省公司的數(shù)字串黑名單,以進(jìn)一步提高各省公司垃圾短信的攔截率,讓垃圾短信無所遁形。