垃圾郵件檢測(cè)與繞過技術(shù)的研究

2021-04-20 12:06馮軍軍李力

電腦知識(shí)與技術(shù) 2021年7期

馮軍軍　李力

摘要：隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，郵件作為通信和傳輸文件的方式越來越普遍，伴隨著垃圾郵件也出現(xiàn)在工作中。垃圾郵件對(duì)企業(yè)和用戶的危害極大，該文主要討論垃圾郵件的檢測(cè)技術(shù)和繞過技術(shù)。

關(guān)鍵詞：垃圾郵件;檢測(cè);繞過

中圖分類號(hào)：TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2021）07-0036-02

Abstract：With the development of Internet technology， mail is becoming more and more popular as a means of communication and file transfer， along with spam also appears in the work.Spam is harmful to enterprises and users. This paper mainly discusses the detection technology and bypass technology of spam.

Key words： spam; detection; bypass

1引言

垃圾郵件是指收件人拒絕接收或者不同意接收但是仍然收到的郵件[1]，主要包含商業(yè)類、廣告類、培訓(xùn)類、推廣類、報(bào)價(jià)類等郵件。這些郵件的關(guān)鍵特征是強(qiáng)制性和批量發(fā)送。如2020年護(hù)網(wǎng)爆出的案例，就是攻擊方通過信息收集獲取防守方用戶的郵箱，通過群發(fā)郵件，引誘用戶更新釣魚flash，從而實(shí)現(xiàn)權(quán)限獲取進(jìn)而內(nèi)網(wǎng)滲透獲取關(guān)鍵信息。垃圾郵件對(duì)企業(yè)、用戶的危害極大，對(duì)其檢測(cè)進(jìn)行研究是非常有必要的。

2垃圾電子郵件檢測(cè)過濾技術(shù)

垃圾郵件的檢測(cè)技術(shù)一般分為內(nèi)容過濾技術(shù)、驗(yàn)證校驗(yàn)技術(shù)和規(guī)則過濾技術(shù)。

2.1內(nèi)容過濾技術(shù)

基于內(nèi)容的垃圾郵件過濾技術(shù)，是根據(jù)郵件中的內(nèi)容進(jìn)行過濾的[2]。通常來說，利用關(guān)鍵字技術(shù)或者郵件特征統(tǒng)計(jì)技術(shù)，與已知的垃圾郵件內(nèi)容進(jìn)行匹配，從而判斷是否是垃圾郵件。同樣，也可以根據(jù)檢測(cè)的垃圾郵件進(jìn)行特征提取，更新垃圾郵件檢索庫(kù)，從而進(jìn)行新的研究。常見的基于內(nèi)容過濾的方法有決策樹過濾技術(shù)、關(guān)鍵詞過濾技術(shù)等，近幾年來，隨著機(jī)器學(xué)習(xí)的發(fā)展，樸素貝葉斯過算法、支持向量機(jī)算法、多層感知機(jī)算法、卷積神經(jīng)網(wǎng)絡(luò)算法等也在垃圾郵件識(shí)別中應(yīng)用[3-4]。

2.1.1樸素貝葉斯過濾技術(shù)

隨著機(jī)器學(xué)習(xí)在大數(shù)據(jù)技術(shù)中的應(yīng)用，樸素貝葉斯算法廣泛應(yīng)用于智能應(yīng)用中[5]。在垃圾郵件檢測(cè)過濾中，通過樸素貝葉斯算法，在不設(shè)置任何過濾規(guī)則和不分析郵件的含義與內(nèi)容的前提下，通過可以學(xué)習(xí)單詞、漢字和特殊符號(hào)的頻率和模式進(jìn)行學(xué)習(xí)。學(xué)習(xí)后，智能化的對(duì)用戶接收的郵件，進(jìn)行垃圾郵件和正常郵件識(shí)別，判斷是否為垃圾郵件。相對(duì)于傳統(tǒng)的關(guān)鍵字過濾技術(shù)，該方法更加方便快捷智能化[6]。并且也會(huì)使垃圾郵件的發(fā)送者，無法根據(jù)何種關(guān)鍵字過濾的，從而進(jìn)行攔截，提高垃圾郵件的識(shí)別率。

2.1.2支持向量機(jī)過濾技術(shù)

基于支持向量機(jī)過濾技術(shù)，支持向量機(jī)是一種面向二分類任務(wù)的機(jī)器學(xué)習(xí)模型，模型結(jié)構(gòu)能夠在特征空間上產(chǎn)生最大間隔的超平面。在垃圾郵件過濾中，可以采用支持向量機(jī)分類技術(shù)，實(shí)現(xiàn)垃圾郵件和正常郵件的分類。在垃圾郵件過濾中，通過詞袋模型，即如果一個(gè)詞在文檔中出現(xiàn)不止一次，并統(tǒng)計(jì)其出現(xiàn)的次數(shù)的方法，實(shí)現(xiàn)內(nèi)容學(xué)習(xí)。利用支持向量機(jī)過濾技術(shù)，從而實(shí)現(xiàn)智能化的垃圾郵件識(shí)別，提高識(shí)別效率。

2.1.3多層感知機(jī)過濾技術(shù)

基于多層感知的過濾技術(shù)，利用多層感知機(jī)模型，在輸入層和輸出層之間增加隱含層，通過輸入郵件的特征，選擇合適的權(quán)重值，實(shí)現(xiàn)郵件的線性分類，從而區(qū)分垃圾郵件和正常郵件[7]。垃圾郵件識(shí)別中，在輸入層輸入過濾的關(guān)鍵字，通過多層感知機(jī)過濾技術(shù)，從而實(shí)現(xiàn)牢記郵件識(shí)別，提高垃圾郵件攔截率。

2.1.4卷積神經(jīng)網(wǎng)絡(luò)過濾技術(shù)

基于卷積神經(jīng)網(wǎng)絡(luò)過濾技術(shù)，根據(jù)生物神經(jīng)系統(tǒng)的特性而提出的一種神經(jīng)網(wǎng)絡(luò)模型。在垃圾郵件過濾中，根據(jù)輸入的郵件數(shù)據(jù)的特征提取，通過神經(jīng)網(wǎng)絡(luò)模型，獲得并輸出相應(yīng)的特征圖。然后根據(jù)輸出的特征圖，進(jìn)行適當(dāng)抽象的方式去除特征圖中不重要的信息，突出有效特征信息的效果，從而實(shí)現(xiàn)郵件的分類。

2.2驗(yàn)證查詢技術(shù)

基于驗(yàn)證查詢技術(shù)，就是在不侵犯?jìng)€(gè)人隱私的前提下，發(fā)現(xiàn)垃圾郵件，從而阻斷其發(fā)送。該模式下，企業(yè)郵箱可以根據(jù)其工作方式改變電子郵件系統(tǒng)，個(gè)人郵件可以根據(jù)現(xiàn)存的郵件缺點(diǎn)進(jìn)行過濾，從而提高郵件系統(tǒng)的安全性。

2.2.1郵箱地址驗(yàn)證技術(shù)

基于郵箱地址驗(yàn)證技術(shù)，通過將寄來電子郵件的地址，與系統(tǒng)的黑白名單對(duì)比，凡是黑名單中列出垃圾郵件的郵箱，收到的郵件都直接過濾掉，凡是白名單的地址都是合法郵件。通過黑白名單內(nèi)的郵件地址比對(duì)，提高垃圾郵件驗(yàn)證的可靠性，且杜絕大部分垃圾郵件入侵的反垃圾郵件技術(shù)。

2.2.2 IP地址驗(yàn)證技術(shù)

基于IP地址驗(yàn)證技術(shù)，是在建立IP連接后，對(duì)郵件的發(fā)送地址進(jìn)行黑名單驗(yàn)證，如果在黑名單中就拒絕接收。如果某IP發(fā)送垃圾郵件，可以對(duì)其進(jìn)行標(biāo)記，如標(biāo)記的次數(shù)多了，就自動(dòng)加入黑名單中，實(shí)現(xiàn)實(shí)時(shí)更新。同理，如果可以采用白名單技術(shù)，對(duì)于自己的好友或者企業(yè)經(jīng)常用的IP地址設(shè)置白名單，減少檢測(cè)的次數(shù)。但是如果好友或者企業(yè)的IP地址被掛馬，而進(jìn)行郵件發(fā)送，就無法實(shí)現(xiàn)垃圾郵件的過濾。

2.3規(guī)則過濾技術(shù)

基于規(guī)則的垃圾郵件過濾技術(shù)，對(duì)垃圾郵件的樣本進(jìn)行統(tǒng)計(jì)和分析，進(jìn)行數(shù)據(jù)建模。該模型中利用垃圾郵件的發(fā)送的時(shí)間、發(fā)送的IP、發(fā)送的地址和發(fā)送的頻率等特征，進(jìn)行郵件類型和特點(diǎn)的分析，根據(jù)分析的情況，制定垃圾郵件的過濾規(guī)則，從而根據(jù)這些規(guī)則構(gòu)建過濾的評(píng)分系統(tǒng)。在垃圾郵件識(shí)別過程中，當(dāng)達(dá)到相應(yīng)的規(guī)則庫(kù)的時(shí)候就會(huì)有相應(yīng)的評(píng)分顯示，根據(jù)評(píng)分標(biāo)準(zhǔn)，超過臨界值，判斷為垃圾郵件。該技術(shù)對(duì)垃圾郵件的過濾具有良好的效率，但是隨著垃圾郵件的特征變化，從而也會(huì)存在一定的缺陷。

3垃圾電子郵件反檢測(cè)繞過技術(shù)

隨著垃圾郵件的檢測(cè)技術(shù)發(fā)展，很多垃圾郵件經(jīng)常采用偽裝發(fā)送內(nèi)容、內(nèi)容加噪、利用圖片代替文字、動(dòng)態(tài)IP等方式，從而避免被過濾。

1）郵件內(nèi)容偽裝技術(shù)。該偽裝技術(shù)指郵件發(fā)送的內(nèi)容和郵件發(fā)送的標(biāo)題等進(jìn)行偽裝。利用計(jì)算機(jī)技術(shù)生成偽裝的內(nèi)容，比如說偽裝標(biāo)題、附件發(fā)件人等，來偽裝正常的郵件，使收件人無法區(qū)分而查看。正文偽裝技術(shù)利用明顯的錯(cuò)別字、多余的回車、換行符和制表符等不影響人的閱讀，但是對(duì)于機(jī)器學(xué)習(xí)來說卻可以破壞基于單詞、詞組的識(shí)別機(jī)制，通過隨機(jī)增加TAB、隨機(jī)增加回車、大小寫混淆、隨機(jī)增加換行符、隨機(jī)增加連字符、使用錯(cuò)別字等繞過垃圾郵件檢測(cè)。

2）利用視覺效果繞過郵件檢測(cè)[8]。該技術(shù)利用視覺效果，通過顏色的反差，將要顯示的內(nèi)容與背景色相反，不顯示的內(nèi)容與背景色一致，從而實(shí)現(xiàn)發(fā)送垃圾內(nèi)容。該技術(shù)通過一些特殊處理，利用網(wǎng)頁(yè)代碼的設(shè)置，從而實(shí)現(xiàn)收件人看到垃圾郵件的內(nèi)容，但是又無法準(zhǔn)確識(shí)別垃圾郵件，從而實(shí)現(xiàn)繞過。

3）利用圖片繞過郵件檢測(cè)。該技術(shù)利用圖片的方式代替文字，將要發(fā)送的內(nèi)容制作成圖片，以附件的形式，發(fā)送給收件人，從而避免發(fā)垃圾郵件技術(shù)的繞過。

4）利用動(dòng)態(tài)的IP地址和發(fā)送人地址，繞過垃圾郵件黑名單檢測(cè)。利用肉雞、后門的軟件等方式，在用戶不知道情況下，向目標(biāo)方發(fā)送郵件。通過這種方式，在感染者不知情況下，向其過往的郵件聯(lián)系地址或者好友地址發(fā)送垃圾郵件，從而繞過黑名單檢測(cè)，實(shí)現(xiàn)垃圾郵件繞過。

4結(jié)束語(yǔ)

隨著互聯(lián)網(wǎng)的不斷發(fā)展，垃圾郵件一直是廣泛關(guān)注的問題。由于其成本比較低，特別是受到商業(yè)利益的驅(qū)動(dòng)，其越來越頻繁。特別是隨意垃圾郵件檢測(cè)繞過技術(shù)的發(fā)展，利用郵件內(nèi)容偽裝、利用視覺效果、利用圖片和利用動(dòng)態(tài)的IP和地址等方式實(shí)現(xiàn)垃圾郵件的繞過技術(shù)也在不斷發(fā)展。同樣，在垃圾郵件檢測(cè)中也隨著機(jī)器學(xué)習(xí)的發(fā)展，智能化的檢測(cè)技術(shù)也在不斷發(fā)展?？傊?，垃圾郵件的發(fā)送方式多種多樣，形式層出不窮，檢測(cè)技術(shù)不斷更新，繞過技術(shù)也不斷更新，所謂的“道高一尺，魔高一丈”，兩種技術(shù)是相互促進(jìn)、相互發(fā)展。

參考文獻(xiàn)：

[1] 羅婧雯.垃圾郵件過濾技術(shù)綜述[J].電腦知識(shí)與技術(shù)，2016，12（14）：13-14.

[2] 李敬瑤.反垃圾郵件過濾技術(shù)方法的研究[J].福建電腦，2016，32（10）：61-62.

[3] 徐丹丹.個(gè)性化垃圾郵件過濾的擴(kuò)展研究[D].南京：南京航空航天大學(xué)，2019.

[4] 黃鶴.基于深度學(xué)習(xí)的垃圾郵件過濾方法研究[D].南京：南京郵電大學(xué)，2019.

[5] 袁連海，李湘文，徐晶.基于改進(jìn)貝葉斯原理的垃圾郵件過濾算法研究[J].計(jì)算機(jī)與數(shù)字工程，2020，48（3）：513-516，712.

[6] 彭革.基于樸素貝葉斯算法在垃圾郵件過濾中的研究綜述[J].電腦知識(shí)與技術(shù)，2020，16（14）：244-245，247.

[7] 徐娟，卞良.基于SVM的中文垃圾郵件預(yù)測(cè)系統(tǒng)研究[J].數(shù)字技術(shù)與應(yīng)用，2020，38（1）：38-39.

[8] 趙俊生，候圣，王鑫宇，等.基于集成學(xué)習(xí)的圖像垃圾郵件過濾方法[J].計(jì)算機(jī)工程與科學(xué)，2020，42（6）：1049-1059.

【通聯(lián)編輯：代影】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

垃圾郵件檢測(cè)與繞過技術(shù)的研究