基于增量學(xué)習(xí)算法的校園網(wǎng)垃圾郵件檢測模型

2017-04-17 05:13東一舟毛明榮

計算機(jī)應(yīng)用 2017年1期

關(guān)鍵詞：鍵值垃圾郵件增量

陳斌，東一舟，毛明榮

(南京師范大學(xué) 信息化建設(shè)管理處，南京 210023)

(*通信作者電子郵箱njnuchenbin@njnu.edu.cn)

基于增量學(xué)習(xí)算法的校園網(wǎng)垃圾郵件檢測模型

陳斌*，東一舟，毛明榮

(南京師范大學(xué) 信息化建設(shè)管理處，南京 210023)

(*通信作者電子郵箱njnuchenbin@njnu.edu.cn)

針對大量垃圾郵件對用戶帶來困擾的問題，提出了一種增量被動攻擊學(xué)習(xí)算法。該方法基于半年時間的對本校校園網(wǎng)內(nèi)郵件宿主機(jī)上所發(fā)起的簡單郵件傳輸協(xié)議(SMTP)會話日志的采集，針對會話中記錄的投遞率狀態(tài)及多種類型的失敗消息進(jìn)行了宿主機(jī)行為分析，最終達(dá)到有效地適應(yīng)被檢測垃圾郵件源宿主機(jī)對最近郵件分類行為的目的。實驗結(jié)果表明，在執(zhí)行了若干回合分類策略的調(diào)整后，該檢測的準(zhǔn)確度可以達(dá)到94.7%。該設(shè)計可以有效地檢測內(nèi)部垃圾郵件宿主機(jī)行為，繼而從根源上抑制了垃圾郵件的產(chǎn)生。

垃圾郵件宿主機(jī)；簡單郵件傳輸協(xié)議會話；增量學(xué)習(xí)；分類器；失敗信息

0 引言

如今，垃圾郵件越來越日常性地充斥著使用者的郵箱，這主要是由于電子郵件傳遞的零成本所致。按照Anti-Abuse消息工作組2011年度發(fā)布的調(diào)查報告顯示，互聯(lián)網(wǎng)電子郵件總量中超過90%的都是垃圾郵件[1]，這不僅浪費(fèi)了互聯(lián)網(wǎng)帶寬及郵件服務(wù)提供商的存儲空間，同時干擾甚至傷害了部分用戶的正當(dāng)權(quán)益。雖然大多數(shù)用戶都會忽視垃圾郵件，但由于它的體量巨大，故其帶來的綜合利潤還是足以使得該不端行為存在。更有甚者，垃圾郵件的發(fā)送者通過發(fā)送嵌入了惡意軟件的垃圾郵件，或含有驅(qū)動下載攻擊類型的有害鏈接，使得缺乏免疫能力的宿主機(jī)成為被其控制的僵尸網(wǎng)絡(luò)中的一臺僵尸機(jī)[2]，從而迫使它作為其有效垃圾郵件的分發(fā)者。有研究報告顯示，僵尸網(wǎng)絡(luò)產(chǎn)生了全球超過82%的垃圾郵件[3]。

解決該問題最通常的策略是，最大限度地為終端用戶過濾來自于外部的垃圾郵件，它的實際效果取決于郵件服務(wù)商、郵件客戶端或郵件代理所提供的過濾器能力[4]。即便終端過濾器可以精準(zhǔn)隔離垃圾郵件，但其仍無法從源頭上遏制垃圾郵件的發(fā)出，故而大量網(wǎng)絡(luò)帶寬還是會被無端消耗，這無疑讓本已吃緊的校園網(wǎng)帶寬雪上加霜。因此，如何從源頭上制止垃圾郵件的產(chǎn)生，成為該領(lǐng)域緊急而重要的問題。如果垃圾郵件宿主機(jī)的行為可以盡早被抑制，其所造成的垃圾郵件隱患即可隨之被排除。對于如何有效檢測及認(rèn)定垃圾郵件宿主機(jī)存在兩個主要問題：1)對于企圖避開檢測的垃圾郵件宿主機(jī)而言，其有什么確定的特征可以作為鑒別的依據(jù)；2)針對可能存在的海量數(shù)據(jù)集所產(chǎn)生的簡單郵件傳輸協(xié)議(Simple Mail Transfer Protocol， SMTP)日志，檢測模型如何建立，其又如何與最新垃圾郵件的行為相適應(yīng)？

本文從外部郵件服務(wù)器和消息分類器運(yùn)作細(xì)節(jié)的角度，描述了多種失敗消息相應(yīng)情況下垃圾郵件的行為特征，每一個垃圾郵件宿主機(jī)檢測的重要特征都是經(jīng)過了深度學(xué)習(xí)的，同時使用了一種增量被動攻擊學(xué)習(xí)算法來從大量的SMTP日志中適應(yīng)性地檢測垃圾郵件宿主機(jī)。該設(shè)計可以幫助校園網(wǎng)絡(luò)的管理者檢測垃圾郵件宿主機(jī)，從而抑制這些宿主機(jī)的行為，當(dāng)然該方法在其他機(jī)構(gòu)和場景下也是適用的。

1 相關(guān)工作

之所以將垃圾郵件宿主機(jī)檢測作為研究焦點，是因為僵尸網(wǎng)絡(luò)類檢測與其相關(guān)性較低，下面介紹近些年對其的相關(guān)研究。垃圾郵件追蹤器是一款開發(fā)于2007年的基于行為黑名單算法的垃圾郵件宿主機(jī)識別系統(tǒng)，它通過具有相似模式的目標(biāo)域宿主機(jī)聚類的收發(fā)郵件消息進(jìn)行分析，垃圾郵件可以較容易地分發(fā)至郵件地址的接收者，這些接收者在不同的垃圾郵件宿主機(jī)消息域中，這可能使得檢測結(jié)果變得混亂難以理解[5]。自2011年起，有學(xué)者開始研究采集的垃圾郵件消息與具有相似內(nèi)容的宿主機(jī)的識別工作。作者提取了業(yè)務(wù)日志對垃圾郵件宿主機(jī)進(jìn)行了分組，它們作為既定相似目標(biāo)的傳播源，并主動發(fā)現(xiàn)其他的垃圾郵件宿主機(jī)的傳播行為[6]。相比較而言，該工作并不依賴于任何必須優(yōu)先建立的垃圾郵件內(nèi)容或行為觀測器，檢測可以通過增量學(xué)習(xí)方式，自動適應(yīng)于最近的垃圾郵件的行為。2012年有研究人員專門針對大學(xué)校園垃圾郵件過濾器接收的輸出消息進(jìn)行嘗試性研究，實驗使用了時序化測試來檢測內(nèi)部宿主機(jī)持續(xù)發(fā)送垃圾郵件的概率[7]。該工作不依賴于外部的垃圾郵件過濾器，這主要取決于以下兩點因素：1)一個SMTP會話可以因為協(xié)商過程存在問題而失敗，而若一個會話在交互階段持續(xù)保持失敗狀態(tài)，服務(wù)器將會發(fā)送一封垃圾郵件消息，在該情況下不會針對內(nèi)容進(jìn)行過濾。2)一個用戶可以向郵件服務(wù)器自動轉(zhuǎn)發(fā)配置，這也將導(dǎo)致轉(zhuǎn)發(fā)器收到包括垃圾郵件在內(nèi)的郵件，對于一個用戶的特定外部賬戶來說，垃圾郵件過濾器將察覺到來自于郵件服務(wù)器的垃圾郵件消息，繼而這種檢測可以得到更明確的判斷結(jié)果[8]。

對于增量學(xué)習(xí)和在線學(xué)習(xí)，周期性數(shù)據(jù)分析請求出現(xiàn)于部分應(yīng)用，其中包括了網(wǎng)絡(luò)交易分析、匿名檢測以及干擾檢測等，應(yīng)用需要周期性地適配近期數(shù)據(jù)的分類[9]。同樣地，垃圾郵件宿主機(jī)分類檢測，對于從SMTP日志中識別最近的垃圾郵件行為來說是必須的[10]。大多數(shù)針對該目標(biāo)的增量學(xué)習(xí)方法是基于決策樹、神經(jīng)網(wǎng)絡(luò)以及向量機(jī)的，與之相關(guān)的典型設(shè)計用例有，將它用于建立靜態(tài)分類模式，該模式基于之前的實例，并可以從實例中糾錯，從而形成新的實例標(biāo)簽。虛擬機(jī)已經(jīng)被證實可以用來較好地分離不同標(biāo)簽的實例，它通過最大化標(biāo)簽實例邊緣從而產(chǎn)生不同的超平面，這里的邊緣是實例與分離超平面之間的距離，該方法可通過識別每一個新的實例的向量支持能力，進(jìn)而調(diào)節(jié)虛擬機(jī)增量分類，它的優(yōu)勢是可以保持之前有用的實例作為支持向量，并同步獲取有效的更新步驟信息作為知道依據(jù)[11]。然而，虛擬機(jī)超平面方法在分發(fā)出現(xiàn)錯誤的情況下，未必能進(jìn)行有效的調(diào)節(jié)，換句話說，當(dāng)監(jiān)控實例的分發(fā)與固有的支撐向量存在明顯的差異時，監(jiān)控實例可能由于支撐向量概率的減小而導(dǎo)致分類錯誤。出于對更新步驟效率的考慮，同樣可以用在線學(xué)習(xí)的方法來解決周期性調(diào)整分類的問題。在線學(xué)習(xí)過程中，每一個標(biāo)簽實例都會在被用于分類器更新處理后被丟棄。與增量學(xué)習(xí)的設(shè)置不同，其無需維護(hù)之前的標(biāo)簽實例，更新步驟只需要使用一個標(biāo)簽實例就可以完成基本的執(zhí)行動作，更新分類器可以彈性地適配多種實例的分發(fā)。一些類似模擬人類視神經(jīng)控制系統(tǒng)的圖形識別感知器算法，以及基于邊界的算法已經(jīng)被證實在大范圍的應(yīng)用中都是非常有效的。分類器更新通常是基于各類特征表示的，相對支持向量機(jī)(Support Vector Machine， SVM)、提升方法(boosting)、最大熵方法等“淺層學(xué)習(xí)”方法而言，深度學(xué)習(xí)所學(xué)得的模型中，非線性操作的層級數(shù)更多。淺層學(xué)習(xí)依靠人工經(jīng)驗抽取樣本特征，網(wǎng)絡(luò)模型學(xué)習(xí)后獲得的是沒有層次結(jié)構(gòu)的單層特征；而深度學(xué)習(xí)通過對原始信號進(jìn)行逐層特征變換，將樣本在原空間的特征表示變換到新的特征空間，自動地學(xué)習(xí)得到層次化的特征表示[12]。為了與分類器的垃圾郵件分類任務(wù)相對抗，攻擊者通常都會嘗試通過誘騙的方式使得分類器產(chǎn)生錯誤結(jié)果從而躲避檢測。在對抗性研究領(lǐng)域，已經(jīng)有一些專門針對精準(zhǔn)化分類器而建立的偽裝攻擊研究，這些研究的貢獻(xiàn)就在于，對惡意攻擊及正常分類實例的最小代價可以作出合理化區(qū)分及評估[13]。對于攻擊者而言，垃圾郵件制造者不能對外部服務(wù)器的回復(fù)消息進(jìn)行修改，這也就限制了其對郵件的控制權(quán)，因此，使用攻擊學(xué)習(xí)的作用是微乎其微的。本文的主要工作將集中在對持續(xù)改變其行為的垃圾郵件的適應(yīng)性檢測上。

2 垃圾郵件行為特征分析及檢測模型

垃圾郵件行為失敗消息特征分析及檢測分為五個階段，即：1)通過干擾檢測系統(tǒng)對校園網(wǎng)絡(luò)與互聯(lián)網(wǎng)之間的SMTP交互日志進(jìn)行捕獲；2)從日志中提取出校園網(wǎng)內(nèi)部宿主機(jī)與外部宿主機(jī)初始會話中的SMTP報文；3)計算來自于每臺內(nèi)部宿主機(jī)個體的多種類型SMTP會話投遞成功及失敗消息的數(shù)量及類型；4)按照宿主機(jī)狀態(tài)，通過行為檢測的方式，針對訓(xùn)練集中的內(nèi)部宿主機(jī)打上垃圾郵件源標(biāo)簽或正常宿主機(jī)標(biāo)簽；5)在此基礎(chǔ)上，可以通過增量學(xué)習(xí)算法持續(xù)檢測校園中的垃圾郵件宿主機(jī)。特征分析和檢測常用的兩種分類方法分別為基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法[14]。針對分類后的特征結(jié)果集合，淘汰歷史樣本集中的非支持向量，將支持向量同新增樣本一起訓(xùn)練，以達(dá)到增量學(xué)習(xí)的目的[15]。一旦通過檢測確認(rèn)當(dāng)前存在垃圾郵件行為，則會將發(fā)現(xiàn)的垃圾郵件宿主機(jī)列表發(fā)送給管理者從而對其加以限制。

圖1描述了部署于計算中心的專門用于監(jiān)控SMTP會話的宿主機(jī)。該宿主機(jī)內(nèi)嵌了網(wǎng)絡(luò)監(jiān)控卡以進(jìn)行網(wǎng)絡(luò)交互的檢測，其檢測對象是一臺位于校園網(wǎng)關(guān)的思科路由器。由于本文只關(guān)注于校園內(nèi)的垃圾郵件宿主機(jī)，所以對來自于外部的SMTP會話進(jìn)行了忽略處理。值得注意的是，垃圾郵件僵尸網(wǎng)絡(luò)可能會通過基于網(wǎng)頁的郵件服務(wù)發(fā)送垃圾郵件，同樣也可能通過SMTP服務(wù)來發(fā)送，故而很難在沒有對SMTP會話進(jìn)行檢測的前提下來定義可靠的垃圾郵件特征。一種可行的解決方案是按照短會話模式來查找SMTP會話日志，該方法背后的基本原理是一個失敗會話的終結(jié)必然在失敗當(dāng)下立即發(fā)生，所以該會話將比正常情況下要短。換句話說，如果一個宿主機(jī)經(jīng)常在SMTP會話時發(fā)生短會話，則可以認(rèn)為該會話是容易失敗的，并且其容易被外部干擾所控制，從而成為一臺垃圾郵件宿主機(jī)。真正難于被可靠檢測到的垃圾郵件發(fā)送者，是基于安全超文本傳輸協(xié)議(Hyper Text Transfer Protocol over Secure socket layer， HTTPS)的頁面郵件會話，對于該種情況，干擾檢測系統(tǒng)可以檢測到垃圾郵件宿主機(jī)，但發(fā)送者可以通過行為隨機(jī)化處理輕易地躲避檢測，所以其需要檢測垃圾郵件的加密通道，這不在本文的研究范圍之內(nèi)。

網(wǎng)絡(luò)干擾檢測系統(tǒng)通過宿主機(jī)監(jiān)控及關(guān)鍵日志信息進(jìn)行總結(jié)，以此來進(jìn)行對SMTP會話的分析，這其中包括了郵件接收地址和回復(fù)碼。以下是采集自192.168.92.154設(shè)備的日志消息示例，由于其主機(jī)網(wǎng)絡(luò)互連協(xié)議(Internet Protocol， IP)地址被垃圾郵件檢測掃描并被列入黑名單后，接收到了一條來自于SMTP服務(wù)器223.1.106.1的拒絕消息，頭兩行是消息的時間戳以及會話標(biāo)識碼，對其解析后可知消息出現(xiàn)的時間，以及區(qū)分SMTP會話消息對[DENY,605]的意思，是SMTP響應(yīng)碼605與郵件命令在請求響應(yīng)中雖被拒絕但狀態(tài)是保持接續(xù)的。該日志不包含郵件體，否則日志內(nèi)容的體積將會非常龐大，并且這會導(dǎo)致嚴(yán)重的隱私泄露，日志中的消息包括了多種類型的成功分發(fā)和失敗情況，同時還有一些關(guān)鍵域信息。通過這些檢測細(xì)節(jié)信息，已經(jīng)足夠?qū)σ粋€宿主機(jī)是否進(jìn)行了垃圾郵件的分發(fā)行為作出判斷。

圖1 計算中心宿主機(jī)SMTP會話監(jiān)控架構(gòu)

一個來自于服務(wù)器的SMTP響應(yīng)消息，標(biāo)志著一個SMTP郵件分發(fā)會話的成功與失敗狀態(tài)，如果失敗總是發(fā)生，意味著其異常等級較高。起初試圖通過SMTP響應(yīng)碼對日志中的失敗消息進(jìn)行分類，但事實上響應(yīng)碼和真正的失敗原因是多元的關(guān)系，無法做到一一對應(yīng)。表1中列出了一些實驗過程中的實例，從中可以看出有很多比響應(yīng)碼更合理的鍵值選項，這些鍵值選項都是從多種失敗消息中提取的。

表1 相同SMTP響應(yīng)碼情況下不同響應(yīng)消息示例

另外，郵件服務(wù)器可以針對同樣的失敗原因給出不同的響應(yīng)消息。例如由于黑名單而造成的郵件阻塞在表1中就給出了多種列舉，所以在實驗過程中通過人工識別鍵值的方式，根據(jù)語義分析對垃圾郵件進(jìn)行了標(biāo)注，并基于失敗原因的鍵值域組織了響應(yīng)消息。作為一個檢測系統(tǒng)，在默認(rèn)SMTP策略腳本中并沒有列出所謂的期望回復(fù)結(jié)果，只是在默認(rèn)腳本中添加了附加鍵值信息，以幫助其進(jìn)行垃圾郵件會話的識別。附加信息包括了日志是否成功轉(zhuǎn)發(fā)、郵件頭的格式、郵件回復(fù)路徑、發(fā)送者以及接收者的地址和主題等。

在記錄了SMTP會話日志后，就可以開始針對SMTP會話進(jìn)行成功投遞及失敗消息的統(tǒng)計。按照SMTP的轉(zhuǎn)發(fā)實現(xiàn)規(guī)則，失敗消息存在多種不同的語義，按照實際情況可以進(jìn)行分類，主要分為6大類，實驗步驟中的鍵值是通過人工設(shè)定的。表2中列出了典型的鍵值子集，這些鍵值在實驗過程中的分類處理中都有用到，并且在失敗消息中以模糊匹配加正則表達(dá)式的方式進(jìn)行鍵值的查找，需要說明的是，在實驗中的鍵值是不完備的，因為針對數(shù)百GB的日志中的潛在鍵值是無法窮舉的。

表2 針對各種失敗原因的語義鍵值歸類

類似拉丁語義檢索的自然語言處理技術(shù)，可以對相似語義的上下文語句的檢索匹配有所幫助。針對郵件的不同區(qū)域，包括郵件標(biāo)題和正文，可以進(jìn)行概念分析、分類、標(biāo)引、描述和處理，形成具有語義關(guān)聯(lián)的資源元數(shù)據(jù)集合，并使用RDF(Resource Description Framework)和OWL(Web Ontology Language)語言進(jìn)行語義層面的表述和描述，通過適應(yīng)于郵件類型的自然語言關(guān)系模型學(xué)習(xí)處理，結(jié)合針對郵件上下文的語義分析，形成用以與分類器預(yù)定義分揀數(shù)據(jù)集較為匹配的語義關(guān)鍵詞或語句?；貜?fù)消息通常只包含一兩個短句，示意失敗的鍵值通常只在消息中出現(xiàn)一次?；貜?fù)消息中隱含的失敗原因可以對垃圾郵件宿主機(jī)的行為產(chǎn)生影響，在這些原因中，由于發(fā)送域可能被篡改，所以必須針對失敗域進(jìn)行核查，因為這往往是垃圾郵件的征兆所在。在接收到的失敗消息中，標(biāo)識為郵件接收者未找到的類別通常有以下三種情況：目標(biāo)郵件地址已經(jīng)過期停用，但垃圾郵件制造源依然在持續(xù)向其發(fā)送郵件；目標(biāo)郵件地址由于解析錯誤而造成拼寫問題，這種解析錯誤是由于垃圾郵件制造源的惡意探測器在網(wǎng)絡(luò)上掃描目標(biāo)源后，對其地址試探性輪詢分析產(chǎn)生的過程結(jié)果；另外，垃圾郵件制造源也會隨機(jī)產(chǎn)生郵件地址作為目標(biāo)郵件地址，對于之前已經(jīng)發(fā)送過垃圾郵件的宿主機(jī)而言，對端服務(wù)器可能會將其列入IP黑名單，每次接收到郵件的檢索過程中，可能會對這些宿主機(jī)的郵件進(jìn)行退信處理。

對于外部郵件服務(wù)器，由于其響應(yīng)消息中的一些情況及其狀態(tài)并不確定，所以實驗中將其歸入單獨(dú)的類別。還有一類特別的不常用命令對，例如SMTP會話數(shù)據(jù)無響應(yīng)，這類錯誤通常與響應(yīng)碼702相關(guān)聯(lián)，所以將該響應(yīng)碼作為該分類的鍵值。對于校園里的每一個IP地址，均可按照相應(yīng)鍵值計算其回復(fù)消息數(shù)量，該統(tǒng)計結(jié)果對識別疑似垃圾郵件宿主機(jī)是有幫助的。實驗中使用了8維特征向量對內(nèi)部宿主機(jī)的每一個實例的SMTP會話進(jìn)行了描繪，該特征向量中的八元組其中第1元記錄的是成功投遞情況，第2至第7元記錄的是失敗消息的6種分類(如表2)，第8元標(biāo)識了宿主機(jī)是否是郵件服務(wù)器。需要說明的是，如表2所列舉的，域名系統(tǒng)(Domain Name System， DNS)過濾器或者IP黑名單的方法都只是導(dǎo)致失敗的一部分原因，也就是說，垃圾郵件會話的動機(jī)檢測機(jī)制對象是多樣的，并且是隨著實際情況的演變而變化的，特別在針對外部郵件服務(wù)器的情況下，更是如此。

實驗通過使用內(nèi)部宿主機(jī)行為結(jié)果作為訓(xùn)練集，并且手工檢測以下郵件頭區(qū)域，以建立基本的垃圾郵件宿主機(jī)判斷機(jī)制。主要郵件頭區(qū)域為：主題，通過檢查郵件消息的主題，判斷其是否疑似為垃圾郵件，例如其是否包含了攻擊性關(guān)鍵詞，該區(qū)域通常是非常有代表性的垃圾郵件識別信息源；發(fā)送者，垃圾郵件發(fā)送者通常都會對自己進(jìn)行偽裝，例如使用隨機(jī)產(chǎn)生的郵件地址或者域名，故對此域進(jìn)行檢查也是非常有必要的；接收者，該域可以在垃圾郵件中被隨機(jī)產(chǎn)生，所以一旦檢測到有序列化的隨機(jī)目標(biāo)的行為產(chǎn)生，則可以斷定其來源為垃圾郵件宿主機(jī)。通過掃描傳輸控制協(xié)議(Transmission Control Protocol， TCP)綁定的25號端口，并檢查宿主機(jī)域名稱，進(jìn)而判斷宿主機(jī)是否為SMTP服務(wù)器。

當(dāng)一系列打著不同標(biāo)簽的報文到來時，分類器需要不斷更新以保持與最新的垃圾郵件行為相適配，在此使用了被動攻擊增量學(xué)習(xí)算法，用以對當(dāng)前分類器的郵件樣本分類工作進(jìn)行調(diào)整。對于每一個潛在的樣本實例，都需要做如下兩步更新操作，即糾正當(dāng)前分類器的預(yù)測錯誤，并且通過主動調(diào)整來更新當(dāng)前分類器。最終，當(dāng)前已經(jīng)被最小化錯誤處理后的分類器將作為下一次數(shù)據(jù)集采集選擇的分類器而使用，進(jìn)而實現(xiàn)優(yōu)化分類的精確度提升。前述方法的具體標(biāo)記需要在對其建模進(jìn)行公式化之前進(jìn)行定義，打上了標(biāo)簽的周期化數(shù)據(jù)集Pt在周期t時被采集，|Pt|的實驗標(biāo)簽都是成對的，在{(u1,v1),(u2,v2),…,(u|Pt|,v|Pt|)}實例數(shù)組中的un是宿主機(jī)在八元組周期觀測值條件下的SMTP行為，相應(yīng)的類標(biāo)簽vn是垃圾郵件或非垃圾郵件標(biāo)識符。設(shè)置kt為周期t下分類器組成向量的權(quán)重，當(dāng)每一個實例un∈Pt到達(dá)時，被更新的分類器kt+1都會修正之前kt分類器的錯誤，所以kt也只是進(jìn)行最小化的修正。如果un從kt獲得了不正確的預(yù)測值，則kt的調(diào)節(jié)將被un的自身邊界值所取代。設(shè)置Q為kt的基于(un,vn)鍵值對的更新模型，分類器優(yōu)化調(diào)整可以公式化描述如下：

在按照上述公式對kt對應(yīng)的分類器進(jìn)行更新時，{Q(kt,(uK,vK),Pt):1≤n≤|Pt|}是新分類器的備選鍵值組對。為防止新的分類器過多地被當(dāng)前分類器影響，選擇策略會按照最準(zhǔn)確的分類性能在Pt中挑選最合適的分類器，當(dāng)超過一個已經(jīng)更新過的分類器具有非常高的分類準(zhǔn)確性時，則可以選擇該分類器中與kt差別最小的，因此新的分類器kt+1可以按照該策略從備選分類器中進(jìn)行選擇。按照上述對基礎(chǔ)過程的描述，垃圾郵件過濾器的更新所使用的增量學(xué)習(xí)算法流程如下所述。

步驟1 初始化數(shù)據(jù)集Pt、分類器kt以及分類優(yōu)化調(diào)整內(nèi)核函數(shù)Q。

步驟2 在每一個周期t，按照所采集數(shù)據(jù)的具體不同情況對數(shù)據(jù)集Pt進(jìn)行更新，以用于增量學(xué)習(xí)。

算法1 增量學(xué)習(xí)算法形式語義建模。

Initialize:k1=(0,0,…,0);

fort=1,2,…do

Recpt_Collect_data(Pt);

foreachun∈Ptdo

end

10)

choose

11)

12)

end

3 實驗及分析

通過實驗證實增量學(xué)習(xí)算法對垃圾郵件分類檢測的準(zhǔn)確性及其性能優(yōu)劣的影響。實驗在核心機(jī)房搭建的信息系統(tǒng)平臺上實施。實驗環(huán)境基礎(chǔ)配置為:八核4.8GHz×4CPU、64GB內(nèi)存、16TB硬盤，雙200GB/s網(wǎng)卡的機(jī)架型服務(wù)器。虛擬機(jī)操作系統(tǒng)選擇了64位的Linux，虛擬機(jī)最大并發(fā)數(shù)為256臺。實驗采用基于徑向基內(nèi)核(RadialBasisFunction，RBF)的支持向量機(jī)(SupportVectorMachine，SVM)以實現(xiàn)分類器的設(shè)計，同時使用Matlab算法分析包對讀取參數(shù)與內(nèi)核參數(shù)進(jìn)行有效開采和識別。在實驗中，分類器是定期增量更新的，這里更新周期為6h，更新對象是打了標(biāo)簽的數(shù)據(jù)集，分類器kt在周期t中由實例標(biāo)簽鍵值對Pt進(jìn)行更新。增量學(xué)習(xí)算法的性能在不同設(shè)置條件下，對分類器錯誤修正的實際效果是不同的，同時在分類器更新后這種差別又可以被最大限度地減小，在選擇潛在分類器時起到了最小化評估錯誤的作用。按照分類器性能進(jìn)行評估時，需要同時強(qiáng)調(diào)垃圾郵件和非垃圾郵件宿主機(jī)的分類效果，所以測量平均分類準(zhǔn)確率也是由這兩大類別共同計算得出的。表3中列出了周期為月計的實驗數(shù)據(jù)集，每行中的數(shù)字是具有郵件行為的宿主機(jī)數(shù)量，垃圾郵件宿主機(jī)數(shù)量以及非垃圾郵件宿主機(jī)數(shù)量。對于每一個實例來說，數(shù)據(jù)集中的un包含了第2章特征分析模型中介紹的八元組向量中的SMTP行為，每一個un的標(biāo)簽都被打上了垃圾郵件(vn=+1)或非垃圾郵件(vn=-1)。

表3 2015-11至2016-04校園網(wǎng)內(nèi)垃圾郵件宿主機(jī)統(tǒng)計

在不同E0和E(E代表E0的權(quán)衡結(jié)果，1代表校正，0表示不校正)調(diào)節(jié)系數(shù)背景下，針對混合郵件集的增量學(xué)習(xí)算法檢測結(jié)果如表4所示，實驗中嘗試了多種E0和E值情況下的調(diào)節(jié)效果，在表4中只列出了部分有代表性結(jié)果。根據(jù)調(diào)節(jié)效果顯示，大多數(shù)分類精確度都是通過t=2或t=3情況下的增量學(xué)習(xí)分類調(diào)節(jié)后提升的，增量學(xué)習(xí)算法當(dāng)E=1時有著最優(yōu)的檢測能力，根據(jù)結(jié)果顯示，從第2個周期開始平均分揀準(zhǔn)確度在80%以上，并保持在穩(wěn)定水平。另外，當(dāng)E0=0,E=1以及E0=0.25,E=1時，較E0=0.5,E=1時準(zhǔn)確性更穩(wěn)定。對于分類器產(chǎn)出者來說，當(dāng)一個新的分類器衍生出之后，產(chǎn)出者錯誤檢測修正權(quán)重將會變小以避免過擬合問題的出現(xiàn)，增量學(xué)習(xí)算法在本實驗中保守地采取了最小化調(diào)節(jié)效果。

表4 增量學(xué)習(xí)算法在不同參數(shù)情況下的檢測結(jié)果 %

Tab.4Detectionresultofincrementallearningalgorithmwithdifferentparameters%

增量參數(shù)(E0，E)P1P2P3P4P5P6(0，1)72．2782．2483．8783．7283．7282．37(0．25，1)72．2782．1182．7483．5182．1781．69(0．5，1)72．2782．2583．1883．4184．2878．10(0．25，0)72．2772．4276．2776．3176．3272．72(0，0)72．2772．2772．2772．2772．2772．27

表5中顯示了在不同增量學(xué)習(xí)配置類條件下的分析細(xì)節(jié)，主要為E0=0.25,E=1以及E0=0,E=1兩種情況。從表5中可以看到非垃圾郵件宿主機(jī)(NoneSpamHost，NSPH)的識別準(zhǔn)確度普遍低于80%，一些不確定的宿主機(jī)也由于其接收到了失敗響應(yīng)而被認(rèn)定為垃圾郵件宿主機(jī)。非垃圾郵件宿主機(jī)可以誤導(dǎo)預(yù)測結(jié)果并降低綜合檢測準(zhǔn)確度。在實踐中，類似錯誤識別的情況已經(jīng)通過白名單的方式給予了糾正，所以綜合準(zhǔn)確度顯著提高，對垃圾郵件宿主機(jī)(SpamHost，SPH)的3到4個周期的平均檢測識別準(zhǔn)確度達(dá)到了90%以上。垃圾郵件宿主機(jī)與非垃圾郵件宿主機(jī)基于不同增量學(xué)習(xí)配置條件下的調(diào)節(jié)預(yù)測準(zhǔn)確度結(jié)果如圖2所示。

表5 垃圾郵件宿主機(jī)與非垃圾郵件宿主機(jī)的檢測結(jié)果

圖2 SPH與NSPH基于不同增量學(xué)習(xí)配置調(diào)節(jié)的預(yù)測準(zhǔn)確度

除了討論特征權(quán)重的重要性，實驗通過手工檢測SMTP日志的研究方法，對可能誤導(dǎo)檢測結(jié)果的因素進(jìn)行了分析，主要有以下幾類情況：1)“接收者未響應(yīng)”應(yīng)答，通常是由于接收者Email地址錯誤或郵件格式出現(xiàn)了問題，特別是當(dāng)已經(jīng)超期停用的郵件地址添加在了接收列表中的情況下，很容易出現(xiàn)這種問題。出現(xiàn)類似錯誤通常的主要原因是宿主機(jī)向郵件列表進(jìn)行了宣告，稱其可以持續(xù)接收響應(yīng)，這種情況一般可以通過郵件列表或白名單列表更新并修正。在該情況中，還發(fā)現(xiàn)部分郵件地址為假造的情形，由于連續(xù)出現(xiàn)了多次雷同的郵件地址，其均投遞失敗，故確定歸類為該情況。2)郵件服務(wù)器“黑名單”應(yīng)答，該應(yīng)答意味著某些用戶賬號可能曾經(jīng)被盜取后用來發(fā)送垃圾郵件，這種情況下郵件服務(wù)器管理員可以通過解析郵件日志的方式對該賬號進(jìn)行確認(rèn)分析。3)垃圾郵件宿主機(jī)接收到新的失敗響應(yīng)，通常這種情況并不多見，但在實驗中仍然對其原因進(jìn)行了分析。當(dāng)一個實例看起來和過去的郵件賬戶中的命令相類似的話，其成功率相對較高。另外，一個新的宿主機(jī)在觀測周期內(nèi)，只會初始化少量的SMTP會話，其觀測行為的缺乏可能是錯分類中偶然的結(jié)果。

垃圾郵件發(fā)送者往往都會企圖躲避檢測，但躲避畢竟不可能總是成功的，因為其無法控制外部郵件服務(wù)器，根據(jù)表2中的失敗原因鍵值歸類情況，垃圾郵件發(fā)送者需要通過域認(rèn)證，在垃圾郵件會話中避開非正常的命令，并且頻繁地拒絕傳遞垃圾郵件。郵件接收者地址列表需要很仔細(xì)地采集以確保列表中的每一項都是有效的，因為郵件地址可能是非正確的，或者已經(jīng)過期。然而在網(wǎng)頁或磁盤組中檢索郵件地址往往是不精確的，垃圾郵件發(fā)送者也不可能在海量數(shù)據(jù)中手工認(rèn)證郵件地址的有效性，但任何非正確的轉(zhuǎn)發(fā)或向過期地址的轉(zhuǎn)發(fā)都將導(dǎo)致失敗的結(jié)果。另外，郵件服務(wù)器列出了一個黑名單以阻止垃圾郵件的進(jìn)入企圖，宿主機(jī)在控制了垃圾郵件轉(zhuǎn)發(fā)的同時，也會不斷補(bǔ)充更新其黑名單內(nèi)容。

本實驗與同類垃圾郵件分揀實驗相比，最本質(zhì)的不同是，本實驗使用的是增量學(xué)習(xí)算法為基礎(chǔ)的分類器，而其他實驗主要以堆疊器編碼機(jī)為主。相比較而言，使用堆疊器編碼機(jī)的分類器其優(yōu)點是分揀穩(wěn)定速度快，準(zhǔn)確度在有條件背景下能快速達(dá)到較高值；但其缺點在于通常與分揀對象數(shù)據(jù)集屬性強(qiáng)關(guān)聯(lián)，針對著名的Enron數(shù)據(jù)集則效率很高(主要體現(xiàn)在1，2,3,5版本，4版本并不穩(wěn)定)，但關(guān)聯(lián)其他類型數(shù)據(jù)集則效果并不明顯。而使用增量學(xué)習(xí)算法為基礎(chǔ)的分類器，則與數(shù)據(jù)集屬性沒有強(qiáng)關(guān)聯(lián)關(guān)系，對各種數(shù)據(jù)集效果差異并不明顯，但分揀準(zhǔn)確度提升和穩(wěn)定需要一定周期，且準(zhǔn)確度最高值低于堆疊編碼機(jī)方式。

本實驗的檢測工作依賴于對獨(dú)立宿主機(jī)的統(tǒng)計，這些獨(dú)立宿主機(jī)以IP地址為識別符號，所以對主機(jī)地址做過網(wǎng)絡(luò)地址轉(zhuǎn)換(NetworkAddressTranslation，NAT)映射的內(nèi)網(wǎng)地址，或者對使用了動態(tài)主機(jī)配置協(xié)議(DynamicHostConfigurationProtocol，DHCP)獲取的地址而言，可能會存在不確定性。對于前者來說，網(wǎng)絡(luò)管理員仍可以識別近似源地址繼而分析其垃圾郵件行為，但需要對NAT所對應(yīng)的真實設(shè)備進(jìn)行處理；對于后者而言，垃圾郵件宿主機(jī)可能被認(rèn)為來自于多個源，同樣地，網(wǎng)絡(luò)管理員可以對實際分配IP地址的DHCP服務(wù)器進(jìn)行分析，以查找到真實的地址源。最難處理的情況是由移動終端獲取到一個動態(tài)IP地址，并且該地址又是做過NAT映射的。當(dāng)一個移動終端在某一個點稍作停留，其垃圾郵件發(fā)送行為可能就會演變得非常嚴(yán)重，除非當(dāng)前垃圾郵件已經(jīng)造成了擁堵。因此，一個可能的解決方案是，通過灰名單的方式僅僅阻塞該IP地址接收擁堵失敗消息，如果該源是一個正常的郵件服務(wù)器，一段時間后它將會再次發(fā)起請求。該途徑至少阻止了垃圾郵件移動終端對其停留區(qū)域其他終端的垃圾郵件的轉(zhuǎn)發(fā)。

4 結(jié)語

本文使用了增量學(xué)習(xí)算法用于垃圾郵件宿主機(jī)的檢測工作，該工作基于大量的SMTP會話中嵌套的成功及失敗轉(zhuǎn)發(fā)消息，以及其中嵌入的郵件服務(wù)器信息。增量學(xué)習(xí)算法可以有效地根據(jù)待檢測者情況調(diào)節(jié)分類器，以適配垃圾郵件宿主機(jī)的多變行為，故而垃圾郵件發(fā)送行為可以被識別甚至被弱化。實驗結(jié)果顯示，增量學(xué)習(xí)算法可以對檢測者在很短的周期內(nèi)進(jìn)行調(diào)節(jié)，并且檢測成功率可以大幅度提升。特征分析結(jié)果說明對于垃圾郵件宿主機(jī)檢測來說，IP黑名單是其中最重要的特征。對垃圾郵件行為的觀測是通過SMTP綁定的，然而研究中也發(fā)現(xiàn)有些宿主機(jī)可能通過基于SSL(SecureSocketLayer)安全協(xié)議之上的簡單郵件傳輸協(xié)議(SimpleMailTransferProtocolOverSSL，SMTPS)或者純網(wǎng)頁郵件服務(wù)發(fā)送垃圾郵件，由于從加密會話中觀測純文本信息是不可能的，宿主機(jī)可以通過模仿正常郵件網(wǎng)絡(luò)行為，從而輕易躲避檢測，所以找到一種健壯而徹底的解決方法是接下來的研究方向。

)

[1] 楊峰,曹麒麟,段海新,等.基于DNSBlocklist的反垃圾郵件系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機(jī)工程與應(yīng)用,2003,39(7):11-12.(YANGF,CAOQL,DUANHX,etal.Designandimplementationofananti-spamsystembasedonDNSBlocklist[J].ComputerEngineeringandApplications, 2003, 39(7): 11-12.)

[2]LIUWY,WANGT.Onlineactivemulti-fieldlearningforefficientemailspamfiltering[J].KnowledgeandInformationSystems, 2012, 33(1): 117-136.

[3]BERTINIJR,ZHAOL,LOPESAA.AnincrementallearningalgorithmbasedontheK-associated graph for non-stationary data classification [J].Information Sciences, 2013, 246: 52-68.

[4] COSTA J, SILVA C, ANTUNES M, et al.Customized crowds and active learning to improve classification [J].Expert System with Application, 2013, 40(18): 7212-7219.

[5] HU L S, LU S X, WANG X Z.A new and informative active learning approach for support vector machine [J].Information Sciences, 2013, 244: 142-160.

[6] 王學(xué)軍,趙琳琳,王爽.基于主動學(xué)習(xí)的視頻對象提取方法[J].吉林大學(xué)學(xué)報:工學(xué)版,2013,43(S1):51-54.(WANG X J, ZHAO L L, WANG S.Video object extraction method based on active learning SVM [J].Journal of Jilin University (Engineering and Technology Edition), 2013, 43(S1): 51-54.)

[7] 丁文軍,薛安榮.基于SVM的Web文本快速增量分類算法[J].計算機(jī)應(yīng)用研究,2012,29(4):1275-1278.(DING W J, XUE A R.Fast incremental learning SVM for Web text classification[J].Application Research of Computers, 2012, 29(4): 1275-1278.)

[8] LENG Y, XU X Y, QI G H.Combining active learning and semi-supervised learning to construct SVM classifier [J].Knowledge Based Systems, 2013, 44(5): 121-131.

[9] 劉伍穎,王挺.集成學(xué)習(xí)和主動學(xué)習(xí)相結(jié)合的個性化垃圾郵件過濾[J].計算機(jī)工程與科學(xué),2011,33(9):34-41.(LIU W Y, WANG T.Ensemble Learning and active learning based personal spam email filtering [J].Computer Engineering & Science, 2011, 33(9): 34-41.)

[10] ALI HAJI N, IBRAHIM N S.Porter stemming algorithm for semantic checking [EB/OL].[2016-07-16].https://www.researchgate.net/profile/Noraida_Haji_Ali/publication/260385215_Porter_Stemming_Algorithm_for_Semantic_Checking/links/5584e9d708ae7bc2f448474f.pdf.

[11] 吳偉寧,劉揚(yáng),郭茂祖.基于采樣策略的主動學(xué)習(xí)算法研究進(jìn)展[J].計算機(jī)研究與發(fā)展,2012,49(6):1162-1173.(WU W N, LIU Y, GUO M Z.Advances in active learning algorithms based on sampling strategy [J].Journal of Computer Research and Development, 2012,49(6): 1162-1173.)

[12] 李艷濤,馮偉森.堆疊去噪自編碼器在垃圾郵件過濾中的應(yīng)用[J].計算機(jī)應(yīng)用,2015,35(11):3256-3260.(LI Y T, FENG W S.Application of stacked denoising autoencoder in spamming filtering [J].Journal of Computer Applications, 2015, 35(11): 3256-3260.)

[13] YANG J M, LIU Y N, ZHU X D, et al.A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization [J].Information Processing & Management, 2012, 48(4): 741-754.

[14] 沈承恩,何軍,鄧揚(yáng).基于改進(jìn)堆疊自動編碼機(jī)的垃圾郵件分類[J].計算機(jī)應(yīng)用,2016,36(1):159-162.(SHEN C E, HE J, DENG Y.Spam filtering based on modified stack auto-encoder [J].Journal of Computer Applications, 2016, 36(1): 158-162.)[15] 張文興,樊捷杰.基于KKT和超球結(jié)構(gòu)的增量SVM算法的云架構(gòu)入侵檢測系統(tǒng)[J].計算機(jī)應(yīng)用,2015,35(10):2886-2890.(ZHANG W X, FAN J J.Cloud architecture intrusion detection system based on KKT condition and hyper-sphere incremental SVM algorithm [J].Journal of Computer Applications, 2015, 35(10): 2886-2890.)

This work is supported by the Digital Campus Construction Project of Nanjing Normal University (2013JSJG069).

CHEN Bin, born in 1978, Ph.D., engineer.His research interests include distributed computing, cloud computing.

DONG Yizhou, born in 1978, experimentalist.His research interests include Internet of things application.

MAO Mingrong, born in 1958, senior experimentalist.His research interests include network application.

Spam detection model of campus network based on incremental learning algorithm

CHEN Bin*, DONG Yizhou, MAO Mingrong

(InformatizationOffice,NanjingNormalUniversity,NanjingJiangsu210023,China)

Concerning the problem brought by a large number of spam, an incremental passive attack learning algorithm was proposed.The passive attack learning method was based on the Simple Mail Transfer Protocol (SMTP) session log initiated by the email host in the campus during half a year.Analysis on the status of delivery rate and many types of failure message of the host behavior in the session record was conducted, and the effective adaptation was ultimately achieved by detecting spam source host behavior on the recent email classification.The experimental results show that after implementing several rounds of classification strategy adjustment, the detection accuracy of the proposed model can reach 94.7%.The design is very useful to effectively detect internal spam host and control the spam from the source.

spam host; Simple Mail Transfer Protocol (SMTP) session; incremental learning; classifier; failure information

2016-08-04;

2016-09-13。基金項目:南京師范大學(xué)數(shù)字校園建設(shè)研究項目(2013JSJG069)。

陳斌(1978—)，男，江蘇南京人，工程師，博士，CCF會員，主要研究方向：分布式計算、云計算；東一舟(1978—)，男，江蘇海門人，實驗師，主要研究方向：物聯(lián)網(wǎng)應(yīng)用；毛明榮(1958—)，男，江蘇靖江人，高級實驗師，主要研究方向：網(wǎng)絡(luò)應(yīng)用。

1001-9081(2017)01-0206-06

10.11772/j.issn.1001-9081.2017.01.0206

TP393.08

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于增量學(xué)習(xí)算法的校園網(wǎng)垃圾郵件檢測模型

0 引言

1 相關(guān)工作

2 垃圾郵件行為特征分析及檢測模型

3 實驗及分析

4 結(jié)語