張宇帆 馮為華 方家茜 寧波大紅鷹學院
淺析郵件系統(tǒng)中垃圾郵件過濾技術(shù)
張宇帆 馮為華 方家茜 寧波大紅鷹學院
作為現(xiàn)代社會中人們交流的一種重要方式,郵件對于提高用戶之間的溝通效率具有重要作用。然而在電子郵件的大量應(yīng)用過程中,垃圾郵件也逐漸嶄露頭角。對于用戶來說,垃圾郵件不僅需要占用較多的時間精力去處理,其還會浪費大量的存儲與寬帶資源。所以,加強有關(guān)郵件系統(tǒng)垃圾郵件過濾技術(shù)的研究,對于改善郵件使用現(xiàn)狀具有重要的現(xiàn)實意義。在當今社會中,人與人之間聯(lián)系的方式變得越來越方便快捷,電子郵件自然成了為當下人們互相聯(lián)系的新寵。
電子郵件 安全 郵件過濾
垃圾郵件是說通過非正當途徑甚至違法途徑傳遞的用來推廣違法,犯罪,暴力血腥等限制內(nèi)容的郵件。
截獲包含對互聯(lián)網(wǎng)不利信息的郵件并監(jiān)管是郵件審查制度的主流規(guī)劃思路,按照這種設(shè)計思路,一般把互聯(lián)網(wǎng)郵件的過濾系統(tǒng)的基礎(chǔ)能力分為這樣幾種模組:
(1)使用專門的客戶端程序能夠?qū)ξkU郵件執(zhí)行檢查,同時利用遠程操縱軟件對程序執(zhí)行狀況進行監(jiān)視與管控;(2)檢查過濾信息報告,對郵件內(nèi)信息進行排列;(3)截取信息報告,對信息執(zhí)行分割處理。
按照規(guī)定的IP地址信息和郵件發(fā)送IP等檢測關(guān)鍵字對郵件執(zhí)行收取,并分析郵件解碼后的相關(guān)編碼,還原郵件中最初的內(nèi)容,在還原郵件的過程中對敏感詞匯執(zhí)行搜索,對內(nèi)容可能包含違法信息的郵件做出記錄。
互聯(lián)網(wǎng)郵件的過濾功能是目前屏蔽垃圾郵件的核心科技,一般從兩個角度著手處理,第一個角度是使用電腦程序進行屏蔽垃圾郵件,而針對互聯(lián)網(wǎng)內(nèi)部的垃圾郵件的屏蔽和刪除一般都是從郵件平臺方的服務(wù)器著手進行屏蔽和處理,也就是把郵件過濾系統(tǒng)放置在郵件傳遞平臺上對郵件進行過濾并找到垃圾郵件來處理。
當互聯(lián)網(wǎng)上的郵件經(jīng)過各種不同渠道平臺傳遞的時候,郵件信息過濾端口把挑選出來的垃圾郵件相關(guān)信息上傳至中轉(zhuǎn)服務(wù)器,收件人在處理完成前無法進行瀏覽,需要等待郵件中轉(zhuǎn)站的后續(xù)通知。郵件過濾中轉(zhuǎn)站一般是對郵件內(nèi)容里的文本內(nèi)容,附帶程序,圖像等關(guān)鍵信息通過檢索關(guān)鍵字等進行處理。郵件過濾中轉(zhuǎn)站一般依據(jù)事先設(shè)置好的規(guī)定和要求執(zhí)行對郵件信息的檢查,同時依靠多方并進的工作方式完成對多封電子郵件的共同檢索,分析,排查,郵件過濾中轉(zhuǎn)站還可以按照對單獨詞句的方泓福情況對郵件內(nèi)容有無非法進行定性。
2.1 PDF文檔的文本過濾技術(shù)
一般來說,文本體,文本尾,文本頭,重疊引用表格是PDF算法框架的基礎(chǔ)構(gòu)成元素,文本體一般嵌有許多PDF對接目標,這些元素的重組就能夠重現(xiàn)PDF格式文件的圖形,網(wǎng)頁,文字等傳統(tǒng)郵件的內(nèi)容,文本尾一般來記錄重疊引用表格的位置,并且依據(jù)文本體的根目錄對保密處理的文件進行記錄,文本頭一般記錄編寫文本所選擇的PDF規(guī)定版本編號,經(jīng)常會刪除PDF的首行地址。重疊引用表格是一種間接目標位置檢索表格,可以完成對目標的不定時存檔。使用文本尾得到的資料,PDF相關(guān)組件可以截取。檢查文本尾存儲的資料,PDF服務(wù)器可以截取完整的PDF文本和重疊引用表格的原始目標,從而視線對文本的存檔。
PDF文本是一種樹突分叉形狀的結(jié)構(gòu),主要枝干文本構(gòu)造是文本中間目標層面聯(lián)系的具體表現(xiàn)。文本構(gòu)造中原始目標是樹根端點,斷點之下分成四個主要分支:網(wǎng)頁分支,標記分支,工作線路分支,名稱分支。
PDF文本的物理格式用于對文字在頁面上的顯示方式的分析,基本有文字字體、位置、大小、顏色等屬性描述。在大量PDF文件中為降低文件占用大小,通常會將文本進行deflate壓縮編碼。對于壓縮完成的文本只有在解碼完成后才能繼續(xù)進行分析、描述研究。
2.2 HTML文檔的文本過濾技術(shù)
超文本標識算法HTML是網(wǎng)頁的通用算法,是建立可瀏覽網(wǎng)頁和公布網(wǎng)頁資料的模式,是建立一個網(wǎng)頁的基石,是管理網(wǎng)頁客戶端在桌面上展示文本圖像的重要技術(shù)。HTML的核心技能是針對在不同APP商店上利用鏈接的超文本文檔執(zhí)行編程,其標識步驟可以表現(xiàn)出超文本的文件、在網(wǎng)上展示影音、圖像、電子郵件、新聞等資料內(nèi)容。
2.3 MS-Word/PowerPoint文檔的文本過濾技術(shù)
在Microsoft提供的Office產(chǎn)品中,基本都具有OLE Automation自動化程序接口。若用戶采用Script、VBA或VB使用Office功能,則要比簡單的使用VC要容易很多。如在使用WORD軟件時,將菜單“工具(T)宏(M)錄制新宏(R)”調(diào)出的過程中,程序就對用戶在WORD中采取的基本鍵盤與菜單操作過程都記錄并儲存下來,以利于下次繼續(xù)調(diào)用。而在對這些操作記錄進行儲存時,便是應(yīng)用了VBA程序。
垃圾郵件過濾技能的使用情況會直接影響到電子郵件服務(wù)方的運營穩(wěn)定與否,所以,有關(guān)科技和科研工作人員需要強化對相關(guān)電子郵件中垃圾郵件過濾技能的研究,歸納科學的過濾方式和手段,慢慢填補過濾垃圾郵件技術(shù)中的短板內(nèi)容,為建立健康的網(wǎng)絡(luò)環(huán)境增磚添瓦。
[1]梁志罡.電子郵件病毒傳播模型的研究[J].計算機技術(shù)與發(fā)展.2011(01)
[2]繆寧,歐蕾.淺談垃圾郵件的危害及對策[J].電腦知識與技術(shù).2010(16)