朱俚治 朱梧檟 侯?lèi)?ài)蓮
摘要:為了改進(jìn)已有郵件過(guò)濾算法的不足之處,提出一種新的郵件過(guò)濾算法。以往的大部分過(guò)濾算法采用的都是郵件屬性精確匹配算法,并未使用模糊匹配思想,因此郵件的漏檢率較高,并且發(fā)現(xiàn)未知郵件的效率較低。針對(duì)以往郵件過(guò)濾算法中漏檢率比較高的不足之處,文中提出的郵件過(guò)濾算法的改進(jìn)思路是:首先使用傳統(tǒng)的黑白名單過(guò)濾技術(shù)對(duì)已知的郵件進(jìn)行分類(lèi),那些是正常郵件,那些是垃圾郵件。在此基礎(chǔ)之上使用相似性算法來(lái)計(jì)算未知郵件與已知郵件的相似度,從而達(dá)到對(duì)未知郵件分類(lèi)目的,最后使用MMTD算法對(duì)的郵件相似度的好壞做出衡量,并且以此為郵件過(guò)濾提供有效的依據(jù),經(jīng)過(guò)以上的三個(gè)步驟之后,最后進(jìn)行郵件的過(guò)濾。
關(guān)鍵詞:垃圾郵件;MMTD;相似性
中圖分類(lèi)號(hào):TP301.6文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:The widely used mail attributes exact matching algorithm does not use fuzzy matching ideas, so the rate of missed messages is high and the efficiency of finding the unknown message is low. This paper presented the improved spam filtering idea. First, the traditional black and white list of known email filtering technology was used to classify the messages into normal email and spam. Based on this, similarity algorithm was used to calculate the unknown email message with the known similarity, so as to achieve the unknown message classification purposes. Then, MMTD mail similarity algorithm was used to measure the quality of email message, which provides the effective basis for message filter. After the above three steps, the email messages were filtered.
Key words:spam; MMTD; similarity
1引言
正常郵件與垃圾郵件是兩種性質(zhì)的郵件,垃圾郵件是缺乏實(shí)際意義和沒(méi)有用處的郵件,因此為了保護(hù)有限的郵件資源,必須阻止垃圾郵件在網(wǎng)絡(luò)中肆意傳播。到目前為止郵件過(guò)濾研究人員已開(kāi)發(fā)出了許多郵件過(guò)濾技術(shù)。但由于垃圾郵件技術(shù)發(fā)展速度較快,單一的郵件過(guò)濾技術(shù)難以勝任某些的郵件過(guò)濾任務(wù) 。
現(xiàn)有的郵件過(guò)濾技術(shù)主要包括:①基于黑白名單郵件過(guò)濾技術(shù),②基于過(guò)濾規(guī)則的郵件過(guò)濾技術(shù),③基于郵件內(nèi)容的過(guò)濾技術(shù)[1-3]。這些郵件過(guò)濾技術(shù)都各自的優(yōu)勢(shì)同時(shí)也有不足的地方。最早出現(xiàn)的黑白名單過(guò)濾技術(shù)的缺點(diǎn)是漏檢率較高,并且效率低于基于其它的郵件過(guò)濾技術(shù)[1-3]?;趦?nèi)容過(guò)濾技術(shù)與基于貝葉斯過(guò)濾算法在當(dāng)今的郵件過(guò)濾技術(shù)中有較為廣泛的應(yīng)用,過(guò)濾郵件時(shí)誤判率有所降低[1-3]?,F(xiàn)在有以下幾種技術(shù)在郵件過(guò)濾技術(shù)中進(jìn)行應(yīng)用:決策樹(shù),使用SPF協(xié)議該改進(jìn)SMTP協(xié)議,人工免疫,ripper算法等等各種算法[3]。根據(jù)上述原因,為了將大部分垃圾郵件進(jìn)行過(guò)濾,只有將已有的過(guò)濾技術(shù)綜合應(yīng)用才能夠達(dá)到過(guò)濾郵件的目的。
本文提出的郵件過(guò)濾的算法中使用了黑白名單技術(shù),相似性計(jì)算算法和MMTD算法,該郵件過(guò)濾的思路是:①提取已知的黑白名單郵件屬性,②使用相似性算法計(jì)算未知郵件與已知郵件的相似性,③最后使用MMTD算法對(duì)相似性的計(jì)算結(jié)果做出衡量和估計(jì)。新郵件過(guò)濾算法優(yōu)點(diǎn)在于①使用了兩種近似算法:相似性計(jì)算和MMTD算法,②將傳統(tǒng)的郵件過(guò)濾技術(shù)與相似性算法相互結(jié)合,③將郵件屬性之間的精確匹配改為郵件屬性之間的相似性匹配。
2現(xiàn)有的郵件過(guò)濾技術(shù)簡(jiǎn)介
2.1二黑白名單過(guò)濾技術(shù)
在黑白名單過(guò)濾技術(shù)中:網(wǎng)絡(luò)管理人員把屬于黑名的郵件設(shè)定為垃圾郵件名單,白名單設(shè)定為正常的郵件名單。因此根據(jù)已有的新名單可以將已知的郵件進(jìn)行分類(lèi)。黑/白名單的建立是周期性的而非實(shí)時(shí)的,并且黑/白名單還很容易出錯(cuò),容易出現(xiàn)誤判的現(xiàn)象[1-4]。
2.2基于過(guò)濾規(guī)則的郵件過(guò)濾技術(shù)
基于過(guò)濾規(guī)則的郵件過(guò)濾技術(shù)是用戶(hù)根據(jù)已有的郵件信息來(lái)制定若干條郵件的過(guò)濾規(guī)則。一般來(lái)說(shuō),過(guò)濾規(guī)則通常從信頭分析、群發(fā)過(guò)濾、關(guān)鍵詞精確匹配和郵件內(nèi)容的其他特征幾個(gè)方面來(lái)進(jìn)行設(shè)置[1-4],在過(guò)濾規(guī)則中符合其中一條或多條的就認(rèn)為是垃圾郵件[1-4] 。
2.3基于郵件內(nèi)容的過(guò)濾技術(shù)
對(duì)于未知特征的新垃圾郵件,黑/白名單技術(shù)與過(guò)濾規(guī)則技術(shù)一般不能將垃圾郵件與正常郵件進(jìn)行有效的區(qū)分,這時(shí)誤判現(xiàn)象較高[1-4]。然而基于郵件內(nèi)容過(guò)濾技術(shù)的優(yōu)勢(shì)在于能夠過(guò)濾新的垃圾郵件。郵件內(nèi)容過(guò)濾技術(shù)在一定程度上能夠自動(dòng)地對(duì)這些郵件進(jìn)行識(shí)別,因此能夠近一步提高過(guò)濾系統(tǒng)的智能性,減少誤判現(xiàn)象。
因此針對(duì)目前垃圾郵件過(guò)濾技術(shù)發(fā)展的狀況,本文的作者在查閱有關(guān)的郵件過(guò)濾技術(shù)之后,提出了一種新的郵件過(guò)濾算法,以下是本文提出的郵件過(guò)濾算法描述。
3郵件的特征屬性
3.1區(qū)分垃圾郵件與正常郵件主要的屬性
①發(fā)件人地址和回復(fù)地址是否相同,②郵件抄送個(gè)數(shù),③郵件主題,④X-Mailer信頭,⑤Received:字段出現(xiàn)次數(shù),⑥是否含有偽造Received字段,⑦信體中關(guān)鍵詞個(gè)數(shù),⑧郵件附件類(lèi)型,⑨郵件正文大小[5]。
在郵件的特性中:屬性郵件正文內(nèi)容的屬性有:①信體中關(guān)鍵詞個(gè)數(shù),②郵件附件類(lèi)型,③郵件正文大小[5]。屬于郵件結(jié)構(gòu)的屬性有:①發(fā)件人地址和回復(fù)地址是否相同, ②郵件抄送個(gè)數(shù),③郵件主題,④XMailer信頭,⑤Received字段出現(xiàn)次數(shù),⑥是否含有偽造Received字段[5]。
3.2本文過(guò)濾垃圾郵件時(shí)采用的郵件屬性
郵件結(jié)構(gòu)特征屬性:①發(fā)件人地址和回復(fù)地址是否相同, ②郵件抄送個(gè)數(shù),③郵件主題,⑤Received:字段出現(xiàn)次數(shù),⑥是否含有偽造Received字段[5]。
郵件的正文內(nèi)容特征屬性:⑦信體中關(guān)鍵詞個(gè)數(shù),⑧郵件附件類(lèi)型,⑨郵件正文大小[5]。
4黑/白名單對(duì)已知的郵件進(jìn)行分類(lèi)
1)電子郵件中存在兩種屬性的郵件:①正常的郵件,②垃圾郵件。
2)黑名單的郵件是垃圾郵件,白名單的郵件是正常郵件。
5歐氏距離公式與相似性計(jì)算
5.1歐氏距離公式的簡(jiǎn)介
在聚類(lèi)算法中研究人員常常使用歐氏距離作為聚類(lèi)對(duì)象屬性之間相似性計(jì)算,常用的公式有歐氏距離公式和馬氏距離公式。因此本文采用歐氏距離作為衡量對(duì)象相似性的計(jì)算公式。
歐氏距離計(jì)算公式[6-7]:
5.3區(qū)分垃圾郵件與正常郵件主要的屬性等待識(shí)別的郵件A′與已知郵件A之間的相似性計(jì)算
函數(shù):f(x)=1-等待識(shí)別郵件的屬性已知郵件的屬性(1)
在本文中采用A′表示等待識(shí)別的郵件,用A表示已知郵件。
說(shuō)明:y=f(x)的含義是等待識(shí)別的郵件偏離與已知郵件屬性的函數(shù)。
函數(shù):g(x)=1-f(x)(2)
說(shuō)明:y=g(x)的含義是等待識(shí)別郵件與已知郵件相似性的函數(shù)。
分析和討論:
1)郵件A′與郵件A的相似性計(jì)算
(1)如果郵件A′的某個(gè)屬性值十分接近于郵件A的某個(gè)屬性值時(shí),那么XipXjp的比值將十分逼近1值。如果XipXjp的比值十分逼近1時(shí),那么函數(shù)f(x)=1-XipXjp就十分接近于0的值,這時(shí)郵件A′的屬性值偏離郵件A的屬性值將趨向于0。根據(jù)以上的分析有此結(jié)論:如果y=f(x)的值越小,則郵件A′的屬性偏離郵件A的概率就越小。
(2)如果y=f(x)的值越小,.那么g(x)=1-f(x)的值就越大,就表示郵件A′的屬性偏離郵件A屬性的概率就越小,那么郵件A′的屬性與郵件A的相似的概率就越大。根據(jù)以上的分析有此結(jié)論:此時(shí)等待識(shí)別郵件的屬性與已知郵件屬性的相似度就越強(qiáng)
2)郵件A′偏離郵件A屬性的計(jì)算
(1)如果郵件A′的某個(gè)屬性值大于郵件A的某個(gè)屬性值時(shí),那么XipXjp的比值將大于1時(shí)。當(dāng)XipXjp的比值越大時(shí),函數(shù)f(x)=1-XipXjp的值大于0的程度就越明顯,則這時(shí)郵件A′的屬性值偏離郵件A的程度就越大。
如果y=f(x)的值越大,那么g(x)=1-f(x)的值就越小,就表示郵件A′的屬性偏離郵件A的概率就越大。這時(shí)郵件A′的屬性與郵件A相似的概率就越小,則等待識(shí)別郵件的屬性與已知郵件屬性之間的相似度就越弱。
(2)如果郵件A′的某個(gè)屬性值小于郵件A的某個(gè)屬性值時(shí),那么XipXjp的比值將小于1時(shí)。當(dāng)XipXjp的比值越小時(shí),則郵件A′的屬性偏離郵件A的概率就越大。
如果y=f(x)的值越大,那么g(x)=1-f(x)的值就越小,就表示郵件A′的屬性偏離郵件A的概率就越大。這時(shí)郵件A′的屬性與郵件A的相似的概率就越小,則等待識(shí)別郵件的屬性與已知郵件屬性之間的相似度就越弱。
3)根據(jù)以上分析和討論,以下使用第5節(jié)和第6節(jié)中的MMTD算法實(shí)現(xiàn)郵件A′與郵件A屬性相似度上的匹配。
6歐氏距離公式與相似性計(jì)算
6.1中介真值程度度量知識(shí)簡(jiǎn)介
中介邏輯將事物的屬性描述成三種狀態(tài),事物屬性的兩個(gè)對(duì)立面和對(duì)立面的中間過(guò)渡狀態(tài)。在中介真值程度度量方法中,提出了事物超態(tài)屬性概念,該方法符合中介思想事物的屬性并且被劃分為五種狀態(tài):事物的兩個(gè)對(duì)立面,對(duì)立面的中間過(guò)渡狀態(tài)和事物超態(tài)對(duì)立面[12-13]。這里用符號(hào)表示為~P,P與P,超態(tài)+p與超態(tài)+p?,F(xiàn)用數(shù)軸將以上的描述的概念表達(dá)如下[12-13]:
對(duì)數(shù)軸y=f(x)表示的含義有以下說(shuō)明[12-13]:
數(shù)軸上用符號(hào)P與P分別表示事物對(duì)立面的兩個(gè)屬性,符號(hào)~P表示反對(duì)對(duì)立面的中間過(guò)渡狀態(tài)達(dá)事物的屬性。
1)如果數(shù)軸上數(shù)值點(diǎn)的位置逐步接近P,則事物A所具有P的屬性逐步增強(qiáng)
2)如果該數(shù)值點(diǎn)的位置落在真值P和 P的取范圍之間,則事物A的屬性就部分地具有P的屬性,同時(shí)又部分地具有P的屬性。
3)如果數(shù)軸上數(shù)值點(diǎn)的位置逐步接近P,則事物A所具有P的屬性逐步增強(qiáng)。
6.2距離比率函數(shù)及其定理
在中介真值程度度量的方法中,數(shù)軸上某數(shù)值點(diǎn)通過(guò)距離比率函數(shù)來(lái)計(jì)算事物所具有屬性的強(qiáng)弱。
7MMTD方法在郵件相似度計(jì)算上的應(yīng)用
7.1度量函數(shù)及其討論
度量函數(shù):y=f(x)=1-δ(1)
說(shuō)明:δ表示的含義是由歐氏距離公式計(jì)算的的兩封郵件某種屬性之間的比值,如果兩封郵件屬性的相似程度較好,那么有δ≈1。
分析和討論:
1)δ=1時(shí)
如果y=f(x)=1-δ=0,那么表示這兩封郵件的屬性完全相同。這時(shí)郵件屬性的相似性強(qiáng)。
2)δ≈1時(shí)
如果y=f(x)=1-δ≈0,那么表示這封兩郵件屬性的相似性部分強(qiáng)部分弱。
3)δ>1時(shí)
如果y=f(x)=1-δ>1,y=f(x)的值越大,那么表示這兩封郵件的屬性值就相差很大,這時(shí)郵件屬性的相似性就弱,那么這兩封郵件屬于不相同郵件的幾率就越大。
4)δ<1時(shí)
如果y=f(x)=1-δ<1,y=f(x)的值越小,那么表示這兩封郵件的屬性值就相差很大,這時(shí)郵件屬性的相似性就弱,那么這兩封郵件屬于不相同郵件的幾率就越大。
7.2使用中介對(duì)郵件相似匹配的描述
1)以下用中介真值程度度量方法對(duì)郵件A′與郵件A的相似度做以下的研究:
數(shù)軸y=f(x)上有P, ~P,P三個(gè)數(shù)據(jù)區(qū)域,P代表郵件屬性的相似性強(qiáng),P代表郵件屬性的相似性弱,~P代表郵件屬性的相似性部分強(qiáng)部分弱。
從數(shù)軸上y=f(x)可以知道,在數(shù)軸上以~P為對(duì)稱(chēng)中心,左右分別為P和P。
圖2中介真值程度度量一維函數(shù)的應(yīng)用
y=f(x)的值落在三個(gè)值域范圍(αr+εr,αl-εl),(αr-εr,αr+εr),(αl-εl,αl+εl)?!玃的區(qū)域?yàn)?(αr+εr,αl-εl),P的區(qū)域?yàn)椋é羠-εr,αr+εr),P的區(qū)域?yàn)椋é羖-εl,αl+εl)。P的真值為1,P的真值為0。
2)通過(guò)距離比率函數(shù)hT(x)對(duì)y值的計(jì)算,如果有
(1)若函數(shù)hT(x)=1,y值落在區(qū)域(αl-εl,αl+εl),則此時(shí)郵件的屬性相似性強(qiáng)。
(2)若函數(shù)hT(x)=0,y值落在區(qū)域(αr-εr,αr+εr),則此時(shí)郵件的屬性相似性弱。
(3)若函數(shù)hT(x)= d(y,αr-εr)d(αl-εl,αr+εr),y值落在區(qū)域(αr+εr,αl-εl),則此時(shí)郵件屬性的相似性部分強(qiáng)部分弱。
8郵件的過(guò)濾算法
1)使用郵件的黑/白對(duì)郵件的屬性進(jìn)行分類(lèi):①正常郵件,②垃圾郵件。
2)使用相似性計(jì)算算法對(duì)未知郵件與已知郵件相似度進(jìn)行計(jì)算。
3)使用MMTD算法對(duì)相似性的計(jì)算結(jié)果進(jìn)行判定,為郵件過(guò)濾提供有效的依據(jù)。
4)對(duì)垃圾郵件進(jìn)行過(guò)濾。
9結(jié)束語(yǔ)
為了應(yīng)對(duì)網(wǎng)絡(luò)中的垃圾郵件用戶(hù)帶來(lái)的危害性,郵件管理人員必須有效的區(qū)分垃圾郵件和正常郵件,從而將垃圾郵件從郵件中過(guò)濾除去。本文提出的郵件過(guò)濾算法采用了兩種智能性算法,相似性計(jì)算算法和MMTD算法,該算法在一定程度能夠自動(dòng)識(shí)別未知屬性的郵件,能夠減少在過(guò)濾郵件時(shí)的誤判率,提高郵過(guò)濾技術(shù)的精確性。但已知郵件的特征選取時(shí)是否具有選擇性,如何選取具有代表的郵件屬性還需要進(jìn)一步的研究。
最后該垃圾過(guò)濾技術(shù)與傳統(tǒng)垃圾過(guò)濾技術(shù)改進(jìn)之處在于:①改進(jìn)了黑白名單的郵件過(guò)濾技術(shù)不能發(fā)現(xiàn)新的垃圾郵件的缺點(diǎn),②改進(jìn)了基于過(guò)濾規(guī)則的郵件過(guò)濾技術(shù),由郵件屬性的精確匹配變?yōu)猷]件屬性的模糊匹配,③根據(jù)已知的郵件特征能夠發(fā)現(xiàn)未知的垃圾郵件。
參考文獻(xiàn)
[1]曾小寧.一種新的垃圾郵件過(guò)濾技術(shù)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2009, 26(7):98-101.
[2]范黎明.一種用于垃圾郵件過(guò)濾的中文關(guān)鍵詞匹配算法[J].河南科技大學(xué)學(xué)報(bào),2006,27(5):35-37.
[3]陳志賢.垃圾郵件過(guò)濾技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2009,26(5):1612-1615.
[4]陳治平.基于自學(xué)習(xí)K近鄰的垃圾郵件過(guò)濾算法[J].計(jì)算機(jī)應(yīng)用,2005(25):7-9.
[5]潘文鋒.基于內(nèi)容的垃圾郵件過(guò)濾研究[D].中國(guó)科學(xué)院研究生院,2004.
[6]孟海東,張玉英,宋飛燕.一種基于加權(quán)歐氏距離聚類(lèi)方法的研究[J].計(jì)算機(jī)應(yīng)用,2006,26(12):152-153.
[7]董旭,魏振軍.一種加權(quán)歐氏距離聚類(lèi)方法[J].信息工程大學(xué)學(xué)報(bào),2005, 6(1):23-25.
[8]彭洪,張東娜,吳鐵峰.惡意程序檢測(cè)的粗糙集方法[J].計(jì)算機(jī)應(yīng)用與軟件,2005,22(7):124-125.
[9]邵峰晶,于忠清,王金龍,等編著.數(shù)據(jù)挖掘原理與算法[M].科學(xué)出版社,2009.
[10]羅森林,馬駿,潘麗敏編著.數(shù)據(jù)挖掘理論與技術(shù)[M].電子工業(yè)出版時(shí),2013.
[11]MITCHELL T著.機(jī)器學(xué)習(xí)[M].機(jī)械工業(yè)出版社,2013.
[12]洪龍,肖奚安,朱梧槚.中介真值程度的度量及其應(yīng)用(I)[J].計(jì)算機(jī)學(xué)報(bào),2006,(12):2186-2193.
[13]朱梧槚,肖奚安.數(shù)學(xué)基礎(chǔ)與模糊數(shù)學(xué)基礎(chǔ)[J].自然雜志,1980,(7):723-726.