国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合AHP和貝葉斯算法的郵件過濾模型

2015-08-08 01:57:17李苑曾莉
電腦知識與技術(shù) 2015年15期

李苑 曾莉

摘要:在大數(shù)據(jù)時(shí)代的背景下,電子郵件給人們帶來了前所未有的機(jī)遇與挑戰(zhàn)。該文對現(xiàn)有的垃圾郵件過濾系統(tǒng)進(jìn)行了補(bǔ)充。基于AHP方法的多級檢索與建立在貝葉斯算法之上的詞庫匹配,由逐級檢索的量化結(jié)果綜合判定其是否為垃圾郵件。該文提出的基于貝葉斯算法建立的多級檢索模型具有定量分析與定性分析相結(jié)合的優(yōu)點(diǎn)。該模型為垃圾郵件過濾系統(tǒng)的完善提供了新思路。

關(guān)鍵詞:AHP分層分析;多級檢索;貝葉斯算法

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)15-0158-03

Abstract: E-mail brings unprecedented chances and challenges with the development of big data.This thesis supplements the existing filtering spam system. The multistage retrieval based on AHP matches with the lexicon of affixes and words which is built up by Bayesian algorithm. Then we decide whether it is spam by the quantitative results of stepwise retrieval. The layered retrieval model based on Bayesian algorithm has an advantage of combination between quantitative and qualitative analysis. This model provides a new idea for improving the filtering spam system.

Key words: Analytic Hierarchy Process(AHP);Multistage Retrieval;Bayesian Algorithm

電子郵件是指用電子手段傳輸信息,其中包括了信件、數(shù)據(jù)、圖片等內(nèi)容,隨著用戶的需求不斷增加,大量的電子郵件涌現(xiàn)。電子郵件是在網(wǎng)絡(luò)上備受喜愛的一種溝通方式,由于接受者和發(fā)送者都是人,所以人們更期望達(dá)到人性化的服務(wù)方式。在虛擬網(wǎng)絡(luò)世界中的電子郵件的工作方式與現(xiàn)實(shí)生活中的郵寄包裹快遞的方式十分相似,電子郵件服務(wù)由專門的服務(wù)器系統(tǒng)提供。

如今電子郵件發(fā)展迅猛,給我們帶來機(jī)遇的同時(shí)也帶來了挑戰(zhàn)。垃圾郵件的出現(xiàn)給人們帶來了巨大的困擾。其中可能包含木馬病毒、盜取信息、廣告等內(nèi)容,因此人們對于此類郵件的處理十分關(guān)注。垃圾郵件的危害不言而喻,占用網(wǎng)速拉低有效信息的傳輸效率;木馬病毒降低電腦中信息安全性,這一系列的問題都亟待解決[1]。本文建立的郵件過濾模型可以將郵件進(jìn)行多級檢索與建立的詞庫匹配,判定是否為垃圾郵件[2]。

1相關(guān)理論

1.1 AHP分層分析

層次分析法是在20世紀(jì)70年代中期時(shí)被提出的,是一種定性和定量分析相結(jié)合的層次化、系統(tǒng)化的分析方法。在處理較為復(fù)雜得多決策問題上的實(shí)用性較高。AHP通過分析復(fù)雜問題包含的因素及其相互聯(lián)系,將問題分解為不同要素,并將這些要素歸并為不同的層次,從而形成多層次結(jié)構(gòu),在每一層次上可按照某一規(guī)定準(zhǔn)則,對該層要素進(jìn)行逐對比較,建立判斷矩陣,通過計(jì)算判斷矩陣的最大特征值和對應(yīng)的正交化向量,得出該層要素對于該項(xiàng)準(zhǔn)則的權(quán)重,在這個(gè)基礎(chǔ)上計(jì)算出各層次要素對于總體目標(biāo)的組合權(quán)重。從而得出不同設(shè)想方案中的權(quán)值,為最終結(jié)果提供可靠依據(jù)[3]。

1.2貝葉斯過濾技術(shù)

貝葉斯分類算法是基于概率統(tǒng)計(jì)原理的一種分類方法,它具有簡單、運(yùn)算速度快、分類精度高的優(yōu)點(diǎn),被廣泛地應(yīng)用在反垃圾郵件的產(chǎn)品中[4]。使用貝葉斯統(tǒng)計(jì)分析,需要初始化其數(shù)據(jù)庫。根據(jù)需求收集適合系統(tǒng)的垃圾郵件和正常郵件詞匯集,通過“貝葉斯數(shù)據(jù)庫初始化”功能進(jìn)行貝葉斯數(shù)據(jù)初始化。通過“白名單”降低誤報(bào)率,“黑名單”降低漏過率。兩種方法較為有效但仍存在不足,使垃圾郵件過濾達(dá)不到令人滿意的效果。垃圾郵件發(fā)送者為躲避過濾技術(shù)的過濾,不斷更新策略使垃圾郵件層出不窮?;诟怕式y(tǒng)計(jì)的過濾技術(shù)可以自動適應(yīng)垃圾郵件的變化。對郵件的內(nèi)容特征進(jìn)行提取并制定規(guī)則,或是計(jì)算該特征出現(xiàn)的概率來確定郵件是否是垃圾郵件。但基于內(nèi)容的垃圾郵件過濾方法要隨著垃圾郵件的特征改變,重新設(shè)定或再次訓(xùn)練來適應(yīng)垃圾郵件新策略。貝葉斯算法提供了推理的一種概率手段,是一種后驗(yàn)概率。它是基于如下假定,即待考察的數(shù)據(jù)的量遵循某種概率分布,且可根據(jù)這些概率及已觀察到的數(shù)據(jù)進(jìn)行推理。

2郵件過濾模型建立

2.1多級檢索模型

在英文郵件過濾的過程中對于建立一個(gè)適當(dāng)?shù)臄?shù)學(xué)模型是十分必要的。由于每個(gè)英文單詞是由空格或者標(biāo)點(diǎn)符號進(jìn)行劃分的,較容易區(qū)分單詞所在位置同時(shí)減少了關(guān)于語義的歧義性。在英文中單詞有兩大基本部分組成:詞綴和詞根。一般單詞均符合這樣的構(gòu)成,在記憶單詞時(shí)經(jīng)常根據(jù)相應(yīng)的前綴和后綴進(jìn)行。在構(gòu)詞法中詞綴均代表一定的含義,例如“un”表示“不、無、非、沒有”等意思。因此對于任意某一個(gè)單詞可根據(jù)相應(yīng)的前綴或后綴進(jìn)行詞義的大概猜測,同樣也可以根據(jù)這個(gè)方法對單詞進(jìn)行初步劃分。即根據(jù)詞綴對文本中的單詞進(jìn)行初步檢索,將此過程的檢索結(jié)果作為二級檢索基礎(chǔ)。

為提高檢索速度,可從開頭和結(jié)尾兩部分同時(shí)對全文檢索,分別針對前綴和后綴。將對于前綴和后綴檢索設(shè)為一級檢索。本次檢索得到的結(jié)果將作為下一級檢索的重要基礎(chǔ)。經(jīng)過一級詞綴檢索后的單詞在相對應(yīng)的詞綴下重新進(jìn)行檢索為二級檢索。由于單詞的自然劃分可以減少對于單詞的歧義劃分等。多級檢索模型是基于AHP分層分析方法進(jìn)行改進(jìn)而建立的。待檢索的文本為系統(tǒng),文本中的各個(gè)單詞是最小的要素,詞綴和單詞為所劃分的層次。在完整的系統(tǒng)下,建立不同的層次劃分可以得到相應(yīng)的矩陣以及各要素的權(quán)重。通過權(quán)重可顯示該單詞出現(xiàn)的時(shí)候,文本為垃圾郵件的可能性大小。將具體的量化判定是否為垃圾郵件的過程。該模型也可對用其他方法分類處理的郵件進(jìn)行檢查,驗(yàn)證已使用的方法是否判定準(zhǔn)確。

2.2貝葉斯后驗(yàn)概率方法建立詞庫

郵件過濾模型需重新建立詞庫,本文采用改進(jìn)后的貝葉斯算法建立。具體建立步驟如下:

1) 統(tǒng)計(jì)并整理已分類的電子郵件,分別統(tǒng)計(jì)垃圾郵件與正常郵件的英文文本中所含單詞總數(shù)[S]、[N]。

2) 將郵件中的單詞按詞綴分類整理統(tǒng)計(jì)詞綴首字母為[a,b,...,z]的單詞總數(shù),按照數(shù)量由多到少的順序建立hashtable_spam哈希表與hashtable_normal哈希表[10]。

3) 統(tǒng)計(jì)垃圾郵件與正常郵件中各詞綴所含單詞總數(shù),計(jì)算出各詞綴在垃圾郵件、正常郵件中的概率。設(shè)[m1]:該詞綴[wi]在垃圾郵件中所含單詞總數(shù),[M1]:垃圾郵件中單詞總數(shù)[S]; [m2]:該詞綴[wi]在垃圾郵件中所含單詞總數(shù),[M2]正常郵件中單詞總數(shù)[N].[pi=m1M1]、[Pi=m2M2,]。按詞綴在郵件中出現(xiàn)的概率由大到小排序并存儲于樹中。

4) 統(tǒng)計(jì)并計(jì)算在垃圾郵件、正常郵件中各單詞在其所屬詞綴下出現(xiàn)的概率。設(shè)[m3]:該單詞在垃圾郵件中出現(xiàn)的次數(shù),[M3]:該單詞所屬的垃圾詞綴中單詞總數(shù),[m4]:該單詞在正常郵件中出現(xiàn)的次數(shù),[M4]:該單詞所屬的正常詞綴中單詞總數(shù) [qi=m3M3],[Qi=m4M4]。按單詞在其所屬詞綴下出現(xiàn)的概率由大到小排序存儲于樹中。

5) 通過哈希表存儲數(shù)據(jù),查找根節(jié)點(diǎn)的地址。根據(jù)該地址進(jìn)入樹進(jìn)行比較配對,從而得到確定的垃圾單詞的概率進(jìn)而推斷,該郵件是垃圾郵件的概率。設(shè)[A]為垃圾郵件、[B]為正常郵件,根據(jù)整理的已分類郵件計(jì)算出垃圾郵件的概率。設(shè)[t]:垃圾郵件數(shù)目,[T]:郵件總數(shù)。[PA=tT],正常郵件的概率[P(B)=1-P(A)]。[w1,w2,...,wn]為相應(yīng)的詞綴,則[P(Awi)]是在郵件中出現(xiàn)詞綴[wi]時(shí),該郵件為垃圾郵件的條件概率[P(Awi)=pi×P(A)pi×P(A)+Pi×P(B)]。[d1,d2,...,dn]是該詞綴下對應(yīng)的單詞,則[P(widj)]為郵件中出現(xiàn)單詞[dj]時(shí),該單詞包含在垃圾詞綴[wi]中的條件概率[P(widj)=pi×qjpi×qj+Pi×Qj]。

(6)建立新的哈希表與樹:根據(jù)詞綴首字母建立新的hashtable_probably哈希表,并建立新的樹存儲[P(Awi)]、[P(widj)]。

2.3郵件過濾系統(tǒng)的建立

預(yù)處理部分:對于文本的預(yù)處理可以為郵件的過濾節(jié)約較多的時(shí)間和精力。1) 過濾掉冠詞、介詞、連詞如“the、to、and”等;2)過濾特定的標(biāo)點(diǎn)如《》、[]、{}等;3)過濾數(shù)和其他語言; 4)將大寫全部轉(zhuǎn)化為小寫;5)保留句號、逗號、嘆號等可分割句子的標(biāo)點(diǎn)。

多級檢索部分:將接收到的郵件進(jìn)行多級檢索,從文本的開頭和結(jié)尾同時(shí)進(jìn)行,降低檢索所消耗的時(shí)間,多級檢索是建立在AHP基礎(chǔ)上的。第一級檢索:將統(tǒng)計(jì)垃圾郵件、正常郵件得到的詞綴分別列成判定方陣,以各詞綴的后驗(yàn)概率大小作為其重量并兩兩作比,所得比值為該詞綴在本層分析中的權(quán)重。因詞綴的數(shù)量是確定的,所以詞綴的兩兩之比是確定可以得到的。第二級檢索:每一個(gè)詞綴下的單詞分別建立單詞判定矩陣,以各單詞的后驗(yàn)概率為重量并兩兩作比,得到的比值為本單詞在二級檢索中所占權(quán)重[5]。多級檢索為郵件過濾系統(tǒng)的建立奠定了基礎(chǔ)。

與詞庫匹配部分:待檢索的文本與貝葉斯算法建立的詞庫匹配,由于詞庫是配合多級檢索而建立的。因此在匹配過程中同樣分為兩級進(jìn)行。第一級匹配:詞綴匹配。根據(jù)已劃分的正常郵件詞綴庫、垃圾郵件詞綴庫,分別統(tǒng)計(jì)這些詞綴在待檢索的文本中出現(xiàn)的次數(shù)并記錄。第二級匹配:單詞匹配。在第一次的統(tǒng)計(jì)結(jié)束后,對文本中出現(xiàn)的詞綴,統(tǒng)計(jì)其下所包含的每個(gè)單詞的個(gè)數(shù)。兩級匹配后的統(tǒng)計(jì)結(jié)果按照多級檢索的權(quán)重進(jìn)行處理,所得每一級的最終結(jié)果作為判定文本是否為垃圾郵件的標(biāo)準(zhǔn)。

結(jié)果判定部分:設(shè)計(jì)判定閾值。假設(shè)閾值為a。當(dāng)計(jì)算所得結(jié)果大于閾值a時(shí),可判定為垃圾郵件,結(jié)果小于等于a時(shí),為正常郵件。由于閾值的確定需滿足不同人群的需求,因此可以根據(jù)特定的要求修改。例如時(shí)尚雜志的推送對于服裝設(shè)計(jì)師是其工作的一部分,而對科研工作者來說需求性并不大。因此要進(jìn)行相關(guān)統(tǒng)計(jì)方可設(shè)定閾值,而不能以偏概全,忽略人群需求。

3 結(jié)束語

在電子郵件廣泛應(yīng)用的今天,對于垃圾郵件的處理十分關(guān)鍵,本文利用較為成熟的貝葉斯過濾技術(shù)建立詞庫,在AHP 分層分析理論的基礎(chǔ)上建立多級檢索模型。由于搜集關(guān)于個(gè)人郵件信息存在困難,因此導(dǎo)致所統(tǒng)計(jì)的概率不是十分準(zhǔn)確。未來的工作中,首先將對郵件的搜集和概率的統(tǒng)計(jì)結(jié)果需做進(jìn)一步的完善,將統(tǒng)計(jì)結(jié)果精確化。其次,對收件人的各項(xiàng)需求做進(jìn)一步研究討論,確立符合個(gè)人需求的郵件過濾系統(tǒng)。人們需不斷完善郵件過濾系統(tǒng),以期減少垃圾郵件給我們帶來的困擾。

參考文獻(xiàn):

[1] 張明旺. 電子郵件安全技術(shù)探討[J]. 計(jì)算機(jī)安全,2012(6):76-79.

[2] 郭永健,鄭麟,郭杰. 大數(shù)據(jù)時(shí)代背景下的海量電子郵件分析[J]. 警察技術(shù),2015(1):42-45.

[3] 徐濤,史開泉. 基于粗糙集理論的AHP層次分析法[J]. 三明學(xué)院學(xué)報(bào),2006(4):416-421

[4] 王龍龍. 基于貝葉斯算法的垃圾郵件過濾系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].吉林大學(xué),2014.

[5] 史晶. 基于粗糙集和貝葉斯算法的郵件過濾系統(tǒng)的研究與應(yīng)用[D].電子科技大學(xué),2011.

[6] 勞兆利. 基于層次分析法與模糊綜合評判法的集中運(yùn)維點(diǎn)選擇優(yōu)化研究[D].上海交通大學(xué),2007.

[7] 范彥勤. 基于貝葉斯分類器的個(gè)人信用評估研究[D].西安電子科技大學(xué),2014.

[8] 施軼青. 監(jiān)督學(xué)習(xí)下的貝葉斯分類器研究[D].西安電子科技大學(xué),2011.

[9] 李發(fā)旭. 電子郵件病毒傳播網(wǎng)絡(luò)的建模與分析[J]. 微型電腦應(yīng)用,2011(2):46-48.

[10] 朱芳芳,李訓(xùn)根. 改進(jìn)的哈希表查找算法[J]. 杭州電子科技大學(xué)學(xué)報(bào),2013(5):46-49.

张北县| 广宗县| 神池县| 厦门市| 漯河市| 繁昌县| 夏河县| 蓬莱市| 营口市| 上林县| 绍兴市| 邻水| 墨竹工卡县| 湘乡市| 香格里拉县| 即墨市| 兴业县| 邻水| 炉霍县| 梧州市| 菏泽市| 抚远县| 冀州市| 汉中市| 玉溪市| 桂林市| 崇明县| 新平| 兴文县| 临高县| 康保县| 工布江达县| 正阳县| 潼关县| 夏津县| 麻江县| 家居| 土默特右旗| 淮北市| 池州市| 健康|