李騰飛
摘 要:基于概率的樸素貝葉斯分類器因其算法復(fù)雜度低、分類精度高而被廣泛應(yīng)用于垃圾郵件過濾領(lǐng)域。該文在對傳統(tǒng)樸素貝葉斯分類器進(jìn)行分析的同時,結(jié)合垃圾郵件過濾的特性,設(shè)計并實現(xiàn)了基于多項式樸素貝葉斯算法的垃圾郵件過濾器。該過濾器引入拉普拉斯平滑因子降低合法郵件被誤判為垃圾郵件的概率,得到了較好的分類效果。實驗結(jié)果驗證了方法的有效性。
關(guān)鍵詞:垃圾郵件分類 多項式樸素貝葉斯 網(wǎng)格搜索 平滑因子
中圖分類號:TP393.098 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2018)11(c)-0001-03
Abstract: Probability-based naive bayes classifiers are widely used in spam filtering because of their low algorithm complexity and high classification accuracy. In this paper, the traditional naive bayes classifier is analyzed, and combined with the characteristics of spam filtering, a spam filter based on polynomial naive bayes algorithm is designed and implemented. The filter introduces a Laplacian smoothing factor to reduce the probability that a legitimate mail is misjudged as spam, and a better classification effect is obtained. The experimental results verify the effectiveness of the method.
Key Words: Spam classification; Polynomial naive bayes; Grid search; Smoothing factor
隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)改變了人們傳統(tǒng)的通訊方式[1]。電子郵件因為其方便快捷而被人們廣泛接受和使用。但是郵件系統(tǒng)的安全和可靠性依然是人們關(guān)注的焦點,尤其是垃圾郵件日益泛濫的問題更加值得我們?nèi)リP(guān)注。根據(jù)中國網(wǎng)絡(luò)不良與垃圾信息舉報受理中心的數(shù)據(jù)顯示,中國網(wǎng)民平均每周收到的垃圾郵件達(dá)12封,全國網(wǎng)民每年收到的垃圾郵件總計3700億封。所以垃圾郵件嚴(yán)重干擾了正常的互聯(lián)網(wǎng)秩序,研究并設(shè)計有效的垃圾郵件過濾器具有非常重要的現(xiàn)實意義。
白名單、行為監(jiān)控、黑名單以及關(guān)鍵字過濾等是目前常用的垃圾郵件過濾技術(shù),但這些過濾技術(shù)缺乏自適應(yīng)性,面對內(nèi)容多變的垃圾郵件其過濾效果不夠理想。針對這一問題,面向內(nèi)容的多項式樸素貝葉斯過濾器不僅具有自適應(yīng)性[2],而且也可以根據(jù)用戶需求進(jìn)行個性化過濾,加之其算法復(fù)雜度低、分類精度高,故而被廣泛使用。
1 樸素貝葉斯算法
1.1 貝葉斯原理在郵件過濾中的應(yīng)用
18世紀(jì)英國學(xué)者貝葉斯提出了貝葉斯原理。根據(jù)貝葉斯原理,我們可以通過計算某事件已經(jīng)發(fā)生過的頻率來估計該事件未來發(fā)生的概率?;诖?,貝葉斯理論被廣泛應(yīng)用于文本分類中。垃圾郵件過濾是文本分類中的二分類問題。在垃圾郵件過濾中,首先把收集到的非垃圾郵件和垃圾郵件劃分為訓(xùn)練集和測試集,然后將訓(xùn)練集中的郵件用于分類器的訓(xùn)練,使用訓(xùn)練好的貝葉斯分類器對測試集的郵件進(jìn)行分類,最終將該待分類歸為概率最大的類別中去,從而準(zhǔn)確地對垃圾郵件進(jìn)行過濾[3]。
1.2 樸素貝葉斯分類器
其中:P和r分別為類別ci的正確率和召回率,TP為被正確判定為類別ci的文本數(shù)量,F(xiàn)P為被分類器錯誤判定為類別ci的文本的數(shù)量,F(xiàn)N為實際屬于類別ci但被分類器判定為其他類別的文本數(shù)量?,F(xiàn)實中,我們并不希望非郵件被錯誤劃分為垃圾郵件,也就是說在垃圾郵件分類過程中我們希望的FP值為0,即式(7)的值為1。表1列出了不同平滑因子對應(yīng)的正確率、召回率和精確率;表2列出了精確率為1時對應(yīng)的平滑因子、正確率和召回率。
從實驗結(jié)果中可以看出,改變平滑因子的大小會對分類結(jié)果產(chǎn)生顯著影響。當(dāng)取16.4、16.5、16.6或16.7時,對應(yīng)的精確率為1,且此時的正確率和召回率均不變。
4 結(jié)語
本文描述了一種基于多項式樸素貝葉斯算法的垃圾郵件過濾器的設(shè)計與實現(xiàn)方法,該方法包括數(shù)據(jù)集預(yù)處理、特征工程、分類器分類和分類性能評估4個部分。數(shù)據(jù)集預(yù)處理是指將數(shù)據(jù)讀入計算機(jī)內(nèi)并劃分訓(xùn)練集和測試集,同時進(jìn)行分詞和去停用詞操作;特征工程把預(yù)處理后的特征詞轉(zhuǎn)化為對應(yīng)的特征向量;使用特征向量訓(xùn)練多項式樸素貝葉斯分類器,把訓(xùn)練好的分類器應(yīng)用在測試集上;最后使用正確率、召回率和精確率評估分類性能。實驗結(jié)果表明該系統(tǒng)實現(xiàn)了較高精度的垃圾郵件分類,并且可以保證所有非垃圾郵件都能被正確分類。
參考文獻(xiàn)
[1] 周文霞.現(xiàn)代文本分類技術(shù)研究[J].武警學(xué)院學(xué)報,2007,23(12):93-96.
[2] 王國才.樸素貝葉斯的研究與應(yīng)用[D].重慶交通大學(xué),2010.
[3] 謝小民.基于樸素貝葉斯的垃圾郵件過濾算法設(shè)計研究[J].電子技術(shù)與軟件工程,2014(15):42-43.
[4] 張龍飛.基于互信息的樸素貝葉斯改進(jìn)模型研究[D].吉林大學(xué),2010.
[5] 楊赫,孫廣路,何勇軍.基于樸素貝葉斯模型的垃圾郵件過濾技術(shù)[J].哈爾濱理工大學(xué)學(xué)報,2014(1:49-53.
[6] 陸旭.文本挖掘中若干關(guān)鍵問題研究[M].北京:中國科學(xué)技術(shù)大學(xué)出版社,2008.
[7] 尚文倩.文本分類及其相關(guān)技術(shù)研究[D].北京交通大學(xué),2007.