国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

加權(quán)LDA模型與SVM在垃圾郵件過濾中的應(yīng)用

2016-10-22 02:22:23張帆
現(xiàn)代計算機(jī) 2016年26期
關(guān)鍵詞:垃圾郵件分類器文檔

張帆

(四川大學(xué)計算機(jī)學(xué)院,成都 610000)

加權(quán)LDA模型與SVM在垃圾郵件過濾中的應(yīng)用

張帆

(四川大學(xué)計算機(jī)學(xué)院,成都610000)

基于機(jī)器學(xué)習(xí)的垃圾郵件過濾方法相較于傳統(tǒng)方法有更好的效果。文本表示方法的好壞會對分類算法產(chǎn)生影響。加權(quán)LDA模型在傳統(tǒng)LDA模型的基礎(chǔ)上引入詞權(quán)重機(jī)制,通過這種方法獲得的文本表示聯(lián)合SVM分類器對郵件進(jìn)行過濾,獲得較好的分類效果。通過對比實驗也驗證這種方法的正確性和可靠性。

垃圾郵件;LDA;詞權(quán)重

0 引言

從互聯(lián)網(wǎng)誕生至今,垃圾郵件就一直是人們致力解決的問題之一。從個人角度來看,垃圾郵件或者包含大量含有商業(yè)性質(zhì)的信息或者攜帶了對用戶有害的病毒,而從整個郵件系統(tǒng)來看,垃圾郵件不僅占用了帶寬還加重了郵件系統(tǒng)的負(fù)載。垃圾郵件過濾的方法是現(xiàn)在多數(shù)郵件系統(tǒng)通常使用的垃圾郵件過濾方法?;跈C(jī)器學(xué)習(xí)的算法相比較于基于啟發(fā)式規(guī)則和黑名單/白名單方法過濾時表現(xiàn)出了更好的效果[1]。

文本表示的方法在機(jī)器學(xué)習(xí)算法的分類器中會對分類效果造成影響。由于使用傳統(tǒng)的向量空間模型(Vector Space Model)的文本表示會包含數(shù)以萬計的特征,當(dāng)數(shù)據(jù)量較大時,分類效果并沒有達(dá)到工業(yè)應(yīng)用的要求[2]。因此,使用特征選擇技術(shù)降低數(shù)據(jù)的維數(shù)是非常重要的一個步驟。

使用LDA(Latent Dirichlet Allocation)模型選擇特征,降低了數(shù)據(jù)的維數(shù),再結(jié)合分類器可以取得較為滿意的分類結(jié)果[3]。考慮到詞的權(quán)重對于LDA模型中主題的影響,在LDA模型中引入了特征加權(quán)機(jī)制[4]。這種方法改善了LDA模型,在文本分析等相關(guān)領(lǐng)域已經(jīng)得到了初步應(yīng)用。支持向量機(jī)是一種被大家熟知的較為成熟的分類技術(shù)[5]。支持向量機(jī)的分類效果會因為數(shù)據(jù)表示方法的不同和核函數(shù)選擇的不同而變化。支持向量機(jī)這種分類方法在垃圾郵件過濾領(lǐng)域已經(jīng)得到了應(yīng)用。

本文將結(jié)合詞權(quán)重LDA模型與SVM,提出一種垃圾郵件過濾方法。

1 背景及相關(guān)工作

1.1LDA模型

LDA模型是在PLSA模型上加上了一層貝葉斯框架而形成的一種三層貝葉斯模型[3],由Blei等在在2003年提出[3]。

LDA模型中有兩個假設(shè),首先是文檔集中的所有文檔是相互獨立可以交換的,其次是文檔集中的所有單詞也都是相互獨立可以交換的,因此LDA模型也是一種詞袋模型(bag of words)。LDA模型將整個文檔集視為“文檔”、“主題”和“詞”三層結(jié)構(gòu)。文檔集中的每篇文檔都擁有特定數(shù)量的主題,主題的組合比例由Dirichlet分布生成。而隱含的主題定義為一個在整個單詞表的詞的離散分布。因此三層結(jié)構(gòu)中就包含了“文檔-主題”和“主題-詞”這兩個分布。在這其中涉及到了貝葉斯、狄利克雷分布等知識。

LDA概率圖模型如圖1所示。

在圖1中,K是每篇文檔中主題的數(shù)目,M是整個數(shù)據(jù)集中文檔的數(shù)量,Nm是文檔集中第m篇文檔中詞的數(shù)目。α是“文檔-主題”分布的Dirichlet先驗參數(shù),Zm,n是第m篇文檔中第n個單詞所屬的主題,Wm,n是第m篇文檔中的第n個單詞,θm表示的是第m篇文檔的主題概率分布,它是一個K維的向量,而φk是第K個話題的詞分布,是個V維向量(V是整個單詞表的詞的數(shù)目)。

圖1 LDA 主題模型圖

對于一個文檔集來說,Wm,n是可以直接觀測到的已知變量,α和β則是給定的先驗值,θm和φk是模型中未知的隱含變量,也是最終需要估計的變量。

LDA模型生成每個文本dm的過程就可以表示成:

(1)從整個文檔庫中選擇一個文檔dm,從參數(shù)為α的Dirichlet分布中得到該文檔的主題概率分布θm;

(2)從參數(shù)為β的Dirichlet分布中得到多項分布φz,作為話題Z在詞上的分布;

(3)對于文本dm中的第i個單詞wd,I:

①根據(jù)多項分布Zd,i~Mult(θm),得到主題Zd,i。

②根據(jù)多項分布Wd,i~Mult(φz)得到詞Wd,i。

LDA模型中的兩個重要參數(shù)θ和φ需要通過估計來獲得其值。在當(dāng)前LDA模型中通常使用Gibbs采樣來估計這兩個參數(shù)的值[7]。Gibbs采樣通過構(gòu)造符合馬爾可夫鏈的細(xì)致平穩(wěn)條件的轉(zhuǎn)移矩陣的方法,來使在采樣過程中獲得的”文檔-主題”,”主題-詞”分布最終收斂。經(jīng)過計算后驗概率得到的Gibbs采樣的計算公式為:

公式1的右邊其實就是p(word|topic)和p(topic| doc),即θ和φ,所以θ和φ可以通過采樣公式計算出來。θ和φ的計算公式可以表示為:

1.2支持向量機(jī)

支持向量機(jī)的主要解決的是二分類問題,它有著堅實的統(tǒng)計學(xué)理論基礎(chǔ)[8]。支持向量機(jī)的主要思想就是在樣本集中找到一個最優(yōu)的分割平面來使得兩類樣本的分類間隔最大,通過這種方式可以使分類錯誤率降低,因此支持向量機(jī)相對于分類方法來說有著較高的分類準(zhǔn)確率。

為了獲得分類間隔最大的超平面H,該分類問題可以描述成一個二次規(guī)劃問題:

通過求解ω和b的值,獲得判別函數(shù)和分類函數(shù),如公式(6)和公式(7)所示:

因為文章的重點不在于支持向量機(jī),對于其中參數(shù)問題的求解方法在這里不再贅述,具體可以參考相關(guān)文獻(xiàn)[5]。

圖2 

1.3加權(quán)LDA模型

在LDA模型中引入特征加權(quán)機(jī)制的想法來自己于Wilson等在2010年發(fā)表的論文中[5]。在LDA模型中,認(rèn)為每個詞的權(quán)重對于主題的影響是相同的,但是在實際情況中,這種假設(shè)并不經(jīng)常成立。在文檔中,某些詞對于主題的影響相對于文檔中的其他詞來說明顯有著更加重要的作用,所以將詞的權(quán)重機(jī)制引入LDA模型中是與實際相符的。

詞的權(quán)重通過計算詞和文本間的點互信息(Pointwise Mutual Information:PMI)來獲得。詞的權(quán)重的計算公式表示如下:

公式8中(wi|d)表示在文檔d中單詞wi出現(xiàn)的次數(shù),而p(wi)表示的在整個文檔集中單詞wi出現(xiàn)的次數(shù)。

點互信息通常用于詞對中,用來表示詞對中的詞的相關(guān)程度。Wilson將其用于詞和文本來計算詞的權(quán)重。通過上述公式計算到每個詞的權(quán)重后,再將權(quán)重引入到Gibbs采樣的過程中。

在Gibbs采樣的過程中,當(dāng)每次把文檔d中的一個詞d分配給主題k后,它的值不再增加1,改為增加這個詞的權(quán)重。用公式表示為:

公式(9)中weight就是特征詞的權(quán)重。從上面的公式中也可以看出,原始的LDA模型中的參數(shù)計算公式就是把每個詞的權(quán)重都默認(rèn)為1的情況,因此可以把原始的LDA當(dāng)做是加權(quán)LDA模型的特例。

2 實驗與分析

2.1數(shù)據(jù)集

實驗使用了5個著名的公開的數(shù)據(jù)集Enron[9]。在Enron1、Enron2和Enron3中,正常郵件的比重大,在Enron4和Enron5中垃圾郵件占的比重大。5個數(shù)據(jù)集的具體組成如下表。

表1 Enron數(shù)據(jù)集說明

2.2數(shù)據(jù)集預(yù)處理

由于在英文文檔中詞與詞之間有空格相連,所以對于這5個數(shù)據(jù)集省去了分詞的步驟。按照下面的順序?qū)?shù)據(jù)集中的文檔進(jìn)行處理:

(1)由于英語中存在時態(tài)、語態(tài)和詞性等多種變化形式,一個詞可能會有多種變形形式。所以利用詞根還原技術(shù)(Steming)將文檔集中的詞都還原成為原始詞根,減少了整個單詞表中的詞的數(shù)目。

(2)文檔中還會有一些例如“a,an,the,of”等類似的詞語,這些詞被稱為停用詞,在預(yù)處理的過程中將這些停用詞去掉,減少算法的時間。

(3)分別從垃圾郵件夾和合法郵件夾,按照30%的比例選取文件,然后合起來作為測試集,剩下的70%作為訓(xùn)練集。

2.3實驗性能測量標(biāo)準(zhǔn)

確定加權(quán)LDA模型中的隱含主題參數(shù)k的個數(shù)是整個模型參數(shù)設(shè)置的主要工作,主題數(shù)目對于整個實驗的影響也十分重要。對于隱含主題數(shù)k的確定,常使用統(tǒng)計語言模型中常用的評價指標(biāo)標(biāo)準(zhǔn)困惑度(Perplexity)來進(jìn)行選?。?]。標(biāo)準(zhǔn)困惑度是概率圖模型中常用的一種指標(biāo),用來反映數(shù)據(jù)的不確定度。標(biāo)準(zhǔn)困惑度越小,意味著模型的性能越好。加權(quán)LDA模型中的標(biāo)準(zhǔn)困惑度的計算公式如下:

Nm表示的是文檔集中第m篇文檔的單詞的數(shù)量,wi則是這一篇文檔中的第i個詞。

在對數(shù)據(jù)集中的郵件進(jìn)行分類時,將合法郵件的類標(biāo)設(shè)置為1,將垃圾的類標(biāo)設(shè)置為-1。在相關(guān)文獻(xiàn)中指出,馬修斯相關(guān)系數(shù)是對于分類問題最好的評價指標(biāo)之一[10]。馬修斯指數(shù)的計算公式表示為:

公式中的各項表示的含義如下表所示:

表2 分類混合矩陣

2.4實驗結(jié)果與分析

實驗首先通過找到較低的標(biāo)準(zhǔn)困惑度確定隱藏的主題的個數(shù),再訓(xùn)練加權(quán)LDA模型,將從模型中得到的主題參數(shù)作為每篇文檔的特征表示,達(dá)到降低維度的目的。最后再運用支持向量機(jī)作為分類器進(jìn)行分類。

在實驗過程中對k取不同的值,我們100為間隔,統(tǒng)計標(biāo)準(zhǔn)困惑度的變化,如圖2所示,為了方便表示,縱坐標(biāo)取的是標(biāo)準(zhǔn)困惑度的對數(shù)。

可以看出,標(biāo)準(zhǔn)困惑度在主題數(shù)目大概在300左右時達(dá)到最低,之后隨著主題的增多而變大,因此我們設(shè)定k的值為300。

加權(quán)LDA模型中的其他參數(shù)設(shè)置為α=50/K,β為0.01,迭代次數(shù)設(shè)置為200次。然后將主題參數(shù)作為支持向量機(jī)分類算法的輸入。為了體現(xiàn)該分類方法的效果,在五個數(shù)據(jù)集上的分類效果分別同LDA+SVM,VSM+LDA分類方法進(jìn)行對比,實驗結(jié)果如表3所示。

從上表中可以看出,加權(quán)LDA模型結(jié)合SVM作為分類器的效果在Enron1、Enron2、Enron3和Enron5上的效果要比普通的LDA模型結(jié)合SVM的分類器效果好。在Enron4上雖然分類效果稍遜,但是也沒有相差很多。總體上來看,加權(quán)LDA模型在五個數(shù)據(jù)集上的整體效果也很好,MCC值都高于了0.87,這說明了加權(quán)LDA模型結(jié)合SVM是一種相對來說合理的預(yù)測,在實際應(yīng)用中可行的。

表3 分類器實驗結(jié)果

圖2 標(biāo)準(zhǔn)困惑度隨主題數(shù)目變化情況圖

3 結(jié)語

本文將加權(quán)LDA模型與支持向量機(jī)的知識相結(jié)合,提出了一種新的分類器。在5個公開的數(shù)據(jù)量較大的數(shù)據(jù)集上進(jìn)行了測試,并同過去的一些傳統(tǒng)分類器的分類結(jié)果進(jìn)行了比較。通過實驗的結(jié)果可以發(fā)現(xiàn),本文提出的這種分類方法具有更好的效果,表明了將這種方法運用到垃圾郵件過濾中是可行的。

未來的工作將主要集中在以下兩個方面:(1)如何能夠更準(zhǔn)確地計算詞的權(quán)重。加權(quán)LDA模型中提出的權(quán)重機(jī)制并不適用于所有類型的文本,如果像微博一樣的短文本中,僅僅考慮詞頻,并不能區(qū)分不同的文本。(2)在更大的數(shù)據(jù)集上進(jìn)行實驗,諸如TRE05,TRE06等,并同開源的一些商用垃圾郵件過濾器進(jìn)行比較。

[1]CORMACK G V.Email Spam Filtering:a Systematic Review[J].Foundations and Trends in Information Retrieval,2007,1(4):335-455.

[2]Dasgupta A,Drineas P,Harb B,et al.Feature Selection Methods for Text Classification[C]/KDD 07 Research Track Papers.ACM Press,2007:230-239.

[3]Blei DM,Ng AY,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3:993-1022.

[4]Wilson AT,Chew PA.Term Weighting Schemes for Latent Dirichlet Allocation[C].Human Language Technologies:the Conference of the North American Chapter of the Association for Computational Linguistics.Association for Computational Linguistics,2010:465-473.

[5]N.Cristianin,J.Shawe-Taylor.An Introduction to Support Vector Machines and Other Kernel-Based Learning Methods[M].Cambridge University Press,2000.

[6]CHOUHAN S.Behavior Analysis of SVM Based Spam Filtering Using Various Kernel Functions and Data Representations[C].Proceedings of the 2013 International Journal of Engineering Research and Technology.Gandhinagar:ESRSA Publications,2013:3029-3036.

[7]Wang H,Cao L Y,Yao H L,et al.A Local Gibbs Sampling Automatic Inference Algorithm Based on Structural Analysis[J].Pattern Recognintion&Artificial Intelgience,2013,26(4):382-391.

[8]HSU W C,YU T Y,Support Vector Machines Parameter Selection Based on Combined Taguchi Method and Staelin Method for E-mail Spam Filtering[J].International Journal of Engineering and Technology Innovation,2012,2(2):113-125.

[9]KLIMT B,YANG Y.The Enron Corpus:a New Dataset for Email Classification Research[C].Proceedings of the 15th European Conference on Machine Learning.Berlin:Springer,2004:217-226.

[10]BALDI P,BRUNAKS,CHAUVIN Y,et al.Assessing the Accuracy of Prediction Algorithms for Classification:an Overview[J].Bioinformatics,2000,16(5):412-424.

Application of Term Weighted LDA Model with SVM in Spam Filtering

ZHANG Fan
(College of Computer Science,Sichuan University,Chengdu 610000)

Spam filtering method based on machine learning has a better result than the traditional filtering methods.Text representation affects the result of classification algorithm.Adopts the term weighted LDA on the basis of LDA model,uses term weighted LDA model and SVM to filter spam,so as to get a good classification result.The contrast experiment also verifies the validity and reliability of the method.

Spam;LDA;Term Weight

1007-1423(2016)26-0009-05DOI:10.3969/j.issn.1007-1423.2016.26.002

張帆(1991-),男,河南安陽人,碩士研究生,研究方向為機(jī)器學(xué)習(xí)

2016-07-07

2016-09-10

猜你喜歡
垃圾郵件分類器文檔
從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語單詞的起源出人意料地有趣 精讀
英語文摘(2021年10期)2021-11-22 08:02:36
有人一聲不吭向你扔了個文檔
一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測算法
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于RI碼計算的Word復(fù)制文檔鑒別
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過濾模型
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
江西省| 贡觉县| 环江| 游戏| 织金县| 东安县| 洛浦县| 祁阳县| 通州区| 赫章县| 城市| 普陀区| 嘉兴市| 古田县| 潮安县| 稻城县| 雷州市| 惠来县| 莒南县| 泸水县| 潮安县| 通化县| 新宾| 凭祥市| 长海县| 额敏县| 北碚区| 秭归县| 开化县| 泸西县| 北宁市| 梓潼县| 沙河市| 佛山市| 若羌县| 通化市| 安乡县| 石阡县| 双桥区| 宁阳县| 鸡东县|