国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)遺傳算法的支持向量機(jī)微信垃圾文章識(shí)別

2016-03-25 17:43梁闊洋?k
關(guān)鍵詞:特征選擇參數(shù)優(yōu)化支持向量機(jī)

梁闊洋?k

摘要:近幾年,隨著微信的快速發(fā)展和普及,微信已經(jīng)成為智能移動(dòng)設(shè)備必備的應(yīng)用之一,但與之同時(shí)也出現(xiàn)了大量微信詐騙信息、垃圾廣告等,給人們帶來(lái)了極大的困擾。本文將從搜狗微信搜索中抽取微信文章樣本,將微信垃圾文章識(shí)別看做文本分類(lèi)問(wèn)題,采用支持向量機(jī)對(duì)樣本進(jìn)行分類(lèi)模型的訓(xùn)練,并應(yīng)用改進(jìn)的遺傳算法對(duì)支持向量機(jī)的參數(shù)進(jìn)行優(yōu)化。文中詳細(xì)的介紹了改進(jìn)遺傳算法在支持向量機(jī)上的應(yīng)用,相比傳統(tǒng)的支持向量機(jī),采用改進(jìn)遺傳算法對(duì)支持向量機(jī)參數(shù)進(jìn)行優(yōu)化,提升了模型準(zhǔn)確率和優(yōu)化效率。在文章的最后進(jìn)行了由15000篇微信文章所形成的測(cè)試集上的分類(lèi)模型效果實(shí)驗(yàn),實(shí)現(xiàn)結(jié)果表明,本方法能夠達(dá)到94.7%的準(zhǔn)確率,非常準(zhǔn)確的識(shí)別微信垃圾文章。

關(guān)鍵詞:支持向量機(jī);遺傳算法;特征選擇;參數(shù)優(yōu)化;垃圾文章

中圖分類(lèi)號(hào):TP391.1文獻(xiàn)標(biāo)識(shí)碼:A

1引言

隨著微信應(yīng)用的快速發(fā)展和普及,微信已經(jīng)成為移動(dòng)智能設(shè)備中必備的應(yīng)用之一,與之同時(shí)也出現(xiàn)了大量微信詐騙信息,垃圾廣告等垃圾文章。這些信息不僅浪費(fèi)了用戶的帶寬和時(shí)間,同時(shí)也對(duì)互聯(lián)網(wǎng)的安全構(gòu)成了較大的威脅。因此如何識(shí)別此類(lèi)微信文章顯得格外重要。

傳統(tǒng)的解決方案為黑名單方法,黑名單方法收集發(fā)表垃圾文章的用戶,將用戶ID加入垃圾用戶黑名單列表。但由于微信用戶量大、并且增長(zhǎng)速度快、黑名單方法不僅實(shí)施周期長(zhǎng),并且工作量大。

微信垃圾文章識(shí)別的過(guò)程可視為一個(gè)文本分類(lèi)的過(guò)程,對(duì)于文本分類(lèi)問(wèn)題,樣本經(jīng)過(guò)特征選擇后,每一個(gè)樣本被當(dāng)做一個(gè)n維特征向量空間中的向量、作為機(jī)器學(xué)習(xí)算法的輸入。常用的機(jī)器學(xué)習(xí)方法有:K-近鄰(K-Near Neighbor)[1]、樸素貝葉斯(Na

4實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)數(shù)據(jù)來(lái)源于搜狗微信搜索數(shù)據(jù)源,實(shí)驗(yàn)共選取了5組訓(xùn)練集,和2組測(cè)試集。

第一,采用不同數(shù)量的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,記錄模型訓(xùn)練的準(zhǔn)確率、召回率、F值,如表2:

通過(guò)對(duì)不同數(shù)量的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,可以看出,當(dāng)采用TRAIN1,數(shù)量為685對(duì)模型進(jìn)行訓(xùn)練,準(zhǔn)確率、召回率、F值非常低,隨著訓(xùn)練樣本的增多,準(zhǔn)確率、召回率、F值的提升非??欤@說(shuō)明訓(xùn)練樣本數(shù)量對(duì)模型整體的訓(xùn)練效果有非常大的影響。

采用TRAIN5所訓(xùn)練的模型,進(jìn)行3組不同數(shù)量測(cè)試上的實(shí)驗(yàn),幾率其準(zhǔn)確率、召回率、F值,如表3:

從上表可以看出,使用同一訓(xùn)練集,準(zhǔn)確性稍有升高,幅度不大,表明模型是相當(dāng)穩(wěn)定的。召回率與F值稍有下降,說(shuō)明訓(xùn)練集中并沒(méi)有覆蓋所有實(shí)際情況,某些特殊實(shí)例沒(méi)有被包含進(jìn)來(lái)。

從上面兩組實(shí)驗(yàn)結(jié)果可以得到,基于改進(jìn)遺傳算法的支持向量機(jī)微信垃圾文章識(shí)別,對(duì)于搜狗微信搜索數(shù)據(jù)源具有良好的效果,其實(shí)驗(yàn)結(jié)果有益于后續(xù)研究的繼續(xù)進(jìn)行。訓(xùn)練所得模型的準(zhǔn)確率、召回率、F值能夠滿足實(shí)際應(yīng)用的需求。

5結(jié)論與展望

本文采用支持向量機(jī)對(duì)微信文章垃圾文章進(jìn)行識(shí)別,并應(yīng)用改進(jìn)的遺傳算法對(duì)支持向量機(jī)進(jìn)行參數(shù)優(yōu)化,最終得到最優(yōu)的參數(shù)組合,從了得到了能夠進(jìn)行良好分類(lèi)的分類(lèi)器。今后的主要工作集中在優(yōu)化特征選擇,對(duì)某些重要特征進(jìn)行加權(quán)處理,并考慮平衡數(shù)據(jù)和費(fèi)平衡數(shù)據(jù)對(duì)分類(lèi)器訓(xùn)練效果的影響,使得分類(lèi)的準(zhǔn)確率、召回率、F值獲得更大程度的提高。

參考文獻(xiàn)

[1]ANDROUTSPOULOS I,PALIOURAS G,KARKALETSIS V,et al. Learning to filter spam email: A Comparison of a Naive Bayesian and a MemoryBased Approach[C].Proceedings of the workshop on machine learning and textual information access, 4th European conference on principles and practice of knowledge discovery in databases. Lyon, France: [sn.].2000:1-13

[2]ANDROUTSOPOULOS I,KOUTSIAS J,CHANDRINOS K, et al. An evaluation of nave Bayesian antispam filtering[C].Proceedings of the 11th European conference on machine learning.Barcelona, Spain:[sn.].2000:9-17.

[3]CARRERAS X,MARQUEZ L. Boosting trees for antispam email filtering[C].The Forth International Conference on Recent Advances in Natural Language Processing. Bulgaria: Tzigov Chark.2001:58-64.

[4]CORTES C,VAPNIK V. Support vector networks[J].Machine Learning.1995,20(1):273 –329.

[5]平源. 基于支持向量機(jī)的聚類(lèi)及文本分類(lèi)研究[D].北京:北京郵電大學(xué),2012.

[6]KUBAT T M,MATWIN S. Addressing the Curse of Imbalanced Training Sets: OneSide Selection[C]. Proceedings of the 14th International Conference on Machine Learning. USA: Nashville.1997:217-225.)

[7]李人厚.智能控制理論和方法[M].陜西:西安電子科技大學(xué)出版社,2005.

[8]楊淑瑩,著.模式識(shí)別與智能計(jì)算—— Matlab技術(shù)實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2008..

[9]施聰鶯,徐朝軍,楊曉江. TFIDF算法研究綜述[J]. 計(jì)算機(jī)應(yīng)用,2009,S1:167-170+180.

[10]DASH M, LIU H. Feature Selection for Classification[J]. Intelligent Data Analysis, 1997, 1(3): 131-156.

猜你喜歡
特征選擇參數(shù)優(yōu)化支持向量機(jī)
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
基于神經(jīng)網(wǎng)絡(luò)的動(dòng)力電池組焊接參數(shù)優(yōu)化研究
動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
故障診斷中的數(shù)據(jù)建模與特征選擇
研究LTE與WCDMA系統(tǒng)間小區(qū)互操作與參數(shù)優(yōu)化
基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
基于磁流變技術(shù)的汽車(chē)發(fā)動(dòng)機(jī)隔振系統(tǒng)的參數(shù)優(yōu)化
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
reliefF算法在數(shù)據(jù)發(fā)布隱私保護(hù)中的應(yīng)用研究