国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于交叉驗證網(wǎng)格尋優(yōu)隨機森林的黑產(chǎn)用戶識別方法

2019-11-05 07:45章文俊韓曉龍
科技視界 2019年28期
關(guān)鍵詞:隨機森林

章文俊 韓曉龍

【摘 要】隨著移動互聯(lián)網(wǎng)的普及,黑色產(chǎn)業(yè)成為了一種新的違法途徑。黑色產(chǎn)業(yè)的猖獗不僅損害了社會利益,同時也影響了正常用戶的體驗。本文提出了一種基于交叉驗證網(wǎng)格尋優(yōu)隨機森林算法的區(qū)分黑色產(chǎn)業(yè)用戶的方法。本文收集的黑產(chǎn)用戶數(shù)據(jù)為某論壇的惡意刷違法消息的用戶數(shù)據(jù)。利用隨機森林機器學(xué)習(xí)數(shù)據(jù)特征,通過交叉驗證以及網(wǎng)格搜索技術(shù)完成模型參數(shù)尋優(yōu),得到訓(xùn)練好的模型。并且比較了其他常見的幾種分類算法在識別黑產(chǎn)用戶的準(zhǔn)確率。線上和線下實驗表明,基于隨機森林算法的模型在預(yù)測區(qū)分黑色產(chǎn)業(yè)用戶上相比較于其他幾種算法準(zhǔn)確率更高,表現(xiàn)更為穩(wěn)定。為打擊黑色產(chǎn)業(yè)積累了寶貴的經(jīng)驗。

【關(guān)鍵詞】隨機森林;黑色產(chǎn)業(yè);交叉驗證;網(wǎng)格搜索

中圖分類號: TP393.06 文獻標(biāo)識碼: A 文章編號: 2095-2457(2019)28-0001-003

DOI:10.19694/j.cnki.issn2095-2457.2019.28.001

【Abstract】With the popularization of mobile Internet, the black industry has become a new illegal way. The prevalence of the black industry not only harmed the social interest, but also affected the experience of the normal users. This paper presents a method for distinguishing black industry users based on cross-validation grid-optimized random forest algorithm. The data collected in this paper is the user data of the maliciously brushed illegal messages of a certain forum. And using the random forest machine to study the data features, the model parameters are optimized through cross-verification and grid search technology, and the trained model is obtained. And the accuracy of the other common classification algorithms in identifying the black-producing user is compared. The online and offline experiments show that the model based on the stochastic forest algorithm is more accurate and more stable in the prediction of the black industrial users compared with other algorithms. Valuable experience has been accumulated in the fight against the black industry.

【Key words】Random forest; Black industry; Cross validation; Grid search

0 前言

移動化聯(lián)網(wǎng)的發(fā)展讓生活變得十分便利,但是同時也衍生出了一個黑色產(chǎn)業(yè)。黑色產(chǎn)業(yè)是利用不正當(dāng)?shù)倪`法手段在移動互聯(lián)網(wǎng)上獲取利益。黑色產(chǎn)業(yè)不僅對社會利益造成了極大地損失,對于正常用戶的使用也產(chǎn)生了極大的困擾。對于黑色產(chǎn)業(yè)的研究不僅能減少利益的損失,也能通過打擊黑色產(chǎn)業(yè)來保護正常用戶的使用。

本文從黑色產(chǎn)業(yè)刷違法信息獲取非法利益入手。通過收集某論壇的黑產(chǎn)用戶數(shù)據(jù)。采用科學(xué)的數(shù)據(jù)處理工具對收集的數(shù)據(jù)進行清洗,保證數(shù)據(jù)的純凈。然后根據(jù)數(shù)據(jù)特征進行構(gòu)建模型,采用了網(wǎng)格搜索尋找最佳參數(shù)。并且比較了幾種常見的分類方法。根據(jù)實際的預(yù)測結(jié)果,以及線上模型表現(xiàn),訓(xùn)練好的模型有著非常優(yōu)秀的表現(xiàn),能很好區(qū)分黑色產(chǎn)業(yè)用戶和正常用戶。對打擊黑產(chǎn)有著較好的效果。

1 相關(guān)工作

1.1 隨機森林算法

隨機森林算法提出于1995年,由Leo Breiman和Adele Cutler共同提出。隨機森林的提出是基于決策樹。決策樹一般為簡單的分類操作,而隨機森林是多棵決策樹的集合。隨機森林的輸出取決于隨機森林中的每一個決策樹的類別。隨機森林有著諸多優(yōu)點,在機器學(xué)習(xí)中也是非常重要的一種算法。由于隨機森林在處理大量數(shù)據(jù)以及平衡誤差上的卓越性能,在實際應(yīng)用中也被廣泛使用。

隨著隨機森林算法在各個領(lǐng)域有著優(yōu)良表現(xiàn),該算法也被應(yīng)用的領(lǐng)域也越來越多。陳標(biāo)金[1]等通過篩選了技術(shù)指標(biāo)和經(jīng)濟指標(biāo)來作為特征數(shù)據(jù)來進行預(yù)測國債指數(shù)的預(yù)測變量。利用隨機森林算法構(gòu)建模型,通過模型進行預(yù)測。林栢全[2]等提出了一種基于隨機森林與矩陣分解的推薦算法。相比較于傳統(tǒng)的推薦算法,該算法在推薦性能上有更好的準(zhǔn)確率和性能。Chong[3]等利用隨機森林算法建立了熱馴化和非熱馴化模型。在預(yù)測室外高溫的熱風(fēng)險有很高的準(zhǔn)確率。這對室外工作者的健康有很大的保證。Jo[4]等通過K-means聚類算法添加類似數(shù)據(jù)。然后通過隨機森林訓(xùn)練聚類得到的數(shù)據(jù),根據(jù)模型的輸出來識別用戶的活動。最后個性化推薦優(yōu)選的GUI。

1.2 機器學(xué)習(xí)

機器學(xué)習(xí)在深度學(xué)習(xí)尚未崛起時為深度學(xué)習(xí)奠定了基礎(chǔ)。并且目前機器學(xué)習(xí)在各行各業(yè)也被廣泛成功使用。機器學(xué)習(xí)是一門復(fù)雜的交叉學(xué)科,不僅涉及了高等數(shù)學(xué)等基礎(chǔ)學(xué)科,還涉及算法等學(xué)科。機器學(xué)習(xí)的核心內(nèi)容是讓計算機模擬人類的學(xué)習(xí)行為,來獲得新的知識和技能。機器學(xué)習(xí)的應(yīng)用遍布人工智能的各個領(lǐng)域,極大地減少了人工的重復(fù)勞動。

機器學(xué)習(xí)一般分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),兩種不同的學(xué)習(xí)方式一般也會應(yīng)用于不同的情景。蔡天鴻[5]等提出一種基于TF-IDF的人格分析方法。利用VSM、PCA、Wavelet技術(shù)提取出文本特征,利用KNN分類算法獲得人格分類的候選項。Feng[6]等提出一種評估建筑環(huán)境績效的定量方法。主要使用了參數(shù)化的設(shè)計技術(shù)以及機器學(xué)習(xí)算法來評估早期決策階段的建筑環(huán)境績效。Ariharan[7]等提出了一種機器學(xué)習(xí)框架,來管理傳感器部署時相關(guān)的網(wǎng)絡(luò)延遲和丟包。這種機器學(xué)習(xí)框架能結(jié)合學(xué)習(xí)模塊的結(jié)果,進行集體決策。Czernechi[8]等提出將機器學(xué)習(xí)與遙感數(shù)據(jù)以及環(huán)境變量相結(jié)合的概念。并且通過建立模型來進行預(yù)測大型的冰雹事件。

1.3 網(wǎng)格搜索算法

網(wǎng)格搜索是機器學(xué)習(xí)中非常重要的一個概念。網(wǎng)格搜索是通過遍歷給定的參數(shù)組合來優(yōu)化所需要訓(xùn)練的模型。通常為了防止模型過擬合或者欠擬合,會使用網(wǎng)格搜索算法尋找模型最佳參數(shù)。網(wǎng)格搜索也叫窮舉搜索,即遍歷整個訓(xùn)練數(shù)據(jù)集。

網(wǎng)格搜索算法在實際應(yīng)用的過程中配合分類算法進行使用,主要是用于分類算法的參數(shù)尋優(yōu)。張文雅[9]在預(yù)測汽車銷量時,運用了交叉驗證的網(wǎng)格搜索算法。主要是運用于優(yōu)化SVM算法的懲罰系數(shù)以及核函數(shù)的參數(shù)。構(gòu)建了汽車銷售的預(yù)測模型。Wang[10]等提出了一種從腦電圖傳感器收集的非靜止腦電圖數(shù)據(jù)的綜合方法。綜合方法其中包括了網(wǎng)格搜索優(yōu)化器,主要用于自動查找訓(xùn)練分類器的最佳參數(shù)。

2 理論基礎(chǔ)

2.1 黑產(chǎn)用戶行為分析

本文的研究主要針對是黑產(chǎn)用戶在論壇惡意刷違法內(nèi)容行為。黑產(chǎn)用戶主要利用腳本文件進行無限制刷帖。為了針對黑產(chǎn)用戶的惡意刷內(nèi)容,需要對黑產(chǎn)用戶的刷內(nèi)容行為進行分析,然后構(gòu)建預(yù)測模型。

通過對黑產(chǎn)用戶行為進行分析可以發(fā)現(xiàn),黑產(chǎn)用戶會通過腳本文件直接訪問發(fā)表內(nèi)容的接口。并且在短時間內(nèi)發(fā)送內(nèi)容數(shù)量上會比正常用戶多出很多。同時黑產(chǎn)用戶在短時間內(nèi)也會在回復(fù)內(nèi)容數(shù)量上遠遠超過正常用戶。同時基于黑產(chǎn)用戶是通過作弊工具進行惡意刷內(nèi)容。所以黑產(chǎn)用戶等級不會很高?;谝陨虾诋a(chǎn)用戶等行為特征,可以對將黑產(chǎn)用戶和正常用戶進行很好地區(qū)分。

2.2 數(shù)據(jù)預(yù)處理

在機器學(xué)習(xí)中,數(shù)據(jù)是否足夠以及數(shù)據(jù)的完整將直接決定模型的準(zhǔn)確率,所以在數(shù)據(jù)處理的過程中對于數(shù)據(jù)的完整性的保留以及處理的靈活性都有著較高的要求。最為常見的也是使用最廣泛的數(shù)據(jù)處理辦法是通過MS的excel軟件進行數(shù)據(jù)的處理。

因為本研究中設(shè)采集的數(shù)據(jù)集較為龐大且數(shù)據(jù)內(nèi)容較為復(fù)雜。采用了python語言客休數(shù)據(jù)管理工具,numpy和pandas數(shù)據(jù)處理庫。其中pandas通過讀取數(shù)據(jù)將數(shù)據(jù)轉(zhuǎn)換為DataFrame格式方便進行后續(xù)操作。在數(shù)據(jù)的預(yù)處理中,主要是對數(shù)據(jù)集中的缺失值進行填充,以及時間數(shù)據(jù)轉(zhuǎn)換為時間戳。這樣才能保證后續(xù)的模型訓(xùn)練能順利進行。

2.3 分類方法設(shè)計

本文基于對黑色產(chǎn)業(yè)用戶惡意刷內(nèi)容的行為特征入手。利用隨機森林算法進行訓(xùn)練模型,并通過網(wǎng)格搜索算法進行參數(shù)優(yōu)化。得到最優(yōu)的預(yù)測模型。具體的分類方法設(shè)計如圖1所示。

首先為了得到數(shù)據(jù),需要對黑產(chǎn)用戶行為進行分析。主要尋找可以非常準(zhǔn)確區(qū)分黑產(chǎn)用戶和正常用戶的行為特征。找到合適的黑產(chǎn)用戶特征,收集黑產(chǎn)用戶一周的特征數(shù)據(jù)。在收集完黑產(chǎn)用戶數(shù)據(jù)之后為了能順利進行機器學(xué)習(xí),需要將數(shù)據(jù)進行清洗,即數(shù)據(jù)的預(yù)處理。

然后是用隨機森林分類器(RondomForest)進行訓(xùn)練模型,現(xiàn)在默認參數(shù)下進行數(shù)據(jù)的訓(xùn)練。為了更快地找到模型的最佳參數(shù)。本文才用了網(wǎng)格搜索(Grid search)算法,保證模型在訓(xùn)練過程中不會因為參數(shù)設(shè)置而導(dǎo)致過擬合或者欠擬合。

通過訓(xùn)練好的預(yù)測模型對最新的黑產(chǎn)用戶數(shù)據(jù)進行預(yù)測,并且比較準(zhǔn)確率。通過觀察誤判和漏判用戶特征進行調(diào)整模型。最后將訓(xùn)練好的預(yù)測模型上線進行預(yù)測,為后續(xù)的處理提供判斷依據(jù)。

2.4 模型評估

本文研究內(nèi)容是通過機器學(xué)習(xí)訓(xùn)練模型來進行預(yù)測,為了保證模型的準(zhǔn)確率。需要在模型進行預(yù)測的過程中,對模型完成評估。在評估過程中主要可以參考一下幾個數(shù)據(jù)的準(zhǔn)確率。其中隨機森林算法所特有的袋外得分率(oob_score)。該參數(shù)表示為,在訓(xùn)練集中每次訓(xùn)練的過程會自動將訓(xùn)練集的1/3的數(shù)據(jù)集劃分成測試集。這樣在訓(xùn)練模型的同時也能進行測試。袋外得分率的返回值也是模型的準(zhǔn)確率判斷條件之一。

訓(xùn)練好的模型在預(yù)測最新的黑產(chǎn)用戶數(shù)據(jù)時,因為已知黑產(chǎn)用戶標(biāo)簽,可以通過隨機森林的分類器的predict函數(shù)得出預(yù)測標(biāo)簽,將兩者標(biāo)簽進行對比,同樣也能統(tǒng)計得到模型的準(zhǔn)確率。

模型的優(yōu)劣不僅取決于模型預(yù)測的準(zhǔn)確率,因為準(zhǔn)確率可以通過參數(shù)進行調(diào)整。所以在判斷完模型準(zhǔn)確率的基礎(chǔ)上,還需要對模型的泛化能力進行評估。通常為了評估模型的泛化能力會采用AUC函數(shù)。AUC分數(shù)越高,代表模型的泛化程度越強。AUC計算公式如下:

3 實驗結(jié)果與分析

本文以黑產(chǎn)用戶特征為數(shù)據(jù)特征,對某論壇的黑產(chǎn)用戶惡意刷內(nèi)容行為數(shù)據(jù)進行收集。共收集一周數(shù)據(jù)作為模型的訓(xùn)練參數(shù)。經(jīng)過數(shù)據(jù)預(yù)處理之后,最后得到的數(shù)據(jù)有13萬條。在訓(xùn)練模型過程中將整個數(shù)據(jù)集分成4:1的訓(xùn)練集和測試集。用于評估模型的準(zhǔn)確率。

3.1 數(shù)據(jù)預(yù)處理

本文主要是利用python程序語言進行數(shù)據(jù)處理。為了保證訓(xùn)練數(shù)據(jù)的完整性以及數(shù)據(jù)的可讀性。在數(shù)據(jù)處理過程中主要涉及pandas和numpy兩個科學(xué)數(shù)據(jù)處理包。通過將數(shù)據(jù)集轉(zhuǎn)換成DataFrame特殊的格式,對缺失值進行填充。對于機器學(xué)習(xí)無法識別的數(shù)據(jù)類型進行轉(zhuǎn)換,保證訓(xùn)練數(shù)據(jù)集的純凈。

3.2 預(yù)測模型訓(xùn)練與參數(shù)尋優(yōu)

通過數(shù)據(jù)的預(yù)處理得到純凈的黑產(chǎn)用戶數(shù)據(jù)之后。利用隨機森林算法訓(xùn)練模型。初始的模型訓(xùn)練采用默認參數(shù),得到在默認參數(shù)下的模型準(zhǔn)確率。為了體現(xiàn)模型對數(shù)據(jù)集的依賴性,對不同的數(shù)據(jù)集大小下模型的準(zhǔn)確率進行對比。訓(xùn)練結(jié)果如表1所示。

從表1的預(yù)測結(jié)果來看,數(shù)據(jù)集的大小對模型的預(yù)測有著很大的影響。表1中的AUC得分是數(shù)據(jù)集切分出來的,所以在計算泛化能力時得分很高。實際在預(yù)測過程中需要先考慮模型的準(zhǔn)確度,在看中模型的泛化程度。從預(yù)測結(jié)果來看,短時間內(nèi)的特征數(shù)據(jù),并不能進行很好的預(yù)測。七天的數(shù)據(jù)集比單獨一天的數(shù)據(jù)集提高了將近40%的準(zhǔn)確率。所以為了保持模型預(yù)測的準(zhǔn)確率,至少保證一周以上的數(shù)據(jù)集大小。

確定完數(shù)據(jù)集的大小對模型產(chǎn)生的影響,接著需要進行參數(shù)調(diào)優(yōu),保證在準(zhǔn)確率和泛化能力都很好的前提下產(chǎn)生過擬合或者欠擬合。本文中才用了網(wǎng)格搜索算法,雖然耗時較長,但為了保證模型預(yù)測的準(zhǔn)確率還是采用網(wǎng)格搜索。

對于隨機森林算法,其分類器主要需要調(diào)整的參數(shù)為以下五個參數(shù):決策樹個數(shù)(n_estimators),決策樹的最大深度(max_depth),內(nèi)部劃分節(jié)點需要的最小樣本樹(min_samples_split),葉子節(jié)點最少的樣本數(shù)(min_samples_leaf),以及單棵決策樹使用特征的最大數(shù)量(max_features)。因為本文中數(shù)據(jù)特征數(shù)量較少,并且選取的特征數(shù)量都具有較高的關(guān)聯(lián)性和區(qū)分度,所以會將所有的特征加入訓(xùn)練。即需要調(diào)整的參數(shù)為四個參數(shù)。

圖2為調(diào)整參數(shù)后模型準(zhǔn)確率和AUC分數(shù)的對比,這里調(diào)優(yōu)用到的數(shù)據(jù)集為七天數(shù)據(jù)集。從圖2可以很清楚的看到在默認參數(shù)下,模型準(zhǔn)確率和泛化程度都比較高。經(jīng)過參數(shù)的調(diào)整,模型預(yù)測的準(zhǔn)確率由初始的97.35%提高到了99.25%。并且模型的AUC得分也從95.67%提高到了99.57%。在網(wǎng)格搜索算法計算得到最佳參數(shù),并且四次調(diào)整參數(shù)之后,模型預(yù)測的準(zhǔn)確率以及泛化能力都到了預(yù)期的程度。

3.3 模型上線預(yù)測

訓(xùn)練好的預(yù)測模型,在線下經(jīng)過幾天的驗證和校準(zhǔn)。能保證良好的準(zhǔn)確率,在確認無誤的情況下接入線上進行攔截。通過幾天的攔截數(shù)據(jù)觀察和統(tǒng)計,模型有著預(yù)期的表現(xiàn)。具體的上線攔截準(zhǔn)確率如圖3所示。

從圖3可以看出模型在上線攔擊用戶準(zhǔn)確率達到了當(dāng)初預(yù)期的效果。基本能保證在準(zhǔn)確率在98%以上。通過模型能過濾掉絕大多數(shù)的黑產(chǎn)用戶,保證正常用戶的使用體驗。同時線上的攔截數(shù)據(jù)(下轉(zhuǎn)第7頁)(上接第3頁)也能非常直觀的表明模型的有效性和實用性。模型的準(zhǔn)確判斷不僅極大地減少了人工判斷的時間,同時也能不斷地根據(jù)黑產(chǎn)用戶的行為來提升模型和完善模型。

4 結(jié)論

本文從對黑色產(chǎn)業(yè)用戶利用作弊手段傳播違法消息,并且惡意刷內(nèi)容的行為入手。通過分析黑產(chǎn)用戶行為特征,針對特征進行收集數(shù)據(jù)。利用python的開源工具完成數(shù)據(jù)清洗。利用機器學(xué)習(xí)中的隨機森林算法的分類器構(gòu)建預(yù)測模型。并且通過網(wǎng)格搜索算法完成對模型的參數(shù)尋優(yōu)過程。最后通過線下的驗證完成對模型的評估,通過觀察線上攔截情況對模型進行調(diào)整。從線上數(shù)據(jù)來看模型不僅有著良好的表現(xiàn),同時也為后續(xù)打擊黑產(chǎn)用戶提供了寶貴經(jīng)驗。下一步研究會基于深度神經(jīng)網(wǎng)絡(luò)來增加模型的學(xué)習(xí)能力,適應(yīng)更多的場景。

【參考文獻】

[1]陳標(biāo)金,王鋒.宏觀經(jīng)濟指標(biāo)、技術(shù)指標(biāo)與國債期貨價格預(yù)測——基于隨機森林機器學(xué)習(xí)的實證檢驗[J/OL].統(tǒng)計與信息論壇:1-7[2019-05-31].

[2]林栢全,肖菁.基于矩陣分解與隨機森林的多準(zhǔn)則推薦算法[J/OL].華南師范大學(xué)學(xué)報(自然科學(xué)版),2019(02)[2019-05-31].

[3]Daokun Chong,Neng Zhu,Wei Luo,Xiaodi Pan. Human thermal risk prediction in indoor hyperthermal environments based on random forest[J].Sustainable Cities and Society,2019,49.

[4]Sang-Muk Jo,Sung-Bae Cho. A personalized context-aware soft keyboard adapted by random forest trained with additional data of same cluster[J]. Neurocomputing,2019,353.

[5]蔡天鴻,鄧金,史國陽,朱晉,懷麗波.基于TF-IDF方法的文本人物群體人格分析方法[J].計算機應(yīng)用與軟件,2019,36(05):35-38.

[6]Kailun Feng,Weizhuo Lu,Yaowu Wang. Assessing environmental performance in early building design stage: an integrated parametric design and machine learning method[J]. Sustainable Cities and Society,2019.

[7]V Ariharan,Subha P. Eswaran,Srinivasarao Vempati,Naveed Anjum. Machine Learning Quorum Decider (MLQD) for Large Scale IoT Deployments[J]. Procedia Computer Science,2019,151.

[8]Bartosz Czernecki,Mateusz Taszarek,Micha?覥 Marosz,Marek Pó?覥rolniczak,Leszek Kolendowicz,Andrzej Wyszogrodzki,Jan Szturc. Application of machine learning to large hail prediction - The importance of radar reflectivity, lightning occurrence and convective parameters derived from ERA5[J]. Atmospheric Research,2019,227.

[9]張文雅,范雨強,韓華,張斌,崔曉鈺.基于交叉驗證網(wǎng)格尋優(yōu)支持向量機的產(chǎn)品銷售預(yù)測[J].計算機系統(tǒng)應(yīng)用,2019,28(05):1-9.

[10]Wang Xiashuang,Gong Guanghong,Li Ni. Automated Recognition of Epileptic EEG States Using a Combination of Symlet Wavelet Processing, Gradient Boosting Machine, and Grid Search Optimizer[J]. Sensors (Basel, Switzerland),2019,19(2).

猜你喜歡
隨機森林
拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
基于隨機森林算法的B2B客戶分級系統(tǒng)的設(shè)計
基于多視角特征融合與隨機森林的蛋白質(zhì)結(jié)晶預(yù)測
基于TM影像的土地覆蓋分類比較研究