關(guān)鍵詞:機(jī)器學(xué)習(xí)算法;算法分類;P2P流量;智能算法;研究分析
中圖法分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A
1 P2P流的定義和特征產(chǎn)生概述
1.1 P2P流的定義和表示
本文將互聯(lián)網(wǎng)上P2P通信節(jié)點(diǎn)之間產(chǎn)生的流量依據(jù)協(xié)議通信的五元組(IP、源Prot、目的IP、目的Prot及IP協(xié)議)定位為流。
1.2流特征的產(chǎn)生
我們將流的特征主要分為兩種,分別是前向和后向的雙向特征,前向流和后向流的定義如下——前向流:源節(jié)點(diǎn)→目的節(jié)點(diǎn);后向流:目的節(jié)點(diǎn)→源節(jié)點(diǎn)。
經(jīng)過均方差的計(jì)算和分析之后可以發(fā)現(xiàn),雙向報(bào)文的個(gè)數(shù)、長度等可以形成36個(gè)候選特征,對于本文進(jìn)行的機(jī)器學(xué)習(xí)算法分類P2P流量方面的研究具有重要的意義和作用。
2基于ReliefF?CFS方法的流的特征選擇
流的特征選擇對于最終的研究成果會(huì)產(chǎn)生直接影響。所謂的特征選擇,需要相關(guān)工作人員去掉相關(guān)度不高或者是冗余特征,進(jìn)而實(shí)現(xiàn)最優(yōu)的特征得以脫穎而出。后續(xù)依據(jù)評估函數(shù)與分類器之間的聯(lián)系,將特征選擇方法主要分為兩種模式,分別是過濾器模式和封裝器模式,其中過濾器模式評估函數(shù)與分類器無關(guān),而封裝器模式主要采用分類錯(cuò)誤率或者是正確率作為評價(jià)函數(shù),選擇的速度比較慢,同時(shí)還需要交叉認(rèn)證和大量的計(jì)算資源。因此,于流的特征選擇方面需要采用過濾器模式,并且使用基于ReliefF算法和基于相關(guān)性的方法結(jié)合的方式選擇特征子集,這就是所謂的ReliefF?CFS方法,能夠取得很好的效果和作用。
2.1基于ReliefF?CFS方法的初步P2P特征選擇方法
ReliefF其實(shí)是一種有監(jiān)督特征的算則算法,是傳統(tǒng)Relief算法的一種改進(jìn)算法,其能夠在多類特征分類中進(jìn)行對應(yīng)的運(yùn)用,并且可以取得很好的效果和作用?;赗eliefF?CFS方法的初步P2P特征選擇基本思想為:需要從每一個(gè)不同的類別流樣本集合中選擇G個(gè)最近鄰樣本流,并且相關(guān)工作人員需要對每一個(gè)樣本流的特征權(quán)重進(jìn)行對應(yīng)的計(jì)算,經(jīng)過計(jì)算就能夠得到流的不同特征與類別的相關(guān)性情況。其中,選擇相關(guān)性比較大的特征就能夠作為流量分類的特征。后續(xù)經(jīng)過基于ReliefF?CFS方法所得到的按權(quán)值還需要按照從大到小的順序進(jìn)行排列,同時(shí)設(shè)定一個(gè)閾值,其中大于閾值的特征被選為基于相關(guān)性的特征選擇方法的初始特征集。
2.2基于CFS方法的特征選擇
前文提及,由于ReliefF算法只考慮特征與類別的相關(guān)性,而沒有考慮特征自身具備的相關(guān)性,因此經(jīng)過ReliefF算法選擇的特征相關(guān)性可能存在一定的缺失。因此需要在經(jīng)過ReliefF算法選擇得到初步的流的特征子集之后,在原有的基礎(chǔ)之上通過相關(guān)性特征選擇方法繼續(xù)進(jìn)行特征的選擇,以此提升特征的相關(guān)性,相關(guān)性的計(jì)算公式如下所示。
在上式中,s表示含有q個(gè)特征的特征子集,Rs則是對特征子集相關(guān)度的一個(gè)評估結(jié)果。從上述公式中也可以看出,當(dāng)分類與特征之間的相關(guān)度越高,而特征與特征之間的相關(guān)度比較小的情況下,特征子集的分類效果就會(huì)越好。在本文進(jìn)行的研究中,主要采取BestFirst搜索策略結(jié)合正向搜索方向的方式,搜索得到結(jié)果優(yōu)化程度比較高的特征子集,并且將其作為最后的特征選擇結(jié)果。
3基于機(jī)器學(xué)習(xí)算法的P2P流量分類器
機(jī)器學(xué)習(xí)是人工智能技術(shù)中最為重要的一個(gè)分支,也是一個(gè)最重要的研究方向。在研究和分析的過程中,主要需要從樣本中尋找一定的規(guī)律,并且利用這一規(guī)律對未知的數(shù)據(jù)信息進(jìn)行對應(yīng)的預(yù)測工作。目前來看,機(jī)器學(xué)習(xí)過程主要由以下兩個(gè)部分組成,分別是分類模型的建立和分類。相關(guān)工作人員首先需要利用訓(xùn)練數(shù)據(jù)建立起分類模型,并且在建立好的模型基礎(chǔ)之上,產(chǎn)生一個(gè)分類器,針對物質(zhì)數(shù)據(jù)信息進(jìn)行分類處理。本文主要應(yīng)用基于支持向量機(jī)、C4.5決策樹以及K?最鄰近單中機(jī)器學(xué)習(xí)算法的分類器。
3.1基于支持向量機(jī)的P2P網(wǎng)絡(luò)流量分類器
支持向量機(jī)是由Boser等人在統(tǒng)計(jì)學(xué)習(xí)原理和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則基礎(chǔ)之上提出的一種機(jī)器學(xué)習(xí)算法。基于支持向量機(jī)的P2P網(wǎng)絡(luò)流量分類器主要是針對兩類分類問題而提出的,其主要原理是運(yùn)用分類超平面實(shí)現(xiàn)空間中兩類樣本點(diǎn)的正確分割,并且保持兩類樣本的間隔最大。
而且,如果處于線性不可分的情況下,可以通過選擇好的非線性映射函數(shù),也就是所謂的核函數(shù)選擇,將訓(xùn)練樣本流映射到一個(gè)高維特征空間中,并且在這一空間中構(gòu)造線性判別函數(shù),進(jìn)而實(shí)現(xiàn)原空間中非線性判別函數(shù),這樣有利于確保機(jī)器具備比較好的推廣能力,同時(shí)在核函數(shù)的作用下,可以解決原本存在的維數(shù)災(zāi)難問題,其算法的復(fù)雜程度與樣本維數(shù)無關(guān)。另外,對網(wǎng)絡(luò)中的P2P流量進(jìn)行識(shí)別,接著對經(jīng)典1?vs?all多分類SVM算法進(jìn)行改進(jìn),我們提出了一個(gè)新的基于MC?SVM(多分類支持向量機(jī))的分類判別方法,用來把之前所識(shí)別出的未知具體應(yīng)用層分類的P2P流量進(jìn)行應(yīng)用層分類,最后通過真實(shí)的網(wǎng)絡(luò)流量數(shù)據(jù)實(shí)驗(yàn),證明其可行性。
3.2基于C4.5決策樹的P2P網(wǎng)絡(luò)流量分類器
決策樹模型是一種比較簡單同時(shí)適用性也比較強(qiáng)的非參數(shù)分類器,其不僅不需要對數(shù)據(jù)進(jìn)行假設(shè),同時(shí)還可以在分類過程中具備比較強(qiáng)的計(jì)算速度,分類結(jié)果的穩(wěn)健性也較強(qiáng)?;贑4.5決策樹的P2P網(wǎng)絡(luò)流量分類器,其中每一個(gè)分支所代表的都是一個(gè)測試輸出,而每一個(gè)葉節(jié)點(diǎn)代表的是類別,而且C4.5算法還是D3算法的一種拓展,有利于分類達(dá)到較好的效果和作用。
并且在生成決策樹之后,可以采用剪枝技術(shù)進(jìn)行優(yōu)化和完善,使得糾正過度的擬合問題可以得到有效的處理。簡單來說,剪枝技術(shù)是剪去樹中不能提高預(yù)測準(zhǔn)確率的分,進(jìn)而提升分類結(jié)果的科學(xué)合理性。此外,相關(guān)工作人員還需要通過每個(gè)葉節(jié)點(diǎn)最少實(shí)例數(shù)設(shè)置的方式,進(jìn)而對決策樹的規(guī)模進(jìn)行有效控制,而置信因子的設(shè)置則用來確定樹的修建程序。
4結(jié)論
從文中闡述內(nèi)容中不難看出,基于ReliefF?CFS的特征選擇方法與傳統(tǒng)特征選擇具有較大的區(qū)別。本文提出的幾種使用機(jī)器學(xué)習(xí)算法分類P2P流量分類器能夠取得很好的效果和作用,同時(shí)其優(yōu)勢在于實(shí)時(shí)流的分類應(yīng)用,因此后續(xù)也可以著重進(jìn)行這一方面的持續(xù)優(yōu)化和完善,這對于國內(nèi)網(wǎng)絡(luò)通信領(lǐng)域的發(fā)展具有重要的現(xiàn)實(shí)意義,需要予以高度重視。
作者簡介:
羅遠(yuǎn)軍(1971—),碩士,講師,研究方向:移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、網(wǎng)絡(luò)體系結(jié)構(gòu)。