国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

校園網(wǎng)學生上網(wǎng)行為分析研究

2019-10-20 14:53:51年梅范祖奎黃欣欣
計算機時代 2019年9期
關(guān)鍵詞:深度學習

年梅 范祖奎 黃欣欣

摘? 要: 校園網(wǎng)學生上網(wǎng)行為分析,是高校校園網(wǎng)管理部門盡早發(fā)現(xiàn)校園網(wǎng)資源使用狀況,學生管理部門了解學生上網(wǎng)行為是否健康的技術(shù)基礎(chǔ)。文章提出利用DPDK架構(gòu)實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)包快速采集,利用深度學習進行網(wǎng)絡(luò)流量分析,實現(xiàn)校園網(wǎng)學生上網(wǎng)行為的準確識別,并對學生上網(wǎng)行為分析的未來發(fā)展方向進行了探討和展望。

關(guān)鍵詞: 學生上網(wǎng)行為; 深度學習; 流量識別; DPDK架構(gòu); 網(wǎng)絡(luò)數(shù)據(jù)采集

中圖分類號:TP393? ? ? ? ? 文獻標志碼:A? ? ?文章編號:1006-8228(2019)09-67-04

Analysis and research on students' online behavior on campus network

Nian Mei1, Fan Zukui2, Huang Xinxin1

(1.College of Computer Science and Technology, Xinjiang Normal University, Urumqi, Xinjiang 830054, China;

2. Department of Language, Xinjiang Police College)

Abstract: The analysis of students' online behavior on campus network is the technical basis for the management department of campus network to find out the use of campus network resources as soon as possible, and the management department of student to know whether students' online behavior is healthy or not. This paper analyses the main challenges faced by the behavior analysis technology of campus network, and puts forward the idea of using DPDK framework to realize the rapid collection of network data packets, and using deep learning to analyze network traffic, so as to realize the accurate identification of students' online behavior on campus network. The future development direction of students' online behavior analysis is discussed and prospected.

Key words: student online behavior; deep learning; traffic recognition; DPDK framework; collection of network data

0 引言

校園網(wǎng)學生上網(wǎng)行為分析指,通過在校園網(wǎng)出口或校園網(wǎng)不同節(jié)點采集網(wǎng)絡(luò)流量,識別流量信息中的網(wǎng)絡(luò)應(yīng)用,如P2P應(yīng)用、WWW、網(wǎng)絡(luò)游戲等,然后對網(wǎng)絡(luò)應(yīng)用進行統(tǒng)計和匯總,從而了解校園網(wǎng)網(wǎng)絡(luò)資源的應(yīng)用情況以及學生的網(wǎng)絡(luò)行為。

通過校園網(wǎng)學生上網(wǎng)行為分析,高校信息管理部門能精細化地了解校園網(wǎng)資源的使用情況并準確判斷校園網(wǎng)資源使用是否出現(xiàn)了異常,如通過網(wǎng)絡(luò)中的P2P流量占整個資源的比例,瀏覽器應(yīng)用占據(jù)資源的比例,即時通信軟件占用的比例,以及網(wǎng)絡(luò)視頻信息占用的比例等,能判斷學校校園網(wǎng)流量資源的使用是否合理;此外,通過流量識別能夠發(fā)現(xiàn)校園網(wǎng)中是否存在異常流量,從而為校園網(wǎng)管理部門攔截管控異常流量提供了技術(shù)支持。

與高校學生“一卡通”數(shù)據(jù)和學生成績數(shù)據(jù)結(jié)合進行數(shù)據(jù)挖掘,建立適當?shù)年P(guān)聯(lián)模型,能夠使學生管理部門預(yù)判是否有學生因為不健康的上網(wǎng)行為影響了學習,并對這些學生進行預(yù)警。因此,校園網(wǎng)學生上網(wǎng)行為對高校的管理部門非常重要。

校園網(wǎng)學生上網(wǎng)行為分析主要通過校園網(wǎng)數(shù)據(jù)采集,流量數(shù)據(jù)識別,應(yīng)用的統(tǒng)計匯總以及結(jié)果的可視化等技術(shù)實現(xiàn)。隨著校園網(wǎng)速度的提升,網(wǎng)絡(luò)應(yīng)用復雜度增加,各種新的未知網(wǎng)絡(luò)流量數(shù)據(jù)以及大量加密網(wǎng)絡(luò)流量的出現(xiàn),給校園網(wǎng)數(shù)據(jù)的采集及流量識別帶來了挑戰(zhàn)。

1 校園網(wǎng)學生上網(wǎng)行為分析技術(shù)面臨的挑戰(zhàn)

校園網(wǎng)上網(wǎng)行為分析技術(shù)的關(guān)鍵是校園網(wǎng)流量數(shù)據(jù)的準確快速采集和網(wǎng)絡(luò)流量的正確識別。本文首先對校園網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)采集和流量識別存在的技術(shù)難點進行分析,然后提出相應(yīng)的解決方案。

1.1 校園網(wǎng)數(shù)據(jù)采集技術(shù)

校園網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)可以使用集中式部署和分布式部署兩種方式進行采集。集中式部署指在校園網(wǎng)出口處安裝一個專門旁路硬件設(shè)備,借助設(shè)備俘獲出入校園網(wǎng)的所有網(wǎng)絡(luò)流量數(shù)據(jù);此外也可以使用交換機鏡像進行流量采集。但無論哪種方法,隨著網(wǎng)絡(luò)出口流量帶寬的快速增加,校園網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)包俘獲過程中丟包現(xiàn)象越來越嚴重。

校園網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)采集可以采用硬件實現(xiàn)也可以采用軟件實現(xiàn)。硬件實現(xiàn)需要購買專用硬件設(shè)備,這種方式采集準確度高,丟包率低,但不利于功能擴展和二次開發(fā),不適合研究人員使用。軟件方式由研究者自行開發(fā),并可以根據(jù)需要進行靈活部署和設(shè)置,易于進行軟件功能擴展。但當前網(wǎng)絡(luò)數(shù)據(jù)俘獲軟件通常采用基于操作系統(tǒng)內(nèi)核的旁路機制, 僅在系統(tǒng)內(nèi)核協(xié)議棧處理數(shù)據(jù)包時捕獲數(shù)據(jù),整個數(shù)據(jù)包捕獲或多或少的依賴操作系統(tǒng)內(nèi)核協(xié)議棧。操作系統(tǒng)內(nèi)核收發(fā)包需要首先由網(wǎng)卡觸發(fā)中斷,CPU將數(shù)據(jù)包從網(wǎng)卡緩存中拷貝到內(nèi)核內(nèi)存空間,經(jīng)過內(nèi)核協(xié)議棧處理后,再將數(shù)據(jù)包拷貝到用戶態(tài)內(nèi)存空間。此過程處理中斷需要消耗大量CPU資源、多次內(nèi)存拷貝以及系統(tǒng)調(diào)用[1];此外系統(tǒng)普通內(nèi)存頁只有4KB,內(nèi)存訪問速度慢,協(xié)議棧處理也將造成大量的性能消耗[2]。以上原因?qū)е萝浖?shù)據(jù)包俘獲中消耗了大量資源,以至于在網(wǎng)絡(luò)高負載時,由于系統(tǒng)資源被耗盡而出現(xiàn)大量丟包。

此外,還可以采用分布式數(shù)據(jù)采集提高網(wǎng)絡(luò)數(shù)據(jù)采集準確性和速度,滿足高速校園網(wǎng)網(wǎng)絡(luò)流量采集的需求。目前校園網(wǎng)網(wǎng)絡(luò)拓撲結(jié)構(gòu)大多數(shù)是樹形結(jié)構(gòu),一般采用三層架構(gòu),即核心層、匯聚層和接入層。為了準確地采集數(shù)據(jù),可以在核心層不同交換機上同時進行數(shù)據(jù)采集,并對采集的數(shù)據(jù)進行流量分析,最后再進行匯總。

1.2 流量識別

學生上網(wǎng)行為分析另一個關(guān)鍵技術(shù)是網(wǎng)絡(luò)流量的準確識別。通過識別網(wǎng)絡(luò)流量的應(yīng)用類型,對各種應(yīng)用類型統(tǒng)計和匯總從而得到學生上網(wǎng)行為數(shù)據(jù)。

目前,網(wǎng)絡(luò)流量識別方法主要包括基于端口、深度包檢測以及機器學習等三種。早期網(wǎng)絡(luò)流量主要采用基于TCP的端口來進行識別,但隨著P2P應(yīng)用的大量出現(xiàn)以及動態(tài)端口號技術(shù)的廣泛使用,利用端口號識別流量的方法不再有效[3]。

隨后提出了深度包檢測DIP(Deep Packet Inspection)技術(shù),DPI 流量識別技術(shù)的基本原理是: 首先對要識別的目標流量進行協(xié)議或者應(yīng)用的特征分析,分析它們進行網(wǎng)絡(luò)通信時,所發(fā)送的數(shù)據(jù)包負載中所攜帶的特征碼,這種特征碼可以是負載中某些特定位的二進制數(shù)據(jù),負載中某些特征字符串或者負載通過散列變換后的數(shù)字簽名。獲取應(yīng)用或協(xié)議的特征碼后,將其應(yīng)用到流量的識別中,當流量產(chǎn)生的數(shù)據(jù)包通過識別系統(tǒng)時,識別系統(tǒng)對其進行解包,檢查數(shù)據(jù)包中是否攜帶目標流量類型的特征碼,如果是則表示該流量與目標流量匹配。該技術(shù)通過檢測負載特征識別流量,具有極高的準確率。因此,產(chǎn)生了大量的基于DPI技 術(shù)的產(chǎn)品,如PACE[4]、Open DPI[5]、NDPI[6]、L7-filter、Libprotoident[7]等。但深度包檢測存在兩個問題,第一,實現(xiàn)深度包檢測的前提是數(shù)據(jù)包的部分內(nèi)容必須是可見的,但網(wǎng)絡(luò)應(yīng)用中出現(xiàn)了越來越多的加密流量,深度包檢測無法準確地識別這類數(shù)據(jù)包的類型;第二,深度包檢測的前提是網(wǎng)絡(luò)數(shù)據(jù)包的載荷碼是已知的,通過匹配網(wǎng)絡(luò)數(shù)據(jù)包的載荷碼才能識別出具體的應(yīng)用。目前所有網(wǎng)絡(luò)應(yīng)用的載荷碼的搜集匯總非常困難,此外,隨著網(wǎng)絡(luò)應(yīng)用的發(fā)展,建立一個包括所有應(yīng)用的網(wǎng)絡(luò)數(shù)據(jù)包載荷特征庫幾乎是不可能,載荷特征碼庫不全則無法實現(xiàn)網(wǎng)絡(luò)流量的準確識別。

流量識別的研究熱點是機器學習的方法,其原理是通過對網(wǎng)絡(luò)流量預(yù)處理提取出網(wǎng)絡(luò)流的有效特征與統(tǒng)計信息,并對所提取的特征信息進行機器學習以發(fā)現(xiàn)其規(guī)律,總結(jié)每一類流量的共性特征并構(gòu)建網(wǎng)絡(luò)流量模型,由此設(shè)計分類器對網(wǎng)絡(luò)數(shù)據(jù)流量進行識別與分類。基于機器學習的流量識別算法,不受動態(tài)端口、加密、數(shù)據(jù)包特征庫不全等影響,分類的準確度和可靠性比基于端口的和深度包檢測方法有很大的提高。但到目前為止,基于機器學習的流量識別還處在初級階段,機器學習的算法還較為復雜,尚未出現(xiàn)實用性的基于機器學習的流量識別工具。機器學習的流量識別算法分為有監(jiān)督和無監(jiān)督兩種方式[8]。有監(jiān)督算法,首先需要一個標準訓練集,利用訓練集訓練分類模型,然后用分類模型進行測試流量的識別,有監(jiān)督算法的準確度依賴于特征向量的選擇和標準數(shù)據(jù)集構(gòu)建,而標準數(shù)據(jù)集的構(gòu)建比較困難。無監(jiān)督算法則無需提供訓練集,直接對數(shù)據(jù)樣本進行挖掘?qū)崿F(xiàn)聚類,但無法進行流量應(yīng)用類型的準確判斷。此外,目前還有研究者利用無監(jiān)督算法聚類的結(jié)果來標注,再利用標注的結(jié)果進行測試數(shù)據(jù)識別的半監(jiān)督機器學習算法,但可用的研究結(jié)果比較少。

2 校園網(wǎng)高速網(wǎng)絡(luò)數(shù)據(jù)采集研究

為了適應(yīng)校園網(wǎng)高速流量增長的要求,在對軟件網(wǎng)絡(luò)數(shù)據(jù)俘獲中存在的問題分析發(fā)現(xiàn),現(xiàn)有的數(shù)據(jù)采集系統(tǒng)由于在軟件中多次進行核心態(tài)與用戶態(tài)切換,內(nèi)存塊設(shè)計的不合理導致系統(tǒng)資源不足,引起了校園網(wǎng)數(shù)據(jù)俘獲過程中的丟包現(xiàn)象,針對該問題,我們對校園網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)采集軟件進行了優(yōu)化設(shè)計,最大限度地解決校園網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)包俘獲中的丟包問題。

為了更全面地解決基于軟件的網(wǎng)絡(luò)數(shù)據(jù)包采集中數(shù)據(jù)包轉(zhuǎn)發(fā)和捕獲效率低下的問題,6WIND,Intel 等多家公司,針對Intel的CPU和網(wǎng)卡開發(fā)了數(shù)據(jù)包轉(zhuǎn)發(fā)處理套件DPDK。DPDK是一套強大、高度優(yōu)化的用于數(shù)據(jù)包處理的函數(shù)庫和驅(qū)動集合,可以幫助用戶將控制面和數(shù)據(jù)面平臺進行整合,從而能有效地執(zhí)行數(shù)據(jù)包處理[9]。

為此,我們針對傳統(tǒng)軟件數(shù)據(jù)包俘獲中存在的問題,在數(shù)據(jù)包采集過程中使用了輪詢方式替代原有的中斷方式,提高了采集的效率,并降低了資源消耗;使網(wǎng)卡驅(qū)動程序運行在用戶態(tài),從而避免了在核心態(tài)和用戶態(tài)之間的切換開銷,進一步減少了資源消耗;使用大內(nèi)存機制,減少內(nèi)存切換的次數(shù),從而降低了內(nèi)存切換的時間;采用了將不同進程綁定到不同的CPU內(nèi)核的方式,提高了系統(tǒng)的并發(fā)程度,加快了處理速度;使用了新的數(shù)據(jù)結(jié)構(gòu)將結(jié)果數(shù)據(jù)的結(jié)構(gòu)體和數(shù)據(jù)綁定,減少內(nèi)存分配的數(shù)量,達到節(jié)省資源提高處理速度的目的;減少了資源的消耗,從而降低了丟包現(xiàn)象。

通過以上措施,較好地實現(xiàn)了在單個萬兆網(wǎng)卡上進行軟件數(shù)據(jù)采集的丟包問題[10]。

3 流量識別技術(shù)

校園網(wǎng)的網(wǎng)絡(luò)流量數(shù)據(jù)經(jīng)過清洗后,下一步需要進行流量識別。由于基于端口的流量識別和深度包解析以及機器學習算法進行流量識別都存在問題,我們采用了基于深度學習的方式進行了校園網(wǎng)流量的識別。

深度學習采用反向傳播算法來學習網(wǎng)絡(luò)流量的內(nèi)部參數(shù),實現(xiàn)從原始數(shù)據(jù)中逐層提取抽象的特征,最終實現(xiàn)分類。卷積神經(jīng)網(wǎng)絡(luò)CNN是深度學習的典型代表。CNN中的卷積層對輸入數(shù)據(jù)進行特征提取,主要包含局部感知野、權(quán)值共享和多卷積核三方面的特性,前兩者可以有效的降低數(shù)據(jù)維度,而多卷積核則為CNN中池化層進一步提取特征向量并降低特征維度進行準備,同時還能夠降低過擬合影響。通過多次特征向量提取和處理,最終結(jié)果送入到CNN的全連接層,形成流量識別結(jié)果。與其他流量識別方法相比,深度學習無需大量的標準數(shù)據(jù)集,借助Moore提供的數(shù)據(jù)集以及網(wǎng)絡(luò)流量的248種特征,能夠?qū)崿F(xiàn)網(wǎng)絡(luò)流量中特征向量的自動提取,建立分類器,并實現(xiàn)測試數(shù)據(jù)流量的識別。

Moore數(shù)據(jù)集是已標注處理的公開流量數(shù)據(jù)集,一共包含了十個時間段、十二個類別的流量包。每個流量包都采用相同的特征提取算法保留248個最重要的特征項,并標注流量類別。為了更加透徹的表示每個流量包中248個特征項與流量類別的關(guān)系,采用word2vec詞向量工具向量化流量數(shù)據(jù),將生成的詞向量送入卷積神經(jīng)網(wǎng)絡(luò)的輸入層。經(jīng)過卷積層、池化層和全連接層的訓練生成適合流量識別的模型并保存。在進行模型評估預(yù)測時可以直接調(diào)用保存的模型進行預(yù)測,無須再次訓練模型和參數(shù)。實驗表明,卷積神經(jīng)網(wǎng)絡(luò)在Moore數(shù)據(jù)集上準確率達到97%。

雖然卷積神經(jīng)網(wǎng)絡(luò)在Moore數(shù)據(jù)集上取得了不錯的效果,但是Moore數(shù)據(jù)集本身存在嚴重的標注類別流量包數(shù)量不均衡的問題。例如Moore數(shù)據(jù)集第二個時間段流量包entry2,共包含流量數(shù)據(jù)23801條,其中WWW流量數(shù)據(jù)18560條,而GAMES數(shù)據(jù)僅2條。為了保證數(shù)據(jù)集的質(zhì)量,均衡各類別流量包的數(shù)量,提高網(wǎng)絡(luò)流量識別準確性,需要對Moore數(shù)據(jù)集中的訓練數(shù)據(jù)進行擴展。為此我們從校園網(wǎng)鏡像端口采集了網(wǎng)絡(luò)流量,將俘獲的流量包采用Moore數(shù)據(jù)集的方式進行處理,保留最重要的248個特征項,以保證擴充前后數(shù)據(jù)集的一致性。通過對Moore數(shù)據(jù)集不斷擴展,卷積神經(jīng)網(wǎng)絡(luò)在各個類別中準確率效果不斷提升。

4 校園網(wǎng)學生上網(wǎng)行為展望

校園網(wǎng)學生上網(wǎng)行為分析實現(xiàn)主要包括了校園網(wǎng)數(shù)據(jù)采集,網(wǎng)絡(luò)流量識別,應(yīng)用類型的統(tǒng)計與分析,結(jié)果的可視化顯示等四個方面技術(shù)。由于校園網(wǎng)出口帶寬迅速提高,學生上網(wǎng)人數(shù)不斷增加,網(wǎng)絡(luò)應(yīng)用類型越來越多,快速準確的校園網(wǎng)數(shù)據(jù)采集和網(wǎng)絡(luò)流量識別面臨著挑戰(zhàn)。本文論述了基于DPDK的單節(jié)點流量快速采集技術(shù),減少采集節(jié)點的資源消耗,防止采集中的丟包現(xiàn)象。采用基于深度學習的流量識別技術(shù)來提高校園網(wǎng)網(wǎng)絡(luò)流量識別的準確度,保證學生上網(wǎng)行為的準確分類。

隨著技術(shù)的不斷發(fā)展,還可以通過以下措施不斷提升學生上網(wǎng)行為分析的性能。①將網(wǎng)絡(luò)數(shù)據(jù)采集的分布式部署和網(wǎng)絡(luò)流量識別的分布式計算相結(jié)合。例如采用SPARK系統(tǒng)或者HODOOP平臺進行部署,分別提高網(wǎng)絡(luò)數(shù)據(jù)采集和流量識別的速度。②進一步擴展標準網(wǎng)絡(luò)數(shù)據(jù)集中的訓練數(shù)據(jù),平衡各類別網(wǎng)絡(luò)流量數(shù)據(jù)的比例,優(yōu)化深度學習的算法,不斷提高校園網(wǎng)流量識別的準確性,降低深度學習復雜性,實現(xiàn)學生上網(wǎng)行為的工程性和實時性要求。

參考文獻(References):

[1] 王佰玲,方濱興,云曉春.零拷貝報文捕獲平臺的研究與實現(xiàn). 計算機學報, 2005.28(1): 46–52.2

[2] 王佰玲,方濱興,云曉春. 傳統(tǒng)報文捕獲平臺性能影響因素分析. 計算機工程與應(yīng)用, 2003.22:151–152

[3] Thmos K,Andre B,Michalis? F,et al. Transport layer identification of P2P traffic[C]//Proc of the 4th ACM SIGCOMM Conference on Internet Measurement,2004. 25-27

[4] DPI engine-R & SPACE2[EB/OL]. http://www.ipoque.com/products、dpi-engine-rsrpace-2.

[5] OpenDPI[EB/OL]. [2017-09-09]. https://sourceforge.net/projects/opendigt/.

[6] Deri L,Martinelli M,Bujlow T,et al. nDPI:Open-sourcehigh-speed deep packet inspection[C]// Proc of Wireless Communications and Mobile Computing Conference,2014:617-622

[7] Application layer packet classifier for Linux[EB/OL].[2017-09-09]. http://17-filter.soutceforge.net/2009.

[8] 張煒.基于多分類器的網(wǎng)絡(luò)流量分類研究[D].揚州大學,2015.

[9] 任昊哲,年梅. 基于 DPDK 的高速數(shù)據(jù)包捕獲方法[J]. 計算機系統(tǒng)應(yīng)用,2018.27(6):240-243

[10] 趙寧, 謝淑翠. 基于 dpdk 的高效數(shù)據(jù)包捕獲技術(shù)分析與應(yīng)用. 計算機工程與科學, 2016.38(11): 2209–2215

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構(gòu)建
面向大數(shù)據(jù)遠程開放實驗平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務(wù)中基于深度學習的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學習算法應(yīng)用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
巴彦淖尔市| 无极县| 大邑县| 成安县| 柯坪县| 盐亭县| 通山县| 泰来县| 县级市| 马鞍山市| 那曲县| 鹤岗市| 曲阜市| 壶关县| 林州市| 买车| 南澳县| 中阳县| 逊克县| 杭锦旗| 林州市| 美姑县| 定日县| 曲靖市| 安顺市| 彭山县| 德州市| 怀宁县| 澳门| 乌兰县| 财经| 吴桥县| 三台县| 平山县| 五华县| 抚顺市| 威信县| 三江| 葵青区| 乳源| 中西区|