劉恩亞,王 剛
(國家無線電監(jiān)測中心,北京 100037)
Radio Wave Guard
淺談模式識別在流量建模中的應(yīng)用
劉恩亞,王 剛
(國家無線電監(jiān)測中心,北京 100037)
本文簡介了模式識別的概念、研究場景分類以及常用的模式識別方法,并針對移動通信系統(tǒng)性能仿真中的信源流量建模環(huán)節(jié),探討了模式識別在傳感器網(wǎng)絡(luò)流量建模中的應(yīng)用。
模式識別;傳感器網(wǎng)絡(luò);流量建模
模式識別是人類的一項(xiàng)基本智能,早在遠(yuǎn)古時代,人類的祖先就已經(jīng)掌握了“模式識別”。隨著20世紀(jì)40年代計算機(jī)的出現(xiàn)以及50年代人工智能的興起,利用計算機(jī)進(jìn)行模式識別逐漸發(fā)展并成為一門新興學(xué)科,研究掌握模式識別方法對于解決通信系統(tǒng)中的科研和工程問題將大有裨益。
通常為考察一個通信系統(tǒng)的網(wǎng)絡(luò)接入性能,需要通過信源建模來獲取“取之不竭”的數(shù)據(jù)流量。信源數(shù)據(jù)流量建??梢詮膬蓚€方面考察:
一方面,移動終端以一定的時間間隔發(fā)送一定大小的數(shù)據(jù)包,時間間隔可以是一個固定值,也可以是一個隨機(jī)數(shù)。若為固定值,則移動終端為周期性發(fā)包;若為隨機(jī)數(shù),則需掌握隨機(jī)數(shù)服從的概率密度分布。數(shù)據(jù)包大?。òL)也是同理,可以是等長的數(shù)據(jù)包,也可以是服從某概率密度的隨機(jī)數(shù)。從這個角度分析得到的模型,一般稱之為ON/OFF模型,ON通常指包長,OFF通常指兩包之間的時間間隔。
另一方面,可從較大的時間尺度上去考察移動終端的發(fā)包情況。若等間隔地觀察一段時間內(nèi)的發(fā)包狀況,在每一個時間采樣點(diǎn)上記錄包長,若無包則記為0,那么我們得到的就是一個時間序列。通過時間序列建模即可模擬“信源”。時間序列建模有著比較成熟的研究方法,如AR模型、MA模型、FARIMA模型等[5]。
下面,我們將研究場景聚焦到傳感器網(wǎng)絡(luò)。
圖1 傳感器網(wǎng)絡(luò)結(jié)構(gòu)示意圖
圖1是傳感器網(wǎng)絡(luò)結(jié)構(gòu)示意圖,黃色的節(jié)點(diǎn)即為傳感器節(jié)點(diǎn)(即移動終端),該類節(jié)點(diǎn)定期或隨機(jī)地發(fā)起發(fā)包的接入請求等;綠色的節(jié)點(diǎn)為匯聚節(jié)點(diǎn),在分層的網(wǎng)絡(luò)結(jié)構(gòu)中,下層節(jié)點(diǎn)的數(shù)據(jù)匯聚到上層節(jié)點(diǎn),上層節(jié)點(diǎn)再匯聚到基站端。針對前述場景,我們可以利用模式識別思維提出一個傳感器節(jié)點(diǎn)數(shù)據(jù)包建模方法[4]。
2.1 數(shù)據(jù)包流量(Packet Traffic)建?;A(chǔ)
數(shù)據(jù)包流量建模的任務(wù)就是要找到流量中的統(tǒng)計不變量,并以此來識別不同類型的數(shù)據(jù)。描述數(shù)據(jù)流量特征的參數(shù)可以大致分為三組,如表1所示。
表1 數(shù)據(jù)包流量特征分類
通過以上一組或幾組特征我們即可模擬不同類型的數(shù)據(jù)包流量。
2.2 節(jié)點(diǎn)流量建模
節(jié)點(diǎn)流量建模常用兩種方法[4]:依據(jù)發(fā)包順序建模、依據(jù)源流量建模。我們重點(diǎn)討論如何依據(jù)發(fā)包順序來建模。
在通信協(xié)議中,信令交互均已預(yù)定義,例如:路由回復(fù)(RREP)總是在路由申請(RREQ)之后發(fā)出。對于一個特定的節(jié)點(diǎn)而言,它本身有著自身獨(dú)特的發(fā)包序列,我們可據(jù)此建模。
2.2.1 數(shù)據(jù)包分類
可以用一個單字節(jié)的ASCII碼來對包進(jìn)行分類,這樣通過一個特定的ASCII碼序列我們即可獲得該節(jié)點(diǎn)的包序列。
我們可以根據(jù)“信源-信宿”地址{Src,Dest}來分類。將實(shí)際的地址空間映射到了一個抽象的更為簡化的地址空間,該簡化的地址空間共有五個實(shí)體(entity):{me;neighbor;local;unlocal;sink/ cluster head}:
Me是當(dāng)前被研究的節(jié)點(diǎn);Neighbor是與當(dāng)前研究節(jié)點(diǎn)距離為一的節(jié)點(diǎn);Local是在路由建立過程中已經(jīng)被當(dāng)前節(jié)點(diǎn)知曉的本地其他節(jié)點(diǎn),路由成功建立后,所有節(jié)點(diǎn)均會被標(biāo)記為local;Unlocal通常用于標(biāo)記外部入侵的節(jié)點(diǎn);Sink/Cluster Head是信宿/匯聚節(jié)點(diǎn)。
2.2.2 數(shù)據(jù)包映射
為了簡便起見,已分類的包可被進(jìn)一步映射到一個單字節(jié)的ASCII碼。以圖2中第一個數(shù)據(jù)包為例:該包由地址為15的信源發(fā)給地址為00的信宿,包類型為RREQ。按照4.2.1給出的地址空間,該包的三項(xiàng)信息可表達(dá)為Local-Sink-RREQ,根據(jù)映射表,“Local-Sink-RREQ”這個類型的包可用單字節(jié)的ASCII碼“A”來表示。通過這種映射,我們可以把包序列看作一個字符串序列。
圖2 包序列建模映射
2.2.3 模式提取
為了研究并模擬包序列,我們可在映射得到的字符串序列中提取模式。詳盡的提取算法可以參考相關(guān)文獻(xiàn)[6][7],此處僅舉一例:令子序列的長度k為4,樣本字符串為AABBDCC,則我們得到的模式集為:AABB,ABBD,BBDC,BDCC。通過研究子序列之間的相互關(guān)系,我們即可建模模擬該信源。如果考慮k取不同值,我們將得到不同長度的模式集。為避免模式集過于復(fù)雜,可增加限制條件,如僅考慮那些出現(xiàn)了兩次以上的模式,起到給模式集瘦身的效果。
本文首先討論了模式識別的定義,在此基礎(chǔ)上進(jìn)一步介紹了模式識別常用的四種方法:模板匹配、統(tǒng)計分類、結(jié)構(gòu)匹配以及神經(jīng)網(wǎng)絡(luò)。結(jié)合通信系統(tǒng)的具體場景,介紹了利用模式識別進(jìn)行數(shù)據(jù)包建模的思路。在當(dāng)今的大數(shù)據(jù)時代,模式識別作為一種數(shù)據(jù)分析手段,研究方法日臻完善,應(yīng)用場景更加廣泛。這就鞭策著研究者們不但要從深度上鉆研更好的方法,同時還要從廣度上縱橫捭闔,學(xué)科之間相互學(xué)習(xí)借鑒,共同繁榮。
[1] Larry O’Gorman,What is Pattern Recognition? www.iapr.org/docs/ newsletter-2003-01.pdf
[2] Anil K.Jain,Robert P.W.Duin and Jianchang Mao,Statistical Pattern Recognition:A Review,IEEE Transaction on Pattern Analysis and Machine Intelligence,Vol.22,No.1,January 2000
[3] V.N.Vapnik,Statistical Learning Theory,New York:John Wiley &Sons,1998
[4] Qinghua Wang,Packet Traffic:A Good Data Source for Wireless Sensor Network Modeling and Anomaly Detection,IEEE Network,Vol.25,Issue 3,May/June 2011
[5] Jiakun Liu,Yantai Shu,Lianfang Zhang,FeiXue,Yang,O.W.W.,Traffic Modeling based on FARIMA Models,1999 IEEE Canadian Conference on Electrical and Computer Engineering
[6] S.Forrest et al.,A Sense of Self in Unix Process,Proc.1996 IEEE Symp.Security and Privacy,May 1996,pp.120-28
[7] S.Hotmeyr,S.Forrest,and A.Somayaji,Intrusion Detection Using Sequences of System Calls,J.Comp.Security,vol.6,1998,pp.151-80
[8] 邊肇祺,張學(xué)工等編著.模式識別(第二版).北京:清華大學(xué)出版社,2000
A Brief Introduction of Pattern Recognition and Its Application in Traffic Modeling
Liu Enya,Wang Gang
(The State Radio Monitoring Center,Beijing,100037)
Pattern recognition is widely used in computer science.This paper presents an introduction to pattern recognition,concerning its concepts and common methods.In order to apply pattern recognition in simulation in mobile communication systems,an example of traffic modeling in wireless sensor network is illustrated.
Pattern Recognition;Wireless Sensor Network;Traffic Modeling
10.3969/J.ISSN.1672-7274.2016.05.021
TN911.72 文獻(xiàn)標(biāo)示碼:A
1672-7274(2016)05-0066-03
劉恩亞,碩士研究生,助理工程師,現(xiàn)就職于國家無線電監(jiān)測中心。
王 剛,碩士研究生,助理工程師,現(xiàn)就職于國家無線電監(jiān)測中心北京監(jiān)測站。