蘇龍 盧選民 王劍亮 潘勃
摘 要: 采用了一種基于HMM的比特流協(xié)議識(shí)別技術(shù),首先通過(guò)模式匹配算法對(duì)原比特流進(jìn)行分類,然后采用隱式馬爾科夫模型對(duì)量化后的數(shù)據(jù)進(jìn)行處理和計(jì)算。實(shí)驗(yàn)結(jié)果表明,它不僅能夠?qū)в谢煜齾f(xié)議數(shù)據(jù)的比特流進(jìn)行識(shí)別,而且可以克服數(shù)據(jù)包不完整的缺點(diǎn),并使得協(xié)議識(shí)別所需時(shí)間大大降低。
關(guān)鍵詞: 協(xié)議識(shí)別; 模式匹配; KMP算法; 隱式馬爾科夫模型
中圖分類號(hào): TN915?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2014)09?0001?03
在日益激烈的電子對(duì)抗中,從偵察截獲的通信比特流序列中進(jìn)一步識(shí)別未知通信協(xié)議是一個(gè)重要課題。短波是惟一不受網(wǎng)絡(luò)樞鈕和有源中繼體制約的遠(yuǎn)程通信手段,一旦發(fā)生戰(zhàn)爭(zhēng)或?yàn)?zāi)害,各種通信網(wǎng)絡(luò)都可能受到破壞,衛(wèi)星也可能受到攻擊,在這種情況下,無(wú)論哪種通信方式,其抗毀能力和自主通信能力與短波無(wú)可相比[1]。PACTOR由于其為短波優(yōu)化了的協(xié)議,可以在惡劣的短波段傳播環(huán)境中提供更快的傳送速度,并且可以方便地使用擴(kuò)展的ASCII碼,是短波段數(shù)據(jù)傳送較流行的一種方式[2]。因此,從比特流中快速、準(zhǔn)確識(shí)別PACTOR協(xié)議具有非常重要的意義。目前國(guó)內(nèi)外對(duì)短波電臺(tái)協(xié)議的識(shí)別主要集中在信號(hào)層面上,尚無(wú)針對(duì)比特流的短波電臺(tái)協(xié)議識(shí)別方法。本文在大量分析現(xiàn)有的PACTOR協(xié)議的基礎(chǔ)上,提出了一種基于HMM的比特流識(shí)別技術(shù)。
1 隱式馬爾科夫模型
隱式馬爾科夫模型[3?6](Hidden Markov models,HMM)是馬爾科夫鏈的一種,它的狀態(tài)不能直接觀察到,但能通過(guò)觀測(cè)向量序列觀察到,每個(gè)觀測(cè)向量都是通過(guò)某些概率密度分布表示為各種狀態(tài),每一個(gè)觀測(cè)向量是由一個(gè)具有相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生。所以,隱馬爾可夫模型是一個(gè)雙重隨機(jī)過(guò)程,具有一定狀態(tài)數(shù)的隱馬爾可夫鏈和顯示隨機(jī)函數(shù)集。其中,馬爾科夫鏈描述了狀態(tài)的轉(zhuǎn)移,一般用轉(zhuǎn)移概率矩陣描述;而一般隨機(jī)過(guò)程描述狀態(tài)和觀測(cè)序列間的關(guān)系,用混淆概率矩陣描述。一個(gè)完整的隱式馬爾科夫可被定義為一個(gè)五元組:[λ=(S,V,Π,A,B),]其定義如下:
有限狀態(tài)集合:[S={s1,s2,…,sN}。]
有限觀察符號(hào)集合:[V={v1,v2,…,vM}。]
初始狀態(tài)的概率分布:[Π={πi},i∈S。]
狀態(tài)轉(zhuǎn)移概率矩陣:[AN×N={aij},i,j∈S。]
觀察符號(hào)發(fā)射概率分布:[BN×M={bik},][i∈S,k∈V。]
2 基于HMM的PACTOR協(xié)議比特流識(shí)別技術(shù)
2.1 PACTOR協(xié)議數(shù)據(jù)包格式分析
對(duì)于一個(gè)完整的PACTOR數(shù)據(jù)包,根據(jù)PACTOR協(xié)議[7]的數(shù)據(jù)單元格式,其最開(kāi)始的8個(gè)比特位是頭字節(jié),它的值是固定的01010101(0x55)。如果在比特流中有8個(gè)比特位值為0x55,那么就代表該比特流中有可能存在使用PACTOR協(xié)議的數(shù)據(jù)包。同時(shí),PACTOR數(shù)據(jù)包中第74~76(波特率為100)或170~172(波特率為200)比特位被定義為data type,其作用是標(biāo)識(shí)數(shù)據(jù)包中DATA的類型。
綜上,可知該字段指定中的內(nèi)容是可以預(yù)期的,因此可以優(yōu)先考慮采用模式匹配算法中的快速模式匹配算法(Knuth?Morris?Pratt Algorithm,KMP)[8?9],對(duì)數(shù)據(jù)包中的比特流進(jìn)行預(yù)處理。
2.2 數(shù)據(jù)預(yù)處理
根據(jù)PACTOR協(xié)議數(shù)據(jù)包的格式特征,KMP算法首先對(duì)源比特流文件進(jìn)行一次掃描,得到了在原文件中靜態(tài)特征Header出現(xiàn)的位置。并根據(jù)這些位置對(duì)原比特流進(jìn)行切割,最終得到多個(gè)以0x55開(kāi)頭的子比特流。
接著,讀取各個(gè)子比特流中在位置Status byte字段的Data type上出現(xiàn)的3位比特值。由于該位置的值已由PACTOR幀格式定義,所以為了簡(jiǎn)化HMM模型,按照表1所示規(guī)則對(duì)各子比特流進(jìn)行量化。通過(guò)特征位的量化值,得到了符合隱式馬爾科夫模型的觀察符號(hào)序列。
表1 Data type量化值規(guī)則對(duì)照表
[b2b3b4(Data type)\&描述\&量化值\&000\&ASCII 8 b\&1\&001\&Huffman\&2\&010\&Huffman(swapped,‘upper case)\&2\&011\&reserved\&0\&100\&PMC German(normal)\&3\&101\&PMC German(swapped)\&3\&110\&PMC English(normal)\&3\&111\&PMC English(swapped) \&3\&]
2.3 HMM模型的建立
為簡(jiǎn)化模型,減少計(jì)算量,HMM 模型中采用離散型隨機(jī)變量構(gòu)建模型參數(shù)[10]。
有限狀態(tài)集合中具有2個(gè)元素:0(若該序列采取PACTOR協(xié)議)、1(若該序列未采取PACTOR協(xié)議);有限觀察符號(hào)集合中具有4個(gè)元素,具體定義如下所示:
[si=1,若該序列采取PACTOR協(xié)議0,若該序列未采取PACTOR協(xié)議]
[vi=1,i=02,i=1,23,i=4,5,6,70,i=else]
其余模型參數(shù)均為隨機(jī)生成,并由計(jì)算得出。HMM的訓(xùn)練過(guò)程在[ΔP(V|λ)<ε=0.01]時(shí)完成迭代,訓(xùn)練時(shí)每次迭代產(chǎn)生新的調(diào)整后重估模型[λ=(Π,A,B),]公式如下:
[πi=α1(i)β1(i)P(O|λ), aij=t=1T-1αt(i)aijbjot+1βt+1(j)t=1T-1αt(i)βt(i)P(O|λ)]
[bik={t|O(t)=k,1≤t≤T}αt(i)βt(i)P(O|λ)t=1Tαt(i)βt(i)P(O|λ)]
式中[αt(i),][βt(i)]分別為模型在[t]時(shí)刻的前向、后向變量。在訓(xùn)練HMM模型時(shí),前向變量、后向變量均可能由于計(jì)算值過(guò)小而被誤認(rèn)為0,為了解決這個(gè)問(wèn)題,采用取自然對(duì)數(shù)的方法,以確保訓(xùn)練計(jì)算中的變量值均處在可用范圍內(nèi)。
3 實(shí)驗(yàn)結(jié)果與分析
在試驗(yàn)中,按照前述的識(shí)別技術(shù),構(gòu)造了一個(gè)2狀態(tài)、4符號(hào)的HMM模型,并采用Visual C++ 6.0編程實(shí)現(xiàn),其KMP處理程序[11]如下:
// KMP string matching algorithm
private bool KMPSearch(int m, int n, string P, string T)
{ int i, j;
bool found;
int[] b = new int[m];
b = Overlap(m, P);
j = 0;
i = 0;
found = false;
while ((i {while((j>0)&&(?。≒.Substring(j,1).Equals(T.Substring(i,1))))) {j=b[j-1];} if (P.Substring(j,1).Equals(T.Substring(i,1))) { j++;} if(j==m) {found=true;} else {i++;} } return found; } // overlap function supporting KMP string matching algorithm private int[] Overlap(int m, string P) { int k, q; int[] b=new int[m]; b[0]=0; q=1; k=0; for (q=1; q {while((k>0)&&(?。≒.Substring(q,1).Equals( P.Substring(k,1))))) {k=b[k];} if(P.Substring(q,1).Equals(P.Substring(k,1))) {k++;} b[q]=k; } return b; } 測(cè)試主界面如圖1所示。 這里選用抓取到的任意一部分PACTOR數(shù)據(jù)包作為訓(xùn)練數(shù)據(jù),另一部分作為測(cè)試數(shù)據(jù),同時(shí)將部分其他協(xié)議數(shù)據(jù)包作為混淆數(shù)據(jù)。此外,為了驗(yàn)證本算法不僅對(duì)完整數(shù)據(jù)包有效,也對(duì)抓取到的非完整數(shù)據(jù)包有效,采取將部分?jǐn)?shù)據(jù)包內(nèi)的數(shù)據(jù)進(jìn)行刪減的方法。通過(guò)調(diào)整混淆比,分別在完整數(shù)據(jù)包和非完整數(shù)據(jù)包下進(jìn)行了7組方案測(cè)試。同時(shí),為了避免訓(xùn)練集對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)影響,每組均選取同等數(shù)量的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。測(cè)試結(jié)果如圖2所示。 圖1 基于HMM的協(xié)議測(cè)試主界面 圖2 基于HMM的PACTOR協(xié)議識(shí)別技術(shù)測(cè)試結(jié)果 由圖2可以看出,完整數(shù)據(jù)包情況下,PACTOR數(shù)據(jù)包的識(shí)別率均在80%以上,在非完整數(shù)據(jù)包情況下,PACTOR協(xié)議的識(shí)別率較完整數(shù)據(jù)包情況的測(cè)試結(jié)果有所下降,但也達(dá)到了70%以上。隨著測(cè)試數(shù)據(jù)樣本中PACTOR協(xié)議所占比重的減小,識(shí)別率均略有下降。而且在PACTOR協(xié)議所占比率減小的情況下,測(cè)試比率有所波動(dòng),這是由于混淆數(shù)據(jù)中所存在的部分冗余數(shù)據(jù)影響到預(yù)處理時(shí)快速模式匹配算法所導(dǎo)致的。同時(shí),在實(shí)驗(yàn)中發(fā)現(xiàn),它僅需掃描一次源比特流就能得到建立HMM所需的數(shù)據(jù),并且不需要記錄特定模式串在源比特流中的位置信息,這就減少了對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)和操作,進(jìn)而降低了I/O操作的時(shí)間消耗。因此該技術(shù)是可行并且有效的。 4 結(jié) 語(yǔ) 比特流識(shí)別未知短波電臺(tái)協(xié)議是一個(gè)全新的課題。本文提出的基于HMM的比特流協(xié)議識(shí)別技術(shù),首先采用KMP對(duì)比特流進(jìn)行處理分類,接著定義了data type數(shù)據(jù)位量化規(guī)則,從而初始化了HMM模型中各個(gè)參數(shù),并將隨機(jī)采集到的數(shù)據(jù)一部分應(yīng)用到HMM模型的訓(xùn)練中,隨之將訓(xùn)練后的模型應(yīng)用到具體的測(cè)試過(guò)程中。實(shí)驗(yàn)結(jié)果表明,該技術(shù)不僅能夠從比特級(jí)實(shí)現(xiàn)對(duì)協(xié)議的分析和識(shí)別,而且解決了傳統(tǒng)協(xié)議識(shí)別算法面對(duì)不完整數(shù)據(jù)包時(shí)遇到的不同瓶頸與難題。因此,具有一定的實(shí)用價(jià)值。但該技術(shù)也有不足,在預(yù)處理數(shù)據(jù)時(shí)僅僅采用靜態(tài)的模式識(shí)別算法并不可靠,下一步的研究工作可以考慮采用數(shù)據(jù)挖掘的方法對(duì)比特流進(jìn)行處理,以改進(jìn)該技術(shù)。 參考文獻(xiàn) [1] 聶東舉,葉進(jìn),閆坤,等.基于SVM算法的短波通信協(xié)議識(shí)別技術(shù)[J].系統(tǒng)工程與電子技術(shù),2013,35(5):1307?1311. [2] 程磊.短波自適應(yīng)調(diào)制信號(hào)的識(shí)別技術(shù)研究與實(shí)現(xiàn)[D].鄭州:信息工程大學(xué),2006. [3] 朱樹(shù)永.協(xié)議識(shí)別技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2008. [4] CHANDGOTIA N, HAN G Y, MARCUS B, et al. One?dimensional Markov random fields, Markov chains and topological Markov fields [J]. Proceedings of the American Mathematical Society, 2013, 142(1): 227?242. [5] LI Xiao?bin, QIAN Jian?sheng, ZHAO Zhi?kai. Special event time predication for mine belt conveyor based on hidden Markov model [J]. Journal of Software, 2013, 8(1): 142?150. [6] LI X G. speech recognition approach based on speech feature clustering and HMM [J]. Journal of Computers, 2012, 7(9): 221?231. [7] FORD Steve.HF/VHF數(shù)字通信手冊(cè)[M].北京:人民郵電出版社,2010. [8] KNUTH D E, MORRIS JR J H, PRATT V R. Fast pattern matching in strings [J]. SIAM Journal on Computing, 1977, 6(2): 323?350. [9] SUNDAY D M. A very fast substring search algorithm [J]. Communications of the ACM, 1990, 33(8): 132?142. [10] 王楊德.面向比特流的協(xié)議幀頭結(jié)構(gòu)分析研究[D].上海:上海交通大學(xué),2013. [11] AHMED F. A study on local binary pattern for automated weed classification using template matching and support vector machine [C]// 2011 IEEE 12th International Symposium on Computational Intelligence and Informatics. Budapest, Hungary: CINTI, 2011: 329?334.
式中[αt(i),][βt(i)]分別為模型在[t]時(shí)刻的前向、后向變量。在訓(xùn)練HMM模型時(shí),前向變量、后向變量均可能由于計(jì)算值過(guò)小而被誤認(rèn)為0,為了解決這個(gè)問(wèn)題,采用取自然對(duì)數(shù)的方法,以確保訓(xùn)練計(jì)算中的變量值均處在可用范圍內(nèi)。
3 實(shí)驗(yàn)結(jié)果與分析
在試驗(yàn)中,按照前述的識(shí)別技術(shù),構(gòu)造了一個(gè)2狀態(tài)、4符號(hào)的HMM模型,并采用Visual C++ 6.0編程實(shí)現(xiàn),其KMP處理程序[11]如下:
// KMP string matching algorithm
private bool KMPSearch(int m, int n, string P, string T)
{ int i, j;
bool found;
int[] b = new int[m];
b = Overlap(m, P);
j = 0;
i = 0;
found = false;
while ((i {while((j>0)&&(?。≒.Substring(j,1).Equals(T.Substring(i,1))))) {j=b[j-1];} if (P.Substring(j,1).Equals(T.Substring(i,1))) { j++;} if(j==m) {found=true;} else {i++;} } return found; } // overlap function supporting KMP string matching algorithm private int[] Overlap(int m, string P) { int k, q; int[] b=new int[m]; b[0]=0; q=1; k=0; for (q=1; q {while((k>0)&&(?。≒.Substring(q,1).Equals( P.Substring(k,1))))) {k=b[k];} if(P.Substring(q,1).Equals(P.Substring(k,1))) {k++;} b[q]=k; } return b; } 測(cè)試主界面如圖1所示。 這里選用抓取到的任意一部分PACTOR數(shù)據(jù)包作為訓(xùn)練數(shù)據(jù),另一部分作為測(cè)試數(shù)據(jù),同時(shí)將部分其他協(xié)議數(shù)據(jù)包作為混淆數(shù)據(jù)。此外,為了驗(yàn)證本算法不僅對(duì)完整數(shù)據(jù)包有效,也對(duì)抓取到的非完整數(shù)據(jù)包有效,采取將部分?jǐn)?shù)據(jù)包內(nèi)的數(shù)據(jù)進(jìn)行刪減的方法。通過(guò)調(diào)整混淆比,分別在完整數(shù)據(jù)包和非完整數(shù)據(jù)包下進(jìn)行了7組方案測(cè)試。同時(shí),為了避免訓(xùn)練集對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)影響,每組均選取同等數(shù)量的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。測(cè)試結(jié)果如圖2所示。 圖1 基于HMM的協(xié)議測(cè)試主界面 圖2 基于HMM的PACTOR協(xié)議識(shí)別技術(shù)測(cè)試結(jié)果 由圖2可以看出,完整數(shù)據(jù)包情況下,PACTOR數(shù)據(jù)包的識(shí)別率均在80%以上,在非完整數(shù)據(jù)包情況下,PACTOR協(xié)議的識(shí)別率較完整數(shù)據(jù)包情況的測(cè)試結(jié)果有所下降,但也達(dá)到了70%以上。隨著測(cè)試數(shù)據(jù)樣本中PACTOR協(xié)議所占比重的減小,識(shí)別率均略有下降。而且在PACTOR協(xié)議所占比率減小的情況下,測(cè)試比率有所波動(dòng),這是由于混淆數(shù)據(jù)中所存在的部分冗余數(shù)據(jù)影響到預(yù)處理時(shí)快速模式匹配算法所導(dǎo)致的。同時(shí),在實(shí)驗(yàn)中發(fā)現(xiàn),它僅需掃描一次源比特流就能得到建立HMM所需的數(shù)據(jù),并且不需要記錄特定模式串在源比特流中的位置信息,這就減少了對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)和操作,進(jìn)而降低了I/O操作的時(shí)間消耗。因此該技術(shù)是可行并且有效的。 4 結(jié) 語(yǔ) 比特流識(shí)別未知短波電臺(tái)協(xié)議是一個(gè)全新的課題。本文提出的基于HMM的比特流協(xié)議識(shí)別技術(shù),首先采用KMP對(duì)比特流進(jìn)行處理分類,接著定義了data type數(shù)據(jù)位量化規(guī)則,從而初始化了HMM模型中各個(gè)參數(shù),并將隨機(jī)采集到的數(shù)據(jù)一部分應(yīng)用到HMM模型的訓(xùn)練中,隨之將訓(xùn)練后的模型應(yīng)用到具體的測(cè)試過(guò)程中。實(shí)驗(yàn)結(jié)果表明,該技術(shù)不僅能夠從比特級(jí)實(shí)現(xiàn)對(duì)協(xié)議的分析和識(shí)別,而且解決了傳統(tǒng)協(xié)議識(shí)別算法面對(duì)不完整數(shù)據(jù)包時(shí)遇到的不同瓶頸與難題。因此,具有一定的實(shí)用價(jià)值。但該技術(shù)也有不足,在預(yù)處理數(shù)據(jù)時(shí)僅僅采用靜態(tài)的模式識(shí)別算法并不可靠,下一步的研究工作可以考慮采用數(shù)據(jù)挖掘的方法對(duì)比特流進(jìn)行處理,以改進(jìn)該技術(shù)。 參考文獻(xiàn) [1] 聶東舉,葉進(jìn),閆坤,等.基于SVM算法的短波通信協(xié)議識(shí)別技術(shù)[J].系統(tǒng)工程與電子技術(shù),2013,35(5):1307?1311. [2] 程磊.短波自適應(yīng)調(diào)制信號(hào)的識(shí)別技術(shù)研究與實(shí)現(xiàn)[D].鄭州:信息工程大學(xué),2006. [3] 朱樹(shù)永.協(xié)議識(shí)別技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2008. [4] CHANDGOTIA N, HAN G Y, MARCUS B, et al. One?dimensional Markov random fields, Markov chains and topological Markov fields [J]. Proceedings of the American Mathematical Society, 2013, 142(1): 227?242. [5] LI Xiao?bin, QIAN Jian?sheng, ZHAO Zhi?kai. Special event time predication for mine belt conveyor based on hidden Markov model [J]. Journal of Software, 2013, 8(1): 142?150. [6] LI X G. speech recognition approach based on speech feature clustering and HMM [J]. Journal of Computers, 2012, 7(9): 221?231. [7] FORD Steve.HF/VHF數(shù)字通信手冊(cè)[M].北京:人民郵電出版社,2010. [8] KNUTH D E, MORRIS JR J H, PRATT V R. Fast pattern matching in strings [J]. SIAM Journal on Computing, 1977, 6(2): 323?350. [9] SUNDAY D M. A very fast substring search algorithm [J]. Communications of the ACM, 1990, 33(8): 132?142. [10] 王楊德.面向比特流的協(xié)議幀頭結(jié)構(gòu)分析研究[D].上海:上海交通大學(xué),2013. [11] AHMED F. A study on local binary pattern for automated weed classification using template matching and support vector machine [C]// 2011 IEEE 12th International Symposium on Computational Intelligence and Informatics. Budapest, Hungary: CINTI, 2011: 329?334.
式中[αt(i),][βt(i)]分別為模型在[t]時(shí)刻的前向、后向變量。在訓(xùn)練HMM模型時(shí),前向變量、后向變量均可能由于計(jì)算值過(guò)小而被誤認(rèn)為0,為了解決這個(gè)問(wèn)題,采用取自然對(duì)數(shù)的方法,以確保訓(xùn)練計(jì)算中的變量值均處在可用范圍內(nèi)。
3 實(shí)驗(yàn)結(jié)果與分析
在試驗(yàn)中,按照前述的識(shí)別技術(shù),構(gòu)造了一個(gè)2狀態(tài)、4符號(hào)的HMM模型,并采用Visual C++ 6.0編程實(shí)現(xiàn),其KMP處理程序[11]如下:
// KMP string matching algorithm
private bool KMPSearch(int m, int n, string P, string T)
{ int i, j;
bool found;
int[] b = new int[m];
b = Overlap(m, P);
j = 0;
i = 0;
found = false;
while ((i {while((j>0)&&(?。≒.Substring(j,1).Equals(T.Substring(i,1))))) {j=b[j-1];} if (P.Substring(j,1).Equals(T.Substring(i,1))) { j++;} if(j==m) {found=true;} else {i++;} } return found; } // overlap function supporting KMP string matching algorithm private int[] Overlap(int m, string P) { int k, q; int[] b=new int[m]; b[0]=0; q=1; k=0; for (q=1; q {while((k>0)&&(?。≒.Substring(q,1).Equals( P.Substring(k,1))))) {k=b[k];} if(P.Substring(q,1).Equals(P.Substring(k,1))) {k++;} b[q]=k; } return b; } 測(cè)試主界面如圖1所示。 這里選用抓取到的任意一部分PACTOR數(shù)據(jù)包作為訓(xùn)練數(shù)據(jù),另一部分作為測(cè)試數(shù)據(jù),同時(shí)將部分其他協(xié)議數(shù)據(jù)包作為混淆數(shù)據(jù)。此外,為了驗(yàn)證本算法不僅對(duì)完整數(shù)據(jù)包有效,也對(duì)抓取到的非完整數(shù)據(jù)包有效,采取將部分?jǐn)?shù)據(jù)包內(nèi)的數(shù)據(jù)進(jìn)行刪減的方法。通過(guò)調(diào)整混淆比,分別在完整數(shù)據(jù)包和非完整數(shù)據(jù)包下進(jìn)行了7組方案測(cè)試。同時(shí),為了避免訓(xùn)練集對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)影響,每組均選取同等數(shù)量的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。測(cè)試結(jié)果如圖2所示。 圖1 基于HMM的協(xié)議測(cè)試主界面 圖2 基于HMM的PACTOR協(xié)議識(shí)別技術(shù)測(cè)試結(jié)果 由圖2可以看出,完整數(shù)據(jù)包情況下,PACTOR數(shù)據(jù)包的識(shí)別率均在80%以上,在非完整數(shù)據(jù)包情況下,PACTOR協(xié)議的識(shí)別率較完整數(shù)據(jù)包情況的測(cè)試結(jié)果有所下降,但也達(dá)到了70%以上。隨著測(cè)試數(shù)據(jù)樣本中PACTOR協(xié)議所占比重的減小,識(shí)別率均略有下降。而且在PACTOR協(xié)議所占比率減小的情況下,測(cè)試比率有所波動(dòng),這是由于混淆數(shù)據(jù)中所存在的部分冗余數(shù)據(jù)影響到預(yù)處理時(shí)快速模式匹配算法所導(dǎo)致的。同時(shí),在實(shí)驗(yàn)中發(fā)現(xiàn),它僅需掃描一次源比特流就能得到建立HMM所需的數(shù)據(jù),并且不需要記錄特定模式串在源比特流中的位置信息,這就減少了對(duì)數(shù)據(jù)庫(kù)的訪問(wèn)和操作,進(jìn)而降低了I/O操作的時(shí)間消耗。因此該技術(shù)是可行并且有效的。 4 結(jié) 語(yǔ) 比特流識(shí)別未知短波電臺(tái)協(xié)議是一個(gè)全新的課題。本文提出的基于HMM的比特流協(xié)議識(shí)別技術(shù),首先采用KMP對(duì)比特流進(jìn)行處理分類,接著定義了data type數(shù)據(jù)位量化規(guī)則,從而初始化了HMM模型中各個(gè)參數(shù),并將隨機(jī)采集到的數(shù)據(jù)一部分應(yīng)用到HMM模型的訓(xùn)練中,隨之將訓(xùn)練后的模型應(yīng)用到具體的測(cè)試過(guò)程中。實(shí)驗(yàn)結(jié)果表明,該技術(shù)不僅能夠從比特級(jí)實(shí)現(xiàn)對(duì)協(xié)議的分析和識(shí)別,而且解決了傳統(tǒng)協(xié)議識(shí)別算法面對(duì)不完整數(shù)據(jù)包時(shí)遇到的不同瓶頸與難題。因此,具有一定的實(shí)用價(jià)值。但該技術(shù)也有不足,在預(yù)處理數(shù)據(jù)時(shí)僅僅采用靜態(tài)的模式識(shí)別算法并不可靠,下一步的研究工作可以考慮采用數(shù)據(jù)挖掘的方法對(duì)比特流進(jìn)行處理,以改進(jìn)該技術(shù)。 參考文獻(xiàn) [1] 聶東舉,葉進(jìn),閆坤,等.基于SVM算法的短波通信協(xié)議識(shí)別技術(shù)[J].系統(tǒng)工程與電子技術(shù),2013,35(5):1307?1311. [2] 程磊.短波自適應(yīng)調(diào)制信號(hào)的識(shí)別技術(shù)研究與實(shí)現(xiàn)[D].鄭州:信息工程大學(xué),2006. [3] 朱樹(shù)永.協(xié)議識(shí)別技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2008. [4] CHANDGOTIA N, HAN G Y, MARCUS B, et al. One?dimensional Markov random fields, Markov chains and topological Markov fields [J]. Proceedings of the American Mathematical Society, 2013, 142(1): 227?242. [5] LI Xiao?bin, QIAN Jian?sheng, ZHAO Zhi?kai. Special event time predication for mine belt conveyor based on hidden Markov model [J]. Journal of Software, 2013, 8(1): 142?150. [6] LI X G. speech recognition approach based on speech feature clustering and HMM [J]. Journal of Computers, 2012, 7(9): 221?231. [7] FORD Steve.HF/VHF數(shù)字通信手冊(cè)[M].北京:人民郵電出版社,2010. [8] KNUTH D E, MORRIS JR J H, PRATT V R. Fast pattern matching in strings [J]. SIAM Journal on Computing, 1977, 6(2): 323?350. [9] SUNDAY D M. A very fast substring search algorithm [J]. Communications of the ACM, 1990, 33(8): 132?142. [10] 王楊德.面向比特流的協(xié)議幀頭結(jié)構(gòu)分析研究[D].上海:上海交通大學(xué),2013. [11] AHMED F. A study on local binary pattern for automated weed classification using template matching and support vector machine [C]// 2011 IEEE 12th International Symposium on Computational Intelligence and Informatics. Budapest, Hungary: CINTI, 2011: 329?334.