肖
漢1,2,楊 威1,3,沈 瑤1,3,張宇飛1,2,黃劉生1,3
隨著信息化的高速發(fā)展,網(wǎng)絡(luò)通信已經(jīng)成為了人們生活中不可或缺的一部分.然而,信息化在帶給人們高效和便利生活的同時,信息安全問題也隨之而來.安全事件層出不窮,陸續(xù)出現(xiàn)了蘋果“泄密門”事件、12306用戶資料大規(guī)模泄漏事件等重大的安全事件.越來越多的國家把信息控制與能力視為國家安全的標(biāo)志[1].
傳統(tǒng)的保護(hù)信息安全的方式往往是對要傳輸?shù)男畔⑦M(jìn)行加密,但是加密的通信鏈路往往會引起攻擊者的注意.隨著計算機硬件和密碼學(xué)的高速發(fā)展,攻擊者破解密鑰的能力有了較大的提升,加密的通信鏈路已經(jīng)無法充分保障數(shù)據(jù)通信的安全.而網(wǎng)絡(luò)隱信道是一種新興的信息隱藏技術(shù),是一種借助于正常通信信道傳輸隱秘信息的通信方式.其具有較高的隱秘性,能輕而易舉通過防火墻、控制訪問等網(wǎng)絡(luò)安全設(shè)施,讓第三方難以發(fā)現(xiàn)蹤跡[2].所以利用網(wǎng)絡(luò)隱信道進(jìn)行隱秘通信受到人們越來越多的關(guān)注.
網(wǎng)絡(luò)隱信道根據(jù)其載體不同主要分為兩大類:一是存儲型隱信道,存儲型隱信道主要是利用網(wǎng)絡(luò)傳輸協(xié)議的缺陷,在協(xié)議的未用或保留字段中嵌入隱秘信息.例如Identification、TOS、URG等協(xié)議字段[4,5];二是時序型隱信道,時序型隱信道往往通過操縱數(shù)據(jù)包之間的時序關(guān)系,將隱秘信息隱藏在數(shù)據(jù)包的時序分布中[6,8-12].例如通過調(diào)制數(shù)據(jù)包的發(fā)送時間來傳遞隱秘信息.存儲型隱信道的隱蔽性較低,且很容易被防火墻等安全設(shè)施發(fā)現(xiàn)并摧毀.而時序型隱信道往往傳輸速率低,而且其隱蔽性雖然相對于存儲型隱信道較高,但也很難逃過專業(yè)檢測算法的檢測[7,9,17].
一個好的時序型隱信道必須具有高容量和強隱蔽性等特點.高容量就是隱信道要具有較高的傳輸速率;強隱蔽性就是具有較高的抗檢測性,能躲過安全設(shè)施的檢測.而現(xiàn)有的隱信道往往側(cè)重于研究隱信道的隱蔽性或信道容量某一方面,沒有將二者有機的統(tǒng)一起來.而我們提出的HMCTC隱信道在采用了K元Huffman編碼的基礎(chǔ)上調(diào)制出符合合法信道時序間隔分布的時序間隔序列,從而使HMCTC隱信道能夠在保證隱蔽性的同時具有較高的信道容量.總的來說,本文的主要貢獻(xiàn)如下:
1)我們提出一種新型的高效時序隱信道HMCTC,相對于傳統(tǒng)隱信道,其具有較高的信道容量和較強的隱蔽性,能夠高速且安全的完成隱秘信息的傳輸.
2)在HMCTC隱信道中,我們將Huffman編碼應(yīng)用到了隱信道的編碼階段.采用K元Huffman編碼對隱秘信息的信源符號進(jìn)行編碼,壓縮信源符號的碼長,從而提高HMCTC隱信道的信道容量.理論上來講,HMCTC隱信道的信道容量會隨著K的增大而不斷增長.
3)針對HMCTC隱信道的隱蔽性,我們通過調(diào)制其編碼,逆向生成和合法信道服從同一分布的時序間隔序列,從而保證HMCTC隱信道具有較強的隱蔽性.
4)我們針對HMCTC隱信道的信道容量和隱蔽性設(shè)計并完成了一系列實驗,實驗表明,相對已有的時序隱信道,HMCTC隱信道具有較高的信道容量和較強的隱蔽性.
本文后續(xù)部分包括:第2節(jié)是前人在隱信道方面的相關(guān)工作,主要介紹隱信道的發(fā)展歷史和研究近況,第3節(jié)主要介紹了HMCTC隱信道編碼本的構(gòu)建,第4節(jié)為HMCTC隱信道的具體實現(xiàn)機制,第5節(jié)分析了其信道容量與變量K之間的關(guān)系,第6節(jié)是對HMCTC隱信道的信道容量和隱蔽性進(jìn)行實驗驗證,第7節(jié)則是對論文的總結(jié).
1973年Lampson首次提出隱信道的概念[3],并給出了隱蔽信道的一般通信模型.在1987年,Girling第一次提出基于網(wǎng)絡(luò)協(xié)議的隱信道[4](簡稱網(wǎng)絡(luò)隱信道),即利用網(wǎng)絡(luò)傳輸協(xié)議構(gòu)建隱信道.之后,Padlipsky,Rowland等[5,8]相繼提出了在互聯(lián)網(wǎng)傳輸協(xié)議中構(gòu)建隱信道的方法.
Cabuk等人在2004年提出了一種基于TCP/IP的二進(jìn)制時序型隱信道IPCTC[9],通信雙方約定固定大小的時序窗口t,接收方通過判斷是否在時序窗口t內(nèi)收到數(shù)據(jù)包來確定傳輸?shù)碾[秘信息,例如收到數(shù)據(jù)包代表′1′,沒收到代表′0′.IPCTC是一種簡單的時序型隱信道,它需要通信雙方保持傳輸同步從而保證解碼的正確性.但是這種隱信道容量較小,實驗表明當(dāng)t=60ms且RTT=31.5ms時,IPCTC隱信道的容量只有16.67bps.同時由于其時序分布具有很強的規(guī)律性,其統(tǒng)計特征和正常信道差別較大,很容易被檢測工具檢測出來.
Shah等人發(fā)明了一種基于鍵盤設(shè)備的叫做JitterBug的時序型隱信道[10],它主要工作在用戶利用鍵盤進(jìn)行輸入的階段.在用戶敲擊鍵盤的過程中改變數(shù)據(jù)包的發(fā)送時間從而構(gòu)造時序隱信道來傳輸隱秘信息.通過他們的編碼傳輸方案,用戶每一次按鍵都能傳送1bit信息,隱秘信息的傳輸速率取決于用戶輸入的速度.在此基礎(chǔ)上,他們又提出了一種新的編碼傳輸方案,一次按鍵可以傳輸4bit的隱秘信息.這種方案大大的提高了隱信道的傳輸速率,但是這種隱信道的傳輸速率仍舊受到用戶鍵盤輸入速度的限制.同時一些較為精細(xì)的檢測算法[9,17]仍能檢測到其異常的時序特征.
Sellke等人提出一種復(fù)雜的基于密碼本的時序型隱信道[11],簡稱L-to-N隱信道.這種隱信道采用的是一種叫做“L-bits toN- packets”的機制,即每一串L-bit的二進(jìn)制流對應(yīng)N個時序間隔(T1,T2,T3,…,TK).發(fā)送方將要發(fā)送L-bit的二進(jìn)制流根據(jù)密碼本轉(zhuǎn)換成N個時序間隔.而接收方每收到N個時序間隔就根據(jù)其密碼本將其轉(zhuǎn)換為對應(yīng)的L-bit的二進(jìn)制流.Sellke分析并驗證了不同的L和N取值時對隱信道容量的影響.當(dāng)使用“L-bits toN- packets”時,其隱信道容量高達(dá)近37bps,具有較高的信道容量.但是這種隱信道的時序分布特征也較為明顯,其隱蔽性較差.
Gianvecchio等人設(shè)計了一種“Model-based”隱信道[12].通過不斷獲取合法信道的數(shù)據(jù)包,分析其時序分布特征,確定合適的擬合模型,然后通過將要傳輸?shù)碾[秘信息調(diào)制成選定模型的時序序列進(jìn)行傳輸.由于這種隱信道的時序分布與合法信道時序分布較為擬合,其區(qū)分度較小,所以具有較強的隱蔽性.但是這種隱信道容量不高.總的來說這是一種低信道容量高隱蔽性的時序型隱信道.
本文提出的HMCTC隱信道首先利用K元Huffman編碼將常見的信源字符進(jìn)行編碼,即將要傳輸?shù)碾[秘信息根據(jù)編碼本進(jìn)行重新編碼重寫,從而用較短的向量序列表示較長的隱秘信息,然后根據(jù)合法信道的i.i.d.(independent and identically distributed)[16]對要傳輸?shù)南蛄啃蛄羞M(jìn)行擬合調(diào)制,使得調(diào)制產(chǎn)生后的時序間隔序列符合合法信道的i.i.d..這樣HMCTC隱信道就能夠保證在具有較高容量的同時擁有較強的隱蔽性.
ASCII碼編碼是國際上通用且最常見的編碼,使用8bit定長的二進(jìn)制序列表示常見的128個字符(包括可打印的和不可打印的).但是這種編碼方法會造成很大的信息冗余,不是最佳編碼.而Huffman編碼[13]則是根據(jù)符號的頻率進(jìn)行變長編碼,頻率高的字符的碼長較短,頻率低的字符碼長較長.理論表明,Huffman編碼是一種最優(yōu)編碼,其構(gòu)造出來的編碼方案使得平均碼長達(dá)到最小.而K元Huffman編碼是對常見Huffman編碼的一種擴展,理論上來說,隨著K的增加,其平均碼長會逐漸減小.圖1是一個給定的字符頻率表經(jīng)過K元Huffman編碼后的平均碼長.從圖1中可以看出,隨著K的增加,字符的平均碼長逐漸較小并接近于1.
利用K元Huffman編碼構(gòu)造編碼本的過程如下:
1)將要編碼的n個信源符號根據(jù)其概率的大小進(jìn)行排列:
p1≤p2≤p3…≤pn
2)取K個概率最小的信源符號按升序分別分配1、2、3…K這K個碼元,并將這K個信源符號的概率相加作為一個p1≤p2≤p3…≤pn新的信源符號的概率,與未分配碼元的信源符號進(jìn)行重新排列.
3)對重排后的信源符號重復(fù)進(jìn)行步驟2)的工作,直到所有的信源符號都成功分配到碼元.
4)從最后一級開始,向前返回得到n個信源符號所對應(yīng)的碼元序列,這個碼元序列即信源符號的碼字.
5)記錄n個信源符號與其碼字的對應(yīng)關(guān)系,完成編碼本的構(gòu)建.
圖1 K元Huffman編碼平均碼長Fig.1 Average code length of K-array Huffman-encoding
假設(shè)要編碼信源符號序列為X={A,B,C,D,E,F,G},其對應(yīng)的概率序列P={0.1,0.2,0.4,0.05,0.06,0.12,0.07},則利用3元Huffman編碼構(gòu)造編碼本的過程如圖2所示.
圖2 3元Huffman編碼本構(gòu)造過程Fig.2 Encoding process of 3-array Huffman-encoding
HMCTC隱信道的通信架構(gòu)如圖3所示,發(fā)送方首先對將隱秘信息根據(jù)密碼本進(jìn)行編碼,然后對編碼后的信息進(jìn)行模擬調(diào)制,生成符合合法信道i.i.d.分布的時序間隔序列,最后按照生成的時序間隔序列發(fā)送數(shù)據(jù)包.而接收方首先獲取數(shù)據(jù)包之間的時序間隔序列,然后逆向解調(diào)獲取編碼過的信息,最后根據(jù)編碼本恢復(fù)隱秘信息.其中編碼本是利用K元Huffman編碼進(jìn)行構(gòu)造的,通信雙方共享同一個編碼本.
圖3 HMCTC隱信道通信架構(gòu)Fig.3 Communication framework of HMCTC covert channel
2)調(diào)制.利用基于共享密鑰Kkey的偽隨機數(shù)產(chǎn)生器(通信雙方共同約定)產(chǎn)生n個服從(0,1)均勻分布的隨機數(shù)序列{r1,r2,r3,…,rn}使用公式
ui=(mi+ri)mod1
(1)
產(chǎn)生n個服從(0,1)均勻分布的隨機序列{u1,u2,u3,…,un}.假設(shè)F(X)是合法信道的時序間隔分布的概率分布函數(shù).令
di=F-1(ui)
(2)
生成調(diào)制后的時序間隔序列{d1,d2,d3,…,dn}.
3)發(fā)送.選取一條正常通信信道上的n+1個數(shù)據(jù)包P=(p1,p2,…,pn+1),調(diào)制這n+1個數(shù)據(jù)包的發(fā)送時間,使其滿足|Ts(pi+1)-Ts(pi)|=di(1≤i≤n).其中Ts(pi)代表第i個數(shù)據(jù)包的發(fā)送時間.
(3)
(4)
(5)
信道容量表示的是一個通信隱信道在保證信息正確率的前提下所能達(dá)到的最大信息傳輸率.往往通過計算單位時間內(nèi)傳輸?shù)男畔⒈忍財?shù)來衡量信道容量[14],即
(6)
其中I(t)代表在時間t內(nèi)傳輸?shù)谋忍財?shù).
因為編碼階段采用的是K元Huffman編碼,所以字符編碼的平均編碼長度L*為
L*=∑(pi*Li)
(7)
其中,Li代表字符的編碼長度,pi代表字符i的概率.由于調(diào)制后的隱信道時序間隔序列是與合法信道的時序間隔序列服從同一分布,其對應(yīng)的概率密度函數(shù)為f(x)=F′(x),數(shù)學(xué)期望為E(X),則其單位時間內(nèi)發(fā)送的數(shù)據(jù)包數(shù)S為
(8)
所以根據(jù)公式(7)、(8)可知,HMCTC隱信道的信道容量
(9)
(10)
其中HK(X)是對信源符號向量X進(jìn)行K元Huffman編碼后的熵.從公式(9)、(10)可以看出,K的取值會影響信道容量.當(dāng)K增大時,其平均編碼長度L*隨之減小,信道容量C隨之增大.但是K的值并不可以無限增大,這是因為網(wǎng)絡(luò)通信并不穩(wěn)定,網(wǎng)絡(luò)抖動或擁塞會導(dǎo)致時序的變化,影響解碼的正確性.假設(shè)時序波動為θi,則在解調(diào)的過程中
(11)
其中δ∈(di-θi,di+θi).聯(lián)立公式(2)、(4)、(11)可得
(12)
所以為了保證解碼的正確性,根據(jù)公式(5)可知,必須要保證
(13)
即
K<(2×|max(f(x))×θmax|)-1
(14)
由以上證明可以看出,當(dāng)K增大時,隱信道的信道容量隨之增大.但K不可以無限制增大,當(dāng)
K≥(2×|max(f(x))×θmax|)-1
(15)
時,將無法保證解碼的正確性.
我們的測試環(huán)境是選取兩臺服務(wù)器分別作為隱信道的發(fā)送端和接收端進(jìn)行通信.發(fā)送端按照隱信道的調(diào)制方法在客戶端的通信協(xié)議棧中控制數(shù)據(jù)包之間的時序間隔,而接收端通過解析通信中數(shù)據(jù)包之間的時序間隔從而解碼還原客戶端發(fā)送的隱秘信息.
為了測試我們隱信道的功效,我們利用Telnet通信流構(gòu)造HMCTC隱信道.為了選取合適的調(diào)制函數(shù),我們在中科大蘇州研究院的網(wǎng)關(guān)服務(wù)器上抓取Telnet通信包,對各條通信流進(jìn)行時序間隔序列統(tǒng)計分析,發(fā)現(xiàn)其時序間隔分布與Weibull分布(如圖4所示)較為相似,其中Weibull分布概率密度函數(shù)為
(16)
根據(jù)樣本使用最大似然估計法[16],我們可以得到其具體分布的參數(shù)值,其中a=200.3129,b=0.9012.
圖4 樣本分布和weibull分布對比Fig.4 Compare between sample distribution and weibull distribution
由于網(wǎng)絡(luò)環(huán)境是固定的,其最大時序波動也就可以認(rèn)為是一個定值,在最大時序波動θmax固定的情況下,HMCTC隱信道在不同的K取值情況下,分別傳輸20篇英文文章,用其平均傳輸速率估計每一個K值對應(yīng)的信道容量.以此我們來分析K的取值對隱信道容量的影響.
圖5 信道容量與編碼變量K的關(guān)系Fig.5 Relationship between channel capacity and coding variables K
從圖5可知,HMCTC隱信道的信道容量隨著K的增長而不斷增大.但是K值并不可以無限增大,根據(jù)公式(14)可以計算出,在此次實驗環(huán)境中,K的最大值為26,即當(dāng)K=26時,其信道容量容量能達(dá)到最大.當(dāng)其超過其最大值時,其誤碼率會超過30%.所以在此次實驗中,在保證解碼準(zhǔn)確的情況下,HMCTC隱信道的最大容量為37.79bits/s.相對于L-to-N隱信道(Δ=50ms,δ=10ms)的36.59bits/s[11]和IPCTC(Δ=50ms,δ=0ms)19.86bits/s[9]其隱信道的容量分別提升了0.03%和90.28%.
總的來說,HMCTC的隱信道的容量主要取決于所選取的正常信道的傳輸速率和K的取值.由于所選取的正常信道的速率是固定的,所以其信道容量主要由K的取值來確定.實驗表明,HMCTC隱信道的信道容量隨著K的增長而不斷增大,當(dāng)K取其最大值時,其信道容量達(dá)到最大.所以說HMCTC具有較高的信道容量,其信道容量是能夠得到保證的.
為了驗證HMCTC隱信道的隱蔽性,我們采用ε-相似度檢測算法[9]和熵檢測算法[17]分別對HMCTC隱信道、合法信道、L-to-N隱信道、IPCTC隱信道進(jìn)行檢測,從實驗方面驗證HMCTC隱信道的隱蔽性.
圖6 ε-相似度檢測百分比圖Fig.6 Percentages for samples using ε-Similarity Detection
熵檢測.信息熵率是指隨機變量的平均信息熵,常用于衡量隨機變量的復(fù)雜度和規(guī)律性[13].由于隱信道的規(guī)律性較強,混亂程度小,相對于正常信道擁有較小的信息熵值,所以熵檢測算法可以通過計算時序間隔{d1,d2,d3…dn}的信息熵entropy=-∑pilogpi來判斷信道是否為隱信道.其中pi是對應(yīng)項di出現(xiàn)的概率.圖7是HMCTC隱信道、正常信道、L-to-N隱信道、IPCTC隱信道在樣本大小為500的情況下,各個樣本的信息熵值分布.從圖中可以看出,合法信道與L-to-N隱信道、IPCTC隱信道的熵值相差較大,利用熵檢測算法能夠輕易檢測出L-to-N隱信道、IPCTC隱信道是否存在.但是HMCTC隱信道的熵值與合法信道的熵值的區(qū)分度較小,所以說很難通過熵檢測算法檢測出HMCTC隱信道的存在.
選取大量數(shù)據(jù)進(jìn)行實驗,確定ε-相似度檢測算法和熵檢測檢測算法最優(yōu)的參數(shù),然后對四種信道的產(chǎn)生的數(shù)據(jù)以窗口大小為500進(jìn)行分組檢測.其最終檢測判定結(jié)果如下表表1所示,其結(jié)果為檢測準(zhǔn)確率.
圖7 熵檢測信息熵值分布圖Fig.7 Information entropy for samples using entropy detection
從以上的結(jié)果中可以看出,常用的檢測算法對一些常用的隱信道有著較好的檢測效果,但卻很難檢測到HMCTC隱信道,說明HMCTC隱信道有著較好的隱蔽性,很難被常用的隱信道檢測算法識別.
表1 信道檢測結(jié)果
Table 1 Results of detection
Channelε?SimilarityDetectionEntropyDetectionLegitimateTelnetChannel100%100%HMCTCCovertChannel0.2%0.4%L?to?NCovertChannel100%100%IPCTCCovertChannel100%100%
本文中提出了一種新的基于K元Huffman編碼的時序型隱信道,也稱HMCTC隱信道.傳統(tǒng)的隱信道往往不能保證高信道容量和強隱蔽性的統(tǒng)一.而HMCTC隱信道克服了這個缺點,在保證較強隱秘性的同時又擁有較高的信道容量.在本文中我們詳細(xì)介紹了HMCTC隱信道的實現(xiàn)原理,并驗證了它的高信道容量和高隱蔽性.將來我們會研究進(jìn)一步增強該隱信道容量的方法及相應(yīng)的檢測方法.
[1] The white paper to the development of China′s information security industry [R].Information Security Industry Branch of China Information Industry Chamber of Commerce,2015.
[2] Zander S,Armitage G,Branch P.A survey of covert channels and countermeasures in computer network protocols[J].IEEE Communications Surveys & Tutorials,2007,9(3):44-57.
[3] Lampson B W.A note on the confinement problem[J].Communications of the ACM,1973,16(10):613-615.
[4] Girling C G.Covert Channels in LAN′s[J].IEEE Transactions on Software Engineering,1987,13(2):292-296.
[5] Rowland C H.Covert channels in the TCP/IP protocol suite[J].First Monday,1997,2(5):32-48.
[6] Yu Chi,Huang Liu-sheng,Yang Wei,et al. A 3G speech data hiding method based on pitch period[J]. Journal of Chinese Computer Systems,2012,33(7):1445-1449
[7] Wang Jian-feng,Huang Liu-sheng,Tian Miao-miao,et al.Detection of HTML steganography based on statistics and SVM classification[J].Journal of Chinese Computer Systems,2014,35(6):1221-1225.
[8] Padlipsky M A,Snow D W,Karger P A.Limitations of end-to-end encryption in secure computer networks[R].Mitre Corp Bedford MA,1978.
[9] Cabuk S,Brodley C E,Shields C.IP covert timing channels:design and detection[C].Proceedings of the 11th ACM Conference on Computer and Communications Security,ACM,2004:178-187.
[10] Shah G,Molina A,Blaze M.Keyboards and covert channels[C].Usenix Security,2006,6:59-75.
[11] Sellke S H,Wang C C,Bagchi S,et al.TCP/IP timing channels:theory to implementation[C].International Conference on Computer Communications(INFOCOM′09),2009:2204-2212.
[12] Gianvecchio S,Wang H,Wijesekera D,et al.Model-based covert timing channels:automated modeling and evasion[C].International Workshop on Recent Advances in Intrusion Detection,Springer Berlin Heidelberg,2008:211-230.
[13] Huffman D A.A method for the construction of minimum-redundancy codes[J].Proceedings of the IRE,1952,40(9):1098-1101.
[14] Qiu L,Zhang Y,Wang F,et al.Trusted computer system evaluation criteria[C].National Computer Security Center(CSRC),1985.
[15] Cover T M,Thomas J A.Elements of information theory[M].John Wiley & Sons,2012.
[16] Papoulis A.Probability &statistics[M].Englewood Cliffs:Prentice-Hall,1990.
[17] Gianvecchio S,Wang H.Detecting covert timing channels:an entropy-based approach[C].Proceedings of the 14th ACM Conference on Computer and Communications Security,ACM,2007:307-316.
附中文參考文獻(xiàn):
[1] 中國信息安全產(chǎn)業(yè)發(fā)展白皮書[R].中國信息產(chǎn)業(yè)商會信息安全產(chǎn)業(yè)分會,2015.
[6] 余 遲,黃劉生,楊 威,等.一種針對基音周期的 3G 信息隱藏方法[J].小型微型計算機系統(tǒng),2012,33(7):1445-1449.
[7] 王劍鋒,黃劉生,田苗苗,等.基于統(tǒng)計和 SVM 分類的網(wǎng)頁隱秘信息檢測[J].小型微型計算機系統(tǒng),2014,35(6):1221-1225.