孟小冬
(呼倫貝爾學(xué)院 計算機(jī)學(xué)院,內(nèi)蒙古 呼倫貝爾 021000)
在大數(shù)據(jù)背景下,信息能夠通過網(wǎng)絡(luò)正確傳遞到用戶的同時,也會造成信息泄露,無法保障個人信息安全,因此,及時做好網(wǎng)絡(luò)安全防范,防止敏感數(shù)據(jù)被竊取[1]。敏感數(shù)據(jù)是一種容易丟失、具有一定價值的數(shù)據(jù),而鏈路網(wǎng)絡(luò)安全不僅包括組網(wǎng)軟硬件,還包括共享的資源,保護(hù)敏感數(shù)據(jù),能夠使鏈路網(wǎng)絡(luò)連續(xù)可靠性運(yùn)行,保障網(wǎng)絡(luò)服務(wù)正常運(yùn)行[2]。文獻(xiàn)[3]提出一種鏈路層光纖網(wǎng)絡(luò)被動數(shù)據(jù)存儲方法,對鏈路層光纖網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行訪問控制,采用信息共享技術(shù),將訪問控制方案改成加密過程單獨(dú)發(fā)送的執(zhí)行方案,可有效減少計算復(fù)雜程度,具有較高的計算效率,但防竊取效果較差;文獻(xiàn)[4]提出一種面向數(shù)據(jù)中心網(wǎng)絡(luò)的鏈路數(shù)據(jù)實時檢測方法,通過網(wǎng)絡(luò)檢測方法對網(wǎng)絡(luò)中鏈路數(shù)據(jù)進(jìn)行獲取,在用戶受到攻擊后獲取網(wǎng)絡(luò)之間散落的數(shù)據(jù),該方法能夠較好防止網(wǎng)絡(luò)數(shù)據(jù)的竊取,但計算量較大,實現(xiàn)過程極為復(fù)雜;文獻(xiàn)[5]提出一種分布式網(wǎng)絡(luò)監(jiān)控系統(tǒng)中網(wǎng)鏈路數(shù)據(jù)防竊取方法,采用有向信息流技術(shù)進(jìn)行敏感數(shù)據(jù)防竊取,利用反編譯對數(shù)據(jù)密碼進(jìn)行解析,根據(jù)權(quán)限應(yīng)用創(chuàng)造有向信息流,并標(biāo)識隱私數(shù)據(jù)點(diǎn),利用隱私點(diǎn)跟蹤敏感數(shù)據(jù),該方法具有良好防竊取效果,但內(nèi)存消耗較大。
為了解決傳統(tǒng)方法檢測結(jié)論不準(zhǔn)確,防竊取效果差等問題,在大數(shù)據(jù)背景下提出了基于圖自同構(gòu)的鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取方法。針對不同隱私攻擊,采用圖自同構(gòu)防竊取方法能夠有效防止結(jié)點(diǎn)敏感數(shù)據(jù)被竊取,保證社會網(wǎng)絡(luò)數(shù)據(jù)高可用性。通過實驗驗證了基于圖自同構(gòu)的鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取方法的防竊取效果,能夠有效防止用戶信息泄露,保護(hù)用戶隱私。
鏈路網(wǎng)絡(luò)中各個組成結(jié)構(gòu)都可能出現(xiàn)隱私信息泄露的現(xiàn)象,需要對各個結(jié)構(gòu)進(jìn)行保護(hù)。敏感數(shù)據(jù)需要保護(hù)[6]的信息主要包括4個方面,分別是數(shù)據(jù)屬性值、存在性、再識別性、圖結(jié)構(gòu)。在大數(shù)據(jù)背景下,數(shù)據(jù)敏感屬性值通常在傳送過程中被匿名處理,但敏感屬性信息依然存在安全隱患的,因此,這4個信息需要被保護(hù)[7]。
用戶在參與過程中,攻擊者往往通過個人信息對目標(biāo)對象進(jìn)行敏感數(shù)據(jù)攻擊。一旦攻擊者通過某種途徑獲取目標(biāo)對象信息后,那么攻擊者會收集許多信息作為背景知識,進(jìn)而得到目標(biāo)對象隱私信息[8-10],根據(jù)敏感數(shù)據(jù)被攻擊過程分析結(jié)果,進(jìn)行攻擊后敏感數(shù)據(jù)被竊取初步檢測。
使用E描述遭受攻擊后的敏感數(shù)據(jù)庫,其中主要包括f個二元字符串F1,F2,…,Ff,字符串i長度用l(Fi)來表示,使用Fi[n]描述字符串i前n個比特組成的字符串,使用j[n]描述字符串j前n個比特組成的字符串。
在大數(shù)據(jù)背景下,如果存在Fi∈E,那么約束條件可設(shè)置為j[n]與Fi[n]相等。輸入字符串j的不可行點(diǎn),也就是可行字符串首位置n,字符串j的不可行點(diǎn)和所有字符串Fi∈E都是不相匹配的首個點(diǎn)。如果字符串對某些非首位置不可行,則說明該字符串也是不可行的;如果字符串都是可行字符串,則說明該字符串不可行點(diǎn)將被無限放大,也由此說明字符串j是可行的。通過一個檢測機(jī)制能夠?qū)崿F(xiàn)對字符串的周期檢測,以此判斷該位置字符串是否可行[11-13]。
由于字符串檢查是采用周期性檢查機(jī)制,因此在不可行點(diǎn)與不可行檢測點(diǎn)之間是存在一定延時[14]。字符串檢測延時通常使用Δ(j)來描述,用來表示字符串不可行點(diǎn)與檢測點(diǎn)之間的實際距離,以此確定所有數(shù)據(jù)中是否出現(xiàn)被攻擊的數(shù)據(jù),完成敏感數(shù)據(jù)被竊取初步檢測[15-17]。
根據(jù)初步檢測結(jié)果,通過被動響應(yīng)方式,在敏感數(shù)據(jù)被攻擊過程中,獲取被攻擊敏感數(shù)據(jù)的全部特征[18]。特征提取流程為:在敏感數(shù)據(jù)特征發(fā)生改變之前,響應(yīng)函數(shù)會隨之改變,根據(jù)該情況,能夠獲取敏感數(shù)據(jù)信息構(gòu)成的集合,獲取數(shù)據(jù)特征分解矩陣[19]。在對敏感數(shù)據(jù)特征矩陣進(jìn)行轉(zhuǎn)化處理后,需計算敏感數(shù)據(jù)特征平均值,根據(jù)特征值,可對其進(jìn)行整合。通過建立圖自同構(gòu)模型,使數(shù)據(jù)能夠被描述,以此實現(xiàn)鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取。
圖自同構(gòu)模型是一個自同構(gòu)圖,能夠滿足圖中所有點(diǎn)的對稱性,但不能滿足圖中所有邊對稱性,對于任意一個數(shù)據(jù),都存在與之相對應(yīng)數(shù)據(jù)形成同結(jié)構(gòu)點(diǎn)。而對于任意一邊,都存在另外一邊與之相對應(yīng),形成同構(gòu)邊,如圖1所示為3-自同構(gòu)圖。
由圖1可知,任何一個數(shù)據(jù)都存在與之相對應(yīng)的2個數(shù)據(jù)形成一個同構(gòu)結(jié)點(diǎn)。一旦出現(xiàn)攻擊者攻擊目標(biāo)結(jié)點(diǎn)時,其所在的子圖是以背景知識為基礎(chǔ)進(jìn)行查詢的,與目標(biāo)結(jié)點(diǎn)相配合,形成至少包括3個結(jié)點(diǎn)。因此,一旦攻擊者選擇超過大于1/3置信度的候選結(jié)點(diǎn)進(jìn)行攻擊時,用戶能及時發(fā)現(xiàn)異?,F(xiàn)象并制止。
圖 13-自同構(gòu)圖Fig.1 Three-Automorphism
數(shù)據(jù)查詢子圖,可獲取目標(biāo)端A所包含的候選結(jié)點(diǎn)集合和目標(biāo)端B所包含的候選結(jié)點(diǎn)集合,假設(shè)A結(jié)點(diǎn)集合為{1,7,13},B結(jié)點(diǎn)集合為{2,8,14},這2個結(jié)點(diǎn)集合之間存在邊數(shù)量為6,由此可獲取A端和B端之間存在的識別概率是大于1/3的,因此,該部分存在邊泄露問題。
根據(jù)該原理,在大數(shù)據(jù)背景下構(gòu)建自同構(gòu)圖模型,以保證數(shù)據(jù)可用性。將圖分割成若干個數(shù)據(jù)塊,選擇其中K個數(shù)據(jù)塊組成若干個數(shù)據(jù)組,將每個數(shù)據(jù)組中的K個數(shù)據(jù)塊加入偽造邊中形成K個同構(gòu)小圖。從每組數(shù)據(jù)塊中選擇1個模塊進(jìn)行組建,形成1個子圖,添加邊形成自同構(gòu)圖。具體實現(xiàn)步驟如下:
(1) 分割 根據(jù)自同構(gòu)圖的同構(gòu)參數(shù)將圖隨機(jī)分割成M個數(shù)據(jù)塊,選擇圖中較為稀疏部分作為切割點(diǎn)進(jìn)行數(shù)據(jù)分割,保證數(shù)據(jù)可用性。統(tǒng)計圖中邊數(shù)量,選擇一定概率計算每次迭代邊的刪除數(shù)量,雖然在該過程中,不斷刪邊,但由于掌握每塊結(jié)點(diǎn)不同,可根據(jù)原始圖,將邊添加到數(shù)據(jù)塊之中,由此獲取M塊子圖;
(2) 成組 從數(shù)據(jù)塊中依次選取K個數(shù)據(jù)組,進(jìn)行組建;
(3)處理同構(gòu)小圖 對于不同數(shù)據(jù)組中的K個數(shù)據(jù)塊,分別選取一個結(jié)點(diǎn),保證相同度數(shù)中含有相同結(jié)點(diǎn)數(shù)量,根據(jù)度數(shù)對應(yīng)關(guān)系,成為同構(gòu)結(jié)點(diǎn);
(4) 添邊 根據(jù)結(jié)點(diǎn)依次對應(yīng)關(guān)系,添加偽造邊,形成自同構(gòu)圖。
圖自同構(gòu)模型建立過程是獲取原始圖→得到M塊子圖→選取K個子圖組建一組→K個互不相連同構(gòu)子圖→圖自同構(gòu)模型根據(jù)上述建立步驟,可獲取圖自同構(gòu)模型。
將提取的特征數(shù)據(jù)全部輸入到圖自同構(gòu)模型之中,并使用RDTP協(xié)議,網(wǎng)絡(luò)節(jié)點(diǎn)通信方式為單信道通信方式,在大數(shù)據(jù)背景下,將可靠信息數(shù)據(jù)轉(zhuǎn)發(fā)階段視為RDTP協(xié)議的一個周期,以網(wǎng)絡(luò)維護(hù)更新階段和網(wǎng)絡(luò)節(jié)點(diǎn)睡眠調(diào)度階段為另一個周期。
(1) 網(wǎng)絡(luò)維護(hù)更新階段 該階段主要是對大數(shù)據(jù)背景下鏈路網(wǎng)絡(luò)中時鐘、能量和連通性進(jìn)行實時更新,為數(shù)據(jù)轉(zhuǎn)發(fā)做好準(zhǔn)備。
(2) 網(wǎng)絡(luò)睡眠調(diào)度階段 如果鏈路網(wǎng)絡(luò)中沒有數(shù)據(jù)需要傳輸時,整個鏈路網(wǎng)絡(luò)是處于睡眠狀態(tài)的;如果鏈路網(wǎng)絡(luò)中有數(shù)據(jù)傳輸時,應(yīng)及時喚醒鏈路網(wǎng)絡(luò)開始工作[20],為節(jié)省網(wǎng)絡(luò)能源消耗,采用調(diào)度法,偵查并監(jiān)視網(wǎng)絡(luò)連通度以及鏈路中區(qū)域性事件所發(fā)生的概率。
(3) 數(shù)據(jù)轉(zhuǎn)發(fā)階段 充分考慮到信息數(shù)據(jù)優(yōu)先級,在鏈路網(wǎng)絡(luò)中設(shè)計不同數(shù)據(jù)發(fā)送隊列。假設(shè)在網(wǎng)絡(luò)中,某個數(shù)據(jù)A在發(fā)送過程中獲取的傳輸通道使用權(quán),可自由向數(shù)據(jù)B端發(fā)送與B相關(guān)的A信息數(shù)據(jù);當(dāng)B端接收到A端數(shù)據(jù)發(fā)送的相關(guān)信息,那么將以自身剩余能量為依據(jù),計算轉(zhuǎn)發(fā)價值,并計算網(wǎng)絡(luò)中A、B匯聚到節(jié)點(diǎn)C的距離,由此可獲取數(shù)據(jù)轉(zhuǎn)發(fā)價值,如式(1)所示:
(1)
式中:dA表示鏈路網(wǎng)絡(luò)數(shù)據(jù)A端到匯聚節(jié)點(diǎn)C的距離;dB表示鏈路網(wǎng)絡(luò)數(shù)據(jù)B端到匯聚節(jié)點(diǎn)C的距離;D為A端到B端距離;eB為鏈路網(wǎng)絡(luò)數(shù)據(jù)B端無數(shù)據(jù)傳輸時的能量;e為鏈路網(wǎng)絡(luò)數(shù)據(jù)B周圍節(jié)點(diǎn)的能量。
滿足式(1)的全部數(shù)據(jù)為備用數(shù)據(jù),不滿足的則在傳輸后進(jìn)入睡眠狀態(tài),選擇備用數(shù)據(jù),可以提高敏感數(shù)據(jù)傳輸可靠性,保證傳輸過程中鏈路敏感數(shù)據(jù)的安全,防止數(shù)據(jù)被竊取。
實驗是從安全性、有效性以及數(shù)據(jù)可靠性這3個方面對提出的基于密文訪問控制方法、網(wǎng)絡(luò)技術(shù)檢測方法、有向信息流技術(shù)和大數(shù)據(jù)背景下鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取方法的正確性進(jìn)行驗證。
為了驗證方便,需設(shè)置實驗所用到的硬件和軟件環(huán)境如下:Pentium(R)Dual-Core CPUE5200@2.5 GHz的CPU,5GB內(nèi)存,35GB硬盤,采用Windows 系統(tǒng),采用Visual studio2016 作為編程工具。
根據(jù)實驗條件選取真實數(shù)據(jù)集進(jìn)行實驗分析,選擇UCI數(shù)據(jù)庫中的數(shù)據(jù)集,該數(shù)據(jù)集中各個元組都代表了用戶信息,選擇其中8個屬性進(jìn)行描述,如表1所示。
表 1實驗數(shù)據(jù)集描述Table 1 Description of experimental data set
其中表1中的最后一個收入屬性為敏感數(shù)據(jù)。
實驗參數(shù)配置如下所示:① 鏈路網(wǎng)絡(luò)數(shù)據(jù)傳輸量1 000 Mbit/s;② 數(shù)據(jù)分布特征數(shù)量6 Mbit/s;③ 單個數(shù)據(jù)傳輸載荷30 Mbit/s;④ 存儲執(zhí)行時間延遲15 ms。根據(jù)上述實驗條件,獲取實驗結(jié)果并對結(jié)果展開分析。
在上述實驗條件設(shè)置基礎(chǔ)上,對鏈路網(wǎng)絡(luò)被動數(shù)據(jù)存儲性能展開分析,歸一化投影值時域波形如圖2所示。
圖 2數(shù)據(jù)采樣時域波形Fig.2 Time-domain waveform of data sampling
在大數(shù)據(jù)背景下,當(dāng)時間中心為20 s時,歸一化投影值在[0.5,0.8]之間;當(dāng)時間中心為30 s時,歸一化投影值在[0.45,0.55]之間;當(dāng)時間中心為60 s時,歸一化投影值在[0.4,0.5]之間。分析數(shù)據(jù)采樣時域波形圖,可以歸一化投影值與看出時間中心增加而變化,存在波峰與波谷,在20~30 s之間第一次出現(xiàn)波峰,最大值接近0.8,30 s附近存現(xiàn)波谷,最小值為0.45左右。
采用數(shù)據(jù)結(jié)構(gòu)分布重組,結(jié)合自適應(yīng)匹配方法進(jìn)行數(shù)據(jù)濾除,可獲取冗余后的數(shù)據(jù)時域波形,如圖3所示。
經(jīng)過冗余數(shù)據(jù)濾除,當(dāng)時間中心為20 s時,歸一化投影值在[0.2,0.6]之間;當(dāng)時間中心為30 s時,歸一化投影值在[0.25,0.35]之間;當(dāng)時間中心為60 s時,歸一化投影值在[0.2,0.35]之間。分析圖3可知,經(jīng)過冗余數(shù)據(jù)過濾后的波形發(fā)生改變,能夠發(fā)現(xiàn)波峰波谷出現(xiàn)時間不變,但值發(fā)生改變,歸一化投影值最大值由原來的0.8變成0.6,最小值有原來的0.45變成0.22左右。經(jīng)過數(shù)據(jù)時域波形,能夠有效降低存儲成本,避免冗余數(shù)據(jù)給實驗帶來的干擾,實現(xiàn)數(shù)據(jù)存儲優(yōu)化分配。
圖 3冗余數(shù)據(jù)濾除Fig.3 Redundant data filtering
分別在1萬和10萬條網(wǎng)絡(luò)數(shù)據(jù)下,驗證基于密文訪問控制方法、網(wǎng)絡(luò)技術(shù)檢測方法、有向信息流技術(shù)和大數(shù)據(jù)背景下鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取方法的正確性。
(1) 1萬條網(wǎng)絡(luò)數(shù)據(jù) 在鏈路網(wǎng)絡(luò)數(shù)量比較小的條件下,使用不同方法進(jìn)行數(shù)據(jù)防盜竊檢測,對比結(jié)果如圖4所示。
圖 41萬條網(wǎng)絡(luò)數(shù)據(jù)下不同方法 檢測正確率Fig.4 Ten thousand network data with different detection methods
當(dāng)數(shù)據(jù)量為2 000個時,基于密文訪問控制方法檢測率為67%,網(wǎng)絡(luò)技術(shù)檢測方法檢測率為75%,有向信息流技術(shù)檢測率為69%,大數(shù)據(jù)背景下鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取方法檢測率為88%。當(dāng)數(shù)據(jù)量為10 000個時,基于密文訪問控制方法檢測率為70%,網(wǎng)絡(luò)技術(shù)檢測方法檢測率為91%,有向信息流技術(shù)檢測率為88%,大數(shù)據(jù)背景下鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取方法檢測率為98%。分析圖4可知,隨著數(shù)據(jù)量的增加,檢測準(zhǔn)確率隨之增加,當(dāng)數(shù)據(jù)量個數(shù)到達(dá)6 000時,4種方法檢測準(zhǔn)確率保持平穩(wěn),傳統(tǒng)方法檢測準(zhǔn)確率始終低于本文方法,說明本文方法具有較高的準(zhǔn)確率。由此可知,在1萬條網(wǎng)絡(luò)數(shù)據(jù)下,這4種方法檢測率都相對較高,也說明使用這4種方法對鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取研究是合適的。
(2) 10萬條網(wǎng)絡(luò)數(shù)據(jù) 在鏈路網(wǎng)絡(luò)數(shù)量較大的情況下,使用這4種方法進(jìn)行數(shù)據(jù)防盜竊檢測,對比結(jié)果如圖5所示。
圖 510萬條網(wǎng)絡(luò)數(shù)據(jù)下不同方法檢測 正確率Fig.5 One million network data with different methods to detect the correct rate
在10萬條網(wǎng)絡(luò)數(shù)據(jù)條件下,大數(shù)據(jù)背景下鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取方法檢測率與1萬條網(wǎng)絡(luò)數(shù)據(jù)條件下檢測率相差不大,都在80%以上。而其他3種檢測率卻下降很多,當(dāng)數(shù)據(jù)量為2 000個時,基于密文訪問控制方法檢測率為35%,網(wǎng)絡(luò)技術(shù)檢測方法檢測率為35%,有向信息流技術(shù)檢測率為36%。當(dāng)數(shù)據(jù)量為10 000個時,基于密文訪問控制方法檢測率為21%,網(wǎng)絡(luò)技術(shù)檢測方法檢測率為35%,有向信息流技術(shù)檢測率為26%。分析圖5可知,鏈路網(wǎng)絡(luò)數(shù)量較大的情況下,使用這4種方法進(jìn)行數(shù)據(jù)防盜竊檢測準(zhǔn)確率,傳統(tǒng)方法準(zhǔn)確檢測率發(fā)生大幅度下降,準(zhǔn)確率由原來的80%下降到不到40%,而本文方法的檢測準(zhǔn)確率仍保持在80%以上。由此可知,在10萬條網(wǎng)絡(luò)數(shù)據(jù)下,大數(shù)據(jù)背景下鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取方法檢測率依然較高,而其他3種方法檢測率大幅度降低,這也說明對于大數(shù)據(jù)條件下,使用大數(shù)據(jù)背景下鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)防竊取方法是合適的。
網(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生是由各個用戶數(shù)據(jù)參與而產(chǎn)生的,對于產(chǎn)生的數(shù)據(jù)會對其進(jìn)行修改與查詢,能夠真實反映出對應(yīng)個體行為,進(jìn)而成為數(shù)據(jù)挖掘較好的數(shù)據(jù)集。為了提高鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)可靠性,提出了基于圖自同構(gòu)的防竊取方法,從而有效防止用戶信息泄露,能夠以最小化的數(shù)據(jù)損失構(gòu)建符合隱私保護(hù)的匿名圖。在實驗部分,分別在1萬和10萬條網(wǎng)絡(luò)數(shù)據(jù)下,驗證防竊方法的具體效果,并對實驗進(jìn)行測試和分析,由此驗證了圖自同構(gòu)防竊取方法的正確性。由于鏈路網(wǎng)絡(luò)敏感數(shù)據(jù)的不斷龐大,網(wǎng)絡(luò)數(shù)據(jù)不斷被修改,如果每次被修改的數(shù)據(jù)都重新采用防竊取方法進(jìn)行處理,那么會增加工作者的工作強(qiáng)度。因此,在以后研究進(jìn)程中,將針對如何實現(xiàn)增量數(shù)據(jù)防竊取方法展開深入研究,提高隱私保護(hù)的執(zhí)行效率。