王 玉
(西安交通工程學(xué)院,陜西 西安 710300)
隨著信息技術(shù)的創(chuàng)新和發(fā)展,政府公共服務(wù)、商業(yè)運(yùn)行服務(wù)以及個人生活娛樂等都離不開網(wǎng)絡(luò)通信,隨之而來的各種網(wǎng)絡(luò)攻擊、信息泄露等問題也日益顯現(xiàn)[1]。為了避免信息交流中產(chǎn)生的信息數(shù)據(jù)被竊取或者被故意修改,目前發(fā)展出了各種的信息加密技術(shù),保證數(shù)據(jù)在傳輸?shù)倪^程中其關(guān)鍵信息的訪問需要身份認(rèn)證后才能被授權(quán),因此生成具有高度加密效果的密鑰是保障網(wǎng)絡(luò)重要信息隱蔽性和安全性的前提條件[2]。
在網(wǎng)絡(luò)通信數(shù)據(jù)的安全傳輸中,提高數(shù)據(jù)的私密性和隱蔽性相對尤為重要,其中最重要的解決是采用高效的數(shù)據(jù)算法對的每個傳輸數(shù)據(jù)進(jìn)行標(biāo)記,并生成具有高安全性保密性的密鑰[3]?;赒-learing算法的網(wǎng)絡(luò)通信數(shù)據(jù)密鑰生成技術(shù)是通過在網(wǎng)絡(luò)資源的反饋信息學(xué)習(xí)中,針對系統(tǒng)的行為采用強(qiáng)化學(xué)習(xí),以住家的行動映射反映機(jī)器最大化累計獎勵函數(shù),對網(wǎng)路系統(tǒng)中的馬爾科夫環(huán)境的動作序列選擇最優(yōu)的傳輸路徑和傳輸方法,使數(shù)據(jù)在高度環(huán)境干擾(網(wǎng)絡(luò)攻擊)的條件下,能夠保證信號的高信噪比,并獲得高可信性的信號傳輸期望值[4]?;赒-learing算法的網(wǎng)絡(luò)通信數(shù)據(jù)密鑰生成流程如圖1所示。
圖1中的行為策略函數(shù)如公式(1)所示[5]。
式中:ρ(s)為網(wǎng)絡(luò)系統(tǒng)的的行為策略函數(shù);Qρ(s,a)為在行為策略ρ下,系統(tǒng)得到的Q值。
對系統(tǒng)最大Q值的更新方法如公式(2)所示[6]。
式中:λ為Q-learing算法獎勵函數(shù)的折扣因子;μ為Q-learing算法學(xué)習(xí)速率;a(t)為系統(tǒng)行為函數(shù);s(t)為系統(tǒng)狀態(tài)函數(shù);r(t+1)為系統(tǒng)給反饋獎勵。
圖1中更新AOI值的實(shí)現(xiàn)可以通過MATLAB計算程序,具體的實(shí)現(xiàn)代碼見表1[7]。
表1 基于MATLAB計算程序?qū)崿F(xiàn)更新AOI值
圖1 基于Q-learning算法的網(wǎng)絡(luò)通信數(shù)據(jù)密鑰生成流程
采用MATLAB計算程序作為仿真分析工具,調(diào)用程序中的SPS半持續(xù)資源分配策略模塊,分析網(wǎng)絡(luò)通信系統(tǒng)遭受Sybil攻擊時,采用小SPS預(yù)留策略(疊加2次)、大SPS預(yù)留策略(疊加20次)和基于Q-learing算法SPS預(yù)留策略3種防御策略,抽取LTE-M無線通信系統(tǒng)中信號與干擾加噪聲比SINR分別為5、10、15、20和25時的AOI平均值變化情況,結(jié)果如圖2和表2。從圖1中可以看出,隨著信號與干擾加噪聲比SINR的增加,3種防御策略的變化趨勢較為一致,在信號與干擾加噪聲比SINR小于20時,LTE-M無線通信系統(tǒng)的AOI平均值隨著信號與干擾加噪聲比SINR的增加呈近線形降低,而信號與干擾加噪聲比SINR大于20后,LTE-M無線通信系統(tǒng)的AOI平均值區(qū)域穩(wěn)定;基于小SPS預(yù)留策略(疊加2次)、大SPS預(yù)留策略(疊加20次)的LTE-M無線通信系統(tǒng)AOI平均值均大于基于Q-learing算法SPS預(yù)留策略的LTE-M無線通信系統(tǒng)AOI平均值;在信號與干擾加噪聲比SINR較小(SINR<15)時,由于網(wǎng)絡(luò)信號中的干擾較大,通信環(huán)境差,在長時間的傳輸過程中,數(shù)據(jù)信號容易出現(xiàn)誤傳和丟包現(xiàn)象,因此,基于大SPS預(yù)留策略(疊加20次)的LTE-M無線通信系統(tǒng)AOI平均值較大,網(wǎng)絡(luò)系統(tǒng)中的安全苛求信息可信性較差,在信號與干擾加噪聲比SINR>15時,大SPS預(yù)留策略(疊加20次)的信息資源受到更多次的監(jiān)測與選擇,網(wǎng)絡(luò)系統(tǒng)中的有效信號強(qiáng)、數(shù)據(jù)質(zhì)量高,因此能夠保證無線資源數(shù)據(jù)的傳輸效率和安全苛求信息的可信;基于Q-learing算法SPS預(yù)留策略的網(wǎng)絡(luò)系統(tǒng)防御,無論LTE-M無線通信系統(tǒng)的信號與干擾加噪聲比SINR大小,都能夠?qū)ψ灾鞯剡x擇較小的網(wǎng)絡(luò)敏感度,在維持較高頻率的資源傳輸條件下,保證網(wǎng)絡(luò)系統(tǒng)受到Sybil攻擊時不會出現(xiàn)AOI值的劇烈波動,避免了數(shù)據(jù)信號不出現(xiàn)誤傳、延時、丟包、重傳,能夠維持一個較好的網(wǎng)絡(luò)資源安全苛求信息可行性狀態(tài),提高了系統(tǒng)的安全性和穩(wěn)定性。
圖2 遭受攻擊時基于不同預(yù)留策略的LTE-M無線通信系統(tǒng)AOI平均值變化曲線
表2 3種不同預(yù)留策略條件下LTE-M無線通信系統(tǒng)AOI平均值
圖3和表3為基于Q-learing算法SPS預(yù)留策略不同無線通信系統(tǒng)的AOI平均值變化情況。從圖中可以看出,隨著信號與干擾加噪聲比SINR的增加,LTE-M無線通信系統(tǒng)、WLAN無線通信系統(tǒng)和T2T無線通信系統(tǒng)的AOI平均值曲線變化規(guī)律基本一致,呈現(xiàn)明顯的對數(shù)降低,擬合關(guān)系如公式(3)~公式(5)所示。
表3 3種不同無線通信系統(tǒng)在遭受網(wǎng)絡(luò)攻擊時的AOI平均值
圖3 基于Q-learning算法的不同無線網(wǎng)絡(luò)通信系統(tǒng)AOI平均值變化曲線
式中:AOI1為LTE-M無線通信系統(tǒng)的AOI平均值,與信號與干擾加噪聲比SINR的擬合系數(shù)R2達(dá)到0.9950;AOI2為WLAN無線通信系統(tǒng)的AOI平均值,與信號與干擾加噪聲比SINR的擬合系數(shù)R2達(dá)到0.9564;AOI3為T2T無線通信系統(tǒng)的AOI平均值,與信號與干擾加噪聲比SINR的擬合系數(shù)R2達(dá)到0.9056。
為了研究Q-learning算法在網(wǎng)絡(luò)通信數(shù)據(jù)中的加密效率,在室內(nèi)搭建了由6臺數(shù)據(jù)服務(wù)器組成的數(shù)據(jù)傳輸系統(tǒng),每2臺數(shù)據(jù)服務(wù)器與1臺數(shù)據(jù)應(yīng)用服務(wù)器節(jié)點(diǎn)形成數(shù)據(jù)服務(wù)器組,服務(wù)器組與服務(wù)器組之間可以實(shí)現(xiàn)連接[8]。數(shù)據(jù)服務(wù)器配置CPU硬件為Intel i5-5400,3.6GHz×6,內(nèi)存為12GB,網(wǎng)絡(luò)上行寬帶為60Mbit/s,網(wǎng)絡(luò)下行寬帶為30Mbit/s,配置的操作系統(tǒng)為Ubuntu 16.04,數(shù)據(jù)庫為MySQL Version5.7.25;數(shù)據(jù)應(yīng)用服務(wù)器節(jié)點(diǎn)的設(shè)備型號為 ThinkPad E680 (20KNA038),操作系統(tǒng)為CentOS LinuX 6.7 x86_64,CPU為i5-7200U 2.5GHz,內(nèi)存為8GB 2133MHzLPDDR3,顯卡為AMD Radeon RX550 2GB GDDR5。分別采用基于鏈路加密技術(shù)、單片機(jī)嵌入式TCP/IP協(xié)議加密技術(shù)和基于Q-learning算法的網(wǎng)絡(luò)通信數(shù)據(jù)加密技術(shù)對100kB~1000kB數(shù)據(jù)量進(jìn)行加密,加密速率測試結(jié)果如圖4和表4所示。從圖4中可以看出,隨著加密數(shù)據(jù)量的增加,基于鏈路加密技術(shù)和基于單片機(jī)嵌入式TCP/IP協(xié)議加密技術(shù)的加密耗時呈現(xiàn)明顯的非線性增加趨勢,基于鏈路加密技術(shù)的加密最大耗時為7.99s,基于單片機(jī)嵌入式TCP/IP協(xié)議加密技術(shù)的加密最大耗時為12.64s,這對網(wǎng)絡(luò)通信數(shù)據(jù)的傳輸而言是非常不利的,而基于Q-learning算法的網(wǎng)絡(luò)通信數(shù)據(jù)加密技術(shù)的加密耗時則呈現(xiàn)近線形增加的趨勢,但增加速率較緩,且同一加密數(shù)據(jù)大小的情況下,其加密耗時小于前兩者,加密最大耗時控制在3.0s以內(nèi)。由此表明,采用基于Q-learning 算法的網(wǎng)絡(luò)通信數(shù)據(jù)加密技術(shù)能夠有效提高數(shù)據(jù)的加密速率和傳輸速率,有利于保障數(shù)據(jù)的傳輸安全。
表4 不同網(wǎng)絡(luò)通信算法的數(shù)據(jù)加密時間對比
圖4 基于Q-learning算法的網(wǎng)絡(luò)通信數(shù)據(jù)密鑰生成流程
基于Q-learning算法對網(wǎng)路安全中的數(shù)據(jù)進(jìn)行加密,并采用仿真分析的方法將其與其他加密策略進(jìn)行對比,分析其受到網(wǎng)絡(luò)攻擊時的安全性以及加密的高效性,得到以下3個結(jié)論:1)與小SPS預(yù)留策略(疊加2次)和大SPS預(yù)留策略(疊加20次)相比,基于Q-learing算法SPS預(yù)留策略的網(wǎng)絡(luò)系統(tǒng)防御,無線通信系統(tǒng)的信號與干擾加噪聲比SINR大小都能夠在較高頻率的資源傳輸條件下,保證網(wǎng)絡(luò)系統(tǒng)在受到Sybil攻擊時,AOI值不會劇烈波動,使數(shù)據(jù)信號不出現(xiàn)誤傳、延時、丟包、重傳的情況,能夠保持一個較好的網(wǎng)絡(luò)資源安全苛求信息可行性狀態(tài),提高了系統(tǒng)的安全性和穩(wěn)定性。2)隨著信號與干擾加噪聲比SINR的增加,基于Q-learing算法SPS預(yù)留策略的LTE-M無線通信系統(tǒng)、WLAN無線通信系統(tǒng)和T2T無線通信系統(tǒng)的AOI平均值曲線變化規(guī)律基本一致,呈現(xiàn)明顯的對數(shù)降低,信號與干擾加噪聲比SINR與AOI平均值具有良好的擬合關(guān)系(如公式(3)~公式(5))。3)基于Q-learning算法的網(wǎng)絡(luò)通信數(shù)據(jù)加密技術(shù)的加密耗時則呈現(xiàn)近線形增加的趨勢,但增加速率較緩,且同一加密數(shù)據(jù)大小的情況下,加密最大耗時控制在3.0s以內(nèi),其加密耗時小于基于鏈路加密技術(shù)和基于單片機(jī)嵌入式TCP/IP協(xié)議加密技術(shù)的加密耗時。采用基于Q-learning 算法的網(wǎng)絡(luò)通信數(shù)據(jù)加密技術(shù)能夠有效提高數(shù)據(jù)的加密速率和傳輸速率,有利于保障數(shù)據(jù)的傳輸安全。