杜李旭弘,陳 杰,2,楊小雪
(1.西安電子科技大學(xué) 通信工程學(xué)院,陜西 西安 710071;2.桂林電子科技大學(xué) 廣西密碼學(xué)與信息安全重點(diǎn)實(shí)驗(yàn)室,廣西壯族自治區(qū) 桂林 541004)
隨著互聯(lián)網(wǎng)時(shí)代的飛速發(fā)展,人類許多傳統(tǒng)的生產(chǎn)生活方式都發(fā)生了空前的改變,各類信息技術(shù)更是將社會(huì)的數(shù)字化程度大幅提高。與此同時(shí),各類信息安全隱患問(wèn)題也隨之而生,身份認(rèn)證的重要性更加不容忽視。身份認(rèn)證是保障用戶個(gè)人信息安全的第一道防線,在很多信息系統(tǒng)中甚至是惟一的一道防線,而基于口令的安全驗(yàn)證方式作為最基本且應(yīng)用最為廣泛的身份認(rèn)證方式,更是起著舉足輕重的作用。
隨著信息的爆炸式增長(zhǎng),越來(lái)越多的服務(wù)需要通過(guò)口令進(jìn)行保護(hù),更有越來(lái)越多的用戶個(gè)人信息被儲(chǔ)存至網(wǎng)絡(luò)空間。這些信息面臨著被泄露的風(fēng)險(xiǎn),而在信息泄露的同時(shí),數(shù)字時(shí)代的攻擊者便有可乘之機(jī)。用戶個(gè)人信息中往往含有一些未被發(fā)掘的潛在聯(lián)系,若被攻擊者利用,則可能會(huì)導(dǎo)致很嚴(yán)重的后果。比如,據(jù)國(guó)外媒體Inverse報(bào)道,美國(guó)著名運(yùn)動(dòng)品牌Under Armour的MyFitnessPal服務(wù)被黑客攻擊,1.5億用戶數(shù)據(jù)被泄露。在此次數(shù)據(jù)泄露事件中,黑客可獲得的用戶數(shù)據(jù)包括用戶名、郵箱地址以及年齡等常規(guī)信息[1],雖然這些信息單從表面看并不存在風(fēng)險(xiǎn),但卻會(huì)被不法分子加以利用,從而做出針對(duì)用戶的威脅行為,如針對(duì)性市場(chǎng)營(yíng)銷。各種新服務(wù)絡(luò)繹不絕的上線,都會(huì)讓個(gè)人可標(biāo)識(shí)信息(Personal Identifiable Information,PII)數(shù)據(jù)集更加龐大,這意味著數(shù)據(jù)之間的關(guān)系網(wǎng)會(huì)更加完善,那么數(shù)據(jù)之間的潛在聯(lián)系會(huì)更容易被黑客所提取,從而“窺探”到用戶的潛在行為。若要在此種環(huán)境下保護(hù)用戶的信息安全,就要試圖研究和了解數(shù)據(jù)集中數(shù)據(jù)的來(lái)源及構(gòu)造原理。
由于人類的記憶能力有限,通常情況下只能記憶5~7個(gè)口令[2],迫使用戶不可避免地采取如下存在安全隱患的行為:低信息熵弱口令的使用[3]、利用個(gè)人信息構(gòu)造便于記憶的口令[4]以及同一口令在多個(gè)網(wǎng)站中的重復(fù)使用[5]??诹铍m然容易記憶,但作為隨機(jī)變量其概率分布不均,因此熵值不高[6]。為研究口令安全,學(xué)者們提出了各種口令猜測(cè)概率模型,如Markov[7]和概率上下文無(wú)關(guān)文法(Probabilistic Context Free Grammar,PCFG)[8]等。這些模型均運(yùn)用于傳統(tǒng)概率猜測(cè)算法,猜測(cè)過(guò)程不借助用戶的個(gè)人信息,而是關(guān)注于用戶會(huì)采取流行口令的行為,攻擊者一旦擁有泄露的口令文件,其攻擊目標(biāo)則會(huì)盡可能多地猜測(cè)出文件中的口令。區(qū)別于傳統(tǒng)漫步猜測(cè)模型,定向猜測(cè)模型在漫步猜測(cè)使用流行口令行為的基礎(chǔ)上,還會(huì)使用用戶個(gè)人信息構(gòu)造口令以及口令重復(fù)使用等危險(xiǎn)行為[9]。隨著大規(guī)模個(gè)人信息泄露事件的不斷發(fā)生,各種類型的個(gè)人可標(biāo)識(shí)信息和用戶在其他網(wǎng)站使用的口令都越來(lái)越容易被攻擊者獲取,定向猜測(cè)帶來(lái)的現(xiàn)實(shí)威脅日益嚴(yán)峻。比如,據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)的2015年度報(bào)告,6.68億中國(guó)網(wǎng)民中超過(guò)78.2%都曾遭遇過(guò)個(gè)人可標(biāo)識(shí)信息數(shù)據(jù)泄露[10]。
這意味著,現(xiàn)有建立在那些漫步猜測(cè)概率模型[7-8]之上的口令生成規(guī)則[11]和口令強(qiáng)度評(píng)價(jià)算法[12],只考慮了十分受限的離線猜測(cè)威脅,而無(wú)法防御越來(lái)越現(xiàn)實(shí)、危害越來(lái)越大的定向在線猜測(cè)攻擊,并且與傳統(tǒng)方法相比,神經(jīng)網(wǎng)絡(luò)方法在口令猜測(cè)領(lǐng)域更為準(zhǔn)確和實(shí)用。文獻(xiàn)[13]提出的多源深度學(xué)習(xí)模型GENPass,將神經(jīng)網(wǎng)絡(luò)與PCFG相結(jié)合,從單個(gè)數(shù)據(jù)集學(xué)習(xí)時(shí),該模型比單獨(dú)使用神經(jīng)網(wǎng)絡(luò)模型匹配率提高了16%~30%;文獻(xiàn)[14]提出采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)與PCFG相融合的混合猜測(cè)模型。該模型破解率始終顯著高于傳統(tǒng)的PCFG(107量級(jí)猜測(cè)數(shù)下)和Markov模型(106量級(jí)猜測(cè)數(shù)下),為提高口令猜測(cè)效率提供了潛在的新途徑。筆者在文獻(xiàn)[14]提出模型的基礎(chǔ)上,對(duì)定向猜測(cè)中用到的個(gè)人可標(biāo)識(shí)信息進(jìn)一步劃分,并結(jié)合生成式對(duì)抗網(wǎng)絡(luò),以提升口令猜測(cè)的成功率。為了使生成的猜測(cè)口令更接近真實(shí)口令,筆者對(duì)TarGuess-I[15]模型中所用到的個(gè)人信息分類中的用戶名進(jìn)一步劃分:除了單純按照數(shù)字、字母段劃分之外,對(duì)用戶構(gòu)造的帶有用戶行為特征的字符串也進(jìn)行劃分,從而避免合并用戶行為特征。將真實(shí)口令經(jīng)過(guò)模型解析后的真實(shí)規(guī)則再利用生成式對(duì)抗網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)和處理,生成高質(zhì)量偽規(guī)則集,并利用該偽規(guī)則集進(jìn)行口令猜測(cè)攻擊實(shí)驗(yàn)。其中生成式對(duì)抗網(wǎng)絡(luò)由生成網(wǎng)絡(luò)以及判別網(wǎng)絡(luò)兩部分構(gòu)成,分別用于猜測(cè)口令的生成以及對(duì)猜測(cè)口令的判定,使得猜測(cè)口令的結(jié)構(gòu)在接近真實(shí)口令結(jié)構(gòu)的同時(shí),又能產(chǎn)生新的結(jié)構(gòu)規(guī)則,從而使口令猜測(cè)成功率得到進(jìn)一步的提升。
不同于漫步口令猜測(cè)模型,定向猜測(cè)模型是在給定目標(biāo)用戶的前提下猜測(cè)出該用戶的真實(shí)口令。通過(guò)利用用戶的個(gè)人信息提高猜測(cè)成功率,同時(shí)一定程度上減少猜測(cè)次數(shù),并且利用個(gè)人可標(biāo)識(shí)信息標(biāo)簽加強(qiáng)了口令解析以及口令猜測(cè)過(guò)程的針對(duì)性和有效性[16]。用戶的個(gè)人信息可歸為兩類:第1類是用戶身份的認(rèn)證憑證,主要包含用戶的舊口令和其他網(wǎng)站泄露的口令;第2類即為個(gè)人可標(biāo)識(shí)信息,主要包含有姓名、出生日期、年齡、身份證號(hào)碼、學(xué)歷、職業(yè)等。如何利用個(gè)人可標(biāo)識(shí)信息設(shè)計(jì)定向猜測(cè)模型是現(xiàn)階段關(guān)于定向猜測(cè)研究的重點(diǎn)。
用戶構(gòu)造口令的行為主要分為:流行口令的使用、同一口令的重復(fù)使用以及如何使用自己的個(gè)人信息構(gòu)造口令。文獻(xiàn)[17]研究發(fā)現(xiàn),60.1%的用戶在口令中使用了至少一種自己本人的個(gè)人可標(biāo)識(shí)信息,因此利用個(gè)人信息構(gòu)造口令的行為具有較高的研究意義。筆者采用帶有用戶個(gè)人信息的中文用戶中國(guó)鐵路數(shù)據(jù)集12306進(jìn)行研究。中文流行口令大多由數(shù)字組成,而英文流行口令大多包含有涵義的字母串或者鍵盤鍵位布局,根據(jù)中國(guó)人構(gòu)造口令的習(xí)慣,中文流行口令相對(duì)英文流行口令分布較為集中[15],因此中文用戶面臨的定向在線猜測(cè)攻擊的風(fēng)險(xiǎn)也更大。經(jīng)過(guò)統(tǒng)計(jì),在中文口令的構(gòu)造中,各類用戶個(gè)人信息的使用情況如圖1所示,使用頻率最高的個(gè)人信息是出生日期、用戶名以及生日,其次是郵箱前綴、身份證號(hào)以及手機(jī)號(hào)。
圖1 12306口令集中個(gè)人信息使用率示意圖
文獻(xiàn)[8]于2009年提出的基于PCFG的漫步口令猜測(cè)算法,是PCFG在口令猜測(cè)領(lǐng)域的首次應(yīng)用。其核心思想是將口令按照數(shù)字、字母以及特殊字符進(jìn)行劃分,在口令解析階段統(tǒng)計(jì)各個(gè)類型中字符串出現(xiàn)的概率并進(jìn)行降序排列,隨后在猜測(cè)攻擊階段利用各類型的字符串概率表,重新組合各類型的字符串,生成猜測(cè)列表。文獻(xiàn)[17]于2016年將用戶個(gè)人信息應(yīng)用于猜測(cè)攻擊,提出了可識(shí)別個(gè)人可標(biāo)識(shí)信息語(yǔ)義的定向口令猜測(cè)模型Personal-PCFG。Personal-PCFG在前人提出的基于PCFG口令猜測(cè)算法的基礎(chǔ)上,又基于長(zhǎng)度匹配將用戶個(gè)人信息劃分為:姓名、出生日期、電話號(hào)碼、身份證號(hào)碼、郵箱地址和用戶名。文獻(xiàn)[15]提出了基于 PCFG 定向猜測(cè)攻擊模型TarGuessⅠ~Ⅳ系列,與文獻(xiàn)[17]提出模型的不同之處在于,提出的口令猜測(cè)模型是基于類型的個(gè)人可標(biāo)識(shí)信息匹配,而非基于長(zhǎng)度的個(gè)人可標(biāo)識(shí)信息匹配,因此在TarGuess模型中用戶的個(gè)人信息被劃分得更為具體、準(zhǔn)確[16](如,B1表示年月日格式;B2表示月日年格式;B3表示日月年格式;B4表示月日格式;B5表示年份格式;B6表示年月格式;B7表示月年格式;B8表示年份后兩位數(shù)字+月日格式;B9表示月日+年份后兩位數(shù)字格式;B10表示日月+年份后兩位數(shù)字格式)。文獻(xiàn)[18]2019年提出基于主題PCFG的口令猜測(cè)模型T-PCFG。該模型關(guān)注于個(gè)人興趣愛(ài)好對(duì)口令結(jié)構(gòu)影響的研究,其通過(guò)對(duì)字母字段的提取方法進(jìn)行修改,并組成新的猜測(cè)集進(jìn)行試驗(yàn)。筆者側(cè)重于個(gè)人習(xí)慣對(duì)口令結(jié)構(gòu)影響的研究,通過(guò)對(duì)字母、數(shù)字、特殊字符字段的組合提取,進(jìn)一步防止用戶行為被合并。
根據(jù)口令集中個(gè)人信息使用率的統(tǒng)計(jì)結(jié)果以及口令處理過(guò)程中發(fā)現(xiàn)的規(guī)律,考慮用戶名在構(gòu)造口令過(guò)程中的高利用率和高復(fù)雜性,筆者提出全面細(xì)化用戶名在口令中的構(gòu)造規(guī)則可以提高猜測(cè)成功率的設(shè)想,從而在文獻(xiàn)[15]提出的定向口令猜測(cè)模型TarGuessⅠ的基礎(chǔ)上,將基于類型的個(gè)人可標(biāo)識(shí)信息匹配進(jìn)一步優(yōu)化:將口令中含有的用戶構(gòu)造的特殊的字符串,不再只單純劃分為對(duì)應(yīng)個(gè)人可標(biāo)識(shí)信息全稱字段以及數(shù)字、字母兩種數(shù)據(jù)類型的字段,而是在包含個(gè)人可標(biāo)識(shí)信息全稱字段的基礎(chǔ)上考慮數(shù)字、字母以及特殊字符3種數(shù)據(jù)類型,并且按照“數(shù)字+字母”“字母+特殊字符”“數(shù)字+特殊字符”的形式劃分(如:口令為“zs1997”,匹配的PII中用戶名為“zs19970606”,則匹配過(guò)程不能單純劃分為數(shù)字段“19970606”或者字母段“zs”,而是應(yīng)該劃分為字母+前4位數(shù)字“zs1997”),此種劃分方式可防止用戶的某些行為特征被合并,從而提高猜測(cè)成功率。文中的個(gè)人可標(biāo)識(shí)信息標(biāo)簽類型見(jiàn)表1。按照文中劃分的個(gè)人可標(biāo)識(shí)信息標(biāo)簽,將真實(shí)口令集中的所有口令與每個(gè)口令所對(duì)應(yīng)的用戶個(gè)人信息進(jìn)行匹配,從而解析為基于PCFG的規(guī)則序列集合。解析過(guò)程中除了個(gè)人可標(biāo)識(shí)信息標(biāo)簽的轉(zhuǎn)換以外,同時(shí)從真實(shí)口令集中訓(xùn)練獲得數(shù)字(D)、字母(L)和特殊字符(S)分別基于長(zhǎng)度的頻次表,并進(jìn)行降序排列(在解析過(guò)程中,口令中的字符串若被轉(zhuǎn)換為個(gè)人可標(biāo)識(shí)信息標(biāo)簽,則不會(huì)添加到L、D、S頻次表中)。
表1 基于PCFG的PII標(biāo)簽類型
將優(yōu)化后的口令猜測(cè)模型與深度學(xué)習(xí)算法相結(jié)合,在無(wú)需任何先驗(yàn)知識(shí)的情況下,通過(guò)使用生成對(duì)抗網(wǎng)絡(luò)從實(shí)際泄漏的口令中自主學(xué)習(xí)真實(shí)口令分布,并生成高質(zhì)量的規(guī)則序列,運(yùn)用深度學(xué)習(xí)的過(guò)程中還會(huì)學(xué)習(xí)到口令中一些用戶自己都無(wú)法發(fā)現(xiàn)的潛在聯(lián)系,這意味著在保證規(guī)則序列符合規(guī)范的同時(shí),還會(huì)生成新增規(guī)則,從而提升猜測(cè)成功率。筆者所用的生成式對(duì)抗網(wǎng)絡(luò)由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分組成,真實(shí)口令集經(jīng)過(guò)上節(jié)所述解析過(guò)程之后,得到基于PCFG的口令規(guī)則集合,將其與噪聲均用作生成式對(duì)抗網(wǎng)絡(luò)的輸入,如圖2所示,每次迭代訓(xùn)練之后,輸出的偽規(guī)則都更接近于真實(shí)規(guī)則序列的分布。
圖2 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)示意圖
生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)是從訓(xùn)練集S={x1,x2,…,xn}中學(xué)習(xí)并生成相同分布的樣本。該網(wǎng)絡(luò)將多維隨機(jī)樣本z作為輸入以訓(xùn)練生成器G,訓(xùn)練過(guò)程將密度估計(jì)問(wèn)題轉(zhuǎn)化為二元分類問(wèn)題,其要解決的優(yōu)化問(wèn)題可以總結(jié)為[19]
(1)
其中,f(xi;θd)和g(zj;θG)分別代表D和G。根據(jù)生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練目標(biāo),定義生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)為V(D,G),則博弈過(guò)程可表示為
(2)
其中,E表示真實(shí)數(shù)據(jù)x和樣本數(shù)據(jù)z的數(shù)學(xué)期望。由于V是連續(xù)的,因此期望可以通過(guò)將V寫成微積分的形式來(lái)表示:
(3)
其中,pdata(x)為真實(shí)規(guī)則分布,pz(z)為生成規(guī)則分布。博弈過(guò)程為先固定G,求解D的最優(yōu)解;再固定D,求解G的最優(yōu)解,然后兩個(gè)網(wǎng)絡(luò)交替訓(xùn)練。
設(shè)G(z)生成的規(guī)則為真實(shí)規(guī)則x,則噪聲z和噪聲的微分dz可表示為
G(z)=x?z=G-1(x)?dz=(G-1)′(x)dx。
(4)
將z和dz分別代入V(D,G),可得
(5)
定義pg(x)表示噪聲z的生成分布,則
pg(x)=pz(G-1(x))(G-1)′(x) 。
(6)
將式(6)代入式(5),可得
(7)
對(duì)式(7)求關(guān)于D的偏導(dǎo)數(shù):
(8)
可得D的最大即最優(yōu)解為
(9)
從D(x)的最優(yōu)解D*(x)的表達(dá)式中可以看出,期望當(dāng)生成分布與真實(shí)分布一致時(shí),即pg(x)=pdata(x)時(shí),D(x)=0.5,即此時(shí)判別網(wǎng)絡(luò)D只能以拋硬幣的概率來(lái)猜測(cè)輸入數(shù)據(jù)的真假性。然后將式(9)代入式(7),并引入連續(xù)函數(shù)的KL散度。將目標(biāo)函數(shù)整理成散度表達(dá)式,可得
(10)
根據(jù)KL散度的定義,當(dāng)生成規(guī)則的分布pg(x)與真實(shí)規(guī)則分布pdata(x)一致時(shí),KL為零,所以當(dāng)D逼近最優(yōu)解時(shí),G網(wǎng)絡(luò)也無(wú)限逼近最小值,符合G網(wǎng)絡(luò)的訓(xùn)練目標(biāo)。經(jīng)過(guò)多次交替迭代訓(xùn)練,即可生成合法且遵循真實(shí)分布的高質(zhì)量規(guī)則。
生成網(wǎng)絡(luò)是潛在空間Z:Rk和數(shù)據(jù)空間X之間的確定性映射函數(shù)G:Z→X。生成對(duì)抗網(wǎng)絡(luò)的框架通過(guò)遵循對(duì)抗式訓(xùn)練法來(lái)學(xué)習(xí)深層生成模型,訓(xùn)練過(guò)程由判別網(wǎng)絡(luò)D引導(dǎo)。在訓(xùn)練過(guò)程中,潛在噪聲點(diǎn)z直接從Rk中采樣并作為輸入提供給G,G再將這些點(diǎn)映射到數(shù)據(jù)空間中,并將其反饋給生成網(wǎng)絡(luò)D。生成網(wǎng)絡(luò)D同時(shí)接收來(lái)自訓(xùn)練集的真實(shí)口令規(guī)則和生成網(wǎng)絡(luò)G生成的偽口令規(guī)則,并且給出G(z)的誤差,從而令生成網(wǎng)絡(luò)G得到對(duì)抗性訓(xùn)練從而更新權(quán)重。優(yōu)化目標(biāo)遵循網(wǎng)絡(luò)G、D的誤差最小化。對(duì)文獻(xiàn)[19]提出的PassGAN模型進(jìn)行改進(jìn),使其能夠更好地在基于PCFG解析后的規(guī)則序列集上訓(xùn)練,同時(shí)輸出更高質(zhì)量的偽規(guī)則序列。文獻(xiàn)[19]使用了Wasserstein GAN改進(jìn)訓(xùn)練來(lái)實(shí)例化PassGAN,同時(shí)依靠 ADAM 優(yōu)化器來(lái)最小化訓(xùn)練誤差[16]。為減少生成模型輸出的偽規(guī)則數(shù)據(jù)與其訓(xùn)練數(shù)據(jù)之間的不匹配,筆者主要從以下幾個(gè)方面進(jìn)行了優(yōu)化改進(jìn):latent size、迭代次數(shù)、輸入口令向量的最大長(zhǎng)度。通過(guò)上一節(jié)得到的PCFG規(guī)則序列集,作為改進(jìn)后生成對(duì)抗網(wǎng)絡(luò)的輸入數(shù)據(jù)集,通過(guò)無(wú)先驗(yàn)知識(shí)的自主學(xué)習(xí),逼近真實(shí)口令解析后的規(guī)則分布,生成高質(zhì)量且擴(kuò)充的偽規(guī)則集。通過(guò)對(duì)生成的偽規(guī)則集進(jìn)行分析和統(tǒng)計(jì),偽規(guī)則集中不重復(fù)規(guī)則、符合規(guī)范的合法規(guī)則以及出現(xiàn)次數(shù)n≥3次的高質(zhì)量規(guī)則序列的數(shù)量隨著偽規(guī)則集規(guī)模的擴(kuò)大而增加,具體如圖3所示。
圖3 生成對(duì)抗網(wǎng)絡(luò)生成的高質(zhì)量規(guī)則數(shù)量變化趨勢(shì)示意圖
得到生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)生成的高質(zhì)量偽規(guī)則集之后,利用該規(guī)則集攻擊測(cè)試集中的用戶,攻擊過(guò)程為:根據(jù)生成的偽規(guī)則集,給定目標(biāo)用戶,利用其個(gè)人信息以及口令解析過(guò)程得到的L、D、S字段的降序表匹配生成該用戶的猜測(cè)口令集,若該猜測(cè)口令集中包含該用戶的真實(shí)口令,則攻擊成功。定向猜測(cè)攻擊模型的系統(tǒng)框架如圖4所示。
圖4 定向猜測(cè)攻擊模型的系統(tǒng)框架示意圖
過(guò)程a表示將用戶個(gè)人信息按照Nn、Bn、Un、En、In、Tn、Xi,j7種標(biāo)簽進(jìn)行劃分,其中n代表字段類型,i代表特殊字符串起始位置,j代表特殊字符串長(zhǎng)度;過(guò)程b表示按照長(zhǎng)度匹配L、D、S字段頻次表中不同長(zhǎng)度字符串;過(guò)程c表示將過(guò)程a、b中匹配到的字符串按照規(guī)則集中的規(guī)則序列恢復(fù)生成猜測(cè)口令。在猜測(cè)口令的生成過(guò)程中,規(guī)則序列“N2D7”除了使用用戶的姓名全稱縮寫以外,還需要在長(zhǎng)度為7的數(shù)字段列表中按照頻率從高到低依次使用數(shù)字字符串序列,從而組合生成猜測(cè)口令列表,而“B1”則不需要,它僅需要按照用戶出生日期的年月日格式并利用個(gè)人信息從而生成對(duì)應(yīng)的猜測(cè)口令。
在中國(guó)鐵路12306數(shù)據(jù)集上完成了基于個(gè)人可標(biāo)識(shí)信息標(biāo)簽的口令解析實(shí)驗(yàn)、基于生成對(duì)抗網(wǎng)絡(luò)的偽規(guī)則集生成實(shí)驗(yàn)以及基于前兩者的口令猜測(cè)攻擊實(shí)驗(yàn),得到了基于PCFG的真實(shí)12306口令集對(duì)應(yīng)的規(guī)則序列集,并將其作為訓(xùn)練數(shù)據(jù)輸入經(jīng)過(guò)優(yōu)化的生成對(duì)抗網(wǎng)絡(luò),經(jīng)過(guò)多次迭代訓(xùn)練,生成對(duì)抗網(wǎng)絡(luò)輸出高質(zhì)量的偽規(guī)則集合;該集合不僅包括顯在的規(guī)則序列,還包含潛在的新增規(guī)則序列,因此借助該偽規(guī)則集合匹配生成的猜測(cè)口令質(zhì)量更高,從而提升了猜測(cè)成功率。在實(shí)驗(yàn)過(guò)程中,通過(guò)對(duì)偽規(guī)則集進(jìn)行分析研究,得出偽規(guī)則集中符合規(guī)范的合法規(guī)則占比隨著偽規(guī)則集規(guī)模的擴(kuò)大而增加,并且偽規(guī)則與真實(shí)規(guī)則的相似度同樣隨偽規(guī)則集規(guī)模的擴(kuò)大而增加,分別如圖5和圖6所示。在偽規(guī)則集規(guī)模為215時(shí),規(guī)則合法率約達(dá)到86.48%,隨著其規(guī)模增加至219的過(guò)程中,規(guī)則合法率一直穩(wěn)定在83%以上。因此,可認(rèn)為訓(xùn)練生成的規(guī)則集具有較好的合法率;同時(shí),在偽規(guī)則集規(guī)模從215增至219的過(guò)程中,偽規(guī)則集與真實(shí)規(guī)則集的相似度保持在96%以上,并且呈上升趨勢(shì),所以可認(rèn)為生成的偽規(guī)則集與真實(shí)規(guī)則集也具有較高的相似度。
圖5 不同規(guī)模偽規(guī)則集的合法率變化示意圖
圖6 偽規(guī)則集與真實(shí)規(guī)則集的相似度變化示意圖
本節(jié)主要關(guān)注于定向口令猜測(cè)攻擊的實(shí)驗(yàn)效果。實(shí)驗(yàn)與TarGuess-I模型一樣,都使用中國(guó)鐵路12306數(shù)據(jù)集,并盡量采用相同的實(shí)驗(yàn)配置,將數(shù)據(jù)集80%的數(shù)據(jù)作為訓(xùn)練集以及另外20%的數(shù)據(jù)作為測(cè)試集,在文中優(yōu)化后的猜測(cè)攻擊模型與TarGuess-I模型以及Personal-PCFG模型兩種定向猜測(cè)模型上進(jìn)行比較實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
表2 定向猜測(cè)攻擊效果
實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的定向猜測(cè)攻擊模型在猜測(cè)規(guī)模為102時(shí),成功猜測(cè)出36.70%的真實(shí)用戶口令,在同等條件下,優(yōu)于TarGuess-I模型以及Personal-PCFG模型,分別比后兩種模型多猜測(cè)成功約16.5%、22.8%的用戶口令。因此,筆者提出的口令解析方案能夠進(jìn)一步捕捉到用戶構(gòu)造口令的行為,并通過(guò)優(yōu)化后的生成對(duì)抗網(wǎng)絡(luò)模型對(duì)口令構(gòu)造規(guī)則進(jìn)行擴(kuò)充,擴(kuò)充后的偽規(guī)則借助在口令解析階段獲得的L、D、S段序列頻次表以及目標(biāo)用戶的個(gè)人信息對(duì)其進(jìn)行字段匹配,組合生成高質(zhì)量的新口令序列,從而提高口令猜測(cè)的成功率。
針對(duì)用戶使用個(gè)人信息構(gòu)造口令的行為,筆者提出了一種基于PCFG并結(jié)合生成式對(duì)抗神經(jīng)網(wǎng)絡(luò)的定向口令猜測(cè)攻擊方案。該方案由基于PCFG的口令解析模型以及基于生成對(duì)抗網(wǎng)絡(luò)的高質(zhì)量猜測(cè)生成模型組成。在口令解析的過(guò)程中,將解析口令的個(gè)人可標(biāo)識(shí)信息標(biāo)簽進(jìn)一步劃分,使得解析后的口令最大程度地保留用戶的行為習(xí)慣。在生成猜測(cè)的階段,將解析后的口令以及噪聲作為優(yōu)化后生成對(duì)抗網(wǎng)絡(luò)的輸入數(shù)據(jù),噪聲經(jīng)過(guò)網(wǎng)絡(luò)中生成器和判別器的對(duì)抗訓(xùn)練,會(huì)更加關(guān)注并逐漸學(xué)習(xí)到真實(shí)解析口令的分布,再通過(guò)多次迭代訓(xùn)練得到包含真實(shí)口令規(guī)則和新增口令規(guī)則的偽規(guī)則集,利用偽規(guī)則集生成高質(zhì)量猜測(cè)口令從而提高口令猜測(cè)成功率。通過(guò)在含有用戶個(gè)人信息的鐵路12306數(shù)據(jù)集上進(jìn)行定向口令猜測(cè)攻擊實(shí)驗(yàn)以及與其他方案的對(duì)比試驗(yàn),驗(yàn)證了筆者所提方案的有效性。
在今后的研究工作中,將進(jìn)一步改進(jìn)生成式對(duì)抗網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),以生成更高質(zhì)量的猜測(cè)口令,進(jìn)一步提升定向口令猜測(cè)攻擊的成功率。