国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CNN和BiLSTM的釣魚URL檢測技術(shù)研究

2021-12-14 06:37卜佑軍張穌榮王方玉
關(guān)鍵詞:集上字符網(wǎng)頁

卜佑軍, 張 橋,, 陳 博, 張穌榮, 王方玉

(1.中國人民解放軍戰(zhàn)略支援部隊信息工程大學(xué),河南 鄭州 450001; 2.鄭州大學(xué) 中原網(wǎng)絡(luò)安全研究院,河南 鄭州 450001)

0 引言

近年來,互聯(lián)網(wǎng)快速發(fā)展,在線購物、電子商務(wù)和網(wǎng)絡(luò)社交等基于互聯(lián)網(wǎng)的應(yīng)用給人們的工作和生活帶來了極大的便利。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心CNNIC統(tǒng)計,截至2020年3月,中國網(wǎng)民規(guī)模達(dá)到了9.04億,互聯(lián)網(wǎng)普及率達(dá)到了64.5%[1]。與此同時,網(wǎng)民信息亦面臨著安全威脅,如網(wǎng)絡(luò)攻擊者通過網(wǎng)絡(luò)釣魚竊取個人敏感信息進(jìn)而非法獲取經(jīng)濟(jì)利益。截至2020年8月,中國反釣魚聯(lián)盟累計認(rèn)定的釣魚網(wǎng)站數(shù)量達(dá)到了469 252個[2]。因此,如何及時、有效地檢測釣魚網(wǎng)站已經(jīng)成為亟待解決的問題。

目前,針對網(wǎng)絡(luò)釣魚,黑名單方法只需進(jìn)行簡單的數(shù)據(jù)庫查詢操作,是一種較為簡單的檢測方法。Malware Domain List和PhishTank這2種算法使用的都是基于黑名單的檢測方法[3-4]。然而目前網(wǎng)址生成算法比較成熟,每天都會出現(xiàn)大量的釣魚網(wǎng)址,黑名單數(shù)據(jù)庫無法及時包含所有的釣魚網(wǎng)址。根據(jù)Sheng等[5]的研究,約47%~83%的釣魚網(wǎng)址在釣魚事件發(fā)生12 h之后才被列入黑名單中。Aleroud等[6]指出約有93%的釣魚網(wǎng)址沒有被主流的黑名單收錄?;诤诿麊螜z測釣魚網(wǎng)頁的局限性在于要不斷收集釣魚網(wǎng)址樣本并及時更新黑名單數(shù)據(jù)庫。

針對黑名單方法存在的局限性,有研究人員使用機(jī)器學(xué)習(xí)方法來檢測釣魚網(wǎng)頁。Liu等[7]提取網(wǎng)頁內(nèi)鏈接關(guān)系、敏感詞排序等特征,利用機(jī)器學(xué)習(xí)識別釣魚網(wǎng)頁,取得了較高的準(zhǔn)確率及較低的誤報率,實驗結(jié)果表明,該方法可以識別91.44%釣魚網(wǎng)頁。Ma等[8]利用機(jī)器學(xué)習(xí)在多個公開數(shù)據(jù)集上測試,實驗結(jié)果表明,該方法的檢測準(zhǔn)確率達(dá)到了94%。該類方法使用機(jī)器學(xué)習(xí)技術(shù)達(dá)到了較高的檢測準(zhǔn)確率且能夠識別未知的釣魚網(wǎng)頁,但也存在較大的局限性:①需要大量的手動特征工程,其中許多特征需要相關(guān)專家來確認(rèn);②需要獲取網(wǎng)頁內(nèi)容,增加了客戶端開銷和風(fēng)險且檢測算法的時間復(fù)雜度高;③有些釣魚網(wǎng)站能夠隱藏其網(wǎng)頁內(nèi)容,即向不同的客戶端提供不同的內(nèi)容[9],比如,釣魚網(wǎng)站可能會將合法頁面發(fā)送給蜜罐客戶端,但將釣魚網(wǎng)頁發(fā)送給其他人工訪問客戶端。

為了克服上述2種檢測方法的弊端,已有研究者使用了深度學(xué)習(xí)技術(shù),通過自動提取URL特征來判別其所屬類別,以檢測其對應(yīng)網(wǎng)頁是否為釣魚網(wǎng)頁。Kim[10]于2014年利用CNN對文本進(jìn)行分類,實驗結(jié)果表明,CNN在文本上具有較強(qiáng)的分類能力。此后有一些研究人員嘗試使用CNN對釣魚URL進(jìn)行檢測。Zhang等[11]利用單詞級別的卷積神經(jīng)網(wǎng)絡(luò)對URL進(jìn)行分類,即根據(jù)特殊字符對數(shù)據(jù)集中的URL進(jìn)行單詞級別的劃分并形成一個語料庫。訓(xùn)練語料庫中的每個單詞表示為一個向量,然后將待測URL分詞,獲取單詞的向量表示并組合形成一個向量矩陣輸入到卷積神經(jīng)網(wǎng)絡(luò)中來判斷相應(yīng)的URL所屬類型。Cui等[12]利用字符級別的卷積神經(jīng)網(wǎng)絡(luò)檢測惡意URL,即將URL按字符劃分,獲取每個字符的向量且組合形成一個向量矩陣,然后將此矩陣輸入到卷積神經(jīng)網(wǎng)絡(luò)中來判斷相應(yīng)的URL所屬類型。Yu等[13]在對惡意域名的檢測實驗中對比了多種深度學(xué)習(xí)模型,如CNN、RNN,在這些實驗中,基于深度學(xué)習(xí)的檢測方法均優(yōu)于基于手工特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法。

雖然上述工作已經(jīng)取得了較好的表現(xiàn),但仍然存在以下3個問題:①基于單詞劃分URL在測試時無法獲得新出現(xiàn)的單詞的嵌入向量,基于字符劃分URL會導(dǎo)致URL中一些特有的敏感詞丟失有效信息;②無法獲取特殊字符的分布與類型及與周圍詞的前后關(guān)系;③URL是一種序列數(shù)據(jù),數(shù)據(jù)之間存在著長距離依賴關(guān)系, CNN無法獲取URL數(shù)據(jù)的長距離依賴關(guān)系。

針對以上問題,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)和雙向長短記憶網(wǎng)絡(luò)(bi-directional long short-term me-mory, BiLSTM)的釣魚URL檢測方法CNN-BiLSTM。該方法通過CNN來獲取URL的空間局部特征,通過BiLSTM獲取URL的長距離依賴特征。此外,對URL的分詞方法做了改進(jìn),提出了一種基于敏感詞分詞的方法,有效提升了URL數(shù)據(jù)信息的利用程度。實驗中通過與傳統(tǒng)機(jī)器學(xué)習(xí)方法和單一模型的比較表明了所提方法的有效性。

1 字符詞向量

深度學(xué)習(xí)模型只能處理經(jīng)過數(shù)值化的向量,因此在對URL數(shù)據(jù)提取特征時需要先將其分詞、編碼并轉(zhuǎn)化為d維詞向量,用不同詞在d維空間的距離來表示它們之間的語義相似度。當(dāng)前使用深度學(xué)習(xí)方法檢測URL常用的分詞方法有基于單詞劃分URL和基于字符劃分URL 2種。

基于單詞劃分URL使其轉(zhuǎn)化為單詞級詞向量,利用特殊字符分割URL可能會使單詞的數(shù)量相當(dāng)大,造成該數(shù)據(jù)集的特征也按比例增大,通常會大于相應(yīng)訓(xùn)練數(shù)據(jù)集中URL的數(shù)量,導(dǎo)致在進(jìn)行特征向量的轉(zhuǎn)換時內(nèi)存受到限制,在測試集上無法獲得新出現(xiàn)單詞的嵌入向量。

相比于按單詞劃分URL,基于字符劃分URL使URL轉(zhuǎn)化為字符級詞向量能夠在測試集上獲得新的URL的嵌入向量,避免了無法從不可見的單詞中提取特征的問題。另外由于字符總數(shù)是固定的,在進(jìn)行特征向量的轉(zhuǎn)換時不會受到內(nèi)存的限制且字符級分類器的大小保持固定。但是將URL劃分為單個的字符會導(dǎo)致一些敏感詞如login、password、registed等丟失部分有效信息,因此,根據(jù)字符劃分URL不足以使神經(jīng)網(wǎng)絡(luò)分類器從URL字符串中獲取較為全面的信息。

針對上述分詞方法存在的問題,本文提出了一種基于敏感詞分詞的方法,如表1中以網(wǎng)址www.ccd.cn.bank.com為例。首先根據(jù)特殊字符和敏感詞對URL進(jìn)行單詞級別劃分,并將特殊字符看作單詞處理以獲得特殊字符的有效信息。然后對其中的非敏感詞進(jìn)行字符級別劃分,而將其中的敏感詞作為一個整體與其余字符進(jìn)行區(qū)分,這樣能夠明顯標(biāo)記URL中的重點(diǎn)信息,有利于神經(jīng)網(wǎng)絡(luò)分類器提取更具有代表性的特征。

表1 URL的3種分詞方法Table 1 Three methods of URL segmentation

2 模型結(jié)構(gòu)

基于CNN-BiLSTM檢測URL類別的模型框架包括4個部分。URL輸入依次經(jīng)過詞嵌入層、卷積神經(jīng)網(wǎng)絡(luò)層、循環(huán)神經(jīng)網(wǎng)絡(luò)層和全連接層,最終輸出URL的分類結(jié)果。其中循環(huán)神經(jīng)網(wǎng)絡(luò)層采用長短期記憶網(wǎng)絡(luò), 各層網(wǎng)絡(luò)的細(xì)節(jié)如下所述。

2.1 詞嵌入層

URL本質(zhì)上是由一系列字符或由特殊字符分隔的單詞組成。詞嵌入層將U轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)能夠識別的特征向量,即得到它的嵌入矩陣表示U→X∈RL×K,使得矩陣X包含一組相鄰分量xi(i=1,2,…,L),其中xi為URL中的字符或單詞的向量表示,xi∈RK為K維向量。本文根據(jù)URL數(shù)據(jù)集和敏感詞匯表(account,admin,administrator, auth,bank,client,confirm,cmd,email host,login, password,pay,private,registed,safe,secure,security, sign,service,signin,submit,user,update,validation, verification,webscr)確定每條URL中字符及關(guān)鍵字的總長度L為300。若L超過300,則在URL末尾將多余的字符截斷;若L小于300,則在其末尾用標(biāo)記作為附加詞填充。若URL中出現(xiàn)未知字符,則用未知字符標(biāo)記表示。根據(jù)映射表為字符和敏感詞賦予唯一編碼構(gòu)建URL的編碼矩陣,如式(1)所示:

U′=(u′1,u′2,…,u′300)。

(1)

式中:u′i為URL中字符或單詞的編碼。

隨后將矩陣U′經(jīng)詞嵌入層轉(zhuǎn)換為300×64的包含語義信息的二維稠密矩陣X,作為卷積層的輸入,如式(2)所示:

X=(x1,x2,…,x300)。

(2)

式中:xi是64維列向量。

2.2 卷積網(wǎng)絡(luò)層

如圖1所示,將詞向量矩陣輸入到卷積神經(jīng)網(wǎng)絡(luò)中,通過卷積核從特征矩陣中自動提取局部特征,卷積核高度h設(shè)置為2,寬度與字符向量的維度一致為64,卷積核的數(shù)量為200,卷積核滑動步長設(shè)置為1。對于某個卷積核f在第i個滑動窗口處獲取的URL嵌入矩陣設(shè)為Xi:

圖1 卷積層網(wǎng)絡(luò)結(jié)構(gòu)Figure 1 Convolution layer structure

Xi=[xi,xi+1,…,xi+h-1]。

(3)

式中:xi為字符或敏感詞的向量表示。

(4)

式中:Wf和bf分別為權(quán)重矩陣和偏置項;σ(·)為激活函數(shù), 使神經(jīng)網(wǎng)絡(luò)具有擬合非線性函數(shù)的能力。

卷積核遍歷整個嵌入矩陣后產(chǎn)生一個特征圖,記為cf:

(5)

將X經(jīng)所有卷積核卷積池化后得到的新特征圖堆疊得到一個序列矩陣,記為M:

M=[m1,m2,…,ms]。

(6)

式中:s=「(L-h+1)/pl?,pl為池化窗口;mi為所有卷積核對URL詞嵌入矩陣的同一區(qū)域經(jīng)卷積、池化操作后的特征所組成的特征向量,mi∈Rn×1,n為卷積核個數(shù)。

2.3 BiLSTM層

雙向長短記憶網(wǎng)絡(luò)BiLSTM由2個方向相反的LSTM組成,二者網(wǎng)絡(luò)結(jié)構(gòu)相同,但權(quán)重參數(shù)不同。LSTM是RNN的一種變體,RNN由于梯度消失或梯度爆炸的原因只能獲取短距離依賴信息,LSTM通過在網(wǎng)絡(luò)節(jié)點(diǎn)上加上門結(jié)構(gòu)以控制數(shù)據(jù)流動,避免梯度消失或梯度爆炸的問題。LSTM有3個門,自左向右分別為遺忘門、輸入門、輸出門,如圖2所示。每個門都由一個激活函數(shù)σ(·)和一個點(diǎn)乘操作組成,其中σ(·)輸出0~1的數(shù)值,描述了數(shù)據(jù)通過此門的比例程度,正向 LSTM 依時間順序讀入數(shù)據(jù),以使信息沿時間起點(diǎn)正向傳遞,從而獲取序列的前文信息,分為以下4個步驟。

圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Figure 2 LSTM network structure

步驟1通過遺忘門從(t-1)時刻的細(xì)胞狀態(tài)ct-1中丟棄一定比例的信息。遺忘門t時刻的值為

ft=σ(wf·[ht-1,xt]+bf)。

(7)

式中:wf為遺忘門權(quán)重矩陣;bf為遺忘門偏置;ht-1為(t-1)時刻的隱藏狀態(tài)。

it=σ(wi·[ht-1,xt]+bi);

(8)

(9)

步驟3更新(t-1)時刻的細(xì)胞狀態(tài)ct-1,計算t時刻的細(xì)胞狀態(tài)。首先利用舊細(xì)胞狀態(tài)與遺忘門輸出點(diǎn)乘以丟棄舊細(xì)胞的部分信息,然后利用臨時細(xì)胞狀態(tài)與輸入門輸出點(diǎn)乘以得到需要加入細(xì)胞的新信息,最后利用二者的和得到新的細(xì)胞狀態(tài)ct:

(10)

步驟4通過輸出門的σ層計算輸出比例ot,然后將新的細(xì)胞狀態(tài)輸入tanh層進(jìn)行處理,最后將二者進(jìn)行點(diǎn)乘操作得到t時刻輸出的值ht:

ot=σ(wo·[ht-1,xt]+bo);

(11)

ht=ot?tanhct。

(12)

細(xì)胞狀態(tài)ct水平方向自左向右移動,新的細(xì)胞狀態(tài)是舊細(xì)胞狀態(tài)的累加。這種細(xì)胞狀態(tài)的累加方式會導(dǎo)致對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時其導(dǎo)數(shù)也是一種累加形式而不是累乘,避免梯度消失或梯度爆炸的問題,能夠?qū)χ暗男畔⑦M(jìn)行長期記憶。逆向LSTM則沿時間終點(diǎn)逆向傳遞以獲取序列的下文信息,信息傳遞過程與正向LSTM類似。

本文將卷積網(wǎng)絡(luò)層的輸出M看作時間軸上的序列信息作為BiLSTM的輸入,mi與BiLSTM第i個時刻的輸入對應(yīng)。正向LSTM通過遺忘門、輸入門、輸出門來記憶i=s時刻之前的信息,將此時刻的輸出記為hF。反向LSTM通過遺忘門、輸入門、輸出門來記憶i=1時刻之后的信息,將此時刻的輸出記為hR。將2個不同方向的LSTM最后時刻的輸出進(jìn)行拼接,記為h=hF⊕hR(⊕表示拼接運(yùn)算符),以獲取URL不同方向的長距離依賴特征。

2.4 全連接層

全連接層用于完成最終的分類功能,本文將其網(wǎng)絡(luò)層數(shù)設(shè)置為1,神經(jīng)元個數(shù)設(shè)置為2,通過softmax激活函數(shù)計算待測URL屬于釣魚或合法網(wǎng)頁的概率:

(13)

式中:zi=wih+bi,wi和bi分別為權(quán)重和偏置參數(shù);i為URL類別索引(0表示釣魚URL,1表示合法URL);k為URL類別總數(shù),值為2。

2.5 模型實現(xiàn)

首先基于敏感詞分詞方法對URL進(jìn)行分詞,并對分詞后的數(shù)據(jù)進(jìn)行整數(shù)編碼,將其映射為300×1的一維矩陣;通過詞嵌入層轉(zhuǎn)換為300×64的二維稠密矩陣;通過一個卷積層進(jìn)行卷積操作,并使用最大池化窗口獲取更具有代表性的特征,實驗中采用的卷積核個數(shù)為200,池化窗口為2,滑動步長為1,將所有卷積核對詞嵌入矩陣經(jīng)卷積池化后形成的特征圖按列堆疊形成200×298的矩陣,將其每行作為BiLSTM層對應(yīng)時刻的輸入;利用BiLSTM的雙向網(wǎng)絡(luò)結(jié)構(gòu)獲取序列數(shù)據(jù)的上下文信息,充分學(xué)習(xí)特征之間的長距離依賴關(guān)系,實驗中該網(wǎng)絡(luò)的隱藏層神經(jīng)元個數(shù)設(shè)置為64,經(jīng)過該網(wǎng)絡(luò)后,特征矩陣被轉(zhuǎn)化為一個128維的向量;最后使用全連接層中的softmax函數(shù)將BiLSTM層輸出的向量轉(zhuǎn)換為URL屬于合法或釣魚的概率,根據(jù)交叉熵?fù)p失函數(shù)計算概率值和真實值之間的損失,通過反向傳播算法更新網(wǎng)絡(luò)模型參數(shù)。模型的整體結(jié)構(gòu)如圖3所示。

圖3 CNN-BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)Figure 3 CNN-BiLSTM network structure

3 實驗部分

3.1 實驗數(shù)據(jù)

本文采用的數(shù)據(jù)集包括多個平臺提供的開源樣本,從PhishTank和Malware Patrol獲取釣魚URL,從Dmoz和Alexa獲取合法URL,以此來豐富URL數(shù)據(jù)的來源。對數(shù)據(jù)去重后,數(shù)據(jù)集中共包含206 200條帶標(biāo)簽的URL樣本,其中釣魚樣本105 100條,合法樣本101 100條,二者比例約為1∶1。

3.2 評估標(biāo)準(zhǔn)

本文為了驗證釣魚網(wǎng)頁檢測方法的有效性,采用準(zhǔn)確率Accuracy、精確率Precision、召回率Recall和F1值作為評價指標(biāo)。Precision表示被正確判斷為釣魚網(wǎng)頁類別的網(wǎng)頁占全部被判斷為釣魚網(wǎng)頁類別的網(wǎng)頁的比重,體現(xiàn)了檢測方法對合法網(wǎng)頁的區(qū)分能力,Recall則體現(xiàn)了對釣魚網(wǎng)頁的識別能力,F(xiàn)1值同時考慮到了精確率和準(zhǔn)確率,是二者的加權(quán)平均,能綜合評估檢測模型的性能。計算式為

Accuracy=(TP+TN)/(TP+FP+TN+FN);

(14)

Precision=TP/(TP+FP);

(15)

Recall=TP/(TP+FN);

(16)

F1=2·Precision·Recall/(Precision+Recall)。

(17)

式中:TP表示預(yù)測的釣魚網(wǎng)頁實際為釣魚網(wǎng)頁的數(shù)量;FP表示預(yù)測的釣魚網(wǎng)頁實際為合法網(wǎng)頁的數(shù)量;TN表示預(yù)測的合法網(wǎng)頁實際為合法網(wǎng)頁的數(shù)量;FN表示預(yù)測的合法網(wǎng)頁實際為釣魚網(wǎng)頁的數(shù)量。

3.3 實驗結(jié)果與分析

3.3.1 CNN-BiLSTM在數(shù)據(jù)集上的準(zhǔn)確率

本文對URL數(shù)據(jù)集采用十折交叉驗證法,即將樣本分為10組,其中1組包含10 510條釣魚URL和10 110條合法URL作為測試集,另外9組包含94 590條釣魚URL和90 990條合法URL作為訓(xùn)練集,該過程循環(huán)10次,保證每組樣本數(shù)據(jù)都能作為測試集預(yù)測,將得到的10次測試結(jié)果取平均值評測模型的檢測能力。圖4是本文所提模型在十折交叉驗證下,其準(zhǔn)確率在訓(xùn)練集和測試集上的平均變化曲線。從圖4中可以看出,訓(xùn)練過程中模型的參數(shù)收斂正常,當(dāng)訓(xùn)練輪數(shù)為30時,模型的訓(xùn)練、測試準(zhǔn)確率趨于穩(wěn)定。

圖4 CNN-BiLSTM在訓(xùn)練集和測試集上的準(zhǔn)確率變化曲線Figure 4 Accuracy curve of CNN-BiLSTM on training set and test set

3.3.2 不同模型在數(shù)據(jù)集上的檢測效果

為了體現(xiàn)基于敏感詞(sensitive word)分詞方法的有效性,首先通過對URL數(shù)據(jù)采用3種不同的分詞方法來訓(xùn)練CNN模型,分別為基于字符劃分URL的字符級CNN模型char-CNN、基于單詞劃分URL的詞級CNN模型word-CNN、基于敏感詞劃分URL的敏感詞級CNN模型sw-CNN,觀察它們在測試集上的檢測效果,如表2所示。與char-CNN、word-CNN相比,sw-CNN在準(zhǔn)確率、精確率、召回率和F1值這4個評估指標(biāo)上均達(dá)到較好的檢測效果,這表明本文所提出的基于敏感詞分詞的方法能夠有效提升檢測模型對釣魚URL的檢測能力。

表2 所有模型在測試集上的最終檢測結(jié)果Table 2 Final test results of all models on test set

此外,為體現(xiàn)檢測模型CNN-BiLSTM的優(yōu)勢,將其與深度學(xué)習(xí)模型CNN、CNN-RNN對比,通過對URL數(shù)據(jù)采用敏感詞分詞的方法來訓(xùn)練生成2個檢測模型sw-CNN-RNN、sw-CNN-BiLSTM,觀察它們在測試集上的檢測效果,如表2所示,同時對這些模型在訓(xùn)練集與測試集的準(zhǔn)確率做了記錄,如圖5、6所示。結(jié)合表2、圖5、圖6可以看出,本文所涉及的5種檢測模型在相同數(shù)據(jù)集上均獲得了較高的檢測準(zhǔn)確率。其中,檢測模型char-CNN在訓(xùn)練集及測試集上剛開始就達(dá)到了較高的準(zhǔn)確率,但隨著訓(xùn)練輪數(shù)的增加,準(zhǔn)確率的提升程度不大。word-CNN在訓(xùn)練集與驗證集上的準(zhǔn)確率變化曲線與char-CNN類似,但準(zhǔn)確率低于char-CNN模型,該結(jié)果可能源于以下3個方面:①通過“.”“”“?”等特殊字符對URL分詞時忽略了特殊字符所具有的有效信息;②為了避免內(nèi)存受限,將數(shù)據(jù)集中僅出現(xiàn)一次的單詞統(tǒng)一標(biāo)記為而忽略了這些單詞的有效信息;③無法獲得新出現(xiàn)單詞的有效信息。sw-CNN由于能夠獲取到URL中敏感詞的有效信息,其準(zhǔn)確率高于char-CNN。

圖5 不同模型在訓(xùn)練集上的準(zhǔn)確率Figure 5 Accuracy of different models on training set

圖6 不同模型在測試集上的準(zhǔn)確率Figure 6 Accuracy of different models on test set

sw-CNN-RNN雖然采用混合網(wǎng)絡(luò)模型用于提取URL特征,但由于RNN無法獲取到URL的長距離依賴特征,反而導(dǎo)致其檢測準(zhǔn)確率低于單模型結(jié)構(gòu)的char-CNN和sw-CNN。檢測模型sw-CNN-BiLSTM相比以上模型能夠獲取到更為充分的URL特征,達(dá)到了最高的檢測準(zhǔn)確率、精確率、召回率和F1值。

3.3.3 不同模型對不同長度的URL的檢測效果

另外,在實驗過程中發(fā)現(xiàn),sw-CNN-BiLSTM對URL短字符串也有較好的檢測效果。為了研究其對短字符串的檢測性能,在相同的實驗環(huán)境下,將URL長度分別設(shè)置為15、25、50、100、200、300、400,觀察其檢測效果,結(jié)果如圖7所示。在URL長度降至15時,sw-CNN-BiLSTM的檢測準(zhǔn)確率也能達(dá)到87%,而sw-CNN-RNN、sw-CNN與word-CNN的準(zhǔn)確率分別為72%、78%、70%。實驗結(jié)果表明,sw-CNN-BiLSTM對URL短鏈接也有較好的檢測效果。

圖7 不同模型在測試集上對不同長度的URL的檢測準(zhǔn)確率Figure 7 Detection accuracy of different models for URL of different length on test set

4 結(jié)論

(1)提出了一種融合CNN與BiLSTM的檢測模型,該模型能夠兼顧C(jī)NN和BiLSTM的特點(diǎn),充分提取URL數(shù)據(jù)的空間局部特征及長距離依賴特征。

(2)提出了一種基于敏感詞分詞的方法,該方法能夠獲取新出現(xiàn)單詞的嵌入向量,也能獲取URL中敏感詞、特殊字符的有效信息,提升了URL數(shù)據(jù)信息的利用程度。

(3)在數(shù)據(jù)集上的實驗結(jié)果表明,本文所提出的基于CNN-BiLSTM的釣魚URL檢測方法可以有效提升對釣魚網(wǎng)頁檢測的能力。

猜你喜歡
集上字符網(wǎng)頁
關(guān)于短文本匹配的泛化性和遷移性的研究分析
基于HTML5與CSS3的網(wǎng)頁設(shè)計技術(shù)研究
基于互信息的多級特征選擇算法
論高級用字階段漢字系統(tǒng)選擇字符的幾個原則
字符代表幾
一種USB接口字符液晶控制器設(shè)計
圖片輕松變身ASCⅡ藝術(shù)畫
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
基于HTML5靜態(tài)網(wǎng)頁設(shè)計
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究