楊立圣,羅文華
(中國刑事警察學(xué)院 公安信息技術(shù)與情報學(xué)院,沈陽 110035) E-mail:luowenhua770404@126.com
隨著互聯(lián)網(wǎng)的飛速發(fā)展以及網(wǎng)絡(luò)應(yīng)用的迅速普及,惡意網(wǎng)頁給人們的隱私和財產(chǎn)安全帶來了嚴(yán)重的威脅.如何準(zhǔn)確識別惡意網(wǎng)頁,有效避免因惡意網(wǎng)頁引發(fā)的安全威脅,已成為信息安全領(lǐng)域的重要研究內(nèi)容.經(jīng)典的惡意網(wǎng)站識別方法是采用黑名單技術(shù),但該技術(shù)具有較大的局限性和滯后性[1],只能識別已知的惡意網(wǎng)頁,容易引起誤判.隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)的惡意網(wǎng)頁識別方法[2]進(jìn)一步被提出,該方法具有一定的泛化能力,比傳統(tǒng)的識別方法更加有效.但對于機(jī)器學(xué)習(xí)方法,選擇不同的網(wǎng)頁特征會對分類結(jié)果造成較大影響[3],在特征工程階段中特征選取的工作量較大,效率較低,傳統(tǒng)機(jī)器學(xué)習(xí)無法感知惡意網(wǎng)頁中文本內(nèi)容的上下文關(guān)系,導(dǎo)致部分特征信息缺失.作為完整網(wǎng)頁的有機(jī)組成部分, HTML標(biāo)簽、URL地址、網(wǎng)頁文本在各自層面體現(xiàn)出一定的網(wǎng)頁特征.傳統(tǒng)惡意網(wǎng)頁識別缺乏全局性、系統(tǒng)性考量,沒有將網(wǎng)頁作為有機(jī)整體,而是獨(dú)立針對某一層面特征開展研究[4],導(dǎo)致識別效率和準(zhǔn)確率較低.雖然已有學(xué)者意識到了割裂研究的不足,并提出的融合特征的思想,但依舊使用的是機(jī)器學(xué)習(xí)算法予以實現(xiàn),忽視了近年來深度學(xué)習(xí)的飛速發(fā)展及其優(yōu)越性能.在自然語言處理領(lǐng)域,BERT[5]預(yù)訓(xùn)練模型的出現(xiàn)刷新了眾多自然語言處理領(lǐng)域任務(wù)的性能記錄.BERT的自注意力機(jī)制和雙向Transformer結(jié)構(gòu)使得BERT模型具有上下文感知能力,而且BERT模型經(jīng)過簡單微調(diào)就可以完成下游的分類任務(wù).研究者們也開始對BERT模型用于惡意網(wǎng)頁識別任務(wù)進(jìn)行了探索研究.在計算機(jī)視覺領(lǐng)域,SENet[6]贏得了最后一屆ImageNET的圖像識別冠軍.SENet可以學(xué)習(xí)通道之間的相關(guān)性,按照特征通道的重要程度對同道進(jìn)行加權(quán).同時SENet模塊易于實現(xiàn),很容易融合到現(xiàn)有的網(wǎng)絡(luò)模型中.為此,以BERT和SENet為基礎(chǔ),提出一種融合多特征的Tri-BERT-SENet模型,該模型融合URL特征、HTML特征以及網(wǎng)頁文本特征,結(jié)合BERT模型的上下文感知能力,將3個BERT模型的輸出作為3個通道,使用SENet對特征通道進(jìn)行加權(quán),最后實現(xiàn)惡意網(wǎng)頁識別任務(wù).
本文創(chuàng)新性地將深度學(xué)習(xí)技術(shù)與多特征融合的思路相結(jié)合,利用不同BERT模型分別處理不同維度特征,嘗試將計算機(jī)視覺領(lǐng)域的SENet模型與自然語言處理領(lǐng)域的BERT模型相結(jié)合,以完成特征融合,并實現(xiàn)惡意網(wǎng)頁識別.
針對惡意網(wǎng)頁識別問題,目前已經(jīng)有研究人員提出了多種惡意網(wǎng)站識別技術(shù)和方法.Ma J等人以IP信息、WHOIS信息、DNS信息以及URL特征,采用機(jī)器學(xué)習(xí)的方法對惡意URL進(jìn)行識別[7].Canali D等人根據(jù)HTML特征、URL和主機(jī)信息等特征,使用樸素貝葉斯、隨機(jī)森林、決策樹和邏輯回歸分類器等機(jī)器學(xué)習(xí)模型進(jìn)行分類[8].陳遠(yuǎn)等人采用主成分分析的方法對惡意網(wǎng)站進(jìn)行多為評估,并在此基礎(chǔ)上采用隨機(jī)森林對惡意網(wǎng)站進(jìn)行識別[9].這些采用傳統(tǒng)機(jī)器學(xué)習(xí)并以URL為主要特征的方法,在特征工程上工作量較大,而且沒有考慮到URL中的文本上下文關(guān)系,導(dǎo)致URL特征信息丟失.吳海濱使用Word2vec生成詞向量并使用卷積神經(jīng)網(wǎng)絡(luò)抽取特征信息實現(xiàn)惡意網(wǎng)頁識別.該方法考慮到了URL中的詞上下文關(guān)系,并使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò),提升了根據(jù)URL進(jìn)行惡意網(wǎng)頁分類效果[10],但該方法生成的詞向量是靜態(tài)詞向量,并不能解決一詞多義的問題,不能充分地挖掘文本之間的深層次關(guān)系.隨著深度學(xué)習(xí)中自然語言處理技術(shù)的迅速發(fā)展,產(chǎn)生了注意力機(jī)制[11]和BERT預(yù)訓(xùn)練模型,這些新技術(shù)在自然語言處理任務(wù)中的效果相比以往采用Word2Vec靜態(tài)詞向量的模型有所提升.這些模型隨后也應(yīng)用到了以URL為特征的惡意網(wǎng)頁分類任務(wù)中.梁飛提出了一種具有多分組注意力機(jī)制的深度學(xué)習(xí)模型[12],該模型可以更加準(zhǔn)確地表達(dá)URL文本的語義信息,更能準(zhǔn)確完成惡意網(wǎng)頁的識別任務(wù),但該方法以URL 作為文本數(shù)據(jù)分類的問題處理,對惡意網(wǎng)頁識別具有一定的片面性.Devlin J等人于2018年提出了基于大規(guī)模文本的Transformer預(yù)訓(xùn)練模型BERT,BERT模型刷新了11項自然語言任務(wù)的性能記錄.張鳳等人將BERT運(yùn)用在惡意域名檢測任務(wù)上[13],強(qiáng)化了字符對于模型的決策能力,提高了模型的檢測性能,但并未以網(wǎng)頁文本內(nèi)容為依據(jù)使用BERT模型對惡意網(wǎng)頁進(jìn)行識別.隨著惡意網(wǎng)站的隱蔽性、復(fù)雜性的提升,對惡意網(wǎng)頁的識別僅僅依據(jù)URL及其相關(guān)特征遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)今對于惡意網(wǎng)頁識別的需求[14].魏旭等人提出了融合特征方法[15],但其依舊采用機(jī)器學(xué)習(xí)模型對惡意網(wǎng)頁進(jìn)行識別,難以捕捉特征的深層次信息.馮凱媛等人提出了以傳統(tǒng)網(wǎng)頁URL、HTML等特征基礎(chǔ)上,融合了網(wǎng)頁文本特征,以機(jī)器學(xué)習(xí)方法對惡意網(wǎng)頁進(jìn)行識別[16],但傳統(tǒng)機(jī)器學(xué)習(xí)的分類方法對于文本特征方面的向量構(gòu)造,沒有考慮文本的上下文信息,不能體現(xiàn)出文本中一詞多義的深層次特征,存在一定的信息缺失.
綜合考慮上述問題,本文提出了一種基于多特征融合的Tri-BERT-SENet模型對惡意網(wǎng)頁進(jìn)行檢測識別.
特征提取主要是針對可以為識別惡意網(wǎng)頁提供依據(jù)的網(wǎng)頁相關(guān)構(gòu)成要素特征進(jìn)行提取的過程.可以作為識別惡意網(wǎng)頁的特征主要有以下幾種:網(wǎng)頁HTML特征、URL特征以及網(wǎng)頁文本內(nèi)容特征.
HTML特征是基于原始頁面內(nèi)容的一種統(tǒng)計信息和HTML代碼解析后得到的結(jié)構(gòu)信息.網(wǎng)頁HTML中的眾多特征信息可作為判定惡意網(wǎng)頁的依據(jù),特征信息包括