何 穎, 楊 頻, 王叢雙, 湯 娟
(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院, 成都 610207)
近年來,隨著科技的迅速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的一部分. 中國互聯(lián)網(wǎng)絡(luò)信息中心在2020年的數(shù)據(jù)統(tǒng)計顯示,我國網(wǎng)民規(guī)模突破9億,網(wǎng)站數(shù)量達497萬個[1]. 然而,在互聯(lián)網(wǎng)為人們的生活帶來巨大便利的同時,網(wǎng)絡(luò)的負面影響也逐漸顯現(xiàn). 網(wǎng)絡(luò)違法信息開始出現(xiàn)在互聯(lián)網(wǎng)的各個角落,其中通過提供非法配資來賺取盈利的網(wǎng)站對網(wǎng)民群體造成了嚴重的影響,威脅到了網(wǎng)絡(luò)用戶的財產(chǎn)安全.
配資是指根據(jù)資金需求方與配資公司簽訂的協(xié)議,在資金需求方原有資金的基礎(chǔ)上,配資公司以原始資金作為配資基數(shù)按照一定比例另行提供新的資金供資金需求方使用. 配資公司要求資金需求方必須使用其公司的賬戶進行操作,若選擇使用自己的賬戶,則需要抵押物,如車、房等. 配資公司會隨時監(jiān)督賬戶的虧損情況,當虧損達到原有資金的一定金額并且持續(xù)虧損時,配資公司會強行平倉. 大量民間配資公司利用互聯(lián)網(wǎng)信息技術(shù)搭建互聯(lián)網(wǎng)配資平臺,而這些配資網(wǎng)站并不具備經(jīng)營證券業(yè)務(wù)資質(zhì),其在本質(zhì)上就不被法律允許,這種不受監(jiān)管的配資帶來的爆倉風(fēng)險和資金安全風(fēng)險不容忽視. 而大量配資網(wǎng)站往往裹上投資咨詢、網(wǎng)絡(luò)信息和商貿(mào)服務(wù)的外衣,有著極強的迷惑性. 因此,為了能夠?qū)ε滟Y網(wǎng)站進行監(jiān)管,迫切需要能夠準確檢測出配資網(wǎng)站的方法.關(guān)于以網(wǎng)絡(luò)釣魚、網(wǎng)絡(luò)色情為代表的以提供非法內(nèi)容為主的網(wǎng)站識別工作已經(jīng)取得了一定的進展,但是對于配資網(wǎng)站識別的相關(guān)研究較少. 針對惡意網(wǎng)站識別問題,研究者提出了很多解決方案和識別技術(shù),主要有基于黑名單的識別方法,基于網(wǎng)站URL異常特征的識別方法和基于網(wǎng)站頁面內(nèi)容的識別方法.
基于黑名單的識別方法是用蜜罐技術(shù)、人工檢查等手段預(yù)先構(gòu)建一份包含網(wǎng)站URL或關(guān)鍵詞信息的列表,通過黑名單技術(shù)可準確識別已被確認的釣魚網(wǎng)站或其他類型網(wǎng)站. 以PhishTank[2]為例,人們可自愿提交和共享釣魚網(wǎng)站網(wǎng)址,依據(jù)其提供的列表可以主動過濾釣魚網(wǎng)址. 這種方法誤報率低,但是無法準確識別新出現(xiàn)的釣魚網(wǎng)站,維護和更新完整的黑名單列表是十分困難的.
基于網(wǎng)站URL異常特征的識別方法是用分析URL特征來構(gòu)建網(wǎng)站識別模型. Abdelhamid[3]根據(jù)URL特征,提出一種基于多標簽規(guī)則的分類算法來識別釣魚網(wǎng)站,能夠從單個數(shù)據(jù)集生成具有多個類標簽的規(guī)則. Moghimi等[4]提出基于規(guī)則的使用兩種新的特征集的釣魚識別方法,使用字符串近似匹配算法來確定特征集中的頁面內(nèi)容和URL之間的關(guān)系. 方勇等[5]使用LSTM算法來挖掘釣魚網(wǎng)址字符序列的潛在特征,提出基于LSTM與隨機森林的混合框架模型提高了釣魚網(wǎng)站的識別效率和檢測準確率,能夠快速識別海量釣魚網(wǎng)站攻擊. 但是網(wǎng)站URL特征有限且容易模仿,這在很大程度上限制特定網(wǎng)站識別的實際效果.
基于網(wǎng)站頁面內(nèi)容的識別方法是用挖掘標題、圖片、關(guān)鍵字等網(wǎng)頁內(nèi)容中的特征進行識別. Mao等[6]指出網(wǎng)頁之間的相似性是檢測釣魚網(wǎng)站的一個重要指標,提出一種基于網(wǎng)頁之間視覺外觀相似度來量化網(wǎng)頁可疑度評級的算法,使用層疊樣式表作為基礎(chǔ)來量化每個頁面元素的視覺相似性,并用真實的釣魚網(wǎng)站樣本證明了它的有效性. Zhang等[7]從文本內(nèi)容和視覺內(nèi)容的角度檢測釣魚網(wǎng)站,利用貝葉斯理論推導(dǎo)出的概率模型,有效地估計文本分類器和圖像分類器的匹配閾值,可直接合并不同分類器產(chǎn)生的多個結(jié)果. Jain等[8]綜合分析了基于視覺相似性的釣魚檢測技術(shù),其利用文本內(nèi)容、文本格式、HTML標簽、層疊樣式表和圖像等特征集來做出判斷,能夠有效應(yīng)對釣魚攻擊. 這些工作的關(guān)鍵在于特征的選取,不同特征的識別效果存在一定的差異. 另外,沙泓州等[9]在研究中指出,移動互聯(lián)網(wǎng)的繁榮和社交網(wǎng)站的興起使得網(wǎng)頁的傳播途徑逐漸多元化,可以通過掃描“二維碼”和社交網(wǎng)站的形式傳播. 新的應(yīng)用場景的出現(xiàn),豐富了特征選擇的范圍,也對特定網(wǎng)站識別時選擇的特征提出了更高的要求. 同時,網(wǎng)站規(guī)模的迅速擴大帶來了海量新特征,為了保證識別效率,需要選擇有助于識別特定網(wǎng)站的重要特征變量.
近年來深度學(xué)習(xí)在計算機視覺[10]、圖像處理[11]、自然語言處理[12]和大數(shù)據(jù)分析[13-14]等許多領(lǐng)域的應(yīng)用中取得了不錯的表現(xiàn). 深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)作為一種深度學(xué)習(xí)架構(gòu)在分類問題方面[15-16]非常成功. 在上述研究成果的基礎(chǔ)上,本文從5個不同的維度選取能夠有效識別配資網(wǎng)站的重要特征,包括域名特征、搜索引擎收錄特征、HTML標簽特征、圖片特征和文本特征,較全面地體現(xiàn)了配資網(wǎng)站和其他類別網(wǎng)站的本質(zhì)區(qū)別,提出一種基于深度神經(jīng)網(wǎng)絡(luò)的配資網(wǎng)站識別模型.
本文提出的配資網(wǎng)站識別模型如圖1. 該模型主要包含三個部分:數(shù)據(jù)采集模塊、特征處理模塊和識別模型模塊. 首先,我們通過動態(tài)爬蟲技術(shù)和文本處理手段采集原始數(shù)據(jù),進行格式化處理后,經(jīng)特征提取器提取多維度特征數(shù)據(jù);然后,經(jīng)過特征向量化,將字符串等文本特征轉(zhuǎn)化為特征向量;最后,我們將實驗數(shù)據(jù)隨機抽樣分成兩組,使用深度神經(jīng)網(wǎng)絡(luò)算法,利用訓(xùn)練集建立配資網(wǎng)站識別模型,再利用測試集對該模型的識別性能進行驗證.
圖1 識別模型構(gòu)建及評估流程Fig.1 Process of recognition model construction and evaluation
為了提高配資網(wǎng)站識別的準確性和可靠性,選取的特征需要能夠充分體現(xiàn)配資網(wǎng)站的特征,并能夠有效區(qū)分配資網(wǎng)站和其他類型網(wǎng)站. 本文參考傳統(tǒng)惡意網(wǎng)站識別特征,在對大量配資類網(wǎng)站樣本分析的基礎(chǔ)上,從多個維度選取了共60個特征,這些特征可歸納為域名特征、搜索引擎收錄特征、HTML標簽特征、圖片特征和文本特征等5大類,具體內(nèi)容如圖2所示.
圖2 識別特征Fig.2 Identification features
(1) 域名特征.基于域名的特征可以分類為詞匯特性和域名屬性特性.
詞匯特性是域名本身的文本屬性. 域名由于其便于記憶的特點,成為使用者使用網(wǎng)站的代名詞,運營者為了促進網(wǎng)站傳播,加深使用者記憶,會使用與網(wǎng)站內(nèi)容相關(guān)的短詞匯,如PZ、Peizi等字符. 域名中的短文本詞匯是反映網(wǎng)站類型的一個重要體現(xiàn).
域名屬性信息包括域名的Whois信息、備案信息、解析記錄、IP歸屬等,這些信息可以反映目標域名的背景情況,Whois信息有域名的注冊時間、注冊人等,備案信息有備案網(wǎng)址名稱、備案主體信息等,解析記錄有目標域名變更情況,IP地址的歸屬等. 單獨來看這些信息并不能作為有效區(qū)分配資網(wǎng)站和非配資網(wǎng)站的特征,但將這些特征與其他特征融入在一起后,能有效地反映域名的背景狀況. 除此之外還有域名解析記錄在一定時間范圍的變化頻率,實驗中選取一年(域名的一般購買周期),獲取該一年內(nèi)域名解析IP的變更次數(shù),以及這些IP地址是否屬于CDN類型IP或IDC類型IP等.
(2) 搜索引擎收錄特征.搜索引擎是一種收錄互聯(lián)網(wǎng)各種類型網(wǎng)站網(wǎng)頁內(nèi)容,給用戶提供海量內(nèi)容準確檢索服務(wù)的工具. 借助搜索引擎,可以使用關(guān)鍵詞檢索出大量與關(guān)鍵詞相關(guān)的內(nèi)容. 為了利于網(wǎng)站的傳播,增加被搜索引擎收錄的內(nèi)容,存在一種搜索引擎優(yōu)化技術(shù)(Search Engine Optimization, SEO),來提高某一個網(wǎng)站被網(wǎng)絡(luò)收錄的速度和關(guān)鍵詞數(shù)量. 配資網(wǎng)站需要通過推廣來增加用戶量,一般會使用這種技術(shù)手段增加收錄關(guān)鍵詞量. 因此,指定域名網(wǎng)站的搜索引擎收錄情況,是否被搜索引擎收錄配資等關(guān)鍵詞,是配資網(wǎng)站的重要特性之一.
(3) HTML標簽特征.每一個網(wǎng)站都是由HTML、Javascript和CSS共同組建而成,用戶瀏覽網(wǎng)頁,是瀏覽器對這些代碼渲染后的效果. 通過對配資網(wǎng)站的大量分析,本文發(fā)現(xiàn)配資類網(wǎng)站在網(wǎng)頁結(jié)構(gòu)上具有眾多特有特征:(a) A標簽嵌入IMG標簽. 配資網(wǎng)站常使用在A標簽中嵌入IMG標簽來使用戶點擊圖片以達到跳轉(zhuǎn)的目的. 配資網(wǎng)站會在網(wǎng)站首頁添加大量虛假的友情鏈接,包括銀行等,使用這種技術(shù)手段來欺騙用戶,并且A標簽的鏈接多為站外鏈接;(b) 導(dǎo)航欄IMG標簽. 眾多配資網(wǎng)站會在導(dǎo)航欄左側(cè)使用圖片標簽的形式展示配資站點的名稱,右側(cè)則以ul/li標簽結(jié)合A標簽的形式給出導(dǎo)航菜單選項,A標簽內(nèi)容為站內(nèi)鏈接;(c) Iframe標簽. 配資網(wǎng)站為了簡化部署復(fù)雜度,達到快速建站,快速遷移的目的,會使用iframe標簽嵌入主站內(nèi)容,從而實現(xiàn)只需要修改主站內(nèi)容,其他網(wǎng)站就會同步更改;(d) 基于A標簽的注冊、登錄跳轉(zhuǎn). 配資網(wǎng)站為用戶提供了復(fù)雜的交易功能,需要涉及用戶注冊、開戶等,因此基于A標簽的注冊跳轉(zhuǎn)也被應(yīng)用于模型中.
(4) 圖片特征.非法配資網(wǎng)頁的傳播方式隨著新的應(yīng)用場景的出現(xiàn)逐漸多元化. 二維碼作為一種全新的信息傳遞、識別和存儲技術(shù),能夠快速傳播網(wǎng)頁. 配資網(wǎng)站在設(shè)計網(wǎng)頁頁面時,往往將二維碼放置在醒目的位置,吸引用戶去掃描,以達到推廣網(wǎng)頁的目的. 同時,隨著即使通訊工具的廣泛使用,配資公司還會利用微信或QQ二維碼、APP下載二維碼來宣傳配資資訊,錯誤地引導(dǎo)投資者. 因此,檢查網(wǎng)頁中是否包含二維碼圖片是識別配資網(wǎng)站的有效方法. 配資網(wǎng)站中的虛假宣傳圖片、配資內(nèi)容宣傳圖片也是本模型關(guān)注的重點,通過提取配資網(wǎng)站中的圖片數(shù)據(jù),并使用文字識別工具識別圖片中的文字信息,基于文本關(guān)鍵詞來判斷文本內(nèi)容是否與配資相關(guān).
(5) 文本特征.為了實現(xiàn)擴大宣傳、增強網(wǎng)站影響力的目的,配資網(wǎng)站會發(fā)布大量與配資相關(guān)的內(nèi)容,其文本特征與正常網(wǎng)站存在較大差異,這是無法偽裝的,這些差異恰恰可以作為判斷該網(wǎng)站是否是配資網(wǎng)站的重要依據(jù).
在多數(shù)情況下,和網(wǎng)站頁面中其它位置的文本信息相比,網(wǎng)站標題的文本信息能夠更好地概括網(wǎng)站的主題內(nèi)容. 配資網(wǎng)站往往會通過在標題中使用“配資”、“操盤”、“股票”、“平臺”等關(guān)鍵詞來吸引和欺騙用戶. 除標題外,頁面中的文本信息經(jīng)常含有“配資”、“杠桿”、“策略”、“實盤”、“開戶”、“操盤”、“新手”和“交易”等關(guān)鍵詞. 因此,是否出現(xiàn)以上關(guān)鍵詞,統(tǒng)計關(guān)鍵詞出現(xiàn)的個數(shù),以及在眾多關(guān)鍵詞中出現(xiàn)的幾個組合關(guān)鍵詞的個數(shù)等特征將用來判斷網(wǎng)站是否為配資網(wǎng)站.
同時,頁面內(nèi)容中是否包含“客戶端下載”、“客服”、“公司信息”、“推廣頁面”和“關(guān)于我們”,這些文本內(nèi)容也是能有效區(qū)分配資網(wǎng)站和非配資網(wǎng)站的文本特征.
人工神經(jīng)網(wǎng)絡(luò)雖然已經(jīng)被研究了70多年[17-18],但隨著一些研究人員的開創(chuàng)性工作,它們開始被廣泛應(yīng)用在解決數(shù)據(jù)挖掘問題上. 在擁有足夠的計算資源和訓(xùn)練數(shù)據(jù)的情況下,多層人工神經(jīng)結(jié)構(gòu)可以學(xué)習(xí)復(fù)雜的非線性函數(shù)映射. 對于分類任務(wù),更高層次的表示放大了輸入的各個方面,這些方面對于識別和抑制無關(guān)的變化非常重要.
神經(jīng)網(wǎng)絡(luò)分類器可以簡化為三層結(jié)構(gòu):輸入層、多個隱藏層和輸出層. 本文選擇的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示. 輸入層的每個神經(jīng)元代表一個特征,首先隨機初始化權(quán)值,權(quán)值向量可以被認為是一個向量到另一個向量上的投影,或者是兩個向量之間相似度的度量. 然后利用梯度下降調(diào)整參數(shù)使誤差最小化. 學(xué)習(xí)過程包括連續(xù)多次向前和向后傳遞. 在前向傳播中,通過多個非線性隱藏層將輸入轉(zhuǎn)發(fā)到輸出,并最終將計算出的輸出與對應(yīng)輸入的實際輸出進行比較. 在反向傳播中,相對于參數(shù)的誤差導(dǎo)數(shù)被反向傳播以調(diào)整權(quán)值,以使輸出中的誤差最小化. 這一過程將持續(xù)多次,直到在模型預(yù)測中獲得了預(yù)期的改進. 如果Xi為輸入,fi為第i層的非線性激活函數(shù),第i層的輸出可以表示為
圖3 多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
Xi+1=fi(WiXi+bi)
(1)
其中,Xi+1為下一層的輸入;Wi和bi是連接層與層之間的參數(shù). 在反向傳播中,這些參數(shù)可以更新為
Wnew=W-η?E/?W
(2)
bnew=b-η?E/?b
(3)
其中,Wnew和bnew分別是W和b更新后的參數(shù);E為損失函數(shù);η為學(xué)習(xí)率.
本文模型中隱藏層使用的是ReLU激活函數(shù),輸出層使用的是Softmax激活函數(shù),選擇的損失函數(shù)是categorical_crossentroy(分類交叉熵),交叉熵損失只考慮樣本的標記類別,而不考慮標記類別之外的其他類別,其損失函數(shù)可以表示為式(4)所示.
(4)
其中,L表示樣本的交叉熵損失;yi為樣本被正確分類的輸出;yj為樣本y從類別1到類別n的輸出. 每次對損失進行計算后,會根據(jù)損失對模型中的參數(shù)進行更新,對模型中參數(shù)進行更新的過程就是學(xué)習(xí)的過程.
為了對模型進行充分驗證,本文分別采集了1 200個配資網(wǎng)站(正樣本)并進行了手工驗證,3 000個其他類型網(wǎng)站(負樣本). 為了使負樣本能充分覆蓋除配資網(wǎng)站外的網(wǎng)站類型,先通過CommonCrawl可信網(wǎng)站平臺選取了5×104個目標網(wǎng)站,使用2.2中第五點文本特征中包含的多個文本關(guān)鍵詞組合,剔除目標網(wǎng)站中不存在這些關(guān)鍵詞的網(wǎng)站,并結(jié)合人工篩查,最終選擇了3 000個目標網(wǎng)站作為訓(xùn)練數(shù)據(jù)集. 實驗采用了十折交叉驗證方法對模型進行評估. 本模型實驗環(huán)境為單臺PC機,Intel酷睿i7處理器,16 G內(nèi)存. 神經(jīng)網(wǎng)絡(luò)采用Python語言的scikit-learn[19]和keras框架進行實現(xiàn).
實驗評估指標可以通過以下4種類型表示:(1) 真陽性(TP),數(shù)據(jù)標簽為配資網(wǎng)站,并且模型識別結(jié)果也為配資網(wǎng)站的數(shù)據(jù)類型;(2) 假陽性(FP),數(shù)據(jù)標簽為非配資網(wǎng)站,并且模型識別結(jié)果為配資網(wǎng)站的數(shù)據(jù)類型,即誤報;(3) 真陰性(TN),數(shù)據(jù)標簽為非配資網(wǎng)站,并且模型識別結(jié)果為非配資網(wǎng)站的數(shù)據(jù)類型;(4) 假陰性(FN),數(shù)據(jù)標簽為配資網(wǎng)站,并且模型識別結(jié)果為非配資網(wǎng)站的數(shù)據(jù)類型,即漏報.
使用準確率(Accuracy)、召回率(Recall)、精確率(Precision)和調(diào)和平均數(shù)(F1)作為模型性能的基本評估指標,這些指標的計算方式分別為式(5~8).
(5)
(6)
(7)
(8)
為了驗證模型的效果,使用Python對第二章中配資網(wǎng)站識別模型進行了實現(xiàn),并設(shè)計多個對比實驗,進行了如下的實驗步驟.
步驟1將原始數(shù)據(jù)集劃分兩組,數(shù)據(jù)組1用于模型的訓(xùn)練,數(shù)據(jù)組2用于模型的實驗評估.
步驟2使用Keras實現(xiàn)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練和模型評估代碼,通過畫圖的方式展現(xiàn)不同的訓(xùn)練輪數(shù),記錄模型效果變化.
步驟3實現(xiàn)傳統(tǒng)機器學(xué)習(xí)模型訓(xùn)練和模型評估代碼,通過圖像、表格等方式,記錄不同的參數(shù)下模型的效果,以獲取該模型的最佳效果.
步驟4使用準確率、精確率、召回率、ROC曲線等評估指標,觀察不同模型的評估結(jié)果.
本文模型的一些參數(shù)選擇包括,優(yōu)化函數(shù)為Adam[20],訓(xùn)練模型評估指標使用準確率,epochs為15,batch_size為32. 使用to_categorical來實現(xiàn)輸出正負樣本概率,訓(xùn)練過程中對上述參數(shù)值,以及決策樹的深度、最大最小葉參數(shù)、支持向量機中的核函數(shù)、懲罰系數(shù)、K-鄰近的鄰居個數(shù)等參數(shù)進行調(diào)整,包括修改參數(shù)的大小,選用不同的參數(shù)值,最終根據(jù)模型的分類效果選擇最佳的參數(shù).
對比決策樹(Decision Tree,DT)、支持向量機(Support Vector Machine,SVM)、K-鄰近(k-Nearest Neighbor,KNN)和深度神經(jīng)網(wǎng)絡(luò)的實驗結(jié)果,本文設(shè)計的深度神經(jīng)網(wǎng)絡(luò)模型在準確率、召回率、精確率等方面都優(yōu)于以上傳統(tǒng)機器學(xué)習(xí)算法. 在準確率方面,深度神經(jīng)網(wǎng)絡(luò)達到95.9%,并且精確率高達98.7%,傳統(tǒng)機器學(xué)習(xí)算法中決策樹是表現(xiàn)最差的,支持向量機優(yōu)于其通過構(gòu)建超平面能滿足高維度數(shù)據(jù)的二分類,其各種指標表現(xiàn)僅次于深度神經(jīng)網(wǎng)絡(luò),F(xiàn)1值為0.942. 4種算法的詳細評估數(shù)據(jù)見表1. 工作特征曲線見圖4.
圖4 4種算法的ROC曲線Fig.4 ROC of four algorithms
表1 實驗環(huán)境配置4種算法性能對比
傳統(tǒng)的網(wǎng)站識別模型在配資網(wǎng)站的識別上效果不佳,不能滿足對配資網(wǎng)站的準確識別. 為此,本文設(shè)計了一種基于深度神經(jīng)網(wǎng)絡(luò)的配資網(wǎng)站識別模型. 本方法從多個維度選取區(qū)別配資網(wǎng)站和其他類別網(wǎng)站的關(guān)鍵特征,采用深度神經(jīng)網(wǎng)絡(luò)構(gòu)造分類器用于配資網(wǎng)站識別. 為了驗證該方法的有效性,與傳統(tǒng)的一些機器學(xué)習(xí)算法進行了比較,本文方法識別準確率接近96%,精確率達到了98.7%,均優(yōu)于其他模型. 實驗結(jié)果表明,本文提出的配資網(wǎng)站識別模型能有效識別配資網(wǎng)站.
雖然本文模型擁有不錯的檢測效果,但是仍存在不足. 基于網(wǎng)站頁面內(nèi)容的特征在本次實驗中占有很大比例,但配資網(wǎng)站可以通過在網(wǎng)頁中添加干擾內(nèi)容來影響模型的識別效果. 因此本文下一步的研究是如何針對這種對抗,繼續(xù)提高識別準確率以及方法的穩(wěn)定性.