龍 軍 王軼駿 薛 質(zhì)
(上海交通大學(xué)電子信息與電氣工程學(xué)院 上海 200240)
洋蔥路由(The onion route,Tor)通過采用不定數(shù)量節(jié)點(diǎn)、不定路由建立通信鏈路,并且在通信過程對(duì)通信數(shù)據(jù)進(jìn)行層層加密,使得每一個(gè)洋蔥節(jié)點(diǎn)只知道自己的前一個(gè)節(jié)點(diǎn)和后一個(gè)節(jié)點(diǎn),從而保證數(shù)據(jù)通信過程的隱蔽、匿名和防溯源等特性[1]。由于Tor暗網(wǎng)的這些特性,里面充斥著許多違法犯罪行為。例如,2019年1月13日,暗網(wǎng)中文論壇Deepmix上一名ID為Itaiwanses的賣家在出售近1.3 GB的中國航空客戶信息數(shù)據(jù)[2],其中包含了用戶的各種敏感信息。文獻(xiàn)[3]指出,2018年是數(shù)據(jù)泄露的灰色之年,而暗網(wǎng)(主要是Tor暗網(wǎng))成為了販賣泄露數(shù)據(jù)的主要渠道。
于浩佳等[4]提出了一種通過Scrapy框架接入Polipo服務(wù)器,再結(jié)合tor瀏覽器進(jìn)入到Tor暗網(wǎng)中的方法,對(duì)Tor暗網(wǎng)網(wǎng)頁進(jìn)行爬取。湯艷君等[5]利用Selenium工具及相關(guān)代理進(jìn)入到Tor暗網(wǎng),對(duì)Tor暗網(wǎng)網(wǎng)頁進(jìn)行爬取。但是以上方法爬取的站點(diǎn)都是簡單的網(wǎng)頁,沒有驗(yàn)證碼機(jī)制,不需要繞過人機(jī)交互,而目前的重要Tor暗網(wǎng)站點(diǎn)基本都采用了驗(yàn)證碼機(jī)制。因此,上述方法都不適合對(duì)現(xiàn)有的重要Tor暗網(wǎng)站點(diǎn)進(jìn)行自動(dòng)化爬取。
研究表明,目前大型的Tor暗網(wǎng)站點(diǎn)都采用了驗(yàn)證碼機(jī)制進(jìn)行人機(jī)交互來抵抗分布式拒絕服務(wù)(DDoS)攻擊和防止爬蟲,特別是交易市場和黑色論壇[6]。針對(duì)目前重要Tor暗網(wǎng)站點(diǎn)的特性,本文通過對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行研究和實(shí)驗(yàn)來實(shí)現(xiàn)對(duì)相關(guān)驗(yàn)證碼進(jìn)行快速有效的識(shí)別,并且將其應(yīng)用到Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集系統(tǒng)中去,實(shí)現(xiàn)自動(dòng)化繞過驗(yàn)證碼檢驗(yàn)機(jī)制后爬取和存儲(chǔ)站點(diǎn)的數(shù)據(jù)信息,從而能夠有力地支撐暗網(wǎng)數(shù)據(jù)提煉、分析和挖掘的后續(xù)工作,對(duì)于監(jiān)控暗網(wǎng)空間資源、獲取威脅情報(bào)信息、感知網(wǎng)絡(luò)安全態(tài)勢具有重大意義。
對(duì)于一個(gè)特定的Tor暗網(wǎng)站點(diǎn),驗(yàn)證碼識(shí)別工作包括樣本收集、樣本標(biāo)記和神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)與訓(xùn)練等工作,最后得到一個(gè)有效的模型。但是鑒于Tor暗網(wǎng)站點(diǎn)的變化是不定的,它的驗(yàn)證碼樣式和存在狀態(tài)是隨時(shí)可能發(fā)生變化,所以每一個(gè)Tor暗網(wǎng)站點(diǎn)的驗(yàn)證碼識(shí)別工作花費(fèi)的時(shí)間不能太長。針對(duì)于Tor暗網(wǎng)站點(diǎn)的這個(gè)特性,本文的最主要研究內(nèi)容為設(shè)計(jì)實(shí)現(xiàn)一個(gè)能夠使用少量驗(yàn)證碼樣本來訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,并且該模型訓(xùn)練完成后能夠快速有效地對(duì)驗(yàn)證碼進(jìn)行識(shí)別。設(shè)計(jì)實(shí)現(xiàn)Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集系統(tǒng)來實(shí)時(shí)、準(zhǔn)確地采集相應(yīng)站點(diǎn)的數(shù)據(jù)信息是另一項(xiàng)研究內(nèi)容。最后將驗(yàn)證碼快速識(shí)別模型應(yīng)用到Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集系統(tǒng),實(shí)現(xiàn)一套自動(dòng)化的Tor暗網(wǎng)站點(diǎn)數(shù)據(jù)采集系統(tǒng)。
實(shí)際調(diào)查表明,基本所有的重要Tor暗網(wǎng)站點(diǎn)所采取的驗(yàn)證碼機(jī)制是由數(shù)字或者英文字母或者兩者混合組成的文本驗(yàn)證碼。程舟航[7]提出了一種端到端的文本驗(yàn)證碼識(shí)別方法,結(jié)合CNN、RNN和Attention機(jī)制設(shè)計(jì)實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)模型,通過使用大量標(biāo)記好的樣本進(jìn)行訓(xùn)練得到了一個(gè)識(shí)別準(zhǔn)確率可觀的驗(yàn)證碼識(shí)別模型。文獻(xiàn)[8]提出了一種基于生成式對(duì)抗網(wǎng)絡(luò)(GAN)的驗(yàn)證碼識(shí)別模型,通過使用一定量的樣本訓(xùn)練一個(gè)能夠生成與樣本非常相似的驗(yàn)證碼的GAN模型,然后通過GAN模型自動(dòng)生成大量樣本來訓(xùn)練一個(gè)CNN網(wǎng)絡(luò),再用一定量的原始驗(yàn)證碼進(jìn)一步訓(xùn)練來修正這個(gè)CNN網(wǎng)絡(luò),最后能夠得到一個(gè)識(shí)別準(zhǔn)確率可觀的驗(yàn)證碼識(shí)別模型。但是上述第一種研究方法需要大量的樣本和一定的機(jī)器資源,第二種方法需要一定量的樣本、足夠的機(jī)器資源及多次的實(shí)驗(yàn),因此都需要花費(fèi)大量的時(shí)間,不適合Tor暗網(wǎng)站點(diǎn)數(shù)據(jù)采集中的驗(yàn)證碼識(shí)別工作。
結(jié)合文獻(xiàn)閱讀和相關(guān)實(shí)驗(yàn),本文提出了一種結(jié)合CNN網(wǎng)絡(luò)、門控循環(huán)單元(GRU)網(wǎng)絡(luò)及ctc(Connectionist Temporal Classification)loss的神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)結(jié)果表明該模型能夠在使用少量驗(yàn)證碼樣本進(jìn)行訓(xùn)練的情況下達(dá)到可觀的識(shí)別準(zhǔn)確率。該網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖1所示。
圖1 網(wǎng)絡(luò)模型整體結(jié)構(gòu)圖
在整個(gè)神經(jīng)網(wǎng)絡(luò)模型中,CNN網(wǎng)絡(luò)模塊的作用是從驗(yàn)證碼圖片中提取特征,將每一幅驗(yàn)證碼圖片轉(zhuǎn)化為相應(yīng)維度的特征值。
本文在設(shè)計(jì)CNN網(wǎng)絡(luò)模塊時(shí)借鑒了VGG[9]分類模型,整個(gè)CNN網(wǎng)絡(luò)模塊由五層子模塊串聯(lián)而成,每一層子模塊包含了兩層卷積層和一層池化層,卷積層中包括了卷積操作、批量正則化操作,并且使用了ReLU函數(shù)作為激活函數(shù);池化層的參數(shù)需要根據(jù)驗(yàn)證碼圖片的寬度來設(shè)計(jì),要使得經(jīng)過CNN網(wǎng)絡(luò)模塊提取的特征再經(jīng)過GRU網(wǎng)絡(luò)模塊后得到的時(shí)序特征長度不能太長。每層子模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
GRU網(wǎng)絡(luò)模塊首先將CNN網(wǎng)絡(luò)模塊提取的特征轉(zhuǎn)化為時(shí)序特征,再對(duì)得到的時(shí)序特征進(jìn)行預(yù)測,計(jì)算出一個(gè)時(shí)序特征預(yù)測值,這個(gè)值的長度要大于樣本標(biāo)簽值的最長長度。
本文設(shè)計(jì)的GRU網(wǎng)絡(luò)模塊由置換層、時(shí)序平滑層、兩層GRU層及Dense層組成,其中置換層可以改變特征維度的順序,本文的GRU網(wǎng)絡(luò)模塊中通過置換層將第一維的特征與第二維的特征交換順序;時(shí)序平滑層將特征轉(zhuǎn)化為時(shí)序特征;GRU層是一種特殊的RNN層,在原本的RNN層的基礎(chǔ)上引入重置門和更新門,從而能夠有效避免訓(xùn)練過程中參數(shù)消失和參數(shù)爆炸的情況;Dense層對(duì)經(jīng)過GRU層得到的特征進(jìn)行分類計(jì)算出一個(gè)長度為時(shí)序特征長度的預(yù)測值,這個(gè)長度大于樣本標(biāo)簽值的最長長度。GRU網(wǎng)絡(luò)模塊的結(jié)構(gòu)如圖3所示。
圖3 GRU網(wǎng)絡(luò)模塊結(jié)構(gòu)圖
假設(shè)樣本標(biāo)簽的取值空間為Z={z1,z2,…,zn},樣本標(biāo)簽的最大長度為m。經(jīng)過上述的CNN網(wǎng)絡(luò)模塊和GRU網(wǎng)絡(luò)模塊(Dense層之前),一幅驗(yàn)證碼圖片就變成了X=[x1,x2,…,xT]的時(shí)序特征,其中T表示時(shí)序長度,xi(0
ctc loss在原來的樣本標(biāo)簽取值空間中加入了空符號(hào),即變?yōu)閆={z1,z2,…,zn,_},其中_表示空符號(hào)。因?yàn)閏tc loss的輸入值長度大于輸出值,所以會(huì)有多個(gè)輸入值映射到一個(gè)輸出值,映射的規(guī)則為連續(xù)的重復(fù)符號(hào)只保留一個(gè),空符號(hào)去掉,這里稱每一個(gè)映射為一條路徑。對(duì)于t時(shí)刻,預(yù)測值為at(at∈Z)的概率為P(at|||xt),所以時(shí)序特征的預(yù)測值為A=[a1,a2,…,aT]的概率,如式(1)所示。
(1)
令A(yù)y表示所有能夠映射到樣本標(biāo)簽值的時(shí)序特征預(yù)測值的集合,則預(yù)測后映射能夠得到正確的樣本標(biāo)簽Y的概率值如式(2)所示。
(2)
訓(xùn)練過程中ctc loss的損失函數(shù)則為式(2)所示的概率值的負(fù)對(duì)數(shù)。但是隨著時(shí)序長度T的增加,能夠映射到樣本標(biāo)簽值的路徑個(gè)數(shù)呈指數(shù)增長,ctc loss在計(jì)算過程中沒有使用窮舉法計(jì)算所有路徑,而是借鑒了隱馬爾可夫模型(HMM)中的前向后向動(dòng)態(tài)規(guī)劃算法[11],動(dòng)態(tài)地計(jì)算式(2)中的值。假設(shè)樣本標(biāo)簽值為AUUW,計(jì)算時(shí)首先在這個(gè)標(biāo)簽的前后及兩兩字符之間插入空字符變?yōu)開A_U_U_W_,令rt(s)表示t時(shí)刻預(yù)測的符號(hào)為擴(kuò)展序列(_A_U_U_W_)的第s個(gè)符號(hào),且到t時(shí)刻為止預(yù)測路徑是正確路徑的前綴的概率,則可以動(dòng)態(tài)地計(jì)算rt(s)。如圖4所示,通過前向概率動(dòng)態(tài)計(jì)算rt(s)分為三種情況(通過后向概率計(jì)算類似)。
圖4 ctc loss動(dòng)態(tài)計(jì)算圖
第一種情況,第s個(gè)符號(hào)為空白符號(hào),如圖4中的情況1所示,此時(shí)t=3,s=3,則t=2時(shí)只能是圖4中圓圈1所標(biāo)記的兩種可能,所以r3(3)=(r2(3)+r2(2))×P_(3),其中P_(3)表示t=3時(shí)預(yù)測為空白符號(hào)的概率。
第二種情況,第s個(gè)符號(hào)等于第s-2個(gè)符號(hào),如圖4中的情況2所示,此時(shí)t=5,s=6,則t=4時(shí)只能是圖4中圓圈2所標(biāo)記的兩種可能,所以r5(6)=(r4(6)+r4(5))×PU(5),其中PU(5)表示t=5時(shí)刻預(yù)測為符號(hào)U的概率。
第三種情況為其他情況,即不屬于上述兩種情況,如圖4中情況3所示,此時(shí)t=4,s=4,則t=3時(shí)只有圖4中圓圈3標(biāo)記的三種可能,所以可得r4(4)=(r3(4)+r3(3)+r3(2))×PU(4),其中PU(4)表示t=4時(shí)刻預(yù)測為符號(hào)U的概率。
所以可以利用動(dòng)態(tài)規(guī)劃算法計(jì)算rt(s),其中seq表示擴(kuò)展后的序列(示例為_A_U_U_W_),seq(s)表示seq序列中的第s個(gè)字符。
(1) 初始條件r1(1)=P_(1),r1(2)=Pseq(2)(1),r1(s)=0,其中s>2。
(2) seq(s)為空字符或者seq(s)=seq(s-2),如式(3)所示。
rt(s)=(rt-1(s)+rt-1(s-1))×Pseq(s)(t)
(3)
(3) 其他情況如式(4)所示。
rt(s)=(rt-1(s)+rt-1(s-1)+rt-1(s-2))×
Pseq(s)(t)
(4)
則式(2)中的P(Y|||X)=rT(L),其中L表示seq的長度。
對(duì)于上述的神經(jīng)網(wǎng)絡(luò)模型,本文在實(shí)際過程中對(duì)18個(gè)重要Tor暗網(wǎng)站點(diǎn)進(jìn)行測試,其中大部分為售賣違法商品的Tor暗網(wǎng)交易市場,還有幾個(gè)Tor暗網(wǎng)黑色論壇。所測試的Tor暗網(wǎng)站點(diǎn)有部分目前已經(jīng)被關(guān)掉了,這也說明了自動(dòng)化的Tor暗網(wǎng)數(shù)據(jù)采集工作中快速識(shí)別驗(yàn)證碼的重要性。
本文設(shè)計(jì)的所有驗(yàn)證碼識(shí)別模型在訓(xùn)練過程中所使用的機(jī)器配置為Intel Core i5 2.3 GHz四核,8 GB內(nèi)存,macOS Mojave系統(tǒng)。
測試過程中,對(duì)所有測試了的Tor暗網(wǎng)站點(diǎn)收集的樣本量均為1 000到4 000之間,所收集的驗(yàn)證碼樣本數(shù)量與該Tor暗網(wǎng)站點(diǎn)的驗(yàn)證碼復(fù)雜性有關(guān)。在模型訓(xùn)練之前,把對(duì)每一個(gè)Tor暗網(wǎng)站點(diǎn)收集的驗(yàn)證碼樣本分成三部分,一部分作為訓(xùn)練集,一部分作為訓(xùn)練過程的驗(yàn)證集,一部分作為測試訓(xùn)練完成后的模型的試驗(yàn)集來計(jì)算該模型的識(shí)別準(zhǔn)確率。
所有進(jìn)行測試的Tor暗網(wǎng)站點(diǎn)的模型測試結(jié)果及相關(guān)測試信息如表1所示。
表1 Tor暗網(wǎng)站點(diǎn)的模型測試結(jié)果
如表1所示,本文所設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型在少量驗(yàn)證碼樣本的訓(xùn)練下能夠獲得較高的識(shí)別準(zhǔn)確率,全部站點(diǎn)都在60%以上,大部分站點(diǎn)在80%以上,甚至有的達(dá)到了90%以上。實(shí)際上,在Tor暗網(wǎng)的數(shù)據(jù)采集過程中,數(shù)據(jù)采集插件是可以進(jìn)行多次的驗(yàn)證碼識(shí)別和登錄嘗試,而其中只要成功一次即可。因此本文也針對(duì)每個(gè)重要Tor暗網(wǎng)站點(diǎn),分別統(tǒng)計(jì)了在三次嘗試以內(nèi)至少能夠成功一次的概率,結(jié)果表明絕大部分站點(diǎn)都在98%以上,而若干驗(yàn)證碼樣式比較復(fù)雜的Tor暗網(wǎng)站點(diǎn)也均在90%以上。因此,測試結(jié)果表明,將本文所提出的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用在重要Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集工作中,就能夠進(jìn)行自動(dòng)的數(shù)據(jù)采集,而不是像以前需要人為干預(yù)。由于目前業(yè)界尚沒有和本文類似的研究工作公開發(fā)表,基本上都還只是針對(duì)無驗(yàn)證碼機(jī)制的簡單Tor暗網(wǎng)頁面進(jìn)行的數(shù)據(jù)采集,因此本文沒有也無須進(jìn)行相關(guān)的功能和性能比較。這同時(shí)也表明本文在暗網(wǎng)空間資源監(jiān)測領(lǐng)域獲得了突破性的進(jìn)展,具有較重大的意義。
該神經(jīng)網(wǎng)絡(luò)模型通過CNN網(wǎng)絡(luò)模塊和GRU網(wǎng)絡(luò)模型得到一個(gè)比樣本標(biāo)簽值更長的時(shí)序特征預(yù)測值,該預(yù)測值中能夠包含空白符號(hào),這相當(dāng)于在特征層面對(duì)原有的驗(yàn)證碼進(jìn)行了切割,從而對(duì)每一個(gè)切割的部分進(jìn)行識(shí)別,再通過ctc loss計(jì)算整體預(yù)測值的損失函數(shù)反饋給模型進(jìn)行訓(xùn)練,這是該神經(jīng)網(wǎng)絡(luò)模型在少量驗(yàn)證碼樣本的訓(xùn)練下就能夠得到一個(gè)識(shí)別準(zhǔn)確率較高的識(shí)別模型的重要原因。
Tor暗網(wǎng)數(shù)據(jù)采集系統(tǒng)主要由三部分組成,分別是Tor內(nèi)核傳輸模塊、數(shù)據(jù)采集模塊和數(shù)據(jù)存儲(chǔ)模塊,其中數(shù)據(jù)采集模塊是整個(gè)系統(tǒng)的核心模塊,結(jié)合使用了本文實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行自動(dòng)登錄采集數(shù)據(jù),整個(gè)系統(tǒng)的結(jié)構(gòu)如圖5所示。
圖5 Tor暗網(wǎng)數(shù)據(jù)采集系統(tǒng)結(jié)構(gòu)圖
Tor內(nèi)核傳輸模塊使用Tor官方提供的tor軟件,該軟件可以提供一個(gè)能夠進(jìn)入到Tor暗網(wǎng)空間的socks代理。但是本文設(shè)計(jì)的數(shù)據(jù)采集插件對(duì)于socks代理的支持不穩(wěn)定,因此本文使用了polipo服務(wù)器將socks代理轉(zhuǎn)化為https代理,更穩(wěn)定地支持?jǐn)?shù)據(jù)采集插件的使用。本文參考文獻(xiàn)[12]中Tor暗網(wǎng)空間資源探測的工作中的Tor提速手段,修改tor軟件配置文件中的節(jié)點(diǎn)為平均節(jié)點(diǎn)速度高的國家的節(jié)點(diǎn),提高數(shù)據(jù)采集模塊的采集速度。
數(shù)據(jù)采集模塊將數(shù)據(jù)采集插件與本文實(shí)現(xiàn)的驗(yàn)證碼快速識(shí)別模型結(jié)合起來,從而解決數(shù)據(jù)采集插件遇到驗(yàn)證碼無法自動(dòng)識(shí)別后進(jìn)行登錄的技術(shù)難題,實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)采集。
3.2.1數(shù)據(jù)采集插件
數(shù)據(jù)采集插件使用Scrapy爬蟲框架設(shè)計(jì)實(shí)現(xiàn),實(shí)現(xiàn)采集插件中最關(guān)鍵的兩點(diǎn)是抵御相應(yīng)Tor暗網(wǎng)站點(diǎn)的反爬措施及數(shù)據(jù)的去重增量爬取。本文通過控制數(shù)據(jù)爬取的速率與頻率來抵御相應(yīng)Tor暗網(wǎng)網(wǎng)站的反爬措施,并且設(shè)計(jì)為被反爬措施檢測到進(jìn)行人機(jī)交互挑戰(zhàn)后數(shù)據(jù)采集插件從之前停止的地方繼續(xù)重新爬取。對(duì)于去重增量爬取,數(shù)據(jù)量大的Tor暗網(wǎng)站點(diǎn)采用Bloomfilter去重,數(shù)據(jù)量較小的Tor暗網(wǎng)站點(diǎn)則直接在數(shù)據(jù)庫中查詢進(jìn)行去重。
文獻(xiàn)[13]指出,Bloomfilter是一種使用很長的比特串記錄目標(biāo)是否出現(xiàn)過的技術(shù),其中比特位為1表示記錄為出現(xiàn)過,0表示記錄為未出現(xiàn)。最初的比特串全為0,判斷過程中使用多個(gè)Hash函數(shù)將目標(biāo)內(nèi)容映射為多個(gè)數(shù)字用來表示在比特串中的索引,如果這些索引處全為1則表示該目標(biāo)出現(xiàn)過,否則目標(biāo)未出現(xiàn)過則處理目標(biāo)并且將這些索引處全置為1。因此,使用Bloomfilter技術(shù)在爬取時(shí)進(jìn)行去重能夠極大地減少內(nèi)存的使用,節(jié)省資源。
3.2.2驗(yàn)證碼識(shí)別模型應(yīng)用
在數(shù)據(jù)采集模塊中,本文通過使用Python的Flask框架將所有訓(xùn)練好的驗(yàn)證碼識(shí)別模型整合成一個(gè)Web系統(tǒng),為每一個(gè)Tor暗網(wǎng)站點(diǎn)提供一個(gè)特定的Web API來自動(dòng)識(shí)別驗(yàn)證碼并且返回結(jié)果。爬取過程中識(shí)別相應(yīng)驗(yàn)證碼然后進(jìn)行自動(dòng)登錄的流程如圖6所示。
圖6 Tor暗網(wǎng)站點(diǎn)自動(dòng)登錄流程圖
當(dāng)數(shù)據(jù)采集插件遇到登錄頁面時(shí),首先將登錄頁面的驗(yàn)證碼圖片爬取下來,通過相應(yīng)的Web API調(diào)用相應(yīng)模型識(shí)別該驗(yàn)證碼圖片并且將識(shí)別結(jié)果返回給數(shù)據(jù)采集插件,插件利用識(shí)別結(jié)果嘗試登錄,再根據(jù)登錄后的頁面判斷是否登錄成功,如果登錄成功則進(jìn)一步爬取數(shù)據(jù),登錄失敗則重新爬取登錄頁面的驗(yàn)證碼。重復(fù)進(jìn)行上述的工作直至登錄成功。在實(shí)際數(shù)據(jù)采集工作中,結(jié)果表明所有采集的重要Tor暗網(wǎng)站點(diǎn)基本嘗試三次以內(nèi)的登錄流程后就能夠登錄成功。另外,測試結(jié)果表明登錄過程調(diào)用Web API識(shí)別驗(yàn)證碼每次所消耗的時(shí)間都在5秒以內(nèi)。
本文使用MongoDB作為數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫,MongoDB數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)時(shí)不會(huì)固定于一種數(shù)據(jù)格式,因此能夠使得數(shù)據(jù)爬取過程中更具有伸縮性。另外,本文通過搭建一個(gè)MongoDB集群而不是使用單一的MongoDB節(jié)點(diǎn)進(jìn)行數(shù)據(jù)存儲(chǔ),MongoDB集群由多個(gè)MongoDB節(jié)點(diǎn)組成,其中一個(gè)為主節(jié)點(diǎn),剩余的節(jié)點(diǎn)全為從節(jié)點(diǎn),存儲(chǔ)過程中先將數(shù)據(jù)存儲(chǔ)在主節(jié)點(diǎn)然后備份到各個(gè)從節(jié)點(diǎn),當(dāng)主節(jié)點(diǎn)出現(xiàn)不可預(yù)估的故障時(shí),MongoDB集群剩余的從節(jié)點(diǎn)會(huì)通過選舉方式選出一個(gè)節(jié)點(diǎn)替代原先的主節(jié)點(diǎn)繼續(xù)數(shù)據(jù)存儲(chǔ)工作,能夠提高數(shù)據(jù)存儲(chǔ)模塊的魯棒性。
Tor暗網(wǎng)數(shù)據(jù)采集系統(tǒng)使用機(jī)器的配置為Intel Xeon Bronze 1.7 GHz 12核,64 GB內(nèi)存,4 TB硬盤,Centos7系統(tǒng),帶寬100 MB。
到目前為止,該系統(tǒng)已經(jīng)運(yùn)行長達(dá)近一年,實(shí)際結(jié)果證明該系統(tǒng)能夠自動(dòng)、準(zhǔn)確、快速地采集重要Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)信息。爬取的Tor暗網(wǎng)重要站點(diǎn)分為Tor暗網(wǎng)交易市場和Tor暗網(wǎng)黑色論壇,系統(tǒng)采集的交易市場實(shí)際數(shù)據(jù)如表2所示,采集的黑色論壇的實(shí)際數(shù)據(jù)如表3所示。
表2 暗網(wǎng)交易市場數(shù)據(jù)采集結(jié)果表
續(xù)表2
表3 Tor暗網(wǎng)黑色論壇數(shù)據(jù)采集結(jié)果表
本文的研究重點(diǎn)放在Tor暗網(wǎng)交易市場的數(shù)據(jù)采集上,因此表2中的市場數(shù)據(jù)比表3的論壇數(shù)據(jù)要大。此外,表2市場中的商品數(shù)量這一數(shù)據(jù)比這些市場上實(shí)時(shí)發(fā)布的數(shù)據(jù)量要大,這是因?yàn)門or暗網(wǎng)交易市場中的商品存在更新和下架,系統(tǒng)采集的數(shù)據(jù)長期積累使得該數(shù)據(jù)量大于市場實(shí)時(shí)發(fā)布的數(shù)據(jù)量。系統(tǒng)實(shí)際運(yùn)行的結(jié)果充分證明本文所設(shè)計(jì)的Tor暗網(wǎng)數(shù)據(jù)采集系統(tǒng)能夠自動(dòng)、準(zhǔn)確、快速地采集Tor暗網(wǎng)重要站點(diǎn)的數(shù)據(jù)信息。
隨著數(shù)字貨幣的出現(xiàn)和快速發(fā)展,暗網(wǎng)上的各種違法行為愈來愈多,Tor暗網(wǎng)上違法泄露數(shù)據(jù)交易事件也逐年增多。為了及時(shí)采集Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)信息,從而進(jìn)一步監(jiān)控暗網(wǎng)空間資源,本文提出了數(shù)據(jù)采集模塊通過Tor內(nèi)核傳輸模塊進(jìn)入到Tor暗網(wǎng)空間實(shí)時(shí)采集數(shù)據(jù)信息的方法。但是隨著Tor暗網(wǎng)站點(diǎn)的發(fā)展,特別是為了抵御DDoS攻擊和防止爬蟲,重要Tor暗網(wǎng)站點(diǎn)都使用了驗(yàn)證碼機(jī)制來進(jìn)行人機(jī)交互。學(xué)者們目前普遍使用CNN、RNN網(wǎng)絡(luò)來對(duì)驗(yàn)證碼進(jìn)行端到端的識(shí)別,但是這種方法需要大量標(biāo)記好的驗(yàn)證碼樣本來訓(xùn)練模型,這對(duì)于Tor暗網(wǎng)站點(diǎn)地?cái)?shù)據(jù)采集工作是不合適的。Tor暗網(wǎng)的變化是頻繁和不定的,需要能夠快速簡便地得到一個(gè)Tor暗網(wǎng)站點(diǎn)的驗(yàn)證碼識(shí)別模型,同時(shí)需要的訓(xùn)練樣本要盡可能少。因此本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)神經(jīng)網(wǎng)絡(luò)模型,通過CNN網(wǎng)絡(luò)模塊提取驗(yàn)證碼圖片的特征,再通過GRU網(wǎng)絡(luò)模塊將提取到的特征轉(zhuǎn)化為時(shí)序特征并且得到一個(gè)時(shí)序特征預(yù)測值,網(wǎng)絡(luò)模型使用ctc loss對(duì)時(shí)序特征預(yù)測值和樣本標(biāo)簽值進(jìn)行比較計(jì)算得到損失函數(shù)反饋給模型,不斷訓(xùn)練得到一個(gè)有效的驗(yàn)證碼識(shí)別模型。這個(gè)神經(jīng)網(wǎng)絡(luò)模型在使用少量驗(yàn)證碼樣本訓(xùn)練的情況下能夠達(dá)到一個(gè)可觀的驗(yàn)證碼識(shí)別準(zhǔn)確率,這是因?yàn)橥ㄟ^利用GRU網(wǎng)絡(luò)得到時(shí)序特征,并且在訓(xùn)練過程中使用ctc loss進(jìn)行計(jì)算,相當(dāng)于在特征層面對(duì)驗(yàn)證碼進(jìn)行了切割,每一個(gè)時(shí)刻的特征像相當(dāng)于切割的一部分,從而相當(dāng)于對(duì)每個(gè)單字符進(jìn)行識(shí)別,而單字符的識(shí)別所需要的樣本是少量的。最后將該神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集系統(tǒng)中,結(jié)果表明該系統(tǒng)能夠自動(dòng)、準(zhǔn)確、快速地采集Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)信息,對(duì)于監(jiān)控暗網(wǎng)空間資源、獲取威脅情報(bào)信息、感知網(wǎng)絡(luò)安全態(tài)勢具有重大意義。