重要Tor暗網(wǎng)站點(diǎn)的驗(yàn)證碼快速識(shí)別和數(shù)據(jù)采集

2022-08-10 08:12王軼駿

計(jì)算機(jī)應(yīng)用與軟件 2022年7期

關(guān)鍵詞：暗網(wǎng)時(shí)序神經(jīng)網(wǎng)絡(luò)

龍軍王軼駿薛質(zhì)

(上海交通大學(xué)電子信息與電氣工程學(xué)院上海 200240)

0 引言

洋蔥路由(The onion route，Tor)通過采用不定數(shù)量節(jié)點(diǎn)、不定路由建立通信鏈路，并且在通信過程對(duì)通信數(shù)據(jù)進(jìn)行層層加密，使得每一個(gè)洋蔥節(jié)點(diǎn)只知道自己的前一個(gè)節(jié)點(diǎn)和后一個(gè)節(jié)點(diǎn)，從而保證數(shù)據(jù)通信過程的隱蔽、匿名和防溯源等特性[1]。由于Tor暗網(wǎng)的這些特性，里面充斥著許多違法犯罪行為。例如，2019年1月13日，暗網(wǎng)中文論壇Deepmix上一名ID為Itaiwanses的賣家在出售近1.3 GB的中國航空客戶信息數(shù)據(jù)[2]，其中包含了用戶的各種敏感信息。文獻(xiàn)[3]指出，2018年是數(shù)據(jù)泄露的灰色之年，而暗網(wǎng)(主要是Tor暗網(wǎng))成為了販賣泄露數(shù)據(jù)的主要渠道。

于浩佳等[4]提出了一種通過Scrapy框架接入Polipo服務(wù)器，再結(jié)合tor瀏覽器進(jìn)入到Tor暗網(wǎng)中的方法，對(duì)Tor暗網(wǎng)網(wǎng)頁進(jìn)行爬取。湯艷君等[5]利用Selenium工具及相關(guān)代理進(jìn)入到Tor暗網(wǎng)，對(duì)Tor暗網(wǎng)網(wǎng)頁進(jìn)行爬取。但是以上方法爬取的站點(diǎn)都是簡單的網(wǎng)頁，沒有驗(yàn)證碼機(jī)制，不需要繞過人機(jī)交互，而目前的重要Tor暗網(wǎng)站點(diǎn)基本都采用了驗(yàn)證碼機(jī)制。因此，上述方法都不適合對(duì)現(xiàn)有的重要Tor暗網(wǎng)站點(diǎn)進(jìn)行自動(dòng)化爬取。

研究表明，目前大型的Tor暗網(wǎng)站點(diǎn)都采用了驗(yàn)證碼機(jī)制進(jìn)行人機(jī)交互來抵抗分布式拒絕服務(wù)(DDoS)攻擊和防止爬蟲，特別是交易市場和黑色論壇[6]。針對(duì)目前重要Tor暗網(wǎng)站點(diǎn)的特性，本文通過對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行研究和實(shí)驗(yàn)來實(shí)現(xiàn)對(duì)相關(guān)驗(yàn)證碼進(jìn)行快速有效的識(shí)別，并且將其應(yīng)用到Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集系統(tǒng)中去，實(shí)現(xiàn)自動(dòng)化繞過驗(yàn)證碼檢驗(yàn)機(jī)制后爬取和存儲(chǔ)站點(diǎn)的數(shù)據(jù)信息，從而能夠有力地支撐暗網(wǎng)數(shù)據(jù)提煉、分析和挖掘的后續(xù)工作，對(duì)于監(jiān)控暗網(wǎng)空間資源、獲取威脅情報(bào)信息、感知網(wǎng)絡(luò)安全態(tài)勢具有重大意義。

對(duì)于一個(gè)特定的Tor暗網(wǎng)站點(diǎn)，驗(yàn)證碼識(shí)別工作包括樣本收集、樣本標(biāo)記和神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)與訓(xùn)練等工作，最后得到一個(gè)有效的模型。但是鑒于Tor暗網(wǎng)站點(diǎn)的變化是不定的，它的驗(yàn)證碼樣式和存在狀態(tài)是隨時(shí)可能發(fā)生變化，所以每一個(gè)Tor暗網(wǎng)站點(diǎn)的驗(yàn)證碼識(shí)別工作花費(fèi)的時(shí)間不能太長。針對(duì)于Tor暗網(wǎng)站點(diǎn)的這個(gè)特性，本文的最主要研究內(nèi)容為設(shè)計(jì)實(shí)現(xiàn)一個(gè)能夠使用少量驗(yàn)證碼樣本來訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型，并且該模型訓(xùn)練完成后能夠快速有效地對(duì)驗(yàn)證碼進(jìn)行識(shí)別。設(shè)計(jì)實(shí)現(xiàn)Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集系統(tǒng)來實(shí)時(shí)、準(zhǔn)確地采集相應(yīng)站點(diǎn)的數(shù)據(jù)信息是另一項(xiàng)研究內(nèi)容。最后將驗(yàn)證碼快速識(shí)別模型應(yīng)用到Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集系統(tǒng)，實(shí)現(xiàn)一套自動(dòng)化的Tor暗網(wǎng)站點(diǎn)數(shù)據(jù)采集系統(tǒng)。

1 神經(jīng)網(wǎng)絡(luò)模型

實(shí)際調(diào)查表明，基本所有的重要Tor暗網(wǎng)站點(diǎn)所采取的驗(yàn)證碼機(jī)制是由數(shù)字或者英文字母或者兩者混合組成的文本驗(yàn)證碼。程舟航[7]提出了一種端到端的文本驗(yàn)證碼識(shí)別方法，結(jié)合CNN、RNN和Attention機(jī)制設(shè)計(jì)實(shí)現(xiàn)一個(gè)神經(jīng)網(wǎng)絡(luò)模型，通過使用大量標(biāo)記好的樣本進(jìn)行訓(xùn)練得到了一個(gè)識(shí)別準(zhǔn)確率可觀的驗(yàn)證碼識(shí)別模型。文獻(xiàn)[8]提出了一種基于生成式對(duì)抗網(wǎng)絡(luò)(GAN)的驗(yàn)證碼識(shí)別模型，通過使用一定量的樣本訓(xùn)練一個(gè)能夠生成與樣本非常相似的驗(yàn)證碼的GAN模型，然后通過GAN模型自動(dòng)生成大量樣本來訓(xùn)練一個(gè)CNN網(wǎng)絡(luò)，再用一定量的原始驗(yàn)證碼進(jìn)一步訓(xùn)練來修正這個(gè)CNN網(wǎng)絡(luò)，最后能夠得到一個(gè)識(shí)別準(zhǔn)確率可觀的驗(yàn)證碼識(shí)別模型。但是上述第一種研究方法需要大量的樣本和一定的機(jī)器資源，第二種方法需要一定量的樣本、足夠的機(jī)器資源及多次的實(shí)驗(yàn)，因此都需要花費(fèi)大量的時(shí)間，不適合Tor暗網(wǎng)站點(diǎn)數(shù)據(jù)采集中的驗(yàn)證碼識(shí)別工作。

結(jié)合文獻(xiàn)閱讀和相關(guān)實(shí)驗(yàn)，本文提出了一種結(jié)合CNN網(wǎng)絡(luò)、門控循環(huán)單元(GRU)網(wǎng)絡(luò)及ctc(Connectionist Temporal Classification)loss的神經(jīng)網(wǎng)絡(luò)模型，實(shí)驗(yàn)結(jié)果表明該模型能夠在使用少量驗(yàn)證碼樣本進(jìn)行訓(xùn)練的情況下達(dá)到可觀的識(shí)別準(zhǔn)確率。該網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖1所示。

圖1 網(wǎng)絡(luò)模型整體結(jié)構(gòu)圖

1.1 CNN網(wǎng)絡(luò)模塊

在整個(gè)神經(jīng)網(wǎng)絡(luò)模型中，CNN網(wǎng)絡(luò)模塊的作用是從驗(yàn)證碼圖片中提取特征，將每一幅驗(yàn)證碼圖片轉(zhuǎn)化為相應(yīng)維度的特征值。

本文在設(shè)計(jì)CNN網(wǎng)絡(luò)模塊時(shí)借鑒了VGG[9]分類模型，整個(gè)CNN網(wǎng)絡(luò)模塊由五層子模塊串聯(lián)而成，每一層子模塊包含了兩層卷積層和一層池化層，卷積層中包括了卷積操作、批量正則化操作，并且使用了ReLU函數(shù)作為激活函數(shù)；池化層的參數(shù)需要根據(jù)驗(yàn)證碼圖片的寬度來設(shè)計(jì)，要使得經(jīng)過CNN網(wǎng)絡(luò)模塊提取的特征再經(jīng)過GRU網(wǎng)絡(luò)模塊后得到的時(shí)序特征長度不能太長。每層子模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

1.2 GRU網(wǎng)絡(luò)模塊

GRU網(wǎng)絡(luò)模塊首先將CNN網(wǎng)絡(luò)模塊提取的特征轉(zhuǎn)化為時(shí)序特征，再對(duì)得到的時(shí)序特征進(jìn)行預(yù)測，計(jì)算出一個(gè)時(shí)序特征預(yù)測值，這個(gè)值的長度要大于樣本標(biāo)簽值的最長長度。

本文設(shè)計(jì)的GRU網(wǎng)絡(luò)模塊由置換層、時(shí)序平滑層、兩層GRU層及Dense層組成，其中置換層可以改變特征維度的順序，本文的GRU網(wǎng)絡(luò)模塊中通過置換層將第一維的特征與第二維的特征交換順序；時(shí)序平滑層將特征轉(zhuǎn)化為時(shí)序特征；GRU層是一種特殊的RNN層，在原本的RNN層的基礎(chǔ)上引入重置門和更新門，從而能夠有效避免訓(xùn)練過程中參數(shù)消失和參數(shù)爆炸的情況；Dense層對(duì)經(jīng)過GRU層得到的特征進(jìn)行分類計(jì)算出一個(gè)長度為時(shí)序特征長度的預(yù)測值，這個(gè)長度大于樣本標(biāo)簽值的最長長度。GRU網(wǎng)絡(luò)模塊的結(jié)構(gòu)如圖3所示。

圖3 GRU網(wǎng)絡(luò)模塊結(jié)構(gòu)圖

1.3 損失函數(shù)ctc loss

假設(shè)樣本標(biāo)簽的取值空間為Z={z1,z2,…,zn}，樣本標(biāo)簽的最大長度為m。經(jīng)過上述的CNN網(wǎng)絡(luò)模塊和GRU網(wǎng)絡(luò)模塊(Dense層之前)，一幅驗(yàn)證碼圖片就變成了X=[x1,x2,…,xT]的時(shí)序特征，其中T表示時(shí)序長度，xi(0

ctc loss在原來的樣本標(biāo)簽取值空間中加入了空符號(hào)，即變?yōu)閆={z1,z2,…,zn,_}，其中_表示空符號(hào)。因?yàn)閏tc loss的輸入值長度大于輸出值，所以會(huì)有多個(gè)輸入值映射到一個(gè)輸出值，映射的規(guī)則為連續(xù)的重復(fù)符號(hào)只保留一個(gè)，空符號(hào)去掉，這里稱每一個(gè)映射為一條路徑。對(duì)于t時(shí)刻，預(yù)測值為at(at∈Z)的概率為P(at|||xt)，所以時(shí)序特征的預(yù)測值為A=[a1,a2,…,aT]的概率，如式(1)所示。

(1)

令A(yù)y表示所有能夠映射到樣本標(biāo)簽值的時(shí)序特征預(yù)測值的集合，則預(yù)測后映射能夠得到正確的樣本標(biāo)簽Y的概率值如式(2)所示。

(2)

訓(xùn)練過程中ctc loss的損失函數(shù)則為式(2)所示的概率值的負(fù)對(duì)數(shù)。但是隨著時(shí)序長度T的增加，能夠映射到樣本標(biāo)簽值的路徑個(gè)數(shù)呈指數(shù)增長，ctc loss在計(jì)算過程中沒有使用窮舉法計(jì)算所有路徑，而是借鑒了隱馬爾可夫模型(HMM)中的前向后向動(dòng)態(tài)規(guī)劃算法[11]，動(dòng)態(tài)地計(jì)算式(2)中的值。假設(shè)樣本標(biāo)簽值為AUUW，計(jì)算時(shí)首先在這個(gè)標(biāo)簽的前后及兩兩字符之間插入空字符變?yōu)開A_U_U_W_，令rt(s)表示t時(shí)刻預(yù)測的符號(hào)為擴(kuò)展序列(_A_U_U_W_)的第s個(gè)符號(hào)，且到t時(shí)刻為止預(yù)測路徑是正確路徑的前綴的概率，則可以動(dòng)態(tài)地計(jì)算rt(s)。如圖4所示，通過前向概率動(dòng)態(tài)計(jì)算rt(s)分為三種情況(通過后向概率計(jì)算類似)。

圖4 ctc loss動(dòng)態(tài)計(jì)算圖

第一種情況，第s個(gè)符號(hào)為空白符號(hào)，如圖4中的情況1所示，此時(shí)t=3，s=3，則t=2時(shí)只能是圖4中圓圈1所標(biāo)記的兩種可能，所以r3(3)=(r2(3)+r2(2))×P_(3)，其中P_(3)表示t=3時(shí)預(yù)測為空白符號(hào)的概率。

第二種情況，第s個(gè)符號(hào)等于第s-2個(gè)符號(hào)，如圖4中的情況2所示，此時(shí)t=5，s=6，則t=4時(shí)只能是圖4中圓圈2所標(biāo)記的兩種可能，所以r5(6)=(r4(6)+r4(5))×PU(5)，其中PU(5)表示t=5時(shí)刻預(yù)測為符號(hào)U的概率。

第三種情況為其他情況，即不屬于上述兩種情況，如圖4中情況3所示，此時(shí)t=4，s=4，則t=3時(shí)只有圖4中圓圈3標(biāo)記的三種可能，所以可得r4(4)=(r3(4)+r3(3)+r3(2))×PU(4)，其中PU(4)表示t=4時(shí)刻預(yù)測為符號(hào)U的概率。

所以可以利用動(dòng)態(tài)規(guī)劃算法計(jì)算rt(s)，其中seq表示擴(kuò)展后的序列(示例為_A_U_U_W_)，seq(s)表示seq序列中的第s個(gè)字符。

(1) 初始條件r1(1)=P_(1)，r1(2)=Pseq(2)(1)，r1(s)=0，其中s>2。

(2) seq(s)為空字符或者seq(s)=seq(s-2)，如式(3)所示。

rt(s)=(rt-1(s)+rt-1(s-1))×Pseq(s)(t)

(3)

(3) 其他情況如式(4)所示。

rt(s)=(rt-1(s)+rt-1(s-1)+rt-1(s-2))×

Pseq(s)(t)

(4)

則式(2)中的P(Y|||X)=rT(L)，其中L表示seq的長度。

2 測試

對(duì)于上述的神經(jīng)網(wǎng)絡(luò)模型，本文在實(shí)際過程中對(duì)18個(gè)重要Tor暗網(wǎng)站點(diǎn)進(jìn)行測試，其中大部分為售賣違法商品的Tor暗網(wǎng)交易市場，還有幾個(gè)Tor暗網(wǎng)黑色論壇。所測試的Tor暗網(wǎng)站點(diǎn)有部分目前已經(jīng)被關(guān)掉了，這也說明了自動(dòng)化的Tor暗網(wǎng)數(shù)據(jù)采集工作中快速識(shí)別驗(yàn)證碼的重要性。

2.1 測試結(jié)果

本文設(shè)計(jì)的所有驗(yàn)證碼識(shí)別模型在訓(xùn)練過程中所使用的機(jī)器配置為Intel Core i5 2.3 GHz四核，8 GB內(nèi)存，macOS Mojave系統(tǒng)。

測試過程中，對(duì)所有測試了的Tor暗網(wǎng)站點(diǎn)收集的樣本量均為1 000到4 000之間，所收集的驗(yàn)證碼樣本數(shù)量與該Tor暗網(wǎng)站點(diǎn)的驗(yàn)證碼復(fù)雜性有關(guān)。在模型訓(xùn)練之前，把對(duì)每一個(gè)Tor暗網(wǎng)站點(diǎn)收集的驗(yàn)證碼樣本分成三部分，一部分作為訓(xùn)練集，一部分作為訓(xùn)練過程的驗(yàn)證集，一部分作為測試訓(xùn)練完成后的模型的試驗(yàn)集來計(jì)算該模型的識(shí)別準(zhǔn)確率。

所有進(jìn)行測試的Tor暗網(wǎng)站點(diǎn)的模型測試結(jié)果及相關(guān)測試信息如表1所示。

表1 Tor暗網(wǎng)站點(diǎn)的模型測試結(jié)果

2.2 結(jié)果分析

如表1所示，本文所設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型在少量驗(yàn)證碼樣本的訓(xùn)練下能夠獲得較高的識(shí)別準(zhǔn)確率，全部站點(diǎn)都在60%以上，大部分站點(diǎn)在80%以上，甚至有的達(dá)到了90%以上。實(shí)際上，在Tor暗網(wǎng)的數(shù)據(jù)采集過程中，數(shù)據(jù)采集插件是可以進(jìn)行多次的驗(yàn)證碼識(shí)別和登錄嘗試，而其中只要成功一次即可。因此本文也針對(duì)每個(gè)重要Tor暗網(wǎng)站點(diǎn)，分別統(tǒng)計(jì)了在三次嘗試以內(nèi)至少能夠成功一次的概率，結(jié)果表明絕大部分站點(diǎn)都在98%以上，而若干驗(yàn)證碼樣式比較復(fù)雜的Tor暗網(wǎng)站點(diǎn)也均在90%以上。因此，測試結(jié)果表明，將本文所提出的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用在重要Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集工作中，就能夠進(jìn)行自動(dòng)的數(shù)據(jù)采集，而不是像以前需要人為干預(yù)。由于目前業(yè)界尚沒有和本文類似的研究工作公開發(fā)表，基本上都還只是針對(duì)無驗(yàn)證碼機(jī)制的簡單Tor暗網(wǎng)頁面進(jìn)行的數(shù)據(jù)采集，因此本文沒有也無須進(jìn)行相關(guān)的功能和性能比較。這同時(shí)也表明本文在暗網(wǎng)空間資源監(jiān)測領(lǐng)域獲得了突破性的進(jìn)展，具有較重大的意義。

該神經(jīng)網(wǎng)絡(luò)模型通過CNN網(wǎng)絡(luò)模塊和GRU網(wǎng)絡(luò)模型得到一個(gè)比樣本標(biāo)簽值更長的時(shí)序特征預(yù)測值，該預(yù)測值中能夠包含空白符號(hào)，這相當(dāng)于在特征層面對(duì)原有的驗(yàn)證碼進(jìn)行了切割，從而對(duì)每一個(gè)切割的部分進(jìn)行識(shí)別，再通過ctc loss計(jì)算整體預(yù)測值的損失函數(shù)反饋給模型進(jìn)行訓(xùn)練，這是該神經(jīng)網(wǎng)絡(luò)模型在少量驗(yàn)證碼樣本的訓(xùn)練下就能夠得到一個(gè)識(shí)別準(zhǔn)確率較高的識(shí)別模型的重要原因。

3 Tor暗網(wǎng)數(shù)據(jù)采集系統(tǒng)

Tor暗網(wǎng)數(shù)據(jù)采集系統(tǒng)主要由三部分組成，分別是Tor內(nèi)核傳輸模塊、數(shù)據(jù)采集模塊和數(shù)據(jù)存儲(chǔ)模塊，其中數(shù)據(jù)采集模塊是整個(gè)系統(tǒng)的核心模塊，結(jié)合使用了本文實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行自動(dòng)登錄采集數(shù)據(jù)，整個(gè)系統(tǒng)的結(jié)構(gòu)如圖5所示。

圖5 Tor暗網(wǎng)數(shù)據(jù)采集系統(tǒng)結(jié)構(gòu)圖

3.1 Tor內(nèi)核傳輸模塊

Tor內(nèi)核傳輸模塊使用Tor官方提供的tor軟件，該軟件可以提供一個(gè)能夠進(jìn)入到Tor暗網(wǎng)空間的socks代理。但是本文設(shè)計(jì)的數(shù)據(jù)采集插件對(duì)于socks代理的支持不穩(wěn)定，因此本文使用了polipo服務(wù)器將socks代理轉(zhuǎn)化為https代理，更穩(wěn)定地支持?jǐn)?shù)據(jù)采集插件的使用。本文參考文獻(xiàn)[12]中Tor暗網(wǎng)空間資源探測的工作中的Tor提速手段，修改tor軟件配置文件中的節(jié)點(diǎn)為平均節(jié)點(diǎn)速度高的國家的節(jié)點(diǎn)，提高數(shù)據(jù)采集模塊的采集速度。

3.2 數(shù)據(jù)采集模塊

數(shù)據(jù)采集模塊將數(shù)據(jù)采集插件與本文實(shí)現(xiàn)的驗(yàn)證碼快速識(shí)別模型結(jié)合起來，從而解決數(shù)據(jù)采集插件遇到驗(yàn)證碼無法自動(dòng)識(shí)別后進(jìn)行登錄的技術(shù)難題，實(shí)現(xiàn)自動(dòng)化的數(shù)據(jù)采集。

3.2.1數(shù)據(jù)采集插件

數(shù)據(jù)采集插件使用Scrapy爬蟲框架設(shè)計(jì)實(shí)現(xiàn)，實(shí)現(xiàn)采集插件中最關(guān)鍵的兩點(diǎn)是抵御相應(yīng)Tor暗網(wǎng)站點(diǎn)的反爬措施及數(shù)據(jù)的去重增量爬取。本文通過控制數(shù)據(jù)爬取的速率與頻率來抵御相應(yīng)Tor暗網(wǎng)網(wǎng)站的反爬措施，并且設(shè)計(jì)為被反爬措施檢測到進(jìn)行人機(jī)交互挑戰(zhàn)后數(shù)據(jù)采集插件從之前停止的地方繼續(xù)重新爬取。對(duì)于去重增量爬取，數(shù)據(jù)量大的Tor暗網(wǎng)站點(diǎn)采用Bloomfilter去重，數(shù)據(jù)量較小的Tor暗網(wǎng)站點(diǎn)則直接在數(shù)據(jù)庫中查詢進(jìn)行去重。

文獻(xiàn)[13]指出，Bloomfilter是一種使用很長的比特串記錄目標(biāo)是否出現(xiàn)過的技術(shù)，其中比特位為1表示記錄為出現(xiàn)過，0表示記錄為未出現(xiàn)。最初的比特串全為0，判斷過程中使用多個(gè)Hash函數(shù)將目標(biāo)內(nèi)容映射為多個(gè)數(shù)字用來表示在比特串中的索引，如果這些索引處全為1則表示該目標(biāo)出現(xiàn)過，否則目標(biāo)未出現(xiàn)過則處理目標(biāo)并且將這些索引處全置為1。因此，使用Bloomfilter技術(shù)在爬取時(shí)進(jìn)行去重能夠極大地減少內(nèi)存的使用，節(jié)省資源。

3.2.2驗(yàn)證碼識(shí)別模型應(yīng)用

在數(shù)據(jù)采集模塊中，本文通過使用Python的Flask框架將所有訓(xùn)練好的驗(yàn)證碼識(shí)別模型整合成一個(gè)Web系統(tǒng)，為每一個(gè)Tor暗網(wǎng)站點(diǎn)提供一個(gè)特定的Web API來自動(dòng)識(shí)別驗(yàn)證碼并且返回結(jié)果。爬取過程中識(shí)別相應(yīng)驗(yàn)證碼然后進(jìn)行自動(dòng)登錄的流程如圖6所示。

圖6 Tor暗網(wǎng)站點(diǎn)自動(dòng)登錄流程圖

當(dāng)數(shù)據(jù)采集插件遇到登錄頁面時(shí)，首先將登錄頁面的驗(yàn)證碼圖片爬取下來，通過相應(yīng)的Web API調(diào)用相應(yīng)模型識(shí)別該驗(yàn)證碼圖片并且將識(shí)別結(jié)果返回給數(shù)據(jù)采集插件，插件利用識(shí)別結(jié)果嘗試登錄，再根據(jù)登錄后的頁面判斷是否登錄成功，如果登錄成功則進(jìn)一步爬取數(shù)據(jù)，登錄失敗則重新爬取登錄頁面的驗(yàn)證碼。重復(fù)進(jìn)行上述的工作直至登錄成功。在實(shí)際數(shù)據(jù)采集工作中，結(jié)果表明所有采集的重要Tor暗網(wǎng)站點(diǎn)基本嘗試三次以內(nèi)的登錄流程后就能夠登錄成功。另外，測試結(jié)果表明登錄過程調(diào)用Web API識(shí)別驗(yàn)證碼每次所消耗的時(shí)間都在5秒以內(nèi)。

3.3 數(shù)據(jù)存儲(chǔ)模塊

本文使用MongoDB作為數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫，MongoDB數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù)時(shí)不會(huì)固定于一種數(shù)據(jù)格式，因此能夠使得數(shù)據(jù)爬取過程中更具有伸縮性。另外，本文通過搭建一個(gè)MongoDB集群而不是使用單一的MongoDB節(jié)點(diǎn)進(jìn)行數(shù)據(jù)存儲(chǔ)，MongoDB集群由多個(gè)MongoDB節(jié)點(diǎn)組成，其中一個(gè)為主節(jié)點(diǎn)，剩余的節(jié)點(diǎn)全為從節(jié)點(diǎn)，存儲(chǔ)過程中先將數(shù)據(jù)存儲(chǔ)在主節(jié)點(diǎn)然后備份到各個(gè)從節(jié)點(diǎn)，當(dāng)主節(jié)點(diǎn)出現(xiàn)不可預(yù)估的故障時(shí)，MongoDB集群剩余的從節(jié)點(diǎn)會(huì)通過選舉方式選出一個(gè)節(jié)點(diǎn)替代原先的主節(jié)點(diǎn)繼續(xù)數(shù)據(jù)存儲(chǔ)工作，能夠提高數(shù)據(jù)存儲(chǔ)模塊的魯棒性。

3.4 系統(tǒng)運(yùn)行結(jié)果與分析

Tor暗網(wǎng)數(shù)據(jù)采集系統(tǒng)使用機(jī)器的配置為Intel Xeon Bronze 1.7 GHz 12核，64 GB內(nèi)存，4 TB硬盤，Centos7系統(tǒng)，帶寬100 MB。

到目前為止，該系統(tǒng)已經(jīng)運(yùn)行長達(dá)近一年，實(shí)際結(jié)果證明該系統(tǒng)能夠自動(dòng)、準(zhǔn)確、快速地采集重要Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)信息。爬取的Tor暗網(wǎng)重要站點(diǎn)分為Tor暗網(wǎng)交易市場和Tor暗網(wǎng)黑色論壇，系統(tǒng)采集的交易市場實(shí)際數(shù)據(jù)如表2所示，采集的黑色論壇的實(shí)際數(shù)據(jù)如表3所示。

表2 暗網(wǎng)交易市場數(shù)據(jù)采集結(jié)果表

續(xù)表2

表3 Tor暗網(wǎng)黑色論壇數(shù)據(jù)采集結(jié)果表

本文的研究重點(diǎn)放在Tor暗網(wǎng)交易市場的數(shù)據(jù)采集上，因此表2中的市場數(shù)據(jù)比表3的論壇數(shù)據(jù)要大。此外，表2市場中的商品數(shù)量這一數(shù)據(jù)比這些市場上實(shí)時(shí)發(fā)布的數(shù)據(jù)量要大，這是因?yàn)門or暗網(wǎng)交易市場中的商品存在更新和下架，系統(tǒng)采集的數(shù)據(jù)長期積累使得該數(shù)據(jù)量大于市場實(shí)時(shí)發(fā)布的數(shù)據(jù)量。系統(tǒng)實(shí)際運(yùn)行的結(jié)果充分證明本文所設(shè)計(jì)的Tor暗網(wǎng)數(shù)據(jù)采集系統(tǒng)能夠自動(dòng)、準(zhǔn)確、快速地采集Tor暗網(wǎng)重要站點(diǎn)的數(shù)據(jù)信息。

4 結(jié) 語

隨著數(shù)字貨幣的出現(xiàn)和快速發(fā)展，暗網(wǎng)上的各種違法行為愈來愈多，Tor暗網(wǎng)上違法泄露數(shù)據(jù)交易事件也逐年增多。為了及時(shí)采集Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)信息，從而進(jìn)一步監(jiān)控暗網(wǎng)空間資源，本文提出了數(shù)據(jù)采集模塊通過Tor內(nèi)核傳輸模塊進(jìn)入到Tor暗網(wǎng)空間實(shí)時(shí)采集數(shù)據(jù)信息的方法。但是隨著Tor暗網(wǎng)站點(diǎn)的發(fā)展，特別是為了抵御DDoS攻擊和防止爬蟲，重要Tor暗網(wǎng)站點(diǎn)都使用了驗(yàn)證碼機(jī)制來進(jìn)行人機(jī)交互。學(xué)者們目前普遍使用CNN、RNN網(wǎng)絡(luò)來對(duì)驗(yàn)證碼進(jìn)行端到端的識(shí)別，但是這種方法需要大量標(biāo)記好的驗(yàn)證碼樣本來訓(xùn)練模型，這對(duì)于Tor暗網(wǎng)站點(diǎn)地?cái)?shù)據(jù)采集工作是不合適的。Tor暗網(wǎng)的變化是頻繁和不定的，需要能夠快速簡便地得到一個(gè)Tor暗網(wǎng)站點(diǎn)的驗(yàn)證碼識(shí)別模型，同時(shí)需要的訓(xùn)練樣本要盡可能少。因此本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)神經(jīng)網(wǎng)絡(luò)模型，通過CNN網(wǎng)絡(luò)模塊提取驗(yàn)證碼圖片的特征，再通過GRU網(wǎng)絡(luò)模塊將提取到的特征轉(zhuǎn)化為時(shí)序特征并且得到一個(gè)時(shí)序特征預(yù)測值，網(wǎng)絡(luò)模型使用ctc loss對(duì)時(shí)序特征預(yù)測值和樣本標(biāo)簽值進(jìn)行比較計(jì)算得到損失函數(shù)反饋給模型，不斷訓(xùn)練得到一個(gè)有效的驗(yàn)證碼識(shí)別模型。這個(gè)神經(jīng)網(wǎng)絡(luò)模型在使用少量驗(yàn)證碼樣本訓(xùn)練的情況下能夠達(dá)到一個(gè)可觀的驗(yàn)證碼識(shí)別準(zhǔn)確率，這是因?yàn)橥ㄟ^利用GRU網(wǎng)絡(luò)得到時(shí)序特征，并且在訓(xùn)練過程中使用ctc loss進(jìn)行計(jì)算，相當(dāng)于在特征層面對(duì)驗(yàn)證碼進(jìn)行了切割，每一個(gè)時(shí)刻的特征像相當(dāng)于切割的一部分，從而相當(dāng)于對(duì)每個(gè)單字符進(jìn)行識(shí)別，而單字符的識(shí)別所需要的樣本是少量的。最后將該神經(jīng)網(wǎng)絡(luò)模型應(yīng)用到Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)采集系統(tǒng)中，結(jié)果表明該系統(tǒng)能夠自動(dòng)、準(zhǔn)確、快速地采集Tor暗網(wǎng)站點(diǎn)的數(shù)據(jù)信息，對(duì)于監(jiān)控暗網(wǎng)空間資源、獲取威脅情報(bào)信息、感知網(wǎng)絡(luò)安全態(tài)勢具有重大意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡