国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

暗網(wǎng)案件的爬蟲取證技術(shù)研究

2018-11-02 07:00湯艷君安俊霖
中國刑警學(xué)院學(xué)報 2018年5期
關(guān)鍵詞:暗網(wǎng)爬蟲域名

湯艷君 安俊霖

(中國刑事警察學(xué)院網(wǎng)絡(luò)犯罪偵查系 遼寧 沈陽 110035)

1 引言

隨著網(wǎng)絡(luò)的普及,用戶不僅開始重視對網(wǎng)絡(luò)信息內(nèi)容的隱匿保護,也開始重視對網(wǎng)絡(luò)通信雙方的身份和通信模式的隱匿保護。匿名網(wǎng)絡(luò)使得用戶在互聯(lián)網(wǎng)中個人信息不會被泄露。匿名網(wǎng)絡(luò)是隱匿了上網(wǎng)者的IP報文信息,以實現(xiàn)保護上網(wǎng)者的個人信息和防止被惡意追蹤。

用戶尋找互聯(lián)網(wǎng)上的信息通常會使用必應(yīng)或百度等搜索引擎,而這類信息稱為表面信息(Surface Web),即能被常規(guī)搜索引擎爬取的信息。與之相對的即暗網(wǎng)(Dark Web),暗網(wǎng)就是人們無法使用常規(guī)搜索引擎找到的虛擬空間[1]。與互聯(lián)網(wǎng)相比,暗網(wǎng)不僅網(wǎng)址數(shù)量多,而且使用簡單,僅需洋蔥路由器和VPN便可進入其中,更重要的是不會留有任何訪問記錄。

當(dāng)前針對暗網(wǎng)監(jiān)管的研究較少,主要集中在“去匿名技術(shù)”、網(wǎng)絡(luò)流量分析技術(shù)、深度挖掘等方面。而針對暗網(wǎng)網(wǎng)絡(luò)的研究主要為Tor、I2P、HORNET。雖然對于Tor網(wǎng)絡(luò)內(nèi)容不能直接進行解密,但能利用網(wǎng)絡(luò)流量分析技術(shù)來追蹤到用戶的位置。其中網(wǎng)絡(luò)流量分析技術(shù)包括:

(1)網(wǎng)絡(luò)數(shù)據(jù)采集:通過架設(shè)國外服務(wù)器并掌握大量的Tor節(jié)點來實現(xiàn),對一些敏感信息進行跟蹤和截獲。

(2)匿名網(wǎng)絡(luò)行為分析:通過識別用戶是否在使用Tor瀏覽器來進行。

現(xiàn)有的相關(guān)法律法規(guī)和管理政策對暗網(wǎng)進行監(jiān)管存在很大局限性。其中《中華人民共和國網(wǎng)絡(luò)安全法》第24條規(guī)定:“網(wǎng)絡(luò)運營者為用戶辦理網(wǎng)絡(luò)接入、域名注冊服務(wù),辦理固定電話、移動電話等入網(wǎng)手續(xù),或者為用戶提供信息發(fā)布、即使通信等服務(wù),在于用戶簽訂協(xié)議或者確認(rèn)提供服務(wù)時,應(yīng)當(dāng)要求用戶提供真實身份信息。用戶不提供真實身份信息的,網(wǎng)絡(luò)運營者不得為其提供相關(guān)服務(wù)”[2]。雖然網(wǎng)絡(luò)安全法規(guī)定了入網(wǎng)、域名注冊等需要進行實名制,但暗網(wǎng)網(wǎng)絡(luò)還是能隱藏用戶的身份,許多不法分子依然可以通過暗網(wǎng)進行非法交易。

因此,提出利用Python的Selenium瀏覽器自動化測試框架進入Tor網(wǎng)絡(luò),爬取暗網(wǎng)數(shù)據(jù),實現(xiàn)對暗網(wǎng)的取證,為打擊暗網(wǎng)犯罪的公安工作提供一定的借鑒意義。

2 暗網(wǎng)爬蟲的取證方法

2.1 暗網(wǎng)案件的取證思路

與普通的案件不同,暗網(wǎng)是基于計算機互聯(lián)網(wǎng)技術(shù)發(fā)展起來的,其犯罪證據(jù)必然具備網(wǎng)絡(luò)、計算機、通信等方面的獨有特征[3]。而暗網(wǎng)案件取證需要在互聯(lián)網(wǎng)取證的方法框架內(nèi)進行,具體取證思路如下:

(1)獲取信息:首先了解清楚取證任務(wù)的背景、需求、目的、網(wǎng)絡(luò)設(shè)備和環(huán)境。主要包括案件發(fā)生的日期、事件、網(wǎng)絡(luò)拓?fù)洹⑼ㄐ畔到y(tǒng)、涉案的系統(tǒng)和數(shù)據(jù)、涉案的人員及案件發(fā)生后的操作和處置流程等。

(2)制定方案:在開展取證工作前,需要針對取證工作進行評估并且制定有效的方案。制定取證方案主要包括確定參加取證的人員、取證的目的、時間要求、設(shè)備、列出初步的分析和取證計劃和預(yù)設(shè)可能會遇到狀況及對應(yīng)的響應(yīng)辦法等。

(3)收集證據(jù):首先記錄收集的證據(jù)源的時間、來源、收集方式、證據(jù)源的軟硬件信息等,然后使用工具或設(shè)備收集證據(jù),最后將收集的證據(jù)進行有效的保存和哈希值計算,并明確證據(jù)的監(jiān)管保護措施。

(4)數(shù)據(jù)分析:網(wǎng)絡(luò)取證的最大特點就是會涉及到多個證據(jù)源,其中許多帶有時間戳,可以使用一些方法和工具進行證據(jù)數(shù)據(jù)的關(guān)聯(lián)。在理清眾多證據(jù)源時,需要建立一條有效的時間線,并且從取證的需求或目標(biāo)入手。

(5)出具報告或者筆錄:取證過程和結(jié)果通過勘驗筆錄、證據(jù)檢查筆錄或者檢驗報告的方式呈現(xiàn),要保持科學(xué)的嚴(yán)謹(jǐn)性和完整性。突出重點和在較高的層次上進行闡述是關(guān)鍵環(huán)節(jié),還需要有易于為之辯護的細節(jié)作為支撐。

2.2 暗網(wǎng)爬蟲的取證原理

匿名通信系統(tǒng)Tor(The Second Generation Onion Router),即第二代洋蔥路由系統(tǒng),由一組洋蔥路由器組成(也稱之為Tor節(jié)點)。它不僅能夠提供客戶端匿名通信,還可以幫助用戶匿名上網(wǎng)和保護用戶隱私[4]。

Tor的工作原理,即用戶首先運行Tor Server,所使用的電腦就相當(dāng)于一個Tor節(jié)點,經(jīng)由這個節(jié)點第三方能夠訪問其他節(jié)點,用戶也能夠通過第三方的節(jié)點對其他節(jié)點進行訪問。數(shù)據(jù)經(jīng)過所選路徑,最終到達Tor節(jié)點來訪問目標(biāo)資源。Tor選擇的路徑是隨機的,隨機選取路由來傳輸數(shù)據(jù)就會無法實現(xiàn)數(shù)據(jù)追蹤。

在針對樹形網(wǎng)站爬取數(shù)據(jù)的過程中,可能會遇到環(huán)路鏈接問題,比如從首頁到下面節(jié)點,但是下面的鏈接節(jié)點又會鏈接指向首頁,所以需要對鏈接進行去重。在設(shè)計暗網(wǎng)數(shù)據(jù)爬蟲中選擇深度優(yōu)先算法[5],其原理是將輸入的主網(wǎng)站的域名作為入口,然后判斷是否為同一站點鏈接,防止爬出站外而導(dǎo)致無限嘗試爬取,接著去爬取匹配的所有子域名(例如:子域名_1、子域_2……),再將爬取的子域名_1作為新的入口,繼續(xù)爬取子域名_1所匹配的所有子域名,直到抓到盡頭,如圖1所示。

圖1 深度優(yōu)先策略

相關(guān)代碼如下:

defTargetUrl(self,url):

target_url = []

fort in self.processUrl(url):

ifre.findall(domain_url,t):

target_url.append(t)

fort in target_url:

print(‘ 同一站點的鏈接為: ’+ t)

self.save(t)

returntarget_url

在分析Tor工作原理和深度優(yōu)先算法的基礎(chǔ)上,提出一種爬取暗網(wǎng)數(shù)據(jù)的方法:利用基于Python的Selenium瀏覽器自動化測試框架來實現(xiàn)[6]。當(dāng)用戶操作時,不需要用戶關(guān)注底層的網(wǎng)絡(luò)通信協(xié)議,只需要一個程序來控制操作過程。設(shè)計的爬蟲的取證工作流程如圖2所示。

圖2 暗網(wǎng)爬蟲工作流程圖

2.3 暗網(wǎng)爬蟲的取證結(jié)果

本實驗的暗網(wǎng)數(shù)據(jù)爬蟲的取證結(jié)果,即某暗網(wǎng)真實網(wǎng)頁和某暗網(wǎng)下載到本地后還原的網(wǎng)頁分別展示如圖3和圖4(其中真實網(wǎng)頁的地址為:http://****.onion/;還原網(wǎng)頁的地址為: file:///C:/passport/Onion%20 Identity%20...)。

圖3 某暗網(wǎng)真實網(wǎng)頁

圖4 某暗網(wǎng)的還原網(wǎng)頁

實驗表明,可以實現(xiàn)對暗網(wǎng)網(wǎng)頁內(nèi)容的客觀、有效地爬取,能夠完全地還原暗網(wǎng)真實網(wǎng)頁內(nèi)容,將數(shù)據(jù)保存至本地進行分析和固定。

3 暗網(wǎng)案件取證實例

3.1 案情簡介

2018年5月,某市公安局刑警支隊根據(jù)專案組提供的線索,將涉嫌非法購買槍支和彈藥的犯罪嫌疑人李某被捕。經(jīng)過審查,該男子供認(rèn)在暗網(wǎng)上購買槍支和彈藥,并繳獲李某的計算機主機一臺。根據(jù)市局要求,需要檢驗李某在暗網(wǎng)網(wǎng)站與涉槍案件有關(guān)的資料信息,并查看涉案的即時消息聊天記錄。

3.2 暗網(wǎng)案件取證步驟

3.2.1 常規(guī)性取證

常規(guī)性取證包括系統(tǒng)信息提取、用戶痕跡調(diào)查、即使通信、郵件客戶端解析、Web郵件解析、文本分析、反取證軟件檢測等[7]。

(1)提取當(dāng)前存儲介質(zhì)上的操作系統(tǒng)信息、本地用戶信息、網(wǎng)絡(luò)配置、安裝軟件信息及硬件等信息。這部分分析結(jié)果讓取證人員對存儲介質(zhì)上安裝的操作系統(tǒng)環(huán)境有個整體上的認(rèn)識,方便進一步的調(diào)查取證。

(2)查找歷史上網(wǎng)痕跡記錄,主要對計算機中的瀏覽器地址欄、瀏覽器收藏夾、瀏覽器歷史記錄、瀏覽器臨時文件和Cookies記錄進行查看。瀏覽器的收藏夾可以反映出用戶對哪些網(wǎng)站感興趣,對案件調(diào)查起到輔助分析的作用。Cookies記錄用戶所訪問過的站點和訪問的頻率,以及最近訪問的時間信息等。根據(jù)案情,李某必然會搜索相關(guān)暗網(wǎng)方面的內(nèi)容,比如如何進入暗網(wǎng)、如何購買比特幣等。

(3)搜索存儲介質(zhì)中的與案件相關(guān)文件,如.xls、.jpg、郵件等文件及聊天記錄內(nèi)容。在暗網(wǎng)購買槍支彈藥過程中,買賣雙方必然會使用聊天工具,調(diào)查李某使用聊天工具的聊天記錄,可獲得涉案槍支的型號、價格、工藝情況等信息。

3.2.2 遠程勘驗取證

本案的重點是查找和恢復(fù)涉及槍支相關(guān)網(wǎng)頁并進行分析、整理,導(dǎo)出證明案件事實的網(wǎng)頁文件。具體取證步驟如下:

(1)配置網(wǎng)絡(luò)環(huán)境。設(shè)置國外代理,配置洋蔥路由。

(2)檢測暗網(wǎng)服務(wù)器。為了驗證上一步的網(wǎng)絡(luò)環(huán)境配置和確認(rèn)服務(wù)器站點的地址正確與否,需要暗網(wǎng)服務(wù)器進行鏈接確認(rèn),保障后續(xù)的數(shù)據(jù)收集工作能夠順利進行。

(3)爬取網(wǎng)絡(luò)數(shù)據(jù)。由于各個站點的數(shù)據(jù)內(nèi)容和格式不完全相同,需針對特定的站點制定單獨的數(shù)據(jù)爬取規(guī)則和方法,并且其中涉及到的其他站點的數(shù)據(jù)也需要依次爬取和收集,并做好對應(yīng)的操作記錄。首先打開暗網(wǎng)爬蟲程序,輸入犯罪嫌疑人李某供述的暗網(wǎng)網(wǎng)址,如圖5所示,暗網(wǎng)網(wǎng)頁真實頁面與還原頁面分別展示如圖6和圖7(其中暗網(wǎng)真實網(wǎng)頁的地址為:http://****.onion;暗網(wǎng)還原頁面的地址為:file:///C:/UK%20guns/UK%20 Guns%20...)。

圖5 輸入暗網(wǎng)域名地址

圖6 暗網(wǎng)真實網(wǎng)頁

圖7 暗網(wǎng)還原網(wǎng)頁

(4)數(shù)據(jù)分析。對爬取和收集的數(shù)據(jù)進行數(shù)據(jù)分析、清洗、篩選,參照取證任務(wù)的目標(biāo)(即李某購買槍支彈藥交流信息內(nèi)容、買賣賬目信息、轉(zhuǎn)賬記錄、交易賬號等)進行數(shù)據(jù)分析研究,對數(shù)據(jù)進行歸類分析和處理。

(5)制作遠程勘驗檢查筆錄。根據(jù)《關(guān)于辦理刑事案件收集提取和審查判斷電子數(shù)據(jù)若干問題的規(guī)定》要求將取證過程和結(jié)果通過遠程勘驗檢查筆錄的方式呈現(xiàn)。提取的電子數(shù)據(jù)應(yīng)突出李某購買槍支彈藥交流信息內(nèi)容、買賣賬目信息、轉(zhuǎn)賬記錄、交易賬號等內(nèi)容。

4 結(jié)論

通過對暗網(wǎng)爬蟲取證技術(shù)的研究,實現(xiàn)了高效爬取暗網(wǎng)目標(biāo)數(shù)據(jù)并進行固定,為打擊暗網(wǎng)犯罪的公安工作提供一定的借鑒。從應(yīng)用方面來講,因為暗網(wǎng)可能隨時更改域名和地址,暗網(wǎng)所提供的市場和服務(wù)也可能隨時會轉(zhuǎn)移或關(guān)閉,所以可使用暗網(wǎng)爬蟲工具對目標(biāo)網(wǎng)站進行取證固定,然后進一步對暗網(wǎng)的數(shù)據(jù)進行還原、挖掘及分析,提高獲取數(shù)據(jù)的證據(jù)價值和效率,為打擊犯罪提供有力支持。

猜你喜歡
暗網(wǎng)爬蟲域名
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
暗網(wǎng)犯罪的現(xiàn)狀及趨勢研究
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
嗅出“暗網(wǎng)”中隱匿的犯罪信息
暗網(wǎng)
被“暗網(wǎng)”盯上的年輕人
《江蘇教育研究》官方網(wǎng)站域名變更公告
大數(shù)據(jù)背景下校園輿情的爬蟲應(yīng)用研究
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
頂級域名爭奪戰(zhàn):ICANN放出1930個通用頂級域名,申請者有上千家