◆冷濤 高彬晗 熊越 謝耕
基于暗網(wǎng)的監(jiān)控平臺設(shè)計與實現(xiàn)
◆冷濤1,2高彬晗1熊越1謝耕1
(1.四川警察學(xué)院計算機科學(xué)與技術(shù)系 四川 646000;2.刑事檢驗四川省高校重點實驗室(四川警察學(xué)院) 四川 646000)
暗網(wǎng)充斥著網(wǎng)絡(luò)犯罪,對暗網(wǎng)進行監(jiān)控是獲取網(wǎng)絡(luò)情報的重要來源,開發(fā)暗網(wǎng)的監(jiān)控平臺對打擊暗網(wǎng)犯罪具有重要意義。本文通過對暗網(wǎng)的研究,搭建暗網(wǎng)訪問環(huán)境,基于網(wǎng)絡(luò)爬蟲,對目標暗網(wǎng)網(wǎng)站進行結(jié)構(gòu)分析,設(shè)計算法,爬取內(nèi)容,并作詞云分析。試驗結(jié)果表明,該設(shè)計思路能高效跟蹤暗網(wǎng)發(fā)布內(nèi)容,并做數(shù)據(jù)分析。該監(jiān)控程序的設(shè)計方案有助于公安機關(guān)掌握暗網(wǎng)信息,跟蹤暗網(wǎng)情報,具有實際意義。
暗網(wǎng);網(wǎng)絡(luò)爬蟲;詞云分析
暗網(wǎng)是指隱藏的網(wǎng)絡(luò),需要使用特殊瀏覽器(如TOR),經(jīng)過配置網(wǎng)絡(luò)方可進入。暗網(wǎng)上存在著大量的違法犯罪信息,如販賣毒品,公民個人信息,傳播色情恐怖信息等,嚴重危害著未成年人的成長,甚至危及政權(quán)安全[1]。由于暗網(wǎng)訪問的私密性,公安機關(guān)對暗網(wǎng)案件打擊存在一定困難,針對暗網(wǎng)的監(jiān)控是公安機關(guān)重點關(guān)注的問題。針對此問題已有很多學(xué)者做了大量研究,文獻[2]設(shè)計基于Selenium的暗網(wǎng)爬蟲,自動采集暗網(wǎng)網(wǎng)頁數(shù)據(jù),對暗網(wǎng)取證提供了借鑒意義。文獻[3]詳細介紹了基于Selenium的暗網(wǎng)爬蟲程序設(shè)計,并檢驗了該程序獲取暗網(wǎng)網(wǎng)頁的結(jié)果。文獻[4]基于Scrapy分布式的暗網(wǎng)爬蟲探測方法,將暗網(wǎng)使用的socks5協(xié)議轉(zhuǎn)為爬蟲支持的http協(xié)議,該方法發(fā)現(xiàn)了大量的暗網(wǎng)站點信息。文獻[5]基于scrapy設(shè)計賭博網(wǎng)站爬蟲程序,建立賭博網(wǎng)站數(shù)據(jù)庫,并采用jieba,wordcloud等工具對網(wǎng)站進行簡單分析。本文通過暗網(wǎng)網(wǎng)站結(jié)構(gòu)分析,設(shè)計網(wǎng)絡(luò)爬蟲,爬取站點發(fā)布的內(nèi)容,并對內(nèi)容進行分析,更有利于公安機關(guān)對目標網(wǎng)站的監(jiān)控,獲取情報等。
暗網(wǎng)是由美國軍方的一個科研項目發(fā)展而來,該項目主要目的是為互聯(lián)網(wǎng)的用戶提供身份隱藏服務(wù),后來因為這個特性導(dǎo)致全球不法分子在暗網(wǎng)活動頻繁。暗網(wǎng)通過Tor或者I2P等網(wǎng)絡(luò)訪問的Web站點服務(wù)。暗網(wǎng)網(wǎng)絡(luò)站點特征是域名后綴為“.onion”。
暗網(wǎng)原理簡單來講是利用多重轉(zhuǎn)發(fā)和層層加密,讓信息流追溯和信息解密變得非常困難。如下圖,A向E發(fā)送信息,中間經(jīng)過B、C、D三個轉(zhuǎn)發(fā)節(jié)點進行轉(zhuǎn)發(fā),信息全程加密。發(fā)送方、接收方和轉(zhuǎn)發(fā)節(jié)點,沒有一方能同時掌握發(fā)送方和接收方的真實地址。轉(zhuǎn)發(fā)節(jié)點B即使直接接收A發(fā)送的信息,但是無法判斷A是發(fā)送方還是轉(zhuǎn)發(fā)節(jié)點,D同理。B、C、D三個節(jié)點是在節(jié)點池中隨機抽取,并且一定時間之后會更換轉(zhuǎn)發(fā)節(jié)點。
圖1 暗網(wǎng)轉(zhuǎn)發(fā)節(jié)點示意圖
結(jié)合現(xiàn)實需要,本文將監(jiān)控平臺設(shè)計為,本地環(huán)境Ubuntu虛擬機和Tor瀏覽器可視化訪問暗網(wǎng)網(wǎng)站;服務(wù)器環(huán)境提供Tor代理和爬蟲環(huán)境;暗網(wǎng)探測為暗網(wǎng)網(wǎng)址收集并針對重點網(wǎng)站監(jiān)控。如圖2所示:
圖2 基于暗網(wǎng)的監(jiān)控平臺
在云服務(wù)器上利用Linux系統(tǒng)服務(wù)器搭建具有進入Tor網(wǎng)絡(luò)功能的代理服務(wù)器,并且安裝Python和爬蟲模塊構(gòu)建Python暗網(wǎng)爬蟲服務(wù)器。本地環(huán)境使用Ubuntu16.04版本虛擬機,安裝Tor瀏覽器同時利用代理服務(wù)器的代理功能進入Tor網(wǎng)絡(luò)。根據(jù)暗網(wǎng)網(wǎng)址“.onion”的特性,在公網(wǎng)中設(shè)計使用爬蟲收集暗網(wǎng)網(wǎng)址,根據(jù)收集的暗網(wǎng)網(wǎng)址進入暗網(wǎng)。對收集的網(wǎng)址訪問分析后,研判具有較大監(jiān)控價值的網(wǎng)站。針對性地根據(jù)網(wǎng)站特點編寫Python爬蟲進行網(wǎng)站數(shù)據(jù)監(jiān)控。
本文選取了一個比較有典型意義的暗網(wǎng)購物網(wǎng)站,里面有多種非法物品的出售,包括但不限于毒品、槍支、信用卡、各國貨幣和黑產(chǎn)信息。這個網(wǎng)站整體的出售物品不僅種類較多,而且每種類型的非法物品也較多,每件物品進行了明碼標價,整個非法物品出售流程完善,所以具有較大的監(jiān)控價值。在網(wǎng)站分析的同時,結(jié)合網(wǎng)站的特點,編寫針對性的Python爬蟲。
圖3 目標網(wǎng)站
通過對網(wǎng)站的基本結(jié)構(gòu)進行分析,網(wǎng)站采用了PHP語言,物品信息主要以HTML呈現(xiàn),通過分析單個物品頁面的源代碼,編寫批量爬蟲可以爬取所有物品信息。
if not os.path.exists('/root/data/'+str(datetime.date.today())):
os.mkdir('/root/data/'+str(datetime.date.today()))
確定每日爬取的信息保存在對應(yīng)日期的文件夾中,這里持續(xù)跟蹤監(jiān)控了十天,以此觀察信息的變化。網(wǎng)頁數(shù)據(jù)爬取采用了Python的BeautifulSoup庫,通過pip3 install bs4即可在爬蟲服務(wù)器上安裝。
這個網(wǎng)站中的單個物品有四個特征點,詳細購買頁面鏈接、物品名稱、物品簡介和物品價格(美元)。本爬蟲針對這四個點對所有物品信息進行爬取。通過urllib.request模塊獲得頁面的HTML文檔。使用BeautifulSoup庫,根據(jù)標簽