国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于暗網(wǎng)的監(jiān)控平臺設(shè)計與實現(xiàn)

2021-10-29 03:54冷濤高彬晗熊越謝耕
關(guān)鍵詞:暗網(wǎng)爬蟲物品

◆冷濤 高彬晗 熊越 謝耕

基于暗網(wǎng)的監(jiān)控平臺設(shè)計與實現(xiàn)

◆冷濤1,2高彬晗1熊越1謝耕1

(1.四川警察學(xué)院計算機科學(xué)與技術(shù)系 四川 646000;2.刑事檢驗四川省高校重點實驗室(四川警察學(xué)院) 四川 646000)

暗網(wǎng)充斥著網(wǎng)絡(luò)犯罪,對暗網(wǎng)進行監(jiān)控是獲取網(wǎng)絡(luò)情報的重要來源,開發(fā)暗網(wǎng)的監(jiān)控平臺對打擊暗網(wǎng)犯罪具有重要意義。本文通過對暗網(wǎng)的研究,搭建暗網(wǎng)訪問環(huán)境,基于網(wǎng)絡(luò)爬蟲,對目標暗網(wǎng)網(wǎng)站進行結(jié)構(gòu)分析,設(shè)計算法,爬取內(nèi)容,并作詞云分析。試驗結(jié)果表明,該設(shè)計思路能高效跟蹤暗網(wǎng)發(fā)布內(nèi)容,并做數(shù)據(jù)分析。該監(jiān)控程序的設(shè)計方案有助于公安機關(guān)掌握暗網(wǎng)信息,跟蹤暗網(wǎng)情報,具有實際意義。

暗網(wǎng);網(wǎng)絡(luò)爬蟲;詞云分析

暗網(wǎng)是指隱藏的網(wǎng)絡(luò),需要使用特殊瀏覽器(如TOR),經(jīng)過配置網(wǎng)絡(luò)方可進入。暗網(wǎng)上存在著大量的違法犯罪信息,如販賣毒品,公民個人信息,傳播色情恐怖信息等,嚴重危害著未成年人的成長,甚至危及政權(quán)安全[1]。由于暗網(wǎng)訪問的私密性,公安機關(guān)對暗網(wǎng)案件打擊存在一定困難,針對暗網(wǎng)的監(jiān)控是公安機關(guān)重點關(guān)注的問題。針對此問題已有很多學(xué)者做了大量研究,文獻[2]設(shè)計基于Selenium的暗網(wǎng)爬蟲,自動采集暗網(wǎng)網(wǎng)頁數(shù)據(jù),對暗網(wǎng)取證提供了借鑒意義。文獻[3]詳細介紹了基于Selenium的暗網(wǎng)爬蟲程序設(shè)計,并檢驗了該程序獲取暗網(wǎng)網(wǎng)頁的結(jié)果。文獻[4]基于Scrapy分布式的暗網(wǎng)爬蟲探測方法,將暗網(wǎng)使用的socks5協(xié)議轉(zhuǎn)為爬蟲支持的http協(xié)議,該方法發(fā)現(xiàn)了大量的暗網(wǎng)站點信息。文獻[5]基于scrapy設(shè)計賭博網(wǎng)站爬蟲程序,建立賭博網(wǎng)站數(shù)據(jù)庫,并采用jieba,wordcloud等工具對網(wǎng)站進行簡單分析。本文通過暗網(wǎng)網(wǎng)站結(jié)構(gòu)分析,設(shè)計網(wǎng)絡(luò)爬蟲,爬取站點發(fā)布的內(nèi)容,并對內(nèi)容進行分析,更有利于公安機關(guān)對目標網(wǎng)站的監(jiān)控,獲取情報等。

1 暗網(wǎng)技術(shù)

1.1 暗網(wǎng)概念

暗網(wǎng)是由美國軍方的一個科研項目發(fā)展而來,該項目主要目的是為互聯(lián)網(wǎng)的用戶提供身份隱藏服務(wù),后來因為這個特性導(dǎo)致全球不法分子在暗網(wǎng)活動頻繁。暗網(wǎng)通過Tor或者I2P等網(wǎng)絡(luò)訪問的Web站點服務(wù)。暗網(wǎng)網(wǎng)絡(luò)站點特征是域名后綴為“.onion”。

1.2 暗網(wǎng)原理

暗網(wǎng)原理簡單來講是利用多重轉(zhuǎn)發(fā)和層層加密,讓信息流追溯和信息解密變得非常困難。如下圖,A向E發(fā)送信息,中間經(jīng)過B、C、D三個轉(zhuǎn)發(fā)節(jié)點進行轉(zhuǎn)發(fā),信息全程加密。發(fā)送方、接收方和轉(zhuǎn)發(fā)節(jié)點,沒有一方能同時掌握發(fā)送方和接收方的真實地址。轉(zhuǎn)發(fā)節(jié)點B即使直接接收A發(fā)送的信息,但是無法判斷A是發(fā)送方還是轉(zhuǎn)發(fā)節(jié)點,D同理。B、C、D三個節(jié)點是在節(jié)點池中隨機抽取,并且一定時間之后會更換轉(zhuǎn)發(fā)節(jié)點。

圖1 暗網(wǎng)轉(zhuǎn)發(fā)節(jié)點示意圖

2 基于暗網(wǎng)的監(jiān)控平臺設(shè)計與實現(xiàn)

2.1 平臺設(shè)計

結(jié)合現(xiàn)實需要,本文將監(jiān)控平臺設(shè)計為,本地環(huán)境Ubuntu虛擬機和Tor瀏覽器可視化訪問暗網(wǎng)網(wǎng)站;服務(wù)器環(huán)境提供Tor代理和爬蟲環(huán)境;暗網(wǎng)探測為暗網(wǎng)網(wǎng)址收集并針對重點網(wǎng)站監(jiān)控。如圖2所示:

圖2 基于暗網(wǎng)的監(jiān)控平臺

2.2 平臺搭建

在云服務(wù)器上利用Linux系統(tǒng)服務(wù)器搭建具有進入Tor網(wǎng)絡(luò)功能的代理服務(wù)器,并且安裝Python和爬蟲模塊構(gòu)建Python暗網(wǎng)爬蟲服務(wù)器。本地環(huán)境使用Ubuntu16.04版本虛擬機,安裝Tor瀏覽器同時利用代理服務(wù)器的代理功能進入Tor網(wǎng)絡(luò)。根據(jù)暗網(wǎng)網(wǎng)址“.onion”的特性,在公網(wǎng)中設(shè)計使用爬蟲收集暗網(wǎng)網(wǎng)址,根據(jù)收集的暗網(wǎng)網(wǎng)址進入暗網(wǎng)。對收集的網(wǎng)址訪問分析后,研判具有較大監(jiān)控價值的網(wǎng)站。針對性地根據(jù)網(wǎng)站特點編寫Python爬蟲進行網(wǎng)站數(shù)據(jù)監(jiān)控。

2.3.網(wǎng)站結(jié)構(gòu)分析與算法設(shè)計

本文選取了一個比較有典型意義的暗網(wǎng)購物網(wǎng)站,里面有多種非法物品的出售,包括但不限于毒品、槍支、信用卡、各國貨幣和黑產(chǎn)信息。這個網(wǎng)站整體的出售物品不僅種類較多,而且每種類型的非法物品也較多,每件物品進行了明碼標價,整個非法物品出售流程完善,所以具有較大的監(jiān)控價值。在網(wǎng)站分析的同時,結(jié)合網(wǎng)站的特點,編寫針對性的Python爬蟲。

圖3 目標網(wǎng)站

通過對網(wǎng)站的基本結(jié)構(gòu)進行分析,網(wǎng)站采用了PHP語言,物品信息主要以HTML呈現(xiàn),通過分析單個物品頁面的源代碼,編寫批量爬蟲可以爬取所有物品信息。

if not os.path.exists('/root/data/'+str(datetime.date.today())):

os.mkdir('/root/data/'+str(datetime.date.today()))

確定每日爬取的信息保存在對應(yīng)日期的文件夾中,這里持續(xù)跟蹤監(jiān)控了十天,以此觀察信息的變化。網(wǎng)頁數(shù)據(jù)爬取采用了Python的BeautifulSoup庫,通過pip3 install bs4即可在爬蟲服務(wù)器上安裝。

這個網(wǎng)站中的單個物品有四個特征點,詳細購買頁面鏈接、物品名稱、物品簡介和物品價格(美元)。本爬蟲針對這四個點對所有物品信息進行爬取。通過urllib.request模塊獲得頁面的HTML文檔。使用BeautifulSoup庫,根據(jù)標簽

確定四項信息都位于這個標簽中。使用soup.select('div[class="caption"]')定位出所有同樣的標簽,即是把所有的物品信息定位。

圖4 暗網(wǎng)網(wǎng)頁源碼圖

下面對上面四個點的信息獲取進行爬蟲編寫,上述當中已經(jīng)定位了這個標簽。物品的名稱位于

標簽內(nèi),通過語句product_title = data.find_all('h4')[0].string.replace('/','_')用于獲取物品的產(chǎn)品名。如圖所示,replace是防止名稱中有特殊字符”/”導(dǎo)致文件寫入出錯。物品詳細信息鏈接位于>,使用item = data.select('h4 a')[0].get('href')標簽逐層查找獲得鏈接。

圖5 暗網(wǎng)網(wǎng)頁產(chǎn)品信息源碼

物品描述在標簽

中,通過 description = data.find_all('p')[0].string獲取內(nèi)容;物品的價格在標簽

中,通過price = data.find_all('p', class_="price")[0].string.strip()獲取內(nèi)容。

最后將物品四項信息匯總至一個字典中message = { "商品名": product_title,"描述": description,"價格": price, "鏈接": detail_url},然后把信息寫入以物品名命名的txt文件中。

圖6 自定義保存文本記錄圖

數(shù)據(jù)儲存采用三級結(jié)構(gòu),逐級為網(wǎng)頁鏈接、日期和數(shù)據(jù)文件。分別以鏈接、日期和物品名稱命名,結(jié)構(gòu)層次清晰,查看方便。

3 實驗結(jié)果與分析

3.1 網(wǎng)絡(luò)爬蟲結(jié)果

利用網(wǎng)絡(luò)爬蟲收集該網(wǎng)站2021年1月30日至2月8日的數(shù)據(jù),爬取網(wǎng)頁和內(nèi)容見下圖。

圖7 實驗結(jié)果圖

3.2 詞云分析

以2021-01-30爬取的信息為例,對上述示例網(wǎng)站爬取的信息作詞云分析。詞云分析方法區(qū)別于傳統(tǒng)表格,以圖片占比的形式表現(xiàn)屬性的占比,具有相當?shù)闹庇^性。

將每個物品被爬取的信息中的標題部分整合到同一個TXT文檔,再使用Python的wordcloud庫進行詞云分析,生成結(jié)果圖。

圖8 詞云分析圖

在圖中可以發(fā)現(xiàn)三個屬性比較突出,分別是“Gram”、“Pure”和“Pills”,中文對應(yīng)著“克”、“純度”和“藥丸”,很明顯可以初步估計該網(wǎng)站售賣的物品主要傾向于藥品類且需要純度和質(zhì)量的控制,再次一級三個關(guān)鍵詞“Cocaine”和“LSD”,這很明顯是“可卡因”和“郵票毒品”。這可以直觀的顯示出該網(wǎng)站的主要業(yè)務(wù)為毒品的售賣,次一級的售賣包括但不限于手機、信用卡和網(wǎng)絡(luò)黑產(chǎn)。

此網(wǎng)站主用語言為英文,同時支持中文,主要面向歐美國家,使用比特幣進行交易,物品初步可分為管控類藥物、槍支子彈類、信用卡盜刷類、假身份信息類、電子產(chǎn)品類以及網(wǎng)絡(luò)黑產(chǎn)類;該網(wǎng)站出售物品種類多,覆蓋面大,符合暗網(wǎng)物品販賣網(wǎng)站的基本特征。

本文結(jié)合當前我國公安機關(guān)面臨的網(wǎng)絡(luò)安全執(zhí)法形勢嚴峻問題,以暗網(wǎng)上充斥著大量的違法犯罪信息獲取為切入點,利用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù),然后利用詞云分析算法做信息分析,能有效獲取情報資源。平臺采用了較為方便的搭建和使用方法,提高了對暗網(wǎng)偵測工作的效率,為了打擊更深層次的網(wǎng)絡(luò)犯罪提供了有利的幫助。在本文的研究基礎(chǔ)上可以與大數(shù)據(jù)結(jié)合,深度挖掘出暗網(wǎng)中違法犯罪分子的真實信息,進一步提升了公安機關(guān)對暗網(wǎng)的打擊能力。

[1]王佳寧.“暗網(wǎng)”對國家安全的危害[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2016(09):10-11.

[2]湯艷君,安俊霖.暗網(wǎng)案件的爬蟲取證技術(shù)研究[J].中國刑警學(xué)院學(xué)報,2018.

[3]湯艷君,安俊霖.基于Tor的暗網(wǎng)數(shù)據(jù)爬蟲設(shè)計與實現(xiàn)[J].信息安全研究,2019,5(09):798-804.

[4]余志瑋,何月順.基于Scrapy分布式的暗網(wǎng)探測爬蟲構(gòu)建[J].計算機時代,2020(04):21-25.

[5]付順順.基于Scrapy的賭博網(wǎng)站數(shù)據(jù)采集與分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2020(06).

刑事檢驗四川省高校重點實驗室開放基金研究項目(2020ZD03),四川省大學(xué)生創(chuàng)新訓(xùn)練項目(S202012212044)

猜你喜歡
暗網(wǎng)爬蟲物品
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
稱物品
暗網(wǎng)犯罪的現(xiàn)狀及趨勢研究
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
“雙十一”,你搶到了想要的物品嗎?
嗅出“暗網(wǎng)”中隱匿的犯罪信息
暗網(wǎng)
被“暗網(wǎng)”盯上的年輕人
誰動了凡·高的物品
大數(shù)據(jù)背景下校園輿情的爬蟲應(yīng)用研究