鄭曉峰,段海新, 陳震宇, 應(yīng)凌云, 何直澤, 湯舒俊, 鄭恩南, 劉保君, 陸超逸, 沈凱文, 張 甲, 陳 卓, 林子翔
DataCon:面向安全研究的多領(lǐng)域大規(guī)模競(jìng)賽開(kāi)放數(shù)據(jù)
鄭曉峰1,2,段海新1,2, 陳震宇2, 應(yīng)凌云2, 何直澤2, 湯舒俊2, 鄭恩南2, 劉保君1, 陸超逸1, 沈凱文1, 張 甲1, 陳 卓2, 林子翔2
1清華大學(xué)網(wǎng)絡(luò)科學(xué)與網(wǎng)絡(luò)空間研究院 北京 中國(guó) 1000842奇安信科技集團(tuán) 北京 中國(guó) 100088
網(wǎng)絡(luò)安全數(shù)據(jù)是開(kāi)展網(wǎng)絡(luò)安全研究、教學(xué)的重要基礎(chǔ)資源,尤其基于實(shí)戰(zhàn)場(chǎng)景下的安全數(shù)據(jù)更是科研教學(xué)成果更符合安全實(shí)踐的保障。然而, 由于網(wǎng)絡(luò)安全的技術(shù)變化快、細(xì)分領(lǐng)域多、數(shù)據(jù)敏感等原因, 尋找合適的網(wǎng)絡(luò)安全數(shù)據(jù)一直是研究者們進(jìn)行科研和老師開(kāi)展實(shí)踐教學(xué)時(shí)關(guān)注的重要問(wèn)題。本文總結(jié)并分析了多個(gè)領(lǐng)域的經(jīng)典公開(kāi)安全數(shù)據(jù)集, 發(fā)現(xiàn)其在研究應(yīng)用時(shí)存在數(shù)據(jù)舊、規(guī)模小、危害大等不足; 克服安全數(shù)據(jù)領(lǐng)域選擇、大規(guī)模實(shí)戰(zhàn)數(shù)據(jù)獲取、安全隱私開(kāi)放等困難, 構(gòu)造了更符合當(dāng)前科研需求DataCon安全數(shù)據(jù)集。數(shù)據(jù)集大規(guī)模覆蓋DNS、惡意軟件、加密惡意流量、僵尸網(wǎng)絡(luò)、網(wǎng)絡(luò)黑產(chǎn)等多個(gè)領(lǐng)域, 且均來(lái)自實(shí)戰(zhàn)化場(chǎng)景,并基于DataCon競(jìng)賽平臺(tái)將其開(kāi)放給參賽者和科研人員。目前, DataCon數(shù)據(jù)集涵蓋了已成功舉辦四屆的“DataCon大數(shù)據(jù)安全分析大賽”的全部數(shù)據(jù), 大賽被國(guó)家教育部評(píng)為優(yōu)秀案例, 并進(jìn)入多所高校研究生加分名單, 數(shù)據(jù)內(nèi)容也一直隨著真實(shí)網(wǎng)絡(luò)環(huán)境中攻防場(chǎng)景的變化而持續(xù)更新。目前, DataCon數(shù)據(jù)集涵蓋了已成功舉辦四屆的“DataCon大數(shù)據(jù)安全分析大賽”的全部數(shù)據(jù), 大賽被國(guó)家教育部評(píng)為優(yōu)秀案例, 并進(jìn)入多所高校研究生加分名單, 數(shù)據(jù)內(nèi)容也一直隨著真實(shí)網(wǎng)絡(luò)環(huán)境中攻防場(chǎng)景的變化而持續(xù)更新。數(shù)據(jù)集持續(xù)收到科研人員、學(xué)術(shù)的數(shù)據(jù)使用申請(qǐng), 支撐了多篇學(xué)術(shù)論文的發(fā)表, 充分說(shuō)明了其有效性和可用性。我們希望DataCon數(shù)據(jù)及競(jìng)賽能夠?qū)W(wǎng)絡(luò)安全領(lǐng)域產(chǎn)、學(xué)、研結(jié)合有所幫助和促進(jìn)。
DataCon; 安全研究; 開(kāi)放數(shù)據(jù); 競(jìng)賽
近幾年來(lái), 數(shù)據(jù)開(kāi)放共享逐漸成為一種趨勢(shì), 極大促進(jìn)了相關(guān)領(lǐng)域研究、應(yīng)用的發(fā)展。然而, 網(wǎng)絡(luò)安全行業(yè)的數(shù)據(jù)與用戶(hù)的安全和隱私非常密切, 使得產(chǎn)業(yè)界數(shù)據(jù)開(kāi)放處于封閉、滯后狀態(tài)。雖然有研究人員通過(guò)主動(dòng)采集、仿真生成等方式獲得并公開(kāi)了多個(gè)經(jīng)典的安全數(shù)據(jù)集, 為安全研究的進(jìn)步做出了諸多貢獻(xiàn), 但這些公開(kāi)數(shù)據(jù)依舊難以滿足當(dāng)前安全研究的需求。將產(chǎn)業(yè)界的真實(shí)安全數(shù)據(jù)通過(guò)合理方式開(kāi)放, 能夠加強(qiáng)產(chǎn)、學(xué)、研結(jié)合, 有力地促進(jìn)技術(shù)提升。
作為國(guó)內(nèi)首個(gè)以大數(shù)據(jù)安全分析為目標(biāo)的開(kāi)放賽事平臺(tái), DataCon[1]克服數(shù)據(jù)獲取、開(kāi)放等方面的諸多挑戰(zhàn)構(gòu)建并開(kāi)放了多個(gè)領(lǐng)域的大規(guī)模、高價(jià)值、高真實(shí)DataCon安全數(shù)據(jù)集, 用于支持實(shí)戰(zhàn)化對(duì)抗場(chǎng)景分析比賽以及各類(lèi)型的科研、教學(xué)。在2019-2022年成功舉辦四屆“DataCon大數(shù)據(jù)安全分析競(jìng)賽”并持續(xù)更新DataCon安全數(shù)據(jù)集, 競(jìng)賽和數(shù)據(jù)支撐產(chǎn)生了多個(gè)有價(jià)值的工作。
本文其余章節(jié)組織架構(gòu)如下: 第2節(jié)介紹了現(xiàn)有安全數(shù)據(jù)集狀況; 第3節(jié)總結(jié)了構(gòu)建DataCon安全數(shù)據(jù)集面臨的挑戰(zhàn)及其包含的五個(gè)應(yīng)用領(lǐng)域安全數(shù)據(jù)狀況; 第4節(jié)分別對(duì)DataCon競(jìng)賽平臺(tái)及數(shù)據(jù)集的安全開(kāi)放保障進(jìn)行了說(shuō)明; 第5節(jié)基于實(shí)際的開(kāi)放賽事對(duì)數(shù)據(jù)集的分析使用情況進(jìn)行說(shuō)明; 最后第6節(jié)總結(jié)全文工作并展望下一步規(guī)劃。
數(shù)據(jù)集是進(jìn)行科學(xué)研究的重要資源, 其質(zhì)量對(duì)研究成果有著重要的影響。本節(jié)將對(duì)各個(gè)安全領(lǐng)域中較為經(jīng)典的公開(kāi)安全數(shù)據(jù)集進(jìn)行介紹, 并說(shuō)明其支持當(dāng)前科研的不足之處。
KDD CUP 99數(shù)據(jù)集[2]及其衍生數(shù)據(jù)集NSL-KDD[3]被廣泛應(yīng)用于入侵檢測(cè)領(lǐng)域科研論文的相關(guān)實(shí)驗(yàn)[4-11]。該數(shù)據(jù)集是1999年KDD CUP的競(jìng)賽數(shù)據(jù), 基于DRARPA 98數(shù)據(jù)[12](即美國(guó)國(guó)防部高級(jí)研究規(guī)劃署在麻省理工學(xué)院林肯實(shí)驗(yàn)室實(shí)施入侵檢測(cè)評(píng)估項(xiàng)目生成的高仿真TCPdump網(wǎng)絡(luò)連接和系統(tǒng)審計(jì)數(shù)據(jù))進(jìn)行一定的加工和預(yù)處理后獲得, 以“連接”為基本記錄單位?!斑B接”是在一個(gè)固定的時(shí)間間隔內(nèi), 源IP到目標(biāo)從開(kāi)始到結(jié)束的TCP數(shù)據(jù)包。數(shù)據(jù)集的時(shí)間跨度為9周, 其中7周約500萬(wàn)條記錄作為訓(xùn)練數(shù)據(jù)和2周約200萬(wàn)條記錄作為測(cè)試數(shù)據(jù)。每條“連接”記錄都有41個(gè)固定的特征屬性; 此外, 訓(xùn)練數(shù)據(jù)有1種正常的標(biāo)識(shí)類(lèi)型 normal 和 22種攻擊類(lèi)型(如表1所示), 測(cè)試數(shù)據(jù)則包含更具有現(xiàn)實(shí)性未知的攻擊類(lèi)型。
表1 KDD CUP 99數(shù)據(jù)集
theZoo[13]是在GitHub獲得6200多個(gè)star的惡意軟件分析開(kāi)源項(xiàng)目。該項(xiàng)目由Yuval tisf Nativ于2014年1月創(chuàng)建, 目前由Shahak Shalev進(jìn)行維護(hù), 旨在通過(guò)安全可訪問(wèn)的形式提供各個(gè)版本惡意軟件的開(kāi)放分析使用。目前為止, 該項(xiàng)目包含237個(gè)二進(jìn)制形式的惡意軟件樣本, 80個(gè)疑似原始惡意軟件源代碼, 6個(gè)可逆向的惡意軟件源代碼。每個(gè)惡意軟件目錄包含四個(gè)文件: 加密ZIP存檔的惡意軟件文件、加密惡意軟件的SHA256編碼、加密惡意軟件的MD5編碼和存檔密碼。除此之外, DAS MALWERK[14]提供了Robert Svensson從互聯(lián)網(wǎng)收集的600多個(gè)可執(zhí)行惡意軟件; Contagio[15]是Mil收集、公開(kāi)的30多個(gè)各類(lèi)型可執(zhí)行惡意軟件樣本。
CTU-13-數(shù)據(jù)集[16]是2011年捷克CTU(Czech Technical University in Prague)大學(xué)在MCFP(The Malware Capture Facility Project)中捕獲的網(wǎng)絡(luò)流量數(shù)據(jù), 包括僵尸網(wǎng)絡(luò)流量、正常流量、背景流量。該數(shù)據(jù)集包含13個(gè)不同僵尸網(wǎng)絡(luò)樣本的捕獲, 每種情況都是通過(guò)長(zhǎng)期執(zhí)行一種特定的惡意軟件并在執(zhí)行期間持續(xù)監(jiān)測(cè)、采集相關(guān)流量數(shù)據(jù)。每一類(lèi)僵尸網(wǎng)絡(luò)數(shù)據(jù)原始流量都存儲(chǔ)在對(duì)應(yīng)的pcap文件, 預(yù)處理后的所有流量數(shù)據(jù)(包括標(biāo)簽和argus生成的雙向netflow文件)存儲(chǔ)在biargus文件。
Alex Top 100萬(wàn)域名數(shù)據(jù)[17]和開(kāi)放惡意域名數(shù)據(jù)(如奇安信威脅情報(bào)中心IOC域名[18]、ZeusDGA[19]等)常常被用于可疑域名檢測(cè)分析、入侵檢測(cè)、web應(yīng)用防護(hù)等領(lǐng)域的研究, 以開(kāi)放惡意域名作為黑樣本, Alexa Top除惡意域名外的域名作為白樣本。Alex Top 100萬(wàn)域名數(shù)據(jù)有近100萬(wàn)條數(shù)據(jù)記錄, 每條記錄包括域名及其在某時(shí)間的靜態(tài)排名; 奇安信威脅情報(bào)中心IOC域名包含已證實(shí)APT惡意域名及其所屬組織等信息。
UCI機(jī)器學(xué)習(xí)庫(kù)提供了兩個(gè)釣魚(yú)網(wǎng)站數(shù)據(jù)集: Mohammad數(shù)據(jù)集[20]和Abdelhamid數(shù)據(jù)集[21]。Mohammad數(shù)據(jù)集在2015年發(fā)布, 包含有2456個(gè)釣魚(yú)網(wǎng)站實(shí)例, 每個(gè)實(shí)例有30個(gè)不同屬性, 目前已被訪問(wèn)15.1萬(wàn)次。Abdelhamid數(shù)據(jù)集在2016年發(fā)布, 通過(guò)不同來(lái)源收集了1353個(gè)網(wǎng)站數(shù)據(jù), 其中包含548個(gè)合法網(wǎng)站、702個(gè)釣魚(yú)URL和103個(gè)可疑URL,
目前已被訪問(wèn)8.6萬(wàn)次。此外, SofaSofa釣魚(yú)欺詐網(wǎng)站識(shí)別數(shù)據(jù)集[22]公開(kāi)了通過(guò)爬蟲(chóng)獲取的10086個(gè)網(wǎng)站訓(xùn)練樣本和7000個(gè)預(yù)測(cè)樣本, 每條樣本記錄都包含有18個(gè)特征變量。
上述經(jīng)典公開(kāi)安全數(shù)據(jù)集對(duì)于網(wǎng)絡(luò)安全研究起到了很大的促進(jìn)和幫助作用, 然而, 它們已經(jīng)難以滿足現(xiàn)在更實(shí)時(shí)、全面、無(wú)危害的安全研究需求。本節(jié)將從數(shù)據(jù)陳舊、有效規(guī)模小、危害大三個(gè)方面對(duì)此論證。
2.2.1 數(shù)據(jù)陳舊
前述大多數(shù)據(jù)集的生產(chǎn)與采集時(shí)間距今已有多年。近幾十年來(lái), 網(wǎng)絡(luò)技術(shù)飛速發(fā)展, 如果數(shù)據(jù)集的產(chǎn)生時(shí)間較早則根本無(wú)法有效反映當(dāng)前的網(wǎng)絡(luò)安全狀況, 進(jìn)而導(dǎo)致基于此的安全研究成果與實(shí)際情況偏差較大。
章節(jié)2.1中共提到13個(gè)數(shù)據(jù)集, 其中8個(gè)為單次發(fā)布, 5個(gè)為持續(xù)更新。8個(gè)單次發(fā)布數(shù)據(jù)集的已產(chǎn)生時(shí)間分布如圖1所示, 25%的數(shù)據(jù)集產(chǎn)生時(shí)間在20年前, 50%的數(shù)據(jù)集已產(chǎn)生5~10年, 僅有1個(gè)產(chǎn)生1年的數(shù)據(jù)集還是時(shí)效性極高的釣魚(yú)網(wǎng)站數(shù)據(jù)(生存周期通常以天為單位)。顯然, 這些較為老舊的數(shù)據(jù)已無(wú)法準(zhǔn)確地反映對(duì)應(yīng)領(lǐng)域的當(dāng)前狀況。
2.2.2 有效規(guī)模小
現(xiàn)有數(shù)據(jù)集的有效規(guī)模較小, 主要包括數(shù)據(jù)集的整體規(guī)模小和數(shù)據(jù)集的有效數(shù)據(jù)少兩大類(lèi)。如果分析的數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)小于實(shí)戰(zhàn)場(chǎng)景下的海量數(shù)據(jù)規(guī)模, 則很可能得出較為片面的結(jié)果和認(rèn)知。
數(shù)據(jù)規(guī)模小, 是指該數(shù)據(jù)集規(guī)模遠(yuǎn)遠(yuǎn)小于該類(lèi)型數(shù)據(jù)的體量。例如, 2個(gè)UCI釣魚(yú)網(wǎng)站數(shù)據(jù)集量級(jí)均為千、SofaSofa釣魚(yú)欺詐網(wǎng)站數(shù)據(jù)量級(jí)為萬(wàn), 遠(yuǎn)遠(yuǎn)小于每日新增的50萬(wàn)釣魚(yú)網(wǎng)站數(shù)量[23]; theZoo、DAS MALWERK、Contagio等惡意軟件樣本的數(shù)據(jù)量級(jí)更是僅在數(shù)十到數(shù)百之間。
圖1 現(xiàn)有數(shù)據(jù)集的產(chǎn)生時(shí)間
Figure 1 The generate time of exist data set
數(shù)據(jù)集的有效數(shù)據(jù)少, 是指數(shù)據(jù)集中包含大量的冗余數(shù)據(jù), 有效信息只占有較低的比例。例如KDD99數(shù)據(jù)集和CTU-13-數(shù)據(jù)集中的原始流量中包含大量的冗余數(shù)據(jù), 甚至有人針對(duì)冗余數(shù)據(jù)進(jìn)行分析、優(yōu)化和提煉[3,7]。
2.2.3 危害性大
危害性主要存在于惡意軟件樣本數(shù)據(jù)?,F(xiàn)有的公開(kāi)惡意軟件樣本數(shù)據(jù)通常包含可執(zhí)行的惡意軟件源代碼、文件, 其中不乏已造成重大損失和危害的惡意軟件。雖然發(fā)布者在進(jìn)行開(kāi)放共享時(shí)通常會(huì)通過(guò)免責(zé)聲明、使用說(shuō)明的方式建議使用者只將惡意軟件用于研究并在運(yùn)行時(shí)將其限制在未聯(lián)網(wǎng)環(huán)境或虛擬機(jī)。但是, 惡意軟件被使用者獲取后的實(shí)際用途并不受數(shù)據(jù)發(fā)布者控制。免責(zé)申明、使用說(shuō)明只能代表數(shù)據(jù)發(fā)布者的想法, 不能限制好奇使用者將獲取的惡意軟件樣本非正常使用, 對(duì)自身或它人造成危害、損失; 甚至, 惡意使用者可以將惡意軟件開(kāi)放渠道作為工具中心獲取大量的攻擊工具來(lái)提升其實(shí)施各類(lèi)型惡意行為的能力。
針對(duì)安全研究、競(jìng)賽分析的實(shí)際需求和現(xiàn)有數(shù)據(jù)集在使用中的不足, DataCon安全競(jìng)賽平臺(tái)緊緊圍繞幫助培養(yǎng)大數(shù)據(jù)安全人才的目標(biāo), 克服各種挑戰(zhàn), 構(gòu)建了更符合當(dāng)前需求場(chǎng)景的高實(shí)戰(zhàn)、多領(lǐng)域大規(guī)模覆蓋的DataCon安全數(shù)據(jù)集。
DataCon安全數(shù)據(jù)集構(gòu)建主要面臨著選擇獲取數(shù)據(jù)和數(shù)據(jù)安全開(kāi)放兩個(gè)方面的挑戰(zhàn)。
3.1.1 數(shù)據(jù)的選擇和獲取
選擇哪些細(xì)分領(lǐng)域的安全數(shù)據(jù)來(lái)支持安全研究和競(jìng)賽分析是需要面對(duì)的第一個(gè)問(wèn)題。針對(duì)該問(wèn)題, DataCon委員會(huì)整合奇安信科技集團(tuán)和清華大學(xué)資源, 協(xié)調(diào)多個(gè)業(yè)務(wù)、研究部門(mén)的業(yè)務(wù)技術(shù)專(zhuān)家, 從防御者、研究者的視角精挑細(xì)選確定DataCon安全數(shù)據(jù)集的五個(gè)領(lǐng)域, 同時(shí)支撐競(jìng)賽平臺(tái)大數(shù)據(jù)安全分析比賽的五個(gè)賽道。五個(gè)領(lǐng)域分別是: DNS數(shù)據(jù)、惡意軟件數(shù)據(jù)、加密惡意流量數(shù)據(jù)、僵尸網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)黑產(chǎn)數(shù)據(jù)。
確定數(shù)據(jù)集領(lǐng)域后要解決的第二個(gè)問(wèn)題是如何大規(guī)模獲取這些細(xì)分安全領(lǐng)域的高實(shí)戰(zhàn)原始數(shù)據(jù)。經(jīng)過(guò)協(xié)調(diào)多個(gè)業(yè)務(wù)、研究部門(mén)的實(shí)戰(zhàn)場(chǎng)景資源, 在DNS方向每年獲取真實(shí)DNS請(qǐng)求信息; 在惡意軟件方向, 持續(xù)捕獲現(xiàn)網(wǎng)惡意軟件; 加密惡意流量數(shù)據(jù)方向, 投入奇安信技術(shù)研究院天穹沙箱運(yùn)行每年最新采集的惡意和正常軟件并持續(xù)采集篩選其產(chǎn)生的流量; 僵尸網(wǎng)絡(luò)方向, 同樣通過(guò)部署公網(wǎng)開(kāi)放蜜罐進(jìn)行數(shù)據(jù)采集; 網(wǎng)絡(luò)黑產(chǎn)方向, 投入奇安信采集的惡意網(wǎng)站域名、鏈接與正常網(wǎng)站域名、鏈接數(shù)據(jù)。通過(guò)上述各方向的持續(xù)投入和采集, 獲得DataCon數(shù)據(jù)集的原始數(shù)據(jù)。
3.1.2 數(shù)據(jù)開(kāi)放使用的挑戰(zhàn)
原始安全數(shù)據(jù)直接開(kāi)放使用會(huì)面臨多方面的風(fēng)險(xiǎn), 如用戶(hù)隱私泄露風(fēng)險(xiǎn)、惡意軟件傳播風(fēng)險(xiǎn)等。原始安全數(shù)據(jù)往往包含用戶(hù)或第三方的各類(lèi)型行為記錄隱私和身份標(biāo)識(shí)信息, 將其直接開(kāi)放, 不僅帶來(lái)用戶(hù)隱私信息泄露的風(fēng)險(xiǎn), 而且違反《個(gè)人信息保護(hù)法》等相關(guān)的法律法規(guī)。惡意軟件樣本通常具備一定破壞性, 不做限制直接開(kāi)放傳播, 既可能被使用者惡意使用或不當(dāng)使用危害它人計(jì)算機(jī)信息系統(tǒng), 又可能違反《刑法》、《治安管理處罰法》、《計(jì)算機(jī)病毒防治管理辦法》等相關(guān)法律法規(guī)中關(guān)于涉嫌破壞計(jì)算機(jī)信息系統(tǒng)的內(nèi)容。
通過(guò)隱私保護(hù)等措施降低風(fēng)險(xiǎn)的同時(shí)如何確保數(shù)據(jù)可用性更提升了數(shù)據(jù)開(kāi)放的隱私保護(hù)難度。大數(shù)據(jù)分析與原始數(shù)據(jù)特征息息相關(guān), 一旦脫敏過(guò)程中破壞數(shù)據(jù)特征將會(huì)嚴(yán)重影響大數(shù)據(jù)分析的結(jié)果, 從而無(wú)法滿足數(shù)據(jù)開(kāi)放支撐研究和競(jìng)賽分析的初衷。因此, 在對(duì)前述情況進(jìn)行脫敏處理時(shí), 需要盡可能保護(hù)數(shù)據(jù)可用性, 不影響數(shù)據(jù)集的研究、分析使用效果。詳細(xì)脫敏工作介紹見(jiàn)第4.2章內(nèi)容。
接下來(lái)將以2020年數(shù)據(jù)集為例對(duì)5個(gè)細(xì)分領(lǐng)域的DataCon數(shù)據(jù)進(jìn)行詳細(xì)介紹。
3.2.1 DNS數(shù)據(jù)
DataCon DNS數(shù)據(jù)集[24]是經(jīng)過(guò)處理的部分2020年3~5月真實(shí)DNS請(qǐng)求信息, 包括三個(gè)不同的子數(shù)據(jù)集。DNS數(shù)據(jù)集1是來(lái)自1000個(gè)惡意域名以及約20000個(gè)請(qǐng)求量與之相似的干擾域名的DNS請(qǐng)求信息, 信息內(nèi)容具體包含客戶(hù)端IP信息、域名、解析結(jié)果、相關(guān)域名whois信息等。DNS數(shù)據(jù)集2分為訓(xùn)練集和測(cè)試集, 訓(xùn)練集包含約2000個(gè)有標(biāo)簽黑白域名的DNS請(qǐng)求信息, 測(cè)試集包含10000多個(gè)無(wú)標(biāo)簽黑白域名的DNS請(qǐng)求信息, 信息內(nèi)容具體包含客戶(hù)端IP信息、域名、解析結(jié)果等。DNS數(shù)據(jù)集3 是來(lái)自約10000個(gè)無(wú)標(biāo)簽黑白域名的DNS請(qǐng)求信息, 信息內(nèi)容具體包含客戶(hù)端IP信息、域名、解析結(jié)果、TTL等。不同數(shù)據(jù)子集各自存放在一個(gè)文件目錄下, 目錄中包含的文件名、內(nèi)容解釋、數(shù)據(jù)量如表2所示, 各文件的字段介紹如表3所示。
3.2.2 惡意軟件數(shù)據(jù)
DataCon惡意軟件數(shù)據(jù)集[25]源自每天從現(xiàn)網(wǎng)捕獲的惡意代碼, 分為訓(xùn)練集和測(cè)試集兩部分, 訓(xùn)練集中包含6000個(gè)有標(biāo)記的惡意軟件樣本文件(2000個(gè)黑樣本為明確的挖礦型惡意代碼, 4000個(gè)白樣本為明確的非挖礦型惡意代碼), 測(cè)試集包含6000個(gè)未標(biāo)記的待檢測(cè)惡意代碼樣本文件。單個(gè)惡意代碼樣本的大小主要在20KB至10MB之間, 樣本的總大小約為12GB。
表2 DataCon_DNS數(shù)據(jù)內(nèi)容及規(guī)模概況
表3 DataCon_DNS數(shù)據(jù)字段解釋
為確保樣本多樣性, 基于百萬(wàn)個(gè)樣本的惡意樣本集進(jìn)行相似性分析, 過(guò)濾掉相似樣本后, 最終獲得全部12000個(gè)樣本。
此外, 為避免樣本運(yùn)行, 樣本PE結(jié)構(gòu)中的MZ頭、PE頭、導(dǎo)入導(dǎo)出表等區(qū)域均已抹去, 雖然無(wú)法動(dòng)態(tài)分析, 但其代碼指令特征依然存在。
3.2.3 加密惡意流量數(shù)據(jù)
DataCon加密惡意流量數(shù)據(jù)集[26]源自于2020年2月~6月收集的惡意軟件與正常軟件, 經(jīng)奇安信技術(shù)研究院天穹沙箱運(yùn)行并采集其產(chǎn)生的流量篩選生成。本數(shù)據(jù)集定義的惡意流量為惡意軟件(均為exe類(lèi)型)產(chǎn)生的加密流量, 白流量為正常軟件(均為exe類(lèi)型)產(chǎn)生的加密流量。流量?jī)?nèi)容為443端口產(chǎn)生的TLS/SSL數(shù)據(jù)包。
數(shù)據(jù)集包括訓(xùn)練集和測(cè)試集, 訓(xùn)練集規(guī)模為3000個(gè)有標(biāo)注的pcap文件(其中黑樣本、白樣本數(shù)量均為1500), 測(cè)試集規(guī)模為2000個(gè)待檢測(cè)pcap文件, 每個(gè)pcap文件都是一個(gè)惡意軟件在一個(gè)客戶(hù)端IP產(chǎn)生的流量數(shù)據(jù), 不同pacp文件代表不同惡意軟件產(chǎn)生的惡意流量。訓(xùn)練集和測(cè)試集的黑樣本分別為2020年2月~2020年5月和2020年6月捕獲的惡意軟件加密流量, 所有白樣本均為2020年捕獲的正常軟件加密流量。
3.2.4 僵尸網(wǎng)絡(luò)數(shù)據(jù)
DataCon僵尸網(wǎng)絡(luò)數(shù)據(jù)集[28]包括兩個(gè)子數(shù)據(jù)集, 分別是相同獲取來(lái)源僵尸網(wǎng)絡(luò)樣本文件數(shù)據(jù)集和HTTP蜜罐數(shù)據(jù)集。
僵尸網(wǎng)絡(luò)樣本文件數(shù)據(jù)集, 來(lái)自部分公網(wǎng)開(kāi)放蜜罐捕獲到的僵尸網(wǎng)絡(luò)文件投遞行為。分兩個(gè)部分, 第一部分為僵尸網(wǎng)絡(luò)文件樣本, 第二部分為樣本間的來(lái)源關(guān)系, 即被同一個(gè)IP投遞且下發(fā)地址為同一個(gè)IP, 這樣的樣本大概率會(huì)有代碼上的相似特性, 部分可以確定為同一套源碼編譯。僵尸網(wǎng)絡(luò)樣本文件數(shù)據(jù)均為32位ELF。樣本文件“mips”為MIPS大端可執(zhí)行文件, 樣本文件“x86”為Intel IA-32小端可執(zhí)行文件。每個(gè)類(lèi)型各512個(gè)文件, 且對(duì)于每個(gè)文件而言, 都有另一個(gè)文件集中的一個(gè)文件和它“同源”(即從同一套源碼編譯而來(lái)或在同一套源碼之上略作改動(dòng)編譯而來(lái))。
HTTP蜜罐數(shù)據(jù)集來(lái)自部分公網(wǎng)開(kāi)放蜜罐捕獲的HTTP請(qǐng)求流量, 數(shù)據(jù)采集的時(shí)間范圍是2020年5月。存儲(chǔ)形式為一個(gè)2.53GB的honeypot.json文件, 包含2745694行記錄, 文每一行為一個(gè)JSON字符串, 代表一條蜜罐日志, 即針對(duì)蜜罐的一次HTTP請(qǐng)求, 詳細(xì)字段解釋如表4所示:
表4 蜜罐數(shù)據(jù)字段介紹
3.2.5 網(wǎng)絡(luò)黑產(chǎn)數(shù)據(jù)
DataCon網(wǎng)絡(luò)黑產(chǎn)數(shù)據(jù)集[28]源自于奇安信在2020年7月下旬~8月上旬期間收集的惡意網(wǎng)站域名、鏈接與正常網(wǎng)站域名、鏈接數(shù)據(jù)。本數(shù)據(jù)集共分為12個(gè)數(shù)據(jù)子集, 每個(gè)數(shù)據(jù)子集包含一個(gè).txt格式的域名、URL混合列表文件以及一個(gè)csv格式的域名備案信息文件。域名備案信息包括8個(gè)特征項(xiàng): 域名、網(wǎng)站備案號(hào)、位名稱(chēng)、單位性質(zhì)、審核時(shí)間、網(wǎng)站名稱(chēng)、網(wǎng)站地址、詳細(xì)地址。本數(shù)據(jù)集及各子集的數(shù)據(jù)規(guī)模詳情如所示。
表5 DataCon 網(wǎng)絡(luò)黑產(chǎn)數(shù)據(jù)集狀況
由于網(wǎng)絡(luò)黑產(chǎn)數(shù)據(jù)是完全實(shí)戰(zhàn)化場(chǎng)景, 數(shù)據(jù)集中網(wǎng)站網(wǎng)絡(luò)情況以及運(yùn)營(yíng)情況變化無(wú)法預(yù)測(cè), 導(dǎo)致同一域名或同一URL在不同時(shí)間所展示的內(nèi)容不一樣, 所以本數(shù)據(jù)集不提供具體的黑產(chǎn)分類(lèi)信息。本數(shù)據(jù)集涉及的黑產(chǎn)類(lèi)別包含且不限于如下類(lèi)別: 涉賭、涉黃、涉毒、涉槍、涉詐、傳銷(xiāo)、接碼平臺(tái)、賬號(hào)買(mǎi)賣(mài)、個(gè)人信息買(mǎi)賣(mài)、黑客相關(guān)、發(fā)卡平臺(tái)、空包、卡池貓池、網(wǎng)賺、游戲私服、流量劫持、政府仿冒、假證買(mǎi)賣(mài)、支付平臺(tái)、跑分平臺(tái)、IDC服務(wù)商、CDN服務(wù)商等, 其中還包含大量的正規(guī)網(wǎng)站劫持事件。部分網(wǎng)絡(luò)黑產(chǎn)類(lèi)別定義如表6所示。
表6 部分網(wǎng)絡(luò)黑產(chǎn)類(lèi)別定義
DataCon數(shù)據(jù)集應(yīng)用于安全研究和比賽分析場(chǎng)景具有多方面的優(yōu)勢(shì), 如高實(shí)戰(zhàn)性、多領(lǐng)域大規(guī)模覆蓋、脫敏開(kāi)放(低危害性)等。
3.3.1 高實(shí)戰(zhàn)性
DataCon數(shù)據(jù)集來(lái)源于實(shí)戰(zhàn)、服務(wù)于實(shí)戰(zhàn), 為相關(guān)研究和分析提供了應(yīng)用場(chǎng)景和實(shí)施方式的案例支撐。其高實(shí)戰(zhàn)性, 主要通過(guò)三個(gè)方面來(lái)體現(xiàn): 來(lái)源真實(shí)、數(shù)據(jù)新鮮、熱點(diǎn)業(yè)務(wù)。
來(lái)源真實(shí), 即數(shù)據(jù)集的所有原始數(shù)據(jù)都是從現(xiàn)網(wǎng)的實(shí)戰(zhàn)業(yè)務(wù)環(huán)境中采集和獲取, 而不是通過(guò)構(gòu)建仿真系統(tǒng)生成。仿真系統(tǒng)通常只能考慮到真實(shí)環(huán)境中的一部分影響要素, 生成仿真數(shù)據(jù)和現(xiàn)網(wǎng)抓取數(shù)據(jù)相比存在一定偏差?;诜抡鏀?shù)據(jù)進(jìn)行研究和分析, 其發(fā)現(xiàn)成果必然會(huì)和實(shí)際狀況有所偏差, 實(shí)戰(zhàn)場(chǎng)景應(yīng)用效果同樣會(huì)受到影響。直接使用源自于現(xiàn)網(wǎng)的真實(shí)數(shù)據(jù)可以有效的避免這一問(wèn)題, 提升研究和分析效果。
數(shù)據(jù)新鮮, 即數(shù)據(jù)集來(lái)自于最近時(shí)間段(每年競(jìng)賽中都會(huì)開(kāi)放最新數(shù)據(jù)), 可以較好地反映相關(guān)領(lǐng)域的當(dāng)前狀況。隨著技術(shù)不斷地更新、升級(jí)和迭代, 各個(gè)領(lǐng)域產(chǎn)生的數(shù)據(jù)及其特征同樣會(huì)隨之變化。采集時(shí)間較久的數(shù)據(jù), 其數(shù)據(jù)特征與當(dāng)前實(shí)際狀況存在偏差, 研究和分析結(jié)果同樣會(huì)受到影響從而與實(shí)際狀況產(chǎn)生偏差?;谳^為新鮮的數(shù)據(jù)進(jìn)行研究和分析, 能夠更好地反映該領(lǐng)域的當(dāng)前狀況。
熱點(diǎn)業(yè)務(wù), 數(shù)據(jù)集的數(shù)據(jù)采集領(lǐng)域都是較為熱點(diǎn)的領(lǐng)域, 受到廣大安全從業(yè)者和攻擊者關(guān)注?;跓狳c(diǎn)業(yè)務(wù)的數(shù)據(jù)集進(jìn)行研究, 能在更大的范圍內(nèi)影響當(dāng)前網(wǎng)絡(luò)空間安全態(tài)勢(shì)。
3.3.2 多領(lǐng)域大規(guī)模覆蓋
DataCon數(shù)據(jù)集涉及領(lǐng)域范圍全面、數(shù)據(jù)有效規(guī)模大, 實(shí)現(xiàn)了安全數(shù)據(jù)的多領(lǐng)域大規(guī)模覆蓋。
如章節(jié)3.2所述, DataCon數(shù)據(jù)集數(shù)據(jù)涉及多個(gè)安全領(lǐng)域, 囊括了DNS數(shù)據(jù)、惡意軟件數(shù)據(jù)、加密惡意流量數(shù)據(jù)、僵尸網(wǎng)絡(luò)數(shù)據(jù)、網(wǎng)絡(luò)黑產(chǎn)數(shù)據(jù)五個(gè)領(lǐng)域方向的數(shù)據(jù)。DNS是互聯(lián)網(wǎng)基礎(chǔ)協(xié)議之一, 一直是互聯(lián)網(wǎng)通信的重要研究?jī)?nèi)容, 以此數(shù)據(jù)為基礎(chǔ)能夠從主流防御者的角度進(jìn)行分析考察。惡意軟件同樣是非常傳統(tǒng)的安全領(lǐng)域, 各類(lèi)木馬、病毒、勒索軟件、挖礦軟件等感染了越來(lái)越多的互聯(lián)網(wǎng)用戶(hù)并造成大量危害, 相關(guān)領(lǐng)域的研究分析能幫助促進(jìn)惡意軟件的快速檢測(cè)發(fā)現(xiàn)。加密惡意流量數(shù)據(jù)則是加密通信前提下對(duì)惡意軟件數(shù)據(jù)進(jìn)行分析檢測(cè), TLS等部署成本越來(lái)越低, 越來(lái)越多的惡意軟件使用加密作為主要傳輸手段, 相關(guān)流量監(jiān)測(cè)分析成為惡意軟件發(fā)現(xiàn)的新戰(zhàn)場(chǎng)。僵尸網(wǎng)絡(luò)一直是進(jìn)行DDoS等網(wǎng)絡(luò)攻擊事件的基礎(chǔ), DDoS防御工作會(huì)長(zhǎng)期與僵尸網(wǎng)絡(luò)的研究和監(jiān)控緊密相關(guān)。網(wǎng)絡(luò)黑產(chǎn)受巨大利益驅(qū)使, 不僅搭建各類(lèi)黑灰產(chǎn)網(wǎng)站, 還為了引流、提升搜索引擎排名攻擊正規(guī)網(wǎng)站, 對(duì)黑產(chǎn)網(wǎng)站進(jìn)行分析研究, 才能夠達(dá)成知己知彼知威脅并實(shí)施有效的黑產(chǎn)發(fā)現(xiàn)、打擊。
上述各個(gè)領(lǐng)域數(shù)據(jù)子集的規(guī)模在對(duì)應(yīng)領(lǐng)域公開(kāi)數(shù)據(jù)集中都處于領(lǐng)先地位, 足以支撐相關(guān)的大數(shù)據(jù)安全分析。DNS數(shù)據(jù)集, 涉及約4萬(wàn)個(gè)域名的3200多萬(wàn)條各類(lèi)型記錄信息, 現(xiàn)有經(jīng)典公開(kāi)數(shù)據(jù)集中從未出現(xiàn)過(guò)惡意軟件數(shù)據(jù)包含6000個(gè)惡意軟件樣本, 要遠(yuǎn)遠(yuǎn)超過(guò)現(xiàn)有公開(kāi)數(shù)據(jù)集中的數(shù)百個(gè)。加密惡意流量數(shù)據(jù)包含 5000個(gè)有標(biāo)注的pcap文件。僵尸網(wǎng)絡(luò)數(shù)據(jù)則包含2745694行HTTP蜜罐數(shù)據(jù)以及1024個(gè)存在同源關(guān)系的僵尸網(wǎng)絡(luò)樣本。網(wǎng)絡(luò)黑產(chǎn)數(shù)據(jù)包括 273萬(wàn)域名URL信息和6.4萬(wàn)域名備案信息。
3.3.3 脫敏開(kāi)放
DataCon數(shù)據(jù)集在開(kāi)放使用之前會(huì)根據(jù)領(lǐng)域?qū)嶋H情況對(duì)各個(gè)數(shù)據(jù)子集進(jìn)行相關(guān)的脫敏操作。典型脫敏情況如下所示: 數(shù)據(jù)包含產(chǎn)生該數(shù)據(jù)的用戶(hù)標(biāo)識(shí)符信息, 則對(duì)其身份信息進(jìn)行隱私保護(hù)處理; 數(shù)據(jù)包含大量的第三方標(biāo)識(shí)符信息, 同樣需要對(duì)其進(jìn)行隱私保護(hù)處理; 軟件存在危害性, 則需要脫敏破壞其可執(zhí)行性。在對(duì)上述情況進(jìn)行脫敏處理時(shí), 還需要盡可能保護(hù)數(shù)據(jù)可用性, 不影響數(shù)據(jù)集整體的研究、分析使用。詳細(xì)脫敏工作介紹見(jiàn)第4.2章內(nèi)容。
DataCon安全競(jìng)賽平臺(tái), 是國(guó)內(nèi)首個(gè)以大數(shù)據(jù)安全分析為目標(biāo)的開(kāi)放賽事平臺(tái), 為多種安全分析競(jìng)賽提供平臺(tái)支撐、相關(guān)數(shù)據(jù)的安全開(kāi)放及安全交流社區(qū)生態(tài)。
為確保競(jìng)賽公平公正, 競(jìng)賽平臺(tái)在注冊(cè)報(bào)名、賽題發(fā)布、答案提交等基礎(chǔ)功能外, 還提供了具備彈性可擴(kuò)展和數(shù)據(jù)保護(hù)能力的虛擬化執(zhí)行環(huán)境。
競(jìng)賽過(guò)程中, 平臺(tái)將根據(jù)賽事方向確定虛擬化環(huán)境配置及測(cè)試代碼流程和功能的樣例數(shù)據(jù), 并根據(jù)各方向參與人數(shù)同方向所有參賽選手各自提供相同配置的虛擬化環(huán)境。選手可在運(yùn)行環(huán)境中自行配置第三方庫(kù)等依賴(lài)環(huán)境、調(diào)試競(jìng)賽代碼, 并在持久化目錄下存放環(huán)境配置腳本、競(jìng)賽程序代碼, 以免因?yàn)檫\(yùn)行環(huán)境重置導(dǎo)致數(shù)據(jù)丟失。
競(jìng)賽算法運(yùn)行檢測(cè)時(shí), 為避免解題方案執(zhí)行受到外部因素影響或惡意代碼對(duì)外部環(huán)境造成影響, 虛擬環(huán)境會(huì)斷開(kāi)網(wǎng)絡(luò)連接。評(píng)委根據(jù)代碼執(zhí)行結(jié)果及過(guò)程進(jìn)行最終評(píng)判, 能夠?qū)x手的解題思路和方法進(jìn)行充分考察。
依托DataCon開(kāi)放競(jìng)賽平臺(tái), 各項(xiàng)競(jìng)賽能向?qū)W術(shù)界提供真實(shí)的脫敏數(shù)據(jù)資源, 開(kāi)放協(xié)作, 在以產(chǎn)學(xué)研深度融合推進(jìn)安全領(lǐng)域的實(shí)戰(zhàn)性研究成果轉(zhuǎn)化, 為網(wǎng)絡(luò)空間安全的發(fā)展創(chuàng)造更大價(jià)值。
4.2.1 身份標(biāo)識(shí)符隱私保護(hù)
DataCon安全數(shù)據(jù)集中典型的身份標(biāo)識(shí)符/準(zhǔn)標(biāo)識(shí)符信息主要是IP地址、MAC地址、域名信息等。源IP地址、MAC地址能夠?qū)Ξa(chǎn)生信息的用戶(hù)身份信息進(jìn)行唯一標(biāo)識(shí), 進(jìn)而將其他數(shù)據(jù)字段及其中隱含的隱私信息與用戶(hù)身份關(guān)聯(lián)泄露具體用戶(hù)的隱私。目標(biāo)IP地址、域名信息則能夠?qū)⒏黜?xiàng)信息與確切的信息目標(biāo)流向相互關(guān)聯(lián), 從而泄露目標(biāo)IP、域名的相關(guān)內(nèi)容隱私。針對(duì)上述問(wèn)題, DataCon數(shù)據(jù)集結(jié)合數(shù)據(jù)與應(yīng)用場(chǎng)景相關(guān)狀況, 采用多種措施對(duì)身份標(biāo)識(shí)字段進(jìn)行脫敏處理, 從而實(shí)現(xiàn)身份標(biāo)識(shí)符隱私保護(hù)。
加密惡意流量數(shù)據(jù)中, 客戶(hù)端IP的主要作用是對(duì)加密惡意流量產(chǎn)生源進(jìn)行標(biāo)識(shí), 因此對(duì)其處理方式是將原始IP映射為內(nèi)網(wǎng)網(wǎng)段IP, 即完全保留了加密惡意流量產(chǎn)生源的標(biāo)識(shí)區(qū)分能力, 又保護(hù)了原有的加密惡意流量產(chǎn)生源IP信息。
DNS數(shù)據(jù)中, 域名即具備一定的特征信息, 又是訪問(wèn)流量、解析日志中不同記錄的目標(biāo)身份標(biāo)識(shí)。對(duì)其進(jìn)行隱私保護(hù)處理時(shí), 充分考慮到了域名自身的特征信息用于進(jìn)一步分析的可能, 將每個(gè)域名映射為一個(gè)域名代碼和相應(yīng)的字符串特征說(shuō)明, 充分保留了原始域名的字母、數(shù)字、詞語(yǔ)、特殊符號(hào)、頂級(jí)域名、長(zhǎng)度等信息。隱私保護(hù)處理規(guī)則如下: 頂級(jí)域名和特殊符號(hào)保持不變, a表示字母、0表示數(shù)字、[aaa]表示aaa為一個(gè)詞語(yǔ)。如: 原始域名abchello- 12.com 隱私保護(hù)后的特征碼為 aaa[aaaaa]-00.com。此外, DNS數(shù)據(jù)中IP信息(客戶(hù)端IP和域名解析IP地址)既具備特征信息, 又是區(qū)分不同流量來(lái)源、解析目標(biāo)的標(biāo)識(shí)符, 此外還是關(guān)聯(lián)IPwhois信息庫(kù)的唯一標(biāo)識(shí)。為此, 在對(duì)其進(jìn)隱私保護(hù)處理時(shí), 將前3段映射為加密字符串僅保留第4段, 并提供加密IP的國(guó)家、省、市、經(jīng)緯度、運(yùn)營(yíng)商等信息。在不泄露用戶(hù)隱私(IP訪問(wèn)記錄)的基礎(chǔ)上保留了IP的唯一標(biāo)識(shí)能力和第四段分布特征, 并滿足了關(guān)聯(lián)IP whois的基本查詢(xún)需求。
此外, 根據(jù)數(shù)據(jù)領(lǐng)域的實(shí)際情況, 還進(jìn)行IP加密、選擇特定端口流量等多樣性的數(shù)據(jù)隱私保護(hù)措施。
4.2.2 軟件脫敏處理
惡意軟件或僵尸網(wǎng)絡(luò)樣本文件的原始文件通常具備危害性和可執(zhí)行性, 不經(jīng)過(guò)處理即公開(kāi)發(fā)布, 可能被惡意使用者當(dāng)作惡意危害他人的攻擊工具, 或被好奇的使用者使用無(wú)意中造成自身或他人的損失。針對(duì)上述問(wèn)題, DataCon數(shù)據(jù)集針對(duì)不同的樣本數(shù)據(jù)和應(yīng)用場(chǎng)景, 對(duì)相關(guān)軟件樣本進(jìn)行脫敏處理, 從而實(shí)現(xiàn)軟件危害性脫敏。
惡意軟件領(lǐng)域會(huì)提供大量可移植可執(zhí)行文件(Portable Executable, PE)文件樣本以供研究分析和比賽使用。PE文件是目前Windows平臺(tái)上的主流可執(zhí)行文件格式, 包括可執(zhí)行程序EXE文件、動(dòng)態(tài)鏈接庫(kù)DLL文件等, 將其安全開(kāi)放需要破壞可執(zhí)行性并保留研究?jī)r(jià)值。分析PE文件格式可知, MS-DOS頭、PE頭、導(dǎo)入導(dǎo)出表等區(qū)域會(huì)涉及到樣本的運(yùn)行。例如: MS-DOS頭包含MZ頭信息、PE頭偏移地址等信息且能夠調(diào)用PE頭; PE頭包含PE文件標(biāo)識(shí)、標(biāo)準(zhǔn)頭、擴(kuò)展頭等信息; 導(dǎo)入表(IMAGE_DIRECTORY_ ENTRY_IMPORT)會(huì)提供PE文件加載時(shí)依賴(lài)的DLL及填充所需函數(shù)的地址; 導(dǎo)入地址表(IMAGE_ DIRECTORY_ENTRY_IAT)則是填充真正的函數(shù)地址。清洗上述區(qū)域信息后, PE樣本文件雖然無(wú)法運(yùn)行進(jìn)行動(dòng)態(tài)分析, 但其惡意行為的指令特征依然存在, 不影響各項(xiàng)靜態(tài)分析的效果。
僵尸網(wǎng)絡(luò)方向用以研究分析和比賽使用的開(kāi)放數(shù)據(jù)是ELF文件樣本。ELF文件是Linux平臺(tái)上的主流可執(zhí)行文件格式, 其文件段(Section)信息一般包括代碼段(.text)、只讀數(shù)據(jù)段(.rodata)、已初始化全局?jǐn)?shù)據(jù)段(.data)、未初始化全局?jǐn)?shù)據(jù)段(.bss)、符號(hào)表()等。結(jié)合僵尸網(wǎng)絡(luò)樣本的分析考察內(nèi)容, 去除了樣本中的只讀數(shù)據(jù)段等內(nèi)容, 保留了代碼段信息, 處理后數(shù)據(jù)依舊不影響不同僵尸網(wǎng)絡(luò)樣本同源分析等場(chǎng)景分析使用。
基于DataCon競(jìng)賽平臺(tái)和安全數(shù)據(jù)集, 奇安信集團(tuán)、清華大學(xué)和螞蟻集團(tuán)聯(lián)合主辦了國(guó)內(nèi)首個(gè)以大數(shù)據(jù)安全分析為目標(biāo)的大型比賽“DataCon大數(shù)據(jù)安全分析競(jìng)賽”。當(dāng)前已成功舉辦四屆(2019—2022)比賽, 接來(lái)下將以2020年賽事為例, 從比賽結(jié)果、分析方法機(jī)理兩個(gè)方面來(lái)對(duì)數(shù)據(jù)的有效性、價(jià)值進(jìn)行說(shuō)明。
DataCon2020大數(shù)據(jù)安全分析競(jìng)賽基于安全數(shù)據(jù)集的細(xì)分?jǐn)?shù)據(jù)領(lǐng)域, 設(shè)置了五大安全賽道來(lái)解決不同場(chǎng)景下的安全問(wèn)題。具體賽題包括: DNS惡意域名分析和惡意代碼分析、加密惡意流量檢測(cè)、網(wǎng)絡(luò)黑產(chǎn)分析以及僵尸網(wǎng)絡(luò)分析等重要的攻防實(shí)戰(zhàn)場(chǎng)景。各個(gè)賽道的題目和規(guī)則不盡相同, 但都旨在選手能夠自由發(fā)揮、充分?jǐn)U展解題思路。此外, 還通過(guò)埋入特殊采分點(diǎn)、代碼檢查等多種反作弊方式來(lái)確保比賽公平性。
DNS域名方向包括6道賽題, 最終得分由各賽題得分以不同權(quán)重累加計(jì)算。如圖2上圖展示了40多支提交答案參賽戰(zhàn)隊(duì)的賽題得分狀況色度圖, 戰(zhàn)隊(duì)與賽題對(duì)應(yīng)網(wǎng)格顏色越深代表該戰(zhàn)隊(duì)在該賽題得分越高; 下圖展示了總成績(jī)得分最高的20只隊(duì)伍得分情況, 在多個(gè)得分區(qū)間存在激烈的競(jìng)爭(zhēng)。成績(jī)分布在不同色度(區(qū)間)說(shuō)明賽題難度和評(píng)分具備一定合理性; 不同隊(duì)伍能取得相近成績(jī)(相近色度、分?jǐn)?shù)區(qū)間)說(shuō)明賽題數(shù)據(jù)能夠有效支撐不同解題方法。
惡意軟件方向采用淘汰制, 如圖3所示, 資格賽共37名隊(duì)伍提交有效答案, 30支隊(duì)伍獲得晉級(jí)資格; 經(jīng)過(guò)初賽和附加賽的篩選, 前14支隊(duì)伍進(jìn)入決賽; 決賽中多支隊(duì)伍使用各自方法成功解決問(wèn)題。
圖2 DNS域名方向-各賽題不同戰(zhàn)隊(duì)得分色度圖及決賽排名前20戰(zhàn)隊(duì)最終得分
Figure 2 DNS domain direction-the score chromaticitydiagram of each question and the final score of top 20
該方向各個(gè)階段都有多支隊(duì)伍獲得較好成績(jī), 同樣說(shuō)明該方向數(shù)據(jù)集能夠在安全條件下有效支持不同的分析方法。
加密惡意流量檢測(cè)方向同樣采取淘汰制, 參賽隊(duì)伍資格賽及決賽得分狀況如圖4所示, 左圖資格賽中多支晉級(jí)隊(duì)伍的成績(jī)聚集在100分、85分、70分三個(gè)分?jǐn)?shù)段; 右圖決賽中的各隊(duì)伍得分主要分布在60~85區(qū)間。不同隊(duì)伍的分?jǐn)?shù)分布狀況說(shuō)明該方向數(shù)據(jù)即使經(jīng)過(guò)處理同樣能夠支持多個(gè)采分點(diǎn)的評(píng)估設(shè)置及不同解題方法的應(yīng)用。
僵尸網(wǎng)絡(luò)方向是由背景知識(shí)題和不同難度的三道賽題(賽題3包括主觀分和客觀分)組成。圖5左圖展示了參賽隊(duì)伍的各題得分狀況色度圖, 共有32支隊(duì)伍成功提交答案, 由背景知識(shí)題得分狀況可知既有相關(guān)背景的隊(duì)伍也有無(wú)背景知識(shí)的隊(duì)伍, 雖然有背景知識(shí)的隊(duì)伍通常成績(jī)更好, 但也有一些無(wú)背景知識(shí)的隊(duì)伍同樣取得較好的成績(jī), 這也說(shuō)明了該方向數(shù)據(jù)的隱私保護(hù)處理并沒(méi)有受到背景知識(shí)的局限, 能夠支持新的分析思路和方法。
網(wǎng)絡(luò)黑產(chǎn)方向題目為完全實(shí)戰(zhàn)化場(chǎng)景, 目標(biāo)網(wǎng)站網(wǎng)絡(luò)情況以及運(yùn)營(yíng)情況變化無(wú)法預(yù)測(cè), 導(dǎo)致同一域名或同一URL不同選手在不同時(shí)間所展示的內(nèi)容不一樣, 所以該題由評(píng)委老師結(jié)合選手的分類(lèi)結(jié)果及writeup進(jìn)行綜合評(píng)分, 最終得分狀況如圖6所示, 不同隊(duì)伍都產(chǎn)出了有效的黑產(chǎn)分析結(jié)果, 同樣論證了數(shù)據(jù)的真實(shí)價(jià)值。
圖3 惡意軟件方向-各階段成績(jī)狀況(縱軸為分?jǐn)?shù), 橫軸為戰(zhàn)隊(duì)成績(jī)排名)
Figure 3 Malware direction-the results of each stage (the vertical axis is the score, the horizontal axis is ranking)
圖4 加密惡意流量方向-資格賽和最終成績(jī)分布圖
Figure 4 Encrypted malicious traffic- Direction-distribution of qualification and final score
圖5 僵尸網(wǎng)絡(luò)方向-各題得分色度圖及決賽得分狀況
Figure 5 Botnet direction-the score chromaticity diagram of each question and the final score
圖6 網(wǎng)絡(luò)黑產(chǎn)方向最終成績(jī)
Figure 6 Underground industry direction- the final result
競(jìng)賽的各個(gè)賽道方向均產(chǎn)出了優(yōu)秀的分析實(shí)踐, 對(duì)DataCon平臺(tái)及安全數(shù)據(jù)集在安全研究方面的實(shí)戰(zhàn)價(jià)值提供了有力的結(jié)果支撐。因篇幅有限, 此處僅結(jié)合部分優(yōu)秀分析實(shí)踐對(duì)數(shù)據(jù)有效性進(jìn)行說(shuō)明介紹。
DNS方向, 結(jié)合廣州大學(xué)IStar戰(zhàn)隊(duì)分析惡意域名家族的解題思路[29]對(duì)數(shù)據(jù)有效性進(jìn)行說(shuō)明。該解題過(guò)程為將問(wèn)題定位為類(lèi)別嚴(yán)重不平衡的多分類(lèi)問(wèn)題題進(jìn)行數(shù)據(jù)預(yù)處理、特征工程和建模分析, 過(guò)程中涉及特征包括域名字符串特征、域名解析IP數(shù)量、域名解析IP分布、域名解析IP變化頻度等。DNS脫敏數(shù)據(jù)特征如章節(jié)4.2.1所述, 域名脫敏保留了原始域名的字母、數(shù)字、詞語(yǔ)、特殊符號(hào)、頂級(jí)域名、長(zhǎng)度等信息; IP脫敏保留了唯一標(biāo)識(shí)能力和第四段特征、IPwhois信息。比對(duì)分析可知脫敏數(shù)據(jù)直接滿足分析過(guò)程所需的3項(xiàng)數(shù)據(jù)特征, 僅影響IP分布特征, 但I(xiàn)P分布特征可通過(guò)附加的IP whois運(yùn)營(yíng)商信息部分替代。綜上所述, DNS數(shù)據(jù)集在域名分析領(lǐng)域具有接近原始數(shù)據(jù)的分析價(jià)值且不會(huì)泄露域名IP的隱私關(guān)系。
惡意軟件分析方向, 結(jié)合中科院信工所IIE- AntiMiner戰(zhàn)隊(duì)的分析思路[30]對(duì)數(shù)據(jù)有效性進(jìn)行說(shuō)明。分析思路為: 首先根據(jù)黑樣本(挖礦軟件)的行為特性初步確定待關(guān)注特征, 然后根據(jù)不同特征采用灰度圖、直方圖、靜態(tài)特征模型等分別進(jìn)行處理和驗(yàn)證, 最后基于不同模型效果和特點(diǎn)建立更穩(wěn)定的融合模型(圖7)。分析過(guò)程中主要使用PE文件的二進(jìn)制字節(jié)、調(diào)試信息、重定位信息、PE頭基本信息、導(dǎo)出表個(gè)數(shù)和名稱(chēng)、Section名稱(chēng)大小屬性等、字符串特征, 進(jìn)而提取匹配路徑、注冊(cè)表、URL、IP地址、比特幣錢(qián)包地址、挖礦軟件常見(jiàn)字符串等特征。前述軟件樣本脫敏通過(guò)MZ、PE、導(dǎo)入導(dǎo)出表破壞可執(zhí)行性, 但PE