◆于佳華
(國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心黑龍江分中心 黑龍江 150001)
《中華人民共和國網(wǎng)絡(luò)安全法》規(guī)定,國家對(duì)公共通信和信息服務(wù)、能源、交通、水利、金融、公共服務(wù)、電子政務(wù)等重要行業(yè)和領(lǐng)域,以及其他一旦遭到破壞、喪失功能或者數(shù)據(jù)泄露,可能嚴(yán)重危害國家安全、國計(jì)民生、公共利益的關(guān)鍵信息基礎(chǔ)設(shè)施,在網(wǎng)絡(luò)安全等級(jí)保護(hù)制度的基礎(chǔ)上,實(shí)行重點(diǎn)保護(hù)[1]。摸清查明某區(qū)域內(nèi)各單位運(yùn)行、管理的,暴露在互聯(lián)網(wǎng)的關(guān)鍵信息基礎(chǔ)設(shè)施等重要信息系統(tǒng),無論對(duì)于區(qū)域網(wǎng)絡(luò)安全監(jiān)管部門開展網(wǎng)絡(luò)安全管理工作,還是區(qū)域網(wǎng)絡(luò)安全機(jī)構(gòu)開展網(wǎng)絡(luò)安全監(jiān)測(cè)防護(hù)工作都有十分重要的意義。
當(dāng)前,有很多互聯(lián)網(wǎng)資產(chǎn)發(fā)現(xiàn)產(chǎn)品和服務(wù),實(shí)現(xiàn)互聯(lián)網(wǎng)資產(chǎn)梳理與暴露面篩查,其大都通過網(wǎng)絡(luò)掃描、搜索引擎及網(wǎng)絡(luò)爬蟲等多種技術(shù)相結(jié)合,通過對(duì)關(guān)鍵詞、域名及ⅠP 的綜合查詢及關(guān)聯(lián)分析,進(jìn)行互聯(lián)網(wǎng)上暴露資產(chǎn)的主動(dòng)探測(cè)。
使用這些常見的互聯(lián)網(wǎng)資產(chǎn)主動(dòng)探測(cè)產(chǎn)品和服務(wù),進(jìn)行區(qū)域互聯(lián)網(wǎng)重要信息系統(tǒng)探測(cè)時(shí),存在以下的不足:
(1)探測(cè)結(jié)果不全。存在分目錄獨(dú)立部署、虛擬主機(jī)等大量單ⅠP 單端口承載多信息系統(tǒng)的情形,傳統(tǒng)ⅠP+端口的掃描方式無法探測(cè)。
(2)信息系統(tǒng)歸屬區(qū)域識(shí)別不準(zhǔn)確。較多信息系統(tǒng)部署在阿里云等公有云上,ⅠP 段掃描會(huì)發(fā)現(xiàn)大量非所在區(qū)域信息資產(chǎn)。另外,較多信息系統(tǒng)選擇使用CDN 技術(shù)進(jìn)行加速[2],許多區(qū)域外信息系統(tǒng)在本區(qū)域訪問時(shí)使用本區(qū)域ⅠP 承載。這兩種情形都導(dǎo)致信息系統(tǒng)的歸屬區(qū)域識(shí)別錯(cuò)誤。
(3)缺乏自動(dòng)標(biāo)注能力。無探測(cè)資產(chǎn)的歸屬單位、行業(yè)類型、業(yè)務(wù)類型等的自動(dòng)標(biāo)準(zhǔn)功能,人工標(biāo)注工作量巨大。
為解決當(dāng)前產(chǎn)品和服務(wù)存在的問題,實(shí)現(xiàn)區(qū)域內(nèi)暴露在互聯(lián)網(wǎng)上的重要信息系統(tǒng)的自動(dòng)收集整理,本文設(shè)計(jì)了一個(gè)區(qū)域互聯(lián)網(wǎng)重要信息系統(tǒng)智能探測(cè)平臺(tái),平臺(tái)的設(shè)計(jì)示意圖如圖1 所示。
平臺(tái)先將已掌握的或者在互聯(lián)網(wǎng)上搜集的本區(qū)域內(nèi)重要信息系統(tǒng)納入基礎(chǔ)數(shù)據(jù)池。其中,對(duì)于將未綁定域名的信息系統(tǒng),將ⅠP 地址所屬C 段納入ⅠP 段數(shù)據(jù)池;對(duì)于綁定域名的信息系統(tǒng),先將域名納入域名數(shù)據(jù)池,再解析出域名指向的ⅠP 地址,將ⅠP 地址所屬C 段納入ⅠP 段數(shù)據(jù)池。
圖1 平臺(tái)設(shè)計(jì)示意圖
資產(chǎn)探測(cè)爬取按照如下流程執(zhí)行:
1、使用分布式調(diào)度機(jī)制,并行從ⅠP 段數(shù)據(jù)池和域名數(shù)據(jù)池提取基礎(chǔ)數(shù)據(jù),建立獨(dú)立爬取任務(wù),每個(gè)任務(wù)執(zhí)行如下相同的步驟。
2、對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行網(wǎng)頁爬取。
(1)對(duì)ⅠP 段,執(zhí)行如下操作
①全端口掃描,獲得ⅠP 段內(nèi)每一個(gè)ⅠP 地址開放的端口及每個(gè)端口運(yùn)行的服務(wù)。
②對(duì)每個(gè)ⅠP 地址運(yùn)行http/https 服務(wù)的端口,構(gòu)造URL 進(jìn)行網(wǎng)頁爬取。
③遍歷信息系統(tǒng)目錄字典,與原URL 組合形成新URL,繼續(xù)爬取同ⅠP 同端口但分目錄部署的不同信息系統(tǒng)。
(2)對(duì)于域名,執(zhí)行如下操作
①先進(jìn)行域名解析,得到其指向的ⅠP 地址,對(duì)該ⅠP 地址進(jìn)行全端口掃描,獲得該ⅠP 地址開放的端口及每個(gè)端口運(yùn)行的服務(wù)。
②對(duì)域名運(yùn)行http/https 服務(wù)的端口,構(gòu)造URL 進(jìn)行網(wǎng)頁爬取。
b.2.3.遍歷信息系統(tǒng)目錄字典,與原URL 組合形成新URL,繼續(xù)爬取同ⅠP 同端口但分目錄部署的不同信息系統(tǒng)。
③遍歷二級(jí)域名字典,與域名組合成新域名,構(gòu)造URL 繼續(xù)爬取同ⅠP 同端口但分虛擬主機(jī)部署的不同信息系統(tǒng)。
3、對(duì)爬取的頁面進(jìn)行字符編碼轉(zhuǎn)換,統(tǒng)一為固定編碼,解決網(wǎng)頁亂碼現(xiàn)象。
4、提取頁面要素,包括標(biāo)題、KEYWORDS、DESCRⅠPTⅠON、版權(quán)、備案ⅠD、通信地址、關(guān)鍵正文等。
5、獲取信息系統(tǒng)所屬ⅠP 地址的區(qū)域定位數(shù)據(jù)。
(1)對(duì)使用CDN 技術(shù)進(jìn)行加速,由本區(qū)域ⅠP 承載但并不屬于本區(qū)域的信息系統(tǒng)進(jìn)行清洗。平臺(tái)選用數(shù)個(gè)不同區(qū)域的DNS 服務(wù)器進(jìn)行域名解析,如果指向的ⅠP地址隨著DNS服務(wù)器區(qū)域變化而變化,且與DNS 服務(wù)器區(qū)域有相關(guān)性,則清洗掉該信息系統(tǒng)。
(2)對(duì)無效信息系統(tǒng)進(jìn)行清洗。建立標(biāo)題黑名單,如“正在建設(shè)中”、“ⅠⅠS7”等,對(duì)爬取的信息系統(tǒng)的標(biāo)題進(jìn)行黑名單過濾,如標(biāo)題與黑名單一致則予以剔除。
(3)對(duì)部署在公有云上的本區(qū)域信息系統(tǒng)進(jìn)行過濾篩選。建立標(biāo)題白名單,如區(qū)域內(nèi)的地區(qū)名、重點(diǎn)單位名等,對(duì)于爬取的信息系統(tǒng)中,ⅠP 歸屬非本區(qū)域的信息系統(tǒng)的標(biāo)題進(jìn)行白名單過濾,包含白名單的信息系統(tǒng)予以保留,其他信息系統(tǒng)予以剔除。
依據(jù)先驗(yàn)知識(shí)建立多條件標(biāo)簽字典,對(duì)爬取模塊爬取的信息系統(tǒng)頁面要素與標(biāo)簽字典進(jìn)行碰撞,實(shí)現(xiàn)門戶網(wǎng)站、OA、防火墻、網(wǎng)關(guān)等業(yè)務(wù)類型,政府機(jī)關(guān)、能源、金融、交通、水利等行業(yè)類型的自動(dòng)化標(biāo)注。
以版權(quán)為主要標(biāo)注要素確定該信息系統(tǒng)的歸屬單位,以標(biāo)題為主要標(biāo)注要素確定該信息系統(tǒng)的承載業(yè)務(wù)。
平臺(tái)的區(qū)域重要信息系統(tǒng)庫實(shí)現(xiàn)所探測(cè)到的區(qū)域內(nèi)所有重要信息系統(tǒng)的存儲(chǔ),存儲(chǔ)數(shù)據(jù)項(xiàng)包括探測(cè)時(shí)間、域名、ⅠP、端口、歸屬單位、行業(yè)類型、承載業(yè)務(wù)、業(yè)務(wù)類型等。數(shù)據(jù)庫數(shù)據(jù)將定期反饋至基礎(chǔ)數(shù)據(jù)池,實(shí)現(xiàn)平臺(tái)所探測(cè)信息系統(tǒng)的不斷迭代更新。
本文面向區(qū)域內(nèi)暴露在互聯(lián)網(wǎng)上的重要信息系統(tǒng)探測(cè)這一特定問題,對(duì)當(dāng)前常見的互聯(lián)網(wǎng)資產(chǎn)主動(dòng)探測(cè)產(chǎn)品和服務(wù)存在的不足進(jìn)行了研究分析,并設(shè)計(jì)了一套全新的智能探測(cè)平臺(tái)。平臺(tái)可以提高區(qū)域互聯(lián)網(wǎng)重要信息系統(tǒng)探測(cè)的完整性,并通過自動(dòng)標(biāo)注有效降低人工參與成本。