■ 中國移動通信集團天津有限公司 李越鵬
云計算環(huán)境下,很多業(yè)務(wù)部署在虛擬機資源池,包括客戶身份相關(guān)數(shù)據(jù)、客戶服務(wù)內(nèi)容數(shù)據(jù)、用戶服務(wù)衍生數(shù)據(jù)等。在云環(huán)境中,由于存儲、計算的多層面虛擬化,帶來了數(shù)據(jù)管理權(quán)與所有權(quán)分離,網(wǎng)絡(luò)邊界模糊等新問題,與傳統(tǒng)環(huán)境相比,在敏感數(shù)據(jù)識別方面存在更多的困難和風(fēng)險。這些問題會導(dǎo)致企業(yè)面對急速增長的數(shù)據(jù)安全問題無法做到主動發(fā)現(xiàn)、動態(tài)識別敏感數(shù)據(jù),甚至于因問題資產(chǎn)檢測遺漏引發(fā)的安全事件在爆發(fā)后相當(dāng)長的一段時間后才被知曉,安全管控措施較為被動。
本次研究基于云計算環(huán)境,設(shè)計了兩種方式的識別敏感數(shù)據(jù)。一是通過主機Agent抓取數(shù)據(jù)庫、文件夾、文件中的數(shù)據(jù),根據(jù)規(guī)則匹配其中的敏感數(shù)據(jù),以得到敏感數(shù)據(jù)資產(chǎn)。二是利用網(wǎng)絡(luò)流量分析技術(shù),通過在核心交換機上部署TAP設(shè)備,對流量數(shù)據(jù)進行鏡像采集和分析,進而識別敏感數(shù)據(jù),實現(xiàn)對虛擬資源承載的敏感數(shù)據(jù)的有效識別。研究關(guān)注的焦點是敏感數(shù)據(jù)的有效識別,形成有效信息載體清單用于后期實施控制,對于出云敏感數(shù)據(jù)的實時監(jiān)控和告警,不涉及分類后控制管理工作。
本次研究采用在主機上部署Agent,實現(xiàn)對數(shù)據(jù)庫、主機承載的敏感數(shù)據(jù)資產(chǎn)的自動化采集。
動態(tài)敏感數(shù)據(jù)識別引擎通過集成數(shù)據(jù)庫表結(jié)構(gòu)、主機目錄(文件)的Agent作為采集引擎,采用規(guī)則、特征庫以及SQL語句處理,實現(xiàn)完全不影響業(yè)務(wù)系統(tǒng)正常運行的“無損探傷”模式的采集分析功能,對包含個人敏感信息的數(shù)據(jù)進行識別、特征提取從而進行智能發(fā)現(xiàn),以實現(xiàn)全面掌控數(shù)據(jù)庫、主機的數(shù)據(jù)資產(chǎn)變化情況的目的。系統(tǒng)整體分為四套引擎,分別為:數(shù)據(jù)資產(chǎn)建模引擎、任務(wù)調(diào)度引擎、配置采集引擎和資產(chǎn)分析引擎。
1.結(jié)構(gòu)化敏感數(shù)據(jù)識別流程說明
(1)連接虛擬環(huán)境中的數(shù)據(jù)庫。
(2)解析數(shù)據(jù)庫中的庫表結(jié)構(gòu)。
(3)根據(jù)庫表結(jié)構(gòu),正確的獲取數(shù)據(jù)庫表中每條記錄每個字段的內(nèi)容。
(4)使用預(yù)先定義的敏感數(shù)據(jù)發(fā)現(xiàn)分類規(guī)則掃描字段內(nèi)容,從而判斷數(shù)據(jù)庫中是否還存有敏感數(shù)據(jù)。
2.非結(jié)構(gòu)化敏感數(shù)據(jù)識別
本次研究中使用了基于自然語言理解與機器學(xué)習(xí)的方法,實現(xiàn)敏感數(shù)據(jù)標(biāo)簽動態(tài)學(xué)習(xí)過程。通過掃描文件夾、文件中的非結(jié)構(gòu)化數(shù)據(jù),分析其中的敏感數(shù)據(jù)匹配度,突破了傳統(tǒng)上依靠關(guān)鍵字、正則表達式的識別方法,實現(xiàn)敏感數(shù)據(jù)識別的智能化。利用機器學(xué)習(xí)算法對敏感字段識別不僅能夠提高識別的準(zhǔn)確率,同時也能提高識別效率,從而高效地完成敏感數(shù)據(jù)的存儲策略制定和數(shù)據(jù)落庫。
識別流程如圖1所示。
流程說明:
(1)利用Agent遞歸掃描虛擬資源中所有文件目錄,以便于發(fā)現(xiàn)其中的敏感數(shù)據(jù),為了提高掃描速度,支持對不同操作系統(tǒng)的掃描路徑進行優(yōu)化。
(2)掃描到壓縮文件以后,會將壓縮文件展開,以便于后續(xù)進一步掃描壓縮文件中的相關(guān)數(shù)據(jù)。支持逐級展開級聯(lián)壓縮的壓縮文件,以保證壓縮文件中所有的數(shù)據(jù)文件都會被展開,避免漏掃。
圖1 識別流程拓?fù)浣Y(jié)構(gòu)
(3)解析文件格式,根據(jù)文件的二進制格式頭判定文件的存儲格式,然后根據(jù)文件格式提取文件內(nèi)容。
(4)處理中文編碼,由于常見的中文編碼包含GBK,UTF8和Unicode,為了后續(xù)的監(jiān)測敏感數(shù)據(jù)模塊能正確工作,必須鑒別文件內(nèi)容中中文的編碼方式,以保證文件內(nèi)容被正確理解。
(5)使用預(yù)先定義的敏感數(shù)據(jù)識別分類規(guī)則掃描文件內(nèi)容,從而判斷相關(guān)文件是否屬于敏感數(shù)據(jù)。
本次研究除支持基于主機Agent實現(xiàn)對虛擬資源的識別外,還支持從網(wǎng)絡(luò)傳輸層面上發(fā)現(xiàn)敏感數(shù)據(jù)以及敏感數(shù)據(jù)的操作識別。研究過程是將TAP設(shè)備,并旁路部署在核心交換機側(cè),通過在核心交換機上的相關(guān)端口進行鏡像,從交換機中獲取訪問各個虛擬機的流量,分離出來類似HTTP、FTP、SMTP、POP3等可以傳輸、訪問文件的協(xié)議,并從這協(xié)議中獲取傳輸文件、訪問文件的日志,結(jié)合該虛擬機的敏感數(shù)據(jù)結(jié)果,進行分析、展示。
流程說明:
(1)采集TAP設(shè)備發(fā)送的網(wǎng)絡(luò)流量數(shù)據(jù)。
(2)對采集到的流量數(shù)據(jù)進行協(xié)議解析,解析對象為支持文件傳輸及訪問的協(xié)議,如HTTP、FTP、SMTP、POP3。
(3)提取協(xié)議中的文件傳輸及訪問的日志信息。
(4)敏感數(shù)據(jù)信息進行比對。
(5)呈現(xiàn)敏感數(shù)據(jù)的分析結(jié)果。
本次研究基于Agent和流量采集技術(shù),集成敏感數(shù)據(jù)發(fā)現(xiàn)工具,實現(xiàn)云計算環(huán)境下,針對虛擬資源承載的敏感數(shù)據(jù)進行內(nèi)容級的敏感數(shù)據(jù)發(fā)現(xiàn),建立完善的虛擬資源發(fā)現(xiàn)流程,覆蓋原云資源池數(shù)據(jù)識別安全盲區(qū),建設(shè)效果如圖2所示。
圖2 建設(shè)效果圖
1.資源管理能力:實現(xiàn)實時監(jiān)控虛擬機的變化情況,實時掌握發(fā)生變更的虛擬機是否承載了敏感數(shù)據(jù),采取有針對性的安全防護手段保護敏感數(shù)據(jù);
2.敏感數(shù)據(jù)發(fā)現(xiàn)能力:敏感數(shù)據(jù)的準(zhǔn)確發(fā)現(xiàn)和識別是敏感數(shù)據(jù)防護的基礎(chǔ),在私有云環(huán)境中,敏感數(shù)據(jù)多以文件的形式存儲在虛擬服務(wù)器,本期項目實現(xiàn)基于自然語言處理的敏感數(shù)據(jù)文件內(nèi)容識別功能,能夠關(guān)聯(lián)文件內(nèi)容的語境、語義進行敏感數(shù)據(jù)內(nèi)容的發(fā)現(xiàn),且只需要遍歷一次文件內(nèi)容,將提升敏感數(shù)據(jù)內(nèi)容發(fā)現(xiàn)的準(zhǔn)確率,大幅降低對服務(wù)器性能的消耗。
3.終端管理能力:無法識別用戶通過瘦客戶端訪問虛擬桌面的源IP地址,進而不能定位發(fā)生的安全問題;能夠自動分析搜客戶端的源IP地址,實現(xiàn)虛擬桌面操作和傳輸敏感數(shù)據(jù)行為監(jiān)控。
4.敏感數(shù)據(jù)傳輸監(jiān)控能力:目前的敏感數(shù)據(jù)傳輸監(jiān)控只支持FTP、SMTP、HTTP三類協(xié)議,在云環(huán)境下,除支持FTP、SMTP、HTTP三類協(xié)議外,還需要支持SFTP、封裝API的協(xié)議。
5.增強敏感數(shù)據(jù)管理和展現(xiàn):通過多種不同的方式對敏感數(shù)據(jù)進行展現(xiàn),包括建立敏感數(shù)據(jù)資產(chǎn)載體視圖、敏感數(shù)據(jù)報表等方式,直觀地對敏感數(shù)據(jù)進行展示。
6.云資源池安全防護策略制定和推進:云資源池虛擬機敏感數(shù)據(jù)高效識別,目前已完成,下一步考慮在敏感數(shù)據(jù)泄露風(fēng)險的快速響應(yīng)工作,制定敏感數(shù)據(jù)防護策略和規(guī)范,從而進一步提升敏感數(shù)據(jù)的安全防護。