實現(xiàn)虛擬機敏感數(shù)據(jù)識別

2020-06-20 13:02中國移動通信集團天津有限公司李越鵬

網(wǎng)絡(luò)安全和信息化 2020年6期

■ 中國移動通信集團天津有限公司李越鵬

云計算環(huán)境下，很多業(yè)務(wù)部署在虛擬機資源池，包括客戶身份相關(guān)數(shù)據(jù)、客戶服務(wù)內(nèi)容數(shù)據(jù)、用戶服務(wù)衍生數(shù)據(jù)等。在云環(huán)境中，由于存儲、計算的多層面虛擬化，帶來了數(shù)據(jù)管理權(quán)與所有權(quán)分離，網(wǎng)絡(luò)邊界模糊等新問題，與傳統(tǒng)環(huán)境相比，在敏感數(shù)據(jù)識別方面存在更多的困難和風(fēng)險。這些問題會導(dǎo)致企業(yè)面對急速增長的數(shù)據(jù)安全問題無法做到主動發(fā)現(xiàn)、動態(tài)識別敏感數(shù)據(jù)，甚至于因問題資產(chǎn)檢測遺漏引發(fā)的安全事件在爆發(fā)后相當(dāng)長的一段時間后才被知曉，安全管控措施較為被動。

本次研究基于云計算環(huán)境，設(shè)計了兩種方式的識別敏感數(shù)據(jù)。一是通過主機Agent抓取數(shù)據(jù)庫、文件夾、文件中的數(shù)據(jù)，根據(jù)規(guī)則匹配其中的敏感數(shù)據(jù)，以得到敏感數(shù)據(jù)資產(chǎn)。二是利用網(wǎng)絡(luò)流量分析技術(shù)，通過在核心交換機上部署TAP設(shè)備，對流量數(shù)據(jù)進行鏡像采集和分析，進而識別敏感數(shù)據(jù)，實現(xiàn)對虛擬資源承載的敏感數(shù)據(jù)的有效識別。研究關(guān)注的焦點是敏感數(shù)據(jù)的有效識別，形成有效信息載體清單用于后期實施控制，對于出云敏感數(shù)據(jù)的實時監(jiān)控和告警，不涉及分類后控制管理工作。

基于主機Agent的敏感數(shù)據(jù)識別

本次研究采用在主機上部署Agent，實現(xiàn)對數(shù)據(jù)庫、主機承載的敏感數(shù)據(jù)資產(chǎn)的自動化采集。

動態(tài)敏感數(shù)據(jù)識別引擎通過集成數(shù)據(jù)庫表結(jié)構(gòu)、主機目錄（文件）的Agent作為采集引擎，采用規(guī)則、特征庫以及SQL語句處理，實現(xiàn)完全不影響業(yè)務(wù)系統(tǒng)正常運行的“無損探傷”模式的采集分析功能，對包含個人敏感信息的數(shù)據(jù)進行識別、特征提取從而進行智能發(fā)現(xiàn)，以實現(xiàn)全面掌控數(shù)據(jù)庫、主機的數(shù)據(jù)資產(chǎn)變化情況的目的。系統(tǒng)整體分為四套引擎，分別為：數(shù)據(jù)資產(chǎn)建模引擎、任務(wù)調(diào)度引擎、配置采集引擎和資產(chǎn)分析引擎。

1.結(jié)構(gòu)化敏感數(shù)據(jù)識別流程說明

(1)連接虛擬環(huán)境中的數(shù)據(jù)庫。

(2)解析數(shù)據(jù)庫中的庫表結(jié)構(gòu)。

(3)根據(jù)庫表結(jié)構(gòu)，正確的獲取數(shù)據(jù)庫表中每條記錄每個字段的內(nèi)容。

(4)使用預(yù)先定義的敏感數(shù)據(jù)發(fā)現(xiàn)分類規(guī)則掃描字段內(nèi)容，從而判斷數(shù)據(jù)庫中是否還存有敏感數(shù)據(jù)。

2.非結(jié)構(gòu)化敏感數(shù)據(jù)識別

本次研究中使用了基于自然語言理解與機器學(xué)習(xí)的方法，實現(xiàn)敏感數(shù)據(jù)標(biāo)簽動態(tài)學(xué)習(xí)過程。通過掃描文件夾、文件中的非結(jié)構(gòu)化數(shù)據(jù)，分析其中的敏感數(shù)據(jù)匹配度，突破了傳統(tǒng)上依靠關(guān)鍵字、正則表達式的識別方法，實現(xiàn)敏感數(shù)據(jù)識別的智能化。利用機器學(xué)習(xí)算法對敏感字段識別不僅能夠提高識別的準(zhǔn)確率，同時也能提高識別效率，從而高效地完成敏感數(shù)據(jù)的存儲策略制定和數(shù)據(jù)落庫。

識別流程如圖1所示。

流程說明：

（1）利用Agent遞歸掃描虛擬資源中所有文件目錄，以便于發(fā)現(xiàn)其中的敏感數(shù)據(jù)，為了提高掃描速度，支持對不同操作系統(tǒng)的掃描路徑進行優(yōu)化。

（2）掃描到壓縮文件以后，會將壓縮文件展開，以便于后續(xù)進一步掃描壓縮文件中的相關(guān)數(shù)據(jù)。支持逐級展開級聯(lián)壓縮的壓縮文件，以保證壓縮文件中所有的數(shù)據(jù)文件都會被展開，避免漏掃。

圖1 識別流程拓?fù)浣Y(jié)構(gòu)

（3）解析文件格式，根據(jù)文件的二進制格式頭判定文件的存儲格式，然后根據(jù)文件格式提取文件內(nèi)容。

（4）處理中文編碼，由于常見的中文編碼包含GBK，UTF8和Unicode，為了后續(xù)的監(jiān)測敏感數(shù)據(jù)模塊能正確工作，必須鑒別文件內(nèi)容中中文的編碼方式，以保證文件內(nèi)容被正確理解。

（5）使用預(yù)先定義的敏感數(shù)據(jù)識別分類規(guī)則掃描文件內(nèi)容，從而判斷相關(guān)文件是否屬于敏感數(shù)據(jù)。

基于網(wǎng)絡(luò)流量的敏感數(shù)據(jù)識別

本次研究除支持基于主機Agent實現(xiàn)對虛擬資源的識別外，還支持從網(wǎng)絡(luò)傳輸層面上發(fā)現(xiàn)敏感數(shù)據(jù)以及敏感數(shù)據(jù)的操作識別。研究過程是將TAP設(shè)備，并旁路部署在核心交換機側(cè)，通過在核心交換機上的相關(guān)端口進行鏡像，從交換機中獲取訪問各個虛擬機的流量,分離出來類似HTTP、FTP、SMTP、POP3等可以傳輸、訪問文件的協(xié)議，并從這協(xié)議中獲取傳輸文件、訪問文件的日志，結(jié)合該虛擬機的敏感數(shù)據(jù)結(jié)果，進行分析、展示。

流程說明：

（1）采集TAP設(shè)備發(fā)送的網(wǎng)絡(luò)流量數(shù)據(jù)。

（2）對采集到的流量數(shù)據(jù)進行協(xié)議解析，解析對象為支持文件傳輸及訪問的協(xié)議，如HTTP、FTP、SMTP、POP3。

（3）提取協(xié)議中的文件傳輸及訪問的日志信息。

（4）敏感數(shù)據(jù)信息進行比對。

（5）呈現(xiàn)敏感數(shù)據(jù)的分析結(jié)果。

研究成果

本次研究基于Agent和流量采集技術(shù)，集成敏感數(shù)據(jù)發(fā)現(xiàn)工具，實現(xiàn)云計算環(huán)境下，針對虛擬資源承載的敏感數(shù)據(jù)進行內(nèi)容級的敏感數(shù)據(jù)發(fā)現(xiàn)，建立完善的虛擬資源發(fā)現(xiàn)流程，覆蓋原云資源池數(shù)據(jù)識別安全盲區(qū)，建設(shè)效果如圖2所示。

圖2 建設(shè)效果圖

1.資源管理能力：實現(xiàn)實時監(jiān)控虛擬機的變化情況，實時掌握發(fā)生變更的虛擬機是否承載了敏感數(shù)據(jù)，采取有針對性的安全防護手段保護敏感數(shù)據(jù)；

2.敏感數(shù)據(jù)發(fā)現(xiàn)能力：敏感數(shù)據(jù)的準(zhǔn)確發(fā)現(xiàn)和識別是敏感數(shù)據(jù)防護的基礎(chǔ)，在私有云環(huán)境中，敏感數(shù)據(jù)多以文件的形式存儲在虛擬服務(wù)器，本期項目實現(xiàn)基于自然語言處理的敏感數(shù)據(jù)文件內(nèi)容識別功能，能夠關(guān)聯(lián)文件內(nèi)容的語境、語義進行敏感數(shù)據(jù)內(nèi)容的發(fā)現(xiàn)，且只需要遍歷一次文件內(nèi)容，將提升敏感數(shù)據(jù)內(nèi)容發(fā)現(xiàn)的準(zhǔn)確率，大幅降低對服務(wù)器性能的消耗。

3.終端管理能力：無法識別用戶通過瘦客戶端訪問虛擬桌面的源IP地址，進而不能定位發(fā)生的安全問題；能夠自動分析搜客戶端的源IP地址，實現(xiàn)虛擬桌面操作和傳輸敏感數(shù)據(jù)行為監(jiān)控。

4.敏感數(shù)據(jù)傳輸監(jiān)控能力：目前的敏感數(shù)據(jù)傳輸監(jiān)控只支持FTP、SMTP、HTTP三類協(xié)議，在云環(huán)境下，除支持FTP、SMTP、HTTP三類協(xié)議外，還需要支持SFTP、封裝API的協(xié)議。

5.增強敏感數(shù)據(jù)管理和展現(xiàn)：通過多種不同的方式對敏感數(shù)據(jù)進行展現(xiàn)，包括建立敏感數(shù)據(jù)資產(chǎn)載體視圖、敏感數(shù)據(jù)報表等方式，直觀地對敏感數(shù)據(jù)進行展示。

6.云資源池安全防護策略制定和推進：云資源池虛擬機敏感數(shù)據(jù)高效識別，目前已完成，下一步考慮在敏感數(shù)據(jù)泄露風(fēng)險的快速響應(yīng)工作，制定敏感數(shù)據(jù)防護策略和規(guī)范，從而進一步提升敏感數(shù)據(jù)的安全防護。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

實現(xiàn)虛擬機敏感數(shù)據(jù)識別

基于主機Agent的敏感數(shù)據(jù)識別

基于網(wǎng)絡(luò)流量的敏感數(shù)據(jù)識別

研究成果