張媛馬杰
(1.南京金州城北污水處理有限公司,江蘇 南京 210015;2.南京審計大學實驗中心,江蘇 南京 211815)
[關鍵字] 敏感數(shù)據(jù);安全防護;開放環(huán)境;實驗室
云計算服務的廣泛應用促使高校機房和實驗室的服務模式產(chǎn)生了深刻變革,除了滿足日常教學和各類考試基本需求,還擴展了課程與學生信息匹配管理、實驗室門禁與課程管理、自由開放上機管理、遠程控制機器狀態(tài)等等細化功能;并且允許校內(nèi)利用移動設備和智能終端,通過互聯(lián)網(wǎng)獲取某實驗室使用、預約等服務。但實驗室服務功能的復雜和多樣化也在web服務器端產(chǎn)生了大量多類型、碎片化、低安全度的數(shù)據(jù)信息,這些數(shù)據(jù)來源于實驗室各個業(yè)務功能數(shù)據(jù)庫,是實驗室高效管理、優(yōu)良服務的保證。其中一些數(shù)據(jù)如師生身份信息、賬號、位置、服務日志和內(nèi)容等信息被非法查詢、引用甚至篡改,輕則侵犯用戶隱私,降低師生使用體驗感受,重則帶來經(jīng)濟損失,甚至影響學校聲譽。因此,在實驗室本地web服務器端和遠程數(shù)據(jù)庫存端都必須實現(xiàn)對敏感數(shù)據(jù)的科學管理、分類評估和安全防護,這既是大數(shù)據(jù)時代信息安全的要求,也是實驗室各項功能穩(wěn)定運行的保證。
實驗室的web服務器敏感數(shù)據(jù)是指影響實驗室功能正常運行的所有數(shù)據(jù)信息,數(shù)據(jù)來源于師生個人、實驗室計算機、智能終端、互聯(lián)網(wǎng)、物聯(lián)設備5個方面。師生個人信息包括類賬號和密碼、個人特征、個體位置、課程與身份信息關系數(shù)據(jù)等信息,這些數(shù)據(jù)主要以文字、表格明文保存;實驗室計算機和智能終端信息包括管理主機、實驗室web服務器的運營日記、設備參數(shù)、位置信息,多以系統(tǒng)文件和數(shù)據(jù)庫形式存儲;互聯(lián)網(wǎng)數(shù)據(jù)信息主要是用戶經(jīng)過網(wǎng)絡方向的學習平臺、下載的課程資源、軟件等,以壓縮文件格式形式存儲;物聯(lián)設備數(shù)據(jù)信息主要由視頻監(jiān)控設備、門禁控制系統(tǒng)、讀卡裝置等設備采集的數(shù)據(jù)組成,以視頻、數(shù)據(jù)庫等格式簡單加密保存。這些實驗室web服務器端敏感數(shù)據(jù)類型多樣、動態(tài)多變、結構復雜、存儲分散、數(shù)據(jù)量大;這些重要數(shù)據(jù)依據(jù)云計算服務的安全等級要求和實驗室運行管理的相關性分為高度敏感數(shù)據(jù)(advanced sensitive)和普通敏感數(shù)據(jù)(general sensitive)。高度敏感數(shù)據(jù)是指對實驗室IT服務系統(tǒng)構建、網(wǎng)絡學習資源后臺數(shù)據(jù)和實驗室服務質量保障產(chǎn)生巨大影響的關鍵數(shù)據(jù),如實驗室系統(tǒng)管理的相關云計算系統(tǒng)架構信息、IT服務配置參數(shù)、服務運行日志和備份數(shù)據(jù),這類數(shù)據(jù)一旦泄露,意味著底層web服務器被非法控制,將會對整個實驗室基礎架構造成無法修復的破壞,因此需要高級別全方位的風險管控和安全防護。而普通敏感數(shù)據(jù)則是指與實驗室各項功能及使用者關聯(lián)性較為緊密的數(shù)據(jù),這類數(shù)據(jù)主要由師生身份信息、課程與實驗室匹配關系、各類課程資源平臺賬號密碼、瀏覽記錄、視頻監(jiān)控、刷卡軌跡記錄等組成,授權方可以通過普通敏感數(shù)據(jù)的采集、挖掘、分析、融合等操作,研究教學數(shù)據(jù)中蘊含的教育教學規(guī)律。這類敏感數(shù)據(jù)開放程度很高,若被非法入侵和篡改,會對實驗室服務功能和用戶體驗造成不利影響,但不至于破壞整個實驗室web服務器資源平臺和遠程分布式存儲數(shù)據(jù)庫。
在開放式實驗室web服務器中,敏感數(shù)據(jù)分布在大量的實驗室功能數(shù)據(jù)集群中,數(shù)據(jù)類型和存儲位置、狀態(tài)、邏輯位置、格式等信息都有很大的隨機性和突發(fā)性,在這樣的情況下只能運用智能化手段來梳理和識別敏感數(shù)據(jù)。常見的敏感數(shù)據(jù)識別過程包括數(shù)據(jù)獲取、格式解析、內(nèi)容分類三個步驟[1]。首先對服務器、數(shù)據(jù)庫、云存儲等環(huán)境下獲取的數(shù)據(jù)檢索特定文件或數(shù)據(jù)中的關鍵字段定義和相關標識檢測來初步判斷是否歸為敏感數(shù)據(jù),再運用人工智能的理論和技術將設定的自然語言規(guī)律用計算機軟件模擬處理,按照分級和分類要求準確描述各類敏感數(shù)據(jù),并對敏感文件進行加密隔離存儲和授權訪問操作。
存儲服務器主要負責對敏感數(shù)據(jù)進行加密、封裝、存儲和授權使用,這里的數(shù)據(jù)狀態(tài)主要是靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。靜態(tài)敏感數(shù)據(jù)是指用戶文檔、學習資料等不參與關系運算的用戶信息,這部分敏感信息所占比例不多;動態(tài)數(shù)據(jù)是指需要動態(tài)驗證或者參與云計算功能服務的數(shù)據(jù)。將敏感數(shù)據(jù)按級別和類型歸檔之后要匯聚到服務器端分析,依據(jù)用戶、設備、來源等規(guī)則,對不同類型等級的敏感數(shù)據(jù)設置有區(qū)別的加密存儲方式、存儲位置、添加特殊識別標識;這樣做之后即使在發(fā)生數(shù)據(jù)非法泄露,也可以根據(jù)事先設定的標簽排查泄露源頭。隨著實驗室功能的增加,敏感數(shù)據(jù)復雜程度和處理難度的上升,存儲需求和控制難度快速增長,在這個層面上僅僅依靠實驗室的web服務器難以對大量數(shù)據(jù)執(zhí)行全面、廣泛的敏感篩選和存儲管理。
實驗室的服務功能以各種關系數(shù)據(jù)獲取為基礎,大量敏感數(shù)據(jù)的高度開放和快速流動,使得敏感數(shù)據(jù)的監(jiān)控難度不斷增長,這些普通敏感數(shù)據(jù)高流動性也造成了用戶信息很容易受到威脅。在保證敏感數(shù)據(jù)的開放性和實驗室服務功能擴展的前提下,如何確保敏感數(shù)據(jù)的安全、精確、快捷,是實踐運用中急需解決的關鍵問題。而敏感數(shù)據(jù)量指數(shù)級增長、數(shù)據(jù)安全管理協(xié)議的執(zhí)行力度、web服務器管理員的技術水平、管理流程的科學性也影響著敏感數(shù)據(jù)的安全性。
實驗室擴展服務功能涉及的數(shù)據(jù)信息來源廣泛,課程信息和身份信息等敏感數(shù)據(jù)經(jīng)??绶掌骱突ヂ?lián)網(wǎng)之間進行數(shù)據(jù)提取和交換操作,數(shù)據(jù)的開放、流動和共享帶來了新的防護風險,實驗室web服務器為多個用戶以虛擬租用資源的方式提供共享資源,而這些用戶信息很可能會綁定到同一個物理資源,如果web服務器中的內(nèi)存管理和虛擬化軟件存在安全漏洞,網(wǎng)絡安全或用戶權限等管理策略并未及時更新,惡意用戶可以通過病毒、遠程控制等方式掃描漏洞,獲取全部操作權限,篡改數(shù)據(jù)信息,達到竊取和侵犯敏感數(shù)據(jù)的非法目的。實驗室在日常使用中,也有部分特定用戶為了自己使用便利,在教師端或者服務器端繞過系統(tǒng)控制安裝特定軟件,共享給所有普通用戶。類似情況下,后臺web服務器管員難以將課程數(shù)據(jù)、服務運行關系數(shù)據(jù)、權限限制策略等敏感數(shù)據(jù)進行實時分級存儲、網(wǎng)絡隔離和訪問控制。因此,在實驗室功能服務系統(tǒng)架構層面,敏感數(shù)據(jù)防護設計必須符合使用邏輯,實現(xiàn)敏感數(shù)據(jù)有效隔離,避免依靠數(shù)據(jù)管理人員能力、經(jīng)驗來排查數(shù)據(jù)隱患。而敏感數(shù)據(jù)存儲分布于不同位置的數(shù)據(jù)中心和信息節(jié)點上,以往基于物理機的數(shù)據(jù)防護手段完全失效。敏感數(shù)據(jù)的防護邊界不斷擴大,實驗室不同服務功能數(shù)據(jù)信息分布到不同的存儲服務器,這需要在更多的地方實施數(shù)據(jù)隔離,增加了敏感數(shù)據(jù)安防的復雜程度。
實驗室本地web服務器需要讀取大量敏感數(shù)據(jù)以匹配服務功能,管理人員會對本地數(shù)據(jù)修改、增加臨時授權人員,這些行為很容易造成敏感數(shù)據(jù)被越權訪問、攻擊和非法篡改;但卻難以找到有效的安全監(jiān)控日志追擊破壞者蹤跡。雖然可以采取周期備份和災難恢復的方式挽救損失,但是長期備份不僅導致數(shù)據(jù)量龐大,增加本地web服務器的計算成本,也會影響實驗室各項功能的正常運行。因此必須對本地web服務器采用自動化安防檢測、保證病毒庫實時更新、敏感度動態(tài)評級、數(shù)據(jù)無縫備份與恢復。
實驗室開放環(huán)境擴展功能調(diào)用的是遠程云計算產(chǎn)生的分布存儲共享敏感數(shù)據(jù),由于存在非法用戶、惡意代碼的攻擊,有可能出現(xiàn)非法獲得本地服務器超級管理員權限后直接接觸到原始高級敏感數(shù)據(jù),而對遠程高級敏感數(shù)據(jù)的識別、評估和防護將會大幅增加云存儲的復雜程度和運行負荷。這些風險和隱患對分布式云計算安全服務提出了更高的科學性要求和技術要求。
實驗室web服務器端敏感數(shù)據(jù)的防護需要從敏感數(shù)據(jù)調(diào)取、使用和使用后的處理三個階段全方位開展。調(diào)取敏感數(shù)據(jù)依據(jù)來源、形式、重要等級進行分類,掌握各種靜態(tài)敏感數(shù)據(jù)的狀態(tài)信息,進行規(guī)范存儲和管理,防止靜態(tài)數(shù)據(jù)的完全開放調(diào)用。使用敏感數(shù)據(jù)過程中無論靜態(tài)還是動態(tài)數(shù)據(jù),必須做脫敏處理。數(shù)據(jù)脫敏是指對某些敏感信息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護。在涉及用戶安全和服務質量保證的情況下,利用系統(tǒng)安全配置策略對敏感數(shù)據(jù)實施變形加工,消去敏感屬性改造并提供測試使用,如身份信息、課程平臺賬號密碼、校園卡號、門禁控制信息等都需要進行數(shù)據(jù)脫敏。避免非法掃描檢索,防止惡意調(diào)用和數(shù)據(jù)外泄。但僅僅改變這些關鍵字段、標簽等靜態(tài)屬性還無法實現(xiàn)監(jiān)控敏感數(shù)據(jù)的動態(tài)流轉、操作以及敏感文件的訪問和控制,必須加入智能防護功能模塊,對違規(guī)訪問和調(diào)用進行判定,分析潛在泄露途徑,實施封鎖控制。整個實驗室web服務器敏感數(shù)據(jù)安防需求邏輯結構如圖1所示:
圖1 敏感數(shù)據(jù)安防需求邏輯
本研究在實驗室實際運行需求和敏感數(shù)據(jù)分析與安全管理框架相結合的基礎上提出了實驗室web服務器端敏感數(shù)據(jù)防護方案。該方案在過往敏感數(shù)據(jù)保護以隔離、簡單算法加密、身份驗證和訪問權限為主的防護模式基礎上,經(jīng)過對本地服務器數(shù)據(jù)和遠程云計算數(shù)據(jù)的采集、依據(jù)敏感數(shù)據(jù)的關聯(lián)分析和敏感內(nèi)容識別,實施自然語言分析和系統(tǒng)防護策略自動判定,準確發(fā)現(xiàn)隱藏在大量分布數(shù)據(jù)中的敏感信息,實現(xiàn)敏感數(shù)據(jù)的精確發(fā)現(xiàn)、敏感度分級分類、有效隔離和保護。
非法用戶通過漏洞掃描、數(shù)據(jù)關聯(lián),竊取敏感信息。該方案重點關注4個方面:第一,實時、準確地識別判定敏感數(shù)據(jù);第二,敏感數(shù)據(jù)的防護不能以犧牲實驗室服務功能和服務質量為代價;第三,必須保證敏感數(shù)據(jù)保護的有效隔離和高級敏感數(shù)據(jù)的無縫恢復;第四,對敏感數(shù)據(jù)防護系統(tǒng)運行的有效性精確展示。方案結構如圖2所示。
本防護方案主要由數(shù)據(jù)收集、本地web服務器數(shù)據(jù)和遠程數(shù)據(jù)存儲、敏感數(shù)據(jù)分析、安防管理、系統(tǒng)決策和判定結果展示6大模塊組成。數(shù)據(jù)收集模塊主要負責采集實驗室IT服務系統(tǒng)構建、服務器參數(shù)配置、用戶瀏覽記錄、惡意攻擊日志、運行監(jiān)控數(shù)據(jù)以及與教學和考試相關的數(shù)據(jù);數(shù)據(jù)存儲模塊負責對匯聚的數(shù)據(jù)進行分類存儲和安防管理,根據(jù)數(shù)據(jù)調(diào)用頻率、關鍵字段和價值屬性,對數(shù)據(jù)進行敏感度初步分級歸檔,安全的敏感數(shù)據(jù)經(jīng)過高速傳輸堆棧經(jīng)分布至遠程服務器緩存,把高級敏感數(shù)據(jù)存儲到遠程云服務器中,把低敏感度數(shù)據(jù)存儲至本地web服務器數(shù)據(jù)庫中;數(shù)據(jù)分析模塊完成敏感度類型和級別精準劃分,并對敏感數(shù)據(jù)做關聯(lián)性分析、攻擊日志敏感分析、惡意腳本分析、存儲系統(tǒng)可靠性分析、威脅程度分析、防護系統(tǒng)運行可靠性分析等等;安防管理模塊負責安防日志的審核、敏感數(shù)據(jù)存儲系統(tǒng)的穩(wěn)定性保障、敏感數(shù)據(jù)災難恢復的備份管理、數(shù)據(jù)敏感度實時監(jiān)控、用戶個人信息的加密處理;系統(tǒng)決策模塊負責敏感數(shù)據(jù)安防管理策略的制定,為敏感數(shù)據(jù)的持續(xù)監(jiān)控、安防預警、系統(tǒng)優(yōu)化、遠程數(shù)據(jù)安全提供技術依據(jù);判定結果展示模塊是整個防護管理方案與系統(tǒng)管理員的數(shù)據(jù)接口,可以把web服務器受到的非法攻擊、預測威脅、防護效果等以量化數(shù)據(jù)的形式表述,增強了敏感數(shù)據(jù)管理的可讀性。
圖2 敏感數(shù)據(jù)防護方案結構
實驗室web服務器敏感數(shù)據(jù)防護部署方案如圖3所示,其中,敏感數(shù)據(jù)核心管理服務器是整個敏感數(shù)據(jù)防護系統(tǒng)的關鍵服務器,負責下發(fā)敏感數(shù)據(jù)脫敏規(guī)則、保護策略,采集系統(tǒng)防護工作日志,生成實驗室web服務器全局環(huán)境的敏感數(shù)據(jù)安全事件圖形和報表。敏感數(shù)據(jù)識別歸檔服務器,掃描本地服務器數(shù)據(jù)和云數(shù)據(jù)完成敏感數(shù)據(jù)的識別并分類分級歸檔。脫敏服務器負責執(zhí)行安全策略,對敏感數(shù)據(jù)實施脫敏運算。通過網(wǎng)絡調(diào)用復制核心數(shù)據(jù)到泄露監(jiān)控設備進行惡意腳本掃描、流量監(jiān)測,防止核心脫敏數(shù)據(jù)從互聯(lián)網(wǎng)接口泄露。在本地web服務器,教師主機和云共享資源平臺上安裝敏感數(shù)據(jù)防護代理軟件,負責采集和識別敏感數(shù)據(jù),并將結果上傳至敏感數(shù)據(jù)發(fā)現(xiàn)服務器。
圖3 敏感數(shù)據(jù)防護系統(tǒng)部署方案
本研究分析了開放環(huán)境下高校實驗室web服務器和遠程云計算數(shù)據(jù)庫敏感數(shù)據(jù)防護問題的新特性,充分結合實驗室業(yè)務職能、用戶需求,在前人研究的基礎上歸納了適合高校實驗室的敏感數(shù)據(jù)防護需求邏輯關系,重點加強對敏感數(shù)據(jù)的識別、分級分類、防御規(guī)則構建、敏感數(shù)據(jù)分布存儲和安全管理效果評估等幾個關鍵環(huán)節(jié)的掌控,并設計了實驗室web服務器敏感數(shù)據(jù)防護方案。在實踐運行過程中還應不斷提升敏感數(shù)據(jù)洞察力、敏感度劃分的科學性、訪問控制的自動化和脫敏算法的改進。實現(xiàn)對敏感數(shù)據(jù)服務器存儲的實時監(jiān)控、訪問者的身份識別與權限分配、本地服務器數(shù)據(jù)庫的漏洞修復、敏感數(shù)據(jù)的有效隔離,阻止非法訪問和惡意竊取敏感數(shù)據(jù)。
在當前實驗室服務功能的擴展和用戶新的需求不斷出現(xiàn)的情況下,敏感數(shù)據(jù)的開放性、高流動性、結構復雜程度、關聯(lián)性都會繼續(xù)增加,后續(xù)還要加深提升實驗室本地web服務器敏感數(shù)據(jù)的安全性,如保護能力的研究。高校實驗室不僅為用戶增加應用功能,也要將最前沿的數(shù)據(jù)防護技術運用到敏感數(shù)據(jù)保護中去,不斷提升數(shù)據(jù)防護工作的自動化、智能化和流程化水平,這樣才能為實驗室服務模式的持續(xù)變革和升級做好支撐,為廣大師生提供智慧化服務。