鮑劼+李丕仕+都平平+朱世平+鄧志文
[摘要][目的/意義]研究有效的數(shù)據(jù)安全防護(hù)策略,以應(yīng)對(duì)高校圖書館面臨的數(shù)據(jù)安全威脅,為高校圖書館提升服務(wù)質(zhì)量和效率提供可靠的技術(shù)保障。[方法/手段]運(yùn)用云存儲(chǔ)、分級(jí)加密、大數(shù)據(jù)分析、WAF、Pd3AC等技術(shù)和生命周期理論,結(jié)合高校圖書館面臨的數(shù)據(jù)安全問題,從存儲(chǔ)安全、網(wǎng)絡(luò)安全、隱私泄露三方面進(jìn)行分析、研究。[結(jié)論/結(jié)果]從數(shù)據(jù)云安全存儲(chǔ)、提高網(wǎng)絡(luò)安全防護(hù)技術(shù)、基于數(shù)據(jù)生命周期的隱私保護(hù)三方面提出多維、有效的高校圖書館數(shù)據(jù)安全防護(hù)策略。
[關(guān)鍵詞]高校圖書館;數(shù)據(jù)安全;云存儲(chǔ);網(wǎng)絡(luò)安全;隱私保護(hù)
互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等技術(shù)在圖書館廣泛應(yīng)用,圖書館數(shù)字資源建設(shè)加快,數(shù)據(jù)資源總量每年顯著遞增,數(shù)據(jù)資源種類增多,現(xiàn)已包括數(shù)字、文本、圖像、音頻、視頻、多媒體等各種結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)類型,同時(shí)通過圖書館微信、微博、社交網(wǎng)絡(luò)等新媒體方式,讀者原創(chuàng)數(shù)據(jù)爆炸性增長(zhǎng),產(chǎn)生了大量的網(wǎng)絡(luò)日志、用戶行為信息等非結(jié)構(gòu)化、隱私數(shù)據(jù)。如何做好這些海量數(shù)據(jù)的安全防護(hù),已成為保證圖書館正常運(yùn)轉(zhuǎn)、提升信息服務(wù)質(zhì)量的重要技術(shù)保障工作。然而近年來,新技術(shù)快速發(fā)展下的數(shù)據(jù)安全問題變得越發(fā)嚴(yán)峻。Verizon發(fā)布的《2015數(shù)據(jù)泄露調(diào)查報(bào)告》顯示,2015年確認(rèn)了2122起數(shù)據(jù)泄露事件,涉及61個(gè)國(guó)家組織;2016年,ISIS黑客組織泄露美國(guó)阿肯色州圖書館協(xié)會(huì)(ALA)800多名員工的個(gè)人信息,所幸信用卡信息未被泄露;2017年中國(guó)教育部的信息漏洞平臺(tái)內(nèi)部通報(bào)某些高校存在弱口令漏洞,經(jīng)排查漏洞存在于高校圖書館的OPAC系統(tǒng)。因此,以數(shù)據(jù)存儲(chǔ)、挖掘、分析、應(yīng)用為己任的高校圖書館,分析和研究自身面臨的數(shù)據(jù)安全問題,采取可行的應(yīng)對(duì)策略以保障圖書館的數(shù)據(jù)安全,是高校圖書館工作者亟需去思考和研究的問題。
1高校圖書館面臨的數(shù)據(jù)安全問題
高校圖書館數(shù)字化建設(shè)至今,數(shù)據(jù)資源已成為圖書館最重要的資源之一,高校圖書館的資源建設(shè)和服務(wù)決策更多地依賴于數(shù)據(jù)分析,數(shù)據(jù)本身的可靠性和安全性尤為重要。在此,結(jié)合高校圖書館面臨的數(shù)據(jù)安全威脅,從存儲(chǔ)安全、網(wǎng)絡(luò)安全、隱私泄露三個(gè)方面,就高校圖書館面臨的數(shù)據(jù)安全問題進(jìn)行分析研究。
1.1存儲(chǔ)安全問題
高校圖書館歷經(jīng)多年信息化、數(shù)字化建設(shè),積累了大量的數(shù)字資源,數(shù)據(jù)環(huán)境具有海量存儲(chǔ)、管控難度大、開放復(fù)雜、級(jí)數(shù)遞增等特點(diǎn)。以中國(guó)礦業(yè)大學(xué)圖書館(后簡(jiǎn)稱我館)為例,數(shù)據(jù)總量從2012年的26.3TB增至2016年底的147.6TB,并且還有逐年遞增加劇的趨勢(shì),如此海量的數(shù)據(jù)對(duì)圖書館的存儲(chǔ)設(shè)備是個(gè)巨大的考驗(yàn),急劇增長(zhǎng)的數(shù)據(jù)量也將超出傳統(tǒng)數(shù)據(jù)庫(kù)的管理能力。如何防止這些數(shù)據(jù)丟失、損毀、被非法盜?。ɡ茫┦歉咝D書館存儲(chǔ)安全面臨的一個(gè)問題。
高校圖書館關(guān)注的數(shù)據(jù)已不僅限于館藏書目、電子期刊、電子圖書、學(xué)位論文、借閱信息等業(yè)務(wù)數(shù)據(jù),還延伸到讀者在微信、微博、社交網(wǎng)絡(luò)等新媒體方式互動(dòng)中產(chǎn)生的難以估量的社會(huì)化數(shù)據(jù)。數(shù)據(jù)種類包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多種類型,由于不同類型的數(shù)據(jù)對(duì)存儲(chǔ)系統(tǒng)的性能要求不同,因此存儲(chǔ)設(shè)備類型多樣。以我館為例,現(xiàn)有存儲(chǔ)設(shè)備包括磁盤陣列、SAN和NAS三種類型,三種存儲(chǔ)系統(tǒng)的存儲(chǔ)技術(shù)、管理方式、災(zāi)難忍受度、性能等都不一樣,如何高效、安全地利用三種類型存儲(chǔ)是安全存儲(chǔ)面臨的一個(gè)問題。
高校圖書館為了降低成本,開始將一些數(shù)據(jù)存儲(chǔ)在“云”端,但云平臺(tái)本身在安全方面的隱患給高校圖書館的數(shù)據(jù)安全帶來威脅,主要表現(xiàn)在:云平臺(tái)的開放性給黑客帶來了竊取數(shù)據(jù)資源的機(jī)會(huì);“云”服務(wù)提供商可能為了謀取利益而出賣這些數(shù)據(jù)和信息,導(dǎo)致圖書館核心信息和隱私數(shù)據(jù)泄露;云平臺(tái)海量用戶共存模式存在潛在的威脅;“云”服務(wù)提供商的安全訪問控制機(jī)制可能無法有效阻止非法用戶訪問;云平臺(tái)的虛擬化存在安全隱患,等等。
1.2網(wǎng)絡(luò)安全問題
高校圖書館是以網(wǎng)絡(luò)為基礎(chǔ)傳遞數(shù)字資源,提供信息服務(wù)的。圖書館網(wǎng)絡(luò)環(huán)境不僅面臨著傳統(tǒng)的病毒、木馬、DDoS攻擊等安全問題;現(xiàn)在,一方面由于數(shù)字資源規(guī)模巨大,黑客的一次攻擊能夠盜取更多的數(shù)據(jù),無形之中使圖書館成為更有吸引力的目標(biāo);另一方面,黑客利用云計(jì)算、大數(shù)據(jù)等技術(shù)發(fā)起的高級(jí)可持續(xù)攻擊(APT)、僵尸網(wǎng)絡(luò)攻擊等新模式攻擊,能夠同時(shí)控制百萬臺(tái)計(jì)算機(jī),這是傳統(tǒng)單點(diǎn)攻擊做不到的,由于可利用數(shù)據(jù)規(guī)模巨大,攻擊者能夠很好地隱藏攻擊代碼,使傳統(tǒng)的安全工具無法檢測(cè)。
高校圖書館的服務(wù)模式和讀者閱讀方式正在改變,伴隨著自助借還、無線接入、移動(dòng)閱讀終端、微信、微博、云計(jì)算和其他新技術(shù)的應(yīng)用,使得外部信息接入點(diǎn)增加,傳統(tǒng)網(wǎng)絡(luò)防護(hù)設(shè)備安全隱患加大,API(程序接口,如我館的匯文系統(tǒng)接口程序)的訪問權(quán)限開放等。這些都是圖書館數(shù)據(jù)資源受到攻擊和泄露的重要原因,也是高校圖書館網(wǎng)絡(luò)安全面臨的重要問題。
目前,圖書館的網(wǎng)絡(luò)安全防護(hù)基本采用殺毒軟件和防火墻相結(jié)合的模式來阻止病毒、木馬等惡意程序的入侵。掃描一遍現(xiàn)有的存儲(chǔ)需要花費(fèi)幾天的時(shí)間,面對(duì)未來幾何級(jí)增長(zhǎng)的數(shù)據(jù)、大量的外部信息接入、API接口開放等,將會(huì)需要更多的掃描時(shí)間,這些網(wǎng)絡(luò)安全問題亟需我們?nèi)パ芯亢徒鉀Q。
1.3隱私安全問題
移動(dòng)互聯(lián)時(shí)代的高校圖書館,積極收集讀者個(gè)人信息(如個(gè)人身份信息、私人電話、E-mail等)和讀者活動(dòng)信息(如閱讀行為、參考咨詢內(nèi)容、上網(wǎng)行為、個(gè)人偏好、科技查新內(nèi)容等)等,并對(duì)這些信息進(jìn)行分析、挖掘、整合、利用,更好地根據(jù)讀者需求提供個(gè)性化服務(wù)、知識(shí)服務(wù)以及轉(zhuǎn)變服務(wù)模式。但同時(shí),這些讀者隱私信息存在被任意獲取、泄露、擴(kuò)散的隱患,將極大地威脅讀者個(gè)人隱私安全。
大多數(shù)高校圖書館都有閱讀終端設(shè)備、視頻監(jiān)控設(shè)備、服務(wù)監(jiān)控系統(tǒng)等,實(shí)現(xiàn)了對(duì)用戶信息和用戶行為(包括閱讀行為、閱讀需求和用戶地理位置信息)等隱私信息的數(shù)據(jù)采集與監(jiān)控。這些數(shù)據(jù)的采集與分析,提高了用戶服務(wù)質(zhì)量和讀者閱讀滿意度,同時(shí)為高校圖書館科學(xué)預(yù)測(cè)用戶服務(wù)模式變革提供了可靠的決策支持。但是,圖書館對(duì)這些隱私數(shù)據(jù)的使用權(quán)和所有權(quán)沒有明確的界定,也沒有用戶隱私數(shù)據(jù)保護(hù)措施。大量事件證明,數(shù)據(jù)未被妥善應(yīng)用會(huì)對(duì)用戶的隱私造成極大的侵害,“棱鏡門”事件就是一個(gè)實(shí)例。
高校圖書館官方微信、微博、社交網(wǎng)絡(luò)等新媒體平臺(tái)的積極推進(jìn),使互聯(lián)網(wǎng)每時(shí)每刻都在產(chǎn)生與讀者個(gè)人相關(guān)的海量數(shù)據(jù),這部分?jǐn)?shù)據(jù)包含了大量的讀者個(gè)體特征、閱讀社會(huì)關(guān)系、個(gè)體行為等隱私數(shù)據(jù),如果未被妥善處理,將增大讀者隱私泄露的風(fēng)險(xiǎn)。
2高校圖書館數(shù)據(jù)安全的解決方案
高校圖書館在使用數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)分析等技術(shù)獲取數(shù)據(jù)蘊(yùn)藏的有用信息,創(chuàng)新服務(wù)模式,提高服務(wù)質(zhì)量的同時(shí),應(yīng)研究和解決如何確保數(shù)據(jù)存儲(chǔ)安全,如何降低網(wǎng)絡(luò)安全威脅,如何防止用戶隱私泄露。高校圖書館可以從數(shù)據(jù)存儲(chǔ)安全,提高網(wǎng)絡(luò)安全防護(hù)技術(shù),讀者隱私數(shù)據(jù)保護(hù)三方面著眼,建立全方位、深度的數(shù)據(jù)安全防御體系。
2.1數(shù)據(jù)云安全存儲(chǔ)
高校圖書館由于數(shù)字資源呈爆炸性、無限增長(zhǎng)狀態(tài),現(xiàn)有的存儲(chǔ)系統(tǒng)將無法有效地存儲(chǔ)和管理這些數(shù)據(jù),限制了數(shù)據(jù)的增長(zhǎng)。根據(jù)各類數(shù)字資源的功能性和機(jī)密性需求,對(duì)于數(shù)據(jù)規(guī)模較大的電子期刊、電子書、多媒體等數(shù)字資源,其服務(wù)范圍較廣、涉及隱私敏感數(shù)據(jù)較少的情況,圖書館可考慮將這部分?jǐn)?shù)字資源存儲(chǔ)在云端,利用云存儲(chǔ)實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)、管理以及分析利用,保障數(shù)據(jù)的完整性、機(jī)密性和可用性;而對(duì)于數(shù)據(jù)規(guī)模相對(duì)較小,涉及隱私信息較多的讀者個(gè)人信息等敏感數(shù)據(jù)存儲(chǔ)在本地。云存儲(chǔ)的體系結(jié)構(gòu)可分為4層,分別是:存儲(chǔ)層、基礎(chǔ)管理層、應(yīng)用接口層和訪問層,如圖1所示。
安全云存儲(chǔ)系統(tǒng)由客戶端、服務(wù)器和云存儲(chǔ)服務(wù)提供方3個(gè)模塊構(gòu)成??蛻舳藢儆谠L問層,用戶(包括圖書館工作人員、讀者和服務(wù)提供商)通過各種終端應(yīng)用云存儲(chǔ)服務(wù),在該層用戶要進(jìn)行身份認(rèn)證和權(quán)限管理,用戶數(shù)據(jù)可以進(jìn)行分級(jí)加密。客戶端和服務(wù)器端通過web service、應(yīng)用軟件以及公用API接口進(jìn)行數(shù)據(jù)交互。
服務(wù)器端的基礎(chǔ)管理層提供分布式文件系統(tǒng)、集群系統(tǒng)、數(shù)據(jù)分塊、數(shù)據(jù)索引以及數(shù)據(jù)加密備份等功能。服務(wù)器與云存儲(chǔ)服務(wù)提供方通過可信高速的內(nèi)部網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)的存儲(chǔ)傳遞。
云存儲(chǔ)服務(wù)提供方屬于存儲(chǔ)層,主要對(duì)數(shù)據(jù)進(jìn)行壓縮和冗余刪除處理,提高存儲(chǔ)的利用率。用戶訪問權(quán)限信息和用戶數(shù)據(jù)的完整性、機(jī)密性均由客戶端進(jìn)行保障,可在客戶端運(yùn)用分級(jí)加密訪問控制技術(shù)。
所謂分級(jí)加密,即用戶可以通過發(fā)送請(qǐng)求,要求變更加密等級(jí),等級(jí)越高,密鑰越長(zhǎng),安全性就越高,運(yùn)行開銷也就較大。用戶(圖書館工作人員)可以根據(jù)數(shù)據(jù)安全需求的高低,進(jìn)行加密等級(jí)劃分,這種方式可以提高加密效率,進(jìn)而提高數(shù)據(jù)的訪問效率。
2.2提高網(wǎng)絡(luò)安全防護(hù)技術(shù)
云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)等技術(shù)給高校圖書館的網(wǎng)絡(luò)安全帶來了很大的威脅,但同時(shí)也給網(wǎng)絡(luò)信息安全技術(shù)帶來了新機(jī)遇。傳統(tǒng)的網(wǎng)絡(luò)安全防護(hù)模式是“漏洞掃描一入侵檢測(cè)一訪問控制一響應(yīng)恢復(fù)”,大多數(shù)網(wǎng)絡(luò)安全防御是在攻擊發(fā)生后,對(duì)其響應(yīng)并處理,做好恢復(fù)工作?,F(xiàn)在,網(wǎng)絡(luò)安全防護(hù)可以利用大數(shù)據(jù)的分析技術(shù),構(gòu)建一個(gè)安全智能平臺(tái),對(duì)網(wǎng)絡(luò)異常情況分析,從而發(fā)現(xiàn)潛在攻擊,有效預(yù)測(cè)威脅,如圖2所示。
網(wǎng)絡(luò)安全智能平臺(tái)實(shí)時(shí)檢測(cè)異常,同時(shí)報(bào)告異常檢測(cè)結(jié)果,并利用大數(shù)據(jù)分析技術(shù)對(duì)這些檢測(cè)報(bào)告進(jìn)行分析,發(fā)現(xiàn)攻擊行為和可疑行為,對(duì)攻擊行為做出響應(yīng)處理,對(duì)可疑行為做出預(yù)測(cè)處理,并同時(shí)將攻擊行為以及可疑行為的分析結(jié)果反饋給網(wǎng)絡(luò)安全智能平臺(tái)的分析模塊,形成一個(gè)“監(jiān)控一檢測(cè)一分析一反饋”模式的、集成的、智能的網(wǎng)絡(luò)安全防御解決平臺(tái)。通過大數(shù)據(jù)分析技術(shù),可長(zhǎng)時(shí)間分析更多種類數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化),從而發(fā)現(xiàn)潛在威脅,預(yù)測(cè)未知的惡意攻擊行為;同時(shí),能夠幫助應(yīng)對(duì)高級(jí)持久威脅(APT),內(nèi)部威脅和欺詐。
以我館為例,考慮到圖書館的各種信息服務(wù)多數(shù)以Web應(yīng)用方式提供,因此我們部署了深信服的Web應(yīng)用防火墻(WAF),該防火墻通過執(zhí)行一系列針對(duì)HTTP/HTTPS的安全策略專門為Web應(yīng)用提供保護(hù)。WAF設(shè)備對(duì)我館的Web業(yè)務(wù)進(jìn)行7×24小時(shí)流量監(jiān)控,實(shí)時(shí)發(fā)現(xiàn)系統(tǒng)新增漏洞,直觀呈現(xiàn)業(yè)務(wù)系統(tǒng)的漏洞和遭受的攻擊,并能快速定位有效攻擊,以便我們可以及時(shí)采取應(yīng)急措施。該WAF設(shè)備能夠同時(shí)抵御網(wǎng)絡(luò)層和應(yīng)用層的攻擊,并采用安全沙盒技術(shù)來發(fā)現(xiàn)可疑的未知威脅,防止新型攻擊集中爆發(fā)。
2.3基于數(shù)據(jù)生命周期的隱私保護(hù)方案
對(duì)于人類而言,遺忘一直是常態(tài),而記憶才是例外。然而,數(shù)字技術(shù)與全球網(wǎng)絡(luò)的發(fā)展,讓社會(huì)喪失了遺忘的能力,取而代之的是完善的記憶。世界上90%以上的信息是數(shù)字形式的,因此我們能夠毫不費(fèi)力地進(jìn)行存儲(chǔ)、處理、利用,例如Google一直在存儲(chǔ)每位用戶的每次搜索請(qǐng)求與訪問記錄,可以說Google對(duì)我們的了解比我們自己能夠記住的還要多。如果大量數(shù)字化的私人信息沒有有效的監(jiān)管,它不僅可能在今天被盜用,在若干年后仍然可能被盜用。
高校圖書館用戶的個(gè)人信息以及產(chǎn)生于微博、微信、社交網(wǎng)絡(luò)中的用戶敏感信息也可能以數(shù)字形式被搜集、存儲(chǔ)很久很久,繼而被大數(shù)據(jù)的挖掘技術(shù)、關(guān)聯(lián)分析技術(shù)所處理、整合、利用,一旦不能保證這些數(shù)據(jù)的合法利用,失去控制,那么將造成個(gè)人隱私泄露危機(jī)。在此,我們以“隱私數(shù)據(jù)生命周期”為理論基礎(chǔ),把圖書館用戶的個(gè)人信息保護(hù)工作貫穿于整個(gè)數(shù)據(jù)生命周期。隱私數(shù)據(jù)生命周期包括:數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與應(yīng)用、數(shù)據(jù)傳輸以及數(shù)據(jù)刪除5個(gè)環(huán)節(jié)。根據(jù)5個(gè)環(huán)節(jié)中防范隱私泄露技術(shù)手段的不同,將分為4種類型保護(hù)方式:RBAC、權(quán)限管理、加密保護(hù)和安全刪除,從各個(gè)環(huán)節(jié)起到防范作用,如圖3所示。
RBAC:RBAC即基于角色的訪問控制,將權(quán)限和角色關(guān)聯(lián),為不同角色賦予不同的權(quán)限,用戶成為某個(gè)角色時(shí),就擁有了該角色的權(quán)限。在圖書館用戶敏感數(shù)據(jù)采集、處理(挖掘、分析、整合、共享)和應(yīng)用這2個(gè)環(huán)節(jié)中,采用RBAC保護(hù)方式,對(duì)不同的數(shù)據(jù)使用人員(包括圖書館工作人員和服務(wù)運(yùn)行商)規(guī)范其權(quán)限范圍,根據(jù)工作分工不同賦予不同的權(quán)限,實(shí)現(xiàn)數(shù)據(jù)使用個(gè)人具有最小權(quán)限,有效地防范用戶隱私的泄露。
匿名保護(hù):對(duì)于數(shù)據(jù)采集環(huán)節(jié),有一部分產(chǎn)生于微博、微信、社交網(wǎng)絡(luò)的圖書館用戶敏感數(shù)據(jù),采用匿名保護(hù)技術(shù),在數(shù)據(jù)發(fā)布時(shí)隱藏用戶的標(biāo)識(shí)信息、屬性信息、用戶問關(guān)系,盡可能隱藏用戶個(gè)人數(shù)據(jù)中的敏感信息。同時(shí),圖書館也應(yīng)對(duì)搜集到的用戶個(gè)人信息匿名化。
分級(jí)加密:用戶的隱私數(shù)據(jù)以明文形式進(jìn)行的存儲(chǔ)和傳輸在很大程度上是不可取的,因此在數(shù)據(jù)存儲(chǔ)和傳輸2個(gè)環(huán)節(jié),應(yīng)采用加密保護(hù)。這里,我們提出采用分級(jí)加密技術(shù),根據(jù)保密等級(jí)不同,設(shè)定不同的密鑰長(zhǎng)度,能夠在達(dá)到保密效果的同時(shí)有效降低運(yùn)行開銷,提高圖書館應(yīng)用系統(tǒng)的運(yùn)行速度。
安全刪除:圖書館應(yīng)科學(xué)地管理用戶個(gè)人信息,當(dāng)用戶個(gè)人信息達(dá)到使用目的,確定不需要時(shí),必須“銷毀”。敏感信息的銷毀,采用清洗/擦除或覆寫法,確保數(shù)據(jù)徹底刪除,無法復(fù)原,以免造成涉密信息泄露。
3結(jié)語
云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)等新技術(shù)給高校圖書館信息服務(wù)模式帶來深刻的變革,同時(shí)也給圖書館的數(shù)據(jù)安全帶來全新的挑戰(zhàn)。我們利用云存儲(chǔ)、分級(jí)加密、大數(shù)據(jù)分析、WAF、RBAC等技術(shù)和生命周期理論,從數(shù)據(jù)安全存儲(chǔ)、網(wǎng)絡(luò)安全防護(hù)技術(shù)加強(qiáng)、隱私數(shù)據(jù)有效監(jiān)管三方面入手,建立全方位的、深度的信息安全防御體系,將數(shù)據(jù)安全防護(hù)貫穿整個(gè)圖書館信息化、數(shù)字化建設(shè)、運(yùn)維、使用環(huán)節(jié)中,以保障高校圖書館信息服務(wù)的質(zhì)量和效率,為廣大師生用戶提供可靠、可信的信息服務(wù)。但是,加密等級(jí)劃分、安全態(tài)勢(shì)分析和預(yù)測(cè)、安全邊界劃分、數(shù)據(jù)脫敏等問題,還需要我們進(jìn)一步思考和研究。