韓禮紅,韓翠峰
(蘭州財經(jīng)大學(xué) 圖書館,蘭州 730020)
?
大數(shù)據(jù)時代圖書館個性化信息服務(wù)中讀者隱私保護(hù)研究
韓禮紅,韓翠峰
(蘭州財經(jīng)大學(xué) 圖書館,蘭州 730020)
摘 要:本文對大數(shù)據(jù)時代圖書館讀者隱私數(shù)據(jù)的主要內(nèi)容進(jìn)行了界定,并展示了大數(shù)據(jù)時代圖書館個性化服務(wù)的過程;研究了大數(shù)據(jù)時代圖書館個性化服務(wù)中有關(guān)讀者隱私侵犯的風(fēng)險。最后,提出了大數(shù)據(jù)時代圖書館個性化服務(wù)中基于制度建設(shè)與技術(shù)保障的隱私保護(hù)策略,并給出了基于技術(shù)層面的讀者隱私保護(hù)層次模型。
關(guān)鍵詞:大數(shù)據(jù);圖書館;個性化服務(wù);隱私保護(hù)
世界已經(jīng)進(jìn)入了大數(shù)據(jù)時代,數(shù)據(jù)已成為人們生活、工作的重要組成部分。據(jù)統(tǒng)計(jì),2009年數(shù)據(jù)信息量達(dá)到8000億GB,而到2011年達(dá)到1.8ZB[1],2012年全球信息總量已經(jīng)達(dá)到2.7ZB,而到2015年這一數(shù)值預(yù)計(jì)會達(dá)到8ZB[2]。隨著信息化的發(fā)展,圖書館在儲藏大量的紙質(zhì)書籍的同時,還是現(xiàn)代社會大量數(shù)字資源的提供者。日益增長的電子資源,數(shù)字圖書館、移動圖書館的建設(shè),云計(jì)算、RFID、語義網(wǎng)、社交網(wǎng)絡(luò)、智能終端的發(fā)展為圖書館提供了廣泛的數(shù)據(jù)來源,圖書館正在迎接大數(shù)據(jù)時代的到來[3]。在傳統(tǒng)的學(xué)術(shù)交流中,圖書館具有獨(dú)一無二的優(yōu)勢。而隨著信息技術(shù)的發(fā)展,數(shù)字學(xué)術(shù)文獻(xiàn)已經(jīng)成為科研教育用戶學(xué)習(xí)與創(chuàng)新的基本保障[4]。
大數(shù)據(jù)時代的到來促使傳統(tǒng)圖書館向現(xiàn)代圖書館發(fā)展,現(xiàn)代圖書館的服務(wù)方式將由傳統(tǒng)的讀者找信息的被動式服務(wù),轉(zhuǎn)變?yōu)榇髷?shù)據(jù)時代的信息找人的主動服務(wù)方式,個性化信息服務(wù)方式將是這種服務(wù)方式轉(zhuǎn)變的主要形式之一。在大數(shù)據(jù)時代,個性化服務(wù)既是一種交互式的服務(wù),同時,又是一種主動式的服務(wù)。作為交互式服務(wù),不可避免地涉及大量有關(guān)讀者的個人信息,包括姓名、年齡、職業(yè)、個性、喜好、科研、關(guān)注的焦點(diǎn)等;作為主動式服務(wù),是建立在對用戶的深入分析與了解,以及對讀者的一些深層次屬性挖掘的基礎(chǔ)之上。這種基于大數(shù)據(jù)挖掘與預(yù)測的個性化信息服務(wù),難免會產(chǎn)生對讀者隱私數(shù)據(jù)的侵犯。
1.1大數(shù)據(jù)時代個性化服務(wù)的內(nèi)涵與過程
以資源為核心的數(shù)字化圖書館建設(shè)到以讀者為核心的大數(shù)據(jù)圖書館,最重要的就是針對不同讀者全面解決用戶個性化信息需求[5],即開展個性化信息服務(wù)。個性化信息服務(wù)就是以讀者為中心,深入挖掘用戶的諸如行為習(xí)慣、興趣愛好、科研動態(tài)、活動范圍,以及讀者對信息的個性化定制要求及服務(wù)反饋的基礎(chǔ)上,來最大程度地將滿足用戶需求,將相關(guān)數(shù)據(jù)信息精準(zhǔn)的、主動的推送至讀者面前的服務(wù)。個性化服務(wù)將是大數(shù)據(jù)時代圖書館的主要服務(wù)方式之一,其服務(wù)過程如圖1所示。大數(shù)據(jù)環(huán)境下個性化服務(wù)是建立在廣泛收集讀者相關(guān)信息的基礎(chǔ)之上,在信息收集、數(shù)據(jù)清洗、服務(wù)預(yù)測乃至提供個性化服務(wù)的整個過程中,讀者始終處于被動狀態(tài),這就決定了讀者對隱私數(shù)據(jù)沒有知情權(quán)、控制權(quán),這樣在提供個性化信息服務(wù)的過程中,有關(guān)數(shù)據(jù)收集、存儲、挖掘、傳輸及服務(wù)中的任一環(huán)節(jié),都有可能侵犯讀者的隱私權(quán)。
1.2大數(shù)據(jù)時代讀者隱私權(quán)問題的主要內(nèi)容
一般認(rèn)為,隱私具有三種特征,即主體是人,客體是個人信息或事務(wù),而隱私的內(nèi)容是主體不愿泄露的事實(shí)或行為。大數(shù)據(jù)時代的隱私具有邊界難以鑒定的特征[6]。摩根提出圖書館館員既要為讀者提供高質(zhì)量的個性化服務(wù),又要保護(hù)其隱私。讀者的性別、年齡、健康、信仰及興趣愛好等都屬于個人隱私的范疇[7]。大數(shù)據(jù)時代,有關(guān)讀者的隱私內(nèi)容主要有,讀者的個人基本信息,包括年齡、專業(yè)、性別、學(xué)歷等,也包括讀者的閱讀過程,當(dāng)前的興趣、行蹤,以及閱讀的主要內(nèi)容,進(jìn)而經(jīng)過大數(shù)據(jù)的分析與挖掘后,可推斷出讀者的興趣,當(dāng)前從事的專業(yè),正在進(jìn)行的科研動態(tài),潛在的信息需求,以及所從事的科研內(nèi)容等。可見在大數(shù)據(jù)時代,讀者的隱私無處不在。
隱私涉及個人的私生活,在不影響他人及公共利益的前提下,一旦個人感覺到這種隱私權(quán)被侵犯,個人工作生活的安寧環(huán)境遭遇破壞時,便會產(chǎn)生對他人及環(huán)境的不信任感,就會對個人及社會產(chǎn)生不良的情緒,進(jìn)而影響整個社會的發(fā)展。圖書館是精神與文化生活的公共場所,當(dāng)讀者在圖書館活動時,個人隱私遭遇侵犯,輕者會對圖書館總體環(huán)境及服務(wù)產(chǎn)生不信任感,甚至是恐懼感,重者則會影響個人及單位的科研成果權(quán),甚至是泄密,這些都將是圖書館服務(wù)中的嚴(yán)重問題。對讀者隱私權(quán)的保護(hù),體現(xiàn)了對讀者權(quán)益的保護(hù),同時,尊重讀者的隱私權(quán),將贏得讀者的信任,縮短與讀者的距離,更有利于個性化服務(wù)的開展,有利于圖書館數(shù)據(jù)資源的共享與利用。
大數(shù)據(jù)時代,從圖書館個性化信息服務(wù)的過程及技術(shù)實(shí)現(xiàn)角度來講,讀者隱私數(shù)據(jù)的泄露主要有以下三條途徑。
2.1讀者數(shù)據(jù)的非授權(quán)訪問與收集
首先,圖書館在提供個性化信息服務(wù)之前,必將從讀者的閱讀行為監(jiān)控、服務(wù)器日志、個人基本信息、科研狀態(tài)、地理位置等信息中進(jìn)行數(shù)據(jù)采集,不規(guī)范的非授權(quán)數(shù)據(jù)采集,就有可能侵犯讀者的隱私權(quán)。大數(shù)據(jù)時代,讀者都是透明人,這種大范圍的數(shù)據(jù)收集,致使讀者一旦進(jìn)入圖書館,或者通過智能終端訪問到圖書館資源時,都有可能被記錄,就像讀者的一切行動用攝像頭拍攝一般,讀者將毫無隱私而言。其次,大數(shù)據(jù)時代圖書館提供的個性化服務(wù),打破了傳統(tǒng)意義上的位置界限,讀者可隨時隨地通過智能終端等接受相關(guān)服務(wù),這就很容易通過各種非正常手段獲取用戶的訪問權(quán)限,然后達(dá)到獲取用戶隱私信息或占用合法用戶資源的目的。典型的案例比如蘋果公司的“后門”事件。2014年7月8日,知名iOS黑客扎德爾斯基向大眾展示了一些“后門程序”,攫取iPhone和iPad中的短信及通訊錄等個人數(shù)據(jù),震驚世界;7月23日蘋果公司公開承認(rèn)留有“后門”[8]。這種通過各種手段,窺探個人隱私,收集個人信息的活動,已不是讀者隱私泄露的主要途徑之一。
2.2信息載體的泄露
大數(shù)據(jù)時代圖書館數(shù)據(jù)存儲系統(tǒng)結(jié)構(gòu)復(fù)雜,導(dǎo)致圖書館數(shù)據(jù)存儲安全漏洞增多和管理難度增大。首先,大數(shù)據(jù)環(huán)境下的數(shù)據(jù)量大,價值密度低,存儲較分散,并且在提供個性化信息服務(wù)的過程中經(jīng)過多次的數(shù)據(jù)清洗與提煉,經(jīng)過的環(huán)節(jié)較復(fù)雜,管理難度加大,增加了隱私數(shù)據(jù)泄露的風(fēng)險。其次,由于大數(shù)據(jù)時代海量數(shù)據(jù)的管理采用云技術(shù)與虛擬化方式,數(shù)據(jù)在邏輯上的集中是通過分布式的網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn),這就導(dǎo)致了在數(shù)據(jù)傳輸過程中,可能被第三方非法竊取,如通過網(wǎng)絡(luò)管理及維護(hù)工具,可被用來非法利用來監(jiān)視用戶行為,截獲用戶口令,竊取用戶隱私信息等。典型案例如2012年初,谷歌公司利用其技術(shù)手段,繞開蘋果公司Safari隱私設(shè)置,追蹤用戶瀏覽習(xí)慣,就是利用信息傳播載體來侵犯隱私。
圖1 基于大數(shù)據(jù)的個性化信息服務(wù)過程
2.3基于隱私推理的攻擊
大數(shù)據(jù)環(huán)境下的個性化信息服務(wù)主要通過對收集到的大數(shù)據(jù)進(jìn)行深度挖掘與分析,在此基礎(chǔ)上來推理與預(yù)測用戶的需求。它的核心是推理與預(yù)測,通過挖掘原始數(shù)據(jù)對隱私數(shù)據(jù)進(jìn)行推理來獲取額外隱私信息,從而能夠輕而易舉地對用戶的隱私造成威脅。數(shù)據(jù)挖掘技術(shù)的發(fā)展與應(yīng)用,促使了這一隱私泄露方式的發(fā)生。大數(shù)據(jù)時代的數(shù)據(jù)挖掘存在著多面性,如果對挖掘的結(jié)果合理利用,不僅能促使圖書館服務(wù)的發(fā)展,為讀者提供高質(zhì)量的個性化服務(wù);但時,一旦出現(xiàn)不合理的隱私推理,并加以攻擊,會給讀者的隱私信息帶來侵犯。
針對大數(shù)據(jù)時代讀者隱私泄露的途徑,本文參照OSI的特征,從實(shí)現(xiàn)個性化服務(wù)的技術(shù)角度提出了個性化信息服務(wù)中保護(hù)隱私的層次模型。該模型把大數(shù)據(jù)環(huán)境下圖書館個性化信息服務(wù)系統(tǒng)隱私保護(hù)這個復(fù)雜而龐大的問題劃分為五個層次,采用分層的體系結(jié)構(gòu),來逐層地解決隱私泄露問題,使讀者的隱私保護(hù)得到充分的技術(shù)保障。該層次模型框架如圖2所示。
(1)數(shù)據(jù)搜集(資源匯聚層)
大數(shù)據(jù)時代圖書館資源具有分布面廣、數(shù)據(jù)量大、動態(tài)性強(qiáng)等特點(diǎn),只有在龐大的數(shù)據(jù)資源中搜集到具有典型特征的數(shù)據(jù)后,才能夠提供與讀者需求相匹配的服務(wù)信息。大數(shù)據(jù)環(huán)境下,這種搜集特征數(shù)據(jù)的過程是自動的、智能的,這使得用戶無法知曉圖書館是如何搜集自己的相關(guān)信息以及搜集的詳細(xì)程度,因此,個性化服務(wù)對用戶相關(guān)信息的搜集成為讀者最為擔(dān)擾的隱私泄露威脅。因此,實(shí)現(xiàn)用戶可控的自主搜集功能,建立信息開放的數(shù)據(jù)收集環(huán)節(jié),是讀者隱私保護(hù)的關(guān)鍵所在。
(2)數(shù)據(jù)存?。ㄙY源存儲層)
大數(shù)據(jù)環(huán)境下的信息資源存儲通常具有共享性,信息的匯集通過分布式網(wǎng)絡(luò)系統(tǒng)以及虛擬化技術(shù)來實(shí)現(xiàn),通過云存儲來實(shí)現(xiàn)資源的存儲,這樣就無法確定隱私數(shù)據(jù)在云空間中的具體位置,從而難以對隱私數(shù)據(jù)在存儲、訪問過程中進(jìn)行有效的控制。虛擬化技術(shù)具有基礎(chǔ)結(jié)構(gòu)較脆弱,訪問控制較復(fù)雜等特點(diǎn),可能會導(dǎo)致用戶隱私數(shù)據(jù)泄露的風(fēng)險。該層主要通過對云存儲與虛擬資源池進(jìn)行有效的訪問控制,與云計(jì)算提供商進(jìn)行有效的權(quán)責(zé)分擔(dān),個性化服務(wù)中制定出嚴(yán)格的數(shù)據(jù)存儲訪問機(jī)制,從而達(dá)到保護(hù)讀者數(shù)據(jù)安全的目的。
(3)數(shù)據(jù)挖掘(數(shù)據(jù)建模層)
該層主要是針對在個人信息搜集的基礎(chǔ)上,建立用戶興趣模型、生成用戶描述文件的過程中,進(jìn)行隱私推理可能造成對讀者隱私侵犯的問題。建模的過程是指在深入挖掘用戶相關(guān)信息的基礎(chǔ)上,來進(jìn)行判斷、推理用戶興趣和喜好的過程;用戶模型通常用以表示用戶的行為模式、認(rèn)知特點(diǎn)和興趣偏好等方面的特點(diǎn),不僅可以有針對性地過濾無關(guān)數(shù)據(jù),也可清晰表示用戶的潛在需求與偏好,這種預(yù)判若被用戶不信任,就會變?yōu)楦Q探隱私行為。該層主要通過技術(shù)手段,實(shí)現(xiàn)個人信息模型的半開放程度的自主控制,將個人不想被掌掘或不想被匹配的信息進(jìn)行剔除,并且讀者有知道與變更自己的興趣模型的權(quán)利。
(4)數(shù)據(jù)傳輸(網(wǎng)絡(luò)通信層)
大數(shù)據(jù)環(huán)境下的信息源具有分布式特點(diǎn),個性化服務(wù)的信息資源主要通過分布式網(wǎng)絡(luò)系統(tǒng)進(jìn)行傳輸。該層主要針對包含隱私數(shù)據(jù)的信息在網(wǎng)絡(luò)傳輸過程中可能發(fā)生的泄露問題。網(wǎng)絡(luò)傳輸?shù)陌踩刂仆ǔJ峭ㄐ蓬I(lǐng)域研究的熱點(diǎn),而在大數(shù)據(jù)環(huán)境下的圖書館個性化信息服務(wù)系統(tǒng)中,數(shù)據(jù)通訊帶來的隱私泄露不容忽視,防止非法竊取用戶的隱私數(shù)據(jù)是該層實(shí)現(xiàn)隱私保護(hù)需要完成的主要任務(wù)。網(wǎng)絡(luò)傳輸?shù)男畔⒐_性無法達(dá)到保護(hù)隱私數(shù)據(jù)的目的,可通過加密技術(shù),把所傳輸?shù)碾[私信息加密成密文后再傳輸,可以達(dá)到有效的隱私保護(hù)目的。
(5)數(shù)據(jù)推送(個性化服務(wù)層)
圖2 基于大數(shù)據(jù)的個性化服務(wù)隱私保護(hù)層次模型
個性化信息服務(wù)主要是實(shí)現(xiàn)精準(zhǔn)數(shù)據(jù)信息的自主性智慧化推送服務(wù)。在實(shí)現(xiàn)主動化信息推送服務(wù)時,如何實(shí)現(xiàn)用戶的訪問控制,以及用戶角色的有效控制,進(jìn)而達(dá)到保護(hù)隱私數(shù)據(jù)的目的,是該層的主要功能??赏ㄟ^多種技術(shù)相結(jié)合的方式,來實(shí)現(xiàn)相關(guān)信息的過濾、匹配與智能化推送;例如通過基于用戶角色與用戶密鑰相結(jié)合的方式,來達(dá)到個性化服務(wù)的權(quán)限控制,進(jìn)而達(dá)到保護(hù)用戶隱私的目的。
大數(shù)據(jù)時代,對讀者的閱讀需求、個性化信息需求等深入挖掘的基礎(chǔ)上,為閱讀市場的健康發(fā)展等進(jìn)行有針對性的有效預(yù)測,為圖書館資源建設(shè)及服務(wù)方式改變等提供了豐富、可靠、有力的數(shù)據(jù)支持。同時,對大數(shù)據(jù)的應(yīng)用,也造成了侵犯讀者隱私權(quán)、泄露隱私數(shù)據(jù)的風(fēng)險,使得讀者隱私的保護(hù)與通過挖掘大數(shù)據(jù)來提升個性化服務(wù)的要求相沖突。因此,只有將讀者隱私保護(hù)放在重要位置,才能保證大數(shù)據(jù)時代圖書館個性化服務(wù)的發(fā)展。在加強(qiáng)圖書館讀者隱私保護(hù)制度建設(shè)的同時,不斷加強(qiáng)技術(shù)手段的應(yīng)用,將圖書館利益與讀者權(quán)益相統(tǒng)一,才能在個性化服務(wù)中保護(hù)讀者隱私,才能為讀者提供安全、高效、經(jīng)濟(jì)和便捷的大數(shù)據(jù)閱讀服務(wù)[9]。
參考文獻(xiàn):
[1]MANYIKA J,CHUI M,BROWN B,et al.Big data: The next frontier for innovation,competition,and productivity[EB/OL].http://www.mckinsey.com/Ins ight/MGI/Research/Technology_and_Innovation/Big _data_The_next_frontier_for_innovation,214-11-10.
[2]馮登國,張敏,李昊.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報,2014(1):246-258.
[3]朱靜薇,李紅艷.大數(shù)據(jù)時代下圖書館的挑戰(zhàn)及其應(yīng)對策略[J].現(xiàn)代情報,2013,33(5):9-13.
[4]初景利,楊志剛.物競天擇,適者生存:圖書館新消亡論論辯.圖書情報工作[J].2012,56(11):5-11.
[5]蔡新紅.大數(shù)據(jù)時代圖書館信息資源個性化服務(wù)模式研究[J].圖書館論壇,2014(17):195-196.
[6]孟小峰,張嘯劍.大數(shù)據(jù)隱私管理[J].計(jì)算機(jī)研究與發(fā)展,2015,52(2):1-17.
[7]許維娜.中美圖書館用戶隱私權(quán)保護(hù)比較研究[J].新世紀(jì)圖書館,2009(2):67-70.
[8]美老牌黑客甩證據(jù),蘋果被迫承認(rèn)留有“后門”[EB/OL].http://www.vin9.cn/news/show-5103.html,2014-08-04/[2014-11-16].
[9]張曉林.顛覆數(shù)字圖書館的大趨勢[J].中國圖書館學(xué)報,2011,37(195):4-12.
User Privacy Protection for Library Personalized Service Based on Big Data
HAN Li-hong,HAN Cui-feng
(Library,Lanzhou University of Finance and Economics,Lanzhou 730020,China)
AbstractThis paper defines the main content of readers privacy information of library in big data era,presents the process of library personalized service based on big data,and studies the risk of the infringement of the right to readers’ privacy in process of library personalized service.Finally,the paper puts forward the specific measures of privacy protection based on privacy preserving technologies,and presents the hierarchical model of reader’ privacy protection from the technology point of view.
Key words:big data; library; personalized service; privacy protection
作者簡介:韓禮紅(1981- ),男,碩士,工程師,研究方向:大數(shù)據(jù),數(shù)字圖書館建設(shè);韓翠峰(1977- ),女,副研究館員,研究方向:大數(shù)據(jù),圖書館個性化服務(wù)。
基金項(xiàng)目:2014年度甘肅省社科規(guī)劃項(xiàng)目“大數(shù)據(jù)思維下現(xiàn)代圖書館個性化服務(wù)研究”(14YB064)。
收稿日期:2015-10-30
DOI:10.14096/j.cnki.cn34-1044/c.2016.01.032
中圖分類號:G252
文獻(xiàn)標(biāo)志碼:A
文章編號:1004-4310(2016)01-0153-04