薄懷霞
(曲阜師范大學信息技術與傳播學院,山東 日照 276826)
數字圖書館個性化信息服務是以信息用戶的信息使用行為、習慣、偏好、特點及用戶特定的需求為基礎,向用戶提供滿足其個性化信息需求的相關內容和系統(tǒng)功能的一種服務。個性化信息服務是數字圖書館信息服務的發(fā)展方向。與此同時,數字圖書館的個性化信息服務也帶來諸如版權、信息安全和隱私保護等一系列問題,如何有效保護圖書館用戶的隱私,更好地實現數字圖書館與用戶之間的雙贏已受到專家學者越來越廣泛的關注。
筆者以“隱私保護技術”為主題詞在CNKI全文數據庫中對相關學術論文進行檢索,得到檢索結果160條,通過分析發(fā)現,研究內容主要集中于數據和網絡應用,研究領域則主要分布在計算機、經濟、金融和醫(yī)療等方面;以“隱私保護”和“數字圖書館”為檢索主題檢索到相關文獻30篇,此數字表明國內進行數字圖書館隱私保護問題的研究還非常少,簡單分析所得文獻還發(fā)現數字圖書館領域對隱私保護的研究角度和思路各異,研究層次也深淺不一,總體上缺乏系統(tǒng)性,而且對于數字圖書館中隱私保護技術的研究更是少之又少;之后又以“隱私保護技術”和“數字圖書館”為主題檢索到的文獻只有兩篇,更加印證了上述分析結果。但是,隨著社會信息化的進一步發(fā)展,以及各種統(tǒng)計、分析和挖掘工具在數字圖書館中的應用,數字圖書館的用戶隱私問題更多地需要采用隱私保護技術加以解決。筆者主要概述了若干隱私保護技術,并初步探索了隱私保護技術在數字圖書館領域的一些應用。
數字圖書館在按照用戶個體需求提供信息服務的同時,要對用戶個人的具體特點和使用信息的習慣做出細致分析,并以此挖掘用戶的隱形需求,也由此才能提供針對性強的信息服務。在提供個性化信息服務時,除保證服務能真正符合用戶的需求外,保護用戶的個人隱私不受侵犯成為數字圖書館發(fā)展不能回避的問題,因為只有有效保護用戶的隱私,才能提升用戶的信任度和關注度,從而更好地實現數字圖書館的個性化服務。
數字圖書館用戶在利用圖書館個性化服務的過程中,往往會被要求進行身份認證,如填寫用戶的姓名、年齡、性別、身份證號、職業(yè)、學歷、聯(lián)系電話等個人信息,另一方面網站的日志程序還會自動保存用戶的IP、登錄時間、登錄時長、訪問的內容等,這些無疑都涉及了用戶的隱私信息。
圖書館采用先進的技術手段收集用戶信息是其提供個性化信息服務的前提,通過對個人數據信息進行收集、挖掘與分析,獲得用戶的潛在需求,才能提供有針對性的內容和服務,進而更好地實現數字圖書館服務的個性化,這對數字圖書館來說是順應網絡時代發(fā)展的結果,也是Lib2.0在數字圖書館中的應用體現[1]。
目前對數字圖書館個性化服務隱私保護的研究主要集中在法律、法規(guī)、行業(yè)自律、保護技術等方面,其中對于加強隱私保護技術的研究都比較簡單,僅僅列舉一些現有的其他領域的隱私保護技術,并沒有結合數字圖書館的特定環(huán)境和數字圖書館用戶的特殊要求而展開。
數字圖書館的個性化服務系統(tǒng)每天都會生成大量的應用數據,這些數據可以分為個人基本資料和行為數據,個人基本資料即用戶注冊登記的年齡、性別、證件號、聯(lián)系方式等的數據信息,而行為數據是指因用戶借閱、訪問等被無意識獲取的數據信息。隱私保護技術的應用一方面有效限制了用戶隱私信息的泄露,另一方面能夠提高用戶對圖書館的信任,它有利于圖書館對用戶信息的收集管理,從而提高數據分析的準確性,進一步推動數字圖書館個性化服務的開展。
在我國數字圖書館建設的過程中,許多專家學者都認識到針對用戶的隱私保護是數字圖書館建設的一項重要內容,并且指出用戶隱私的泄露隱患存在于圖書館對讀者個人數據信息收集、整理、貯存和利用的全過程中。數字圖書館建設應該從宏觀和微觀兩個方面進行探討,宏觀方面主要指通過國家立法確立圖書館用戶隱私權的法律地位,使對用戶隱私權的保護有法可依;微觀方面指有關行業(yè)采取自律措施以及通過技術手段來加強對用戶隱私的保護。同時由于目前聯(lián)機分析處理、數據挖掘等信息工具的廣泛應用,針對隱私保護技術的研究引起越來越多專家學者的關注。
目前,關于各領域隱私保護的主要研究方向有通用的隱私保護技術、面向數據挖掘的隱私保護技術、面向數據發(fā)布的隱私保護技術和隱私保護算法[3],通用的隱私保護技術致力于較低應用層次上數據隱私的保護,一般通過引入統(tǒng)計模型和概率模型實現;面向數據挖掘的隱私保護技術則主要解決高層數據應用中對數據挖掘操作的隱私保護;面向數據發(fā)布的隱私保護技術是想通過提供一種在各類應用中通用的隱私保護方法,從而使得在此基礎上設計的隱私保護算法具有通用性。
隱私保護的研究由實際應用中不同的隱私保護需求決定,隱私保護必須最大化技術方面的作用[2]。然而沒有一種隱私保護技術是普遍適用于所有領域的,筆者根據對目前國內隱私保護技術的研究分析,將隱私保護技術分為3大類:
①基于數據失真的隱私保護技術。該方法是通過擾動(perturbation)使原始敏感數據失真來實現隱私保護,同時又能保持某些數據或數據的屬性不變。這種方法一般應用在如關聯(lián)規(guī)則挖掘、決策樹分類器構建等各種數據挖掘操作中而數據發(fā)布者又不希望發(fā)布真實數據時。如采用添加噪聲、交換等技術對原始數據信息進行擾動處理,但要求處理后的數據仍然可以保持某些統(tǒng)計性質以便于進行數據挖掘。
②基于數據加密的隱私保護技術。該方法是采用數據加密技術在數據挖掘過程中隱藏敏感數據信息,實現分布式環(huán)境下的數據安全通信。多應用于諸如分布式關聯(lián)規(guī)則挖掘、分布式數據發(fā)布、分布式安全計算等的分布式環(huán)境下的應用操作,如安全多方計算。
③基于數據匿名化的隱私保護技術。該方法可根據具體情況有條件地發(fā)布原始數據、不發(fā)布或者發(fā)布精度較低的匿名化數據來實現隱私保護,發(fā)布的數據可進行關聯(lián)規(guī)則挖掘、決策樹分類器構建、聚類挖掘等的各類數據分析操作。如不發(fā)布數據的某些閾值、數據泛化等。
對于隱私保護的多種技術方法,在具有各自優(yōu)勢的同時也存在一系列的缺陷,因此,隱私保護技術本身無論從理論還是應用上都可以作為進一步研究的對象。
目前我國數字圖書館個性化信息服務可以借助隱私保護技術體系中的部分技術來實現對用戶隱私的保護。
數字圖書館用戶通過網絡使用圖書館服務和利用圖書館的信息資源,數字圖書館則通過數據庫、網絡日志等手段管理和記錄用戶的各種信息資料,并且會利用各種數據分析和數據挖掘工具來收集用戶信息以提高其服務質量,因此數字圖書館用戶的隱私保護需要從網絡、數據庫和數據分析、數據挖掘等角度全面有效地進行[1]。
為方便數字圖書館用戶能更清晰地認識和把握其個人信息數據在數字圖書館個性化信息服務系統(tǒng)中的流動情況,并了解各環(huán)節(jié)中都有哪些隱私保護技術來保障自己的個人信息安全,作者參照網絡層次模型給出了一個隱私保護層次模型(如圖1所示),該模型是從個人數據收集、信息存取和數據傳輸3個環(huán)節(jié)將隱私保護進行分層,根據數據的流通環(huán)境分別稱作網絡層、訪問層和通訊層,模型中分類列出了目前數字圖書館應用的幾種隱私保護方法和技術。
圖1 隱私保護層次模型
該層次模型是基于用戶數據信息在數字圖書館中的流通提出的,目的是提供給圖書館用戶以直觀形象的展示,使用戶清楚自己的個人信息在數字圖書館個性化信息服務中是有保護有保障的,因此該模型可以作為隱私保護標準置于數字圖書館的隱私聲明中。用戶不僅僅想要知道自己的何種信息被圖書館服務系統(tǒng)收集、被收集的信息用于何種目的等基本情況,往往更關注其隱私信息能不能獲得安全保障,以確保其個人隱私不被不法分子非法竊取。因此,該隱私保護層次模型的提出可以解決用戶的顧慮,使用戶對數字圖書館產生更大的信任,進而可以放心地使用數字圖書館提供的各種個性化信息服務,實現數字圖書館和用戶之間的雙贏。另外對于從事數字圖書館隱私保護技術的研究者來說,可以針對不同層次數據流通特點和各層的隱私保護技術應用成果探討更適合于數字圖書館用戶的隱私保護技術。
①網絡層應用的隱私保護技術,即用戶收集信息并建立信息模型的隱私保護技術。圖書館應該對如何收集用戶數據、收集的用戶數據類型、收集的用戶數據如何使用等情況有個明確的標準,并設定一定說明,告知用戶個人數據將被如何處理。萬維網聯(lián)盟(W3C)公布的一項隱私保護推薦標準P3P(Platform for Privacy Preferences)正是可以提供這種個人隱私保護策略的技術,用戶在這種技術策略下,能夠清晰地明白數字圖書館網站對自己的隱私信息做何種處理,并且P3P向用戶提供了個人隱私信息在保護性上的可操作性,用戶可以自主選擇適合自己的隱私保護參數,決定自己的隱私數據是否被收集或者選擇個人隱私數據的哪些方面可以被收集,P3P提高了用戶對個人隱私信息的控制權。
為防止非法的數據挖掘操作獲取用戶隱私信息,目前網絡層還采用了K-匿名技術、L多樣性技術等來實現對用戶隱私數據的保護。
K-匿名(K-anonymization)技術是普通匿名技術的擴展,它是多站點共享用戶數據情況下保護用戶隱私的一種重要方法,該技術模型的基本思想是數據中每個元組都存在一定數量(至少為k個)的、在準標志屬性上取值相同的元組,這樣即使攻擊者通過其他數據鏈接也僅能以不超過1/k的概率來標識元組所屬個體的身份,并不能唯一標識出各元組所有者的身份,從而降低鏈接攻擊造成的隱私泄露風險。
但是不加控制的K-匿名算法容易受一致性攻擊和背景知識攻擊,因此,Machanavajjhala等人在K-匿名基礎上又提出了L-多樣性模型,該模型要求每個等價類中的敏感值滿足多樣性需求,以提高敏感值與其所屬個體的鏈接難度。
②訪問層的隱私保護技術,即用戶信息存取訪問的隱私保護技術。用戶興趣模型建立之后形成用戶描述性文件并存儲起來,數字圖書館需要對用戶提供安全的信息存取技術,以保證用戶隱私數據不被木馬、黑客等利用從而造成安全威脅。此環(huán)節(jié)目前采用的安全存取訪問保障技術有訪問控制技術、入侵檢測技術和審計技術。
訪問控制技術(Access Control Technology)是控制信息安全最常用的技術手段,它允許被授予一定權限的用戶對信息數據庫的特定資源、程序或數據進行訪問,限制其隨意刪除、修改或拷貝信息文件,還可限定一些數據資源的讀寫范圍,保障授權用戶獲取資源的同時又拒絕非授權用戶的訪問。訪問控制的實現首先考慮對合法用戶進行驗證,然后對控制策略進行選用與管理,最后要對非法用戶或是越權操作進行管理。其目的就是保證用戶信息不被非法訪問和使用。
入侵檢測是隱私保護系統(tǒng)不可或缺的部分。入侵檢測(Intrusion Detection)是通過對信息系統(tǒng)的運行狀態(tài)進行監(jiān)視,從計算機網絡和計算機系統(tǒng)的關鍵點收集信息并進行分析,從中發(fā)現網絡或系統(tǒng)中是否有違反安全策略的行為和被攻擊跡象,目的是發(fā)現攻擊企圖、攻擊行為或攻擊結果,以保證個性化信息服務系統(tǒng)資源的機密性、完整性和可用性。
安全審計技術(Security Audit Technology)是通過對用戶關心的事件進行記錄并進行獨立的審查與估計,該技術包括3種類型:①系統(tǒng)級審計,主要包括登錄情況、登錄識別號、每次登錄的日期和具體時間、每次退出的日期和時間、所使用的設備、登錄后運行的內容等;②應用級審計,包括打開和關閉數據文件,讀取、編輯和刪除記錄或字段的特定操作及打印報告之類的用戶活動等;③用戶級審計,包括用戶直接啟動的所有命令、用戶所有的鑒別和認證嘗試、用戶所訪問的文件和資源等。審計技術可以對潛在的信息攻擊者起到威懾和警告作用,幫助個性化信息服務系統(tǒng)管理員及時發(fā)現系統(tǒng)入侵行為或潛在的系統(tǒng)漏洞,以便更好地保護用戶隱私。
③通訊層的隱私保護技術,即用戶信息通訊過程的隱私保護技術。為保護用戶隱私數據不被非法截獲,圖書館就需要采用安全的數據通訊技術。目前部分數字圖書館采用虛擬專用網(Virtual Private Network)技術來實現用戶隱私數據在網絡上的安全傳輸,另外還有圖書館通過將待傳輸數據進行加密的方式來保障數據傳輸的安全性。
虛擬專用網(VPN)技術是在公共網絡中建立“專用網絡”,數據通過安全的“加密管道”在公共網絡中傳播,即在公用開放的網絡中附加上層協(xié)議,向用戶提供類似專用網性能的網絡服務技術。VPN在建立安全數據通道過程中能夠提供強有力的加密手段,使偷聽者不能破解攔截到的通道數據,因此保證了通道數據的機密性。建立數字圖書館專用網絡可以有效保障用戶信息的安全傳輸。
數據加密技術(Data Encryption Technology)是指將明文信息經過添加密匙及進行加密函數轉換,變成無意義的密文,而接受方將此密文經過解密函數、解密密鑰還原成明文的技術。數據加密系統(tǒng)至少要由明文、密文、密鑰與加密算法4個基本要素構成,這就要求只能在指定的用戶或網絡下才能解除密碼獲得原數據,通過密碼機制實現了對原始數據的不可見性和數據的無損失性,實現對用戶隱私數據信息的保護。目前加密算法已具備相當高的安全性。
上述3個層次的隱私保護技術雖都有其適應性和有效性,但在數據隱私保護上并不完善,都存在一定的缺陷,因此,數字圖書館應加以研究擴展找出能夠更好地保護隱私的新方法。
隱私保護技術在各個領域都有廣泛的應用,針對不同領域的特點,隱私保護技術種類也非常多,筆者主要以數字圖書館用戶隱私保護為研究對象,在總結目前隱私保護技術大類的前提下,針對數字圖書館用戶數據信息流通環(huán)境特點,提出適用于數字圖書館的用戶隱私保護層次模型,并且按照所分層次依次對目前有所應用的隱私保護技術做了簡要分析。該模型符合數字圖書館用戶的認識水平,可以幫助用戶了解個人隱私信息在數字圖書館中的保護策略,可以作為數字圖書館網站隱私保護聲明的一部分,緩解用戶對圖書館的信任危機,從而實現數字圖書館和用戶之間的雙贏。
除傳統(tǒng)意義上采用的隱私保護方法和技術外,一些新技術的應用對數字圖書館個性化信息服務隱私保護也具有非常重要的意義。
①結合本體論、數據挖掘為代表的信息處理技術,將數字圖書館個性化信息服務隱私保護策略進行知識化表示,并采用一定語義推理機制增加策略的推理能力,不僅可以增強隱私保護的智能化程度,提高隱私安全性,還可以增加隱私保護策略的靈活性。
②在數字圖書館個性化服務系統(tǒng)中增加人工智能模塊,實現個性化信息服務系統(tǒng)智能化的隱私保護,對用戶有隱私要求的信息進行隱藏或修改,自主檢測企圖非法進入系統(tǒng)的行為并進行攔截,并對用戶信息傳輸通道進行監(jiān)控檢測,使用戶的每一條隱私信息都配備專門的數字保鏢,從而實現數字圖書館對個性化信息服務用戶隱私的全面保護。
[1] 駱永成,陳惠蘭,樂嘉錦.隱私保護技術在數字圖書館的應用[J].現代情報,2008(6):95-97.
[2]駱永成.數字圖書館敏感數據匿名發(fā)布若干關鍵技術研究[D].上海:東華大學,2011.
[3] 周水庚,等.面向數據庫應用的隱私保護研究綜述[J].計算機學報,2009(5):847-861.
[4] 潘浩,張幸.一種基于自主計算的數字圖書館個性化服務隱私保護框架[J].圖書情報工作,2009(21):75-77.
[5] 王國霞,王麗君,劉賀平.個性化推薦系統(tǒng)隱私保護策略研究進展[J].計算機應用研究,2012(6):2001-2008.
[6] 曹玉平.數字圖書館個性化服務中的隱私權保護問題[J].圖書館學刊,2010(11):51-53.
[7] 周波.數字圖書館個性化信息服務中的用戶隱私保護[J].圖書館論壇,2008(5):126-128.
[8] 尹凱華,熊璋.個性化服務中隱私保護技術綜述[J].計算機應用研究,2008(7):1932-1939.
[9] 郭明珠,魏來,魏佳坤.個性化信息服務中用戶隱私保護對策探究[J].圖書館學研究:理論版,2010(8):62-66.
[10] 劉穎.論個性化信息服務中的隱私保護[J].情報科學,2007(12):1795-1798.
[11] 戢渼鈞.關于個性化信息服務的隱私保護[J].圖書情報工作,2006(2):49-51.
[12] 顧朝暉,盧振波.圖書館個性化服務中的用戶個人信息隱私權保護[J].圖書館論壇,2011(5):141-143.
[13] 韓建民,于娟,賈泂.面向數值型敏感屬性的分級l-多樣性模型[J].計算機研究與發(fā)展,2011(1):147-158.
[14] 蘭麗輝,鞠時光,金華.數據發(fā)布中的隱私保護研究綜述[J].計算機應用研究,2010(8):2822-2826.
[15] 王玨.高校圖書館個性化智能服務中的隱私保護[J].圖書館學刊,2009(10):26-28.
[16] 皮俊波.個性化搜索中的隱私安全保護框架[D].杭州:浙江大學,2010.