馬娜梅
(首都圖書館,北京 100021)
隨著物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、智能便攜終端和云計算技術的發(fā)展,數(shù)據(jù)正以前所未有的速度不斷增長和累積,人類社會進入了大數(shù)據(jù)時代。關于大數(shù)據(jù)的概念,目前還沒有明確的一致的看法,大數(shù)據(jù)的基本概念、關鍵技術以及對其的利用上均存在很多的疑問和爭議。維基百科將大數(shù)據(jù)稱為巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息[1]。鐘瑛、張恒山認為,大數(shù)據(jù),一方面反映的是規(guī)模大到無法在一定時間內用常規(guī)軟件工具對其內容進行抓取、管理和處理的數(shù)據(jù)集合;另一方面主要是指海量數(shù)據(jù)的獲取、存儲、管理、分析、挖掘與運用的全新技術體系。這一定義指出了大數(shù)據(jù)不僅包括大量化、多樣化具有可追蹤、可分析、可量化特性的數(shù)據(jù),而且包括大數(shù)據(jù)技術及其應用,即從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力[2]。大數(shù)據(jù)研究機構Gartner認為:大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)[3]。綜合以上各種觀點,筆者認為,大數(shù)據(jù)的概念內涵包括大數(shù)據(jù)本身的含義和大數(shù)據(jù)技術兩部分。大數(shù)據(jù)中的數(shù)據(jù)量大,是結構化數(shù)據(jù)、半結構化數(shù)據(jù)與非結構化數(shù)據(jù)的總和,具有規(guī)模大 (Volume)、數(shù)據(jù)種類多 (Variety)、數(shù)據(jù)要求處理速度快 (Velocity)、數(shù)據(jù)價值密度低(Value)四V特性。大數(shù)據(jù)主要來源于服務器生成的數(shù)據(jù)(如各類日志文件)、網(wǎng)站用戶創(chuàng)造的信息、各類數(shù)字設備產(chǎn)生的數(shù)據(jù)(如各類傳感器、物聯(lián)網(wǎng)設備、智能手機等)。世界各個角落的電腦、傳感器、移動設備、在線交易和社交網(wǎng)絡每時每刻產(chǎn)生大量數(shù)據(jù)。根據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心 (IDC)的監(jiān)測,2011年全球數(shù)據(jù)量達到 1.8 ZB,預計到 2020年,全球將總共擁有35 ZB的數(shù)據(jù)量。大數(shù)據(jù)的數(shù)據(jù)類型多樣,以非結構化數(shù)據(jù)為主。非結構化數(shù)據(jù)量已占到數(shù)據(jù)總量的75%以上,且非結構化數(shù)據(jù)的增長速度比結構化數(shù)據(jù)快10倍到50倍。要求數(shù)據(jù)的快速處理,是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一。大數(shù)據(jù)對數(shù)據(jù)實時處理有著極高的要求,需要實時反饋結果,捕捉、分析、處理每一個瞬時出現(xiàn)的數(shù)據(jù)。大數(shù)據(jù)的價值雖然巨大,但價值密度卻很低,有效的信息相對于數(shù)據(jù)整體是偏少的。大數(shù)據(jù)技術是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術,具體包括數(shù)據(jù)采集技術、數(shù)據(jù)存取技術、數(shù)據(jù)處理技術、統(tǒng)計分析技術、數(shù)據(jù)挖掘技術、模型預測技術等。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術。大數(shù)據(jù)的應用,可提升政府的提升服務能力和運作效率,有助于“智慧城市”的打造,幫助商家開展針對性的營銷活動,以搶占商品銷售市場份額,爭取更多客戶的關注。
知識咨詢強調嵌入用戶的管理決策、教學科研、科技開發(fā)的全過程,提供以智力、知識、專業(yè)、工具的應用為特征的深度知識服務。圖書館知識咨詢是圖書館針對用戶工作、學習與生活中的信息與知識需求所提供的一種專業(yè)化知識服務。大數(shù)據(jù)時代的到來,意味著我們進入到了一個以密集型數(shù)據(jù)的相關挖掘、分析、處理來推動社會創(chuàng)新發(fā)展的時代。圖書館在大數(shù)據(jù)時代已具有大數(shù)據(jù)特征,圖書館數(shù)據(jù)種類繁多,信息資源總量日益龐大,用戶規(guī)模尤其是網(wǎng)絡用戶規(guī)模逐步擴大,利用大數(shù)據(jù)開展知識咨詢服務,必將推動圖書館知識咨詢服務水平和層次的提高。
知識咨詢是在對相關知識信息進行提煉、總結的基礎上,為用戶提供專業(yè)性強的系統(tǒng)化知識服務,需要大量知識信息做支撐。在大數(shù)據(jù)背景下,非結構化數(shù)據(jù)、半結構化數(shù)據(jù)大量激增,夯實了圖書館知識咨詢服務的資源基礎。從圖書館角度分析,除了可利用的紙質出版物外,各種學術研究機構的結構化數(shù)據(jù)庫以及學術研究類網(wǎng)站資源、個人博客(微博)中的文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等半結構化、非結構化數(shù)據(jù),是圖書館知識咨詢重要的參考情報源。據(jù)美國互聯(lián)網(wǎng)研究機構Netcraft發(fā)布的最新調查結果顯示,截至2012年3月份,全世界活躍網(wǎng)站數(shù)量已超過6.44億個[4]。這些網(wǎng)絡蘊藏著眾多的、動態(tài)的、有價值的數(shù)據(jù)資源,且數(shù)據(jù)量逐年增加,對這些數(shù)據(jù)資源進行存儲、分析與利用,豐富了圖書館知識咨詢服務的參考源。
及時準確地從海量數(shù)據(jù)中提取信息和知識,面向社會開展知識咨詢服務,這就需要對海量數(shù)據(jù)進行處理和分析?,F(xiàn)有的數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術等只能對結構化數(shù)據(jù)進行處理,并不能挖掘更深、更多的隱含信息,進而得到更能揭示事物發(fā)展本質以及發(fā)展規(guī)律的知識。大數(shù)據(jù)技術的出現(xiàn),為有效處理非結構化數(shù)據(jù)提供了技術保證。通過高速捕捉、發(fā)現(xiàn)和分析,從大容量、多類型的數(shù)據(jù)中獲取價值的大數(shù)據(jù)技術架構將為數(shù)據(jù)分析業(yè)務帶來更多的變化與支撐,如目前廣泛關注和應用的分布式系統(tǒng)基礎架構 Hadoop、非關系型數(shù)據(jù)庫技術NoSQL等大數(shù)據(jù)技術。
傳統(tǒng)圖書館知識咨詢業(yè)務流程是:問題接收—提問解析和分派—咨詢館員作出答案—答案發(fā)送—跟蹤,是一種逆向思維模式。在大數(shù)據(jù)背景下,圖書館知識咨詢流程是:收集數(shù)據(jù)—量化分析—找出相互關系—提出優(yōu)化方案,使用戶的問題解決方案從成功躍至卓越,是一種正向思維模式。知識生產(chǎn)方式和傳播方式發(fā)生了變革。這種解決問題思維方式將為圖書館的知識咨詢服務帶來發(fā)展機遇,改變了圖書館被動接受咨詢者咨詢的做法,從數(shù)據(jù)分析入手,得出用戶知識需求特征,從而主動提供知識服務。
圖書館知識咨詢服務是一種基于一切信息資源(包括館藏物理資源和網(wǎng)絡虛擬資源),以用戶需求為目的、面向知識內容的、融人用戶決策過程并幫助用戶找到或形成問題解決方案的知識增值服務。對現(xiàn)有知識資源進行收集、整理、組織,是成功開展知識咨詢服務的關鍵。目前,各個圖書館都引進了數(shù)量不等的商業(yè)數(shù)據(jù)庫和自建了一些特色數(shù)據(jù)庫,如首都圖書館引進CNKI學術資源總庫和ABI/INFORM商業(yè)和經(jīng)濟管理期刊數(shù)據(jù)庫、牛津在線學術專著數(shù)據(jù)庫、Emerald管理學期刊數(shù)據(jù)庫和自建“首圖講壇資源庫”等。這些數(shù)據(jù)庫在圖書館知識咨詢服務中發(fā)揮了積極的作用。但在大數(shù)據(jù)時代,完全依靠現(xiàn)有的數(shù)據(jù)庫作為知識咨詢服務的信息源,難以為用戶提供最新的知識信息。在大數(shù)據(jù)背景下,海量化的大數(shù)據(jù)中存在著各種學科的最新知識及研究動態(tài),是咨詢用戶急需了解和掌握的知識。因此,圖書館要挖掘與組織各學科的大數(shù)據(jù),建立知識存儲系統(tǒng),為用戶提供新穎的、前瞻性的學科知識,幫助用戶解決各種問題。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,利用分類、回歸分析、聚類、關聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等數(shù)據(jù)挖掘方法,能處理結構化數(shù)據(jù),如商業(yè)型 Oracle、Sql Server、開源型MySql等,均具備了強大的結構化數(shù)據(jù)管理功能、數(shù)據(jù)倉庫功能,但針對復雜的結構化和非結構化數(shù)據(jù)處理需求,Sql語言表達能力就暴露出了一定局限性。需要把數(shù)據(jù)從數(shù)據(jù)庫中讀取出來,借助于統(tǒng)計分析軟件進行大數(shù)據(jù)深度分析和決策,導致大量數(shù)據(jù)的移動。隨著Hadoop開源框架及其相關技術的逐步完善,采用Hadoop分布式文件系統(tǒng)的可靠大數(shù)據(jù)存儲服務及基于MapReduce編程模型的高性能并行大數(shù)據(jù)處理服務,能夠提供對結構化和復雜數(shù)據(jù)、非結構數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實,讓圖書館更容易地分析和研究復雜數(shù)據(jù)[5]。圖書館在挖掘學科大數(shù)據(jù)的基礎上,可建立知識存儲系統(tǒng)。鑒于圖書館人力和技術應用的局限性,筆者建議可通過與軟件開發(fā)商合作,建立基于云計算的知識存儲系統(tǒng)。
根據(jù)用戶需求偏好,提供個性化知識服務,是大數(shù)據(jù)背景下圖書館知識咨詢服務的初衷。收集和分析用戶正確的數(shù)據(jù)、切實理解用戶體驗及用戶行為已成為圖書館的當務之急。用戶利用圖書館所產(chǎn)生的借閱信息、查詢信息以及用戶網(wǎng)絡信息行為等,是圖書館分析用戶需求偏好、了解用戶需求特征的可靠信息源。云計算、物聯(lián)網(wǎng)、社交化媒體、GIS提供了豐富的數(shù)據(jù)來源。數(shù)據(jù)中包括每個用戶的身份、地點、時間、喜好、厭惡、社會關系等大量的信息。對用戶個人信息、瀏覽信息、借閱方式、行為愛好、搜索歷史、搜索時間等信息以及社交網(wǎng)絡產(chǎn)生大量的與用戶有關的非結構化數(shù)據(jù)進行分析處理,可發(fā)現(xiàn)用戶的個性化知識需求。在大數(shù)據(jù)時代,圖書館尤其要收集用戶在網(wǎng)站上發(fā)生的所有行為,如搜索、瀏覽、打分、點評、參與討論、社交媒體上的交流、與好友互動等行為,這些行為深度地反映出用戶的知識需求心理和傾向。由于大數(shù)據(jù)的特殊性,大數(shù)據(jù)分析技術還處于發(fā)展階段,目前可利用可視化分析、數(shù)據(jù)挖掘算法、預測性分析、語義引擎、數(shù)據(jù)質量和數(shù)據(jù)管理等技術對用戶數(shù)據(jù)進行分析。國外的數(shù)據(jù)分析市場相對比較成熟。美國有近萬家專門從事數(shù)據(jù)分析的服務公司,英國有三千多家,日本有一千多家,瑞典也有五百多家有影響的數(shù)據(jù)分析服務公司[6]。印度班加羅爾已有超過100家以數(shù)據(jù)分析為主要業(yè)務的新型數(shù)據(jù)公司,如 Analytic Edge、Zinnov以及自稱是全球最大的專業(yè)性數(shù)據(jù)分析公司的 Mu Sigma[7]。這些數(shù)據(jù)公司重點開展大數(shù)據(jù)分析業(yè)務,為企業(yè)分析產(chǎn)品流向信息及客戶需求信息,從而使企業(yè)開發(fā)出客戶所需的產(chǎn)品和構建新的營銷戰(zhàn)略,促進企業(yè)的發(fā)展。我國數(shù)據(jù)分析行業(yè)經(jīng)過10年的快速發(fā)展,目前已經(jīng)形成遍布全國的專業(yè)數(shù)據(jù)分析機構。一些企事業(yè)單位開始接觸數(shù)據(jù)分析行業(yè),了解了數(shù)據(jù)分析的價值,并加入到數(shù)據(jù)分析應用行列中來,通過數(shù)據(jù)分析使各種難題得到了解決。數(shù)據(jù)分析包括數(shù)據(jù)的采集、存儲、處理、分析、呈現(xiàn)及應用,每一個環(huán)節(jié)都涉及專業(yè)知識的應用,圖書館單獨進行數(shù)據(jù)分析,其成本非常高。圖書館可與國內外數(shù)據(jù)分析公司合作,開展用戶數(shù)據(jù)分析業(yè)務,既可減少數(shù)據(jù)分析方面的投入成本,又能把握用戶知識需求方向,實現(xiàn)雙贏。
一是提供準確的知識推送服務。知識推送服務是指圖書館根據(jù)擁有的需求,主動將其所需要的知識內容推送到用戶訪問網(wǎng)頁、電腦終端、移動設備等。在大數(shù)據(jù)環(huán)境下,因為有了準確的用戶需求信息和興趣愛好、興趣變化曲線、用戶需求預測信息,從而為圖書館的資源采集、資源更新提供依據(jù),最終將用戶最需的知識利用最快捷的手段推送到用戶的使用終端上。如利用My Library進行推送,My Library是一種基于Web數(shù)據(jù)庫平臺的圖書館個性化信息服務系統(tǒng)。圖書館可建立學科知識庫,掛接在圖書館的網(wǎng)站上,用戶從圖書館網(wǎng)站上所提供的全部數(shù)字資源里,選擇自己需要的信息組織在My Library中,之后訪問My Library,用戶將獲取與此相關的具體內容。
二是細粒度個性化服務。目前,圖書館主要依靠讀者調查問卷、讀者基本信息、讀者的研究領域、讀者檢索集等方式來對個人定制服務策略,無法滿足讀者更細粒度的個性化需求。在大數(shù)據(jù)背景下,圖書館將利用大數(shù)據(jù)技術,參考目前盛行的大數(shù)據(jù)環(huán)境下的”猿題庫”模式,捕捉用戶的動態(tài)操作行為,自動監(jiān)控用戶行為的變化情況進行分析,自動調用不同層次、類別的數(shù)據(jù)智能式推送給用戶。同時,咨詢館員可以將符合大數(shù)據(jù)特征的咨詢課題融入大數(shù)據(jù)系統(tǒng),系統(tǒng)將根據(jù)咨詢主題,利用數(shù)據(jù)分析技術、可視化技術,瞬時以圖形展示查詢結果,從而縮短了咨詢館員獲取資源的時間,擴大了咨詢館員對資源的獲取面,最大限度的滿足用戶需求,提高了參考咨詢的效率。
圖書館利用大數(shù)據(jù)開展知識咨詢服務,需要投入較大比例的資金。數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)預測等需要強大的軟硬件的支撐。無論是公共圖書館還是高校圖書館,經(jīng)費緊張問題始終存在。因此,在利用大數(shù)據(jù)時,需要綜合考慮技術成本,最好采取業(yè)務外包的方式,對重點用戶進行分析,提供知識咨詢服務。如利用云計算技術,為大數(shù)據(jù)提供彈性可擴展的基礎設施支撐環(huán)境以及數(shù)據(jù)服務的高效模式,以解決基礎設施投入不足的問題
因對用戶的各種信息進行分析,涉及用戶的一些隱私。如何有效保護用戶隱私權,已成為加強圖書館與用戶之間信任感和用戶群忠誠度的重要保障。圖書館如果利用大數(shù)據(jù)技術開展知識咨詢服務,泄露用戶大量的隱私信息,這不僅使用戶遠離了圖書館,而且還面臨侵犯隱私權而被起訴的困境。因此,圖書館在有效采集、整合、分析與挖掘用戶數(shù)據(jù)的同時,需加強用戶數(shù)據(jù)的安全管理與保密工作,加強數(shù)據(jù)的安全管理和監(jiān)控,避免對用戶信息無限制的采集和使用。圖書館在用戶隱私數(shù)據(jù)采集和使用中,應保證用戶具有知情權和控制權,對圖書館存儲的用戶隱私數(shù)據(jù)擁有管理、利用、修改、分發(fā)和刪除的決定權。利用云計算技術保護用戶個人隱私,與具有較高安全保障能力和技術水平的云服務商簽署云服務協(xié)議,明確雙方在用戶隱私數(shù)據(jù)管理、使用過程中的權利、義務與責任。
《中國大數(shù)據(jù)技術與服務市場2012-2016年預測與分析》[8]認為:“大數(shù)據(jù)專業(yè)人才,特別是數(shù)據(jù)分析專家這類復合型人才的稀缺將會影響該市場的發(fā)展?!痹诖髷?shù)據(jù)時代,圖書館知識咨詢館員既要掌握信息檢索、信息分析、信息組織及相關平臺與工具使用等知識,還要掌握大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘、數(shù)據(jù)組織等大數(shù)據(jù)技術,但目前這方面的人才十分奇缺。IT行業(yè)與大型互聯(lián)網(wǎng)公司早已意識到了大數(shù)據(jù)人才緊缺的問題,都在積極建立專門的大數(shù)據(jù)科學團隊。圖書館可以采取與專業(yè)的數(shù)據(jù)處理公司合作,通過合作培養(yǎng)方式,建立圖書館大數(shù)據(jù)服務人才隊伍。另外,也可從國內外高校中引進大數(shù)據(jù)人才。清華大學于2014年秋季招收首批大數(shù)據(jù)碩士,并且還與山東省青島市合作成立“清華—青島數(shù)據(jù)科學研究院”,以開展大數(shù)據(jù)科學研究,培養(yǎng)具備大數(shù)據(jù)思維和創(chuàng)新能力的復合型人才,推出具備自主知識產(chǎn)權的大數(shù)據(jù)分析開源軟件和服務[9]。
[1]大數(shù)據(jù)[EB/OL].[2014-04-15].http://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%93%9A.
[2]鐘瑛,張恒山.大數(shù)據(jù)的緣起、沖擊及其應對[J].現(xiàn)代傳播(中國傳媒大學學報),2013(7):104-109.
[3]姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2013(4):52-54.
[4]今年3月全球活躍網(wǎng)站數(shù)量達6.44億個[EB/OL].[2014-04-23].http://www.sootoo.com/content/252016.shtml.
[5]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志.2012(11):63-68.
[6]淺析數(shù)據(jù)分析行業(yè)未來發(fā)展趨勢[EB/OL].[2014-04-25].http://www.data-analyse.com/data-news/2014032963.html
[7]韓翠峰.大數(shù)據(jù)時代圖書館的服務創(chuàng)新與發(fā)展[J].圖書館,2013(1):121-122.
[8]IDC《中國大數(shù)據(jù)技術與服務市場2012-2016年預測與分析》發(fā)布 [EB/OL].[2014-04-25].http://www.5lian.cn/html/2012/xueshu_1129/35805.html.
[9]清華大學今秋招收首批大數(shù)據(jù)碩士 [EB/OL].[2014-04-28].http://news.xinhuanet.com/yzyd/local/20140427/c_1110 427377.htm.