陳 近 文庭孝(.湖南理工學(xué)院圖書館 湖南岳陽 44006;.中南大學(xué)醫(yī)藥信息系 長沙 4003)
?
基于云計(jì)算的圖書館大數(shù)據(jù)服務(wù)研究*
陳近1文庭孝2
(1.湖南理工學(xué)院圖書館湖南岳陽414006;2.中南大學(xué)醫(yī)藥信息系長沙410013)
〔摘要〕圖書館向來是追蹤和應(yīng)用新信息技術(shù)較快的領(lǐng)域之一,云計(jì)算和大數(shù)據(jù)的出現(xiàn)為圖書館服務(wù)的發(fā)展提供了新機(jī)遇。文章在闡述云計(jì)算和圖書館大數(shù)據(jù)服務(wù)理論的基礎(chǔ)上,分析了云計(jì)算和大數(shù)據(jù)融合為圖書館服務(wù)帶來的機(jī)遇,提出了云架構(gòu)下的圖書館大數(shù)據(jù)服務(wù)系統(tǒng)架構(gòu),探討了圖書館大數(shù)據(jù)服務(wù)模式的創(chuàng)新,并從觀念、技術(shù)、經(jīng)濟(jì)、法律、人才五個(gè)方面提出了云架構(gòu)下圖書館大數(shù)據(jù)服務(wù)的保障機(jī)制。
〔關(guān)鍵詞〕云計(jì)算圖書館大數(shù)據(jù)大數(shù)據(jù)服務(wù)
〔分類號〕G250.73
〔引用本文格式〕陳近,文庭孝.基于云計(jì)算的圖書館大數(shù)據(jù)服務(wù)研究[J].圖書館,2016(1):52
*本文系湖南省社科基金項(xiàng)目“大數(shù)據(jù)時(shí)代的數(shù)字資源融合及其服務(wù)研究”(項(xiàng)目編號:13YBA347)和湖南省教育廳項(xiàng)目“以培養(yǎng)大學(xué)生職業(yè)核心能力為導(dǎo)向的高校圖書館實(shí)踐育人機(jī)制研究”(項(xiàng)目編號:15C0641)研究成果。
云計(jì)算和大數(shù)據(jù)是近幾年業(yè)界和學(xué)術(shù)界關(guān)注的熱點(diǎn)。在主題為“面向云計(jì)算和大數(shù)據(jù)的創(chuàng)新與合作”的第十二屆中國信息港論壇專題峰會上,中國移動蘇州研發(fā)中心副總經(jīng)理陳煒認(rèn)為以大規(guī)模計(jì)算資源管理和調(diào)度能力、海量數(shù)據(jù)存儲能力為核心的云計(jì)算技術(shù)是實(shí)現(xiàn)大數(shù)據(jù)平臺的最佳基礎(chǔ)手段,結(jié)合大數(shù)據(jù)分析和挖掘算法,可以將數(shù)據(jù)轉(zhuǎn)化為知識和智能,并強(qiáng)調(diào)大數(shù)據(jù)的技術(shù)發(fā)展趨勢是基于云計(jì)算的大數(shù)據(jù)[1]。目前已有一些企業(yè)將云計(jì)算和大數(shù)據(jù)結(jié)合應(yīng)用,并取得了喜人的成果。有研究者認(rèn)為,大數(shù)據(jù)云才剛剛開始,未來五年,大數(shù)據(jù)將與云計(jì)算更加融合[2]。圖書館界向來是追蹤和應(yīng)用新信息技術(shù)較快的領(lǐng)域之一,學(xué)者們迅速認(rèn)識到云計(jì)算和大數(shù)據(jù)在圖書館發(fā)展中的重要性,紛紛開始探討云計(jì)算和大數(shù)據(jù)環(huán)境影響下的圖書館資源建設(shè)和服務(wù)創(chuàng)新,但目前還沒有出現(xiàn)將云計(jì)算和大數(shù)據(jù)融合并應(yīng)用于圖書館服務(wù)的文獻(xiàn),本文借此對基于云計(jì)算的圖書館大數(shù)據(jù)服務(wù)進(jìn)行研究,以期為圖書館的大數(shù)據(jù)服務(wù)實(shí)踐和研究提供參考。
2.1圖書館界大數(shù)據(jù)服務(wù)研究現(xiàn)狀
“大數(shù)據(jù)”自2008年提出以來,受到了業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,數(shù)據(jù)大量化(Volume)、類型多樣化(Variety)、處理快速化(Velocity)、應(yīng)用價(jià)值大(Value)、數(shù)據(jù)獲取與發(fā)送方式自由靈活(Vender)、準(zhǔn)確性(Veracity)和處理分析難度大(Complexity)是對大數(shù)據(jù)特征最全面的描述。隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)應(yīng)用從IT領(lǐng)域、商業(yè)領(lǐng)域、公共領(lǐng)域拓展到各行各業(yè),圖書館界也不例外,受到了大數(shù)據(jù)的巨大影響和沖擊,學(xué)者們迅速掀起大數(shù)據(jù)研究熱潮。圖書館界對大數(shù)據(jù)給予了高度關(guān)注,研究內(nèi)容熱點(diǎn)主要集中于大數(shù)據(jù)的內(nèi)涵與特征、大數(shù)據(jù)對圖書館資源建設(shè)的影響、大數(shù)據(jù)環(huán)境下圖書館服務(wù)方式的變革和圖書館積極應(yīng)用大數(shù)據(jù)策略等方面[3]。眾多學(xué)者認(rèn)為圖書館已具備大數(shù)據(jù)特征,館藏書目數(shù)據(jù)、數(shù)字資源數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、用戶數(shù)據(jù)等構(gòu)成圖書館大數(shù)據(jù)主要來源,通過對這些數(shù)據(jù)進(jìn)行科學(xué)管理和挖掘分析,能發(fā)現(xiàn)其中潛藏的價(jià)值,可以為圖書館的資源建設(shè)、業(yè)務(wù)流程改造和服務(wù)創(chuàng)新提供支持。
2.2圖書館大數(shù)據(jù)服務(wù)實(shí)踐進(jìn)展
大數(shù)據(jù)趨勢下,所有都成乙方,數(shù)據(jù)成唯一甲方,以數(shù)據(jù)價(jià)值為核心,集意識、技術(shù)、產(chǎn)品、服務(wù)和應(yīng)用于一體的大服務(wù)時(shí)代來臨,開展大數(shù)據(jù)服務(wù)是圖書館順應(yīng)時(shí)代發(fā)展的結(jié)果。國外最早將大數(shù)據(jù)服務(wù)引入圖書館并付諸實(shí)踐的是哈佛大學(xué)圖書館[4],2012年哈佛大學(xué)圖書館將其73所分館的書目數(shù)據(jù)、音頻、視頻等資料對外開放,公眾可在美國數(shù)字公共圖書館免費(fèi)下載,這一舉措有助于促進(jìn)全球書目數(shù)據(jù)的開放與關(guān)聯(lián),并在開發(fā)利用書目大數(shù)據(jù)的基礎(chǔ)上研發(fā)新型應(yīng)用性產(chǎn)品。美國國會圖書館2000年開始?xì)w檔整理政府網(wǎng)站數(shù)據(jù)[4],并積極開展大數(shù)據(jù)處理工作。我國圖書館大數(shù)據(jù)服務(wù)實(shí)踐還處于起步階段,2013年清華大學(xué)圖書館從數(shù)據(jù)集成和挖掘數(shù)據(jù)價(jià)值兩方面進(jìn)行了嘗試,在檢索平臺“水木搜索”上綜合運(yùn)用多來源數(shù)據(jù),已成功甄選出清華大學(xué)50位專家學(xué)者,并建立了以他們?yōu)橹行牡闹R關(guān)聯(lián)網(wǎng)絡(luò)[5]?!皵?shù)字化圖書”的先行者貴陽市圖書館也走在了前列,技術(shù)人員已經(jīng)通過后臺分析得出貴陽讀者的年齡、學(xué)歷、愛好書籍種類、文獻(xiàn)等相關(guān)內(nèi)容,館長郭春表示“大數(shù)據(jù)應(yīng)用肯定不止讀者分析這一小塊,圖書館的大數(shù)據(jù)服務(wù)應(yīng)該做到公共文化服務(wù),實(shí)現(xiàn)資源共享”[6]。
2.3云計(jì)算與大數(shù)據(jù)的關(guān)系辨析
云計(jì)算和大數(shù)據(jù)是兩個(gè)不同的概念,但又緊密地聯(lián)系在一起,兩者既有區(qū)別,又有聯(lián)系。形象地來說,云計(jì)算相當(dāng)于計(jì)算機(jī)和操作系統(tǒng),將大量的硬件資源虛擬化之后再進(jìn)行分配使用,而大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫”。云計(jì)算側(cè)重于計(jì)算能力,關(guān)注IT架構(gòu)和解決方案,節(jié)省IT部署成本,而大數(shù)據(jù)側(cè)重于數(shù)據(jù)的價(jià)值,關(guān)注實(shí)際業(yè)務(wù),通過數(shù)據(jù)管理和分析挖掘數(shù)據(jù)潛藏的價(jià)值。但二者又具有相輔相成、密不可分的關(guān)系,在大數(shù)據(jù)過濾階段,云計(jì)算可以提供按需擴(kuò)展的計(jì)算和存儲資源,在大數(shù)據(jù)分析階段,云計(jì)算可保證數(shù)據(jù)處理的速度和價(jià)值信息的安全,云計(jì)算助大數(shù)據(jù)轉(zhuǎn)化價(jià)值,大數(shù)據(jù)驅(qū)動云計(jì)算變革。云計(jì)算和大數(shù)據(jù)已有機(jī)融合在一起,成為大數(shù)據(jù)服務(wù)的基礎(chǔ)設(shè)施。
云計(jì)算和大數(shù)據(jù)的有機(jī)融合,為圖書館服務(wù)帶來了巨大的發(fā)展機(jī)遇。
3.1有利于圖書館整合最豐富的數(shù)據(jù)資源提供服務(wù)
大數(shù)據(jù)環(huán)境下,圖書館除圖書、期刊、報(bào)紙、全文數(shù)據(jù)庫、媒體數(shù)據(jù)庫和自建數(shù)據(jù)庫等資源大數(shù)據(jù)及采訪、編目、借閱、文獻(xiàn)傳遞、參考咨詢等業(yè)務(wù)大數(shù)據(jù)和用戶大數(shù)據(jù)外,還包括行業(yè)數(shù)據(jù)、相關(guān)Web站點(diǎn)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)及其他外部數(shù)據(jù)來源,這些數(shù)據(jù)每天都在呈爆炸式增長,總量大,類型復(fù)雜多樣,以半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化異構(gòu)數(shù)據(jù)為主。如何收集有價(jià)值的數(shù)據(jù)成為一大難題,云計(jì)算為這些數(shù)據(jù)的有效整合提供了基礎(chǔ)和便利。圖書館可將數(shù)據(jù)資源存儲到云服務(wù)器上,形成多個(gè)地區(qū)多個(gè)類型圖書館資源的聚合中心,圖書館員只需通過網(wǎng)絡(luò)獲取和管理云中資源,在使用過程中不斷豐富和完善,解決圖書館大數(shù)據(jù)帶來的數(shù)據(jù)雜、垃圾數(shù)據(jù)多、資源分散分布及存儲成本高等問題。
3.2有利于圖書館更加精準(zhǔn)地把握用戶需求開展服務(wù)
不同用戶的信息行為在時(shí)間上和空間上都具有差異,圖書館要真正實(shí)現(xiàn)“以用戶為中心,提供按需服務(wù)”面臨著巨大挑戰(zhàn)。但在大數(shù)據(jù)環(huán)境下,用戶的信息行為會在信息系統(tǒng)或社交網(wǎng)絡(luò)上會留下痕跡,圖書館可以通過對用戶行為大數(shù)據(jù)進(jìn)行整合和分析,從多個(gè)角度了解用戶群體,精準(zhǔn)把握用戶需求,使不同用戶的信息行為可以預(yù)測,從而提供具有針對性和鮮明性的個(gè)性化服務(wù)。圖書館用戶行為數(shù)據(jù)主要包括用戶需求調(diào)研數(shù)據(jù)、用戶反饋信息數(shù)據(jù)、用戶檢索歷史記錄數(shù)據(jù)、用戶對服務(wù)內(nèi)容的選擇與刪除數(shù)據(jù)等[7]。云計(jì)算具有極高的運(yùn)算能力,能實(shí)現(xiàn)圖書館大數(shù)據(jù)的高效流通和實(shí)時(shí)分析,在數(shù)據(jù)分析完成后,可以使用私有云技術(shù)將分析結(jié)果導(dǎo)入圖書館內(nèi)部,而不必保留用來分析的原始數(shù)據(jù)。
3.3有利于圖書館擴(kuò)展服務(wù)功能、提高服務(wù)質(zhì)量
圖書館服務(wù)直接關(guān)系著圖書館的生存和發(fā)展,是圖書館的重要價(jià)值所在。在網(wǎng)絡(luò)環(huán)境和知識經(jīng)濟(jì)的影響下,圖書館服務(wù)經(jīng)歷了從文獻(xiàn)服務(wù)、信息服務(wù)到知識服務(wù)的轉(zhuǎn)變,新技術(shù)和新環(huán)境持續(xù)推動著圖書館服務(wù)的變革。隨著大數(shù)據(jù)時(shí)代的到來,圖書館的資源更加豐富,用戶的需求也更加復(fù)雜和多樣化,圖書館服務(wù)內(nèi)容正在從借閱服務(wù)、科技查新、定題服務(wù)、參考咨詢等傳統(tǒng)服務(wù)向大數(shù)據(jù)開放、大數(shù)據(jù)使用、大數(shù)據(jù)挖掘、大數(shù)據(jù)分析、大數(shù)據(jù)可視化呈現(xiàn)等方面拓展,云計(jì)算和大數(shù)據(jù)的有機(jī)融合能為圖書館服務(wù)的虛擬化、個(gè)性化、深層次化和智能化提供技術(shù)支撐。館藏大數(shù)據(jù)、用戶大數(shù)據(jù)、業(yè)務(wù)大數(shù)據(jù)和外部資源大數(shù)據(jù)是圖書館大數(shù)據(jù)服務(wù)的重要組成部分,在深入分析這些大數(shù)據(jù)的基礎(chǔ)上,可預(yù)測圖書館的用戶需求和業(yè)務(wù)趨勢,從而提高圖書館服務(wù)質(zhì)量,改善用戶體驗(yàn)。
大數(shù)據(jù)的處理方法很多,但目前得到認(rèn)同的處理流程是:大數(shù)據(jù)采集-大數(shù)據(jù)導(dǎo)入和預(yù)處理-大數(shù)據(jù)存儲-大數(shù)據(jù)挖掘與分析-分析結(jié)果可視化呈現(xiàn)。結(jié)合云計(jì)算的優(yōu)勢,以及最大限度地發(fā)揮云計(jì)算的效能,筆者將云計(jì)算環(huán)境下圖書館的大數(shù)據(jù)服務(wù)系統(tǒng)架構(gòu)分為大數(shù)據(jù)存儲、大數(shù)據(jù)處理和大數(shù)據(jù)分析三個(gè)層次,如圖1所示。數(shù)據(jù)存儲層解決大數(shù)據(jù)的海量和異質(zhì)異構(gòu)問題,數(shù)據(jù)處理層滿足大數(shù)據(jù)的快速和時(shí)效性要求,數(shù)據(jù)分析層著重于對數(shù)據(jù)的挖掘和分析,三個(gè)層次相互配合,讓圖書館大數(shù)據(jù)分析和服務(wù)最終產(chǎn)生價(jià)值。
圖1 云計(jì)算環(huán)境下圖書館大數(shù)據(jù)服務(wù)系統(tǒng)架構(gòu)
4.1圖書館大數(shù)據(jù)存儲
在云計(jì)算和大數(shù)據(jù)環(huán)境下,圖書館的數(shù)據(jù)資源來源廣、總量多、類型復(fù)雜多樣,傳統(tǒng)的圖書館存儲設(shè)備和技術(shù)已不能滿足數(shù)據(jù)增長和數(shù)據(jù)應(yīng)用的需求,具有可靠安全、成本低、易于擴(kuò)展、資源可控等優(yōu)勢的云存儲,成為圖書館大數(shù)據(jù)分布式存儲的理想選擇。云存儲包括私有云和公有云兩種部署,公有云部署具備較好的靈活性和可擴(kuò)展性,私有云部署更加安全和便于控制。圖書館的大數(shù)據(jù)可分為圖書館內(nèi)部保密數(shù)據(jù)和可共享的數(shù)據(jù),選擇混合式云存儲部署模式將更能與現(xiàn)有的基礎(chǔ)設(shè)施相結(jié)合,提高圖書館大數(shù)據(jù)的存儲效率。即在圖書館大數(shù)據(jù)的存儲過程中,對圖書館內(nèi)部的保密數(shù)據(jù)選擇私有云存儲,部署在圖書館防火墻內(nèi),構(gòu)建一個(gè)圖書館數(shù)據(jù)中心內(nèi)的專用云,依托高速局域網(wǎng)大大提高數(shù)據(jù)訪問、上傳和下載的速度;而對圖書館可共享的數(shù)據(jù)選擇公有云存儲,將共享數(shù)據(jù)存儲在公有云服務(wù)器上,供用戶和使用者通過網(wǎng)絡(luò)訪問,不同圖書館的數(shù)據(jù)中心和公有云存儲服務(wù)器相連,如圖2所示。具體到圖書館的大數(shù)據(jù)來源,圖書館書目數(shù)據(jù)、免費(fèi)開放獲取資源、備份數(shù)據(jù)、分布式訪問數(shù)據(jù)適合公有云部署,而業(yè)務(wù)數(shù)據(jù)、用戶數(shù)據(jù)、購買數(shù)據(jù)庫和自建數(shù)據(jù)庫資源適合私有云構(gòu)建。
4.2圖書館大數(shù)據(jù)處理
圖書館大數(shù)據(jù)的分布式存儲帶來了數(shù)據(jù)處理上的復(fù)雜度,而海量存儲帶來了數(shù)據(jù)處理上的時(shí)效要求,這是圖書館大數(shù)據(jù)處理層需要解決的重要問題。傳統(tǒng)的圖書館自動化系統(tǒng)已無法滿足大數(shù)據(jù)處理的要求,云計(jì)算技術(shù)成為大數(shù)據(jù)處理的最佳選擇。如MapReduce將傳統(tǒng)的查詢、分解及數(shù)據(jù)分析進(jìn)行分布式處理,把處理任務(wù)分配到不同的處理節(jié)點(diǎn),具有很強(qiáng)的并行處理能力,并能夠在多個(gè)處理節(jié)點(diǎn)之間靈活地調(diào)度處理任務(wù)以及參與處理的數(shù)據(jù),實(shí)現(xiàn)計(jì)算資源和存儲資源配置的全局最優(yōu)化,能極大提高數(shù)據(jù)處理速度。其工作原理是先分后合的數(shù)據(jù)處理方式,Map即“分解”,把海量數(shù)據(jù)分成若干部分,分配給多臺處理器并行處理,Reduce即“合并”,把各臺處理器處理后的結(jié)果進(jìn)行匯總操作以得到最終結(jié)果[8],圖3展示了MapReduce的數(shù)據(jù)處理流程。圖書館大數(shù)據(jù)處理中的許多問題都可以通過MapReduce并行計(jì)算來解決,如資源使用分析、用戶日志分析、用戶行為數(shù)據(jù)分析和大規(guī)模索引分析等。對于選用商業(yè)云的圖書館而言,只需對虛擬機(jī)和運(yùn)行的任務(wù)付費(fèi),不必考慮圖書館的硬件配置。
圖3 MapReduce的數(shù)據(jù)處理流程
4.3圖書館大數(shù)據(jù)分析
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)成為重要資產(chǎn),發(fā)現(xiàn)海量數(shù)據(jù)中潛藏的價(jià)值是大數(shù)據(jù)處理、分析和服務(wù)的最終目標(biāo)。一切大數(shù)據(jù)處理工作都是為價(jià)值目標(biāo)服務(wù),在有效解決圖書館大數(shù)據(jù)存儲和處理問題之后,只有通過大數(shù)據(jù)分析才能獲取有價(jià)值的、深入的、智能的信息和知識。在小數(shù)據(jù)時(shí)代,調(diào)查統(tǒng)計(jì)、樣本分析、文獻(xiàn)計(jì)量、鏈接分析、引文分析、共現(xiàn)分析等是圖書館領(lǐng)域的主要分析方法,這些方法主要針對樣本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,面對大規(guī)模的實(shí)時(shí)數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、動態(tài)數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),關(guān)聯(lián)分析、聚類分析、數(shù)據(jù)挖掘、語義引擎、預(yù)測建模、情感分析、可視化分析等方法為圖書館大數(shù)據(jù)分析提供了發(fā)展空間。數(shù)據(jù)分析離不開技術(shù)支持,云計(jì)算的彈性擴(kuò)展能力使它成為大數(shù)據(jù)分析的理想選擇?;旌显萍夹g(shù)可在大數(shù)據(jù)分析階段提供幫助,原始分析階段可在公有云基礎(chǔ)設(shè)施上執(zhí)行,然后使用私有云組件把處理過的、可用的數(shù)據(jù)和信息保存到圖書館內(nèi)部,這樣既保證了速度,也保證了數(shù)據(jù)安全。Hadoop是目前最流行的大數(shù)據(jù)處理分析平臺,主要用于分析Web瀏覽日志、IT系統(tǒng)日志等半結(jié)構(gòu)化數(shù)據(jù)以及社交網(wǎng)絡(luò)、圖像、音頻文件等非結(jié)構(gòu)化數(shù)據(jù),借助Hadoop平臺可實(shí)現(xiàn)圖書館大規(guī)模的和非結(jié)構(gòu)化的數(shù)據(jù)分析。
大數(shù)據(jù)時(shí)代的到來,對圖書館的服務(wù)理念、服務(wù)方式、服務(wù)手段、服務(wù)內(nèi)容和服務(wù)重點(diǎn)等都產(chǎn)生了巨大影響,圖書館服務(wù)工作開始從數(shù)據(jù)采集、整合、管理向數(shù)據(jù)統(tǒng)計(jì)、挖掘、分析與展現(xiàn)等方向全方位延伸,云計(jì)算技術(shù)為圖書館大數(shù)據(jù)服務(wù)實(shí)現(xiàn)的時(shí)間、空間和方式提供多種可能。
5.1基于數(shù)據(jù)管理的科學(xué)數(shù)據(jù)服務(wù)
圖書館作為信息中心,特別是高校圖書館和科學(xué)專業(yè)圖書館,科研支持是其重要職責(zé)。傳統(tǒng)的圖書館科研支持服務(wù)重在關(guān)注研究者的最終科研產(chǎn)品,處于輔助科研的角色。大數(shù)據(jù)時(shí)代的到來,使產(chǎn)生于社交網(wǎng)絡(luò)、智能移動終端的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)成為科研數(shù)據(jù)的重要組成部分,科研人員在數(shù)據(jù)搜集、數(shù)據(jù)管理、數(shù)據(jù)保存等方面面臨巨大挑戰(zhàn)。在此背景和需求下,圖書館理應(yīng)拓展其科研支持服務(wù)范圍,從關(guān)注最終科研產(chǎn)品向參與整個(gè)研究過程轉(zhuǎn)變,在數(shù)據(jù)管理的基礎(chǔ)上為科研人員提供數(shù)據(jù)開放、數(shù)據(jù)推廣、數(shù)據(jù)搜集、數(shù)據(jù)資源導(dǎo)航、數(shù)據(jù)存儲、數(shù)據(jù)監(jiān)護(hù)、數(shù)據(jù)分析等科學(xué)數(shù)據(jù)服務(wù),為研究人員提供全程支持。目前已有一些圖書館開展了科學(xué)數(shù)據(jù)服務(wù)實(shí)踐項(xiàng)目,如哥倫比亞大學(xué)圖書館、康奈爾大學(xué)圖書館、加州大學(xué)歐文分校圖書館都取得了較為顯著的服務(wù)效果[9],而我國還處于起步階段,可積極借鑒國外經(jīng)驗(yàn),拓展圖書館開展科學(xué)數(shù)據(jù)服務(wù)的服務(wù)能力和服務(wù)內(nèi)容,在科學(xué)研究中發(fā)揮重要作用。
5.2基于知識發(fā)現(xiàn)的學(xué)科服務(wù)
學(xué)科服務(wù)是圖書館面向不同專業(yè)、院系、讀者開展的一種多層次、全方位的服務(wù),重在滿足學(xué)科發(fā)展過程中的資源需求[10],在我國已有十多年的歷史。知識發(fā)現(xiàn)是指從大量數(shù)據(jù)中獲得有效的、新穎的、有潛在應(yīng)用價(jià)值的和最終可理解的模式的高級處理過程,涉及的主要技術(shù)包括信息抽取、信息過濾、數(shù)據(jù)與文本挖掘、分類發(fā)現(xiàn)和聚類技術(shù)等[10]。大數(shù)據(jù)環(huán)境下,學(xué)科前沿?cái)?shù)據(jù)增長迅速,用戶可以方便地通過搜索引擎獲取,但會存在數(shù)據(jù)不準(zhǔn)確、不全面、深層次挖掘等問題。圖書館作為知識服務(wù)平臺,可以利用知識發(fā)現(xiàn)的技術(shù)和方法,從學(xué)科大數(shù)據(jù)中挖掘出有價(jià)值的信息和知識,為不同專業(yè)的用戶所用。如通過分析不同學(xué)科用戶的檢索記錄和下載記錄,歸納用戶感興趣的學(xué)科主題;通過聚類分析、社會網(wǎng)絡(luò)分析、相關(guān)性分析、數(shù)據(jù)挖掘等預(yù)測學(xué)科前沿和研究熱點(diǎn);通過學(xué)科數(shù)據(jù)的引用分析、關(guān)聯(lián)分析、共現(xiàn)分析,發(fā)現(xiàn)學(xué)科領(lǐng)域的核心機(jī)構(gòu)、核心作者、核心期刊及合作網(wǎng)絡(luò)分布情況。
5.3基于用戶研究的個(gè)性化定制服務(wù)
個(gè)性化定制服務(wù)已在數(shù)字圖書館領(lǐng)域取得一定研究成果,切實(shí)以用戶為中心的服務(wù)模式,大數(shù)據(jù)時(shí)代的到來,為個(gè)性化定制服務(wù)的發(fā)展提供新的契機(jī)。新環(huán)境下,圖書館擁有大量豐富的用戶數(shù)據(jù),如用戶在注冊個(gè)人圖書館和移動圖書館時(shí)的個(gè)人信息數(shù)據(jù)、用戶在瀏覽圖書館網(wǎng)站或檢索下載數(shù)字資源時(shí)的利用數(shù)據(jù)、用戶進(jìn)行參考咨詢或利用圖書館社交媒體時(shí)的網(wǎng)絡(luò)痕跡數(shù)據(jù)等,通過對這些數(shù)據(jù)進(jìn)行挖掘和分析,能掌握用戶的年齡、性別、學(xué)歷分布情況及閱讀習(xí)慣、資源需求、信息行為等特征,進(jìn)而能根據(jù)用戶需求提供具有針對性的、個(gè)性化的信息服務(wù),并預(yù)測用戶需求的發(fā)展趨勢。在服務(wù)角色上,除被動的“用戶需要什么服務(wù),就提供什么服務(wù)”模式外,圖書館更應(yīng)積極主動地為用戶推薦服務(wù),獲取反饋信息,以提高個(gè)性化服務(wù)和定制服務(wù)的匹配度、可靠度和準(zhǔn)確度。
5.4基于數(shù)據(jù)應(yīng)用的可視化服務(wù)
大數(shù)據(jù)環(huán)境下,面對大量的數(shù)據(jù)分析應(yīng)用,用戶更傾向于用可視化的方法展示數(shù)據(jù)分析結(jié)果,以便于理解和接收。一方面,圖書館可利用可視化工具和軟件展示科研領(lǐng)域的研究成果,如與信息計(jì)量相結(jié)合,生成作者共現(xiàn)共引、機(jī)構(gòu)共現(xiàn)共引、關(guān)鍵詞共現(xiàn)共引、引文共現(xiàn)等知識圖譜,使一個(gè)領(lǐng)域的發(fā)展現(xiàn)狀和知識結(jié)構(gòu)以可視化的方式呈現(xiàn)出來,目前比較成熟的文獻(xiàn)可視化軟件有Citespace、Ucinet、Pajek、VOSviewer等。另一方面,圖書館可為用戶提供可視化方案咨詢和針對特定需求的可視化服務(wù),如為企業(yè)提供專利地圖和專利信息可視化服務(wù)、為科研人員申請項(xiàng)目前的研究綜述提供可視化服務(wù)等。在人員、資金足夠的情況下,圖書館還可嘗試著開發(fā)可視化軟件,以滿足用戶的多方面需求。
圖書館基于云計(jì)算技術(shù)提供大數(shù)據(jù)服務(wù)不是一朝一夕的事情,需要長期的積累過程和求變的創(chuàng)新精神,同時(shí)還需要解決觀念、技術(shù)、經(jīng)費(fèi)、人才和法律等方面的諸多問題,創(chuàng)建大數(shù)據(jù)服務(wù)支撐條件,建立大數(shù)據(jù)服務(wù)保障機(jī)制。
6.1觀念方面
云架構(gòu)下的圖書館大數(shù)據(jù)服務(wù)涉及兩方面的觀念問題:一是對用戶而言,數(shù)據(jù)開放與共享是大數(shù)據(jù)時(shí)代的主流,用戶數(shù)據(jù)也是圖書館大數(shù)據(jù)的重要組成部分,而用戶數(shù)據(jù)的泄露和濫用是用戶擔(dān)憂的問題,面對數(shù)據(jù)開放與數(shù)據(jù)安全的矛盾,圖書館應(yīng)在用戶許可的情況下合理使用用戶數(shù)據(jù),并加強(qiáng)對用戶的教育培訓(xùn),提高用戶的保護(hù)意識,鼓勵用戶開放共享各種數(shù)據(jù)資源,使用戶不僅僅是數(shù)據(jù)資源的利用者和接收者,也是數(shù)據(jù)資源的發(fā)布者和貢獻(xiàn)者。二是對圖書館館員而言,應(yīng)努力培養(yǎng)大數(shù)據(jù)思維,在堅(jiān)持以用戶為中心的服務(wù)理念基礎(chǔ)上,積極主動向用戶提供推薦式服務(wù),拓展數(shù)據(jù)的使用范圍和服務(wù)的提供范圍,注重用戶參與,培養(yǎng)用戶的數(shù)據(jù)采集、數(shù)據(jù)分析和利用數(shù)據(jù)的能力。
6.2技術(shù)方面
云架構(gòu)下的圖書館大數(shù)據(jù)服務(wù)涉及的技術(shù)問題主要包括協(xié)議和接口問題、數(shù)據(jù)標(biāo)準(zhǔn)問題、數(shù)據(jù)安全和保護(hù)問題等。圖書館服務(wù)器的配置和操作系統(tǒng)千差萬別,要較好地與云計(jì)算技術(shù)融合,就應(yīng)該選擇適合本館的接口軟件和云服務(wù)提供商,或通過合作,開發(fā)接口插件。數(shù)據(jù)的規(guī)范化和標(biāo)準(zhǔn)化是圖書館開展大數(shù)據(jù)服務(wù)的基礎(chǔ)工作,圖書館應(yīng)制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),推進(jìn)異地異構(gòu)異質(zhì)資源的整合和共享。根據(jù)Gartner機(jī)構(gòu)《云計(jì)算安全風(fēng)險(xiǎn)評估》報(bào)告[11],云計(jì)算技術(shù)存在數(shù)據(jù)位置、數(shù)據(jù)隔離、數(shù)據(jù)恢復(fù)等七個(gè)方面的風(fēng)險(xiǎn),可通過控制數(shù)據(jù)訪問權(quán)限、優(yōu)化數(shù)據(jù)加密技術(shù)和備份技術(shù)等保證數(shù)據(jù)安全。
6.3經(jīng)濟(jì)方面
圖書館開展大數(shù)據(jù)服務(wù)是順應(yīng)時(shí)代發(fā)展的結(jié)果,能更好地分析用戶偏好,發(fā)現(xiàn)用戶需求,開展有針對性的個(gè)性化服務(wù),提高圖書館的服務(wù)水平和服務(wù)效率,充分發(fā)揮圖書館在大數(shù)據(jù)時(shí)代的價(jià)值和社會地位。但構(gòu)建圖書館大數(shù)據(jù)服務(wù)平臺是一項(xiàng)耗資巨大的工程,需要強(qiáng)大的軟硬件作為支撐,給圖書館經(jīng)費(fèi)造成巨大壓力,圖書館可在數(shù)據(jù)采集、處理、整合人力、物力、設(shè)備等多個(gè)方面進(jìn)行成本控制,并積極爭取財(cái)政支持。
6.4 法律方面
法律制度是云架構(gòu)下的圖書館大數(shù)據(jù)服務(wù)順利開展的重要保證,目前與云計(jì)算、大數(shù)據(jù)相關(guān)的合同條款大多是服務(wù)提供商提出的,往往是站在服務(wù)提供商的立場,保護(hù)提供商的利益,而用戶對相關(guān)法規(guī)制度和政策并不了解。云架構(gòu)下的圖書館大數(shù)據(jù)服務(wù)主要涉及個(gè)人隱私、知識產(chǎn)權(quán)、數(shù)據(jù)安全、各方的權(quán)利與義務(wù)等法律問題,需要從政府層面上制定相關(guān)法規(guī)法律,出臺具體措施,為圖書館開展大數(shù)據(jù)服務(wù)提供制度保障。
6.5人才方面
大數(shù)據(jù)環(huán)境下,大數(shù)據(jù)技術(shù)和大數(shù)據(jù)服務(wù)對服務(wù)人員提出更高的專業(yè)要求,圖書館可通過館員培訓(xùn),鼓勵館員深造,多學(xué)習(xí)其他領(lǐng)域的知識,改善自身的知識結(jié)構(gòu),或通過引進(jìn)大數(shù)據(jù)和云計(jì)算領(lǐng)域的專業(yè)人才,培養(yǎng)一支具有大數(shù)據(jù)思維、掌握大數(shù)據(jù)技術(shù)、擅長大數(shù)據(jù)分析的專業(yè)人才隊(duì)伍,在圖書館大數(shù)據(jù)服務(wù)中發(fā)揮重要價(jià)值。
(來稿時(shí)間:2015年7月)
參考文獻(xiàn):
1.網(wǎng)易新聞.“面向云計(jì)算和大數(shù)據(jù)的創(chuàng)新與合作”專題峰會[EB/OL]. [2015-04-16]. http://news.163.com/15/0416/09/ ANAIS 11C000 14AED.html
2.CIO時(shí)代網(wǎng). 未來五年,大數(shù)據(jù)將與云計(jì)算更加融合[EB/OL]. [2015-04-20]. http://www.ciotimes.com/bi/sjwj/99134. html
3.陸靜.我國圖書館界大數(shù)據(jù)研究述評與展望[J].圖書館雜志,2014(1):20-25
4.曾建勛,魏來.大數(shù)據(jù)時(shí)代的情報(bào)學(xué)變革[J].情報(bào)學(xué)報(bào),2015, 34(1):37-44
5.中國新聞出版網(wǎng).大數(shù)據(jù)環(huán)境下清華大學(xué)圖書館的實(shí)踐 [EB/OL]. [ 2013-08-29]. http://www.chinaxwcb.com/2013-08/ 29/content_ 276028.htm
6.貴陽網(wǎng).(大數(shù)據(jù)·數(shù)博會)貴陽新時(shí)尚,逛大數(shù)據(jù)圖書館[EB/OL]. [2015-04-21]. http://www.gywb.cn/content/2015-04/ 21/content_ 2906237.htm
7.陳臣.基于大數(shù)據(jù)的圖書館個(gè)性化服務(wù)用戶行為分析研究[J].圖書館工作與研究, 2015(2):28-31
8.百度百科.MapReduce[EB/OL]. http://baike.baidu.com/view/ 2902.htm.
9.張春紅,廖三三,鞏梅.變革與走向:共同探索圖書館的未來[J].大學(xué)圖書館學(xué)報(bào),2013(1):5-13
10.于春麗.學(xué)科服務(wù)中的知識發(fā)現(xiàn)策略[J].圖書館學(xué)研究,2010(7):92-94
11.宋戈,魏志鵬.基于云計(jì)算的圖書館建設(shè)與服務(wù)發(fā)展[J]. 圖書與情報(bào), 2011(1):79-81
A Study on Library Big Data Based on Cloud Computing
Chen Jin1Wen Tingxiao2
( 1.Library of Hunan University of Science and Technology; 2. Department of Medical Information of Central South University )
〔Abstract〕Library is one of the track and application of new technologies quickly.The emergence of cloud computing and big data provides new opportunities for library service development. This paper expounds the theory of cloud computing and big data services of library that bring opportunities for library services, puts forward the system architecture of library big data service under cloud architecture and discusses the innovation of service model of library big data and puts forward the guarantee mechanism of library big data services under cloud architecture from five aspects of the concept, technology, economy,law and talent.
〔Keywords〕Cloud computingLibraryBig dataBig data service
〔作者簡介〕陳近(1976-),女,碩士,湖南理工學(xué)院圖書館館員、副館長;文庭孝(1975-),男,博士,中南大學(xué)醫(yī)藥信息系教授,研究方向:知識管理與科學(xué)評價(jià)。