趙麗梅
(吉林工程技術(shù)師范學院圖書館,吉林長春130052)
根據(jù)IDC監(jiān)測,全球數(shù)據(jù)量大約每兩年翻一番,意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量。IBM的研究同樣得出:整個人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。預計到2020年,全球?qū)碛?5ZB的數(shù)據(jù)量,全球數(shù)據(jù)使用量也將暴增44倍,數(shù)據(jù)總量相較于2011年將增長近20倍。因此,很多學者指出:未來時代是大數(shù)據(jù)引領(lǐng)智慧科技的時代,即“大數(shù)據(jù)時代”。大數(shù)據(jù)時代的來臨也將使企業(yè)、學術(shù)機構(gòu)等面臨新的技術(shù)層面和服務層面的挑戰(zhàn),高校圖書館作為提供知識服務的學術(shù)性機構(gòu),也開始將新工作思路作為研究方向。試想一下,在PB單位尺度下,一本書只有大約十億分之一(PB),可見其在海量數(shù)據(jù)中是非常渺小的。如果互聯(lián)網(wǎng)還像現(xiàn)在這樣無序,那么發(fā)現(xiàn)一本書的概率以及一本書對我們的影響就微乎其微了。如何利用這些大數(shù)據(jù)?高校圖書館應該如何面對大數(shù)據(jù)時代的到來?這都是我們應該去關(guān)注和研究的課題。
(一)大數(shù)據(jù)基本概念及提出背景
“大數(shù)據(jù)”概念最早由全球最大的戰(zhàn)略咨詢公司麥肯錫(McKensey)提出,而真正將“大數(shù)據(jù)”推向未來信息技術(shù)發(fā)展核心地位的,則是2012年美國奧巴馬政府宣布推出的“大數(shù)據(jù)的研究和發(fā)展計劃”,該計劃將“大數(shù)據(jù)”作為全球性發(fā)展戰(zhàn)略計劃,集合美國國防部、能源部、國家科學基金委員會等六個聯(lián)邦部門和機構(gòu),大力推動及改善與大數(shù)據(jù)相關(guān)的采集、組織、分析、決策工具及技術(shù),該舉措無疑表明了大數(shù)據(jù)技術(shù)將會在未來數(shù)十年內(nèi)影響全球知識創(chuàng)新和知識服務形式。
“大數(shù)據(jù)”與“海量數(shù)據(jù)”不完全相同,它包含結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),甚至還具有時間或速度維度,即涉及數(shù)據(jù)流、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理速率及效率。很難用傳統(tǒng)的數(shù)據(jù)庫和軟件技術(shù)進行存儲、管理和處理。僅以互聯(lián)網(wǎng)上的數(shù)據(jù)為例,2011年的網(wǎng)絡數(shù)據(jù)已達1.82ZB,相當于全球每人產(chǎn)生200GB數(shù)據(jù)。
(二)大數(shù)據(jù)的基本特性
1.容量(Volume)。存儲量巨大,從TB級別上升到PB、EB、ZB甚至DB級別,傳統(tǒng)的集中存儲與集中計算已經(jīng)無法處理呈指數(shù)增長的數(shù)據(jù)。
2.多樣性(Variety)。數(shù)據(jù)來源及格式多樣化,如Email、訪問日志、電子商務、網(wǎng)絡檢索歷史記錄、微信、博客等個人數(shù)據(jù)、企業(yè)數(shù)據(jù)、傳感器數(shù)據(jù)、網(wǎng)絡數(shù)據(jù)等。
3.速度(Velocity)。增長速度快,要求處理速率及效率也要快,能夠提供交互式的、實時或準實時的數(shù)據(jù)分析及數(shù)據(jù)預測。
4.準確性(Veracity)。浪里淘沙、沙里淘金,真實性、準確性至關(guān)重要。
5.價值(Value)。單個數(shù)據(jù)的價值也許有限,但巨大的數(shù)據(jù)量蘊藏著巨大財富,經(jīng)過數(shù)據(jù)整合、挖掘及數(shù)據(jù)分析后得到的新信息價值會翻倍。
(一)增強收集數(shù)據(jù)的意識,特別是對非結(jié)構(gòu)化數(shù)據(jù)的提取
國際圖聯(lián)主席、加拿大英屬哥倫比亞大學圖書館館長Ingrid Parent女士曾在2013年8月舉辦的“2013中文數(shù)字出版與數(shù)字圖書館國際研討會”上講到:“大規(guī)模、高度信息化的數(shù)據(jù)收集和分析將改變科學技術(shù)的開發(fā)和研究?!闭缜懊嫠?,大數(shù)據(jù)中有相當大一部分是非結(jié)構(gòu)化的數(shù)據(jù),比如圖片、聲音、視頻等。根據(jù)名為“互聯(lián)網(wǎng)上的一天”的數(shù)據(jù)得知,一天當中互聯(lián)網(wǎng)產(chǎn)生的內(nèi)容可以刻1.68億張DVD;發(fā)出的電子郵件達2 940億封,相當于美國2年的紙質(zhì)信件數(shù);社交帖子達2 000萬個,相當于時代雜志770年的文字量。面對這些“可能是機會的數(shù)據(jù)”時,圖書館員應該有清醒的認識,應該具備將數(shù)據(jù)轉(zhuǎn)換成知識的思想意識。獲取這些非結(jié)構(gòu)化的數(shù)據(jù)并對其進行分析,可以揭示之前很難或無法確定的重要相互關(guān)系,可以幫助提高圖書館的知識服務能力和智能輔助決策能力。
(二)大力發(fā)展數(shù)字圖書館及數(shù)字圖書館聯(lián)盟
高校圖書館對于大數(shù)據(jù)而言,通常有三種角色:大數(shù)據(jù)的使用者或受益者、大數(shù)據(jù)的提供者或開發(fā)者以及大數(shù)據(jù)的運營者或維護者。目前,對于圖書館人而言,大數(shù)據(jù)技術(shù)仍然是一種全新的且仍被質(zhì)疑的新興技術(shù),高校圖書館應該加強相互間的聯(lián)盟合作,特別是發(fā)展數(shù)字圖書館聯(lián)盟,甚至發(fā)展跨領(lǐng)域合作與國際合作,這會大大提高圖書館的數(shù)據(jù)分析與數(shù)據(jù)整合能力。比如“歐洲文化門戶工程”(Europeana Culture Portal Initiative)的電子檔案館項目,有2000多個成員在元數(shù)據(jù)標準等方面通力合作,擁有大量的書籍、繪畫作品、電影和博物館藏品。另一個比較成功的例子是“開放獲取知識庫聯(lián)盟”(the Confederation of Open Access Repositories),該聯(lián)盟正致力于開放獲取標準等方面的合作。這些優(yōu)秀的國外圖書館間及跨領(lǐng)域的聯(lián)盟合作都是值得我們學習和借鑒的。
(三)與出版社、數(shù)據(jù)庫公司、學術(shù)研究者等合作
出版社和圖書館如何面對大數(shù)據(jù)時代的到來是近幾年來專家學者討論的熱點。過去,專家學者們都遵循著一個思路——大數(shù)據(jù)有序化,希望通過對海量文獻數(shù)據(jù)的規(guī)范化、自動化加工,以及對相應檢索技術(shù)的改進完善,解決海量文獻的內(nèi)容發(fā)現(xiàn)問題。但這樣做的后果會使文獻資源變成“數(shù)據(jù)孤島”,使圖書館成為孤島,獨立于互聯(lián)網(wǎng)大數(shù)據(jù)這一虛擬社會之外,內(nèi)容價值得不到充分的發(fā)掘和利用,整體的影響力也不足以支撐內(nèi)容產(chǎn)業(yè)的大發(fā)展。作為高校圖書館來說,要不要搞“大數(shù)據(jù)圖書館”成為目前要思考的問題。而出版社、學術(shù)研究者、數(shù)據(jù)庫公司、圖書館等開展合作是其中一個可行性路線。在大數(shù)據(jù)時代,學術(shù)圖書館和出版社必須加強對話與合作,如果缺乏溝通,學術(shù)信息的生產(chǎn)與傳播將無從談起。通過對海量數(shù)據(jù)、龐大數(shù)據(jù)庫的有效管理,將圖書館的服務智能化,能夠智能地挖掘、匹配讀者的閱讀興趣,為讀者的沉浸閱讀、深入學習提供內(nèi)容和工具。
(四)尋求技術(shù)創(chuàng)新與服務創(chuàng)新
近年來,隨著云計算、大數(shù)據(jù)技術(shù)的發(fā)掘與應用,讀者需求也在不斷變化。讀者要求在獲取知識的途徑和時間上更簡單快捷。過去高校圖書館的數(shù)據(jù)庫都是獨立的,讀者要在多個系統(tǒng)中多次登錄,分別發(fā)現(xiàn)不同的結(jié)果文獻。而現(xiàn)在發(fā)展到一個讀者賬號實現(xiàn)跨數(shù)據(jù)庫檢索,實時獲取,比如CALIS的“E讀”和“E得”。從服務的角度或者學術(shù)的角度來說,用戶需要的是有準確來源的數(shù)據(jù)和最直接可信的答案,而不是成千上萬篇文獻,因此要為他們提供最好的服務,還需要我們對新技術(shù)的不斷探索和應用,同時要有與新技術(shù)相適應的新服務內(nèi)容與形式。可以說發(fā)展技術(shù)是最基本的支撐,而服務是高校圖書館的靈魂,二者必須同時發(fā)展。
學術(shù)性圖書館歷來是信息技術(shù)應用的重鎮(zhèn),大數(shù)據(jù)時代的到來對于圖書館來說,既是推力又是挑戰(zhàn),這種技術(shù)會對我們所熟知的知識服務能力和知識服務機制產(chǎn)生重大的顛覆和創(chuàng)新。作為高校圖書館,如何把握時代帶給我們的新發(fā)展機遇是值得進一步研究的,特別是如何發(fā)揮大數(shù)據(jù)時代的優(yōu)勢,規(guī)避大數(shù)據(jù)時代的風險和弊端,更是值得所有人去探討的問題。
[1]The New York Times.The Age of Big Data[EB/OL].[2012-8-9].
http://www.nytimes.com/2012/02/12/sunday - review/big -datas-impact-in-the-world.html?pagewanted=all.
[2]The Wall Street Journal.Big - Data Success Stories:Splunk[EB/OL].2012-8-9].
http://blogs.wsj.com/venturecapital/2011/10/21/big - data -success-stories-splunk/.
[3]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志,2012,(11).
[4]The White House.Big Data Across the Federal Government[R/OL].[2012-8-10].
http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet.pdf.
[5]百度百科.大數(shù)據(jù)[EB/OL].http://baike.baidu.com/view/6954399.htm,[2013-11-10].
[6]清華大學圖書館館長鄧景康.大數(shù)據(jù)環(huán)境下清華大學圖書館的實踐[N].中國新聞出版報,2013-08-29005.
[7]本報記者王玉梅.加強協(xié)作,一切皆有可能[N].中國新聞出版報,2013-08-29005.
[8]中國學術(shù)期刊電子雜志社社長、同方知網(wǎng)技術(shù)公司總經(jīng)理王明亮.關(guān)于“大數(shù)據(jù)出版”的一些體會和猜想[N].中國新聞出版報,2013-08-29005.
[9]羅 彬,陽 靜,袁 赟.數(shù)字圖書館中大數(shù)據(jù)存儲的應用研究[J].科技與企業(yè),2013,(18).
[10]郭振橋,王新玲.淺論大數(shù)據(jù)在未來圖書館服務中的應用[J].內(nèi)蒙古科技與經(jīng)濟,2013,(16).
[11]韓翠峰.大數(shù)據(jù)時代圖書館的服務創(chuàng)新與發(fā)展[J].圖書館,2013,(1).