摘 要:近年來,隨著計算機的廣泛應用和云計算和物聯(lián)網(wǎng)技術(shù)的飛快進步,數(shù)據(jù)的類型和規(guī)模也在迅速增加。在大數(shù)據(jù)時代,如何將這些海量數(shù)據(jù)轉(zhuǎn)化為有價值的信息是圖書館界普遍關注的話題,文章在大數(shù)據(jù)的概念及特點下,談了圖書館學界目前對于大數(shù)據(jù)研究的現(xiàn)狀,給出了幾點圖書館數(shù)字資源建設的策略。
關鍵詞:圖書館 大數(shù)據(jù) 數(shù)字資源建設
一、大數(shù)據(jù)的概念
大數(shù)據(jù)并沒有一個確切的、完整的定義,從提出這個概念以來,研究大數(shù)據(jù)的專家學者們就沒有對這個概念達成過共識,基本上各人有各人的理解與定義。剛開始時,這個概念指的是需要處理的信息量太大了,已經(jīng)超出了一般電腦能處理的數(shù)據(jù)量。大數(shù)據(jù)目前得到公認的是大數(shù)據(jù)的“4V”特性,Volume(大量)、Velocity(高速)、Variety(多樣)、value(價值)。 其中Volume指收集和分析的數(shù)據(jù)量巨大,從 TB 級別上升到 PB 級別;velocity 指數(shù)據(jù)處理速度要足夠快,與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的區(qū)別;Value 指數(shù)據(jù)中蘊含著潛在的價值轉(zhuǎn)化,雖然大量的數(shù)據(jù)表現(xiàn)出價值密度低的特點,但只要有足夠的技術(shù)儲備,合理的利用數(shù)據(jù),對數(shù)據(jù)進行準確的挖掘、分析,可以帶來很高的價值回報;variety 指數(shù)據(jù)類型多樣復雜,這些數(shù)據(jù)不單包括傳統(tǒng)數(shù)據(jù)庫表格整齊排列的結(jié)構(gòu)化數(shù)據(jù),更多是視頻、音頻、圖像、電子郵件、即時通信工具、微博、社交網(wǎng)絡等以非結(jié)構(gòu)化文本存儲的數(shù)據(jù)。所以,有人總結(jié)大數(shù)據(jù)是“海量數(shù)據(jù)+復雜類型”的數(shù)據(jù),包含分析、帶寬、內(nèi)容三個因素,其因素是蘊含價值。[1]
二、圖書館學界目前對于大數(shù)據(jù)的研究現(xiàn)狀
為了了解國內(nèi)圖書館學界對于大數(shù)據(jù)的研究, 筆者借助中國知網(wǎng)檢索了圖書館學跟大數(shù)據(jù)相關的論文,在中國知網(wǎng)上按篇名,使用“大數(shù)據(jù)”、“圖書館”兩個關鍵字(合并條件)進行檢索,2011 年是 0 條結(jié)果,2012 年是 4 條結(jié)果,2013 年度是 58 條結(jié)果,2014 年迄今為止是 173 條結(jié)果。 通過這些結(jié)果來看,大數(shù)據(jù)已經(jīng)引起了我國圖書館界的專家學者們的重視,相關的研究正在飛速的發(fā)展。 專家學者們在對大數(shù)據(jù)研究的相關文章后,歸納了我國圖書館界大數(shù)據(jù)研究的關鍵特征:1。論文的數(shù)量逐年增加。2011年以前,首要討論內(nèi)容是計算機領域大數(shù)據(jù)量體系結(jié)構(gòu)。2012年開始,特地研究大數(shù)據(jù)的文獻開始出現(xiàn),并在2013年急劇增加。圖書館領域的文獻出版也呈現(xiàn)出增長趨勢。2。發(fā)表論文主要集中在計算機和管理類期刊上。研究發(fā)現(xiàn),出版大型數(shù)據(jù)研究論文的期刊大多以計算機和管理為重點。近兩年來,圖書館和信息科學期刊發(fā)表的大數(shù)據(jù)文章也較多,反映了圖書館界基于大數(shù)據(jù)理論的跨學科研究的趨勢,而其他期刊的論文較少。 3.研究視角多元化,研究重點突出。在計算機期刊上發(fā)表的論文主要集中在大數(shù)據(jù)的技術(shù)框架和設計上,而管理類期刊則集中在大數(shù)據(jù)的理論探索和實踐參考上。 4.。我國圖書館員對大數(shù)據(jù)的應用很少關注,過于注重大數(shù)據(jù)的理論引進,而忽視了大數(shù)據(jù)在圖書館應用的實踐研究。[2]
三、大數(shù)據(jù)下的圖書館數(shù)字資源建設
1.存儲架構(gòu)從傳統(tǒng)IT環(huán)境向大數(shù)據(jù)環(huán)境的均衡過渡
首先,大數(shù)據(jù)時代,圖書館傳統(tǒng) IT 環(huán)境下的集中式存儲架構(gòu), 已經(jīng)不能滿足用戶對大數(shù)據(jù)存儲服務大量高效的需求,管理員很難通過擴展存儲設備的容量和性能來滿足圖書館大型數(shù)據(jù)服務的功能需求。其次,在傳統(tǒng)的IT環(huán)境下,圖書館往往通過添加存儲系統(tǒng)模塊來擴充數(shù)據(jù)存儲容量,導致存儲系統(tǒng)結(jié)構(gòu)復雜,管理艱難,存儲負載不平衡,容易產(chǎn)生數(shù)據(jù)孤島。[3] 因此,存儲體系結(jié)構(gòu)必須從傳統(tǒng)IT環(huán)境下的集中存儲轉(zhuǎn)變?yōu)榇髷?shù)據(jù)環(huán)境下的分布式存儲體系結(jié)構(gòu)。第三,隨著讀者對大數(shù)據(jù)服務需求的發(fā)展,圖書館應改變存儲系統(tǒng),重點建設讀者的大數(shù)據(jù)服務支撐能力,提高大數(shù)據(jù)存儲、管理、部署和遷移的安全性、效率、可用性和可控性。第四,大數(shù)據(jù)存儲體系結(jié)構(gòu)必須加強軟硬件平臺的開放性,消除傳統(tǒng)存儲平臺不同系統(tǒng)和功能模塊之間的層次性、緊密性和隔離性,實現(xiàn)大數(shù)據(jù)資源的改善存儲和部署。
2.大數(shù)據(jù)存儲系統(tǒng)應構(gòu)建新式的指標參數(shù)體系
根據(jù)圖書館大型數(shù)據(jù)存儲系統(tǒng)的科學結(jié)構(gòu)、系統(tǒng)功能、存儲可用性和可控性,存儲平臺系統(tǒng)的指標體系應著眼于數(shù)據(jù)庫的結(jié)構(gòu)復雜性、可擴展性、操作效率、靈活性、弱一致性和系統(tǒng)的建設經(jīng)濟性。大數(shù)據(jù)存儲系統(tǒng)的功能性和可控性指標體系應主要包括數(shù)據(jù)安全性、長期存儲、數(shù)據(jù)可訪問性、數(shù)據(jù)定位和查詢效率、存儲系統(tǒng)的數(shù)據(jù)吞吐量和延遲、大數(shù)據(jù)存儲節(jié)點的科學部署。另外,根據(jù)索引參數(shù),根據(jù)圖書館大數(shù)據(jù)存儲系統(tǒng)的科學結(jié)構(gòu)和功能影響,以及讀者大數(shù)據(jù)服務的內(nèi)容和模式轉(zhuǎn)換程度,動態(tài)調(diào)整索引的內(nèi)容、參數(shù)和影響因素。
3.搜索引擎系統(tǒng)應功能強大和牢靠。
圖書館要按照大數(shù)據(jù)時代讀者的閱讀需要、用戶服務模式和數(shù)據(jù)環(huán)境特征,強化搜索引擎的可用性、可控性和功能創(chuàng)立,確保搜索引擎的可靠性易用性、經(jīng)濟性和方便性。第一,搜索引擎在設計流程中,應對服務器日志數(shù)據(jù)、讀者訪問記錄、Office 文檔、XML 格式的電子表格數(shù)據(jù)、博客與論壇數(shù)據(jù)、APP 應用產(chǎn)生的數(shù)據(jù)、圖片、音頻、視頻等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)統(tǒng)一搜索界面、統(tǒng)一運營模式和完成數(shù)據(jù)渠道的整合搜索。其次,通過建設有效的索引,加快數(shù)據(jù)的讀取速度和完整性檢查。索引進程應設法確保語句符合查詢優(yōu)化器的規(guī)則,并避免進行數(shù)據(jù)庫全表掃描以提高數(shù)據(jù)查詢的效率。同時,搜索算法應允許索引和搜索同步更新,以確保首先返回最佳查詢結(jié)。第三,圖書館應獨立或與第三方開發(fā)商合作,利用谷歌、百度、亞馬遜、微軟等大型信息服務商預留的 API (應用程序編程接口),并結(jié)合圖書館管理和讀者服務需求進行二次開發(fā)。為大型信息服務提供商提供數(shù)據(jù)共享和增值服務。圖書館管理員和讀者可以利用大型信息服務提供商的大數(shù)據(jù)處理能力,實現(xiàn)用戶定位、在線翻譯、數(shù)據(jù)分析、大數(shù)據(jù)處理和云計算等大數(shù)據(jù)升值服務。[4]
4.鏈接網(wǎng)絡技術(shù),發(fā)掘網(wǎng)絡音視頻資源。
數(shù)字時代的音視頻產(chǎn)業(yè)傳播介質(zhì)已實現(xiàn)多樣化,包含出版和宣傳有形載體(比如光、錄像帶等),也包含網(wǎng)絡、流媒體等新載體的出版?zhèn)鞑ヒ殉蔀榫邆渖钸h發(fā)展前景的內(nèi)容產(chǎn)業(yè)。圖書館積極的與網(wǎng)絡信息技術(shù)接軌,已成為當今發(fā)展的方向,熱衷于捕獲讀者的行為數(shù)據(jù),確保讀者快速搜索各種聲像資料的網(wǎng)絡。圖書館可以通過互聯(lián)網(wǎng)利用新技術(shù)的優(yōu)勢,在家庭終端等各種空間為讀者提供及時的在線音頻和視頻資源。在版權(quán)許可的情況下,圖書館可以遠程推動大量的時事信息和影視娛樂資料。這是圖書館通過推廣網(wǎng)上資源吸引讀者的措施,也是外包數(shù)據(jù)庫的延伸。雖然大量的在線音頻和視頻資源對物理資源的采集和數(shù)據(jù)庫建設有必然的影響,但圖書館能夠為讀者做好數(shù)據(jù)導航工作,幫助他們及時遇上他們喜歡的音頻和視頻網(wǎng)站。這也是一個為讀者提供音頻和視頻資源的必要途徑。
5.創(chuàng)建高效的科學的大數(shù)據(jù)可視化分析系統(tǒng)
建立科學、高效的大數(shù)據(jù)可視化分析系統(tǒng)是發(fā)現(xiàn)大數(shù)據(jù)價值、發(fā)現(xiàn)數(shù)據(jù)關系、實現(xiàn)圖書館知識表達的前提。圖書館大數(shù)據(jù)分析涉及大量的內(nèi)部、外部和第三方共享數(shù)據(jù),主要由服務系統(tǒng)運營和管理日志數(shù)據(jù)、CRM關系數(shù)據(jù)、服務市場環(huán)境數(shù)據(jù)、讀者社會關系數(shù)據(jù)、讀者地理位置和遷移路線數(shù)據(jù)、讀者閱讀行為和閱讀終端數(shù)據(jù)等組成,它數(shù)據(jù)量大、管理復雜、計算與分析困難、可視化展示要求高的特點,對可視化分析系統(tǒng)提出了較高要求。[5]首先,大數(shù)據(jù)可視化分析系統(tǒng)應根據(jù)系統(tǒng)功能要求和工作流程,在統(tǒng)一的系統(tǒng)平臺上設計具有數(shù)清晰、數(shù)據(jù)計算、數(shù)據(jù)存儲管理、大數(shù)據(jù)挖掘與分析、數(shù)據(jù)分析結(jié)果可視化展示的獨立功能模塊,才能確保大數(shù)據(jù)可視化分析系統(tǒng)統(tǒng)一平臺、統(tǒng)一管理、統(tǒng)一認證和統(tǒng)一服務。其次,可視化分析系統(tǒng)應具備處理多數(shù)據(jù)源數(shù)據(jù)、第三方開放數(shù)據(jù)集、社交網(wǎng)絡數(shù)據(jù)、第三方腳本等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的能力,以及在大數(shù)據(jù)可視化分析全過程實現(xiàn)數(shù)據(jù)的流動、交互和融合。第三,大數(shù)據(jù)可視化分析系統(tǒng)應涉及圖書館服務系統(tǒng)建設、服務模式構(gòu)建與QOS 保障、精準營銷、客戶分析與 CRM 管理、服務市場風險監(jiān)測和業(yè)務流程管理等方面。同時,可視化分析系統(tǒng)應具備的功能有多類型圖表多層面展示、移動實時分析、多平臺數(shù)據(jù)源支持、全景分析、可視化圖表顯示效果定制、和跨多數(shù)據(jù)源圖表分析、使用權(quán)限管理、安全可靠性管理等。
6.創(chuàng)建數(shù)據(jù)安全監(jiān)管體制
大數(shù)據(jù)關鍵技術(shù)的快速發(fā)展為圖書館的存儲和分析大數(shù)據(jù)奠定了基礎。而現(xiàn)在圖書館的重要資產(chǎn)就是大數(shù)據(jù)??墒?,一旦大量數(shù)據(jù)和數(shù)據(jù)分析結(jié)論走漏,跟以前相比,它給給別讀者甚至整個圖書館帶來巨大的經(jīng)濟損失,也會造成圖書館聲譽受損或者承擔相關的法律責任。大數(shù)據(jù)安全保障不僅是技術(shù)問題,更是管理問題。因此,在大數(shù)據(jù)時代,圖書館不僅是從技術(shù)上實現(xiàn)安全儲存、云安全、網(wǎng)絡安全等方法來抵抗外來的信息帶來的威脅,還需要對數(shù)據(jù)安全監(jiān)管、數(shù)據(jù)資源共享機制、數(shù)據(jù)隱私保護、敏感數(shù)據(jù)審計等方面加強制度建設,防止圖書館核心數(shù)據(jù)、隱私數(shù)據(jù)和敏感數(shù)據(jù)的泄露要從管理上進行, 力圖建設貫穿于數(shù)據(jù)生命周期的數(shù)據(jù)監(jiān)管機制。從技術(shù)層面來講,如何采用先進的信息技術(shù)進行數(shù)據(jù)監(jiān)管工作,比如,利用已有的隱私處理、數(shù)據(jù)預處理等技術(shù)保障數(shù)據(jù)在使用和傳輸中能夠拒絕服務攻擊、數(shù)據(jù)傳輸機密性及 DNS 安全等。在管理層面,首先要提高圖書館內(nèi)工作人員的信息安全意識,各業(yè)務部門內(nèi)部管理加強,重要數(shù)據(jù)庫的范圍明確,創(chuàng)建科學有效的數(shù)據(jù)監(jiān)管手段與方式,定制安全使用終端設備尤其是移動終端的規(guī)程,定制和完善對重要數(shù)據(jù)、敏感數(shù)據(jù)、隱私數(shù)據(jù)操作安全和管理章程,并規(guī)范大數(shù)據(jù)的使用方法和流程。
圖書館資源建設在大數(shù)據(jù)環(huán)境下尚處于探索階段,國內(nèi)外尚無可借鑒和學習的最佳實踐。在當前的形勢下,圖書館服務工作就是要做好信息資源建設的基礎工作,為大數(shù)據(jù)的到來鋪平道路。
參考文獻
[1]馬曉亭.數(shù)字圖書館大數(shù)據(jù)分布式存儲架構(gòu)模式與策略研究[J].新世紀圖書館,2015(5).
[2]馬曉亭.圖書館大數(shù)據(jù)可視化分析系統(tǒng)的設計與實現(xiàn)[J].圖書館學研究,2015(10):37-41.
[3]鮑劼,李蘇豐.大數(shù)據(jù)環(huán)境下圖書館信息安全問題與對策分析[J].科技情報開發(fā)與經(jīng)濟,2014(22):12-14.
[4]趙琨.大數(shù)據(jù)環(huán)境下圖書館音視頻資源發(fā)展及建設研究[J].圖書館建設,2015(2).
[5]秦小華.大數(shù)據(jù)及其對高校圖書館的技術(shù)影響[J].圖書情報導刊,2015,25(9):98-100.
作者簡介
凌風(1982.4.20—),女,漢族,福建德化,西南大學網(wǎng)絡教育學院法學專業(yè),福建德化縣圖書館,中級職稱,主要研究方向:圖書館理論與實踐。