鄧文婷
(河南省濮陽市圖書館,河南濮陽,457000)
隨著科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)被廣泛應(yīng)用,全球已邁入了大數(shù)據(jù)時代。大數(shù)據(jù)時代的到來,對社會各個行業(yè)及領(lǐng)域均有影響,圖書館工作也不例外。本文提出了大數(shù)據(jù)時代數(shù)字圖書館的建設(shè)對策,旨在提升我國數(shù)字圖書館建設(shè)水平,為相關(guān)人士提供參考。
大數(shù)據(jù)時代是隨著互聯(lián)網(wǎng)不斷發(fā)展而出現(xiàn)的一個新詞語,主要指收集及處理信息資源,以此來推動人類生產(chǎn)發(fā)展,促進(jìn)人們生活質(zhì)量的提升。在當(dāng)前社會不斷發(fā)展的過程中,獲取信息價值逐漸成為人們關(guān)注的話題。因此,目前關(guān)于大數(shù)據(jù)時代方面的研究較多。在大數(shù)據(jù)時代下,信息數(shù)據(jù)容量不斷擴增,信息資源也在增多。事實上,大數(shù)據(jù)時代下數(shù)字圖書館的主要任務(wù)并不是對信息資源進(jìn)行大量收集,而是重點分析和處理具有價值、對社會生產(chǎn)力發(fā)展有利的數(shù)據(jù)。同時,需要充分注意處理之后所帶來的社會效應(yīng)。當(dāng)前,大數(shù)據(jù)時代的數(shù)據(jù)處理已經(jīng)應(yīng)用了云技術(shù),通過分布結(jié)構(gòu)的轉(zhuǎn)變,實現(xiàn)網(wǎng)絡(luò)儲存功能。
大數(shù)據(jù)時代具有兩方面顯著特點:1.信息數(shù)據(jù)資源十分豐富。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,計算機信息技術(shù)已被廣泛應(yīng)用于人類生產(chǎn)生活,從而豐富了信息數(shù)據(jù)并提高信息的共享質(zhì)量。當(dāng)前,我國已全面步入網(wǎng)絡(luò)社會。在此背景下,人們對于信息數(shù)據(jù)的需求不斷提高,從而間接地促進(jìn)大數(shù)據(jù)時代發(fā)展。同時,信息資源形式也呈現(xiàn)出多樣化發(fā)展的特點,因此信息資源的數(shù)量及其處理都處于動態(tài)發(fā)展變化的過程。2.大數(shù)據(jù)時代結(jié)構(gòu)較為復(fù)雜且變化速度偏快。數(shù)據(jù)形式從原來的單一變得多樣化。同時,隨著計算機技術(shù)的不斷發(fā)展,數(shù)據(jù)形式也在不斷地變化。人們對于大數(shù)據(jù)的需求不斷提升,因而數(shù)據(jù)結(jié)構(gòu)十分復(fù)雜。例如大部分的數(shù)據(jù)均以非結(jié)構(gòu)化或者半結(jié)構(gòu)化形式存在。[1]
數(shù)字圖書館是當(dāng)代計算機和互聯(lián)網(wǎng)技術(shù)下的新興產(chǎn)物,屬于一種信息資源組織模式。關(guān)于數(shù)字圖書館的概念,最初是由上世紀(jì)90年代美國科學(xué)家所提出的,但是每位研究人員對于數(shù)字圖書館的研究角度有所不同,對其進(jìn)行定義也會有一些差別。其中對于數(shù)字圖書館有一種綜合的定義,具體為:數(shù)字圖書館通過數(shù)字化形式對于信息資源從收集到發(fā)布,并依托于實體進(jìn)行發(fā)布。從形式上來看,其可以是相關(guān)的社會機構(gòu)或是有關(guān)的組織,同時也可為虛擬網(wǎng)站等任何數(shù)字信息資源的集合。從整體上來看,數(shù)字圖書館是圖書館的一種新的組織形式。因此,無論從哪方面來看,數(shù)字圖書館都同傳統(tǒng)圖書館之間有著不同的狀態(tài)。當(dāng)然兩者功能和本質(zhì)相同,數(shù)字圖書館屬于傳統(tǒng)圖書館發(fā)展的新形式。
1.數(shù)據(jù)的快速更新要求數(shù)字圖書館建設(shè)應(yīng)當(dāng)加大對數(shù)據(jù)的研究
2010年由聯(lián)合國統(tǒng)一發(fā)表了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》,明確指出,大數(shù)據(jù)的到來將會是人類社會的重大轉(zhuǎn)折點,依靠大數(shù)據(jù)為人類服務(wù),將給人類社會帶來更大的便捷。至2018年,大數(shù)據(jù)應(yīng)用一直是研究人員討論的熱點之一,美國政府也不斷強化大數(shù)據(jù)的開發(fā)和研究,并將其同國家發(fā)展戰(zhàn)略結(jié)合在一起,這無疑大大推動了全球數(shù)據(jù)一體化的發(fā)展。在大數(shù)據(jù)推廣的背景下,國際上針對數(shù)字化圖書館的相關(guān)功能應(yīng)用也隨之進(jìn)行。在國際社會數(shù)據(jù)環(huán)境變化的背景下,我國針對數(shù)字圖書館建設(shè)的大數(shù)據(jù)開發(fā)應(yīng)用等方面還需要不斷加強研究。
2.創(chuàng)新主體變化要求數(shù)字圖書館應(yīng)當(dāng)符合企業(yè)發(fā)展方向
當(dāng)下,我國存在著資源配置不夠優(yōu)化、資源的利用率較為低下等問題。企業(yè)是整個技術(shù)化改革創(chuàng)新的主要對象,但由于創(chuàng)新能力等方面的因素,不少研究結(jié)果都沒有直接轉(zhuǎn)換為實際的應(yīng)用技術(shù)。企業(yè)作為創(chuàng)新主體,在大數(shù)據(jù)時代下,應(yīng)當(dāng)通過對大數(shù)據(jù)的掌控,提高自身的運營效率。所以,數(shù)據(jù)化運行及研究成為當(dāng)今企業(yè)發(fā)展的根本。[2]
數(shù)字圖書館從數(shù)據(jù)庫再到大數(shù)據(jù),從整個過程來看雖然只是技術(shù)的簡單演變,但是兩者之間是有本質(zhì)差別的。大數(shù)據(jù)的出現(xiàn)完全改變了傳統(tǒng)圖書館數(shù)據(jù)管理模式,無論是在數(shù)據(jù)的收集和數(shù)據(jù)的處理等多方面均帶來了較大改變。
數(shù)字圖書館中包含的資源較多,不僅具有文獻(xiàn)資源、網(wǎng)絡(luò)資源等,還包含用戶信息和為用戶提供服務(wù)的信息。隨著時間的流逝,圖書館的數(shù)據(jù)資源不斷增長。其數(shù)字資源的總量相當(dāng)于一個龐大的數(shù)據(jù)集。數(shù)據(jù)庫處理一般是以MB作為基本單位,大數(shù)據(jù)則常常以GB或者TB、PB作為基本的處理單位。大數(shù)據(jù)所謂的“大”,并不只是指大數(shù)據(jù)的絕對數(shù)量,而是指在數(shù)據(jù)處理中所采用的“大”模式。因此,數(shù)字圖書館如何合理處理異構(gòu)數(shù)據(jù)、如何對海量數(shù)據(jù)進(jìn)行儲存、如何對數(shù)據(jù)資源進(jìn)行選擇等等問題,都將成為大數(shù)據(jù)時代下數(shù)字圖書館面臨的主要問題。
目前,我國圖書館的業(yè)務(wù)應(yīng)當(dāng)不斷地朝著數(shù)據(jù)分析和數(shù)據(jù)挖掘方面轉(zhuǎn)變,這能夠讓圖書館的業(yè)務(wù)真正地轉(zhuǎn)變?yōu)閷?shù)據(jù)的處理和分析。事實上,許多具有價值的東西均藏于碎片化數(shù)據(jù)之中。例如在兩個小時的視頻之中,僅僅只有五分鐘是具有價值的資源。數(shù)據(jù)挖掘?qū)⒊蔀榇髷?shù)據(jù)時代下數(shù)字圖書館的主要業(yè)務(wù),該業(yè)務(wù)開展水平也直接決定了大數(shù)據(jù)時代下數(shù)字圖書館的發(fā)展。但是,基于數(shù)據(jù)庫的數(shù)字圖書館,其事先對于數(shù)據(jù)模式加以設(shè)計,數(shù)據(jù)主要是在使用中不斷產(chǎn)生。而大數(shù)據(jù)則很難在事先就確定其模式,它必須在數(shù)據(jù)出現(xiàn)之后才能夠確定,并且隨著數(shù)據(jù)量的不斷增多,其模式也會不斷發(fā)生變化。因此,數(shù)字圖書館建設(shè)將面臨從海量異構(gòu)數(shù)據(jù)中挖掘有價值的信息這一問題。
數(shù)字圖書館的數(shù)據(jù)主要包括系統(tǒng)運營和用戶服務(wù)數(shù)據(jù)、論壇反饋數(shù)據(jù)等。這些資源及其數(shù)據(jù)編碼格式無法達(dá)到統(tǒng)一,因此形成了許多異構(gòu)數(shù)據(jù)。相對于數(shù)據(jù)庫數(shù)字圖書館而言,其數(shù)據(jù)類型相對而言十分單一,并且主要以結(jié)構(gòu)化數(shù)據(jù)為主,非結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)庫數(shù)字圖書館中十分少見。在大數(shù)據(jù)時代,數(shù)據(jù)包含的類型較為豐富,例如辦公文檔、WEB信息等半結(jié)構(gòu)化及其非機構(gòu)化數(shù)據(jù)日漸增多。因此,數(shù)字圖書館同大數(shù)據(jù)時代之間存在一定的矛盾,在建立過程中將會面臨數(shù)據(jù)多樣性這一問題。[3]
針對以上大數(shù)據(jù)時代下數(shù)字圖書館建設(shè)面臨的大規(guī)模數(shù)據(jù)問題,事實上根本無需建設(shè)起所有類別的數(shù)字資源,應(yīng)當(dāng)避免資源類別全面建設(shè),這種“貪大求全”反而容易帶來一些不良影響。對此,在實際建設(shè)過程中,應(yīng)該根據(jù)自身特色形成一定規(guī)模資源,并同其他資源進(jìn)行整合,從而系統(tǒng)地、有組織地進(jìn)行開發(fā)、整理建設(shè),以使數(shù)字圖書館規(guī)模效益得到有效地發(fā)揮。而針對少部分未建設(shè)的數(shù)字資源,可以展開館際區(qū)域合作,實現(xiàn)同其他資源的整合及其共享。采取區(qū)域合作的方式,能夠有效地解決大數(shù)據(jù)對數(shù)字圖書館建設(shè)和發(fā)展帶來的相關(guān)經(jīng)濟成本,避免建設(shè)中出現(xiàn)資金不足的問題。此外,對于數(shù)字資源,還應(yīng)當(dāng)綜合考慮對其長期保存的標(biāo)準(zhǔn)問題、儲存介質(zhì)選擇、安全和管理等方面的問題,以此保證數(shù)字圖書館能夠真正實現(xiàn)規(guī)范化管理,保證數(shù)字資源數(shù)據(jù)的全面性與綜合性。[4]
對于數(shù)字圖書館的文字、音頻等數(shù)據(jù),主要是考慮對于這些數(shù)據(jù)的儲存,從而滿足用戶的使用要求。目前針對這類數(shù)據(jù)儲存,主要有分布式緩存、分布式文件系統(tǒng)、NoSQL分布式儲存方案等。這些數(shù)據(jù)儲存方案在實際實施中,需要投入較多資金購買軟、硬件。如果采取這類方案,數(shù)字圖書館建設(shè)將面臨巨大的壓力。對此,可以采取云計算技術(shù)對數(shù)據(jù)進(jìn)行儲存。隨著云計算技術(shù)的不斷發(fā)展,已經(jīng)能夠為大數(shù)據(jù)提供具有彈性、可以拓展的數(shù)據(jù)儲存服務(wù),因此在數(shù)字圖書館建設(shè)過程中,應(yīng)當(dāng)根據(jù)實際的需要應(yīng)用云計算技術(shù),以此解決數(shù)字圖書建設(shè)資金的問題。
當(dāng)前,我國數(shù)字圖書館在針對結(jié)構(gòu)化數(shù)據(jù)的管理上已經(jīng)較為完善和成熟,但是在非結(jié)構(gòu)性數(shù)據(jù)化管理方面上還有待完善。應(yīng)當(dāng)立足于用戶的實際需求對信息資源結(jié)構(gòu)加以調(diào)整和建設(shè),以保證信息資源的數(shù)量及其質(zhì)量。同時,還應(yīng)支持多媒體文檔儲存等,從而能夠形成一種新型的分布式與整合式的資源平臺,最終提高非結(jié)構(gòu)化數(shù)據(jù)的管理水平。
基于網(wǎng)絡(luò)技術(shù)的數(shù)字圖書館平臺,能夠?qū)⒒ヂ?lián)網(wǎng)技術(shù)、高性能計算機、傳感器等整合為一臺虛擬但是功能十分強大的計算機。通過網(wǎng)絡(luò)技術(shù)平臺的建設(shè),在數(shù)字資源系統(tǒng)上建立起數(shù)據(jù)核心協(xié)議層,收集各種不同的服務(wù)信息,并在核心協(xié)議層統(tǒng)一解決,實現(xiàn)數(shù)字圖書館在異構(gòu)環(huán)境下跨平臺異構(gòu)資源的協(xié)同工作。另外,構(gòu)建起基于網(wǎng)絡(luò)技術(shù)的服務(wù)體系架構(gòu),能使工作平臺不再受到限制,而服務(wù)的提供者和用戶均可使用同一種軟件來實現(xiàn)對服務(wù)的操控,從而最大限度地整合異構(gòu)資源。
在大數(shù)據(jù)環(huán)境下,數(shù)字圖書館的數(shù)據(jù)應(yīng)用價值主要體現(xiàn)在數(shù)據(jù)應(yīng)用系統(tǒng),例如常見的信息檢索服務(wù)、數(shù)據(jù)挖掘服務(wù)及其個性化軟件等。應(yīng)用服務(wù)及其軟件主要是通過原始數(shù)據(jù)的篩選及轉(zhuǎn)換,利用可視化技術(shù)將篩選出來有價值的信息進(jìn)行展示,從而實現(xiàn)數(shù)據(jù)主導(dǎo)服務(wù)的發(fā)展。
數(shù)字圖書館建設(shè)必須充分地應(yīng)用新技術(shù),尤其是學(xué)習(xí)技術(shù)、數(shù)據(jù)可視化技術(shù)的應(yīng)用等。這需要對自身軟件技術(shù)不斷地進(jìn)行創(chuàng)新,促使數(shù)字圖書館能夠跟上大數(shù)據(jù)時代發(fā)展的步伐。利用大數(shù)據(jù)分析及其智能計算,數(shù)字圖書館可以根據(jù)數(shù)據(jù)分析出用戶的偏好,從而根據(jù)用戶的實際需要提供個性化服務(wù),為用戶帶來更優(yōu)質(zhì)、更全面的服務(wù)。而隨著圖書館用戶在服務(wù)要求以及相關(guān)技術(shù)方面的變化,使得圖書館在服務(wù)方面也需要尋求一定的變化,才能夠滿足當(dāng)前人們的需求。由于各方面因素的共同作用,使數(shù)字圖書館在服務(wù)的途徑、模式以及方式等都出現(xiàn)了一些變化。同時,其服務(wù)不但有信息方面的咨詢、文獻(xiàn)類的服務(wù)以及學(xué)科方面的服務(wù),而且還會根據(jù)數(shù)據(jù)采集、分析以及決策來完成相關(guān)服務(wù),從而為企事業(yè)單位及相關(guān)機構(gòu)提供數(shù)據(jù)的分析處理和挖掘等方面的服務(wù)。
對于數(shù)字圖書館而言,其服務(wù)最終往哪個方向發(fā)展,需要看其怎樣防止知識產(chǎn)權(quán)方面的風(fēng)險。對知識產(chǎn)權(quán)的重視,需要盡可能地提升館員的專業(yè)水平,對產(chǎn)權(quán)進(jìn)行維護(hù)。為了使公民的數(shù)字使用權(quán)與文化方面的權(quán)利得到應(yīng)有的保護(hù),可以依靠立法來實現(xiàn)。同時,應(yīng)當(dāng)設(shè)置管理著作權(quán)的專門機構(gòu),讓圖書館能夠得到信息資源傳播、建設(shè)方面的授權(quán),妥善地解決可能存在的知識產(chǎn)權(quán)風(fēng)險問題。
在大數(shù)據(jù)的背景下,數(shù)字圖書館承受著較大的經(jīng)濟壓力。隨著服務(wù)和產(chǎn)品方面的成本升高,資金的投入?yún)s不夠。鑒于這種情況,政府在數(shù)字圖書館方面的投資建設(shè)時,應(yīng)當(dāng)重視全面性與可持續(xù)性,實現(xiàn)多元化的平衡發(fā)展。在其他國家的數(shù)字圖書館中,有稅收政策來進(jìn)行引導(dǎo),使得政府、企業(yè)、基金會等都是其投資主體。我國在這方面也可以借鑒國外的一些經(jīng)驗,鼓勵社會公眾的力量參與進(jìn)來,從而讓投資結(jié)構(gòu)得到很好地優(yōu)化,拓展收入方面的渠道,促進(jìn)數(shù)字圖書館建設(shè)發(fā)展。同時,依靠系統(tǒng)化與規(guī)范化的管理,實現(xiàn)館際合作和資源共享,完善成本管控的長效機制,從而達(dá)到圖書館服務(wù)等方面的目標(biāo)。另外,遵循公益性質(zhì)的無償性服務(wù)原則,結(jié)合市場化運作的方式,通過技術(shù)創(chuàng)新與數(shù)字接入等手段,提高數(shù)字圖書館為公眾服務(wù)的效益。
大數(shù)據(jù)時代的到來,促使數(shù)字圖書館建設(shè)面臨巨大的挑戰(zhàn)及發(fā)展機遇。對此,數(shù)字圖書館在實際建設(shè)過程中,應(yīng)當(dāng)緊緊抓住大數(shù)據(jù)時代的發(fā)展機遇,從數(shù)字資源建設(shè)、平臺建設(shè)等多方面進(jìn)行創(chuàng)新,促使數(shù)字圖書館建設(shè)滿足大數(shù)據(jù)時代的需求。創(chuàng)新建設(shè)是大數(shù)據(jù)時代數(shù)字圖書館的核心,因此數(shù)字圖書館應(yīng)當(dāng)充分結(jié)合云計算技術(shù)等高新科技技術(shù),不斷地創(chuàng)新數(shù)字圖書館,從而促使大數(shù)據(jù)時代下數(shù)字圖書館建設(shè)能夠朝著更好的方向發(fā)展。