文/菏澤學(xué)院圖書館 龐鳳展
如今圖書館收集和存儲(chǔ)著海量的數(shù)據(jù)資源。館藏資源的最初目的是為了幫助科研人員和社會(huì)讀者能夠查閱到他們所需的信息。然而隨著社會(huì)的發(fā)展及科技水平的提高,圖書館數(shù)據(jù)量變得越來越龐大,數(shù)據(jù)格式也變得越來越多樣,這種情況對(duì)圖書館信息的使用效率產(chǎn)生了一定的影響。
2001年,美國學(xué)者Doug Laney在他的研究報(bào)告中首次提出了“大數(shù)據(jù)”的概念,從三個(gè)角度定義了數(shù)據(jù)增長的機(jī)遇與挑戰(zhàn),即3V理論:數(shù)量(volume)、速度(volocity)、多樣(variety)。近幾年,大數(shù)據(jù)研究的重要意義已經(jīng)得到了廣泛認(rèn)可:大數(shù)據(jù)技術(shù)可以使我們對(duì)數(shù)據(jù)作出更深入、更有價(jià)值的挖掘和理解,從而幫助我們更及時(shí)有效地作出決策。
隨著大數(shù)據(jù)技術(shù)的日漸傳播和發(fā)展,圖書館也加入了應(yīng)用大數(shù)據(jù)技術(shù)的行列,以便為研究人員與讀者提供更高效的服務(wù)。但是有一部分學(xué)者對(duì)圖書館數(shù)據(jù)是否屬于大數(shù)據(jù)存有疑問。本文將參照最為權(quán)威的3V理論,來探究一下這個(gè)問題。
(一)數(shù)量(volume)。根據(jù)維基百科的定義,大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的數(shù)據(jù)合集,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力。然而數(shù)據(jù)的實(shí)際大小并沒有一個(gè)準(zhǔn)確的定義,它的大小取決于實(shí)際應(yīng)用場(chǎng)景。在另一方面,數(shù)據(jù)模型可以從館藏文獻(xiàn)中創(chuàng)建。
(二)速度(volocity)。圖書館數(shù)據(jù)中同樣可以找到大數(shù)據(jù)所具有的速度特征。各個(gè)圖書館的服務(wù)器上管理著大量的文件,分布在不同的地理位置,圖書館存在著各種內(nèi)部的或者外部的文件移動(dòng)。隨著更多研究的開展,越來越多的研究數(shù)據(jù)被動(dòng)態(tài)地寫入圖書館數(shù)據(jù)庫。
(三)多樣(variety)。圖書館擁有各種形式的數(shù)據(jù):書籍、期刊、報(bào)告、筆記等。其中有些形式的數(shù)據(jù)是缺少組織性的,非結(jié)構(gòu)化的。此外,用戶在使用圖書館的系統(tǒng)和服務(wù)時(shí),圖書館會(huì)收集用戶的使用習(xí)慣和交互數(shù)據(jù)。因此,在圖書館數(shù)據(jù)中也可以找到大數(shù)據(jù)所具有的多樣特性。除了以上三種特性外,圖書館數(shù)據(jù)還具有一些其他的屬性。
(四) 數(shù)據(jù)缺乏組織性。在大部分人看來,圖書館中的書籍和期刊都組織得很有條理,用戶使用類目就可以方便檢索到他們需要的資源。然而,圖書館中存儲(chǔ)的研究數(shù)據(jù)的情況卻是不同的。這些研究數(shù)據(jù)雜亂無章,缺乏系統(tǒng)的組織和描述,并且很難被長期重復(fù)使用。
不同于商業(yè)機(jī)構(gòu)、醫(yī)療機(jī)構(gòu)等,圖書館大數(shù)據(jù)的研究相對(duì)而言還處于起步階段。因此在數(shù)據(jù)轉(zhuǎn)化、管理及分析的過程中,可能會(huì)面臨一些困難。另外,圖書館所應(yīng)用的大數(shù)據(jù)技術(shù)如數(shù)據(jù)存儲(chǔ)、軟件應(yīng)用、人員操作上都與其他領(lǐng)域不盡相同。以下是圖書館大數(shù)據(jù)研究的一些常見問題:
(一)數(shù)據(jù)分析人員緊缺。當(dāng)前各個(gè)行業(yè)中,數(shù)據(jù)分析人員都嚴(yán)重緊缺。圖書館行業(yè)面臨著一樣的境遇。數(shù)據(jù)分析人員不僅需要精通統(tǒng)計(jì)學(xué)和計(jì)算機(jī)的相關(guān)知識(shí),同樣還需要擁有知識(shí)管理和項(xiàng)目協(xié)作的能力。圖書員處理大數(shù)據(jù)信息的能力是目前大數(shù)據(jù)在圖書館應(yīng)用所面臨的主要挑戰(zhàn)。
(二)大數(shù)據(jù)采用能力較低。大數(shù)據(jù)產(chǎn)生于社會(huì)各個(gè)領(lǐng)域,但是目前很多的組織及機(jī)構(gòu)并沒有做好應(yīng)對(duì)大數(shù)據(jù)時(shí)代來臨的準(zhǔn)備。圖書館的大數(shù)據(jù)研究比其他學(xué)科進(jìn)展更慢。
(三)預(yù)算問題。雖然越來越多的人已經(jīng)意識(shí)到大數(shù)據(jù)分析和應(yīng)用的巨大價(jià)值,但是巨大的IT投入?yún)s一定程度上阻礙了大數(shù)據(jù)的發(fā)展。因?yàn)轭A(yù)算問題,絕大部分的圖書館管理人員并沒有進(jìn)行大數(shù)據(jù)研究與應(yīng)用的想法。目前國內(nèi)外很多圖書館開始引入大數(shù)據(jù)技術(shù),但是我們需要認(rèn)識(shí)到目前存在的挑戰(zhàn)與問題,如預(yù)算問題、技術(shù)問題等。
大數(shù)據(jù)是近年來熱門的話題,那么大數(shù)據(jù)可以怎樣運(yùn)用到圖書館信息服務(wù)中呢?首先,圖書館的信息化建設(shè)使數(shù)字資源與日俱增,尤其是爆發(fā)增長的非結(jié)構(gòu)化的原始數(shù)據(jù),如音頻影像等流媒體數(shù)字資源、學(xué)術(shù)文獻(xiàn)的各種原始數(shù)據(jù)圖表等,這將會(huì)促進(jìn)數(shù)據(jù)資源采集處理模式的優(yōu)化,及圖書館系統(tǒng)架構(gòu)的優(yōu)化配置,以克服現(xiàn)有的數(shù)據(jù)信息中心不能適應(yīng)海量及復(fù)雜的非結(jié)構(gòu)化原始數(shù)據(jù)獲取、存儲(chǔ)和處理方面的不足。
面臨大數(shù)據(jù)時(shí)代,圖書館數(shù)據(jù)理所應(yīng)當(dāng)?shù)膶儆诖髷?shù)據(jù)的一部分。由于資金和技術(shù)問題,大數(shù)據(jù)在圖書館的實(shí)際運(yùn)用還面臨著諸多挑戰(zhàn)。但毫無疑問,大數(shù)據(jù)會(huì)幫助圖書館提高服務(wù)效益,加快升級(jí)創(chuàng)新。