国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下圖書館的數(shù)據(jù)存儲(chǔ)策略優(yōu)化研究

2015-01-28 08:02
中國(guó)科技資源導(dǎo)刊 2015年6期
關(guān)鍵詞:數(shù)據(jù)庫圖書館結(jié)構(gòu)

劉 瑜

(四川文理學(xué)院圖書館,四川達(dá)州 635000)

大數(shù)據(jù)背景下圖書館的數(shù)據(jù)存儲(chǔ)策略優(yōu)化研究

劉 瑜

(四川文理學(xué)院圖書館,四川達(dá)州 635000)

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的爆炸式增長(zhǎng)對(duì)圖書館數(shù)據(jù)存儲(chǔ)能力提出了嚴(yán)峻的挑戰(zhàn)。論文立足于圖書館數(shù)據(jù)存儲(chǔ)的實(shí)際操作層面對(duì)大數(shù)據(jù)存儲(chǔ)的可能性路徑以及現(xiàn)階段圖書館進(jìn)行大數(shù)據(jù)存儲(chǔ)的適用方案進(jìn)行探討,認(rèn)為圖書館有責(zé)任盡可能多地存儲(chǔ)數(shù)據(jù)。對(duì)于非重要數(shù)據(jù)可利用云系統(tǒng)進(jìn)行外掛存儲(chǔ),對(duì)于一般數(shù)據(jù)可通過構(gòu)建圖書館聯(lián)盟來實(shí)現(xiàn)館際互借,對(duì)于特色數(shù)據(jù)可采用館內(nèi)存儲(chǔ),并用大數(shù)據(jù)壓縮技術(shù)來提升存儲(chǔ)空間,從而緩解大數(shù)據(jù)對(duì)單個(gè)圖書館存儲(chǔ)能力的壓力。

大數(shù)據(jù);圖書館;數(shù)據(jù)存儲(chǔ);非結(jié)構(gòu)數(shù)據(jù)

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的爆炸式增長(zhǎng)超出了人類的想象,以知識(shí)存儲(chǔ)為基本責(zé)任的圖書館應(yīng)該如何應(yīng)對(duì)呢?受技術(shù)瓶頸和經(jīng)費(fèi)短缺的限制,大多數(shù)圖書館要想全面升級(jí)換代現(xiàn)有數(shù)據(jù)庫和提高現(xiàn)有存儲(chǔ)容量是不可能的。在這種情況下,圖書館學(xué)情報(bào)學(xué)界往往把數(shù)據(jù)存儲(chǔ)解決方案寄托于大數(shù)據(jù)存儲(chǔ)技術(shù)的突破。事實(shí)上,這種研究是嚴(yán)重脫離和滯后于圖書館現(xiàn)實(shí)的,最終后果將會(huì)導(dǎo)致在大數(shù)據(jù)帶來的巨大契機(jī)面前消極無為。鑒于此,本文立足圖書館數(shù)據(jù)存儲(chǔ)的實(shí)際操作層面來探討這一問題。

1 大數(shù)據(jù)對(duì)圖書館數(shù)據(jù)存儲(chǔ)能力的挑戰(zhàn)

1.1 大數(shù)據(jù)特征分析

盡管不同業(yè)界對(duì)“大數(shù)據(jù)”(Big Data)的定義充滿分歧,但都強(qiáng)調(diào)首先必須從數(shù)量維度去理解“大數(shù)據(jù)”的“大”。也就是說,大數(shù)據(jù)的首要特征就是數(shù)量大。國(guó)外學(xué)者一般把大數(shù)據(jù)的量級(jí)限定在10TB到1PB之間[1]。我國(guó)學(xué)者一般不主張對(duì)所謂的“大”做具體限定。徐子沛的觀點(diǎn)最具代表性,“一般認(rèn)為,大數(shù)據(jù)的數(shù)量級(jí)應(yīng)該是‘太字節(jié)’的,我們也并不需要給‘什么是大’定出一個(gè)具體的‘尺寸’,因?yàn)殡S著技術(shù)的進(jìn)步,這個(gè)尺寸本身還在不斷地增大。此外,對(duì)于各個(gè)不同的領(lǐng)域,‘大’的定義也是不同的,無需統(tǒng)一”[2]。張興旺曾經(jīng)通過梳理大數(shù)據(jù)的發(fā)展歷程展示了“大”的語義。認(rèn)為:GB級(jí)別的數(shù)據(jù)是“超大規(guī)模數(shù)據(jù)”(Very Large Data),TB級(jí)別的數(shù)據(jù)是“海量數(shù)據(jù)”(Massive data),只有PB級(jí)別的數(shù)據(jù)才稱得上是“大數(shù)據(jù)”[3]。鑒于此,從縱向維度來把握大數(shù)據(jù)的基本特征是非??扇〉?,因?yàn)樗梢猿浞终蔑@大數(shù)據(jù)增長(zhǎng)量大的特征。根據(jù)國(guó)際數(shù)據(jù)公司IDC監(jiān)測(cè),僅在2010年,人類生產(chǎn)的數(shù)據(jù)量是1.4ZB(引注:1ZB=1024PB),2011年增長(zhǎng)到1.8ZB, 到2012年達(dá)到2.9ZB[4]。如果數(shù)據(jù)按照目前的60%速度增長(zhǎng),這就意味著全球數(shù)據(jù)量大約每?jī)赡攴环?;預(yù)計(jì)到2020年,全球?qū)碛?5 ZB的數(shù)據(jù),數(shù)據(jù)增長(zhǎng)近30倍。數(shù)據(jù)呈幾何級(jí)數(shù)增長(zhǎng),完全超出人類世界目前的IT架構(gòu)和存儲(chǔ)能力所能承載的范圍。為此,全球權(quán)威的IT 研究與顧問咨詢公司 Gartner就將大數(shù)據(jù)定義為“在一個(gè)或多個(gè)維度上超出傳統(tǒng)信息技術(shù)的處理能力的極端信息管理和處理問題”[5];維基百科也強(qiáng)調(diào)大數(shù)據(jù)是“無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合”[6]。不言而喻,數(shù)據(jù)的不斷涌現(xiàn)與人類掌控?cái)?shù)據(jù)能力有限性之間的矛盾關(guān)系始終是大數(shù)據(jù)時(shí)代的基本矛盾關(guān)系。因此,圖書館館際之間的競(jìng)爭(zhēng)是館藏資源和空間建筑方面競(jìng)爭(zhēng)的傳統(tǒng)觀念已經(jīng)不適應(yīng)大數(shù)據(jù)時(shí)代發(fā)展的需求了。

1.2 圖書館存儲(chǔ)能力面臨的挑戰(zhàn)

(1)圖書館不可能存儲(chǔ)所有數(shù)據(jù)

大數(shù)據(jù)時(shí)代,基本矛盾關(guān)系決定了圖書館不可能存儲(chǔ)所有數(shù)據(jù)。該結(jié)論不僅對(duì)單個(gè)圖書館存儲(chǔ)容量適用,而且對(duì)整個(gè)圖書館事業(yè)的存儲(chǔ)能力也適用。在這種境況下,要求任一圖書館只能根據(jù)自己的讀者需求、辦館特點(diǎn)和發(fā)展定位,有選擇性地存儲(chǔ)“有意義”的數(shù)據(jù)。但這也并非意味著對(duì)其他數(shù)據(jù)可以置之不理,因?yàn)槿魏螖?shù)據(jù)都是有潛在價(jià)值的,只是針對(duì)不同對(duì)象而言。

(2)圖書館不易存儲(chǔ)非結(jié)構(gòu)數(shù)據(jù)

大數(shù)據(jù)之所以“大”關(guān)鍵在于半結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)(以下統(tǒng)稱為“非結(jié)構(gòu)數(shù)據(jù)”)飛速增長(zhǎng)。

第一,非結(jié)構(gòu)數(shù)據(jù)增長(zhǎng)量大。按照大數(shù)據(jù)發(fā)生學(xué)的解釋,信息技術(shù)開發(fā)與應(yīng)用的高度融合直接催生出云計(jì)算、移動(dòng)網(wǎng)絡(luò)和社交平臺(tái),而它們的出現(xiàn)又為人們能夠隨時(shí)隨地地利用智能手機(jī)、平板電腦或?qū)Ш较到y(tǒng)等現(xiàn)代通信工具去生成、發(fā)送和獲取數(shù)據(jù)提供了便利和平臺(tái),于是就形成了大數(shù)據(jù)賴以存在的生態(tài)環(huán)境[7]。據(jù)IDC 2012年《數(shù)據(jù)世界》報(bào)告顯示,全球結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率為32%,非結(jié)構(gòu)數(shù)據(jù)增長(zhǎng)率是65%,至2012年,結(jié)構(gòu)數(shù)據(jù)的數(shù)量略高于互聯(lián)網(wǎng)數(shù)據(jù)總量的10%[8]。

第二,非結(jié)構(gòu)數(shù)據(jù)沒有相應(yīng)的數(shù)據(jù)庫可供存儲(chǔ)?!胺墙Y(jié)構(gòu)數(shù)據(jù)”特指那種非線性的數(shù)據(jù)類型,它主要相對(duì)于以“事務(wù)”為中心而建構(gòu)起來的關(guān)系數(shù)據(jù),亦即“結(jié)構(gòu)數(shù)據(jù)”而言的。在“小數(shù)據(jù)”時(shí)代,結(jié)構(gòu)數(shù)據(jù)占統(tǒng)治地位,對(duì)應(yīng)的IT架構(gòu)是“關(guān)系型數(shù)據(jù)庫”;在大數(shù)據(jù)時(shí)代,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已經(jīng)無法直接存儲(chǔ)這些帶有異質(zhì)構(gòu)造性質(zhì)的“非結(jié)構(gòu)數(shù)據(jù)”。

第三,非結(jié)構(gòu)數(shù)據(jù)占用的存儲(chǔ)空間較大。非結(jié)構(gòu)數(shù)據(jù)主要是與傳感器、圖像、視頻、音頻、微博、微信、帖子、點(diǎn)擊等數(shù)據(jù)緊密聯(lián)系在一起的,完全以“碎片”的形式存在于物理空間。在一般情況下,它們占用的物理空間都非常大且不易整理。

(3)圖書館不得不存儲(chǔ)非結(jié)構(gòu)數(shù)據(jù)

目前,圖書館還習(xí)慣于存儲(chǔ)結(jié)構(gòu)數(shù)據(jù),但非結(jié)構(gòu)數(shù)據(jù)的所占有比例遠(yuǎn)遠(yuǎn)高于結(jié)構(gòu)數(shù)據(jù)的比例。而這些來自人類日常生活世界且占主要份額的非結(jié)構(gòu)數(shù)據(jù)同樣是人類生存體驗(yàn)、社交對(duì)話和情感互動(dòng)的縮影,同樣是人類智慧的“呈現(xiàn)者”,因而在很大程度上更富有“隱性知識(shí)”的價(jià)值和意義。從人類生存論上看,大數(shù)據(jù)時(shí)代已經(jīng)悄然來臨,不管你是否意識(shí)到都已經(jīng)身臨之中,都必須借助數(shù)據(jù)與世界“打交道”。可見,非結(jié)構(gòu)數(shù)據(jù)具有不可或缺和不可忽視的價(jià)值,所以大數(shù)據(jù)背景下的圖書館不僅要關(guān)注結(jié)構(gòu)數(shù)據(jù),而且更應(yīng)該重視非結(jié)構(gòu)數(shù)據(jù)。

當(dāng)前,圖書館要與時(shí)俱進(jìn)地進(jìn)入大數(shù)據(jù)視域,就會(huì)感受到大數(shù)據(jù)對(duì)圖書館存儲(chǔ)容量的壓力。以大數(shù)據(jù)視野審視圖書館的建設(shè),就會(huì)發(fā)現(xiàn)當(dāng)今圖書館數(shù)據(jù)存儲(chǔ)的難題:一方面是不能完全把控大數(shù)據(jù)但又不得不試著去存儲(chǔ)它;另一方面是如果要存儲(chǔ)它,又不得不面臨半結(jié)構(gòu)數(shù)據(jù)不易存儲(chǔ)的問題。

2 圖書館大數(shù)據(jù)存儲(chǔ)的可能性路徑

在大數(shù)據(jù)時(shí)代,圖書館的數(shù)據(jù)存儲(chǔ)問題主要是“怎樣對(duì)非結(jié)構(gòu)數(shù)據(jù)進(jìn)行存儲(chǔ)”。解決該問題,學(xué)理上有兩種可能路徑:一是寄托信息工程技術(shù)領(lǐng)域的突破,能夠構(gòu)建出與非結(jié)構(gòu)數(shù)據(jù)性質(zhì)相適應(yīng)或相兼容的數(shù)據(jù)庫,亦即IT界所說的“非關(guān)系型數(shù)據(jù)庫”;二是借用可資利用的“大數(shù)據(jù)技術(shù)”,通過專業(yè)化的數(shù)據(jù)處理,把半結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)勾連、轉(zhuǎn)換或改造為結(jié)構(gòu)型數(shù)據(jù),使之與現(xiàn)存的關(guān)系型數(shù)據(jù)庫同質(zhì)化。

2.1 坐等數(shù)據(jù)存儲(chǔ)技術(shù)成熟是一項(xiàng)消極被動(dòng)的路徑選擇

圖書館界學(xué)人大多主張走第一條路徑,但他們卻又無時(shí)無刻不在感嘆圖書館的基礎(chǔ)設(shè)施建設(shè)的滯后。按照這樣的思維邏輯推演可以預(yù)見,在大數(shù)據(jù)帶來的巨大契機(jī)面前必將碌碌無為。原因有3點(diǎn):一是非關(guān)系型數(shù)據(jù)庫建構(gòu)觀念能否轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)還是一個(gè)未知數(shù)。很多IT界權(quán)威機(jī)構(gòu)以及資深人士預(yù)計(jì),還需要再經(jīng)歷10年以上時(shí)間,大數(shù)據(jù)存儲(chǔ)技術(shù)的應(yīng)用前景才能基本清晰[9]。如果把解決問題的方案寄托于一個(gè)似是而非的設(shè)想,那是非常不可取的。二是建構(gòu)出的非關(guān)系型數(shù)據(jù)庫也不一定能解決所有數(shù)據(jù)存儲(chǔ)問題。如前所述,大數(shù)據(jù)之“大”是因?yàn)閿?shù)據(jù)總量超出人類存儲(chǔ)、管理和處理能力。該矛盾關(guān)系始終構(gòu)成大數(shù)據(jù)時(shí)代存在的現(xiàn)實(shí)基礎(chǔ),因?yàn)榧偃绠?dāng)人類有能力把控所有數(shù)據(jù)之時(shí),數(shù)據(jù)也就無所謂“大”了。三是非結(jié)構(gòu)數(shù)據(jù)還不是完全意義上的知識(shí),不能直接運(yùn)用。即使人類擁有了非關(guān)系型數(shù)據(jù)庫,如果不加整理地把全部非結(jié)構(gòu)數(shù)據(jù)都裝了進(jìn)去,仍然不是知識(shí)形態(tài)的數(shù)據(jù)。圖書館的基本職責(zé)不僅要存儲(chǔ)知識(shí),而且還要提供知識(shí)服務(wù)?!皞鹘y(tǒng)意義上的數(shù)據(jù)、信息和知識(shí)具有完全不同的概念。數(shù)據(jù)是信息的載體、信息是有背景的數(shù)據(jù),而知識(shí)是經(jīng)過人類的歸納和整理,呈現(xiàn)規(guī)律的信息。[10]”這也就是說,數(shù)據(jù)要成為知識(shí)還需要一個(gè)復(fù)雜的轉(zhuǎn)換過程。按照當(dāng)代圖書情報(bào)學(xué)的觀念來講,圖書館存儲(chǔ)的文獻(xiàn)資源如果是零利用率則屬于資源的浪費(fèi)[11]。這不僅對(duì)紙質(zhì)書籍適用,而且對(duì)數(shù)據(jù)也同樣適用。這即是說,大數(shù)據(jù)給圖書館的數(shù)據(jù)存儲(chǔ)管理提出了更高的要求。首先,要有針對(duì)性地采擷、提取、挖掘能夠滿足讀者需求的數(shù)據(jù)。這與大數(shù)據(jù)本質(zhì)完全契合,即我們不可能存儲(chǔ)全部數(shù)據(jù),但可以有選擇地存儲(chǔ)有用數(shù)據(jù)。其次,要把特定的非結(jié)構(gòu)數(shù)據(jù)“知識(shí)形態(tài)化”。最后,要把知識(shí)形態(tài)化了的數(shù)據(jù)方便快捷地推送給讀者利用。

2.2 利用現(xiàn)有技術(shù)推進(jìn)數(shù)據(jù)知識(shí)形態(tài)化是一項(xiàng)積極主動(dòng)的路徑選擇

數(shù)據(jù)知識(shí)形態(tài)化就是要把非結(jié)構(gòu)數(shù)據(jù)勾連、轉(zhuǎn)換或改造為結(jié)構(gòu)型數(shù)據(jù)。這就進(jìn)入到第二條路徑的語境,也是一條非常符合圖書館實(shí)際情況的大數(shù)據(jù)存儲(chǔ)的路徑選擇。同時(shí),圖書館經(jīng)過多年的信息化和智能化建設(shè),已經(jīng)具有了一定的大數(shù)據(jù)存儲(chǔ)管理的特征[12]。這主要表現(xiàn)在以下4個(gè)方面:一是圖書館館藏文獻(xiàn)資源種類繁多,不僅有紙質(zhì)印刷品資源、數(shù)據(jù)庫資源、光盤資源等結(jié)構(gòu)化數(shù)據(jù),也有大量的讀者信息、服務(wù)日志等大量的非結(jié)構(gòu)數(shù)據(jù);二是圖書館存儲(chǔ)信息資源的容量也在迅速增長(zhǎng)。單個(gè)圖書館的資源總量也許不能達(dá)到PB量級(jí),但全國(guó)所有圖書館的資源加起來卻是ZB量級(jí)的,如全國(guó)文化共享工程的資源總量就達(dá)到108TB。由此可以看到:我們完全可以統(tǒng)籌安排整個(gè)圖書館行業(yè)的存儲(chǔ)空間,再通過分布式共享,消除在數(shù)據(jù)存儲(chǔ)過程中產(chǎn)生的重復(fù)數(shù)據(jù),從而最大限度地?cái)U(kuò)展存儲(chǔ)空間。三是根據(jù)讀者需求,圖書館的采訪、編輯工作也出現(xiàn)個(gè)性化、學(xué)科化和團(tuán)隊(duì)化的趨勢(shì)。四是圖書館自動(dòng)化水平進(jìn)入一個(gè)新的水平,不僅大量讀者行為信息被記載和統(tǒng)計(jì),而且還能實(shí)現(xiàn)讀者服務(wù)信息被即時(shí)傳送??傊?jīng)過多年實(shí)踐積累,圖書館已經(jīng)具備大數(shù)據(jù)存儲(chǔ)管理的一些經(jīng)驗(yàn)和優(yōu)勢(shì),我們?cè)诖髷?shù)據(jù)面前并非束手無策。另外,信息技術(shù)發(fā)展已經(jīng)為大數(shù)據(jù)存儲(chǔ)提供了一系列相對(duì)實(shí)用的工具系統(tǒng)。在數(shù)據(jù)存儲(chǔ)方式方面,已為廣大圖書情報(bào)學(xué)研究者熟知的有:網(wǎng)絡(luò)附加存儲(chǔ)(Network Attached Storage,簡(jiǎn)稱NAS)、存儲(chǔ)域網(wǎng)絡(luò)存儲(chǔ)(Storage Area Network,簡(jiǎn)稱SAN)、直接外掛存儲(chǔ)(Direct Attached Storage,簡(jiǎn)稱DAS)。在非結(jié)構(gòu)數(shù)據(jù)處理軟件方面,主要有EMC、Hadoop和Datameer。數(shù)據(jù)轉(zhuǎn)換工具主要有語義關(guān)聯(lián)分析、網(wǎng)絡(luò)分析、聚類分析、可視化分析、數(shù)據(jù)融合和數(shù)據(jù)集成等。充分利用這些現(xiàn)有的大數(shù)據(jù)技術(shù),再結(jié)合已經(jīng)積累的大數(shù)據(jù)存儲(chǔ)經(jīng)驗(yàn),我們完全可以在大數(shù)據(jù)存儲(chǔ)方面大展身手。

3 圖書館大數(shù)據(jù)存儲(chǔ)方案

3.1 利用云系統(tǒng)存儲(chǔ)非重要數(shù)據(jù)

大數(shù)據(jù)首先是對(duì)圖書館存儲(chǔ)的硬件設(shè)施,尤其數(shù)據(jù)存儲(chǔ)容量提出了嚴(yán)峻的挑戰(zhàn)。為應(yīng)對(duì)這一難題,有些圖書館學(xué)情報(bào)學(xué)研究者把希望全部寄托于“云系統(tǒng)”技術(shù)的推廣應(yīng)用。云系統(tǒng)(Cloud Computing)的核心思想是“分布式共享”,具有動(dòng)態(tài)性、開放性、自治性、可靠性、可用性等特征[13]。在具體操作上,圖書館員們只需將相關(guān)數(shù)據(jù)輸入到“云端”,就可以自由地在上面進(jìn)行存儲(chǔ)、訪問、修改、反饋或提取。云系統(tǒng)無限地?cái)U(kuò)展了圖書館的存儲(chǔ)容量,而且館員還無須為技術(shù)問題而煩惱(一切技術(shù)操作都有云服務(wù)商來解決)。但是,云系統(tǒng)在給予我們便利的同時(shí)也帶來高技術(shù)轉(zhuǎn)讓費(fèi)以及知識(shí)產(chǎn)權(quán)、技術(shù)標(biāo)準(zhǔn)、信息安全、管理體制等方面的難題[14],所以,我們?cè)谑褂脮r(shí)應(yīng)該謹(jǐn)慎待之。目前,最穩(wěn)妥的辦法就是把圖書館的數(shù)據(jù)、信息、知識(shí)資源進(jìn)行分門別類處理。可以根據(jù)知識(shí)產(chǎn)權(quán)、技術(shù)標(biāo)準(zhǔn)和信息安全的不同程度把所有數(shù)據(jù)細(xì)分成不同的、特點(diǎn)明確的類型,然后按照其類型采取相應(yīng)的存儲(chǔ)方式。具體說來,可以把重要數(shù)據(jù)如特色數(shù)據(jù)、有知識(shí)產(chǎn)權(quán)要求的數(shù)據(jù)和保密程度高的數(shù)據(jù)進(jìn)行館內(nèi)存儲(chǔ),把“非重要數(shù)據(jù)”進(jìn)行外掛存儲(chǔ)。這樣,既能夠在一定程度上規(guī)避可能的風(fēng)險(xiǎn),又能夠最大限度地提升圖書館自身的存儲(chǔ)容量。

3.2 通過館際聯(lián)盟存儲(chǔ)次重要數(shù)據(jù)

由于單個(gè)圖書館存儲(chǔ)設(shè)備容量始終是有限的,而讀者需求數(shù)據(jù)又呈幾何級(jí)數(shù)增長(zhǎng),即使僅存儲(chǔ)核心數(shù)據(jù)也會(huì)很快“爆棚”。比如當(dāng)前,綜合圖書館每年必需數(shù)據(jù)增量大約為20TB,如此浩瀚的數(shù)據(jù)量,對(duì)于一座擁有100 TB存儲(chǔ)容量的大型圖書館也僅能滿足5年左右的存儲(chǔ)需要。因此,圖書館之間尋求合建數(shù)據(jù)存儲(chǔ)庫來實(shí)現(xiàn)科學(xué)數(shù)據(jù)的收集、共享和服務(wù)也成為必然選擇。近10年,圖書館為解決文獻(xiàn)資源不全而構(gòu)建的“館際互借系統(tǒng)”和為形成文獻(xiàn)資源互補(bǔ)優(yōu)勢(shì)而建立的圖書館聯(lián)盟都為這種分布式共享奠定了物質(zhì)基礎(chǔ),提供了技術(shù)支撐,比如北京地區(qū)高等教育文獻(xiàn)保障系統(tǒng)(BALIS)就是在北京地區(qū)高校圖工委的統(tǒng)一領(lǐng)導(dǎo)下建構(gòu)的。它采用集中式門戶平臺(tái)建設(shè)和分布式存儲(chǔ)相結(jié)合的方式,不僅提高了文獻(xiàn)資源的利用率,而且減少了單個(gè)高校圖書館的存儲(chǔ)容積。這種模式完全可以借鑒到大數(shù)據(jù)圖書館聯(lián)盟建設(shè)上。對(duì)圖書館來說,如果要想提高數(shù)據(jù)存儲(chǔ)容量而又能規(guī)避云系統(tǒng)帶來的安全威脅,組建或加入圖書館聯(lián)盟是可行的策略之一。 這是因?yàn)閳D書館之間具有很多天然的同一性,圖書館在應(yīng)對(duì)潛在風(fēng)險(xiǎn)方面的立場(chǎng)基本一致。圖書館館際之間合作的深化還有利于克服重復(fù)建設(shè)以及資源浪費(fèi)方面的弊端。這一解決措施反映在圖書館的軟硬件建設(shè)上,就必須由過去追求高端服務(wù)設(shè)施向中低端軟硬件基礎(chǔ)設(shè)施構(gòu)建的大規(guī)模分布式計(jì)算機(jī)群集轉(zhuǎn)變,將分塊、分類的大數(shù)據(jù)復(fù)制到集群服務(wù)器節(jié)點(diǎn)上進(jìn)行處理[15]。

3.3 利用館內(nèi)存儲(chǔ)來建設(shè)自己的特色數(shù)據(jù)庫

圖書館行業(yè)的內(nèi)部競(jìng)爭(zhēng)決定了任何一個(gè)圖書館都不愿意把自己具有核心競(jìng)爭(zhēng)力的特色數(shù)據(jù)通過鏈接方式予以共享。與之相反,各圖書館都在競(jìng)相自建獨(dú)具特色的數(shù)據(jù)庫。而特色數(shù)據(jù)庫具有高度的可靠性和安全性要求,但存儲(chǔ)周期長(zhǎng)、數(shù)據(jù)類型多、數(shù)據(jù)量大,這同樣會(huì)對(duì)內(nèi)部存儲(chǔ)容量構(gòu)成巨大的挑戰(zhàn)。在圖書館的實(shí)際管理經(jīng)驗(yàn)中,經(jīng)常是采用整理碎片的技術(shù)來提高存儲(chǔ)空間利用率和數(shù)據(jù)查詢效率,這對(duì)小容量操作切實(shí)可行,但對(duì)于大型數(shù)據(jù)系統(tǒng)卻是遠(yuǎn)遠(yuǎn)不夠的。鑒于目前圖書館存儲(chǔ)設(shè)備容量利用率不到50%的現(xiàn)實(shí)情況[16],提高數(shù)據(jù)庫存儲(chǔ)最有效的辦法是運(yùn)用大數(shù)據(jù)壓縮技術(shù)[17]。相比較于自動(dòng)精簡(jiǎn)配置技術(shù)和重復(fù)數(shù)據(jù)刪除兩項(xiàng)傳統(tǒng)壓縮技術(shù),大數(shù)據(jù)壓縮技術(shù)不僅兼顧了它們兩者功能,而且功效更強(qiáng)大,它可以針對(duì)整個(gè)圖書館系統(tǒng)內(nèi)兩個(gè)或多個(gè)文件之間數(shù)據(jù)的相同性和相似性,通過分析比較,刪除多余數(shù)據(jù),達(dá)到數(shù)據(jù)壓縮的目的。圖書館在自建特色數(shù)據(jù)庫時(shí),總會(huì)遇到大量的非結(jié)構(gòu)數(shù)據(jù)。在進(jìn)行“數(shù)據(jù)知識(shí)形態(tài)化”過程中,針對(duì)復(fù)雜、多樣的非結(jié)構(gòu)數(shù)據(jù)管理需求,可以結(jié)合OLTP、Datameer和Hadoop等IT技術(shù)給予解決。具體操作程序是:首先利用Datameer提供采集和讀取不同類型數(shù)據(jù)庫的平臺(tái),然后將“二次生成數(shù)據(jù)”植入Hadoop開源框架之中,憑借其提供的分析工具對(duì)數(shù)據(jù)進(jìn)行可視化分析、預(yù)測(cè)性分析、智能語義分析,從而建立“名副其實(shí)”的語義引擎,最后把“三次生成數(shù)據(jù)”進(jìn)行OLTP技術(shù)處理。這樣,原初的非結(jié)構(gòu)數(shù)據(jù)經(jīng)過一套蘊(yùn)含多重深度分析工具程序的改造之后,就能直接存儲(chǔ)到關(guān)系數(shù)據(jù)庫之中。當(dāng)然,由于“數(shù)據(jù)知識(shí)形態(tài)化”程序的技術(shù)含量高,這必然給圖書館員提出了更高層次的業(yè)務(wù)能力要求。

4 結(jié)語

在大數(shù)據(jù)存儲(chǔ)技術(shù)并不成熟的情況下,圖書館員們已經(jīng)在具體的實(shí)踐活動(dòng)中摸索出一些大數(shù)據(jù)存儲(chǔ)經(jīng)驗(yàn)。作為這種感性經(jīng)驗(yàn)的理論總結(jié),本文力圖指出,圖書館并非在海量數(shù)據(jù)面前無所作為;在現(xiàn)階段,最切實(shí)可行的數(shù)據(jù)存儲(chǔ)路徑是利用現(xiàn)有的一些數(shù)據(jù)處理工具進(jìn)行“數(shù)據(jù)知識(shí)化”處理工作;經(jīng)濟(jì)適用的數(shù)據(jù)存儲(chǔ)方案是根據(jù)不同數(shù)據(jù)對(duì)本館館藏的重要程度,選擇、分類并有針對(duì)性地進(jìn)行外掛存儲(chǔ)、館際存儲(chǔ)或館內(nèi)存儲(chǔ)。當(dāng)然,在研討過程中不難發(fā)現(xiàn),圖書館作為政府主導(dǎo)下的公益型事業(yè),圖書館員在對(duì)大數(shù)據(jù)的認(rèn)識(shí)上以及對(duì)大數(shù)據(jù)存儲(chǔ)難題的探索上總面臨內(nèi)驅(qū)力不足的問題。這是圖書館學(xué)情報(bào)學(xué)界亟待解決的另一個(gè)問題。

[1]Terence K. Big data, Big Future[J].Computer in Libraries,2012(6):21-22.

[2]徐子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活[M].桂林:廣西師范大學(xué)出版社,2012:40.

[3]張興旺.圖書館大數(shù)據(jù)體系構(gòu)建的學(xué)術(shù)環(huán)境和戰(zhàn)略思考[J].情報(bào)資料工作,2013(2):13.

[4]IDC. The Digital Universe[EB/OL]. [2015-10-29]. http://www.emc.com/collateral/analyst-reports/idcextracting-value-from-chose-ar.pdf.

[5]Gartner.What Is Big Data? [EB/OL].[2015-12-13]. http://www.gartner.com/it-glossary/big data/.

[6]Wikipedia.Big Data [EB/OL].[2015-12-13].https:// it.wikipedia.org/wiki/Big-data/

[7]金茵,儲(chǔ)娟. 圖書館服務(wù)與發(fā)展[J].當(dāng)代圖書館, 2013 (3):44.

[8]霍娜.非結(jié)構(gòu)數(shù)據(jù)來襲[N].中國(guó)計(jì)算機(jī)報(bào),2013-07-11(A24).

[9]Gartner. Gartner’s 2014 Hype Cycle for Emerging Technologies Identifies“Tip-ping Point” Technologies That Will Unlock Long-awaited- technology Scenarios [EB/OL]. [2015-12-13].http://www.gartner.com/it/ page.jsp.id=2124315.

[10]徐子沛.大數(shù)據(jù)及其成因[J].北京:科學(xué)與社會(huì),2014 (1):14.

[11]彭鳳,黃力軍.高校圖書館文獻(xiàn)資源建設(shè)組織體系構(gòu)建[J].四川圖書館學(xué)報(bào),2014(3):25.

[12]楊海燕.大數(shù)據(jù)時(shí)代的圖書館服務(wù)淺析[J].圖書與情報(bào),2012(4):121-122.

[13]張建勛,古志良,鄭超.云計(jì)算研究進(jìn)展綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,27(2):429-433.

[14]王晴.云計(jì)算大數(shù)據(jù)時(shí)代圖書館的挑戰(zhàn)和機(jī)遇[J].公共圖書館,2013(1):48-49.

[15]郭自寬,張興旺,麥范金.大數(shù)據(jù)生態(tài)系統(tǒng)在圖書館中的應(yīng)用[J].情報(bào)資料工作,2013(2):24.

[16]Peter Spitzforn, Pongracz Sennyey.A Vision for the Future of Academic Library Collections[J]. International Journal of the Book,2007(4):4.

[17]羅彬,陽靜,袁赟.數(shù)字圖書館中大數(shù)據(jù)存儲(chǔ)的應(yīng)用研究[J].科技與企業(yè),2013(18):122.

Research On the Optimization Strategy of Library Storing Data at the Age of Big Data

Liu Yu
(Library , the Sichuan University of Arts and Science, Dazhou 635000)

It is a serious challenge to library’s data storage that data volumes are exploding at the age of Big Data. Based on the actual operation of library’s work, this paper discusses on the possibility paths and the application schemes of the data storage at present. The author thinks that Library has the responsibility to store data as much as possible. In storage mode, these data what is not important can been external stored through the cloud system, these general data can been achieved by inter-library loan services within library consortium, these characteristic data can been stored through Library memory and can been compressed by the Big Data technology, so as to relieve the pressure which Big Data bring to a single library.

big data, library, data storage, unstructured data

G250

A

10.3772/j.issn.1674-1544.2015.06.014

劉瑜(1975—),女,法學(xué)碩士,四川文理學(xué)院圖書館員,研究方向:大數(shù)據(jù)與圖書館轉(zhuǎn)型研究和圖書館大學(xué)生思想政治教育研究。

四川文理學(xué)院高層次人才科研資助項(xiàng)目“大數(shù)據(jù)與圖書館轉(zhuǎn)型研究”(2014XG001)。

2015年3月19日。

猜你喜歡
數(shù)據(jù)庫圖書館結(jié)構(gòu)
《形而上學(xué)》△卷的結(jié)構(gòu)和位置
論結(jié)構(gòu)
圖書館
數(shù)據(jù)庫
論《日出》的結(jié)構(gòu)
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
創(chuàng)新治理結(jié)構(gòu)促進(jìn)中小企業(yè)持續(xù)成長(zhǎng)
去圖書館
郧西县| 金川县| 乐东| 孙吴县| 东光县| 民和| 廉江市| 寻乌县| 南皮县| 桃江县| 潞城市| 桂林市| 浑源县| 永定县| 垫江县| 宁城县| 海阳市| 手机| 奈曼旗| 抚远县| 平度市| 成武县| 巴东县| 德保县| 延长县| 宣汉县| 蕲春县| 大丰市| 麻阳| 嘉鱼县| 菏泽市| 呼和浩特市| 肇东市| 蒙自县| 汪清县| 永仁县| 闸北区| 信阳市| 咸阳市| 平顺县| 泗阳县|