●陳克儉,孫 倩,王 融,季士妍(國(guó)家圖書(shū)館,北京100081)
海量數(shù)據(jù)環(huán)境下數(shù)字圖書(shū)館存儲(chǔ)面臨的挑戰(zhàn)及應(yīng)對(duì)策略
●陳克儉,孫 倩,王 融,季士妍(國(guó)家圖書(shū)館,北京100081)
海量數(shù)據(jù);數(shù)字圖書(shū)館;應(yīng)對(duì)策略
隨著數(shù)字圖書(shū)館的發(fā)展,數(shù)據(jù)量呈幾何式增長(zhǎng),數(shù)字圖書(shū)館的存儲(chǔ)系統(tǒng)正面臨前所未有的挑戰(zhàn),如何在有限條件下最大可能地滿足海量數(shù)據(jù)帶來(lái)的存儲(chǔ)需求,是我們需要解決的問(wèn)題。本文闡明了數(shù)字圖書(shū)館海量數(shù)據(jù)的來(lái)源,分析了數(shù)字圖書(shū)館存儲(chǔ)所面臨的挑戰(zhàn),并從存儲(chǔ)策略、存儲(chǔ)架構(gòu)和存儲(chǔ)技術(shù)等方面對(duì)海量數(shù)據(jù)環(huán)境下數(shù)字圖書(shū)館存儲(chǔ)系統(tǒng)采取的相應(yīng)策略進(jìn)行了探討。
信息技術(shù)與網(wǎng)絡(luò)的快速發(fā)展已推動(dòng)社會(huì)進(jìn)入萬(wàn)物互聯(lián)時(shí)代。在信息爆炸的今天,計(jì)算機(jī)數(shù)據(jù)處理能力的增長(zhǎng)速度遠(yuǎn)比世界經(jīng)濟(jì)的增長(zhǎng)速度快9倍之多。[1]從全球化電子商務(wù)的崛起到大型門(mén)戶網(wǎng)站和無(wú)紙化辦公深入社會(huì)生活,人們獲取信息的方式及手段不斷發(fā)生改變,并帶來(lái)了信息網(wǎng)絡(luò)中數(shù)據(jù)的急劇膨脹。在數(shù)據(jù)庫(kù)向數(shù)據(jù)海轉(zhuǎn)變過(guò)程中,網(wǎng)絡(luò)中存儲(chǔ)的電子資源總量很難衡量,根據(jù)IDC(Internet Data Center)公司的相關(guān)調(diào)查,僅2011年全球的數(shù)據(jù)增長(zhǎng)達(dá)1.8ZB,是2006年的10倍,預(yù)計(jì)2020年全球數(shù)據(jù)量將達(dá)到90ZB,是2011年的50倍。[2]這些數(shù)據(jù)無(wú)時(shí)無(wú)刻不在影響著我們的生活、工作,促使新的技術(shù)手段產(chǎn)生并進(jìn)一步優(yōu)化信息社會(huì)形態(tài)。而海量的數(shù)據(jù)對(duì)存儲(chǔ)系統(tǒng)的容量、性能、可用性等也提出了越來(lái)越高的要求,如何存儲(chǔ)和高效利用這些數(shù)據(jù)是當(dāng)前亟需解決的問(wèn)題。
在社會(huì)信息化建設(shè)過(guò)程中,數(shù)字圖書(shū)館履行著提供信息資源服務(wù)和數(shù)字資源長(zhǎng)期保存的職能。隨著高速網(wǎng)絡(luò)和移動(dòng)圖書(shū)館的普及應(yīng)用,以及RFID(Radio Frequency Identification無(wú)線射頻識(shí)別技術(shù))、跨平臺(tái)搜索等新技術(shù)在數(shù)字圖書(shū)館服務(wù)方面的拓展,數(shù)字圖書(shū)館在獲得更廣泛數(shù)據(jù)來(lái)源的同時(shí),也在迎接著這一波信息爆炸帶來(lái)的挑戰(zhàn)。[3]
1.1 數(shù)字資源類(lèi)型的多樣化
多種多樣的電子文獻(xiàn)資源,是目前數(shù)字圖書(shū)館主要的數(shù)據(jù)來(lái)源。總的來(lái)說(shuō),數(shù)字圖書(shū)館的電子資源大體可以分為四類(lèi):一是原始紙質(zhì)資源的數(shù)字化,很多早年的紙質(zhì)資源并沒(méi)有電子版本,如古籍或民國(guó)時(shí)期的文獻(xiàn)需要進(jìn)行文獻(xiàn)數(shù)字化,是數(shù)字圖書(shū)館重要的原始數(shù)據(jù)積累;二是從其他圖書(shū)館、出版社等文化機(jī)構(gòu)新提交的數(shù)字化文獻(xiàn)資源,除了紙質(zhì)文獻(xiàn)的數(shù)字化資源外還有各種講座、沙龍等音視頻資源;三是來(lái)自國(guó)內(nèi)外定購(gòu)資源庫(kù)的電子資源,包括期刊、報(bào)紙、論文等,隨著數(shù)字圖書(shū)館的壯大發(fā)展,引進(jìn)的國(guó)內(nèi)外資源數(shù)據(jù)庫(kù)也在逐年增多,資源量不斷增大;四是網(wǎng)絡(luò)采集的信息資源,從目前來(lái)說(shuō)這部分資源占有量還較為有限,但隨著時(shí)間推移和采集范圍的擴(kuò)大,這部分的數(shù)據(jù)擁有量也是非常壯觀的。
1.2 移動(dòng)圖書(shū)館的發(fā)展應(yīng)用
伴隨著無(wú)線網(wǎng)絡(luò)的發(fā)展以及智能手機(jī)等移動(dòng)終端的普及應(yīng)用,移動(dòng)圖書(shū)館也逐步成為數(shù)字圖書(shū)館的關(guān)鍵性服務(wù)內(nèi)容。例如國(guó)家圖書(shū)館的“掌上國(guó)圖”,作為圖書(shū)館移動(dòng)服務(wù)的重要形式之一,目前主要包括讀者服務(wù)、在線服務(wù)、讀者指南、文津圖書(shū)獎(jiǎng)、資源檢索等欄目,為讀者提供8000余種電子期刊的在線閱讀。隨著數(shù)字圖書(shū)館建設(shè)的不斷推進(jìn),移動(dòng)圖書(shū)館服務(wù)內(nèi)容的擴(kuò)展和完善勢(shì)必成為數(shù)字圖書(shū)館服務(wù)的重要發(fā)展方向。在未來(lái)三年內(nèi),移動(dòng)圖書(shū)館的數(shù)據(jù)量將呈現(xiàn)翻倍的趨勢(shì)。
1.3 數(shù)字圖書(shū)館新型技術(shù)的拓展
RFID技術(shù)和跨平臺(tái)搜索技術(shù)是當(dāng)前比較顯著的數(shù)字圖書(shū)館新技術(shù)應(yīng)用。基于RFID技術(shù)和設(shè)備的圖書(shū)管理系統(tǒng)可以實(shí)現(xiàn)圖書(shū)借還、順架、查找及館藏盤(pán)點(diǎn)等功能,使圖書(shū)管理工作智能化、規(guī)范化、系統(tǒng)化和程序化,避免圖書(shū)管理的隨意性,提高信息處理的速度和準(zhǔn)確性,從而提高工作效率??缙脚_(tái)數(shù)字資源的檢索也初現(xiàn)端倪,如國(guó)家圖書(shū)館的“文津搜索”系統(tǒng),有效整合了國(guó)家圖書(shū)館自建數(shù)據(jù)和部分外購(gòu)數(shù)據(jù)庫(kù)的各類(lèi)數(shù)字資源,實(shí)現(xiàn)了資源的“一站式”發(fā)現(xiàn)與獲取,使圖書(shū)館內(nèi)的封閉資源能夠?qū)W(wǎng)絡(luò)用戶開(kāi)放。除此以外,社交網(wǎng)絡(luò)、云計(jì)算等技術(shù)手段,也正在成為數(shù)字圖書(shū)館建設(shè)者重視的新型服務(wù)應(yīng)用技術(shù)手段。這些新技術(shù)的拓展,都為數(shù)字圖書(shū)館提供了大量的數(shù)據(jù)來(lái)源。
數(shù)字圖書(shū)館數(shù)據(jù)量的快速增長(zhǎng),勢(shì)必對(duì)數(shù)字圖書(shū)館的存儲(chǔ)帶來(lái)非常大的困難,就是“空間不足,性能不夠”。
(1)存儲(chǔ)空間不足。以國(guó)家圖書(shū)館為例,2006年一套空間為30TB的盤(pán)陣設(shè)備已經(jīng)能夠基本滿足所有存儲(chǔ)的需求。然而,截至2014年,國(guó)家圖書(shū)館僅在線存儲(chǔ)的總?cè)萘恳呀?jīng)擴(kuò)展到了930TB,連接存儲(chǔ)的應(yīng)用系統(tǒng)也從原來(lái)的四五個(gè)達(dá)到了目前的50多個(gè)。即便如此,這個(gè)容量也僅僅是滿足近兩年的需求。隨著數(shù)字圖書(shū)館服務(wù)項(xiàng)目的增多,數(shù)據(jù)量的增大,存儲(chǔ)空間不足的問(wèn)題尤為突出。
(2)存儲(chǔ)性能較差。存儲(chǔ)系統(tǒng)的數(shù)據(jù)量大小總是與操作性能成反比。[4]如果存儲(chǔ)性能跟不上,將會(huì)成為制約數(shù)字圖書(shū)館整體服務(wù)的瓶頸。業(yè)務(wù)的數(shù)據(jù)量增加,會(huì)造成業(yè)務(wù)數(shù)據(jù)的增刪改等正常操作的速度和處理性能不斷下降,甚至?xí)霈F(xiàn)數(shù)據(jù)丟失的現(xiàn)象。隨著數(shù)字圖書(shū)館各項(xiàng)業(yè)務(wù)量的增大,如果只是單純進(jìn)行容量的堆積而不改善存儲(chǔ)系統(tǒng)的整體性能,也是遠(yuǎn)遠(yuǎn)不能滿足未來(lái)數(shù)字圖書(shū)館存儲(chǔ)需求的。存儲(chǔ)性能受多重因素影響,包括存儲(chǔ)的架構(gòu)、帶寬、存儲(chǔ)設(shè)備的性能和所匹配的存儲(chǔ)介質(zhì)的性能等多個(gè)方面,都會(huì)制約整套存儲(chǔ)系統(tǒng)的性能。
一套高性能高容量的存儲(chǔ)系統(tǒng)往往意味著高額的投入,而且后期的運(yùn)維投入也非常高。而公共圖書(shū)館作為一個(gè)公共文化體系下的公益性機(jī)構(gòu),在資金方面通常無(wú)法負(fù)擔(dān)高額的存儲(chǔ)系統(tǒng)帶來(lái)的投入成本。因此,如何在有限條件下盡最大可能地滿足海量數(shù)據(jù)帶來(lái)的存儲(chǔ)需求,是數(shù)字圖書(shū)館建設(shè)者需要探討和解決的重要問(wèn)題。
2.1 完善的存儲(chǔ)布局:統(tǒng)籌規(guī)劃,清晰分配
按照在線、近線、離線三個(gè)層面來(lái)區(qū)分對(duì)待資源,劃分不同的存儲(chǔ)介質(zhì),在有限的資金規(guī)劃下提高存儲(chǔ)的整體性能。對(duì)于數(shù)字資源發(fā)布與服務(wù)過(guò)程中需要使用的數(shù)據(jù)、實(shí)時(shí)產(chǎn)生的書(shū)目記錄、用戶信息等數(shù)字圖書(shū)館核心在線系統(tǒng)所使用或者產(chǎn)生的數(shù)據(jù)采用在線保存方式;對(duì)于利用率低的在線數(shù)字資源、永久保存的高質(zhì)量的數(shù)字化文件數(shù)據(jù)、數(shù)字資源加工后的數(shù)據(jù)、國(guó)內(nèi)資源供應(yīng)商保存的數(shù)據(jù)、互聯(lián)網(wǎng)采集到的資源、文化信息共享的資源、購(gòu)買(mǎi)的資源等數(shù)據(jù)采用近線/離線保存方式;對(duì)于沒(méi)有利用率的數(shù)字資源、進(jìn)入永久保藏的數(shù)字資源、備份的近線/離線資源的數(shù)據(jù),采用離線的保存方式。[5]其中,可采用高轉(zhuǎn)速性能高的硬盤(pán)(SAS、FC硬盤(pán))或者固態(tài)硬盤(pán)保存在線數(shù)據(jù),采用性價(jià)比高的低轉(zhuǎn)速硬盤(pán)(SATA硬盤(pán))保存近線數(shù)據(jù),采用磁帶或者光盤(pán)等離線存儲(chǔ)介質(zhì)來(lái)保存離線數(shù)據(jù),達(dá)到資源的合理分配。
2.2 合理的存儲(chǔ)架構(gòu):以SAN為主,NAS為輔
高性能的SAN(StorageAreaNetworkandSANProtocols,存儲(chǔ)區(qū)域網(wǎng)絡(luò)及其協(xié)議)系統(tǒng)與性價(jià)比高的NAS(Network Attached Storage,網(wǎng)絡(luò)儲(chǔ)存設(shè)備)系統(tǒng)相結(jié)合是數(shù)字圖書(shū)館理想的存儲(chǔ)架構(gòu)方式。SAN是一種高速網(wǎng)絡(luò)或子網(wǎng)絡(luò)(可以是基于光纖鏈路的FC SAN,也可以是基于以太網(wǎng)的IP SAN),提供在計(jì)算機(jī)與存儲(chǔ)系統(tǒng)之間的數(shù)據(jù)傳輸,連接到服務(wù)器的存儲(chǔ)設(shè)備,將被操作系統(tǒng)視為直接連接的存儲(chǔ)設(shè)備。與SAN相比較,NAS使用的是基于文件的通信協(xié)議,例如NFS或SMB/CIFS通信協(xié)議就被明確定義為遠(yuǎn)程存儲(chǔ)設(shè)備,計(jì)算機(jī)請(qǐng)求訪問(wèn)的是抽象文件的一段內(nèi)容,而非對(duì)磁盤(pán)進(jìn)行的塊設(shè)備操作。雖然SAN擁有NAS無(wú)法比擬的優(yōu)勢(shì),性能高、不占用帶寬等優(yōu)勢(shì),但是NAS依然有著獨(dú)特的地方:首先是NAS具備架構(gòu)簡(jiǎn)單、造價(jià)相對(duì)便宜、易于部署、高效的文件共享等特點(diǎn);第二,NAS能夠?qū)崿F(xiàn)更高的空間利用率,SAN是以塊狀的數(shù)據(jù)存儲(chǔ)而NAS是文件級(jí)的存儲(chǔ)方式,由于塊狀的數(shù)據(jù)存儲(chǔ)對(duì)于應(yīng)用系統(tǒng)的空間需求是“要多少給多少”的方式,往往會(huì)給應(yīng)用系統(tǒng)分到根據(jù)一兩年的增量進(jìn)行申請(qǐng)的空間,進(jìn)而造成空間或多或少的浪費(fèi),而NAS是基于文件級(jí)的存儲(chǔ)方式,能夠?qū)崿F(xiàn)“用多少給多少”的方式,避免了這種浪費(fèi)。數(shù)字圖書(shū)館的數(shù)字資源,其中有大量的臨時(shí)數(shù)據(jù),如格式轉(zhuǎn)換的中間數(shù)據(jù)、長(zhǎng)期保存的中間數(shù)據(jù),對(duì)于性能要求并不高,采用NAS的方式更加合適。因此,建立合理的存儲(chǔ)架構(gòu),以SAN為主,必要時(shí)結(jié)合NAS為輔的方式,是十分必要的。
2.3 有效解決重復(fù)數(shù)據(jù),提升數(shù)據(jù)存儲(chǔ)空間
解決重復(fù)數(shù)據(jù)的問(wèn)題需要從兩方面入手:一是采用消重技術(shù)提高空間利用率,通過(guò)刪除運(yùn)算、消除冗余文件、數(shù)據(jù)塊或字節(jié),實(shí)現(xiàn)只有單一的數(shù)據(jù)存儲(chǔ)在系統(tǒng)中,從而減少存儲(chǔ)系統(tǒng)中的數(shù)據(jù)占有量,增大可用存儲(chǔ)空間;二是從源頭抓起,降低文獻(xiàn)數(shù)字化或者資源采集過(guò)程中的資源重復(fù),如果文獻(xiàn)數(shù)字化過(guò)程中對(duì)同一本書(shū)進(jìn)行了兩次數(shù)字化,其帶來(lái)的資源浪費(fèi)不僅是文獻(xiàn)數(shù)字化的存儲(chǔ)資源浪費(fèi),還會(huì)造成中期資源組織的存儲(chǔ)資源浪費(fèi)、后期對(duì)外發(fā)布的存儲(chǔ)資源浪費(fèi)以及最終的長(zhǎng)期保存的存儲(chǔ)資源浪費(fèi),這種資源的浪費(fèi)往往還附加著更大的人力、物力和財(cái)力的重復(fù)浪費(fèi)。
2.4 重視存儲(chǔ)虛擬化,提高數(shù)據(jù)存儲(chǔ)利用率
數(shù)字圖書(shū)館數(shù)據(jù)存儲(chǔ)可考慮采用存儲(chǔ)虛擬化技術(shù)來(lái)提高存儲(chǔ)的整體利用率。隨著一套存儲(chǔ)系統(tǒng)年限的增長(zhǎng),往往其性能和空間無(wú)法滿足現(xiàn)有的需求,新存儲(chǔ)設(shè)備的采用往往會(huì)造成舊存儲(chǔ)設(shè)備的境地尷尬,“食之無(wú)味棄之可惜”。采用存儲(chǔ)虛擬化的方法,可以把不同廠家、不同型號(hào)、不同類(lèi)型、不同通信技術(shù)的存儲(chǔ)設(shè)備互聯(lián)起來(lái),統(tǒng)一提供有用的全面功能性服務(wù),使得許多零散的存儲(chǔ)資源整合起來(lái),不但能夠充分利用舊存儲(chǔ)資源,提高存儲(chǔ)的整體利用率,而且也能降低系統(tǒng)管理成本。
2.5 緊密追蹤存儲(chǔ)新技術(shù)尋求存儲(chǔ)介質(zhì)的突破
近年來(lái),隨著數(shù)據(jù)爆炸性增長(zhǎng),存儲(chǔ)技術(shù)也在相應(yīng)地不斷發(fā)展。其中,值得關(guān)注的是分布式存儲(chǔ)以及云存儲(chǔ)技術(shù),這兩種新技術(shù)的提出給存儲(chǔ)方式帶來(lái)另一種思路。分布式存儲(chǔ)技術(shù)并不是將數(shù)據(jù)存儲(chǔ)在某個(gè)或多個(gè)特定的節(jié)點(diǎn)上,而是通過(guò)網(wǎng)絡(luò)使用企業(yè)中的每臺(tái)機(jī)器上的磁盤(pán)空間,并將這些分散的存儲(chǔ)資源構(gòu)成一個(gè)虛擬的存儲(chǔ)設(shè)備,數(shù)據(jù)分散地存儲(chǔ)在企業(yè)的各個(gè)角落。而云存儲(chǔ)更是分布式存儲(chǔ)的升華,讓網(wǎng)絡(luò)中存在的大量、不同類(lèi)型的存儲(chǔ)設(shè)備協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能。雖然就目前而言,分布式存儲(chǔ)和云存儲(chǔ)只是非常前端的想法,真正實(shí)現(xiàn)的案例并不多,傳統(tǒng)的集中式存儲(chǔ)仍然是最佳選擇,但是可以肯定的是這種存儲(chǔ)分散、云端的理念針對(duì)海量數(shù)據(jù)的存儲(chǔ)更為有效。同時(shí),存儲(chǔ)介質(zhì)的突破也是值得關(guān)注的,從最原始的軟盤(pán)到現(xiàn)在高性能的固態(tài)硬盤(pán),存儲(chǔ)設(shè)備的容量、性能都在大幅度提升?,F(xiàn)在固態(tài)硬盤(pán)價(jià)格高昂,也是存儲(chǔ)成本面對(duì)的重要問(wèn)題。隨著技術(shù)手段的突破,我們相信固態(tài)硬盤(pán)也會(huì)逐步普及,更加高效、大容量的存儲(chǔ)介質(zhì)也會(huì)被不斷發(fā)掘出來(lái)。
就目前情況而言,雖然數(shù)字圖書(shū)館數(shù)據(jù)存儲(chǔ)水平還較為有限,針對(duì)海量數(shù)據(jù)存儲(chǔ)技術(shù)的研究還處于起步階段,面臨著許多問(wèn)題,但是隨著信息網(wǎng)絡(luò)市場(chǎng)的快速發(fā)展和信息技術(shù)的不斷升級(jí),相信在不久的將來(lái),針對(duì)海量數(shù)據(jù)的存儲(chǔ)與管理必定會(huì)有新的突破,屆時(shí)也必將會(huì)為數(shù)字圖書(shū)館的數(shù)據(jù)存儲(chǔ)帶來(lái)革命性、持續(xù)性和創(chuàng)造性的變化。更加有效安全的數(shù)據(jù)存儲(chǔ)模式將為數(shù)字圖書(shū)館以用戶為中心提供優(yōu)質(zhì)高效的信息資源服務(wù)帶來(lái)基礎(chǔ)性保障,從而推進(jìn)公共數(shù)字文化服務(wù)體系不斷完善。
[1](英)維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2013.
[2]Tom White.Hadoop:The Definitive Guide:MapReducefortheCloud[M].2stedition.California:O'Reilly Media,Inc,2009.
[3]朱靜薇,李紅艷.大數(shù)據(jù)時(shí)代下圖書(shū)館的挑戰(zhàn)及其應(yīng)對(duì)策略[J].現(xiàn)代情報(bào),2013(5):9-13.
[4]姜宇鳴.海量數(shù)據(jù)存儲(chǔ)系統(tǒng)研究[J].電腦知識(shí)與技術(shù),2011(8):1922,1928.
[5]魏大威.國(guó)家數(shù)字圖書(shū)館工程系統(tǒng)建設(shè)[J].國(guó)家圖書(shū)館學(xué)刊,2008(3):12-17,32.
G250.76
B
1005-8214(2015)06-0001-03
陳克儉(1985-),男,國(guó)家圖書(shū)館信息網(wǎng)絡(luò)部工程師,研究方向:數(shù)字資源存儲(chǔ)與管理;孫倩(1984-),女,國(guó)家圖書(shū)館數(shù)字資源部館員,研究方向:數(shù)字圖書(shū)館數(shù)字資源整合;王融(1987-),女,國(guó)家圖書(shū)館數(shù)字資源部館員,研究方向:數(shù)字圖書(shū)館新媒體設(shè)計(jì);季士妍(1978-),女,國(guó)家圖書(shū)館信息網(wǎng)絡(luò)部工程師,數(shù)字資源存儲(chǔ)與應(yīng)用管理組副組長(zhǎng),研究方向:數(shù)字資源長(zhǎng)期保存與管理。
2014-12-02[責(zé)任編輯]劉丹
本文系文化部科技創(chuàng)新項(xiàng)目“數(shù)字圖書(shū)館云平臺(tái)建設(shè)及其在公益性數(shù)字文化建設(shè)中的應(yīng)用研究”(項(xiàng)目編號(hào):3-2011)的研究成果之一。