●肖文芳 文庭孝
(中南大學(xué) 長(zhǎng)沙 410000)
?
【資源·共享】
大數(shù)據(jù)環(huán)境下數(shù)字資源整合變革研究
●肖文芳文庭孝
(中南大學(xué)長(zhǎng)沙410000)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,特別是近年來(lái)隨著社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、云計(jì)算以及多種傳感器的廣泛應(yīng)用,以數(shù)量龐大、種類(lèi)眾多、時(shí)效性較強(qiáng)為特點(diǎn)的非結(jié)構(gòu)化數(shù)據(jù)不斷涌現(xiàn),人類(lèi)正在進(jìn)入大數(shù)據(jù)時(shí)代。相對(duì)于傳統(tǒng)環(huán)境下的數(shù)字資源整合,大數(shù)據(jù)環(huán)境下的數(shù)字資源整合發(fā)生了巨大變化。文章主要從整合對(duì)象、整合方式、整合技術(shù)和整合重心等方面論述了大數(shù)據(jù)環(huán)境下數(shù)字資源整合的變化及發(fā)展趨勢(shì)。參考文獻(xiàn)24。
大數(shù)據(jù)數(shù)字資源資源整合
云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興服務(wù)促使人類(lèi)社會(huì)的數(shù)據(jù)種類(lèi)和規(guī)模正以前所未有的速度增長(zhǎng),大數(shù)據(jù)時(shí)代正式到來(lái),學(xué)術(shù)界,業(yè)界和政府等都對(duì)大數(shù)據(jù)給予了高度關(guān)注。2008年,《Nature》推出了“Big data”專(zhuān)刊[1],2011年,《Science》推出 “Dealing with Data”專(zhuān)刊[2],討論了大數(shù)據(jù)在科學(xué)研究中的重要性及其應(yīng)用。同年6月,麥肯錫咨詢(xún)公司發(fā)布了一份關(guān)于大數(shù)據(jù)的詳盡報(bào)告,即“Big data:The next frontier for innovation, competition, and productivity”[3],對(duì)大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等進(jìn)行了詳盡的分析。IBM、微軟、蘋(píng)果等IT巨頭都相繼實(shí)施大數(shù)據(jù)計(jì)劃和項(xiàng)目,試圖在大數(shù)據(jù)領(lǐng)域占領(lǐng)制高點(diǎn)。2012年后,大數(shù)據(jù)進(jìn)入飛速發(fā)展階段,美國(guó)、歐盟、英國(guó)、日本等國(guó)都提出了大數(shù)據(jù)發(fā)展應(yīng)對(duì)措施,我國(guó)也積極參與其中。2012年2月,美國(guó)奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”,計(jì)劃在生物、科技、醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)[4]。2013年1月,英國(guó)政府宣布將在對(duì)地觀測(cè)、醫(yī)療衛(wèi)生等大數(shù)據(jù)和節(jié)能計(jì)算技術(shù)等方面投資1.89億英鎊。2012年7月,日本總務(wù)省推出新的CIT綜合戰(zhàn)略,即“活力CIT日本”,重點(diǎn)關(guān)注大數(shù)據(jù)應(yīng)用。2013年初,我國(guó)科技部公布2014年度“國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(即973計(jì)劃,含重大科學(xué)研究計(jì)劃),其中將“大數(shù)據(jù)計(jì)算的基礎(chǔ)研究”作為重要支持方向。大數(shù)據(jù)對(duì)社會(huì)各主體和各領(lǐng)域產(chǎn)生了重大影響,人的思維模式、商業(yè)運(yùn)作模式、科學(xué)研究模式、醫(yī)療診斷模式等將發(fā)生根本性變化。
大數(shù)據(jù)表現(xiàn)出“6V+1C”特征,即數(shù)據(jù)大量化(Volume)、類(lèi)型多樣化(Variety)、處理快速化(Velocity)、應(yīng)用價(jià)值大(Value)、數(shù)據(jù)獲取與發(fā)送方式自由靈活(Vender)、準(zhǔn)確性(Veracity)和處理和分析難度大(Complexity)。大數(shù)據(jù)的基礎(chǔ)是數(shù)據(jù),而數(shù)據(jù)的核心是數(shù)量、結(jié)構(gòu)和價(jià)值。有無(wú)大數(shù)據(jù)、適合處理的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)價(jià)值大小是決定大數(shù)據(jù)能否有效實(shí)施的關(guān)鍵。而其中最最重要的問(wèn)題在于有無(wú)大數(shù)據(jù)和如何獲得大數(shù)據(jù),這是大數(shù)據(jù)發(fā)展的根本。能否形成大數(shù)據(jù)產(chǎn)生價(jià)值在于數(shù)據(jù)開(kāi)放的程度、數(shù)據(jù)整合的程度和數(shù)據(jù)融合的程度。大數(shù)據(jù)給數(shù)字資源整合帶來(lái)了挑戰(zhàn),大數(shù)據(jù)環(huán)境下數(shù)字資源整合正在發(fā)生一系列變化。
1.1數(shù)字資源整合的內(nèi)涵
數(shù)字資源整合是依據(jù)信息用戶的需求,對(duì)各個(gè)相對(duì)獨(dú)立的數(shù)字資源中的數(shù)據(jù)對(duì)象、功能結(jié)構(gòu)及其互動(dòng)關(guān)系進(jìn)行揭示、融合、類(lèi)聚、重組、重新結(jié)合為一個(gè)新的效能優(yōu)化的數(shù)字資源體系的信息組織形式,它不僅僅是對(duì)數(shù)字資源本身的集中化整合,還應(yīng)包括對(duì)數(shù)字資源相關(guān)數(shù)據(jù)的整合簡(jiǎn)單來(lái)說(shuō)[5],如果將各種散落的數(shù)字資源看成是散落的珍珠,那么數(shù)字資源整合就是將這些散落的珍珠串起來(lái)的過(guò)程。在大數(shù)據(jù)時(shí)代,孤立、零散的數(shù)據(jù)難以突顯其真實(shí)和隱含價(jià)值。
數(shù)字資源整合與數(shù)字資源共享、數(shù)字資源集成和數(shù)字資源融合等概念密切相關(guān)。數(shù)字資源共享泛指各個(gè)領(lǐng)域的文字、數(shù)字、文化資源類(lèi)目以及各種數(shù)字資源的分享與共用。數(shù)字資源整合目的就是為了更好地共享數(shù)字資源,使數(shù)字資源發(fā)揮更大的作用。數(shù)字資源集成是將獨(dú)立分散的數(shù)字資源集中重新組合在一個(gè)系統(tǒng)或平臺(tái)上,擴(kuò)大服務(wù)功能,提高利用效率。數(shù)字資源融合是數(shù)字資源整合的更高層次,整合是指把零散的東西彼此銜接,從而實(shí)現(xiàn)信息系統(tǒng)的資源共享和協(xié)同工作。而融合是指將兩種或多種不同的事物合成一個(gè)有機(jī)整體,是數(shù)字資源的自由存取、高度開(kāi)放和無(wú)縫連接。
1.2數(shù)字資源整合的意義
數(shù)字資源整合在大數(shù)據(jù)環(huán)境下具有重要的理論意義和實(shí)踐價(jià)值。首先,數(shù)字資源整合有助于促進(jìn)數(shù)字資源序化。在數(shù)字網(wǎng)絡(luò)環(huán)境下,大部分?jǐn)?shù)字資源處于無(wú)序、零散狀態(tài),并且魚(yú)龍混雜,用戶想要獲取其所需且有價(jià)值的的數(shù)字資源,難度較大。按照數(shù)字資源的關(guān)聯(lián)性將其進(jìn)行整合,有助于數(shù)字資源序化,方便用戶獲取和利用。其次,數(shù)字資源整合有助于消除“數(shù)據(jù)孤島”。“數(shù)據(jù)孤島”是指相對(duì)獨(dú)立的不同類(lèi)型、不同學(xué)科的數(shù)字資源系統(tǒng)相互封閉或標(biāo)準(zhǔn)不統(tǒng)一無(wú)法進(jìn)行正常的信息交流, 猶如一個(gè)個(gè)分散、獨(dú)立的島嶼[6]?!皵?shù)據(jù)孤島”容易造成數(shù)字資源重復(fù)建設(shè)和閑置浪費(fèi)。對(duì)數(shù)字資源進(jìn)行整合,開(kāi)放數(shù)據(jù)資源,融合數(shù)據(jù)資源,共享數(shù)據(jù)資源,可以消除“數(shù)據(jù)孤島”,提高數(shù)字資源利用效率。
1.3數(shù)字資源整合的內(nèi)容
數(shù)字資源整合包括兩個(gè)方面的內(nèi)容,即以數(shù)據(jù)為基礎(chǔ)的整合和以技術(shù)為基礎(chǔ)的整合。
(1)以數(shù)據(jù)為基礎(chǔ)的整合。也稱(chēng)為數(shù)據(jù)庫(kù)整合,是指利用數(shù)據(jù)庫(kù)將分散的異構(gòu)數(shù)據(jù)進(jìn)行無(wú)縫鏈接,在邏輯上形成一個(gè)新的有機(jī)整體。這一方面可以通過(guò)數(shù)據(jù)庫(kù)整合原始和基礎(chǔ)數(shù)據(jù),另一方面可將多個(gè)數(shù)據(jù)庫(kù)整合形成更大的數(shù)據(jù)庫(kù)系統(tǒng)。數(shù)據(jù)庫(kù)整合可以剔除多個(gè)相關(guān)數(shù)據(jù)庫(kù)內(nèi)的重復(fù)數(shù)據(jù)后形成的一種新的虛擬性數(shù)字資源體系[7]。現(xiàn)階段,大部分?jǐn)?shù)字資源是以數(shù)據(jù)庫(kù)整合的形式呈現(xiàn)出來(lái)的,在圖書(shū)情報(bào)領(lǐng)域,數(shù)據(jù)庫(kù)占據(jù)了數(shù)字資源的絕大部分。因此,數(shù)據(jù)庫(kù)整合成為數(shù)字資源整合的首要內(nèi)容,內(nèi)容為王。
(2)以技術(shù)為基礎(chǔ)的整合。也稱(chēng)為系統(tǒng)整合、平臺(tái)整合。系統(tǒng)整合、平臺(tái)整合是通過(guò)對(duì)應(yīng)用系統(tǒng)和數(shù)字資源進(jìn)行分解和重組,使其在組織結(jié)構(gòu)和表達(dá)方式等方面趨于一致,構(gòu)建一個(gè)統(tǒng)一的數(shù)字資源管理平臺(tái)[8-9]。利用計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)存儲(chǔ)技術(shù)等現(xiàn)代信息技術(shù),將分散獨(dú)立的數(shù)據(jù)庫(kù)、系統(tǒng)和平臺(tái)都集成、整合在一起,共享數(shù)字資源,形成大數(shù)據(jù)。例如,圖書(shū)館的館藏大數(shù)據(jù)、用戶大數(shù)據(jù)、館員大數(shù)據(jù)、管理大數(shù)據(jù)、引文大數(shù)據(jù)等。隨著信息化的進(jìn)行,各領(lǐng)域、各機(jī)構(gòu)都有自己獨(dú)立的信息系統(tǒng)和管理平臺(tái),系統(tǒng)差異阻礙了數(shù)據(jù)交流和共享。例如,不同圖書(shū)館之間因自動(dòng)化系統(tǒng)的差異阻礙了圖書(shū)館之間的數(shù)字資源共享。因此,系統(tǒng)整合、平臺(tái)整合是數(shù)字資源整合的實(shí)現(xiàn)途徑,技術(shù)是手段。
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)字資源整合發(fā)生了巨大變化,首先是數(shù)字資源整合對(duì)象的變化,即數(shù)字資源本身在存在規(guī)模、處理方式、存在方式、存在類(lèi)型、價(jià)值密度等方面出現(xiàn)了變化。
2.1數(shù)字資源存在規(guī)模的變化
大數(shù)據(jù)環(huán)境下,隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的高速發(fā)展,特別是互聯(lián)網(wǎng)的應(yīng)用和普及,數(shù)字資源規(guī)模正在以幾何級(jí)數(shù)呈爆炸式增長(zhǎng),數(shù)字資源的規(guī)模正在從GB、TB級(jí)躍升至PB、EB級(jí)。Gartner(高德納)公司研究認(rèn)為,新產(chǎn)生的數(shù)據(jù)量每年正以至少50%的速度遞增,使得每年新增的數(shù)據(jù)量不到兩年就翻一番。Cisco(思科)公司在一份報(bào)告中推測(cè),2015年僅移動(dòng)數(shù)據(jù)量將會(huì)突破每月6EB,等于60億GB。根據(jù)麥肯錫全球研究院IDC最新的數(shù)據(jù)預(yù)計(jì),到2020年,世界上的數(shù)據(jù)存儲(chǔ)總量將達(dá)到35ZB,等于35萬(wàn)億GB[10]。正如麥肯錫全球數(shù)據(jù)分析研究所在2011年5月發(fā)表的一篇論文中所說(shuō):“大數(shù)據(jù)是指大小超出了典型數(shù)據(jù)庫(kù)工具收集、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集?!盵11]如此海量的數(shù)字資源如何根據(jù)需要將其整合在一起,發(fā)現(xiàn)隱藏其中的規(guī)律、特征和價(jià)值,無(wú)疑是一項(xiàng)巨大的挑戰(zhàn)。
2.2數(shù)據(jù)資源處理方式的變化
數(shù)字資源規(guī)模的變化帶來(lái)了數(shù)據(jù)處理方法和理念的根本性變化。傳統(tǒng)的數(shù)據(jù)處理由于受數(shù)據(jù)獲取和分析能力的制約,一直采用數(shù)據(jù)采樣或抽樣的方式處理數(shù)據(jù),通過(guò)少量的樣本數(shù)據(jù),使用數(shù)學(xué)或統(tǒng)計(jì)學(xué)模型近似地描述變量之間的特征或規(guī)律,然后進(jìn)行趨勢(shì)外推到總體特征。樣本的數(shù)量可以根據(jù)數(shù)據(jù)獲取、處理能力來(lái)設(shè)定[12]。而大數(shù)據(jù)處理的是全樣本或總體樣本,總體本身可能不存在某種規(guī)律或特征,但隱含著某種關(guān)聯(lián)或聯(lián)系,需要利用現(xiàn)代信息技術(shù),通過(guò)數(shù)據(jù)挖掘算法、知識(shí)發(fā)現(xiàn)規(guī)則找出變量或現(xiàn)象之間的相關(guān)關(guān)系。大數(shù)據(jù)造成了數(shù)據(jù)處理方式和思維模式的變革。
2.3數(shù)字資源存在方式的變化
傳統(tǒng)數(shù)字資源整合的結(jié)果是產(chǎn)生各種數(shù)據(jù)庫(kù),數(shù)字資源主要以各種形式的數(shù)據(jù)庫(kù)存在,是經(jīng)過(guò)加工整理后的相對(duì)靜態(tài)的數(shù)字資源。數(shù)字資源整合的具體形態(tài)主要有跨庫(kù)檢索系統(tǒng)、集成檢索系統(tǒng)、印刷型文獻(xiàn)與電子資源整合、聯(lián)合目錄式整合、電子資源地址整合、全文電子期刊和電子期刊論文索引、文摘鏈接整合、學(xué)科信息門(mén)戶整合、學(xué)科導(dǎo)航和學(xué)科信息智能導(dǎo)航系統(tǒng)以及學(xué)科電子資源搜索系統(tǒng)等[13]。
而在大數(shù)據(jù)環(huán)境下,數(shù)字資源整合的對(duì)象既關(guān)注傳統(tǒng)數(shù)據(jù)庫(kù)中相對(duì)靜態(tài)的數(shù)字資源,更關(guān)注著各種在線即時(shí)產(chǎn)生的動(dòng)態(tài)數(shù)字資源。 數(shù)字資源整合的范圍由靜態(tài)的規(guī)范性數(shù)字資源擴(kuò)大到動(dòng)態(tài)的非規(guī)范性數(shù)字資源(如對(duì)網(wǎng)絡(luò)信息資源的整合)。相對(duì)于規(guī)范性數(shù)字資源來(lái)說(shuō), 網(wǎng)絡(luò)信息資源是一種非規(guī)范性數(shù)字資源,具有大數(shù)量、多類(lèi)型、多媒體、跨時(shí)間、跨地域、跨行業(yè)、多語(yǔ)種、分散、開(kāi)放、無(wú)序和自由等特點(diǎn), 整合更為復(fù)雜和困難[14]。
2.4數(shù)字資源存在類(lèi)型的變化
傳統(tǒng)的數(shù)字資源通過(guò)整合后形成了各類(lèi)結(jié)構(gòu)化數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)中數(shù)字資源的存在類(lèi)型和來(lái)源都比較單一,以文字、數(shù)據(jù)、圖片、音頻、視頻、多媒體等某種單一形式存在,如文獻(xiàn)數(shù)據(jù)庫(kù)、數(shù)值數(shù)據(jù)庫(kù)、圖像數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)等。結(jié)構(gòu)化數(shù)據(jù)是指根據(jù)需要將事物抽象形成便于人類(lèi)和計(jì)算機(jī)存儲(chǔ)、處理、查詢(xún)的結(jié)構(gòu),數(shù)字資源在結(jié)構(gòu)化抽象過(guò)程中,會(huì)忽略一些在特定應(yīng)用下可以不用考慮的細(xì)節(jié)或信息,只抽取有用的信息[15],結(jié)構(gòu)化數(shù)據(jù)處理起來(lái)較為容易。
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)處理最大的不同就在于數(shù)據(jù)存在類(lèi)型和來(lái)源多樣化、復(fù)雜化、綜合化,不僅包含結(jié)構(gòu)化數(shù)字資源,還包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)字資源,更多的可能是后者。不僅是文字、數(shù)據(jù)、圖片、音頻、視頻、多媒體等數(shù)字資源類(lèi)型的單一體,更多的可能是這些數(shù)字資源類(lèi)型的組合體、復(fù)合體、綜合體。大數(shù)據(jù)更多地關(guān)注包含大量細(xì)節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù),強(qiáng)調(diào)小眾化和體驗(yàn)化的特性,使得傳統(tǒng)的數(shù)字資源整合和處理方式面臨巨大挑戰(zhàn)[16]。
2.5數(shù)字資源價(jià)值密度的變化
相對(duì)于傳統(tǒng)整合的結(jié)構(gòu)化數(shù)字資源來(lái)說(shuō),大數(shù)據(jù)的價(jià)值密度要更小。結(jié)構(gòu)化數(shù)字資源經(jīng)過(guò)處理后專(zhuān)指度高,價(jià)值密度也高。而大數(shù)據(jù)由于其具有復(fù)雜、多樣、動(dòng)態(tài)、多變等特點(diǎn),質(zhì)量很難保證[17]。大數(shù)據(jù)體量大,泥沙俱下稀釋了數(shù)據(jù)的價(jià)值,降低了數(shù)據(jù)的可用性。國(guó)外權(quán)威機(jī)構(gòu)統(tǒng)計(jì)表明,美國(guó)企業(yè)信息系統(tǒng)中30%的數(shù)據(jù)存在各種錯(cuò)誤和誤差[18]。垃圾信息、冗余信息、錯(cuò)誤信息很可能會(huì)集聚放大,引導(dǎo)出錯(cuò)誤的結(jié)論。
大數(shù)據(jù)環(huán)境下,由于數(shù)字資源具有動(dòng)態(tài)性、多樣性、復(fù)雜性等特點(diǎn),因此對(duì)數(shù)字資源整合的方式多種多樣。
(1)面向內(nèi)容的數(shù)字資源整合。也稱(chēng)為學(xué)科導(dǎo)航,是以學(xué)科為中心,運(yùn)用分類(lèi)法對(duì)數(shù)字資源進(jìn)行重組,建立數(shù)字資源學(xué)科導(dǎo)航系統(tǒng),用戶可以較為方便的進(jìn)行瀏覽檢索和利用。這種數(shù)字資源整合方式比較適合于特定領(lǐng)域的用戶,不少高校圖書(shū)館都建立了學(xué)科導(dǎo)航或特色數(shù)字資源。
(2)面向任務(wù)的數(shù)字整合。也稱(chēng)為主題導(dǎo)航,以特定任務(wù)或主題為中心,從數(shù)字資源的功能、性能等方面來(lái)整合具有特定用途的資源,為特定任務(wù)服務(wù),這種整合方式更加關(guān)注數(shù)字資源之間的特定聯(lián)系。如市場(chǎng)競(jìng)爭(zhēng)十分激烈,企業(yè)想要在市場(chǎng)中占有一席之地,必須及時(shí)了解市場(chǎng)動(dòng)態(tài),企業(yè)信息部門(mén)可以將企業(yè)內(nèi)部、外部信息系統(tǒng)進(jìn)行有機(jī)整合,將貿(mào)易、價(jià)格、法規(guī)、稅收、產(chǎn)品、市場(chǎng)、競(jìng)爭(zhēng)對(duì)手等多方面的數(shù)字資源整合為一體,服務(wù)于企業(yè)的經(jīng)營(yíng)管理,并通過(guò)對(duì)事件和信息的及時(shí)處理,把用戶有機(jī)地聯(lián)系起來(lái),為企業(yè)服務(wù)。
(3)面向?qū)ο蟮臄?shù)字整合。也稱(chēng)為用戶導(dǎo)航,是以用戶的個(gè)性信息需求為中心,以為用戶提供簡(jiǎn)便的信息獲取途徑為目標(biāo),對(duì)信息資源進(jìn)行整合。隨著社會(huì)的發(fā)展,用戶的信息需求不斷增長(zhǎng)且信息素養(yǎng)日益提高,以學(xué)科資源和主題資源為中心的整合方式已不能滿足用戶的個(gè)性信息需求。因此,面向用戶和對(duì)象整合數(shù)字資源提供個(gè)性化信息服務(wù)是必然趨勢(shì),如個(gè)性化定制服務(wù)系統(tǒng)和圖書(shū)館個(gè)性化服務(wù)等就是這一發(fā)展趨勢(shì)的直接體現(xiàn)。
傳統(tǒng)環(huán)境下的數(shù)字資源整合技術(shù)主要有數(shù)據(jù)庫(kù)技術(shù)、元數(shù)據(jù)技術(shù)、信息封裝技術(shù)、OPAC技術(shù)、Z39.50技術(shù)、P2P技術(shù)等,其中最主要的是基于OPAC(聯(lián)機(jī)公共檢索目錄)的數(shù)字資源整合技術(shù),它主要是利用因特網(wǎng)來(lái)對(duì)數(shù)字資源進(jìn)行整合的基礎(chǔ)上提供檢索。OPAC實(shí)現(xiàn)方式主要有兩種:一種是通過(guò)Z39.50協(xié)議,聚合不同平臺(tái)上的異構(gòu)OPAC數(shù)據(jù)庫(kù),建立數(shù)字資源整合檢索系統(tǒng)。另一種是通過(guò)在MARC856字段(電子資源地址與檢索字段)中記錄電子文獻(xiàn)地址,事先揭示并鏈接全文電子文獻(xiàn)。但由于很多數(shù)字資源的鏈接地址不穩(wěn)定,當(dāng)?shù)刂钒l(fā)生變動(dòng)時(shí),就不能鏈接到數(shù)字資源,靈活性較差。Z39.50是一個(gè)數(shù)據(jù)應(yīng)用層協(xié)議,目的是為了信息系統(tǒng)的開(kāi)放互聯(lián),起因于美國(guó)國(guó)會(huì)圖書(shū)館、OCLC、美國(guó)研究圖書(shū)館集團(tuán)(RLG)等機(jī)構(gòu)之間數(shù)據(jù)交換的需要。Z39.50能支持計(jì)算機(jī)使用一種標(biāo)準(zhǔn)的、相互可理解的方式進(jìn)行通信,而且支持不同數(shù)據(jù)結(jié)構(gòu)、內(nèi)容、格式的信息系統(tǒng)之間的數(shù)據(jù)傳輸,可以實(shí)現(xiàn)異構(gòu)平臺(tái)、異構(gòu)系統(tǒng)之間的互聯(lián)與查詢(xún)[19],是數(shù)字資源整合的一種重要技術(shù)。P2P技術(shù)是對(duì)網(wǎng)絡(luò)資源進(jìn)行整合的一種使用較為廣泛的技術(shù)。P2P(Peer-to-Peer)發(fā)現(xiàn)技術(shù),即“點(diǎn)對(duì)點(diǎn)”發(fā)現(xiàn)技術(shù),或?qū)Φ嚷?lián)網(wǎng)技術(shù),其核心思想是:所有參與系統(tǒng)的結(jié)點(diǎn)都是邏輯對(duì)等的(成為對(duì)等點(diǎn)),目的是將網(wǎng)絡(luò)中的不同計(jì)算機(jī)連接起來(lái),通過(guò)直接互連實(shí)現(xiàn)信息資源、處理器資源、存儲(chǔ)資源甚至高速緩存資源等全面共享[20]。
大數(shù)據(jù)因其復(fù)雜性特點(diǎn),需要更多的技術(shù)支持,才能通過(guò)數(shù)據(jù)處理和分析技術(shù)從中發(fā)現(xiàn)有價(jià)值的信息。大數(shù)據(jù)環(huán)境下數(shù)字資源整合技術(shù)的變革主要體現(xiàn)在兩個(gè)方面:一是傳統(tǒng)的數(shù)字資源整合技術(shù)升級(jí),特別是針對(duì)海量數(shù)據(jù)和即時(shí)數(shù)據(jù)的整合技術(shù)。一是新的數(shù)字資源整合技術(shù)的出現(xiàn)。目前主要有云計(jì)算技術(shù)和Hadoop技術(shù)等。云計(jì)算技術(shù)是大數(shù)據(jù)環(huán)境下數(shù)字資源整合的技術(shù)支撐平臺(tái)。Google于2006年首次提出了云計(jì)算的概念[21],Google公司最早自行研發(fā)一系列云計(jì)算技術(shù)和工具來(lái)支撐其大數(shù)據(jù)應(yīng)用與管理,如 MapReduce、GFS等技術(shù)。Hadoop是目前最為流行的大數(shù)據(jù)處理平臺(tái),Hadoop源于Google一款名為MapReduce的編程模型包,它是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架[22]。Hadoop得以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用得益于其自身在數(shù)據(jù)提取、變形和加載方面上的天然優(yōu)勢(shì)。
大數(shù)據(jù)環(huán)境下數(shù)字資源整合的重心將發(fā)生變化,表現(xiàn)出一些新趨勢(shì):
(1)由資源整合向應(yīng)用和服務(wù)整合方向發(fā)展。在大數(shù)據(jù)環(huán)境下,數(shù)字資源整合不再局限于資源本身,如數(shù)字資源及其共享平臺(tái)建設(shè),而是探索如何重組、集成、整合與資源相關(guān)的應(yīng)用程序和服務(wù), 擴(kuò)展其可重用性, 數(shù)字資源整合的重點(diǎn)將由對(duì)資源的整合擴(kuò)展到對(duì)應(yīng)用程序、 服務(wù)等功能的整合[23]。
(2)數(shù)字資源整合與用戶個(gè)性化需求緊密結(jié)合。用戶的需求是多樣化的, 數(shù)字資源整合系統(tǒng)不再僅僅關(guān)注資源的集成、共享與整合, 而是開(kāi)始關(guān)注用戶需求的差異性和個(gè)性化。 面向用戶的數(shù)字資源整合和基于整合的用戶服務(wù)成為未來(lái)數(shù)字資源整合的發(fā)展趨勢(shì)。
(3)資源融合成為數(shù)字資源整合關(guān)注的焦點(diǎn)。 數(shù)字資源融合是數(shù)字資源整合發(fā)展的高級(jí)階段[24]。數(shù)字資源整合強(qiáng)調(diào)的重心是將分散的數(shù)字資源通過(guò)一定的方式(如技術(shù)平臺(tái)、共享協(xié)議等)實(shí)現(xiàn)互通與共享(如館際互借、文獻(xiàn)傳遞、區(qū)域聯(lián)盟等),特點(diǎn)是數(shù)字資源的分散獨(dú)立處理、存儲(chǔ)與共享,目的是通過(guò)數(shù)字資源共享提高利用效用,重點(diǎn)在于數(shù)字資源及其技術(shù)平臺(tái)的建設(shè)與共享(如集成檢索平臺(tái)、資源聯(lián)盟、資源共享平臺(tái))。而數(shù)字資源融合關(guān)注的焦點(diǎn)是將分散的數(shù)字資源通過(guò)無(wú)縫連接和一體化重組的方式實(shí)現(xiàn)數(shù)字資源的自由存取、開(kāi)放共用,特點(diǎn)是數(shù)字資源的集中統(tǒng)一處理、存儲(chǔ)和分析,目的是通過(guò)對(duì)數(shù)字資源整體的處理和分析發(fā)現(xiàn)其中隱藏的價(jià)值,重點(diǎn)在于數(shù)字資源本身的價(jià)值及其價(jià)值實(shí)現(xiàn)方案。
大數(shù)據(jù)時(shí)代的到來(lái),數(shù)字資源整合發(fā)生了巨大變化,在整合對(duì)象、整合方式、整合技術(shù)和整合重心等方面都出現(xiàn)了一些新特征。應(yīng)用和服務(wù)整合、面向用戶的個(gè)性化需求整合和數(shù)字資源融合將是未來(lái)數(shù)字資源整合研究的重點(diǎn),需要進(jìn)一步關(guān)注。
[1]nature.Big Data [EB/OL].http://www.nature.com/news/specials/big data/index.html.[2014-10-02].
[2]science.special online collection:Dealing with data [EB/OL].http://www.science mag.org/site/special/data/2011.[2014-10-02].
[3]Manyika J,Chuim,Brown B,etal.Big data:The next frontier for innovation,competition,and productivity[R/OL].http://www.mckinsey.com/insights/MG I/Research/technology and innovation/Big data The next frontier for innovation.[2012-10-02].
[4]Big Data Across the Federal Government [EB/OL].http://www.White house.gov/sites/default/files/microsites/ostp/big data_fact_sheet_final/pdf.[2014-10-02].
[5]王儉敏.數(shù)字資源整合研究中的若干問(wèn)題[J].現(xiàn)代情報(bào),2005(9):80-82.
[6]李希明,土麗艷,金科.從信息孤島的形成談數(shù)字資源整合的作用[J].圖書(shū)館論壇,2003(6):121-123.
[7]呂莉媛.基于復(fù)雜網(wǎng)絡(luò)的圖書(shū)館數(shù)字資源整合[J].情報(bào)科學(xué),2009(12):1811-1815.
[8] [20]王長(zhǎng)全.云計(jì)算環(huán)境下的數(shù)字圖書(shū)館信息資源整合與服務(wù)模式創(chuàng)新[J].圖書(shū)工作與研究,2011(1):48-51.
[9] [21]劉崢.數(shù)字資源整合的現(xiàn)狀及其發(fā)展[J].圖書(shū)情報(bào)知識(shí),2003(5): 40-41.
[10][15][16][22]馬建光,姜巍.大數(shù)據(jù)的概念、特征、應(yīng)用[J].國(guó)防科技,2013(2):11-16.
[11][12][美]Bill Franks;黃海等譯:駕馭大數(shù)據(jù)[M].北京:人民郵電出版社,2013.
[13][14][19]謝玲.論現(xiàn)階段數(shù)字資源整合的實(shí)用技術(shù)及發(fā)展趨勢(shì)[J].現(xiàn)代情報(bào),2007(8):100-103.
[17] [18]宗威,吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào),2013(5):38-43.
[23]Redmant.The impact of poor data quality on the typical enterprise[J].Communications of the ACM,1998,41(2):79-82.
[24]劉曉英,文庭孝.大數(shù)據(jù)時(shí)代的數(shù)字資源融合研究[J].圖書(shū)館,2015(2):58-61.
(賴(lài)寧編發(fā))
The Change of Digital Resources Integration under the Big Data Environment
Xiao WenfangWen Tingxiao
(Central South University, Changsha, Hunan 410000, China)
with the rapid development of the internet, especially in recent years, along with social network, internet of things, cloud computing and a variety of sensors are widely used, the non-structured data with the characteristics of large number, variety, strong timeliness continue to emerge, the human is entering the age of big data. Comparing to traditional digital resources integration, digital resources integration has changed greatly under the big data environment. This paper discusses the change and developing trends of digital resources integration under the big data environment from the aspects of integration object, integration model, integration technology and integration center, etc. 24 refs.
Big data. Digital resources. Resources integration.
2015-10-19
G25
A
1003-7845(2016)04-0024-05
肖文芳,副研究館員;文庭孝,教授,現(xiàn)在中南大學(xué)圖書(shū)館工作。