国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)環(huán)境下數(shù)字圖書(shū)館建設(shè)初探★

2015-04-25 09:38
河北科技圖苑 2015年3期
關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)字圖書(shū)館

王 浩

(黑龍江八一農(nóng)墾大學(xué)圖書(shū)館 黑龍江 大慶 163319)

大數(shù)據(jù)時(shí)代,數(shù)字圖書(shū)館發(fā)展與大數(shù)據(jù)密切相關(guān)。因?yàn)椋环矫鏀?shù)字圖書(shū)館的建設(shè)為大數(shù)據(jù)技術(shù)的發(fā)展提供了一個(gè)很好的探索和實(shí)踐平臺(tái),另一方面,大數(shù)據(jù)技術(shù)的不斷推進(jìn)勢(shì)必對(duì)數(shù)字圖書(shū)館的建設(shè)過(guò)程、發(fā)展形態(tài)等造成深遠(yuǎn)影響。本文在分析大數(shù)據(jù)內(nèi)涵與圖書(shū)館大數(shù)據(jù)的基礎(chǔ)上,闡述了大數(shù)據(jù)背景下數(shù)字圖書(shū)館建設(shè)所面臨的挑戰(zhàn),并提出了數(shù)字圖書(shū)館的建設(shè)新思路。

1 大數(shù)據(jù)的內(nèi)涵及圖書(shū)館的大數(shù)據(jù)

1.1 大數(shù)據(jù)的內(nèi)涵

“大數(shù)據(jù)”通常被認(rèn)為是一個(gè)用來(lái)描述海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的短語(yǔ),關(guān)于大數(shù)據(jù)的定義目前還沒(méi)有明確的界定,但大數(shù)據(jù)的四個(gè)重要特征得到公認(rèn)。第一個(gè)特征是數(shù)據(jù)量大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T)。第二個(gè)特征是數(shù)據(jù)類型繁多。包括網(wǎng)絡(luò)日志、音頻、視頻、圖片等,數(shù)據(jù)多樣性對(duì)數(shù)據(jù)的處理能力提出了更高要求。第三個(gè)特征是數(shù)據(jù)價(jià)值密度相對(duì)較低。如何迅速地完成數(shù)據(jù)的價(jià)值“提純”,是大數(shù)據(jù)時(shí)代亟待解決的難題。第四個(gè)特征是信息處理速度要快,時(shí)效性要求高。這是大數(shù)據(jù)有別于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。應(yīng)該說(shuō),大數(shù)據(jù)時(shí)代的到來(lái)對(duì)人類數(shù)據(jù)的駕馭能力提出了新的挑戰(zhàn)。

1.2 圖書(shū)館的大數(shù)據(jù)

圖書(shū)館在長(zhǎng)期的工作中積累了大量數(shù)據(jù),雖然在規(guī)模和數(shù)據(jù)處理速度上尚未達(dá)到大數(shù)據(jù)的標(biāo)準(zhǔn),但它們具有大數(shù)據(jù)的特征,筆者認(rèn)為它們就是“圖書(shū)館的大數(shù)據(jù)”。我們要從大數(shù)據(jù)的角度去思考和分析,開(kāi)展新的服務(wù)。

1.2.1 館藏?cái)?shù)據(jù)

圖書(shū)館的紙質(zhì)資源、電子資源、音頻、視頻等各種館藏資源,其實(shí)質(zhì)都是知識(shí)數(shù)據(jù)的集合。圖書(shū)館的信息服務(wù)要從簡(jiǎn)單的文獻(xiàn)服務(wù),升級(jí)為復(fù)雜的知識(shí)服務(wù)的關(guān)鍵環(huán)節(jié)是從館藏?cái)?shù)據(jù)集中尋找關(guān)聯(lián),加強(qiáng)知識(shí)挖掘與整合的力度,揭示規(guī)律或發(fā)現(xiàn)新知識(shí)。

1.2.2 書(shū)目數(shù)據(jù)

書(shū)目數(shù)據(jù)是圖書(shū)館界科學(xué)的、規(guī)范的結(jié)構(gòu)化數(shù)據(jù)。隨著越來(lái)越多的圖書(shū)館開(kāi)放書(shū)目數(shù)據(jù)和發(fā)布關(guān)聯(lián)數(shù)據(jù),使得書(shū)目數(shù)據(jù)不僅可以用于檢索,還可以發(fā)揮出更多的價(jià)值,如用于出版行業(yè)的動(dòng)態(tài)研究、書(shū)目數(shù)據(jù)的關(guān)聯(lián)化研究等。

1.2.3 讀者數(shù)據(jù)

讀者數(shù)據(jù)是讀者在使用圖書(shū)館過(guò)程中所產(chǎn)生的自然數(shù)據(jù),包括讀者信息、訪問(wèn)數(shù)據(jù)、咨詢信息等,它能客觀地反映出讀者需求的變化趨勢(shì),關(guān)注和分析這些數(shù)據(jù),可以了解和揣摩讀者的心理和興趣愛(ài)好,圖書(shū)館應(yīng)該根據(jù)讀者的需求變化及時(shí)調(diào)整服務(wù)策略。

1.2.4 工作數(shù)據(jù)

圖書(shū)館工作的自動(dòng)化,產(chǎn)生了大量的相關(guān)業(yè)務(wù)數(shù)據(jù),具體說(shuō)來(lái)主要有:(1)采訪數(shù)據(jù),包括書(shū)商提供的書(shū)目數(shù)據(jù)、訂購(gòu)數(shù)據(jù)、到館周期、到館率、入藏登記等;(2)編目數(shù)據(jù),包括已完成的書(shū)目數(shù)據(jù)、編目員個(gè)人信息、編目數(shù)據(jù)源、審核記錄等;(3)流通數(shù)據(jù),包括讀者到館率、文獻(xiàn)借閱率、流通率、借閱記錄等;(4)咨詢數(shù)據(jù),包括通過(guò)網(wǎng)絡(luò)軟件、通訊技術(shù)等途徑,在咨詢過(guò)程中產(chǎn)生的大量咨詢記錄。

2 大數(shù)據(jù)時(shí)代數(shù)字圖書(shū)館建設(shè)所面臨的機(jī)遇與挑戰(zhàn)

2.1 大數(shù)據(jù)給數(shù)字圖書(shū)館建設(shè)帶來(lái)的機(jī)遇

2.1.1 分析讀者與資源以完善服務(wù)

大數(shù)據(jù)技術(shù)不僅可以幫助圖書(shū)館了解讀者行為、意愿和閱讀習(xí)慣,對(duì)其知識(shí)信息的需求進(jìn)行預(yù)測(cè),開(kāi)展交互式知識(shí)服務(wù)。還可以通過(guò)對(duì)網(wǎng)絡(luò)資源、信息資源及軟硬件的運(yùn)行狀況進(jìn)行分析,來(lái)預(yù)測(cè)可能出現(xiàn)的問(wèn)題,便于圖書(shū)館對(duì)資源運(yùn)行情況的突然波動(dòng)做出相應(yīng)的應(yīng)對(duì)策略,及時(shí)采取應(yīng)對(duì)的措施。

2.1.2 建立智能化網(wǎng)絡(luò)信息資源組合方式

大數(shù)據(jù)將成為圖書(shū)館的核心資產(chǎn),從用戶體驗(yàn)出發(fā),利用大數(shù)據(jù)技術(shù),靈活、方便地從已有的數(shù)據(jù)資源中抓取有用的知識(shí)、模式和關(guān)系等,以打造個(gè)性化的網(wǎng)絡(luò)化信息資源的智能組合,獲得更加準(zhǔn)確的讀者及服務(wù)人員的服務(wù)洞察,設(shè)計(jì)網(wǎng)絡(luò)化信息資源的智能組合,提供新型的知識(shí)服務(wù)方式。

2.1.3 建立模型輔助決策

可以利用大數(shù)據(jù)分析、預(yù)測(cè)及智能輔助決策技術(shù)建立具有特色的、實(shí)用的、科學(xué)的業(yè)務(wù)評(píng)估模型輔助機(jī)構(gòu)或者讀者進(jìn)行決策判斷。例如圖書(shū)出版與收益模型、信息資源的采購(gòu)與利用模型等。

2.2 大數(shù)據(jù)給數(shù)字圖書(shū)館建設(shè)帶來(lái)的挑戰(zhàn)

2.2.1 基礎(chǔ)設(shè)施的挑戰(zhàn)

數(shù)據(jù)量的快速增長(zhǎng)及非結(jié)構(gòu)化數(shù)據(jù)的增加,對(duì)支持非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)與分析的基礎(chǔ)設(shè)施提出了更高的要求。首先,傳統(tǒng)網(wǎng)絡(luò)的架構(gòu)設(shè)計(jì)主要是垂直結(jié)構(gòu),大數(shù)所時(shí)代,強(qiáng)調(diào)的是水平結(jié)構(gòu)的橫向服務(wù),要設(shè)計(jì)分層合理、分級(jí)存儲(chǔ)架構(gòu)。其次,要升級(jí)軟硬件設(shè)施,利用高性能計(jì)算機(jī),新的數(shù)據(jù)表示方法、數(shù)據(jù)分析技術(shù),建立具有經(jīng)濟(jì)高效的存儲(chǔ)與計(jì)算分析計(jì)算能力平臺(tái),來(lái)保存PB級(jí)別的數(shù)據(jù)。最后,需要擁有保護(hù)分布式基礎(chǔ)設(shè)施和數(shù)據(jù)的安全可信的軟硬件應(yīng)用系統(tǒng)平臺(tái)。

2.2.2 大數(shù)據(jù)深入分析的挑戰(zhàn)

大數(shù)據(jù)時(shí)代,信息海量增加,數(shù)字圖書(shū)館要為讀者提供高效信息就要進(jìn)行數(shù)據(jù)分析。大數(shù)據(jù)分析是圖書(shū)館創(chuàng)新知識(shí)服務(wù)體系與完善讀者服務(wù)工作的基礎(chǔ),對(duì)數(shù)據(jù)的分析,包括常規(guī)分析、時(shí)間順序分析、關(guān)聯(lián)數(shù)據(jù)分析、社會(huì)網(wǎng)絡(luò)分析、移動(dòng)平均線等廣度及深度分析。通過(guò)對(duì)圖書(shū)館數(shù)據(jù)的分析,可以了解圖書(shū)館業(yè)務(wù)工作的開(kāi)展情況,客觀反饋?zhàn)x者對(duì)圖書(shū)館的需求與服務(wù)評(píng)價(jià),快速地做出決策,了解最新知識(shí)服務(wù)趨勢(shì),快速調(diào)整信息服務(wù)方向,利用大數(shù)據(jù)技術(shù)提升知識(shí)服務(wù)能力,降低知識(shí)服務(wù)成本。

3 大數(shù)據(jù)時(shí)代數(shù)字圖書(shū)館建設(shè)思路

3.1 技術(shù)方面

3.1.1 數(shù)據(jù)存儲(chǔ)

支撐大數(shù)據(jù)的核心硬件是存儲(chǔ)系統(tǒng),當(dāng)前網(wǎng)絡(luò)化存儲(chǔ)根據(jù)傳輸協(xié)議,分為網(wǎng)絡(luò)接入存儲(chǔ)(NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)。大數(shù)據(jù)時(shí)代,隨著海量的非結(jié)構(gòu)化數(shù)據(jù)的不斷產(chǎn)生,“NAS+SAN”(也就是統(tǒng)一存儲(chǔ)),將是數(shù)字圖書(shū)館建設(shè)過(guò)程中主要的存儲(chǔ)解決方案。統(tǒng)一存儲(chǔ)的磁盤(pán)陣列配置多端口的存儲(chǔ)控制器和一個(gè)管理接口,允許存儲(chǔ)管理員按需創(chuàng)建存儲(chǔ)池或空間,并將其提供給不同訪問(wèn)類型的主機(jī)系統(tǒng),可適應(yīng)業(yè)務(wù)和應(yīng)用變化的動(dòng)態(tài)需求。

3.1.2 基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)

云計(jì)算的出現(xiàn)給數(shù)據(jù)挖掘帶來(lái)了新的機(jī)遇,通常認(rèn)為云計(jì)算包括3個(gè)層次的服務(wù),基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平 臺(tái) 即 服 務(wù) (PaaS)、軟 件 即 服 務(wù)(SaaS)[1]?;谠朴?jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)(如圖1所示),采用分層的思想,自下而上依次為:云計(jì)算支撐平臺(tái)層、數(shù)據(jù)挖掘能力層、數(shù)據(jù)挖掘云服務(wù)層。

圖1 基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)

云計(jì)算支撐平臺(tái)層主要是提供分布式文件存儲(chǔ)、數(shù)據(jù)庫(kù)存儲(chǔ)以及計(jì)算能力;數(shù)據(jù)挖掘能力層主要是提供挖掘的基礎(chǔ)能力,包含算法服務(wù)管理、調(diào)度引擎、數(shù)據(jù)并行處理框架,提供對(duì)數(shù)據(jù)挖掘云服務(wù)層的能力支撐;數(shù)據(jù)挖掘云服務(wù)層主要是對(duì)外提供數(shù)據(jù)挖掘云服務(wù)。

虛擬化技術(shù)是數(shù)據(jù)挖掘云服務(wù)技術(shù)的支撐,數(shù)字圖書(shū)館建設(shè)數(shù)據(jù)挖掘云服務(wù)平臺(tái),要依賴于虛擬化技術(shù),需要計(jì)算資源,需要自主分配和調(diào)度。在滿足讀者需求方面,要爭(zhēng)取大眾參與,有了大眾的參與,個(gè)性化和多樣化的需求就能夠得到更好的滿足。為增加服務(wù)的可信性,算法要通用、可查、可調(diào)、可視,并且要注重對(duì)隱私數(shù)據(jù)進(jìn)行加密保護(hù)。

3.1.3 數(shù)據(jù)分析

大數(shù)據(jù)分析是指在研究大量的數(shù)據(jù)過(guò)程中,尋找模式、相關(guān)性和其他有用的信息,可以幫助圖書(shū)館更好地適應(yīng)變化,并做出更明智的決策。在大數(shù)據(jù)處理分析過(guò)程中可用的工具有很多,如Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。具有高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性、成本低等優(yōu)點(diǎn);Storm是自由的開(kāi)源軟件,易于設(shè)置和操作,能可靠地處理龐大的數(shù)據(jù)流,并且可以應(yīng)用到實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、不停頓的計(jì)算、數(shù)據(jù)抽取、轉(zhuǎn)換和加載等許多領(lǐng)域。其他分析工具還有 Apache Drill、HPCC、RapidMiner等[2],各館可以根據(jù)實(shí)際需要進(jìn)行選擇使用。

3.2 資源建設(shè)

3.2.1 資源體系建設(shè)

大數(shù)據(jù)時(shí)代,文獻(xiàn)信息獲取方式與文獻(xiàn)資源發(fā)行方式都發(fā)生了巨大的改變。讀者對(duì)資源獲取的便捷性、可視化要求逐漸提高,而信息資源生產(chǎn)、組織與服務(wù)正在向著載體多樣化、開(kāi)放獲取、泛出版方向轉(zhuǎn)變[3]。這就要求,圖書(shū)館必須重新定義資源建設(shè),在整個(gè)數(shù)字空間發(fā)現(xiàn)、評(píng)估、登記、采集、描述和組織各類信息資源,植根于讀者環(huán)境,構(gòu)建開(kāi)放化(多樣的信息對(duì)象與信息種類)、數(shù)據(jù)化(可計(jì)算的信息資源)、語(yǔ)義化(支持用戶驅(qū)動(dòng)的信息資源環(huán)境)的信息資源體系。在信息資源體系建設(shè)的過(guò)程中要堅(jiān)持三個(gè)原則:一是優(yōu)化夯實(shí)數(shù)字文獻(xiàn)資源保障體系,二是積極推進(jìn)長(zhǎng)期保存與本地倉(cāng)儲(chǔ),三是持續(xù)推進(jìn)開(kāi)放信息資源共建共享建設(shè)。

3.2.2 資源建設(shè)要注意的幾個(gè)問(wèn)題

第一,原生特色資源開(kāi)發(fā)問(wèn)題。大數(shù)據(jù)環(huán)境下,圖書(shū)館沒(méi)有必要也不可能將全部館藏?cái)?shù)字化,但應(yīng)該對(duì)具有特色,形成了一定規(guī)模的、結(jié)構(gòu)比較完整的原生信息,進(jìn)行開(kāi)發(fā)整理。例如美國(guó)加州圣何塞大學(xué)的貝多芬圖書(shū)館,現(xiàn)在已經(jīng)發(fā)展成為歐洲之外最大的貝多芬文獻(xiàn)資源收藏地,出版有《貝多芬期刊》,提供在線目錄——貝多芬門(mén)戶,不僅為參觀者和研究者提供服務(wù),還為喜歡貝多芬卻不能實(shí)地到訪的人提供服務(wù)[4]。第二,知識(shí)產(chǎn)權(quán)問(wèn)題。要遵守知識(shí)產(chǎn)權(quán)法律法規(guī),慎重對(duì)待版權(quán)、著作權(quán)和網(wǎng)絡(luò)傳播權(quán)。第三,標(biāo)準(zhǔn)化問(wèn)題。要推動(dòng)數(shù)字資源建設(shè)的國(guó)際化進(jìn)程,優(yōu)先采用國(guó)際已有的成熟標(biāo)準(zhǔn),實(shí)現(xiàn)信息資源的無(wú)縫鏈接。第四,信息安全問(wèn)題。在數(shù)據(jù)共享、數(shù)據(jù)公開(kāi)的大趨勢(shì)下,需要從技術(shù)、管理和法律等多方面建立完整的安全體系。

3.3 服務(wù)方向

3.3.1 個(gè)性化知識(shí)服務(wù)

數(shù)字圖書(shū)館應(yīng)該在基于云計(jì)算等技術(shù)模式的支持下,進(jìn)行數(shù)字資源的深層次開(kāi)發(fā),使系統(tǒng)具備更強(qiáng)大的互操作性,并能夠在此基礎(chǔ)上進(jìn)行系統(tǒng)定制。如可以從讀者滿意度調(diào)查、讀者興趣、資源利用、分布及發(fā)展趨勢(shì)等方面的海量數(shù)據(jù)中,篩選出有用信息,并通過(guò)可視化技術(shù)展示出來(lái),進(jìn)行多種角度解析,以便跟蹤并推送讀者所關(guān)注的信息,滿足讀者的個(gè)性化需求,拓展新型知識(shí)服務(wù)功能。

3.3.2 協(xié)作共享服務(wù)

數(shù)字圖書(shū)館應(yīng)積極調(diào)動(dòng)相關(guān)行業(yè)的優(yōu)勢(shì)力量,提升服務(wù)能力和運(yùn)作效率,不斷充實(shí)自身的業(yè)務(wù)流程,實(shí)現(xiàn)不同用戶群體之間的信息共享與利用。如2009年,歐洲一些領(lǐng)先研究型圖書(shū)館和科技信息研究機(jī)構(gòu)建立了伙伴關(guān)系,致力于改善互聯(lián)網(wǎng)上獲取科學(xué)數(shù)據(jù)的簡(jiǎn)易性,2012年5月,美國(guó)行政管理和預(yù)算局則發(fā)布了《數(shù)字政府:建立一個(gè)面向21世紀(jì)的平臺(tái)來(lái)更好地服務(wù)美國(guó)人民》的行政指令。

3.3.3 智能化服務(wù)

智能信息服務(wù)已成功應(yīng)用在知識(shí)管理、智能軟件幫助、用戶服務(wù)、網(wǎng)上營(yíng)銷等多個(gè)領(lǐng)域?,F(xiàn)階段,智能短信服務(wù)、智能聊天機(jī)器人和智能搜索引擎等,已經(jīng)成為新的應(yīng)用亮點(diǎn),智能信息服務(wù)正在不斷走向?qū)嵱没痛蟊娀G迦A大學(xué)圖書(shū)館在這方面進(jìn)行了有益地嘗試和探索,其應(yīng)用的具有自動(dòng)學(xué)習(xí)功能的機(jī)器人“小圖”就是在線咨詢服務(wù)的一種全新體驗(yàn)。

[1]Peter M,Timothy G.The NIST Definition of Cloud Computing[S].Recommendation of the National Institute of Standards and Technology,2011.

[2]吳昱.大數(shù)據(jù)精準(zhǔn)挖掘[M].北京:化學(xué)工業(yè)出版社,2014:3

[3]Youngsuk Chi(Y.S.Chi).數(shù)字時(shí)代的學(xué)術(shù)出版:最新進(jìn)展、當(dāng)前趨勢(shì)與未來(lái)展望[EB/OL].[2014-10-08].http://ir.las.ac.cn/handle/12502/6452.

[4]Fang.馬丁路德金圖書(shū)館內(nèi)有貝多芬博物館[EB/OL].[2014-11-02].http://blog.sina.com.cn/s/blog_4e276 d2c0102e453.html.

猜你喜歡
數(shù)據(jù)挖掘數(shù)字圖書(shū)館
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
圖書(shū)館
答數(shù)字
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
數(shù)字看G20
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
去圖書(shū)館
成雙成對(duì)
基于GPGPU的離散數(shù)據(jù)挖掘研究
數(shù)字變變變
遵义市| 尼玛县| 东辽县| 肇东市| 连山| 麻阳| 芜湖市| 平罗县| 嵊州市| 梓潼县| 阳原县| 淳安县| 宜黄县| 渑池县| 涟源市| 仪陇县| 丹凤县| 观塘区| 搜索| 林芝县| 巴青县| 道孚县| 绍兴市| 哈密市| 封开县| 永济市| 榕江县| 阜宁县| 越西县| 柳河县| 齐河县| 大厂| 桐乡市| 南召县| 江津市| 崇州市| 都江堰市| 房产| 桂平市| 鄂托克前旗| 宁远县|