国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校圖書館古籍大數(shù)據(jù)應(yīng)用研究

2016-02-13 08:28:41張若雅
圖書館研究 2016年5期
關(guān)鍵詞:古籍圖書館

張若雅

(蘇州大學(xué)圖書館,江蘇蘇州215123)

高校圖書館古籍大數(shù)據(jù)應(yīng)用研究

張若雅

(蘇州大學(xué)圖書館,江蘇蘇州215123)

大數(shù)據(jù)時(shí)代來臨,高校圖書館傳統(tǒng)的古籍整理與服務(wù)模式已難以適應(yīng)人文學(xué)科研究的需要,探索古籍的大數(shù)據(jù)應(yīng)用勢(shì)在必行。分析了古籍在信息提取、整理和應(yīng)用方面與大數(shù)據(jù)的密切關(guān)系,探討了當(dāng)前高校圖書館古籍服務(wù)存在的困境,并從數(shù)據(jù)的獲取與集成、存儲(chǔ)與管理、加工與分析三個(gè)方面給出了實(shí)現(xiàn)古籍大數(shù)據(jù)的有效途徑。在此基礎(chǔ)上,提出四種古籍大數(shù)據(jù)的應(yīng)用模式,以推動(dòng)高校圖書館古籍大數(shù)據(jù)的盡快落地。

大數(shù)據(jù);古籍;高校圖書館

2015年9月,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,系統(tǒng)部署大數(shù)據(jù)發(fā)展工作。2016年3月,《國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十三個(gè)五年規(guī)劃綱要(草案)》出爐,重點(diǎn)提出要實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略。這意味著大數(shù)據(jù)已經(jīng)正式上升到了國(guó)家戰(zhàn)略的高度,得到了前所未有的重視。

大數(shù)據(jù)是一個(gè)包含不同類別的、體量巨大到無法在可承受的時(shí)間范圍內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)工具進(jìn)行收集、管理和處理的海量數(shù)據(jù)集合。具有4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)[1]。大數(shù)據(jù)的意義不僅在于對(duì)數(shù)據(jù)量級(jí)的描述,還在于對(duì)數(shù)據(jù)進(jìn)行專業(yè)化處理,挖掘其價(jià)值與規(guī)律,進(jìn)而指導(dǎo)人們的決策,提升運(yùn)營(yíng)效率。不同于以往的小數(shù)據(jù)處理模式,大數(shù)據(jù)處理不是通過隨機(jī)抽樣的方法,而是將全部數(shù)據(jù)納入分析范疇[1]。這樣就避免了抽樣數(shù)據(jù)的片面性和偶然性,實(shí)現(xiàn)了在全樣本數(shù)據(jù)集中完整把握未知領(lǐng)域與事件關(guān)聯(lián)性的目的,發(fā)現(xiàn)了過去無法預(yù)見甚至是匪夷所思的機(jī)遇和商機(jī)[2]。顯然,大數(shù)據(jù)更關(guān)注的是“相關(guān)性”而不是“因果”,對(duì)于“為什么”不必過多探究,只需要通過事物之間的聯(lián)系來準(zhǔn)確預(yù)測(cè)未來的發(fā)展走向,這就是大數(shù)據(jù)的核心。因此,大數(shù)據(jù)徹底顛覆了過去人們的思維方式和認(rèn)知理念,給各行各業(yè)都帶來了深刻的影響和變革。

高校圖書館是一個(gè)為讀者提供信息和資源的媒介,數(shù)據(jù)在這里本身就是敏感的。雖然單個(gè)圖書館的數(shù)據(jù)還達(dá)不到海量的標(biāo)準(zhǔn),但大數(shù)據(jù)理論從全體數(shù)據(jù)中找關(guān)聯(lián)并挖掘提取有價(jià)值信息的理念為圖書館的服務(wù)拓展提供了一條全新的思路。圖書館界已經(jīng)在大數(shù)據(jù)應(yīng)用上取得突破,然而,古籍的大數(shù)據(jù)應(yīng)用卻少人問津。大數(shù)據(jù)時(shí)代來臨,高校圖書館的古籍整理和讀者服務(wù),仍按部就班地遵循著傳統(tǒng)方式,與人文學(xué)科研究的拓新產(chǎn)生落差。探索高校圖書館的古籍大數(shù)據(jù)應(yīng)用,既是新形勢(shì)下圖書館職能轉(zhuǎn)變和服務(wù)創(chuàng)新的要求,又是提高其核心競(jìng)爭(zhēng)力的必由之路。

1 古籍與大數(shù)據(jù)

1.1 古籍信息中的大數(shù)據(jù)

數(shù)據(jù)是大數(shù)據(jù)處理鏈條的基礎(chǔ),古籍融入大數(shù)據(jù)時(shí)代的首要條件就是文本的數(shù)據(jù)化。長(zhǎng)久以來,古籍的文本內(nèi)容完全以紙本為載體,依靠人工的整理和保存?zhèn)鞒?。龐大的知識(shí)信息散落在一部部古書之中,給資源的獲取和利用帶來了巨大的障礙。20世紀(jì)90年代,現(xiàn)代信息技術(shù)飛速發(fā)展,我國(guó)開始嘗試中文古籍的數(shù)字化工作,二十多年來取得了豐碩的成果,古籍收藏單位和數(shù)據(jù)加工企業(yè)合作研發(fā)了多項(xiàng)古籍?dāng)?shù)字產(chǎn)品,為古籍的檢索和利用提供了極大的便利。如開發(fā)了《文淵閣四庫(kù)全書》《四部叢刊》《中國(guó)基本古籍庫(kù)》《國(guó)學(xué)寶典》等專業(yè)古籍?dāng)?shù)據(jù)庫(kù);完成了“高校古文獻(xiàn)資源庫(kù)”(CALIS三期)、“大學(xué)數(shù)字圖書館國(guó)際合作計(jì)劃”(CADAL)等古籍信息資源的共建共享項(xiàng)目;搭建了各種古籍?dāng)?shù)字資源平臺(tái)和書目檢索系統(tǒng);構(gòu)建了各類地方特色數(shù)據(jù)庫(kù);涌現(xiàn)了一批各種格式的網(wǎng)絡(luò)電子文獻(xiàn);實(shí)現(xiàn)了部分海外中華古籍的數(shù)字化回歸。這些經(jīng)過數(shù)字化的古籍文獻(xiàn),能夠被計(jì)算機(jī)識(shí)別和存儲(chǔ),數(shù)量龐大,類型多樣,已經(jīng)從文本變?yōu)閿?shù)據(jù),并具有了一定的大數(shù)據(jù)特征。這為古籍的大數(shù)據(jù)應(yīng)用奠定了基礎(chǔ)。

1.2 古籍整理中的大數(shù)據(jù)

傳統(tǒng)的古籍整理,一直是一個(gè)更偏重于實(shí)踐的理論范疇。從選本、辨?zhèn)?,到???、注釋,無不需要深厚的文獻(xiàn)學(xué)知識(shí)功底和長(zhǎng)時(shí)間的材料積累。對(duì)于圖書館的古籍整理來說,重點(diǎn)是通過對(duì)古籍的分類、鑒定、編目、著錄來幫助讀者檢索利用,同時(shí)還承擔(dān)著古籍保護(hù)和修復(fù)的重任。在傳統(tǒng)的古籍整理范式下,工作人員需要日復(fù)一日逐本翻閱古籍,進(jìn)行書名、著者、版本、版式、源流演變等相關(guān)信息的記錄和考證,制作出分類卡片和館藏目錄。這樣費(fèi)時(shí)耗力、原始低效的工作方法,已不能適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展要求。計(jì)算機(jī)應(yīng)用逐漸深入人文領(lǐng)域,使得古籍整理的路徑和方法有了更多的選擇。當(dāng)今的計(jì)算機(jī)技術(shù),已經(jīng)可以實(shí)現(xiàn)對(duì)文本的自動(dòng)???、自動(dòng)切分和標(biāo)點(diǎn)、自動(dòng)注釋和翻譯,還可以借助計(jì)算機(jī)軟件編制古籍書目索引和全文檢索系統(tǒng),并滿足知識(shí)聚類的需求。由此,古籍整理的理念和內(nèi)容發(fā)生了深刻的變革,古籍整理的程式大大簡(jiǎn)化,知識(shí)獲取的規(guī)律有跡可循,工作人員可以將更多的時(shí)間和精力投入到數(shù)據(jù)的深入挖掘和理論探索中,古籍整理的范式也從內(nèi)容整理進(jìn)化到知識(shí)整理的范疇。在此過程中,古籍信息得到深度解析,古籍語義得到完整展現(xiàn),對(duì)讀者的個(gè)性化知識(shí)服務(wù)也成為了可能[3]。同時(shí),引入大數(shù)據(jù)理論的古籍整理方式也大大降低了對(duì)紙本古籍的損耗,長(zhǎng)久困擾圖書館的“藏”與“用”的矛盾得到徹底解決。

1.3 古籍應(yīng)用中的大數(shù)據(jù)

在大數(shù)據(jù)和云計(jì)算出現(xiàn)之前,讀者要想查閱某一方面的古籍資料,主要依靠圖書館的紙本館藏。囿于個(gè)人知識(shí)結(jié)構(gòu)的局限性,卷帙浩繁的古籍資源與研究者之間形成了嚴(yán)重的信息不對(duì)等。時(shí)空、地域等因素都可能使研究結(jié)果產(chǎn)生偏差,很難對(duì)某一領(lǐng)域形成整體的把握。因此,研究者往往縮小研究范圍,截取某一時(shí)段、某一地區(qū)或某一類別作為研究對(duì)象,在相關(guān)的古籍中抽取部分?jǐn)?shù)據(jù)作為論據(jù),再進(jìn)行理論闡釋進(jìn)而得出結(jié)論。這樣的結(jié)論難免會(huì)帶有主觀性和局限性,不利于學(xué)科的整體發(fā)展。大數(shù)據(jù)的理念和技術(shù),為古籍的充分利用提供了可能。研究者可以將古籍中的全部數(shù)據(jù)作為一個(gè)整體,從中很容易發(fā)現(xiàn)問題的實(shí)質(zhì)和發(fā)展規(guī)律。過去從未發(fā)現(xiàn)的事物之間的相關(guān)性為研究打開了全新的視角,帶來了更科學(xué)的研究方法和研究結(jié)論[4]。

2 大數(shù)據(jù)時(shí)代高校圖書館古籍服務(wù)之困境

2.1 現(xiàn)狀

(1)服務(wù)方式陳舊。多數(shù)高校圖書館古籍部門仍沿用舊的服務(wù)模式。古籍館員坐守書庫(kù),根據(jù)讀者填寫的索書單入庫(kù)取書。雖程序嚴(yán)謹(jǐn),但主動(dòng)性欠缺。有的圖書館對(duì)于線裝古籍及民國(guó)時(shí)期圖書,不允許拍照復(fù)印,也不接待非畢業(yè)班本科生入館借閱,這降低了古籍資料的使用效率,剝奪了讀者的公平使用權(quán)利。有關(guān)古籍的參考咨詢服務(wù)亦不成體系。館員對(duì)于讀者的需求把握不足,多是被動(dòng)等待讀者咨詢,而沒有主動(dòng)服務(wù)的意識(shí)和途徑,更不能深入科研團(tuán)體內(nèi)部為讀者提供文獻(xiàn)支持和課題指導(dǎo)。少數(shù)圖書館可以提供部分古籍的原文傳遞和在線閱覽服務(wù),但是并沒有形成切實(shí)可行的使用規(guī)范,無法大規(guī)模推廣。

(2)讀者體驗(yàn)欠佳。古籍閱覽室的讀者多為研究型讀者,他們對(duì)于古籍文獻(xiàn)的需求有很強(qiáng)的專業(yè)性。獲取文獻(xiàn)不是最終目的,從文獻(xiàn)中提取有價(jià)值的信息才是讀者的期望。目前古籍服務(wù)人員日常更多承擔(dān)的是書籍管理的任務(wù),并不能很好地指導(dǎo)讀者深入理解和使用文獻(xiàn),更做不到收集讀者的大數(shù)據(jù),根據(jù)讀者的需求和喜好主動(dòng)提供個(gè)性化的學(xué)科服務(wù),因此并不能令讀者感到滿意。加之大數(shù)據(jù)時(shí)代來臨,讀者已經(jīng)有更多的文獻(xiàn)獲取渠道,各種數(shù)據(jù)庫(kù)和電子資源可以在很大程度上滿足讀者的需要,讀者不必來館查閱古籍。另外,圖書館提供的傳統(tǒng)檢索工具設(shè)置陳舊,實(shí)用性較差,不足以支持讀者的各種模糊搜索請(qǐng)求。以上這些因素使得高校圖書館古籍用戶流失嚴(yán)重,來閱覽室的讀者越來越少。長(zhǎng)此以往,古籍服務(wù)人員終有一天會(huì)失去存在的必要。

(3)館際交流不夠。大數(shù)據(jù)時(shí)代具有數(shù)據(jù)共享的特點(diǎn),而絕大多數(shù)高校圖書館古籍資源都只對(duì)本校師生開放,使得古籍信息不能得到合理的流動(dòng),尤其是一些孤本、善本、稀有珍本不能被更多的古籍研究者和愛好者得見,實(shí)乃憾事。有些高校館已經(jīng)完成館藏古籍的全文數(shù)字化,但并不開放全網(wǎng)共享。各館訂購(gòu)的古籍?dāng)?shù)據(jù)庫(kù)更是需要本校ID或是在指定機(jī)器上才能檢索使用。對(duì)于高校館參與的數(shù)字共建共享項(xiàng)目,一般都只接受參建館讀者的使用要求,而大量的非參建館讀者只能望洋興嘆。館際資源無法自由交流,古籍信息各自分割形成孤島,與大數(shù)據(jù)時(shí)代數(shù)據(jù)爆炸共享的特征格格不入。

2.2 原因

(1)服務(wù)意識(shí)不夠。由于古籍的特殊性和古籍保護(hù)的要求,長(zhǎng)期以來,高校圖書館都更重視“藏”而忽視“用”。古籍整理“慢工出細(xì)活”的工作狀態(tài),一方面促成了古籍館員細(xì)致而嚴(yán)謹(jǐn)?shù)墓ぷ髯黠L(fēng),另一方面,也造就了墨守成規(guī)的“慢服務(wù)”模式。古籍服務(wù)人員思維固化,使得古籍信息咨詢服務(wù)裹足不前。這導(dǎo)致在大數(shù)據(jù)時(shí)代,古籍館員沒有迅速形成準(zhǔn)確而清醒的認(rèn)識(shí),缺乏將數(shù)據(jù)轉(zhuǎn)換成知識(shí)的思想意識(shí)及解決方案[5],也無法對(duì)未來的發(fā)展趨勢(shì)作出預(yù)測(cè),進(jìn)而更加大了與讀者不斷增長(zhǎng)的需求之間的落差[6]。因此,古籍人員應(yīng)勇敢邁出踐行的腳步,調(diào)整服務(wù)策略,培養(yǎng)大數(shù)據(jù)思維,推動(dòng)古籍服務(wù)的創(chuàng)新與升級(jí)。

(2)知識(shí)結(jié)構(gòu)欠缺。大數(shù)據(jù)時(shí)代的圖書館人才必須要具備多重知識(shí)結(jié)構(gòu),既要有過硬的學(xué)科知識(shí)儲(chǔ)備,又要掌握?qǐng)D書館學(xué)、情報(bào)學(xué)、信息檢索、現(xiàn)代計(jì)算機(jī)技術(shù)、數(shù)據(jù)分析、外語等多項(xiàng)跨學(xué)科技能,甚至還要錘煉自己的溝通能力和營(yíng)銷技巧,要求可謂非常之高。目前的古籍館員大多是文史專業(yè)的碩博士畢業(yè)生,雖然具有深厚的古文化功底,也具備圖情專業(yè)的基本知識(shí),但是知識(shí)構(gòu)成比較單一,無法兼顧人文與技術(shù)的雙重要求,對(duì)科技前沿的動(dòng)態(tài)把握不足。如何調(diào)整古籍館員的知識(shí)結(jié)構(gòu),面對(duì)人文數(shù)字化的挑戰(zhàn),是今后高校圖書館必須思考的問題。

(3)基礎(chǔ)設(shè)施滯后。大數(shù)據(jù)的實(shí)時(shí)處理和挖掘分析需要強(qiáng)大的軟硬件設(shè)備予以支持。數(shù)字化后的古籍?dāng)?shù)據(jù)量非常龐大,讀者與圖書館交互產(chǎn)生的數(shù)據(jù)飛速增長(zhǎng),數(shù)據(jù)類型和結(jié)構(gòu)越來越多元化,這對(duì)圖書館的存儲(chǔ)及計(jì)算能力提出了極大挑戰(zhàn)。要高效處理超大規(guī)模的復(fù)雜數(shù)據(jù),實(shí)現(xiàn)古籍的大數(shù)據(jù)管理和應(yīng)用,就必須配備與之相適應(yīng)的計(jì)算機(jī)集群和軟件工具。然而高校圖書館的資金有限,技術(shù)能力不足,基礎(chǔ)設(shè)施建設(shè)滯后,難以滿足新型的數(shù)據(jù)挖掘方法和深度分析的需求[7]。

3 高校圖書館古籍大數(shù)據(jù)的實(shí)現(xiàn)途徑

傳統(tǒng)模式的局限性日益凸顯,技術(shù)與人文的合流才是大數(shù)據(jù)時(shí)代高校圖書館古籍應(yīng)用與服務(wù)探索的方向。從技術(shù)上看,古籍大數(shù)據(jù)是在數(shù)據(jù)的獲取與集成、存儲(chǔ)與管理、加工與分析的過程中實(shí)現(xiàn)的。

3.1 數(shù)據(jù)的獲取與集成

數(shù)據(jù)獲取是大數(shù)據(jù)應(yīng)用的基礎(chǔ)。高校圖書館古籍?dāng)?shù)據(jù)來源主要有館藏資源數(shù)據(jù)、網(wǎng)絡(luò)共享數(shù)據(jù)、行為環(huán)境數(shù)據(jù)。

館藏資源數(shù)據(jù)是通過將館藏紙本、圖片、音像資料等掃描及數(shù)字化之后形成的結(jié)構(gòu)化數(shù)據(jù),較容易被獲取。圖書館平臺(tái)中的古籍書目信息、自建特色數(shù)據(jù)庫(kù)、館藏古籍全文數(shù)字化資源等都屬于此。但要明確的是,大數(shù)據(jù)指的不是樣本的數(shù)據(jù),而是全部的數(shù)據(jù)。由于古籍年代久遠(yuǎn)、大量散佚、紙張薄脆等因素,加之高校圖書館的人力財(cái)力不足等問題,仍然有大量的古籍原本沒有得到數(shù)字化。數(shù)據(jù)的不全面阻礙了古籍大數(shù)據(jù)的開展。因此,圖書館古籍?dāng)?shù)字化事業(yè)必須要持續(xù)推進(jìn),最終實(shí)現(xiàn)所有存世古籍的數(shù)字化和數(shù)據(jù)化。

網(wǎng)絡(luò)共享數(shù)據(jù)包括在互聯(lián)網(wǎng)能免費(fèi)獲取或通過購(gòu)買可以得到的各類文獻(xiàn)資料數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)和古籍?dāng)?shù)據(jù)庫(kù)。圖書館每年都在擴(kuò)充和整合網(wǎng)絡(luò)電子數(shù)據(jù)庫(kù)資源,將這部分?jǐn)?shù)據(jù)作為館藏古籍?dāng)?shù)據(jù)資源的補(bǔ)充供讀者使用。然而想獲取高質(zhì)量的完整數(shù)據(jù)也并非易事。如中國(guó)知網(wǎng)、萬方數(shù)據(jù)庫(kù)等文獻(xiàn)資源數(shù)據(jù)庫(kù),高校圖書館付費(fèi)后只能得到檢索和下載權(quán)限,而無法獲取可用于研究的數(shù)據(jù);不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)格式不同導(dǎo)致整合的困難。此外,網(wǎng)絡(luò)古籍?dāng)?shù)據(jù)的質(zhì)量良莠不齊,錯(cuò)誤率較高,清晰度較差,重復(fù)建設(shè)嚴(yán)重,需要圖書館在數(shù)據(jù)收集時(shí)通過技術(shù)手段保障數(shù)據(jù)質(zhì)量。

行為環(huán)境數(shù)據(jù)指的是圖書館記錄到的所有與讀者行為相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)。包括讀者的進(jìn)出館及借閱情況、OPAC檢索及數(shù)據(jù)庫(kù)訪問記錄、社交媒體的使用習(xí)慣、與圖書館的互動(dòng)信息等。古籍部門可以通過刷卡設(shè)備記錄讀者的入館時(shí)間和次數(shù),找尋讀者來館的規(guī)律;通過借閱登記表格統(tǒng)計(jì)書籍的使用頻次,頻率高的書籍優(yōu)先數(shù)字化;調(diào)取讀者的文獻(xiàn)檢索記錄,挖掘潛在的讀者需求;收集移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù),了解讀者喜好;架設(shè)傳感器采集環(huán)境數(shù)據(jù),優(yōu)化資源配置。這些數(shù)據(jù)能幫助古籍館員有效地分析和預(yù)測(cè)知識(shí)服務(wù)的方向,是圖書館古籍大數(shù)據(jù)的重要組成部分。

收集數(shù)據(jù)的同時(shí),還要不斷集成和整合,才能最大限度發(fā)揮功效。清華大學(xué)圖書館已經(jīng)嘗試在檢索端綜合運(yùn)用多來源數(shù)據(jù),讀者可以在一個(gè)檢索頁面一站式獲得書、刊、文章及詞條、書評(píng)等不同層次、不同角度的信息內(nèi)容[8],值得更多圖書館借鑒學(xué)習(xí)。

當(dāng)然,單個(gè)圖書館的數(shù)據(jù)是有限的。要想讓古籍的大數(shù)據(jù)應(yīng)用更加有效,需要積極開展與相關(guān)行業(yè)和館際間的合作,促成學(xué)科聯(lián)盟的建立。屆時(shí),聯(lián)盟間形成統(tǒng)一的大數(shù)據(jù)運(yùn)行機(jī)制,統(tǒng)一數(shù)據(jù)格式,共享數(shù)據(jù)內(nèi)容,在數(shù)據(jù)挖掘、分析和應(yīng)用上通力合作,共同促進(jìn)古籍知識(shí)的傳播與再利用。

3.2 數(shù)據(jù)的存儲(chǔ)與管理

巨量的復(fù)雜數(shù)據(jù)如何存儲(chǔ)與管理是實(shí)現(xiàn)古籍大數(shù)據(jù)必須要解決的問題。為數(shù)據(jù)找一個(gè)可以分類管理的“倉(cāng)庫(kù)”才能將大數(shù)據(jù)的價(jià)值充分發(fā)揮。

古籍大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化多種類型。目前的大數(shù)據(jù)處理還無法依靠單一的技術(shù)和平臺(tái)來滿足所有的應(yīng)用需求,因此必須細(xì)化處理技術(shù),根據(jù)不同的數(shù)據(jù)類型選擇最佳的平臺(tái)和產(chǎn)品來存儲(chǔ)和分析。這就要求建立一個(gè)分布式的混搭架構(gòu),用基于列存儲(chǔ)+MPP架構(gòu)的新型數(shù)據(jù)庫(kù)集群來處理PB級(jí)別的、高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),用Hadoop生態(tài)系統(tǒng)集群來處理難度更大的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),以此來支撐大數(shù)據(jù)的存儲(chǔ)需求,提升數(shù)據(jù)處理性能[9]。在存儲(chǔ)某一類型數(shù)據(jù)時(shí),不需要將所有數(shù)據(jù)置于同一個(gè)存儲(chǔ)空間,而要根據(jù)數(shù)據(jù)的使用頻率和特點(diǎn)分層存儲(chǔ)管理,并根據(jù)數(shù)據(jù)特點(diǎn)的變化即時(shí)調(diào)整存儲(chǔ)層,使數(shù)據(jù)存儲(chǔ)具有高度的靈活性和延展性。

大數(shù)據(jù)的存儲(chǔ)和管理需要大量的資金投入,高校圖書館難以依靠自身力量實(shí)現(xiàn)。云計(jì)算解決了這一困局。這是一個(gè)虛擬化的基于互聯(lián)網(wǎng)的運(yùn)算方式,運(yùn)用分布式計(jì)算機(jī)系統(tǒng)。從云計(jì)算概念延伸發(fā)展出來的云存儲(chǔ),能將網(wǎng)絡(luò)中大量不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同為用戶提供數(shù)據(jù)存儲(chǔ)和訪問功能。云計(jì)算還擁有超強(qiáng)的運(yùn)算能力,能將分布在“云”上的可配置計(jì)算資源快速提供給用戶[10]。因此,利用云計(jì)算平臺(tái),古籍?dāng)?shù)據(jù)的存儲(chǔ)、管理、計(jì)算和應(yīng)用得以實(shí)現(xiàn)。

3.3 數(shù)據(jù)的加工與分析

只有將數(shù)據(jù)的潛在價(jià)值和關(guān)聯(lián)挖掘出來,大數(shù)據(jù)才具有現(xiàn)實(shí)的意義。通過數(shù)據(jù)的加工與分析,古籍信息中各種規(guī)律和現(xiàn)象的揭示變得更加直觀和觸手可及。

(1)知識(shí)挖掘。讀者對(duì)圖書館古籍?dāng)?shù)字資源的使用多數(shù)還停留在檢索功能上,沒有將其當(dāng)作數(shù)據(jù)的觀念和習(xí)慣。因此,圖書館需要借助大數(shù)據(jù)分析工具對(duì)大量異構(gòu)的、模糊的、無序的古籍?dāng)?shù)據(jù)進(jìn)行深度知識(shí)挖掘與知識(shí)關(guān)聯(lián),拓展讀者對(duì)于古籍文獻(xiàn)的理解和認(rèn)識(shí)深度。具體應(yīng)用中,對(duì)古籍的知識(shí)挖掘主要是通過文本挖掘技術(shù)來實(shí)現(xiàn)的。古代典籍的知識(shí)蘊(yùn)含在文本內(nèi)容之中,時(shí)空跨度大,覆蓋面廣。遵循不同朝代的古漢語詞匯與語法的不同特點(diǎn),對(duì)古籍文本語言進(jìn)行詞頻分析。通過對(duì)歷代人物、官職、地名、事件等特定的實(shí)體名詞的聚類分析,得出可靠的時(shí)代、文化、歷史的變化規(guī)律[11]。借助文本信息的分析,揭示古籍作品的人物關(guān)系、情感傾向和風(fēng)格特點(diǎn)。知識(shí)挖掘解決了許多前人無法回答的問題,發(fā)現(xiàn)了很多前所未知的現(xiàn)象,為圖書館的知識(shí)服務(wù)提供了全新的發(fā)展方向。

(2)文本可視化。古籍文本蘊(yùn)含著豐富的語義,讀者單純通過閱讀典籍很難抓取到其中隱含的內(nèi)容和關(guān)聯(lián)??梢暬夹g(shù)能夠通過對(duì)文本信息的分析,將其中紛亂復(fù)雜又難以用語言表達(dá)的內(nèi)容和規(guī)律進(jìn)行抽象概括,再以圖形化或視覺符號(hào)的形式呈現(xiàn)出來,使讀者可以運(yùn)用強(qiáng)大的視覺處理能力快速直觀地理解古籍信息的內(nèi)在結(jié)構(gòu)和關(guān)聯(lián),建立全新的認(rèn)知系統(tǒng)。由此,隱性知識(shí)在可視化分析中被挖掘了出來,變?yōu)樽x者知識(shí)庫(kù)中的顯性知識(shí),完善了讀者的古籍知識(shí)架構(gòu)[12]。

(3)空間信息分析。古籍中包含有大量的空間數(shù)據(jù),或是歷代地圖資源,或是語言、文化、風(fēng)俗在地理上的分布,或是某個(gè)地域的作家作品誕生規(guī)律,或是某個(gè)人物一生的交游和遷移線路。這些數(shù)據(jù)散布在大量的靜態(tài)古籍中,難以形成系統(tǒng)的知識(shí)圖譜被讀者充分利用。運(yùn)用大數(shù)據(jù)處理方式,可以將與地理有關(guān)的空間數(shù)據(jù)與屬性數(shù)據(jù)相結(jié)合,以地理信息系統(tǒng)(GIS)技術(shù)為工具,通過數(shù)據(jù)統(tǒng)計(jì)、地圖生成等功能,分析和展示古籍知識(shí)與地理環(huán)境的關(guān)系,從而使古籍的空間信息具有了時(shí)間與空間的序列,開放了讀者從地理角度觀察和研究文本的視野。

4 高校圖書館古籍大數(shù)據(jù)的應(yīng)用模式

4.1 語義關(guān)聯(lián)分析——以知識(shí)元素為中心

古籍知識(shí)網(wǎng)絡(luò)中,常有節(jié)點(diǎn)之間的信息交流。語義分析可以從古籍文本中抽取相應(yīng)的節(jié)點(diǎn)信息作為知識(shí)元素,構(gòu)建圍繞這一知識(shí)元素的知識(shí)網(wǎng)絡(luò)。知識(shí)抽取的過程由計(jì)算機(jī)完成,它并不需要理解知識(shí)本身的含義,只需要提煉出盡可能多的知識(shí)點(diǎn),再由理解知識(shí)屬性的人來做出知識(shí)推斷,從而分析古籍信息背后隱藏的意義。

理論上,所有的古籍信息節(jié)點(diǎn)都可以作為知識(shí)元素存在,它可以是某一作家作品、某一文學(xué)流派、某一理論體系、某一歷史事件、某一詞語或典故等。圖書館運(yùn)用大數(shù)據(jù)技術(shù),挖掘出特定范圍內(nèi)所有與這些知識(shí)元素相關(guān)的信息,就能建立一個(gè)知識(shí)圖譜,知識(shí)信息中隱含的某種規(guī)律和聯(lián)系就能迅速地被研究者所掌握和利用,研究者的研究方法被徹底革新。例如,將某一作家作為知識(shí)元素考察,所有與作家有關(guān)的生平籍貫、家族背景、求學(xué)歷程、政治主張、交友狀況、作品風(fēng)格、圖書出版、文學(xué)成就,甚至軼聞等都可以全景式展現(xiàn)。

4.2 學(xué)科趨勢(shì)分析——以時(shí)間軸為中心

缺少科學(xué)數(shù)據(jù),古籍研究者對(duì)于學(xué)科的熱點(diǎn)和發(fā)展趨勢(shì)難以準(zhǔn)確把握。高校圖書館借助大數(shù)據(jù)分析技術(shù),基于時(shí)間軸坐標(biāo),可以為研究者描繪出精準(zhǔn)的學(xué)科動(dòng)態(tài)圖譜,并給出課題指導(dǎo)。

從前的學(xué)科服務(wù)往往依賴館員自身的知識(shí)儲(chǔ)備和經(jīng)驗(yàn)積累,帶有強(qiáng)烈的個(gè)人主觀偏好。將古籍納入大數(shù)據(jù)管理范疇之后,對(duì)學(xué)科的認(rèn)識(shí)和評(píng)判將更具科學(xué)性和實(shí)踐性。館員可以利用數(shù)據(jù)挖掘技術(shù)提取學(xué)科領(lǐng)域的關(guān)鍵詞進(jìn)行整理歸納,將類似概念的關(guān)鍵詞整合成規(guī)范的主題詞進(jìn)行聚類分析,通過相關(guān)性分析挖掘主題詞之間的隱含關(guān)聯(lián),再將主題詞放在時(shí)間軸上,通過可視化的手段揭示其在一定時(shí)間段內(nèi)的分布規(guī)律[13]。這樣,當(dāng)前學(xué)科的學(xué)術(shù)圖譜就會(huì)非常清晰地展示在研究者面前,研究者可以從宏觀角度洞察學(xué)科領(lǐng)域的研究熱點(diǎn),提高選題的效率和準(zhǔn)確性。

大數(shù)據(jù)的核心功能就是預(yù)測(cè)。圖書館可以記錄學(xué)科主題詞在某一時(shí)期研究領(lǐng)域的頻次變化,分析主題詞走向,探尋學(xué)科發(fā)展趨勢(shì)。統(tǒng)計(jì)某一領(lǐng)域科研成果發(fā)表的高峰期、低谷期、半衰期,追蹤學(xué)術(shù)問題的發(fā)展軌跡,判斷其研究?jī)r(jià)值。收集核心科研機(jī)構(gòu)研究課題,洞察學(xué)科前沿研究方向。據(jù)此,古籍研究者可以預(yù)知學(xué)科未來的發(fā)展方向,規(guī)避科研盲點(diǎn)和誤區(qū),促進(jìn)學(xué)科研究整體的推進(jìn)。

4.3 學(xué)術(shù)結(jié)構(gòu)分析——以科研學(xué)者為中心

高校圖書館本質(zhì)上是一個(gè)學(xué)術(shù)型機(jī)構(gòu),它為教學(xué)和科研提供學(xué)術(shù)支撐。古籍部門由于其資源的特殊性,服務(wù)對(duì)象也以科研學(xué)者和具備一定科研能力的學(xué)生為主。古籍使用者的一切學(xué)術(shù)活動(dòng)都以數(shù)據(jù)的形式保留了下來,圖書館可以運(yùn)用大數(shù)據(jù)技術(shù)收集、挖掘和分析學(xué)者的科研數(shù)據(jù),自動(dòng)甄別出服務(wù)對(duì)象,考察其時(shí)空分布、知識(shí)構(gòu)成和類型特點(diǎn)。對(duì)于重點(diǎn)學(xué)者,可以其為中心建立知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),學(xué)者的研究課題、發(fā)展方向、學(xué)術(shù)歷程完整展現(xiàn),論文、圖書等學(xué)術(shù)成果和期刊會(huì)議等信息開放鏈接,與其聯(lián)系緊密的科研團(tuán)隊(duì)人員構(gòu)成得以明確,形成一個(gè)完整的科研網(wǎng)絡(luò)。同時(shí),根據(jù)大數(shù)據(jù)分析結(jié)論,為相同科研和資源需求的研究人員開發(fā)學(xué)術(shù)共享平臺(tái)。如抽取出最近以明清戲曲為研究對(duì)象的學(xué)者群,為其建立虛擬社區(qū),研究者可隨時(shí)進(jìn)行資源共享和成果展示,為學(xué)術(shù)交流提供便利。

4.4 用戶需求分析——以讀者為中心

在大數(shù)據(jù)時(shí)代,針對(duì)用戶個(gè)體的數(shù)據(jù)收集和分析成為可能。整合資源和數(shù)據(jù),圍繞讀者的個(gè)體特征和研究需要提供個(gè)性化嵌入式服務(wù)成為未來古籍大數(shù)據(jù)應(yīng)用的重要方向。

高校圖書館古籍部服務(wù)的對(duì)象在一定時(shí)期內(nèi)相對(duì)穩(wěn)定,對(duì)于經(jīng)常來館的讀者,古籍部門可以收集其姓名、年齡、性別、學(xué)歷、院系、專業(yè)、師生關(guān)系等基本信息,調(diào)取其借閱歷史、檢索記錄、瀏覽內(nèi)容、數(shù)字資源使用情況等所有與圖書館信息系統(tǒng)交互中產(chǎn)生的數(shù)據(jù),經(jīng)過分析與整合,判斷出讀者的閱讀傾向、研究方向和科研興趣點(diǎn),從而主動(dòng)為其提供相關(guān)的資源、服務(wù)和學(xué)科信息,追蹤整個(gè)學(xué)術(shù)過程,制定最適合的學(xué)科服務(wù)方案。圖書館甚至可以挖掘讀者的隱性需求,做到比讀者更了解自己,預(yù)知讀者的發(fā)展方向,提前為讀者提供可能需要的資源。

5 結(jié)束語

高校圖書館的文獻(xiàn)資源中,古籍是一個(gè)特殊的存在。它不僅是資源,還是遺產(chǎn);不僅要利用,還要保護(hù)。在古籍?dāng)?shù)字化已趨于成熟的今天,如何將靜態(tài)的數(shù)字資源轉(zhuǎn)化成動(dòng)態(tài)的可被重組、關(guān)聯(lián)和挖掘的知識(shí)是每一個(gè)古籍從業(yè)者必須思考的問題。隨著讀者的個(gè)性化需求越來越強(qiáng),古籍的傳統(tǒng)服務(wù)模式受到了挑戰(zhàn),主動(dòng)為讀者提供嵌入式的學(xué)科服務(wù)成為當(dāng)下古籍部門職能轉(zhuǎn)變的重要方向。利用大數(shù)據(jù)的分析方法和技術(shù)手段,高校圖書館古籍的數(shù)據(jù)挖掘和知識(shí)服務(wù)都將成為現(xiàn)實(shí)。

[1]百度百科.大數(shù)據(jù)[EB/OL].[2016-03-30].http://baike.baidu .com/linkurl=zr48p-BaEe38jZ0LqgJbVlOPrKpfde1Aco_eN DwrbVHxxYkkMwDu1yUO0W9oQ-r9f9Sh250oTlQ488QP2 894fU-PJQ8M5NZfz3PVllczRt3.

[2]曾文雯.大數(shù)據(jù)時(shí)代下高校圖書館的應(yīng)對(duì)策略[J].高校圖書館工作,2014(4):41-43.

[3]李明杰.數(shù)字環(huán)境下古籍整理范式的傳承與拓新[J].中國(guó)圖書館學(xué)報(bào),2015(5):99-110.

[4]鄭永曉.加快“數(shù)字化”向“數(shù)據(jù)化”轉(zhuǎn)變——“大數(shù)據(jù)”、“云計(jì)算”理論與古典文學(xué)研究[J].文學(xué)遺產(chǎn),2014(6): 141-148.

[5]樊偉紅,李晨暉,張興旺,等.圖書館需要怎樣的大數(shù)據(jù)[J].圖書館雜志,2012(11):63-77.

[6]蘭孝慈.SWOT視閾下高校圖書館大數(shù)據(jù)管理踐行的實(shí)然落差與應(yīng)然路徑[J].現(xiàn)代情報(bào),2015(11):147-151.

[7]何勝,熊太純,周冰,等.高校圖書館大數(shù)據(jù)服務(wù)現(xiàn)實(shí)困境與應(yīng)用模式分析[J].圖書情報(bào)工作,2015(22):50-55.

[8]鄧景康.大數(shù)據(jù)環(huán)境下清華大學(xué)圖書館的實(shí)踐[EB/OL]. [2016-03-30].http://www.tsinghua.edu.cn/publish/news/42 07/2013/20130829152841109507827/2013082915284110 9507827_.html.

[9]武新.三種最典型的大數(shù)據(jù)存儲(chǔ)技術(shù)路線[EB/OL].[2016-03-30].http://www.d1net.com/bigdata/database/259911.html.

[10]百度百科.云計(jì)算[EB/OL].[2016-03-30].http://baike. baidu.com/linkurl=q2sSKTyyLsfw9FI5cA0J0_iQ3WCh9O 9bnp-bSxXMpE548V8Pa3soeCXACGZ08UtXPUEh9uD-vuZC5yjAlgtlva.

[11]歐陽劍.面向數(shù)字人文研究的大規(guī)模古籍文本可視化分析與挖掘[J].中國(guó)圖書館學(xué)報(bào),2016(2):1-17.

[12]范佳.“數(shù)字人文”內(nèi)涵與古籍?dāng)?shù)字化的深度開發(fā)[J].圖書館學(xué)研究,2013(3):29-32.

[13]陳廉芳,許春漫.大數(shù)據(jù)時(shí)代高校圖書館嵌入式知識(shí)服務(wù)研究[J].新世紀(jì)圖書館,2015(12):5-8.

(編發(fā):王域鋮)

Research on the Application of Big Data of Ancient Books in University Library

ZHANG Ruo-ya
(Soochow University Library,Suzhou 215123,China)

Big data era is coming,the traditional arrangement of ancient books and service mode of university library have been difficult to meet the needs of the study of humanities.It is imperative to explore the application of big data in ancient books.This paper analyzes the close relationship between the ancient books and the big data in the information extraction,arrangement and application,discusses the plight of ancient books service in university library at present.And the effective way to realize the big data of ancient books is given from three aspects.On this basis,this paper puts forward four kinds of big data application mode of ancient books.

big data;ancient books;university library

G250.7

G250.7

A

2095-5197(2016)05-0090-06

張若雅(1982-),女,館員,碩士,研究方向:古籍?dāng)?shù)字化,古籍整理。

2016-06-21

猜你喜歡
古籍圖書館
古籍修復(fù)的神器
軍事文摘(2023年4期)2023-04-05 13:57:35
中醫(yī)古籍“疒”部俗字考辨舉隅
關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
天一閣文叢(2020年0期)2020-11-05 08:28:06
古籍修復(fù)師的巧手與匠心
出版人(2019年11期)2019-12-19 02:27:26
圖書館
文苑(2019年20期)2019-11-16 08:52:12
關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
天一閣文叢(2018年0期)2018-11-29 07:48:08
時(shí)間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
我是古籍修復(fù)師
金橋(2017年5期)2017-07-05 08:14:41
飛躍圖書館
都安| 饶河县| 株洲县| 永川市| 沅陵县| 杨浦区| 马尔康县| 江山市| 军事| 修水县| 泸州市| 石河子市| 双峰县| 崇文区| 保定市| 沁水县| 新巴尔虎右旗| 安康市| 深泽县| 永宁县| 新津县| 平度市| 东明县| 南阳市| 三明市| 凉城县| 洱源县| 大余县| 司法| 邓州市| 天峻县| 西华县| 山西省| 普安县| 苏尼特右旗| 佛山市| 福海县| 视频| 桃园县| 福贡县| 阿坝县|