曹鑫新
現(xiàn)首先介紹民國(guó)報(bào)紙資源建設(shè)的意義,其次對(duì)當(dāng)前民國(guó)報(bào)紙數(shù)字化資源利用存在的難點(diǎn)進(jìn)行分析,再次總結(jié)數(shù)字化建設(shè)的方向,最后提出民國(guó)報(bào)紙數(shù)字化建設(shè)改造重點(diǎn)與知識(shí)資源建設(shè)實(shí)施路徑。希望對(duì)民國(guó)時(shí)期文獻(xiàn)知識(shí)資源建設(shè)提供參考。
近年來,圖書館業(yè)務(wù)形態(tài)從傳統(tǒng)圖書館到數(shù)字圖書館再到智慧圖書館的轉(zhuǎn)變,促進(jìn)了圖書館相關(guān)業(yè)務(wù)的推陳出新。如何利用當(dāng)前資源為讀者提供智慧化服務(wù),進(jìn)行智慧化轉(zhuǎn)型,成為圖書館在新階段需要思考的問題。民國(guó)文獻(xiàn)是對(duì)民國(guó)時(shí)期政治、經(jīng)濟(jì)、文化、民生等方面的記載,在史料中有著十分重要的地位。民國(guó)報(bào)紙具有覆蓋地域范圍廣、出版周期短等特點(diǎn),能夠從多方面立體地呈現(xiàn)出民國(guó)時(shí)期社會(huì)面貌及相關(guān)知識(shí)。因此,對(duì)民國(guó)報(bào)紙的加工與建設(shè)也成為民國(guó)文獻(xiàn)保護(hù)與利用的重要工作之一。
民國(guó)報(bào)紙資源建設(shè)的重要意義
為學(xué)科研究提供史料依據(jù)
筆者對(duì)中國(guó)知網(wǎng)“篇名=民國(guó)+報(bào)紙、篇名=民國(guó)+報(bào)刊”的中文文獻(xiàn)進(jìn)行搜索,截至2023年2月,共獲得相關(guān)文獻(xiàn)351篇。對(duì)其內(nèi)容進(jìn)行分析研究發(fā)現(xiàn),民國(guó)報(bào)紙的文獻(xiàn)研究涉及歷史、廣告、圖書館學(xué)等多學(xué)科,研究?jī)?nèi)容基本分為兩大類別,分別為報(bào)紙內(nèi)容信息的利用和民國(guó)報(bào)紙館藏建設(shè)。數(shù)量龐大的民國(guó)報(bào)紙內(nèi)容信息利用的文獻(xiàn)研究表明民國(guó)報(bào)紙?jiān)诿駠?guó)文獻(xiàn)中的重要價(jià)值,并從側(cè)面體現(xiàn)出各個(gè)學(xué)科的內(nèi)容,挖掘民國(guó)報(bào)紙中的知識(shí)信息對(duì)歷史、文學(xué)、文化、藝術(shù)等方面具有的深遠(yuǎn)意義。如陳雅莉以民國(guó)報(bào)紙對(duì)“國(guó)貨”意義的生產(chǎn)為例,闡釋了中國(guó)近代時(shí)尚觀念對(duì)民族意識(shí)的雙重構(gòu)建問題[1]。
充分揭示館藏資源
民國(guó)不同階段的報(bào)紙資源建設(shè)文獻(xiàn)研究側(cè)重點(diǎn)不同。2014年至2015年初,圖書館強(qiáng)調(diào)民國(guó)報(bào)紙的保護(hù)和開發(fā),側(cè)重報(bào)紙實(shí)體的保護(hù)與修復(fù),對(duì)民國(guó)報(bào)紙數(shù)字化等再生性保護(hù)進(jìn)行了初步探索,如上海圖書館、重慶圖書館等。2015年至2020年間,圖書館側(cè)重民國(guó)報(bào)紙的數(shù)字化工作,將縮微膠片進(jìn)行數(shù)字化轉(zhuǎn)換,分地區(qū)、分主題進(jìn)行數(shù)字化加工,有些圖書館開始嘗試對(duì)標(biāo)題、作者等信息進(jìn)行著錄,如國(guó)家圖書館、首都圖書館等。在此期間還出現(xiàn)了專題特色文獻(xiàn)數(shù)據(jù)庫(kù)的探索性建設(shè)、影印資源建設(shè)。2021年,隨著智慧圖書館概念的普及與推廣,圖書館開始注重對(duì)數(shù)字資源的語義標(biāo)注,并引入細(xì)粒度標(biāo)引,強(qiáng)調(diào)知識(shí)的關(guān)聯(lián)與可視化。
當(dāng)前民國(guó)報(bào)紙數(shù)字化資源利用存在的難點(diǎn)
關(guān)于民國(guó)報(bào)紙建設(shè)的研究,有的圖書館注重?cái)?shù)據(jù)庫(kù)的建設(shè),也有的圖書館注重知識(shí)化抽取的探索。在數(shù)字化形式上有PDF格式的全文數(shù)字化,也有標(biāo)題OCR文字識(shí)別[2]。在數(shù)字化成品利用上應(yīng)注重?cái)?shù)據(jù)庫(kù)的建設(shè),如大而全且覆蓋范圍較廣的綜合數(shù)據(jù)庫(kù)、圍繞某一專題建設(shè)的特色主題數(shù)據(jù)庫(kù)[3]。
目前,檢索的結(jié)果很大程度源于搜索者對(duì)搜索主題的認(rèn)識(shí),因此這種檢索在一定程度上難以充分展示相關(guān)主題的館藏資源。當(dāng)前各圖書館都在開展民國(guó)報(bào)紙數(shù)字化項(xiàng)目,該項(xiàng)目是建立在自身館藏資源與數(shù)字化建設(shè)基礎(chǔ)上的,在成品展現(xiàn)上各具特色?!鞍偌覡?zhēng)鳴”雖然可以促進(jìn)建設(shè)的良性前進(jìn),但與此同時(shí)也造成了資源的浪費(fèi),重復(fù)的資源建設(shè)所體現(xiàn)出的“投入與產(chǎn)出”顯然不太合理。
在智能化時(shí)代,通過對(duì)數(shù)字資源進(jìn)行統(tǒng)計(jì)分析,在已有資源的基礎(chǔ)上進(jìn)行決策,為已完成建設(shè)或即將投入建設(shè)的數(shù)字資源賦予新的生命力,使原有的已完成建設(shè)的“信息孤島”式的數(shù)據(jù)成品轉(zhuǎn)變?yōu)殛P(guān)聯(lián)數(shù)據(jù)庫(kù)數(shù)據(jù)或者匯編資源,知識(shí)資源建設(shè)可以更好地實(shí)現(xiàn)從信息到知識(shí)網(wǎng)的螺旋式上升。“十四五”時(shí)期,我國(guó)圖書館信息資源建設(shè)需要實(shí)現(xiàn)從認(rèn)識(shí)到實(shí)踐的多維度轉(zhuǎn)變,即信息資源從藏到用、從單一紙質(zhì)到多類型資源以及從信息資源的組織到語義化組織、從信息表達(dá)到向詞表數(shù)據(jù)治理的轉(zhuǎn)變[4]。對(duì)民國(guó)報(bào)紙數(shù)字資源進(jìn)行知識(shí)抽取能夠最大限度地體現(xiàn)出民國(guó)報(bào)紙?jiān)诿駠?guó)歷史時(shí)期的作用,因此新時(shí)期民國(guó)報(bào)紙的建設(shè)要在原有的基礎(chǔ)上進(jìn)行細(xì)化。
數(shù)字化建設(shè)方向
智慧圖書館的智慧化管理、智慧化建設(shè)與服務(wù)突出了智慧圖書館更加全面與個(gè)性化的服務(wù)。圖書館對(duì)資源的建設(shè)工作更加側(cè)重資源的統(tǒng)籌與數(shù)據(jù)的關(guān)聯(lián)性建設(shè)。智慧圖書館對(duì)內(nèi)容的建設(shè)已經(jīng)從最初的以收藏為主體轉(zhuǎn)變?yōu)橐栽鲋禐槟康腫5]。
資源從數(shù)據(jù)向知識(shí)轉(zhuǎn)化
通常數(shù)字資源可以通過自建、合作共建、征集等方式獲取,文獻(xiàn)類型可以分為圖書、期刊、報(bào)紙等,體現(xiàn)了數(shù)字資源來源與建設(shè)內(nèi)容的多樣化。以往數(shù)字化加工多針對(duì)某一主題的相關(guān)資源,在完成當(dāng)前主題資源的加工與發(fā)布后,資源會(huì)進(jìn)入庫(kù)房得到長(zhǎng)期保存,變成一種“一次性數(shù)字資源”。王世偉指出,在數(shù)字圖書館建設(shè)基礎(chǔ)上,智慧圖書館使得以往文獻(xiàn)能夠按照一定的規(guī)則呈現(xiàn)給讀者,并為其提供豐富的服務(wù),使文獻(xiàn)“活化”且更加智能化,有利于讀者更加便捷地獲取所需資源[6]。因此,如何讓文獻(xiàn)“活化”與智能化這個(gè)問題將成為智慧圖書館時(shí)代知識(shí)資源建設(shè)的核心工作。
知識(shí)資源共建化
智慧圖書館的檢索平臺(tái)主要提供知識(shí)的可視化與智慧服務(wù)。讀者不僅能夠一站式獲取相關(guān)資源,同時(shí)也為平臺(tái)帶來了產(chǎn)生更多信息增值的可能。讀者在享受精準(zhǔn)化服務(wù)的同時(shí),也能參與數(shù)據(jù)建設(shè),并在其中扮演數(shù)據(jù)建設(shè)方、質(zhì)檢方、文獻(xiàn)提供方等角色。依據(jù)用戶類型標(biāo)簽及需求進(jìn)行智能推送的同時(shí),邀請(qǐng)讀者參與知識(shí)資源建設(shè)服務(wù)與勘誤工作,并通過收集用戶平臺(tái)行為確定新的建設(shè)方向,指導(dǎo)下一步知識(shí)資源建設(shè)工作。知識(shí)資源建設(shè)不再是“一勞永逸”的工作,而是一項(xiàng)隨著不同角色進(jìn)入、調(diào)整、更新形成的“至臻完美”的工作。
數(shù)據(jù)類型多樣化
隨著新媒體、新技術(shù)的不斷迭代更新,數(shù)字資源也有了相應(yīng)的改變,除了以往原生數(shù)字資源、館藏實(shí)體資源的再生資源以外,還涉及針對(duì)某一主題建設(shè)形成的AR、VR、MR等類型的新型數(shù)字資源。資源類型的多樣化與知識(shí)資源建設(shè)的個(gè)性化密切相關(guān),需要在建設(shè)初期考慮后期閱讀推廣可能出現(xiàn)的問題,例如推廣針對(duì)的人群、推廣的平臺(tái)以及實(shí)踐模式與策略等。
民國(guó)報(bào)紙數(shù)字化建設(shè)改造重點(diǎn)
對(duì)民國(guó)報(bào)紙資源進(jìn)行知識(shí)化加工,能夠在保護(hù)紙質(zhì)資源的前提下,達(dá)到對(duì)數(shù)字資源利用最大化的目的。在梳理知識(shí)化加工的工作環(huán)節(jié)后發(fā)現(xiàn),開展知識(shí)資源加工工作還面臨一些挑戰(zhàn)。
語料庫(kù)范圍的設(shè)定
民國(guó)報(bào)紙資源的語料庫(kù)主要以紙質(zhì)資源為基礎(chǔ),在原有的數(shù)字化前提下進(jìn)行建設(shè)。因此,語料庫(kù)建設(shè)的批次與范圍需要具體斟酌,特色數(shù)據(jù)庫(kù)的建設(shè)是基于豐富的語料庫(kù)搭建的。就加工而言,需要區(qū)分不同內(nèi)容主題文本篇目,如在文章分類上分為廣告、新聞、文學(xué)作品等。不同的分類元素是否需要加入語料庫(kù)則需要進(jìn)一步斟酌。
多類型知識(shí)資源的描述
報(bào)紙的數(shù)字化涉及不同的文檔類型。在進(jìn)行知識(shí)化加工時(shí),如何描述不同類型的知識(shí)資源,以及在提質(zhì)增效的同時(shí)最大限度地展現(xiàn)知識(shí)資源內(nèi)容也是需要進(jìn)一步思考的問題。
建設(shè)語料庫(kù)解決的是從哪里抽取、從多大范圍內(nèi)抽取的問題,關(guān)鍵字段的抽取就是具體抽取誰,如何抽取的問題。這涉及對(duì)不同類型篇目的知識(shí)元分類,比如新聞性篇目的知識(shí)元分類、廣告篇目的知識(shí)元分類以及圖片篇目的知識(shí)元分類,一個(gè)好的知識(shí)元分類能夠涉及民國(guó)報(bào)紙中所有類型篇目的信息,并且能在不同類型信息上完成非必備字段的標(biāo)引?!白詣?dòng)抽取加人工描述”的運(yùn)用使得知識(shí)資源的描述更加科學(xué)化,有助于最大限度地對(duì)資源進(jìn)行知識(shí)抽取。
識(shí)別準(zhǔn)確率的把控
知識(shí)資源建設(shè)要基于全文內(nèi)容進(jìn)行檢索與抽取。在報(bào)紙文章構(gòu)成上,有純文字篇目、文字加配圖篇目、圖片篇與漫畫篇目。這就意味著知識(shí)資源建設(shè)工作的要求要比以往的數(shù)字資源建設(shè)更加詳細(xì)與準(zhǔn)確。不論是報(bào)紙信息的噪點(diǎn)處理、文字的識(shí)別工作,還是民國(guó)時(shí)期語言、語法的檢查等工作,都需要在標(biāo)題識(shí)別的基礎(chǔ)上更加精準(zhǔn)化。
民國(guó)報(bào)紙知識(shí)資源揭示與服務(wù)
知識(shí)資源數(shù)據(jù)類型決定了知識(shí)資源建設(shè)的服務(wù)形態(tài),這意味著在進(jìn)行知識(shí)資源建設(shè)的同時(shí)還需要考慮數(shù)字化成品的揭示與服務(wù)問題。不論是知識(shí)網(wǎng)絡(luò)、知識(shí)圖譜等的可視化呈現(xiàn),還是形成針對(duì)某一主題的專題庫(kù)、針對(duì)不同類型讀者的有聲庫(kù)等,抑或是可以讓讀者身臨其境的VR資源,這些不同的服務(wù)形態(tài)資源的統(tǒng)籌與建設(shè)都是進(jìn)一步開展知識(shí)資源加工需要考慮的問題。
民國(guó)報(bào)紙知識(shí)資源建設(shè)實(shí)施路徑
引入深度學(xué)習(xí)識(shí)別技術(shù),提升識(shí)別準(zhǔn)確率
傳統(tǒng)的OCR技術(shù)已經(jīng)無法滿足文字方向不定、紙張?jiān)朦c(diǎn)較多、文檔類型多樣的民國(guó)報(bào)紙知識(shí)資源建設(shè)的需求,因此應(yīng)當(dāng)引入深度學(xué)習(xí)識(shí)別技術(shù),對(duì)語料庫(kù)進(jìn)行更新與校正,降低人工成本,用機(jī)器識(shí)別代替大規(guī)模的人力投入,一方面能夠節(jié)省人力成本,另一方面也能最大限度地避免由于工作人員失誤所造成的資源提取缺失等問題的發(fā)生。
知識(shí)資源深加工與共建整合,推陳出新
對(duì)知識(shí)內(nèi)容、主題詞、分類、作者、標(biāo)題、地域、時(shí)間、事件等進(jìn)行標(biāo)引,細(xì)化加工粒度,方便后續(xù)開展資源的關(guān)聯(lián)性加工等工作。未來已經(jīng)建成的數(shù)字資源成品不再是以某一項(xiàng)目主題為單位的建設(shè),而是更加注重知識(shí)內(nèi)容的深度挖掘,通過前期對(duì)資源的精細(xì)化標(biāo)引,針對(duì)某一主題將多項(xiàng)目資源、多類型資源進(jìn)行整合,對(duì)項(xiàng)目的揭示注重關(guān)聯(lián)性建設(shè),從某項(xiàng)目資源轉(zhuǎn)向?qū)n}數(shù)據(jù)庫(kù)建設(shè)、多庫(kù)聯(lián)合以及知識(shí)圖譜的建設(shè),通過這樣的轉(zhuǎn)變完成對(duì)資源的深度揭示,以便為專題領(lǐng)域的研究提供相應(yīng)的史料參考。當(dāng)前國(guó)內(nèi)開展知識(shí)資源建設(shè)的單位應(yīng)該聯(lián)合起來,發(fā)揮各家特長(zhǎng),在數(shù)字化、知識(shí)化與技術(shù)化等不同領(lǐng)域中貢獻(xiàn)力量,合力促成知識(shí)資源的共建共享。
聯(lián)合讀者互動(dòng)建設(shè),鼓勵(lì)創(chuàng)作
在智能時(shí)代,讀者不僅是知識(shí)的獲取者,也是知識(shí)的提供者,不同類型讀者的加入使得知識(shí)網(wǎng)絡(luò)更加立體。文獻(xiàn)不再是建設(shè)完成后的“一潭死水”,而是源源不斷的“涓涓細(xì)流”。各個(gè)專題庫(kù)與平臺(tái)間的標(biāo)準(zhǔn)化設(shè)計(jì)與簡(jiǎn)易鏈接能夠助推讀者參與到知識(shí)資源建設(shè)當(dāng)中。圖書館的讀者不乏具有各個(gè)專業(yè)特長(zhǎng)的“大家”,將“讀者、專家、學(xué)者”引入圖書館知識(shí)資源建設(shè)中來,使其成為知識(shí)資源建設(shè)的一份子,幫助圖書館資源建設(shè)單位更精準(zhǔn)、更客觀地呈現(xiàn)知識(shí)資源。
更新培養(yǎng)機(jī)制,識(shí)人善任
在智慧圖書館中,圖書館館員的角色也發(fā)生了變化,智慧圖書館館員在數(shù)據(jù)、數(shù)字人文、學(xué)術(shù)交流、出版、創(chuàng)客、智庫(kù)、閱讀推廣、健康信息等方面均能發(fā)揮作用[7]。在知識(shí)資源加工工作的每一個(gè)環(huán)節(jié)中,圖書館館員充當(dāng)了決策者、執(zhí)行者、質(zhì)檢者、驗(yàn)收者、管理者等多個(gè)角色。簡(jiǎn)單來說,圖書館館員參與了知識(shí)資源建設(shè)工作的全流程,并在其中發(fā)揮了至關(guān)重要的作用。因此數(shù)字圖書館館員本身的素養(yǎng),包括其學(xué)科背景與專業(yè)水平等在一定程度上影響著數(shù)字化建設(shè)中資源整合與揭示的程度。
對(duì)知識(shí)資源建設(shè)人才的培養(yǎng)要從人才引進(jìn)策略、培養(yǎng)流程與機(jī)制以及激勵(lì)機(jī)制三方面著手,在高效率完成數(shù)字化工作的同時(shí),保障長(zhǎng)效持久且吸引人才的政策,完善人員構(gòu)成,制定人才配置規(guī)劃。
在智慧圖書館背景下,知識(shí)資源建設(shè)工作是在原有數(shù)字化的基礎(chǔ)上進(jìn)行深度整合,挖掘文獻(xiàn)知識(shí)信息,對(duì)相應(yīng)節(jié)點(diǎn)進(jìn)行細(xì)粒度標(biāo)引,建立文獻(xiàn)數(shù)據(jù)庫(kù),將以往獨(dú)立的信息或項(xiàng)目通過關(guān)鍵詞或知識(shí)項(xiàng)關(guān)聯(lián)起來,將不同類型的資源按照知識(shí)體系匯總成庫(kù),為讀者提供一站式知識(shí)服務(wù)。隨著智慧圖書館的建設(shè),未來知識(shí)資源建設(shè)工作必將有更加廣闊的發(fā)展空間。
注釋
[1]陳雅莉.中國(guó)近代時(shí)尚觀念對(duì)民族意識(shí)的雙重建構(gòu)——以民國(guó)報(bào)紙對(duì)“國(guó)貨”意義的生產(chǎn)為例[J].新聞大學(xué),2022(09):60-72+119.
[2]任靜,林衛(wèi)東,李洪梅.公共圖書館民國(guó)報(bào)刊數(shù)字化建設(shè)現(xiàn)狀研究[J].山東圖書館學(xué)刊,2021(03):88-92.
[3]姚昕.智慧圖書館環(huán)境下圖書館報(bào)紙專題庫(kù)建設(shè)探討[J].河南圖書館學(xué)刊,2022,42(05):96-100.
[4]蘇力.“十四五”時(shí)期圖書館信息資源建設(shè)的發(fā)展轉(zhuǎn)向[J].甘肅科技,2021,37(14):84-85.
[5]吳建中.從數(shù)字圖書館到智慧圖書館:機(jī)遇、挑戰(zhàn)和創(chuàng)新[J].圖書館雜志,2021,40(12):4-11.
[6]王世偉.圖書館智慧體是對(duì)圖書館有機(jī)體的全面超越[J].圖書館建設(shè),2022(03):4-9.
[7]顧品浩.圖書館智慧化轉(zhuǎn)型中館員角色轉(zhuǎn)變研究[J].圖書館學(xué)刊,2023,45(01):1-6.