蔡迎春
民國時期文獻(xiàn),是指1911年辛亥革命至1949年中華人民共和國成立這一特定歷史時期的各種文獻(xiàn),為便于研究和論述,本文稱之為“原版民國時期文獻(xiàn)”。相對而言,本文將1949年之后匯編、再版或影印出版的民國時期文獻(xiàn),包括圖書、期刊(含報紙)和檔案等,稱為“新版民國時期文獻(xiàn)”。
目前,針對“原版民國時期文獻(xiàn)”開發(fā)的數(shù)據(jù)庫產(chǎn)品比較多,如上海圖書館“民國時期期刊全文數(shù)據(jù)庫”、尚品大成“大成老舊刊全文數(shù)據(jù)庫”、愛如生“中國近代報刊庫”、青蘋果“華文報刊文獻(xiàn)數(shù)據(jù)庫”和“維庫民國電子資源數(shù)據(jù)庫”、國家圖書館出版社“民國時期文獻(xiàn)總庫”以及CADAL“民國時期文獻(xiàn)大全”等[1]。雖然大部分圖書館的OPAC系統(tǒng)可以直接檢索到館藏民國時期書刊,但一些頗具影響力的大型綜合性目錄,如《民國時期總書目》,以及數(shù)量眾多的專科目錄,卻很少被納入相關(guān)數(shù)據(jù)庫或檢索系統(tǒng),不能不說是一件遺憾的事情。目前已有的140余種專題目錄中,僅有鄭阿財?shù)戎骶幍摹抖鼗蛯W(xué)研究論著目錄(1908-1997)》正在制作書目數(shù)據(jù)庫,其他目錄僅以文本形式編印或出版,尚未進(jìn)行數(shù)字化處理。特別地,針對“新版民國時期文獻(xiàn)”而言,目前還沒有一個全面覆蓋1949年后“新版民國時期文獻(xiàn)”所包含圖書、報刊和檔案等內(nèi)容的目錄數(shù)據(jù)庫,以至于“新版民國時期文獻(xiàn)”尚沒有系統(tǒng)的檢索途徑可循,勢必對民國時期文獻(xiàn)的深度研究造成不便。
民國時期文獻(xiàn)數(shù)據(jù)庫所包含的文獻(xiàn)應(yīng)該可以通過數(shù)據(jù)庫本身提供的檢索途徑進(jìn)行查詢,但是已出版紙質(zhì)文獻(xiàn)的子目,因沒有整理和編目,沒有有效的路徑可供檢索,無法實現(xiàn)其編纂出版的價值。此外,已建成的“原版民國時期文獻(xiàn)”數(shù)據(jù)庫,主要以題名、責(zé)任者、關(guān)鍵詞等簡單檢索和瀏覽為主,缺少統(tǒng)計、分析等功能,基本上僅對文獻(xiàn)形式特征和少量內(nèi)容特征進(jìn)行標(biāo)引,還處于比較原始的紙質(zhì)替代狀態(tài)。民國時期文獻(xiàn)的開發(fā)研究仍采用傳統(tǒng)的研究方法與模式,缺乏創(chuàng)新研究范式,導(dǎo)致當(dāng)前規(guī)模龐大的民國時期文獻(xiàn)數(shù)據(jù)與較低的文獻(xiàn)深度利用率之間的矛盾比較突出[2]。更為重要的是,“新版民國時期文獻(xiàn)”與“原版民國時期文獻(xiàn)”之間的關(guān)聯(lián)尚未被有效地揭示出來,眾多出版編撰者無法分析掌握其出版動態(tài)。
為充分揭示民國時期文獻(xiàn)及整理成果的子目內(nèi)容和關(guān)聯(lián),“民國時期文獻(xiàn)目錄數(shù)據(jù)平臺”(以下簡稱“數(shù)據(jù)平臺”)正在建設(shè)中,通過共享上海圖書館“人名規(guī)范數(shù)據(jù)集”,進(jìn)一步擴(kuò)展思路,建立“名稱規(guī)范庫”,從而突破原有數(shù)據(jù)庫建設(shè)理念,提供海量和規(guī)范的數(shù)字化信息和數(shù)據(jù),從不同角度實現(xiàn)對文本的分析統(tǒng)計功能,揭示信息和數(shù)據(jù)之間的關(guān)聯(lián)性。同時,還將GIS技術(shù)以及可視化技術(shù)應(yīng)用于“數(shù)據(jù)平臺”建設(shè)中,不僅使民國時期文獻(xiàn)的書目索引編制更加完整,而且將傳統(tǒng)數(shù)據(jù)庫檢索結(jié)果的平面式輸出,轉(zhuǎn)化為立體化的全方位時空呈現(xiàn),將大大方便相關(guān)文獻(xiàn)研究、出版研究以及其他學(xué)科研究的開展。
“數(shù)據(jù)平臺”除收入“原版民國時期文獻(xiàn)”目錄外,也收錄自1949年以來至今在中國內(nèi)地、港臺地區(qū)和國外出版的民國時期文獻(xiàn),包括公開出版物、非公開出版物和一些綜合性叢書。文獻(xiàn)類型主要是圖書、期刊、報紙和檔案等。目前,借助各大圖書館的館藏數(shù)據(jù)、各民國時期文獻(xiàn)主要出版機(jī)構(gòu)的出版目錄、全國新書目、豆瓣網(wǎng)站和CALIS聯(lián)合目錄等,本項目已經(jīng)采集了“新版民國時期文獻(xiàn)”數(shù)據(jù)近1000種,數(shù)據(jù)也涉及了中國港臺地區(qū)、美國、日本和歐洲等各大公共圖書館和高校圖書館聯(lián)盟聯(lián)合目錄,盡量較全面和系統(tǒng)地收集建國后出版的民國時期文獻(xiàn)成果。
1.2.1 設(shè)計思路
“數(shù)據(jù)平臺”的主要目的是全面揭示“原版民國時期文獻(xiàn)”和“新版民國時期文獻(xiàn)”的全部子目信息。設(shè)計方法主要是依據(jù)《民國時期總書目》和《(1833-1949)全國中文期刊聯(lián)合目錄》及其補(bǔ)編本的分類排序規(guī)則,同時參照目前國家圖書館正在編纂的《民國時期文獻(xiàn)總目(圖書卷)》進(jìn)行分類、標(biāo)引與著錄,使“新版民國時期文獻(xiàn)”目錄與《民國時期總書目》保持基本一致的體系和詳盡的著錄內(nèi)容。由于民國時期檔案存量非常大,收集、著錄極為困難,故暫時未納入平臺設(shè)計中。
在平臺的功能設(shè)計時課題組特別關(guān)注了如下幾點:
(1)數(shù)據(jù)的后續(xù)更新和維護(hù)。不僅錄入數(shù)據(jù),便于查重、自動排序和索引編制,而且還可以隨時補(bǔ)充新發(fā)現(xiàn)的相關(guān)有價值的數(shù)據(jù);
(2)具有數(shù)據(jù)統(tǒng)計和分析功能。可按時間、人物、地點及出版機(jī)構(gòu)等進(jìn)行關(guān)聯(lián)分析并以可視化的方式呈現(xiàn),便于快速從海量數(shù)據(jù)中發(fā)現(xiàn)新的知識,發(fā)現(xiàn)事件脈絡(luò)、人物關(guān)系及出版軌跡等。
1.2.2 結(jié)構(gòu)框架
“數(shù)據(jù)平臺”主要由“民國時期期刊目錄庫(1911-1949)”、“民國時期圖書目錄庫(1911-1949)”和“新版民國時期文獻(xiàn)子目庫(1949-)”三個庫組成,并且相互關(guān)聯(lián)。平臺先期錄入《民國時期總書目》和《(1833-1949)全國中文期刊聯(lián)合目錄》作為“民國時期圖書目錄庫”和“民國時期期刊目錄庫”的基礎(chǔ)數(shù)據(jù)。然后,再通過檢索基礎(chǔ)數(shù)據(jù),補(bǔ)充著錄“新版民國時期文獻(xiàn)”的書目信息,形成“新版民國時期文獻(xiàn)子目庫”。具體見圖1。
圖1 民國時期文獻(xiàn)目錄數(shù)據(jù)平臺的結(jié)構(gòu)框架
此數(shù)據(jù)平臺結(jié)構(gòu)框架具有如下特點:
(1)實現(xiàn)“新版民國時期文獻(xiàn)”書目數(shù)字化?!皵?shù)據(jù)平臺”的建設(shè),有效擴(kuò)展了民國時期文獻(xiàn)書目整理的時間外延,全面普查1949年后民國時期文獻(xiàn)整理出版成果,揭示已整理出版的民國時期文獻(xiàn)中所有子目,彌補(bǔ)解放后民國時期文獻(xiàn)的整理出版無書目可查的缺憾,并具有可持續(xù)性。
(2)發(fā)現(xiàn)文獻(xiàn)整理的趨勢與軌跡。將人文研究領(lǐng)域相關(guān)技術(shù)和成果應(yīng)用到“數(shù)據(jù)平臺”建設(shè)中,可以探究其出版特征和出版規(guī)律,揭示重復(fù)出版、資源收集不全等問題,考察現(xiàn)有民國時期文獻(xiàn)整理出版的缺漏,特別是對較有價值的文獻(xiàn)而又尚未整理出版的狀況進(jìn)行分析,為出版機(jī)構(gòu)進(jìn)行出版選題和規(guī)劃提供參考。
(3)具有文獻(xiàn)計量分析功能。對“新版民國時期文獻(xiàn)”的圖書、期刊(報紙)的出版機(jī)構(gòu)、作者、出版時間等進(jìn)行文獻(xiàn)計量分析,便于分析研究其分布特征,為圖書館資源建設(shè)提供參考。
“數(shù)據(jù)平臺”的一個重要創(chuàng)新就是可以揭示“新版民國時期文獻(xiàn)”中的子目。由于新版子目中的某些元數(shù)據(jù)與“原版民國時期文獻(xiàn)”是相同的,例如題名、責(zé)任者、主題、摘要、總目分類、文獻(xiàn)類型等標(biāo)示文獻(xiàn)的基本元數(shù)據(jù),在原版文獻(xiàn)揭示和新版子目揭示中都是一致的,為了避免重復(fù)錄入,平臺在底層數(shù)據(jù)集設(shè)計時,將這部分共同的元數(shù)據(jù)單獨(dú)建庫,稱之為“基本數(shù)據(jù)集”。因此,在錄入原版文獻(xiàn)目錄時,后臺操作需要先后完成兩個書目庫的字段著錄,先在“基本數(shù)據(jù)集”著錄題名、作者、摘要等基礎(chǔ)字段,然后再在“原版數(shù)據(jù)集”追加出版社、出版時間等與版本相關(guān)的其他元數(shù)據(jù)。如果版本較多,就追加多條原版信息。同樣,在著錄新版子目時,也是先檢索“基本數(shù)據(jù)集”,并先與該庫建立關(guān)聯(lián),再在“新版子目數(shù)據(jù)集”追加著錄新版的書名、出版者、出版日期等相關(guān)元數(shù)據(jù)。
另外,由于新版子目著錄可能會涉及到一些相同的著錄項,如大套影印版叢書的新版書名、新版責(zé)任者等,為避免重復(fù)錄入,數(shù)據(jù)平臺建立了一個“新版數(shù)據(jù)集庫”。錄入時,先對包含子目的大套影印版叢書進(jìn)行集中著錄,當(dāng)錄入子目元數(shù)據(jù)的時候?qū)@部分內(nèi)容就可以直接檢索并建立關(guān)聯(lián)。
因此,“數(shù)據(jù)平臺”的底層數(shù)據(jù)集由基本數(shù)據(jù)集、原版數(shù)據(jù)集、新版數(shù)據(jù)集和新版子目數(shù)據(jù)集四個子庫構(gòu)成。其結(jié)構(gòu)設(shè)計如圖2所示。
在數(shù)據(jù)平臺的元數(shù)據(jù)構(gòu)成上,四個底層數(shù)據(jù)集均有各自特有的元數(shù)據(jù)元素,而對于四個子庫所涉及到的共同元數(shù)據(jù)則通過相互的“鏈接”進(jìn)行共享,具體見表1。
圖2 民國時期文獻(xiàn)目錄數(shù)據(jù)平臺的底層數(shù)據(jù)集及關(guān)聯(lián)
表1 民國時期文獻(xiàn)目錄數(shù)據(jù)平臺的底層數(shù)據(jù)集元數(shù)據(jù)及鏈接
“基本數(shù)據(jù)集”元數(shù)據(jù)的構(gòu)成要素是同一種書在不同時期、不同出版機(jī)構(gòu)的版本都相同的基礎(chǔ)字段數(shù)據(jù),包括原版書(刊)名、原版責(zé)任者、分類、主題、內(nèi)容簡介(摘要)、文獻(xiàn)類型等。在“基本數(shù)據(jù)集”著錄完成后,通過它提供的鏈接界面,添加原版或新的版本,從而形成完整的“原版數(shù)據(jù)集”和“新版數(shù)據(jù)集”?!盎緮?shù)據(jù)集”的設(shè)計及其以此為基礎(chǔ)的原版和新版鏈接著錄方式,可以避免不同版本間相同字段的重復(fù)錄入,使同一種書的不同版本通過鏈接實現(xiàn)相互關(guān)聯(lián)。
“原版數(shù)據(jù)集”元數(shù)據(jù)除鏈接“基本數(shù)據(jù)集”的題名、責(zé)任者、摘要等外,還包括新版的版本項、叢書項、形態(tài)項及館藏信息、總目號等與其他版本有所區(qū)別的字段信息。
“新版數(shù)據(jù)集”的元數(shù)據(jù)構(gòu)建,由新版單行本或大型叢書、匯集本的書名、責(zé)任者、出版地、出版者、出版日期、摘要、叢書名、叢書責(zé)任者、卷冊、頁碼、開本、ISBN組成。
“新版子目數(shù)據(jù)集”除“文獻(xiàn)來源”元數(shù)據(jù)外,其余均是通過鏈接“基本數(shù)據(jù)集”以及“新版數(shù)據(jù)集”的相關(guān)元數(shù)據(jù)完成。以鏈接方式完成的“新版數(shù)據(jù)集”元數(shù)據(jù)構(gòu)成,在避免相同字段數(shù)據(jù)重復(fù)錄入方面功效顯著。比如,國家圖書館出版社2015年出版的《民國文獻(xiàn)類編》收錄民國時期文獻(xiàn)4000余種,如果沒有實現(xiàn)元數(shù)據(jù)間的直接鏈接,那么相關(guān)信息就得重復(fù)錄入4000次,而建立鏈接關(guān)系后,只需勾選,并進(jìn)行點擊確認(rèn),來源文獻(xiàn)的所有信息就會自動添加到“新版數(shù)據(jù)集”的相關(guān)字段位置上。
為了實現(xiàn)“數(shù)據(jù)平臺”的統(tǒng)計分析功能,除元數(shù)據(jù)選取盡可能完備之外,在平臺數(shù)據(jù)錄入時,各種規(guī)范檔的建立就顯得尤其重要。除了常規(guī)的主題和文獻(xiàn)類型需規(guī)范外,民國時期文獻(xiàn)的出版具有一定的特殊性,責(zé)任者、出版機(jī)構(gòu)名稱的變更比較普遍。此外,民國期刊多有???、復(fù)刊、出版周期不固定等現(xiàn)象。因此,在“數(shù)據(jù)平臺”的建設(shè)中,名稱規(guī)范檔的建立就顯得非常必要,主要包括人名規(guī)范檔和出版機(jī)構(gòu)規(guī)范檔等。建立名稱規(guī)范檔的目的就是把同一名稱的所有文獻(xiàn)都集中在該名稱詞條下。例如,同一作者可能存在多個筆名,以茅盾為例,其筆名多達(dá)一百多個,只要建立一個規(guī)范檔,就能將茅盾以不同筆名的著作都集中在茅盾的詞條下。
目前在互聯(lián)網(wǎng)環(huán)境下的人文研究領(lǐng)域,名稱規(guī)范檔的概念和圖書館傳統(tǒng)意義上的規(guī)范控制工作迥異。2008年國際圖聯(lián)發(fā)布主題規(guī)范的推薦意見時,首次提出“人作為一個實體”的概念。把人當(dāng)作實體之后,人就不僅僅是一個名稱,而是囊括出生年月、與其他人物之間的關(guān)系、生平大事、任職經(jīng)歷等諸多內(nèi)容。要將同一人的很多信息集中在一起,就是要對這個人進(jìn)行唯一的、可被機(jī)器讀取的標(biāo)志符的設(shè)置。有了唯一的標(biāo)志符,就可以用該標(biāo)識符來代替這個人。唯一標(biāo)識符用URI(統(tǒng)一資源標(biāo)識符)表示,它在互聯(lián)網(wǎng)上是唯一的,也是唯一的定位符?!皵?shù)據(jù)平臺”通過互聯(lián)網(wǎng)被標(biāo)識、被定位、被訪問,對平臺中的人名、出版機(jī)構(gòu)等建立相關(guān)名稱規(guī)范檔,如人名規(guī)范數(shù)據(jù)集、機(jī)構(gòu)名稱規(guī)范數(shù)據(jù)集等,而每一個規(guī)范名稱都有URI,并且這些規(guī)范檔是開放的。因此,在“數(shù)據(jù)平臺”相關(guān)元數(shù)據(jù)著錄時,對于已標(biāo)識的同一人或物的不同名稱就可以直接選用規(guī)范名稱的URI。對于沒有標(biāo)識的名稱,可以通過開放的規(guī)范檔數(shù)據(jù)入口進(jìn)行規(guī)范標(biāo)識后再選取。
目前業(yè)界在人文研究領(lǐng)域已有開放的、較成熟的規(guī)范數(shù)據(jù)集,如上海圖書館的“人名規(guī)范數(shù)據(jù)集”,本項目與其合作,共享人名規(guī)范數(shù)據(jù),彌補(bǔ)了“數(shù)據(jù)平臺”建設(shè)中的人力、物力和技術(shù)實現(xiàn)上的不足。另外,數(shù)據(jù)平臺借助上海圖書館成功案例和技術(shù)力量,也可以實現(xiàn)對出版機(jī)構(gòu)等其他相關(guān)規(guī)范檔的建立。本項目在“數(shù)據(jù)平臺”數(shù)據(jù)錄入時,對于文獻(xiàn)作者、題名、摘要中的人名,直接調(diào)用了上海圖書館的開放數(shù)據(jù)接口,或進(jìn)入上海圖書館人名規(guī)范庫獲取其URI,然后進(jìn)行著錄。而對于有多種筆名或別稱的作者,其人名URI值都是相同的,比如冰心,原名謝婉瑩,筆名冰心女士、男士、素人,所有這些名字的URI賦值都是一致的,均為http://data.library.sh.cn/entity/person/05ebng66w4 qjnkhg。因此,無論文獻(xiàn)的署名是筆名、原名還是別名,因為具有相同的URI值,只要輸入其中一個名字,就可獲取該作者的不同署名的所有文獻(xiàn)。同樣,對于同名作者,因為URI值不同,也具有了明確的區(qū)分度,他們的作品會被歸入各自名下,不會被混淆同時檢到,讓使用者難以判斷[3]。
另外,通過名稱規(guī)范數(shù)據(jù)集的建立,也可以揭示“數(shù)據(jù)平臺”中人物之間的學(xué)術(shù)關(guān)系,為民國年間彼此有過學(xué)術(shù)交往的人物建立關(guān)聯(lián)。例如,在獲取這一機(jī)器可識別的URI值,放入“數(shù)據(jù)平臺”的相應(yīng)字段后,通過系統(tǒng)后臺的算法和識別,即可共享“上海圖書館人名規(guī)范庫”中提供的包括筆名、別稱、職銜、籍貫、作品、生平事跡等內(nèi)容在內(nèi)的人物簡介[4]。同時,通過對作者相關(guān)著作的合作者、編校者,序言、弁言、書評等的撰寫者乃至?xí)?、題字等的題寫者等進(jìn)行關(guān)聯(lián)描述,對作者間的學(xué)術(shù)合作關(guān)系進(jìn)行選擇、分類及分析,根據(jù)學(xué)術(shù)合作程度和合作方式,列出不同關(guān)系的類型屬性,建立學(xué)者人物關(guān)系、學(xué)術(shù)聯(lián)系圖譜。用戶可以選擇與自己研究相關(guān)或感興趣的人物進(jìn)入關(guān)系分析頁面,查看人物簡介、與該人物有關(guān)聯(lián)的所有其他人物以及他們之間的關(guān)聯(lián)關(guān)系,自主選擇建立進(jìn)一步的多層級人物關(guān)系,根據(jù)這些關(guān)聯(lián)關(guān)系,利用“數(shù)據(jù)平臺”提供的可視化工具,繪制人物學(xué)術(shù)關(guān)系圖譜[5]。
GIS技術(shù)在“數(shù)據(jù)平臺”的應(yīng)用主要通過“中國歷史地理信息系統(tǒng)”(CHGIS)建立地理信息關(guān)聯(lián),將地圖的視覺化效果、地理分析功能與“數(shù)據(jù)平臺”中的地名信息相結(jié)合,實現(xiàn)時間和空間兩方面的直觀檢索,提供文獻(xiàn)的出版地分析、作者的地域分布分析、出版的時空變遷分析等[6]。其通過地圖直觀顯示文獻(xiàn)的出版數(shù)據(jù),可按時間先后順序自動生成地域出版文獻(xiàn)數(shù)量、出版機(jī)構(gòu)分布、出版機(jī)構(gòu)遷徙流動路線圖等,實現(xiàn)檢索結(jié)果、分析結(jié)果的電子地圖呈現(xiàn)[7]。例如,了解民國時期每個階段哪些出版機(jī)構(gòu)集中在哪一地域,或某一地域的某一時間階段的文獻(xiàn)出版數(shù)量、整個民國時期出版機(jī)構(gòu)的遷徙集散情況,及民國時期的出版機(jī)構(gòu)、出版事業(yè)的變遷和發(fā)展;新版文獻(xiàn)地域分布分析,以及反映1949年后民國時期文獻(xiàn)再版整理地域重心的變化情況;教材的出版發(fā)行地域分析,以及反映抗戰(zhàn)前后以及抗戰(zhàn)期間國統(tǒng)區(qū)、日據(jù)區(qū)和解放區(qū)教材在出版數(shù)量和內(nèi)容上所呈現(xiàn)出的特色;地方志、游記、寺廟志、校史、圖書館史,以及各種社會調(diào)查材料等與地名相關(guān)的文獻(xiàn)的地圖呈現(xiàn)和地理數(shù)據(jù)分析??梢哉f,GIS技術(shù)在上述研究和分析中的應(yīng)用,對民國時期的出版史研究、文獻(xiàn)版本研究乃至各個學(xué)科的專題研究,都能提供較為直觀的分析結(jié)果。一方面可以將傳統(tǒng)數(shù)據(jù)庫的檢索結(jié)果,變成用戶可以開展自助分析的基礎(chǔ)數(shù)據(jù),另一方面把傳統(tǒng)數(shù)據(jù)庫檢索結(jié)果的平面式輸出,轉(zhuǎn)化為立體化的全方位時空呈現(xiàn)。
可以說,“數(shù)據(jù)平臺”的建設(shè)以及人文領(lǐng)域相關(guān)技術(shù)的應(yīng)用,使“數(shù)據(jù)平臺”除常規(guī)的存儲與檢索外,還具備分析數(shù)據(jù)、串聯(lián)知識、發(fā)現(xiàn)問題的功能[8]。在提供分析統(tǒng)計功能和可視化結(jié)果呈現(xiàn)的同時,可以有效地輔助文獻(xiàn)研究、出版研究以及通過目錄進(jìn)行的地方志、教材、文學(xué)、宗教、歷史等學(xué)科的研究。
通過“基本數(shù)據(jù)集”添加“原版信息”和“新版子目信息”的方式,可以使同一種書的不同版本的情況都能完整地體現(xiàn),清晰呈現(xiàn)同一種書的版本源流。例如,通過書名或作者在“基本數(shù)據(jù)集”檢索陳大齊編著的《哲學(xué)概論》一書,即可檢測到民國時期該書共有三個版本;再如,解放社編《社會發(fā)展簡史》一書,可檢索到七個版本。類似案例,不勝枚舉。
雖然“數(shù)據(jù)平臺”只是目錄數(shù)據(jù)庫而非全文數(shù)據(jù)庫,但是通過名稱規(guī)范數(shù)據(jù)集的建立以及GIS技術(shù)等的應(yīng)用,通過基本著錄信息、出版信息以及內(nèi)容提要等元數(shù)據(jù)的提取以及各個子庫之間多重關(guān)聯(lián)關(guān)系的建立,可以開展基于數(shù)據(jù)挖掘的文本分析。
“數(shù)據(jù)平臺”規(guī)范的元數(shù)據(jù)包括文獻(xiàn)目錄(含內(nèi)容提要)中的人名、地名、學(xué)科主題和出版機(jī)構(gòu)等信息,用戶可以利用平臺提供的檢索和分析功能,根據(jù)檢索到的文獻(xiàn)進(jìn)行文獻(xiàn)主題分布、出版地分布、作者分布、年代分布等分析,并且可以利用這些信息進(jìn)行組配式的關(guān)聯(lián)分析。比如通過對著作的主題、出版時間分析,揭示某一學(xué)術(shù)領(lǐng)域的研究或某一學(xué)術(shù)流派在民國時期的學(xué)術(shù)史;通過對作者及其著作出版時間的分析,可以勾勒出作者的學(xué)術(shù)軌跡和學(xué)術(shù)生平;通過主題與出版時間的分析,可以發(fā)現(xiàn)哪些學(xué)科的研究在民國時期受到重視,哪些學(xué)科關(guān)注較少,與此同時在建國后,哪些學(xué)科的文獻(xiàn)開發(fā)整理程度較高,哪些在民國時期相關(guān)研究文獻(xiàn)較多的學(xué)科未受到足夠的重視,這些為民國時期文獻(xiàn)整理機(jī)構(gòu)提供有價值和有說服力的數(shù)據(jù)分析支持;通過主題與作者分析,可以揭示某一學(xué)科領(lǐng)域的作者群,尤其對于一些新興學(xué)科,可以分析出在學(xué)科發(fā)展之初,哪些學(xué)科學(xué)者最先介入或推動了學(xué)科的發(fā)展。同樣,平臺數(shù)據(jù)還可以用于民國時期電影、戲劇、海派繪畫等發(fā)端于晚清或民國時期的行業(yè)發(fā)展史和學(xué)術(shù)史的研究與分析。這些統(tǒng)計和分析,有助于幫助學(xué)者發(fā)現(xiàn)新資料,開拓前人未曾關(guān)注的新領(lǐng)域,拓展新的研究視野。
應(yīng)用可視化工具,還可以實現(xiàn)文本的可視化分析。以民國時期的敦煌學(xué)研究為例,通過學(xué)科主題結(jié)合時間范圍的分析,可繪制出敦煌學(xué)在1908-1949年間學(xué)術(shù)論著發(fā)表數(shù)量柱狀圖,以此體現(xiàn)敦煌學(xué)研究的發(fā)展情況。通過發(fā)文量的可視化呈現(xiàn),可以非常清晰地看出,敦煌學(xué)研究從民國初年(1911-1920)的18種,到民國末期(1940-1949)增長到317種,呈現(xiàn)從起步到越來越受到關(guān)注,研究性論著逐年增長的趨勢。也可以明顯地看出,即使民國時期發(fā)表論著是最多的一個歷史階段,但10年間的論著總發(fā)文量也僅有300余種,每年平均僅30種,這些證據(jù)表明了整個民國時期的敦煌學(xué)研究的確只處于發(fā)端期。
根據(jù)“新版子目數(shù)據(jù)集”與“新版數(shù)據(jù)集”形成的鏈接關(guān)系,可以很容易地判斷民國時期文獻(xiàn)的整理出版情況。通過“新版子目”鏈接,可以獲知該書已在1949年后有過新版本出版,再通過數(shù)據(jù)平臺提供的“文獻(xiàn)來源”信息,可以準(zhǔn)確了解該書的出版信息,詳細(xì)知道文獻(xiàn)被收錄在哪家出版社的第幾卷第幾頁。
圖3《中國紅十字會戰(zhàn)地寫真》原版、新版信息著錄細(xì)目
例如,通過“基本數(shù)據(jù)集”查到沈敦和編著的《中國紅十字會戰(zhàn)地寫真》,可以看到該條目下有“原版信息1條”“影印版信息1條”的提示(圖3)。通過點擊“顯示”,可查到民國時期的原版為1911年由中國紅十字會出版,而建國后的影印版收錄在國家圖書館出版社2015年出版的《民國文獻(xiàn)類編》第六冊里。當(dāng)然,某種書反復(fù)多次重新出版,或從未被整理出版過,也可通過平臺數(shù)據(jù)檢索而得到清晰的展示,為出版機(jī)構(gòu)和文獻(xiàn)機(jī)構(gòu)后續(xù)的文獻(xiàn)整理提供了較可靠的依據(jù)。
民國時期文獻(xiàn)目錄數(shù)據(jù)平臺的建設(shè),以及數(shù)字人文領(lǐng)域相關(guān)技術(shù)在民國時期文獻(xiàn)整理與出版領(lǐng)域的應(yīng)用實踐,可以說是為傳統(tǒng)意義上的民國時期文獻(xiàn)研究注入了新的活力、提供了新的視角。雖然,數(shù)字人文相關(guān)技術(shù)的應(yīng)用,使得“數(shù)據(jù)平臺”更有助于民國時期文獻(xiàn)研究領(lǐng)域的學(xué)者、出版者,以及圖書館的研究和決策提供多方面的依據(jù)和路徑,但是,“數(shù)據(jù)平臺”在建設(shè)過程中還有諸多問題需要進(jìn)一步論證和深入探討,例如,除人名規(guī)范之外的其他名稱規(guī)范檔應(yīng)該如何選取、如何合作,是否考慮眾籌方式,依靠專業(yè)團(tuán)隊技術(shù)優(yōu)勢使得平臺的功能更加完善,以及在目錄數(shù)據(jù)庫的基礎(chǔ)上擴(kuò)展數(shù)據(jù)內(nèi)容,最終增加全文等。希望通過本項目的實戰(zhàn),能夠拋磚引玉,進(jìn)一步推進(jìn)民國時期文獻(xiàn)數(shù)字化開發(fā)的深度揭示,以充分挖掘民國時期文獻(xiàn)的利用價值。