盧彤 李明杰
摘? ?要:文章通過(guò)網(wǎng)絡(luò)訪問(wèn)、親身體驗(yàn)與文獻(xiàn)調(diào)研,考察了中文古籍?dāng)?shù)字化成果輔助人文學(xué)術(shù)研究的功能。根據(jù)數(shù)據(jù)庫(kù)形態(tài),將調(diào)查對(duì)象分為典藏檢索型數(shù)據(jù)庫(kù)、量化分析型數(shù)據(jù)庫(kù)與數(shù)字人文平臺(tái),以表格形式展示了各類(lèi)型古籍?dāng)?shù)字化成果,從系統(tǒng)功能角度分析歸納各類(lèi)型數(shù)據(jù)庫(kù)的研究輔助功能,并指出在文史專(zhuān)家與信息科學(xué)家的協(xié)作下,結(jié)合文獻(xiàn)整理學(xué)術(shù)傳統(tǒng)與現(xiàn)代信息技術(shù),以專(zhuān)業(yè)問(wèn)題為導(dǎo)向的數(shù)字人文研究平臺(tái)的開(kāi)發(fā)模式是未來(lái)古籍?dāng)?shù)字化的發(fā)展方向。
關(guān)鍵詞:古籍?dāng)?shù)字化;研究輔助功能;數(shù)字人文
中圖分類(lèi)號(hào):G255.1;C3? ?文獻(xiàn)標(biāo)識(shí)碼:A? ?DOI:10.11968/tsyqb.1003-6938.2019010
Abstract By network access, hands-on experience and literature research, the authors investigates on functions of digital productions of Chinese ancient books in assisting humanities research. Target databases are classified into 3 categories: collection retrieval database, quantitative analysis database and digital humanity platform. Tabulations are used to help illustrate characteristics of different types of digitization products. The paper analyzes functions of assisting research of different databases from the perspective of system function and looks into the future. The development direction of ancient book digitalization is a research-oriented digital humanities platform that combines academic tradition of literature sorting and modern information technology, which calls for cooperation between humanists and information scientists.
Key words ancient book digitalization; function of assisting research; digital humanities
隨著數(shù)字人文的興起,人文學(xué)者開(kāi)始接觸與使用各種數(shù)字技術(shù)來(lái)處理人文科學(xué)數(shù)據(jù)。古籍?dāng)?shù)字化產(chǎn)品慢慢由資源庫(kù)向研究平臺(tái)轉(zhuǎn)變,以滿(mǎn)足人文學(xué)者不斷提出的輔助其研究的新需求。而傳統(tǒng)的人文研究方法在全文數(shù)據(jù)庫(kù)強(qiáng)大的檢索功能輔助下,雖在技術(shù)上提升了檢索效率,但如何獲取和有效組織文獻(xiàn)數(shù)據(jù),則依舊仰賴(lài)于人文學(xué)者在各自領(lǐng)域中經(jīng)年累月的訓(xùn)練所培養(yǎng)的基本功。古籍?dāng)?shù)字化成果究竟能在多大程度上輔助傳統(tǒng)的人文學(xué)術(shù)研究,目前尚存疑問(wèn)。鑒于此,本文通過(guò)網(wǎng)絡(luò)訪問(wèn)、親身體驗(yàn)、文獻(xiàn)調(diào)研等方式,對(duì)我國(guó)現(xiàn)有古籍?dāng)?shù)字化產(chǎn)品功能進(jìn)行調(diào)查,分析其滿(mǎn)足人文學(xué)者專(zhuān)業(yè)研究需求的程度,以探討古籍?dāng)?shù)字化產(chǎn)品功能的研發(fā)方向。借鑒申斌和楊培娜[1]對(duì)輔助歷史研究的功能層次的劃分,本文從典藏檢索型數(shù)據(jù)庫(kù)、量化分析型數(shù)據(jù)庫(kù)、數(shù)字人文研究平臺(tái)三個(gè)方面展開(kāi)調(diào)查(僅揭示圖書(shū)館館藏的書(shū)目型、圖像型數(shù)據(jù)庫(kù)不在此次調(diào)查范圍之內(nèi))。
1? ?典藏檢索型數(shù)據(jù)庫(kù)及其輔助人文學(xué)術(shù)研究功能
典藏檢索型數(shù)據(jù)庫(kù)從藏與用的目的出發(fā),在對(duì)傳統(tǒng)紙質(zhì)古籍進(jìn)行??闭淼幕A(chǔ)上,利用計(jì)算機(jī)技術(shù)將其編碼轉(zhuǎn)換,再根據(jù)文獻(xiàn)特性進(jìn)行組織與元數(shù)據(jù)標(biāo)引,從而實(shí)現(xiàn)古籍內(nèi)容的數(shù)字化保存與傳播,同時(shí)借助計(jì)算機(jī)技術(shù)與數(shù)據(jù)庫(kù)環(huán)境發(fā)揮索引功能的優(yōu)勢(shì),實(shí)現(xiàn)分類(lèi)瀏覽與字段檢索、全文檢索甚至語(yǔ)義關(guān)聯(lián)檢索的功能,因而是一種具備檢索功能的數(shù)字化文本存儲(chǔ)環(huán)境。本次調(diào)查的結(jié)果:典藏檢索型數(shù)據(jù)庫(kù)共79種,其中以圖書(shū)館、學(xué)術(shù)機(jī)構(gòu)、數(shù)字出版商為主要開(kāi)發(fā)者的分別有13種、16種和50種。
1.1? ? 圖書(shū)館開(kāi)發(fā)的典藏檢索型數(shù)據(jù)庫(kù)
從古籍?dāng)?shù)字化三大主體的成果總量來(lái)看,圖書(shū)館雖是最多的,但其所建的古籍?dāng)?shù)字化系統(tǒng)大多只能進(jìn)行一般的書(shū)目檢索或書(shū)影瀏覽,尚停留在揭示館藏的層面[2]。筆者對(duì)這些成果進(jìn)行定期跟蹤,發(fā)現(xiàn)它們大多在資源更新與維護(hù)上并不及時(shí),且未能跟進(jìn)新的數(shù)字化技術(shù),導(dǎo)致這類(lèi)產(chǎn)品無(wú)法同時(shí)具備典藏與檢索的功能。根據(jù)跟蹤調(diào)研的結(jié)果,筆者選取內(nèi)容經(jīng)全文轉(zhuǎn)碼且具有檢索功能的產(chǎn)品,按其來(lái)源、成果名稱(chēng)、分類(lèi)瀏覽、檢索與顯示功能、嵌入工具及知識(shí)增值功能等情況統(tǒng)計(jì)出概況(見(jiàn)表1)。
調(diào)查結(jié)果顯示,在選題上,圖書(shū)館開(kāi)發(fā)的典藏檢索型數(shù)據(jù)庫(kù)主要以館藏古籍和地方特色文獻(xiàn)為主,其中方志、家譜較為常見(jiàn);在功能上,根據(jù)文獻(xiàn)內(nèi)容本身的特色進(jìn)行分類(lèi)瀏覽,借助標(biāo)引實(shí)現(xiàn)字段檢索功能。然而,無(wú)論是分類(lèi)瀏覽或全文檢索,其原理都是通過(guò)著錄文獻(xiàn)外部特征以達(dá)到檢索文獻(xiàn)的目的,僅有少數(shù)數(shù)據(jù)庫(kù)具有初級(jí)的研究輔助功能,如“中華再造善本數(shù)據(jù)庫(kù)”可據(jù)不同底本進(jìn)行版本對(duì)照。
1.2? ? 學(xué)術(shù)機(jī)構(gòu)開(kāi)發(fā)的典藏檢索型數(shù)據(jù)庫(kù)
通過(guò)調(diào)研匯總了學(xué)術(shù)機(jī)構(gòu)開(kāi)發(fā)的典藏檢索型數(shù)據(jù)庫(kù)的概況(見(jiàn)表2)。首先,在選題上,由于學(xué)術(shù)機(jī)構(gòu)不受館藏與地域的限制,因而所建的典藏檢索型數(shù)據(jù)庫(kù)更具專(zhuān)題性與實(shí)用性,也更符合專(zhuān)業(yè)研究者的需求。但此類(lèi)數(shù)據(jù)庫(kù)多是課題研究的結(jié)果,新的數(shù)字化技術(shù)的應(yīng)用都帶有一定的試驗(yàn)性,且存在重復(fù)選題的現(xiàn)象;其次,在研究功能上,學(xué)術(shù)機(jī)構(gòu)開(kāi)發(fā)的此類(lèi)古籍?dāng)?shù)字化產(chǎn)品在當(dāng)時(shí)都具有一定的前瞻性。相較于只提供基礎(chǔ)性檢索功能的圖書(shū)館數(shù)據(jù)庫(kù),這些系統(tǒng)又開(kāi)發(fā)出新的輔助研究功能。
(1)檢索結(jié)果顯示與對(duì)比。初級(jí)的結(jié)果顯示功能是藉由計(jì)算機(jī)技術(shù)將影像或文字經(jīng)過(guò)一定處理,在顯示界面為讀者提供文本及圖像的對(duì)比環(huán)境,常見(jiàn)且已趨成熟的功能有圖文對(duì)照、繁簡(jiǎn)轉(zhuǎn)換,兩者都是保留底本原貌的一種手段;進(jìn)階的結(jié)果顯示功能是根據(jù)文獻(xiàn)本身內(nèi)容與形式之間的聯(lián)系所設(shè)計(jì),更能發(fā)揮數(shù)字化環(huán)境的優(yōu)勢(shì),如臺(tái)灣大學(xué)數(shù)字人文研究中心“春秋三傳對(duì)讀系統(tǒng)”,能將《左傳》《公羊傳》《谷梁傳》根據(jù)《春秋》的編年時(shí)序進(jìn)行文本條目的對(duì)應(yīng),并將一傳的檢索結(jié)果與其他二傳結(jié)果并列顯示,以便比較研究。
(2)知識(shí)庫(kù)構(gòu)建與檢索擴(kuò)展。古籍?dāng)?shù)字化產(chǎn)品常見(jiàn)的知識(shí)庫(kù)有人名、地名、職官、異體字等內(nèi)容,是由專(zhuān)家對(duì)本領(lǐng)域知識(shí)以一定的規(guī)則進(jìn)行組織整序,形成一種內(nèi)部知識(shí)相互關(guān)聯(lián)的網(wǎng)絡(luò)結(jié)構(gòu),一方面擴(kuò)大檢索入口,提高檢全率;另一方面為用戶(hù)提供知識(shí)鏈接的環(huán)境。如北京大學(xué)數(shù)據(jù)分析研究中心的“廿五史研習(xí)系統(tǒng)”,其聯(lián)想式檢索是一種在全局環(huán)境下(包括自建知識(shí)庫(kù)與文獻(xiàn)庫(kù)中的全文、注釋?zhuān)┑囊绘I式檢索功能,用戶(hù)可在閱讀環(huán)境下選擇文本中的任意字詞進(jìn)行知識(shí)鏈接;臺(tái)灣地區(qū)“中央研究院”歷史語(yǔ)言研究所的“明實(shí)錄、朝鮮王朝實(shí)錄、清實(shí)錄數(shù)據(jù)庫(kù)”則是鏈接該所與臺(tái)北故宮博物院共同研發(fā)的“明清檔案人名權(quán)威資料”,用戶(hù)可在閱讀時(shí)隨時(shí)了解文中出現(xiàn)人物的生平與履歷信息。
(3)嵌入外部知識(shí)工具。常見(jiàn)的外部知識(shí)工具有古漢語(yǔ)字典、人名與地名詞典、生僻字輸入工具、時(shí)間換算法(古今紀(jì)年、干支公元換算)等。本次調(diào)研發(fā)現(xiàn),由臺(tái)灣地區(qū)“中央研究院”歷史語(yǔ)言研究所開(kāi)發(fā)的“漢代簡(jiǎn)牘數(shù)字典藏?cái)?shù)據(jù)庫(kù)”嵌入了“史語(yǔ)所藏居延漢簡(jiǎn)遺址查詢(xún)系統(tǒng)”,可借助GIS呈現(xiàn)遺址及簡(jiǎn)牘發(fā)現(xiàn)位置。不過(guò),此類(lèi)功能在學(xué)術(shù)機(jī)構(gòu)研發(fā)的典藏檢索型數(shù)據(jù)庫(kù)中仍較少見(jiàn)。
1.3? ? 數(shù)字出版商開(kāi)發(fā)的典藏檢索型數(shù)據(jù)庫(kù)
數(shù)字出版商依托圖書(shū)館的古籍善本資源,或吸納文史專(zhuān)業(yè)研究人員參與研發(fā),或與高校學(xué)術(shù)機(jī)構(gòu)聯(lián)合成立電子文獻(xiàn)研究所,大規(guī)模、成系統(tǒng)地將常用基本古籍?dāng)?shù)字化,其規(guī)模和總量在三類(lèi)主體中居首位(見(jiàn)表3)。在本次調(diào)研中,所有數(shù)字出版商所開(kāi)發(fā)的古籍?dāng)?shù)字化產(chǎn)品皆屬于典藏檢索型數(shù)據(jù)庫(kù),但新技術(shù)的應(yīng)用尚不充分,其各具特色的內(nèi)容資源尚未得到充分挖掘。
數(shù)字出版商開(kāi)發(fā)的古籍?dāng)?shù)字化產(chǎn)品以大型綜合性數(shù)據(jù)庫(kù)和叢書(shū)數(shù)據(jù)庫(kù)為特色,涵蓋史學(xué)、文學(xué)、宗教、醫(yī)學(xué)等領(lǐng)域常見(jiàn)古籍,很大程度上滿(mǎn)足了專(zhuān)業(yè)研究人員的需要,但各開(kāi)發(fā)主體間缺乏協(xié)作,因此選題重復(fù)率較高。在輔助研究功能上,它們開(kāi)發(fā)的古籍?dāng)?shù)字化產(chǎn)品有以下特點(diǎn):
(1)基本檢索功能成熟。多數(shù)產(chǎn)品具有分類(lèi)瀏覽功能,用戶(hù)可根據(jù)各系統(tǒng)的分類(lèi)組織方式掌握資源概況以類(lèi)求書(shū),其功能更偏重于資源的組織與展示;字段檢索通過(guò)對(duì)古籍外部特征進(jìn)行數(shù)據(jù)描述得以實(shí)現(xiàn),常見(jiàn)字段見(jiàn)表3,但大多不支持檢索擴(kuò)展或智能檢索。這就要求用戶(hù)對(duì)各數(shù)據(jù)庫(kù)的元數(shù)據(jù)著錄規(guī)范有充分的掌握,對(duì)用戶(hù)的檢索能力要求較高。同時(shí)由于標(biāo)引的深度不夠,無(wú)法發(fā)現(xiàn)古籍內(nèi)容中潛在的知識(shí);全文檢索功能雖在一定程度上彌補(bǔ)了字段檢索在內(nèi)容檢索上的缺陷,但因?qū)χR(shí)組織與關(guān)聯(lián)技術(shù)的引入不夠,目前的全文檢索功能實(shí)際上仍停留在字詞索引階段,導(dǎo)致用戶(hù)在檢索專(zhuān)題資料時(shí)仍需耗費(fèi)大量精力來(lái)設(shè)計(jì)全面的檢索式,以獲得更高的檢全率。
(2)嵌入的知識(shí)工具同質(zhì)性高。調(diào)查顯示,嵌入的知識(shí)工具仍在字詞典、紀(jì)年換算的范圍,其中愛(ài)如生與書(shū)同文公司所開(kāi)發(fā)的產(chǎn)品大多配備統(tǒng)一的嵌入工具,一些有專(zhuān)門(mén)需求的數(shù)據(jù)庫(kù)則未根據(jù)文獻(xiàn)特色開(kāi)發(fā)出相應(yīng)的輔助工具。值得一提的是,書(shū)同文公司開(kāi)發(fā)的三維助檢系統(tǒng)及關(guān)聯(lián)漢字檢索較具特色,前者可在書(shū)同文公司自建的知識(shí)庫(kù)中查詢(xún)歷史地名、人名與職官信息,也可在閱讀環(huán)境中通過(guò)超鏈接直接獲取相關(guān)知識(shí)信息;后者根據(jù)內(nèi)建字體知識(shí)庫(kù),幫助用戶(hù)將檢索詞擴(kuò)展至異體字、簡(jiǎn)繁體等變體,其效果類(lèi)似截詞檢索,在技術(shù)上利用知識(shí)庫(kù)與布爾邏輯規(guī)則彌補(bǔ)了單純?nèi)臋z索在變體字檢索上的缺陷。
(3)知識(shí)增值功能少且單一。調(diào)查顯示,此類(lèi)型數(shù)據(jù)庫(kù)的知識(shí)增值功能主要以版本對(duì)照與查詢(xún)?yōu)橹鳎珒H限于古籍?dāng)?shù)字化底本與文本的對(duì)照,而其他版本只能查詢(xún)其館藏出處,仍無(wú)法做到傳統(tǒng)文獻(xiàn)整理所要求的“廣羅異本”,更無(wú)法滿(mǎn)足將一切有校勘價(jià)值的文獻(xiàn)資料提供給專(zhuān)業(yè)研究者的需求。加上未能有效結(jié)合前人的版本考訂成果,讀者對(duì)開(kāi)發(fā)商選用底本的依據(jù)無(wú)從知曉。個(gè)別數(shù)據(jù)庫(kù)能提供多個(gè)版本的圖像對(duì)照,但限于顯示環(huán)境,對(duì)比翻檢困難。另外,相關(guān)研究整合與國(guó)學(xué)寶典嵌入的知網(wǎng)結(jié)節(jié)功能藉由人工與引文分析的方法,可幫助研究者快速獲得相關(guān)課題的研究成果。
綜上所述,不同主體開(kāi)發(fā)的典藏檢索型古籍?dāng)?shù)據(jù)庫(kù)在選題上各有不同,但在研究功能上都以檢索功能為主,字段檢索與全文檢索相互輔助能有效地獲取原始文獻(xiàn)內(nèi)容,但文本內(nèi)的知識(shí)組織與利用較為欠缺。
2? ?量化分析型數(shù)據(jù)庫(kù)及其輔助人文學(xué)術(shù)研究功能
量化分析型數(shù)據(jù)庫(kù)是將古籍內(nèi)容或整理成果轉(zhuǎn)化為可制表分析的量化形式,不僅包含類(lèi)似人口、產(chǎn)量、價(jià)格等數(shù)字信息,“其他描述性的信息,也應(yīng)通過(guò)某種形式轉(zhuǎn)換為可量化分析的數(shù)據(jù),這是歷史文獻(xiàn)數(shù)據(jù)化的理想狀態(tài)”[3]。與典藏檢索型數(shù)據(jù)庫(kù)相比,量化分析型數(shù)據(jù)庫(kù)打破了古籍原有的內(nèi)容結(jié)構(gòu),經(jīng)過(guò)重組的文獻(xiàn)內(nèi)容以新的文本形態(tài)或數(shù)據(jù)結(jié)構(gòu)呈現(xiàn),在不同研究者、不同研究工具與研究視角下可能觸發(fā)新的研究靈感。本次調(diào)研涉及量化分析型數(shù)據(jù)庫(kù)16種,依其數(shù)據(jù)來(lái)源可分為單純將紙質(zhì)古籍整理成果進(jìn)行轉(zhuǎn)化的數(shù)字化索引、具備研究輔助功能的分析平臺(tái)兩種類(lèi)型。
2.1? ? 數(shù)字化索引型的量化分析數(shù)據(jù)庫(kù)
具有量化分析功能的索引是由專(zhuān)家根據(jù)不同文獻(xiàn)的特點(diǎn)對(duì)其內(nèi)容進(jìn)行提取并重新整序,形成高度結(jié)構(gòu)化與規(guī)范化的組織形式,有利于計(jì)算機(jī)進(jìn)行大規(guī)模的統(tǒng)計(jì)分析。而將既有古籍整理成果轉(zhuǎn)化為可制表的量化形式,則是對(duì)傳統(tǒng)文獻(xiàn)整理成果在數(shù)字環(huán)境下的增值利用。數(shù)字化索引多是先有紙本古籍整理成果,然后形成數(shù)據(jù)庫(kù)(見(jiàn)表4),因此在內(nèi)容組織與索引對(duì)象上大致不脫離原書(shū)范圍,但以其強(qiáng)大的檢索功能大大縮短了翻檢時(shí)間。在研究功能上,這類(lèi)數(shù)據(jù)庫(kù)在開(kāi)發(fā)時(shí)因元數(shù)據(jù)方案受制于原書(shū)體例,檢索功能較為單一,未能充分發(fā)揮計(jì)算機(jī)數(shù)據(jù)處理與結(jié)果呈現(xiàn)方面的優(yōu)勢(shì),因此輔助研究的功能不強(qiáng)。另外,經(jīng)過(guò)數(shù)字化轉(zhuǎn)換后的原始數(shù)據(jù)被存儲(chǔ)在數(shù)據(jù)庫(kù)中,用戶(hù)只能通過(guò)特定的接口才能訪問(wèn),無(wú)法獲得原始數(shù)據(jù),從而限制了這類(lèi)數(shù)據(jù)庫(kù)的使用效率。
2.2? ? 分析平臺(tái)型的量化分析數(shù)據(jù)庫(kù)
與數(shù)字化索引不同,分析平臺(tái)在數(shù)據(jù)來(lái)源上并不局限于特定的古籍整理成果,而是更多的來(lái)自未經(jīng)整理的民間文書(shū)、地契、檔案與相關(guān)歷史文獻(xiàn)。因文獻(xiàn)整理與數(shù)據(jù)庫(kù)構(gòu)建同時(shí)進(jìn)行,開(kāi)發(fā)人員與文史專(zhuān)家得以帶著研究課題與特定假設(shè)開(kāi)展工作,這使得文史專(zhuān)家能根據(jù)特定要求制定相應(yīng)的元數(shù)據(jù)方案與文獻(xiàn)整理規(guī)范。經(jīng)整理的文獻(xiàn)多能按照規(guī)范的數(shù)據(jù)結(jié)構(gòu)嚴(yán)格著錄,或以人名權(quán)威檔的形式將傳主的基本數(shù)據(jù)與履歷信息制表呈現(xiàn)出來(lái),較傳統(tǒng)的文獻(xiàn)整理成果更利于計(jì)算機(jī)進(jìn)行大規(guī)模數(shù)據(jù)處理和做相關(guān)性的分析。因此,這類(lèi)將研究問(wèn)題、文獻(xiàn)整理方式與數(shù)據(jù)庫(kù)設(shè)計(jì)三者有機(jī)結(jié)合的數(shù)據(jù)庫(kù)因其量化數(shù)據(jù)與二次信息的特性,降低了不同學(xué)科研究者在閱讀與理解跨學(xué)科文獻(xiàn)過(guò)程中所耗費(fèi)的精力,促進(jìn)了跨學(xué)科研究的發(fā)展。在研究功能上,該類(lèi)數(shù)據(jù)庫(kù)有以下特點(diǎn):
(1)檢索過(guò)程簡(jiǎn)化,檢索字段更符合研究需要。因文獻(xiàn)整理方式與數(shù)據(jù)表結(jié)構(gòu)充分發(fā)揮數(shù)據(jù)庫(kù)的優(yōu)勢(shì),目前此類(lèi)數(shù)據(jù)庫(kù)在檢索接口多采用下拉列表的字段檢索方式,可輕易實(shí)現(xiàn)多維檢索。由于文獻(xiàn)整理過(guò)程中充分結(jié)合研究問(wèn)題,使得可供檢索的字段彼此之間具有強(qiáng)關(guān)聯(lián)性的內(nèi)容特征,而非僅是傳統(tǒng)文獻(xiàn)著錄的外部特征,研究者可對(duì)不同的檢索結(jié)果列表以原始的數(shù)據(jù)表形式導(dǎo)出,再以各自的研究視角與研究工具進(jìn)行分析解讀。此外,相較于典藏檢索型數(shù)據(jù)庫(kù),下拉列表檢索簡(jiǎn)化了檢索過(guò)程,也降低了數(shù)據(jù)庫(kù)對(duì)用戶(hù)檢索技巧與文獻(xiàn)特征理解的要求。
(2)知識(shí)增值功能發(fā)揮量化數(shù)據(jù)在統(tǒng)計(jì)與可視化上的優(yōu)勢(shì)。如上海交通大學(xué)歷史系與圖書(shū)館開(kāi)發(fā)的《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》[4],其檢索結(jié)果統(tǒng)計(jì)功能可對(duì)檢得文獻(xiàn)的地域分布、年代排序、類(lèi)型分布及事主進(jìn)行統(tǒng)計(jì),而關(guān)聯(lián)文獻(xiàn)聚合功能可根據(jù)標(biāo)引內(nèi)容,將與檢得文獻(xiàn)同屬同一批次、地域、歸戶(hù)或同一事主的文獻(xiàn)一并呈現(xiàn);又如臺(tái)灣“中研院”《清代糧價(jià)數(shù)據(jù)庫(kù)》[5],用戶(hù)輸入起訖年月、省府別、糧別后可獲得糧價(jià)數(shù)據(jù),查詢(xún)結(jié)果會(huì)以表格、點(diǎn)狀圖及柱狀圖呈現(xiàn)。表格內(nèi)每月糧價(jià)有最高價(jià)和最低價(jià)兩種,點(diǎn)狀圖以不同顏色代表最高糧價(jià)及最低糧價(jià),柱狀圖則顯示價(jià)差。
綜上所述,量化分析型數(shù)據(jù)庫(kù)與典藏檢索型數(shù)據(jù)庫(kù)在構(gòu)建理念與文獻(xiàn)整理方法上存在諸多差異,其中最大的不同在于它打破了文獻(xiàn)內(nèi)容原有的組織方式,以數(shù)據(jù)表的形式呈現(xiàn)經(jīng)過(guò)提取的二次信息。此法雖利于計(jì)算機(jī)處理數(shù)據(jù)與呈現(xiàn)結(jié)果,但由于用戶(hù)直接使用的是結(jié)構(gòu)化的文獻(xiàn)內(nèi)容,因此在利用這些數(shù)據(jù)時(shí)仍須將其重新放回到所在文本乃至當(dāng)時(shí)的社會(huì)背景下進(jìn)行綜合考慮,以免得出武斷的結(jié)論。
3? ?數(shù)字人文平臺(tái)及其輔助人文學(xué)術(shù)研究功能
數(shù)字人文平臺(tái)是一種基于典藏檢索型數(shù)據(jù)庫(kù)與量化分析型數(shù)據(jù)庫(kù)發(fā)展而來(lái)的學(xué)術(shù)研究環(huán)境,既具備前者的全文檢索與典藏功能及透過(guò)深度的元數(shù)據(jù)標(biāo)引實(shí)現(xiàn)多維度檢索與檢索后的分類(lèi)功能,又兼具后者的數(shù)據(jù)化特性,即文獻(xiàn)整理時(shí)依據(jù)文獻(xiàn)特性與研究者需求將所提取文獻(xiàn)信息以結(jié)構(gòu)化方式呈現(xiàn),發(fā)揮計(jì)算機(jī)數(shù)據(jù)統(tǒng)計(jì)的優(yōu)勢(shì)。一方面,作為一種研究環(huán)境,數(shù)字人文平臺(tái)的目的是除檢索功能外,能提供研究者“觀察”史料的工具,即借由信息技術(shù)幫助已有自身問(wèn)題意識(shí)的研究者輕易地從史料中找到論證對(duì)象;另一方面,幫助研究者挖掘一些意料之外的學(xué)術(shù)問(wèn)題,開(kāi)拓出新的研究視野[6]。
本次調(diào)研共發(fā)現(xiàn)15個(gè)可稱(chēng)之為數(shù)字人文平臺(tái)的中文古籍?dāng)?shù)據(jù)庫(kù),為便于分析其功能,筆者將以文本處理與字頻統(tǒng)計(jì)功能為主的文本分析工具歸為一類(lèi)(見(jiàn)表6),而將整合了多種功能并能呈現(xiàn)可視化的研究平臺(tái)歸為一類(lèi)(見(jiàn)表7)。
3.1? ? 文本分析工具的研究輔助功能
文本分析工具由典藏檢索型數(shù)據(jù)庫(kù)發(fā)展而來(lái),在檢索功能上延續(xù)了其基于外部特征的字段檢索與分類(lèi)瀏覽功能,此外在全文數(shù)據(jù)庫(kù)的基礎(chǔ)上借助N-gram模型解決了古代漢語(yǔ)的分詞問(wèn)題,借由計(jì)算機(jī)自動(dòng)處理全文,實(shí)現(xiàn)字頻統(tǒng)計(jì)與文本分析的功能。從文本分析工具成果表可發(fā)現(xiàn),目前常見(jiàn)的文本分析是相似度對(duì)比,它一般直接忽略文本內(nèi)容的語(yǔ)義,采用自然語(yǔ)言處理(NPL)模型(如N-gram模型、向量空間模型)對(duì)文句建模并進(jìn)行相似度比較。此類(lèi)功能根據(jù)不同的研究需求有不同的應(yīng)用場(chǎng)景,如文學(xué)領(lǐng)域可用于語(yǔ)言風(fēng)格分析,以定量方法判定作者歸屬和文學(xué)流派;文獻(xiàn)學(xué)領(lǐng)域可用于分析文獻(xiàn)之間的引用關(guān)系或文獻(xiàn)???。對(duì)文風(fēng)和遣詞造句習(xí)慣的分析,還可為文獻(xiàn)辨?zhèn)翁峁﹨⒖肌?/p>
另一類(lèi)常見(jiàn)的文本分析功能是字詞頻分析。調(diào)查顯示,《全唐詩(shī)分析系統(tǒng)》《全宋詩(shī)分析系統(tǒng)》的用戶(hù)只需要根據(jù)所選格律、聲調(diào)、體裁輸入檢索詞,系統(tǒng)便可統(tǒng)計(jì)檢索詞在全庫(kù)中各作者詩(shī)作中的使用頻次;《近代史料全文數(shù)據(jù)庫(kù)》可同時(shí)支持5個(gè)詞匯的檢索,以折線圖形式呈現(xiàn)檢索詞在文獻(xiàn)集中的出現(xiàn)次數(shù);《中國(guó)哲學(xué)書(shū)電子化計(jì)劃》嵌入的Text Tools插件,可將檢索詞的出現(xiàn)頻次與共現(xiàn)關(guān)系以圖表、詞云或網(wǎng)絡(luò)圖形式呈現(xiàn)。此外,詩(shī)詞格律是文學(xué)領(lǐng)域中特有的研究?jī)?nèi)容,利用前人對(duì)詩(shī)作整理與格律標(biāo)引成果,并借助計(jì)算機(jī)的幫助,可實(shí)現(xiàn)對(duì)大量詩(shī)作的格律分析,如《全唐詩(shī)分析系統(tǒng)》《全宋詩(shī)分析系統(tǒng)》可根據(jù)每首詩(shī)的數(shù)據(jù)化格律信息找出相似格律的詩(shī)作。相反,也可找出《全唐詩(shī)》與《全宋詩(shī)》中的重出詩(shī)與誤收詩(shī)。
然而,不論是詞頻統(tǒng)計(jì)或是相似性分析,其結(jié)果并不能也不該直接得出任何結(jié)論[7]。因?yàn)檫@類(lèi)從文本中提取出的數(shù)據(jù)終究無(wú)法涵蓋文獻(xiàn)本身的所有信息,而文獻(xiàn)本身又是基于特定時(shí)空背景下所產(chǎn)生的,文本分析工具雖可幫助研究者發(fā)現(xiàn)文獻(xiàn)中事件、人物、時(shí)間等因素之間在傳統(tǒng)文本條件下難以發(fā)現(xiàn)的關(guān)聯(lián)性,但這些關(guān)聯(lián)性背后深層次的原因仍需要文史研究者以其經(jīng)過(guò)專(zhuān)業(yè)訓(xùn)練所形成的史才、史學(xué)與史識(shí)加以闡述與論證。
3.2? ? 數(shù)字人文平臺(tái)的研究輔助功能
數(shù)字人文平臺(tái)構(gòu)建的文獻(xiàn)來(lái)源十分豐富,包括文集、方志、書(shū)目、民間文書(shū)、檔案數(shù)據(jù)與人物傳記數(shù)據(jù)等。這些文史數(shù)據(jù)經(jīng)過(guò)適當(dāng)?shù)恼砼c標(biāo)引后,再結(jié)合平臺(tái)的系統(tǒng)功能,可為研究者建立一個(gè)虛擬的歷史環(huán)境,幫助研究者發(fā)現(xiàn)文獻(xiàn)各部分內(nèi)容、各歷史人物、各歷史事件之間通過(guò)人工難以發(fā)現(xiàn)的內(nèi)在關(guān)聯(lián);在功能上,平臺(tái)集成不同類(lèi)型的功能于一體,如GIS系統(tǒng)、文本分析功能、可視化功能、嵌入知識(shí)庫(kù)與社會(huì)網(wǎng)絡(luò)分析等功能。
“中國(guó)歷代人物傳記數(shù)據(jù)庫(kù)(CBDB)”是由哈佛大學(xué)、臺(tái)灣地區(qū)“中央研究院”與北京大學(xué)合作開(kāi)發(fā)的一個(gè)關(guān)系型數(shù)據(jù)庫(kù),旨在收錄公元7-19世紀(jì)中國(guó)歷史上所有重要的人物傳記資料。通過(guò)大范圍收集數(shù)據(jù),CBDB提供許多檢視過(guò)去個(gè)人或群體生平的方法,即群體傳記學(xué)(Prosopography)[8],同時(shí)基于數(shù)據(jù)的完備與規(guī)模,為研究者提供了人際網(wǎng)絡(luò)分析(Social Network Analysis)與地理信息學(xué)(Geo-information Science)的研究環(huán)境。其中,群體傳記學(xué)的目的是想找出某一群體所共享的身份,如教育背景、出生地、任官履歷等,并藉此分析背后的社會(huì)原因;人際網(wǎng)絡(luò)分析注重的是人物之間一對(duì)一關(guān)系組構(gòu)而成的復(fù)雜網(wǎng)絡(luò)。以上兩種研究方法一直是文史學(xué)者所關(guān)心的問(wèn)題,如今結(jié)合計(jì)算機(jī)與地理信息系統(tǒng)的幫助,使得以往局限于人工環(huán)境而難以發(fā)現(xiàn)的隱藏關(guān)系或不確定的模糊概念,都可借助數(shù)字人文的研究方法獲得新的研究空間。
“中國(guó)歷代典籍總目分析系統(tǒng)(HBCC)”是一款由北京大學(xué)數(shù)據(jù)分析研究中心開(kāi)發(fā)的基于FRBR理念與知識(shí)本體構(gòu)建的綜合性古籍文獻(xiàn)知識(shí)庫(kù),內(nèi)容涵蓋我國(guó)經(jīng)典書(shū)目,采用自然語(yǔ)言處理技術(shù),完成目錄原數(shù)據(jù)的自動(dòng)標(biāo)注、切分、信息抽取工作和數(shù)據(jù)語(yǔ)義規(guī)范,以人工審校確保數(shù)據(jù)質(zhì)量,由此完成將書(shū)目信息轉(zhuǎn)化為品種、版本、印次、藏本、分類(lèi)信息與責(zé)任者等模塊的數(shù)據(jù)化處理[9]。該系統(tǒng)囊括古今各類(lèi)書(shū)目,并綜合分析存世文獻(xiàn)和歷史文獻(xiàn)的著錄數(shù)據(jù),在一定意義上與鄭樵所提出的“會(huì)通觀”“編次必記亡書(shū)”等文獻(xiàn)整理理念暗合。HBCC具有以下功能:(1)成書(shū)年代分布。系統(tǒng)按書(shū)目層次描述古籍文獻(xiàn)本體,自動(dòng)統(tǒng)計(jì)分析古籍文獻(xiàn)成書(shū)年代,并以可視化圖表呈現(xiàn),借由大規(guī)模書(shū)目信息形成不同類(lèi)目文獻(xiàn)的成書(shū)年代分布圖,從定量分析的角度為研究學(xué)術(shù)發(fā)展史提供佐證;(2)責(zé)任者相關(guān)性多維分析。在對(duì)責(zé)任行為分類(lèi)的基礎(chǔ)上,分析責(zé)任人或責(zé)任機(jī)構(gòu)基于同一作品因責(zé)任行為所產(chǎn)生的聯(lián)系;(3)層次聚類(lèi)分析。參照國(guó)際圖聯(lián)FRBR標(biāo)準(zhǔn),將品種、版本、印次、藏本四種實(shí)體層級(jí)根據(jù)書(shū)名、書(shū)目范圍、分類(lèi)、書(shū)目層級(jí)、版本類(lèi)型、版本時(shí)代、責(zé)任等屬性進(jìn)行聚類(lèi),有助于研究者快速掌握某一作品的所有衍生型式。
臺(tái)灣大學(xué)數(shù)字人文研究中心開(kāi)發(fā)的“臺(tái)灣歷史數(shù)字圖書(shū)館(THDL)”是一個(gè)以“明清時(shí)期的臺(tái)灣歷史”為主題的研究平臺(tái)。由于開(kāi)發(fā)人員在平臺(tái)構(gòu)建之初便預(yù)設(shè)系統(tǒng)收錄的檔案之間蘊(yùn)藏著一種既開(kāi)放、又具有各種不同連結(jié)的多元脈絡(luò),因此開(kāi)發(fā)了一系列基于“群體”概念的研究輔助工具,主動(dòng)為研究者分析檢索結(jié)果“整體”呈現(xiàn)的特征。系統(tǒng)主要功能有[10]:(1)檢索結(jié)果分類(lèi)。以年代、出處、作者、性質(zhì)四種方式對(duì)檢索結(jié)果分類(lèi),借此表現(xiàn)檢索結(jié)果的組成成分,并可對(duì)年代后分類(lèi)的結(jié)果可視化呈現(xiàn);(2)集中關(guān)聯(lián)文獻(xiàn)。相關(guān)文書(shū)、奏折與地契都具有往復(fù)、流轉(zhuǎn)的特性,因此若能將同一事件的往返奏折,或同一塊土地的不同交易行為的契約進(jìn)行關(guān)聯(lián),則有助于了解整體事件的歷史,目前已建成“上下手契”“原契與契尾”“鬮分契多份”“契書(shū)內(nèi)容”的關(guān)聯(lián)關(guān)系;(3)檢出相似文獻(xiàn)。古契書(shū)可能因鬮分契一式多份、契書(shū)重復(fù)抄寫(xiě)或格式雷同等造成契書(shū)的相似,THDL可針對(duì)兩兩文件全文計(jì)算相似度,將同種文獻(xiàn)的不同文本一并檢出。
4? ?結(jié)語(yǔ)
本次對(duì)中文古籍?dāng)?shù)字化成果輔助人文學(xué)術(shù)研究功能的調(diào)研顯示,典藏檢索型數(shù)據(jù)庫(kù)的輔助研究功能仍以檢索為主,大多數(shù)系統(tǒng)只能從古籍外部特征獲取文獻(xiàn)線索,其內(nèi)在知識(shí)內(nèi)容仍難以為研究者所用;量化分析型數(shù)據(jù)庫(kù)利用前人的古籍整理成果作為基礎(chǔ),或以基于研究需要的文獻(xiàn)整理方式對(duì)古籍內(nèi)容進(jìn)行再組織,有效地將計(jì)算機(jī)的統(tǒng)計(jì)分析優(yōu)勢(shì)應(yīng)用于人文學(xué)術(shù)研究,但因?yàn)槭芪墨I(xiàn)本身特性和標(biāo)引深度的限制,使得根據(jù)數(shù)據(jù)化文本得出的結(jié)果仍需文史學(xué)者的介入與考證;數(shù)字人文研究已然成為新趨勢(shì),在此背景下,人文學(xué)者對(duì)研究工具的功能提出了新的要求,即盡可能以“辨章學(xué)術(shù)、考鏡源流”“會(huì)通觀”等文獻(xiàn)整理學(xué)術(shù)傳統(tǒng)為參照,因?yàn)檫@些傳統(tǒng)早已被證明是與人文學(xué)術(shù)研究相適應(yīng)的。這就要求數(shù)字人文研究平臺(tái)的開(kāi)發(fā)必須依靠文史專(zhuān)家與信息工程師的全程協(xié)作,從古籍?dāng)?shù)字化之初就共同參與到系統(tǒng)的開(kāi)發(fā)之中,以專(zhuān)業(yè)問(wèn)題為導(dǎo)向,以符合人文學(xué)科研究的需求為出發(fā)點(diǎn)。這種將學(xué)術(shù)傳統(tǒng)與信息技術(shù)融合在一起的開(kāi)發(fā)模式,將是未來(lái)古籍?dāng)?shù)字化的發(fā)展方向。
參考文獻(xiàn):
[1]? 申斌,楊培娜.數(shù)字技術(shù)與史學(xué)觀念——中國(guó)歷史數(shù)據(jù)庫(kù)與史學(xué)理念方法關(guān)系探析[J].史學(xué)理論研究,2017(2):87-95,159.
[2]? 李明杰,俞優(yōu)優(yōu).中文古籍?dāng)?shù)字化的主體構(gòu)成及協(xié)作機(jī)制初探[J].圖書(shū)與情報(bào),2010(1):40-50.
[3]? 趙思淵.地方歷史文獻(xiàn)的數(shù)字化、數(shù)據(jù)化與文本挖掘:以《中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)》為例[J].清史研究,2016(4):26-35.
[4]? 上海交通大學(xué)圖書(shū)館.中國(guó)地方歷史文獻(xiàn)數(shù)據(jù)庫(kù)[DB/OL].[2018-10-29].http://dfwx.datahistory.cn/pc.
[5]? 臺(tái)灣地區(qū)“中央研究院”近代史研究所.清代糧價(jià)數(shù)據(jù)庫(kù)[DB/OL].[2018-10-29].http://mhdb.mh.sinica.edu.tw/foodprice/index.php.
[6]? 項(xiàng)潔,翁稷安.關(guān)于數(shù)位人文的思考:理論與方法[A].項(xiàng)潔.數(shù)位人文研究的新視野:基礎(chǔ)與想象[M].臺(tái)北:臺(tái)灣大學(xué)出版中心,2011:9-18.
[7]? 項(xiàng)潔,涂豐恩.什么是數(shù)字人文[A].項(xiàng)潔.從保存到創(chuàng)造:開(kāi)啟數(shù)位人文研究[M].臺(tái)北:臺(tái)灣大學(xué)出版中心,2011:9-28.
[8]? 傅君勱.中國(guó)歷代人物傳記數(shù)據(jù)庫(kù)用戶(hù)指南[EB/OL].[2018-11-07].http://projects.iq.harvard.edu/files/chinesecbdb/files/cbdb_users_guide_ch_170126.pdf.
[9]? 北京大學(xué)數(shù)據(jù)分析研究中心.中國(guó)歷代典籍總目分析系統(tǒng)(HBCC v1.0)產(chǎn)品說(shuō)明[EB/OL].[2018-11-07].https://wenku.baidu.com/view/1f6739a2f524ccbff1218486.html.
[10]? 臺(tái)灣大學(xué)數(shù)字人文研究中心,杜協(xié)昌,項(xiàng)潔.臺(tái)灣歷史數(shù)字圖書(shū)館[DB/OL].[2018-11-07].http://doi.airiti.com/LandingPage/NTURCDH/10.6681/NTURCDH.DB_THDL/Text.
作者簡(jiǎn)介:盧彤,男,武漢大學(xué)信息管理學(xué)院碩士研究生,研究方向:古籍?dāng)?shù)字化;李明杰,男,武漢大學(xué)信息管理學(xué)院、武漢大學(xué)數(shù)字圖書(shū)館研究所教授,博士生導(dǎo)師,研究方向:古典文獻(xiàn)學(xué)、中國(guó)圖書(shū)文化史。