樓向英
(浙江理工大學(xué)圖書館 杭州 310018)
據(jù)英文維基百科對Digital Humanities(數(shù)字人文)的解釋,數(shù)字人文可被定義為進(jìn)行學(xué)術(shù)研究的新方式,涉及協(xié)作、跨學(xué)科與計算參與的研究、教學(xué)和出版。它為人文學(xué)科的研究提供了數(shù)字工具和方法,印刷文字不再是知識生產(chǎn)和分配的主要媒介[1]。雖然學(xué)界對數(shù)字人文的定義有很多種,而且它的內(nèi)涵也在不斷發(fā)展,但我們可以把數(shù)字人文理解成一種研究方法[2],一種適應(yīng)時代大趨勢并把廣義的計算機(jī)技術(shù)應(yīng)用于人文領(lǐng)域的研究方法。數(shù)字人文技術(shù)體系主要包括數(shù)字化技術(shù)、數(shù)據(jù)管理技術(shù)、數(shù)據(jù)分析技術(shù)、可視化技術(shù)、VR/AR技術(shù)、機(jī)器學(xué)習(xí)技術(shù)等[3]。
近20年來,數(shù)字人文研究方法被廣泛應(yīng)用于語言、文學(xué)、歷史地理、圖書情報與檔案等學(xué)科領(lǐng)域。2021年7月中旬,筆者利用中國知網(wǎng)數(shù)據(jù)庫高級檢索欄目,以“(篇關(guān)摘:家譜 + 宗譜 + 族譜 + 譜牒 + 家乘 + 玉牒)AND(篇關(guān)摘:數(shù)字人文)”這一比較寬泛的檢索式進(jìn)行檢索,檢索范圍為總庫,時間不限,旨在相對查全數(shù)字人文視域下與家譜研究相關(guān)的文獻(xiàn),結(jié)果僅有12篇命中。究其原因,一方面在于數(shù)字人文在家譜的專門性研究中尚未普及,另一方面在于部分研究成果盡管沒有同時明確使用“數(shù)字人文”和“家譜”等概念,但其在實際研究中已運用了知識圖譜等數(shù)字人文技術(shù)[4-12]。
筆者通過分析上述直接相關(guān)、間接相關(guān)的兩類研究文獻(xiàn),發(fā)現(xiàn)上海圖書館對數(shù)字人文在家譜研究領(lǐng)域的應(yīng)用做了大量工作,包括將館藏的家譜數(shù)字化[13],利用基于語義萬維網(wǎng)的規(guī)范控制方法、基于知識本體的知識組織方法以及關(guān)聯(lián)數(shù)據(jù)技術(shù)、社會化網(wǎng)絡(luò)技術(shù)(SNS)、可視化技術(shù),實現(xiàn)面向知識發(fā)現(xiàn)的家譜數(shù)字人文服務(wù)[14-18],甚至將家譜納入集文獻(xiàn)庫和知識庫于一體的人文數(shù)據(jù)基礎(chǔ)設(shè)施中[19]。
此外,有學(xué)者嘗試將數(shù)字人文研究方法引入家譜研究。如許鑫、陸柳夢[20]以家譜語料為基礎(chǔ),以毗陵莊氏家譜為實例,通過社會網(wǎng)絡(luò)分析法,提取出明清江南世家之間的姻婭關(guān)系,為數(shù)字人文在家譜研究中的應(yīng)用提供了一個新途徑。朱蘭蘭、薄田雅[21]從數(shù)字人文視角出發(fā),分析了利用數(shù)字人文技術(shù)手段(文本挖掘技術(shù)、可視化分析工具等)對家譜檔案資源進(jìn)行多元化開發(fā)的可行性。此類文獻(xiàn)數(shù)量不少,不一一贅述。
綜合分析以上兩類研究成果,筆者發(fā)現(xiàn)數(shù)字人文方法在家譜研究中的應(yīng)用已初現(xiàn)雛形,但絕大部分成果仍是將家譜作為一個整體來研究,尚未對世系即家譜內(nèi)容中最核心的人物給予足夠的重視。
大部分學(xué)者傾向于將家譜視為與國史、地方志并列的歷史文獻(xiàn)。近世以降的中國家譜一般包括該家族的來源及遷徙、世系傳承、名宦鄉(xiāng)賢、田產(chǎn)祠墓、族規(guī)家訓(xùn)等諸多內(nèi)容,其中世系主要記錄以男性為中心的家族血緣關(guān)系,往往是家譜內(nèi)容中最重要也是占比最大的部分。
筆者認(rèn)為,數(shù)字人文研究方法可以從根本上拓展當(dāng)前家譜研究與應(yīng)用的思路,包括但不限于家譜數(shù)據(jù)的獲取、標(biāo)注、分析與展現(xiàn)。把重要家譜的世系提取出來并建立人物數(shù)據(jù)庫,可更有效地聚焦以世系為核心的家譜研究。例如,商業(yè)化的“ancestry.com”網(wǎng)站與美國猶他家譜學(xué)會的“family search.org”網(wǎng)站,被視為以人物為中心而非以文獻(xiàn)為中心的家譜平臺;由上海圖書館建設(shè)的中國家譜知識服務(wù)平臺[22]也已將胡適、盛宣懷、李鴻章三位人物所屬家譜中的世系以可視化的形式析出。
在鄉(xiāng)村振興的新時代背景下,若加以科學(xué)引導(dǎo),舊譜新修仍可成為弘揚傳統(tǒng)、增進(jìn)認(rèn)同、完善治理并激活地方創(chuàng)生的重要方式。而在新譜與舊譜之間,真正起橋梁作用的恰恰是人,也就是構(gòu)成家譜主體的世系部分。家譜作為歷史文獻(xiàn)是非常特殊的,中國人向來講究“修身、齊家、治國、平天下”,歷代流傳的優(yōu)良家教家風(fēng)和垂范百世的名人故事,將個體的修身處世與家庭責(zé)任、國家情懷緊密聯(lián)系在一起。傳統(tǒng)家譜會因為世系中提及的人物與活在當(dāng)下的人有所聯(lián)系而重新獲得生機(jī),并由此給人們提供不斷尋根究底、追本溯源的可能性,這正是家譜世系的恒久意義所在。
中國國家圖書館珍藏的《仙源類譜》和《宗藩慶系錄》是目前僅存的兩種趙宋皇族寫本譜牒,其編修年代距今已超過800年,是迄今為止各大家譜目錄中所見傳世最早的譜牒文獻(xiàn)?!断稍搭愖V》按照不同世系,詳細(xì)記載了宋代宗室的官爵、功罪、生卒、子女甚至女婿等信息,內(nèi)容較《宗藩慶系錄》更為完備。因此,下文將主要以宋寫本《仙源類譜》為案例,嘗試結(jié)合數(shù)字人文方法與傳統(tǒng)家譜文獻(xiàn),探索以世系為核心的家譜研究與應(yīng)用的新路徑,以期更好地挖掘中國家譜資源的寶貴價值。
筆者利用在哈佛大學(xué)量化社會科學(xué)研究所訪學(xué)的機(jī)會,與“中國歷代人物傳記資料庫”(下文簡稱CBDB數(shù)據(jù)庫)開展項目合作,致力于將《仙源類譜》記錄的趙宋宗子、宗女等信息納入該關(guān)系型歷史人物數(shù)據(jù)庫。“中國歷代人物傳記資料庫” 是由哈佛大學(xué)費正清中國研究中心、北京大學(xué)中國古代史研究中心、臺灣相關(guān)研究機(jī)構(gòu)的歷史語言研究所共同主持的學(xué)術(shù)數(shù)據(jù)庫,旨在系統(tǒng)收錄中國歷史上所有的人物傳記資料,將其整理為數(shù)據(jù),免費供學(xué)術(shù)研究使用。
在中國國家圖書館早已完成《仙源類譜》文獻(xiàn)縮微的前提下,對宋寫本家譜進(jìn)行文本化是將其納入數(shù)據(jù)庫的第一步。
筆者通過手動錄入和人工校對,將類似圖1所示的家譜縮微膠片中的原文整理成文字。與此同時,利用OCR識別軟件等工具和現(xiàn)有數(shù)字化資源,仔細(xì)比對《宋史·宗室世系表》等相關(guān)內(nèi)容來對《仙源類譜》進(jìn)行文本化處理。
圖1 中國國家圖書館藏《仙源類譜》縮微膠片示例
以趙世智次子趙令祈為例,其在《仙源類譜》中的完整信息經(jīng)文本化處理后具體如下:次令祈,至和三年七月二十三日生,賜名授太子右內(nèi)率府副率。該遇嘉祐八年三月二十九日英宗皇帝即位,轉(zhuǎn)太子右監(jiān)門率府率。該遇治平四年正月八日神宗皇帝即位,轉(zhuǎn)右千牛衛(wèi)將軍。累轉(zhuǎn)右監(jiān)門衛(wèi)大將軍,領(lǐng)榮州刺史。該遇元豐八年三月五日哲宗皇帝即位,轉(zhuǎn)右武衛(wèi)大將軍,領(lǐng)饒州團(tuán)練使。該大觀二年八寶赦,轉(zhuǎn)領(lǐng)永州防御使,改領(lǐng)文州。政和三年三月十一日卒,贈保康軍節(jié)度觀察留后,追封房陵郡公,再贈保寧軍節(jié)度使。
結(jié)合宋寫本《仙源類譜》與元修《宋史·宗室世系表》等文獻(xiàn)史料,我們可以清晰地了解趙令祈出自宋太祖趙匡胤長子即燕王趙德昭一房,由此我們能夠進(jìn)一步還原自趙匡胤至趙令祈的完整傳承世系:趙匡胤—趙德昭—趙惟正—趙從讜—趙世智—趙令祈。趙令祈又生有子堅、子惠、子薦、子舉、子韞、子傅、子昌、子榮諸子。
文本化工作完成之后,將文字內(nèi)容數(shù)據(jù)化是第二步。數(shù)據(jù)化在這里是指使文本內(nèi)容具有一定的數(shù)據(jù)結(jié)構(gòu),便于計算機(jī)的后續(xù)處理。根據(jù)中國歷代人物傳記資料庫的要求,數(shù)據(jù)化工作要盡可能多地提取出文本中的有效信息,如人名、生卒、職官、親屬婚姻等社會關(guān)系類型信息,并通過編程和正則表達(dá)式的應(yīng)用,將其整理成符合CBDB數(shù)據(jù)庫導(dǎo)入要求的Excel表格。
仍以趙令祈為例,數(shù)據(jù)化后,其信息在Excel表格中具體被導(dǎo)入多個子表。
子表“biogmain scratch”:此表給每一位人物賦予一個臨時ID(供過渡用,導(dǎo)入CBDB數(shù)據(jù)庫后將有專門的ID),趙令祈的臨時ID為13。
子表“biogmain”:此表是主表,包含人物的基本信息,如姓氏、名字、生年、卒年、所屬時代等。趙令祈在主表中的基本信息經(jīng)整理如圖2,利用年代轉(zhuǎn)化工具,將生年與卒年的年號紀(jì)年轉(zhuǎn)換為公元紀(jì)年。由此可知,趙令祈生于公元1056年,卒于公元1113年,享年58歲(此處按中國慣例計虛歲)。
圖2 數(shù)據(jù)化后趙令祈的基本信息
子表“kinship1 ”:此表提取人物關(guān)系,結(jié)果如圖3所示,證明趙世智與趙令祈的關(guān)系為父子。
圖3 數(shù)據(jù)化后趙令祈的父子信息
子表“kinship2”:此表提取人物關(guān)系,結(jié)果如圖4,顯示二人關(guān)系為子父。
圖4 數(shù)據(jù)化后趙令祈的子父信息
Entry:此表提取入仕途徑。趙令祈職官信息數(shù)據(jù)化后的結(jié)果參見圖5。
圖5 數(shù)據(jù)化后趙令祈的職官信息
這些數(shù)據(jù)化工作完成后,我們將所得信息與CBDB數(shù)據(jù)庫中已收錄的約2 500個宋代趙姓人物(由于一般趙宋宗室取名嚴(yán)格使用行輩聯(lián)名,故此處統(tǒng)計數(shù)據(jù)不含趙姓單名人數(shù))進(jìn)行比對查重,發(fā)現(xiàn)人物實際重復(fù)率較低。僅利用《仙源類譜》這一種宋寫本譜牒,至少可以增補1 056個CBDB 數(shù)據(jù)庫中尚未收錄的宋代人物,其中包括宗子 512人、宗女324人、 宗女婿220 人。
宋代皇族人口繁衍迅速,為避免子孫大量重名,他們習(xí)慣在取名時使用生僻字。因此,在譜牒的文本化過程中,不時會遇到無法常規(guī)輸入的字。考慮到后續(xù)數(shù)據(jù)化工作和CBDB數(shù)據(jù)庫的自身特點,使用特殊造字法并不可行。為此,對無法常規(guī)輸入的字,已明確為異體字者,筆者原則上直接改用正字;無法明確是否為異體字者,則暫用最近似的字代替,并做好相應(yīng)標(biāo)記。
一定程度的失真是文本化過程中不得不承受的損失。同樣,數(shù)據(jù)化一方面是將重要信息精煉的過程,另一方面也是原文信息逐漸失真的過程。比如,為方便后續(xù)研究,原文中薨、亡、崩、卒等詞,數(shù)據(jù)化后一律作 “卒”處理。
另外,在進(jìn)行數(shù)據(jù)化工作的同時,筆者也會對一些語義進(jìn)行明確。主要涉及以下兩種情況:一是原文中名字缺失或文字漫漶難識的宗子,其父子、兄弟關(guān)系明確者,通過核查《宋史·宗室世系表》,將人物信息補充完整。如趙令緝第五子的名字在宋寫本中闕如,在數(shù)據(jù)化過程中則通過史學(xué)考證確定為子。二是語義的顯性化。如原文“紹熙三年閏二月磨勘轉(zhuǎn)秉義郎,五年二月九日亡”,在數(shù)據(jù)化過程中則需要根據(jù)上下文將卒年明確為紹熙五年。又如“該遇郊祀大禮,紹熙三年閏二月復(fù)舊官”,應(yīng)聯(lián)系上下文,在數(shù)據(jù)化過程中將“舊官”明確為“右監(jiān)門衛(wèi)大將軍”。
這些實例生動揭示了一點:在譜牒文獻(xiàn)的文本化、數(shù)據(jù)化過程中,每向前推進(jìn)一步,都需要信息技術(shù)專家與人文學(xué)者的往復(fù)溝通、彼此合作。
完成宋寫本譜牒內(nèi)容的文本化、數(shù)據(jù)化后,最終將有技術(shù)人員把整體內(nèi)容導(dǎo)入CBDB數(shù)據(jù)庫。值得注意的是,該大型數(shù)據(jù)庫此前已收錄宋代人物約5萬人,導(dǎo)入《仙源類譜》等皇族資料,不僅能夠擴(kuò)充同時代的歷史人物信息,而且也必將提升宋寫本譜牒的利用率與歷史價值。因為僅《仙源類譜》和《宗藩慶系錄》所撬動的關(guān)聯(lián)人物就或可達(dá)萬人,這對于更全面地探討宋人社會網(wǎng)絡(luò)關(guān)系,分析趙宋皇族人口乃至社會上下流動諸問題,都有積極意義。
當(dāng)然,宋寫本譜牒的內(nèi)容除了可以融入CBDB數(shù)據(jù)庫,還可以整合到更為多元的大數(shù)據(jù)平臺,如中國家譜知識服務(wù)平臺。在數(shù)字人文迅速發(fā)展的大背景下,印刷文字不再是知識生產(chǎn)和分配的主要媒介,理當(dāng)更積極地看待重要家譜的數(shù)字化和數(shù)據(jù)化,積極進(jìn)行內(nèi)容共享和傳播,而不是僅以秘笈善本等形式將其深藏不用。
CBDB數(shù)據(jù)庫是把人物有關(guān)信息進(jìn)行拆分后再納入的關(guān)系型數(shù)據(jù)庫,它將《仙源類譜》涉及的人物納入了一個全球共享的廣闊平臺,但這也容易導(dǎo)致趙宋宗室的人物信息湮沒在大數(shù)據(jù)海洋里。因此,融入CBDB數(shù)據(jù)庫僅是萬里長征的第一步,除了鼓勵數(shù)據(jù)融入、整合之外,如何通過聚焦家譜世系以凸顯人物的價值同樣十分重要。
就《仙源類譜》而言,聚焦世系將有助于對宋代皇族的人物關(guān)系進(jìn)行全面梳理與勘誤。例如,太祖皇帝下第六世《仙源類譜》卷一明確記載趙匡胤來孫趙令琯,嘉祐五年三月二十四日生,政和五年八月二十五日卒,贈感德軍節(jié)度觀察留后,追封華原郡公?!端问贰ぷ谑沂老当怼穮s將趙令琯卒后的追贈信息誤作“贈感德軍節(jié)度使、華原郡公”[23]5663。又如,太祖皇帝下第七世《仙源類譜》卷二十二記載趙令渥長子為右迪功郎趙子淇,但在《宋史·宗室世系表》中“子淇”名字作“子洱”[23]6015。元人編纂宋代“宗室世系表”時,主要參照了原有的趙宋皇族譜牒資料,因此宋寫本《仙源類譜》作為第一手史料,其價值不言而喻。需要指出的是,盡管《仙源類譜》的數(shù)據(jù)化工作已經(jīng)完成,但囿于《宋史·宗室世系表》尚未實現(xiàn)科學(xué)有效的數(shù)據(jù)化,校對比勘工作仍不便利用計算機(jī)輔助進(jìn)行。此外,存世的《仙源類譜》所載多為趙匡胤、趙光義、趙廷美三兄弟下第六世、第七世子孫,而正史宗室世系表保存了共十三代、總數(shù)超過六萬人的皇族人口數(shù)據(jù),要對后者加以系統(tǒng)整理,尚需要更多的歷史材料支撐。
若從更長遠(yuǎn)的角度出發(fā),對宋代宗室世系的??边€原工作仍然只是基礎(chǔ)。研究的遠(yuǎn)期目標(biāo),還應(yīng)是進(jìn)一步結(jié)合宋寫本譜牒、正史宗室世系表、宗室傳記、碑志(如北宋皇陵等出土的墓志銘、宋人文集中的皇族墓志銘)、登科錄宗子應(yīng)舉、地方志散見科舉、仕宦、人物事跡等多元化歷史文本信息,以及歷代不斷遞修的重要趙氏族譜等資料,利用知識圖譜、本體等技術(shù),建成開放共享的宋代皇族人物數(shù)據(jù)庫及趙氏家譜網(wǎng)。如近年浙江臺州黃巖考古新發(fā)現(xiàn)了趙匡胤七世孫趙伯澐夫婦墓,其中趙伯澐為妻子李氏撰寫的墓志銘提及了人物生卒年月日、下葬時間等具體細(xì)節(jié),與1993年重修的《黃巖西橋趙氏宗譜》中的記載竟完全吻合,足證中國家譜千百年來傳承有序,不宜因其民間性而輕易忽視。但要真正大規(guī)模開發(fā)家譜的價值,還是離不開數(shù)字人文技術(shù)與方法的支撐。
若想實現(xiàn)上述研究與應(yīng)用愿景,需要進(jìn)一步完善我國數(shù)字人文基礎(chǔ)設(shè)施,也需要聯(lián)合各方力量,如高校、科研院所、圖書館乃至各地各姓氏宗親會等共同參與??傊?,以世系為核心,聚焦人物關(guān)系及姓氏群體的變遷,或不失為數(shù)字人文新趨勢下推進(jìn)家譜利用的可行路徑。
對于家譜而言,數(shù)字人文不僅是一種研究方法,其發(fā)展更多地是為了打破公眾和學(xué)術(shù)的壁壘、打破學(xué)術(shù)研究和普及應(yīng)用的壁壘。而聚焦世系、以人為本將會是家譜與數(shù)字人文相結(jié)合的入手點。
文章將宋代皇家譜牒《仙源類譜》融入CBDB數(shù)據(jù)庫,嘗試聚焦《仙源類譜》的世系來進(jìn)一步凸顯家譜價值,以實踐的方式初步證實了從這一入手點開始研究的可行性。最終證明了數(shù)字人文將以需求為導(dǎo)向,將信息技術(shù)與需求相融合滲透到家譜研究與實際應(yīng)用的方方面面。