劉圣嬰 王麗華 劉煒 劉倩倩
(1.華東師范大學(xué)圖書館,上海,200062; 2.上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院,上海,200444; 3.上海圖書館,上海,200031)
人文學(xué)科是所有科學(xué)之肇始,是人文精神之依托,被稱為知識(shí)分子的必備和基礎(chǔ)素養(yǎng)。無論是古希臘的七藝(文法、修辭、邏輯、算數(shù)、幾何、天文、音樂),還是春秋的六藝(詩、書、禮、樂、易、春秋),其所創(chuàng)立的知識(shí)教育體系在今天多歸屬于人文學(xué)科范疇,致力于培養(yǎng)區(qū)別于萬物的所謂“人性”。而當(dāng)今社會(huì)建立起與工業(yè)文明相匹配的極其復(fù)雜又高深的現(xiàn)代教育,看似造就了大量知識(shí)豐富的“專家”,但卻帶來了知識(shí)分子整體上的消失,不僅缺乏對人的價(jià)值以及人類未來命運(yùn)的思考者,連培養(yǎng)基本的責(zé)任與擔(dān)當(dāng)都成了奢望。在這個(gè)機(jī)器智能和生命編輯的時(shí)代,人文主義遭遇越來越嚴(yán)重的危機(jī),我們比任何時(shí)候都更加需要和呼喚世界意義的守護(hù)者[1]。
在這樣的背景下,數(shù)字人文誕生了。
作為信息技術(shù)在人文領(lǐng)域的應(yīng)用,數(shù)字人文目前仍處于非常早期的發(fā)展階段。雖然其歷史可以追溯到計(jì)算機(jī)剛開始用來做文字處理的上世紀(jì)中葉,迄今已有七十余年,但“數(shù)字人文”一詞是2004年隨著A Companion to Digital Humanities一書的出版才得以定名的,當(dāng)前還不具有公認(rèn)的定義,甚至連邊界在哪里也眾說紛紜、莫衷一是。即便如此,鑒于數(shù)字化社會(huì)的到來已勢不可擋,印刷品不再是知識(shí)生產(chǎn)與傳播的主要媒介。在這個(gè)背景下,圖靈獎(jiǎng)獲得者Tony Hey等敏銳地提出“科學(xué)研究的第四范式”概念[2],指出當(dāng)所有的研究素材和方法都數(shù)字化之后,“數(shù)據(jù)驅(qū)動(dòng)型研究”就水到渠成,人文科學(xué)也概莫能外,數(shù)字人文必然是人文研究的未來。
數(shù)字人文是各門具體人文科學(xué)采用數(shù)字方法的匯聚和總結(jié),是一種“方法論共同體”(Methodological Commons)。目前這個(gè)共同體已開始具備庫恩所說的共同的“學(xué)科范式”特征,隨著專業(yè)教育和學(xué)科體系的建立,數(shù)字人文逐漸從各種方法、技術(shù)的大雜燴,開始形成具有一定理論結(jié)構(gòu)和研究規(guī)律的獨(dú)特領(lǐng)域,該領(lǐng)域的研究者正在從對數(shù)字人文能不能成為一門“學(xué)科”心存疑慮而爭論不休,轉(zhuǎn)而開始專注于各類專門問題的探討和整體共性方法論的總結(jié)。當(dāng)然這與近年來數(shù)字人文研究基礎(chǔ)設(shè)施的不斷完善有關(guān),除了大量的數(shù)據(jù)資源以最新的技術(shù)不斷賦能研究人員之外,我們還擁有了頗具影響力的協(xié)會(huì)、學(xué)會(huì)和專業(yè)期刊,定期召開國際或地區(qū)性會(huì)議,具有穩(wěn)定的基金支持,尤其是形成了本-碩-博的專業(yè)教育體系。目前的薄弱環(huán)節(jié)是基礎(chǔ)設(shè)施的建設(shè)和提供者與新興的數(shù)字人文研究者之間缺乏溝通對話,導(dǎo)致數(shù)據(jù)資源相關(guān)的平臺(tái)建設(shè)和系統(tǒng)的標(biāo)準(zhǔn)規(guī)范尚未建立,正在成形的方法論體系缺乏實(shí)踐檢驗(yàn),因此未能盡快成熟并得到公認(rèn)。
以漢學(xué)(中國傳統(tǒng)學(xué)術(shù))研究為代表的中文數(shù)字人文研究也處在一個(gè)剛剛起步的階段。早期的數(shù)字圖書館或數(shù)字典藏成果為當(dāng)下的數(shù)字人文研究提供了重要的數(shù)據(jù)支持,然而從整體上看仍不系統(tǒng),缺乏規(guī)劃,各學(xué)科發(fā)展也很不平衡,研究成果較為零散、微觀,多是對數(shù)字技術(shù)的簡單應(yīng)用、對過去研究的重復(fù)驗(yàn)證,或者是對西方研究的一種單純模仿,還缺乏有影響力的、獨(dú)創(chuàng)性的成果。究其原因,圖書館等人類記憶機(jī)構(gòu)在數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)方面的滯后是一個(gè)重要瓶頸[3]。相比西方國家,我們在數(shù)據(jù)獲取方面的困難要大得多:數(shù)據(jù)系統(tǒng)之間缺乏聯(lián)通,付費(fèi)墻壁壘高聳,造成數(shù)據(jù)獲取的不充分和不完整,或者缺乏必須的數(shù)據(jù)格式(如中文文獻(xiàn)大多以圖像方式提供,文本奇缺),影響到項(xiàng)目的成本、成果的水平,以及對數(shù)字人文研究方法的歸納總結(jié)和教育機(jī)構(gòu)相關(guān)人才的培養(yǎng)等,這已成為中文數(shù)字人文發(fā)展的嚴(yán)重制肘。
本文試圖基于中國目前對于數(shù)字人文的理論研究,探討一種開放的數(shù)字人文服務(wù)平臺(tái)設(shè)計(jì),將數(shù)字人文研究范式與提供其支撐的基礎(chǔ)設(shè)施建設(shè)聯(lián)系起來,使其互相借鑒和促進(jìn),不僅滿足一般人類記憶機(jī)構(gòu)將數(shù)字典藏系統(tǒng)升級(jí)為基于數(shù)據(jù)的服務(wù)設(shè)施,發(fā)揮其全部潛能。重點(diǎn)在通過靈活可遷移的云平臺(tái)架構(gòu)設(shè)計(jì),以及可互操作、熱插拔、容器化的應(yīng)用App生態(tài)建設(shè),使所有機(jī)構(gòu)的平臺(tái)之間能夠?qū)崿F(xiàn)互聯(lián)互通,并探討應(yīng)用關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜、實(shí)體識(shí)別、機(jī)器學(xué)習(xí)等技術(shù),提供人文研究各類文本、圖像、社交網(wǎng)絡(luò)、地理信息和可視化等通用工具的支持,長遠(yuǎn)支持?jǐn)?shù)字人文項(xiàng)目的全生命周期管理。相信這樣的總體性設(shè)計(jì)能夠有助于數(shù)字人文方法論體系的豐富探索和盡快成型,從而幫助數(shù)字人文研究范式盡早確立。
人文研究一般是人文學(xué)者針對特定問題,綜合利用各種材料,透過一定方法,經(jīng)過研究過程而得出結(jié)論并發(fā)表交流的完整流程。素材和方法是人文研究的兩大要素。傳統(tǒng)人文研究的素材可分為文獻(xiàn)(文本或圖像)、實(shí)物和抽象物(概念、角色等)等。傳統(tǒng)人文研究的方法通常不是非常嚴(yán)格,一般依靠思辨和寫作就能得出結(jié)論、完成研究,這也是為什么人們經(jīng)常詬病“人文學(xué)科”缺乏科學(xué)性的原因。數(shù)字人文帶來了方法學(xué)的進(jìn)步,我們首先可以從方法研究入手,從中找出數(shù)字人文研究可重復(fù)、可循證的一般規(guī)律。
數(shù)字人文來自于對人文研究進(jìn)入數(shù)字時(shí)代所產(chǎn)生的方法學(xué)共同體的歸納,而根據(jù)提出科學(xué)范式概念的科學(xué)哲學(xué)大師托馬斯·庫恩的理論,學(xué)科共同體是學(xué)科范式的主要特征,因此我們可以認(rèn)為,研究數(shù)字人文方法其實(shí)就是在探討人文科學(xué)研究的一種新范式。從分析人文研究的素材和方法入手,我們可以初步掌握數(shù)字人文研究范式的基本輪廓。
把人文研究方法分為技術(shù)、行為和過程三個(gè)方面,有助于考察人文研究的基本方法范式。傳統(tǒng)人文研究雖然很少涉及技術(shù),但也絕非沒有,例如考古研究中的探方、測量,以及在人文研究中被普遍采用的卡片摘錄技術(shù)等,如果把社會(huì)科學(xué)也算上(社會(huì)科學(xué)與人文科學(xué)本身并無明顯界限),各類調(diào)查、訪談、口述歷史、民族志等研究方法都涉及大量的技術(shù),早期數(shù)字人文的許多方法其實(shí)都來自于用計(jì)算機(jī)實(shí)現(xiàn)手工的工作。研究過程可以認(rèn)為是研究行為的按一定順序的組合,相同的技術(shù)和行為可以組合成不同的過程,對不同人文學(xué)科研究所產(chǎn)生的效果是不同的。以下會(huì)有文字專門討論具體的研究“行為”(見2.3)。
圖1 ?人文研究的基本范式:數(shù)據(jù)+方法Fig. 1 Fundamental Paradigms of Humanities Research: Data + Method
人文研究方法的技術(shù)、行為和過程在數(shù)字人文中借助信息技術(shù)的進(jìn)步得到很大的發(fā)展,尤其是層出不窮的信息處理技術(shù),可以說這三個(gè)部分正在成為數(shù)字人文研究新范式的重要內(nèi)容,成為數(shù)字人文領(lǐng)域最重要的主題之一。圖1展示了對這種人文研究范式的解構(gòu)。
數(shù)字人文研究的“原料”可以分為數(shù)字文本、數(shù)碼圖像或由數(shù)字對象構(gòu)成的“模型”,有學(xué)者稱之為“數(shù)據(jù)態(tài)”。其中數(shù)字模型可以很簡單,某個(gè)文本數(shù)據(jù)庫可以代表某個(gè)人文主題的全部素材,也可以很復(fù)雜,復(fù)雜到作為某個(gè)真實(shí)系統(tǒng)的模擬(即所謂數(shù)字孿生,Digital Twins)。
數(shù)字人文的方法有兩類,一是傳統(tǒng)方法的計(jì)算機(jī)實(shí)現(xiàn),例如搜索、分析、比較等,利用計(jì)算機(jī)只是比傳統(tǒng)方法要快很多而已,最著名的數(shù)字人文研究案例—羅伯特·布薩神父編制托馬斯·阿奎納全集索引就是這樣的例子;二是由計(jì)算機(jī)技術(shù)產(chǎn)生的特殊方法,例如統(tǒng)計(jì)、分析、聚類和可視化等,布薩神父最后建立了托馬斯·阿奎納索引服務(wù),就屬于對傳統(tǒng)人文方法的一種突破。
從研究過程來看,數(shù)字技術(shù)和網(wǎng)絡(luò)交流對過去從收集資料到成果發(fā)表簡單的線性過程帶來了很大沖擊,其過程比傳統(tǒng)人文研究要復(fù)雜得多,可以是來回反復(fù)的交互過程,成果發(fā)表和交流形式也多利用網(wǎng)絡(luò)或社交媒體,具有迅速、便捷、容易追蹤但轉(zhuǎn)瞬即逝的特點(diǎn),目前甚至還沒有很好的計(jì)量與評價(jià)方法[4]。
無論是傳統(tǒng)方法的計(jì)算機(jī)實(shí)現(xiàn),還是由于計(jì)算機(jī)技術(shù)發(fā)展帶來的新方法,如果從目前各類具體數(shù)字人文研究項(xiàng)目來考察,或者從不同具體人文學(xué)科在走向數(shù)字人文過程中的表現(xiàn)來看,其技術(shù)、過程和行為三個(gè)方面都可以歸納出許多不同的特征。圖1雖然呈現(xiàn)了包括傳統(tǒng)人文和數(shù)字人文在內(nèi)的人文研究的統(tǒng)一范式,然而它并沒有區(qū)分這些不同特征。應(yīng)該說不同人文學(xué)科在邁向數(shù)字人文過程中的不同特點(diǎn),不同學(xué)科在使用素材或研究方法方面的不同,都會(huì)對該學(xué)科領(lǐng)域基于數(shù)據(jù)的研究范式帶來影響。例如文學(xué)或語言學(xué)偏重于利用文本處理技術(shù),歷史學(xué)則關(guān)注實(shí)體對象的時(shí)空呈現(xiàn)及相互關(guān)系,哲學(xué)需要將文本抽象為特定語義的概念,等,當(dāng)然這類不同可以看成是數(shù)字人文通用方法細(xì)分要素的不同配方組合。這里引入圖2,就是要展示數(shù)字人文方法受到技術(shù)體系和方法體系(指過程和行為)的雙重影響,而作用于各門不同人文學(xué)科。當(dāng)然這里討論的還只是數(shù)字人文研究方法的一個(gè)一般性思考框架,目前無論是具體的人文學(xué)科,還是一般性的數(shù)字人文,其方法體系都沒有定型,還處在發(fā)展變化中,也有待進(jìn)一步挖掘整理。
(1)研究過程方面
圖2 ?數(shù)字人文相關(guān)技術(shù)體系和方法體系 Fig. 2 Technology System and Method System Related to Digital Humanities
傳統(tǒng)人文研究對于素材的收集、加工、處理是研究過程的開始,這是人文研究很重要的有機(jī)組成部分;而數(shù)字人文可以將資料匯集、處理的通用部分獨(dú)立出來,作為研究基礎(chǔ)設(shè)施的一部分,由專門的圖書館、檔案館等相關(guān)機(jī)構(gòu)去完成,這就區(qū)分了基礎(chǔ)設(shè)施建設(shè)工作和數(shù)字人文研究工作。目前數(shù)字人文領(lǐng)域大量的工作其實(shí)是基礎(chǔ)設(shè)施建設(shè)工作,可以看到中文期刊數(shù)字人文的論文發(fā)表中大量來自圖書館信息檔案學(xué)科,就是這個(gè)道理。但基礎(chǔ)設(shè)施建設(shè)并不能代替數(shù)字人文研究,前者的目的是為了促進(jìn)后者。
(2)素材內(nèi)容方面
傳統(tǒng)人文通常通過管理和操控載體化的文獻(xiàn)取得內(nèi)容,限于手工處理的效率,研究的廣度、深度都受到限制;而數(shù)字人文研究基于數(shù)據(jù),平臺(tái)通常就能提供細(xì)粒度的知識(shí)組織,甚至建立了語義聯(lián)系,使得材料的操控變得較為容易,能夠進(jìn)行更大范圍深入研究,跨學(xué)科研究也更為容易。
(3)研究方法方面
傳統(tǒng)人文研究大都采用定性的思辨方法,通過聯(lián)想、比較、邏輯推理、思想實(shí)驗(yàn)等進(jìn)行敘事或闡釋;而數(shù)字人文可以采用建立模型和定量方法,進(jìn)行文本分析、內(nèi)容分析、時(shí)空分析、社會(huì)關(guān)系分析、統(tǒng)計(jì)聚類、可視化展示等,從某種程度上為人文研究提供了一定的可重復(fù)可驗(yàn)證的科學(xué)性保證。
(4)技術(shù)應(yīng)用方面
傳統(tǒng)人文研究可能會(huì)采用田野調(diào)查、問卷訪談等;而數(shù)字人文可以運(yùn)用更多計(jì)算機(jī)技術(shù),如機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、語義標(biāo)注、文本分析、量化分析、聚類算法等。
(5)科研協(xié)作方面
傳統(tǒng)的人文研究大多是學(xué)者個(gè)人或小規(guī)模團(tuán)隊(duì)透過多年皓首窮經(jīng)、苦思冥想,忽然頓悟,取得些許進(jìn)展;而數(shù)字人文更強(qiáng)調(diào)大規(guī)模協(xié)同和社會(huì)網(wǎng)絡(luò)交互,甚至大量采用眾包方式,網(wǎng)絡(luò)平臺(tái)能否提供相應(yīng)能力就顯得非常重要。
(6)成果交流方面
傳統(tǒng)人文基本上以出版圖書或發(fā)表論文為最高標(biāo)準(zhǔn);而數(shù)字人文可以同時(shí)推出網(wǎng)站、數(shù)據(jù)集、工具、軟件、課件、博客文章、可視化作品、多媒體電子書等,專著和論文可以只是副產(chǎn)品。當(dāng)然數(shù)字人文的基礎(chǔ)設(shè)施可以更豐富和全面,包含計(jì)算設(shè)施、云平臺(tái)、資源庫、語料庫等。
人文學(xué)者的研究行為可以類比于自然科學(xué)研究中的實(shí)驗(yàn)行為,是數(shù)字人文研究范式的重要來源。本文把數(shù)字人文方法區(qū)分成技術(shù)、過程和行為三個(gè)方面,研究方法是由研究行為在技術(shù)的支持下通過一定的過程組合和迭代而實(shí)現(xiàn),因此人文學(xué)者的行為范式非常值得研究,可以認(rèn)為人文學(xué)者在使用數(shù)字方法進(jìn)行學(xué)科問題的研究過程中,其共性的行為方式就構(gòu)成了行為范式。傳統(tǒng)人文研究者可能都有獨(dú)特的行為方式,同一個(gè)學(xué)派可能會(huì)基于相同的方式,而數(shù)字人文的價(jià)值就在于將其一般化,提取出共性的行為并以一定的技術(shù)進(jìn)行實(shí)現(xiàn),同時(shí)進(jìn)行標(biāo)準(zhǔn)化。因此研究行為成為數(shù)字人文研究范式中非常獨(dú)特的組成部分,本文稱之為數(shù)字人文研究的行為范式,具體的行為國外稱為“學(xué)術(shù)原語”(scholarly primitives)[5],可區(qū)分為搜索、收集、閱讀、協(xié)作、比較、發(fā)布等類型,每一種行為類型還可進(jìn)一步分為子行為,例如搜索可以分直接搜索、瀏覽、探索、存取、鏈接等;收集可以分為爬取、匯聚、組織等;閱讀有瀏覽、評價(jià)、遠(yuǎn)讀、細(xì)讀、互讀等;協(xié)作有建立網(wǎng)絡(luò)、咨詢、分享等,如表1所示。
人文研究的具體行為在數(shù)字人文平臺(tái)中都可以以一定的技術(shù)加以實(shí)現(xiàn),這些行為與實(shí)現(xiàn)技術(shù)之間的關(guān)系參見表2。每一個(gè)子行為都可以開發(fā)成目前業(yè)界流行的“微服務(wù)”,以更加適應(yīng)靈活先進(jìn)的云原生計(jì)算環(huán)境。
傳統(tǒng)人文的研究過程通常是從占有材料開始,然后經(jīng)過發(fā)現(xiàn)事實(shí)、提出假設(shè)、收集資料、分析比較、歸納整理,得出結(jié)論并進(jìn)行發(fā)表交流。數(shù)字人文研究由于素材更多、數(shù)據(jù)量更大、時(shí)空跨度都可能不同以往,因此研究過程可能會(huì)變得非常復(fù)雜,更多的在提出假設(shè)之后需要建立模型,然后將分析比較等研究過程,透過技術(shù)手段操控模型中的數(shù)據(jù)和各類參數(shù)來驗(yàn)證、修改或推翻假設(shè),最后得出結(jié)論。因而如何利用計(jì)算技術(shù)實(shí)現(xiàn)研究目標(biāo)也需要有一定的計(jì)算思維基礎(chǔ)。當(dāng)然,其前提是數(shù)字人文平臺(tái)能夠支持這樣的復(fù)雜性。
表1 ?基本的研究行為Table 1 Basic Research Behaviors
表2 ?數(shù)字人文研究行為及其技術(shù)實(shí)現(xiàn)Table 2 Digital Humanities Research Behavior and CorrespondingTechnical Implementation
什么是數(shù)字人文或什么是好的數(shù)字人文,目前還很難劃定一個(gè)清晰的邊界或給出明確的標(biāo)準(zhǔn)。盡管很多人認(rèn)為,僅僅采用搜索引擎查找資料,或用文字處理軟件從事研究而撰寫的人文研究成果并不能算是數(shù)字人文,但為什么搜索了專門的數(shù)據(jù)庫、用了可視化軟件或一些分析工具就可以是數(shù)字人文成果呢?Unsworth認(rèn)為[6]需要利用數(shù)字技術(shù)對人文問題進(jìn)行“表征、建?;蚰7隆保╝ practice of representation, a form of modeling or mimicry),才算數(shù)字人文(人文計(jì)算),然而這個(gè)界線也是模糊的,可能未來我們能夠劃清界線,但那時(shí)可能設(shè)定界線已經(jīng)變得沒有意義了。但無論如何我們可以認(rèn)為,從現(xiàn)在開始,人文研究賴以進(jìn)行的基礎(chǔ)已經(jīng)不是“文獻(xiàn)”,而是數(shù)據(jù),由此帶來基礎(chǔ)設(shè)施、平臺(tái)方法乃至評價(jià)標(biāo)準(zhǔn)都開始完全不同。我們現(xiàn)在還站在數(shù)字人文的門口,新的“范式”正在成型,生逢其時(shí),這是我們的幸運(yùn)。
數(shù)字人文平臺(tái)是為數(shù)字人文研究服務(wù)的,也是實(shí)現(xiàn)數(shù)字人文研究范式的重要的基礎(chǔ)設(shè)施之一。平臺(tái)建得好不好最終要通過數(shù)字人文研究成果來檢驗(yàn)。因此在建立之初首先需要了解數(shù)字人文研究人員的需求,了解數(shù)字人文研究的一般規(guī)律,以及方法、過程和行為,否則也無法設(shè)計(jì)出好的數(shù)字人文平臺(tái)。當(dāng)然,數(shù)字人文平臺(tái)“兼容”傳統(tǒng)的人文研究是一個(gè)前提條件,在很大程度上數(shù)字典藏系統(tǒng)應(yīng)該就能滿足需求,然后可以進(jìn)一步升級(jí)開發(fā)“真正的”數(shù)字人文平臺(tái),向人文學(xué)者全面提供基于數(shù)據(jù)的研究基礎(chǔ)設(shè)施服務(wù)。
目前的數(shù)字圖書館系統(tǒng)可以看成是一種初級(jí)版本的數(shù)字人文平臺(tái)。由于其大都只是將傳統(tǒng)的文獻(xiàn)掃描成圖像,結(jié)合元數(shù)據(jù)庫提供有限途徑的查詢,功能十分有限,基本上只是傳統(tǒng)圖書館的一種載體轉(zhuǎn)換,無法滿足數(shù)字人文研究的進(jìn)一步需要。雖然有一些平臺(tái)已開始提供一些工具,例如分詞、標(biāo)點(diǎn)、批注、詞云、格式轉(zhuǎn)換、實(shí)體提取、人物關(guān)系呈現(xiàn)及可視化等,并采用了眾包理念,但總體上還較為簡單,集成了一些成熟度不一的功能,沒有結(jié)合人文學(xué)者的領(lǐng)域和場景,用戶體驗(yàn)不夠好。
現(xiàn)有的數(shù)字人文平臺(tái)存在的最大問題還是技術(shù)上的,在內(nèi)容管理上尚未采用知識(shí)圖譜為代表的語義數(shù)據(jù)管理技術(shù),還是關(guān)系數(shù)據(jù)庫或者全文數(shù)據(jù)庫;在體系結(jié)構(gòu)上雖然已注意借鑒云計(jì)算技術(shù),但還沒有充分考慮以微服務(wù)和容積技術(shù)為基礎(chǔ)的云原生架構(gòu),也沒有考慮技術(shù)架構(gòu)和內(nèi)容架構(gòu)分離的設(shè)計(jì)。因此很難滿足人物、地點(diǎn)、時(shí)代、事件或特定事實(shí)主題的資料查詢需求,人物或?qū)嶓w之間邏輯或關(guān)聯(lián)關(guān)系的延伸查詢需求,時(shí)空主題范圍的統(tǒng)計(jì)分析需求以及可視化呈現(xiàn)的需求等?,F(xiàn)在的認(rèn)知計(jì)算技術(shù)結(jié)合了機(jī)器學(xué)習(xí)和人工智能,已經(jīng)能夠提供語詞概念或圖像實(shí)體的提取與分析、特征比較、相似性聚類等,數(shù)字人文平臺(tái)完全可以應(yīng)用最新技術(shù),實(shí)現(xiàn)最新功能。從平臺(tái)的角度來看,還有較大的提升空間。
人工智能專家李飛飛曾說:“作為科學(xué)家,最吸引我的是能夠不斷去拓寬人類知識(shí)的邊界,不斷問新的問題,并且發(fā)明工具來解決這些問題”。數(shù)字人文帶給人文研究最有價(jià)值的地方,也就是它能夠極大地拓展我們提問題的能力,從而拓展人文研究的新疆域。它使研究者能夠面對海量甚至是“全量”數(shù)據(jù)進(jìn)行研究,能夠利用各種工具對數(shù)據(jù)進(jìn)行分析、比較、挖掘、關(guān)聯(lián)。這些數(shù)據(jù)是傳統(tǒng)人文學(xué)者終其一生都不可能看完的,方法手段也是傳統(tǒng)手工所無法想象的。因此,數(shù)字人文的價(jià)值不僅在于它提供了研究的素材,同時(shí)也給予了強(qiáng)大的工具和新的方法。以下從中文研究資源和方法兩個(gè)角度,簡述數(shù)字人文相關(guān)情況。
史料乃人文研究之本,而所有人類活動(dòng)紀(jì)錄皆可為史料。圖書館等記憶機(jī)構(gòu)自古以來不僅是人類思想紀(jì)錄的保留地,也同時(shí)是人文思想的孵化所。著名的亞歷山大圖書館以收藏人類所有知識(shí)為己任,但其鴻富的收藏是為了聚集天下英才從事研究寫作和知識(shí)傳授,在其不長的歷史時(shí)期聚集了數(shù)百位先賢哲人,為中世紀(jì)乃至一千多年后的文藝復(fù)興留下了非常寶貴的知識(shí)財(cái)富。海量的資源提供了極其豐富的知識(shí)基礎(chǔ),使暢游其中的學(xué)者具有完全不同的起點(diǎn),站在巨人的肩上他們才更有智慧。中文資源亦是如此,淵遠(yuǎn)流長,歷經(jīng)兩千余年流傳,培育并滋養(yǎng)了燦爛的中華文明。
自上世紀(jì)九十年代以來,中國傳統(tǒng)學(xué)術(shù)相關(guān)資源的數(shù)字化已獲得長足發(fā)展,目前通過網(wǎng)絡(luò)已基本上皆可盡知。然而中文數(shù)字典藏的最大特點(diǎn)是以掃描圖像為主,總體上轉(zhuǎn)換成文本的數(shù)量不及三成,且質(zhì)量良莠不齊;另一個(gè)特點(diǎn)是大多數(shù)典藏資源都分散于各家出版機(jī)構(gòu)或數(shù)據(jù)庫廠商,研究機(jī)構(gòu)很少提供典藏資源的開放服務(wù);第三個(gè)特點(diǎn)是所有系統(tǒng)提供的功能都很簡單,大多只能進(jìn)行少量字段的查檢。雖然也有部分商業(yè)化特藏庫做得不錯(cuò),提供全文搜索,并且從文本質(zhì)量到圖文對照都比較人性化,然而總體來說與國外一些數(shù)字人文平臺(tái)的水平無法比肩。當(dāng)下的技術(shù)已經(jīng)提供了可能性,我們理應(yīng)做得更好。
2018年3月,哈佛大學(xué)包弼德教授在上海哈佛中心組織召開了“中國歷史研究的網(wǎng)絡(luò)基礎(chǔ)設(shè)施國際研討會(huì)(International Conference on a Cyberinfrastructure for Historical China Studies)”[7],遍請當(dāng)今與中文資源及平臺(tái)界相關(guān)人士和機(jī)構(gòu)代表,進(jìn)行了為期三天的研討,共有近60場各類會(huì)議(sessions and panel discussions),142人次發(fā)言,幾乎將中文傳統(tǒng)學(xué)術(shù)資源一網(wǎng)打盡。包教授將主要的中文傳統(tǒng)學(xué)術(shù)資源庫分為三類(見文末附表1):平臺(tái)與工具類、文字/文本圖像數(shù)據(jù)庫類以及數(shù)據(jù)庫類(主要是專題或文本庫),悉數(shù)邀請其代表參會(huì)。
包弼德教授的列表展示了中文數(shù)字人文資源的建設(shè)現(xiàn)狀,應(yīng)該是非常全面了。傳統(tǒng)人文學(xué)者在從事研究時(shí)大部分時(shí)間都在遍訪資源,常常必須通過打聽或者高人指點(diǎn),有時(shí)是偶然機(jī)緣,才有可能獲得一些線索,是不是合用還要經(jīng)過人工實(shí)際翻看,查找資料與研究者本人的學(xué)養(yǎng)、經(jīng)驗(yàn)都很有關(guān)系,沒有經(jīng)驗(yàn)的初學(xué)者甚至都無法查到合適的資料,查到了有時(shí)也不能判斷。對于傳統(tǒng)人文研究來說,檢索材料的過程經(jīng)常是作為正式研究過程的一部分,而不是準(zhǔn)備。
中文傳統(tǒng)學(xué)術(shù)資源其實(shí)是有限的,轉(zhuǎn)換成數(shù)據(jù)庫之后也不會(huì)增加。但是轉(zhuǎn)化成數(shù)據(jù)庫之后能夠在很大程度上降低人工檢索的難度。因此數(shù)字人文學(xué)者能夠在更大范圍、更準(zhǔn)確地查到所需資料,消除專家與普通研究者存在的信息不對稱,讓“資料(平臺(tái))面前人人平等”。這樣的話,查找資料的過程可以從研究過程中獨(dú)立,學(xué)者能夠把更多的時(shí)間和精力花在本學(xué)科的問題研究上,而不是數(shù)據(jù)獲取上。這是數(shù)字人文的最大好處之一。
據(jù)筆者不完全估計(jì),目前中國傳統(tǒng)學(xué)術(shù)研究常用的資源大致有:
古籍:根據(jù)目前對于古籍的定義,不重復(fù)的應(yīng)不超過20萬種,版本數(shù)不超過50萬種,已基本完成數(shù)字化掃描,其中四分之一(約5-6萬種)大致完成了文本化,約不超過100億字。已實(shí)現(xiàn)文本化的古籍有很多失去了版本信息(或被加工出版機(jī)構(gòu)根據(jù)一種或數(shù)種所謂“權(quán)威版本”進(jìn)行加工)。
民國圖書:保守估計(jì)不重復(fù)約有15萬種,已基本完成數(shù)字化掃描,文本化數(shù)量應(yīng)在300-400億字,但大多分散在各出版機(jī)構(gòu)。
現(xiàn)代圖書:不重復(fù)至少500萬種,基本都有數(shù)字化版本,但并非文本化,其中一多半以CEBX(Common e-Document of Blending XML,基于混合XML的公共電子文檔)格式存在,總量約上千億字。
近代期刊:至少2萬種,約800萬頁,基本完成數(shù)字化掃描,但文本化只有50億字左右。
近代報(bào)紙:總量約100萬拍,基本完成數(shù)字化、文本化(如申報(bào)等一些大報(bào))約30億字左右。
現(xiàn)代期刊:近30年的期刊基本都已經(jīng)文本化,主要為CNKI等數(shù)據(jù)庫商所掌握。
現(xiàn)代報(bào)紙:近30年經(jīng)漢字照排的報(bào)紙基本都有文本,一些大報(bào)(如人民日報(bào))也已完成了文本化,但因格式和版權(quán)問題,能得到開放應(yīng)用的很少。
檔案館藏:經(jīng)過近十多年來國家的大力投入,數(shù)字化已基本完成,而且絕大多數(shù)在數(shù)字化時(shí)已經(jīng)完成了文本化。
博物館(美術(shù)館)館藏:真正的數(shù)字化(保存級(jí))近年來剛剛開始,許多藏品需要3D建模,隨著技術(shù)的成熟成本逐漸降低,規(guī)模逐漸增大。
如果說包弼德教授的中文傳統(tǒng)學(xué)術(shù)資源列表還不能包羅萬象的話,近年來各類收藏機(jī)構(gòu)的中國傳統(tǒng)學(xué)術(shù)資源數(shù)字化已經(jīng)全面展開,數(shù)據(jù)庫已成為中國傳統(tǒng)學(xué)術(shù)研究者檢索資料的主要途徑。但矛盾的是學(xué)者們并沒有感到查找資料比以往更方便。這主要有如下問題:
(1)系統(tǒng)較為封閉。就如同古代藏書樓,寶貝秘不示人,是無法得到充分利用的。很多系統(tǒng)甚至不開放元數(shù)據(jù),無法讓學(xué)者查詢是否有某些資料。雖然大量的中國傳統(tǒng)學(xué)術(shù)資料都已過了版權(quán)保護(hù)期,但國內(nèi)的公藏機(jī)構(gòu)也大都不開放,恐怕被人盜取,還有不少出版機(jī)構(gòu)拿來影印或重新出版,使其又變成“有版權(quán)”出版品,依舊在“付費(fèi)墻”后面,依然沒解決開放問題。而中國大陸以外地區(qū)的典藏機(jī)構(gòu)近年來逐漸公開了大量資源(見附表2)。
(2)系統(tǒng)之間互不聯(lián)通。資料分散在各處,必須分別去查,很多甚至沒有上網(wǎng),尋訪依舊不易,找到后經(jīng)常需要手工抄錄,然后再進(jìn)行對比、分析等工作,有時(shí)只查元數(shù)據(jù)并不能滿足需求,系統(tǒng)中缺乏研究所需的關(guān)鍵信息,如版本、格式等。
(3)資料準(zhǔn)確率低。訛誤很多,數(shù)字化會(huì)放大錯(cuò)誤,且缺少修正機(jī)制。
(4)使用便捷性差。只是解決了“知道”和“得到”問題,后續(xù)所有工作都還是手工的,并不能體驗(yàn)到計(jì)算機(jī)能夠提供的更多好處,例如保存、統(tǒng)計(jì)分析等。
以中文數(shù)字圖書館(或稱為數(shù)字典藏)建設(shè)為主的數(shù)字人文基礎(chǔ)設(shè)施建設(shè)正方興未艾,目前幾乎所有的人文研究都需要從數(shù)據(jù)獲取和整理開始做起,因此大量的數(shù)字人文項(xiàng)目其實(shí)還是數(shù)字典藏項(xiàng)目,這類項(xiàng)目被David Golumbia稱為狹義的數(shù)字人文,是最容易獲得資助的。我們從2020年中國數(shù)字人文年會(huì)(2020 China Digital Humanities Conference ,CDH2020)的獲獎(jiǎng)項(xiàng)目(見表3)中可以看到這類項(xiàng)目的一些特點(diǎn):
(1)數(shù)字化逐漸讓位于數(shù)據(jù)化;知識(shí)庫逐漸增多。
(2)獨(dú)特的領(lǐng)域應(yīng)用做得更好,利用技術(shù)也很到位,能夠提供更多的研究支持。
(3)“低端果實(shí)”(low hanging fruit)較多,主要是一些以數(shù)字化方式重復(fù)已知的結(jié)果,或以可視化方式展示歷史、人物、事件等主題等。當(dāng)然其中做得好的,也包含大量的研究成份,以及很多設(shè)計(jì)和數(shù)據(jù)處理工作量,也不是沒有意義。
(4)以教育、普及和技術(shù)培訓(xùn)為目的的項(xiàng)目也有不少。這類項(xiàng)目經(jīng)常會(huì)曇花一現(xiàn),無法在基礎(chǔ)設(shè)施中沉淀下來。
從總體上看,當(dāng)前中國傳統(tǒng)學(xué)術(shù)研究相關(guān)材料分布極廣,技術(shù)各異,標(biāo)準(zhǔn)不一,數(shù)據(jù)質(zhì)量良莠不齊,整合有相當(dāng)難度,利用極為不便。
數(shù)字人文研究的素材其實(shí)不止于歷史資料。當(dāng)今數(shù)字時(shí)代大量的數(shù)字原生材料,例如美國國會(huì)圖書館收藏的Twitter檔案和中國國家圖書館保存的新浪微博,都是很有價(jià)值的資源,很多人文社會(huì)科學(xué)研究都可以在其中找到寶貴的數(shù)據(jù)資料,但對這些原生數(shù)字資源如何收集組織管理,并提供利用,目前似乎并沒有找到很好的方法,而且從各國的實(shí)踐來看當(dāng)前也不是圖書館檔案館等人類記憶機(jī)構(gòu)當(dāng)然的職責(zé)所在,將來有可能與傳統(tǒng)數(shù)字人文素材之間的歷史聯(lián)系會(huì)中斷,產(chǎn)生一段材料的真空期。我們現(xiàn)在應(yīng)該開始重視這個(gè)問題,把數(shù)字資源的保存組織也納入到數(shù)字人文平臺(tái)建設(shè)的內(nèi)容中去統(tǒng)一考量。
表3 ?CDH2020獲獎(jiǎng)項(xiàng)目情況Table 3 Some Information about the Award-winning Projects at CDH2020
分析CDH2020的獲獎(jiǎng)優(yōu)秀論文(見表4),可以大致了解目前國內(nèi)數(shù)字人文研究通常采用的方法和研究水平。年會(huì)一共評出18篇獲獎(jiǎng)?wù)撐模渲幸坏泉?jiǎng)3篇,二等獎(jiǎng)5篇,三等獎(jiǎng)10篇。18篇獲獎(jiǎng)?wù)撐闹杏?0篇關(guān)于基礎(chǔ)設(shè)施或技術(shù)研究,后者涉及建模技術(shù)、語義化聚類等,只有8篇可以算做人文主題的探討,包括闡釋學(xué)或敘事研究、色彩研究、文化批評等,其中有一篇嚴(yán)格算來也并非數(shù)字人文研究,只是它以“數(shù)字人文研究”這一現(xiàn)象作為研究的對象,是一篇以非數(shù)字人文方法研究數(shù)字人文主題的文章。
從表中可以看到,有不少論文是關(guān)于資料收集、建庫、開發(fā)系統(tǒng)、提供功能或方法研究的論文,如編號(hào)09130001、06190011等,其中一等獎(jiǎng)的三篇論文都是關(guān)于數(shù)字人文方法、平臺(tái)和框架研究,并深入到具體人文學(xué)科內(nèi)部,以學(xué)科特征為立足點(diǎn)的探討,比過去泛泛而談數(shù)字化、平臺(tái)開發(fā)或研究方法進(jìn)了一步,但依舊是數(shù)字人文基礎(chǔ)設(shè)施建設(shè)探討,而不是嚴(yán)格意義上的、以數(shù)字方法針對人文問題的研究。這些論文也呈現(xiàn)了一個(gè)有意思的現(xiàn)象,即基礎(chǔ)設(shè)施與技術(shù)探討常常是由跨學(xué)科團(tuán)隊(duì)完成,而人文主題則多由領(lǐng)域?qū)<要?dú)自實(shí)現(xiàn)。
這種以基礎(chǔ)設(shè)施和方法探討為主的研究現(xiàn)象說明,當(dāng)前的數(shù)字人文研究還處于一個(gè)尚未成熟的初始階段,說明基礎(chǔ)設(shè)施建設(shè)尚未到位,數(shù)字人文方法也沒有系統(tǒng)成型。不論是人文學(xué)者、技術(shù)專家,還是資源提供者,都熱衷于探討如何建立更好的研究平臺(tái)。目前數(shù)據(jù)獲取、加工、組織和平臺(tái)工具的開發(fā)和提供還是主要矛盾,在可以預(yù)見的未來,一旦基礎(chǔ)設(shè)施基本到位,數(shù)字人文的研究將真正由人文學(xué)者主導(dǎo),并以人文學(xué)科的問題為引領(lǐng)。
當(dāng)然這也要求基礎(chǔ)設(shè)施建設(shè)與人文學(xué)者研究之間逐漸形成一個(gè)明確的界線,人文研究的一般方法與具體人文學(xué)科的特定方法之間也需要有一定的分野,這樣才有利于形成規(guī)模和分工協(xié)作,而傳統(tǒng)人文研究是沒有這個(gè)界線的,人文學(xué)者承擔(dān)了從資料收集整理到結(jié)果交流發(fā)布的所有過程,使得研究一直處于零散、瑣碎、憑借個(gè)體經(jīng)驗(yàn)和難以合作的原始狀態(tài)。
表4 ?CDH2020獲獎(jiǎng)?wù)撐闹黝}及研究方法Table 4 Topics and Research Methods of the Award-winning Papers at CDH2020
不同人文學(xué)科的研究對象和問題不同,對應(yīng)于計(jì)算機(jī)所存儲(chǔ)的媒體類型和處理方式也不同,這或許是造成研究方法是否具有通用性的根本分歧。例如文本是幾乎所有人文學(xué)科進(jìn)行研究最常用的材料類型,它也是計(jì)算機(jī)所能處理的最常見的信息類型,這一點(diǎn)數(shù)字人文界毫不陌生,因?yàn)榱_伯特·布撒神父的工作幾乎伴隨了計(jì)算機(jī)文本處理技術(shù)進(jìn)步的全過程,而布撒神父的專業(yè)是神學(xué),卻是利用計(jì)算機(jī)實(shí)現(xiàn)了屬于圖書館學(xué)的索引編制技術(shù)。文本對于語言學(xué)來說就是最直接的素材,理所當(dāng)然地會(huì)利用各類查詢(例如追溯肇始源頭)、統(tǒng)計(jì)(頻度研究如詞云,或共現(xiàn)研究)、比較(詞性、變化)等“行為”來研究語言現(xiàn)象,中文自然就有切詞、句讀的需求;文學(xué)稍有不同,它更多地涉及文體、風(fēng)格、修辭、情感方面的問題,有時(shí)也會(huì)引伸出去,探討作者或虛構(gòu)人物的關(guān)系、時(shí)代背景或文學(xué)批評;文學(xué)有時(shí)也會(huì)涉及到文獻(xiàn)版本的比較、考證、鑒定等,這卻又是圖書館學(xué)的傳統(tǒng)內(nèi)容;哲學(xué)、神學(xué)、政治學(xué)等雖然也是通過文本進(jìn)行研究,但更多的卻是將文本當(dāng)作一種抽象概念,思想史、觀念史研究中需要應(yīng)用大量的抽象概念,這些概念常常可以建立起一種復(fù)雜的語義或邏輯聯(lián)系,從而辨別社團(tuán)、思潮及流派譜系等,這種聯(lián)系正好是語義技術(shù)的強(qiáng)項(xiàng),應(yīng)用本體語言完全可以將復(fù)雜的語義聯(lián)系進(jìn)行代碼化,從而就具備了“機(jī)讀”的能力,可以充分利用計(jì)算機(jī)的優(yōu)勢進(jìn)行管理和利用。歷史學(xué)、考古學(xué)等相對來說就更加復(fù)雜,它們通常是將文本作為實(shí)體對象及其關(guān)系的容器,從中可以提取豐富的場景和事件,提供敘事和闡釋的根據(jù),或構(gòu)建社群、譜系。對于這類文本,計(jì)算機(jī)也可以利用機(jī)器學(xué)習(xí)和知識(shí)圖譜等技術(shù),構(gòu)建一系列“數(shù)字孿生”模型,從而可以讓歷史學(xué)家像坐上時(shí)光機(jī)器一般穿越到歷史故事中去,甚至可以利用不同的假設(shè)來推演可能的結(jié)果。
圖像是藝術(shù)、考古、人類學(xué)、民族學(xué)等人文學(xué)科不可或缺的資源類型,計(jì)算機(jī)可以從色彩、圖案、紋理等風(fēng)格特點(diǎn)進(jìn)行研究,也可以對其進(jìn)行模式識(shí)別,或者對各類實(shí)體對象進(jìn)行識(shí)別、比較、分析統(tǒng)計(jì)等,幫助得出結(jié)論。圖像資源尤其對于中國傳統(tǒng)學(xué)術(shù)研究有著無比重要的意義,比西方數(shù)字人文研究的意義要大很多。首先,因?yàn)橹形膫鹘y(tǒng)學(xué)術(shù)典籍目前還不可能都轉(zhuǎn)為文字,OCR的準(zhǔn)確度不夠,成本巨大,而且操作系統(tǒng)對漢字標(biāo)準(zhǔn)字符集的支持?jǐn)?shù)量也不夠用;其次,中文數(shù)字人文研究通常只依靠純文本是不夠的,還需要有圖像所負(fù)載的豐富信息作為輔佐,才具有“循證”價(jià)值;最后,最新數(shù)字人文平臺(tái)如IIIF所提供的圖像管理能力,能夠使圖像比純文本更方便研究。IIIF對圖像的管理方式還可以進(jìn)一步應(yīng)用于視頻、音頻等媒體形態(tài),將來還可以有3D模型、交互式數(shù)據(jù)格式等,這樣就完全超越了僅僅由文本組成的平臺(tái),成為一個(gè)多模態(tài)服務(wù)平臺(tái),數(shù)字技術(shù)提供的強(qiáng)大工具能夠使人文學(xué)者超越傳統(tǒng)人文研究基本上只是依賴文本和少量圖像的局限,對素材的操控能力得到很大的增強(qiáng)。
大數(shù)據(jù)技術(shù)目前在社會(huì)關(guān)系分析和可視化呈現(xiàn)方面已經(jīng)非常成熟,另外機(jī)器學(xué)習(xí)及人工智能技術(shù)提供了大量數(shù)據(jù)加工的自動(dòng)化能力,這使得數(shù)字人文更適合進(jìn)行跨學(xué)科、地域、族裔、語言的大規(guī)模比較和綜合研究,這在傳統(tǒng)人文的研究中是不可想象的。
上述討論的大多是計(jì)算機(jī)技術(shù)賦能人文研究的通用能力,這種通用與專用的分野是不確定的,隨著計(jì)算機(jī)信息處理能力的提高,所能提供的工具肯定會(huì)發(fā)生變化,最極端的方式說不定是人工智能方法能夠取代一切,學(xué)者所需做的只是提出并闡釋問題而已,余下的工作都交給機(jī)器即可,或者至少可以半自動(dòng)地幫助學(xué)者一步步獲得結(jié)論或解決問題。
當(dāng)今時(shí)代已不再可能舉全國之力窮天下收藏,興建四庫全書那樣的項(xiàng)目,開發(fā)包羅萬象的知識(shí)平臺(tái),現(xiàn)在甚至連某一學(xué)科或主題領(lǐng)域的資源都不可能一網(wǎng)打盡。因此我們在構(gòu)建數(shù)字人文平臺(tái)或開發(fā)人文資料數(shù)據(jù)庫時(shí)首先應(yīng)考慮自身的優(yōu)勢和特點(diǎn),選取一定的文獻(xiàn)類型或?qū)W科主題,充分考慮服務(wù)對象特點(diǎn)和需求,設(shè)定有限目標(biāo),并做好長期建設(shè)的準(zhǔn)備。
目前很多中文傳統(tǒng)學(xué)術(shù)資源收藏機(jī)構(gòu)已經(jīng)開發(fā)了一些頗具特色的數(shù)字人文平臺(tái),如CBDB、DocuSky、MARKUS等,應(yīng)用了許多先進(jìn)理念和最新技術(shù)。本文希望著眼于未來互聯(lián)互通,對構(gòu)建一個(gè)整體化的中文數(shù)字人文研究的基礎(chǔ)設(shè)施提出一些設(shè)想。包弼德教授曾在2018年提出過類似的想法,他建議構(gòu)建一個(gè)“中國研究的基礎(chǔ)設(shè)施網(wǎng)絡(luò)”,希望通過各國中文資料收藏機(jī)構(gòu)的密切合作,開發(fā)一個(gè)通用平臺(tái)[3],使中文資源能夠互聯(lián)互通,進(jìn)一步促成共建共享。
這是一個(gè)非常有遠(yuǎn)見、有現(xiàn)實(shí)意義和可行的建議,但這個(gè)平臺(tái)不必是“一個(gè)”平臺(tái),而可以是整個(gè)中文基礎(chǔ)設(shè)施共同構(gòu)成的分布式網(wǎng)絡(luò)服務(wù),即可以由相關(guān)中文資源收藏和研究機(jī)構(gòu)各自建設(shè),但遵循共同制訂的技術(shù)標(biāo)準(zhǔn)和互操作協(xié)議,這樣就保證了資源獲取和服務(wù)的互聯(lián)互通;同時(shí)制訂一定的合作機(jī)制和業(yè)務(wù)模式,這樣又能夠促進(jìn)互惠互利和可持續(xù)發(fā)展。
因此,本文探討的平臺(tái)即是一個(gè)在功能上力求完善、能夠滿足當(dāng)下需求的獨(dú)立的數(shù)字人文平臺(tái),又同時(shí)在體系架構(gòu)上兼顧了基于最新語義互聯(lián)網(wǎng)技術(shù)的互聯(lián)互通,是一個(gè)尚未實(shí)現(xiàn)但完全具有可操作性的設(shè)計(jì)方案(如圖3所示)。以下分系統(tǒng)先進(jìn)性(4.1)、資源完整性(4.2.1)、功能完備性(4.2.2)、用戶友好性(4.2.3)和工具豐富性(4.3)等5個(gè)方面進(jìn)行闡述。
應(yīng)用系統(tǒng)的先進(jìn)性可以從兩個(gè)維度來考察:系統(tǒng)維度和應(yīng)用維度。系統(tǒng)維度主要指系統(tǒng)架構(gòu)的先進(jìn)性,又可以分為技術(shù)架構(gòu)和內(nèi)容架構(gòu)。應(yīng)用維度是指所開發(fā)的應(yīng)用系統(tǒng)是否能提供滿足機(jī)構(gòu)需求的完整的解決方案。技術(shù)架構(gòu)提供基于計(jì)算機(jī)技術(shù)的功能實(shí)現(xiàn),內(nèi)容架構(gòu)主要提供基于數(shù)據(jù)管理的知識(shí)視圖,這兩者共同滿足數(shù)字人文研究需求,解決數(shù)字人文研究的痛點(diǎn)問題。應(yīng)用系統(tǒng)則主要包括館藏業(yè)務(wù)管理系統(tǒng)、長期保存/典藏系統(tǒng)、知識(shí)庫系統(tǒng)、服務(wù)應(yīng)用展示系統(tǒng)四個(gè)方面(見圖4)。
圖3 ?數(shù)字人文平臺(tái)的需求設(shè)計(jì)Fig. 3 Demand Design of the Digital Humanities Platforms
圖4 應(yīng)用系統(tǒng)先進(jìn)性Fig. 4 Advanced Systems of the Digital Humanities Platforms
4.1.1 系統(tǒng)維度
(1)技術(shù)架構(gòu)
系統(tǒng)維度首先看技術(shù)架構(gòu)。目前以微服務(wù)、容器、容器編排、服務(wù)網(wǎng)格、開發(fā)運(yùn)維一體化(DevOps)、無服務(wù)器架構(gòu)等理念為特征的新一代“云原生”技術(shù)正在席卷互聯(lián)網(wǎng)應(yīng)用。擁有傳統(tǒng)IT無法比擬的優(yōu)勢,可以幫助用戶高效享受云技術(shù)的靈活性,使應(yīng)用進(jìn)一步微型化、輕型化,支持更加靈活的松散耦合,更加獨(dú)立于底層基礎(chǔ)設(shè)施平臺(tái),從而能實(shí)現(xiàn)熱插拔、平滑、快速開發(fā)、迅速擴(kuò)展、穩(wěn)定運(yùn)維、高容錯(cuò)等,大大降低應(yīng)用成本,提高運(yùn)行效率。目前云原生已經(jīng)成為云時(shí)代最新的技術(shù)標(biāo)準(zhǔn)。
當(dāng)前還沒有數(shù)字人文機(jī)構(gòu)采用云原生技術(shù),但圖書館領(lǐng)域正在流行的“下一代圖書館服務(wù)平臺(tái)”(Next Generation Library Service Platform,NGLSP)普遍采用微服務(wù)架構(gòu),尤其是美國開放圖書館基金會(huì)(Open Library Foundation,OLF)支持的開源FOLIO平臺(tái)(Future of Libraries Is Open,F(xiàn)OLIO)更是支持了云原生技術(shù)進(jìn)行部署實(shí)施,其前后臺(tái)分離的設(shè)計(jì)和“平臺(tái)+App”的架構(gòu)有助于形成一個(gè)開放的軟件應(yīng)用生態(tài)(見圖5),數(shù)字人文平臺(tái)可以作為圖書館服務(wù)平臺(tái)的一個(gè)有機(jī)組成部分,共用其中某些模塊(例如用戶管理、資源管理等),也可以單獨(dú)拆分出去完全獨(dú)立,通過API進(jìn)行互操作。
該設(shè)計(jì)可以進(jìn)一步支持目前如日中天的技術(shù)概念,即“中臺(tái)”技術(shù)(見圖6),可形成獨(dú)立的業(yè)務(wù)中臺(tái)、技術(shù)中臺(tái)、數(shù)據(jù)中臺(tái)和AI中臺(tái)。所謂中臺(tái),可以理解為將一些能夠重復(fù)調(diào)用的系統(tǒng)資源(數(shù)據(jù)資源、計(jì)算資源、軟件及算法模塊等資源)獨(dú)立并共享出來,支持平臺(tái)中的各類前臺(tái)或其他應(yīng)用模塊靈活調(diào)用,在技術(shù)架構(gòu)上具有無可比擬的先進(jìn)性。當(dāng)然該技術(shù)畢竟發(fā)展還不到十年,其成熟度和標(biāo)準(zhǔn)化程度還不是太高,微服務(wù)帶來的應(yīng)用復(fù)雜性還難以預(yù)料和掌控,這也是新技術(shù)必然帶來的風(fēng)險(xiǎn)。
參考上述圖書館服務(wù)平臺(tái)的系統(tǒng)架構(gòu),一個(gè)獨(dú)立的數(shù)字人文平臺(tái)可以包含文獻(xiàn)層、數(shù)據(jù)層、接口層、業(yè)務(wù)層(或稱服務(wù)層,包含各類工具調(diào)用)以及展現(xiàn)層等,依次提供技術(shù)、資源、平臺(tái)、服務(wù)和界面等相關(guān)功能,如圖7所示。隨著基于文獻(xiàn)的數(shù)字人文服務(wù)逐漸向基于數(shù)據(jù)的服務(wù)轉(zhuǎn)變,文獻(xiàn)也可以看成一種特殊的數(shù)據(jù)類型,納入數(shù)據(jù)管理統(tǒng)一的數(shù)據(jù)格式模塊,內(nèi)外部文獻(xiàn)和數(shù)據(jù)可以通過一定的協(xié)議規(guī)則進(jìn)行發(fā)現(xiàn)和獲取,并通過標(biāo)準(zhǔn)接口進(jìn)行整合,各類平臺(tái)內(nèi)服務(wù)和外部服務(wù)也可以通過制定行業(yè)標(biāo)準(zhǔn)進(jìn)行規(guī)范化整合,從而達(dá)成數(shù)字人文平臺(tái)的互操作,于是可以很好地實(shí)現(xiàn)包弼德教授關(guān)于人文資源互聯(lián)互通、共建共享的設(shè)想。
圖5 ?下一代圖書館服務(wù)平臺(tái)FOLIO的系統(tǒng)架構(gòu)Fig. 5 System Architecture of the Next Generation Library Service Platform FOLIO
圖6 ?下一代圖書館服務(wù)平臺(tái)FOLIO的中臺(tái)設(shè)計(jì)Fig. 6 The Middle Platform Design of the Next Generation Library Service Platform FOLIO
圖7 ?數(shù)字人文平臺(tái)系統(tǒng)架構(gòu)圖示Fig. 7 System Architecture of the Digital Humanities Platforms
從數(shù)字人文的應(yīng)用場景來看,上述系統(tǒng)架構(gòu)有一定的獨(dú)特性,可以很好地支持和解決一些其它技術(shù)很難解決的問題:
① 知識(shí)單元的標(biāo)識(shí)及其管理問題。所有對人文研究具有獨(dú)立意義的實(shí)體或信息單元,如文獻(xiàn),或人、地、時(shí)、事、物、事件、概念,以及各類屬性和取值詞表等,都需要有獨(dú)立的標(biāo)識(shí)(即ID),并統(tǒng)一ID編碼標(biāo)準(zhǔn),通常用http URI,其相互之間的關(guān)系如有必要可以通過建立本體知識(shí)庫來管理。當(dāng)然建立過程可以采用自動(dòng)抽取加人工輔助校驗(yàn)方式。
② 支持多種協(xié)議的跨網(wǎng)域搜索發(fā)現(xiàn)或獲取鏈接。例如OAI-PMH規(guī)范,各類RESTful+JSON的API規(guī)范、聯(lián)邦檢索頁面分析規(guī)范等。
③ 微服務(wù)的容器及編排規(guī)范。
④ 多種數(shù)據(jù)類型的管理,包括底層關(guān)系數(shù)據(jù)庫、圖數(shù)據(jù)庫(包括三元組語義數(shù)據(jù))、對象數(shù)據(jù)、流媒體的管理。
⑤ 復(fù)雜但統(tǒng)一的用戶及授權(quán)管理,包括遠(yuǎn)程訪問管理。
云計(jì)算的極致狀態(tài)是完全去中心化的分布式計(jì)算,目前的最新發(fā)展是以區(qū)塊鏈應(yīng)用為特征、被稱為Web3.0的一套新的網(wǎng)絡(luò)平臺(tái),這使得所有人文資源在底層都可以應(yīng)用區(qū)塊鏈技術(shù)進(jìn)行確權(quán)和保護(hù),包括二次文獻(xiàn)上鏈,對象數(shù)據(jù)采用IPFS、Arweave等去中心化網(wǎng)絡(luò)存儲(chǔ)方式提供永久存儲(chǔ),同時(shí)對每一個(gè)館藏單元賦予非同質(zhì)化通證(Non-Fungible Token,NFT),這就解決了既要保護(hù),又要最大程度開放的矛盾。只要設(shè)計(jì)出合理的運(yùn)作模式,就能以某種智能合約方式形成去中心化自治組織(Decentralized Autonomous Organization,DAO),從而實(shí)現(xiàn)完全的自我運(yùn)作,其他對于數(shù)字人文平臺(tái)所有的附加需求都可以圍繞這個(gè)Web3.0的資源體系進(jìn)行設(shè)計(jì)開發(fā)。目前這種設(shè)計(jì)還十分超前,雖然技術(shù)都已成熟,但應(yīng)用尚屬首次,有些還是紙上談兵,尤其在文化遺產(chǎn)領(lǐng)域尚未有任何具體實(shí)現(xiàn)。目前整個(gè)以Web3.0為基礎(chǔ)的元宇宙應(yīng)用非常缺乏具體的應(yīng)用場景,人類記憶機(jī)構(gòu)的文化資源正好可以為其提供豐富的想象和精彩的實(shí)現(xiàn)。
(2)內(nèi)容架構(gòu)
內(nèi)容架構(gòu)是數(shù)字人文應(yīng)用系統(tǒng)非常獨(dú)特的架構(gòu),也是語義技術(shù)逐漸成熟帶來的一種能力,它通常通過領(lǐng)域驅(qū)動(dòng)設(shè)計(jì)(Domain Driven Design,DDD)而獲得。數(shù)字人文平臺(tái)的內(nèi)容架構(gòu)反映了平臺(tái)中的數(shù)字化知識(shí)內(nèi)容的語義結(jié)構(gòu),這個(gè)結(jié)構(gòu)可以以知識(shí)本體、關(guān)聯(lián)數(shù)據(jù)、知識(shí)圖譜等方式進(jìn)行形式化描述和表達(dá),例如以各類描述詞表對人物、地點(diǎn)、時(shí)間、事件和各類對象的各類屬性和關(guān)系進(jìn)行編碼,使計(jì)算機(jī)可以對表達(dá)知識(shí)的這些語義數(shù)據(jù)(可以理解為RDF數(shù)據(jù))進(jìn)行操作,從而可以認(rèn)為這些數(shù)據(jù)是機(jī)器可“理解”的,以至于可以認(rèn)為整個(gè)知識(shí)庫中的大量內(nèi)容都是真實(shí)世界的一種映射,甚至可以能夠讓機(jī)器進(jìn)行一定的“事實(shí)推理”。傳統(tǒng)的數(shù)據(jù)庫只能對字符串或二進(jìn)制數(shù)據(jù)(如圖像數(shù)據(jù))進(jìn)行操控,如全文檢索也就是一種完全基于字符的匹配。數(shù)字人文平臺(tái)對于信息資源的描述和組織可以認(rèn)為是一種“數(shù)據(jù)化”過程,這一過程不一定完全依靠人類來做,很多都可以通過目前越來越成熟的機(jī)器學(xué)習(xí)和人工智能來實(shí)現(xiàn)。一旦機(jī)器能夠讀“懂”存儲(chǔ)的信息所蘊(yùn)含的知識(shí)內(nèi)容,數(shù)字人文平臺(tái)就能幫人文學(xué)者做很多事情,可以成為能力超強(qiáng)的“研究助理”,它不會(huì)遺忘任何一個(gè)知識(shí)細(xì)節(jié),并且具有超快的計(jì)算能力。
有這樣一些需求涉及內(nèi)容框架:
① 一致性/相似性計(jì)算。
② 工作流定義對研究流程的支持。
③ 各類圖像功能(如圖像查詢、對比、標(biāo)注等)的支持。
④ 文本與圖像關(guān)聯(lián)(可提供加工平臺(tái),或研究對比)。
⑤ 提供證據(jù)鏈服務(wù)(記錄從底層文獻(xiàn)到研究結(jié)果的整個(gè)過程中實(shí)體來源及變化,包括引用參考等)。
⑥ 海量數(shù)據(jù)可視化支持(遠(yuǎn)讀)。
⑦ 事實(shí)的可信度計(jì)算及排序(需建立可迭代的可信度模型)。
⑧ 眾包數(shù)據(jù)加工平臺(tái)的數(shù)據(jù)管理。
⑨ 數(shù)據(jù)系統(tǒng)迭代進(jìn)化的支持(數(shù)字化、文本化、數(shù)據(jù)化(實(shí)體提取、建立關(guān)聯(lián)等))。
內(nèi)容架構(gòu)是以“數(shù)據(jù)”為基本單位,這里的數(shù)據(jù)是指能夠被計(jì)算機(jī)處理的(即經(jīng)過形式化,或至少是代碼化的)、具有獨(dú)立標(biāo)識(shí)(例如URI)的最小語義單元,目前表示為RDF的關(guān)聯(lián)數(shù)據(jù)是一種最佳實(shí)踐,其它有不少簡化方法(例如采用圖數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)的、不要求數(shù)據(jù)有全網(wǎng)域唯一標(biāo)識(shí)的“知識(shí)圖譜”)雖然也能實(shí)現(xiàn)一些功能,但并不屬于具有一定完備性的知識(shí)庫系統(tǒng)。基于數(shù)據(jù)的系統(tǒng)能夠進(jìn)行組合、嵌套、遞歸從而成為更大的“數(shù)據(jù)”,也可以有自己的標(biāo)識(shí),從而可以以各種格式組合成各種知識(shí)單元發(fā)布于各類媒體中。
人文平臺(tái)中的知識(shí)內(nèi)容既然以“數(shù)據(jù)”的方式存在,就應(yīng)該符合當(dāng)前在研究數(shù)據(jù)管理實(shí)踐中被廣泛認(rèn)可的FAIR原則,即科學(xué)數(shù)據(jù)應(yīng)具有可查詢(Findable)、可 獲 ?。ˋccessible)、可 互 操 作(Interoperable)并且可重利用(Reusable)等性質(zhì):
① 可查詢指數(shù)字人文平臺(tái)中的數(shù)據(jù)應(yīng)該很容易被人或者機(jī)器查詢到。這有賴于相關(guān)的數(shù)據(jù)集或者數(shù)據(jù)服務(wù)是否以清晰明確的方式進(jìn)行標(biāo)識(shí)、描述、注冊和索引。給數(shù)字資源分配一個(gè)唯一永久標(biāo)識(shí)符是一項(xiàng)基本要求,同時(shí)數(shù)字資源應(yīng)該有充分的元數(shù)據(jù)注釋,數(shù)字資源的主要特征應(yīng)該以標(biāo)準(zhǔn)格式被記錄,應(yīng)該在公開的數(shù)據(jù)庫存儲(chǔ)和索引等。
② 可獲取指數(shù)字人文平臺(tái)中的數(shù)字資源的獲取方式應(yīng)該進(jìn)行清晰定義,包括如何獲得受保護(hù)數(shù)據(jù)的使用授權(quán)。在理想情況下應(yīng)該是一種自動(dòng)化的方式進(jìn)行獲取數(shù)據(jù)的驗(yàn)證,判斷是否符合授權(quán)條件,至少元數(shù)據(jù)應(yīng)該是無條件可獲取的,即使在原始數(shù)據(jù)已經(jīng)不再提供服務(wù)的情況下也應(yīng)該能夠獲取元數(shù)據(jù)。
③ 可互操作是指如果同一個(gè)實(shí)體對象有兩個(gè)或者更多的數(shù)據(jù)進(jìn)行表達(dá),系統(tǒng)應(yīng)該可以自動(dòng)進(jìn)行指代或整合。網(wǎng)絡(luò)服務(wù)可以自動(dòng)判斷它與目標(biāo)數(shù)據(jù)之間是否兼容。這要求數(shù)據(jù)資源或者網(wǎng)絡(luò)服務(wù)的描述具有語義上足夠的清晰度。
④ 可重用是指要根據(jù)研究領(lǐng)域的標(biāo)準(zhǔn),對數(shù)據(jù)的來源信息進(jìn)行記錄和跟蹤。這些來源出處信息包括準(zhǔn)確的數(shù)據(jù)描述、取用方式和應(yīng)用許可等。這樣,無論人還是機(jī)器都可以判斷目標(biāo)數(shù)據(jù)資源是否可以重用,可以以怎樣的方式進(jìn)行重用等。
這四個(gè)原則與關(guān)聯(lián)數(shù)據(jù)的五星原則很類似,因此如果采用關(guān)聯(lián)數(shù)據(jù)技術(shù),則很容易滿足FAIR原則。但并不是所有數(shù)字人文平臺(tái)都能夠很方便地利用關(guān)聯(lián)數(shù)據(jù)技術(shù),其中涉及實(shí)現(xiàn)的復(fù)雜性、效率和成本等問題,以及語義技術(shù)本身的成熟度問題,因此目前的數(shù)字人文平臺(tái)大多采用最成熟可用的技術(shù),以關(guān)聯(lián)數(shù)據(jù)甚至智慧數(shù)據(jù)為代表的語義技術(shù)是一個(gè)未來發(fā)展方向。
4.1.2 應(yīng)用維度
數(shù)字人文平臺(tái)大多由人類記憶機(jī)構(gòu),如圖書館、博物館、美術(shù)館、檔案館等進(jìn)行建設(shè)和維護(hù)。作為數(shù)字人文基礎(chǔ)設(shè)施的主要組成機(jī)構(gòu),他們的主要業(yè)務(wù)和服務(wù)都是圍繞人文資源展開的,一個(gè)較為完整的平臺(tái)通??梢苑譃樗膫€(gè)層次:
(1)館藏業(yè)務(wù)管理系統(tǒng)
這主要指對物理藏品或數(shù)字藏品的載體,從收集、入藏到轉(zhuǎn)移、剔除或損毀的整個(gè)生命周期過程的管理,包括藏品管理系統(tǒng)。它提供了所有館藏內(nèi)容最初的來源和版本信息,是循證研究的源頭,并通過業(yè)務(wù)過程的管理保證整個(gè)館藏體系是一個(gè)不斷發(fā)展變化的“活”的有機(jī)體。
(2)長期保存/典藏系統(tǒng)
即上述業(yè)務(wù)管理系統(tǒng)中的藏品管理系統(tǒng)的數(shù)字化版本,通常是能夠保留最真實(shí)和完整信息的保存級(jí)數(shù)字文件,借助顯示或其它設(shè)備,能夠還原物理藏品的內(nèi)容或形態(tài),高級(jí)形式可以看成是每個(gè)館藏的“數(shù)字孿生”,可供研究人員進(jìn)行各種實(shí)驗(yàn)、模擬和深度研究。當(dāng)然,任何數(shù)字化版本都不可能保留原始對象的所有信息,總是會(huì)有所損失,所以依賴技術(shù)的不斷進(jìn)步,未來可能需要對館藏進(jìn)行再次數(shù)字化。這類系統(tǒng)目前主要采用關(guān)系型數(shù)據(jù)庫加文件系統(tǒng)的方式實(shí)現(xiàn),更為先進(jìn)的采用了NoSQL數(shù)據(jù)庫的大數(shù)據(jù)方式,基于云服務(wù)架構(gòu)。而現(xiàn)在應(yīng)該采用云原生架構(gòu)加數(shù)據(jù)中臺(tái)方式,這樣就能夠提供底層藏品管理系統(tǒng)與上層知識(shí)庫系統(tǒng)之間的橋梁,同時(shí)提供大量的API供知識(shí)庫系統(tǒng)和服務(wù)應(yīng)用展示前臺(tái)調(diào)用[8],這些API可以以標(biāo)準(zhǔn)方式發(fā)布于互聯(lián)網(wǎng),從而實(shí)現(xiàn)數(shù)字人文平臺(tái)的全網(wǎng)域互操作。鑒于將來的數(shù)字人文研究都是基于數(shù)據(jù)的研究,有了這樣的典藏系統(tǒng),就可以解決絕大多數(shù)人文學(xué)者在研究、教學(xué)中的需要。
(3)知識(shí)庫系統(tǒng)
目前似乎還沒有一個(gè)恰當(dāng)?shù)男g(shù)語來描述這樣一種系統(tǒng),最接近的詞匯可能就是“語義知識(shí)庫系統(tǒng)”,指應(yīng)用了語義萬維網(wǎng)技術(shù)對領(lǐng)域知識(shí)建立相互關(guān)聯(lián)的知識(shí)體系,其知識(shí)單元是采用RDF形式(即主-謂-賓結(jié)構(gòu))描述的語義判斷,而整個(gè)知識(shí)大廈是用知識(shí)本體語言O(shè)WL或OWL2組織起來,其背后的數(shù)學(xué)基礎(chǔ)是一元謂詞邏輯。數(shù)字人文平臺(tái)的內(nèi)容架構(gòu)主要是由知識(shí)庫系統(tǒng)提供的。其簡化版就是采用關(guān)聯(lián)數(shù)據(jù)的系統(tǒng),更簡化的一個(gè)版本是目前十分熱門的利用“知識(shí)圖譜”技術(shù)所支持的系統(tǒng)。這類系統(tǒng)在人工智能領(lǐng)域?qū)儆凇胺?hào)學(xué)派”,與過去的專家系統(tǒng)同屬一類,是將人的知識(shí)代碼化形成規(guī)模之后,就具備了某種智能,現(xiàn)在與連結(jié)學(xué)派和概率學(xué)派有融合的趨勢,作為人工標(biāo)注或結(jié)構(gòu)化的數(shù)據(jù)提供機(jī)器學(xué)習(xí),從而具有自動(dòng)獲取知識(shí)的能力。數(shù)字人文平臺(tái)需要大量的底層“知識(shí)庫”來支撐各類數(shù)據(jù)的語義解釋和關(guān)聯(lián)關(guān)系,例如人名、地名、機(jī)構(gòu)名、朝代、官職、譜系、辭典、詞表等,幾乎所有的工具書都可以提供知識(shí)關(guān)聯(lián),所有的知識(shí)生產(chǎn)都是建立在過去知識(shí)的基礎(chǔ)上,與這些底層知識(shí)庫都可以建立起邏輯聯(lián)系,最強(qiáng)大的是這些知識(shí)庫都是以某種方式在整個(gè)互聯(lián)網(wǎng)上提供共享,所有基于知識(shí)庫和標(biāo)準(zhǔn)描述方式的術(shù)語詞表都可以達(dá)成全網(wǎng)域的語義互操作。
(4)服務(wù)應(yīng)用展示系統(tǒng)
這是數(shù)字人文平臺(tái)中絕大多數(shù)功能得以實(shí)現(xiàn)和展現(xiàn)的前臺(tái),也是各類工具與后臺(tái)數(shù)據(jù)進(jìn)行連結(jié)的中介,通常以桌面或移動(dòng)應(yīng)用,以及瀏覽器方式提供。所有的搜索、瀏覽、展示(包括可視化)、眾包和用戶空間功能都在這里以App方式提供,這樣有助于達(dá)成大量的第三方應(yīng)用App的開發(fā)和發(fā)布,形成一個(gè)開放強(qiáng)大的數(shù)字人文應(yīng)用和工具的生態(tài)環(huán)境,從而很容易實(shí)現(xiàn)包弼德教授提出的為第三方數(shù)據(jù)、第三方工具、第三方圖書館定制免費(fèi)公開的元數(shù)據(jù)訪問和數(shù)據(jù)共享的規(guī)范和方案[3]。
資源完整、功能完備、界面友好,是任何一個(gè)信息系統(tǒng)的基本要求。當(dāng)然,不同的系統(tǒng)對這三個(gè)方面的具體需求是不同的。一個(gè)好的數(shù)字人文平臺(tái)至少要在這三個(gè)方面達(dá)到最低要求,同時(shí)要注意三者之間的平衡。
4.2.1 資源完整性
人文研究者在選定了研究問題之后,第一步就是要查詢資料。很多機(jī)構(gòu)在建設(shè)數(shù)據(jù)庫或提供查詢時(shí)只從自己已有的或訂購的資源入手,這是不夠的,還必須考慮到是否有辦法提供外部資源的發(fā)現(xiàn),甚至直接獲取。要實(shí)現(xiàn)這一點(diǎn),就要應(yīng)用元數(shù)據(jù)收割方案,例如OAI-PMH,或開發(fā)標(biāo)準(zhǔn)或個(gè)性化的API,其中涉及很多考慮因素和資源互操作的具體技術(shù),包括利用知識(shí)庫系統(tǒng)實(shí)現(xiàn)不同系統(tǒng)間的語義互操作,如圖8所示。
4.2.2 功能完備性
數(shù)字人文平臺(tái)需要考慮很多與過去數(shù)據(jù)庫檢索系統(tǒng)不同的功能,過去的系統(tǒng)主要是以文獻(xiàn)為主要內(nèi)容,根據(jù)數(shù)據(jù)庫字段(即高級(jí)檢索)或全文檢索能夠定位到具體的文獻(xiàn),再通過鏈接解析或其他方式獲得原文。而數(shù)字人文系統(tǒng)由于提供了以“數(shù)據(jù)”為基礎(chǔ)的存儲(chǔ)、關(guān)聯(lián)和查詢能力,因此多了與“知識(shí)庫”相關(guān)的很多語義功能,而且在搜索、瀏覽、管理等方面都能夠全面支持基于知識(shí)的操作(例如SPARQL查詢、分面組配等),有時(shí)甚至還包含邏輯推理的功能實(shí)現(xiàn)(如啟發(fā)式搜索),如圖9所示。
圖8 ?數(shù)字人文平臺(tái)的資源要素Fig.8 Resources Constituents of the Digital Humanities Platforms
數(shù)字人文平臺(tái)還有一個(gè)特質(zhì)是要利用眾包讓用戶參與到系統(tǒng)的建設(shè)中來,這是當(dāng)前幾乎所有數(shù)字人文應(yīng)用都采取的方式,因?yàn)閮H僅通過圖書館或相關(guān)機(jī)構(gòu)工作人員的工作是不可能實(shí)現(xiàn)海量高質(zhì)量數(shù)據(jù)加工的。
4.2.3 用戶友好性
當(dāng)前的信息系統(tǒng)對用戶友好性的要求越來越高,這也是對系統(tǒng)界面提出的要求,除了一般的方便友好、美觀簡潔之外,能否提供良好的個(gè)性化服務(wù)成為系統(tǒng)能否留住用戶的重要特性,而且個(gè)性化服務(wù)大量采用了人工智能技術(shù)(見圖10)。當(dāng)然,由于個(gè)性化的前提是需要有用戶注冊登錄等用戶管理功能,且對用戶的行為也會(huì)進(jìn)行一定的收集,這涉及到用戶隱私問題,平臺(tái)在設(shè)計(jì)開發(fā)時(shí)必須考慮到隱私保護(hù)與個(gè)性化之間的平衡,很多研究工具的提供應(yīng)該能同時(shí)支持本地脫機(jī)版和上傳網(wǎng)絡(luò)版兩種不同的運(yùn)行方式,當(dāng)然兩者在功能細(xì)節(jié)上可以有所不同。
圖9 ?數(shù)字人文平臺(tái)的功能Fig. 9 Comprehensive Functions of the Digital Humanities Platformst
利用大量的數(shù)字人文工具進(jìn)行研究是數(shù)字人文區(qū)別于傳統(tǒng)人文最重要的特點(diǎn)之一。工具是方法的重要組成,成熟的方法往往通過工具的開發(fā)而得以固化,并且負(fù)載了大量前人的經(jīng)驗(yàn)總結(jié)。傳統(tǒng)人文研究能夠獨(dú)立的工具不多,且資料的收集、閱讀和加工處理往往是一體化、個(gè)人化的,工具很難獨(dú)立于資料,有的甚至很難獨(dú)立于研究團(tuán)隊(duì)。這也是為什么有許多人文社會(huì)科學(xué)學(xué)派往往是得益于獨(dú)特的方法。
工具要求越豐富越好,但這里討論的只是人文研究可能用到的具有一定通用性的工具,以及這些工具的常見功能,數(shù)字人文學(xué)者可以通過這些工具的組合,結(jié)合資源和研究過程,發(fā)展出自己獨(dú)特的方法。這些工具可以有一定的獨(dú)立性,但依附于平臺(tái)能夠更好地發(fā)揮作用,因此平臺(tái)將致力于深入研究人文學(xué)者的需求,推出大量的標(biāo)準(zhǔn)規(guī)范,從而讓大量第三方都能夠開發(fā)自己的獨(dú)特工具,甚至工具與資源或知識(shí)庫的結(jié)合體,從而有助于形成一個(gè)應(yīng)用生態(tài),以及工具App市場。
這里將工具劃分為平臺(tái)性工具(包括數(shù)據(jù)工具、IIIF、GIS、文獻(xiàn)計(jì)量工具、閱讀工具、社會(huì)關(guān)系工具)、文本工具、圖像工具、知識(shí)圖譜工具、機(jī)器學(xué)習(xí)工具和可視化工具等六大類(如圖11所示)。上述分類的合理性需要進(jìn)一步探討,其中涉及的內(nèi)容也遠(yuǎn)不是對各類工具的窮盡例舉,僅僅作為一個(gè)討論的基礎(chǔ),供具體進(jìn)行工具開發(fā)和平臺(tái)建設(shè)時(shí)參考。
(1)平臺(tái)性工具
這里的平臺(tái)是指網(wǎng)絡(luò)上可以實(shí)現(xiàn)一定的功能、有特定輸入輸出的環(huán)境,平臺(tái)性工具就是依附于平臺(tái)的軟件工具,或自身就是一個(gè)獨(dú)立的工具,它通常需要結(jié)合一定的數(shù)據(jù),與一些組件配合,并經(jīng)過一定的流程才能達(dá)到目的。例如IIIF(國際圖像互操作框架)就是一個(gè)功能強(qiáng)大的綜合性圖片平臺(tái),由多個(gè)服務(wù)器靈活組合而成,它本身就可以成為數(shù)字人文的服務(wù)平臺(tái),這里之所以作為一種工具,因?yàn)樗峁┝舜罅康年P(guān)于圖像的操作功能,如搜索、縮放、旋轉(zhuǎn)、標(biāo)注、比較等,可以應(yīng)用于人文研究,非常強(qiáng)大。類似的還有數(shù)據(jù)處理平臺(tái)工具、GIS平臺(tái)工具、文獻(xiàn)計(jì)量平臺(tái)工具、社會(huì)網(wǎng)絡(luò)分析工具以及閱讀平臺(tái)工具等。
(2)文本工具
文本是數(shù)字人文利用最多的資源類型,文本工具也是數(shù)字人文工具中種類最多、使用最頻繁的工具,也是目前開發(fā)最成熟的工具類型。上圖列出的是常用工具,一些綜合性的文本工具,如“遠(yuǎn)讀”“細(xì)讀”則列在平臺(tái)性工具類目下。
(3)圖像工具
通常所有的圖像掃描、處理軟件都可以作為數(shù)字人文的圖像工具,這里僅列出數(shù)字人文項(xiàng)目非常常用的工具類型,如圖像特征提取工具、圖像分類/聚類工具和基于圖像的搜索工具等,圖像平臺(tái)IIIF已作為平臺(tái)類工具列出。
(4)知識(shí)圖譜工具
知識(shí)圖譜是數(shù)字典藏向數(shù)字人文進(jìn)化的關(guān)鍵技術(shù)之一,這里將關(guān)聯(lián)數(shù)據(jù)、語義萬維網(wǎng)技術(shù)都?xì)w入知識(shí)圖譜。這類工具包括了實(shí)體提取、URI賦值、詞表模式、本體構(gòu)建等語義化工具,本體/詞表管理、語義映射、RDF語義數(shù)據(jù)存儲(chǔ)等語義管理工具以及SPARQL、啟發(fā)式搜索、分面呈現(xiàn)等語義搜索、展示和利用工具等。
(5)機(jī)器學(xué)習(xí)工具
當(dāng)前,數(shù)字人文的大量應(yīng)用都用到了人工智能領(lǐng)域的機(jī)器學(xué)習(xí)技術(shù)。從OCR到實(shí)體提取,從神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí),無一不能應(yīng)用于數(shù)字人文研究的各個(gè)過程。機(jī)器學(xué)習(xí)最大的特點(diǎn)是離不開數(shù)據(jù),尤其是海量的數(shù)據(jù),因此數(shù)字人文平臺(tái)中的數(shù)據(jù)是其產(chǎn)生作用的前提條件,而由數(shù)據(jù)訓(xùn)練出來的機(jī)器學(xué)習(xí)模型又可以應(yīng)用于更廣泛的數(shù)據(jù)中,這是它的運(yùn)作方式,也是它的價(jià)值所在。
(6)可視化工具
可視化是數(shù)字人文進(jìn)行數(shù)據(jù)操控、展示和結(jié)果呈現(xiàn)必不可少的工具,也是數(shù)字人文區(qū)別于傳統(tǒng)人文的重要特質(zhì)??梢暬m然有很多工具,但現(xiàn)在基于互聯(lián)網(wǎng)的工具已成為主流,正在成熟起來。它后臺(tái)連接的數(shù)據(jù)可以是平臺(tái)上已有的數(shù)據(jù),或者挖掘出來的數(shù)據(jù),或者是用戶上載的數(shù)據(jù),是否支持多種應(yīng)用方式取決于平臺(tái)架構(gòu)設(shè)計(jì)的靈活性。
圖10 ?數(shù)字人文平臺(tái)的用戶體驗(yàn)Fig. 10 User Experience of the Digital Humanities Platforms
圖11 ?數(shù)字人文研究工具Fig. 11 Tools of the Digital Humanities Research Platforms
上海圖書館正在建設(shè)的歷史人文大數(shù)據(jù)平臺(tái),就是應(yīng)用上述理念和技術(shù),依托自身資源,向全社會(huì)提供一個(gè)先進(jìn)、開放、全面的數(shù)字人文服務(wù)平臺(tái)。打造這個(gè)平臺(tái)主要有三個(gè)目的:一是升級(jí)原有的數(shù)字圖書館系統(tǒng);二是提供基于“知識(shí)”的數(shù)字人文服務(wù);三是試驗(yàn)一些互聯(lián)互通共建共享的新協(xié)議與新模式。其實(shí)就是作為對前述數(shù)字人文發(fā)展趨勢進(jìn)行應(yīng)對的一種嘗試。
實(shí)現(xiàn)這三個(gè)目的有兩條現(xiàn)實(shí)可行的路徑:其一,從現(xiàn)有的數(shù)字圖書館系統(tǒng)出發(fā),也就是從目前上海圖書館館藏特色資源出發(fā),升級(jí)技術(shù)架構(gòu)和內(nèi)容架構(gòu):技術(shù)架構(gòu)全面微服務(wù)化、容器化和平臺(tái)化,支持外部資源與服務(wù)通過各種標(biāo)準(zhǔn)或非標(biāo)準(zhǔn)方式(推薦RESTful API)接入;內(nèi)容架構(gòu)進(jìn)行“數(shù)據(jù)化”改造,支持“基于知識(shí)的服務(wù)”。其二,從數(shù)字人文研究者的角度出發(fā),規(guī)劃所有人文資源的整合方案,從提供資源到提供平臺(tái)環(huán)境(包括工具),努力實(shí)現(xiàn)主要數(shù)字人文應(yīng)用場景的“一站式”服務(wù)。
上海圖書館走上數(shù)字化道路已經(jīng)有四分之一個(gè)世紀(jì)。從1996年位于上?;春V新返摹靶吗^”開館,就開始古籍?dāng)?shù)字化項(xiàng)目,并且參與了中國最早的由國家圖書館牽頭的“試驗(yàn)性數(shù)字圖書館計(jì)劃”,成立專門部門,每年耗費(fèi)巨資進(jìn)行特色資源的數(shù)字化工作,從無間斷。
僅僅數(shù)字化是不夠的,提供知識(shí)服務(wù)是圖書館的根本宗旨。早期重視數(shù)字化,但對于數(shù)字典藏系統(tǒng)的建設(shè)并沒有充分重視,因此數(shù)字資源的整合服務(wù)一直沒有充分開展。到2016年,上海圖書館嘗試以最具特色的館藏家譜資源為案例,開始了以服務(wù)為導(dǎo)向的系統(tǒng)開發(fā)嘗試,取得了不錯(cuò)的效果,迄今家譜系統(tǒng)一直是數(shù)字典藏中利用效果最好的資源之一。
為了建設(shè)具有知識(shí)關(guān)聯(lián)的數(shù)字人文服務(wù)系統(tǒng),底層知識(shí)庫平臺(tái)建設(shè)是必不可少的,這也是數(shù)字人文基礎(chǔ)設(shè)施最困難的內(nèi)容。近幾年我們還陸續(xù)構(gòu)建了人名規(guī)范、地名規(guī)范、地理名稱規(guī)范、機(jī)構(gòu)規(guī)范等規(guī)范知識(shí)庫,可以支持目前列入計(jì)劃的特色資源庫的底層知識(shí)關(guān)聯(lián),并開始開發(fā)一些工具,提供眾包、標(biāo)注、分析、可視化等功能。
正是由于有了底層知識(shí)庫的支持,上海圖書館的特色資源庫才有可能做一個(gè)全面規(guī)劃,將來各類數(shù)字人文系統(tǒng)可以在一個(gè)統(tǒng)一的平臺(tái)上,我們稱之為歷史人文大數(shù)據(jù)平臺(tái)。雖然這一平臺(tái)尚未建成,但已經(jīng)經(jīng)過了初步嘗試,證明了技術(shù)和工程上的可行性和可能性,且數(shù)據(jù)也有一定規(guī)模。目前,我們除家譜庫外,正在開發(fā)的還有古籍庫(包括精品善本庫)、碑帖庫、地方志庫、手稿尺牘庫、名人檔案庫(如盛宣懷檔案、張佩綸檔案等)、民國資源庫(包括書刊報(bào))等,這些文獻(xiàn)如按照數(shù)字人文研究的要求,可以建立無數(shù)個(gè)基于各類學(xué)科或主題的知識(shí)庫,可以匯總在一個(gè)平臺(tái)上提供滿足各類需求的統(tǒng)一服務(wù),通過一定的開放鏈接協(xié)議,可以將全網(wǎng)域的各類資源連為一體,組成一個(gè)虛擬中文數(shù)字人文平臺(tái)。
對于一個(gè)資源眾多、用戶復(fù)雜、目標(biāo)多重的服務(wù)平臺(tái)來說,“主頁”概念是不適用的。歷史人文大數(shù)據(jù)平臺(tái)雖然設(shè)計(jì)了一個(gè)主入口,但它的作用只相當(dāng)于“游客中心”甚至是“疏散中心”,主要起到宣傳、導(dǎo)航、資源發(fā)現(xiàn)和用戶培訓(xùn)的作用。任何一個(gè)簡單的搜索,都可以返回所有資源庫中(甚至外部聯(lián)邦檢索或搜索引擎)的命中內(nèi)容,這樣能夠讓隨便逛逛的讀者也有所收獲,同時(shí)用戶對自己感興趣的主題可以通過哪些資源庫獲得有一個(gè)非常直觀的認(rèn)識(shí),使帶有目的的讀者能夠迅速找到屬于自己的入口。
平臺(tái)對所有的專題庫(包括文獻(xiàn)庫、知識(shí)庫和工具庫三類)都有一個(gè)入口,其中大多數(shù)文獻(xiàn)庫都以元數(shù)據(jù)庫加掃描圖片方式提供,個(gè)別有全文,知識(shí)庫和工具庫都支持響應(yīng)式H5接口,可嵌入各類App。
我們把平臺(tái)用戶分為四類:普通用戶、專業(yè)用戶、系統(tǒng)用戶和機(jī)器用戶,普通用戶是無需用戶認(rèn)證即可來“隨便逛逛”的用戶,平臺(tái)會(huì)有很多線上展覽、人文講座、推廣活動(dòng)、技能培訓(xùn)等內(nèi)容發(fā)布。專業(yè)用戶是平臺(tái)服務(wù)的主體,通常是經(jīng)過注冊的研究人員或大學(xué)師生,也可能是相關(guān)機(jī)構(gòu)中的個(gè)人用戶(登錄為單位用戶或以IP控制方式提供權(quán)限管理),這類用戶除非使用主頁中的搜索框進(jìn)行資源發(fā)現(xiàn)(搜索框在各相關(guān)頁面也都會(huì)出現(xiàn)),一般無須從主入口進(jìn)入,只要瀏覽器保留了登錄Cookie,域名會(huì)直接將其定位到他自己的個(gè)性化頁面,該頁面已經(jīng)將其經(jīng)常使用或可能用到的專業(yè)資源入口與各類服務(wù)功能集成在一起了,每個(gè)用戶的專業(yè)入口都是個(gè)性化的,與“我的空間”捆綁,用戶如果不滿意,也可以在“我的空間”中修改參數(shù)設(shè)定。系統(tǒng)用戶是那種參與數(shù)據(jù)加工或項(xiàng)目研發(fā)的用戶,這是“平臺(tái)性”的具體體現(xiàn),作為平臺(tái),不是一個(gè)私有的封閉系統(tǒng),而應(yīng)該有一定的開放性,屬于整個(gè)社區(qū),允許大家參與共建、分享成果,因此必然有一類用戶通過貢獻(xiàn)內(nèi)容、參與數(shù)據(jù)加工或功能開發(fā)而具有更多的權(quán)限。最后一類“機(jī)器用戶”就是指通過API或其他接口直接消費(fèi)數(shù)據(jù)的計(jì)算機(jī)程序,這樣能將平臺(tái)與互聯(lián)網(wǎng)上其他應(yīng)用連為一體,使“一站式”服務(wù)成為可能。
表5 ?歷史人文大數(shù)據(jù)平臺(tái)提供的服務(wù)Table 5 Services Provided by the Digital Humanities Platform of Shanghai Library
續(xù)表5
平臺(tái)提供的所有服務(wù)可以分為“場景”“故事”和“功能”三個(gè)層次,分別對應(yīng)三類用戶,提供不同的功能組合,詳細(xì)如表5所示。“場景”可粗略地對應(yīng)于前述數(shù)字人文研究的“行為”,例如搜索、瀏覽、下載、閱讀等,故事是組成場景的若干種應(yīng)用,而“功能”是平臺(tái)提供的最小單位的模塊,通常對應(yīng)于目前云原生應(yīng)用架構(gòu)中的“微服務(wù)”。這里的服務(wù)基本都還是用戶直接可用的部分內(nèi)容,后臺(tái)其實(shí)還有大量的微服務(wù),由于與平臺(tái)用戶并無直接關(guān)系,這里就不詳述了。
數(shù)字人文平臺(tái)建設(shè)的愿景是讓人文研究不再困難。從雅典學(xué)園到文藝復(fù)興,從魯國杏壇到康梁變法,兩千年來人文學(xué)者的創(chuàng)造性思考從來都是依靠個(gè)體的博覽群書與博聞強(qiáng)記,依靠師徒私授或?qū)W派論戰(zhàn),思想的誕生、學(xué)說的完善,以及對社會(huì)實(shí)踐的影響主要依靠的是個(gè)人的能力,人文知識(shí)的產(chǎn)生、發(fā)展和傳播的整個(gè)過程是偶然、不清晰和不確定的,每位學(xué)者都要從最原始的篇章學(xué)起,遍歷所有典籍并考察整個(gè)源流,窮極一生只能成為專家而無法成就大家,而數(shù)字人文正在第一次給人文研究帶來革命。針對人文研究的完整過程,數(shù)字人文已能夠分而治之:首先,使資料查詢和獲取不再困難,然后使知識(shí)存儲(chǔ)、傳播和利用不再困難;其次,讓分析、比較,形成觀點(diǎn)不再困難;最后,使結(jié)果展示、交流和爭鳴不再困難。人文學(xué)者不再是單打獨(dú)斗而是集團(tuán)作戰(zhàn),無須管中窺豹而是直接綜攬全局盡情把握,人文研究的規(guī)律與方法將得到更好的揭示,人文成果的發(fā)表形式將不限于書刊,人文學(xué)說的比較與評價(jià)將更方便地在實(shí)踐中得到檢驗(yàn)和反饋,為人文研究提供的服務(wù)能力將更快地得到迭代和提高。照此發(fā)展下去,那么問題來了:如果數(shù)字人文充分采用了人工智能技術(shù),推向極致,可能機(jī)器也能自動(dòng)進(jìn)行人文研究。此時(shí)的人文,還是人文嗎?其實(shí)數(shù)字人文的終極意義還是在于以科技強(qiáng)化人文,而不是將人文變成被動(dòng)機(jī)械的對象,進(jìn)行去價(jià)值化和無意義化。最終的意義呈現(xiàn),其主體是人類自身。當(dāng)所有的人文都是數(shù)字人文時(shí),“數(shù)字”與“人文”才能夠真正合為一體,那時(shí)“數(shù)字”的工具性特征便不再重要,人文研究此時(shí)便能回歸本源,真正彰顯人類的價(jià)值和生命的意義。這也是我們要用盡所有先進(jìn)技術(shù),推進(jìn)數(shù)字人文平臺(tái)的開發(fā)與建設(shè)的根本原因所在。
作者貢獻(xiàn)說明
劉圣嬰,王麗華:提出研究思路,論文撰寫與修改;
劉煒:論文擬題,修改與定稿;
劉倩倩:收集資料,撰寫論文。
附表1?中文數(shù)字人文代表性數(shù)據(jù)庫和資源網(wǎng)站Appendix 1 Representative Digital Humanities Databases and Sites for China Studies
續(xù)附表1
續(xù)附表1
附表2?中國大陸以外地區(qū)主要數(shù)字人文數(shù)據(jù)庫名錄Appendix 2 List of Major Digital Humanities Databases Outside China's Mainland