陳 靜
(南京大學 高研院數(shù)字人文創(chuàng)研中心,江蘇 南京 210093)
作為一個舶來概念,“數(shù)字人文”真正進入中國學界,受到廣泛關注,是近十年間。2009年,武漢大學的王曉光教授在“2009年教育部人文社會科學研究方法創(chuàng)新論壇”上發(fā)表了名為《“數(shù)字人文”的產生、發(fā)展與前沿》的論文。此文隨后發(fā)表在“科學網”(2009年12月3日),獲得了上萬的在線點擊及多次學術引用。同一年,臺灣大學舉辦了第一屆“數(shù)位典藏和數(shù)位人文”會議,提出將數(shù)字人文與數(shù)位典藏放在同樣重要的地位。2011年以后,越來越多的以“數(shù)字人文”為主題的論文出現(xiàn)在學術期刊上。但這并不意味著,在2009年之前中國就沒有數(shù)字人文。我們將“數(shù)字人文”定義為一套提出、重新定義和回答學術問題的辦法,即人文學者可以利用數(shù)字技術(尤其是電腦數(shù)據(jù)庫)作為外在的工具,來回答他們過去已經提出的學術問題,或者是受到數(shù)字技術和思維的影響而提出的新課題,甚至產生新的研究范式。*徐力恒、陳靜:《“數(shù)字人文”浪潮來襲,倡導之余仍要警惕過分樂觀》,《社會科學報》2017年8月26日。實際上,在“數(shù)字人文”概念被翻譯到中國之前,中國早已有了數(shù)字人文實踐。那么,我們在當下強調“數(shù)字人文”的意義在哪里?中國的數(shù)字人文在已有的學術圖景中又遭遇了什么樣的挑戰(zhàn)?本文以2009年作為中國數(shù)字人文的一個分水嶺,稱此前為前史,此后為當下,展開關于中國數(shù)字人文當代意義的討論。
中國第一篇有據(jù)可查且被廣泛接受的介紹數(shù)字人文的文章是由武漢大學的王曉光教授在2009年發(fā)表的。在臺灣地區(qū),2009年同樣是一個起點。據(jù)臺灣數(shù)字人文博士邱偉云觀察,“臺灣的數(shù)字人文學則應以2009年臺灣大學所舉辦的第一屆數(shù)字典藏與數(shù)字人文國際研討會為起點。觀察第一屆及其之后歷屆的會議主旨、征稿議題、發(fā)表篇目等,可以看見2009—2012這四年乃是臺灣數(shù)字人文學發(fā)展的奠基期,這一時期最大的特色,即是有一從數(shù)字典藏到數(shù)字人文學發(fā)展的轉向”*邱偉云:《臺灣數(shù)字人文研究綜述(2009—2017)》,即將發(fā)表。。海峽兩岸學者在2009年的不謀而合,看似偶然,但實則順勢而為。*2007年6月,臺灣中正大學人文研究中心協(xié)同臺灣“中研院”人文中心GIS專題組和中正大學歷史學系舉辦了地理資訊系統(tǒng)與人文研究研討會。2009年1月,臺灣政治大學文學院身體與文明研究中心、歷史學系和地政學系聯(lián)合召開了2009人文地理資訊系統(tǒng)研討會。王曉光教授就提到“中國的與西方的人文研究相比,大陸的人文學者對計算機技術的應用研究并不算落后”,但存在不足,研究方法和教學手段較為陳舊,“面對人文社會科學研究方法創(chuàng)新的需要,將國外數(shù)字人文研究的內容、方向和前沿集中介紹給國內的人文社會學者以加快我國人文學科研究范式的升級和轉型已經顯得十分必要”。*王曉光:《“數(shù)字人文”的產生、發(fā)展與前沿》,載《方法創(chuàng)新與哲學社會科學發(fā)展》,武漢大學出版社2010年版。王曉光教授將“數(shù)字人文”介紹到中國學界,是出于基于內在需求的自覺和一種對國外數(shù)字人文的借鑒意愿,類似的想法也被臺灣數(shù)字人文先驅、臺灣大學資訊工程系特聘教授項潔描述過:
1995年我開始規(guī)劃并執(zhí)行臺灣大學的臺灣史料與藏品的數(shù)位典藏工作,這也是在技術上,將新的科技媒體與傳統(tǒng)類型史料結合的開始。這項工作進行十年后,我們累積了相當數(shù)量的高品質的數(shù)位史料,但是我的不安也越來越深。我開始思考,到底如何才能運用資訊科技,在龐大的數(shù)位史料基礎上從事歷史學的學術研究。閉門造車一年多后,才發(fā)現(xiàn)在國際已經隱隱約約有一個類似的學問浮現(xiàn),這就是“數(shù)位人文”。近十多年來,我找到了越來越多志同道合的朋友,大家均是被數(shù)位人文所隱含的可能性深深吸引,也做了不少相關的研究工作。*項潔:《一個臺灣數(shù)位人文學者的賀詞》,“零壹Lab”,最后登錄時間:2016-10-10。
可見,“數(shù)字人文”被翻譯、介紹到中國,并不能證明數(shù)字人文是一個由西方發(fā)展起來、被引進到中國的學科;相反,是在一個歷史趨勢下,從自身的研究需求出發(fā),意識到在數(shù)字時代必然而為的一種學術研究轉型,而這場轉型恰恰呼應了西方語境中“數(shù)字人文”浪潮的興起。過去幾年間,數(shù)字人文浪潮在中國發(fā)展迅猛,臺灣連續(xù)幾年舉辦“數(shù)字典藏和數(shù)字人文”會議,大陸有關數(shù)字人文的會議越來越多,更有小型研討會和工作坊,相關論文也在學術期刊和大眾媒體上頻頻發(fā)表。數(shù)字人文研究在非西方語境中發(fā)展的特殊意義、學術價值和面臨的挑戰(zhàn)也成為學者們越來越關注的問題。如果要展開討論當下語境中的數(shù)字人文,有必要進行一個回顧性說明,以探討作為一種知識生產轉型的數(shù)字人文并非僅僅是名稱上的創(chuàng)新,更是一種在新的數(shù)字語境中的自覺選擇。
在“數(shù)字人文”這個概念進入中國之前,國家機構、高校、圖書館、研究者及商業(yè)公司已經在關注數(shù)字轉向過程中所帶來的知識生產問題。 但在學術研究中,數(shù)字化資料和數(shù)據(jù)庫依然被認為是一種資料的提供方式而非知識生產本身。
最早以數(shù)字方式來處理中文文本的,是計算語言學。中國在20世紀下半期開展了相關的研究,例如1976年武漢大學語言自動處理研究組利用計算機統(tǒng)計老舍《駱駝祥子》的字頻。從1979年到1983年,有4個大型的現(xiàn)代漢語語料庫項目在中國大陸發(fā)展成型:武漢大學的漢語現(xiàn)代文學作品語料庫(1979年,527萬字)、北京航空航天大學的現(xiàn)代漢語語料庫(1983年,2000萬字)、北京師范大學的中學語文教材語料庫(1983年,106.8萬字)和北京語言學院的現(xiàn)代漢語詞頻統(tǒng)計語料庫(1983年,182萬字)。這些項目以高校為依托,以現(xiàn)代漢語語料為對象。1991年,國家語言文字工作委員會啟動了國家語料庫,推動包括語法、句法、語義和語用在內的現(xiàn)代漢語語法的研究。2003年,由國家973項目經費資助,中國中文信息學會語言資源建設和管理工作委員會發(fā)起了“中文語言資源聯(lián)盟”(Chinese Linguistic Data Consortium,CLDC),推動中文信息處理。*“中文語言資源聯(lián)盟”,http://www.chineseldc.org/cldcTest.html,最后登錄時間:2018-06-04,22:55。
除計算語言學外,另一個常常與人文研究結合、被認為是“數(shù)字人文”的技術和領域是地理信息系統(tǒng)與歷史地理信息系統(tǒng) (Historical/ Geographical Information System)。其中可以作為例子的是臺灣“中研院”的“中華文明之時空基礎架構”(Chinese Civilization in Time and Space,CCTS) 和臺灣文化歷史地圖 (Taiwan History and Culture in Time and Space,THCTS)*中華文明之時空基礎架構”(Chinese Civilization in Time and Space,CCTS),http://ccts.sinica.edu.tw/ ;臺灣文化歷史地圖 (Taiwan History and Culture in Time and Space,THCTS),http://thcts.sinica.edu.tw/;最后登錄時間2018-06-04, 22:58。,復旦大學與哈佛大學合作的“禹貢”(CHGIS)*禹貢,http://yugong.fudan.edu.cn/views/chgis_index.php?list=Y&tpid=700,最后登錄時間:2018-06-04, 22:59。,中南民族大學文學與新聞傳播學院王兆鵬與“搜韻網”合作的“唐宋文學編年地圖平臺”*唐宋文學編年地圖平臺,http://sou-yun.com/poetlifemap.html,最后登錄時間:2018-06-04, 23:11。。這些項目以地理系統(tǒng)為依托,人文學家參與其中,試圖以地理框架來落實歷史文本信息,從而以新的時空觀來審視中國歷史與文化。
此外,還有一些研究型的學術數(shù)據(jù)庫,提供全文數(shù)據(jù)庫和基本的搜索功能,以便學者能開展相關的研究。比如:北京大學中文系開發(fā)的全唐(宋)詩分析系統(tǒng)(the TangSong Poem Project)、先在香港中文大學后遷至臺灣政治大學的“中國近現(xiàn)代思想史研究專業(yè)數(shù)據(jù)庫(1830—1930)”。它們的出現(xiàn)體現(xiàn)了學者在研究中的需求,也隱含著對當時已有的數(shù)據(jù)庫的一種補充性批判。這種自覺性可以從金觀濤、劉青峰兩位老師自1997年以來在香港中文大學建立的“中國近現(xiàn)代思想史研究專業(yè)數(shù)據(jù)庫(1830—1930)”*中國近現(xiàn)代思想史研究專業(yè)數(shù)據(jù)庫(1830—1930),http://www.cuhk.edu.hk/ics/rcccc/database/,最后登錄時間:2018-06-04, 23:15。及基于該數(shù)據(jù)庫開展的研究中略見一斑。1997年,金、劉尚未接觸到數(shù)字人文概念, 就啟動了一個名為“特定現(xiàn)代中文政治概念形式的量化研究”的項目,意圖對新文化運動期間最具代表性的12個中文期刊雜志中的文章進行量化統(tǒng)計和分析。在這個過程中,金、劉兩位老師意識到現(xiàn)代重要政治觀念的研究開展是可以通過對更大范圍內的文本進行檢索和分析來進行的,由此開展了持續(xù)20年的數(shù)據(jù)庫開發(fā)和研究工作,在2008年出版了《觀念史研究:中國現(xiàn)代重要政治術語的形成》。他們在臺灣政治大學開始使用數(shù)字人文方法,開展以關鍵詞列句為中心的觀念史研究,明確地與“量化歷史”劃清了關系。*金觀濤、劉青峰:《就觀念史研究再答張仲民先生》,《南方都市報》,http://news.gd.sina.com.cn/news/2010/09/19/1002985.html , 發(fā)布時間:2010年9月19日,最后登錄時間:2018-06-04, 23:17。
從1990年代開始,國家各大圖書館,以及一些商業(yè)公司開展了大量以數(shù)字化為基礎的檔案庫/數(shù)據(jù)庫建設。比如,上海圖書館的晚清期刊全文數(shù)據(jù)庫(1833—1911)和民國時期期刊全文數(shù)據(jù)庫(1911—1949,1—10輯)。它們利用上海圖書館的民國文獻資料,建立了兩個具有影響力的數(shù)據(jù)庫。資料庫建設更多是從圖書館的角度出發(fā),建立數(shù)據(jù)庫,遵循檔案原真性原則,呈現(xiàn)給讀者的還是以編目為框架的結構化數(shù)據(jù)呈現(xiàn)。在這個數(shù)字化和編目的過程中,文字識別并沒有做到全文檢索,只是有限地從數(shù)字圖像中提取了文獻信息數(shù)據(jù)。對于該數(shù)據(jù)庫的用戶而言,數(shù)據(jù)庫本身提供的檢索能力有限,其最重要的意義在于作為一種可在線瀏覽的文獻呈現(xiàn)方式,使用戶得以看到作為證據(jù)的文獻的存在,而非深入地利用文本進行數(shù)據(jù)挖掘。這造成了早期圖書館數(shù)據(jù)庫與研究導向的數(shù)據(jù)庫之間的差別。
商業(yè)數(shù)據(jù)庫在近20年的發(fā)展豐富了數(shù)據(jù)庫的數(shù)量和種類。其中堪舉為例的是兩項中國古籍數(shù)字化工程:“四庫全書”和“中國基本古籍庫”。文淵閣四庫全書的電子版由香港迪志文化出版公司推出。在傳統(tǒng)中國的大型叢書中,《四庫全書》是第一套被數(shù)字化的,但就研究者而言,其編輯過程經過審查,內容有刪除或者修改的現(xiàn)象發(fā)生,這造成了研究者在使用上的障礙。自2001年開始,由北京大學等高校與北京愛如生公司合作建立的“中國基本古籍庫”,號稱囊括上萬本中國古籍、超過17億字的全文。這些大型商業(yè)數(shù)據(jù)庫在數(shù)字化方面起到了基礎性的作用,但因為各自商業(yè)利益的需求和數(shù)字版權的缺陷,使得商業(yè)型數(shù)據(jù)庫存在著發(fā)展無規(guī)劃、內容重復、數(shù)據(jù)不規(guī)范、數(shù)據(jù)質量參差不齊、文本數(shù)據(jù)挖掘不夠、用戶使用體驗差的問題。就中國近現(xiàn)代報紙而言,廣告基本數(shù)字資源的獲取并不便利。這一方面是因為中國近現(xiàn)代報紙的數(shù)量非常龐大,其保存地也相對比較分散,這就造成了學者在研究的時候獲取相應的資源不方便;另一方面是因為,盡管中國及國外很多機構,比如圖書館和一些商業(yè)公司對報紙進行了商業(yè)化,但這些數(shù)據(jù)庫大部分是收費的。這些數(shù)據(jù)庫的建設主要針對的是報刊上的新聞及評論文章,對廣告的內容加工和信息提煉不很充分,大部分都只有廣告中的一行字,沒有對具有研究價值的圖像等作進一步的分析。
2011年,武漢大學成立了中國第一家數(shù)字人文研究中心。*“武漢大學數(shù)字人文研究中心”,http://dh.whu.edu.cn/dh/web/index.html,最后登錄時間:2018-06-04,23: 19。2012年,在臺灣大學前圖書館館長項潔教授的帶領下,臺灣大學正式成立“數(shù)位人文研究中心”,并陸續(xù)建立了11個數(shù)據(jù)庫,包含超過600萬筆元數(shù)據(jù)、近3000萬張影像、近4億字全文,及數(shù)百小時影音資料。*“臺灣大學數(shù)位人文研究中心”,http://digital.ntu.edu.tw/introduction.jsp,最后登錄時間:2018-06-04,23: 21。臺灣大學發(fā)起的“數(shù)位典藏與數(shù)位人文”會議召集亞洲地區(qū)乃至全世界對中文數(shù)字人文研究感興趣的學者,每年在臺灣相聚,成為亞洲地區(qū)最大的數(shù)字人文國際會議。此后武漢大學、臺灣政治大學文學院、香港公開大學、南京大學等也紛紛成立相關的數(shù)字人文研究機構。盡管各個機構有大有小,有實有虛,但從體制上予以數(shù)字人文以認可,確是推廣數(shù)字人文最切實的舉措。
相應地,在近十年間,有關中文文本的數(shù)字人文研究項目紛紛凸顯出來。比如由哈佛大學、臺灣“中研院”和北京大學共同開發(fā)的“中國歷代人物傳記資料庫”(CBDB)。這是一個已經運作超過十年的國際合作項目,它的目標在于系統(tǒng)地收錄中國歷史上所有重要的傳記資料,并將數(shù)據(jù)開放供學術研究之用。截至 2016年,它共收錄超過37萬人的自7至19世紀的傳記資料。它的數(shù)據(jù)既可在線查詢,又可以下載,供用戶離線使用。研究者可以利用其中提供的大數(shù)據(jù),進行相對復雜的查詢和分析。除了用作研究歷史人物的參考資料之外,還可作統(tǒng)計分析、地理空間分析與社會網絡分析之用,為中國史研究引入新視角。從2016年起,這個數(shù)據(jù)庫項目在中國連續(xù)舉辦了不少推廣活動,向學界介紹其資料特點和用法。
此外,還有為數(shù)不少的研究和電子化項目,許多國家社科基金項目資助學者建設各種專題數(shù)據(jù)庫。然而,不少學者還是覺得無從入手學習數(shù)字人文的最新動態(tài),認為各個學術機構還可以投放更多資源,讓研究者學會如何在研究中利用新的數(shù)字化工具。比如,一般人文學者通常都熟悉在全文數(shù)據(jù)庫進行關鍵詞檢索,但對于其他可以用于研究的計算機工具還是很陌生。例如,要把自己搜集到的數(shù)據(jù)以GIS 方法畫一張電子地圖,就不是很多人能夠做到的。所以,推動數(shù)字人文的發(fā)展,與其停留在討論數(shù)字人文的理念,或介紹眾多數(shù)據(jù)庫和電子資源,不如注重實踐更有意義,例如培養(yǎng)制作可視化的技能,或傳授對數(shù)據(jù)進行分析、操作、解讀等技能。
數(shù)據(jù)的獲取和開放程度也是中國數(shù)字人文面臨的另一大挑戰(zhàn)。以中國古代典籍為例,數(shù)學化材料的獲得遠遠不足。各類古籍數(shù)據(jù)庫有許多,但數(shù)據(jù)共享的做法仍然非常罕見。許多數(shù)據(jù)庫都以商業(yè)模式運營,必須得到學術機構和研究者訂購,才能生存。這樣,它們的數(shù)據(jù)肯定不會完全開放。這對不同數(shù)字資源之間的協(xié)作造成一定障礙。對于費用高昂的數(shù)據(jù)庫,不少學校不能負擔,也是另一大難題。雖然如此,還是有一些機構希望推動開放數(shù)據(jù)的做法。例如上海圖書館建立了開放數(shù)據(jù)平臺,以關聯(lián)數(shù)據(jù)(linked data)的方式發(fā)布一些各個機構、項目都可調用的數(shù)據(jù)。同時,又創(chuàng)辦了應用開發(fā)競賽,開放了其館藏家譜文獻信息和內容信息,鼓勵參加者有創(chuàng)意地利用數(shù)據(jù),從而發(fā)揮資源的最大價值。*“上海圖書館開放數(shù)據(jù)平臺”,http://data.library.sh.cn/,最后登錄時間:2018-06-04,23: 23。類似活動無疑有利于推廣數(shù)字項目,讓更多人了解數(shù)字人文的理念和成果。
伴隨數(shù)字人文在國內的日益熱門,也有不少學者提出疑問:數(shù)字圖書館、數(shù)字檔案館、數(shù)字標準化、計算語言學、GIS、HGIS,這些國內已經有學者做了很多年了,現(xiàn)在專門提“數(shù)字人文”有什么意義?“數(shù)字人文”強調的是面對尚未完成的數(shù)字革命中的知識生產方式轉型,推動面向未來的知識體系及方法的建構,其回應的是大數(shù)據(jù)時代基于學者導向(research oriented)的研究需求與基于資源共享的網絡基礎設施建設(cyber infrastructure),其建設的是面向數(shù)字原生代人類的認知方式系統(tǒng)與路徑。
首先,數(shù)字人文提供了數(shù)字時代的新的研究路徑與方法。比如,目前被使用最為廣泛的“詞頻分析”。從技術處理上看,中文與英文的詞頻統(tǒng)計是同一模式:列出所有文章中出現(xiàn)的詞匯,再統(tǒng)計其次數(shù)。但進行實際操作時,就有很多不同,英文需要處理同一詞匯的語法變形,而中文需要處理“斷詞”,可以運用自然語言處理(Natural Language Processing)和統(tǒng)計學方法進行斷詞。依據(jù)詞頻統(tǒng)計所做的研究,不僅僅可以做風格研究,而且可以從更大的范圍內開展思想史的研究。另外存在一種數(shù)字人文研究方法的可能性,是關于系統(tǒng)性發(fā)現(xiàn)大量資料內隱含的內部關系的,是比分詞更進一步的數(shù)據(jù)挖掘或者文本挖掘技術。這類技術在商業(yè)應用中已經較為多見,比如用以分析顧客的消費行為來進行購買推送。在中文的文本研究中,項潔教授開展的“類書”研究是比較具有代表性的案例。除此之外,數(shù)位人文研究中還較為普及的研究就是人際網絡研究,前文提到的CBDB近年來基于歷史文獻數(shù)據(jù),開展了大量的社交網絡研究。
其次,數(shù)字人文從“基礎數(shù)據(jù)”的層面,實現(xiàn)真正的跨學科協(xié)同合作,并從方法和路徑的層面打通自然科學、應用工程、社會科學、人文科學和藝術的綜合研究,使得研究者從自身的學科立場出發(fā),得以擴展到其他領域,并能以“問題導向”出發(fā),與其他學者協(xié)同研究,實現(xiàn)研究層面的資源最大共享化、分析方法的最大通約化和知識內容的最大綜合化。近年來基于互聯(lián)網的數(shù)字人文社群討論和傳播,顯得非常融洽且富有活力。許多關于數(shù)字人文的學術交流和討論已經通過非傳統(tǒng)的渠道進行,并受到眾多學者的關注,逐漸形成一種跨領域、跨專業(yè)、跨地區(qū)和跨平臺的學術共同體。
第三,數(shù)字人文將科學嚴格的系統(tǒng)性、明晰性和方法的規(guī)范性帶入人文研究領域。這是在不可逆的數(shù)字技術所構成的人文研究的基礎條件和環(huán)境中所作出的必然回應。數(shù)字人文近年來的“數(shù)據(jù)/算法驅動”盡管存在“技術黑箱化”支配下的盲目樂觀/悲觀主義,即簡單地將數(shù)字人文等同于算法或者數(shù)據(jù),或者將數(shù)字技術的能力夸大到可以迅速地、高效地解決一切人類世界問題;然而,數(shù)字技術的高度滲入化和大數(shù)據(jù)的發(fā)展確實已經為人文研究提出了新的挑戰(zhàn),而這需要一種新的知識生產范式的介入。
第四,數(shù)字人文以“實踐性”的方式塑造了新一代數(shù)字人文學者。西方學者拉姆齊(Stephen Ramsay)提出數(shù)字人文學者必須具備寫代碼的能力(即使是在數(shù)字人文界,實際上也不是所有人都具備編碼能力)。他所提出的廣義數(shù)字人文實踐者的概念,也值得我們借鑒。*Stephen Ramsay , Geoffrey Rockwell, “Developing Things: Notes toward an Epistemology of Building in the Digital Humanities”, Debates in Digital Humanities, University Of Minnesota Press, the online access link:http://dhdebates.gc.cuny.edu/debates/text/11, 2012.這樣,就泛化了“數(shù)字”所指涉的范圍,使得它不僅包括XML 、XSLT、GIS、R、CSS 和C這樣的編程語言,也包括利用軟件開展相關研究,甚至開發(fā)軟件。這就將使用軟件來進行研究的學者、以軟件來進行知識傳播與管理(圖書館員等)以及發(fā)明軟件的人(工程師)等都納入了數(shù)字人文群體之內,為在更大范圍內重新塑造新一代數(shù)字人文學者提供了一個很好的參考框架。尤其考慮到西方乃至中國大學近年來高度專業(yè)化、體制化和企業(yè)化的特點,強調具有“實踐性”的數(shù)字人文群體有利于擴大學術生產的原動力、提升學術的多樣性和促進學術研究的協(xié)作性。這也將促進新一代人文社科研究生的培養(yǎng)。我們不能被動地認為數(shù)字原生代一定或者自然而然地具備數(shù)字思維,事實上,他們也是需要培訓和引導的,而這也正是數(shù)字人文具有廣闊而光明的未來的可能性所在。青年一代將會比我們更加了解未來的數(shù)字社會,也更加需要掌握數(shù)字知識生產的基本思維、理論反思以及研究方法與工具。