国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國數(shù)字人文:發(fā)展現(xiàn)狀、核心問題與多維價值

2024-05-29 03:41:19徐永明張世海
數(shù)字出版研究 2024年2期
關(guān)鍵詞:數(shù)字人文

徐永明 張世海

編者按:

經(jīng)過廣泛調(diào)研和深入研討,從本期起,“深度訪談”欄目采取了一些優(yōu)化做法,在“深度”二字上進一步著力。我們的目標(biāo)是將此欄目打造成一個兼具學(xué)理性、通俗性、可讀性與紀(jì)錄性的對話式學(xué)術(shù)表達載體,挖掘現(xiàn)象本質(zhì),探求思想前沿,同時為中國數(shù)字出版事業(yè)發(fā)展歷程留存和積累信實的、有現(xiàn)場感的寶貴資料。

近些年,數(shù)字人文的發(fā)展已經(jīng)在歷史、古代文學(xué)、出版、文旅等領(lǐng)域產(chǎn)生廣泛影響。不久前,本刊編輯部邀請黃淮學(xué)院張世海教授深度訪談了對數(shù)字人文有深刻獨到理解、在該領(lǐng)域耕耘多年的教育部長江學(xué)者徐永明教授,以下為訪談實錄。

摘 要:數(shù)字人文的理念和技術(shù)引入中國以來,對傳統(tǒng)人文學(xué)科產(chǎn)生了深遠影響。國內(nèi)多個團隊在數(shù)據(jù)庫建設(shè)領(lǐng)域開展的獨立的、具有競爭性的研究和開發(fā)有利于數(shù)字人文的整體繁榮和多種互補性系列產(chǎn)品的發(fā)展,但是在基礎(chǔ)和通用性數(shù)據(jù)庫建設(shè)方面還存在力量過度分散、重復(fù)建設(shè)和資源浪費等問題。數(shù)字人文事業(yè)具有重大的戰(zhàn)略價值和廣闊的商業(yè)前景,事關(guān)我國優(yōu)秀傳統(tǒng)文化的創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展,需要建構(gòu)一個統(tǒng)一的框架體系完成基礎(chǔ)性數(shù)據(jù)庫建設(shè),支持數(shù)字人文學(xué)科教育,鼓勵學(xué)術(shù)共同體和產(chǎn)業(yè)界開展多種形式的合作?!稊?shù)字出版研究》專訪浙江大學(xué)文學(xué)院教授、教育部長江學(xué)者徐永明,探討中國數(shù)字人文領(lǐng)域的發(fā)展現(xiàn)狀、核心問題與多維價值。

關(guān)鍵詞:數(shù)字人文;學(xué)術(shù)共同體;支持體系;多維價值

DOI: 10.3969/j.issn.2097-1869.2024.02.002 文獻標(biāo)識碼:A

著錄格式:徐永明,張世海.中國數(shù)字人文:發(fā)展現(xiàn)狀、核心問題與多維價值:浙江大學(xué)文學(xué)院徐永明教授訪談實錄[J].數(shù)字出版研究,2024,3(2):10-17.

訪談人物簡介:

訪談對象:徐永明,浙江大學(xué)文學(xué)院教授、博士生導(dǎo)師,教育部“長江學(xué)者”特聘教授。浙江大學(xué)文學(xué)院數(shù)字人文研究中心主任,“學(xué)術(shù)地圖發(fā)布平臺”和“智慧古籍平臺”負責(zé)人。

訪談人:張世海,中國社會科學(xué)院博士,黃淮學(xué)院文化傳媒學(xué)院教授。

訪談時間:2024年3月14日上午

訪談地點:浙江大學(xué)文學(xué)院會議室

問:張世海

答:徐永明

1 哈佛大學(xué)的數(shù)字人文與中美合作

問:徐老師,非常感謝您接受我們的專訪,首先祝賀您因數(shù)字人文領(lǐng)域的成就被評為長江學(xué)者。從接觸數(shù)字人文到?jīng)Q心全力投入這個領(lǐng)域,哈佛大學(xué)的訪學(xué)經(jīng)歷起到關(guān)鍵作用。您與哈佛大學(xué)數(shù)字人文的代表性人物包弼德教授是舊識,他是如何開展數(shù)字人文研究的?

答:包弼德教授對數(shù)字人文的意義理解很深刻,他有人文學(xué)科的研究背景,又有技術(shù)方面的知識積累,熟悉數(shù)據(jù)庫,很多核心理念如數(shù)據(jù)庫的組織框架、呈現(xiàn)形式等都是他本人的想法。他負責(zé)的“中國歷代人物傳記資料庫”(China Biographical Database,CBDB)在學(xué)術(shù)界影響非常大,這是一個結(jié)構(gòu)化的數(shù)據(jù)庫,不僅能在地圖上定位人物的籍貫,而且能展示人物的社會網(wǎng)絡(luò)關(guān)系。

美國的學(xué)術(shù)支持體系比較發(fā)達,特別是像哈佛大學(xué)這種名校,校內(nèi)的、社會上的和政府方面的各種基金很容易申請。他組建了一個技術(shù)團隊,專門服務(wù)于他的理念。比方說,他想做中國歷史地理信息、了解中國古代地名和行政區(qū)域的變化情況,就與復(fù)旦大學(xué)歷史地理研究中心合作,建設(shè)中國古代的歷史地理信息數(shù)據(jù)庫(CHGIS)。

中國高校在人文學(xué)科投入的資金往往比較有限,文科老師的科研經(jīng)費難以支撐與計算機老師的長期合作。計算機專業(yè)的老師如果有涉及文科的項目,雖然文科老師可以過去幫忙,但他們的出發(fā)點有很大的不同,因此項目缺少可持續(xù)性。

問:哈佛大學(xué)為什么會對中國的古籍感興趣?

答:應(yīng)該是基于學(xué)術(shù)性研究目的,他們好奇中國的歷史和文化,想獲得這方面的知識。他們的理念是全球性的,中國只是其中一部分。譬如,哈佛大學(xué)的歷史地理信息數(shù)據(jù)庫,除中國外,還有世界各大洲、各個國家和地區(qū)的歷史地理信息庫。涉及各個國家應(yīng)用性的數(shù)據(jù)地圖,最后都發(fā)布在WorldMap①平臺上。(①WorldMap網(wǎng)站是哈佛大學(xué)基于地理信息系統(tǒng)(GIS)技術(shù)建立的人文地理信息數(shù)據(jù)庫可視化查詢平臺。)

問:他們的用戶主要是華人研究者嗎?

答:對。但是國外做漢學(xué)研究的人也都在用,他們都反映哈佛的數(shù)據(jù)庫很好,確實能提高研究效率。我自己做浙江文獻總目,也受益于哈佛的CBDB數(shù)據(jù)庫。比如把帶有籍貫的作者解析出來,與數(shù)據(jù)庫的文獻進行匹配,就能很容易找出浙江籍作者的文獻。

問:包弼德教授的原名是Peter K.Bol,他向愛新覺羅·毓鋆先生學(xué)習(xí)四書五經(jīng)時,毓鋆先生給他取了“包弼德”這個名字。他給您留下什么印象呢?

答:他現(xiàn)在應(yīng)該70多歲了,但是他的思維還非?;钴S,不管是什么時候給他發(fā)郵件,他很快就會回復(fù)。他給我的印象就是那種很純粹的人,對中國文化非常感興趣,不管是在管理者還是普通學(xué)者的位置上,他的思想幾乎全部都在學(xué)術(shù)上。

問:燕京學(xué)者篩選非常嚴(yán)格,你們過去自己基本上不需要花什么錢了吧?

答:是的,要經(jīng)過層層選拔,然后再面試。我們那個時候一個月給3 000多美元,現(xiàn)在差不多6 000美元了吧。他們根據(jù)物價來確定資助金額,確保學(xué)者能安心做研究,包括家屬的機票、保險等也都給解決。哈佛燕京學(xué)社的創(chuàng)始人查爾斯·馬丁·霍爾(Charles Martin Hall)在民國時期是做鋁業(yè)生意的,他對中國有好感,就在遺囑里要求設(shè)立基金資助中國文化研究。

問:那段學(xué)習(xí)時間對您學(xué)術(shù)視野的拓展及后來學(xué)術(shù)方向的選擇應(yīng)該產(chǎn)生了很大的影響,這一點可能也決定了您對數(shù)字人文的理解,您做數(shù)字人文的方法跟國內(nèi)其他學(xué)者不一樣。

答:燕京學(xué)者都要在那里討論、聽報告,他們既請哈佛大學(xué)的學(xué)者,也請全球各地的學(xué)者過去講學(xué),確實對我影響很大。我剛開始不大了解數(shù)字人文,后來逐漸認識到它的價值,就決定深入研究。我意識到要研究數(shù)字人文,數(shù)字技術(shù)和人文兩個方面都要懂才好。我花了很多的時間學(xué)習(xí)數(shù)字人文的技術(shù),但還只是學(xué)了些皮毛。不過,我能把自己的需求較準(zhǔn)確地傳達給計算機專業(yè)的老師和技術(shù)人員,因此溝通成本比較低。

問:您的學(xué)術(shù)地圖發(fā)布平臺是以什么形式與哈佛合作的?

答:在提出合作后,對方建議就用他們WorldMap平臺的框架,我們利用這樣的系統(tǒng)發(fā)布數(shù)據(jù),就好像我們從國外買了一個瓶子,但瓶子里的水是我們自己的。

問:您這邊應(yīng)該也涉及一些費用吧?

答:需要。我們改造系統(tǒng)時曾向他們咨詢,他們主要收取咨詢費,大概花了50萬元人民幣。改造好后基本就沒有再花錢了,這是一個復(fù)雜的平臺,如果我們自己重新做至少要花80萬元人民幣。

問:這種合作會不會有信息安全或知識產(chǎn)權(quán)方面的問題?

答:古代的地理信息文獻資料都是公開的,他們還有很多數(shù)據(jù)庫是利用中國公開出版的年鑒資料建立的。比如WorldMap會隨時更新上傳中國的信息,這些信息也都是能從公開途徑找到的,他們會跟蹤采集人口、空氣質(zhì)量、高鐵、地鐵、公路、天然氣管道、電廠等方面的數(shù)據(jù),再放到平臺中。他們對中國的研究非常深入,是立體和全方位的,比如包括明代的驛站路線圖、衛(wèi)所分布圖、清代1820年的寺廟分布圖等等。

問:中美兩國的人文交流是兩個不同的文化體系,如果彼此在文化層面能互相理解和欣賞,其他領(lǐng)域的交流就有了共識基礎(chǔ)。近幾年兩國關(guān)系的變化對人文交流影響大嗎?您應(yīng)該有切身感受。

答:我感覺比其他領(lǐng)域影響小一點,但也是有影響的。包弼德教授主要做中國歷史文化研究,他很希望與我們合作,我們每年都派學(xué)生出國交流,從2006年以來已經(jīng)有15個博士進入哈佛學(xué)習(xí)了,今年又有2個古代文學(xué)專業(yè)的博士去交流。我覺得中美的人文交流應(yīng)該會一直持續(xù)下去的。

問:學(xué)生去交流的流程大概是怎樣的,期間要做什么?

答:學(xué)生出發(fā)前,哈佛大學(xué)相關(guān)部門會提前發(fā)來邀請函,學(xué)生再申請國家留學(xué)基金,交流期間主要就是幫他們審核數(shù)據(jù)、校對或者做數(shù)據(jù)。

問:雙方也是互惠的,學(xué)生的學(xué)術(shù)視野會更加廣闊,他們回國后也會成為中國數(shù)字人文領(lǐng)域研究的重要力量。

答:是啊,學(xué)生在哈佛交流1年左右,可以選聽哈佛大學(xué)的課程、使用學(xué)校圖書館、在實驗室里使用學(xué)校的數(shù)據(jù)庫。1年下來,他們的數(shù)字人文理念和技能都會得到提升。目前在全國的古代文學(xué)領(lǐng)域研究機構(gòu)中,我們(浙江大學(xué))這里去哈佛的最多,每年都有,今年去的2個學(xué)生中有1個是我的學(xué)生。

2 數(shù)字人文與傳統(tǒng)人文研究

問:利用數(shù)字人文技術(shù)做古代歷史或文學(xué)研究,至少在文獻資料查詢方面就方便多了。2020年王兆鵬、邵大為在《中國社會科學(xué)》雜志發(fā)表了一篇《數(shù)字人文在古代文學(xué)研究中的初步實踐及學(xué)術(shù)意義》,提出當(dāng)全面引入數(shù)字人文的技術(shù)和方法后,未來中國文學(xué)史的形態(tài)將徹底改變。

答:是這樣的,以前用傳統(tǒng)方式閱讀文獻或工具書,很難進行多條件搜索,比如若想了解明代的狀元和進士情況,后面即便有索引,其功能也非常有限。而數(shù)據(jù)庫就不同了,按照條件搜索其在哪個時間段、在何處任職、擔(dān)任的是何種職銜就方便多了。

再比如利用數(shù)據(jù)庫對《全元詩》作者的分布情況進行計量統(tǒng)計,速度快且準(zhǔn)確度高。我們發(fā)現(xiàn)詩人集中在蘇州、安徽宣城(那時稱宛陵)、錢塘?!度姟返闹骶帡铉犗壬沧⒁獾搅诉@個問題,但他沒有專門統(tǒng)計,也沒有用定位的方式進行可視化呈現(xiàn)。我們把人物籍貫的經(jīng)緯度寫出來再利用軟件制作,通過圓圈大小就可以直觀展示區(qū)域集中密度。

問:您以前跟著徐朔方老師接受的是傳統(tǒng)的人文訓(xùn)練方法,比如精讀文本、查找紙質(zhì)文獻、做手抄筆記,和現(xiàn)在做數(shù)字人文相比,傳統(tǒng)方法還有什么優(yōu)勢?學(xué)生讀紙質(zhì)的、不加現(xiàn)代標(biāo)點的繁體豎排文獻,是不是更能增進他們對古代文化的親切感,更容易進入古代的情境?

答:我以前在浙江圖書館古籍部負責(zé)善本,徐朔方先生經(jīng)常來查資料,他都采用手抄的方式,效率較低。但傳統(tǒng)的方法肯定也要繼承和發(fā)揚,細讀、考據(jù)文本的方法等都是必備的能力,然后再使用計算機進行輔助。但未來若古典文獻全部數(shù)字化,情況可能會發(fā)生變化。北京大學(xué)的廖可斌教授曾說:“現(xiàn)在的文獻學(xué)已經(jīng)成了年輕人的學(xué)問?!毖韵轮?,在數(shù)字化的文獻載體里,年輕人查資料的速度可能比老輩學(xué)者快,他們用的是秒查、地毯式搜索的方法,而老輩學(xué)者往往是記筆記。我已把浙江省、江蘇省等各省的地方志都完成了識別,把“地方志叢刊”和“中國地方志集成”都做完后,大部分地方志就都可以被檢索,我的機器一天24小時都開著。以前做古典文學(xué)研究有三個基本功——義理、考據(jù)、辭章,我覺得現(xiàn)在還要再加一個“算力”。

問:包偉民先生在《史學(xué)月刊》上發(fā)表的文章從史學(xué)角度提出數(shù)字人文對歷史研究幫助有限,像CBDB這樣的數(shù)據(jù)庫也有缺陷,比如將復(fù)雜、立體的描述性歷史文本轉(zhuǎn)化成平面數(shù)據(jù)可能會抹殺各種文本之間的差異性,真正利用數(shù)據(jù)庫做出的有影響的學(xué)術(shù)成果數(shù)量有限。您怎么看這個觀點?

答:包偉民教授對數(shù)字人文的理解可能更傳統(tǒng),與包弼德教授的理念不同。包偉民教授其實很重視數(shù)字化數(shù)據(jù)庫,《四庫全書》數(shù)據(jù)庫出來后,他是最早買的那批人,他后來還買了中國基本古籍庫,這在全國范圍幾乎都是最早的。

問:哈佛可以說是西方文明和文化的高地之一,您怎么看西方的人文和文明?

答:文化和文明一定是多元的,你中有我、我中有你。我平時接觸很多國外研究漢學(xué)的專家,沒有覺得存在文化差異和價值觀沖突,他們很認同中國的傳統(tǒng)文化。斯坦福大學(xué)教授艾朗諾(Ronald Egan)是從哈佛大學(xué)東亞語言與文化系畢業(yè)的,主要研究唐、宋時期的文學(xué)和美學(xué)。他的舉止投足顯得彬彬有禮,就像一位傳統(tǒng)的中國謙謙君子。

問:還有一個實際問題,如果用紙質(zhì)材料閱讀那些古典文獻材料,對視力的傷害可能會小一些。數(shù)字化以后要用電子設(shè)備才能閱讀,對視力會不會傷害更大?有一些學(xué)者曾經(jīng)因為閱讀太多的電子材料而使視力受到損害。您怎么看這個問題?

答:就我個人的經(jīng)驗,其實紙質(zhì)的古籍更傷眼睛,尤其那些繁體、豎排的古文獻,又沒有標(biāo)點,眼睛得死死盯著。在我們的平臺上閱讀古籍會感覺更舒服,有標(biāo)點,字體大小和屏幕亮度都可以調(diào)節(jié),其實對視力傷害更小。但我們現(xiàn)在還有瓶頸,光學(xué)字符識別(Optical Character Recognition,OCR)在識別行書、草書和手寫字方面還是有所欠缺,聽說日本的新技術(shù)在識別手寫字方面已經(jīng)實現(xiàn)了突破,但我目前還沒看到演示。

3 當(dāng)下國內(nèi)的數(shù)字人文教育

問:很多做人文研究的學(xué)者對數(shù)字技術(shù)天生感到陌生和排拒,我覺得您應(yīng)該有數(shù)學(xué)和技術(shù)天賦,您父母是技術(shù)出身嗎?

答:我老家在浙江遂昌,我父親以前在鄉(xiāng)里的機械修配廠工作。他很聰明,天生就對各種機器感興趣,動手能力很強,會自己改裝各種機器。我記得他曾經(jīng)做過電動捕魚器、裁縫拷邊機、木車床等等,也許我在一定程度上受到了他的影響。

問:哈佛大學(xué)的霍華德·加德納(Howard Gardner)教授提出過“多元智能論”,他認為有人天生擅長語言文學(xué),有人擅長音樂,還有人擅長數(shù)理邏輯。您是怎么把這個領(lǐng)域的文科碩士和博士身上的數(shù)理潛能挖掘出來的?

答:我們還是立足古代文學(xué)學(xué)科教學(xué)中一些實用的方法,比如學(xué)術(shù)地圖的制作、數(shù)據(jù)庫功能的使用、查找數(shù)據(jù)的方法等,主要目的是讓學(xué)生快速查找資料并進行一些可視化的分析。這些方法年輕學(xué)生能學(xué)會,但是像python這類工具的學(xué)習(xí)難度就比較大了。

我們的學(xué)科終歸還是古代文學(xué),原浙江大學(xué)校長吳朝暉教授倡導(dǎo)跨學(xué)科和大數(shù)據(jù)研究,學(xué)校成立了10個大數(shù)據(jù)團隊,我們是大數(shù)據(jù)和學(xué)術(shù)地圖創(chuàng)新團隊,也是當(dāng)時人文學(xué)科里唯一的創(chuàng)新團隊。后來我們增加了交叉學(xué)科博士招生名額,學(xué)生可以來自工科或其他學(xué)科。因為名額有限,各導(dǎo)師之間的競爭很激烈,我這么多年就只申請了一個。

問:這個交叉學(xué)科的學(xué)生本科和碩士畢業(yè)于哪所學(xué)校?是什么專業(yè)?

答:他是個男生,本科和碩士都畢業(yè)于溫州大學(xué)。本科專業(yè)是英語,碩士專業(yè)是古代文學(xué),具體研究方向是南戲。他就喜歡計算機,他在博士期間把碩士論文擴展成書并出版了,還獲得了國家級獎學(xué)金。他跟我讀博期間去哈佛學(xué)習(xí)了一年,畢業(yè)后去了浙江工商大學(xué)。在就業(yè)方面,我的學(xué)生還是比較受歡迎的,因為很多高校想要跨學(xué)科的博士。

問:你們交叉學(xué)科平時怎么開展教學(xué)?

答:學(xué)校專門成立了一個交叉學(xué)科團隊,我的學(xué)生要到計算機學(xué)院學(xué)習(xí)C++語言。

問:交叉學(xué)科學(xué)校一年批幾個名額?

答:具體多少不清楚,但是很少。

問:為什么不擴大規(guī)模呢?

答:我也不清楚,我也覺得應(yīng)該擴大規(guī)模。這個交叉學(xué)科是在博士層面,現(xiàn)在中國各學(xué)校的博士招生名額比較少,要從總名額中擠出交叉學(xué)科的名額。

問:在招那個學(xué)生之前,是否要考察計算機水平?

答:我當(dāng)時沒有選擇余地,但這個學(xué)生的計算機水平還是非常不錯的,他的博士論文寫的是元末明初的文人互動研究,涉及很多地理信息,少量地方志用了數(shù)字人文的方法。

問:浙大古代文學(xué)專業(yè)的學(xué)生在收集和運用數(shù)據(jù)方面的能力如何?

答:研究生會好一些,但本科生還意識不到可以把古代文學(xué)的專業(yè)學(xué)習(xí)與計算機結(jié)合起來。我曾向?qū)W校教務(wù)處申請給本科生開設(shè)數(shù)字人文課,但教務(wù)處希望這門課先在學(xué)院層面開設(shè),成熟后再在學(xué)校層面開設(shè)。在文學(xué)類院系中,做數(shù)字人文研究的還是少數(shù),大部分人對這個專業(yè)還不了解。2023年,教育部設(shè)置了數(shù)字人文專業(yè)的本科,估計這個專業(yè)以后會越來越好。

4 數(shù)字人文共同體的交流與合作

問:有沒有可能將浙大、北大、復(fù)旦、人大、武大等文科名校聯(lián)合起來,共同起草一個古籍?dāng)?shù)字化的方案,聯(lián)合全國高校的力量把基礎(chǔ)性的古籍?dāng)?shù)字化工作做扎實?

答:現(xiàn)在力量還比較分散,很難形成一個全國統(tǒng)一的規(guī)劃方案,清華大學(xué)曾經(jīng)提交過一個關(guān)于古籍?dāng)?shù)字化、智能化的提案,不知道目前是什么進展。政府有關(guān)部門也曾發(fā)布過古籍?dāng)?shù)字化的項目申請,但這種模式大多數(shù)是傳統(tǒng)的數(shù)據(jù)庫和搜索引擎、全文檢索,不算是真正的數(shù)字人文,數(shù)字人文必須有結(jié)構(gòu)化的數(shù)據(jù),能自動生成各種新的知識組合。

問:國內(nèi)做古籍?dāng)?shù)字化處理的團隊很多,比如王兆鵬老師的團隊,你們私下交流過嗎?有沒有過合作?如果你們在某些方面能形成共識、進行合作,影響可能是非常大的。

答:有交流,我們都是古代文學(xué)背景出身,但是各自的平臺不一樣。王兆鵬老師的平臺是做唐宋(時期數(shù)據(jù))的,他自己做數(shù)據(jù)、自己發(fā)布。我的平臺是發(fā)布平臺,用戶注冊后經(jīng)過培訓(xùn)都可以發(fā)布內(nèi)容,當(dāng)然這也可能導(dǎo)致內(nèi)容質(zhì)量良莠不齊,但在數(shù)據(jù)庫中發(fā)現(xiàn)問題后可以改正并不斷完善。

問:您的平臺是兼容開放的,王老師的平臺是更加封閉獨立的系統(tǒng)。能否就由您來領(lǐng)頭,將全國的相關(guān)資源盡量整合在一個平臺上?既方便讀者,也能集中力量使內(nèi)容更精粹。

答:(笑)那是不可能的,這些資源都有自己的知識產(chǎn)權(quán),不可能都放在一個平臺上,也沒有必要都放在一個平臺上,平臺之間的多樣化競爭也有好處。

問:以您了解的情況,國內(nèi)還有哪些團隊數(shù)字人文做得比較好?

答:大家各有特色。王兆鵬老師做得很好;清華大學(xué)的劉石現(xiàn)在做《數(shù)字人文》期刊,但目前還沒有平臺;北大信息管理系的王軍和字節(jié)跳動合作,用機器識別古籍,如果這些古籍再經(jīng)人工校對就好了。

問:您的系統(tǒng)規(guī)模最大時有多少人?

答:我們有兩個微信群,一個是本科生的,一個是碩士和博士生的,兩個群加起來有1 000多人。

問:我感覺你們把技術(shù)與人文結(jié)合得非常緊密,你們還和外面專業(yè)的公司合作嗎?

答:我現(xiàn)在跟一家公司簽訂了合同,對方協(xié)助開發(fā)機器智能問答系統(tǒng),我們要給機器“投喂”大量數(shù)據(jù)進行訓(xùn)練,然后通過人工輔助進行引導(dǎo)來回答用戶提問。以后還要讓這個系統(tǒng)更加智能化,增加語音功能。最新發(fā)布的Sora能生成圖片和視頻,對我們研究和傳播古代文學(xué)非常有用,比如讓Sora生成昆曲演唱方法的演示視頻、讓《聊齋志異》里的小狐貍跟人互動等等。

問:這聽起來太有意思了,如果數(shù)字人文真的能達到這種程度,中國古代文化的研究和傳播或許將發(fā)生一場革命。你們用獲得的經(jīng)費能開發(fā)出什么樣的系統(tǒng)呢?

答:目前我國有9家基座大語言模型獲得了國家頒發(fā)的執(zhí)照,浙大的大語言模型叫“觀止”,我們在“觀止”的基座上開發(fā)二次加工平臺,“投喂”數(shù)據(jù),讓大語言模型理解。待微調(diào)平臺上線后就可以訓(xùn)練宋濂、劉基、王陽明等人物的數(shù)據(jù)。

問:今后如何繼續(xù)擴大橫向經(jīng)費的來源?按照目前的運作模式和對未來的設(shè)想,現(xiàn)在的經(jīng)費來源似乎很難實現(xiàn)目標(biāo)。

答:待我們的大語言模型微調(diào)平臺建成后就可以做個樣品出來,會有廣泛的應(yīng)用前景。比如可以訓(xùn)練關(guān)于西湖文化的機器智能問答,與西湖相關(guān)的任何問題都可以在平臺中詢問。只要有數(shù)據(jù)可“投喂”,機器就能自動生成。其他的橫向課題項目,包括與博物館、紀(jì)念館、各種文旅活動相關(guān)的,我們都能介入,也在慢慢爭取。

問:您用的OCR來自龍泉寺,是賢超法師的團隊開發(fā)的。賢超碩士畢業(yè)于北京大學(xué)物理學(xué)院,我之前在復(fù)旦大學(xué)團委的賬號“復(fù)旦青年”上了解到,他近些年一直致力于佛教典籍的數(shù)字化,他的團隊還開發(fā)了一個機器僧“賢二”。有沒有比他們做得更好的產(chǎn)品,比如識別率更高的?為什么選擇龍泉寺的產(chǎn)品呢?

答:賢超法師精通計算機,這個系統(tǒng)是他自己開發(fā)的,主要用于識別佛教典籍。“書同文”做得也很好,但是價格比較高。

5 數(shù)字人文的支持體系

問:您曾說過,如果把各種版本都算上,所有的中國古籍中還有約5/6沒有掃描,要把這些全部掃描完成大概需要60多億元。這并不算是一個天文數(shù)字,但您認為沒有掃描完成的原因是什么呢?

答:現(xiàn)在我國與古籍有關(guān)的政府部門都存在經(jīng)費不足的問題。并且,如果要真正實施國家文化數(shù)字化戰(zhàn)略,要對各省、市、縣委宣傳部的地方文獻數(shù)字化工作進行考核,工作量自然就上去了。把這些材料進行OCR處理后,還會存在約10%的錯誤率,也需要依靠眾包系統(tǒng)和人工校對解決。

問:浙江省經(jīng)濟發(fā)達,也許未來會有相關(guān)經(jīng)費支持。

答:到目前為止,我的兩個平臺都沒有拿過浙江省的經(jīng)費。開發(fā)后的數(shù)據(jù)具有難以估量的社會價值和商業(yè)價值,比如關(guān)于古代名人的智能問答,無論在文旅、中小學(xué)教育還是大眾傳播方向都有很大潛力。

問:您有沒有考慮按照純粹的商業(yè)模式去做,比如吸引風(fēng)投?

答:我們成立了一家杭州云四庫科技有限公司,浙大的規(guī)定是,這種公司如果要進行商業(yè)操作,學(xué)校占30%的股份,執(zhí)行團隊占70%。投資人對這種人文學(xué)科的業(yè)務(wù)沒有把握,不敢投。國外有資本公益基金,但國內(nèi)很少,所以有時不得不自己“造血”來建設(shè)可持續(xù)的平臺和數(shù)據(jù)。

問:您的實驗室在哪里,訪談結(jié)束后可以看看嗎?

答:我還沒有獨立的實驗室,辦公室太小了,里面有好幾臺服務(wù)器24小時工作,因為有大量古籍要識別。我還有幾十TB的古籍內(nèi)容要轉(zhuǎn)換成數(shù)字化的文本,這樣才能快速編輯和查詢,增加其附加值。浙江省要建文科實驗室,如果我能推出去,多得到一點經(jīng)費,就可以建立更多數(shù)據(jù)。

問:您現(xiàn)在運營的費用從哪里來?

答:主要來自縱向課題和橫向課題的經(jīng)費,也有捐助的經(jīng)費。之前我認識的一位研究OCR的老師將我引薦給了一位阿里巴巴公司的工程師,他以個人名義向浙大教育基金會捐助了100萬元人民幣,指定用于數(shù)字人文。他現(xiàn)在離開阿里,自己開了一家公司。

問:這在文科領(lǐng)域應(yīng)該算是一筆巨款了。

答:是的,不過已經(jīng)基本用完了。平臺建設(shè)太“燒”錢了,兩臺GPU服務(wù)器每月大約要花6 000多元人民幣,此外還有其他服務(wù)器,每年僅服務(wù)器方面就要支出十幾萬元人民幣。以后設(shè)備還會進一步升級,文科經(jīng)費根本“吃不消”。

問:中國很多企業(yè)家都熱衷于文教事業(yè),像曹德旺、雷軍等。如果找一些浙江本地的富豪來投資,不知有沒有可行性?是不是想得太浪漫了些?

答:現(xiàn)在還沒人投資,也許將來有遠見的企業(yè)家會投資。我們研究古代文學(xué)和古典文獻的人,把那些古籍當(dāng)寶貝一樣津津樂道,但其他領(lǐng)域的人未必理解。再說,如果天天到處找錢,我也耗不起時間。

6 數(shù)字人文的多維價值

問:剛才說的古籍掃描問題,經(jīng)典的文獻可能都已經(jīng)被掃描過并被數(shù)字化處理了,那剩下沒有被掃描的5/6價值大不大呢?

答:價值是要先將其數(shù)字化以后再慢慢發(fā)掘的,有了新材料,學(xué)術(shù)研究就有了更多可能性和新的增長點,很多學(xué)術(shù)研究成果就會隨之出現(xiàn),從而豐富人們對中國文化和歷史的認知。將各種數(shù)據(jù)庫建立起來后,就可以陸續(xù)開發(fā)智能問答服務(wù)、發(fā)展文化旅游業(yè),如果再加入AI等新技術(shù),了解古代文化、閱讀古籍就會更容易、更便捷了。

問:浙大的評價考核體系對文科教師采用的是什么標(biāo)準(zhǔn)?您花這么多精力做數(shù)字人文,沒有這方面的壓力嗎?

答:我了解自己目前研究內(nèi)容的價值,所以我不去計較這些。我也要發(fā)文章,但現(xiàn)在顧不上,目前對我來說最重要的還是建平臺、建數(shù)據(jù),我不是寫不出文章,而是我更希望將時間用來做數(shù)據(jù)。智慧古籍平臺還要改造,我明天約阿里巴巴的人來談未來工作的開展和實施計劃,還有很多技術(shù)細節(jié)要處理,比如有些平臺要求進行格式轉(zhuǎn)換或者版式內(nèi)容切割等,這些數(shù)據(jù)需要借助python來處理。不過我現(xiàn)在還有幾部書稿,任務(wù)和待遇都會兌現(xiàn)的。

問:我了解到您經(jīng)常前往全國各高校做講座,一方面能讓你和同行切磋專業(yè),另一方面也能傳播你的數(shù)字人文理念和方法。

答:我每年要去很多所高校做講座,還要舉辦暑期社會實踐,每次報名者能有700~800人,包括來自線上和線下渠道的。學(xué)生在未來的學(xué)習(xí)和科研中都能用到從我這里學(xué)到的技能。

問:就全國范圍來說,浙江省的整體文化素質(zhì)和文明水平如何?

答:從我研究大數(shù)據(jù)的角度來看,在《全宋詩》《全宋文》中,浙江籍的作者人數(shù)都排第一。浙江省很重視大數(shù)據(jù),制定了很多大數(shù)據(jù)計劃,但目前還沒有與文化大數(shù)據(jù)相關(guān)的計劃。

問:根據(jù)您之前做的古籍?dāng)?shù)字化轉(zhuǎn)化工作,您覺得傳統(tǒng)文化中有哪些元素特別值得弘揚吸收?

答:太多了。比如《人民日報》近期推送的《送東陽馬生序》就是很好的勵志教育文章。宋濂的求學(xué)條件那么艱苦,求學(xué)態(tài)度那么謙恭,我們應(yīng)該學(xué)習(xí)他的求學(xué)精神。還有王陽明,他在龍場驛雖然言語不通,生活也不習(xí)慣,但他一直保持樂觀的態(tài)度,最后他在思想和事功上都取得了很大成就。

問:除了個人修養(yǎng)之外,在社會建構(gòu)和社會理想方面,我們能從古代文化中學(xué)到什么?

答:這個問題太大,三言兩語說不清楚。一個東西的價值包括很多方面,包括認識價值、功利價值、審美價值。我們用數(shù)字人文的方法重新建構(gòu)古代的世界,也是想讓現(xiàn)代人更好地了解過去,如果對自己的歷史都不了解,也就無法知曉今后的路該怎么走。

問:經(jīng)過今天的訪談,才知道您要操心這么多事情。您怎么看待自己現(xiàn)在工作的意義?

答:現(xiàn)在只能“咬牙往前拱”了,我認為我研究的內(nèi)容有很大的商業(yè)前景,不過錢不是我追求的目標(biāo)。中國文化大數(shù)據(jù)肯定要有人做,如果我們不做而讓國外的人去做了,那么話語權(quán)和數(shù)據(jù)庫就都在國外了。其實我現(xiàn)在做的很多事情都是在給后人鋪路,未來再用新技術(shù)去了解古代文化可能會變得更容易。

7 談?wù)劷Y(jié)束后的參觀

12點15分,徐永明教授在辦公室展示他的智慧古籍平臺和學(xué)術(shù)地圖發(fā)布平臺。他說,在運營過程中,他自己就能解決智慧古籍平臺的很多技術(shù)細節(jié)問題,實在無法解決的就找計算機專業(yè)的老師來幫忙。學(xué)術(shù)地圖發(fā)布平臺上已經(jīng)有2 000多幅地圖,他給我們演示了如何在平臺上查看蘇東坡一生的行跡。

12點31分,大家離開人文學(xué)院大樓時查看進出登記表,從2024年3月7日至3月14日,他最早離開的一次是在3月8日凌晨1點38分,最晚離開的一次是在3月10日凌晨3點29分。徐永明教授說自己喜歡在夜里工作,因為效率更高,他上午7:30—8:00起床,天天如此,一天休息5個小時就夠了。

他引以為豪的是,很多知名專家都幫助他在智慧古籍平臺上校對過數(shù)據(jù),中國韻文學(xué)會會長鐘振振教授就是其中之一。他說每年給本科生上課時,都有學(xué)生表示高中時就用過學(xué)術(shù)地圖發(fā)布平臺,學(xué)生們非常喜歡;浙江省建設(shè)文學(xué)館和“唐詩之路”時,他的兩個數(shù)據(jù)庫都提供了很多有價值的信息。每當(dāng)聽到這些反饋,他就覺得以往的辛苦都是值得的。

午飯后,他熱情地邀請訪談人去浙江大學(xué)新落成的圖書館和其中的古籍館參觀,一見到古籍他就立即變得興奮起來,不管和他聊什么話題,不超過10分鐘,總會轉(zhuǎn)到數(shù)字人文和文化大數(shù)據(jù)的話題上。新圖書館中西合璧,美輪美奐,徐老師笑著說“如果學(xué)校和社會再支持我把文化大數(shù)據(jù)建起來就更好了,我是有野心的”,大家都大笑起來。

Digital Humanities in China: Development Status, Core Issues and Multidimensional Values—An Exclusive Interview with Professor Xu Yongming from Digital Publishing Research

XU Yongming1, ZHANG Shihai2

1. School of Literature, Zhejiang University, 310058, Hangzhou, China; 2. School of Culture and Media, Huanghuai University, 463000, Zhumadian, China

Abstract: Since the introduction of the concept and technology of digital humanities into China, they have had a profound impact on traditional humanities. Independent and competitive research and development by several teams in the field of database construction in China is conducive to the overall prosperity of digital humanities and the development of a variety of complementary series of products. However, there are still problems such as excessive dispersion of efforts, repetitive construction and waste of resources in the basic and universal database construction. The cause of digital humanities has great strategic value and broad business prospects, which is related to the evolution and growth of fine traditional Chinese culture in new and creative ways. It is necessary to construct a unified framework system to complete basic database construction, support digital humanities education, and encourage academic communities and the industry to carry out various forms of cooperation. Digital Publishing Research interviewed Professor Xu Yongming, a professor at the School of Literature of Zhejiang University and a Yangtze River Scholar, to discuss the current development status, core issues and multidimensional values of digital humanities in China.

Keywords: Digital humanities; Academic community; Support system; Multidimensional value

猜你喜歡
數(shù)字人文
數(shù)字人文項目合作平臺分析
圖書館未來的技術(shù)應(yīng)用與發(fā)展
圖書與情報(2017年6期)2018-03-12 19:13:41
數(shù)據(jù)驅(qū)動下的高校圖書館數(shù)字人文服務(wù)研究
圖書與情報(2017年5期)2018-01-02 11:24:34
漢傳佛教文化遺產(chǎn)數(shù)字化建設(shè)現(xiàn)狀調(diào)查與特征分析
數(shù)字人文2011—2016年研究綜述
數(shù)字人文時代公共圖書館經(jīng)典閱讀推廣研究
數(shù)字人文時代公共圖書館經(jīng)典閱讀推廣研究
數(shù)字人文目標(biāo)下圖書館信息服務(wù)模式研究
數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
跨界與融合:全球視野下的數(shù)字人文
永城市| 芦山县| 女性| 玉屏| 麻江县| 静乐县| 寿宁县| 余庆县| 东乌珠穆沁旗| 馆陶县| 石城县| 华容县| 林周县| 余庆县| 阿瓦提县| 额济纳旗| 襄汾县| 陵川县| 天津市| 深泽县| 特克斯县| 湟源县| 元谋县| 沅陵县| 林口县| 彭山县| 武川县| 儋州市| 南皮县| 措美县| 北辰区| 固始县| 错那县| 时尚| 卓资县| 郎溪县| 滨州市| 湖州市| 高邮市| 化隆| 肇庆市|