王雪霞 劉曉立
智能信息環(huán)境為古籍工作帶來多方面利好
北京大學(xué)數(shù)字人文研究中心主任、中國古籍保護(hù)協(xié)會(huì)古籍智能開發(fā)與利用專業(yè)委員會(huì)主任委員王軍是此次研討會(huì)籌辦人。他在3月12日“古籍智能”系列研討會(huì)第一講中率先談道,智能信息環(huán)境將為古籍保護(hù)帶來六大利好:一是深化古典文獻(xiàn)學(xué)研究,加快古籍整理出版;二是便于古籍文獻(xiàn)的知識(shí)抽取和信息集成;三是加速學(xué)科跨界融合,利于高校復(fù)合型人才培養(yǎng);四是利于古籍閱讀文化推廣,提升民眾人文素養(yǎng);五是有助于構(gòu)建人類命運(yùn)共同體,利用中華古籍智慧促進(jìn)世界和平;六是促進(jìn)政府、企業(yè)、古籍愛好者等多方協(xié)作,促成各方面、各領(lǐng)域的共享、開發(fā)與合作。
北京大學(xué)中文系教授楊海崢認(rèn)為,古籍整理和古籍文獻(xiàn)的研究與教學(xué)在智能信息環(huán)境下正面臨著一場深刻而廣泛的變革,凝聚多方社會(huì)力量推動(dòng)古籍?dāng)?shù)字化、智能化平臺(tái)的建設(shè)以及相關(guān)標(biāo)準(zhǔn)規(guī)范的形成,促進(jìn)古籍資源在智能信息環(huán)境下的深度開發(fā)、利用與傳播是古典文獻(xiàn)學(xué)在智能時(shí)代進(jìn)一步發(fā)展的需要。
智能時(shí)代古典文獻(xiàn)學(xué)的機(jī)遇和挑戰(zhàn)
中國在5000多年歷史長河中,創(chuàng)造了燦爛輝煌的華夏文明,留下了眾多珍貴的文化遺產(chǎn)。古代典籍是這些文化遺產(chǎn)最直接與最重要的載體形式,也是先賢們留下的寶貴精神財(cái)富和歷史見證。古籍文獻(xiàn)屬于文化資源,具有不可再生的屬性,必須在妥善保護(hù)基礎(chǔ)上加以利用。古籍文獻(xiàn)數(shù)字化為實(shí)現(xiàn)這一目標(biāo)提供了可能。
古籍智能化是當(dāng)今信息技術(shù)時(shí)代人文學(xué)科新的學(xué)術(shù)增長點(diǎn),亟需來自不同學(xué)科領(lǐng)域、擁有多元文化和研究背景的專家學(xué)者展開跨學(xué)科、跨地域乃至跨國別的協(xié)同研究。在3月12日“古籍智能”系列研討會(huì)第一講中,與會(huì)專家圍繞智能時(shí)代古典文獻(xiàn)學(xué)面臨的機(jī)遇和挑戰(zhàn),系統(tǒng)討論了古籍智能信息處理所涉及的各個(gè)子領(lǐng)域的發(fā)展源流、基本知識(shí)、技術(shù)架構(gòu)和未來趨勢,大范圍普及和傳播了古籍智能領(lǐng)域的知識(shí)和關(guān)鍵技術(shù)。
清華大學(xué)中文系教授劉石談到,大數(shù)據(jù)技術(shù)引發(fā)了文獻(xiàn)生產(chǎn)的創(chuàng)革、文本形態(tài)的新變和知識(shí)獲取的拓展,最終促進(jìn)了傳統(tǒng)文獻(xiàn)學(xué)的現(xiàn)代轉(zhuǎn)型,包括革新傳統(tǒng)文獻(xiàn)學(xué)的實(shí)踐路徑、增強(qiáng)傳統(tǒng)文獻(xiàn)研究的整體性、促進(jìn)傳統(tǒng)文獻(xiàn)研究的實(shí)證化、催生新的研究范式等。同時(shí),他也指出,大數(shù)據(jù)技術(shù)在古典文獻(xiàn)研究中存在著局限和問題,應(yīng)警惕技術(shù)方法的局限性和負(fù)面影響。
浙江大學(xué)中文系教授徐永明以“古典文獻(xiàn)面臨的機(jī)遇和挑戰(zhàn)”為題,介紹了目前數(shù)字人文所涉的技術(shù)、工具、平臺(tái),探討了傳統(tǒng)古籍整理與大數(shù)據(jù)背景下古籍整理的異同,說明了后者在多個(gè)方面的優(yōu)勢,展示了智慧古籍平臺(tái)的樣式和使用方法。復(fù)旦大學(xué)中國歷史地理研究所教授張曉虹從開創(chuàng)、進(jìn)展、前景等方面對CHGIS 進(jìn)行了全面介紹,說明了 CHGIS 相較于傳統(tǒng)《中國歷史地圖集》的優(yōu)勢,討論了CHGIS 對數(shù)字人文研究的貢獻(xiàn)。四川大學(xué)中國文化全球傳播大數(shù)據(jù)中心教授王兆鵬指出,古籍智能化的兩個(gè)面向是古籍整理(文本轉(zhuǎn)化的智能化)和古籍利用(功能提升的智能化),集中探討了2.0版古籍?dāng)?shù)據(jù)庫的三大進(jìn)展。華南理工大學(xué)電子與信息學(xué)院金連文教授從數(shù)據(jù)、方法、應(yīng)用三個(gè)方面對深度學(xué)習(xí)時(shí)代的古籍OCR進(jìn)行了全面的介紹,并在此基礎(chǔ)上討論了目前尚未解決或未徹底解決好的問題,強(qiáng)調(diào)了跨學(xué)科合作的重要性。中國古籍的影響不止局限于中華文化圈,韓國慶星大學(xué)韓國漢字研究所許喆教授在跨文化視野下考察了東亞古文獻(xiàn)數(shù)字研究的相關(guān)問題,介紹了韓國古籍?dāng)?shù)字化的有關(guān)情況,展示了具體的數(shù)據(jù)庫、檢索目錄等網(wǎng)絡(luò)資源,說明了所涉及的某些新技術(shù)。上海圖書館上??茖W(xué)技術(shù)情報(bào)研究所劉煒研究員介紹了基于聯(lián)盟鏈技術(shù)的古籍整理研究平臺(tái),說明了聯(lián)盟鏈技術(shù)的優(yōu)越性,展示了上海圖書館區(qū)塊鏈平臺(tái);希望所有古籍元數(shù)據(jù)和原文永遠(yuǎn)在線,永不刪除,永久保存,可按權(quán)限訪問。
信息技術(shù)為古籍智能化、信息化提供了良好的發(fā)展機(jī)遇,而由此產(chǎn)生的古籍智能化圖像識(shí)別、句讀標(biāo)點(diǎn)、命名實(shí)體識(shí)別、數(shù)字化檢索等一系列問題都成為了數(shù)字時(shí)代古籍研究領(lǐng)域新的挑戰(zhàn),與會(huì)專家圍繞智能時(shí)代古典文獻(xiàn)學(xué)面臨的機(jī)遇和挑戰(zhàn)的相關(guān)探討,對促進(jìn)智能信息環(huán)境下古籍整理與研究學(xué)的跨學(xué)科人才培養(yǎng),拓寬古典文獻(xiàn)學(xué)的研究方法等具有積極的作用。
古籍?dāng)?shù)字化平臺(tái)的建設(shè)帶來的轉(zhuǎn)變與便利
“古籍?dāng)?shù)字化平臺(tái)的建設(shè)”作為“古籍智能”系列研討會(huì)的首個(gè)專題研討會(huì)于3月26日,以騰訊會(huì)議的方式在線舉辦。作為主辦方,王軍教授在開場詞中表示,古籍?dāng)?shù)字平臺(tái)具有基礎(chǔ)地位和作用,在數(shù)字時(shí)代,古籍的整理與研究都依托平臺(tái)展開。隨后,北京大學(xué)中文系教授楊海崢、浙江大學(xué)文學(xué)院教授徐永明、四川大學(xué)文科講席教授王兆鵬、上海外國語大學(xué)圖書館研究館員歐陽劍、中華書局古聯(lián)公司總經(jīng)理洪濤、元引科技有限公司創(chuàng)始人朱厚權(quán)等進(jìn)行了主題匯報(bào)。
此次研討會(huì)重點(diǎn)對四個(gè)議題進(jìn)行了研討,分別為:對古籍?dāng)?shù)字化平臺(tái)的理解、古籍?dāng)?shù)字化平臺(tái)從傳統(tǒng)數(shù)據(jù)庫到結(jié)構(gòu)化數(shù)據(jù)庫再到智能數(shù)據(jù)庫的歷史溯源、相關(guān)技術(shù)工具介紹等;古籍?dāng)?shù)字化平臺(tái)的使用、應(yīng)用,以實(shí)例說明古籍?dāng)?shù)字平臺(tái)的知識(shí)化建設(shè)模式以及古籍文獻(xiàn)的數(shù)字人文研究模式的構(gòu)建等;古籍?dāng)?shù)字化平臺(tái)的可持續(xù)化發(fā)展及商業(yè)探索;古籍?dāng)?shù)字化平臺(tái)如何在人才培養(yǎng)中發(fā)揮作用。會(huì)議認(rèn)為,隨著數(shù)字人文理念的出現(xiàn),從傳統(tǒng)古籍?dāng)?shù)據(jù)平臺(tái)到智能古籍大數(shù)據(jù)平臺(tái),從數(shù)字化古籍的傳統(tǒng)使用模式到智能化使用模式,古籍的數(shù)字化平臺(tái)不僅可以實(shí)現(xiàn)古籍的自動(dòng)???、自動(dòng)標(biāo)點(diǎn)、自動(dòng)編纂、自動(dòng)注釋、自動(dòng)索引、自動(dòng)排版等功能,還可以提供分析、挖掘、知識(shí)服務(wù)等功能。
徐永明教授作了題為“從傳統(tǒng)古籍?dāng)?shù)據(jù)平臺(tái)到智能古籍大數(shù)據(jù)平臺(tái)”的主題匯報(bào)。他首先介紹了古代文獻(xiàn)所具備的價(jià)值與當(dāng)前文獻(xiàn)正經(jīng)歷的形態(tài)轉(zhuǎn)變,然后通過分析傳統(tǒng)數(shù)字古籍平臺(tái)的功能和特點(diǎn),講述了從傳統(tǒng)數(shù)據(jù)庫到結(jié)構(gòu)化數(shù)據(jù)庫再到智慧化數(shù)據(jù)平臺(tái)的演進(jìn)路徑。傳統(tǒng)數(shù)據(jù)庫的缺點(diǎn)是缺乏后臺(tái)數(shù)據(jù)支撐、關(guān)聯(lián)功能差、不能定位、附加值低;結(jié)構(gòu)化數(shù)據(jù)庫可進(jìn)行定量數(shù)據(jù)分析、定位等,彌補(bǔ)了傳統(tǒng)數(shù)據(jù)庫的部分不足;而如今的智慧化數(shù)據(jù)和平臺(tái)以結(jié)構(gòu)化數(shù)據(jù)作為后臺(tái)支撐,能更大程度地解決先前的難點(diǎn)。徐永明教授以自己設(shè)計(jì)、建造的浙江大學(xué)“智慧古籍平臺(tái)”為例,分享了智能化古籍?dāng)?shù)字平臺(tái)的理念與實(shí)踐情況,詳盡展示了平臺(tái)的各種功能,指出智能化古籍?dāng)?shù)字平臺(tái)的“智能”表現(xiàn)在智能OCR、智能標(biāo)點(diǎn)、智能標(biāo)引、智能搜索、眾包技術(shù)、圖數(shù)據(jù)庫等方面,同時(shí)需要學(xué)者們的高度參與。他表示,古籍整理任重而道遠(yuǎn),期望智能數(shù)據(jù)平臺(tái)的建設(shè)能夠加快這一進(jìn)程。楊海崢教授在點(diǎn)評中指出,古籍?dāng)?shù)字平臺(tái)的演化給古籍整理帶來了重大變化,還帶來了思維方式和研究范疇的新變,在研究、教學(xué)的諸多方面都會(huì)產(chǎn)生深刻的影響。
王兆鵬教授分享了關(guān)于“古籍?dāng)?shù)智化的意義”的相關(guān)內(nèi)容。“數(shù)智化”即數(shù)字化和智能化的結(jié)合,這一概念具有雙重意義,即功能性提升與結(jié)構(gòu)性轉(zhuǎn)變。功能性提升意味著古籍的自動(dòng)識(shí)別、自動(dòng)標(biāo)引及自動(dòng)校注得以實(shí)現(xiàn),結(jié)構(gòu)性轉(zhuǎn)變包括學(xué)術(shù)創(chuàng)新和應(yīng)用的創(chuàng)造性轉(zhuǎn)化。學(xué)術(shù)創(chuàng)新基于知識(shí)的貫通化發(fā)展。在此之前,知識(shí)被有序地隔開,以后則會(huì)打通——打通古今、連通各地、部類貫通,從零散到聚合。大數(shù)據(jù)會(huì)帶來數(shù)據(jù)的聚類化研究,會(huì)驗(yàn)證、修正我們平常的知識(shí),還可以轉(zhuǎn)化為文創(chuàng)產(chǎn)品的開發(fā)。
歐陽劍研究館員介紹了數(shù)字人文視域下的古籍基礎(chǔ)數(shù)據(jù)應(yīng)用平臺(tái)實(shí)踐,指出人文學(xué)者的研究模式正從讀文獻(xiàn)向分析文獻(xiàn)轉(zhuǎn)變,向基于古籍大數(shù)據(jù)的多元化、整體化研究轉(zhuǎn)變。他提出了古籍文獻(xiàn)的數(shù)字人文研究應(yīng)用模式,即將描述性內(nèi)容轉(zhuǎn)變?yōu)閿?shù)據(jù),在此基礎(chǔ)上進(jìn)行研究。隨后,他分享了目前自己在古籍基礎(chǔ)數(shù)據(jù)建設(shè)、文本分析和典籍知識(shí)服務(wù)實(shí)踐等方面的工作。
洪濤總經(jīng)理首先對“籍合網(wǎng)”做了簡要介紹?!凹暇W(wǎng)”是由隸屬于中華書局的古聯(lián)公司建設(shè)和運(yùn)營的國家級古籍整理出版資源平臺(tái),于2018年上線。籍合網(wǎng)面向多類型用戶,集合了多種功能,包含專題數(shù)據(jù)庫、在線眾包整理平臺(tái)、大數(shù)據(jù)中心、自動(dòng)開發(fā)工具等諸多資源。洪濤還介紹了“籍合網(wǎng)”的古籍智能整理出版技術(shù)研發(fā)工作、出版社編輯使用的古籍整理工作平臺(tái),并展示了古籍整理數(shù)字化的工作流程。
朱厚權(quán)總經(jīng)理以“引得CBDB”平臺(tái)為例,介紹了人文書籍類學(xué)術(shù)成果轉(zhuǎn)化的探索與實(shí)踐情況。他首先介紹了“引得CBDB”項(xiàng)目的建設(shè)過程及現(xiàn)有成果,指出數(shù)字人文平臺(tái)的業(yè)態(tài)正在不斷演進(jìn)。隨后,他在總結(jié)以往經(jīng)驗(yàn)的基礎(chǔ)上,展示了自己關(guān)于目前數(shù)字人文平臺(tái)體系建設(shè)的構(gòu)想,并演示了元引科技為清華大學(xué)數(shù)字人文學(xué)院開發(fā)的“文本功能平臺(tái)”的相關(guān)功能。他特別指出,學(xué)術(shù)研究的獨(dú)創(chuàng)性與工程實(shí)踐的可復(fù)制性既相輔相成又差異顯著。
在專家討論階段,王軍教授提出,古籍文獻(xiàn)的數(shù)字化、結(jié)構(gòu)化、圖譜化,在分析過程中需要借助外部知識(shí)庫,相關(guān)版權(quán)問題如何得到解決?開放的資源庫、版權(quán)能否得到授權(quán)?是否可以開放API,平臺(tái)互聯(lián)互通?對此,專家們均發(fā)表了積極的意見,一致認(rèn)為需要形成一種良好的機(jī)制,一種學(xué)界和業(yè)界良性循環(huán)的生態(tài);需要建立平臺(tái),讓大家了解學(xué)術(shù)界的成果,也使得學(xué)術(shù)研究成果可以返回到企業(yè),從而形成日益開放、資源有效整合的良好趨勢。
信息技術(shù)與人文學(xué)科結(jié)合的展望與討論
如今,以大數(shù)據(jù)、人工智能為代表的信息技術(shù)方興未艾。那些停留在金石、竹簡和紙張上的先哲智慧也期待著能夠插上數(shù)字化的翅膀、踏上信息技術(shù)發(fā)展的高速列車,由此產(chǎn)生的古籍智能化圖像識(shí)別、句讀標(biāo)點(diǎn)、命名實(shí)體識(shí)別、數(shù)字化檢索等都將成為數(shù)字時(shí)代古籍研究領(lǐng)域的關(guān)注重點(diǎn)。本次研討會(huì)圍繞大數(shù)據(jù)、人工智能等為代表的信息技術(shù)的發(fā)展所開展的討論,必將為古籍傳承與保護(hù)等人文學(xué)科的發(fā)展提供新的方法、注入新的活力。
關(guān)于“古籍智能”系列研討會(huì)已成功舉辦兩場,接下來還將陸續(xù)舉辦歷史地理信息系統(tǒng)的建設(shè)與發(fā)展“古籍OCR技術(shù)概述與發(fā)展趨勢”“古籍目錄數(shù)據(jù)庫”“古代年表與時(shí)間本體知識(shí)庫”“古籍標(biāo)注語料庫建設(shè)”“古文自然語言處理技術(shù)”“古代歷史人物數(shù)據(jù)庫”“古籍資料庫建設(shè)”“古典文獻(xiàn)大數(shù)據(jù)分析”“智能時(shí)代古典文獻(xiàn)學(xué)教育、研究與人才培養(yǎng)”九項(xiàng)專題研討。此系列研討會(huì)由北京大學(xué)數(shù)字人文研究中心、北京大學(xué)—字節(jié)跳動(dòng)數(shù)字人文開放實(shí)驗(yàn)室、北京大學(xué)人工智能研究院主辦,全國高等院校古籍整理研究工作委員會(huì)、中國古籍保護(hù)協(xié)會(huì)古籍智能專業(yè)委員會(huì)為指導(dǎo)單位,并得到了字節(jié)跳動(dòng)公益的支持。研討會(huì)通過騰訊會(huì)議舉辦,并在 Bilibili網(wǎng)站上直播和回放。