陸宇婷
流散海外八十多年后,文瀾閣本《四庫全書》中的《宋百家詩存》重現大眾視野。
在掃描影像中,這本中國古籍上的水浸、蟲噬、霉變歷歷可見,每一處都是歷史的風霜。1790年左右,《宋百家詩存》隨《四庫全書》入藏杭州文瀾閣,清咸豐年間在太平軍入杭后散失,1861年左右被嘉業(yè)堂收藏??箲?zhàn)時期,部分嘉業(yè)堂藏書流落到了上海,可能被日本人收購,并于1949年輾轉到了美國,如今藏于加州大學伯克利分校東亞圖書館。
東亞圖書館收藏了大量中國古籍善本,截至2021年5月18日,其中二十萬頁被掃描影像、讀取文字,以數字化形式回歸祖國。
這是海外古籍回歸項目“漢典重光”的成果之一。這批數字化古籍善本中既有宋元本,也有明清至民國時期著名學者的稿本、抄本,其中一些是以前很少有人見過的珍貴藏本,比如清文瀾閣本《宋百家詩存》。
古籍流散海外的原因多種多樣,實體回歸幾乎是不可能的,比較可行的辦法是數字化回歸。
此前的古籍數字化平臺,大多是展示掃描后的古籍圖片,讀者只能在這些平臺閱讀圖片,無法就書中內容進行檢索分析。此次漢典重光的數字化團隊不僅將古籍掃描,還將掃描下來的圖片識別轉化成了電子文字。搜索某一字詞,可以跳轉到字詞所在書本的具體章節(jié)段落。
這些古籍資源將向公眾免費開放。阿里達摩院院長張建鋒表示,漢典重光古籍數字化平臺將被捐贈給權威公共機構長期運營。
四川大學歷史文化學院教授陳力是漢典重光項目的古籍專家。陳力的父親是教歷史的,1977年,陳力作為恢復高考的第一屆考生,填報的所有志愿都與歷史、中文、圖書館相關,最后被省內第一志愿四川大學歷史系錄取,從此“一輩子都在做這個”,對古籍積累下一份深厚的感情。
在漢典重光項目之前,陳力已經參與過古籍數字化項目。他曾經在國家圖書館工作18年,其中一半的時間分管古籍,經手過哈佛大學燕京圖書館的一個古籍數字化回歸項目。2009年,燕京圖書館館長鄭炯文專門從美國飛到中國商量相關事宜,目錄都篩選完成了,也做完了一部分書的掃描,但項目最終因為資金、技術等沒能達到預期而擱淺。
這次未竟的合作在某種程度上成為漢典重光項目的起源。在哈佛大學訪問期間,高曉松看到了燕京圖書館的古籍數字化系統(tǒng)。高曉松創(chuàng)辦的雜書館收藏了幾十萬種民間古籍,他產生了想讓流失的古籍回歸的想法,并于2017年10月28日第一次在釘釘上和阿里達摩院秘書長劉湘雯溝通這件事。
達摩院聯系上了燕京圖書館,館長依舊很愿意配合。但哈佛大學是一所私立大學,最后拍板的是哈佛董事會,這件事被董事會否決了。
與燕京圖書館的合作中止后,達摩院團隊繼續(xù)尋找海外古籍回歸的機會。他們聯系上了四川大學歷史文化學院副院長王果,王果找到了陳力。二人很快加入團隊,給項目命名為“漢典重光”?!皾h典”指中國古籍,“重光”是陳力提出的,意為“讓蒙塵的古籍重煥新生”。
在團隊討論中,陳力重點考慮的是項目的可行性——還是得找到愿意合作的海外圖書館。陳力首先聯系的是加州大學伯克利分校東亞圖書館原館長周欣平。周欣平1998年曾到四川大學訪問,與陳力進行過古籍數據系統(tǒng)檢索功能的討論。周欣平多次提及“古籍是天下之公器,要為天下人所使用”,如今受到陳力邀約,欣然同意合作。
陳力和王果去伯克利進一步溝通,與周欣平達成共識。在資金落實之前,伯克利那邊就開始了工作,并很快提供了十萬頁的古籍掃描版。
早在十多年前,上海圖書館曾對東亞圖書館的古籍館藏做了初步整理,編好了目錄。但是目錄沒法代替古籍本身,只有看到全書的原貌才能算是真正了解這本書的歷史,比如這次的重點回歸書目之一、晚清思想家王韜的《瀛壖雜志》,字跡密密麻麻的手稿,記錄的是這位洋務運動先驅人物自1840年代末期所親歷的上海開埠初期發(fā)展史。
此前國圖與燕京圖書館的合作主要是掃描古籍、回歸影像,漢典重光團隊更進一步,從單純的掃描圖像變成了內容識別整合,使古籍真正數字化,做到閱讀清晰、查詢方便,為后續(xù)的分析研究打下基礎。
團隊的算法負責人何夢超2017年參與過古籍OCR(對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程)項目,對北京龍泉寺的十本藏經進行識別。普通的OCR識別在現代印刷文本的使用上已經達到了很高的水平,2017年何夢超參與的《大藏經》項目里也能做到97%的準確率,但放到古籍上面,準確率降到了百分之三四十。
古籍的數字化錄入,比現代印刷品的數字化錄入難得多。由于古籍本身文字狀況的特殊性,古籍數字化無法套用已有的現代漢語詞典和機器學習模型,需要團隊從頭搭建古文數據庫和古文字識別人工智能模型。
何夢超去四川大學與陳力探討,陳力提到古籍文字種類非常多,而何夢超發(fā)現,其中很多字都是重復出現的。他想到了單字識別、再聚類的數據收集方法。也就是說,把一冊古籍里的字全部切分開來單個識別,然后把形狀、筆畫類似的字放入一個類別,再讓對古文字有所了解的人對聚類進行審核——拎出不屬于這個類別的字。最后給這個類別打上標簽,也就是這一類圖片字的打印版原型。
這是一項龐大的認字工程,幾千冊古籍,每冊幾千組文字需要人工審核。人手不夠,團隊招募對古籍感興趣、有一定知識的大學生加入。
四川大學歷史文化學院2018級本科生張楚玨是第一批加入的,她想借這個機會增加自己對古籍的認識,也補充一點零花錢。
最初,機器識別、分類的單字圖片讓張楚玨感到疑惑——有的圖片里有兩個字,有的圖片里不是字而是符號。
機器“認錯字”的原因是技術團隊低估了古籍版式的復雜性?,F代印刷品有通用的規(guī)范版式,古籍的版式則多種多樣,在豎排文字中可能突然出現一些橫排文字,同樣寬度的空間,有時寫著一列大字,有時寫著兩列小字。在二十萬頁古籍里就有近百種版式,技術團隊將它們一一區(qū)分,機器識別準確率大大提高。
版式問題解決之后,進入正式的人工審核環(huán)節(jié)。古文中的字有很多講究,同一個字在不同使用情況下、不同朝代不同版本的書籍中,都可能有不同的寫法,即一個字可能有多種異體字。比如國家的“國”字,有簡體的“國”,繁體的“國”,還有“太平天囯”里沒有一點的“囯”。在分組時,一個字的每種異體字都要單獨分為一組。
分組后,在電腦上把這些古漢字打出來也是一件難事。常用輸入法一般都打不出異體字,就算有也在相當靠后的位置。加入的前兩個月里,張楚玨一直都在摸索打古文字的方法。她找到了三個能夠檢索古文字的字典網站,即便遇到不認識的字,也可以通過檢索部首找到這個字。
學生們漸漸駕輕就熟,某個期末周,團隊忽然發(fā)布了四萬字的審核任務,一位男生一人就完成了一萬字左右。
陳力在圖書館工作多年,收到過不少讀者、專家對古籍館藏的意見,其中最常見的就是關于全文檢索,即通過關鍵字詞的搜索來輔助自己的研究。紙質書時代,已經有不少這樣的工具書,國內燕京學社給古代具有代表性的文獻都編了索引,比如一個字在《尚書》里出現了多少次,都在什么地方。但這樣的工具書使用起來依然比較繁瑣。
2021年5月18日,漢典重光在中國科技館舉辦發(fā)布會,會后,包括國家圖書館、浙江圖書館、四川大學圖書館和一些私人館在內的二十多家機構向該團隊發(fā)來祝賀,并表示愿意在后續(xù)過程中與該團隊合作,將自己的館藏數字化并開放給公眾使用。
古籍的數字化最早是從美國開始的。1970年代末,美國線上電腦圖書館中心和圖書館聯盟先后推出了《朱熹大學章句索引》《王陽明傳習錄索引》《戴震原善索引》等數據庫。1980年代以后,中國臺灣、香港和大陸相繼開始了中文古籍數字化項目。
目前中國規(guī)模最大的古籍保護計劃是2007年國務院提出布置的“中華古籍保護計劃”,截至2016年,中國古籍保護網的“全國古籍普查登記基本數據庫”已累計發(fā)布涉及13個省份及中直系統(tǒng)的96家單位所藏388963部3587347冊古籍的普查數據。
計劃的又一成果“中華古籍資源庫”也于2016年在國圖上線,古籍總量超3.3萬部。但與大多古籍數字化項目一樣,“中華古籍資源庫”僅停留在掃描處理提供古籍影像的程度,在內容檢索和分析上依然困難,且提供的掃描版本總量也不及全國普查結果的十分之一。
據媒體報道,國家古籍保護中心辦公室副研究館員趙文友做過一個估算,如果將全國尚未數字化的40萬個版本的古籍全部數字化,采集、組織、加工、存儲、管理等費用大約需要60億元。而國家古籍保護中心每年用于古籍數字化工作的經費僅1000萬元,很多地方圖書館的古籍數字化經費更是捉襟見肘。
在官方組織的古籍影像保護計劃之外,國內也有商業(yè)公司對部分古籍做過數字化磁盤存儲處理,《四庫全書》早在2000年就已經有了全套電子版錄入的光盤版本,由北京書同文數字化技術有限公司研制,在國內古籍數字化進程中具有里程碑意義。然而,這套磁盤并未能解決生僻字的輸入問題,記者隨機選取的一頁,就有22個無法顯示的字。
官方項目資金容易短缺,商業(yè)公司項目又不可避免涉及盈利,各種條件的掣肘下,古籍數字化的發(fā)展一直都沒能實現飛躍。此次公益性質的漢典重光平臺,在古籍數字化上趟出了一條新路徑。
過去古文字錄入高度依賴人工,此次的古籍OCR機器學習模型的建立準確率高達97.5%,效率是人工的近30倍。然而,陳力認為目前的漢典重光平臺只走了“萬里長征第一步”,還有無數難題等待解決。“機器處理有規(guī)律的東西好辦,處理無規(guī)律的東西就不好辦,而古籍無規(guī)律的東西居多?!标惲φf。比如《瀛壖雜志》手稿,這次的模型系統(tǒng)就還沒有辦法做到自動識別。書中滿篇都是雜亂的批校,毫無規(guī)律可言,想要識別還是得進行大量人工干預。“批校的字都很草,人都不一定認得出來,更不用說機器了。古籍識別不是可以一個方法用到底的?!?/p>
技術團隊也意識到數字化的進步空間還很大,目前97.5%的準確率是基于這樣一個前提:訓練集和最終的測試數據來自同一批書。如果用目前標注出來的三萬字字庫去識別一本新的古籍,很可能達不到這個準確率。
即便達到97.5%的準確率,與國家對印刷品萬分之二的錯誤率要求相比,也相差甚遠。要提高準確率,需要優(yōu)化模型算法,更要擴充字庫容量,將更多的古文字納入這個字庫。這也是達摩院把漢典重光捐贈給社會的初衷——希望更多的人參與到系統(tǒng)的搭建之中。
“苦恨年年壓金線,為他人做嫁衣裳”,這是陳力的微信簽名,也是圖書館工作的真實寫照。2021年5月底,專家團隊和技術團隊再次碰面,商討古籍數字化的下一步。
(摘自5月27日《南方周末》。作者為該報特約撰稿人)