5月18日,“漢典重光“海外古籍數(shù)字化回歸發(fā)布會在位圭I岐的中國科技館舉行。_批珍藏于加州大學伯克利分校的中文古籍善本,以數(shù)字化方式回歸故土,落戶“漢典重光古籍”平臺。借助阿里巴巴達摩院的技術,首批20萬頁古籍已完成數(shù)字化,并積累出3萬多字的古籍字典,公眾可通過漢典重光平臺(https://wenyuan.aliyun.com)翻閱、檢索、使用。
2019年,阿里巴巴公益基金會和四川大學提出“數(shù)字化回歸”設想,四川大學歷史文化學院王果副院長與該院教授、中央文史研究館館員陳力牽線搭橋,溝通北美、歐洲、日韓等地藏書機構,獲瞧國加州大學伯克利分玆持,達成共識,將伯克利東亞圖書館的中女古籍善本逐步數(shù)字化。此后,阿里巴在達摩院創(chuàng)新技術方式,將流散海外的珍貴中文古籍數(shù)字化,讓那些深鎖高閣的典籍重新回到世人眼前,讓所有人都可閱讀、調用,通過古籍與彌魘對法,與優(yōu)秀傳統(tǒng)文化對話。
目前,阿里達摩院已完成對美國加州大學伯克利分校東亞圖書館提供的首批20籍的識別。加州大學伯克利分校是美國的漢學研究重鎮(zhèn),中文藏書量排名全美第三。首批數(shù)字化的20萬頁古籍中,包含40余種珍貴宋元刻本、寫本,如宋刻本《后村居士集》、北宋寫本《金粟山大藏經(jīng)》寫本;明清至民國時期著名學者錢謙益、翁方綱、王韜的抄本、稿本;著名藏書樓嘉業(yè)堂、密韻樓的抄本,還有命運多舛的清文瀾閣《四庫全書》零本等,很多都是消失多年后重回公眾視線的珍本。
伯克利提供古籍的掃描圖片和編目數(shù)據(jù),達摩院將其全部文字化。古漢語常用字僅有幾千但中國古籍全部字符約有幾十萬,絕大部分不僅沒被現(xiàn)代字庫收錄,也幾乎找不到樣本供AI學習。面對海量無標注的數(shù)據(jù),如何讓AI快速識別古籍,始終是古籍數(shù)字化領域的技術瓶頸。
據(jù)技術人員介紹,達摩院技術團隊與四川大學專家聯(lián)手研發(fā)了一套全新的古籍識別系統(tǒng)。利用單字檢測、無監(jiān)督單字聚類、小樣本學習、主動學習等機器學習方法,構造了一套邊識別古籍、邊訓練模型的系統(tǒng),以97.5%的準確率完成20萬頁古籍的整體識別。該系統(tǒng)已能批量識別百本古籍,并積累出3萬多字的古籍字典。比起專家錄入,這套人機交互的識別系統(tǒng)將效率提升了近30倍。隨著古籍識別規(guī)模的擴增,機器還會自我進化,不斷提升準確率和效率。
因邦交、貿(mào)易、戰(zhàn)亂等,歷史上中國古籍不時流向海外。近代以來,戰(zhàn)爭和動蕩更加劇了古籍的損毀和流散。據(jù)不完全估計,散居海外的中國古籍超過40萬部、400萬冊,包括甲骨簡比、郭煤透書、宋元善本、明清精粱、拓本興圖、少數(shù)民族文獻等等。
“守護中華傳世典籍。是科技工作者和文化工作者共同的使命?!卑⒗锇桶瓦_摩擦洗長張建峰鋪露,阿里計如圖這套技術工具連同古籍數(shù)字化平臺一井捐贈,交由權威公共機構長期運營。在加州大學伯克利分校東亞圖書館的長度欣平者來,雖過數(shù)字化,讓流散海外的古籍善本和國內的讀者見畫,也是另外一種形式的“回家”。與古籍打了一輩子交通的陳力認為。典籍是中華文明的傳承載體,更是人類世界的公共財產(chǎn),希望有更多力量參與中國古籍的保護*傳承,讓更多普通人有機會授觸古籍使用古籍.讓所有蒙塵的古籍重煥新生。讓書寫在古籍里的文字活起來。