張旭++趙彥輝++劉樹春
摘要:本文回顧了國內(nèi)古籍?dāng)?shù)字化的現(xiàn)狀,比較了不同類型數(shù)字化的特點(diǎn),討論了中醫(yī)藥專業(yè)古籍?dāng)?shù)字化建設(shè)及本草類古籍在內(nèi)容結(jié)構(gòu)上的特殊性,分析對比了國內(nèi)常見的中醫(yī)藥專業(yè)古籍?dāng)?shù)據(jù)庫的功能特色。以《植物名實(shí)圖考》為例,開展了本草古籍?dāng)?shù)字化服務(wù)模式的新嘗試。提出將數(shù)字化古籍進(jìn)行知識點(diǎn)切割和文字識別,經(jīng)過編號、命名、標(biāo)引,形成獨(dú)立的知識單元,嵌入到基于J2EE的SSH框架的東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺,通過語義知識點(diǎn)與平臺相關(guān)聯(lián),擴(kuò)展檢索路徑和利用方式,形成專題性知識服務(wù)系統(tǒng)。在豐富平臺服務(wù)內(nèi)容的同時,擴(kuò)展古籍的利用途徑和探索古籍?dāng)?shù)字化的新模式,有助于對古籍進(jìn)行深入挖掘和利用。
關(guān)鍵詞:本草古籍;古籍?dāng)?shù)字化;資源整合;知識嵌入;知識服務(wù)
中圖分類號:G250.7 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-5707(2017)06-0005-05
Exploration and Practice of Digitization of Ancient Books about Chinese Materia Medica and Embedding Academic Resources Platform
ZHANG Xu1, ZHAO Yan-hui2, LIU Shu-chun2*
(1. College of Pharmacy, Liaoning University of Traditional Chinese Medicine, Dalian Liaoning 116600, China; 2. Library of Liaoning University of Traditional Chinese Medicine, Shenyang Liaoning 110032, China)
Abstract: This article reviewed the present condition of the digitization of ancient books in China, compared the characteristics of different types of digitization, discussed the particularity of digitization construction of professional TCM ancient books and books of Chinese materia medica in contents and organization, and compared the functional features of the common TCM professional ancient book databases in China. Taking the Zhi Wu Ming Shi Tu Kao as an example, this study conducted a new try for digitization service mode of Chinese materia medica books. It proposed semantic knowledge point cutting and character recognition for the digitized books, form an independent knowledge unit through numbering, naming and indexing, and to embed to the Platform of Northeast Local Medicinal Plant Academic Resources based on SSH framework of the Java. The expansion of the use of ancient books and exploration of the new mode of digitization of ancient books can be realized at the same time with enriching platform services, which can help deep excavation and use of ancient books.
Key words: ancient books about Chinese materia medica; digitization of ancient books; resource integration; knowledge embedding; knowledge service
基金項(xiàng)目:遼寧省教育廳優(yōu)質(zhì)資源共建共享專項(xiàng);遼寧省高等學(xué)校圖書情報(bào)工作委員會特色資源庫建設(shè)專項(xiàng)(L2016018)
第一作者:張旭,2014級中藥學(xué)專業(yè)本科在讀。E-mail: 1378950687@qq.com
*通訊作者:劉樹春,研究館員,研究方向?yàn)橹嗅t(yī)藥信息挖掘。E-mail: scliu45@sina.com
古籍是指以紙為載體抄寫或未采用現(xiàn)代印刷技術(shù)印制的書籍,而且這些書籍往往經(jīng)過百年甚至千年的保存和利用,已經(jīng)非常脆弱。為了對其實(shí)施保護(hù),同時方便開發(fā)和合理利用,最有效的方法是進(jìn)行數(shù)字化處理,實(shí)現(xiàn)古籍整理、存儲、檢索、閱讀及傳輸?shù)碾娮踊?。雖然古籍?dāng)?shù)字化相關(guān)研究與實(shí)踐探索已經(jīng)有30余年的歷史[1],但在數(shù)字化技術(shù)、采取的數(shù)字化模式、建立的服務(wù)平臺等方面還存在著參差不齊的現(xiàn)象,在對古籍的保護(hù)和利用方面還有諸多需要探索之處。本文以本草類古籍為例,對古籍?dāng)?shù)字化的路徑、技術(shù)、方法及嵌入至學(xué)術(shù)資源服務(wù)平臺的可行性進(jìn)行探討。
1 古籍?dāng)?shù)字化研究與實(shí)踐現(xiàn)狀endprint
古籍保存對溫濕度、照明、紫外線、空氣凈化、通風(fēng)、防蟲防鼠、消防安防等各種環(huán)境要求非常高,最重要的是在古籍使用過程中的人工磨損給古籍的保存和利用帶來現(xiàn)實(shí)上的矛盾。隨著計(jì)算機(jī)技術(shù)的應(yīng)用普及,自20世紀(jì)80年代初開始,在我國陸續(xù)開展了對古籍的數(shù)字化研究探索,既有助于對古籍進(jìn)行永久性保存及再生性保護(hù),以減少因環(huán)境和人為等因素造成的損失,同時還可以方便對古籍的整理、存儲、交流、傳播與利用,促進(jìn)對古籍文獻(xiàn)信息開展有效利用和深入研究。
在古籍?dāng)?shù)字化研究與實(shí)踐中,存在著不同的數(shù)字化處理方式和服務(wù)模式。除了古籍書目數(shù)字化以外,最主要的是將古籍以“文本版”或“圖像版”形式數(shù)字化,以光盤或磁盤作為存儲媒介提供瀏覽檢索服務(wù)。兩種方式在文字識別、全文檢索、存儲空間、瀏覽閱讀等方面各有優(yōu)缺點(diǎn)[2]。目前,無論是對單種古籍的數(shù)字化還是對批量古籍?dāng)?shù)字化后建立數(shù)據(jù)庫,無論是圖像庫還是文本庫,無論是光盤版或是網(wǎng)絡(luò)數(shù)據(jù)庫平臺,基本都是以圖書整體為單位提供瀏覽或檢索閱讀服務(wù),可以稱為文獻(xiàn)型數(shù)據(jù)庫。在已經(jīng)建設(shè)的古籍?dāng)?shù)字化平臺所采取的文本型、圖像型和圖文型等數(shù)字化處理類型和服務(wù)模式中,也體現(xiàn)出不同的特點(diǎn)(見表1)。
在古籍?dāng)?shù)字化過程中,除了整體數(shù)字化并提供服務(wù)外,也有學(xué)者提出了一種基于知識元的知識表示方法。通過對中醫(yī)古籍知識結(jié)構(gòu)、語義解釋方式以及語義關(guān)系的分析研究,建立中醫(yī)古籍語料庫,對古籍知識元進(jìn)行解析,實(shí)現(xiàn)基于內(nèi)容的數(shù)據(jù)庫檢索和知識關(guān)聯(lián)[3],從而在常規(guī)的古籍文獻(xiàn)型數(shù)據(jù)庫的基礎(chǔ)上,進(jìn)一步發(fā)展成為古籍知識庫。
2 專業(yè)性古籍?dāng)?shù)據(jù)庫平臺建設(shè)及本草類古籍特殊性
2.1 中醫(yī)藥古籍?dāng)?shù)據(jù)庫建設(shè)現(xiàn)狀
經(jīng)過探索與實(shí)踐,在初期的注重綜合性古籍圖像或文本數(shù)據(jù)庫建設(shè)的基礎(chǔ)上,逐步擴(kuò)展建設(shè)專業(yè)性、專題性古籍?dāng)?shù)據(jù)庫。國內(nèi)的中醫(yī)藥信息研究機(jī)構(gòu)在中醫(yī)古籍?dāng)?shù)字化方面也取得了可喜的成果,陸續(xù)建立了多個中醫(yī)藥專業(yè)性古籍文獻(xiàn)數(shù)字化服務(wù)平臺,如由中國中醫(yī)科學(xué)院開發(fā)的“中醫(yī)藥珍善本古籍多媒體數(shù)據(jù)庫”“海外回歸中醫(yī)古籍善本集粹”等。此外,國內(nèi)專業(yè)數(shù)據(jù)庫公司也相繼開發(fā)建設(shè)了多個中醫(yī)藥古籍?dāng)?shù)據(jù)庫平臺,而且這些平臺在收錄古籍?dāng)?shù)量、錄入方式、利用途徑、服務(wù)模式等方面各具特色,基本實(shí)現(xiàn)了文字識別或錄入、人工校對、全文檢索、圖文對照等功能(見表2)。
2.2 本草類古籍的內(nèi)容結(jié)構(gòu)特點(diǎn)
本草古籍是中醫(yī)典籍的重要組成部分,記載著中草藥在疾病治療、食療養(yǎng)生、美容保健等方面的應(yīng)用,凝聚著古代醫(yī)家的臨床實(shí)踐經(jīng)驗(yàn)。古籍?dāng)?shù)字化建設(shè)為本草古籍的保護(hù)和開發(fā)利用帶來新的契機(jī),為相關(guān)研究提供了更加豐富的素材。
與中醫(yī)藥其他類別的古籍相比,本草類古籍在編制結(jié)構(gòu)和內(nèi)容上具有結(jié)構(gòu)性明顯和條目化清晰等特點(diǎn)。例如《植物名實(shí)圖考》,每個植物藥均為一個完整的結(jié)構(gòu)化條目,包括:植物藥名、別名、功能主治、生長特點(diǎn)、藥用方法、用法用量及注意事項(xiàng)等,構(gòu)成了完整的知識單元。其他本草類古籍也有類似結(jié)構(gòu)。一般藥用植物的記載大都包含名稱(別名、俗名、代稱)、分類(上中下三品、來源、自然屬性、功能分類)、來源(物種、部位、生境、記載)、性味(陰陽、五行、四氣、五味、歸經(jīng)、升降、毒性)、配伍(單行、相須、相使、相畏、相殺、相惡、相反、君、臣、佐、使)、功用(功效、副作用)、主治(主證、主?。?、組方、炮制(制法、器具、炮制時間、輔料、貯藏、禁忌)、采收(時間、方式)、地域(產(chǎn)地、道地)、鑒定(色澤、氣味、形狀、質(zhì)地、辨?zhèn)?、質(zhì)量、類藥)、用法(入藥方法、服用方法、服藥時間、用量、注意事項(xiàng))、禁忌(配伍禁忌、飲食禁忌、人群禁忌)、引用(人物、論述)等知識點(diǎn)。
本草類古籍的這些特點(diǎn)有利于對知識單元的抽取并與其他相關(guān)數(shù)字資源進(jìn)行整合和相互關(guān)聯(lián),以及在全文對照和構(gòu)建多途徑檢索功能方面實(shí)現(xiàn)更為精準(zhǔn)的檢索。同時,也有利于對相關(guān)概念、屬性、功能主治的聚類和社會網(wǎng)絡(luò)分析。因此,在對本草類古籍的數(shù)字化研究探索中,有學(xué)者在構(gòu)建圖像庫的基礎(chǔ)上,進(jìn)行文字識別、解析和校對處理,進(jìn)一步構(gòu)建數(shù)字化文本庫,并實(shí)現(xiàn)對古籍的字詞頻統(tǒng)計(jì)和異體字匯聚顯示等輔助研究支持功能,建立集加工、閱讀、檢索、維護(hù)、交流為一體的本草古籍?dāng)?shù)字化信息平臺[4]。
3 本草古籍?dāng)?shù)字化服務(wù)模式的新嘗試
3.1 數(shù)字化古籍嵌入平臺的設(shè)計(jì)思想
根據(jù)過去數(shù)十年古籍?dāng)?shù)字化的經(jīng)驗(yàn)總結(jié)及本草類古籍的編制特點(diǎn),我們結(jié)合“東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺建設(shè)項(xiàng)目”,嘗試將本草類古籍?dāng)?shù)字化并嵌入平臺結(jié)構(gòu)中,整合平臺服務(wù)與古籍知識,通過古籍內(nèi)容的知識點(diǎn)與平臺相關(guān)聯(lián),形成專題性知識服務(wù)系統(tǒng),從原來的古籍文獻(xiàn)服務(wù)向古籍知識服務(wù)的轉(zhuǎn)化,有助于對古籍文獻(xiàn)的知識挖掘與利用。本研究以在歷代本草著作中收載植物數(shù)量最多的清代古籍《植物名實(shí)圖考》為例,對其數(shù)字化過程和平臺嵌入方法進(jìn)行探索嘗試。
3.2 制定圖像掃描原則并實(shí)施
根據(jù)掃描設(shè)備狀況及古籍?dāng)?shù)字化平臺的需要,制定詳細(xì)的古籍圖像掃描規(guī)則,以及圖片編號、文件夾命名、工作量計(jì)算、任務(wù)分工等方法細(xì)則。并根據(jù)選擇的書目和版本,有計(jì)劃地進(jìn)行古籍圖像掃描和系統(tǒng)編號。
3.3 圖像處理及知識單元抽取
為了便于數(shù)字化平臺對古籍的識別和應(yīng)用,根據(jù)平臺的要求,對掃描的圖像進(jìn)行色彩轉(zhuǎn)換、去噪、傾斜度校正等處理。根據(jù)《植物名實(shí)圖考》內(nèi)容編制結(jié)構(gòu)和知識點(diǎn)進(jìn)行圖片切割、文字識別和人工校對,并分別進(jìn)行編號、命名、標(biāo)引,形成獨(dú)立的圖像和文本格式的知識單元,上傳服務(wù)器。
3.4 嵌入學(xué)術(shù)資源平臺
平臺建設(shè)的總思路是參照已有的中醫(yī)古籍?dāng)?shù)字化建設(shè)成果并結(jié)合東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺現(xiàn)已開發(fā)運(yùn)用的狀況,基于J2EE(Java2平臺企業(yè)版)的SSH框架(struts+spring+hibernate的集成框架)予以實(shí)施。平臺設(shè)計(jì)對古籍內(nèi)容提供圖像和文本格式兩種顯示界面。將本草古籍的知識單元內(nèi)容通過超文本鏈接嵌入到平臺藥用植物的相應(yīng)條目中,并借助平臺的多種檢索途徑實(shí)現(xiàn)對本草類古籍知識的靈活利用。endprint
4 學(xué)術(shù)資源平臺的框架與模塊功能設(shè)計(jì)
4.1 平臺的界面設(shè)計(jì)
在東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺系統(tǒng)框架的基礎(chǔ)上,對平臺系統(tǒng)和子系統(tǒng)進(jìn)行重新設(shè)計(jì)和擴(kuò)充,增加古籍全文圖片和文字對照瀏覽頁面;增加藥用植物參考文獻(xiàn)出處,通過超鏈接與古籍知識單元圖像相關(guān)聯(lián);增加后臺文獻(xiàn)著錄、全文提交和語義標(biāo)注等管理頁面。
SSH框架屬于輕量級應(yīng)用型框架,在實(shí)際應(yīng)用中注重軟件設(shè)計(jì)的可復(fù)用性和系統(tǒng)的可擴(kuò)展性,應(yīng)用廣泛,從邏輯層面上分為用戶界面層、業(yè)務(wù)處理層和數(shù)據(jù)存儲層。用戶界面層分為前臺用戶界面和后臺管理員界面,是進(jìn)入學(xué)術(shù)資源平臺的窗口。前臺用戶界面包括檢索服務(wù)和類目導(dǎo)航,提供系統(tǒng)登錄、密碼修改、系統(tǒng)退出等。后臺管理員界面包括藥用植物增刪改查、文獻(xiàn)題錄管理、全文語義標(biāo)注及用戶管理等頁面。業(yè)務(wù)處理層是數(shù)字化系統(tǒng)框架體現(xiàn)核心價值的部分,處于用戶界面層和數(shù)據(jù)存儲層之間,可起到數(shù)據(jù)交換承上啟下的作用[5]。根據(jù)用戶界面層發(fā)出的請求,在數(shù)據(jù)存儲層獲取相關(guān)數(shù)據(jù)傳送給用戶界面層。數(shù)據(jù)存儲層中儲存了整理后的所有數(shù)據(jù)資料,在保證安全性和完整性的前提下實(shí)現(xiàn)對數(shù)據(jù)庫的維護(hù)和管理。
4.2 平臺的模塊設(shè)計(jì)
根據(jù)學(xué)術(shù)資源平臺的功能需求,將系統(tǒng)分為藥用植物管理、古籍書目管理、古籍知識元管理、用戶及系統(tǒng)管理等4個模塊。其中古籍書目管理和古籍知識元管理2個模塊最為核心,內(nèi)含文獻(xiàn)著錄信息、古籍原文圖像和平臺原有的按科屬分類的藥用植物資料。對系統(tǒng)進(jìn)行模塊設(shè)計(jì),不僅使古籍?dāng)?shù)字化加工更為高效、方便,還使用戶可以在任意時間和地點(diǎn)通過網(wǎng)絡(luò)訪問系統(tǒng)平臺,實(shí)現(xiàn)真正意義上的資源共享。
4.3 平臺的功能設(shè)計(jì)
東北地產(chǎn)藥用植物學(xué)術(shù)資源平臺原有的設(shè)計(jì)功能為提供按科、屬分類的藥用植物瀏覽方式。在此基礎(chǔ)上,結(jié)合本草古籍的內(nèi)容對其功能進(jìn)行調(diào)整和擴(kuò)充,在平臺的主界面提供按現(xiàn)代科屬分類、按藥用植物名或拉丁名瀏覽及利用關(guān)鍵詞等多途徑的全文檢索功能。
現(xiàn)代科屬分類瀏覽功能即原有的檢索方式,可以在菜單中根據(jù)植物的類型、科屬種進(jìn)行瀏覽,查找所需要的植物,進(jìn)而找到該植物的鑒別特征、入藥部位等文字信息及圖片信息。
本草古籍檢索功能則分為2種途徑。一是在本草古籍元數(shù)據(jù)錄入時,將古籍中所論述的植物的屬性和性狀進(jìn)行標(biāo)引,以實(shí)現(xiàn)在菜單中根據(jù)植物的性狀和屬性在本草古籍原文中找到對應(yīng)的相關(guān)描述;二是將古籍中的植物按科分類整理并進(jìn)行標(biāo)引,可以實(shí)現(xiàn)利用植物所屬的科在菜單中進(jìn)行搜索。
5 古籍?dāng)?shù)字化并嵌入學(xué)術(shù)資源平臺帶來的啟示
數(shù)字化古籍嵌入學(xué)術(shù)資源平臺實(shí)現(xiàn)學(xué)術(shù)資源與圖書文獻(xiàn)知識單元的整合,最關(guān)鍵的步驟是元數(shù)據(jù)的錄入。元數(shù)據(jù)是古籍?dāng)?shù)字化的基礎(chǔ),是數(shù)據(jù)共享的主要接口。從目前本草古籍?dāng)?shù)字化的實(shí)踐來看,其應(yīng)用范圍窄、規(guī)模相對較小的原因在于本草古籍知識的元數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一。國際標(biāo)準(zhǔn)化組織2014年6月發(fā)布了《中醫(yī)藥學(xué)語言系統(tǒng)語義網(wǎng)絡(luò)框架》(ISO/TS 17938)和《中醫(yī)藥文獻(xiàn)元數(shù)據(jù)》(ISO/TS 17948)國際標(biāo)準(zhǔn),為本草古籍?dāng)?shù)字化內(nèi)容的語義標(biāo)引奠定了基礎(chǔ)。
在元數(shù)據(jù)錄入過程中要根據(jù)本草古籍的編制特點(diǎn),盡可能涵蓋古籍的完整信息。一是版本信息。很多古籍會因重刻、重印或被后世校注、點(diǎn)校等原因,造成出版社、出版時間、編著者等發(fā)生變化的問題。因此要仔細(xì)考證并標(biāo)明版本類型、年代、版式特征及其出版、編著信息(字、號、朝代、生卒、籍貫)等。二是本草古籍的分類信息。同種古籍在不同的文獻(xiàn)收藏單位也難以實(shí)現(xiàn)統(tǒng)一的歸屬類目。劉培生等[6]研制的《中醫(yī)古籍分類表》在古籍分類中可以作為統(tǒng)一分類參考。三是本草古籍定級信息。對古籍所屬的朝代、版刻形式、內(nèi)容、存世價值等珍貴程度進(jìn)行鑒定及等級評定。
同時,數(shù)字化古籍嵌入學(xué)術(shù)平臺還要確保平臺系統(tǒng)的安全性、數(shù)據(jù)的完整性以及平臺操作的兼容性,確保用戶在使用過程中安全、方便、高效。
6 小結(jié)
本草古籍?dāng)?shù)字化不僅是載體類型的改變,更重要的是古籍利用方式和利用深度的改變,對古籍的開發(fā)與利用有很大的促進(jìn)作用。將數(shù)字化本草古籍與藥用植物學(xué)術(shù)資源平臺相整合,為進(jìn)一步開發(fā)本草古籍的學(xué)術(shù)價值開辟了空間,具有可行性。但是,由于受到本草知識表示、存儲,及軟件、硬件環(huán)境、信息技術(shù)手段等多因素限制,使中醫(yī)藥相關(guān)知識達(dá)到全面一致的理解和共享還存在著一定的局限性,還需要更進(jìn)一步的研究和探討。
參考文獻(xiàn)
[1] 龔婭君,劉春金.中文古籍?dāng)?shù)字化建設(shè)[J].浙江大學(xué)學(xué)報(bào)(人文社會科學(xué)版),2006(4):174-176.
[2] 吉聰.中醫(yī)古籍?dāng)?shù)字化建設(shè)問題探討[J].長春中醫(yī)學(xué)院學(xué)報(bào),2004, 20(3):64-65.
[3] 柳長華.基于知識元的中醫(yī)古籍計(jì)算機(jī)知識表示方法//中國中醫(yī)科學(xué)院,世界中醫(yī)藥學(xué)會聯(lián)合會.第三屆國際傳統(tǒng)醫(yī)藥大會文集[C].中國中醫(yī)科學(xué)院,世界中醫(yī)藥學(xué)會聯(lián)合會,2004:47.
[4] 裴麗,曹霞,張宏偉.本草古籍?dāng)?shù)字化信息平臺現(xiàn)狀與實(shí)踐[J].中醫(yī)藥學(xué)報(bào),2013,41(4):30-33.
[5] 曹霞,常存庫,裴麗.中醫(yī)古籍?dāng)?shù)字化建設(shè)及其平臺設(shè)計(jì)和實(shí)現(xiàn)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2016,25(3):45-47,53.
[6] 劉培生,張偉娜,李鴻濤,等.《中醫(yī)古籍分類表》的研制及應(yīng)用[J].中國中醫(yī)藥圖書情報(bào)雜志,2017,41(2):52-54.
(收稿日期:2017-08-04)
(修回日期:2017-09-18;編輯:魏民)endprint