周樹斌 周宇婷 施州州 李永卉,2
(1. 江蘇大學(xué)科技信息研究所 鎮(zhèn)江 212013;2. 江蘇大學(xué)圖書館 鎮(zhèn)江 212013)
古籍作為中華文化傳承的重要載體之一,其價(jià)值日漸受到重視,作為中華古籍資源重要組成部分的中醫(yī)古籍,是我國(guó)重要的文化資源,也是中華文明貢獻(xiàn)給世界醫(yī)學(xué)界的璀璨明珠。中醫(yī)古籍是中醫(yī)理論知識(shí)的來源[1],是中醫(yī)傳承中不可或缺的載體。雖然國(guó)內(nèi)古籍?dāng)?shù)字化的研究與實(shí)踐早在上世紀(jì)七八十年代就已經(jīng)開始[2],取得了一定的成就,也推進(jìn)了傳統(tǒng)中醫(yī)古籍的整理與研究。但是近年來,人們對(duì)中醫(yī)古籍文獻(xiàn)資源的加工、組織與服務(wù)深度的需求加強(qiáng),對(duì)知識(shí)本體數(shù)字化保存和應(yīng)用的要求越來越高。在文化與科技融合被高度提倡的當(dāng)下,用文化引領(lǐng)科技發(fā)展,用科技賦能文化前進(jìn)已然是大勢(shì)所趨,大數(shù)據(jù)等新興科學(xué)技術(shù)手段的廣泛應(yīng)用,為中醫(yī)古籍文獻(xiàn)的知識(shí)挖掘和研究提供了便捷可靠的工具支撐。準(zhǔn)確把握中醫(yī)古籍?dāng)?shù)字化的現(xiàn)狀和發(fā)展趨勢(shì),對(duì)中醫(yī)學(xué)、中藥學(xué)及古籍?dāng)?shù)字化研究都有一定的價(jià)值。為理清該領(lǐng)域的發(fā)展現(xiàn)狀,本文基于文獻(xiàn)計(jì)量學(xué)理論,結(jié)合共詞分析方法、聚類分析方法以及知識(shí)圖譜方法對(duì)中國(guó)知網(wǎng)(CNKI)中醫(yī)古籍?dāng)?shù)字化相關(guān)文獻(xiàn)進(jìn)行可視化分析,定量把握當(dāng)前數(shù)字人文環(huán)境下,國(guó)內(nèi)中醫(yī)古籍?dāng)?shù)字化的研究現(xiàn)狀和熱點(diǎn)問題,并就今后的發(fā)展作出展望,以期從定性的層面為相關(guān)領(lǐng)域研究提供參考。
以CNKI 的中國(guó)學(xué)術(shù)期刊(網(wǎng)絡(luò)版)全文數(shù)據(jù)庫(kù)為數(shù)據(jù)來源,對(duì)中醫(yī)古籍?dāng)?shù)字化相關(guān)論文進(jìn)行檢索。以SU=“中醫(yī)古籍”*(“數(shù)據(jù)庫(kù)“+”數(shù)字化“+”數(shù)據(jù)”)為檢索式進(jìn)行專業(yè)檢索,截止2019年11月29日共檢得301 條結(jié)果,其中存在一定數(shù)量的無關(guān)文獻(xiàn)。為保證數(shù)據(jù)的真實(shí)與可靠性對(duì)檢索結(jié)果進(jìn)行逐條瀏覽篩選以進(jìn)行去重和剔除各類無關(guān)條目,最終得到246 篇論文作為可靠的數(shù)據(jù)來源文獻(xiàn)。
本研究主要采用共詞分析[3]、聚類分析[4]、知識(shí)圖譜[5]等方法,對(duì)關(guān)鍵詞與發(fā)文機(jī)構(gòu)進(jìn)行分析,從而把握當(dāng)前國(guó)內(nèi)中醫(yī)古籍?dāng)?shù)字化研究現(xiàn)狀與熱點(diǎn)。首先,對(duì)來源文獻(xiàn)的關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析,包括借助文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具軟件SATI3.2、統(tǒng)計(jì)分析軟件SPSS 并輔以人工的手段來實(shí)現(xiàn)提取高頻關(guān)鍵詞進(jìn)行共詞分析和聚類分析,借助科學(xué)知識(shí)圖譜繪制工具VOS viewer 對(duì)總體關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)可視化分析和聚類密度分析,將總體關(guān)鍵詞統(tǒng)計(jì)分析得出的結(jié)果與提取分析高頻關(guān)鍵詞所得結(jié)果進(jìn)行對(duì)比印證;其次,通過可視化文獻(xiàn)分析軟件Citespace 可視化的方法對(duì)研究機(jī)構(gòu)進(jìn)行分析,借助地理信息系統(tǒng)軟件QGIS3.6 對(duì)發(fā)文機(jī)構(gòu)的地理信息進(jìn)行可視化分析。通過多種方法和軟件的結(jié)合,多維度全方位的以定量的方法對(duì)當(dāng)前國(guó)內(nèi)中醫(yī)古籍?dāng)?shù)字化領(lǐng)域的研究現(xiàn)狀進(jìn)行呈現(xiàn),最終從定性的角度進(jìn)行分析并作出展望。
3.1.1 高頻關(guān)鍵詞預(yù)處理 使用SATI3.2 對(duì)確定的246 篇論文的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),共計(jì)關(guān)鍵詞507 個(gè),累計(jì)詞頻為986 次。中醫(yī)古籍?dāng)?shù)字化研究領(lǐng)域尚處發(fā)展階段,還未成熟,故數(shù)據(jù)量較小,根據(jù)Donohue 高低頻詞分界公式不能夠很好的選取本研究領(lǐng)域的高頻關(guān)鍵詞[6],本文采用孫清蘭研究的高頻低頻詞分界標(biāo)準(zhǔn)N=(D 是指不同的關(guān)鍵詞個(gè)數(shù))[7],來篩選高頻關(guān)鍵詞。D為507,代入公式后N 約等于23,故可取約23 個(gè)關(guān)鍵詞作為高頻關(guān)鍵詞。由于統(tǒng)計(jì)樣本較小,將頻次大于等于2 的關(guān)鍵詞設(shè)為選詞范圍。對(duì)關(guān)鍵詞進(jìn)行處理,刪除與研究熱點(diǎn)不相關(guān)的詞,如“發(fā)展、趨勢(shì)、述評(píng)、應(yīng)用”等,同時(shí)對(duì)近義詞進(jìn)行合并整理,最終確定詞頻大于5 的24 個(gè)規(guī)范高頻關(guān)鍵詞。這24 個(gè)規(guī)范關(guān)鍵詞詞頻總和為507占總詞頻的50.4%,超過知識(shí)圖譜繪制規(guī)定的27%,滿足統(tǒng)計(jì)分析的標(biāo)準(zhǔn),表1為高頻關(guān)鍵詞和詞頻[8]。
表1 高頻關(guān)鍵詞
3.1.2 高頻關(guān)鍵詞相異矩陣 對(duì)上述規(guī)范化的高頻關(guān)鍵詞進(jìn)行統(tǒng)計(jì),使用SATI3.2 可直接生成共現(xiàn)矩陣、相似矩陣、相異矩陣等多種形式的關(guān)鍵詞矩陣。為保證研究的嚴(yán)謹(jǐn)性與科學(xué)性,方便后續(xù)統(tǒng)計(jì),使用SATI3.2 構(gòu)建24*24 的高頻關(guān)鍵詞相異矩陣(表2)進(jìn)行分析。相異矩陣中高頻詞交叉線的數(shù)值越大,說明高頻詞之間的關(guān)聯(lián)性越小,反之關(guān)聯(lián)性則越大[9]。
表2 高頻關(guān)鍵詞相異矩陣(部分)
聚類分析方法主要是對(duì)多變量(關(guān)鍵詞)進(jìn)行分類,在沒有先驗(yàn)知識(shí)的基礎(chǔ)上,以變量間關(guān)系遠(yuǎn)近為標(biāo)準(zhǔn),得出分類結(jié)果[10]。將獲得的相異矩陣導(dǎo)入SPSS,在“系統(tǒng)聚類”中選擇“Ward 法”和“Euclidean 距離”,通過聚類分析高頻關(guān)鍵詞得到樹狀圖如圖1所示。對(duì)圖1的聚類結(jié)果進(jìn)行細(xì)粒度的劃分,除去“中醫(yī)古籍”及“古籍?dāng)?shù)字化”兩個(gè)關(guān)鍵詞所代表的主體研究領(lǐng)域外,將其余22 個(gè)關(guān)鍵詞聚類后分為五個(gè)類團(tuán),第一類團(tuán)包含:圖書館、古籍保護(hù);第二類團(tuán)包含:地方醫(yī)籍、數(shù)字化技術(shù);第三類團(tuán)包含:本體、詞表、知識(shí)服務(wù)、中醫(yī)、知識(shí)庫(kù);第四類團(tuán)包含:數(shù)據(jù)挖掘、醫(yī)案;余下部分為第五類團(tuán),由于其關(guān)鍵詞較多,將其進(jìn)一步細(xì)分為四個(gè)子類團(tuán),分別為:(1)古籍整理、利用;(2)古籍?dāng)?shù)據(jù)庫(kù)、黃帝內(nèi)經(jīng)、中醫(yī)文獻(xiàn)、檢索;(3)癥候、證治規(guī)律;(4)數(shù)字化建設(shè)、中醫(yī)信息、元數(shù)據(jù)。通過對(duì)五個(gè)類團(tuán)關(guān)鍵詞內(nèi)在屬性的把握將五個(gè)類團(tuán)依次概括為圖書館與古籍保護(hù)研究、地方醫(yī)籍與數(shù)字化技術(shù)研究、中醫(yī)古籍?dāng)?shù)字化領(lǐng)域本體與知識(shí)服務(wù)研究、中醫(yī)醫(yī)案的數(shù)據(jù)挖掘研究、中醫(yī)古籍整理與數(shù)據(jù)庫(kù)構(gòu)建研究(包括古籍整理與利用研究、中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)建設(shè)研究、癥候與治證規(guī)律研究和元數(shù)據(jù)方法研究)。
圖1 中醫(yī)古籍?dāng)?shù)字化領(lǐng)域研究高頻關(guān)鍵詞聚類分析樹狀圖
前兩節(jié)主要是基于高頻關(guān)鍵詞的分析來把握中醫(yī)古籍?dāng)?shù)字化的研究熱點(diǎn)脈絡(luò),本節(jié)則從全局出發(fā)通過對(duì)246 篇文獻(xiàn)的總體關(guān)鍵詞進(jìn)行分析,以更全面的角度把握研究熱點(diǎn)和現(xiàn)狀,與共詞分析和聚類分析得出的結(jié)果相印證,提高研究結(jié)果的準(zhǔn)確性和可信度。利用科學(xué)知識(shí)圖譜繪制工具VOS viewer 構(gòu)建知識(shí)圖譜,VOS viewer 以色彩差異性來表示各聚類的重要性差異,以密度視圖來揭示學(xué)科領(lǐng)域研究的重點(diǎn)與熱點(diǎn)。在關(guān)鍵詞共現(xiàn)圖中,節(jié)點(diǎn)被分為不同聚類族,各節(jié)點(diǎn)顏色和其所屬聚類族一致,這樣就可以快速地發(fā)現(xiàn)和觀察各聚類族[11]。通過VOS viewer 的關(guān)鍵詞密度視圖可直觀地反映各高頻詞間的共現(xiàn)頻次密度,若兩個(gè)關(guān)鍵詞共現(xiàn)頻次越高,其聯(lián)系則越緊密,相關(guān)性更高,這樣具有高度相關(guān)性的高頻詞就被聚合起來,從而形成一個(gè)類團(tuán)。在關(guān)鍵詞密度視圖里,各節(jié)點(diǎn)大小表示兩關(guān)鍵詞間的耦合強(qiáng)度,節(jié)點(diǎn)間距反映對(duì)象間的相似度,節(jié)點(diǎn)間距越小說明相似度越高,反之相似性越低[12]。
通過VOS viewer 對(duì)中醫(yī)古籍?dāng)?shù)字化領(lǐng)域關(guān)鍵詞進(jìn)行統(tǒng)計(jì)和聚類分析,設(shè)定共現(xiàn)關(guān)系強(qiáng)度規(guī)范化方式為L(zhǎng)inLog/modularity,分辨參數(shù)、聚類成員最少數(shù)目分別為1 和5,形成中醫(yī)古籍?dāng)?shù)字化領(lǐng)域關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)可視化圖譜和關(guān)鍵詞共現(xiàn)聚類密度可視化圖譜如圖2所示。從圖譜中可以看到,以“中醫(yī)古籍”和“古籍?dāng)?shù)字化”即以“中醫(yī)古籍?dāng)?shù)字化”為核心形成了多個(gè)重要的研究方向,通過歸納發(fā)現(xiàn)其中中醫(yī)古籍?dāng)?shù)字化建設(shè)、中醫(yī)文獻(xiàn)元數(shù)據(jù)標(biāo)引與檢索、中醫(yī)領(lǐng)域本體及中醫(yī)古籍知識(shí)庫(kù)和知識(shí)服務(wù)、中醫(yī)信息的數(shù)據(jù)管理和數(shù)據(jù)檢索、醫(yī)案數(shù)據(jù)挖掘、地方及特色中醫(yī)典籍的數(shù)字化、圖書館和古籍保護(hù)等研究區(qū)域較為矚目,同時(shí),各研究方向也各自形成了相關(guān)性的研究熱點(diǎn),這與3.2 的分析結(jié)果基本吻合,這些研究熱點(diǎn)共同深化了對(duì)中醫(yī)古籍?dāng)?shù)字化領(lǐng)域的相關(guān)研究,推進(jìn)了國(guó)內(nèi)中醫(yī)古籍?dāng)?shù)字化領(lǐng)域研究基本范式格局的形成。
圖2 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)及聚類密度知識(shí)圖譜
通過分析文獻(xiàn)作者的所屬機(jī)構(gòu),可了解國(guó)內(nèi)中醫(yī)古籍?dāng)?shù)字化領(lǐng)域研究的核心機(jī)構(gòu)[13]。使用Citespace 進(jìn)行分析,得到國(guó)內(nèi)中醫(yī)古籍?dāng)?shù)字化研究的核心機(jī)構(gòu)如圖3所示。通過對(duì)圖3進(jìn)行分析可以看出,中國(guó)中醫(yī)科學(xué)院是最主要的研究機(jī)構(gòu),其下屬機(jī)構(gòu)中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所在整個(gè)核心機(jī)構(gòu)中占據(jù)主導(dǎo),中國(guó)中醫(yī)科學(xué)院中醫(yī)醫(yī)史文獻(xiàn)研究所也很突出。此外,國(guó)內(nèi)中醫(yī)藥院校的圖書館或研究所等圖書情報(bào)機(jī)構(gòu)也是領(lǐng)域內(nèi)主要的研究機(jī)構(gòu),其中南京中醫(yī)藥大學(xué)圖書館表現(xiàn)最為突出。通過分析核心機(jī)構(gòu)間的合作,可發(fā)現(xiàn)各機(jī)構(gòu)的合作目前仍停留在地緣性的合作范疇之內(nèi),這說明領(lǐng)域內(nèi)的研究相對(duì)缺乏合作,研究相對(duì)比較分散。
圖3 核心機(jī)構(gòu)共現(xiàn)網(wǎng)絡(luò)圖
對(duì)每篇論文的發(fā)文機(jī)構(gòu)進(jìn)行定位并統(tǒng)計(jì)其地理經(jīng)緯度坐標(biāo),將地理數(shù)據(jù)導(dǎo)入QGIS3.6 中進(jìn)行地理信息可視化展示如圖4所示,左圖為研究機(jī)構(gòu)分布圖,右圖為相應(yīng)的熱力圖。通過圖4左圖可以較為直觀觀察在全國(guó)范圍內(nèi)各地區(qū)機(jī)構(gòu)在中醫(yī)古籍?dāng)?shù)字化領(lǐng)域的發(fā)文情況,不難看出,相關(guān)研究機(jī)構(gòu)多是集中在東部地圖,西部地區(qū)明顯遠(yuǎn)遠(yuǎn)落后于東部地區(qū),而東部地區(qū)經(jīng)濟(jì)發(fā)展水平明顯優(yōu)于西部地區(qū),因此在一定程度上可以認(rèn)為地區(qū)研究能力與地區(qū)經(jīng)濟(jì)發(fā)展水平是相適應(yīng)的。以發(fā)文數(shù)量作為熱力的計(jì)算依據(jù),通過圖4右側(cè)的熱力圖可以更為直觀地看出,北京及江蘇地區(qū)是最主要的研究區(qū)域,其中北京地區(qū)是最重要的核心地區(qū),這是因?yàn)轭I(lǐng)域內(nèi)的主導(dǎo)機(jī)構(gòu)中國(guó)中醫(yī)科學(xué)院位于北京,具有其它地區(qū)所不能比擬的發(fā)文量達(dá)上百篇,而排名第二的江蘇地區(qū)僅40 篇。
圖4 研究機(jī)構(gòu)地區(qū)分布和熱力圖
中醫(yī)古籍?dāng)?shù)字化研究應(yīng)聚焦中醫(yī)古籍資源本身。中醫(yī)古籍?dāng)?shù)字化所面向的古籍資源,從內(nèi)容上來看,包含了本草醫(yī)藥古籍、養(yǎng)生古籍、中醫(yī)食療古籍、氣功古籍、古天文醫(yī)學(xué)古籍、以及針灸古籍等多種內(nèi)容形式的中醫(yī)古籍;除傳統(tǒng)漢醫(yī)古籍外,還囊括了各少數(shù)民族醫(yī)藥古籍,如藏醫(yī)古籍、回醫(yī)古籍、云南少數(shù)民族醫(yī)藥古籍、傣醫(yī)古籍、維吾爾族醫(yī)藥古籍、蒙醫(yī)藥古籍、貴州民族古籍等;同時(shí)兼具地方中醫(yī)古籍研究特色,如巴蜀地區(qū)醫(yī)學(xué)古籍、新安醫(yī)學(xué)古籍、嶺南醫(yī)學(xué)古籍、河?xùn)|醫(yī)學(xué)古籍、漢喃醫(yī)學(xué)古籍等。中醫(yī)古籍種類繁多,內(nèi)涵豐富,尤其地區(qū)醫(yī)籍,當(dāng)前西部地區(qū)的中醫(yī)古籍發(fā)掘潛力巨大,對(duì)中醫(yī)古籍資源本身進(jìn)行細(xì)粒度的研究必然會(huì)成為當(dāng)前的研究熱點(diǎn)。
鑒于中醫(yī)古籍資源的豐富性、多樣性,制定統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)十分必要。人們要對(duì)海量的古籍文獻(xiàn)數(shù)據(jù)進(jìn)行分析、判別與選取,良好的數(shù)據(jù)規(guī)范是人們可以充分利用數(shù)據(jù)的前提,建立中醫(yī)古籍?dāng)?shù)字化產(chǎn)品質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)、文本格式標(biāo)準(zhǔn)和元數(shù)據(jù)規(guī)范在中醫(yī)古籍?dāng)?shù)字化領(lǐng)域的重要性也就不言而喻。如何對(duì)元數(shù)據(jù)進(jìn)行標(biāo)引決定了如何對(duì)其進(jìn)行檢索和利用,越來越多的研究者開始關(guān)注文獻(xiàn)元數(shù)據(jù)標(biāo)引與著錄規(guī)則如何適應(yīng)數(shù)字化發(fā)展問題[14],如丁侃等探討了中醫(yī)古籍圖像標(biāo)引的基本方案,分析探討了古籍信息、版本信息和圖像本體三種元數(shù)據(jù)[15];趙陽等探討了中醫(yī)文獻(xiàn)元數(shù)據(jù)的設(shè)計(jì)前提,對(duì)中醫(yī)藥文獻(xiàn)元數(shù)據(jù)的著錄對(duì)象進(jìn)行界定并對(duì)中醫(yī)文獻(xiàn)元數(shù)據(jù)的必要性進(jìn)行了分析[16];劉梨等對(duì)中醫(yī)古籍四大經(jīng)典中醫(yī)護(hù)理文獻(xiàn)進(jìn)行了整理并建立了相應(yīng)的數(shù)據(jù)庫(kù)平臺(tái)[17]。
近年來,本體建模、資源描述框架RDF 等語義網(wǎng)技術(shù)的研究形成了熱潮[18],這些技術(shù)方法可以從知識(shí)層面對(duì)中醫(yī)古籍資源進(jìn)行有效地組織,為該領(lǐng)域內(nèi)的知識(shí)組織提供強(qiáng)有力的工具支撐。當(dāng)前中醫(yī)古籍的知識(shí)組織研究多是嘗試構(gòu)建領(lǐng)域本體,進(jìn)行中醫(yī)古籍?dāng)?shù)字資源語義關(guān)聯(lián)方面的探索,如丁侃等提出構(gòu)建中醫(yī)文獻(xiàn)與人物本體,將中醫(yī)學(xué)術(shù)傳承的脈絡(luò)方案進(jìn)行關(guān)聯(lián),利用本體對(duì)異構(gòu)中醫(yī)藥古籍資源的元數(shù)據(jù)方案統(tǒng)一進(jìn)行語義化處理,實(shí)現(xiàn)平臺(tái)間的資源聚合[19];李明等使用領(lǐng)域本體進(jìn)行中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)的語義擴(kuò)展,從而提高中醫(yī)古籍文獻(xiàn)查全率和查準(zhǔn)率[20]。這些研究在一定程度上填補(bǔ)了國(guó)內(nèi)中醫(yī)古籍本體構(gòu)建和語義關(guān)聯(lián)研究的空白,拓展了領(lǐng)域內(nèi)的研究方法,具有一定的現(xiàn)實(shí)意義。
利用數(shù)據(jù)挖掘技術(shù)對(duì)中醫(yī)古籍的價(jià)值可以進(jìn)行充分揭示。隨著大數(shù)據(jù)技術(shù)的日漸成熟和廣泛應(yīng)用,傳統(tǒng)的計(jì)算機(jī)技術(shù),如數(shù)據(jù)挖掘技術(shù)等在人文科學(xué)研究領(lǐng)域得到了比較廣泛的應(yīng)用。一方面,數(shù)據(jù)挖掘技術(shù)為中醫(yī)古籍的內(nèi)容挖掘提供了方法上的拓展和創(chuàng)新,還可以從海量的數(shù)據(jù)中發(fā)掘蘊(yùn)含的規(guī)律和模式。另一方面,數(shù)據(jù)挖掘技術(shù)本身也伴隨著大數(shù)據(jù)技術(shù)如機(jī)器學(xué)習(xí)等技術(shù)的發(fā)展不斷延伸進(jìn)步,相關(guān)算法日漸成熟。目前相關(guān)研究主要包括通過數(shù)據(jù)挖掘技術(shù)分析中醫(yī)古籍文獻(xiàn)中的用藥規(guī)律、對(duì)病名源流進(jìn)行考辨、研究藥方組配等。例如,雷亞玲等通過建立古籍文獻(xiàn)及名老中醫(yī)郁病診治數(shù)據(jù)庫(kù),運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)古籍文獻(xiàn)及名老中醫(yī)經(jīng)驗(yàn)的郁病用藥規(guī)律進(jìn)行挖掘和分析[21];邢益濤使用數(shù)據(jù)挖掘技術(shù)對(duì)中醫(yī)古籍的不育癥病名源流進(jìn)行考辨[22];譚子虎等通過對(duì)中醫(yī)古籍的數(shù)據(jù)挖掘進(jìn)行了對(duì)痙病病名源流的考辨[23];陳茲滿等運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)中醫(yī)古籍眼科點(diǎn)眼方劑的用藥規(guī)律進(jìn)行了分析[24];陳廣坤等基于對(duì)中醫(yī)古籍方劑的數(shù)據(jù)挖掘進(jìn)行了養(yǎng)發(fā)育發(fā)藥物組配研究[25]。
中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)是中醫(yī)古籍在數(shù)字時(shí)代的重要載體,也是當(dāng)代使用中醫(yī)古籍的重要途徑,已取得一定的成績(jī)[26]。當(dāng)前國(guó)內(nèi)中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)的規(guī)模種類已較為豐富,有綜合數(shù)據(jù)庫(kù)如中國(guó)基本古籍庫(kù)、龍語翰堂典籍?dāng)?shù)據(jù)庫(kù)、文淵閣四庫(kù)全書電子版、愛如生系列數(shù)據(jù)庫(kù)、國(guó)學(xué)寶典等綜合性數(shù)據(jù)庫(kù);有專門數(shù)據(jù)庫(kù)如中華醫(yī)典、中國(guó)中醫(yī)古籍總目、金圖國(guó)際中醫(yī)藥古籍資料庫(kù)、黃帝內(nèi)經(jīng)古籍?dāng)?shù)據(jù)庫(kù)等專門數(shù)據(jù)庫(kù);有以病癥進(jìn)行分類的病癥專題數(shù)據(jù)庫(kù),如痹癥、腎病、肺病、冠心病等病癥的專題數(shù)據(jù)庫(kù);還有醫(yī)學(xué)人物的專題數(shù)據(jù)庫(kù),如華佗、孫思邈等的專門數(shù)據(jù)庫(kù);更有打造民族特色、地方特色的數(shù)據(jù)庫(kù)及名老中醫(yī)文獻(xiàn)數(shù)據(jù)庫(kù)等。根據(jù)用戶需求的多樣化,已有的數(shù)字平臺(tái)大多可以網(wǎng)頁端、移動(dòng)端、微信端并舉,如經(jīng)典古籍庫(kù),作為全球首個(gè)大型隨身古籍庫(kù),涵蓋經(jīng)史子集各部1 165 種書,收錄古籍均為經(jīng)典權(quán)威點(diǎn)校本,并提供全文檢索和在線閱讀,以及聯(lián)機(jī)字典、紀(jì)年換算等工具。如今,中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)的構(gòu)建日趨注重對(duì)知識(shí)服務(wù)的提供,由數(shù)據(jù)庫(kù)向知識(shí)庫(kù)方向轉(zhuǎn)變的趨勢(shì)也就越發(fā)凸顯。
美國(guó)學(xué)者John Unsworth 教授認(rèn)為,數(shù)字人文改變了人文知識(shí)的發(fā)現(xiàn)、標(biāo)注、比較、引用、取樣、闡述與呈現(xiàn),從而實(shí)現(xiàn)人文研究、教學(xué)升級(jí)和創(chuàng)新發(fā)展[27]。但是,數(shù)字人文的關(guān)鍵是以“數(shù)字”輔助“人文”,而不是以“數(shù)字”替代“人文”[28]。因此,必須充分發(fā)揮數(shù)字技術(shù)在人文領(lǐng)域研究的工具性作用,從數(shù)字時(shí)代出發(fā)考慮重構(gòu)人文知識(shí)脈絡(luò)和內(nèi)容,從全新的技術(shù)角度去構(gòu)建當(dāng)代中醫(yī)知識(shí)系統(tǒng)和認(rèn)知方式。如今中醫(yī)古籍研究迎來了新的發(fā)展空間,新興的數(shù)字技術(shù)可以滿足人們對(duì)中醫(yī)古籍文獻(xiàn)資源的加工、組織與服務(wù)的深度需求,海量且十分寶貴的中醫(yī)古籍可以得到更好的開發(fā)利用,中醫(yī)學(xué)、中藥學(xué)研究應(yīng)用的深度和廣度也必然在此背景下不斷延伸。
盡管學(xué)界已對(duì)中醫(yī)古籍元數(shù)據(jù)的標(biāo)準(zhǔn)進(jìn)行了一定探討,但尚未進(jìn)行有效的分類與標(biāo)引,各機(jī)構(gòu)間的研究多獨(dú)立分散,缺乏真正統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范。目前,大多數(shù)中醫(yī)古籍?dāng)?shù)據(jù)仍處于非結(jié)構(gòu)化的無組織狀態(tài),導(dǎo)致了豐富的資源不能被很好的利用。因此,結(jié)構(gòu)化的數(shù)據(jù)和統(tǒng)一的標(biāo)準(zhǔn)規(guī)范必然是今后的發(fā)展方向。隨著科學(xué)技術(shù)的發(fā)展與完善,古籍整理研究范式也在發(fā)生重大變革,版本識(shí)別、目錄、???、訓(xùn)詁等傳統(tǒng)研究方法與手段具有一定的局限性。在當(dāng)前環(huán)境下,對(duì)中醫(yī)古籍進(jìn)行科學(xué)規(guī)范的整理是更好利用中醫(yī)古籍的關(guān)鍵所在,今后關(guān)于中醫(yī)古籍元數(shù)據(jù)標(biāo)引和檢索的研究還會(huì)不斷發(fā)展,多元化的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范逐漸趨于統(tǒng)一,相信最終會(huì)形成真正可以為各界所認(rèn)可和遵循的標(biāo)準(zhǔn)規(guī)范,為構(gòu)建中醫(yī)古籍資源結(jié)構(gòu)化知識(shí)體系提供支撐。
當(dāng)前中醫(yī)古籍領(lǐng)域內(nèi)知識(shí)組織研究通常是借鑒其他領(lǐng)域內(nèi)本體和語義關(guān)聯(lián)的模型,尚未形成一個(gè)較為成熟的中醫(yī)古籍資源語義描述規(guī)范。在語義發(fā)布層面,中醫(yī)古籍關(guān)聯(lián)數(shù)據(jù)集和本體建模大多仍是以手工的方式完成,這就給在大數(shù)據(jù)環(huán)境下中醫(yī)古籍?dāng)?shù)據(jù)的處理帶來了巨大的挑戰(zhàn);在研究?jī)?nèi)容層面,仍停留在對(duì)中醫(yī)古籍書目進(jìn)行研究的層面,未能實(shí)現(xiàn)對(duì)內(nèi)部知識(shí)結(jié)構(gòu)的充分揭示。以語義網(wǎng)技術(shù)進(jìn)一步驅(qū)動(dòng)中醫(yī)古籍領(lǐng)域內(nèi)的知識(shí)組織已成為領(lǐng)域內(nèi)的迫切需要,今后的發(fā)展方向應(yīng)是由粗粒度的文獻(xiàn)研究層面向細(xì)粒度的知識(shí)單元層面轉(zhuǎn)變,將語義網(wǎng)技術(shù)應(yīng)用到中醫(yī)古籍文獻(xiàn)內(nèi)容層面的研究與開發(fā)中,對(duì)全文內(nèi)容進(jìn)行知識(shí)關(guān)聯(lián)組織,從而充分揭示中醫(yī)古籍的內(nèi)涵,降低使用門檻。通過語義網(wǎng)技術(shù)整合異構(gòu)中醫(yī)古籍?dāng)?shù)字資源,鏈接領(lǐng)域內(nèi)的數(shù)據(jù)孤島,避免資源的重復(fù)建設(shè),實(shí)現(xiàn)領(lǐng)域內(nèi)的知識(shí)聚合,為中醫(yī)古籍的知識(shí)發(fā)現(xiàn)提供前提和保障,進(jìn)一步提高資源的開放共享。
現(xiàn)階段的研究對(duì)數(shù)據(jù)挖掘技術(shù)在中醫(yī)方劑等領(lǐng)域進(jìn)行了有益的探索,但還存在著一定程度的不足。一方面,中醫(yī)古籍由于年代和地域差異性,導(dǎo)致數(shù)據(jù)中普遍存在詞語混淆現(xiàn)象,面對(duì)這樣的情況,有時(shí)并不能準(zhǔn)確挖掘出所需信息;另一方面,當(dāng)前數(shù)據(jù)挖掘技術(shù)在中醫(yī)古籍研究的應(yīng)用上多是范圍上的定位,而非真正意義上的精確定位。因此,在中醫(yī)古籍研究中,數(shù)據(jù)挖掘技術(shù)在算法層面有待進(jìn)一步改進(jìn),數(shù)據(jù)挖掘技術(shù)與中醫(yī)古籍研究也有待進(jìn)一步融合提高。隨著技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)參與中醫(yī)古籍?dāng)?shù)字化必將拓展研究的深度與廣度,激發(fā)海量數(shù)據(jù)中蘊(yùn)含的潛在價(jià)值,為中醫(yī)古籍?dāng)?shù)字資源的智能化變革提供強(qiáng)力的技術(shù)支撐,成為今后發(fā)展過程中一項(xiàng)極為重要的輔助技術(shù)工具。
目前中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)開發(fā)種類多樣,但大多仍停留文獻(xiàn)服務(wù)層面而非知識(shí)服務(wù)層面,缺乏深層次的知識(shí)挖掘與知識(shí)分析,難以形成領(lǐng)域內(nèi)數(shù)據(jù)和知識(shí)的共享,對(duì)學(xué)科研究與發(fā)展的影響有一定局限性。打造以知識(shí)服務(wù)為導(dǎo)向的中醫(yī)古籍知識(shí)庫(kù)已成為領(lǐng)域內(nèi)的現(xiàn)實(shí)所需,對(duì)于中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)的使用,用戶更希望直接實(shí)現(xiàn)對(duì)中醫(yī)、中藥知識(shí)的獲取和利用,而非對(duì)中醫(yī)文獻(xiàn)的簡(jiǎn)單查找,故今后應(yīng)以知識(shí)服務(wù)為導(dǎo)向,使數(shù)據(jù)庫(kù)的開發(fā)向知識(shí)庫(kù)方向發(fā)展。中醫(yī)古籍知識(shí)庫(kù)的建設(shè)需要依托于大數(shù)據(jù)技術(shù),對(duì)多元化的資源進(jìn)行知識(shí)挖掘,實(shí)現(xiàn)對(duì)數(shù)據(jù)從顯性信息到隱形知識(shí)的提取和升華,結(jié)合本體及語義關(guān)聯(lián)技術(shù)對(duì)文獻(xiàn)內(nèi)在的知識(shí)進(jìn)行組織關(guān)聯(lián),輔以規(guī)范的元數(shù)據(jù)標(biāo)引與檢索規(guī)則,使得數(shù)據(jù)以結(jié)構(gòu)化的方式呈現(xiàn),從而形成規(guī)范化、系統(tǒng)化的知識(shí)網(wǎng)絡(luò)體系,實(shí)現(xiàn)對(duì)中醫(yī)古籍更為深層次的開發(fā)和利用。
中國(guó)中醫(yī)古籍?dāng)?shù)字化工作經(jīng)過多年的發(fā)展,取得了令人欣喜的成績(jī),這些成果很大程度上改善和促進(jìn)了傳統(tǒng)的研究與應(yīng)用,讓中醫(yī)古籍在文化傳承與學(xué)術(shù)研究方面獲得了更好的發(fā)展。隨著時(shí)代的發(fā)展,通過引入越來越多的數(shù)字人文領(lǐng)域的技術(shù)方法如GIS 技術(shù)、數(shù)字感知技術(shù)、知識(shí)圖譜技術(shù)、5G 技術(shù)等,可以為中醫(yī)古籍研究與開發(fā)帶來全新的生命與活力。