李 昱,楊 濤
(南京中醫(yī)藥大學(xué),江蘇 南京 210023)
中醫(yī)藥文化擁有幾千年的歷史,數(shù)據(jù)量巨大且復(fù)雜多樣,其中蘊(yùn)含的規(guī)律及經(jīng)驗(yàn)浩如煙海,僅憑人工歸納則缺乏科學(xué)性、客觀性、全面性。如何利用新時(shí)代的科技優(yōu)勢(shì)進(jìn)行守正創(chuàng)新即成為迫不及待的問題。隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘這一研究領(lǐng)域逐漸成為熱點(diǎn)。數(shù)據(jù)挖掘是指從海量數(shù)據(jù)中,通過算法提取隱含在其中、潛在有用的信息[1]。數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥數(shù)據(jù)處理中展現(xiàn)了廣泛的應(yīng)用前景。越來越多的學(xué)者利用數(shù)據(jù)挖掘開展中醫(yī)藥研究。如趙舒蒙等[2]利用復(fù)雜網(wǎng)絡(luò)分析古醫(yī)籍中針灸治療惡心嘔吐腧穴配伍規(guī)律;張洪源等[3]利用數(shù)據(jù)挖掘和整合藥理學(xué)探討中藥桃仁治療冠心病的分子機(jī)制;陳曦等[4]利用醫(yī)案解構(gòu)探討名老中醫(yī)經(jīng)驗(yàn)數(shù)據(jù)挖掘現(xiàn)狀;趙小萱等[5]利用數(shù)據(jù)挖掘研究中醫(yī)古籍中崩漏氣血虧虛證用藥規(guī)律等。為更好地展現(xiàn)中醫(yī)藥數(shù)據(jù)挖掘研究的發(fā)展脈絡(luò),本研究借助CiteSpace科學(xué)文獻(xiàn)計(jì)量軟件,對(duì)2010—2019年有關(guān)中醫(yī)藥數(shù)據(jù)挖掘研究領(lǐng)域的文獻(xiàn)進(jìn)行可視化分析,以期為進(jìn)一步推進(jìn)中醫(yī)藥數(shù)據(jù)挖掘研究提供參考。
1.1 數(shù)據(jù)來源 本研究數(shù)據(jù)來源于中國(guó)知網(wǎng)(CNKI),采用專業(yè)檢索,設(shè)置檢索條件:SU=(“數(shù)據(jù)挖掘”+“數(shù)據(jù)處理”+“數(shù)據(jù)分析”+“知識(shí)發(fā)現(xiàn)”+“聚類”+“關(guān)聯(lián)規(guī)則”+“因子分析”+“復(fù)雜網(wǎng)絡(luò)”+“決策樹”+“回歸分析”+“貝葉斯”+“神經(jīng)網(wǎng)絡(luò)”+“支持向量機(jī)”+“隨機(jī)森林”+“K-Means”+“Apriori算法”+“K-鄰近”)AND(SU=“中醫(yī)”+“中藥”+“中醫(yī)藥”+“方劑”+“針灸”),設(shè)置檢索時(shí)間范圍為近10年(2010年1月1日至2019年12月31日),共檢索到6 113篇相關(guān)文獻(xiàn)(檢索時(shí)間為2020年2月12日),其中會(huì)議通知228篇,學(xué)位論文3 216篇,期刊論文2 669篇。
1.2 文獻(xiàn)篩選 為保證文獻(xiàn)研究結(jié)果的一致性與科學(xué)性,納入主題符合檢索式、內(nèi)容符合中醫(yī)藥數(shù)據(jù)挖掘的文獻(xiàn),排除會(huì)議通知和學(xué)位論文及內(nèi)容不符合中醫(yī)藥數(shù)據(jù)挖掘的文獻(xiàn)。共獲得1 860篇有效文獻(xiàn)。
1.3 數(shù)據(jù)處理 CiteSpace是由美國(guó)德雷塞爾大學(xué)陳超美研發(fā),并在Java環(huán)境下運(yùn)行的信息可視化軟件,基于共引分析理論和尋徑網(wǎng)絡(luò)算法等,對(duì)某領(lǐng)域的樣本文獻(xiàn)進(jìn)行計(jì)算,通過分析繪制的可視化圖譜探尋該學(xué)科演化的潛在動(dòng)力及其發(fā)展的前沿趨勢(shì)[6]。
本研究采用CiteSpace 5.6.R2軟件內(nèi)置功能,將從中國(guó)知網(wǎng)上導(dǎo)出的文獻(xiàn)經(jīng)格式轉(zhuǎn)化后,通過CiteSpace 5.6.R2對(duì)中醫(yī)藥數(shù)據(jù)挖掘相關(guān)文獻(xiàn)進(jìn)行作者合作網(wǎng)絡(luò)分析、機(jī)構(gòu)合作網(wǎng)絡(luò)分析、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析等。借助可視化圖譜,分析中醫(yī)藥數(shù)據(jù)挖掘研究領(lǐng)域發(fā)展演化的過程。
為保證結(jié)果的準(zhǔn)確性,對(duì)納入的1 860篇文獻(xiàn)所屬機(jī)構(gòu)及關(guān)鍵詞進(jìn)行規(guī)范化去重處理,對(duì)于具有相同含義而表述不一的情況進(jìn)行統(tǒng)一。如“浙江中醫(yī)藥大學(xué)第二臨床醫(yī)學(xué)院”規(guī)范為“浙江中醫(yī)藥大學(xué)”,“廣州中醫(yī)藥大學(xué)第一附屬醫(yī)院骨傷科”規(guī)范為“廣州中醫(yī)藥大學(xué)第一附屬醫(yī)院”等,“中醫(yī)傳承輔助平臺(tái)”與“中醫(yī)傳承輔助系統(tǒng)”統(tǒng)一為“中醫(yī)傳承輔助系統(tǒng)”等。
2.1 發(fā)文量分析 對(duì)納入的1 860篇文獻(xiàn)按照發(fā)表年限進(jìn)行統(tǒng)計(jì),2010—2014年這一階段雖然發(fā)文量有微小波動(dòng),但整體處于平緩增長(zhǎng)趨勢(shì)。2015—2019年這一階段發(fā)展迅速,發(fā)文量快速增長(zhǎng)。中醫(yī)藥數(shù)據(jù)挖掘這一研究領(lǐng)域引起越來越多的學(xué)者關(guān)注,已經(jīng)成為國(guó)內(nèi)研究的一個(gè)熱點(diǎn)。使用OriginPro軟件對(duì)目前發(fā)文情況使用三階多項(xiàng)式進(jìn)行曲線擬合,擬合后R平方為0.968 5,模型擬合優(yōu)度較高。圖1中虛線為擬合曲線,根據(jù)趨勢(shì)線預(yù)測(cè)2020年發(fā)文量將突破500篇。
圖1 論文發(fā)表時(shí)間分布圖(虛線為擬合曲線)
2.2 作者合作網(wǎng)絡(luò)分析 應(yīng)用CiteSpace 5.6.R2軟件對(duì)中醫(yī)藥數(shù)據(jù)挖掘研究相關(guān)文獻(xiàn)的作者合作網(wǎng)絡(luò)進(jìn)行共現(xiàn)分析,設(shè)置時(shí)間跨度為2010—2019年,時(shí)間切片為1,選擇節(jié)點(diǎn)類型為“Author”,其他參數(shù)按默認(rèn)值設(shè)置。圖譜中節(jié)點(diǎn)大小代表作者出現(xiàn)的頻數(shù),節(jié)點(diǎn)之間的連線代表作者合作的強(qiáng)度。
作者合作網(wǎng)絡(luò)中共有節(jié)點(diǎn)591個(gè)、連線1 109條,網(wǎng)絡(luò)密度為0.006 4。由表1及圖2可知,發(fā)文量較多的作者為劉健、忻凌、郭錦晨、任玉蘭,分別發(fā)表文獻(xiàn)31、28、24、24篇。根據(jù)普賴斯定律,核心作者的發(fā)文量計(jì)算公式為MP=0.749 Npmax(Npmax為同一主題中最高的發(fā)文量)[7],根據(jù)公式計(jì)算得MP為4.17,因此該領(lǐng)域的核心作者共有56位。表1詳細(xì)列舉發(fā)文量前20位的核心作者。圖譜中大多為散落的結(jié)點(diǎn)及較為獨(dú)立穩(wěn)定的合作小團(tuán)隊(duì),然而團(tuán)隊(duì)內(nèi)部合作緊密,不同團(tuán)隊(duì)之間的合作較為微弱。以高產(chǎn)作者劉健、宋倩、郭錦晨、忻凌、周巧等為核心的團(tuán)隊(duì)連線密度較大,合作次數(shù)較多,已形成合作較為成熟的團(tuán)隊(duì)。
表1 作者列表(發(fā)文量前20 位)
圖2 作者合作網(wǎng)絡(luò)圖
2.3 研究機(jī)構(gòu)分析 應(yīng)用CiteSpace 5.6.R2軟件對(duì)中醫(yī)藥數(shù)據(jù)挖掘研究相關(guān)文獻(xiàn)的研究機(jī)構(gòu)合作網(wǎng)絡(luò)進(jìn)行共現(xiàn)分析,設(shè)置時(shí)間跨度為2010—2019年,時(shí)間切片為1,選擇節(jié)點(diǎn)類型為“Institution”,其他參數(shù)按默認(rèn)值設(shè)置。圖譜中節(jié)點(diǎn)大小代表機(jī)構(gòu)出現(xiàn)的頻數(shù),節(jié)點(diǎn)之間的連線代表機(jī)構(gòu)合作的強(qiáng)度。
研究機(jī)構(gòu)合作網(wǎng)絡(luò)中共有節(jié)點(diǎn)391個(gè)、連線391條,網(wǎng)絡(luò)密度為0.005 1。表2詳細(xì)列舉發(fā)文量≥21的研究機(jī)構(gòu),選取發(fā)文量≥21的研究機(jī)構(gòu)形成共現(xiàn)圖如圖3所示。研究機(jī)構(gòu)主要是中醫(yī)藥大學(xué)及其附屬醫(yī)院。廣州中醫(yī)藥大學(xué)、北京中醫(yī)藥大學(xué)、山東中醫(yī)藥大學(xué)及中國(guó)中醫(yī)科學(xué)院為該研究領(lǐng)域的高產(chǎn)機(jī)構(gòu),發(fā)文量分別為116、97、80、77篇。其次是成都中醫(yī)藥大學(xué)、南京中醫(yī)藥大學(xué)、安徽中醫(yī)藥大學(xué)、天津中醫(yī)藥大學(xué),發(fā)文量均超過40篇。圖中擁有紫色外環(huán)的節(jié)點(diǎn)通常在圖譜中起到連接不同聚類的“中介”作用。以廣州中醫(yī)藥大學(xué)、北京中醫(yī)藥大學(xué)、中國(guó)中醫(yī)科學(xué)院為核心的研究機(jī)構(gòu)具有突出的輻射帶動(dòng)作用,形成以這些機(jī)構(gòu)為中心的學(xué)術(shù)共同體。
表2 研究機(jī)構(gòu)列表(發(fā)文量≥21)
圖3 研究機(jī)構(gòu)共現(xiàn)圖譜(發(fā)文量≥21)
2.4 研究熱點(diǎn)分析
2.4.1 關(guān)鍵詞共現(xiàn)分析 關(guān)鍵詞是全文內(nèi)容的核心描述和高度凝練,基于關(guān)鍵詞進(jìn)行可視化分析,是掌握該研究領(lǐng)域熱點(diǎn)話題的有效途徑。運(yùn)行CiteSpace 5.6.R2軟件,設(shè)置時(shí)間切片為1,選擇節(jié)點(diǎn)類型為“keyword”。在Thresholds參數(shù)設(shè)置模塊,設(shè)置閾值分別為(2,2,20)(4,3,20)(4,3,20)。在Pruning模塊下,選擇Minimum Spanning Tree及Pruning sliced networks。得到結(jié)果如圖4,圖中的節(jié)點(diǎn)越大,表明該關(guān)鍵詞出現(xiàn)的頻數(shù)越高,越受關(guān)注。若圖譜中的節(jié)點(diǎn)呈現(xiàn)紫色外圍,則表明該節(jié)點(diǎn)的中介中心性較大,在圖譜中發(fā)揮重要橋梁作用。圖譜中共有節(jié)點(diǎn)133個(gè)、連線219條,網(wǎng)絡(luò)密度為0.024 9。其中出現(xiàn)頻數(shù)≥20的關(guān)鍵詞共有24個(gè)(見表3)。其中數(shù)據(jù)挖掘?yàn)槌霈F(xiàn)頻數(shù)最高的關(guān)鍵詞,出現(xiàn)頻數(shù)為816。高頻關(guān)鍵詞主要與證候研究、規(guī)律探究、名醫(yī)經(jīng)驗(yàn)及技術(shù)術(shù)語(yǔ)相關(guān),如用藥規(guī)律、配伍規(guī)律、關(guān)聯(lián)規(guī)則、聚類分析等。根據(jù)CiteSpace 5.6.R2運(yùn)行顯示的各關(guān)鍵詞的中心度,列舉出中心度≥0.05的關(guān)鍵詞如表4所示。關(guān)鍵詞中心度較大的有用藥規(guī)律、文獻(xiàn)研究、聚類分析、關(guān)聯(lián)規(guī)則等。這些關(guān)鍵詞代表目前該研究領(lǐng)域的熱點(diǎn)話題,在用藥規(guī)律、名醫(yī)經(jīng)驗(yàn)挖掘、配伍規(guī)律等方面通過聚類分析、關(guān)聯(lián)規(guī)則等手段輔助進(jìn)行研究。
表3 關(guān)鍵詞列表(頻數(shù)≥20)
表4 關(guān)鍵詞列表(中心性≥0.05)
圖4 關(guān)鍵詞共現(xiàn)圖譜
2.4.2 關(guān)鍵詞聚類分析 關(guān)鍵詞聚類分析可以幫助迅速了解該研究領(lǐng)域的分布情況及研究前沿。在關(guān)鍵詞共現(xiàn)的基礎(chǔ)上,選擇“Timeline View”及“Keyword”,對(duì)主要關(guān)鍵詞進(jìn)行自動(dòng)聚類,得到中醫(yī)藥數(shù)據(jù)挖掘時(shí)間線圖譜。結(jié)果如圖5所示,共得到12個(gè)聚類。CiteSpace使用模塊值Q和平均輪廓值S作為判斷繪制效果的依據(jù),如果Q>0.3,說明圖譜結(jié)構(gòu)合理,如果S>0.5,說明網(wǎng)絡(luò)的同質(zhì)性合理,如果S>0.7,則說明是可信的[6]。由圖5可知,Q=0.592 6(>0.3),S=0.744 5(>0.7)。表明該聚類圖譜的繪制效果是較為合理可信的。
圖5 中醫(yī)藥數(shù)據(jù)挖掘關(guān)鍵詞時(shí)間線圖譜
關(guān)鍵詞聚類的情況見表5,通過對(duì)聚類標(biāo)簽內(nèi)包含的關(guān)鍵詞及相關(guān)文獻(xiàn)進(jìn)行分析,共歸納出以下6個(gè)研究熱點(diǎn)。
表5 關(guān)鍵詞聚類情況列表
(1)證候分布規(guī)律研究:辨證論治是中醫(yī)治療的核心,針對(duì)不同證候采取不同的方藥治療。根據(jù)疾病發(fā)生的病位、病性證素特點(diǎn),總結(jié)歸納出多種證型,從而施行分型論治。
(2)名老中醫(yī)用藥規(guī)律及學(xué)術(shù)思想傳承:名老中醫(yī)的辨證思維、臨床經(jīng)驗(yàn)是中醫(yī)藥事業(yè)傳承創(chuàng)新的原動(dòng)力,亦是理論知識(shí)與臨床療效結(jié)合的成功案例。繼承和推廣名老中醫(yī)的學(xué)術(shù)思想,有利于推動(dòng)中醫(yī)藥事業(yè)的發(fā)展,培養(yǎng)新一代中醫(yī)藥人才[8]。
(3)針灸選穴配穴規(guī)律研究:挖掘針灸治療的研究文獻(xiàn),遵循臟腑辨證、經(jīng)絡(luò)辨證、病因病機(jī)論治、隨癥取穴等規(guī)律[9],從而把握針灸臨床治療的選穴規(guī)律,為針灸治療的配伍選穴提供了參考依據(jù),并有效提高臨床療效。
(4)中藥組方規(guī)律和微觀機(jī)制研究:應(yīng)用關(guān)聯(lián)規(guī)則、復(fù)雜網(wǎng)絡(luò)等,開展中藥配伍研究,從而為臨床治療提供參考。將中藥理論與現(xiàn)代臨床醫(yī)學(xué)將結(jié)合,從分子水平探究中藥四氣五味與中藥功效的相關(guān)性及藥性理論的現(xiàn)代科學(xué)內(nèi)涵,結(jié)合臨床數(shù)據(jù),分析藥物與臨床指標(biāo)的關(guān)聯(lián)[10]。
(5)中藥注射劑安全性評(píng)價(jià)研究:分析中藥注射劑的成分,探討不同中藥注射劑的共性成分[11],探究中藥注射劑相關(guān)不良反應(yīng)的關(guān)聯(lián)因素,總結(jié)不良反應(yīng)的防治措施及合理用藥對(duì)策[12],能夠更好地為中藥注射劑的臨床用藥安全提供參考。
2.4.3 關(guān)鍵詞突現(xiàn)分析 突現(xiàn)關(guān)鍵詞是指在某一階段突發(fā)的高頻關(guān)鍵詞,在某些程度上可以反映該研究領(lǐng)域的熱點(diǎn)演變狀況,預(yù)測(cè)研究趨勢(shì)。關(guān)鍵詞突現(xiàn)分析表明,利用數(shù)據(jù)挖掘開展中醫(yī)證候研究投入時(shí)間較長(zhǎng),作為熱門話題一直持續(xù)至2015年。醫(yī)案古籍資源中蘊(yùn)含多重信息,自2011年開始深度挖掘醫(yī)案資源至2016年。自2014年開始開展名老中醫(yī)經(jīng)驗(yàn)挖掘及治療思路梳理,持續(xù)至2017年。2017年至今,中醫(yī)藥規(guī)律探究逐漸成為研究主流話題,眾多學(xué)者深入研究配伍規(guī)律、用藥規(guī)律、選穴規(guī)律等,預(yù)測(cè)未來幾年這一研究方向仍會(huì)繼續(xù)作為研究熱點(diǎn),引發(fā)中醫(yī)藥數(shù)據(jù)挖掘研究的熱潮。(見表6)
表6 中醫(yī)藥數(shù)據(jù)挖掘關(guān)鍵詞突現(xiàn)分析表
國(guó)內(nèi)許多科研單位及高等院校對(duì)于數(shù)據(jù)挖掘的研究起步較晚,初期階段發(fā)文量增速較為平緩。而隨著信息技術(shù)的發(fā)展成熟及科研單位、醫(yī)院信息系統(tǒng)的日趨完善,2015—2019年發(fā)文量增長(zhǎng)迅速,中醫(yī)藥數(shù)據(jù)挖掘這一研究領(lǐng)域引起越來越多學(xué)者的關(guān)注。中醫(yī)藥傳承創(chuàng)新的戰(zhàn)略地位愈加凸顯[13]。隨著中醫(yī)藥科技政策蓬勃發(fā)展,中醫(yī)藥事業(yè)深入改革創(chuàng)新。預(yù)計(jì)未來幾年將迎來發(fā)文量突增階段,數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用也會(huì)越來越廣泛。使用OriginPro軟件對(duì)目前發(fā)文情況使用三階多項(xiàng)式進(jìn)行曲線擬合,由趨勢(shì)線預(yù)測(cè)2020年發(fā)文量將突破500篇。
通過對(duì)中醫(yī)藥數(shù)據(jù)挖掘研究相關(guān)文獻(xiàn)的作者及研究機(jī)構(gòu)合作網(wǎng)絡(luò)進(jìn)行共現(xiàn)分析,本研究結(jié)果表明,團(tuán)隊(duì)分布較為分散,作者之間仍需要進(jìn)一步加強(qiáng)學(xué)術(shù)交流,且團(tuán)隊(duì)合作僅局限于機(jī)構(gòu)合作,如劉健、忻凌、郭錦晨均來自安徽中醫(yī)藥大學(xué),缺少跨學(xué)校之間的合作。廣州中醫(yī)藥大學(xué)、北京中醫(yī)藥大學(xué)、中國(guó)中醫(yī)科學(xué)院等研究機(jī)構(gòu)開展中醫(yī)藥數(shù)據(jù)挖掘研究相對(duì)持久、穩(wěn)定,促進(jìn)形成高產(chǎn)作者群體。這些機(jī)構(gòu)具有突出的輻射帶動(dòng)作用,形成以這些機(jī)構(gòu)為中心的學(xué)術(shù)共同體。同時(shí)同一地域內(nèi)的研究機(jī)構(gòu)合作更為緊密,如“廣州中醫(yī)藥大學(xué)”“廣東省中醫(yī)院”等,呈現(xiàn)一定集中趨勢(shì)。因此跨地域的研究機(jī)構(gòu)之間的學(xué)術(shù)合作研究需要進(jìn)一步加強(qiáng)。
中醫(yī)藥數(shù)據(jù)挖掘研究領(lǐng)域的熱點(diǎn)話題主要集中于應(yīng)用數(shù)據(jù)挖掘的各類算法探究證候分布規(guī)律、名老中醫(yī)用藥思路、方劑配伍規(guī)律等,中醫(yī)藥規(guī)律探究逐漸成為研究主流話題。對(duì)于這些規(guī)律的挖掘主要采用關(guān)聯(lián)規(guī)律、聚類算法等方法,數(shù)據(jù)挖掘的其他算法如集成學(xué)習(xí)、表示學(xué)習(xí)、深度學(xué)習(xí)等仍應(yīng)用較少。數(shù)據(jù)挖掘技術(shù)的算法較豐富,但在中醫(yī)藥領(lǐng)域的應(yīng)用仍然較為狹窄[14]。研究者應(yīng)拓展視野,全方位關(guān)注各種先進(jìn)技術(shù)和研究方法,從研究的個(gè)性化需求出發(fā),探索最優(yōu)化的研究方法,從而提升中醫(yī)藥數(shù)據(jù)挖掘的創(chuàng)新水平。
數(shù)據(jù)挖掘技術(shù)較復(fù)雜,需要具備專業(yè)知識(shí)的人才來實(shí)現(xiàn)。因此,醫(yī)學(xué)院校要積極順應(yīng)信息化時(shí)代的發(fā)展,完善人才培養(yǎng)模式,開設(shè)信息技術(shù)相關(guān)專業(yè),大力推進(jìn)醫(yī)學(xué)信息化及學(xué)科的交叉融合。發(fā)揮學(xué)科優(yōu)勢(shì),不同學(xué)科領(lǐng)域的人才及研究機(jī)構(gòu)加強(qiáng)合作,才能使中醫(yī)藥數(shù)據(jù)挖掘得到更好的創(chuàng)新與發(fā)展。
本研究利用CiteSpace軟件對(duì)中國(guó)知網(wǎng)2010—2019年收錄的中醫(yī)藥數(shù)據(jù)挖掘相關(guān)的1 860篇文獻(xiàn)進(jìn)行了科學(xué)計(jì)量分析,從發(fā)文量、作者及機(jī)構(gòu)合作、研究熱點(diǎn)等多角度進(jìn)行分析和討論。近10年中醫(yī)藥數(shù)據(jù)挖掘發(fā)文量逐年遞增,形成了一大批合作較為成熟的學(xué)術(shù)共同體,研究的熱點(diǎn)集中于中醫(yī)證候研究、名老中醫(yī)的臨證經(jīng)驗(yàn)及用藥思路等諸多方向,呈現(xiàn)交叉融通、繁榮發(fā)展的景象。然而,大多數(shù)研究局限在機(jī)構(gòu)內(nèi)部,跨組織、跨區(qū)域的研究有待進(jìn)一步加強(qiáng),采用的挖掘方法有待進(jìn)一步提升,應(yīng)當(dāng)圍繞中醫(yī)數(shù)據(jù)特點(diǎn),選用或設(shè)計(jì)相應(yīng)的特色方法。