胡遠樟,溫川飆,程小恩
(成都中醫(yī)藥大學(xué)醫(yī)學(xué)信息工程學(xué)院 成都 611137)
中醫(yī)藥信息本質(zhì)上是一種知識密集型數(shù)據(jù),具有整體性、混雜性、相關(guān)性的特點[1]。糖尿病屬于中醫(yī)“消渴病”范疇,中醫(yī)藥對于糖尿病有著獨特的防治與診療效果。隨著數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用發(fā)展,如何更好的使用數(shù)據(jù)挖掘技術(shù)在海量醫(yī)療信息中挖掘出糖尿病中醫(yī)診療隱性知識、為臨床決策提供指導(dǎo)成了研究者關(guān)注的重點。
以中國知網(wǎng)(CNKI)期刊庫為文獻統(tǒng)計來源,以“糖尿病”AND“中醫(yī)數(shù)據(jù)挖掘”為主題詞檢索字段對所有學(xué)科領(lǐng)域進行精確檢索,共檢索出相關(guān)主題文獻393 篇,通過人工排除糖尿病并發(fā)癥文獻、會議通知、簡訊、報道和不符合要求的文獻后,最終納入文獻195篇,文獻檢索時間截止到2019 年5 月。本文利用文獻計量工具CiteSpace 對相關(guān)文獻進行統(tǒng)計并繪制可視化圖譜[2],以期探究國內(nèi)中醫(yī)糖尿病數(shù)據(jù)挖掘研究現(xiàn)狀與趨勢,為后續(xù)研究提供參考。
為考察文獻數(shù)量隨時間變化的情況,本文將與糖尿病中醫(yī)數(shù)據(jù)挖掘相關(guān)的文獻進行統(tǒng)計(圖1)。由圖可以看出,該研究領(lǐng)域相關(guān)的文獻量雖波動較大,但總體趨勢仍呈由少到多逐年增加的態(tài)勢,其增長模式大致符合線性增長模型:y = 3.5529x - 7118.4,R2 =0.8754(一般認為R2>0.8 時該模型的擬合優(yōu)度較高),表明該模型能較好反映該領(lǐng)域文獻增長趨勢,同時也說明應(yīng)用數(shù)據(jù)挖掘方法在中醫(yī)糖尿病研究中的關(guān)注度正逐步上升。
圖1 相關(guān)文獻變化曲線圖
表1 高頻關(guān)鍵詞分類
關(guān)鍵詞詞頻數(shù)統(tǒng)計結(jié)果(表1)及關(guān)鍵詞可視化圖譜(圖2)顯示,中醫(yī)糖尿病數(shù)據(jù)挖掘領(lǐng)域研究主要采用常用的挖掘算法包括關(guān)聯(lián)規(guī)則、聚類、神經(jīng)網(wǎng)絡(luò)、決策樹、時間序列、因子分析、遺傳算法、邏輯回歸分析、頻數(shù)描述統(tǒng)計、雙聚類分析、Samma 算法等。其中研究者利用關(guān)聯(lián)規(guī)則、聚類、神經(jīng)網(wǎng)絡(luò)算法頻次最高。
關(guān)聯(lián)規(guī)則其實質(zhì)是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間的關(guān)聯(lián)關(guān)系、因果結(jié)構(gòu)以及項集間的頻繁模式[3]。通過關(guān)聯(lián)規(guī)則可以挖掘出數(shù)據(jù)中潛在的隱性知識,利用這些知識可以對未知作出推測,如通過關(guān)聯(lián)規(guī)則挖掘名老中醫(yī)診療糖尿病過程中藥物與藥物之間的藥物配伍關(guān)系。
聚類分析是根據(jù)“物以類聚”的原理,在沒有模式參考和先驗知識的情況下,對數(shù)據(jù)信息進行分類,常用的聚類分析算法主要有基于劃分、層次、密度、網(wǎng)格和模型等進行聚類[4]。在糖尿病中醫(yī)研究中,聚類方法常用于糖尿病中醫(yī)證候研究、中醫(yī)基礎(chǔ)研究以及方劑分析研究3 個方面,其可以按照中醫(yī)糖尿病數(shù)據(jù)本身的內(nèi)在規(guī)律來使得中醫(yī)數(shù)據(jù)分析結(jié)果更具客觀性,有利于中醫(yī)藥研究的客觀化、定量化與標(biāo)準(zhǔn)化[5]。但作為一種工具和方法,需要更加關(guān)注對糖尿病中醫(yī)聚類結(jié)果的解釋,只有將分析結(jié)果與中醫(yī)藥本體知識理論結(jié)合起來才能為下一步的研究工作打好基礎(chǔ)。
突現(xiàn)詞為某一時間段內(nèi)突然大量出現(xiàn)的詞,較單獨研究關(guān)鍵詞出現(xiàn)頻次而言,突現(xiàn)詞能夠有效反映研究領(lǐng)域的前沿主題[6]。本文利用CiteSpace 的膨脹詞探測技術(shù)及算法進行突現(xiàn)詞探測(表2)。
(1)用藥規(guī)律強度最強在出現(xiàn)的突現(xiàn)詞中,用藥規(guī)律強度最強(11.2995),時間開始于2015 年,結(jié)束于2017 年。研究總結(jié)糖尿病的中醫(yī)組方用藥規(guī)律,是傳承和發(fā)展中醫(yī)防治糖尿病方法和手段的核心內(nèi)容。中醫(yī)糖尿病用藥規(guī)律研究經(jīng)歷了口傳心授、經(jīng)驗總結(jié)、收集方藥、手工統(tǒng)計以及應(yīng)用統(tǒng)計方法分析等發(fā)展歷程[7],目前隨著計算機技術(shù)的快速發(fā)展以及中醫(yī)信息化水平的提高,數(shù)據(jù)挖掘方法正逐步應(yīng)用于用藥規(guī)律挖掘研究,目前糖尿病中醫(yī)用藥規(guī)律研究主要用于名醫(yī)用藥經(jīng)驗挖掘[8]。
圖2 關(guān)鍵詞圖譜
表2 糖尿病中醫(yī)數(shù)據(jù)挖掘突現(xiàn)詞
名老中醫(yī)專家經(jīng)驗是中醫(yī)學(xué)術(shù)思想的精華,是中醫(yī)藥創(chuàng)新發(fā)展的思想源泉,有著顯著的疾病診療優(yōu)勢,數(shù)據(jù)挖掘是名老中醫(yī)臨床用藥規(guī)律發(fā)現(xiàn)的重要現(xiàn)代化手段與方法。李宏紅[9]運用數(shù)據(jù)挖掘技術(shù)挖掘魏子孝教授治療糖尿病的臨證經(jīng)驗,得出魏子孝教授治療糖尿病不套用三消分治,而是以主證素診斷,結(jié)合患者體質(zhì)、疾病本身特點的辨證論治的方法。李修洋[10]利用關(guān)聯(lián)規(guī)則對仝小林教授運用經(jīng)方辨治糖尿病的用藥特點與劑量進行歸納,總結(jié)出仝教授巧用藥對、方小力宏的用藥特點。黃利兵[11]運用關(guān)聯(lián)規(guī)則探究王暉教授治療糖尿病的處方用藥規(guī)律,結(jié)果提示藥物以王暉教授自擬的“降濁合劑”和“寧心舒情湯”為主,多用養(yǎng)陰清熱、調(diào)暢氣機之品,為名老中醫(yī)用藥經(jīng)驗的繼承和發(fā)揚提供了借鑒。
(2)知識發(fā)現(xiàn)時間跨度最長時間跨度最長的關(guān)鍵詞為知識發(fā)現(xiàn)(2003-2008 年)。知識發(fā)現(xiàn)是一個從數(shù)據(jù)中提取出有效的、新穎的、潛在有用的并能最終被人理解的模式的非平凡過程,數(shù)據(jù)挖掘被認為是知識發(fā)現(xiàn)過程中的一個關(guān)鍵步驟,因此兩術(shù)語可交換使用[12]。其集成了諸如統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)、可視化、人工智能、機器學(xué)習(xí)、模式識別等多學(xué)科概念與技術(shù)方法,流程主要包括確定目的、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、確定挖掘平臺與算法、數(shù)據(jù)挖掘、結(jié)果分析、知識應(yīng)用等。
(3)針灸出現(xiàn)時間最晚針灸出現(xiàn)時間較晚(2016—2019 年)。近年來,中國糖尿病發(fā)病率不斷增高,西醫(yī)主要以口服降糖藥物或皮下注射胰島素治療為主,同時結(jié)合飲食、運動療法,但其發(fā)病機制尚不明確,目前尚無法根治[13]。
針灸作為一種古老的自然療法,具有操作方便、安全有效、無藥物副作用的特點,在糖尿病針灸診療過程中,常從多個角度進行辨證論治。其穴位常選十四經(jīng)穴、耳穴及經(jīng)外奇穴等,在毫針刺法上常根據(jù)不同時期的證候特點,選用調(diào)神針法、時間針灸、溫針灸療法以及穴位埋線和刺血療法等針灸特色療法[14]。其不僅能有效改善糖尿病患者臨床癥狀,更可以調(diào)節(jié)血脂、血糖等生化指標(biāo)。采用數(shù)據(jù)挖掘相關(guān)信息化方法探究針灸診療糖尿病規(guī)律與隱性知識或是接下來糖尿病中醫(yī)數(shù)據(jù)挖掘領(lǐng)域研究的前沿之一。
通過文獻計量分析糖尿病數(shù)據(jù)挖掘流程(圖3)發(fā)現(xiàn),90%研究者采用的流程可分為確定挖掘目的、確定病例數(shù)據(jù)納入標(biāo)準(zhǔn)、病例納入、確定數(shù)據(jù)處理平臺與算法、數(shù)據(jù)挖掘、中醫(yī)臨床實踐及療效驗證等過程。較多的研究者常用 SPSS,Weka,Rapidminer,Python、Java 等國外商用平臺實現(xiàn)數(shù)據(jù)挖掘過程,但自2012 年始,國內(nèi)研發(fā)的中醫(yī)傳承輔助平臺受到廣泛關(guān)注,已經(jīng)成為糖尿病中醫(yī)數(shù)據(jù)挖掘的重要工具。
本文借助文獻計量學(xué)方法和CiteSpace 可視化工具,對2003-2019年CNKI數(shù)據(jù)庫中收錄的、以“糖尿病中醫(yī)數(shù)據(jù)挖掘”為主題的研究文獻進行分析。通過對發(fā)文量和關(guān)鍵詞進行分析可知,糖尿病作為中醫(yī)優(yōu)勢病種之一,運用數(shù)據(jù)挖掘技術(shù)探究其潛在規(guī)律正逐步受到中醫(yī)研究者的廣泛關(guān)注。研究應(yīng)用最多的為一些經(jīng)典的數(shù)據(jù)挖掘算法,如關(guān)聯(lián)規(guī)則與聚類,且應(yīng)用對象并不單一,除了現(xiàn)代電子病歷以外,也用于挖掘記載有糖尿病的歷史醫(yī)學(xué)文獻。對具有轉(zhuǎn)折意義的關(guān)鍵詞(突現(xiàn)詞)分析發(fā)現(xiàn),該領(lǐng)域的研究焦點一直集中在配伍規(guī)律的挖掘中,但內(nèi)容逐步細化,從方藥配伍規(guī)律逐步發(fā)展到針灸穴位配伍。近年來,學(xué)者們對糖尿病數(shù)據(jù)挖掘的探討亦有了新的思路,偏重于血糖規(guī)律及用藥機制的探索,如金百翰等[15]采用動態(tài)的觀察檢測方法,連續(xù)監(jiān)測患者72 h 血糖及相關(guān)癥狀并分析,孫鼎等[16]基于動態(tài)血糖Hurst 指數(shù)與氣血流注規(guī)律,探討血糖變化特點;白明等[17]挖掘治療糖尿病高頻藥物,并通過網(wǎng)絡(luò)藥理學(xué)探討高頻藥物黃芪治療糖尿病的作用機制等。
圖3 數(shù)據(jù)挖掘流程
通過對納入的相關(guān)文獻回溯發(fā)現(xiàn),該領(lǐng)域在數(shù)據(jù)挖掘流程方面,遵循基本的數(shù)據(jù)采集-預(yù)處理-挖掘基本流程。其構(gòu)造的診斷模型主要根據(jù)中醫(yī)理論,通過納入癥狀-證型構(gòu)建辨證模型,其中尤以人工神經(jīng)網(wǎng)絡(luò)為主要的模型構(gòu)建方法。其原因可能是因為該領(lǐng)域本來就屬于計算機和中醫(yī)學(xué)的一個交叉學(xué)科,所采用的方法技術(shù)來源于計算機領(lǐng)域,以方法學(xué)結(jié)合中醫(yī)理論的應(yīng)用研究為主有關(guān);同時,人工神經(jīng)網(wǎng)絡(luò)能夠自動在海量數(shù)據(jù)中尋找模式和規(guī)律,歸納隱含在信息單元之間的關(guān)聯(lián)規(guī)則的特性與中醫(yī)證候非線性、多維多階、可以無限組合的特點相契合,也是其在該領(lǐng)域廣泛應(yīng)用的原因之一。但在其模型和挖掘結(jié)果評估方面,由于臨床數(shù)據(jù)具有特殊性,其模型及挖掘結(jié)果評價不能僅僅依靠測試集來確定準(zhǔn)確率,更需要嵌套到網(wǎng)絡(luò)應(yīng)用中,在真實臨床場景下供醫(yī)生使用,以實際療效來評估其效果。
隨著大數(shù)據(jù)時代的來臨和數(shù)據(jù)挖掘技術(shù)的應(yīng)用,科學(xué)發(fā)現(xiàn)的模式已由傳統(tǒng)的實驗設(shè)計、理論科學(xué)和計算科學(xué)發(fā)展到了第四科學(xué)范式,即知識密集型科學(xué)發(fā)現(xiàn)模式。在該模式下,由于中醫(yī)臨床信息化水平的提高,數(shù)據(jù)的采集、存儲、傳輸和處理成本大大降低,效率得到了極大的提高,使得糖尿病中醫(yī)研究不再單純追求數(shù)據(jù)之間的因果關(guān)系,而是相關(guān)關(guān)系,讓“數(shù)據(jù)說話”,探究真實臨床問題的數(shù)據(jù)規(guī)律成為可能。然而當(dāng)前的數(shù)據(jù)挖掘趨勢已經(jīng)由原來的單維度靜態(tài)信息挖掘發(fā)展到了動態(tài)的、多維度高層次挖掘,即數(shù)據(jù)來源信息是動態(tài)連續(xù)、多個角度的,在該研究領(lǐng)域中即可體現(xiàn)為對糖尿病患者動態(tài)血糖及不同病程下的證型、用藥規(guī)律的挖掘和中醫(yī)癥狀與西醫(yī)臨床指標(biāo)的關(guān)聯(lián)挖掘研究。隨著新的數(shù)據(jù)挖掘方法的出現(xiàn),計算能力的提高以及糖尿病臨床數(shù)據(jù)的積累,該領(lǐng)域正處于不斷發(fā)展的朝陽時期,后期可結(jié)合更多新的數(shù)據(jù)挖掘技術(shù)方法,探討在中醫(yī)糖尿病研究領(lǐng)域的應(yīng)用。
在當(dāng)前的數(shù)據(jù)挖掘中醫(yī)糖尿病研究領(lǐng)域中,其研究現(xiàn)狀未見十分明確的總結(jié),而傳統(tǒng)的總結(jié)方式又過于繁瑣,難以形象直觀展現(xiàn)結(jié)果。本文采用CiteSpace軟件通過分析關(guān)鍵詞得到可視化圖譜,并通過文獻回溯的方式分析出該領(lǐng)域的研究熱點,對挖掘流程作了一個梳理。但由于數(shù)據(jù)庫格式限制,不能對多個數(shù)據(jù)庫同時進行分析,所以只選用了CNKI 數(shù)據(jù)庫作為數(shù)據(jù)來源,同時剔除了糖尿病相關(guān)并發(fā)癥文獻,因此,有些研究主題由于文獻數(shù)據(jù)所限,并未在本文中體現(xiàn)。在下一步的研究工作中,作者將嘗試擴展數(shù)據(jù)來源,針對糖尿病的相關(guān)并發(fā)癥,從更多角度對該領(lǐng)域進行分析。