石習敏,陳 娟,楊均雪,趙文龍
·數(shù)據(jù)研究分享·
基于知識圖譜的國內(nèi)外醫(yī)學數(shù)據(jù)挖掘研究可視化探析
石習敏,陳 娟,楊均雪,趙文龍*
采用文獻計量學方法和知識圖譜方法,以CNKI和Web of ScienceTM數(shù)據(jù)庫中1998—2016年收錄的醫(yī)學領(lǐng)域數(shù)據(jù)挖掘相關(guān)文獻為分析樣本,從論文數(shù)量、核心作者和研究機構(gòu)分布、研究熱點前沿等方面進行定量定性分析,探討國內(nèi)外醫(yī)學數(shù)據(jù)挖掘研究熱點及發(fā)展前沿,對比國內(nèi)外醫(yī)學領(lǐng)域發(fā)展中的異同點,以期促進我國醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究的進一步應(yīng)用和發(fā)展。
文獻計量學;知識圖譜;數(shù)據(jù)挖掘;臨床醫(yī)學;可視化
石習敏,陳娟,楊均雪,等.基于知識圖譜的國內(nèi)外醫(yī)學數(shù)據(jù)挖掘研究可視化探析[J].中國全科醫(yī)學,2017,20(21):2623-2628.[www.chinagp.net]
SHI X M,CHEN J,YANG J X,et al.Visualization of domestic and abroad medical data mining based on knowledge mapping[J].Chinese General Practice,2017,20(21):2623-2628.
科技部2014年度重點支持方向之一即為大數(shù)據(jù)應(yīng)用研發(fā)與基礎(chǔ)研究[1],在科技高速發(fā)展的帶動下,醫(yī)院信息化建設(shè)日臻完善,如何有效地運用數(shù)據(jù)分析方法挖掘海量醫(yī)學數(shù)據(jù)中蘊含的高價值信息,進而實現(xiàn)知識發(fā)現(xiàn),服務(wù)于醫(yī)院的科學決策[2],是目前醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究關(guān)注的重要課題。本文利用文獻計量學方法和科學知識圖譜分析工具——Citespace Ⅲ,從CNKI和Web of ScienceTM數(shù)據(jù)庫分別選取國內(nèi)外醫(yī)學領(lǐng)域有關(guān)數(shù)據(jù)挖掘技術(shù)應(yīng)用的文獻進行分析,探討國際醫(yī)學大數(shù)據(jù)挖掘領(lǐng)域發(fā)展動態(tài),對比國內(nèi)外研究熱點和研究前沿的異同,剖析數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域應(yīng)用現(xiàn)狀和特點,以促進數(shù)據(jù)挖掘技術(shù)在我國醫(yī)學領(lǐng)域中更廣泛、更深入的應(yīng)用。
1.1 數(shù)據(jù)來源 國內(nèi)外數(shù)據(jù)庫檢索時間均為2016-05-04。
本研究背景及創(chuàng)新點:
醫(yī)院信息化逐步完善,醫(yī)學數(shù)據(jù)存儲量越來越龐大,如何有效地運用數(shù)據(jù)分析方法挖掘海量醫(yī)學數(shù)據(jù)中蘊含的高價值信息,進而實現(xiàn)知識發(fā)現(xiàn),服務(wù)于醫(yī)院的科學決策,是目前醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究熱切關(guān)注的重要課題。本研究對國內(nèi)外醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究相關(guān)文獻進行梳理,分析該領(lǐng)域發(fā)展現(xiàn)狀及研究熱點、前沿。
本研究使用了科學知識圖譜分析工具——Citespace Ⅲ,從CNKI和Web of ScienceTM數(shù)據(jù)庫分別選取國內(nèi)外醫(yī)學領(lǐng)域有關(guān)數(shù)據(jù)挖掘技術(shù)應(yīng)用的文獻進行分析,探討國際醫(yī)學大數(shù)據(jù)挖掘領(lǐng)域發(fā)展動態(tài),對比國內(nèi)外研究熱點和研究前沿的異同。
在CNKI中,限定文獻類型為期刊后進行高級檢索,檢索策略:中圖分類號為“R”并且主題為“數(shù)據(jù)挖掘”,采用CNKI默認的回溯期,第1篇醫(yī)學數(shù)據(jù)挖掘文獻出現(xiàn)在1998年。同樣,限定時間為1998—2016年,在Web of ScienceTM數(shù)據(jù)庫(Web of ScienceTM核心合集、BIOSIS Previews?、MEDLINE?、SciELO Citation Index)限定文獻類型為“ARTICLE”后進行主題檢索,檢索策略:“data mining”AND“medical*”。下載全部文獻題錄數(shù)據(jù)并以txt格式保存作為樣本集。
1.2 研究方法 采用文獻計量學方法對國內(nèi)外醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究進行分析,并用Citespace Ⅲ繪制科學知識圖譜。文獻計量學方法是通過分析科學文獻的增長和分布,評價學者研究成果的影響力,運用普萊斯定律,即相同主題中論文數(shù)量的一半是由具有較高生產(chǎn)力的作者群體所寫,并且該作者集合的數(shù)量約等于所有作者總數(shù)的平方根[3]。
Citespace Ⅲ被廣泛應(yīng)用于學科領(lǐng)域發(fā)展趨勢和研究前沿的文獻分析[4],通過設(shè)置閾值,Timespan選擇1996—2016年(Slice Length=1),設(shè)定文獻被引頻次(C)、兩篇文獻共引頻次(CC)、文獻共引系數(shù)(CCV)的閾值分別為(2,2,20)、(4,3,20)、(4,3,20),將醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究發(fā)展規(guī)律繪制成知識圖譜,對知識網(wǎng)絡(luò)中的節(jié)點疏密度進行可視化展示,顯示科學知識發(fā)展進程與結(jié)構(gòu)關(guān)系[5],以掌握國內(nèi)外醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究熱點及研究前沿等最新發(fā)展動態(tài)。
1.3 檢索結(jié)果 依據(jù)檢索條件,剔除會議通知、征稿啟事等與主題無關(guān)的信息,從CNKI索出2 541條文獻,國內(nèi)醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究呈現(xiàn)多學科融合發(fā)展態(tài)勢,截至目前已涵蓋延伸至36個學科領(lǐng)域,發(fā)文量逐年上升;從Web of ScienceTM數(shù)據(jù)庫檢索出2 621條文獻,國外該領(lǐng)域發(fā)文量整體呈增長趨勢。
2.1 時間序列發(fā)文量 CNKI檢索出醫(yī)學領(lǐng)域數(shù)據(jù)挖掘方面的學術(shù)論文2 541篇,從時間序列上來看,1998—2016年,國內(nèi)醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究發(fā)文量整體呈增長趨勢;1998—2003年該領(lǐng)域發(fā)文量增長緩慢,原因為國內(nèi)數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域的應(yīng)用處于起步階段;2003年以后,該領(lǐng)域發(fā)文量增長速度較快,以2011年為拐點,之后發(fā)文量增長迅速,在2015年達到499篇,增長率為35.2%(見圖1)。學科領(lǐng)域的發(fā)文量在一定程度上可以反映該學科的發(fā)展程度和研究水平,該數(shù)據(jù)表明,國內(nèi)數(shù)據(jù)挖掘研究在醫(yī)學領(lǐng)域正處于較快發(fā)展階段,大數(shù)據(jù)研究已引起了相關(guān)研究者的關(guān)注。
注:檢索數(shù)據(jù)截止時間2016-05-04
圖1 1998—2016年CNKI中醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究的論文數(shù)量
Figure 1 Number of articles about medical data mining in CNKI from 1998 to 2016
圖2 CNKI中高產(chǎn)作者的共現(xiàn)圖譜
Figure 2 Knowledge mapping of prolific authors in medical data mining in CNKI
圖3 CNKI中醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究中前10位高產(chǎn)作者及其發(fā)文量
Figure 3 Ten prolific authors with the largest number of articles about medical data mining indexed in CNKI
我國醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究目前主要集中在中醫(yī)類高校及研究所,這與中醫(yī)類高校及研究所的科研氛圍濃厚、學術(shù)水平較高存在一定關(guān)聯(lián)。其中,北京中醫(yī)藥大學發(fā)文量最多(見圖4),說明該研究機構(gòu)對醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究較為重視,科研力量較為強大;其次是山東中醫(yī)藥大學、中國中醫(yī)科學院廣安門醫(yī)院、中國中醫(yī)科學院中醫(yī)藥信息研究所、成都中醫(yī)藥大學、南京中醫(yī)藥大學等。
圖4 CNKI中醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究機構(gòu)的共現(xiàn)圖譜
Figure 4 Knowledge mapping of institutions that the authors published articles about medical data mining from in CNKI
2.3 研究熱點和研究前沿分析 研究熱點和研究前沿常來源于新的科學發(fā)現(xiàn)或?qū)W科進展,是科學研究中最先進、最有發(fā)展?jié)摿Φ难芯恐黝}或研究領(lǐng)域[6]。關(guān)鍵詞詞頻共現(xiàn)可揭示文獻所屬領(lǐng)域研究主題的熱點分布并揭示其內(nèi)在聯(lián)系和演進規(guī)律[7]。Citespace Ⅲ可應(yīng)用于研究文獻的識別,繪制關(guān)鍵詞共現(xiàn)圖譜,進而顯示醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究發(fā)展新趨勢和新動態(tài),設(shè)置Citespace Ⅲ相應(yīng)閾值,并選擇最小生成樹(MST)算法,共形成94個節(jié)點,102條連線(見圖5)。
關(guān)鍵詞共現(xiàn)圖譜中字體大小及圓圈顏色可客觀反映醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究在不同時期的研究熱度[8]。由于本文分析的是數(shù)據(jù)挖掘相關(guān)研究,所以在分析時剔除了頻次最高的關(guān)鍵詞“數(shù)據(jù)挖掘”。從圖5可看到,“關(guān)聯(lián)規(guī)則”“配伍規(guī)律”“數(shù)據(jù)倉庫”“中醫(yī)傳承輔助系統(tǒng)”“聚類分析”等詞匯圓圈較大且有紫色外圈,且顯現(xiàn)出“醫(yī)案”“方劑”“中藥”“針灸”圓圈稍小的熱點詞匯,反映了國內(nèi)醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究范疇較廣,目前研究熱點主要在于探索中醫(yī)用藥規(guī)律的數(shù)據(jù)挖掘研究。
3.1 時間序列發(fā)文量 Web of ScienceTM數(shù)據(jù)庫中檢索出醫(yī)學領(lǐng)域數(shù)據(jù)挖掘方面的學術(shù)論文2 621篇。從時間序列上來看,1998—2016年,國外醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究發(fā)文量整體呈增長趨勢(見圖6),該數(shù)據(jù)表明,國外數(shù)據(jù)挖掘技術(shù)在醫(yī)學領(lǐng)域的應(yīng)用正處于發(fā)展較快階段。
3.2 高產(chǎn)作者和研究機構(gòu)分布 對高產(chǎn)作者進行統(tǒng)計,從Citespace Ⅲ中提取數(shù)據(jù),排名第一的是TSUMOTO S,發(fā)表論文60篇。依據(jù)普萊斯定律計算結(jié)果為5.8篇,即為6篇。發(fā)文量在6篇以上的核心作者58位,共發(fā)表論文503篇,占所有論文總數(shù)的19.19%,可以看出醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究中高產(chǎn)作者的帶頭作用還未形成(未達到50%)。表1中列出排名前10位的高產(chǎn)作者及其發(fā)文量,共計發(fā)表論文170篇。設(shè)置Citespace Ⅲ相關(guān)屬性,構(gòu)建該領(lǐng)域研究者研究機構(gòu)的共現(xiàn)圖譜(見圖7),并進行統(tǒng)計分析,其中,Shimane Univ發(fā)文量最多,其次是Stanford Univ、Harvard Univ、Shimane Med Univ、US FDA、Univ Iowa等。
圖5 CNKI中醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究關(guān)鍵詞的共現(xiàn)圖譜
Figure 5 Key words co-appearance mapping of medical data mining in CNKI
注:檢索數(shù)據(jù)截止時間2016-05-04
圖6 1998—2016年Web of ScienceTM數(shù)據(jù)庫醫(yī)學領(lǐng)域數(shù)據(jù)挖掘文獻數(shù)量
Figure 6 Number of articles about medical data mining included in the Web of ScienceTMfrom 1998 to 2016
3.3 研究熱點和研究前沿分析 以“key words”作為節(jié)點,選擇“citation burst”,設(shè)置Citespace Ⅲ相關(guān)屬性,得到關(guān)鍵詞共現(xiàn)圖譜[9],共形成172個節(jié)點,399條連線(見圖8),從中可以看到classification(分類)、system(系統(tǒng))、databases(數(shù)據(jù)庫)、algorithm(算法)、information(信息)、diagnosis(診斷)、prediction(預測)、text mining(文本挖掘)、knowledge discovery(知識發(fā)現(xiàn))、medical informatics(醫(yī)學信息學)10個熱點詞匯,顯示當前國外醫(yī)學數(shù)據(jù)挖掘研究已經(jīng)延伸到了技術(shù)應(yīng)用的深層次領(lǐng)域。
表1 Web of ScienceTM數(shù)據(jù)庫中醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究前10位高產(chǎn)作者及其發(fā)文量統(tǒng)計(n=2 621)
Table 1 Top 10 prolific authors and the number of their published articles in medical data mining included in the Web of ScienceTM
作者發(fā)文數(shù)量(篇)相對數(shù)(%)TSUMOTOS602.289HIRANOS271.030BEUSCARTR110.420IWATAH110.420SHAHNH110.420ZHANGJ110.420LIUBY100.382REINERBI100.382ZHOUXZ100.382KUSIAKA90.343合計1706.488
圖7 Web of ScienceTM數(shù)據(jù)庫中醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究者研究機構(gòu)的共現(xiàn)圖譜
Figure 7 Knowledge mapping of the researchers and institutions engaging in medical data mining included in the Web of ScienceTM
圖8 Web of ScienceTM數(shù)據(jù)庫中醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究關(guān)鍵詞的共現(xiàn)圖譜
Figure 8 Key words co-appearance mapping of the medical data mining in the Web of ScienceTM
在學科研究熱點及前沿分析中,中心度和關(guān)鍵詞頻次可用來衡量不同節(jié)點在知識網(wǎng)絡(luò)中的重要性,以分析學科領(lǐng)域的研究熱點[4]。通過對Citespace Ⅲ后臺數(shù)據(jù)近5年出現(xiàn)頻次不少于3次的關(guān)鍵詞及相應(yīng)中心度進行統(tǒng)計,并結(jié)合突顯詞和關(guān)鍵詞圖譜分析發(fā)現(xiàn):
(1)在技術(shù)研究層面,數(shù)據(jù)挖掘研究技術(shù)在國內(nèi)外醫(yī)學領(lǐng)域均得到進一步發(fā)展。從表2、表3中可看出,國內(nèi)外該領(lǐng)域逐漸出現(xiàn)了“支持向量機”“R語言”“決策支持系統(tǒng)”等名詞。由此可見,隨著科學技術(shù)的發(fā)展,醫(yī)學領(lǐng)域數(shù)據(jù)挖掘方法也呈現(xiàn)出多樣化發(fā)展趨勢。
(2)在研究內(nèi)容方面,國內(nèi)外有關(guān)藥品信息的研究一直處于熱點,但側(cè)重點不同。國內(nèi)外相關(guān)研究文獻關(guān)鍵詞共現(xiàn)分析發(fā)現(xiàn),近5年均出現(xiàn)了“藥物不良反應(yīng)”等藥物相關(guān)詞匯(見表2、表3),但國內(nèi)偏向于“組方規(guī)律”“證候要素”“選穴規(guī)律”等中醫(yī)用藥的規(guī)律研究。
(3)國內(nèi)醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究有國際化走向趨勢,國外學者研究了“gene(基因)”“systems biology(系統(tǒng)生物學)”“genome-wide association(全基因組關(guān)聯(lián))”,國內(nèi)研究相繼出現(xiàn)了“全基因組關(guān)聯(lián)研究”“生物醫(yī)學”,雖然頻次相對較少,但也說明國內(nèi)醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究范疇正逐漸擴大,生物信息學相關(guān)研究正成為國內(nèi)外醫(yī)學數(shù)據(jù)挖掘領(lǐng)域新的發(fā)展前沿。
(4)國內(nèi)數(shù)據(jù)挖掘研究關(guān)鍵詞出現(xiàn)頻次最高的為中醫(yī)輔助傳承系統(tǒng)(76次),其次為組方規(guī)律(61次),以及證候要素、醫(yī)案、中藥、名老中醫(yī)、糖尿病等,說明目前國內(nèi)醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究前沿主要側(cè)重于中醫(yī)領(lǐng)域,慢性病研究居多,并逐漸應(yīng)用于醫(yī)院管理決策層面。而國際上研究范疇較廣,就研究內(nèi)容而言,重視技術(shù)與方法研究,側(cè)重于電子病歷臨床數(shù)據(jù)挖掘技術(shù)的研究,并應(yīng)用于臨床實踐,諸如自然語言處理、電子健康檔案、文本挖掘、預測、診斷等高頻詞(見表3、圖8)。YAMADA等[10]分析了血清清蛋白水平對乙型肝炎病毒非相關(guān)肝細胞癌的數(shù)據(jù)挖掘研究,SUDARSHAN等[11]研究了數(shù)據(jù)挖掘的框架在超聲心肌梗死階段的識別,TEIMOURI等[12]使用數(shù)據(jù)挖掘工具和技術(shù)檢測疾病醫(yī)療處方。
本研究借助文獻計量學方法和Citespace Ⅲ可視化功能,對1998—2016年CNKI和Web of ScienceTM數(shù)據(jù)庫中收錄的、以“數(shù)據(jù)挖掘”為主題的研究文獻,從發(fā)表時間、作者機構(gòu)及前沿熱點視角進行統(tǒng)計分析,探討國內(nèi)外醫(yī)學領(lǐng)域發(fā)展中的異同點,得出結(jié)論如下:第一,從時間序列上看,大數(shù)據(jù)挖掘研究已引起國內(nèi)外廣泛關(guān)注,該領(lǐng)域內(nèi)研究文獻發(fā)文量均呈增長趨勢;第二,新的數(shù)據(jù)挖掘方法逐漸得以應(yīng)用,已經(jīng)形成了多個熱點研究主題。通過知識圖譜對比分析后發(fā)現(xiàn),藥品信息、生物醫(yī)學領(lǐng)域是國內(nèi)外共同關(guān)注的研究熱點,區(qū)別是國內(nèi)側(cè)重中醫(yī)用藥規(guī)律、慢性病研究,并應(yīng)用于醫(yī)院管理決策。國際上側(cè)重電子健康檔案、文本挖掘等臨床數(shù)據(jù)研究,并將知識發(fā)現(xiàn)應(yīng)用于臨床實踐;第三,從高產(chǎn)作者和研究機構(gòu)來看,核心作者的群體帶頭作用暫未形成,依據(jù)普萊斯定律,國內(nèi)該領(lǐng)域研究高產(chǎn)作者群體帶頭作用有望形成(科研成果已達44.39%,接近50.00%)。數(shù)據(jù)挖掘研究成果較為突出的機構(gòu)主要集中在中醫(yī)藥大學等高校及研究所,表明其在中醫(yī)領(lǐng)域有了較好的發(fā)展。CNKI中醫(yī)學領(lǐng)域數(shù)據(jù)挖掘研究關(guān)鍵詞的共現(xiàn)圖譜(見圖5)顯示“中醫(yī)傳承輔助系統(tǒng)”,查閱相應(yīng)節(jié)點文獻分析得知,中國中醫(yī)科學院研發(fā)了中醫(yī)傳承數(shù)據(jù)挖掘系統(tǒng),在一定程度上推動了中醫(yī)藥領(lǐng)域數(shù)據(jù)挖掘的應(yīng)用發(fā)展,而對數(shù)據(jù)同樣豐富的臨床醫(yī)學來說,國內(nèi)臨床醫(yī)學數(shù)據(jù)挖掘研究成果與國外相比存在一定差距,需探索積極新的研究方向并深化研究,進而推動我國醫(yī)學科學研究的全面發(fā)展。
表2 CNKI中近5年醫(yī)學領(lǐng)域數(shù)據(jù)挖掘關(guān)鍵詞和中心度統(tǒng)計分析
Table 2 Analysis of the key words and centrality of the medical data mining from CNKI from 2010 to 2015
年度關(guān)鍵詞頻次中心度2015生物醫(yī)學150.05慢性萎縮性胃炎120.13組方用藥規(guī)律90.06R語言30.042014糖尿病260.00醫(yī)院管理160.01選穴規(guī)律130.03全基因組關(guān)聯(lián)研究50.092013決策支持210.03文本挖掘200.30針灸療法180.02藥物警戒180.08信息化170.012012中醫(yī)輔助傳承系統(tǒng)760.53組方規(guī)律610.20失眠120.042011醫(yī)案500.06中藥410.162010證候要素600.15名老中醫(yī)380.04藥品不良反應(yīng)200.04
表3 Web of ScienceTM數(shù)據(jù)庫中近5年醫(yī)學領(lǐng)域數(shù)據(jù)挖掘關(guān)鍵詞和中心度統(tǒng)計分析
Table 3 Analysis of the key words and centrality of the medical data mining from Web of ScienceTMfrom 2010 to 2015
年度關(guān)鍵詞頻次中心度2015risk-factors(危險因子)160.00electronicmedicalrecords(電子病歷)100.00adversedrugreaction(藥物不良反應(yīng))40.02immunizationsafetydata(免疫安全數(shù)據(jù))40.012014decisionsupportsystems(決策支持系統(tǒng))80.02ionizing-radiation(電離輻射)30.01outlierdetection(孤立點檢測)80.002013genome-wideassociation(全基因組關(guān)聯(lián))50.01cardiology(心臟病學)30.02medical-records(醫(yī)學記錄)120.032012systemsbiology(系統(tǒng)生物學)90.00supportvectormachine(支持向量機)80.03imagemining(圖像挖掘)60.01adverseevents(不良反應(yīng)事件)50.02clinical-practice(臨床實踐)30.01dataintegration(數(shù)據(jù)集成)80.002011biomarkers(生物標記)40.01radiologyreporting(放射學報告)30.00naturallanguageprocessing(自然語言處理)210.012010electronichealthrecords(電子健康檔案)200.05gene(基因)40.02
作者貢獻:石習敏進行文章的構(gòu)思與設(shè)計、數(shù)據(jù)收集與整理、結(jié)果分析與解釋、撰寫論文;石習敏、陳娟、楊均雪進行研究的實施與可行性分析;石習敏、陳娟進行論文修訂;趙文龍負責文章的質(zhì)量控制及審校,對文章整體負責,監(jiān)督管理。
本文無利益沖突。
本文研究不足之處:
本文外文數(shù)據(jù)庫僅選用了Web of ScienceTM數(shù)據(jù)庫,后期文章可嘗試選用PubMed數(shù)據(jù)庫進行綜合分析。
[1]中華人民共和國科學技術(shù)部.科技部基礎(chǔ)司組織召開大數(shù)據(jù)科學問題研討會[EB/OL].(2014-09-01)[2016-05-24].http://www.most.gov.cn/kjbgz/201408/t20140829_115309.htm. Ministry of Science and Technology of the People′s Republic of China.A large data science seminar organized by department of science and technology foundation [EB/OL].(2014-09-01)[2016-05-24].http://www.most.gov.cn/kjbgz/201408/t20140829_115309.htm.
[2]孫向東,黃曉琴,朱春倫,等.基于循證醫(yī)學的海量醫(yī)學數(shù)據(jù)挖掘分析方法研究[J].醫(yī)學信息學雜志,2015,36(3):11-16.DOI:10.3969/j.issn.1673-6036.2015.03.03. SUN X D,HUANG X Q,ZHU C L,et al.Research on massive medical data mining analysis method based on evidence-based medicine[J].Journal of Medical Intelligence,2015,36(3):11-16.DOI:10.3969/j.issn.1673-6036.2015.03.03.
[3]D·普賴斯.小科學·大科學[M].宋劍耕,戴振飛,譯.北京:世界知識出版社,1982:10-25. PRYSE D.Little science and big science[M].SONG J G,DAI Z F,translate.Beijing:World Knowledge Press,1982:10-25.
[4]CHEN C.Cite SpaceⅡ:detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359-377.DOI:10.1002/asi.20317.
[5]CHEN C,CHEN Y,HOROWITZ M,et al.Towards an explanatory and computational theory of scientific discovery [J].Journal of Informetrics,2009,3(3):191-209.DOI:10.1016/j.joi.2009. 03.004.
[6]陳仕吉.科學研究前沿探測方法綜述[J].現(xiàn)代圖書情報技術(shù),2009,25(9):28-33.DOI:10.11925/infotech.1003-3513.2009.09.05. CHEN S J.Survey of approaches to research front detection[J].New Technology of Library and Information Service,2009,25(9):28-33.DOI:10.11925/infotech.1003-3513.2009.09.05.
[7]孫雨生,陳衛(wèi).我國網(wǎng)格服務(wù)研究進展——基于CNKI(2003—2012)的文獻計量與知識圖譜分析[J].現(xiàn)代情報,2013,33(7):102-111.DOI:10.3969/j.issn.1008-0821.2013.07.024. SUN Y S,CHEN W.Research development of grid service in China——bibliometric and mapping knowledge domains analysis based on CNKI from 2003 to 2012[J].Modern Information,2013,33(7):102-111.DOI:10.3969/j.issn.1008-0821.2013.07.024.
[8]曾麗.國內(nèi)元數(shù)據(jù)研究的文獻計量分析[J].情報探索,2016,1(4):130-134.DOI:10.3969/j.issn.1005-8095.2016.04. 029. ZENG L.Bibliometric analysis of metadata researhes in China[J].Information Research,2016,1(4):130-134.DOI:10.3969/j.issn.1005-8095.2016.04.029.
[9]侯劍華,陳悅.戰(zhàn)略管理學前沿演進可視化研究[J].科學學研究,2007,25(z1):15-21.DOI:10.3969/j.issn.1003-2053.2007.z1.005. HOU J H,CHEN Y.Research on visualization of the evolution of strategic management front[J].Studies in Science of Science,2007,25(z1):15-21.DOI:10.3969/j.issn.1003-2053.2007.z1.005.
[10]YAMADA S,KAWAGUCHI A,KAWAGUCHI T,et al.Serum albumin level is a notable profiling factor for non-B,non-C hepatitis virus-related hepatocellular carcinoma:a data-mining analysis[J].Hepatology Research,2014,44(8):837-845.DOI:10.1111/hepr.12192.
[11]SUDARSHAN V K,ACHARYA U R,NG E Y,et al.Data mining framework for identification of myocardial infarction stages in ultrasound:a hybrid feature extraction paradigm(PART 2)[J].Comput Biol Med,2016,71:241-251.DOI:10.1016/j.compbiomed.2016.01.029.
[12]TEIMOURI M,FARZADFAR F,SOUDI ALAMDARI M,et al.Detecting diseases in medical prescriptions using data mining tools and combining techniques[J].Iran J Pharm Res,2016,15(Suppl):113-123.
(本文編輯:毛亞敏)
Visualization of Domestic and Abroad Medical Data Mining Based on Knowledge Mapping
SHIXi-min,CHENJuan,YANGJun-xue,ZHAOWen-long*
CollegeofMedicalInformatics,ChongqingMedicalUniversity,Chongqing400016,China
*Correspondingauthor:ZHAOWen-long,Professor;E-mail:cqzhaowl@163.com
In order to promote the development and application of medical data mining in China,we made a comparative analysis of the similarities and differences between the domestic and abroad researches based on quantitatively and qualitatively analyzing the articles about medical data mining included in CNKI and Web of ScienceTMfrom 1998 to 2016 using bibliometrics and knowledge mapping from the aspects of number of articles,core authors and research institutions,and the hotspot and research frontier.
Bibliometrics;Knowledge mapping;Data mining;Clinical medicine;Visualization
國家社會科學規(guī)劃項目(13BTQ004);重慶市自然科學規(guī)劃項目(cstc2015shmszx10004)——基于臨床大數(shù)據(jù)的醫(yī)療行為分析系統(tǒng)開發(fā)與研究
R-05
A
10.3969/j.issn.1007-9572.2017.04.y14
2017-01-22;
2017-03-27)
400016重慶市,重慶醫(yī)科大學醫(yī)學信息學院
*通信作者:趙文龍,教授;E-mail:cqzhaowl@163.com