佟旭等
1.北京中醫(yī)藥大學(xué),北京 100029;2.中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所,北京 100700
摘要:近年來,中醫(yī)藥臨床和科研數(shù)據(jù)呈指數(shù)級增長趨勢,使中醫(yī)藥數(shù)據(jù)的集成分析變成目前中醫(yī)界亟需解決的重要問題。本研究從中醫(yī)藥數(shù)據(jù)集成的背景和意義、現(xiàn)狀分析、數(shù)據(jù)可視化及應(yīng)用展望4個方面入手,分析在大數(shù)據(jù)背景下中醫(yī)藥數(shù)據(jù)集成分析的必要性及面臨的困難,并提出將數(shù)據(jù)可視化的方法用于數(shù)據(jù)集成分析,為深入探討中醫(yī)藥數(shù)據(jù)資源的合理利用提供新的視角。
關(guān)鍵詞:中醫(yī)藥;數(shù)據(jù)集成分析;可視化;診療模式
DOI:10.3969/j.issn.1005-5304.2015.08.001
中圖分類號:R2-05 文獻(xiàn)標(biāo)識碼:A 文章編號:1005-5304(2015)08-0001-03
Scientific Value of TCM Integrative Data Analysis in Big Data Era TONG Xu1, XIE Qing-yu2, MENG Qing-gang1 (1.Beijing University of Chinese Medicine, Beijing 100029, China;2.Institute of Basic Research in Clinical Medicine, China Academy of Chinese Medicine Sciences, Beijing 100700, China)
Abstract:In recent years, TCM integrative data analysis has become an important issue requiring urgent solution because of the trend of exponential growth of clinical and scientific TCM research data. This article analyzed the necessity and problems of TCM integrative data analysis from the aspects of background and significance of TCM integrative data, status analysis, data visualization, and application prospect, and put forward the idea of applying data visualization method to data integrative analysis, with a purpose to provide new angles for the reasonable application of TCM data resources.
Key words:traditional Chinese medicine;integrative data analysis;visualization;mode of diagnosis and treatment
2008年9月,《自然》雜志出版??癇ig Data:Science in the Petabyte Era”,使“大數(shù)據(jù)”一詞開始廣泛傳播[1]。如今大數(shù)據(jù)已引起各領(lǐng)域的廣泛關(guān)注。在探討大數(shù)據(jù)的科學(xué)價值時,有學(xué)者指出,高效處理非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)、建立新的數(shù)據(jù)表示方法、不同機(jī)構(gòu)間數(shù)據(jù)和信息的融合將是學(xué)界面臨的重要議題[2]。隨著中醫(yī)藥現(xiàn)代化研究的發(fā)展,中醫(yī)藥臨床和科研都取得了長足的發(fā)展,并隨之產(chǎn)生了大量類型復(fù)雜、種類繁多的醫(yī)療數(shù)據(jù)。茲從中醫(yī)藥數(shù)據(jù)集成分析這一角度切入,為中醫(yī)藥大數(shù)據(jù)的合理利用提供新的視角。
基金項(xiàng)目:國家科技支撐計(jì)劃(2013BAI02B10);國家自然科學(xué)基金(81273876);北京中醫(yī)藥大學(xué)科研創(chuàng)新團(tuán)隊(duì)項(xiàng)目(2011-CXTD-03);北京中醫(yī)藥大學(xué)研究生自主課題(2014-JYBZZ-XS-003)
通訊作者:孟慶剛,E-mail:mqgangzy@126.com
1 中醫(yī)藥數(shù)據(jù)集成的背景和意義
醫(yī)學(xué)數(shù)據(jù)是醫(yī)療臨床和科研的重要資源。飛速發(fā)展的高通量技術(shù)和新一代測序技術(shù)產(chǎn)生了巨大規(guī)模的組學(xué)(Omics)數(shù)據(jù),對醫(yī)療實(shí)踐和科研已產(chǎn)生了重大影響,如基因表達(dá)式的預(yù)測因子可以提高疾病早期診斷的準(zhǔn)確率,識別癌癥基因生物標(biāo)記物的基因組學(xué)研究已成功應(yīng)用于癌癥分級。同時,由于基因譜和基因組特性與表型的相關(guān)性會受到環(huán)境影響,蛋白質(zhì)和分子的結(jié)構(gòu)及其功能的表達(dá)不完全受控于基因表達(dá),蛋白質(zhì)組學(xué)研究也因此逐漸發(fā)展起來,并受到越來越多的重視。細(xì)胞、組織數(shù)據(jù)包含很多重要的空間結(jié)構(gòu)和形態(tài)信息,有文獻(xiàn)報道,包含空間結(jié)構(gòu)和形態(tài)信息的數(shù)據(jù)與組學(xué)數(shù)據(jù)相結(jié)合,可以成功將癌癥細(xì)化分為不同的等級和亞型[3]。因此有學(xué)者認(rèn)為,集成各層次、各水平的生物醫(yī)學(xué)數(shù)據(jù),是提高疾病診斷和預(yù)后準(zhǔn)確率的必要途徑,許多意想不到的發(fā)現(xiàn)和機(jī)遇就隱藏在大量數(shù)據(jù)資源集成的背后[4]。
隨著信息化技術(shù)的不斷進(jìn)步,中醫(yī)藥現(xiàn)代化研究飛速發(fā)展,無論基礎(chǔ)研究或臨床研究都取得了長足的發(fā)展,并隨之產(chǎn)生了大量類型復(fù)雜、種類繁多的醫(yī)療數(shù)據(jù)。將這些多層次、多水平的中醫(yī)藥數(shù)據(jù)資源與組學(xué)研究數(shù)據(jù)整合到一起,利用各類數(shù)據(jù)本身的特點(diǎn)和數(shù)據(jù)之間的互補(bǔ)性,可以幫助研究者更全面深入地理解和把握對生命和人體的認(rèn)識。然而,中醫(yī)藥數(shù)據(jù)本身的多元性和異構(gòu)性造成數(shù)據(jù)相互之間很難直接匹配,不能實(shí)現(xiàn)共享和有效利用。多元性指數(shù)據(jù)類型復(fù)雜,包括圖譜、文本、結(jié)構(gòu)和圖像等多元形式。數(shù)據(jù)異構(gòu)性體現(xiàn)在醫(yī)學(xué)數(shù)據(jù)庫固有的系統(tǒng)性異構(gòu)、技術(shù)性異構(gòu)和語義性異構(gòu)等方面。在實(shí)際情況中,中醫(yī)藥數(shù)據(jù)庫之間往往同時存在多種異構(gòu),這更造成了數(shù)據(jù)有效利用的困難與復(fù)雜程度。因此,數(shù)據(jù)集成就成為目前實(shí)現(xiàn)中醫(yī)藥數(shù)據(jù)資源有效整合的主要研究方向,它可以把不同來源和不同格式的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而實(shí)現(xiàn)全面的數(shù)據(jù)共享。數(shù)據(jù)集成的核心任務(wù)是將相互關(guān)聯(lián)的異構(gòu)數(shù)據(jù)源集中到一起,以滿足用戶的訪問需求。
2 中醫(yī)藥數(shù)據(jù)的集成分析
在中醫(yī)藥理論中,方劑是在整體觀念和辨證論治原則指導(dǎo)下,依據(jù)藥性理論和功能主治,按君、臣、佐、使的配伍法則,將中藥組合而成的有結(jié)構(gòu)、有層次的有機(jī)整體。方藥配伍效應(yīng)不是某一特定成分或靶點(diǎn)的作用,而是由不同成分、靶點(diǎn)和環(huán)節(jié)組成的復(fù)雜系統(tǒng)在人體內(nèi)有次序的整體調(diào)節(jié)效應(yīng)。通過基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)技術(shù),可以構(gòu)建人體復(fù)雜系統(tǒng)與方劑復(fù)雜化學(xué)體系之間相互作用的網(wǎng)絡(luò)模型,幫助研究者進(jìn)一步解釋細(xì)胞的生物化學(xué)運(yùn)作體系,揭示功能性細(xì)胞網(wǎng)絡(luò)與方劑干預(yù)的相互作用機(jī)制。
目前已有研究者利用組學(xué)數(shù)據(jù)深入探討中藥方劑多靶點(diǎn)的作用機(jī)制[5],以及利用基因芯片、基于雙向電泳-質(zhì)譜鑒定的蛋白質(zhì)組學(xué)等,高通量地分析、鑒別和鑒定中藥作用的差異蛋白或基因,并借助生物信息學(xué)技術(shù),分析中藥作用的可能靶標(biāo)(譜)[6]。組學(xué)研究與中醫(yī)藥研究數(shù)據(jù)集成分析的初步研究已取得一些成果,但多停留在方劑藥效作用機(jī)制探討的階段。將組學(xué)研究數(shù)據(jù)與診療過程中患者的四診信息和理化檢查結(jié)果建立關(guān)聯(lián)規(guī)則,是臨床數(shù)據(jù)與科研數(shù)據(jù)集成分析的關(guān)鍵環(huán)節(jié),然而目前的研究還難以實(shí)現(xiàn)這一目標(biāo)。
四診合參是中醫(yī)臨床獲得患者生理病理信息,進(jìn)而綜合分析、探求疾病本質(zhì)的重要手段,是中醫(yī)整體觀念在臨床診療中的體現(xiàn),在千百年來的醫(yī)療實(shí)踐中不斷發(fā)展并傳承下來。不同于傳統(tǒng)的中醫(yī)診療模式,當(dāng)代中醫(yī)師除了需要通過望、聞、問、切全面收集患者的四診信息,還需結(jié)合生化、物理、影像等多種檢查結(jié)果以獲得對患者病情的綜合認(rèn)識和全面把握。中醫(yī)電子病歷系統(tǒng)包含患者四診信息、理化檢查、診斷及治療等全過程的記錄,它將中醫(yī)診療實(shí)踐活動真實(shí)地記錄并保存下來,是臨床診療記錄的重要組成部分,也是中醫(yī)臨床信息的主要數(shù)據(jù)來源。然而,現(xiàn)有的電子病例系統(tǒng)多為獨(dú)立架構(gòu),醫(yī)院之間難以實(shí)現(xiàn)數(shù)據(jù)共享和有效利用,形成一個個“信息孤島”,給海量數(shù)據(jù)采集和分析造成很大的障礙。因此,建立新的數(shù)據(jù)表示方法,深入探討中醫(yī)藥不同維度信息的關(guān)聯(lián)規(guī)則是目前亟需解決的問題。
3 中醫(yī)藥數(shù)據(jù)的可視化
可視化是指利用計(jì)算機(jī)圖形學(xué)和圖像處理分析技術(shù),將各種數(shù)據(jù)依據(jù)其特點(diǎn)轉(zhuǎn)換為相應(yīng)的圖形圖像,進(jìn)而通過圖形的表現(xiàn)形式進(jìn)行信息表達(dá)和傳遞的過程,包括科學(xué)可視化、信息可視化和可視分析3個主要分支?!按髷?shù)據(jù)”時代帶來前所未有的海量醫(yī)學(xué)數(shù)據(jù),而人處理和理解數(shù)據(jù)的能力卻非常有限。因此,利用數(shù)據(jù)可視化的視覺呈現(xiàn)方法將醫(yī)學(xué)數(shù)據(jù)映射為視覺符號,通過人類視覺系統(tǒng)的高帶寬,可以幫助研究者快速獲取和理解其中所蘊(yùn)含的規(guī)律和知識。
醫(yī)學(xué)文獻(xiàn)作為醫(yī)學(xué)信息的主要載體,是醫(yī)學(xué)領(lǐng)域工作者獲取知識、交流、傳播信息的最基本方式。因此,基于文獻(xiàn)計(jì)量的可視化分析工具就成為幫助研究者快速準(zhǔn)確掌握相關(guān)學(xué)科動態(tài)的有效方法。目前,國際應(yīng)用較多的文獻(xiàn)可視化工具有Thomson Data Analyzer(TDA)、CiteSpace、Histcite、Vxinsight、DIVA等。其中,CiteSpace是近幾年來美國信息可視化領(lǐng)域最有特色和影響力的應(yīng)用軟件。諸多學(xué)者利用CiteSpace進(jìn)行相關(guān)研究并報道CiteSpace對于研究前沿和熱點(diǎn)問題的可視化表達(dá)的優(yōu)越之處[7-8]。Histcite對引文數(shù)據(jù)庫中的文獻(xiàn)數(shù)據(jù)進(jìn)行計(jì)量處理,進(jìn)而生成引文編年圖和引文矩陣,幫助醫(yī)學(xué)研究者輕松直觀地追蹤學(xué)科發(fā)展的動向。除了專業(yè)的文獻(xiàn)可視化軟件,還有許多網(wǎng)站和平臺通過新穎的技術(shù)和思路為研究者們提供文獻(xiàn)可視化研究的新方法。SciTrend是一個提供文獻(xiàn)可視化服務(wù)的網(wǎng)站,它通過對研究者查找文獻(xiàn)的關(guān)鍵詞和Mesh詞隨年代變化的分析,來判斷重點(diǎn)醫(yī)學(xué)研究的演變和影響。有研究者基于文獻(xiàn)計(jì)量學(xué),分別把有關(guān)細(xì)胞基因、動物、人體的文獻(xiàn)作為3個節(jié)點(diǎn),投射到可視化圖譜上,通過3點(diǎn)之間的距離變化來判斷轉(zhuǎn)化醫(yī)學(xué)的發(fā)展動態(tài)[9]。
科學(xué)可視化對測量、實(shí)驗(yàn)、模擬等獲得的數(shù)據(jù)進(jìn)行繪制,并提供交互分析手段,方法涉及計(jì)算機(jī)圖形學(xué)、圖像處理、人機(jī)交互等眾多學(xué)科。醫(yī)學(xué)領(lǐng)域中,高通量技術(shù)帶來的組學(xué)數(shù)據(jù)大爆炸,使復(fù)雜生物網(wǎng)絡(luò)數(shù)據(jù)等空間數(shù)據(jù)的可視化表達(dá)和分析變得日益重要。BiNA是一個組學(xué)網(wǎng)絡(luò)數(shù)據(jù)的可視化工具,不僅可以直接導(dǎo)入組學(xué)數(shù)據(jù)的平面文件,還能分析組學(xué)網(wǎng)絡(luò)數(shù)據(jù)間的聯(lián)系,并將結(jié)果可視化表達(dá)。這種可視化工具和方法對于組學(xué)數(shù)據(jù)的集成研究是十分有利的。VisBricks是一個大規(guī)模異構(gòu)數(shù)據(jù)的可視化表示工具,它可以將不同來源的數(shù)據(jù)以不同的形式進(jìn)行可視化表達(dá),并可以將超大規(guī)模的數(shù)據(jù)有機(jī)地分成數(shù)個小的可視化表達(dá)單元,根據(jù)用戶的需要,將數(shù)據(jù)按特點(diǎn)、維度、功能等進(jìn)行不同層次的可視化表示。中藥數(shù)據(jù)、方劑功效機(jī)制研究數(shù)據(jù),以及中醫(yī)藥臨床的患者四診數(shù)據(jù)、理化檢查數(shù)據(jù),都具有規(guī)模巨大、類型復(fù)雜多樣的特點(diǎn),通過科學(xué)可視化的方法將這些復(fù)雜的空間數(shù)據(jù)呈現(xiàn)為研究者們易于理解的視覺表達(dá)符號,可以為中醫(yī)藥數(shù)據(jù)的表示方法這一環(huán)節(jié)提供有效的幫助。
4 中醫(yī)藥數(shù)據(jù)集成分析的應(yīng)用展望
中醫(yī)千百年來的醫(yī)療實(shí)踐,經(jīng)歷了從“神農(nóng)嘗百草”式的隨機(jī)治療,到馬王堆醫(yī)書《五十二病方》呈現(xiàn)的對癥治療,從《黃帝內(nèi)經(jīng)》提出“謹(jǐn)守病機(jī),各司其屬”的審機(jī)論治,到《傷寒雜病論》“觀其脈證,知犯何逆,隨證治之”初步形成的辨證論治。在漫長的發(fā)展過程中,中醫(yī)診療模式逐漸被理解為醫(yī)生通過望、聞、問、切收集患者的四診信息,綜合分析以獲得對患者病情的全面認(rèn)識和把握,進(jìn)而選擇最佳治療方法的過程。在這種傳統(tǒng)診療模式中,望、聞、問、切是醫(yī)生獲得人體陰陽盛衰、正邪斗爭狀況等“精微信息”的主要手段。然而,隨著現(xiàn)代醫(yī)療手段的不斷進(jìn)步,生化、物理、影像等多種檢查結(jié)果已成為當(dāng)代中醫(yī)臨證必須考慮的重要因素,不僅是辨證論治的依據(jù),也是中醫(yī)臨床療效的佐證,還可進(jìn)一步充實(shí)和豐富傳統(tǒng)的“辨證論治”診療模式,使辨證論治得到不斷深化和完善。對于某些疾病,實(shí)驗(yàn)室檢查結(jié)果甚至可以直接用于指導(dǎo)中醫(yī)臨床治療;同時,隨著微觀辨證學(xué)認(rèn)識的不斷發(fā)展,醫(yī)生觀察的維度可以深入到細(xì)胞化學(xué)、神經(jīng)遞質(zhì)、免疫調(diào)節(jié)乃至基因水平,解釋病證傳變規(guī)律,進(jìn)而闡明方劑干預(yù)的作用機(jī)制,為臨床決策提供依據(jù)。
在中醫(yī)藥數(shù)據(jù)集成分析的支持下,“四診合參”所獲得的診療信息將更加豐富,“辨證論治”的傳統(tǒng)診療模式也將得到不斷充實(shí)和完善。在未來科研和醫(yī)療實(shí)踐中,基于中醫(yī)藥的數(shù)據(jù)集成分析,通過全方位地將患者癥狀、實(shí)驗(yàn)室檢查、基因、組學(xué)等多層次的數(shù)據(jù)和信息整合于臨證過程,醫(yī)生所獲得的診療信息將不再是診療瞬間的“時間快照”,而是記錄著患者遺傳特征、表型特性、免疫調(diào)節(jié)、發(fā)病傾向等生命過程的“全程錄像”;醫(yī)生對患者的了解將從疾病的發(fā)生、發(fā)展和預(yù)后等疾病信息,擴(kuò)展到患者的出生、成長、易感病預(yù)防、健康保健等“個體信息”;中醫(yī)藥數(shù)據(jù)集成分析幫助醫(yī)生獲取并有效利用患者多方面的信息,中醫(yī)“整體觀”“治未病”“個體化”的醫(yī)療理念也會因此得到更長足的深化和發(fā)展。
5 結(jié)語
未來醫(yī)療領(lǐng)域的發(fā)展趨勢是科研數(shù)據(jù)與臨床數(shù)據(jù)的全方位結(jié)合,醫(yī)療信息資源的全面共享和有效利用,逐步實(shí)現(xiàn)醫(yī)療信息和醫(yī)療資源的優(yōu)化配置。中醫(yī)藥數(shù)據(jù)的集成分析力求科研數(shù)據(jù)與臨床數(shù)據(jù)的全面整合,促進(jìn)數(shù)據(jù)資源的合理有效利用,為中醫(yī)藥領(lǐng)域帶來新的發(fā)現(xiàn)和機(jī)遇。
參考文獻(xiàn):
[1] 陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報,2013,25(S):142-146.
[2] 李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657.
[3] Tanya B, Dennis BT, Stephen EW, et al. NCBI GEO:archive for functional genomics data sets - 10 years on[J]. Nucleic Acids Research,2011,39(1):D1001-D1005.
[4] John HP, Chang FQ, Cheng C, et al. Multiscale integration of Omic, imaging, and clinical data in biomedical informatics[J]. IEEE Reviews in Biomedical Engineering,2012,5:74-87.
[5] 王廣基,郝海平,阿基業(yè).代謝組學(xué)在中藥方劑整體藥效作用及機(jī)制研究中的應(yīng)用與展望[J].中國天然藥物,2009,7(2):82-89.
[6] 孫學(xué)剛.方劑組學(xué):一種基于方劑提取物質(zhì)控的中醫(yī)藥轉(zhuǎn)化醫(yī)學(xué)研究策略[J].中藥藥理與臨床,2011,27(3):120-122.
[7] Qi Y, Shao HF, He PF, et al. World scientific collaboration in coronary heart disease research[J]. International Journal of Cardiology,2013,167(3):631-639.
[8] Chen Chaomei, Hu Zhigang, Liu Shengbo, et al. Emerging trends in regenerative medicine:a scientometric analysis in CiteSpace[J]. Expert Opinion on Biological Therapy,2012,12(5):593-608.
[9] Griffin MW. Identifying translational science within the triangle of biomedicine[J]. Journal of Translational Medicine, 2013,11(1):126-136.
(收稿日期:2014-05-22;編輯:梅智勝)