国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)于中醫(yī)藥數(shù)據(jù)挖掘研究理念變遷的探討

2017-02-28 07:48胡雪琴楊寅崔蒙
關(guān)鍵詞:數(shù)據(jù)挖掘中醫(yī)藥大數(shù)據(jù)

胡雪琴+楊寅+崔蒙

摘要:中醫(yī)藥數(shù)據(jù)挖掘工作已開展近20余年,在此過程中,中醫(yī)藥數(shù)據(jù)挖掘的理念在不斷變遷。按年代的先后順序,其變遷大致可以分為3個(gè)階段。國家科技計(jì)劃“九五”和“十五”期間是第一階段,是起始階段,這一階段中醫(yī)藥數(shù)據(jù)挖掘研究的特征遵循“大數(shù)據(jù)”的三大理念;“十一五”和“十二五”期間是第二階段,是全盛時(shí)期,這一階段中醫(yī)藥數(shù)據(jù)挖掘研究的特征是遵循“精準(zhǔn)醫(yī)學(xué)”三大理念;第三階段主要是國家科技計(jì)劃的“十三五”和“十四五”期間,是突破創(chuàng)新階段,這一階段將受人工智能影響,試圖發(fā)現(xiàn)可以超越個(gè)體的、適用于中醫(yī)臨床的優(yōu)秀群體經(jīng)驗(yàn)。

關(guān)鍵詞:中醫(yī)藥;數(shù)據(jù)挖掘;大數(shù)據(jù)

中圖分類號(hào):R2-05 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-5707(2017)01-0012-04

Abstract: TCM data mining has been carried out for nearly twenty years. In this process, the concept of TCM data mining is constantly changing. According to the chronological order, there were three stages of changing: the national science and technology program of “The Ninth Five-Year Plan” and “The Tenth Five-Year Plan” period was the first stage, which was the initial stage of TCM data mining research, and the characteristic of this stage followed the “three concepts of big data”; the second stage was during “11th Five-Year and 12th Five-Year Plan” of the national science and technology program period, which was the heyday of TCM data mining research, and the characteristic of this stage followed the three concepts of "Precision Medicine"; the third stage was during the “13th Five-Year and 14th Five-Year Plan” of national science and technology program period, which was the breakthrough innovation stage of TCM data mining. This stage will be affected by the artificial intelligent, trying to find the experience of outstanding groups that can be suitable for TCM clinic.

Key words: traditional Chinese medicine; data mining; big data

數(shù)據(jù)挖掘(data mining)是數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(knowledge-discovery in databases, KDD)過程中的一個(gè)步驟。具體來說,KDD由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識(shí)表示這7個(gè)步驟組成和完成;根據(jù)其功能,數(shù)據(jù)挖掘可定義為從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識(shí)的過程[1]。數(shù)據(jù)挖掘是一門新興的交叉性學(xué)科,融合了人工智能、數(shù)據(jù)庫技術(shù)、模式識(shí)別、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)和數(shù)據(jù)可視化等多個(gè)領(lǐng)域的理論和技術(shù)[2]。數(shù)據(jù)挖掘技術(shù)已被應(yīng)用于計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用、自動(dòng)化技術(shù)、互聯(lián)網(wǎng)技術(shù)、企業(yè)經(jīng)濟(jì)及中醫(yī)學(xué)等多個(gè)學(xué)科領(lǐng)域中。

如果世界是由物質(zhì)、能量和信息三大要素構(gòu)成的,那么中醫(yī)藥學(xué)由于其產(chǎn)生的時(shí)代背景所限,其研究的主要世界構(gòu)成要素必然是信息[3]。定性或定量化的信息亦即數(shù)據(jù),對于信息的獲取、存儲(chǔ)、處理和傳播都具有極其重要的意義。而數(shù)據(jù)挖掘在數(shù)據(jù)處理中占有極為重要的地位。通過數(shù)據(jù)挖掘,可以發(fā)現(xiàn)中醫(yī)藥學(xué)概念間的關(guān)聯(lián)關(guān)系、新的知識(shí),甚或新的規(guī)律,這對于促進(jìn)中醫(yī)藥理論、方法、技術(shù)的進(jìn)步,大力提高中醫(yī)臨床療效,加快中藥新藥研發(fā)均具有重要意義。因而,近20余年來中醫(yī)藥領(lǐng)域在不斷地開展數(shù)據(jù)挖掘研究工作。隨著科技的不斷發(fā)展和創(chuàng)新,中醫(yī)藥數(shù)據(jù)挖掘的理念也在不停地變遷。按年代的先后順序,其變遷大致可以分為3個(gè)階段:起始階段、全盛時(shí)期和突破創(chuàng)新階段。

1 起始階段,數(shù)據(jù)積累

第一階段大約是在1995-2005年,主要在國家科技計(jì)劃“九五”和“十五”期間。這是中醫(yī)藥數(shù)據(jù)挖掘研究的肇始階段,中醫(yī)藥數(shù)據(jù)挖掘工作尚未得到充分重視。在這一時(shí)期,中醫(yī)藥數(shù)據(jù)挖掘主要是遵循了大數(shù)據(jù)的三大理念,即全數(shù)據(jù)、混雜性和相關(guān)關(guān)系[4]。具體地說,就是盡可能地收集所能收集到的全部數(shù)據(jù),把所有能夠收集到的數(shù)據(jù)混雜在一起進(jìn)行分析,分析的重點(diǎn)是發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。該階段研究的目的是試圖發(fā)現(xiàn)中醫(yī)藥“書同文、車同軌”的“大一統(tǒng)”規(guī)律。換言之,就是發(fā)現(xiàn)如同西醫(yī)一樣,適用于所有情況的中醫(yī)藥統(tǒng)一規(guī)律。盡管那個(gè)時(shí)期大數(shù)據(jù)這個(gè)概念還沒有提出,大數(shù)據(jù)理念也沒有彰顯,但中醫(yī)藥數(shù)據(jù)挖掘的研究工作,卻提前不自覺地遵循了大數(shù)據(jù)的三大理念。

該階段內(nèi),中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所匯集了所有有出處的方劑(約10萬余首),研制了方劑數(shù)據(jù)庫,并將其結(jié)構(gòu)化,用高頻集的方法去探尋方劑組成規(guī)律,亦即方劑配伍規(guī)律。進(jìn)行方劑數(shù)據(jù)挖掘的結(jié)果,成功發(fā)現(xiàn)了以方核為基礎(chǔ)的方劑衍變軌跡,探索了高頻藥對出現(xiàn)的規(guī)律,但無法發(fā)現(xiàn)方劑配伍的規(guī)律,更不可能將此研究成果直接用于中醫(yī)臨床處方用藥或中藥新藥開發(fā)。同時(shí)期,亦將所能收集到的中醫(yī)藥治療疾病的文獻(xiàn)匯集,研制中醫(yī)臨床數(shù)據(jù)庫,并按系統(tǒng)或病種將其結(jié)構(gòu)化,用聚類挖掘的方法探尋中醫(yī)臨床診療規(guī)律,也就是中醫(yī)臨床辨證論治規(guī)律。進(jìn)行中醫(yī)臨床數(shù)據(jù)挖掘的結(jié)果,成功總結(jié)了中醫(yī)臨床某個(gè)證候或疾病能夠出現(xiàn)的癥狀、所用的治則、選用的方劑和藥物,但卻無法發(fā)現(xiàn)中醫(yī)辨證論治的規(guī)律。

這一階段還開展了很多類似的研究工作,也取得了一些成績,但始終無法真正提高中醫(yī)臨床療效、促進(jìn)中藥新藥開發(fā)、豐富和發(fā)展中醫(yī)藥理論。這促使中醫(yī)藥信息學(xué)研究者認(rèn)真反思此階段的研究工作在指導(dǎo)理念上是否存在問題。經(jīng)過認(rèn)真研究、思考,發(fā)現(xiàn)中醫(yī)藥在實(shí)際運(yùn)用中有著很強(qiáng)的個(gè)體化特征,企圖將其變?yōu)榕c西醫(yī)學(xué)一樣的、具有大一統(tǒng)規(guī)律的醫(yī)學(xué)是不實(shí)際的,中醫(yī)藥數(shù)據(jù)挖掘研究必須依照中醫(yī)藥學(xué)自身特色和數(shù)據(jù)規(guī)律。

2 全盛時(shí)期,數(shù)據(jù)共享

第二階段大約是在2006-2015年,主要在國家科技計(jì)劃“十一五”和“十二五”期間。這是中醫(yī)藥數(shù)據(jù)挖掘研究的全盛時(shí)期,國家投入了大量科研經(jīng)費(fèi)、部署了大量科研項(xiàng)目用于開展中醫(yī)藥數(shù)據(jù)挖掘研究工作。在此期間,幾乎所有的中醫(yī)藥科研項(xiàng)目均或多或少地開展了數(shù)據(jù)挖掘研究。特別是大數(shù)據(jù)理念提出后,數(shù)據(jù)作為重要的科研資源共享,得到了越來越多的重視。在這一時(shí)期,中醫(yī)藥數(shù)據(jù)挖掘研究主要是遵循精準(zhǔn)醫(yī)學(xué)三大理念,即個(gè)體化、系統(tǒng)化、整體化[5]。個(gè)體化就是將醫(yī)生視為個(gè)體,所研究的重點(diǎn)是個(gè)體醫(yī)生的辨證論治經(jīng)驗(yàn),甚或其學(xué)術(shù)思想;系統(tǒng)化就是不僅將醫(yī)生視為個(gè)體,同時(shí)也將患者視為個(gè)體,個(gè)體醫(yī)生與個(gè)體患者組成了一個(gè)系統(tǒng),研究重點(diǎn)是發(fā)現(xiàn)這個(gè)系統(tǒng)所收集到的數(shù)據(jù)隨時(shí)間變化產(chǎn)生的規(guī)律;整體化就是將作為研究對象的個(gè)體醫(yī)生所有能夠收集到的數(shù)據(jù)都收集起來,作為一個(gè)整體進(jìn)行數(shù)據(jù)挖掘,以期發(fā)現(xiàn)其處方用藥規(guī)律。研究目的是試圖發(fā)現(xiàn)“小國寡民”的個(gè)性化規(guī)律;換言之,就是發(fā)現(xiàn)遵循傳統(tǒng)中醫(yī)個(gè)體化診療的規(guī)律。當(dāng)然,那個(gè)時(shí)期,精準(zhǔn)醫(yī)學(xué)的理念還沒有提出,中醫(yī)藥界也不知道精準(zhǔn)醫(yī)學(xué)的三大理念,但中醫(yī)藥數(shù)據(jù)挖掘的研究工作確實(shí)提前遵循了精準(zhǔn)醫(yī)學(xué)的這三大理念。

在此期間,中醫(yī)藥數(shù)據(jù)挖掘研究工作的重點(diǎn)是名老中醫(yī)經(jīng)驗(yàn)挖掘,中醫(yī)藥領(lǐng)域開展了大量名老中醫(yī)經(jīng)驗(yàn)挖掘的科研工作。例如,中國中醫(yī)科學(xué)院廣安門醫(yī)院以王映輝研究員為首的研究團(tuán)隊(duì)認(rèn)為,采集名老中醫(yī)辨證論治醫(yī)案,可分析其辨證經(jīng)驗(yàn)、用藥經(jīng)驗(yàn)等[6]。他們指出,辨證經(jīng)驗(yàn)是指醫(yī)生綜合患者的臨床表現(xiàn)、檢驗(yàn)檢查結(jié)果等信息,分析判斷后,形成的對患者綜合性的判斷,是用藥基礎(chǔ)。辨證經(jīng)驗(yàn)包括的內(nèi)容主要有癥狀與證候的關(guān)系、疾病的證候特征,以及證候相兼規(guī)律等。用藥經(jīng)驗(yàn)是指醫(yī)生根據(jù)所辨證候及兼證、兼癥等選方用藥的情況。一般而言,醫(yī)生針對某一類具體病證有一個(gè)核心處方,核心處方的配伍是相對固定的,同時(shí),由于每個(gè)患者的個(gè)體化特征,臨證常有加減變化。有的醫(yī)生是針對某一病有一核心處方,有的則針對某一病的某一證才有核心處方。分析挖掘名老中醫(yī)的臨床經(jīng)驗(yàn),其核心內(nèi)容有2個(gè):一是“如何確定證”,即辨證經(jīng)驗(yàn);二是“如何確定治”,即用藥經(jīng)驗(yàn)。為全面分析辨證經(jīng)驗(yàn)及用藥經(jīng)驗(yàn),需要全面考慮其涉及的臨床要素,總結(jié)其辨證及用藥經(jīng)驗(yàn)。

類似的研究在全國各地開展很多,均取得了顯著成績。但這些研究結(jié)果很難高于名老中醫(yī)個(gè)人對于具體病證的認(rèn)識(shí),因而對總結(jié)經(jīng)驗(yàn)多有裨益,對提高具體病證領(lǐng)域的最高中醫(yī)診療水平則幫助有限。經(jīng)過認(rèn)真分析研究,得出結(jié)論:中醫(yī)固然是經(jīng)驗(yàn)醫(yī)學(xué),但其提高不能只依賴于個(gè)人感悟,只有發(fā)揮行業(yè)整體優(yōu)勢,才能實(shí)現(xiàn)中醫(yī)藥的跨越式發(fā)展。

3 突破創(chuàng)新階段,數(shù)據(jù)轉(zhuǎn)化

第三階段預(yù)測在2016-2025年,主要是國家科技計(jì)劃“十三五”和“十四五”期間,這是中醫(yī)藥數(shù)據(jù)挖掘的突破創(chuàng)新階段。這一階段中醫(yī)藥數(shù)據(jù)挖掘的定位將是以市場需求為導(dǎo)向,通過患者提供的信息,將數(shù)據(jù)直接轉(zhuǎn)化為衛(wèi)生保健知識(shí),讓患者在治療過程中發(fā)揮更積極的作用,從而讓數(shù)據(jù)挖掘的價(jià)值得到最大程度的體現(xiàn)。中國中醫(yī)科學(xué)院唱獨(dú)角戲的研究主體中也將融入更多醫(yī)療服務(wù)企業(yè)的加入,研究對象從科研型結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)向移動(dòng)終端的海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變。這一戰(zhàn)略轉(zhuǎn)變將推動(dòng)一系列新的軟件、服務(wù)和應(yīng)用更快地進(jìn)入市場,有可能為中醫(yī)藥理論完善、臨床療效提高和新藥創(chuàng)制提供支撐。

在此階段,IBM公司的最新電腦系統(tǒng)Watson將是醫(yī)療認(rèn)知計(jì)算系統(tǒng)的杰出代表。2015年4月,Watson Health成立,標(biāo)志著IBM Watson正式涉足醫(yī)療行業(yè)。Watson在海量的大數(shù)據(jù)環(huán)境中不斷進(jìn)行學(xué)習(xí),不僅是認(rèn)知計(jì)算,而是認(rèn)知計(jì)算和大數(shù)據(jù)、分析和決策的復(fù)雜相互作用的結(jié)果。醫(yī)療機(jī)構(gòu)在與Watson合作的同時(shí),使得醫(yī)學(xué)研究人員在認(rèn)知計(jì)算領(lǐng)域得到了知識(shí)的擴(kuò)展。

在中醫(yī)藥領(lǐng)域,中醫(yī)藥數(shù)據(jù)挖掘的理念也將深受Watson認(rèn)知計(jì)算的影響,針對中醫(yī)優(yōu)秀群體診療經(jīng)驗(yàn)的中醫(yī)藥數(shù)據(jù)挖掘平臺(tái)也必須具備理解、推理、不斷學(xué)習(xí)及強(qiáng)大分析的能力。但是,由于中醫(yī)藥數(shù)據(jù)屬于知識(shí)密集型數(shù)據(jù)[7],其特點(diǎn)是知識(shí)密集度高,特別是醫(yī)案文獻(xiàn)數(shù)據(jù)是古代醫(yī)家在臨床診治中的心得體會(huì),是醫(yī)家探索總結(jié)的一種智慧體現(xiàn),蘊(yùn)含了大量的隱性知識(shí),而這些隱性知識(shí)具有很強(qiáng)的知識(shí)發(fā)現(xiàn)潛質(zhì)。但中醫(yī)藥知識(shí)密集型數(shù)據(jù)的描述和表達(dá)是粗糙的,數(shù)據(jù)語義與內(nèi)涵邏輯根本就沒有邏輯性或者不能明確表達(dá),這就為數(shù)據(jù)抽取和數(shù)據(jù)清洗帶來了巨大困難。

尤其是隨著海量移動(dòng)客戶端數(shù)據(jù)的涌入,將更容易獲得用戶的各種行為信息,例如所有的臨床檢驗(yàn)信息、處方信息、個(gè)體信息、疾病史信息及保險(xiǎn)信息等。數(shù)據(jù)清洗面臨的數(shù)據(jù)源更加復(fù)雜,例如問答、搜索、下載、上傳的各種數(shù)據(jù)等等。數(shù)據(jù)抽取也將面臨更大的挑戰(zhàn),例如歧義、語義變換,及無結(jié)構(gòu)數(shù)據(jù)抽取模板的學(xué)習(xí)等。在中醫(yī)學(xué)臨床應(yīng)用的場景中,由于數(shù)據(jù)抽取的質(zhì)量與臨床診療的療效相關(guān),因此對抽取工作的準(zhǔn)確率、召回率的要求就更加高。希望通過對Watson理念的學(xué)習(xí),能夠建立起中醫(yī)藥數(shù)據(jù)挖掘第三階段的理念和方法,即由之前的“模擬”名老中醫(yī)診療成為“多種傳感器和大規(guī)模數(shù)據(jù)庫,通過多種算法和機(jī)器的學(xué)習(xí),來完成分散的任務(wù)”,能將優(yōu)秀中醫(yī)群體智慧成功地用于證候診斷和處方用藥上,那么對提高中醫(yī)臨床療效將具有不可估量的作用。

2016年3月,阿爾法圍棋(AlphaGo)對戰(zhàn)世界圍棋冠軍、職業(yè)九段選手李世石,并以4︰1的總比分獲勝。AlphaGo的工作原理有2個(gè):一是“深度學(xué)習(xí)”,二是“兩個(gè)大腦”,即通過2個(gè)不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來改進(jìn)下棋。在給定棋子位置情況下預(yù)測每一個(gè)棋手贏棋的可能。對于中醫(yī)藥數(shù)據(jù)挖掘來說,如果能將AlphaGo“深度學(xué)習(xí)”的工作原理發(fā)展應(yīng)用于中醫(yī)優(yōu)秀群體的診療經(jīng)驗(yàn)學(xué)習(xí),將“監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)”與棋局評估器雙大腦的模式發(fā)展應(yīng)用于具體疾病診療,那么針對中醫(yī)優(yōu)秀群體的醫(yī)生診療數(shù)據(jù)挖掘?qū)⒖蓪?shí)現(xiàn)。

無論是Watson還是AlphaGo,都是集中了人類優(yōu)秀智慧解決問題。盡管中醫(yī)面對的問題比Watson和AlphaGo面對的問題要復(fù)雜很多,但如果中醫(yī)藥數(shù)據(jù)挖掘在受Watson和AlphaGo的啟發(fā)和影響下,試圖發(fā)現(xiàn)可以超越個(gè)體的、適用于中醫(yī)臨床的優(yōu)秀群體經(jīng)驗(yàn)。那么在下一個(gè)10年,中醫(yī)藥數(shù)據(jù)挖掘研究有可能突破瓶頸,所取得的進(jìn)展對中醫(yī)藥學(xué)的發(fā)展將是至關(guān)重要的。

參考文獻(xiàn)

[1] 韓家煒, KAMBER M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2007:3.

[2] 王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2004, 32(2):246-252.

[3] 崔蒙,李海燕,雷蕾,等.“大數(shù)據(jù)”時(shí)代與中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)[J].中國中醫(yī)藥圖書情報(bào)雜志,2013,37(3):1-3.

[4] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.

[5] 吳家睿.建立在系統(tǒng)生物學(xué)基礎(chǔ)上的精準(zhǔn)醫(yī)學(xué)[J].生命科學(xué),2015, 27(5):558-563.

[6] 張華東,趙冰,王映輝,等.謝海洲“治痹三要四宜”學(xué)術(shù)思想之信息化研究[J].湖北中醫(yī)雜志,2008,30(11):5-6.

[7] 崔蒙,楊寅.關(guān)于中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)的思考[J].中國中醫(yī)藥圖書情報(bào)雜志,2016,40(4):1-3.

(收稿日期:2016-08-24)

(修回日期:2016-10-20;編輯:魏民)

猜你喜歡
數(shù)據(jù)挖掘中醫(yī)藥大數(shù)據(jù)
中醫(yī)藥走遍全球再迎變革
數(shù)據(jù)挖掘綜述
首部中醫(yī)藥綜合性法律
《中華人民共和國中醫(yī)藥法》誕生
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
國家中醫(yī)藥管理局:屠呦呦獲獎(jiǎng)向世界證明中醫(yī)藥價(jià)值
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
一本面向中高級讀者的數(shù)據(jù)挖掘好書