楊曉露
【摘 要】本文從國內(nèi)外C4.5算法在藥物臨床中的應(yīng)用研究現(xiàn)狀出發(fā),對(duì)C4.5在藥物臨床中的研究不足、研究建議做主要論述。有助于對(duì)藥物臨床數(shù)據(jù)挖掘的開發(fā),具有一定的指導(dǎo)意義。
【關(guān)鍵詞】C4.5;藥物;開發(fā);數(shù)據(jù)挖掘
一、C4..5及其臨床應(yīng)用現(xiàn)狀
C4.5作為數(shù)據(jù)挖掘算法中成熟的算法之一,也早已被應(yīng)用到醫(yī)學(xué)大數(shù)據(jù)分析分類中。C4.5相比較ID3算法,作為它的升級(jí)版,采用信息增益率來選擇屬性的方式,成功解決了原本ID3算法中用信息增益選擇屬性的不足。信息增益率使用“分裂信息”,將信息增益桂規(guī)范化,其主要定義為:
C4.5算法采用構(gòu)造決策樹的形式,自上而下遞歸,在建造成決策樹過程中進(jìn)行剪枝,快速進(jìn)行連續(xù)屬性的離散化處理和對(duì)樣本內(nèi)部缺失數(shù)據(jù)的處理[1]。
我國相對(duì)于其他國家更晚的進(jìn)入信息技術(shù)時(shí)代,這也讓我國民眾對(duì)大數(shù)據(jù)的深遠(yuǎn)影響的認(rèn)識(shí)較晚。但是隨著投身到大數(shù)據(jù)領(lǐng)域的人才越來越多,獲得的成果也越來越豐盛,對(duì)C4.5的算法也越來越深入。在臨床糖尿病應(yīng)用領(lǐng)域,國內(nèi)外學(xué)者采用人工神經(jīng)網(wǎng)絡(luò)、集成學(xué)習(xí)模型、灰色預(yù)測(cè)法、應(yīng)用樹等方法來研究,先隨著C4.5模型的開發(fā),C4.5也用在該領(lǐng)域,并拓展到其他臨床、新藥開發(fā)等領(lǐng)域。
在國外臨床中,科學(xué)家針對(duì)發(fā)病率較高的六種疾病,建立了決策樹。在每一顆決策樹中,對(duì)疾病的影響因素單獨(dú)分析,并通過決策樹提取針對(duì)規(guī)則,最終能提供給年輕、缺少經(jīng)驗(yàn)的醫(yī)師有參考價(jià)值的信息。而對(duì)于藥物試驗(yàn),早在上個(gè)世紀(jì)九十年代,美國醫(yī)療機(jī)構(gòu)和制藥公司,早就已經(jīng)將數(shù)據(jù)挖掘技術(shù)用到新藥的開發(fā)試驗(yàn)當(dāng)中,減少新藥開發(fā)周期。
在國內(nèi),對(duì)于雖然國家在1999年5月,開始中藥現(xiàn)代化研究與產(chǎn)業(yè)化開發(fā),開啟了現(xiàn)代化中醫(yī)藥業(yè)的發(fā)展路程。在我國醫(yī)藥機(jī)構(gòu)的研發(fā)下,已經(jīng)建立了相關(guān)的藥物試驗(yàn)平臺(tái),用于新藥的開發(fā)和數(shù)據(jù)監(jiān)控管理,減少新藥的開發(fā)周期與效率,最高可縮短30%。
臨床使用方面,我國關(guān)紅鈞教授提出了構(gòu)造Ⅱ型糖尿病的決策樹,提高了診斷準(zhǔn)確率,高達(dá)97%,為診斷該病提出了理論依據(jù)。其他Ⅱ型糖尿病決策模型,在選取的17例中使用C4.5算法建立模型,準(zhǔn)確率比ID3算法高3%-4%。在乳腺癌診斷方面,我國學(xué)者翁天樂在癌癥腫瘤方面做出了相關(guān)研究,建立了腫瘤診斷的決策樹模型,改進(jìn)了傳統(tǒng)醫(yī)療診斷弊端,將機(jī)器學(xué)習(xí)運(yùn)用到診斷過程中。南昌大學(xué)學(xué)者王卓也在臨床分類中,運(yùn)用粗糙集理論,整合并規(guī)范在臨床病例中的糖尿病并發(fā)癥數(shù)據(jù),很好地實(shí)現(xiàn)對(duì)糖尿病并發(fā)癥的輔助診斷。
二、研究中產(chǎn)生的問題
在利用C4.5構(gòu)造決策樹的過程中,只能將客觀數(shù)據(jù)輸入,具有很狹小的應(yīng)用范圍,對(duì)于新藥臨床應(yīng)用中,不同藥物要重新構(gòu)造決策樹,不具備通用性。對(duì)于藥物的使用情況構(gòu)造決策樹,并且決策樹中節(jié)點(diǎn)繁多,每一個(gè)節(jié)點(diǎn)都需要大量研究去證實(shí),才能保證后期診斷過程中的診斷正確率。同時(shí),藥物臨床應(yīng)用過程中,對(duì)于不同的并發(fā)癥也需要單獨(dú)的決策樹,對(duì)藥物使用情況進(jìn)行分析,從而增加了開發(fā)成本。
對(duì)于臨床實(shí)驗(yàn)中,尤其是新藥的開發(fā)需要有更多的數(shù)據(jù)支撐平臺(tái)的合理性、通用性,但是在實(shí)際過程中數(shù)據(jù)達(dá)不到期望值。盡管病人數(shù)量達(dá)到一定值,但是與臨床試驗(yàn)的匹配也是個(gè)巨大的工程,這是實(shí)際應(yīng)用中的一大難點(diǎn)。
在決策樹過程中,所有的數(shù)據(jù)都是客觀數(shù)據(jù),這些數(shù)據(jù)并不涵蓋心理、天氣等其他主觀、復(fù)雜的因素,也并不能精確地判斷藥物試驗(yàn)后的人體的全面、真實(shí)、客觀情況。所以在判斷病人是否好轉(zhuǎn)的時(shí)候,作為判斷藥物作用程度的依據(jù),缺乏準(zhǔn)確性。[2]同時(shí),對(duì)于使用藥物所出現(xiàn)的副作用并不能描述清楚,尤其是對(duì)人體數(shù)據(jù)采集的過程中,并不能對(duì)人體數(shù)據(jù)精確、全面的采集,只能依靠經(jīng)驗(yàn)或后期市場(chǎng)投入反饋來獲得,這也加大了新藥投入市場(chǎng)的風(fēng)險(xiǎn)。在病人服藥過程中,是否有潛在藥效也不能很好地發(fā)現(xiàn)。在藥物臨床的試驗(yàn)過程中,受到成本、精力等因素的影響,往往只將測(cè)試點(diǎn)集中在試驗(yàn)關(guān)注點(diǎn),對(duì)于病人其他病癥是否產(chǎn)生藥效的關(guān)注較少,這也是在對(duì)人體數(shù)據(jù)采集不夠精確、全面的結(jié)果。
為此在C4.5算法決策樹構(gòu)建過程,各實(shí)驗(yàn)室、醫(yī)藥機(jī)構(gòu)能夠加強(qiáng)數(shù)據(jù)交流,對(duì)所實(shí)驗(yàn)的醫(yī)藥信息共享,讓數(shù)據(jù)在流動(dòng)過程中具備一定的通用性。這樣也就能讓試驗(yàn)人員對(duì)試驗(yàn)過程中的數(shù)據(jù)管理有效監(jiān)控,能滿足對(duì)數(shù)據(jù)的匯總統(tǒng)計(jì)的同時(shí),減少不必要的試驗(yàn)和開發(fā)周期。能在數(shù)據(jù)互通的情況下,低成本地發(fā)現(xiàn)新藥副作用、潛在藥效,同時(shí)一個(gè)機(jī)構(gòu)或一個(gè)國家的信息系統(tǒng)數(shù)據(jù)偏少,但是在全球建立大型數(shù)據(jù)信息分享系統(tǒng),能夠有效增加新藥試驗(yàn)數(shù)據(jù),且這一類試驗(yàn)數(shù)據(jù)是在計(jì)劃成本、實(shí)際統(tǒng)計(jì)人數(shù)之外。這也擴(kuò)大了醫(yī)藥數(shù)據(jù)的范圍,無形中減少因數(shù)據(jù)采集較少而產(chǎn)生的準(zhǔn)確度低得問題。
三、研究建議
在人工智能發(fā)展的潮流下,該研究也乘上了互聯(lián)網(wǎng)的快車。對(duì)于醫(yī)療電子健康記錄的建立也是一大研究課題,不少醫(yī)院已經(jīng)建立電子檔案庫,對(duì)患者一改傳統(tǒng)手寫檔案為電子檔案,對(duì)患者的患病記錄、用藥記錄等采集。電子健康記錄的普及,也為我國新藥試驗(yàn)管理系統(tǒng)的開發(fā)提供了大量數(shù)據(jù)。雖然我國目前還沒有任何新藥試驗(yàn)管理系統(tǒng),遠(yuǎn)遠(yuǎn)落后于發(fā)達(dá)國家。
在試驗(yàn)系統(tǒng)研發(fā)前夕,可以采用決策樹對(duì)臨床的數(shù)據(jù)采集、分析能夠投入到應(yīng)用。對(duì)不同患者信息的錄入,后期可以依照特征信息對(duì)患者快速分類,并篩選出適合的患者,能降低尋找患者的周期、成本。在基于全國電子健康記錄系統(tǒng)開放的前提下,收集與新藥相關(guān)患者信息,并依據(jù)試驗(yàn)項(xiàng)目信息對(duì)實(shí)驗(yàn)者提取特征信息,對(duì)目標(biāo)患者中受試者進(jìn)行試驗(yàn),對(duì)于預(yù)測(cè)患者酌情試驗(yàn),最終得到足夠的試驗(yàn)數(shù)據(jù),并對(duì)臨床試驗(yàn)后的受試者追蹤、隨訪,完成對(duì)整個(gè)臨床試驗(yàn)的報(bào)告。
四、結(jié)論
C4.5算法在新藥臨床實(shí)驗(yàn)中能夠發(fā)揮巨大作用,國外在該領(lǐng)域的應(yīng)用遠(yuǎn)遠(yuǎn)領(lǐng)先于我國。我國在這一方面還沒有正式起步,但是未來也一定起步。不管是在新藥試驗(yàn)系統(tǒng)開發(fā)中還是開發(fā)準(zhǔn)備過程中,都具有不可忽略的作用。而本文也依據(jù)C4.5在新藥臨床試驗(yàn)應(yīng)用研究現(xiàn)狀,對(duì)其準(zhǔn)備過程中提出了建議,對(duì)開發(fā)者具有一定的指導(dǎo)意義。
【參考文獻(xiàn)】
[1]王卓.基于粗糙集和C4.5決策樹的臨床病例數(shù)據(jù)分類研究[J].軟件導(dǎo)刊,2014,13(05):61-64.
[2]馬爾麗. 決策樹模型在2型糖尿病診斷中的應(yīng)用[D].沈陽師范大學(xué),2018.
[3]張大愚. 基于數(shù)據(jù)挖掘技術(shù)的新藥臨床試驗(yàn)綜合平臺(tái)的研究[D].電子科技大學(xué),2008.