李志優(yōu),田波,姚閩
1.江西省人民醫(yī)院藥學部,江西 南昌 330006;2.江西省藥品檢驗檢測研究院,國家藥品監(jiān)督管理局中成藥質(zhì)量評價重點實驗室,江西省藥品與醫(yī)療器械質(zhì)量工程技術(shù)研究中心,江西 南昌 330029
中藥注射劑具有生物利用度高、起效快的特點,廣泛應用于臨床,在特定疾病治療中發(fā)揮重要作用,尤其在腫瘤疾病的治療方面有著獨特的治療優(yōu)勢[1]。近年來,中藥注射劑不良反應(ADR)報道數(shù)量急劇增多,其安全性引起國內(nèi)醫(yī)藥界的廣泛關(guān)注。艾迪注射液成分為斑蝥、人參、黃芪、刺五加,能清熱解毒,消瘀散結(jié),可用于原發(fā)性肝癌,肺癌,直腸癌,惡性淋巴瘤,婦科惡性腫瘤等,在我省臨床應用非常廣泛,使用量居于省直醫(yī)療機構(gòu)近年中成藥用量排名前列。本研究利用IBM SPSS Modeler軟件,綜合應用決策樹(C5.0)算法、貝葉斯網(wǎng)絡、神經(jīng)網(wǎng)絡和關(guān)聯(lián)規(guī)則Apriori 算法,對艾迪注射液ADR 案例信息進行深入挖掘,探索艾迪注射液ADR 發(fā)生特點及發(fā)生規(guī)律,為臨床合理、安全使用中藥注射劑提供借鑒。
(1)檢索中國知網(wǎng)、萬方醫(yī)學網(wǎng)、維普等數(shù)據(jù)庫,檢索時限為2015 年1 月至2019 年6 月。以“艾迪”and“不良反應”or“ADR”or“過敏”or“副作用”or“副反應”為主題詞檢索,收集艾迪注射液ADR 案例。(2)收集國家ADR 監(jiān)測系統(tǒng)某兩家醫(yī)院近5 年艾迪注射液ADR 報告案例。
納入標準:報告資料應包括患者基本信息、用藥信息、不良反應發(fā)生具體情況等,且不良反應的關(guān)聯(lián)性評價為肯定、很有可能、可能,排除資料不齊全的報告。排除標準:排除患者性別、年齡、用藥劑量、原發(fā)疾病四項信息中兩項以上記載不詳?shù)陌咐?/p>
1.3.1數(shù)據(jù)預處理在Excel 中錄入ADR 案例信息,包括患者性別、年齡、過敏史、原患疾病、用藥劑量、溶媒類型、溶媒用量、臨床表現(xiàn)、累及器官、發(fā)生時間等字段,共計185例。
進行數(shù)據(jù)轉(zhuǎn)換預處理,如對過敏史“青霉素過敏”“解熱鎮(zhèn)痛藥過敏”“酒精過敏”統(tǒng)一為“有過敏史”,對原患疾病“卵巢惡性腫瘤”“宮頸惡性腫瘤”統(tǒng)一為“婦科惡性腫瘤”,對臨床表現(xiàn)“胸悶、心悸”“心慌不適”累及器官統(tǒng)一為“心血管系統(tǒng)損害”等。
利用IBM SPSS Modeler 軟件,對意義不大的字段進行過濾刪除(如給藥途徑均為靜脈滴注),對數(shù)值型空值進行缺失值插補(如對“年齡”變量,選擇“固定”方法,使用“中程數(shù)值”進行插補),對字符型空值選取“缺失值篩選”節(jié)點,選擇丟棄(如對過敏史、原患疾病等信息不詳?shù)陌咐?,得?76 條有效記錄。
1.3.2數(shù)據(jù)挖掘?qū)?shù)據(jù)進行清理、集成、轉(zhuǎn)換等預處理后,利用IBM SPSS Modeler 軟件,應用決策樹(C5.0)算法、貝葉斯網(wǎng)絡、神經(jīng)網(wǎng)絡、關(guān)聯(lián)規(guī)則Apriori 算法建模,對艾迪注射液ADR 發(fā)生特點、發(fā)生規(guī)律開展數(shù)據(jù)挖掘研究。
以“ADR 累及器官”為目標變量,其他項為輸入變量,輸出類型選擇“使用boosting”,構(gòu)建C5.0算法的決策樹,結(jié)果見圖1 至圖2、表1。
從圖1、表1 可見,ADR 累及器官受用藥劑量影響最大(重要性57.44%),其次是過敏史、溶媒用量、性別。
表1 基于決策樹C5.0算法預測變量重要性值
圖1 基于決策樹C5.0算法預測變量重要性
從圖2 可知,樹模型深度為3,共產(chǎn)生16 個節(jié)點,終結(jié)點12 個。用藥劑量為100、80 mL 的患者,易發(fā)生全身性損害(構(gòu)成比分別為30.233%、26.829%),其次為皮膚及附件損害(構(gòu)成比分別為20.930%、21.951%)。無過敏史的患者發(fā)生ADR比例高于有過敏史患者,但有過敏史的患者更易發(fā)生過敏性休克。
圖2 基于C5.0算法的決策樹圖
用藥劑量為60 mL 的男性患者發(fā)生ADR例數(shù)高于女性患者,且以皮膚及附件損害為主(構(gòu)成比42.857%),女性患者則更易發(fā)生全身性損害(構(gòu)成比46.667%)。
用藥劑量為120、20、40、50 mL 的患者發(fā)生ADR 總例數(shù)最多(57例,占全部案例31.844%),其中,發(fā)生皮膚及附件損害例數(shù)最高(構(gòu)成比31.579%),其次為消化系統(tǒng)損害(構(gòu)成比17.544%)。
以“ADR 累及器官”為目標變量,其他項為輸入變量,選取TAN 模型,參數(shù)學習方法選擇“針對小單元格計數(shù)的貝葉斯調(diào)整”,進行貝葉斯網(wǎng)絡挖掘,結(jié)果見圖3、表2。結(jié)果表明,原患疾病是最重要的預測因子(重要性為29.84%),其次為用藥劑量、年齡、性別、溶媒用量、過敏史等。
圖3 基于貝葉斯網(wǎng)絡分析圖
表2 基于貝葉斯網(wǎng)絡預測變量重要性值
以“ADR 累及器官”為目標變量,其他項為輸入變量,構(gòu)建多層感知器(mLP)神經(jīng)網(wǎng)絡模型,見圖4、表3。結(jié)果顯示,隱藏層含有1 個神經(jīng)元,原患疾病是最重要的影響因素(重要性為25.31%),其次為年齡、用藥劑量、溶媒用量、ADR 發(fā)生時間等。
圖4 基于神經(jīng)網(wǎng)絡分析圖
表3 基于神經(jīng)網(wǎng)絡分析變量重要性值
應用關(guān)聯(lián)規(guī)則Apriori 算法,以“ADR 累及器官”為后項,其他項為前項。設置最低條件支持度為10%、最小規(guī)則置信度為45%,得到6 條規(guī)則,見表4。解讀置信度最高的前兩條規(guī)則如下:對無過敏史的男性患者,以250 mL 的5%葡萄糖為溶媒滴注艾迪注射液,發(fā)生ADR 的例數(shù)為24例,占比13.41%,其中54.17%的案例表現(xiàn)為皮膚及附件損害。患直結(jié)腸癌的男性,使用溶媒用量為250 mL 滴注艾迪注射液,發(fā)生ADR 的例數(shù)為19例,占比10.61%,其中52.63%的案例表現(xiàn)為皮膚及附件損害。
表4 基于Apriori算法挖掘的關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中提取隱含的、規(guī)律性的、人們事先未知的、但又是潛在有用的信息和知識的非平凡過程[13]。數(shù)據(jù)挖掘技術(shù)在研究藥品不良反應的發(fā)生規(guī)律中具有很好的應用前景[14]。本研究綜合應用數(shù)據(jù)挖掘常用技術(shù),如決策樹、貝葉斯網(wǎng)絡、神經(jīng)網(wǎng)絡、關(guān)聯(lián)規(guī)則,對艾迪注射液ADR 發(fā)生特點、發(fā)生規(guī)律開展數(shù)據(jù)挖掘研究。
決策樹是機器學習中的預測模型,主要建立決策樹節(jié)點,且根據(jù)字段的不同值來建立分支,生成的規(guī)則可視化,便于理解[15]。常用的決策樹算法有ID3、C5.0、CHAID、QUEST、CART[5]等。C5.0是C4.5 進一步的商業(yè)版本,C5.0 改善了生成規(guī)則和算法精度,實現(xiàn)更準確的生成規(guī)則,更快的速度和更低的錯誤率[15]。本研究選用C5.0 算法挖掘分析,利用了Boosting 方法來提高決策樹的分類效率和準確率[16]。結(jié)果表明,ADR 累及器官與用藥劑量最為相關(guān)(重要性57.44%),其次是過敏史、溶媒用量、性別。用藥劑量為100 mL 或80 mL,且無過敏史的患者發(fā)生ADR 比例高于有過敏史患者,可能由于樣本數(shù)據(jù)大多為無過敏史患者導致,但有過敏史的患者更易發(fā)生過敏性休克(構(gòu)成比分別為18.182%、33.333%),應引起臨床重點關(guān)注。值得注意的是,用藥劑量為80 mL,溶媒用量為250 mL 的無過敏史患者發(fā)生ADR例數(shù)占比較高,溶媒用量太少,與說明書“成人一次50~100 mL,加入0.9%氯化鈉注射液或5%~10%葡萄糖注射液400~450 mL 中”不符。臨床應規(guī)范溶媒用量,避免藥物濃度太高,導致ADR 發(fā)生。
貝葉斯網(wǎng)絡是用于描述變量之間相互依賴聯(lián)系的概率網(wǎng)絡圖模型,是概率論與圖論相結(jié)合的產(chǎn)物,借助有向無環(huán)圖來表達變量之間的因果關(guān)系,用條件概率表達因果關(guān)系的強度[17-18]。本研究運用貝葉斯網(wǎng)絡分析結(jié)果表明,原患疾病是最重要的預測因子(重要性為29.84%),其次為用藥劑量、年齡、性別、溶媒用量、過敏史等。
人工神經(jīng)網(wǎng)絡是通過模擬人類大腦神經(jīng)網(wǎng)絡結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng),通過模仿具有神經(jīng)網(wǎng)絡的生物行為特征,分布式并行信息處理的數(shù)學模型。通常可分為三層:輸入層、隱藏層和輸出層。輸入層接收輸入信號,通過一個或多個隱藏層對輸入信息主動學習和調(diào)整,在不斷地訓練過程中尋找變量間復雜的非線性關(guān)系,最后經(jīng)輸出層輸出學習預測后的結(jié)果[19]。根據(jù)網(wǎng)絡拓撲結(jié)構(gòu)和激活函數(shù)的不同有多種神經(jīng)網(wǎng)絡,其中mLP 采用多層感知器構(gòu)建神經(jīng)網(wǎng)絡模型,具有預測能力較好的優(yōu)點[16]。本研究構(gòu)建多層感知器(mLP)神經(jīng)網(wǎng)絡模型,結(jié)果表示原患疾病是最重要的影響因素(重要性為25.31%),其次為年齡、用藥劑量、溶媒用量、ADR 發(fā)生時間等,與貝葉斯網(wǎng)絡結(jié)果基本吻合。
關(guān)聯(lián)規(guī)則分析是指變量間存在關(guān)聯(lián),其中一個變量(后項)可通過其他變量(前項)來預測。關(guān)聯(lián)分析的準確度由支持度、置信度、提升度3 個指標決定[19]。支持度是指前后項同時發(fā)生的概率,描述規(guī)則的頻度,是對關(guān)聯(lián)規(guī)則重要性的度量。置信度是指由前項推測后項發(fā)生的條件概率,描述規(guī)則的強度,是對關(guān)聯(lián)規(guī)則準確性、可靠性的度量[20]。而提升度>1 時,認為前項對后項有正向影響,一般提升度越大,認為正向影響程度越高[21]。本研究選用關(guān)聯(lián)分析的經(jīng)典算法Apriori,探討艾迪注射液ADR 累及器官與各因素之間的關(guān)聯(lián)強度,得到6 條規(guī)則,提升度均在1 以上,關(guān)聯(lián)分析具有意義。支持度較好,均在10%以上,但置信度均低于60%,條件概率偏低。
本研究綜合運用4 種挖掘技術(shù),全面挖掘分析了艾迪注射液ADR 發(fā)生特點及發(fā)生規(guī)律,為臨床安全用藥提供客觀依據(jù)。但尚存在以下不足:一是樣本量太小。因數(shù)據(jù)來源有限,且檢索的文獻及上報的案例缺失項太多,導致最終提取有效的樣本量太小;二是挖掘結(jié)果準確率偏低。利用IBM SPSS Modeler 軟件,比較各算法準確度,發(fā)現(xiàn)貝葉斯網(wǎng)絡正確率最高,為62.57%,決策樹(C5.0)算法正確率為39.66%,神經(jīng)網(wǎng)絡“ADR 累及器官分類總體正確率”為32.4%,關(guān)聯(lián)規(guī)則Apriori 算法得到的規(guī)則置信度均低于60%。挖掘結(jié)果欠佳,可能與樣本量有限,且臨床用藥復雜性有關(guān),擬收集足夠大的樣本數(shù)據(jù),探討改進數(shù)據(jù)挖掘算法,以期利用最優(yōu)算法,挖掘分析大樣本數(shù)據(jù),進一步驗證和提升本研究的整體結(jié)果。