丁 亮,章新友**,劉莉萍,牛曉錄,郭永坤
(1. 江西中醫(yī)藥大學(xué)計(jì)算機(jī)學(xué)院 南昌 330004;2. 江西中醫(yī)藥大學(xué)藥學(xué)院 南昌 330004)
原發(fā)性肝癌病(Primary Liver Cancer,PLC)是臨床上特別常見的惡性腫瘤疾病之一,據(jù)最新數(shù)據(jù)報(bào)告顯示,中國的原發(fā)性肝癌病的新增患者人數(shù)和死亡人數(shù)均居世界首位[1-4],且發(fā)病率和死亡率呈逐年上升形勢。因此,積極的預(yù)防原發(fā)性肝癌病的發(fā)生,提高原發(fā)性肝癌病的治療效果是當(dāng)下亟待解決的難題。當(dāng)今對(duì)肝癌病的治療均以手術(shù)治療、放化療、分子靶向藥等現(xiàn)代化醫(yī)療手段結(jié)合為主[5-10],但其臨床效果卻并不理想。近年來,有研究者發(fā)現(xiàn),中西醫(yī)結(jié)合治療原發(fā)性肝癌病在臨床上起到了意想不到的效果[11-15]。傳統(tǒng)中醫(yī)診療疾病方法均講究的辨證論治,而“證”則是中醫(yī)診療的核心內(nèi)容,但是現(xiàn)行原發(fā)性肝癌病的中醫(yī)辨證方法眾多,證型分類不規(guī)范,中醫(yī)癥狀、體征以及四診信息等缺乏標(biāo)準(zhǔn)化,這些問題阻礙了原發(fā)性肝癌病治療效果的提高。因此,為了更客觀、更準(zhǔn)確的反應(yīng)疾病的特征,提高中醫(yī)臨床的辨證論治的準(zhǔn)確性,本研究根據(jù)中醫(yī)癥狀、體征和四診信息等證型相關(guān)因子與證型之間的非線性關(guān)系,建立了深度神經(jīng)網(wǎng)絡(luò)證型診斷分類預(yù)測模型,旨在為臨床診療提供相應(yīng)的技術(shù)支撐,以提高中醫(yī)證型分類的準(zhǔn)確性和科學(xué)性。
本文收集了2014 年1 月-2019 年6 月就診于江西省中醫(yī)院1176例肝癌病患者(首次就診)的病歷資料,其病歷資料包含了中醫(yī)癥狀、體征、舌象、脈象和治則治法等詳細(xì)信息。其中976例將作為訓(xùn)練集,200例作為測試集,本文將依據(jù)訓(xùn)練集建立神經(jīng)網(wǎng)絡(luò)證型分類預(yù)測模型。
表1 976病歷中證型相關(guān)因子(中醫(yī)癥狀和體征)統(tǒng)計(jì)表
表2 976病歷中證型相關(guān)因子(舌質(zhì)、舌苔和脈象)統(tǒng)計(jì)表
為使該模型能對(duì)臨床病歷數(shù)據(jù)中的中醫(yī)癥狀等信息進(jìn)行有效分類,首先需要建立原發(fā)性肝癌的證型分類判定標(biāo)準(zhǔn)。因?yàn)槟P偷呐卸?biāo)準(zhǔn)涉及到中醫(yī)癥狀、體征以及四診等信息數(shù)據(jù),因此將上述數(shù)據(jù)統(tǒng)一命名為證型相關(guān)因子。
本文依據(jù)《中醫(yī)診斷學(xué)》《中醫(yī)癥狀鑒別診斷學(xué)》以及相關(guān)資料文獻(xiàn)的基礎(chǔ)上,結(jié)合中醫(yī)專家經(jīng)驗(yàn),形成《原發(fā)性肝癌病中醫(yī)癥狀調(diào)查表》,并對(duì)976 例原發(fā)性肝癌病患者進(jìn)行證型相關(guān)因子(中醫(yī)癥狀和體征)統(tǒng)計(jì),共計(jì)96個(gè),選取出現(xiàn)頻次最多的前40個(gè)(表1),通過統(tǒng)計(jì)分析不難發(fā)現(xiàn),除去慢性病患者常見的寐差、納差、乏力之外,原發(fā)性肝癌病患者最常見臨床表現(xiàn)為口干、口苦、腹脹、腹痛、脹痛和脅痛。再分析976例病歷可知,舌質(zhì)可分為淡紅等;舌苔可分為薄白等;脈象可分為弦等(表2)。
本文以《新藥(中藥)治療原發(fā)性肝癌臨床研究指導(dǎo)原則》《原發(fā)性肝癌診療規(guī)范(2017 年版)》、衛(wèi)生部“十二五”規(guī)劃教材陳家旭鄒小娟主編的《中醫(yī)診斷學(xué)》和張伯禮和薛博瑜主編的《中醫(yī)內(nèi)科學(xué)》等[16-18]為主要依據(jù),確定原發(fā)性肝癌的證型分類及證型相關(guān)因子(表3、圖1)。
本文結(jié)合文獻(xiàn)所記載的方法[19-21],并采用模糊數(shù)學(xué)(Fuzzy mathematics)對(duì)四診信息和中醫(yī)癥狀進(jìn)行量化處理。首先從收集的病歷中得知,原發(fā)性肝癌的的辯證分型共有8 種,將這些證型分別記為L1,L2,L3,L4,L5,L6,L7,L8,其次再根據(jù)上文中對(duì)每個(gè)證型的主要的診斷標(biāo)準(zhǔn),共統(tǒng)計(jì)出74 個(gè)證型因子,并將其分別命名為W1,W2,W3...W74,但同一證型的不同證型因子對(duì)該證型的影響程度是不同,所以本文采用專家賦值的方法對(duì)證型的證型因子進(jìn)行權(quán)重評(píng)定(表4)。
以濕熱蘊(yùn)結(jié)證為例,其臨床表現(xiàn)為:口苦W1,口干W2,惡心嘔吐W3,腹脹W4,胸悶W5,小便少W6,色黃W7,大便秘結(jié)或便溏不爽W8,舌紅W9,黃膩W10,脈弦滑W11按照上述方法邀請(qǐng)4 位從事中醫(yī)學(xué)科的專家填寫表4,得到以下4個(gè)評(píng)分矩陣:
表3 原發(fā)性肝癌證型的分類及證型相關(guān)因子統(tǒng)計(jì)表
圖1 原發(fā)性肝癌證型占比圖
表4 證型因子權(quán)重賦值評(píng)分表
再對(duì)所有專家評(píng)審的評(píng)分矩陣求和:
再求出加權(quán)平均評(píng)分矩陣:
算出的未歸一化的權(quán)值按照λ= 0.5為標(biāo)準(zhǔn),區(qū)分主要證型因子和次要證型因子,由此可知濕熱蘊(yùn)結(jié)證的主要證型因子:口苦W1,口干W2,小便少W6,大便秘結(jié)或便溏不爽W8,舌紅W9,黃膩W10,脈弦滑W11。次要證型因子為:惡心嘔吐W3,腹脹W4,胸悶W5,小便少W6,色黃W7。
然后對(duì)證型因子的權(quán)值進(jìn)行歸一化處理:
按照上述方法對(duì)各證型的證型因子逐一歸一化處理,統(tǒng)計(jì)所得到的不同證型所對(duì)應(yīng)的證型因子的權(quán)值。
每個(gè)證型因子的程度一般分為3 級(jí)分別是輕度(V1),中度(V2),重度(V3),本文將證型因子的量化級(jí)別命名為H(Wi),主要證型因子量化賦值為2 分、4 分、6分,次要證型因子的賦值為1分、2分、3分(式1):
若病歷中沒有描述程度,或者出現(xiàn)不屬于辨證主要因素的證型因子(式2):
最終通過上述模糊數(shù)學(xué)的方式處理,得到較為合理的中醫(yī)證型因子的量化數(shù)據(jù),再將這些量化后數(shù)據(jù)輸入至深度神經(jīng)網(wǎng)絡(luò)證型分類預(yù)測模型中,為下一步建立該模型奠定數(shù)據(jù)基礎(chǔ)。
鑒于中醫(yī)藥數(shù)據(jù)大多為非線性的特點(diǎn),而傳統(tǒng)的數(shù)據(jù)挖掘算法更適合處理線性的、有序的或者邏輯關(guān)系強(qiáng)的數(shù)據(jù)集。因此,急需一個(gè)合適的非線性的建模方法去處理這些中醫(yī)藥數(shù)據(jù)[22-24]。而人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)可以充分逼近任意復(fù)雜的非線性關(guān)系,具有很強(qiáng)的魯棒性和容錯(cuò)性,對(duì)處理非線性的中醫(yī)藥領(lǐng)域數(shù)據(jù)有得天獨(dú)厚的優(yōu)勢[25-28](圖2)。針對(duì)中醫(yī)藥數(shù)據(jù)的非線性、多靶點(diǎn)、影響因素眾多等特點(diǎn),所以本文擬采用深度神經(jīng)網(wǎng)絡(luò)構(gòu)建原發(fā)性肝癌證型分類預(yù)測模型。因?yàn)槊恳焕v內(nèi)均有中醫(yī)癥狀,舌質(zhì),舌苔和脈象等詳細(xì)信息,所以本文決定由這4種證型因子(中醫(yī)癥狀,舌質(zhì),舌苔和脈象)共同決定證型分類,其中輸入層為4種證型因子(即中醫(yī)癥狀體征、舌質(zhì)、舌苔和脈象),建立2 層隱藏層,兩層隱藏層的激活函數(shù)均為relu 函數(shù),輸出為8 種原發(fā)性肝癌證型(圖3)。
在數(shù)據(jù)挖掘中2個(gè)或多個(gè)變量之間會(huì)存在一定的關(guān)聯(lián)性,而關(guān)聯(lián)規(guī)則挖掘就是用來挖掘出數(shù)據(jù)之間隱藏的關(guān)系。在關(guān)聯(lián)規(guī)則算法中,強(qiáng)關(guān)聯(lián)規(guī)則的產(chǎn)生一般由支持度(Support)、置信度(Confidence)、提升度(Lift)3 個(gè)指標(biāo)決定。支持度表示項(xiàng)集在總項(xiàng)集中出現(xiàn)概率,用來剔除頻次較少的項(xiàng)集,而置信度則是在某事件發(fā)生前提下,該事件出現(xiàn)的概率的大?。丛诤蠿 的項(xiàng)集中,含有Y 的可能性),可以用來表示項(xiàng)集與項(xiàng)集之間的關(guān)系(式3、式4):
圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
圖3 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
本文參照《中醫(yī)診斷學(xué)》和《中醫(yī)內(nèi)科學(xué)》對(duì)肝癌病中濕熱蘊(yùn)結(jié)證、肝郁脾虛證、氣滯血瘀證、正虛瘀結(jié)證、肝氣郁結(jié)證、肝腎陰虛證、痰瘀互結(jié)證和脾虛濕困證的判斷標(biāo)準(zhǔn)進(jìn)行模糊數(shù)學(xué)量化處理。再采用關(guān)聯(lián)規(guī)則的方法[29,30]對(duì)976 例病歷的量化數(shù)據(jù)進(jìn)行挖掘分析,以此為據(jù)來判斷教材中的判定標(biāo)準(zhǔn)是否適用于本文數(shù)據(jù)集,從而對(duì)模型的準(zhǔn)確性起到一定的驗(yàn)證作用。
仿照濕熱蘊(yùn)結(jié)證證型因子的量化操作,依次對(duì)氣滯血瘀證等進(jìn)行量化(表5)。
常見的模型的評(píng)價(jià)指標(biāo)一般有3 種準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall),在分類問題中,一般分為2 類正例和負(fù)例,令TP 表示實(shí)際為正例同時(shí)預(yù)測也為正例的樣本數(shù),TN表示實(shí)際是負(fù)例同時(shí)預(yù)測也是負(fù)例的樣本數(shù),F(xiàn)P表示實(shí)際為負(fù)例但預(yù)測卻是正例的樣本數(shù),F(xiàn)N表示實(shí)際為正例但預(yù)測卻是負(fù)例的樣本數(shù)。各個(gè)評(píng)價(jià)指標(biāo)計(jì)算式(式5、式6、式7)如下所示:
表5 證型因子歸一化數(shù)值表
①準(zhǔn)確率:被正確預(yù)測(正例和負(fù)例)的樣本數(shù)占總樣本數(shù)的比重:
表6 深度神經(jīng)網(wǎng)絡(luò)與其他分類算法準(zhǔn)確率對(duì)比分析表
②精確率:預(yù)測正例且實(shí)際也為正例的樣本數(shù)占所有預(yù)測為正例的樣本數(shù)的比重:
③召回率:預(yù)測正例且實(shí)際也為正例的樣本數(shù)占所有實(shí)際為正例的樣本數(shù)的比重:
在保證模型的穩(wěn)定性和泛化性的前提下,通過對(duì)比分析不同的超參訓(xùn)練下的預(yù)測模型的情況,最終確定迭代次數(shù)epoch = 30,minnibatch = 32,為防止過擬合這一現(xiàn)象的出現(xiàn),本模型參照文獻(xiàn)所提出了提前終止測試集、L1和L2正則化加權(quán)、soft weight sharing 以及dropout 等方法,經(jīng)過不斷地調(diào)參和嘗試,最終使用dropout=0.5,因?yàn)榇藭r(shí)的dropout 的隨機(jī)生成的網(wǎng)絡(luò)結(jié)構(gòu)最多,同時(shí)也能減少神經(jīng)元之間復(fù)雜的共適應(yīng)關(guān)系來防止過擬合的出現(xiàn)。并采用Adam 優(yōu)化器替換傳統(tǒng)隨機(jī)梯度下降過程,提高模型的收斂速率,因其能基于訓(xùn)練數(shù)據(jù)迭代地更新深度神經(jīng)網(wǎng)絡(luò)的權(quán)重,更有利于提高模型分類的準(zhǔn)確率和運(yùn)算速率。在上述這些參數(shù)的條件下所得到的深度神經(jīng)網(wǎng)絡(luò)預(yù)測模型,并根據(jù)上文評(píng)價(jià)指標(biāo)中的準(zhǔn)確率計(jì)算公式,計(jì)算出每個(gè)證型所預(yù)測出來準(zhǔn)確率的測試結(jié)果并與其他分類算法進(jìn)行對(duì)比分析(表6、圖4),觀察圖表不難發(fā)現(xiàn),從模型預(yù)測的準(zhǔn)確率來看深度神經(jīng)網(wǎng)絡(luò)預(yù)測模型相較于支持向量機(jī)和貝葉斯網(wǎng)絡(luò)預(yù)測模型占據(jù)一定優(yōu)勢,尤其在濕熱內(nèi)蘊(yùn)證、肝郁脾虛證、肝腎陰虛證和脾虛濕困證的模型預(yù)測的準(zhǔn)確率均在90%以上,可以達(dá)到令人滿意的分類結(jié)果,同時(shí)隨著數(shù)據(jù)量的不斷增加,深度神經(jīng)網(wǎng)絡(luò)的在原發(fā)性肝癌證型分類預(yù)測模型中的優(yōu)勢就越來越明顯。
表7 頻繁集與教材判定標(biāo)準(zhǔn)對(duì)比分析表
圖4 深度神經(jīng)網(wǎng)絡(luò)與其他分類算法準(zhǔn)確率比較
在關(guān)聯(lián)規(guī)則分析中,我們?cè)O(shè)置支持度、置信度均為0.6,挖掘結(jié)果如下所示(表7),其中符合率即在頻繁集(即證型中頻繁出現(xiàn)的證型因子)中符合教材判定標(biāo)準(zhǔn)的證型相關(guān)因子個(gè)數(shù)與判定標(biāo)準(zhǔn)的總數(shù)之比。從符合率上看來,均超過75%,說明該數(shù)據(jù)集符合中醫(yī)教材中的證型判定標(biāo)準(zhǔn),具有一定科學(xué)性和準(zhǔn)確性,也從而驗(yàn)證之前模糊數(shù)學(xué)量化數(shù)據(jù)的有效性,對(duì)進(jìn)一步構(gòu)建深度神經(jīng)網(wǎng)絡(luò)證型分類預(yù)測模型提供了有力的理論支撐。
本文基于深度學(xué)習(xí)的理念,采用模糊數(shù)學(xué)和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法,建立了原發(fā)性肝癌病證型診斷分類的預(yù)測模型,預(yù)測準(zhǔn)確率介于82.86%-92.76%,并用關(guān)聯(lián)規(guī)則方法驗(yàn)證了預(yù)測結(jié)果,其符合率介于75%-100%,本研究成果為今后中醫(yī)證型分類的預(yù)測研究奠定了實(shí)驗(yàn)與理論基礎(chǔ)??紤]到中醫(yī)證型診斷分類存在特征繁多的情況,通過深度神經(jīng)網(wǎng)絡(luò)預(yù)測模型恰當(dāng)減少的參數(shù),用少量必要的參數(shù)模擬出復(fù)雜的非線性關(guān)系,從而達(dá)到了提高模型穩(wěn)定性的效果,并通過關(guān)聯(lián)規(guī)則的方法驗(yàn)證了預(yù)測結(jié)果的準(zhǔn)確程度,其結(jié)果表明收集的原發(fā)性肝癌數(shù)據(jù)符合衛(wèi)生部“十二五”規(guī)劃教材陳家旭、鄒小娟主編的的《中醫(yī)診斷學(xué)》和張伯禮、薛博瑜主編的《中醫(yī)內(nèi)科學(xué)》對(duì)中醫(yī)證型分類的判定標(biāo)準(zhǔn),進(jìn)一步保障了原始數(shù)據(jù)和模型的可信度。但由于深度神經(jīng)網(wǎng)絡(luò)模型容易出現(xiàn)過擬合現(xiàn)象,以及收斂速度緩慢等不足,所以其網(wǎng)絡(luò)結(jié)構(gòu)仍有待優(yōu)化,這正是筆者進(jìn)一步研究的內(nèi)容。