藍(lán)勇 程春雷 葉青 胡杭樂 沈友志
收稿日期:2023-05-10
基金項目:江西省自然科學(xué)基金資助項目(20224BAB206102);國家自然科學(xué)基金(82260988);江西省教育廳科學(xué)技術(shù)研究項目(GJJ2200923);江西省衛(wèi)生和計劃生育委員會-科技計劃項目(202211404);江西中醫(yī)藥大學(xué)博士啟動基金(2018WBZR021)
DOI:10.19850/j.cnki.2096-4706.2024.04.032
摘? 要:探索證素辨證規(guī)律能更好地輔助臨床決策和促進(jìn)中醫(yī)辨證理論的傳承。中醫(yī)文本句式結(jié)構(gòu)復(fù)雜、表述標(biāo)準(zhǔn)不一,難以匹配符號規(guī)則,且神經(jīng)網(wǎng)絡(luò)黑盒特性又難以直接解釋其辨證過程。為探索中醫(yī)證素辨證規(guī)律,第一階段使用神經(jīng)網(wǎng)絡(luò)模型對證素進(jìn)行多標(biāo)簽分類,通過稀疏注意力捕獲與證素相關(guān)的關(guān)鍵詞及其權(quán)重生成證素表征;第二階段使用隨機(jī)森林對融入相關(guān)證素標(biāo)簽的證素表征進(jìn)行分類訓(xùn)練,后對隨機(jī)森林規(guī)則提取以探索辨證規(guī)律,提高證素辨證的可解釋性。實驗結(jié)果表明,該方法提升了證素辨識的準(zhǔn)確率,同時F1保持較高水平,有利于探索證素辨證規(guī)律。
關(guān)鍵詞:證素辨證規(guī)律;稀疏注意力;多標(biāo)簽分類;隨機(jī)森林模型;可解釋性
中圖法分類號:TP391? ? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2024)04-0153-10
Exploration of the Rules of Traditional Chinese Medicine Syndrome Elements Differentiation by Two-stage Multi-label Classification
LAN Yong1, CHENG Chunlei1,2, YE Qing1, HU Hangle1, SHEN Youzhi1
(1.College of Computer Science, Jiangxi University of Chinese Medicine, Nanchang? 330004, China; 2.Key Laboratory of Artificial Intelligence in Chinese Medicine, Jiangxi University of Chinese Medicine, Nanchang? 330004, China)
Abstract: Exploring the rules of syndrome element differentiation can better assist clinical decision-making and promote the inheritance of TCM syndrome differentiation theory. The sentence structure of TCM texts is complex, with varying expression standards, making it difficult to match symbol rules, and the black box characteristics of neural networks are difficult to directly explain their differentiation process. In order to explore the rules of syndrome element differentiation in TCM, it uses a neural network model to classify syndrome elements with multiple labels in the first stage, and generates syndrome element representation by capturing keywords and their weights related to syndrome elements through sparse attention. In the second stage, the random forest is used to conduct classified training on syndrome element representation incorporating relevant syndrome element labels, and then random forest rules are extracted to explore the syndrome differentiation rules and improve the interpretability of syndrome element differentiation. The experimental results show that this method improves the accuracy of syndrome element identification, while maintaining a high level of F1, which is conductive to exploring the rules of syndrome element differentiation.
Keywords: rules of syndrome element differentiation; sparse attention; multi-label classification; random forest model; interpretability
0? 引? 言
辨證是中醫(yī)認(rèn)識疾病的基本原則,也是中醫(yī)臨床立法、處方、用藥的基礎(chǔ)和前提,正確辨證有助于提高臨床診斷的準(zhǔn)確性和治療效果[1]。在中醫(yī)辨證中,臨床專家收集四診信息,并依據(jù)中醫(yī)辨證理論對患者的證候歸屬進(jìn)行診斷,從而實現(xiàn)對患者病情的準(zhǔn)確診斷和治療安排。然而,中醫(yī)證候缺乏統(tǒng)一標(biāo)準(zhǔn)規(guī)范,具有稀疏、組合繁雜等特點,證素為證候的要素,是中醫(yī)辨證診斷的最小單元[2],將證候轉(zhuǎn)換為證素表示,規(guī)范了標(biāo)簽分布,減小了標(biāo)簽空間的復(fù)雜度,且一定程度上改變了中醫(yī)證候及中醫(yī)辨證方法繁雜、證型診斷結(jié)果各異的局面,也為中醫(yī)學(xué)與深度模型交叉融合提供良好范式。證素辨證通過計算癥狀對病位、病性證素的診斷貢獻(xiàn)度,準(zhǔn)確辨識現(xiàn)階段證素分布規(guī)律[3]。另一方面,中醫(yī)辨證研究較多但臨床應(yīng)用卻十分有限,關(guān)鍵原因之一是辨證的可解釋性不足,由于不理解模型決策的原理,醫(yī)生和患者難以認(rèn)可模型的辨證結(jié)果。
為增強(qiáng)模型的可解釋性,本文在辨證的同時探索證素辨證規(guī)律。分兩個階段進(jìn)行,第一階段使用融合稀疏注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型對證素進(jìn)行多標(biāo)簽分類,通過稀疏注意力捕獲與證素相關(guān)的關(guān)鍵詞及其權(quán)重生成證素表征,稀疏注意力對不同證素生成不同的文本表示,去除了無關(guān)特征,最大程度上關(guān)注了證素的關(guān)鍵辨證依據(jù)。但大量辨證依據(jù)獨立分布且含有特異點,需從諸多樣本的辨證依據(jù)中進(jìn)一步分析其辨證規(guī)律。第二階段基于第一階段的證素表征,加入證素標(biāo)簽特征,期望學(xué)習(xí)標(biāo)簽之間相關(guān)性,后輸入隨機(jī)森林對證素進(jìn)行分類,對訓(xùn)練好的隨機(jī)森林模型規(guī)則提取以探索證素辨證規(guī)律,提高證素辨證的可解釋性。本文的研究貢獻(xiàn)主要如下:
1)第一階段基于融合稀疏注意力機(jī)制的多標(biāo)簽分類模型生成證素的辨證依據(jù):證素多標(biāo)簽分類的過程即證素辨證的過程,不過由于神經(jīng)網(wǎng)絡(luò)的黑盒特性,辨證過程難以解釋,而稀疏注意力聚焦于關(guān)鍵辨證依據(jù),去除無關(guān)特征,提升了證素辨證的可解釋性,并為第二階段做前提準(zhǔn)備。
2)第二階段對訓(xùn)練好的隨機(jī)森林規(guī)則提取探索證素辨證規(guī)律:使用隨機(jī)森林對融入證素標(biāo)簽特征的證素表征進(jìn)行分類訓(xùn)練,考慮標(biāo)簽之間的相關(guān)性,由于隨機(jī)森林中決策樹路徑具有天然的可解釋性,可利用規(guī)則提取方法獲取證素辨證規(guī)律,進(jìn)一步提升了證素辨證的可解釋性。
3)稀疏注意力機(jī)制成為神經(jīng)網(wǎng)絡(luò)模型與隨機(jī)森林模型之間協(xié)作的橋梁:中醫(yī)文本篇幅較長,統(tǒng)一編碼高維且稀疏,使用隨機(jī)森林直接對其訓(xùn)練將會大幅提升決策樹的復(fù)雜度,且為得到更為精確的結(jié)果耗費大量時間資源生成大量的決策樹,不利于事后可解釋性分析,而神經(jīng)網(wǎng)絡(luò)融入稀疏注意力后能針對具體任務(wù)端到端地聚焦于關(guān)鍵特征,縮減樣本的特征空間,有利于隨機(jī)森林的訓(xùn)練。
4)形成了一個可解釋的良好范式:首先由稀疏注意力生成關(guān)鍵辨證依據(jù),縮減特征空間,然后使用隨機(jī)森林對其進(jìn)行分類訓(xùn)練,最后對訓(xùn)練好的隨機(jī)森林規(guī)則提取生成證素辨證規(guī)律,進(jìn)行事后可解釋性分析,此方法在保持較好辨證效果的同時具有較強(qiáng)的可解釋性。
1? 相關(guān)工作
基于中醫(yī)“辨證論治”的特點,中醫(yī)辨證智能化的研究也日益增多[4]?;趥鹘y(tǒng)的機(jī)器學(xué)習(xí)方法,嚴(yán)冬等[5]收集了78例多發(fā)性硬化患者308例次病例資料,對其進(jìn)行主成分分析與聚類分析研究發(fā)性硬化患者的中醫(yī)證候特點及其分布規(guī)律。龐穩(wěn)泰等[6]提取2019冠狀病毒中醫(yī)診療方案中的病期、證型、方劑等信息,采用頻數(shù)統(tǒng)計和相關(guān)分析,探討組方及臨床證候規(guī)律。趙若含等[6,7]收集160例原發(fā)性肺癌患者數(shù)據(jù),采用Logistic回歸模型進(jìn)行多因素回歸分析以確定獨立影響因素,使用χ2檢驗分析抑郁輕重程度與中醫(yī)證候之間的關(guān)系。楊玉培等[8]收集97例多囊卵巢綜合征不孕癥患者中醫(yī)四診信息,運用頻數(shù)分析以及聚類分析等統(tǒng)計方法來探索治療前后中醫(yī)病性、病位的分布規(guī)律。傳統(tǒng)的機(jī)器學(xué)習(xí)方法對數(shù)據(jù)集的質(zhì)量有著較高的要求,需要中醫(yī)領(lǐng)域?qū)<覍μ卣鬟M(jìn)行提取與整理,且此類方法不能很好地表征文本語義特征。
隨著人工智能的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于中醫(yī)辨證任務(wù)中。丁亮等[9]使用深度神經(jīng)網(wǎng)絡(luò)建立原發(fā)性肝癌證型診斷分類模型,以挖掘臨床數(shù)據(jù)和證型之間的非線性關(guān)系,并利用關(guān)聯(lián)規(guī)則驗證結(jié)果的準(zhǔn)確性。張異卓等[10]構(gòu)建基于BERT候選項選擇結(jié)構(gòu)的中醫(yī)證候歸類模型。Huang等[11]對病歷數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,將智能辯證視為高維稀疏向量分類任務(wù),通過卷積神經(jīng)網(wǎng)絡(luò)模型生成的交叉特征進(jìn)行辯證分類。此外,知識圖譜的興起為中醫(yī)藥領(lǐng)域知識的整合、關(guān)聯(lián)以及分析提供了理想的技術(shù)方法,知識圖譜可以有效地改進(jìn)中醫(yī)辨證方法的分析方式,幫助使用者理解和掌握中醫(yī)學(xué)中的復(fù)雜信息。如石英杰[12]構(gòu)建胸痹知識圖譜探索胸痹的證治規(guī)律。劉凡[13]基于多源異構(gòu)數(shù)據(jù)構(gòu)建名老中醫(yī)經(jīng)驗傳承知識圖譜,為慢性胃炎辨證論治方案提供可視化分析。另外,可將知識圖譜與深度學(xué)習(xí)結(jié)合運用,以提高深度學(xué)習(xí)模型的性能,葉青等[14]以及Yang等[15]將知識圖譜嵌入向量融入神經(jīng)網(wǎng)絡(luò)表征從而構(gòu)建中醫(yī)辨證模型?;谏疃葘W(xué)習(xí)的中醫(yī)辨證模型大都面向特定疾病或特定問題且解釋性不足,中醫(yī)辨證方法從理論走向臨床應(yīng)用還需進(jìn)一步研究。
近年來,可解釋性已成為人工智能領(lǐng)域的研究熱點,旨在解釋深度學(xué)習(xí)模型預(yù)測結(jié)果的原理,為此,越來越多的解釋方法和模型被提出[16-22]。在醫(yī)療領(lǐng)域,Poplin等[23]構(gòu)建了一個可解釋的心血管疾病診斷系統(tǒng),該系統(tǒng)使用注意力機(jī)制來關(guān)注影響診斷結(jié)果的重要因素,并自動生成注意力熱力圖,以視網(wǎng)膜圖像作為參考,用于預(yù)測及評估與心血管疾病相關(guān)的風(fēng)險。Kermany等[24]構(gòu)建了可解釋性的肺炎醫(yī)療診斷系統(tǒng),能夠精確診斷致盲視網(wǎng)膜疾病,并能在30秒內(nèi)判斷患者是否需要治療且準(zhǔn)確率較高。王雨虹[25]提出了一種基于實體關(guān)系抽取技術(shù)的中文影像報告腫瘤信息提取方法,該方法針對TNM分期的需求,自動從報告中提取與分期相關(guān)的文字表示,隨后利用規(guī)則對文字表示進(jìn)行分析,進(jìn)而用于分期決策,其中提取的信息以報告文字為證據(jù)支撐,具有一定的解釋性。
在中醫(yī)領(lǐng)域,一些工作也研究了深度學(xué)習(xí)模型的可解釋性。駱明楠[26]對舌診病性進(jìn)行診斷,通過引入注意力機(jī)制,增強(qiáng)了深度模型對圖像的建模效果,進(jìn)而提高了智能舌診的病性診斷效果,并增加了診斷的可解釋性。Pang等[27]在中醫(yī)辨證過程中采用了注意力機(jī)制,為不同癥狀表現(xiàn)分配不同的權(quán)重,從而突出關(guān)鍵癥狀表現(xiàn),提高了病情診斷的準(zhǔn)確性和可解釋性。鄭毅[28]構(gòu)建了藥癥知識圖譜,使用深度模型建立處方推薦模型,采用最短路徑生成法和注意力機(jī)制法對模型進(jìn)行可解釋性分析。盡管注意力機(jī)制有一定的可解釋性,但對中醫(yī)辯證思維的解釋不夠充分,難以完全呈現(xiàn)出真實的中醫(yī)辨證過程。于是向興華等[29]構(gòu)建多棵去相關(guān)決策樹,再使用規(guī)則提取方法探索中醫(yī)辨證規(guī)則,具有一定的臨床可解釋性。
本文使用稀疏注意力端到端地捕獲證與癥之間的對應(yīng)關(guān)系,具有一定的可解釋性,后對訓(xùn)練好的隨機(jī)森林規(guī)則提取生成證素辨證規(guī)律,可呈現(xiàn)中醫(yī)辨證過程,進(jìn)一步增強(qiáng)了證素辨證的可解釋性。
2? 模型方法
本文模型方法整體框架如圖1所示,主要由融合了稀疏注意力機(jī)制的多標(biāo)簽分類注意力模型(Sparse At-tention Multi-label Classification, SAML)與隨機(jī)森林(Random Forest, RF)組成。
方法包含兩個階段,第一階段使用SAML模型抽取每個樣本證素標(biāo)簽所關(guān)聯(lián)的關(guān)鍵詞及其稀疏注意力權(quán)重生成證素表征,其表現(xiàn)形式如圖1中第一階段右側(cè)所示,其中,kni表示第n個證素所關(guān)注的第i個關(guān)鍵詞,α表示其對應(yīng)的注意力權(quán)重;第二階段對證素表征融入相關(guān)標(biāo)簽特征,期望學(xué)習(xí)證素標(biāo)簽之間的相關(guān)性,后使用隨機(jī)森林進(jìn)行分類訓(xùn)練,對訓(xùn)練后的隨機(jī)森林規(guī)則提取生成證素辨證規(guī)律,模型框架如圖1中第二階段所示,其中,Li表示第i個證素標(biāo)簽,使用獨熱編碼。
2.1? SAML生成證素表征
第一階段模型方法SAML基于極端多標(biāo)簽分類注意力模型(AttentionXML)做了改進(jìn),AttentionXML提出了多標(biāo)簽注意機(jī)制,該機(jī)制能夠捕捉與每個標(biāo)簽最相關(guān)的部分,對不同的標(biāo)簽生成不同的文本表示,稀疏注意力在此基礎(chǔ)上去除一些無關(guān)特征,聚焦于關(guān)鍵特征,保持較好辨證效果的同時提升模型的可解釋性,另一方面,損失函數(shù)改為焦點損失,增強(qiáng)尾部標(biāo)簽的預(yù)測能力。
SAML模型由四部分組成:詞匯表示層、Bi-LSTM層、稀疏注意力層、全連接層和輸出層。圖1中第一階段左側(cè)為SAML模型框架圖。
1)詞匯表示層。SAML的輸入是長度為n的原始標(biāo)記文本。每個詞匯由一個深層語義嵌入向量表示,使用預(yù)訓(xùn)練的300維嵌入向量作為初始詞匯表示,詞庫中未索引到的詞使用隨機(jī)向量表示。
2)Bi-LSTM層。Bi-LSTM是一種能夠有效捕捉長距離雙向語義依賴關(guān)系的神經(jīng)網(wǎng)絡(luò),適用于序列文本數(shù)據(jù)的建模,使用Bi-LSTM捕獲上下文特征,于每個時間步通過串聯(lián)正向輸出和反向輸出作為下一層網(wǎng)絡(luò)的輸入。
3)稀疏注意力層。將注意力層改為稀疏注意力層,AttentionXML通過注意力機(jī)制加權(quán)計算每個標(biāo)簽上下文向量的線性組合,而Softmax歸一化可能會導(dǎo)致密集的注意力權(quán)重,非零權(quán)重可能會為無關(guān)特征分配權(quán)重,且會縮減權(quán)重高的特征,本文采用稀疏注意力(α-entmax[30])關(guān)注關(guān)鍵特征,去除無關(guān)特征,如式(1)所示:
(1)
其中,當(dāng)α = 1時表示Softmax函數(shù),α = 2時表示Sparsemax函數(shù)。,將Rd+1中向量映射到Δd函數(shù)用于將權(quán)重向量轉(zhuǎn)換為概率分布表示。α-entmax(z)避免采用指數(shù)函數(shù)對注意力權(quán)重z做平滑變換,該機(jī)制將z的歐氏投影返回到概率單純形上,由于單純形的限制,該投影點通常會落在單純形的邊界上[31],從而實現(xiàn)稀疏化效果。為保留更多的特征信息,α超參數(shù)設(shè)為1.5。
4)全連接層和輸出層。SAML有一個全連接層和一個輸出層。全連接層和輸出層共享參數(shù),以突出標(biāo)簽之間注意力的差異。此外,在標(biāo)簽之間共享全連接層的參數(shù)值可減少參數(shù)數(shù)量,以避免過度擬合,并保持模型比例較小。
5)焦點損失。AttentionXML使用交叉熵?fù)p失函數(shù),將其改為焦點損失(Focal Loss, FL),隨著預(yù)測輸出概率的增加,正樣本的損失逐漸降低;反之,對于負(fù)樣本,預(yù)測輸出概率越小則損失越小。焦點損失函數(shù)如式(2)所示:
(2)
其中,焦點損失在交叉熵基礎(chǔ)上引入了一個可調(diào)節(jié)因子γ,當(dāng)γ>0時有針對性地減少易分類樣本的損失,使模型更加關(guān)注于困難和錯誤分類的樣本,后引入平衡因子α,以此平衡標(biāo)簽樣本的不均衡。
第一階段使用SAML模型對證素進(jìn)行多標(biāo)簽分類,稀疏注意力能夠得出每個樣本證素標(biāo)簽的關(guān)鍵辨證依據(jù),但由大量樣本生成的辨證依據(jù)繁雜多樣且含有特異樣本,為探索證素辨證普遍規(guī)律,從稀疏注意力層分別抽取每個證素所關(guān)聯(lián)的關(guān)鍵詞作為屬性,其稀疏注意力權(quán)重作為特征進(jìn)行編碼生成證素表征,如圖1中第一階段右側(cè)所示,如此生成的證素表征不再是神經(jīng)網(wǎng)絡(luò)中不明具體含義的機(jī)器數(shù)字,一定程度上提升了證素辨證的可解釋性,為第二階段生成辨證規(guī)律做前提準(zhǔn)備。
2.2? RF分類及規(guī)則提取
隨機(jī)森林(RF)以決策樹為基本單元,通過集成多棵決策樹投票得出結(jié)果。RF構(gòu)建單棵決策樹過程為:假設(shè)數(shù)據(jù)集T中樣本量為M,每次有放回隨機(jī)選擇M次樣本,單個樣本沒有被抽取到的概率為(1-1/M)M,如此便選擇了部分樣本用作決策樹訓(xùn)練。然后,訓(xùn)練樣本同樣采取隨機(jī)抽樣方法選擇特征子集,特征抽取數(shù)量為 ,n為數(shù)據(jù)集特征總數(shù),從? 個特征中采用基尼指數(shù)選擇一個最優(yōu)特征作劃分決策樹節(jié)點,之后每個節(jié)點如此反復(fù)迭代,直至節(jié)點不能分裂為止。按照上述步驟構(gòu)建大量的決策樹,即構(gòu)成隨機(jī)森林,每棵決策樹產(chǎn)生一個投票結(jié)果,最終投票結(jié)果最多的類別,即為模型最終預(yù)測結(jié)果。由于RF中決策樹的特性,針對各分類結(jié)果存在多條路徑規(guī)則,對RF進(jìn)行規(guī)則提取可生成證素辨證規(guī)律。
2.2.1? 證素表征預(yù)處理后訓(xùn)練
由于證素標(biāo)簽較多,為全部標(biāo)簽訓(xùn)練一個隨機(jī)森林難以擬合數(shù)據(jù)集且規(guī)則路徑錯綜復(fù)雜,為生成更為清晰的證素辨證規(guī)律,將多分類任務(wù)轉(zhuǎn)換成二分類任務(wù),對每個證素獨立訓(xùn)練一個二分類隨機(jī)森林,通過建立多個獨立的隨機(jī)森林來進(jìn)行多標(biāo)簽分類,樣本存在該證素標(biāo)簽即為正樣本,無該證素標(biāo)簽即為負(fù)樣本。首先,對第一階段的證素表征進(jìn)行歸一化處理,后在此基礎(chǔ)上融入相關(guān)證素標(biāo)簽,如圖1第二階段左側(cè)所示,即將該樣本的其他證素標(biāo)簽進(jìn)行獨熱編碼拼接于證素表征之后,期望在訓(xùn)練過程中能夠捕捉標(biāo)簽之間的相關(guān)性,提升模型性能,最后將特征豐富后的證素表征輸入RF中進(jìn)行分類訓(xùn)練。
2.2.2? RF迭代測試方法
由于RF訓(xùn)練數(shù)據(jù)集中含有真實標(biāo)簽特征,而在測試時標(biāo)簽是未知的,為驗證各證素RF的性能,采取一種迭代的方式進(jìn)行測試,如圖2所示。
測試集證素表征由第一階段模型抽取得出,由于測試集標(biāo)簽未知,初次迭代將所有相關(guān)標(biāo)簽編碼為0,而RF對缺省值也能獲得較好結(jié)果,經(jīng)過一次迭代后將所有RF分類預(yù)測結(jié)果進(jìn)行獨熱編碼,更新相關(guān)證素標(biāo)簽特征,然后再作為RF輸入繼續(xù)分類預(yù)測,如此反復(fù)迭代,當(dāng)分類結(jié)果與真實標(biāo)簽的F1值不再變化時終止迭代。
2.2.3? RF規(guī)則提取生成證素辨證規(guī)律
對訓(xùn)練后的RF進(jìn)行規(guī)則提取,以便解釋模型的辨證結(jié)果。RF規(guī)則提取的基本思路是將決策樹的結(jié)構(gòu)轉(zhuǎn)化為一組規(guī)則,每個規(guī)則對應(yīng)決策樹中的一條路徑。以下是隨機(jī)森林規(guī)則提取的流程:
1)遍歷遞歸隨機(jī)森林中的每棵決策樹的節(jié)點,將其轉(zhuǎn)化為一組規(guī)則。規(guī)則由條件和結(jié)論組成,其中條件由一系列特征和閾值組成,結(jié)論則是分類標(biāo)簽。
2)計算每個規(guī)則的頻率和誤差。頻率為滿足某一規(guī)則中規(guī)則條件的樣本比例,誤差為規(guī)則確定的錯誤分類樣本數(shù)與滿足規(guī)則樣本數(shù)的比率,這兩個指標(biāo)有助于評估規(guī)則的有效性。
3)根據(jù)頻率和誤差指標(biāo),選擇一組最具代表性和可解釋性的規(guī)則,其規(guī)則可用于解釋模型的結(jié)果或預(yù)測新的樣本標(biāo)簽。為提高可解釋性,可對規(guī)則進(jìn)行合并和簡化,如合并相同特征的規(guī)則,刪除無關(guān)特征的條件等。
3? 實驗結(jié)果與分析
3.1? 實驗數(shù)據(jù)
對本文所提出的方法進(jìn)行評估,實驗數(shù)據(jù)為江西中醫(yī)藥大學(xué)岐黃國醫(yī)書院提供的真實電子病歷,共有10萬余個病歷。
首先對數(shù)據(jù)證候進(jìn)行預(yù)處理,為規(guī)范標(biāo)簽分布,減少標(biāo)簽空間的復(fù)雜度,以中醫(yī)證素表為標(biāo)準(zhǔn)通過前后向最大匹配法將證候標(biāo)簽轉(zhuǎn)換成證素表示。中醫(yī)證素表基于朱文鋒教授總結(jié)的證素概念,再由中醫(yī)專家對部分證素進(jìn)行細(xì)化擴(kuò)展得出,共有病性病位共200余種,部分證素如表1所示。通過中醫(yī)證素表對電子病歷證候進(jìn)行預(yù)處理,表2為證候到證素轉(zhuǎn)換示例。
表1? 中醫(yī)證素表
病位 病性 病位 病性
心 風(fēng) 肺 濕
肝 寒 … …
腎 暑 咽 風(fēng)陽上擾
表2? 證候到證素轉(zhuǎn)換示例
證候 證素
病位 病性
肝腎兩經(jīng) 濕濁 濕重 濕熱
濕重于熱 腎 肝 濕 熱
太陽少陰風(fēng)寒濕 營瘀 水飲濁 少陰 太陽 營 風(fēng) 濁 水飲
寒濕
氣滯 三焦 濕熱生痰 濕熱
痰阻氣滯 三焦 氣滯 痰 濕 熱
將證候轉(zhuǎn)換成證素表示之后,抽取電子病歷中四診信息作為模型的輸入,最終實驗數(shù)據(jù)集表現(xiàn)形式如表3所示。
表3? 實驗數(shù)據(jù)集表現(xiàn)形式
文本 標(biāo)簽
問診;望診;聞診;脈診 證素
模型輸入為一串文本,由問診、望診、聞診、脈診四診表述拼接而來,標(biāo)簽為證素。為使模型效果更優(yōu),對四診數(shù)據(jù)進(jìn)行一些處理。首先去除文本中的停用詞與特殊字符,后為使模型更擬合于數(shù)據(jù)集,去除一些特殊的離群文本,僅保留文本長度為400個字及以下的文本,最后基于中醫(yī)術(shù)語詞表使用結(jié)巴分詞對文本進(jìn)行分詞。此中醫(yī)術(shù)語詞表為中醫(yī)專業(yè)人員整理,共包含27 468個詞匯。
對數(shù)據(jù)進(jìn)行刪除和過濾等處理后,為有針對性地探索某位醫(yī)生或某個病種的辨證規(guī)律,分別根據(jù)醫(yī)生、病種(中醫(yī)診斷)整理出4個數(shù)據(jù)集,訓(xùn)練集以及測試集分別隨機(jī)選取了總樣本的80%和20%,數(shù)據(jù)集樣本量和標(biāo)簽數(shù)目情況如表4所示。
表4? 數(shù)據(jù)集樣本量和標(biāo)簽數(shù)目情況表
數(shù)據(jù)集 訓(xùn)練集 測試集 總計 證素標(biāo)簽
醫(yī)生 醫(yī)生A 16 258 4 065 20 323 141
醫(yī)生B 12 710 3 178 15 888 183
病種 咳嗽 10 894 2 723 13 617 160
痹癥 3 518 879 4 397 135
3.2? 實驗參數(shù)與評價指標(biāo)
本文實驗?zāi)P偷膮?shù)設(shè)置如下,詞向量的維度為300維,使用Word2Vec詞向量初始化,Word2Vec詞庫中未索引到的詞由隨機(jī)向量表示。Bi-LSTM的隱藏層維度為256,學(xué)習(xí)率為1×10-2,使用optim內(nèi)置方法lr_scheduler調(diào)整學(xué)習(xí)率,最小為1×10-4;稀疏注意力機(jī)制α超參數(shù)設(shè)為1.5;使用Adam算法優(yōu)化模型參數(shù),使用批處理方法對模型參數(shù)進(jìn)行更新,批處理大小batch-size設(shè)為100,迭代次數(shù)epoch為100,每20個batch設(shè)置一個檢查點,以保存最優(yōu)模型,當(dāng)30次檢查點不再更新最優(yōu)模型時終止訓(xùn)練。以熱啟動方式不斷生成多棵決策樹,發(fā)現(xiàn)RF決策樹棵數(shù)為200時模型趨于穩(wěn)定,其他參數(shù)優(yōu)先使用默認(rèn)值。SAML模型損失函數(shù)為焦點損失,RF模型以基尼系數(shù)(gini)為損失函數(shù)。
兩階段多標(biāo)簽分類模型性能越好才能生成更為準(zhǔn)確的證素辨證規(guī)律。為評價模型性能,兩階段實驗均以漢明損失(Hamming-Loss, HL)、正確率(Precision)、召回率(Recall)和 micro-F1作為評價指標(biāo)。
漢明損失衡量預(yù)測錯誤標(biāo)簽的比例,漢明損失值越低,表示模型性能越好。具體計算如式(3)所示:
(3)
其中,N表示樣本總數(shù),L表示標(biāo)簽數(shù)目,y表示第i個樣本的真實標(biāo)簽,y′表示第i個樣本的預(yù)測標(biāo)簽,XOR表示異或運算。
P值、R值和micro-F1計算公式如式(4)(5)(6)所示,其中m表示第m類標(biāo)簽,TPm、FPm、FNm分別表示真陽性、假陽性、假陰性。
(4)
(5)
(6)
3.3? 實驗結(jié)果及分析
為驗證本文模型方法的有效性,與一些經(jīng)典基線模型進(jìn)行對比?;€模型為:CNN[32]、DPCNN[33]、BiLSTM-Att[34]、SGM[35]、AttentionXML[36]。表5為根據(jù)醫(yī)生整理的數(shù)據(jù)集實驗結(jié)果,表6為根據(jù)病種整理的數(shù)據(jù)集實驗結(jié)果。
由表5和表6四個數(shù)據(jù)集實驗結(jié)果顯示,第一階段模型SAML相比于基線模型在HL和F1評價指標(biāo)上均取得了最好的性能。SAML相比于AttentionXML模型性能有所提高,說明采用焦點損失使模型關(guān)注于更少、更難分類的標(biāo)簽,增強(qiáng)了尾部標(biāo)簽的預(yù)測能力,且稀疏注意力關(guān)注證素辨證的關(guān)鍵依據(jù),消除了無關(guān)特征的影響。SGM模型將多標(biāo)簽分類任務(wù)視為序列生成任務(wù),其具有較強(qiáng)的順序敏感性,不同的標(biāo)簽排列順序會對預(yù)測結(jié)果產(chǎn)生較大影響。CNN模型分類依賴局部明顯特征,而數(shù)據(jù)集中長尾標(biāo)簽較多,個別標(biāo)簽樣本量較少,分類結(jié)果更加偏向于樣本量多的標(biāo)簽,從召回率較低可以看出此特點。相比于BiLSTM-Att模型,SAML模型引入了稀疏注意力機(jī)制,能夠針對不同標(biāo)簽捕捉最相關(guān)的文本表示,從而更為準(zhǔn)確地生成證素標(biāo)簽的語義表示。
表5? 醫(yī)生數(shù)據(jù)集實驗結(jié)果
模型 醫(yī)生A 醫(yī)生B
HL P R F1 HL P R F1
CNN 0.016 0.872 0.827 0.849 0.041 0.646 0.604 0.625
DPCNN 0.016 0.881 0.821 0.850 0.040 0.634 0.617 0.625
BiLSTM-Att 0.015 0.882 0.839 0.860 0.040 0.635 0.615 0.625
SGM 0.017 0.834 0.847 0.841 0.043 0.622 0.620 0.621
AttentionXML 0.015 0.873 0.852 0.862 0.041 0.634 0.608 0.621
SAML 0.014 0.887 0.857 0.872 0.040 0.634 0.620 0.626
SAML-RF 0.013 0.912 0.833 0.871 0.037 0.725 0.474 0.573
表6? 病種數(shù)據(jù)集實驗結(jié)果
模型 咳嗽 痹癥
HL P R F1 HL P R F1
CNN 0.035 0.654 0.638 0.646 0.026 0.777 0.714 0.744
DPCNN 0.037 0.654 0.616 0.634 0.032 0.724 0.639 0.679
BiLSTM-Att 0.036 0.643 0.633 0.638 0.026 0.777 0.705 0.739
SGM 0.035 0.638 0.634 0.642 0.032 0.697 0.681 0.689
AttentionXML 0.035 0.655 0.638 0.646 0.025 0.799 0.701 0.747
SAML 0.033 0.660 0.656 0.658 0.024 0.795 0.723 0.757
SAML-RF 0.030 0.738 0.595 0.659 0.024 0.817 0.695 0.751
第二階段模型SAML-RF在第一階段模型SAML基礎(chǔ)上進(jìn)行實驗,由表5和表6實驗結(jié)果可以看出,第二階段相比于第一階段在HL和P值評價指標(biāo)上達(dá)到了最優(yōu)性能,并保持著較高的F1值。由于數(shù)據(jù)集標(biāo)簽樣本不均衡,雖焦點損失有一定改善,但部分長尾標(biāo)簽仍然難以預(yù)測,導(dǎo)致第一階段的召回率較低,生成的證素表征大多為樣本量多的證素標(biāo)簽,而樣本較少的證素標(biāo)簽正樣本較少負(fù)樣本較多,由第二階段P值與R值對比可以看出此特點,RF預(yù)測的證素標(biāo)簽準(zhǔn)確率遠(yuǎn)大于召回率,許多尾部標(biāo)簽難以預(yù)測。雖然第二階段相比于第一階段在F1性能上基本沒有提升,甚至在醫(yī)生B數(shù)據(jù)集上有所降低,但其使用RF對證素進(jìn)行分類,RF中決策樹天然的可解釋性有利于事后進(jìn)行可解釋性分析。另一方面,第二階段準(zhǔn)確率高也具有一定優(yōu)勢,其證素分類準(zhǔn)確率越高代表著RF決策樹中正確的決策路徑越多,有利于生成證素辨證規(guī)律。
由表5和表6實驗結(jié)果可以看出,在醫(yī)生A數(shù)據(jù)集和痹癥數(shù)據(jù)集上模型效果最好,其F1值分別達(dá)到了0.871和0.755;而醫(yī)生B數(shù)據(jù)集和咳嗽數(shù)據(jù)集效果較差,其F1值分別達(dá)到了0.573和0.659。究其原因,中醫(yī)辨證理論有一特點,不同醫(yī)生對不同病種的辨證風(fēng)格不一,醫(yī)生A數(shù)據(jù)集是根據(jù)醫(yī)生A整理的數(shù)據(jù)集,其樣本量較多,據(jù)統(tǒng)計其病種大多為感冒、哮喘以及發(fā)熱,其他病種雖然存在但樣本較少,故在醫(yī)生A數(shù)據(jù)集上模型效果較優(yōu);而醫(yī)生B數(shù)據(jù)集共含有48種類型的病種,各病種類型樣本過于分散,且其證素標(biāo)簽有180個,在類型如此多的病種中對某一證素進(jìn)行分類難度較高??人圆》N由于誘發(fā)因素較多,且多含其他并發(fā)癥,不同醫(yī)生辨證方式復(fù)雜多樣,在此數(shù)據(jù)集上模型效果較差;而痹癥由于其癥狀表現(xiàn)具有強(qiáng)烈的鮮明性,辨證風(fēng)格較為統(tǒng)一,在少量樣本的情況下也能有較好的效果。由于四個數(shù)據(jù)集的分布構(gòu)成不同,在各數(shù)據(jù)集上的模型行性能也較為符合客觀規(guī)律。
為了進(jìn)一步驗證模型各組件的有效性,本文在四個數(shù)據(jù)集上進(jìn)行了三組消融實驗,實驗結(jié)果如表7和表8所示。
1)AttentionXML為基線模型,AttentionXML+FL在其基礎(chǔ)上加入焦點損失,SAML再加入稀疏注意力機(jī)制。由表7和表8實驗結(jié)果可以看出,加入焦點損失后的模型性能明顯優(yōu)于基線模型,表明焦點損失對模型是有利的,其增強(qiáng)了尾部標(biāo)簽的預(yù)測能力。加入稀疏注意力后模型性能略微提升,說明了稀疏注意力所關(guān)注到的關(guān)鍵詞即辨證依據(jù)是切實有效的,在去除無關(guān)特征后,僅部分關(guān)鍵詞就能得到較好的效果。
2)SAML-RF(one-hot)將關(guān)鍵詞獨熱編碼,SAML-RF(weight)將關(guān)鍵詞特征設(shè)為稀疏注意力權(quán)重,SAML-RF(one-hot+label)以及SAML-RF(weight+label)將關(guān)鍵詞編碼后融入證素標(biāo)簽特征。表7和表8實驗結(jié)果表明,其注意力權(quán)重特征對模型性能影響較小,單純以抽取出的關(guān)鍵詞進(jìn)行獨熱編碼也有較好的性能,進(jìn)一步驗證了稀疏注意力所關(guān)注到的關(guān)鍵詞的有效性。
3)表7和表8實驗結(jié)果顯示,融入證素標(biāo)簽特征后模型性能有所提高,說明RF有捕捉到標(biāo)簽之間的相關(guān)性,關(guān)鍵詞與證素標(biāo)簽相關(guān)聯(lián)進(jìn)一步提升模型的預(yù)測效果。
3.4? RF規(guī)則提取結(jié)果
為能更直觀地理解隨機(jī)森林的辨證原理,忽略注意力權(quán)重的影響,將關(guān)鍵詞和其他證素標(biāo)簽獨熱編碼作為RF的訓(xùn)練數(shù)據(jù),以性能較好的醫(yī)生A和痹癥數(shù)據(jù)集為例,隨機(jī)森林部分特征重要性排序以及其為節(jié)點特征的頻次如表9所示。表9中特征重要性從上到下逐漸減低,從表中可以看出,脈診和舌診特征的重要性較高,較為符合岐黃國醫(yī)書院醫(yī)師辨證風(fēng)格。對訓(xùn)練好的RF進(jìn)行規(guī)則提取,部分證素分類簡化規(guī)則集如表10所示。
表10中頻率為滿足某一規(guī)則中規(guī)則條件的樣本比例,誤差為規(guī)則確定的錯誤分類樣本數(shù)與滿足規(guī)則樣本數(shù)的比率,條件僅代表“有”此特征,其他“無”特征由于規(guī)則條件過長在此不打印輸出。由表10可以看出,對RF進(jìn)行規(guī)則提取確實能找到一些可解釋的辨證規(guī)律,并且其誤差也較低,可為醫(yī)生或相關(guān)從業(yè)人員提供有效的指導(dǎo),但部分規(guī)則還需中醫(yī)專家進(jìn)行分析評價。
4? 結(jié)? 論
本文使用融合了稀疏注意力的神經(jīng)網(wǎng)絡(luò)端到端地捕獲證與癥之間的對應(yīng)關(guān)系,去除了其他無關(guān)特征,縮減特征空間,有利于隨機(jī)森林的訓(xùn)練,后對訓(xùn)練好的隨機(jī)森林進(jìn)行規(guī)則提取生成證素辨證規(guī)律,可對辨證結(jié)果進(jìn)行可解釋性分析。實驗結(jié)果表明,本文模型方法提升了證素辨識的準(zhǔn)確率,同時F1保持較高水平,有利于探索證素辨證規(guī)律,增強(qiáng)了證素辨證的可解釋性。
本文方法相比基線模型方法的辨證效果有所提高,但距離成為中醫(yī)辨證輔助決策臨床應(yīng)用還有較大差距。需加強(qiáng)學(xué)習(xí)的深度,將知識圖譜、深度學(xué)習(xí)等算法有機(jī)結(jié)合,加強(qiáng)模型的構(gòu)造、訓(xùn)練和優(yōu)化,且規(guī)則提取方法還需進(jìn)一步深入研究。另外中醫(yī)領(lǐng)域知識專業(yè)性非常強(qiáng),其辨證理論復(fù)雜,本文雖能得到部分辨證規(guī)律,但大量規(guī)則還需和中醫(yī)專家共同合作來分析評價,才能構(gòu)建中醫(yī)專家認(rèn)可和理解的辨證規(guī)律。
參考文獻(xiàn):
[1] 冷玉琳,高泓,富曉旭,等.中醫(yī)證候臨床研究方法研究進(jìn)展 [J].中華中醫(yī)藥雜志,2021,36(10):6002-6005.
[2] 朱文鋒,甘慧娟.對古今有關(guān)證素概念的梳理 [J].湖南中醫(yī)藥導(dǎo)報,2004(11):1-3+5.
[3] 王章林,賴新梅.證素辨證理論體系與方法學(xué)研究述評 [J].福建中醫(yī)藥,2022,53(5):53-55+59.
[4] 李連新,楊璠,朱兆鑫,等.中醫(yī)人工智能辨證研究現(xiàn)狀與發(fā)展 [J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2021,23(11):4268-4276.
[5] 嚴(yán)冬,謝瑤,芮一峰,等.基于主成分分析與聚類分析的多發(fā)性硬化中醫(yī)證候分類研究 [J].現(xiàn)代中醫(yī)臨床,2020,27(6):13-16+26.
[6] 龐穩(wěn)泰,金鑫瑤,龐博,等.中醫(yī)藥防治新型冠狀病毒肺炎方證規(guī)律分析 [J].中國中藥雜志,2020,45(6):1242-1247.
[7] 趙若含,李慧杰,張潔,等.肺癌相關(guān)性抑郁的影響因素及中醫(yī)證候分析 [J].現(xiàn)代中醫(yī)臨床,2022,29(5):13-18.
[8] 楊玉培,宋亞靜,劉楊杰,等.基于聚類分析對體外受精與胚胎移植控制性超促排前后多囊卵巢綜合征不孕癥中醫(yī)證候的研究 [J].世界中西醫(yī)結(jié)合雜志,2022,17(10):2024-2028+2034.
[9] 丁亮,章新友,劉莉萍,等.基于深度神經(jīng)網(wǎng)絡(luò)的原發(fā)性肝癌證型診斷分類預(yù)測模型 [J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2020,22(12):4185-4192.
[10] 張異卓,周璐,孫月蒙,等.基于雙向表示神經(jīng)網(wǎng)絡(luò)的中醫(yī)證候歸類模型的構(gòu)建 [J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化,2022,24(10):4063-4072.
[11] HUANG Z,MIAO J,CHEN J,et al. A Traditional Chinese Medicine Syndrome Classification Model Based on Cross-Feature Generation by Convolution Neural Network: Model Development and Validation [J/OL].JMIR Medical Informatics,2022,10(4):e29290(2022-06-04).https://medinform.jmir.org/2022/4/e29290.
[12] 石英杰.基于病機(jī)模型的胸痹病中醫(yī)智能輔助診斷方法研究 [D].北京:中國中醫(yī)科學(xué)院,2021.
[13] 劉凡.基于知識圖譜技術(shù)的名老中醫(yī)慢性胃炎辨證論治方案研究 [D].北京:中國中醫(yī)科學(xué)院,2020.
[14] 葉青,張素華,程春雷,等.融合知識圖譜的多通道中醫(yī)辨證模型 [J].科學(xué)技術(shù)與工程,2022,22(21):9190-9198.
[15] YANG R,YE Q,CHENG C,et al. Decision-making system for the diagnosis of syndrome based on traditional Chinese medicine knowledge graph [J/OL].Evidence-Based Complementary and Alternative Medicine,2022,2022:8693937(2022-02-10).https://pubmed.ncbi.nlm.nih.gov/35186106/.
[16] GUIDOTTI R,MONREALE A,RUGGIERI S,et al. A survey of methods for explaining black box models [J].ACM computing surveys (CSUR),2018,51(5):1-42.
[17] GUNNING D,AHA D. DARPA's explainable artificial intelligence (XAI) program [J].AI magazine,2019,40(2):44-58.
[18] SAMEK W,MONTAVON G,VEDALDI A,et al. Explainable AI: interpreting,explaining and visualizing deep learning [M].Cham:Springer,2019.
[19] LINARDATOS P,PAPASTEFANOPOULOS V,KOTSIANTIS S. Explainable ai: A review of machine learning interpretability methods [J/OL].Entropy,2020,23(1):18(2020-12-25).https://doi.org/10.3390/e23010018.
[20] TJOA E,GUAN C. A survey on explainable artificial intelligence (xai): Toward medical xai [J].IEEE transactions on neural networks and learning systems,2020,32(11):4793-4813.
[21] SCHOONDERWOERD T A J,JORRITSMA W,NEERINCX M A,et al. Human-centered XAI: Developing design patterns for explanations of clinical decision support systems [J/OL].International Journal of Human-Computer Studies,2021,154:102684(2021-07-28).https://doi.org/10.1016/j.ijhcs.2021.102684.
[22] ANTONIADI A M,DU Y,GUENDOUZ Y,et al. Current challenges and future opportunities for XAI in machine learning-based clinical decision support systems: a systematic review [J/OL].Applied Sciences,2021,11(11):5088(2021-05-31).https://www.mdpi.com/2076-3417/11/11/5088.
[23] POPLIN R,VARADARAJAN A V,BLUMER K,et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning [J].Nature biomedical engineering,2018,2(3):158-164.
[24] KERMANY D S,GOLDBAUM M,CAI W,et al. Identifying medical diagnoses and treatable diseases by image-based deep learning [J].cell,2018,172(5):1122-1131.
[25] 王雨虹.面向TNM分期的中文影像報告腫瘤信息提取研究 [D].杭州:浙江大學(xué),2020.
[26] 駱明楠.面向智能舌診的注意力卷積網(wǎng)絡(luò)研究 [D].廣州:華南理工大學(xué),2020.
[27] PANG H,WEI S,ZHAO Y,et al. Effective attention-based network for syndrome differentiation of AIDS [J].BMC Medical Informatics and Decision Making,2020,20(1):1-10.
[28] 鄭毅.融合知識圖譜的可解釋性處方推薦方法研究[D].北京:北京交通大學(xué),2021.
[29] 向興華,彭葉輝,楊偉,等.頑固性高血壓發(fā)生主要不良心血管事件患者的中醫(yī)四診信息可解釋性研究——基于隨機(jī)森林規(guī)則提取方法 [J].中醫(yī)雜志,2022,63(7):628-634.
[30] PETERS B,NICULAE V,MARTINS A F T. Sparse sequence-to-sequence models [EB/OL].(2019-05-14).https://arxiv.org/abs/1905.05702.
[31] MARTINS A,ASTUDILLO R. From softmax to sparsemax: A sparse model of attention and multi-label classification [C]//International conference on machine learning. New York:JMLR,2016:1614-1623.
[32] KIM Y. Convolutional Neural Networks for Sentence Classification [EB/OL].(2014-08-25).https://arxiv.org/abs/1408.5882v2.
[33] JOHNSON R,ZHANG T. Deep pyramid convolutional neural networks for text categorization [C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Vancouver:ACL,2017:562-570.
[34] ZHOU P,SHI W,TIAN J,et al. Attention-based bidirectional long short-term memory networks for relation classification [C]//Proceedings of the 54th annual meeting of the association for computational linguistics (volume 2:Short papers).Berlin:ACL,2016:207-212.
[35] YANG P,SUN X,LI W,et al. SGM: sequence generation model for multi-label classification [EB/OL].(2018-06-13).https://arxiv.org/abs/1806.04822v3.
[36] YOU R,ZHANG Z,WANG Z,et al. Attentionxml: Label tree-based attention-aware deep model for high-performance extreme multi-label text classification [C]//Advances in Neural Information Processing Systems 32 (NeurIPS 2019).NIPS,2019:1-11.
作者簡介:藍(lán)勇(1997—),男,漢族,江西宜春人,碩士研究生在讀,研究方向:自然語言處理;通訊作者:程春雷(1976—),男,漢族,江西南昌人,副教授,碩導(dǎo),博士,主要研究方向:機(jī)器學(xué)習(xí)、知識表示與學(xué)習(xí)、知識圖譜;葉青(1967—),女,漢族,江西南昌人,教授,碩士,研究方向:計算機(jī)應(yīng)用技術(shù);胡杭樂(1998—),男,漢族,浙江杭州人,碩士研究生在讀,研究方向:自然語言處理;沈友志(1997—),男,漢族,江西撫州人,碩士研究生在讀,研究方向:自然語言處理。