国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合知識(shí)圖譜的多通道中醫(yī)辨證模型

2022-08-23 12:20葉青張素華程春雷鄒靜彭琳
科學(xué)技術(shù)與工程 2022年21期
關(guān)鍵詞:病歷結(jié)論圖譜

葉青, 張素華, 程春雷, 鄒靜, 彭琳

(江西中醫(yī)藥大學(xué)計(jì)算機(jī)學(xué)院, 南昌 330004)

中醫(yī)辨證主要依賴臨床專家依靠感官收集四診信息,在中醫(yī)理論指導(dǎo)下,利用四診信息對(duì)證候歸屬進(jìn)行判斷[1]。辨證是中醫(yī)認(rèn)識(shí)疾病的基本原則,是中醫(yī)對(duì)疾病的一種特殊的研究和處理方法,也是中醫(yī)學(xué)區(qū)別于其他醫(yī)學(xué)的重要特征[2]。

縱觀整個(gè)中醫(yī)辨證發(fā)展脈絡(luò),中醫(yī)辨證的研究方法可歸納為知識(shí)工程、數(shù)理統(tǒng)計(jì)法、傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)四大類[3]。知識(shí)工程主要是利用規(guī)則的方法進(jìn)行辨證,但規(guī)則較多時(shí)則容易出現(xiàn)規(guī)則前后矛盾的現(xiàn)象[4]。知識(shí)圖譜是以圖的形式表現(xiàn)客觀世界中的實(shí)體、概念及其之間關(guān)系的知識(shí)庫(kù)。將知識(shí)圖譜應(yīng)用于醫(yī)療決策是目前的研究熱點(diǎn)[5]。嚴(yán)冬等[6]收集了78例患者在北京中醫(yī)藥大學(xué)東直門醫(yī)院腦病科就診的病歷資料,對(duì)其進(jìn)行主成分分析與聚類分析。王偉杰等[7]采用前瞻、多中心的橫斷面觀察性研究方法對(duì)302例類風(fēng)濕關(guān)節(jié)炎患者病歷數(shù)據(jù)進(jìn)行邏輯回歸分析。這類數(shù)理統(tǒng)計(jì)的方法在單一疾病的辨證效果尚好,但很難滿足真實(shí)臨床中多種疾病多個(gè)證候相兼的情況。許立輝等[8]采用基于關(guān)聯(lián)規(guī)則優(yōu)化的FP-Growth算法,構(gòu)建了中醫(yī)證候關(guān)聯(lián)分析模型。劉麗蓉等[9]提出了基于反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法,探討并構(gòu)建了蕁麻疹證候分類模型,達(dá)到較好的效果。傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要領(lǐng)域?qū)<疫M(jìn)行復(fù)雜的特征設(shè)計(jì)和提取,相對(duì)于其他研究領(lǐng)域,中醫(yī)領(lǐng)域數(shù)據(jù)類型繁雜、結(jié)構(gòu)多樣并且缺乏統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,如何保證數(shù)據(jù)集的質(zhì)量面臨著巨大的挑戰(zhàn)。深度學(xué)習(xí)算法可從原始數(shù)據(jù)中自動(dòng)提取特征,不需要研究者對(duì)領(lǐng)域知識(shí)有十分深入的了解[10]。張陽(yáng)等[11]應(yīng)用深度學(xué)習(xí)技術(shù)分析多囊卵巢綜合征患者不同的中醫(yī)辨證分型與生活方式,該研究數(shù)據(jù)量相對(duì)有限,結(jié)果可能有所偏差。許夢(mèng)白等[12]收集關(guān)于不孕癥的中醫(yī)名醫(yī)病案300例,采用統(tǒng)計(jì)學(xué)注意力神經(jīng)網(wǎng)絡(luò)模型構(gòu)建不孕癥中醫(yī)辨證模型。然而,該研究所采用的數(shù)據(jù)僅為文獻(xiàn)病案數(shù)據(jù),樣本量較小,模型在低質(zhì)量數(shù)據(jù)中會(huì)產(chǎn)生偏移。

臨床上的中醫(yī)病歷文本數(shù)據(jù)在中醫(yī)四診(望診、聞診、問診、切診)的觀測(cè)角度不同,各方面的特征表達(dá)存在差異。例如,問診部分的“睡眠欠佳經(jīng)年”與現(xiàn)代醫(yī)學(xué)語言相近;脈診部分的“略細(xì)弦澀,右寸略浮,尺沉稍有力,左關(guān)略軟”主要根據(jù)三部九候的方法對(duì)脈象要素進(jìn)行描述;舌診部分的“舌質(zhì)正紅,尖略紅,苔薄白”主要觀察舌質(zhì)與舌苔的變化;望診部分的“形體偏瘦”多用于描述面色、皮膚、身材。模型通過對(duì)四診信息多通道的分開處理,訓(xùn)練更為合理。

與此同時(shí),中醫(yī)電子病歷缺乏高質(zhì)量語料,模型訓(xùn)練容易欠擬合。例如,脈診與舌診字段描述較全,但描述區(qū)分度較低;聞診字段則空缺信息較多等。此外,針對(duì)一個(gè)特定病案,雖然中醫(yī)病歷文本數(shù)據(jù)中四診觀測(cè)角度不同,但各觀測(cè)角度所得癥狀存在知識(shí)關(guān)聯(lián)。例如,某病案的問診部分的“睡眠欠佳經(jīng)年”和望診部分的“形體偏瘦”具有關(guān)聯(lián)性。加入人工知識(shí)圖譜,可對(duì)模型訓(xùn)練進(jìn)行知識(shí)的增強(qiáng)。

通過上述分析,現(xiàn)提出融合知識(shí)圖譜的多通道中醫(yī)辨證模型。鑒于中醫(yī)辨證結(jié)果存在多種證候相兼的情況,對(duì)中醫(yī)電子病歷證候字段進(jìn)行處理,構(gòu)造中醫(yī)電子病歷多標(biāo)簽分類數(shù)據(jù)集。人工構(gòu)建小規(guī)模知識(shí)圖譜,訓(xùn)練知識(shí)圖譜嵌入向量。對(duì)模型中標(biāo)簽注意力部分改進(jìn)為多通道結(jié)構(gòu),并將知識(shí)圖譜嵌入向量嵌入模型中,從而提高癥狀識(shí)別效果。

1 融合知識(shí)圖譜的多通道中醫(yī)辨證模型

臨床上的中醫(yī)病歷文本數(shù)據(jù)訓(xùn)練和測(cè)試的樣本在脈診、舌診、望診、聞診和問診的觀測(cè)角度不同,各方面的特征表達(dá)有所差異。針對(duì)一個(gè)特定病案,雖然中醫(yī)病歷文本數(shù)據(jù)中觀測(cè)角度不同,但是各觀測(cè)角度所得癥狀存在關(guān)聯(lián)。中醫(yī)電子病歷缺乏高質(zhì)量語料,模型訓(xùn)練容易欠擬合。根據(jù)這些特點(diǎn),提出融合知識(shí)圖譜的多通道中醫(yī)辨證模型。模型整體結(jié)構(gòu)如圖1所示,該模型包括以下4個(gè)模塊。

(1)特征提取模塊。通過多個(gè)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)初步提取上下文信息和淺層語義特征,得到可以特征互補(bǔ)的癥狀句子向量。

(2)知識(shí)圖譜嵌入模塊。人工構(gòu)建小規(guī)模知識(shí)圖譜,訓(xùn)練中醫(yī)實(shí)體與關(guān)系的嵌入向量,得到更豐富的語義特征。

(3)模型融合與預(yù)測(cè)模塊。將特征提取模塊和知識(shí)圖譜嵌入模塊進(jìn)行融合,進(jìn)行算法的學(xué)習(xí)與預(yù)測(cè)。

(4)隨機(jī)加權(quán)平均模塊。使用隨機(jī)加權(quán)平均算法[13]進(jìn)行模型的集成與優(yōu)化,提高模型的泛化能力。

1.1 特征提取模塊

為了獲取文本的序列信息,選取基于反饋機(jī)制的BiLSTM提取特征信息,hi為雙向長(zhǎng)短期記憶網(wǎng)絡(luò)i時(shí)刻的輸出向量,其表達(dá)式為

(1)

注意力權(quán)重αij的學(xué)習(xí)通過在原始的網(wǎng)絡(luò)結(jié)構(gòu)中增加一個(gè)前饋網(wǎng)絡(luò)實(shí)現(xiàn)。這一前饋網(wǎng)絡(luò)的注意力權(quán)重的值αij是輸出隱藏向量hi和標(biāo)簽隱藏向量wj的點(diǎn)積,其表示形式為

(2)

式(2)中:t為文本某個(gè)字符;T為文本長(zhǎng)度。

標(biāo)簽注意力模塊能夠自動(dòng)地學(xué)習(xí)權(quán)重αij來捕捉癥狀字符和證候字符的相關(guān)性,學(xué)習(xí)所得的注意力權(quán)重將會(huì)被用來構(gòu)建某一個(gè)特征向量。在j標(biāo)簽時(shí),注意力輸出向量kj的表達(dá)式為

(3)

基于多通道的方法借鑒集成學(xué)習(xí)思想,它訓(xùn)練多個(gè)特征并整合,可獲得比單個(gè)特征更好的性能[14]。鑒于中醫(yī)電子病歷豐富的四診信息,文本將其應(yīng)用于文本處理中,設(shè)置4個(gè)通道,對(duì)同樣的輸入

圖1 融合知識(shí)圖譜的多通道中醫(yī)辨證模型結(jié)構(gòu)示意圖Fig.1 Structure diagram of multi-channel Chinese Medicine syndrome multi-label classification model based on knowledge graph

癥狀進(jìn)行多種特征表示。如圖1所示,假設(shè)標(biāo)簽數(shù)量為l,第i個(gè)通道中特征向量Ci表示為

(4)

式(4)中:k0為第0個(gè)標(biāo)簽的注意力輸出向量;k1為第1個(gè)標(biāo)簽的注意力輸出向量,以此類推。Ci∈Rl×m,i∈{0,1,2,3},m為標(biāo)簽向量維度。

1.2 知識(shí)圖譜嵌入模塊

1.2.1 知識(shí)圖譜構(gòu)建

為了學(xué)習(xí)癥狀之間的內(nèi)在關(guān)聯(lián),構(gòu)造了基于中醫(yī)電子病歷的知識(shí)圖譜。實(shí)體抽取后得到八類實(shí)體:脈診、舌診、聞診、望診、查體、中醫(yī)診斷、護(hù)理宜忌和證候結(jié)論;十五類關(guān)系:脈診表現(xiàn)、舌診表現(xiàn)、聞診表現(xiàn)、望診表現(xiàn)、查體表現(xiàn)、證候結(jié)論表現(xiàn)、護(hù)理宜忌表現(xiàn)、中醫(yī)診斷表現(xiàn)、脈診-證候結(jié)論、舌診-證候結(jié)論、聞診-證候結(jié)論、望診-證候結(jié)論、查體-證候結(jié)論、證候結(jié)論-護(hù)理宜忌、證候結(jié)論-中醫(yī)診斷。

按中醫(yī)診斷的邏輯“辨證”,首先通過脈診表現(xiàn)、舌診表現(xiàn)、聞診表現(xiàn)、望診表現(xiàn)、查體表現(xiàn)、證候結(jié)論表現(xiàn)、護(hù)理宜忌表現(xiàn)、中醫(yī)診斷表現(xiàn)來對(duì)圖譜中8個(gè)類別的實(shí)體進(jìn)行匯聚;然后在已有8類實(shí)體基礎(chǔ)上結(jié)合關(guān)系:脈診-證候結(jié)論、舌診-證候結(jié)論、聞診-證候結(jié)論、望診-證候結(jié)論、查體-證候結(jié)論、證候結(jié)論-護(hù)理宜忌、證候結(jié)論-中醫(yī)診斷,使用Neo4j構(gòu)建圖譜,總計(jì)構(gòu)建八類實(shí)體共202 619個(gè),15類關(guān)系,總計(jì)1 499 457個(gè)三元組。部分知識(shí)圖譜展示如圖2所示。

1.2.2 知識(shí)圖譜嵌入

知識(shí)圖譜嵌入是將知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行向量表示,主要用于補(bǔ)全知識(shí)庫(kù)的知識(shí),但也可用于知識(shí)問答、推薦、語義檢索、文本信息增強(qiáng)。

根據(jù)評(píng)分函數(shù),嵌入技術(shù)大致分為兩類:平移距離模型和語義匹配模型。對(duì)于中醫(yī)領(lǐng)域,平移距離模型更關(guān)注中醫(yī)關(guān)系的多樣性。語義匹配模型更關(guān)注中醫(yī)實(shí)體和關(guān)系的深層次交互信息。在語義匹配模型中,RESCAL模型[15]將知識(shí)圖譜的三元組編碼為張量,通過點(diǎn)積形式的評(píng)分函數(shù)來衡量實(shí)體和關(guān)系的語義相關(guān)性。為解決隨著知識(shí)圖譜的擴(kuò)增而導(dǎo)致RESCAL模型計(jì)算效率較低的問題,DistMult模型[16]將Mr限制為對(duì)角矩陣,通過雙線性對(duì)角模型學(xué)習(xí)實(shí)體和關(guān)系的向量表示。

用嵌入向量的點(diǎn)積作評(píng)分函數(shù),可以處理關(guān)系的對(duì)稱性、自反性和非自反性,通過恰當(dāng)?shù)膿p失函數(shù)還可以實(shí)現(xiàn)其傳遞性。然而,實(shí)數(shù)向量之間的點(diǎn)積計(jì)算具有交換性,DistMult模型不適用于處理三元組反對(duì)稱的關(guān)系。ComplEx模型[17]在DistMult模型基礎(chǔ)上引入復(fù)數(shù)向量的方法捕捉反對(duì)稱關(guān)系,同時(shí)保留點(diǎn)積的效率優(yōu)勢(shì),即空間和時(shí)間復(fù)雜性的線性。

選用更關(guān)注實(shí)體和關(guān)系深層次交互信息的ComplEx雙線性模型。該模型中引入復(fù)數(shù)方法,可解決除對(duì)稱、非對(duì)稱外更復(fù)雜的對(duì)稱類型,更能表達(dá)中醫(yī)實(shí)體與關(guān)系的復(fù)雜性。定義事實(shí)的評(píng)分函數(shù)為

(5)

1.3 模型融合與預(yù)測(cè)模塊

將多通道特征向量和知識(shí)圖譜嵌入向量輸入一個(gè)完全連接層和一個(gè)輸出層中,利用sigmoid函數(shù)進(jìn)行概率預(yù)測(cè),標(biāo)簽j的概率為

(6)

式(6)中:z為輸出向量;l為標(biāo)簽數(shù)量。模型使用二進(jìn)制交叉熵作為損失函數(shù),該損失函數(shù)與sigmoid非線性激活函數(shù)匹配。損失函數(shù)的計(jì)算公式為

圖2 中醫(yī)電子病歷部分知識(shí)圖譜Fig.2 Part knowledge graph of Chinese Medicine electronic medical record

(7)

1.4 隨機(jī)加權(quán)平均模塊

隨機(jī)加權(quán)平均算法(stochastic weight averaging,SWA)與模型集成方法接近,但其計(jì)算損失更小。隨機(jī)加權(quán)平均算法的觀點(diǎn)來自經(jīng)驗(yàn)觀察,即每個(gè)學(xué)習(xí)速率周期結(jié)束時(shí)的局部最小值都傾向于在損失平面上損失值低的區(qū)域邊界處累積。通過平均化邊界點(diǎn)的損失值,可得到具有更低損失值、泛化性和通用性更好的全局最優(yōu)解。模型平均權(quán)重參數(shù)更新方程為

(8)

式(8)中:wswa為模型權(quán)重的平均值;w為模型初始化權(quán)重或模型經(jīng)隨機(jī)梯度更新后的權(quán)重;nmodel為模型數(shù)量;←表示賦值更新。

2 實(shí)驗(yàn)

2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)運(yùn)行環(huán)境:算力為NVIDIA T4(6 核 CPU 30 GB 內(nèi)存,50 GB 工作空間)、17.18 GB 顯存;編程語言為python 3;深度學(xué)習(xí)框架為pytorch。

2.2 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)來自江西中醫(yī)藥大學(xué)岐黃國(guó)醫(yī)書院臨床中醫(yī)電子病歷,診斷時(shí)間為2009年12月—2019年5月,共有131 651條。該臨床中醫(yī)電子病歷字段包括:就診編號(hào)、病歷編號(hào)、診次、掛號(hào)流水號(hào)、脈診、舌診、一般情況、望診、聞診等共72個(gè)字段。經(jīng)與專家探討與對(duì)電子病歷統(tǒng)計(jì)分析,選取脈診、舌診、望診、聞診、主訴(問診)等癥狀作為輸入特征字段,選取證候(癥候)結(jié)論作為標(biāo)簽。部分病歷數(shù)據(jù)如圖3所示。

各字段存在缺失值,剔除證候結(jié)論字段空缺數(shù)據(jù),剩余107 958條。證候標(biāo)簽處理參考文獻(xiàn)[18],證候標(biāo)簽處理例子如圖4所示。將證候結(jié)論部分的數(shù)據(jù)字段以標(biāo)點(diǎn)符號(hào)分割開,形成多個(gè)證候標(biāo)簽。若部分?jǐn)?shù)據(jù)片段包含其他虛詞或無意義詞,用正則表達(dá)式的方法進(jìn)行替換,處理過程主要依托python編程實(shí)現(xiàn)。最后,中醫(yī)電子病歷數(shù)據(jù)證候標(biāo)簽總數(shù)為3 559類,每條病歷平均標(biāo)簽數(shù)為5.06條。

2.3 評(píng)價(jià)指標(biāo)

參考文獻(xiàn)[20],確定選用P@k(k處的精度,k=1,3,5)和N@k(k處的歸一化折損累計(jì)增益,k=1,3,5)兩個(gè)經(jīng)典多標(biāo)簽分類指標(biāo)作為評(píng)估指標(biāo)。P@k表達(dá)式為

(9)

式(9)中:rank(l)為第l個(gè)最高預(yù)測(cè)標(biāo)簽的索引;yrank(l)為指示函數(shù),判斷實(shí)際類別和預(yù)測(cè)類別是否一致;P@k為模型預(yù)測(cè)的前k個(gè)概率最大的結(jié)果里面含有正確標(biāo)注的標(biāo)簽的比例。N@k表達(dá)式如下。

(10)

(11)

(12)

式中:log2(l+1)為對(duì)數(shù)衰減因子;‖y‖0為真實(shí)標(biāo)簽中的數(shù)量;N@k為歸一化折損累計(jì)增益;DCG@k為折損累計(jì)增益,DCG@k令預(yù)測(cè)正確且排名靠后的證候比預(yù)測(cè)正確且排名靠前的證候取得更小的精度。N@k是用于排名的度量,N@k相比P@k考慮到位置的評(píng)價(jià)信息。

2.4 參數(shù)設(shè)置

實(shí)驗(yàn)超參數(shù)設(shè)置如表1所示。

表1 實(shí)驗(yàn)參數(shù)設(shè)置Table 1 Experimental parameter settings

2.5 實(shí)驗(yàn)結(jié)果與分析

2.5.1 模型對(duì)比實(shí)驗(yàn)

為了評(píng)估模型的性能,將本文模型與XML-CNN模型[19]、Attention XML模型[20](基線模型)、BERT模型[21]做對(duì)比實(shí)驗(yàn)。其中XML-CNN模型屬于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),Attention XML模型屬于循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),BERT模型屬于Transformer結(jié)構(gòu)。所有模型數(shù)據(jù)均以107 958條病歷數(shù)據(jù)進(jìn)行實(shí)驗(yàn),訓(xùn)練集與測(cè)試集按8∶2比例進(jìn)行劃分,即數(shù)據(jù)量均分別為86 367條和21 591條,實(shí)驗(yàn)結(jié)果見表2。

從表2實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),XML-CNN模型由于較難捕捉到文本序列信息,對(duì)本文標(biāo)簽數(shù)量大的電子病歷數(shù)據(jù)集表現(xiàn)不佳。Attention XML模型通過長(zhǎng)

圖3 部分病歷數(shù)據(jù)Fig.3 Part of the medical record data

圖4 證候標(biāo)簽處理過程示例Fig.4 Example of syndrome label processing process

表2 不同模型實(shí)驗(yàn)對(duì)比結(jié)果Table 2 Comparison results of different model experiments

短期記憶網(wǎng)絡(luò)獲取文本序列信息,使用多標(biāo)簽注意力機(jī)制融入標(biāo)簽信息捕捉重要的癥狀特征,達(dá)到更好的多標(biāo)簽分類效果,P@1指標(biāo)相比XML-CNN模型提高11.04%。BERT模型相比XML-CNN模型有更好的實(shí)驗(yàn)結(jié)果。但中醫(yī)電子病歷語料與通用語料存在一定差異,基于通用語料訓(xùn)練的BERT模型預(yù)測(cè)結(jié)果精確度略差于Attention XML模型。針對(duì)病歷數(shù)據(jù)集中癥狀相互聯(lián)系和不同觀測(cè)角度的特征表達(dá)不同的問題,對(duì)模型中標(biāo)簽注意力部分改進(jìn)為多通道結(jié)構(gòu),并將知識(shí)圖譜嵌入向量嵌入模型中。本文模型在P@1指標(biāo)上相比Attention XML模型提高3.51%,達(dá)到更好的實(shí)驗(yàn)效果。

2.5.2 數(shù)據(jù)量差異實(shí)驗(yàn)

為驗(yàn)證數(shù)據(jù)量大小對(duì)模型的影響,將本文模型和Attention XML模型(基線模型)進(jìn)行數(shù)據(jù)量差異對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。

可以看出,相比Attention XML模型,本文模型除5.8%數(shù)據(jù)的P@5略微降低,其他指標(biāo)均有所提高,證明本文模型的模型效果更好。

相比Attention XML模型,本文模型在P@1指標(biāo)上在百分比為5.8%、34.7%、58%、100%,電子病歷數(shù)據(jù)集上分別提高0.71%、1.06%、1.61%、3.51%。證實(shí)隨著電子病歷數(shù)據(jù)集百分比提高,本文模型提高的效果更顯著。

2.5.3 模型結(jié)構(gòu)分析

為驗(yàn)證模型結(jié)構(gòu)的有效性,將本文模型拆解成4種結(jié)構(gòu)模型:I(單通道模型);II(單通道及知識(shí)圖譜嵌入模型);III(多通道模型);IV(多通道及知識(shí)圖譜嵌入模型)。評(píng)估結(jié)果如圖5所示,可以得到以下結(jié)論。

(1)由I和III結(jié)果可知,多通道標(biāo)簽注意力結(jié)構(gòu)通過特征互補(bǔ)能更好地識(shí)別四診特征,使模型達(dá)到更好的效果。

(2)由I和II結(jié)果可知,知識(shí)圖譜嵌入結(jié)構(gòu)可梳理癥狀間的關(guān)系,提高模型效果。

(3)由III和IV結(jié)果可知,知識(shí)圖譜嵌入結(jié)構(gòu)在N@1提升效果較大,在N@3和N@5則持平或略有下降,說明知識(shí)圖譜嵌入結(jié)構(gòu)使模型更趨向于預(yù)測(cè)出最優(yōu)的結(jié)果。

2.5.4 通道可視化與辨證案例分析

將“口腔潰瘍反復(fù)多年。弦緩略滑舌偏胖嫩而暗,苔平”這條癥狀輸入預(yù)測(cè)模型中,并截取模型中多通道注意力層的癥狀字符權(quán)重,熱力圖如圖6所示。由圖6可知,第一個(gè)注意力通道更偏重于“苔平”,而第二、四個(gè)注意力通道更關(guān)注“口腔潰瘍”。由此可見,多通道標(biāo)簽注意力可以獲取更多特征,能更好地實(shí)現(xiàn)特征互補(bǔ)。

抽取5個(gè)病歷特征描述輸入預(yù)測(cè)模型中,預(yù)測(cè)結(jié)果展示如表4所示,粗體為預(yù)測(cè)正確結(jié)果。在第1個(gè)例子中,模型完全預(yù)測(cè)正確,其“血糖高”字眼有更強(qiáng)的區(qū)分性。在第2個(gè)例子中,模型得到“略有風(fēng)寒”這個(gè)與“風(fēng)寒引動(dòng)”證候含義相近的證候結(jié)論,原因是知識(shí)圖譜嵌入模型訓(xùn)練中醫(yī)實(shí)體與關(guān)系,使得嵌入向量具有更豐富的語義特征,進(jìn)而使預(yù)測(cè)模型得到含義相近的證候類型。在第3、4、5個(gè)例子中,預(yù)測(cè)結(jié)果均是部分預(yù)測(cè)正確,部分預(yù)測(cè)錯(cuò)誤的預(yù)測(cè)結(jié)果,說明本文模型及其數(shù)據(jù)質(zhì)量仍需要改進(jìn)??傮w而言,從標(biāo)準(zhǔn)證候與預(yù)測(cè)證候的結(jié)果對(duì)比可知,模型預(yù)測(cè)效果良好。

表3 數(shù)據(jù)量差異對(duì)比實(shí)驗(yàn)Table 3 Data volume difference comparison experiment

圖5 結(jié)構(gòu)評(píng)估結(jié)果對(duì)比Fig.5 Comparison of structural evaluation results

圖6 多通道標(biāo)簽注意力結(jié)構(gòu)的癥狀特征捕捉熱力圖Fig.6 Multi-channel tag attention structure symptom feature capture heat map

表4 辨證案例Table 4 Dialectical case

3 結(jié)論

針對(duì)中醫(yī)電子病歷高質(zhì)量語料缺乏,以及病歷樣本在不同觀測(cè)角度的特征表達(dá)差異和同一病歷的癥狀存在關(guān)聯(lián)的特點(diǎn),構(gòu)建了融合知識(shí)圖譜的多通道中醫(yī)辨證模型。實(shí)驗(yàn)顯示,基于中醫(yī)電子病歷數(shù)據(jù)集,本文模型在P@1指標(biāo)、P@3指標(biāo)、P@5指標(biāo)上相比基線模型分別提高3.51%、3.38%、3.32%。模型表明,引入涵蓋專家經(jīng)驗(yàn)的知識(shí)圖譜既有知識(shí)對(duì)于中醫(yī)藥領(lǐng)域人工智能決策是一個(gè)不錯(cuò)思路。

在未來工作中,中醫(yī)證候較難規(guī)范統(tǒng)一,導(dǎo)致任務(wù)處理標(biāo)簽巨大。如何基于病歷病案現(xiàn)狀,提升模型決策效率,實(shí)現(xiàn)更為可行的輔助診斷,仍需進(jìn)一步分析研究??傮w來說,中醫(yī)辨證研究是中醫(yī)學(xué)科的核心問題之一,值得更多的探索。

猜你喜歡
病歷結(jié)論圖譜
由一個(gè)簡(jiǎn)單結(jié)論聯(lián)想到的數(shù)論題
強(qiáng)迫癥病歷簿
立體幾何中的一個(gè)有用結(jié)論
繪一張成長(zhǎng)圖譜
“大數(shù)的認(rèn)識(shí)”的診斷病歷
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
為何要公開全部病歷?
主動(dòng)對(duì)接你思維的知識(shí)圖譜
結(jié)論
村醫(yī)未寫病歷,誰之過?