王帥帥, 徐 臻
(中國電子科技南湖研究院, 浙江 嘉興 314000)
淋巴水腫是以淋巴管堵塞引起肢體腫脹為代表的一種疾病。 根據(jù)世界衛(wèi)生組織統(tǒng)計(jì),淋巴水腫在常見慢性病中列第11 位,致殘類疾病中列第2 位,全球淋巴水腫患者約達(dá)1.7 億,中國淋巴水腫患者也高達(dá)千萬人。 淋巴水腫是世界醫(yī)學(xué)難題,目前尚不可治愈,如果早期發(fā)現(xiàn),診斷治療及時(shí)得當(dāng),可以不同程度得以緩解。 目前國內(nèi)系統(tǒng)有效診斷治療淋巴水腫的醫(yī)療機(jī)構(gòu)還很少,相關(guān)專業(yè)醫(yī)生缺口巨大,淋巴水腫的相關(guān)知識(shí)尚不普及,大多數(shù)患者在發(fā)病后得不到有效的診斷和治療,導(dǎo)致病情不斷惡化,因此構(gòu)建一個(gè)淋巴水腫疾病的智能診斷模型具有重要意義。 本文利用深度學(xué)習(xí)技術(shù),使數(shù)字賦能病理診斷,通過訓(xùn)練和學(xué)習(xí)醫(yī)院收集的淋巴水腫電子病歷,快速實(shí)現(xiàn)對(duì)電子病歷內(nèi)容的的識(shí)別與理解,從而大大提升病理診斷的效率和準(zhǔn)確率,輔助專業(yè)醫(yī)師,服務(wù)更多的患者。
關(guān)鍵詞是文檔中能夠表達(dá)重要內(nèi)容的詞語,關(guān)鍵詞提取在信息檢索、自動(dòng)摘要、文本聚類等方面有重要應(yīng)用。 本文認(rèn)為電子病歷中一些關(guān)鍵詞語和檢查結(jié)果對(duì)病歷診斷結(jié)果有重要作用,尤其淋巴水腫相關(guān)疾病,不僅要識(shí)別出淋巴水腫類型,還需要識(shí)別出身體患淋巴水腫的部位。 提取病歷中關(guān)鍵癥狀、部位、疾病等關(guān)鍵詞,可以更好地幫助模型理解病歷的內(nèi)容。 關(guān)鍵詞抽取常用的算法有詞頻-逆文本頻率(TF-IDF)、文本排序(TEXTRANK)算法和主題模型算法。 本文關(guān)鍵詞提取使用TF-IDF 算法。 TF-IDF 的含義是如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率() 高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。 詞頻() 是指某一個(gè)給定的詞語在該文中出現(xiàn)的頻率,式(1)。
其中,n 表示該詞在文件中的出現(xiàn)次數(shù),分母為文件中所有詞的出現(xiàn)次數(shù)之和。
TF-IDF 假設(shè)高頻率詞應(yīng)該具有高權(quán)重,除非其在所有的文檔中出現(xiàn)的頻率都很高。 而逆文檔頻率() 的大小與一個(gè)詞的常見程度成反比,即最常見的詞賦予最小的權(quán)重,較常見的詞賦予較小的權(quán)重,而較小頻率的詞賦予較大的權(quán)重,式(2)。
其中,|D |表示語料庫中的文檔總數(shù),{:t∈d}表示包含詞語t的文檔數(shù)目。
在分別計(jì)算得到和后,將其相乘就能得到TF-IDF 的值,如式(3)所示。
計(jì)算得到文本的關(guān)鍵詞特征向量和TF-IDF 特征向量后,將其拼接為一維的長(zhǎng)向量,該向量就是最終機(jī)器學(xué)習(xí)算法要學(xué)習(xí)的特征向量。 本文使用的淋巴水腫電子病歷數(shù)據(jù),如圖1 所示。 對(duì)其中一個(gè)電子病歷主訴、現(xiàn)病史、個(gè)人史、家族史和體格檢查內(nèi)容使用TIIDF 提取關(guān)鍵詞,按重要性排序如圖2 所示。
圖1 淋巴水腫電子病歷Fig.1 Lymphedema electronic medical record
圖2 關(guān)鍵詞排序Fig.2 Keyword ranking
在自然語言領(lǐng)域序列到序列(seq2seq)模型和注意力機(jī)制(attention)為生成式推理提供了一種可行方法。 但這些模型存在兩個(gè)問題:
(1)不能準(zhǔn)確把握文章細(xì)節(jié),無法處理未登錄單詞問題;
(2)傾向于重復(fù)自己的內(nèi)容,使生成的句子不連貫。
指針生成網(wǎng)絡(luò)(PGN)通過指向從源文本中復(fù)制單詞,有助于準(zhǔn)確地復(fù)制信息,同時(shí)保留通過生成器產(chǎn)生新單詞的能力,使用覆蓋(coverage)機(jī)制來跟蹤已總結(jié)的內(nèi)容,防止重復(fù)。 PGN 是在seq2seq 模型的基礎(chǔ)上構(gòu)建,PGN 模型架構(gòu)如圖3 所示。
圖3 PGN 模型Fig.3 PGN model
該模型在seq2seq+attention 模型的基礎(chǔ)上增加了P,在每個(gè)解碼器過程中,計(jì)算一個(gè)生成概率P[0,1],該值決定有多大的概率從單詞表中生成單詞,模型中的最終分布根據(jù)詞匯分布和注意分布加權(quán)求和得到,根據(jù)最終分布進(jìn)行預(yù)測(cè)。 PGN 既允許通過指針復(fù)制單詞,也允許根據(jù)詞匯生成單詞。在指針生成器模型中,時(shí)間步長(zhǎng)的生成概率P是根據(jù)上下文向量h、解碼器狀態(tài)S和解碼器輸入x計(jì)算,如式(4)式(6) 所示。 本文的編碼端和解碼端使用的是長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)。 編碼端的輸入為(,…,x), 解碼端的輸入為(,…,y)。
其中,(x) 為單詞的詞向量;向量w、w、w、b是學(xué)習(xí)參數(shù);是激活函數(shù)。
P用來決定從詞匯表生成單詞,還是從源文本復(fù)制單詞的概率,用來對(duì)詞匯分布和注意力分布進(jìn)行加權(quán)平均,得到擴(kuò)展詞匯表上的概率分布,如式(7)所示。
使用PGN 進(jìn)行病歷診斷結(jié)果生成的結(jié)果往往會(huì)忽略一些重要的詞,比如部位等,而且現(xiàn)有的深度學(xué)習(xí)生成方法只關(guān)注結(jié)果與原始文本的總體關(guān)系,有時(shí)可能會(huì)對(duì)文本中的主要細(xì)節(jié)內(nèi)容把握不準(zhǔn)確,導(dǎo)致生成的結(jié)果不全面,很容易丟失病歷中部位、癥狀等關(guān)鍵信息。 將病例中關(guān)鍵詞作為PGN 模型生成結(jié)果的提示,病歷的關(guān)鍵詞可以是部位、疾病之類名詞,也可以是癥狀類的描述性短語,讓模型在解碼時(shí)更加關(guān)注這些關(guān)鍵詞匯,從而使生成的結(jié)果更加準(zhǔn)確。 如圖4 所示,將病歷關(guān)鍵詞通過注意力機(jī)制融入到PGN 模型中,模型就可以通過關(guān)鍵詞所包含的語義和病歷中其他信息生成概括性的診斷結(jié)論。
圖4 融合關(guān)鍵詞的注意力模型Fig.4 Attention model fused with keywords
病歷輸入時(shí)使用word2vec 訓(xùn)練生成詞向量,對(duì)于本文選取到的關(guān)鍵詞,使用word2vec 生成詞向量{,,…,k},將所有的相加作為輸入融合注意力機(jī)制。 計(jì)算方法如式(8) 和式(9) 所示。
本文使用8 000 份電子病例作為實(shí)驗(yàn)的訓(xùn)練集,使用500 份電子病歷作為測(cè)試集,300 份淋巴水腫病歷作為驗(yàn)證數(shù)據(jù)集。 實(shí)驗(yàn)在GPU 服務(wù)器上進(jìn)行,采用pytorch 深度學(xué)習(xí)框架。 本文使用的詞匯表大小為8 000 詞,單詞向量的維度是128,編碼器和解碼器的輸入維度是256,batch_size 大小為64。
本實(shí)驗(yàn)使用的評(píng)價(jià)指標(biāo)為rouge(recall-oriented understudy forgisting evaluation),是文章摘要提取和機(jī)器翻譯常用的評(píng)價(jià)指標(biāo)。 ROUGE 主要有ROUGEN、ROUGE-L 和ROUGE-W 3 種方法,本文使用的是ROUGE-L 方法, l 指最長(zhǎng)公共子序列,使用了機(jī)器譯文C 和參考譯文S 的最長(zhǎng)公共子序列,式(10)~式(12)。
其中,表示文本公共長(zhǎng)度;R表示召回率;P表示精確率; F就是ROUGE-L。
本文使用每個(gè)病歷數(shù)據(jù)集經(jīng)處理后長(zhǎng)度為900字左右,一個(gè)病歷診斷結(jié)果生成示例如圖5 所示。
圖5 診斷結(jié)果生成Fig.5 Diagnosis result generation
為了驗(yàn)證算法的有效性,本文對(duì)比了序列到序列,注意力機(jī)制和指針生成網(wǎng)絡(luò)模型,評(píng)價(jià)指標(biāo)使用ROUGE-1、ROUGE-2,ROUGE-L,實(shí)驗(yàn)結(jié)果見表1。實(shí)驗(yàn)表明, 本文提出的融合關(guān)鍵字的注意力機(jī)制疾病診斷推理模型識(shí)別準(zhǔn)確率優(yōu)于其他的算法。
表1 模型結(jié)果對(duì)比Tab.1 Comparison of model results
由表1 可以看出,在將病歷中關(guān)鍵信息加入到模型后,本文的融合關(guān)鍵字的注意力機(jī)制明顯優(yōu)于指針生成網(wǎng)絡(luò),在生成的診斷結(jié)論中,融合關(guān)鍵字的注意力機(jī)制可以有效的提取到病歷中關(guān)鍵信息,ROUGE-2 指標(biāo)提升最多,能夠得到性能更好地淋巴水腫診斷推理模型,為淋巴水腫相關(guān)疾病診斷提供了可靠的輔助支持。
本文提出的融合關(guān)鍵詞的注意力機(jī)制模型即保持了模型的文本生成能力,又可以讓模型可以向醫(yī)生一樣依據(jù)病歷中的核心癥狀和核心部位等信息進(jìn)行疾病的推理,生成的診斷結(jié)果更加連貫,更能覆蓋病歷信息。 利用深度學(xué)習(xí)技術(shù)構(gòu)建水腫診斷推理模型可以幫助醫(yī)生進(jìn)行疾病的快速診斷,讓患者可以及時(shí)得到治療,在一定程度上緩解醫(yī)療資源不足問題。