基于深度學(xué)習(xí)的醫(yī)學(xué)影像問答模型*

2023-06-30 02:27:26趙晉稷

醫(yī)學(xué)信息學(xué)雜志 2023年5期

趙晉稷劉旻

(1天津中醫(yī)藥大學(xué)第一附屬醫(yī)院天津 300193 2 國家中醫(yī)針灸臨床醫(yī)學(xué)研究中心天津 300193)

1 引言

我國衛(wèi)生資源總體缺乏，優(yōu)質(zhì)衛(wèi)生資源嚴(yán)重不足。醫(yī)生在臨床工作中需要閱讀大量醫(yī)療檢查報(bào)告，存在人為錯(cuò)誤的可能性，醫(yī)療資源不足可能會(huì)加劇這一現(xiàn)象。近年來，隨著“互聯(lián)網(wǎng)+醫(yī)療”模式的推廣，在線問診平臺(tái)發(fā)展迅速，患者可以通過平臺(tái)直接與醫(yī)生溝通[1-2]。中醫(yī)問診平臺(tái)中，大量舌象圖像咨詢成為急需解決的問題。伴隨人工智能賦能醫(yī)療行業(yè)，醫(yī)學(xué)領(lǐng)域出現(xiàn)了一系列智能分析系統(tǒng)，如醫(yī)學(xué)影像問答系統(tǒng)，能夠依托平臺(tái)輔助解答并分流大量信息，提高工作效率，減輕醫(yī)務(wù)工作者壓力[3]。

2 相關(guān)工作

醫(yī)學(xué)影像問答(medical visual question answering，Med-VQA)是醫(yī)學(xué)領(lǐng)域的問答任務(wù)。在該過程中，輸入醫(yī)學(xué)影像和與之相關(guān)的臨床問題，將自動(dòng)輸出答案[4]?；颊呖梢栽谔釂柡蠹皶r(shí)得到反饋，醫(yī)生也可以在診斷疾病時(shí)將系統(tǒng)反饋的答案作為參考意見。醫(yī)學(xué)影像問答系統(tǒng)可以節(jié)省寶貴的醫(yī)療資源，輔助醫(yī)生診斷。已有醫(yī)學(xué)影像問答系統(tǒng)及相關(guān)模型[4]直接將自然場景下的圖像問答模型遷移到醫(yī)學(xué)場景使用?？紤]到自然圖像和醫(yī)學(xué)圖像中包含的語義有較大差異，有研究者提出注意力堆疊網(wǎng)絡(luò)(stacked attention networks，SAN)[5]、雙線性池化(multimodal compact bilinear，MCB)[6]、增強(qiáng)醫(yī)學(xué)圖像中的視覺信息(mixture of enhanced visual features，MEVF)[7]、問題為前提的推理(question-conditioned reasoning，QCR)[8]、雙線性注意力網(wǎng)絡(luò)(bilinear attention networks，BAN)[9]等操作，以緩解數(shù)據(jù)缺乏問題。已有模型性能較差，主要存在3方面問題：一是面對(duì)數(shù)據(jù)分布不相同的自然圖片和醫(yī)學(xué)影像，適用于自然圖片問答系統(tǒng)的模型在醫(yī)學(xué)影像問答系統(tǒng)并不一定有效；二是醫(yī)學(xué)影像問答任務(wù)相關(guān)數(shù)據(jù)集需要人工標(biāo)注，因此很多數(shù)據(jù)集包含訓(xùn)練樣本較少，限制模型訓(xùn)練效果；三是醫(yī)學(xué)影像問答任務(wù)相對(duì)于自然圖像問答難度更大，因此在完成該任務(wù)時(shí)需要模型有更強(qiáng)的語義分析和多模態(tài)融合處理能力，見表1。本文在上述工作基礎(chǔ)上采用語義圖卷積(semantic graph convolution，SGC)進(jìn)一步獲取醫(yī)學(xué)影像和文本之間的關(guān)聯(lián)，從而更好地解決醫(yī)學(xué)影像問答任務(wù)。針對(duì)問題一，通過元學(xué)習(xí)和自編碼器增強(qiáng)醫(yī)學(xué)影像相關(guān)數(shù)據(jù)，提高模型對(duì)噪聲的魯棒性；針對(duì)問題二，增加數(shù)據(jù)可以緩解訓(xùn)練樣本較少的問題；針對(duì)問題三，通過設(shè)計(jì)語義圖結(jié)構(gòu)，進(jìn)一步增強(qiáng)提取醫(yī)學(xué)影像和文本之間關(guān)聯(lián)的能力，并通過門控線性單元選擇出文本中的重要部分，從而更好地完成醫(yī)學(xué)影像問答任務(wù)。

表1 多種醫(yī)學(xué)影像問答方法的基本原理和缺點(diǎn)

3 方法

3.1 醫(yī)學(xué)影像問答任務(wù)

首先輸入一張待診斷圖片，如電子計(jì)算機(jī)斷層掃描(computed tomography，CT)圖像、舌象圖像等；然后輸入一個(gè)與該圖像相關(guān)的問題；模型充當(dāng)醫(yī)生角色，根據(jù)輸入圖片回答給定問題，從而進(jìn)行智能問診。本文提出基于語義圖卷積的醫(yī)學(xué)影像問答模型，見圖1。

兩口子忙了半下午,瞅瞅,日光已經(jīng)西斜了?？磥碛X是不能睡了,也睡不著了。相反,兩人的精神頭,倒比睡著了更好。

圖1 研究框架

3.2 圖像信息處理

輸入醫(yī)學(xué)圖像I之后，對(duì)該圖像采用如下預(yù)處理。一是將圖像首先輸入4層3×3的卷積網(wǎng)絡(luò)，然后進(jìn)行全局平均池化，并采用元學(xué)習(xí)(model-agnostic meta-learning，MAML)方法初始化網(wǎng)絡(luò)權(quán)重[10]，最終該操作得到的特征維度為64。二是采用自編碼器對(duì)圖像進(jìn)行進(jìn)一步處理[11]。三是將上述兩步操作得到的特征進(jìn)行拼接，得到圖像特征V∈R1×128。

3.3 文本信息處理

本文在醫(yī)學(xué)問答數(shù)據(jù)集(visual questions and answers about radiology images，VQA-RAD)上進(jìn)行訓(xùn)練和測試[15]，該數(shù)據(jù)集包含315張醫(yī)學(xué)領(lǐng)域相關(guān)待診斷圖片和3 515條醫(yī)生標(biāo)注的問診對(duì)話。其中，問診對(duì)話包含兩種類型：固定式問答和開放式問答。固定式問答的答案為“是”或“否”兩種特定選項(xiàng)，例如問題為“該胸部CT圖像中是否有異常狀況”，答案為“是”；開放式問答的答案沒有固定形式，例如問題為“該頭顱核磁中的病灶在什么位置”，答案為對(duì)應(yīng)的特定位置。在實(shí)驗(yàn)中，采用3 064條問答對(duì)話作為訓(xùn)練集，451條對(duì)話作為測試集。訓(xùn)練過程中采用自適應(yīng)動(dòng)量優(yōu)化器進(jìn)行梯度下降優(yōu)化，學(xué)習(xí)率為0.000 1，訓(xùn)練輪數(shù)為150輪。

可以看到與QCR相比，本文方法在開放式問答數(shù)據(jù)集準(zhǔn)確率方面提升2.8個(gè)百分點(diǎn)，達(dá)到55.6%；在固定式問答數(shù)據(jù)集準(zhǔn)確率方面提升2.5個(gè)百分點(diǎn)，達(dá)到79.3%，見圖2。其中紅色代表正確回答，綠色代表錯(cuò)誤回答。為了進(jìn)一步分析圖2中的問答結(jié)果，將本文方法(SGC)與已有方法(QCR)模型提取的中間層特征進(jìn)行可視化，見圖3。圖3針對(duì)圖2中的問題1和問題3進(jìn)行分析，高亮部分分別為本文方法(紅色)和已有方法(綠色)重點(diǎn)關(guān)注區(qū)域，結(jié)合問題1(“動(dòng)脈瘤”)和問題3(“右側(cè)顳葉”)文本部分可知，本文方法可以更好地捕捉與文本相關(guān)的醫(yī)學(xué)影像區(qū)域，從而更好地回答問題。通過圖3所示的可視化結(jié)果可以看到，本文方法通過設(shè)計(jì)語義圖結(jié)構(gòu)可以更好地提取醫(yī)學(xué)影像和文本中的關(guān)聯(lián)信息，優(yōu)于已有方法。

第2步：考慮到語句本身包含上下文序列信息，為了編碼整個(gè)語句序列特征Qs∈Rn×ds，采用門控循環(huán)單元(gate recurrent unit，GRU)[12]，該步的輸入為上一步得到的詞嵌入特征Qe，輸出為包含上下文序列信息的語句特征Qs。

第3步：考慮到語句中單個(gè)文字之間的關(guān)聯(lián)以及整個(gè)語句中的語義結(jié)構(gòu)，將整個(gè)語句嵌入到圖結(jié)構(gòu)中構(gòu)成語義圖[13]，并采用圖卷積網(wǎng)絡(luò)提取特征，語義圖本質(zhì)上是一種特殊的特征結(jié)構(gòu)方式。首先提取語句之間的關(guān)聯(lián)強(qiáng)度作為語義圖的鄰接矩陣：

(1)

其中We1，We2∈Rde×da，da表示圖結(jié)構(gòu)的隱式特征維度，A0∈Rn×n表示該語義圖的鄰接矩陣。接下來基于鄰接矩陣進(jìn)行圖卷積操作：

ΔROA=γ0+γ1cashi+γ2mixi+γ3leveragei+γ4scalei+γ5sizei+γ6tobinQi+εi

Qg=A0QeWe1Wg0

(2)

第4步：為了進(jìn)一步提取并突出語句中重要的文字特征，采用門控線性單元(gated linear unit，GLU)[14]：

出版類企業(yè)核心競爭力提升策略探析 ………………………………………………………………………………… 黃曉（2/24）

其中Wg0∈Rda×de為可學(xué)習(xí)的參數(shù)，Qg∈Rn×de為經(jīng)過語義圖嵌入后的語句特征，不僅包含語句文字之間的關(guān)聯(lián)信息，而且融合了語句整體信息。在語義圖中，每個(gè)文字是1個(gè)單獨(dú)的圖節(jié)點(diǎn)，每個(gè)圖節(jié)點(diǎn)之間邊的權(quán)重通過關(guān)聯(lián)強(qiáng)度決定，圖卷積過程相當(dāng)于對(duì)整個(gè)圖結(jié)構(gòu)的邊不斷進(jìn)行更新，訓(xùn)練完成后得到整個(gè)語義圖最優(yōu)結(jié)構(gòu)。

U1=φ1(QeW1)

(3)

U2=φ2(QeW2)

(4)

Ql=φ3(U1⊙U2)Wl

(5)

根據(jù)前文表2中的實(shí)驗(yàn)結(jié)果和上述分析可知本文提出的基于語義圖問答模型的有效性，針對(duì)開放式問答和固定式問答，通過語義圖模塊可以加強(qiáng)文本特征之間關(guān)聯(lián)的表達(dá)，同時(shí)利用門控線性單元篩選文本特征中的重要信息，提升了整個(gè)模型的問答準(zhǔn)確率。

第5步：在得到上下文序列信息的語句特征Qs、語句的語義圖特征Qg、重要性相關(guān)語句特征Ql后，將不同層次級(jí)別的語句特征進(jìn)行特征融合，具體實(shí)現(xiàn)方式如下：

Qfea=[Qs；Qg；Ql]Wq

(6)

其中Ac表示正確回答的問題數(shù)量，Aall表示整個(gè)數(shù)據(jù)集中的問題數(shù)量。為了更準(zhǔn)確地分析方法效果和性能，實(shí)驗(yàn)結(jié)果部分對(duì)開放式問答和固定式問答分別進(jìn)行統(tǒng)計(jì)。

巖體稀土元素含量∑REE為116.43×10-6，∑Ce/∑Y比值為2.66，δEu為0.61。(La/Sm)N值為3.47，(Gd/Yb)N為0.91；為富輕稀土型。δEu<0.7，表明巖漿為上地殼經(jīng)不同程度的部分熔融形成的。

3.4 問答系統(tǒng)

采用雙線性注意力網(wǎng)絡(luò)對(duì)圖像特征V和文本特征Qfea進(jìn)行融合：

y=BAN(V，Qfea)

(7)

然后通過分類器預(yù)測答案的置信分?jǐn)?shù)s，將概率最大的作為最終結(jié)果。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)設(shè)置

在實(shí)際應(yīng)用中，當(dāng)患者將待診斷圖像上傳后，會(huì)提出并輸入相應(yīng)問題q∈Rn，其中n為問句長度。對(duì)該問句采取如下特征處理過程。

4.2 評(píng)價(jià)指標(biāo)

(8)

其中，[；]表示特征拼接操作，Wq∈R(ds+dg+dl)×dq是可學(xué)習(xí)的參數(shù)，Qfea∈Rn×dq表示最終提取得到的文本特征。

4.3 實(shí)驗(yàn)結(jié)果

本文提出的方法(SGC)與已有方法應(yīng)用于開放式問答和固定式問答任務(wù)的準(zhǔn)確率對(duì)比結(jié)果，見表2。

1)果園深翻。秋季采果后結(jié)合秋施基肥進(jìn)行，只要方法合適，春、夏、秋季都可進(jìn)行深翻，其中以秋季果實(shí)采收后至落葉期進(jìn)行為好。針對(duì)貴州蘋果產(chǎn)區(qū)中的山區(qū)薄土層果園，土壤深翻，能夠加厚活土層，促進(jìn)巖土的風(fēng)化和熟化，提高土壤蓄水保肥能力。

表2 不同方法準(zhǔn)確率對(duì)比

第1步：對(duì)問句中每個(gè)文字進(jìn)行詞嵌入(word embedding，WE)，得到語句特征Qe=[w1，w2，…，wn]∈Rn×de。

圖2 本文方法與已有方法的問答結(jié)果

圖3 本文方法與已有方法對(duì)醫(yī)學(xué)影像的關(guān)注區(qū)域可視化

4.4 消融分析

為了進(jìn)一步探討本文提出模型(SGC)中各模塊對(duì)于任務(wù)的作用和效果，從語義圖模塊、門控模塊以及兩模塊中包含的激活函數(shù)3方面進(jìn)行消融分析。不同模塊消融后的基于問答準(zhǔn)確率的實(shí)驗(yàn)結(jié)果，見表3。

表3 不同模塊消融實(shí)驗(yàn)

其中“√”表示使用該模塊，“-”表示不使用此模塊。從表3第1行可以看到門控線性模塊對(duì)提升問答準(zhǔn)確率的重要作用，固定式問答任務(wù)性能提升約6%；從第2行可以看到語義圖模塊能夠在較難的開放任務(wù)上有效捕捉文本內(nèi)部關(guān)聯(lián)；從第3行可以看到語義圖模塊和門控線性模塊中的激活函數(shù)對(duì)任務(wù)準(zhǔn)確度也有一定影響。

為了分析不同維度對(duì)模型性能的影響，實(shí)施相關(guān)模塊對(duì)模型維度敏感度分析，見圖4、圖5?？梢钥吹讲煌Z義圖嵌入維度對(duì)模型性能影響較小，當(dāng)維度達(dá)到足以表征語義圖時(shí)，模型性能達(dá)到飽和，更高維度的隱式空間是不必要的；門控線性模塊對(duì)不同維度選擇有一定要求，合適的隱藏層維度有利于該模塊尋找重要語句文本。

原來這屆的社長要改選時(shí)，一共有七位大三的學(xué)長符合選舉資格，但沒有一位想當(dāng)社長，最后只好用猜拳決定，猜輸?shù)漠?dāng)社長。

圖4 不同語義圖維度模型性能

圖5 不同門控線性模塊維度模型性能

針對(duì)語義圖維度和門控模塊維度，從模型表達(dá)能力而言，兩者在一定范圍內(nèi)的提高均可以提升相應(yīng)表達(dá)能力，但是更高維度會(huì)帶來更大的計(jì)算復(fù)雜度，在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中有較大開銷，延緩整個(gè)模型的收斂效率，有一定可能造成性能下降，因而隱藏層維度并不是越大越好，這也與圖4和圖5的實(shí)驗(yàn)現(xiàn)象一致。從模型過擬合而言，雖然雙向編碼器表征模型[16]的隱藏層維度可達(dá)768甚至1 024，卻能同時(shí)擁有更強(qiáng)表達(dá)能力，對(duì)比可知，造成本文模型維度受限的另一個(gè)主要原因是訓(xùn)練集數(shù)據(jù)量較少，較深維度容易導(dǎo)致過擬合性能下降，由于醫(yī)學(xué)領(lǐng)域標(biāo)注的數(shù)據(jù)集有限，擁有專業(yè)醫(yī)學(xué)知識(shí)的標(biāo)注人員稀缺，標(biāo)注難度較大，這也是醫(yī)學(xué)問答領(lǐng)域乃至“人工智能+醫(yī)學(xué)信息”領(lǐng)域目前的重要挑戰(zhàn)。

隨著新媒體的快速發(fā)展，微信群成為家校溝通的重要渠道。管理班級(jí)微信群，與其要求家長在群里不能做什么，還不如與家長商討能做什么，以及怎么做。開學(xué)初，我借助家長會(huì)，與各科老師以及家長充分探討，最終確定了班級(jí)微信群每天“群聊”的話題。同時(shí)，這也被當(dāng)作家長的一項(xiàng)“作業(yè)”來完成。

5 結(jié)語

本文使用深度學(xué)習(xí)方法解決醫(yī)學(xué)影像問答問題，通過元學(xué)習(xí)和自編碼器模塊提取醫(yī)學(xué)影像視覺特征，通過語義圖卷積提取問題中的文本特征，并獲取視覺特征和文本特征之間的重要關(guān)聯(lián)。實(shí)驗(yàn)結(jié)果表明本文方法在相關(guān)醫(yī)學(xué)影像問答數(shù)據(jù)集上較已有工作有一定提升，開放式問答準(zhǔn)確率提升到55.6%；固定式問答準(zhǔn)確率提升到79.3%。本文方法在開放式問答性能提升方面尚有較大空間，開放式問答任務(wù)本身需要生成對(duì)應(yīng)答案，因此需要提升模型生成能力。在未來工作中將從以下兩個(gè)方面進(jìn)行改進(jìn)，首先在語言特征提取時(shí)采用預(yù)訓(xùn)練的大模型[16]提升特征表達(dá)能力，其次是收集并標(biāo)注更多醫(yī)學(xué)領(lǐng)域語料庫用于訓(xùn)練，使模型具備更好的文本生成能力。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡