趙晉稷 劉 旻
(1天津中醫(yī)藥大學(xué)第一附屬醫(yī)院 天津 300193 2 國家中醫(yī)針灸臨床醫(yī)學(xué)研究中心 天津 300193)
我國衛(wèi)生資源總體缺乏,優(yōu)質(zhì)衛(wèi)生資源嚴(yán)重不足。醫(yī)生在臨床工作中需要閱讀大量醫(yī)療檢查報(bào)告,存在人為錯(cuò)誤的可能性,醫(yī)療資源不足可能會(huì)加劇這一現(xiàn)象。近年來,隨著“互聯(lián)網(wǎng)+醫(yī)療”模式的推廣,在線問診平臺(tái)發(fā)展迅速,患者可以通過平臺(tái)直接與醫(yī)生溝通[1-2]。中醫(yī)問診平臺(tái)中,大量舌象圖像咨詢成為急需解決的問題。伴隨人工智能賦能醫(yī)療行業(yè),醫(yī)學(xué)領(lǐng)域出現(xiàn)了一系列智能分析系統(tǒng),如醫(yī)學(xué)影像問答系統(tǒng),能夠依托平臺(tái)輔助解答并分流大量信息,提高工作效率,減輕醫(yī)務(wù)工作者壓力[3]。
醫(yī)學(xué)影像問答(medical visual question answering,Med-VQA)是醫(yī)學(xué)領(lǐng)域的問答任務(wù)。在該過程中,輸入醫(yī)學(xué)影像和與之相關(guān)的臨床問題,將自動(dòng)輸出答案[4]?;颊呖梢栽谔釂柡蠹皶r(shí)得到反饋,醫(yī)生也可以在診斷疾病時(shí)將系統(tǒng)反饋的答案作為參考意見。醫(yī)學(xué)影像問答系統(tǒng)可以節(jié)省寶貴的醫(yī)療資源,輔助醫(yī)生診斷。已有醫(yī)學(xué)影像問答系統(tǒng)及相關(guān)模型[4]直接將自然場景下的圖像問答模型遷移到醫(yī)學(xué)場景使用??紤]到自然圖像和醫(yī)學(xué)圖像中包含的語義有較大差異,有研究者提出注意力堆疊網(wǎng)絡(luò)(stacked attention networks,SAN)[5]、雙線性池化(multimodal compact bilinear,MCB)[6]、增強(qiáng)醫(yī)學(xué)圖像中的視覺信息(mixture of enhanced visual features,MEVF)[7]、問題為前提的推理(question-conditioned reasoning,QCR)[8]、雙線性注意力網(wǎng)絡(luò)(bilinear attention networks,BAN)[9]等操作,以緩解數(shù)據(jù)缺乏問題。已有模型性能較差,主要存在3方面問題:一是面對(duì)數(shù)據(jù)分布不相同的自然圖片和醫(yī)學(xué)影像,適用于自然圖片問答系統(tǒng)的模型在醫(yī)學(xué)影像問答系統(tǒng)并不一定有效;二是醫(yī)學(xué)影像問答任務(wù)相關(guān)數(shù)據(jù)集需要人工標(biāo)注,因此很多數(shù)據(jù)集包含訓(xùn)練樣本較少,限制模型訓(xùn)練效果;三是醫(yī)學(xué)影像問答任務(wù)相對(duì)于自然圖像問答難度更大,因此在完成該任務(wù)時(shí)需要模型有更強(qiáng)的語義分析和多模態(tài)融合處理能力,見表1。本文在上述工作基礎(chǔ)上采用語義圖卷積(semantic graph convolution,SGC)進(jìn)一步獲取醫(yī)學(xué)影像和文本之間的關(guān)聯(lián),從而更好地解決醫(yī)學(xué)影像問答任務(wù)。針對(duì)問題一,通過元學(xué)習(xí)和自編碼器增強(qiáng)醫(yī)學(xué)影像相關(guān)數(shù)據(jù),提高模型對(duì)噪聲的魯棒性;針對(duì)問題二,增加數(shù)據(jù)可以緩解訓(xùn)練樣本較少的問題;針對(duì)問題三,通過設(shè)計(jì)語義圖結(jié)構(gòu),進(jìn)一步增強(qiáng)提取醫(yī)學(xué)影像和文本之間關(guān)聯(lián)的能力,并通過門控線性單元選擇出文本中的重要部分,從而更好地完成醫(yī)學(xué)影像問答任務(wù)。
表1 多種醫(yī)學(xué)影像問答方法的基本原理和缺點(diǎn)
首先輸入一張待診斷圖片,如電子計(jì)算機(jī)斷層掃描(computed tomography,CT)圖像、舌象圖像等;然后輸入一個(gè)與該圖像相關(guān)的問題;模型充當(dāng)醫(yī)生角色,根據(jù)輸入圖片回答給定問題,從而進(jìn)行智能問診。本文提出基于語義圖卷積的醫(yī)學(xué)影像問答模型,見圖1。
兩口子忙了半下午,瞅瞅,日光已經(jīng)西斜了??磥碛X是不能睡了,也睡不著了。相反,兩人的精神頭,倒比睡著了更好。
圖1 研究框架
輸入醫(yī)學(xué)圖像I之后,對(duì)該圖像采用如下預(yù)處理。一是將圖像首先輸入4層3×3的卷積網(wǎng)絡(luò),然后進(jìn)行全局平均池化,并采用元學(xué)習(xí)(model-agnostic meta-learning,MAML)方法初始化網(wǎng)絡(luò)權(quán)重[10],最終該操作得到的特征維度為64。二是采用自編碼器對(duì)圖像進(jìn)行進(jìn)一步處理[11]。三是將上述兩步操作得到的特征進(jìn)行拼接,得到圖像特征V∈R1×128。
本文在醫(yī)學(xué)問答數(shù)據(jù)集(visual questions and answers about radiology images,VQA-RAD)上進(jìn)行訓(xùn)練和測試[15],該數(shù)據(jù)集包含315張醫(yī)學(xué)領(lǐng)域相關(guān)待診斷圖片和3 515條醫(yī)生標(biāo)注的問診對(duì)話。其中,問診對(duì)話包含兩種類型:固定式問答和開放式問答。固定式問答的答案為“是”或“否”兩種特定選項(xiàng),例如問題為“該胸部CT圖像中是否有異常狀況”,答案為“是”;開放式問答的答案沒有固定形式,例如問題為“該頭顱核磁中的病灶在什么位置”,答案為對(duì)應(yīng)的特定位置。在實(shí)驗(yàn)中,采用3 064條問答對(duì)話作為訓(xùn)練集,451條對(duì)話作為測試集。訓(xùn)練過程中采用自適應(yīng)動(dòng)量優(yōu)化器進(jìn)行梯度下降優(yōu)化,學(xué)習(xí)率為0.000 1,訓(xùn)練輪數(shù)為150輪。
可以看到與QCR相比,本文方法在開放式問答數(shù)據(jù)集準(zhǔn)確率方面提升2.8個(gè)百分點(diǎn),達(dá)到55.6%;在固定式問答數(shù)據(jù)集準(zhǔn)確率方面提升2.5個(gè)百分點(diǎn),達(dá)到79.3%,見圖2。其中紅色代表正確回答,綠色代表錯(cuò)誤回答。為了進(jìn)一步分析圖2中的問答結(jié)果,將本文方法(SGC)與已有方法(QCR)模型提取的中間層特征進(jìn)行可視化,見圖3。圖3針對(duì)圖2中的問題1和問題3進(jìn)行分析,高亮部分分別為本文方法(紅色)和已有方法(綠色)重點(diǎn)關(guān)注區(qū)域,結(jié)合問題1(“動(dòng)脈瘤”)和問題3(“右側(cè)顳葉”)文本部分可知,本文方法可以更好地捕捉與文本相關(guān)的醫(yī)學(xué)影像區(qū)域,從而更好地回答問題。通過圖3所示的可視化結(jié)果可以看到,本文方法通過設(shè)計(jì)語義圖結(jié)構(gòu)可以更好地提取醫(yī)學(xué)影像和文本中的關(guān)聯(lián)信息,優(yōu)于已有方法。
第2步:考慮到語句本身包含上下文序列信息,為了編碼整個(gè)語句序列特征Qs∈Rn×ds,采用門控循環(huán)單元(gate recurrent unit,GRU)[12],該步的輸入為上一步得到的詞嵌入特征Qe,輸出為包含上下文序列信息的語句特征Qs。
第3步:考慮到語句中單個(gè)文字之間的關(guān)聯(lián)以及整個(gè)語句中的語義結(jié)構(gòu),將整個(gè)語句嵌入到圖結(jié)構(gòu)中構(gòu)成語義圖[13],并采用圖卷積網(wǎng)絡(luò)提取特征,語義圖本質(zhì)上是一種特殊的特征結(jié)構(gòu)方式。首先提取語句之間的關(guān)聯(lián)強(qiáng)度作為語義圖的鄰接矩陣:
(1)
其中We1,We2∈Rde×da,da表示圖結(jié)構(gòu)的隱式特征維度,A0∈Rn×n表示該語義圖的鄰接矩陣。接下來基于鄰接矩陣進(jìn)行圖卷積操作:
ΔROA=γ0+γ1cashi+γ2mixi+γ3leveragei+γ4scalei+γ5sizei+γ6tobinQi+εi
Qg=A0QeWe1Wg0
(2)
第4步:為了進(jìn)一步提取并突出語句中重要的文字特征,采用門控線性單元(gated linear unit,GLU)[14]:
出版類企業(yè)核心競爭力提升策略探析 ………………………………………………………………………………… 黃 曉(2/24)
其中Wg0∈Rda×de為可學(xué)習(xí)的參數(shù),Qg∈Rn×de為經(jīng)過語義圖嵌入后的語句特征,不僅包含語句文字之間的關(guān)聯(lián)信息,而且融合了語句整體信息。在語義圖中,每個(gè)文字是1個(gè)單獨(dú)的圖節(jié)點(diǎn),每個(gè)圖節(jié)點(diǎn)之間邊的權(quán)重通過關(guān)聯(lián)強(qiáng)度決定,圖卷積過程相當(dāng)于對(duì)整個(gè)圖結(jié)構(gòu)的邊不斷進(jìn)行更新,訓(xùn)練完成后得到整個(gè)語義圖最優(yōu)結(jié)構(gòu)。
U1=φ1(QeW1)
(3)
U2=φ2(QeW2)
(4)
Ql=φ3(U1⊙U2)Wl
(5)
根據(jù)前文表2中的實(shí)驗(yàn)結(jié)果和上述分析可知本文提出的基于語義圖問答模型的有效性,針對(duì)開放式問答和固定式問答,通過語義圖模塊可以加強(qiáng)文本特征之間關(guān)聯(lián)的表達(dá),同時(shí)利用門控線性單元篩選文本特征中的重要信息,提升了整個(gè)模型的問答準(zhǔn)確率。
第5步:在得到上下文序列信息的語句特征Qs、語句的語義圖特征Qg、重要性相關(guān)語句特征Ql后,將不同層次級(jí)別的語句特征進(jìn)行特征融合,具體實(shí)現(xiàn)方式如下:
Qfea=[Qs;Qg;Ql]Wq
(6)
其中Ac表示正確回答的問題數(shù)量,Aall表示整個(gè)數(shù)據(jù)集中的問題數(shù)量。為了更準(zhǔn)確地分析方法效果和性能,實(shí)驗(yàn)結(jié)果部分對(duì)開放式問答和固定式問答分別進(jìn)行統(tǒng)計(jì)。
巖體稀土元素含量∑REE為116.43×10-6,∑Ce/∑Y比值為2.66,δEu為0.61。(La/Sm)N值為3.47,(Gd/Yb)N為0.91;為富輕稀土型。δEu<0.7,表明巖漿為上地殼經(jīng)不同程度的部分熔融形成的。
采用雙線性注意力網(wǎng)絡(luò)對(duì)圖像特征V和文本特征Qfea進(jìn)行融合:
y=BAN(V,Qfea)
(7)
然后通過分類器預(yù)測答案的置信分?jǐn)?shù)s,將概率最大的作為最終結(jié)果。
在實(shí)際應(yīng)用中,當(dāng)患者將待診斷圖像上傳后,會(huì)提出并輸入相應(yīng)問題q∈Rn,其中n為問句長度。對(duì)該問句采取如下特征處理過程。
(8)
其中,[;]表示特征拼接操作,Wq∈R(ds+dg+dl)×dq是可學(xué)習(xí)的參數(shù),Qfea∈Rn×dq表示最終提取得到的文本特征。
本文提出的方法(SGC)與已有方法應(yīng)用于開放式問答和固定式問答任務(wù)的準(zhǔn)確率對(duì)比結(jié)果,見表2。
1)果園深翻。秋季采果后結(jié)合秋施基肥進(jìn)行,只要方法合適,春、夏、秋季都可進(jìn)行深翻,其中以秋季果實(shí)采收后至落葉期進(jìn)行為好。針對(duì)貴州蘋果產(chǎn)區(qū)中的山區(qū)薄土層果園,土壤深翻,能夠加厚活土層,促進(jìn)巖土的風(fēng)化和熟化,提高土壤蓄水保肥能力。
表2 不同方法準(zhǔn)確率對(duì)比
第1步:對(duì)問句中每個(gè)文字進(jìn)行詞嵌入(word embedding,WE),得到語句特征Qe=[w1,w2,…,wn]∈Rn×de。
圖2 本文方法與已有方法的問答結(jié)果
圖3 本文方法與已有方法對(duì)醫(yī)學(xué)影像的關(guān)注區(qū)域可視化
為了進(jìn)一步探討本文提出模型(SGC)中各模塊對(duì)于任務(wù)的作用和效果,從語義圖模塊、門控模塊以及兩模塊中包含的激活函數(shù)3方面進(jìn)行消融分析。不同模塊消融后的基于問答準(zhǔn)確率的實(shí)驗(yàn)結(jié)果,見表3。
表3 不同模塊消融實(shí)驗(yàn)
其中“√”表示使用該模塊,“-”表示不使用此模塊。從表3第1行可以看到門控線性模塊對(duì)提升問答準(zhǔn)確率的重要作用,固定式問答任務(wù)性能提升約6%;從第2行可以看到語義圖模塊能夠在較難的開放任務(wù)上有效捕捉文本內(nèi)部關(guān)聯(lián);從第3行可以看到語義圖模塊和門控線性模塊中的激活函數(shù)對(duì)任務(wù)準(zhǔn)確度也有一定影響。
為了分析不同維度對(duì)模型性能的影響,實(shí)施相關(guān)模塊對(duì)模型維度敏感度分析,見圖4、圖5??梢钥吹讲煌Z義圖嵌入維度對(duì)模型性能影響較小,當(dāng)維度達(dá)到足以表征語義圖時(shí),模型性能達(dá)到飽和,更高維度的隱式空間是不必要的;門控線性模塊對(duì)不同維度選擇有一定要求,合適的隱藏層維度有利于該模塊尋找重要語句文本。
原來這屆的社長要改選時(shí),一共有七位大三的學(xué)長符合選舉資格,但沒有一位想當(dāng)社長,最后只好用猜拳決定,猜輸?shù)漠?dāng)社長。
圖4 不同語義圖維度模型性能
圖5 不同門控線性模塊維度模型性能
針對(duì)語義圖維度和門控模塊維度,從模型表達(dá)能力而言,兩者在一定范圍內(nèi)的提高均可以提升相應(yīng)表達(dá)能力,但是更高維度會(huì)帶來更大的計(jì)算復(fù)雜度,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中有較大開銷,延緩整個(gè)模型的收斂效率,有一定可能造成性能下降,因而隱藏層維度并不是越大越好,這也與圖4和圖5的實(shí)驗(yàn)現(xiàn)象一致。從模型過擬合而言,雖然雙向編碼器表征模型[16]的隱藏層維度可達(dá)768甚至1 024,卻能同時(shí)擁有更強(qiáng)表達(dá)能力,對(duì)比可知,造成本文模型維度受限的另一個(gè)主要原因是訓(xùn)練集數(shù)據(jù)量較少,較深維度容易導(dǎo)致過擬合性能下降,由于醫(yī)學(xué)領(lǐng)域標(biāo)注的數(shù)據(jù)集有限,擁有專業(yè)醫(yī)學(xué)知識(shí)的標(biāo)注人員稀缺,標(biāo)注難度較大,這也是醫(yī)學(xué)問答領(lǐng)域乃至“人工智能+醫(yī)學(xué)信息”領(lǐng)域目前的重要挑戰(zhàn)。
隨著新媒體的快速發(fā)展,微信群成為家校溝通的重要渠道。管理班級(jí)微信群,與其要求家長在群里不能做什么,還不如與家長商討能做什么,以及怎么做。開學(xué)初,我借助家長會(huì),與各科老師以及家長充分探討,最終確定了班級(jí)微信群每天“群聊”的話題。同時(shí),這也被當(dāng)作家長的一項(xiàng)“作業(yè)”來完成。
本文使用深度學(xué)習(xí)方法解決醫(yī)學(xué)影像問答問題,通過元學(xué)習(xí)和自編碼器模塊提取醫(yī)學(xué)影像視覺特征,通過語義圖卷積提取問題中的文本特征,并獲取視覺特征和文本特征之間的重要關(guān)聯(lián)。實(shí)驗(yàn)結(jié)果表明本文方法在相關(guān)醫(yī)學(xué)影像問答數(shù)據(jù)集上較已有工作有一定提升,開放式問答準(zhǔn)確率提升到55.6%;固定式問答準(zhǔn)確率提升到79.3%。本文方法在開放式問答性能提升方面尚有較大空間,開放式問答任務(wù)本身需要生成對(duì)應(yīng)答案,因此需要提升模型生成能力。在未來工作中將從以下兩個(gè)方面進(jìn)行改進(jìn),首先在語言特征提取時(shí)采用預(yù)訓(xùn)練的大模型[16]提升特征表達(dá)能力,其次是收集并標(biāo)注更多醫(yī)學(xué)領(lǐng)域語料庫用于訓(xùn)練,使模型具備更好的文本生成能力。