李伊寧 王弘熠 王天任 柳 岸 趙 爽 康 健
1 中南大學(xué)湘雅醫(yī)學(xué)院,湖南省長沙市 410013;2 中南大學(xué)湘雅三醫(yī)院;3 中南大學(xué)湘雅醫(yī)院皮膚科
近年來,基于深度學(xué)習(xí)的多模態(tài)融合技術(shù)進(jìn)展迅速,它將不同模態(tài)的大量數(shù)據(jù)相互融合,利用深度學(xué)習(xí)充分顯示數(shù)據(jù)之間互補(bǔ)的優(yōu)點(diǎn),擺脫單一數(shù)據(jù)中時間和空間的局限性,以便了解疾病的綜合信息,保障醫(yī)生決策的可靠性。
所謂模態(tài),是指人接受信息的特定方式。模態(tài)起源于人機(jī)交互領(lǐng)域,被定義為在特定物理媒介上信息的表示方式,如:文本、圖像、聲音等。醫(yī)學(xué)領(lǐng)域常指其為不同來源的醫(yī)學(xué)信息,如影像信息、病史信息、生化結(jié)果等。以往人工智能輔助醫(yī)療系統(tǒng)開發(fā)思路常是單模態(tài)的,通過分析單一類型的數(shù)據(jù),建立從數(shù)據(jù)到結(jié)果的映射,從而具備所謂“智能”。然而目前常用的檢查數(shù)據(jù)長期以來各自獨(dú)立,單純分析某種類型的醫(yī)學(xué)數(shù)據(jù)只能得到疾病某一個方面或?qū)哟蔚男畔?,因此具有較大局限性,不能評估疾病的全局狀況,這極大限制了人工智能的醫(yī)療應(yīng)用。單模態(tài)面臨的困難正是多模態(tài)融合的強(qiáng)項。多模態(tài)融合技術(shù)是指機(jī)器從文本、圖像、語音和視頻等領(lǐng)域獲取信息實現(xiàn)轉(zhuǎn)換與融合以提升模型性能的方法。例如PET提供有關(guān)病變部位定量代謝信息,CT則可提供病變解剖結(jié)構(gòu)信息?;诙叩哪B(tài)融合打破二者固有的數(shù)據(jù)壁壘,利用特定的系列算法對采集到的數(shù)據(jù)進(jìn)行處理,如此可同時從功能和結(jié)構(gòu)方面刻畫當(dāng)前病變,為下一步的臨床決策提供充分的參考。因此,運(yùn)用多模態(tài)融合綜合分析各種類型的醫(yī)學(xué)數(shù)據(jù)才是人工智能診斷應(yīng)用的關(guān)鍵,也是診斷病情的可靠手段。深度學(xué)習(xí)是一種以神經(jīng)網(wǎng)絡(luò)為架構(gòu)對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的算法,是對于新產(chǎn)生的多模態(tài)融合數(shù)據(jù)的利用和解讀的有力工具。基于深度學(xué)習(xí)的多模態(tài)融合可運(yùn)用多個隱含層的深度神經(jīng)網(wǎng)絡(luò)來完成多模態(tài)學(xué)習(xí)任務(wù)[1]。已有大量將深度學(xué)習(xí)用于醫(yī)學(xué)數(shù)據(jù)處理的成功案例,如疾病診斷,腫瘤分割、預(yù)后等。
2.1 腦腫瘤 在MRI上對腦腫瘤進(jìn)行識別是臨床傳統(tǒng)方法中手術(shù)定位、建立腫瘤模型的基礎(chǔ)[2]。然而不同MRI展示的病變部位有差異,反映了不同角度的腫瘤特點(diǎn)。羅蔓等[3]提出了一種基于多模態(tài)三維卷積神經(jīng)網(wǎng)絡(luò)的MRI腦腫瘤分割方法,充分利用多張MRI之間的互補(bǔ)關(guān)系和三維結(jié)構(gòu)空間之間的幾何特點(diǎn),判斷腦腫瘤位置的靈敏度可達(dá)90%以上。除了識別,多模態(tài)融合技術(shù)對于腦腫瘤患者的分級同樣具有意義。Fangyan Ye等[4]通過輸入多種能夠提供腫瘤不同信息的不同MRI圖片,直接將三維卷積核應(yīng)用于MRI圖像,通過矢狀、軸向和冠狀方向上的差別,這為腦腫瘤良惡性分類打下基礎(chǔ)。
2.2 乳腺癌 乳腺癌已成為女性最常見的惡性腫瘤。惡性乳腺癌的高發(fā)與早期篩查技術(shù)水平較低相關(guān)。Muxuan Liang等[5]提出了一個多模態(tài)深度信念學(xué)習(xí)網(wǎng)絡(luò),在該模型中基因表達(dá)、DNA甲基化、藥物反應(yīng)等數(shù)據(jù)首先被編碼到多層隱藏變量中,然后使用一個聯(lián)合潛在模型融合來自輸入的多模態(tài)的共同特征,最后對癌癥患者進(jìn)行聚類。該種方法在乳腺癌相關(guān)基因組學(xué)的研究過程中具有較好應(yīng)用前景。
組學(xué)、病理圖像等數(shù)據(jù)均與乳腺癌患者的預(yù)后息息相關(guān)。孫冬冬[6]提出了融合組學(xué)數(shù)據(jù)與病理圖像的深度神經(jīng)網(wǎng)絡(luò)生存期預(yù)測方法,該方法以混合網(wǎng)絡(luò)為結(jié)構(gòu),分別處理乳腺的基因表達(dá)、拷貝數(shù)異常等組學(xué)數(shù)據(jù)和乳腺的病理圖片,最終進(jìn)行決策級融合,并對乳腺癌生存期預(yù)測取得了高于80%的準(zhǔn)確率。
2.3 其他腫瘤 多發(fā)性骨髓瘤(Multiple myeloma,MM)是淋巴造血系統(tǒng)一種常見的惡性腫瘤,以多灶性骨骼受累為主要特征。傳統(tǒng)的X射線掃描只有在病灶周圍骨小梁丟失30%以上時才顯示病變,而PET-CT可檢測到傳統(tǒng)方法無法檢測到的微小病變,但由于主觀判別標(biāo)準(zhǔn)不同,對MM的鑒別仍然很容易出錯。Lina Xu等[7]提出了一種級聯(lián)兩個單一的神經(jīng)網(wǎng)絡(luò)形成復(fù)合網(wǎng)絡(luò)的方法。第一個網(wǎng)絡(luò)只輸入容積CT數(shù)據(jù)以學(xué)習(xí)骨的解剖學(xué)特征,第二個網(wǎng)絡(luò)輸入PET-CT和第一個網(wǎng)絡(luò)的輸出。該方法取得了73.5%的準(zhǔn)確率。不過與單模態(tài)網(wǎng)絡(luò)相比,復(fù)合網(wǎng)絡(luò)需要更多計算量,但檢測性能卻只有小幅提高。
不同亞型的橫紋肌肉瘤患者預(yù)后相差極大,因此區(qū)分腺泡狀橫紋肌肉瘤和胚胎性橫紋肌肉瘤尤為重要。Imon Banerjee等[8]開發(fā)了一個與遷移學(xué)習(xí)結(jié)合的深度學(xué)習(xí)框架,通過融合多參數(shù)MRI以區(qū)分上述兩種亞型。PET圖像上18F-FDG的攝取代表腫瘤新陳代謝,MRI圖像上受限制的擴(kuò)散程度代表腫瘤細(xì)胞密度,這些都與橫紋肌肉瘤預(yù)后信息相關(guān)。這種方法的平均交叉驗證準(zhǔn)確度達(dá)到了85%。
3.1 癲癇 傳統(tǒng)的癲癇病診斷依據(jù)患者的出生史、既往史和發(fā)病表現(xiàn)等。醫(yī)生在診斷時具有較強(qiáng)的主觀性,需要耗費(fèi)較長時間綜合判斷病情,有可能延誤患者診斷時機(jī),造成不必要的二次傷害。鐘霽媛等[9]融合了磁共振掃描序列中的時序特征和圖像特征用于顳葉內(nèi)側(cè)癲癇的診斷。該方法可達(dá)到 92.3%的準(zhǔn)確率,顯著縮短了傳統(tǒng)鑒別診斷(對受試者的腦電波進(jìn)行24h以上的監(jiān)測)所需的時間。
癲癇不定時發(fā)作的特點(diǎn)降低患者的生存質(zhì)量,還給臨床治療工作帶來困難。Parikshat Sirpal等[10]利用具有長短時記憶單元的深度遞歸神經(jīng)網(wǎng)絡(luò)模型,通過輸入患者的腦電圖—功能性近紅外光譜多模態(tài)數(shù)據(jù)預(yù)測患者癲癇的發(fā)作。這一項技術(shù)提示未來甚至可以根據(jù)患者就診時的檢查數(shù)據(jù)預(yù)測患者發(fā)病時間,從而針對性地設(shè)計保護(hù)性治療措施,大幅改善癲癇患者的社會適應(yīng)和健康管理能力。
3.2 腦功能評估 病歷信息和神經(jīng)影像信息在帕金森等退行性病變中是十分重要的評估參考資料,而多模態(tài)融合技術(shù)正可以將二者融合。例如Xi Zhang等[11]設(shè)計了一種基于記憶的圖像卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)的提取部分用于從患者大腦神經(jīng)影像中提取有用信息,而記憶部分則負(fù)責(zé)從患者的病歷信息中獲取有用信息。兩種信息通過網(wǎng)絡(luò)結(jié)構(gòu)在圖像采集的對應(yīng)時間點(diǎn)融合,可推斷疾病發(fā)展?fàn)顟B(tài)。而Sergey等[12]則在深度學(xué)習(xí)中利用注意力機(jī)制的最新進(jìn)展來提取大腦多模態(tài)數(shù)據(jù)中的非線性關(guān)系。他們提出了基于翻譯的融合模型。該模型針對兩種MRI信息設(shè)計,其中SMRI可提供有關(guān)大腦組織類型信息而fMRI可提供大腦網(wǎng)絡(luò)之間的結(jié)構(gòu)連通性信息。運(yùn)用該模型進(jìn)行了基于健康人群和精神分裂者的腦功能評估,結(jié)果顯示二者在顳葉等幾個關(guān)鍵區(qū)域存在明顯的群體差異,符合以往的醫(yī)學(xué)研究結(jié)果。
3.3 預(yù)后評估 醫(yī)患雙方在疾病診療的互動中繞不開對預(yù)后的探討。多模態(tài)技術(shù)規(guī)避了傳統(tǒng)算法局限性所給出的答案更具有參考價值。比如Anika Cheerla等[13]開發(fā)了一種無監(jiān)督學(xué)習(xí)編碼器用于腫瘤預(yù)后取得了較單模態(tài)更優(yōu)的效果。該方法將病理圖片、臨床數(shù)據(jù)、mRNA表達(dá)數(shù)據(jù)、miRNA表達(dá)數(shù)據(jù)這四種數(shù)據(jù)模式壓縮成一個單一的特征向量,針對每一種數(shù)據(jù)類型的特點(diǎn)選擇不同的編碼方法,最后利用深度無監(jiān)督表示學(xué)習(xí)進(jìn)行預(yù)測。而Hongming Li等[14]提出一種通過在比例風(fēng)險模型中使用深度學(xué)習(xí)網(wǎng)絡(luò)優(yōu)化成像特征來建立直腸癌患者生存回歸模型的方法。在深度學(xué)習(xí)模型中,通過數(shù)據(jù)驅(qū)動的方式在三維卷積層融合腫瘤的PET、CT圖像數(shù)據(jù),并提取特征信息來捕獲放射圖像數(shù)據(jù)和生存信息之間的復(fù)雜關(guān)系。
多模態(tài)研究的常見挑戰(zhàn)是缺失數(shù)據(jù)。由于醫(yī)療數(shù)據(jù)共享不暢或疾病譜固有的特點(diǎn),實際上很難擁有所需的全部種類的多模態(tài)數(shù)據(jù)。例如,在臨床實踐中,PET的花費(fèi)較高并且部分患者擔(dān)心放射性暴露。因此,患者大多都愿意接受MRI掃描而部分接受PET。在ANDI數(shù)據(jù)庫中,所有821位受試者都有MRI數(shù)據(jù),而進(jìn)行PET者卻不到一半。一方面,若將缺失PET數(shù)據(jù)患者的數(shù)據(jù)從訓(xùn)練集中除去,訓(xùn)練集的規(guī)模將會大大縮小,得到結(jié)果的可靠度將大打折扣。另一方面如果強(qiáng)行使用殘缺的數(shù)據(jù)訓(xùn)練多模態(tài)模型,可能誤導(dǎo)模型產(chǎn)生過擬合效應(yīng),不具備臨床價值。
生成式對抗網(wǎng)絡(luò)(GAN)由一個生成器和一個判別器構(gòu)成。生成器根據(jù)輸入的樣本數(shù)據(jù)分布,生成新的數(shù)據(jù)分布,并盡量接近真實數(shù)據(jù)分布。判別器的作用則是判別輸入數(shù)據(jù)是來自真實數(shù)據(jù)還是生成器生成的數(shù)據(jù)[15]。利用GAN可補(bǔ)充缺失的數(shù)據(jù),部分克服數(shù)據(jù)集分布不平衡的難題。如針對上述情況設(shè)計一種生成對抗網(wǎng)絡(luò),學(xué)習(xí)MRI和PET之間的雙向映射,然后可以根據(jù)對應(yīng)的MRI掃描合成丟失的PET圖像。
本文綜述了基于深度學(xué)習(xí)的多模態(tài)融合技術(shù)在腦腫瘤、乳腺癌、癲癇等方面的臨床應(yīng)用進(jìn)展?;谏疃葘W(xué)習(xí)的多模態(tài)融合技術(shù)能夠?qū)εR床相關(guān)的多模態(tài)數(shù)據(jù)進(jìn)行整合,綜合分析,從不同方面更加全面、深刻地了解、認(rèn)識疾病,以達(dá)到診斷、分類、預(yù)后判斷的目的。隨著各種成像技術(shù)的不斷發(fā)展,在臨床上大規(guī)模應(yīng)用基于深度學(xué)習(xí)的多模態(tài)融合技術(shù)已經(jīng)成為大勢所趨,這同時也為人工智能、深度學(xué)習(xí)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用提供了方向。