付攀,李楨,韋柄廷,王杰,王爽,3,邊桂彬*
(1.北京信息科技大學(xué)自動化學(xué)院,北京 100192; 2.中國科學(xué)院自動化研究所,北京 100190;3.北方工業(yè)大學(xué)機(jī)械與材料工程學(xué)院,北京 100144)
基于深度學(xué)習(xí)的深度估計(jì)方法通過預(yù)測二維圖像中每個(gè)像素相對于觀察相機(jī)的深度值,實(shí)現(xiàn)對原場景三維結(jié)構(gòu)的估計(jì)。在顯微外科手術(shù)中,數(shù)字影像能夠?yàn)獒t(yī)生提供實(shí)時(shí)的高清晰度術(shù)野,并可以從中提取關(guān)鍵的信息,例如病灶位置、大小和形態(tài)等,來輔助醫(yī)生做出更加精準(zhǔn)的手術(shù)決策[1-3]。當(dāng)前,深度學(xué)習(xí)方法在醫(yī)學(xué)影像領(lǐng)域被廣泛應(yīng)用于三維重建、手術(shù)規(guī)劃和病理分析等方面[4-5],但很少有對于顯微術(shù)中影像深度估計(jì)的研究,主要是由于顯微手術(shù)場景中存在目標(biāo)尺度微小、特征模糊、多鏡面反射等難點(diǎn)。因此,進(jìn)一步研究和改進(jìn)深度估計(jì)方法以克服這些挑戰(zhàn)并提高其推理精度,有助于在術(shù)中更精準(zhǔn)地判斷手術(shù)器械和軟組織的空間位置關(guān)系,為新手醫(yī)生提供關(guān)鍵的決策信息、縮短其學(xué)習(xí)曲線,從而為改善患者預(yù)后作出貢獻(xiàn)。
當(dāng)前常用的深度估計(jì)方法主要分為3類?;谝暡畹姆椒ɡ脤?yīng)點(diǎn)間的視差或結(jié)構(gòu)光中相位的差異來計(jì)算深度信息[6],例如經(jīng)典的雙目視覺算法和基于結(jié)構(gòu)光的三維重建方法,還包括基于光場等模態(tài)圖像的深度估計(jì)方法[7]等?;趫D像語義信息的方法利用神經(jīng)網(wǎng)絡(luò)從圖像中提取語義線索,例如進(jìn)行物體檢測和分割,進(jìn)而推理更加精準(zhǔn)的深度信息[8-9]?;谶\(yùn)動信息的方法則通過分析連續(xù)幀之間的運(yùn)動變化推斷場景中深度分布[10-11],如使用SLAM(simultaneous localization and mapping)技術(shù),可以將實(shí)時(shí)的影像信息映射到三維模型中,用于場景重建和虛擬現(xiàn)實(shí)[12-14]。這些方法從平面圖像中恢復(fù)了深度信息,有助于增強(qiáng)計(jì)算機(jī)視覺應(yīng)用如智能駕駛、機(jī)器人導(dǎo)航中的場景理解能力。
深度估計(jì)技術(shù)在醫(yī)學(xué)影像中的應(yīng)用也越來越受到關(guān)注。其中,深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和Transformer是兩種最常用的深度學(xué)習(xí)基礎(chǔ)架構(gòu)。在胸外科領(lǐng)域,深度估計(jì)技術(shù)被用于輔助使用支氣管鏡的活檢導(dǎo)航[15]。通過使用周期一致性生成對抗網(wǎng)絡(luò)直接從支氣管鏡圖像中生成深度圖,并將深度圖注冊到術(shù)前CT(computed tomography)上,獲得了較高的準(zhǔn)確性。在結(jié)腸鏡檢查中,深度估計(jì)技術(shù)被用來從單一圖像中重建結(jié)腸表面的地形[16-17],在開發(fā)的內(nèi)窺鏡相機(jī)模型渲染得到的合成圖像上訓(xùn)練,并最終集成到現(xiàn)有內(nèi)窺鏡系統(tǒng)中對腸道地形進(jìn)行在線估計(jì)。這些研究表明,深度估計(jì)技術(shù)在醫(yī)學(xué)影像領(lǐng)域的應(yīng)用前景廣闊,可以為醫(yī)生提供更加精準(zhǔn)的診斷和治療方案。
然而,在常見的深度估計(jì)策略中,基于密集特征匹配的方法[18-19]在多軟組織和目標(biāo)尺度微小的手術(shù)影像中容易受特征點(diǎn)模糊和漂移影響而發(fā)生性能退化。在基于深度編解碼架構(gòu)的神經(jīng)網(wǎng)絡(luò)中,考慮到算力資源限制,難以保持原始圖像高分辨率進(jìn)行深層處理。往往采用連續(xù)的下采樣和上采樣以在網(wǎng)絡(luò)深層提高感受野并減少計(jì)算量,卻容易因此帶來細(xì)小特征丟失、深度邊界模糊等性能衰減。盡管已提出一系列方法如跳躍連接、殘差連接等用于保留下采樣和上采樣過程中的細(xì)節(jié)信息,但仍然在許多具有挑戰(zhàn)性的任務(wù),如顯微手術(shù)場景中的微小器械深度估計(jì)方面存在明顯局限性。此外,由于顯微手術(shù)場景中器械軟組織存在復(fù)雜交互,且臨床上難以采集高質(zhì)量的真值數(shù)據(jù),因此仍然缺乏高精度的深度估計(jì)方法。
為了從二維術(shù)野彩色圖像中更精準(zhǔn)地恢復(fù)場景中各語義對象的深度,現(xiàn)從以下3個(gè)方面提出了解決方案。一是利用多層次跳級連接聚合模塊傳遞編碼器中的上下文信息到解碼器中,從而更好地保留帶有局部細(xì)節(jié)的隱層空間特征;二是提出基于通道選擇和分支優(yōu)化的雙重注意力特征融合機(jī)制,優(yōu)化解碼過程的精度。此外,提出一種迭代式點(diǎn)云融合策略,通過結(jié)合自動化的結(jié)構(gòu)光掃描實(shí)現(xiàn)多視角點(diǎn)云配準(zhǔn)和重建高精度深度數(shù)據(jù),以獲得稠密的深度真值。通過上述策略,實(shí)現(xiàn)顯微手術(shù)場景的端到端高精度深度估計(jì),有效解決推理的深度圖中關(guān)鍵細(xì)節(jié)信息丟失的問題。
如圖1所示,所提出的跨層級特征級聯(lián)網(wǎng)絡(luò)模型的數(shù)據(jù)流主要由多層編解碼器架構(gòu)定義。網(wǎng)絡(luò)以RGB通道彩色圖作為輸入,以單通道深度圖作為輸出。網(wǎng)絡(luò)主要組成結(jié)構(gòu)包含逐層下采樣的分窗特征編碼模塊、逐層上采樣的雙重注意力引導(dǎo)特征融合解碼模塊。提出跨層級級聯(lián)特征傳遞模式,將早期編碼階段中具有更豐富局部細(xì)節(jié)的特征圖逐級采樣到每一個(gè)更低分辨率的目標(biāo)等級。在目標(biāo)等級將來自各編碼階段的重采樣特征進(jìn)行選擇性融合和投影,使得初始低分辨率解碼特征在上下文信息引導(dǎo)下漸進(jìn)優(yōu)化到原始分辨率,從而緩解細(xì)節(jié)信息在深層傳遞過程中的丟失,提高算法的深度估計(jì)精度。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)基本框圖
對輸入的三通道特征圖進(jìn)行歸一化后,將其劃分為P個(gè)圖像塊XP,每個(gè)塊的大小為C×B×B,其中B表示塊的邊長,C為通道數(shù)。將每個(gè)塊XP按照其位置p轉(zhuǎn)換成位置信息嵌入塊ep,公式為
ep=LN[MLP(XP)+PosEmb(p)]
(1)
式(1)中:MLP(multilayer perceptron)為多層感知機(jī);PosEmb為位置嵌入;LN為層歸一化。以此獲得了一個(gè)維度為P×d的嵌入矩陣E,其中d為嵌入維度。
為了充分提取各分塊中的局部細(xì)節(jié)信息,將嵌入矩陣E傳入多層堆疊的Swin Transformer模塊中[20],每個(gè)模塊的輸出都是一個(gè)維度為P×d的矩陣。Swin Transformer的編碼過程為
(2)
式(2)中:ST為Swin Transformer塊;L為編碼器的深度。最終得到維度為P×d的潛在特征表示HL,將圖像的全局信息編碼為一個(gè)固定長度的向量。
采用預(yù)訓(xùn)練的large Swin Transformer模型作為編碼器主干網(wǎng)絡(luò),并設(shè)置窗口大小為7。對于不同層級的隱層特征圖,編碼器的初始嵌入維度為192,深度為[2,2,18,2],注意力頭數(shù)為[6,12,24,48],通道數(shù)為[192,384,768,1 536]。這些參數(shù)遵循了該模型在大規(guī)模圖像分類預(yù)訓(xùn)練任務(wù)上的設(shè)置。
傳統(tǒng)編解碼器交互方式往往只在同層特征之間進(jìn)行信息傳遞,盡管深層低分辨率特征一定程度上攜帶了淺層高分辨率特征,卻未能充分利用其豐富的信息。因此,設(shè)計(jì)了一種新的編解碼器信息傳遞策略。設(shè)編碼器和解碼器都有L層,分別為E1,E2,…,EL和D1,D2,…,DL,其中特征圖分辨率隨層數(shù)遞減。傳統(tǒng)連接是從編碼器的第i層到解碼器的第i層,如Ei~Di。提出的跨層特征級聯(lián)模塊在編碼器第i層同時(shí)連接到解碼器的第i~L層,如Ei到Di,Di+1,…,DL。具體來說,對于解碼器的第i層,i∈[1,L-1],其特征圖先與來自編碼器的Ei連接,再與來自編碼器的Ei+1,…,EL連接,即輸入為:Di,Ei,Ei+1,…,EL,輸出為
D′i=Wiconcat(Di,Ei,…,EL)+bi
(3)
式(3)中:D′i為第i層解碼器輸出;Wi和bi為可學(xué)習(xí)的參數(shù)。對于解碼器的最后一層DL,其只與來自編碼器的EL連接,即輸入為DL、EL,輸出為
D′L=WLconcat(DL,EL)+bL
(4)
1.3.1 通道注意力機(jī)制
通道注意力機(jī)制是一種在深度學(xué)習(xí)中廣泛應(yīng)用的技術(shù),旨在優(yōu)化網(wǎng)絡(luò)中特征的選擇和利用。通道注意力機(jī)制的常見方法之一是全局平均池化,通過該操作獲取每個(gè)通道的全局特征響應(yīng)作為對應(yīng)的權(quán)重。然后使用一個(gè)多層感知機(jī)對每個(gè)通道進(jìn)行權(quán)重調(diào)整,以加強(qiáng)重要通道的影響,同時(shí)抑制不重要通道的響應(yīng)。
利用通道注意力機(jī)制以減少編碼器大體量輸出特征的冗余,并促使輸出到解碼器的特征具有更高效的嵌入表示。首先,在級聯(lián)特征后使用通道注意力機(jī)制進(jìn)行特征選擇,并對加權(quán)后的特征圖執(zhí)行通道縮減,以此有效減少網(wǎng)絡(luò)中的參數(shù)數(shù)量,提高模型的效率和性能。其次,在最底層編碼器的特征傳輸?shù)浇獯a器作為輸入特征時(shí),使用通道注意力機(jī)制和通道重投影來增強(qiáng)最低分辨率特征的信息密度,為解碼器輸入一個(gè)高效的編碼特征表示,從而提高了解碼器的預(yù)測能力和精度。所采用的通道注意力實(shí)現(xiàn)機(jī)制為
CA(x)=σ{Wc2Relu[Wc1avgpool(x)]}
(5)
式(5)中:Wc1和Wc2為全連接網(wǎng)絡(luò)的參數(shù);σ為Sigmoid函數(shù);avgpool為自適應(yīng)平均池化操作;Relu為激活函數(shù);x為輸入張量;CA為通道注意力函數(shù)。
1.3.2 分支注意力機(jī)制
分支注意力機(jī)制可以讓網(wǎng)絡(luò)動態(tài)地調(diào)整不同分支特征的權(quán)重,從而提高網(wǎng)絡(luò)的性能和泛化能力。其常見實(shí)現(xiàn)方法是通過將多個(gè)分支特征進(jìn)行拼接,然后通過一系列的卷積和非線性激活操作,生成多個(gè)注意力圖。這些注意力圖將用于對不同分支的特征進(jìn)行加權(quán),以實(shí)現(xiàn)最終的特征融合。
利用分支注意力機(jī)制,對每一層的解碼環(huán)節(jié)中的兩類輸入做加權(quán)融合,包括:來自通道選擇和重投影后的級聯(lián)編碼器特征、來自上層解碼器的特征或底層編碼器輸出特征,所采用的分支注意力實(shí)現(xiàn)方式描述如下。
attn=σ(Wb3h3+bb3)
(6)
h3=ReLU(Wb2h2+bb2)
(7)
h2=ReLU[Wb1concat(xdec,xenc)+bb1]
(8)
out=xdec⊙a(bǔ)ttn1+xenc⊙a(bǔ)ttn2
(9)
式中:attn為注意力計(jì)算結(jié)果;ReLU為激活函數(shù);concat為維度拼接操作;xdec為來自上層解碼器特征;xenc為來自編碼器的特征;h2為第一層卷積的輸出特征圖;h3為第二層卷積的輸出特征圖;⊙為按位相乘;Wbi和bbi分別為第i層卷積的權(quán)重和偏置項(xiàng);out為融合后特征。
1.3.3 解碼器網(wǎng)絡(luò)結(jié)構(gòu)
通過上述雙重注意力機(jī)制的引導(dǎo),本文的解碼器可在漸進(jìn)將低分辨率特征圖細(xì)化到高分辨率同時(shí),使用通道注意力塊來保留重要的特征信息,使用分支特征融合模塊將來自淺層和深層的特征圖進(jìn)行合并,從而有效恢復(fù)細(xì)節(jié)信息。
在解碼器初始部分,使用通道注意力塊來選擇輸入特征圖的重要信息,并使用1×1卷積塊壓縮通道的數(shù)量,以提高計(jì)算效率。然后,使用卷積層對輸入特征圖進(jìn)行上采樣,并使用3個(gè)層疊的特征融合模塊將來自不同層級的特征圖進(jìn)行合并。在每個(gè)特征融合模塊中,將來自淺層和深層的特征圖在通道維度連接起來,并通過堆疊的卷積和歸一化操作來學(xué)習(xí)不同特征之間的權(quán)重。在最后一層,使用上采樣層將特征圖恢復(fù)到原始分辨率,并生成最終的深度估計(jì)結(jié)果。解碼器的主要網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,從編碼器底層輸入的特征尺寸為36 pixel×36 pixel。
表1 解碼器網(wǎng)絡(luò)結(jié)構(gòu)
深度估計(jì)中最常用的損失函數(shù)為尺度不變深度損失[21],考慮了深度值的標(biāo)度不變量和人類對深度感知的對數(shù)性質(zhì),通過在對數(shù)域?qū)ι疃日嬷岛皖A(yù)測值計(jì)算差值并對其均值和方差進(jìn)行加權(quán),可以有效均衡不同尺度的深度損失。其計(jì)算公式為
(10)
為了加強(qiáng)網(wǎng)絡(luò)對局部深度邊緣尤其是器械與組織之間的深度梯度的感知,分別對深度真值和預(yù)測值計(jì)算深度梯度圖,并作為加權(quán)項(xiàng)計(jì)入最終損失,其計(jì)算公式為
(11)
式(11)中:?表示梯度算子,由對離散圖像差分實(shí)現(xiàn)。
最終損失函數(shù)通過上述二者的加權(quán)和得到,以同時(shí)優(yōu)化網(wǎng)絡(luò)在絕對深度估計(jì)精度、全局估計(jì)一致性以及深度邊緣一致性的性能,計(jì)算公式為
(12)
從真實(shí)的手術(shù)場景中采集深度信息非常困難,但從模擬手術(shù)場景中可以采集到相似的數(shù)據(jù)。提出了一種自動化的數(shù)據(jù)采集流程和迭代式點(diǎn)云配準(zhǔn)方法,實(shí)現(xiàn)高效采集高精度的模擬深度數(shù)據(jù)。
通過將結(jié)構(gòu)光掃描儀安裝在機(jī)械臂的末端可以實(shí)現(xiàn)靈活的運(yùn)動和定位。數(shù)據(jù)采集前,使用手眼標(biāo)定方法可以將運(yùn)動的掃描儀自身坐標(biāo)系轉(zhuǎn)換到機(jī)器人遠(yuǎn)端TCP(tool center point)坐標(biāo)系。從而可以進(jìn)一步利用TCP相對于機(jī)械臂基座的實(shí)時(shí)位姿轉(zhuǎn)換到基坐標(biāo)系,獲得較好的三維點(diǎn)云配準(zhǔn)初始值,有效提高點(diǎn)云配準(zhǔn)效率。具體而言,固定標(biāo)定板于特定平面,操控機(jī)械臂攜帶掃描儀從多個(gè)不同方位捕獲關(guān)鍵幀。每次掃描中同時(shí)記錄機(jī)械臂TCP在其基坐標(biāo)系下的位姿參數(shù)和標(biāo)定板上關(guān)鍵角點(diǎn)在掃描儀坐標(biāo)系下的坐標(biāo)。將每組點(diǎn)對應(yīng)信息轉(zhuǎn)化為矩陣Mi,通過奇異值分解求解手眼標(biāo)定矩陣Mhand-eye,實(shí)現(xiàn)掃描儀坐標(biāo)系到機(jī)器人TCP坐標(biāo)系的轉(zhuǎn)換。
數(shù)據(jù)采集設(shè)置中,主要采用了撕囊鑷、主切口刀、側(cè)切口刀、超乳頭及波恩鉗作為手術(shù)器械,使用離體豬眼作為目標(biāo)組織來模擬手術(shù)場景。
通過機(jī)械臂將掃描儀定位到特定的空間位姿可實(shí)現(xiàn)對模擬手術(shù)場景獲取三維點(diǎn)云,但受組織吸光、水膜鏡面反射和結(jié)構(gòu)光遮擋等因素影響,單個(gè)點(diǎn)云中存在不同程度信息缺失。采集多個(gè)姿態(tài)下的點(diǎn)云可以實(shí)現(xiàn)迭代互補(bǔ)融合,從而顯著增加點(diǎn)云密集程度以獲得稠密深度數(shù)據(jù)。其主要步驟如下。
設(shè)輸入的9個(gè)點(diǎn)云分別為P1,P2,…,P9,對應(yīng)的機(jī)械臂末端姿態(tài)分別為T1,T2,…,T9,手眼標(biāo)定矩陣為Mhand-eye,成對配準(zhǔn)停止準(zhǔn)則為C,輸出的點(diǎn)云為Pfused,對應(yīng)姿態(tài)變換為Tfused,1,Tfused,2,…,Tfused,9。
步驟1將9個(gè)原始點(diǎn)云轉(zhuǎn)換到機(jī)械臂TCP坐標(biāo)系下,得到Ptcp,1,Ptcp,2,…,Ptcp,9。
Ptcp,i=Mhand-eyePi,i=1,2,…,9
(13)
步驟2根據(jù)TCP實(shí)時(shí)姿態(tài)獲取姿態(tài)轉(zhuǎn)換矩陣,將點(diǎn)云轉(zhuǎn)換到機(jī)器人基坐標(biāo)系下,得到Pbase,1,Pbase,2,…,Pbase,9。
Ttcp=Tk,k∈[1,9]
(14)
(15)
Pbase,i=TbasePtcp,i,i∈1,2,…,9
(16)
步驟3對每個(gè)點(diǎn)云進(jìn)行統(tǒng)計(jì)濾波,得到Pfiltered,1,Pfiltered,2,…,Pfiltered,9。
步驟4使用ICP算法[22]對濾波后的點(diǎn)云進(jìn)行配準(zhǔn),當(dāng)滿足停止準(zhǔn)則C時(shí)停止,得到粗粒度姿態(tài)映射圖Tcoarse為
Tcoarse=ICP(Pfiltered,1,…,Pfiltered,9,C)
(17)
步驟5基于參考點(diǎn)云Pbase,1進(jìn)行全局姿態(tài)圖優(yōu)化,得到最終姿態(tài)映射圖Tfinal為
Tfinal=GO(Pbase,1,…,Pbase,9,Tcoarse)
(18)
步驟6使用最終姿態(tài)映射圖將每個(gè)點(diǎn)云轉(zhuǎn)換到參考點(diǎn)云Pbase,1并融合,得到最終點(diǎn)云Pfused和最終姿態(tài)變換矩陣Tfused,i為
Pfused=Merge(Pbase,1,…,Pbase,9,Tfinal)
(19)
Tfused,i=TfinalTbase,i,i=1,2,…,9
(20)
式中:GO表示全局優(yōu)化函數(shù),采用圖優(yōu)化方法,將ICP算法配準(zhǔn)結(jié)果表示為一個(gè)圖結(jié)構(gòu),每個(gè)節(jié)點(diǎn)代表一個(gè)點(diǎn)云,每條邊表示兩個(gè)點(diǎn)云之間的變換關(guān)系。通過最小化圖中節(jié)點(diǎn)之間的誤差優(yōu)化所有點(diǎn)云的變換關(guān)系,獲得更精準(zhǔn)的匹配結(jié)果。Merge表示聚合函數(shù),將一組點(diǎn)云累加為單個(gè)稠密點(diǎn)云。
上述漸進(jìn)點(diǎn)云配準(zhǔn)融合的結(jié)果如圖2所示,分別為單個(gè)點(diǎn)云可視化結(jié)果和2~9個(gè)點(diǎn)云融合可視化結(jié)果,色調(diào)越暖表示深度值越小,顏色越冷表示深度值越大,可觀察到隨著融入的不同位姿點(diǎn)云數(shù)目遞增,點(diǎn)云中的空洞區(qū)域數(shù)量和表面積遞減。以上結(jié)果充分說明所提出的策略可以較好地還原被采集場景的稠密空間結(jié)構(gòu)。
t為點(diǎn)云融合輪次
2.3.1 深度投影
由于深度估計(jì)任務(wù)通常采用三通道彩色紋理圖像作為輸入,采用單通道深度圖作為輸出,需要將上述配準(zhǔn)融合后的點(diǎn)云投影回圖像坐標(biāo)系以形成單通道深度真值數(shù)據(jù)。設(shè)點(diǎn)云在掃描儀坐標(biāo)系下的表示為Pcam,需要投影回的深度圖為D,相機(jī)內(nèi)參矩陣為K,通過點(diǎn)云坐標(biāo)轉(zhuǎn)換投影回二維深度圖的過程如下。
對每個(gè)點(diǎn)pi∈Pcam,計(jì)算其在深度圖中的像素坐標(biāo)(ui,vi)為
(21)
根據(jù)像素坐標(biāo)(ui,vi),將深度圖中對應(yīng)像素點(diǎn)的值賦為該點(diǎn)的深度值zi,從而獲得投影后深度圖。
D(ui,vi)=zi
(22)
圖3展示了多視角點(diǎn)云迭代配準(zhǔn)過程中是否對點(diǎn)云進(jìn)行統(tǒng)計(jì)濾波的深度投影結(jié)果對比。由此可見,主要受空氣中灰塵對結(jié)構(gòu)光漫反射影響,原點(diǎn)云數(shù)據(jù)在各個(gè)區(qū)域存在部分深度值較小的微小噪音。而上述濾波過程能夠有效濾除分布在各深度區(qū)間的噪音,獲得更平滑且符合實(shí)際目標(biāo)的深度分布,有利于提升逐對配準(zhǔn)效率。
圖3 是否進(jìn)行點(diǎn)云統(tǒng)計(jì)濾波處理的深度圖對比
2.3.2 感興趣區(qū)域提取
在采集到的場景深度中包含器械長柄、器械夾持器等無關(guān)深度數(shù)據(jù)。定義感興趣區(qū)域(region of interest,ROI)為眼球組織及組織上方的器械末端,因此深度圖中的組織支撐臺區(qū)域近似為ROI的內(nèi)切圓。對該區(qū)域點(diǎn)云進(jìn)行圓臺平面上、下局部區(qū)域的深度截?cái)?從而使得該區(qū)域的最大輪廓為圓臺外邊緣。針對不同視角采集的深度圖執(zhí)行圓檢測,并沿其外接正方形進(jìn)行圖像截取。分別對原始灰度紋理圖像和深度圖提取ROI的部分結(jié)果如圖4所示,其中,為了更好地展現(xiàn)深度差異,將空洞區(qū)域賦值為場景中最大深度,并對深度圖進(jìn)行了可視化增強(qiáng)處理,色調(diào)越暖表示深度值越大。
圖4 9位姿下深度圖及紋理圖ROI可視化結(jié)果
深度數(shù)據(jù)集包括1 500對576×576像素的紋理圖和深度圖對,其中采集深度有效精度為35 μm,深度圖保存精度約10 μm。由于原始采集紋理為灰度圖,通過直方圖均衡化方法對暗處增強(qiáng)后進(jìn)行上色處理,以適應(yīng)網(wǎng)絡(luò)輸入。選擇其中1 100對作為訓(xùn)練集,其余作為測試集。
所有的訓(xùn)練和驗(yàn)證都在NVIDIA TITAN Xp顯卡上運(yùn)行,CUDA版本為10.2。使用Pytorch實(shí)現(xiàn)上述網(wǎng)絡(luò),并利用Adam作為優(yōu)化器。λ、w1、w2值分別設(shè)置為0.75、1和2。最大深度設(shè)定為0.070 55,最小深度為1×10-1。通過針對數(shù)據(jù)集的微調(diào),將本文方法與主流深度估計(jì)基準(zhǔn)中的算法進(jìn)行了對比。
為了同時(shí)評價(jià)不同網(wǎng)絡(luò)在上述數(shù)據(jù)中的深度估計(jì)性能,引入3種主要的評價(jià)指標(biāo):RMSE、log10和SILog。RMSE表示實(shí)際深度值和預(yù)測深度值之間的均方根誤差,SILog和log10是針對深度值的比例誤差進(jìn)行評估的指標(biāo)。SILog在一定程度上對小深度值的誤差更加敏感。RMSE的公式為
(24)
log10的公式為
(25)
SILog的公式為
(26)
基于在創(chuàng)建的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,對不同方法的性能進(jìn)行了評估和比較。其中,各評價(jià)指標(biāo)定量對比結(jié)果如表2所示,在RMSE、log10、SILog等指標(biāo)下,本文提出的方法表現(xiàn)出了優(yōu)秀的性能,相較于Lap、GLP、Bts以及NeWCRFs等主流深度估計(jì)方法,均具有更小的誤差和更高的精確性。
表2 本文方法與主流方法評價(jià)指標(biāo)對比
在RMSE指標(biāo)下,本文提出的方法相較于Lap、GLP、Bts、NeWCRFs等方法的改進(jìn)比率分別為22.2%、7.4%、30.7%、42.8%;在log10指標(biāo)下,相應(yīng)的改進(jìn)比率33.7%、31.4%、42.0%、53.2%;在SILog指標(biāo)下,相應(yīng)的改進(jìn)比率13.0%、9.4%、17.1%、6.1%。這些實(shí)驗(yàn)結(jié)果表明,本文方法在對該場景進(jìn)行全局深度推理時(shí)比其他方法更加準(zhǔn)確可靠,在絕對精度方面領(lǐng)先。
對不同方法推理的深度圖進(jìn)行定性比較的結(jié)果如圖5所示,像素顏色越暖代表深度值越小。本文方法對于器械位于眼外的部分能夠更加顯著地區(qū)分器械和周圍組織的邊界,尤其對于小型器械如撕囊鑷或波恩鉗表現(xiàn)出更為出色的性能,如圖5中撕囊鑷位于眼外部分的兩個(gè)分支間的間隙更為清晰。
對于器械在眼內(nèi)的部分,如圖5中白框所標(biāo)注,本文方法能夠更精準(zhǔn)地識別器械尖端的深度信息,而其他方法中則存在深度信息模糊或器械部分被過度放大的情況,這在實(shí)際應(yīng)用中可能導(dǎo)致對危險(xiǎn)操作的預(yù)計(jì)失效。本文方法在眼內(nèi)外器械深度估計(jì)中均表現(xiàn)出優(yōu)越的性能,具有更好的臨床應(yīng)用前景。
為了探究模型不同組件對性能的影響,進(jìn)行了分別去除通道注意力和分支注意力組件的實(shí)驗(yàn),并與完整模型進(jìn)行了性能比較。實(shí)驗(yàn)結(jié)果如表3所示。
表3 是否采用關(guān)鍵注意力機(jī)制的消融實(shí)驗(yàn)結(jié)果
在RMSE評價(jià)指標(biāo)上,無通道注意力和無分支注意力組件的模型相對于完整模型均出現(xiàn)了性能下降,RMSE分別為0.001 66和0.001 72,而完整模型的RMSE為0.001 51。在log10評價(jià)指標(biāo)上,無分支注意力組件的模型相對于完整模型的表現(xiàn)下降最為明顯,log10分別為0.009 79和0.008 33,而無通道注意力組件的模型相對表現(xiàn)稍好,log10為0.009 24??梢钥闯?在log10評價(jià)指標(biāo)上,通道注意力和分支注意力組件對模型的性能提升也非常重要。在SILog評價(jià)指標(biāo)上,雖然無通道注意力和無分支注意力組件的模型相對完整模型的表現(xiàn)都有所下降,但差距相對較小,SILog分別為0.031 55和0.032 07,而完整模型的SILog為0.030 39。因此,本文采用的通道注意力和分支注意力組件對模型性能起到了較好的提升作用,在不同評價(jià)指標(biāo)上表現(xiàn)略有差異。
設(shè)計(jì)并實(shí)現(xiàn)了一種基于雙注意力引導(dǎo)特征級聯(lián)的深度估計(jì)網(wǎng)絡(luò),并提出了一種多視角點(diǎn)云迭代式配準(zhǔn)方法。在構(gòu)建的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,通過與主流算法對比,本文方法更為準(zhǔn)確地恢復(fù)了顯微手術(shù)影像中的三維結(jié)構(gòu),并在全局推理精確性上有較大提升。該方法在推理時(shí)不依賴于昂貴的深度采集裝置和精密的雙目成像設(shè)備,可與現(xiàn)有的影像系統(tǒng)高效集成,端到端地進(jìn)行深度估計(jì),為醫(yī)生提供術(shù)中導(dǎo)航信息支撐。尤其是在關(guān)鍵的微小器械深度估計(jì)方面,解決了局部深度模糊、細(xì)節(jié)丟失問題,有望為難以人為察覺的危險(xiǎn)操作提供預(yù)警機(jī)制。
然而,本文研究只涵蓋了器械末端全部處于透明角膜組織下且紋理清晰可見的場景,但在臨床實(shí)踐中,手術(shù)器械對于非淺表組織的誤傷也多見于器械被不透明結(jié)構(gòu)如虹膜或晶體皮質(zhì)等遮擋導(dǎo)致視覺特征模糊的情形下,僅憑借點(diǎn)對點(diǎn)的像素到深度估計(jì)將難以有效識別器械末端深度。在未來的工作中,將進(jìn)一步對眼內(nèi)被組織遮擋的器械的深度估計(jì)問題進(jìn)行研究。