黃 鵬,郭春生,陳華華,張宏寬
(1.杭州電子科技大學通信工程學院,浙江 杭州 310018;2.數(shù)源科技股份有限公司,浙江 杭州 310012)
圖像配準是圖像處理中的一個基本問題,一直以來都是圖像處理和計算機視覺領域極為重要的研究方向。有著廣泛的應用領域,比如在遙感圖像領域,用于多光譜分類、環(huán)境監(jiān)測、變化檢測、圖像拼接、天氣預報、高分辨率圖像創(chuàng)建等[1];在醫(yī)學圖像處理領域,用于影像導航、運動跟蹤、圖像分割、圖像重建等[2];在計算機視覺領域,用于目標定位、自動質(zhì)量控制等[3]。隨著圖像采集設備的不斷發(fā)展,獲得圖像的數(shù)量及其多樣性不斷增加,加上外界環(huán)境的干擾,給圖像配準帶來了很大的挑戰(zhàn)。為了應對這些挑戰(zhàn),需要不斷改進圖像配準方法。
圖像配準是在同一場景下將從不同時間、不同的角度、不同傳感器獲取的兩張圖像進行對齊的過程[1],也就是建立場景中不同位置在圖像對中的一一對應關系。圖像配準方法可以從很多角度進行分組,比如,按照圖像的維度可分為2D-2D、3D-3D和2D-3D配準,按照成像模式可分為單模態(tài)和多模態(tài)圖像配準,按照圖像的變換性質(zhì)可分為線性變換和非線性變換配準,線性變換又包括剛體變換、仿射變換和投影變換。
傳統(tǒng)圖像配準方法主要分為基于特征的圖像配準方法和基于灰度的圖像配準方法。
基于特征的圖像配準主要包括特征提取、特征匹配、模型變換參數(shù)估計、圖像重采樣4個步驟。
(1)特征提?。禾崛〕鲆环鶊D像的顯著特征,比如點、線、邊緣、輪廓等。在固定圖像和移動圖像檢測到的特征集必須有足夠多的公共元素,即使是在圖像未完全覆蓋相同場景或存在物體遮擋等情況下也是如此[1]。常見的特征檢測方法有尺度不變特征變換(Scale Invariant Feature Transform,SIFT)[4],加速健壯特征(Speeded-Up Robust Features,SURF)[5]等方法。
(3)模型變換參數(shù)估計:選擇合適的變換模型,并根據(jù)特征之間的對應關系去估計模型的變換參數(shù)。
(4)圖像重采樣:利用估計出來的變換參數(shù)對待配準圖像進行重采樣,使得待配準圖像向固定圖像對齊。
基于灰度的圖像配準方法根據(jù)圖像維度的不同又可分為基于像素(二維圖像)和基于體素(三維圖像)的圖像配準方法?;诨叶鹊膱D像配準方法的流程如圖1所示,該方法不需要對特征進行提取以及匹配,而是直接利用整個圖像的灰度值信息進行配準。首先,選擇合適的變換模型,通過幾何變換得到形變圖像,計算形變圖像和參考圖像之間的相似度。然后,通過合適的優(yōu)化算法找到最佳的變換參數(shù),使得形變圖像和參考圖像之間的相似度最大。其中常見的基于灰度的圖像配準方法有互信息法[6-7]、互相關法[8-9]等。
傳統(tǒng)的基于特征的圖像配準方法計算量小,對各種變化的魯棒性較好,但是,對于圖像外觀有較大變化以及由很多參數(shù)構成的復雜模型時,配準效果較差[10]。另外一點,傳統(tǒng)的基于特征的圖像配準方法提取特征十分復雜,而且只能提取到淺層次的特征,很難得到更深層次、更具有表現(xiàn)力的特征。而基于灰度的圖像配準方法原理簡單,但計算量大,耗時長,在實際應用中很難保證實時性。而且大多數(shù)相似性度量方法存在很多局部極小值,很難得到一個全局最優(yōu)的解[11]。
隨著深度學習的飛速發(fā)展,在計算機視覺領域取得突破性進展。比如目標檢測[12]、圖像分類[13]、圖像去噪[14]、圖像分割[15]等方向。研究者也在積極探索通過深度學習的方法來解決傳統(tǒng)圖像配準中出現(xiàn)的問題。比如,在解決傳統(tǒng)特征提取的問題上,Yang等[16]利用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)強大的特征提取能力得到具有魯棒性的多尺度特征描述符來實現(xiàn)圖像配準,在特征提取效果上優(yōu)于傳統(tǒng)的特征提取方法。在解決傳統(tǒng)的相似性度量方法中出現(xiàn)的問題上,Cheng等[17]使用深度學習方法來學習圖像對之間的相似度,相比于傳統(tǒng)的相似性度量準確性更高,魯棒性更強。在解決配準速度的問題上,Chee等[18]和De等[19]利用深度網(wǎng)絡來充當回歸器,模型訓練完成后可一次性估算出形變參數(shù),大大加快了配準速度。
目前,基于深度學習的圖像配準方法主要分為基于特征的組合配準方法、有監(jiān)督學習的直接配準方法以及無監(jiān)督學習的直接配準方法。
基于特征的組合配準方法就是在傳統(tǒng)圖像配準流程框架下,利用深度學習的方法代替特征提取以及特征匹配步驟來進行組合配準。
2.加強新知識、新理論的教育,提高領導干部的創(chuàng)新能力。加強新知識、新理論的培訓教育,以“知識更新、技能增強、素質(zhì)提高”為核心,實施以“新理論、新技能、新信息、新知識”為主要內(nèi)容的繼續(xù)教育工程,不斷提高領導干部的創(chuàng)新意識和創(chuàng)新能力,準確把握發(fā)展形勢,善于搶抓機遇和開拓創(chuàng)新,以創(chuàng)新謀求發(fā)展,以創(chuàng)新提高領導水平,以創(chuàng)新提高執(zhí)政能力。
Han等[20]提出了MatchNet網(wǎng)絡,該網(wǎng)絡由CNN構成的特征網(wǎng)絡和3個全連接層構成的度量網(wǎng)絡組成。其中特征網(wǎng)絡用于生成特征描述符,并采用度量網(wǎng)絡來學習特征描述符之間的相似度,代替了傳統(tǒng)采用歐式距離來度量特征描述符距離的方法,提升了匹配的準確率。為了進一步減少計算復雜度和模型的運行時間,提升深度網(wǎng)絡的效率,Balntas等[21]提出了PN-Net網(wǎng)絡,將包含正負樣本對的三元組輸入到CNN中得到特征描述符,并引入新的損失函數(shù)SoftPN去訓練網(wǎng)絡,和MatchNet網(wǎng)絡[20]相比較,匹配效果得到提升,而且提高了模型的效率。在Photo-Tour[22]數(shù)據(jù)集上,相比于傳統(tǒng)的SIFT[4]方法匹配錯誤率從27%降到了約7%,特征提取速度快了近40倍。接著Rocco等[10]通過特征提取網(wǎng)絡、匹配網(wǎng)絡、回歸網(wǎng)絡這3個網(wǎng)絡來分別模擬標準步驟中的特征提取、特征匹配以及變換參數(shù)估計。一方面通過CNN強大的特征提取能力來處理圖像對外觀發(fā)生較大變化時的匹配問題,另外通過設計可訓練的匹配網(wǎng)絡和回歸網(wǎng)絡來處理錯誤匹配。
隨后,Ono等[23]提出了LF-Net網(wǎng)絡,該網(wǎng)絡由兩部分組成,一個是由全卷積網(wǎng)絡構成的檢測器網(wǎng)絡,另外一個是特征描述符網(wǎng)絡。其中檢測器網(wǎng)絡用來得到關鍵點的位置、尺度和方向,特征描述符網(wǎng)絡用來生成特征描述符。并且LF-Net網(wǎng)絡可以實現(xiàn)端到端的訓練,更好地提升匹配效果。Shen等[24]在LF-Net網(wǎng)絡[23]的基礎之上,提出了基于感受野的匹配網(wǎng)絡RF-Net網(wǎng)絡,相比于LF-Net網(wǎng)絡[23]有兩點改進,一是利用感受野特征圖來構建響應特征圖,在不同大小的感受野上檢測關鍵點,提高了關鍵點檢測的有效性;二是提出采用名為近鄰掩碼的損失函數(shù)以學習更加穩(wěn)定的特征描述符。近期,Luo等[25]提出了ASLFeat網(wǎng)絡結構,通過引入可變形卷積網(wǎng)絡[26-27]來加強對特征點的局部形狀(尺度、方向等)的估計,以獲得更強的幾何不變形,并利用多層檢測機制來恢復空間分辨率以及低層次的細節(jié),以提高關鍵點定位的準確度。
基于特征的組合配準方法雖然取得一定的成功,但是依然是基于傳統(tǒng)的圖像配準的框架。為了進一步提高圖像配準的效率,研究者們開始探索如何利用深度學習方法直接估計出變換參數(shù),也就是基于深度學習的直接配準方法,將其主要分為有監(jiān)督學習和無監(jiān)督學習的直接配準方法。
有監(jiān)督學習的直接配準方法的通用框架如圖2所示,監(jiān)督學習需要獲取真實的變換參數(shù)作為標簽來訓練網(wǎng)絡。常見的獲取標簽的方式有以下3種[2]:(1)通過隨機變換生成;(2)通過傳統(tǒng)的配準方法生成;(3)通過模型去生成。根據(jù)圖像的變換性質(zhì)可以將有監(jiān)督學習的直接圖像配準分為有監(jiān)督學習的剛性圖像配準以及有監(jiān)督學習的可變形圖像配準[28]。
2.2.1 有監(jiān)督學習的剛性圖像配準
Chee等[18]利用AIRNet網(wǎng)絡去直接估計兩個輸入圖像的轉(zhuǎn)換參數(shù)來實現(xiàn)仿射圖像配準。AIRNet網(wǎng)絡由編碼器和回歸器兩部分組成,其中編碼器由DenseNet[29]改編而來用來捕獲輸入圖像的可判別特征,而回歸器由多個全連接層組成用來生成變換參數(shù)。該網(wǎng)絡的輸入是一對圖像,輸出的是仿射變換矩陣的12個參數(shù)(三維圖像),相應的標簽是在設定的參數(shù)范圍下隨機生成的。之后將預測的仿射變換參數(shù)和真實的仿射變換參數(shù)之間的均方誤差作為損失函數(shù)去優(yōu)化網(wǎng)絡。在配準速度上相比于傳統(tǒng)的配準方法要快上100倍,而且整體上實現(xiàn)了更好的配準效果。Sloan等[30]利用CNN來回歸剛性變換參數(shù),證明了此方法在單模和多模圖像配準中的有效性,并且研究了添加逆一致性損失對預測參數(shù)準確性的影響。
2.2.2 有監(jiān)督學習的可變形圖像配準
有監(jiān)督學習的剛性圖像配準方法只能處理簡單的線性變換,對于復雜的非線性變換,需要采用可變形圖像配準的方法。Sokooti等[31]提出了一種有監(jiān)督的可變形圖像配準的網(wǎng)絡結構RegNet,利用CNN直接從一對輸入圖像中預測出位移矢量場(Displacement Vector Field,DVF),使用大量人工合成的光滑的DVF去訓練網(wǎng)絡。但是直接估計DVF無法保證變換是光滑且可逆的,為了更好地保證變換的微分同胚特性[32-33],Rohé等[34]提出了SVF-Net網(wǎng)絡。該網(wǎng)絡利用一個類似于U-Net[35]的全卷積網(wǎng)絡去估算一對圖像的平穩(wěn)速度場(Stationary Velocity Fields,SVF)[36],同樣將真實的SVF參數(shù)和預測的SVF參數(shù)之間的均方誤差作為損失函數(shù)去訓練網(wǎng)絡。接著,為了更好地預測具有大位移的DVF,Sokooti等[37]在RegNet[31]模型基礎上提出了多階段的有監(jiān)督可變形圖像配準方法。該網(wǎng)絡由RegNet4、RegNet2以及RegNet1網(wǎng)絡構成,3個RegNet網(wǎng)絡分成3個階段來逐級漸進地進行圖像配準,并生成最終的DVF。
雖然有監(jiān)督學習的直接配準方法取得一定的成功,但是這種方法嚴重依賴具有真實變換參數(shù)的標簽,具有以下3方面的局限性[2]:(1)人工模擬的變換可能無法反映真實數(shù)據(jù)的變換;(2)人工模擬的變換可能無法捕獲實際圖像配準場景中的大范圍形變;(3)訓練階段使用的通過人工模擬的變換參數(shù)生成的圖像對和在測試階段使用真實數(shù)據(jù)的圖像對不同。為了應對監(jiān)督學習的各種局限性,研究者們提出了無監(jiān)督學習的直接配準方法。
無監(jiān)督學習的直接配準方法的通用框架如圖3所示。根據(jù)網(wǎng)絡結構的不同,可以將無監(jiān)督學習的直接圖像配準分為基于編碼器-解碼器結構的無監(jiān)督圖像配準、基于多尺度和金字塔結構的無監(jiān)督圖像配準以及基于生成對抗網(wǎng)絡的無監(jiān)督圖像配準。
圖3 無監(jiān)督學習的直接配準方法通用框架
2.3.1 基于編碼器-解碼器結構的無監(jiān)督圖像配準
Balakrishnan等[38]提出了VoxelMorph無監(jiān)督的可變形圖像配準網(wǎng)絡,利用一個類似于U-Net[35]的編碼器-解碼器網(wǎng)絡結構,將生成的DVF作用在移動圖像生成形變圖像。損失函數(shù)除了形變圖像和參考圖像之間的相似性度量之外,還包括正則項,用來約束形變場,使得網(wǎng)絡能夠盡可能生成符合實際的形變場。
為了讓預測的形變場更加光滑,更好地保證變換的微分同胚特性[32-33]。Kuang等[39]提出了一個避免形變場發(fā)生折疊的新的正則項,即在原來的平滑度約束上,加入了對負的雅克比行列式進行懲罰的正則項,進一步提高了形變場的平滑性,同時又能夠盡可能減小配準準確度的損失。Zhang等[40]提出了一種逆一致性網(wǎng)絡ICNet來鼓勵一對圖像彼此對稱變形,從而保證一對圖像之間變換的逆一致性特性[41]。同時為了更好地避免形變場發(fā)生折疊,在原有的平滑度約束上,又添加了反折疊約束。另外Kim等[42]和Kuang等[43]都借鑒了CycleGan[44]中的循環(huán)一致性思想來實現(xiàn)圖像配準。通過循環(huán)一致性約束來更好地保證變換的微分同胚特性。
在解決大形變的圖像配準問題上,De等[45]提出了將仿射變換和可變形配準方法相結合的圖像配準網(wǎng)絡DLIR,其中仿射變換用來全局對齊,可變形配準用來局部對齊,在局部對齊中,采用由粗到細的方法,通過堆疊多個ConvNet網(wǎng)絡來細化形變場。接著,Zhao等[46]利用級聯(lián)遞歸網(wǎng)絡來實現(xiàn)無監(jiān)督的圖像配準,將一個大的形變通過級聯(lián)的方式分解為很多小的位移,每個級聯(lián)網(wǎng)絡只需要學習其中小的位移即可,這樣待配準圖像通過每個級聯(lián)網(wǎng)絡依次變形,最終對齊參考圖像。在配準準確率上要高于前面的VoxelMorph[38]模型,不過要增加模型的運行時間,得到的形變場也出現(xiàn)了一定程度的折疊,而且在級聯(lián)遞歸的過程中形變場折疊的程度會被放大。如何在提高配準準確度的同時,盡可能保持圖像的拓撲結構也是未來重要的研究方向。
2.3.2 基于多尺度和金字塔結構的無監(jiān)督圖像配準
Hu等[47]提出了雙流金字塔無監(jiān)督圖像配準模型Dual-PRNet,該模型通過預測出的金字塔形變場,來依次對不同尺度的特征圖進行變形。利用由粗到細的方式不斷細化形變場,使模型能夠很好地處理大形變的圖像配準問題。Zhou等[48]在此基礎上提出了金字塔剩余形變場估計模塊PRDFE,解決了Dual-PRNet[47]中存在的問題,讓網(wǎng)絡產(chǎn)生更加準確的形變場。Fechter等[49]提出了利用多尺度的方法來進行圖像配準,將3個不同分辨率的圖像分別輸入到3個不同的可變形配準網(wǎng)絡。每個網(wǎng)絡分別負責捕獲大、中等、小的形變,最后將這3個不同尺度的形變場相加得到最終的形變場。Liu等[50]提出了一種多尺度的微分同胚配準模型。給定一對圖像,通過三層CNN來提取不同尺度的特征,再通過深度傳播框架得到最終的形變場。
2.3.3 基于生成對抗網(wǎng)絡結構的無監(jiān)督圖像配準
Fan等[51]指出了無監(jiān)督的圖像配準中所用的傳統(tǒng)的相似性度量和圖像的性質(zhì)密切相關,在處理其它數(shù)據(jù)集時可能不適用。于是將生成對抗網(wǎng)絡[52]應用到圖像配準領域中來代替?zhèn)鹘y(tǒng)的相似性度量。利用生成對抗網(wǎng)絡中鑒別網(wǎng)絡代替?zhèn)鹘y(tǒng)的相似性度量,來鑒別圖像是否對齊良好,使其能夠自動學習圖像對的相似性度量,并在訓練過程中將相似性信息提供給配準網(wǎng)絡。配準網(wǎng)絡和判別網(wǎng)絡通過對抗訓練的方式進行學習。Li等[53]在Fan等[51]的基礎上,將多分辨率損失引入其中,使得鑒別器需要判斷高、低和中等尺度下的相似度。Lei等[54]通過額外引入一個對抗損失來約束形變場,使生成的形變場更加符合實際。
無監(jiān)督學習的直接配準方法在單模圖像中已經(jīng)取得很大的成功,但是處理多模圖像的配準卻有很多困難。因為不同模態(tài)的外觀差異很大,直接通過多模圖像之間的相似度損失去訓練網(wǎng)絡效率低下[11]。為了解決這個問題,Hu[55]等人通過標簽驅(qū)動的弱監(jiān)督圖像配準方法來處理多模態(tài)的圖像配準。Zhang[56]利用對抗學習的方法將多模圖像轉(zhuǎn)換為單模圖像,并且首次引入了梯度損失,可以有效地解決大形變、噪聲和模糊的多模圖像配準。
本文系統(tǒng)地介紹了基于深度學習的圖像配準方法?;仡櫫藗鹘y(tǒng)圖像配準方法并指出其存在的問題,并闡述了基于深度學習的圖像配準方法如何突破傳統(tǒng)圖像配準方法的局限性。重點對基于特征的組合配準方法、有監(jiān)督學習的直接配準方法以及無監(jiān)督學習的直接配準方法進行了綜述。
目前,基于深度學習的圖像配準方法雖然取得了較大的進步和發(fā)展,但是也面臨很多挑戰(zhàn)。一方面需要解決在訓練數(shù)據(jù)集小的情況下,如何更好地訓練網(wǎng)絡;另外一方面,需要思考如何在提高大形變的圖像配準的準確率的同時,更好地保持圖像的拓撲結構,即如何利用基于深度學習的微分同胚模型來解決大位移的可變形圖像配準。此外,如何在具有復雜形變的圖像配準條件下,進一步降低深度模型的復雜度,使得模型運行速度更快,以滿足現(xiàn)實應用中實時的需求,以及如何更好地處理具有噪聲、遮擋以及部分缺失的圖像數(shù)據(jù)的配準問題都是較大的挑戰(zhàn)。