郭銀景,馬新瑞,許越鋮,孔 芳,呂文紅
1.山東科技大學 電子信息工程學院,山東 青島 266590
2.青島智海牧洋有限公司,山東 青島 266590
3.山東科技大學 交通學院,山東 青島 266590
近年來,光學相機和成像聲吶被大規(guī)模應用于水下目標探測[1]、海底地形重構(gòu)[2]、考古發(fā)掘[3]、環(huán)境監(jiān)測等[4]科學研究活動。
光學相機感知反饋迅速,在水下基于透視原理利用目標反射或散射自然光源和人工光源中的可見光波段繪制成像,生成圖像能充分反映水下環(huán)境真實的顏色、亮度、紋理結(jié)構(gòu)等有效視覺信息,但其工作視程依賴于光照強度,因此在深?;驕啙崴蚱涔ぷ餍阅軙艿絿栏裣拗芠5]。聲波在渾濁的水質(zhì)中具有穩(wěn)定的傳播特性[6],聲吶圖像反映了不同目標物的距離向和方位向差異[7],但是水下存在大量的不規(guī)則環(huán)境噪聲、自噪聲和混響會干擾聲吶接收陣列的解碼,導致水下聲吶圖像普遍存在散斑噪聲嚴重、目標輪廓模糊、畸變嚴重等缺陷[8]。根據(jù)對光聲兩類不同傳感器的成像設(shè)備進行對比,總結(jié)出各自的優(yōu)缺點和應用場景,如表1所示。
表1 光學圖像與聲學圖像優(yōu)缺點及應用的對比表Table 1 Comparison of advantages,disadvantages and applications of optical and acoustic images
通過表1中的對比,由于光在水下的傳播特性導致信號衰減,超過一定距離目標光束根本無法到達,影響實際的光學成像效果;聲波雖然傳播距離遠,但噪聲會隨著傳播距離的提升而不斷累計,使得聲吶圖像在細節(jié)質(zhì)量方面遠不如光學圖像,因此通過光聲融合技術(shù)提取更為可靠、全面、精確的信息,實現(xiàn)兩者的優(yōu)勢互補,可以充分緩解各自成像的局限性。
圖像配準是水下光聲圖像融合的核心步驟,包括時間和空間配準。時間配準就是統(tǒng)一兩傳感器的時間戳,構(gòu)建時間同步體系,減少兩傳感器由于時間差造成水下導航等設(shè)備出現(xiàn)目標跟蹤錯亂、軌跡中斷等現(xiàn)象[9]。空間圖像配準為不同視點、不同時間的光聲傳感器捕獲的同一場景的多幅圖像建立幾何對應關(guān)系,旨在通過空間幾何變換,使光聲圖像內(nèi)的重疊區(qū)域信息實現(xiàn)最高程度匹配[10]。由于光學相機和聲吶在采集水下目標信息時存在視差,容易受到外界洋流等干擾,造成光聲兩類異源圖像在分辨率、旋轉(zhuǎn)角度、灰度屬性等方面存在顯著差異[11],但其仍保留很多可以用于配準的標志性特征,例如礁石、沉船、地勢、生物、海底建筑物等,這些水下特征在不同的成像模式均能保持穩(wěn)定,使得實現(xiàn)光聲圖像間的配準變換成為可能。在現(xiàn)有的研究基礎(chǔ)上,本文對水下光聲圖像匹配算法的發(fā)展應用進行綜述,闡述了各算法的優(yōu)缺點以及相關(guān)改進算法。
在進行聲光圖像配準與融合前,對兩類圖像分別進行預處理以增強圖像有效信息的可檢測性和簡化數(shù)據(jù)量是必要的。
不同水域拍攝的水下光學圖像模糊程度和色偏各不相同,因此需要有效的圖像重建方案來校正顏色,提高清晰度,解決模糊和背景散射的問題。傳統(tǒng)單一的圖像重建方案往往會由于光譜分布不均,導致部分區(qū)域重建效果不佳,通過組合多種重建算法的優(yōu)點能達到更佳的處理效果。針對水下光學圖像的低對比度,Zhou等[12]在Jaffe-McGlamery水下光學成像模型的基礎(chǔ)上增加閾值直方圖和小波變換,恢復色彩和細節(jié)的同時,多頻帶融合還增加了水下圖像的對比度。渾濁水域中的微生物和雜質(zhì)繁多,導致水下圖像的藍綠色霧狀噪聲冗雜,暗通道先驗技術(shù)可以有效去除圖像的霧氣,但是該類算法在圖像嚴重失真和亮度變化較大時,像素估計的準確性會明顯下降,因此Zhang等[13]提出色彩補償以高適應性恢復色彩失真,并增加非局部去霧化算法降低霧霾效應的影響。但是該算法在低光照條件下,色彩和對比度恢復效果不好,Zhou等[14]充分利用白平衡、引導濾波和多曝光序列技術(shù),增強了暗區(qū)的亮度和結(jié)構(gòu)細節(jié)。從上述文章中可以看出,盡管水下圖像增強與恢復方法已經(jīng)趨向于多元化的組合,但目前仍然沒有一種固定搭配可以有效地應用于從不同環(huán)境、深度或場景捕獲的水下影像重建,因此水下光學圖像重建方案的適應性和魯棒性仍有待提高。
水下聲學圖像噪聲一般可分為混響噪聲、環(huán)境噪聲和白噪聲,常用的去噪方法如表2所示。與光學圖像相比,聲吶圖像信噪比更低,且在目標識別應用中主要取決于圖像的邊緣形狀信息,因此,提升邊緣銳化效果是聲吶圖像細節(jié)增強的主流方向。Priyadharsini等[29]和Muthuraman等[30]將像素插值技術(shù)應用于聲像的對比度增強,但這些像素的填充會引入許多偽影,造成邊緣模糊。基于傳統(tǒng)變換域的增強算法能有效抑制噪聲,Yoon等[31]提出了一種基于曲線波變換的聲吶圖像邊緣增強方法,根據(jù)邊緣的特征信息進行選擇性銳化,但只能獲取有限的邊緣方向,無法對連續(xù)邊緣進行有效分辨。在上述基礎(chǔ)上,基于水下成像模型的算法取得了良好的增強與恢復效果,Shi等[32]基于最優(yōu)分區(qū)提出一種改進的暗通道圖像增強算法,在良好的紋理基礎(chǔ)上,增強的聲像圖灰度分布更均勻,邊界細節(jié)更清晰。上述的暗通道圖像處理方案最初是在成像模型的基礎(chǔ)上利用先驗知識對光學圖像做復原與重建,雖然聲學圖像預處理在光學圖像的基礎(chǔ)上做延伸與改進并取得了良好的效果,但影響聲學圖像質(zhì)量的水聲信道、信號強度等成像模型的本質(zhì)因素與光學成像模型(照明條件、物體反射特征、水介質(zhì)等)并不相同,因此算法移植不僅要考慮噪聲分布、圖像退化,還要考慮由成像模型帶來的多徑效應和幾何輻射畸變。
表2 聲學圖像去噪典型算法Table 2 Typical algorithms for acoustic image denoising
水下高分辨率聲學圖像信息的采集常用前視聲吶(forward looking sonar,F(xiàn)LS)、側(cè)掃聲吶(side-scan sonar,SSS)、合成孔徑聲吶(synthetic aperture sonar,SAS)、三維成像聲吶等高頻成像聲吶系統(tǒng),水下光學信息的采集則主要通過單目/雙目光學攝像頭、激光掃描成像儀等生成光學二維圖像。聲吶對目標點的成像主要表征為返回脈沖的不同傳播時間及脈沖幅度,而光學圖像能反映水下環(huán)境真實的顏色和亮度信息,通常與周圍環(huán)境有顯著的區(qū)別。通過聯(lián)系兩類圖像特征的相關(guān)性,可以經(jīng)過圖像配準進而實現(xiàn)水下異源圖像融合。
基于空域的異源圖像配準已發(fā)展多年,而水域的光聲圖像配準由于環(huán)境、成本等限制尚處于發(fā)展初期,主要用于水下目標物的檢測,真正投入考古發(fā)掘、海底測繪、資源勘探使用的項目不多。圖1為雙目攝像機和Tritech Micron型FLS分別對同一區(qū)域生成的水下光聲圖像對[33],從中可以看出同一目標物在不同成像分辨率下有不同的表現(xiàn)形式。圖1(a)(b)(c)中,獲得的聲學圖像與光學圖像中的目標對象外形特征能穩(wěn)定存在,且周圍干擾目標少,能成功實現(xiàn)光聲圖像對的匹配;而圖1(d)目標物為石頭,形狀特征不夠明顯,且周圍存在許多相似物體,再加上水下圖像固有的噪聲、偽影等缺陷導致配準失敗。從圖1中可以看出,異源圖像對的灰度特性差異較大,為了增大光聲圖像的配準精度,則必須選取穩(wěn)定一致的幾何區(qū)域。
圖1 基于互相關(guān)的水下光聲圖像匹配Fig.1 Underwater opti-acoustic image matching based on cross-correlation
圖2顯示了水下SAS圖像與光學圖像基于經(jīng)典空域SIFT算法得到的匹配結(jié)果[34]??梢杂^察到,由于水的高濁度和海床對聲波的反向散射分別模糊了光學相機和SAS圖像中圓柱形物體的外觀形狀,導致在光學圖像上檢測到的許多描述符在SAS圖像上沒有正確匹配。因此,來自光學圖像和聲吶圖像的數(shù)據(jù)配準需要一種多模態(tài)檢測方法。
圖2 對SAS-光學圖像中的圓柱形物體做特征匹配Fig.2 Feature matching of cylindrical objects in SAS-optical images
此外,研究學者常用配準測度來度量水下光聲圖像的配準精度與穩(wěn)定性。假設(shè)I1(?)和I2(?)分別表示光學圖像和聲學圖像的強度值,則配準測度可表示為:
在式(1)中,C為配準測度,T為待配準圖像與參考圖像之間的空間變換,Θ*為變換模型的最佳參數(shù)。近年來,研究者們?yōu)榱藘?yōu)化水下光聲圖像配準測度的結(jié)果,提出了大量光聲圖像配準算法,主要分為基于區(qū)域和基于特征的配準方案。本文接下來將按照圖3所示框架介紹水下光聲圖像的配準現(xiàn)狀。
圖3 水下光聲圖像配準算法總結(jié)Fig.3 Summary of underwater opti-acoustic image registration algorithms
基于區(qū)域的配準主要包含基于圖像域和基于頻域兩類處理方法,利用光聲兩幅圖像的灰度統(tǒng)計信息,構(gòu)建配準測度函數(shù)(相似性測度或差異性測度),通過搜索其最優(yōu)化全局參數(shù)來得到空間變換模型[35],從而實現(xiàn)兩幅圖像在空間幾何上達成一致。如圖4所示,是基于區(qū)域的一般配準流程。
圖4 基于區(qū)域的圖像配準流程Fig.4 Area-based image registration
基于圖像域的圖像配準方法是通過處理整個原始圖像的強度值來計算像素對之間的相關(guān)性,所以計算量和復雜度普遍較高。
Majumder[36-38]團隊首次按照圖像配準的標準流程完整實現(xiàn)了水下多模態(tài)圖像之間的配準,主要方法是從水下光學圖片中提取八個窗口模板不斷搜索聲學最佳匹配圖,從而生成自主水下航行器(autonomous underwater vehicle,AUV)位置估計結(jié)果。該團隊設(shè)計的AUV位置估計框架,使用透視變換和搜索匹配的方法進行同名點識別,雖然配準結(jié)果可靠,但高維的幾何變換模型,導致計算復雜度和計算量明顯增加。透視變換涉及圖像的多維度轉(zhuǎn)換,復雜度較高,Bianco等[39]則通過剛性變換將聲學3D點云與光學對應目標匹配,并使用迭代最小二乘法的優(yōu)化策略來減少計算量,實現(xiàn)了自主集成的水下三維場景重建。遍歷式的搜索匹配算法雖然原理簡單準確率高,但計算量隨搜索空間的增大呈幾何式增長,因此需要合適的優(yōu)化算法降低計算復雜度,即全局搜索能力應與匹配算法相關(guān)聯(lián),做到快速與準確并行。
水下環(huán)境復雜多變,無人潛航器的運動規(guī)劃需要精細的水下結(jié)構(gòu)化信息源,以提高對水下障礙物的躲避精度,減少潛在危險與經(jīng)濟損失。2020年,Liu等[33]設(shè)計了一種基于區(qū)域的高斯尺度空間和相關(guān)濾波器的特殊匹配算法,高斯尺度空間構(gòu)建的多尺度圖像能減少比例誤差,而互相關(guān)可以消除由于水下環(huán)境和視角變化而引起成像缺陷和變形問題。然而空間域的互相關(guān)矩陣通常產(chǎn)生寬峰值,定位精度較差,只能實現(xiàn)宏觀匹配,缺乏局部匹配的細節(jié)特征,因此應用于AUV自主導航中有一定的局限性。為了減少細節(jié)損失,在此基礎(chǔ)上該團隊[40]又提出了一種基于梯度上升計算的迭代增強圖像預處理算法,提高有效信息的比例的同時提高匹配精度。因此,基于互相關(guān)的聲光圖像匹配精度對源數(shù)據(jù)質(zhì)量要求很高。以水下聲吶圖像舉例,聲波的散射效應以及次級聲源的混響噪聲使得水下噪聲模型不易建立,微小的邊緣波動就可能導致相關(guān)運算不能清楚辨認結(jié)果峰值,即對噪聲和灰度屬性差異較大的異源圖像缺乏魯棒性。
互信息是利用概率密度函數(shù)來比較兩幅圖像的統(tǒng)計依賴性,但后續(xù)的插值假象會使配準陷入局部極值。Song等[41]對充滿斑點噪聲的聲吶圖像通過局部搜索策略尋求互信息的最大值,并使用鮑威爾方法加快收斂速度防止陷入局部最小值,但參數(shù)化的概率密度模型常需要復雜的計算量,而且圖像之間必須存在較大的重疊區(qū)域。在實際應用中為了解決圖像間的旋轉(zhuǎn)和縮放問題,常常需要建立多個方向和尺度模型,進而也會拖慢識別匹配進度。因此基于互相關(guān)和互信息的聲光圖像配準不僅需要對圖像做基于成像模型的濾波處理,而且要做搜索匹配算法的優(yōu)化處理,并加入結(jié)構(gòu)信息作為相似性輔助,以提升基于互相關(guān)和互信息類方法的匹配性能。
現(xiàn)在也有一些商業(yè)軟件包用于簡化數(shù)據(jù)配準過程,例如HYYPACK[42]、Matrox Image library、CogPMAlign-Tool、eVision等通過捕獲圖像特征執(zhí)行指定模板搜索算法做圖像匹配,但這些只能適用于輪廓結(jié)構(gòu)清晰的同源圖像配準,并不適用于圖像結(jié)構(gòu)與質(zhì)量均存在問題的水下聲光圖像配準。
上述圖像域的配準方法依賴于水下光聲圖像的梯度特征,而聲波對海床的強烈反射、渾濁水體引起的光學成像模糊、不統(tǒng)一的分辨率造成了光聲圖像間幾何結(jié)構(gòu)的劇烈差異,因此基于空間域的水下光聲圖像配準成果較少。
針對水域中的同源影像匹配,有學者提出利用變換圖像的全部頻域信息來最小化配準圖像由于光照變化、背景雜波和遮擋等噪聲導致的模糊性。Hurtós等[43]首次將傅里葉變換用于FLS圖像的拼接,提出在進行快速傅里葉變換之前,縮小圖像邊界的掩膜并于幅度譜上增加漢明窗,減少邊界效應的影響。Saxena等[44]應用小波變換多尺度分解聲吶圖像,并添加改進的粒子群優(yōu)化算法和鮑威爾算法做最優(yōu)變換參數(shù)的全局搜索,雖然降低了匹配誤差和局部極值等問題,但也增加了數(shù)倍的搜索時間。Zhang等[45]基于灰度的序貫相似性檢測算法和小波變換應用于海底地形圖的繪制,在模板尺寸足夠大的基礎(chǔ)上相對于歸一化互相關(guān)算法降低了配準時間。雖然在上述案例中基于傅里葉變換等方式實現(xiàn)了水下同源影像配準,但光聲圖像經(jīng)頻域變換得到的幅值變化反映的整體灰度信息差異性較大,不同圖像間的模值可能相同,造成假目標干擾。因此僅使用變換域的頻譜幅值特征很難對灰度和結(jié)構(gòu)差異較大的異源圖像實現(xiàn)高精度的配準效果。
目前利用異源圖像結(jié)構(gòu)的一致性表達,尤其是在頻域中應用結(jié)構(gòu)相似性表現(xiàn)出良好的效果,多集中在雷達[46]、紅外[47]、醫(yī)學[48]等領(lǐng)域多模態(tài)圖像匹配研究中,其中相位一致性(phase congruency,PC)模型是目前研究發(fā)展較為突出的算法。通過探求傅里葉分量中相位最為一致的點作為圖像特征點,從而降低異源圖像由于非線性輻射和散斑噪聲帶來的影響。文獻[49]在已提取的紅外圖像的PC特征中心點建立基準窗口,并將可見光圖像窗口塊進行模板搜索匹配,聯(lián)合互信息與PC提取的邊緣信息計算窗口相似度從而獲取紅外與雙目攝像頭的時差信息。PC更多是用于提取穩(wěn)定的輪廓特征,再添加傳統(tǒng)特征描述符從而實現(xiàn)更為穩(wěn)定的異源圖像配準。Fan等[50]分組構(gòu)建基于局部結(jié)構(gòu)的PC描述符并對圖像結(jié)構(gòu)進行編碼,降低了合成孔徑雷達(synthetic aperture radar,SAR)圖像和光學圖像由于幾何差異和強度變化帶來的配準誤差。Li等[51]通過改變Log-Gabor濾波器的最小波長構(gòu)建PC非線性尺度空間,捕獲圖像局部區(qū)域的紋理特征,且能抑制不同頻率的散斑噪聲。針對光照、對比度差異和非線性輻射畸變等在空域異源影像配準造成的困難,以上基于PC的頻譜信息實現(xiàn)了異源影像的穩(wěn)健匹配,同時此類算法也為水下光聲圖像匹配提供了良好思路。
基于特征的配準算法常用于結(jié)構(gòu)信息比強度信息更為重要的場景,能夠配準完全不同性質(zhì)的圖像,而且允許兩圖像在形狀特征相似度和空間關(guān)系中建立對應關(guān)系,具有較好的適應性和不變性,對圖像間的灰度差異、旋轉(zhuǎn)和尺度變化等具有很強的魯棒性,因此該算法被廣泛應用于水下光聲圖像拼接和融合等領(lǐng)域。最早使用特征探索光聲配準的人是Funk[52],通過手動識別光學-強度數(shù)據(jù)和聲學-深度數(shù)據(jù)相對應的特征點,并使用有限元圖像變換,得到二者簡單融合的3D圖像。Moroni等[53]使用側(cè)掃聲吶和兩個水下攝像機搭建而成的立體視覺系統(tǒng),將每個像素點分為強度、海拔、表面和幾何等四個分量進行聯(lián)合表征,依據(jù)這些特征分量以檢測跟它有很強相似性的所有像素點。該方法強調(diào)幾何特征對應,也是在基于區(qū)域的配準方法衍生而來的早期基于特征配準算法。基于特征的光聲圖像配準過程如圖5所示。
圖5 基于特征的圖像配準流程Fig.5 Feature-based image registration
水下光學圖像顏色及紋理明顯,而且受光線影響明暗變化劇烈,亮度特征顯著,經(jīng)圖像預處理后,常規(guī)目標檢測算法均適用。而水下聲吶圖像通常分辨率較低,而且噪點繁多,若使用關(guān)鍵點提取目標特征則容易造成誤匹配,因此聲吶圖像一般注重輪廓邊緣和區(qū)域的檢測。表3是基于文獻[54]擴展的關(guān)于水下圖像常用局部幾何特征檢測器。
表3 空域局部幾何特征檢測算法Table 3 Local geometric feature detection algorithms in spatial domain
水下光學圖像和高分辨率聲吶圖像反映的目標物具有很強的幾何區(qū)分性,因此衍生了眾多有效的光聲圖像匹配算法,現(xiàn)在應用比較廣泛的是基于特征描述符的圖像配準方法,可以在不知初始條件的情況下快速估算出一個轉(zhuǎn)換矩陣[55]。SIFT和SURF算法基于其旋轉(zhuǎn)和尺度不變性以及特征匹配的穩(wěn)定性,是目前應用和改進最多的水下圖像匹配算法。SIFT特征匹配算法主要包含尺度空間關(guān)鍵點定位、特征點的方向確定,特征描述符生成和特征匹配,其具體步驟如下所示:
(1)將不同尺度的圖像構(gòu)成高斯尺度空間,并在高斯差分金字塔中進行局部極值點的提取,如圖6。
圖6 SIFT算法生成高斯尺度空間Fig.6 Generating Gaussian scale space of SIFT algorithm
(2)將關(guān)鍵點圓形鄰域的全部像素點按照式(2)計算梯度幅值和方向,根據(jù)梯度方向統(tǒng)計出直方圖,選取梯度方向的峰值代表作為關(guān)鍵點方向;
(3)SIFT特征描述符是關(guān)鍵點在高斯尺度圖像16×16鄰域內(nèi)的梯度統(tǒng)計結(jié)果,通過對關(guān)鍵點周圍圖像區(qū)域分塊,計算塊內(nèi)梯度直方圖,生成該特征點的向量表征。
(4)通過計算兩類特征描述符之間的相似性度量完成特征點的匹配。
SURF算法是SIFT算法的變種,基本步驟類似,不同點在于SURF由Hesseian矩陣的行列式值作特征點檢測器,通過計算特征點周圍像素的水平和豎直方向的Haar小波變換,選其向量的最大值作為特征點方向。而且SURF的描述子是基于2D離散小波變換的響應,因此SURF算法對于圖像對的亮度變化有良好的匹配效果。
2015年,Negahdaripour[56]團隊在設(shè)計的多模態(tài)立體成像系統(tǒng)中,通過SURF算法匹配提取的光聲圖像輪廓結(jié)構(gòu)特征,但是自動匹配效果不足以生成密集的三維場景表示。Spears等[57]在定位南極水下冰山系統(tǒng)時,利用SIFT算法將實時視頻流和聲吶數(shù)據(jù)流中檢測到的目標與數(shù)據(jù)庫中的已知地標進行匹配,實現(xiàn)了在低對比度和低能見度的冰下環(huán)境的目標檢測與匹配。根據(jù)應用場景的先驗知識,Huang等[58]對SIFT提取的特征點進行過濾,通過計算歐幾里德距離和漢明距離之差的最值點作為特征點的匹配準則。Tang等[59]將水下探測設(shè)備在兩圖像間的運動傾角作為約束條件篩選特征對,在L2范數(shù)的基礎(chǔ)上增加角度閾值進一步優(yōu)化了特征匹配的結(jié)果。文獻[60]提出了一種基于檢測前跟蹤(track-beforedetect,TBD)的SIFT特征追蹤方法,根據(jù)圖像序列中特征軌跡的連續(xù)性和一致性識別目標特征。Zhang等[61]針對多波束聲吶噪聲的威布爾分布特性,將傳統(tǒng)SIFT算法中的差分梯度改為比率梯度以獲取對噪聲具有魯棒性的梯度直方圖。文獻[62]構(gòu)建了不同介質(zhì)間相對折射率的約束模型來減小圖像匹配過程中的搜索區(qū)域,提高匹配效率。雖然SURF算法比SIFT的計算速度提高了一個數(shù)量級,但也只適用于對實時性要求不高的場景,為了解決這種缺陷,可以從加快搜索速度(鮑威爾、布倫特、粒子群等)、增加約束模型(對極幾何等)以減少搜索區(qū)域兩個方面優(yōu)化。
以上大量基于SIFT和SURF的配準方案顯示了其在水下聲光融合應用中表現(xiàn)的良好性能,但是對于紋理和邊緣模糊的低質(zhì)量水下圖像,尤其是聲光目標特征間的比例、旋轉(zhuǎn)、對比度均存在較大差異,這會大大降低計算速度和配準精度。在雷達與光學圖像的配準案例中,Hao等[63]利用場景形狀相似性特征作為描述符,Zhu等[64]則通過兩類圖像間的定向梯度構(gòu)建結(jié)構(gòu)特征描述符,解決兩類圖像間的非線性變換,即通過全局一致性檢查能有效消除圖像之間的比例和旋轉(zhuǎn)差異??沼蛑械亩嗄B(tài)圖像配準發(fā)展較為迅速,暴露的問題、注意事項、解決方案等較多,是水下光聲圖像配準借鑒的有效途徑。
因為SIFT和SURF算法需要建立高維描述符,從而需要大量的內(nèi)存空間和較長的操作時間,而且高斯尺度分解模糊了局部特征精度,因此文獻[65-66]在水下三維立體重建時選擇利用各向異性擴散濾波器提取非線性尺度空間的A-KAZE算法來確定圖像對的關(guān)鍵點,在后續(xù)的拼接步驟也解決了高斯擴展濾波引起的邊界模糊和細節(jié)損失等問題,提高了特征匹配質(zhì)量,快速顯示擴散(fast explicit diffusion,F(xiàn)ED)的加入也使得空間構(gòu)建時間大大縮減。2016年,GWON[67]針對水下光聲傳感器模型的視圖差異提出了光束平差法,估計光聲模型具有時差的相對運動,且通過次近鄰匹配DASC、SIFT、BRISK、A-KAZE四種特征描述符,綜合測試結(jié)果顯示僅使用傳統(tǒng)的特征描述符來進行異源圖像對的特征匹配,效果并不理想。為了克服傳感器的不同成像模型和分辨率的問題,Abu等[34]基于SAS-光學圖像對提出了基于輪廓的熵角和局部曲線擬合特征的雙重描述符,角度的熵表征了物體幾何形狀的分布,因此可以指示物體輪廓線的平滑度;局部曲線的多項式函數(shù)則可擬合目標對象的形狀特征,從而有效區(qū)分人造和自然物體。2020年,Li等[68]將提取的聲視覺特征區(qū)域送入無監(jiān)督配準網(wǎng)絡進行多尺度變形,但兩異源圖像之間的配準缺乏紋理信息,而且像素之間存在回歸誤差,因此需要設(shè)計合理的損失函數(shù)判斷配準的準確度。文獻[69]關(guān)注光聲設(shè)備切換時產(chǎn)生的目標丟失問題,采用了一種基于改進的Hausdorff距離集合匹配算法,減少由于噪聲干擾和遮擋等情況引起誤匹配的可能性。以上關(guān)于常用空間信息特征描述符的優(yōu)缺點對比如表4所示。
表4 常用空間信息特征描述符對比Table 4 Comparison of common spatial information feature description
水下聲學影像和光學影像由于不同的成像機制使得兩類數(shù)據(jù)之間存在顯著的幾何變形和輻射失真,這也是目前多模態(tài)圖像匹配的瓶頸問題。在空域中解決多模態(tài)圖像間非線性失真的典型描述符有基于相位一致性的HOPC[70]和基于局部自相似性的DLSS[71],文獻[72]利用SAR與光學圖像的定向梯度信息構(gòu)建幾何結(jié)構(gòu)特征描述符,以相位相關(guān)性作為相似性度量,對非線性輻射差異具有較高的魯棒性,但其多尺度和方向性計算常需占用大量的計算空間;Xiong等[73]在DLSS的基礎(chǔ)上建立基于秩的局部自相似性特征描述符,但其可辨別性較差,即不具備可靠的匹配性能。雖然上述處理非線性輻射的方案是基于雷達等多模態(tài)圖像提出的,但水下光聲圖像的配準更應考慮其灰度差異和幾何畸變。
歐幾里德距離、Hausdorff距離、Lp范數(shù)、次近鄰、交叉熵損失函數(shù)、余弦相似性等測量準則,僅是特征描述符描述匹配特征點對之間差異性的參考,不能作為評判兩特征對是否為同一目標的原則,因此難免出現(xiàn)錯誤匹配。為提高后續(xù)圖像拼接、融合等操作的魯棒性,需要約束條件去除誤匹配點。隨機抽樣一致性(random sample consensus,RANSAC)算法通過采樣和反復驗證的方法確定最優(yōu)的數(shù)學模型,對樣本數(shù)據(jù)集有較強的勘誤能力而且具備很強的魯棒性,是水下圖像匹配中最常見的用于剔除誤匹配點的方式。
Zhang等[74]采用SIFT算法提取參考和感測圖像的特征點,并基于KNN和RANSAC做粗匹配以及優(yōu)化。Yang等[75]在SURF特征檢測的基礎(chǔ)上搭配極坐標指數(shù)變換矩(polar coordinate exponential transformation,PCET)構(gòu)造區(qū)域特征描述符,圖像像素的離散性會造成PCET矩計算的誤差,使用RANSAC消除誤匹配點以獲得正確的變換參數(shù)。RANSAC算法根據(jù)經(jīng)驗設(shè)置迭代次數(shù),應用于匹配度低的圖像對時耗費大量時間,文獻[76-77]均通過剔除匹配點對之間距離過大的異常值來減小觀測數(shù)據(jù)范圍,從而減少整體迭代次數(shù),提高內(nèi)點比例。除了RANSAC算法,還可以將空間結(jié)構(gòu)信息納入水下圖像匹配。Machado等[78]提出了圖變換匹配(graph transformation matching,GTM)算法,根據(jù)模板圖像與待匹配圖像特征點之間一對一的匹配關(guān)系構(gòu)建一個KNN圖,設(shè)定誤差準則判斷圖結(jié)構(gòu)的相似度,從而達到刪除誤匹配點的目的。Huang等[79]將已分割的聲吶圖像根據(jù)高斯概率函數(shù)構(gòu)建二部圖,若兩頂點的位置與其相鄰邊緣信息之間的相似度小于預定參數(shù),則被標定為不可靠以解決匹配區(qū)域?qū)Φ钠缌x問題?;谳喞卣髅枋龇膱D像匹配算法是目前的主流方案,但水下聲光圖像的分辨率、觀測角度、樣本分布、物理含義的不同易對配準結(jié)果造成影響。而且RANSAC是在初始匹配候選集中剔除某些特征點對,GTM也是基于局部結(jié)構(gòu)的相似性出發(fā),求解復雜度較高,因此針對光聲圖像內(nèi)目標的輪廓特征相似性,增加全局約束信息,有助于處理存在較大視覺差異的水下光聲圖像對。
基于傳統(tǒng)特征描述符的水下聲光圖像配準,提取的特征表達具有局限性,缺乏高級語義特征,導致泛化能力弱,對一定的任務具有針對性和局限性。隨著水下探測器分辨率越來越高,水下三維重構(gòu)等任務需要的數(shù)據(jù)量也會加倍增長,但上述基于特征的匹配過程普遍耗時較多,因此還不能滿足配準任務的實時性需求。
RANSAC算法原理如下:
Input:數(shù)據(jù)集S
Output:內(nèi)點集S1,模型參數(shù)H
注:ω是某一樣本點為內(nèi)點的概率
While迭代次數(shù) do 隨機選取4對特征點對,根據(jù)式(3)計算單應性變換矩陣H中的所有參數(shù): 將數(shù)據(jù)集S中的剩余數(shù)據(jù)全部帶入上述模型逐一檢驗確定計算誤差 根據(jù)設(shè)定的誤差閾值篩選初始內(nèi)點集,并記錄矩陣參數(shù) 根據(jù)初始內(nèi)點集重新估計模型以期找到最大的內(nèi)點比例數(shù)據(jù)集S1 end while 利用找到的最大內(nèi)點數(shù)據(jù)集S1計算模型參數(shù)H 近年來隨著運算能力和數(shù)據(jù)量的提升,深度學習被廣泛應用于水下二維圖像的匹配任務中。2019年,Santos等人[80-82]首次使用衛(wèi)星和聲吶的融合信息作為AUV在碼頭、港口等結(jié)構(gòu)化場景中水下導航的信息源,將聲吶的灰度圖像與航空的二值圖像的相關(guān)區(qū)域通過卷積神經(jīng)網(wǎng)絡進行比較,并通過全連接層輸出在衛(wèi)星圖像上匹配聲像圖的概率。與上述匹配像素級的特征信息方法不同的是,深度學習類方案通過驅(qū)動多層卷積神經(jīng)網(wǎng)絡提取到圖像結(jié)構(gòu)、紋理甚至語義等各個層級的深度特征,構(gòu)建損失函數(shù)對兩幅圖像進行特征相似性測度,能更好地完成異源影像之間的非線性估計,達到優(yōu)異的配準效果[83]。根據(jù)是否直接從水下光學和聲學圖像中提取待匹配特征,即圖像對在放入網(wǎng)絡之前是否存在預處理階段,可將基于深度學習的光聲圖像配準方法分為特征描述符學習和風格遷移兩大類。 在特征描述符學習的深度神經(jīng)網(wǎng)絡配準方法中孿生網(wǎng)絡及其改進算法是主流網(wǎng)絡框架,通過從局部區(qū)域?qū)χ刑崛√卣鳎⒏鶕?jù)特征向量間的度量學習確定圖像塊之間的相似性。文獻[84-85]使用孿生網(wǎng)絡為核心的特征相似性對比模型,以解決非線性強度聲吶圖像的匹配問題,但該模型僅適用于發(fā)生平移變化的異源聲吶圖像,無法對具有旋轉(zhuǎn)、尺度變化以及異源圖像產(chǎn)生良好效果。Qi等[86]提出一種具有孿生結(jié)構(gòu)和相關(guān)特征匹配模塊的水下圖像協(xié)同增強網(wǎng)絡,5層卷積層步幅為1的結(jié)構(gòu)減少了空間準確度損失,并添加語義和低層特征匹配塊對孿生網(wǎng)絡兩分支的協(xié)同特征進行重組和連接,提高了數(shù)據(jù)驅(qū)動方法的視覺性能,但水下圖像的質(zhì)量直接影響匹配精度,需要引入校正策略。與孿生網(wǎng)絡的分支處理不同,Toro等[87]利用的雙通道結(jié)構(gòu)[88]將兩待匹配圖像塊合并為雙通道圖像直接饋送到神經(jīng)網(wǎng)絡的卷積層,交叉熵作為網(wǎng)絡損失進行優(yōu)化以及決策網(wǎng)絡中的單一全連接層使得該結(jié)構(gòu)具有更強的靈活性。Fang等[89]將SAR和光學圖像的特征圖通過快速傅里葉變換進行交叉相關(guān),將得到的特征相似性概率圖進行分類以確定最佳匹配。全局信息的充分利用不僅增加了匹配精度和魯棒性,而且快速傅里葉變換的互相關(guān)大大提高了訓練效率。 孿生網(wǎng)絡可以避免輸入圖像的相互干擾并保持其結(jié)構(gòu)相似性,進而做比較學習,因此作為深度學習的一部分,數(shù)據(jù)集是關(guān)鍵。水下光學圖像采集方便且高效,但高分辨率成像聲吶由于其高昂的成本,缺乏公開和統(tǒng)一的光聲圖像數(shù)據(jù)集,因此孿生網(wǎng)絡做圖像匹配的泛化訓練極為受限。典型卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)對比如圖7。 圖7 典型卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)對比Fig.7 Comparison of typical convolutional neural network structures 風格遷移類的異源圖像配準是通過風格遷移算法將待匹配圖像實現(xiàn)模態(tài)統(tǒng)一后再利用傳統(tǒng)基于特征和強度的方法進行匹配,文獻[90]提取同風格的雷達與光學圖像的邊緣不變特征,并通過互相關(guān)準則進行邊緣特征匹配,這種方案能最大程度地消除異源傳感器的成像差異,實現(xiàn)了對異源源圖像的有效預處理。 Jang等[91]首次嘗試使用VGG-19模型實現(xiàn)水下光聲圖像的風格遷移,得到由聲吶圖像提供內(nèi)容信息、光學圖像提供風格信息的合成圖像,最后再利用SIFT、SURF、BRISK、ORB、A-KAZE提取特征點對最終生成的圖像與聲學圖像做余弦相似度評估以獲得更好的匹配結(jié)果。Merkle等[92]將光學圖像經(jīng)條件生成對抗網(wǎng)絡生成SAR圖像,兩類同風格的圖像再通過NCC、SIFT、BRISK三種算法做模板匹配,其匹配精度雖然有所提升,但是該類方法訓練的網(wǎng)絡只能實現(xiàn)單一圖像對的風格匹配,而且噪聲的存在很容易破壞圖像的原始結(jié)構(gòu)和細節(jié)。2021年,Zhou等[93]在上述文章的啟發(fā)下引入HardNet特征描述符,即在L2-Net中引入度量損失函數(shù)以緩解梯度消失問題并提高了匹配的魯棒性。除了利用VGG網(wǎng)絡實現(xiàn)模態(tài)統(tǒng)一外,Cho等[94]還通過構(gòu)建循環(huán)生成對抗網(wǎng)絡提高水下圖像質(zhì)量,并利用對抗損失結(jié)合多個循環(huán)一致性損失(重建損失、拉普拉斯損失和感知損失)對網(wǎng)絡進行訓練,以增強紋理細節(jié)特征。統(tǒng)一施加SURF算法作為特征檢測器和描述符,結(jié)果顯示相比于目前廣泛使用的WaterGAN和直方圖均衡化的水下圖像預處理方法,風格遷移算法的有效特征提取數(shù)目明顯增多。但目前公開的水下光聲圖像數(shù)據(jù)集較少,因此使用GAN實現(xiàn)圖像風格遷移存在一定的局限性。為了增大水下光聲圖像對數(shù)據(jù)集,Terayama等[95]使用條件生成對抗網(wǎng)絡模擬融合聲吶圖像和夜視光學圖像從而生成更多虛假的白天圖像;Huo等[96]則根據(jù)威布爾概率分布函數(shù)整合聲吶圖像的背景信息與光學圖像的目標外形信息,從而生成半合成聲吶圖像以提升數(shù)據(jù)集的整體精度,這也為缺乏統(tǒng)一的聲光圖像數(shù)據(jù)集提供了解決方案。光聲圖像遷移算法結(jié)構(gòu)如圖8。 圖8 光聲圖像遷移算法結(jié)構(gòu)Fig.8 Structure of opti-acoustic image transformation algorithm 得益于深度學習其強大的學習能力和更好的適應性,不僅可以避免計算關(guān)鍵點的尺度、方向、梯度等信息,大大降低了計算量,而且能最大限度地消除異源圖像間的差異,從而提取更多正確的匹配特征對,極大提升了配準精度。因此,基于該方法的水下聲光圖像配準是必然趨勢。 異源圖像配準是對于數(shù)據(jù)融合一個基礎(chǔ)且重要的研究領(lǐng)域,具有廣泛的應用前景。本文對水下光聲的配準算法進行綜述,并在表5中對上述光聲圖像的匹配方案做了性能總結(jié)。 表5 常見光聲圖像匹配方案對比分析Table 5 Comparison and analysis of common opti-acoustic images matching schemes 在匹配實例中,特征驅(qū)動的相位一致性模型主要用于空域的異源圖像匹配,數(shù)據(jù)驅(qū)動的深度學習模型也因為深度特征的提取被漸漸用于水下多模態(tài)圖像匹配問題上。特征驅(qū)動的相位一致性模型通過計算局部能量函數(shù)來描述圖像的幾何結(jié)構(gòu),該算法的優(yōu)勢是提取的特征對亮度和對比度的變化不敏感,因此具有非線性輻射差異的異源圖像可以采用相同的閾值來篩選穩(wěn)定的輪廓和邊緣特征。但該模型無法表示關(guān)鍵點的輪廓和邊緣方向,若獲取方向相位信息,則需要進行插值和加權(quán)處理,會增加一定的計算量,也在一定程度上損失了特征信息。數(shù)據(jù)驅(qū)動的深度學習模型可分為單環(huán)節(jié)深度網(wǎng)絡(孿生網(wǎng)絡等)和端到端深度網(wǎng)絡(風格遷移等),此類算法以優(yōu)化梯度回傳的方式進行訓練,學習能力強,配準精度高。單環(huán)節(jié)深度網(wǎng)絡能根據(jù)不同需求訓練單獨的網(wǎng)絡,靈活性更高,端到端深度網(wǎng)絡能有效地處理具有非線性輻射和幾何差異的異源圖像,但此類算法模型結(jié)構(gòu)復雜,消耗的計算和內(nèi)存資源也更多。 雖然當前水下聲光圖像配準方法取得了一定進展,但是依然面臨很多挑戰(zhàn),在以下幾個方面有待進一步研究: (1)針對水下聲光圖像統(tǒng)一的數(shù)據(jù)集問題,水下光學場景圖像數(shù)據(jù)集獲取簡單且高效,但聲吶圖像采集實驗成本高昂。因此深度學習對聲光學圖像做網(wǎng)絡訓練時,會由于數(shù)據(jù)集缺失導致很難訓練出泛化能力強的網(wǎng)絡。鑒于此,基于深度學習的風格遷移算法探索從光學圖像集合成至聲學圖像集是具有實際應用意義的,而且以此合成圖像作為訓練集能大大提高網(wǎng)絡匹配精度。 (2)基于特征的配準算法對水下光聲影像顯著的結(jié)構(gòu)差異更加敏感,降低了特征描述符的穩(wěn)健性,容易導致匹配失敗。但基于圖像域的匹配方法精度較高,因此可以在特征匹配的基礎(chǔ)上增加圖像域方法以及各種幾何約束條件增加匹配點對和匹配精度。 (3)對于水下光聲異源圖像的空間配準,目標特征往往會由于視覺范圍的不同、各類噪聲的存在使得搜索范圍增加至全局,進而引起計算量的增加和實時性效能的降低。 目前解決這類問題的關(guān)鍵,一方面是利用并行計算系統(tǒng)加速相似度計算,多線程協(xié)同執(zhí)行以增加窗口搜索性能;另一方面是基于過濾策略,判斷各聚類中心的相似度,并加入各種計算優(yōu)化算法,篩除不必要計算量的同時加快計算速度。 隨著對海洋探索范圍的逐步擴大,這就要求必須全面感知水下環(huán)境。光學和聲學成像是目前獲取水下狀態(tài)信息最為直觀的探測手段,因此提高兩異源圖像的匹配精度和速度,是實現(xiàn)水下聲光圖像融合、更為全面感知海洋環(huán)境的基礎(chǔ)和前提。 本文在對水下光聲圖像空間配準的相關(guān)概念和算法進行深入研究的基礎(chǔ)上,對三種配準方案進行了綜述對比,并詳細闡述了水下異源圖像匹配的后續(xù)優(yōu)化算法的研究進展。未來研究中,對于匹配精度與速度的平衡,仍是研究人員不斷攻克多模態(tài)圖像配準難題的主要方向。4.3 基于深度學習的特征配準
5 總結(jié)與展望
6 結(jié)語