鄧壯林,張紹兵,3,成 苗,3,何 蓮,3
多模態(tài)硬幣圖像單應(yīng)性矩陣預(yù)測
鄧壯林1,2,張紹兵1,2,3,成 苗1,2,3,何 蓮1,2,3
(1. 中國科學(xué)院成都計算機應(yīng)用研究所,四川 成都 610041;2. 中國科學(xué)院大學(xué)計算機科學(xué)與技術(shù)學(xué)院,北京 100049;3. 深圳市中鈔科信金融科技有限公司,廣東 深圳 518206)
對不同成像條件下拍攝的硬幣圖像進(jìn)行配準(zhǔn)是硬幣表面缺陷算法的前置任務(wù)。然而,基于互信息的傳統(tǒng)多模態(tài)配準(zhǔn)方法速度慢、精度低,現(xiàn)有的通過基于深度學(xué)習(xí)的單應(yīng)性矩陣預(yù)測方法實現(xiàn)的圖像配準(zhǔn)只適用于單模態(tài)的任務(wù)。為此,提出一種基于深度學(xué)習(xí)的適用于多模態(tài)硬幣圖像的單應(yīng)性矩陣預(yù)測方法,進(jìn)而使用預(yù)測的單應(yīng)性矩陣完成圖像配準(zhǔn)。首先,使用單應(yīng)性矩陣預(yù)測層預(yù)測輸入圖像對間的單應(yīng)性矩陣,使用單應(yīng)性矩陣對待配準(zhǔn)圖像進(jìn)行透視變換;然后,使用圖像轉(zhuǎn)換層將透視變換后的待配準(zhǔn)圖像和目標(biāo)圖像映射到同一域,圖像轉(zhuǎn)換層可在推理時去除從而減少推理時間;最后,計算同一域下的圖像間的損失,并進(jìn)行訓(xùn)練。實驗表明,該方法在測試集上的平均距離誤差為3.417像素,相較于基于互信息的傳統(tǒng)多模態(tài)配準(zhǔn)方法5.575像素的平均距離誤差降低38.71%。且配準(zhǔn)單對圖像耗時為17.74 ms,遠(yuǎn)低于基于互信息的傳統(tǒng)多模態(tài)配準(zhǔn)方法的6 368.49 ms。
單應(yīng)性矩陣;圖像配準(zhǔn);硬幣;圖像轉(zhuǎn)換;多模態(tài)
單應(yīng)性矩陣在圖像剛性配準(zhǔn)中發(fā)揮了重要作用[1]。若有一對從不同角度拍攝的同一平面的圖像,使用單應(yīng)性矩陣對其中一幅圖像進(jìn)行透視變換,可以使其和另一幅圖像配準(zhǔn)[2]。在拍攝的物體近似平面(不是平面但拍攝位置相對于物體深度足夠遠(yuǎn))或拍攝2幅圖像的鏡頭僅有旋轉(zhuǎn)運動時,使用單應(yīng)性矩陣仍然能夠配準(zhǔn)圖像。目前針對單模態(tài)圖像對間的單應(yīng)性矩陣預(yù)測已經(jīng)得到了廣泛地研究,傳統(tǒng)方法和基于深度學(xué)習(xí)的方法[1-4]均取得了良好的效果。
對不同成像條件下拍攝的硬幣圖像進(jìn)行配準(zhǔn)是硬幣表面缺陷檢測算法[5]的前置任務(wù)。如圖1所示,在穹頂光源下拍攝的硬幣圖像紋理信息豐富,所以圖像中的細(xì)微劃痕也清晰可見,但是丟失了顏色信息;同軸光源下拍攝的硬幣圖像有豐富的顏色信息,但是圖像中的細(xì)微劃痕與污漬混合難以分辨。所以需要融合2種圖像的特征進(jìn)行圖像增強。然而由于2種硬幣圖像的成像系統(tǒng)不同,硬幣的相對位置會發(fā)生偏移,需要首先預(yù)測跨模態(tài)圖像間的單應(yīng)性矩陣,從而實現(xiàn)多模態(tài)硬幣圖像的配準(zhǔn)。為滿足工業(yè)生產(chǎn)場景中的需求,該配準(zhǔn)方法需要精度高、速度快。
圖1 不同光源下的硬幣圖像((a)同軸光源下拍攝的硬幣圖像;(b)穹頂光源下拍攝的硬幣圖像)
現(xiàn)有的基于深度學(xué)習(xí)的單應(yīng)性矩陣預(yù)測方法只適用于單模態(tài)圖像的配準(zhǔn)[1-4],不能解決多模態(tài)硬幣圖像配準(zhǔn)。傳統(tǒng)的基于互信息的多模態(tài)配準(zhǔn)方法可以用于多模態(tài)硬幣圖像配準(zhǔn),但是其配準(zhǔn)精度不高,且速度過慢,無法滿足工業(yè)生產(chǎn)場景中的需求。
為解決上述問題,本文提出了一種用于多模態(tài)硬幣圖像的單應(yīng)性矩陣預(yù)測方法,使用預(yù)測的單應(yīng)性矩陣可完成圖像配準(zhǔn)。該方法基于深度學(xué)習(xí),將網(wǎng)絡(luò)分為單應(yīng)性矩陣預(yù)測層和圖像轉(zhuǎn)換層2部分。訓(xùn)練也分為2個階段,首先訓(xùn)練圖像轉(zhuǎn)換層,通過該層可將2個模態(tài)的圖像映射到同一域,該層僅用于訓(xùn)練階段,其能簡化跨模態(tài)的損失函數(shù)的設(shè)計。然后訓(xùn)練單應(yīng)性矩陣預(yù)測層,這一階段的訓(xùn)練通過使用之前的圖像轉(zhuǎn)換層,實現(xiàn)無監(jiān)督訓(xùn)練。實驗結(jié)果證明本文提出的方法配準(zhǔn)精度高、速度快。同時,本文提出的網(wǎng)絡(luò)與訓(xùn)練方法可以應(yīng)用到其他多模態(tài)剛性圖像配準(zhǔn)任務(wù)中,如紅外光與自然光圖像配準(zhǔn),多模態(tài)遙感圖像配準(zhǔn)等。
按照圖像的形變方式,圖像配準(zhǔn)可分為剛性配準(zhǔn)和非剛性配準(zhǔn)。非剛性配準(zhǔn)適用于不規(guī)則形變的圖像間的配準(zhǔn)[6],如醫(yī)學(xué)圖像配準(zhǔn)。剛性圖像配準(zhǔn)中通常圖像間沒有不規(guī)則的形變,如遙感圖像配準(zhǔn)。由于硬幣圖像間沒有不規(guī)則的形變,所以屬于剛性配準(zhǔn)。
按照圖像對是否由相同的成像系統(tǒng)拍攝,圖像配準(zhǔn)還可以分為單模態(tài)配準(zhǔn)和多模態(tài)配準(zhǔn)。單模態(tài)配準(zhǔn)是由相同成像系統(tǒng)拍攝的圖像間的配準(zhǔn),如文獻(xiàn)[2]中配準(zhǔn)視頻中的相鄰幀。多模態(tài)配準(zhǔn)是不同成像系統(tǒng)拍攝的圖像間的配準(zhǔn),如紅外圖像與自然圖像的配準(zhǔn),醫(yī)學(xué)中CT圖像與磁共振圖像的配準(zhǔn)等。配準(zhǔn)穹頂光源和同軸光源下拍攝的硬幣圖像,也屬于多模態(tài)圖像配準(zhǔn)。
基于傳統(tǒng)方法的單模態(tài)剛性圖像配準(zhǔn)又可以分為基于區(qū)域的方法和基于特征的方法,基于特征的方法通常通過圖像特征計算圖像間的單應(yīng)性矩陣[7]。首先,分別提取2幅圖像的關(guān)鍵點,需要用到局部不變特征,如SIFT (scale-invariant feature transform),SURF (speeded up robust features)[8],ORB (oriented fast and rotated brief)[9],AKAZE (accelerate-KAZE)[10]等。然后使用特征匹配得到2幅圖像的關(guān)鍵點,并使用RANSAC (random sample consistency)和MAGSAC (marginalizing sample consensus)[11]等算法進(jìn)行離群剔除。最后,使用4對最佳匹配的關(guān)鍵點對通過直接線性變換(direct linear transform)[3]計算出單應(yīng)性矩陣。
這類方法能夠很好地解決單模態(tài)圖像間的單應(yīng)性矩陣預(yù)測,但是無法解決多模態(tài)圖像間的單應(yīng)性矩陣預(yù)測。本文方法參考了這類方法中使用單應(yīng)性矩陣進(jìn)行透視變換來完成剛性配準(zhǔn)。
2016年,文獻(xiàn)[1]首次提出用于單應(yīng)性矩陣預(yù)測的深度神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)的輸入是原圖像和其進(jìn)行隨機的透視變換后的圖像,輸出的是2幅輸入圖像之間的單應(yīng)性矩陣,并將隨機的透視變換所用到的單應(yīng)性矩陣做為ground truth,進(jìn)行監(jiān)督學(xué)習(xí)。該網(wǎng)絡(luò)取得了與傳統(tǒng)方法相近的效果,證明了深度神經(jīng)網(wǎng)絡(luò)用于單應(yīng)性矩陣預(yù)測的可行性。
文獻(xiàn)[3]在2018年提出的無監(jiān)督深度單應(yīng)性矩陣預(yù)測方法,相較于文獻(xiàn)[1]的有監(jiān)督方法,能更準(zhǔn)確地預(yù)測真實圖像對之間的單應(yīng)性矩陣,這是由于監(jiān)督方法中生成的訓(xùn)練圖像沒有深度差異。該方法使用預(yù)測的單應(yīng)性矩陣和空間變換網(wǎng)絡(luò)(spatial transformer networks,STN)[12]層透視變換待配準(zhǔn)圖像得到預(yù)測圖像,并計算預(yù)測圖像和目標(biāo)圖像間逐像素的光度損失,從而實現(xiàn)無監(jiān)督訓(xùn)練。
文獻(xiàn)[2]在2020年提出內(nèi)容感知的無監(jiān)督深度單應(yīng)性矩陣預(yù)測方法,使用內(nèi)容感知掩模,在低紋理、低光照等有挑戰(zhàn)性的預(yù)測場景中取得了相較于文獻(xiàn)[1,3]更好的效果。
文獻(xiàn)[4]提出了動態(tài)場景的深度單應(yīng)性矩陣預(yù)測方法,使用多尺度神經(jīng)網(wǎng)絡(luò)同時進(jìn)行動態(tài)內(nèi)容檢測和單應(yīng)性矩陣預(yù)測,在具有動態(tài)場景、模糊偽影和低紋理的測試集中取得了比文獻(xiàn)[1,3]更好的效果。
盡管基于深度學(xué)習(xí)的單應(yīng)性矩陣預(yù)測已經(jīng)取得了良好的效果,但這類方法目前僅在單模態(tài)圖像間有效。本文方法參考了該方法中使用深度神經(jīng)網(wǎng)絡(luò)預(yù)測圖像間的單應(yīng)性矩陣。
互信息(mutual information)使用2幅圖像的熵和其聯(lián)合熵來定義2幅圖像之間的關(guān)系,即
其中,(img)和(img)分別為2幅圖像各自的熵;(img,img)為2幅圖像的聯(lián)合熵。在基于互信息的多模態(tài)圖像配準(zhǔn)時,若一對圖像處于某個相對位置時其之間的互信息最大,則認(rèn)為這對圖像在該相對位置上為配準(zhǔn)狀態(tài)?;诨バ畔⒓捌涓倪M(jìn)的多模態(tài)圖像配準(zhǔn)已經(jīng)廣泛應(yīng)用于醫(yī)學(xué)圖像配準(zhǔn)[13-14]、遙感圖像配準(zhǔn)[15]等方向。
該傳統(tǒng)方法解決了多模態(tài)圖像的剛性配準(zhǔn)問題,與本文所要解決的問題相同。在3.4節(jié)中實現(xiàn)了該傳統(tǒng)方法,發(fā)現(xiàn)其存在配準(zhǔn)精度低、速度慢的問題。由于尚未具有代表性的基于深度學(xué)習(xí)的多模態(tài)剛性配準(zhǔn)方法,將該傳統(tǒng)方法和本文基于深度學(xué)習(xí)的方法做對比。
基于深度學(xué)習(xí)的多模態(tài)圖像配準(zhǔn)在醫(yī)學(xué)圖像、自動駕駛等領(lǐng)域已經(jīng)有了深入地研究。文獻(xiàn)[16]通過生成數(shù)據(jù)克服收集ground truth的困難,實現(xiàn)了需要監(jiān)督訓(xùn)練的跨模態(tài)圖像配準(zhǔn)方法。但是其效果受真實數(shù)據(jù)和生成數(shù)據(jù)間的差異影響。
為了改進(jìn)前述方法,實現(xiàn)無監(jiān)督的跨模態(tài)圖像配準(zhǔn)解決方案,文獻(xiàn)[17-19]使用跨模態(tài)的相似性度量做為損失函數(shù)進(jìn)行訓(xùn)練。這些跨模態(tài)的相似度度量使用互信息、歸一化互相關(guān)或由作者自己設(shè)計。然而,這些相似度量往往只適用于特定的模態(tài)間,并且設(shè)計很困難[20]。
為了簡化跨模態(tài)相似度量的設(shè)計,文獻(xiàn)[20-22]利用了圖像轉(zhuǎn)換網(wǎng)絡(luò)[23-24],將多模態(tài)的圖像配準(zhǔn)問題簡化為單模態(tài)的配準(zhǔn)問題。具體方法為對多模態(tài)的圖像對在圖像轉(zhuǎn)換層進(jìn)行轉(zhuǎn)換,將多模態(tài)的圖像映射到公共域。使用公共域下的圖像對預(yù)測變形場,并經(jīng)過變形場扭曲后的待配準(zhǔn)圖像和目標(biāo)圖像計算逐像素的光度損失。
相比于1.3節(jié)中的方法,這類基于深度學(xué)習(xí)的配準(zhǔn)方法解決了多模態(tài)圖像間的配準(zhǔn)問題,并且是非剛性配準(zhǔn)。本文方法參考了圖像轉(zhuǎn)換網(wǎng)絡(luò)的思想,設(shè)計了更簡單、高速的圖像轉(zhuǎn)換層。與上述預(yù)測變形場進(jìn)行非剛性配準(zhǔn)的方法不同,本文方法預(yù)測單應(yīng)性矩陣進(jìn)行剛性配準(zhǔn),并且僅將圖像轉(zhuǎn)換層用于損失的計算,在推理階段省略圖像轉(zhuǎn)換層加速推理。
2.1.1 網(wǎng)絡(luò)整體結(jié)構(gòu)與設(shè)計思路
如圖2所示,該網(wǎng)絡(luò)包含單應(yīng)性矩陣預(yù)測層和圖像轉(zhuǎn)換層2個部分。網(wǎng)絡(luò)的輸入為待配準(zhǔn)圖像和目標(biāo)圖像,待配準(zhǔn)圖像是同軸光源圖像,目標(biāo)圖像是穹頂光源圖像。由于硬幣圖像配準(zhǔn)是剛性配準(zhǔn),即使用單應(yīng)性矩陣完成剛性配準(zhǔn),網(wǎng)絡(luò)的前半部分設(shè)計為單應(yīng)性矩陣預(yù)測層。使用單應(yīng)性矩陣預(yù)測層輸出的單應(yīng)性矩陣對待配準(zhǔn)圖像進(jìn)行透視變換,得到與目標(biāo)圖像配準(zhǔn)的預(yù)測圖像。由于預(yù)測圖像為同軸光源圖像,目標(biāo)圖像為穹頂光源圖像,需要將不同光源下拍攝的多模態(tài)圖像映射到同一域,以計算預(yù)測圖像和目標(biāo)圖像間的逐像素光度損失,所以設(shè)計了圖像轉(zhuǎn)換層。其僅用于單應(yīng)性預(yù)測層訓(xùn)練階段的計算損失,推理階段可省略以加速推理。
單應(yīng)性矩陣預(yù)測層和圖像轉(zhuǎn)換層需要分別訓(xùn)練。首先訓(xùn)練圖像轉(zhuǎn)換層,完成后凍結(jié)圖像轉(zhuǎn)換層的參數(shù),再進(jìn)行單應(yīng)性矩陣預(yù)測層的訓(xùn)練,其訓(xùn)練是無監(jiān)督的。
圖2 網(wǎng)絡(luò)結(jié)構(gòu)
2.1.2 單應(yīng)性矩陣預(yù)測層
2.1.3 圖像轉(zhuǎn)換層
圖像轉(zhuǎn)換層有2個相互獨立的轉(zhuǎn)換層,分別用于2種不同模態(tài)圖像的轉(zhuǎn)換。每個轉(zhuǎn)換層采用包含3個卷積層的全卷積網(wǎng)絡(luò),其輸入大小為××1的原圖像,輸出大小為××1的特征映射。具體每一個卷積層的結(jié)構(gòu)如圖2所示。圖像轉(zhuǎn)換層通過訓(xùn)練獲得將不同模態(tài)圖像映射到同一域的能力,具體損失函數(shù)和訓(xùn)練過程在2.2.1節(jié)中介紹。
2.2.1 圖像轉(zhuǎn)換損失
訓(xùn)練整個網(wǎng)絡(luò)需要先訓(xùn)練圖像轉(zhuǎn)換層,在圖像轉(zhuǎn)換層訓(xùn)練時需用到已經(jīng)配準(zhǔn)的多模態(tài)圖像對。因為此時單應(yīng)性矩陣預(yù)測層還沒有訓(xùn)練生效,所以需要手工配準(zhǔn)少量的圖像。損失函數(shù)為
其中,和是已經(jīng)配準(zhǔn)的2幅不同模態(tài)的圖像,和分別為和經(jīng)過各自的圖像轉(zhuǎn)換層的輸出。如果2個模態(tài)的圖像成功映射到一個公共域,由于是已經(jīng)配準(zhǔn)的,則其之間的L1距離應(yīng)該很小。
2.2.2 單應(yīng)性矩陣預(yù)測損失
實驗數(shù)據(jù)集采集自某造幣廠提供的109枚硬幣,分別使用同軸光源和穹頂光源對硬幣進(jìn)行成像,圖像的分辨率為672×672。由于采集數(shù)據(jù)時,不同光源的成像系統(tǒng)的鏡頭相對于硬幣的位置是變化的,所以采集的原始圖像對未配準(zhǔn)。采集到的圖像如圖4所示。數(shù)據(jù)集包含3部分:①3 600對圖像的單應(yīng)性矩陣預(yù)測層訓(xùn)練集;②361對圖像的圖像轉(zhuǎn)換層訓(xùn)練集;③900對圖像的測試集。
圖4 采集的原始圖像以及差異示意圖((a)同軸光源圖像;(b)穹頂光源圖像;(c)處理后的疊加圖像)
單應(yīng)性矩陣預(yù)測層訓(xùn)練集的3 600對圖像由60個硬幣的同軸光源圖像和穹頂光源圖像組合得到。由于單應(yīng)性矩陣預(yù)測層采用無監(jiān)督的訓(xùn)練,這部分圖像不需要手工標(biāo)注配準(zhǔn)。
圖像轉(zhuǎn)換層訓(xùn)練集的361對圖像由19個硬幣的同軸光源圖像和穹頂光源圖像組合得到。圖像轉(zhuǎn)換層訓(xùn)練集的不同光源圖像間需要手工標(biāo)注配準(zhǔn),即手工記錄每一幅圖像上特定的4個點的坐標(biāo)。任意選取一對硬幣圖像,根據(jù)2幅圖像上的4對對應(yīng)點,使用直接線性變換(direct linear transform)計算出單應(yīng)性矩陣,實現(xiàn)一對圖像的配準(zhǔn)。
測試集的900對圖像由30個硬幣的同軸光源圖像和穹頂光源圖像組合得到。測試集的不同光源圖像需要手工標(biāo)注配準(zhǔn),用于算法效果量化。該量化方法與文獻(xiàn)[1-3]中的方法類似,手工記錄每一幅圖像上特定的4個點的坐標(biāo),如圖5所示。將一對測試集硬幣圖像輸入深度網(wǎng)絡(luò)后得到網(wǎng)絡(luò)預(yù)測的單應(yīng)性矩陣,使用該矩陣對同軸光源圖像上記錄的4個坐標(biāo)進(jìn)行坐標(biāo)映射,得到4個預(yù)測點的坐標(biāo)。求4個預(yù)測點的坐標(biāo)與穹頂光源圖像上4個標(biāo)注點的坐標(biāo)的平均距離誤差,該距離越小,則配準(zhǔn)效果越好,當(dāng)距離為0時,透視變換得到同軸光源圖像與穹頂光源圖像完全配準(zhǔn)。距離誤差為
其中,和為預(yù)測點的坐標(biāo);和為標(biāo)注點的坐標(biāo)。
3.2.1 實驗環(huán)境
實驗使用NVIDIA GEFORCE RTX 2080顯卡,Ubuntu 16.0.4.1操作系統(tǒng),pytorch 1.5.1深度學(xué)習(xí)框架。實驗中訓(xùn)練與測試均在NVIDIA GEFORCE RTX 2080顯卡上完成?;谏疃葘W(xué)習(xí)的方法和傳統(tǒng)的基于互信息的多模態(tài)配準(zhǔn)方法均在同一臺計算機上進(jìn)行,環(huán)境完全一致。
3.2.2 數(shù)據(jù)增強與訓(xùn)練超參數(shù)
單應(yīng)性矩陣預(yù)測層訓(xùn)練階段,將輸入不同模態(tài)的2幅圖像分別隨機順時針或逆時針旋轉(zhuǎn)0°~2°,隨機向左或向右平移0~17個像素,隨機向上或向下平移0~17個像素。圖像轉(zhuǎn)換層訓(xùn)練階段同樣將輸入的2種不同模態(tài)的圖像進(jìn)行隨機的旋轉(zhuǎn)和平移,其旋轉(zhuǎn)角度和平移量完全相同,保證圖像對在變換后也處于配準(zhǔn)的狀態(tài)。
圖像轉(zhuǎn)換層訓(xùn)練的初始學(xué)習(xí)率為0.001,batchsize為16,學(xué)習(xí)率每570步下降10%。單應(yīng)性矩陣預(yù)測層訓(xùn)練的初始學(xué)習(xí)率為0.001,batchsize為16,學(xué)習(xí)率每2 800步下降10%。
圖像轉(zhuǎn)換層除了放置在單應(yīng)性矩陣預(yù)測層后方(圖2網(wǎng)絡(luò)結(jié)構(gòu)),還可以放置于單應(yīng)性矩陣預(yù)測層前方。圖像轉(zhuǎn)換層如果放置在單應(yīng)性矩陣預(yù)測層前方,2種不同模態(tài)的圖像將會在輸入單應(yīng)性矩陣預(yù)測層之前被映射到同一域,從而使得該任務(wù)轉(zhuǎn)換為單模態(tài)圖像間的單應(yīng)性矩陣預(yù)測,和文獻(xiàn)[1-4]中的任務(wù)類似。該過程為
下一節(jié)將介紹采用此種方案的實驗效果。在效果相似時優(yōu)先采用圖2中的網(wǎng)絡(luò)結(jié)構(gòu),因為在該網(wǎng)絡(luò)結(jié)構(gòu)中,圖像轉(zhuǎn)換層僅在訓(xùn)練過程中被需要,在推理過程中只需要得到單應(yīng)性矩陣,可省略圖像轉(zhuǎn)換層,以縮短推理時間。
傳統(tǒng)的基于互信息的多模態(tài)配準(zhǔn)方法為:對待配準(zhǔn)圖像進(jìn)行平移和旋轉(zhuǎn),每一次平移或旋轉(zhuǎn)后,通過式(1)計算其與目標(biāo)圖像間的互信息值。反復(fù)迭代,找到待配準(zhǔn)圖像與目標(biāo)圖像互信息最大的平移和旋轉(zhuǎn)值,作為結(jié)果。
為了加速該算法,先進(jìn)行粗配準(zhǔn),每次平移10像素,旋轉(zhuǎn)5°,粗配準(zhǔn)后再在其結(jié)果上每次平移1像素,旋轉(zhuǎn)1°進(jìn)行細(xì)配準(zhǔn),以細(xì)配準(zhǔn)結(jié)果做為最終結(jié)果。因為本文提出的基于深度學(xué)習(xí)的多模態(tài)單應(yīng)性矩陣預(yù)測方法使用了GPU加速運算,為了對比公平,該傳統(tǒng)方法同樣通過CuPy 9.5.0[25]使用GPU加速運算。
盡管已經(jīng)提升了該算法的速度,傳統(tǒng)的基于互信息的多模態(tài)配準(zhǔn)方法仍耗時巨大,在本文的實驗環(huán)境中單對圖像配準(zhǔn)平均耗時6 368.49 ms,在實際應(yīng)用中無法滿足時間要求。而本文方法處理時間僅為17.74 ms。在配準(zhǔn)效果方面,傳統(tǒng)的基于互信息的多模態(tài)配準(zhǔn)方法的平均距離誤差為5.575像素高于本文方法的3.417像素,部分配準(zhǔn)效果對比如圖6所示。
根據(jù)單應(yīng)性矩陣預(yù)測層的輸入是灰度圖或彩色圖、單應(yīng)性矩陣預(yù)測層采用resnet18或resnet34、圖像轉(zhuǎn)換層放置在單應(yīng)性矩陣預(yù)測層前或后、損失函數(shù)采用L1或L2這4個條件,得到16種實驗方案,見表1。測試記錄每種實驗方案在測試集上的平均距離誤差和平均推理耗時,綜合考慮配準(zhǔn)精度和時間,采用實驗方案3為最終方案,該方案單應(yīng)性矩陣預(yù)測層的輸入是灰度圖,單應(yīng)性矩陣預(yù)測層采用resnet18,圖像轉(zhuǎn)換層放置在單應(yīng)性矩陣預(yù)測層后,損失函數(shù)采用L1。
圖6 配準(zhǔn)結(jié)果((a)配準(zhǔn)前平均距離誤差18.955像素;(b)基于互信息的配準(zhǔn)方法平均距離誤差5.575像素;(c)本文方法平均距離誤差3.417像素)
表1 實驗結(jié)果
采用L1作為損失函數(shù)的方案1,3,5,7,9,11,13,15分別與采用L2作為損失函數(shù)的方案2,4,6,8,10,12,14,16相對應(yīng)。見表1,除損失函數(shù)外,對應(yīng)的方案單應(yīng)性矩陣預(yù)測層輸入、單應(yīng)性矩陣預(yù)測層結(jié)構(gòu)和圖像轉(zhuǎn)換層位置均相同。損失函數(shù)采用L1的8種實驗方案比其對應(yīng)的損失函數(shù)采用L2的實驗方案平均距離誤差小0.180~0.358像素,且由于推理時不計算損失,所以損失函數(shù)的選擇對推理耗時不產(chǎn)生任何影響。實驗證明了此任務(wù)中L1損失函數(shù)在不影響推理耗時的情況下取得了更小的平均距離誤差,保留采用L1作為損失函數(shù)的8種方案。
在保留的方案中,圖像轉(zhuǎn)換層放置在單應(yīng)性矩陣預(yù)測層前的方案1,5,9,13與圖像轉(zhuǎn)換層放置在單應(yīng)性矩陣預(yù)測層后的方案3,7,11,15相對應(yīng)。表1中,除圖像轉(zhuǎn)換層放置不同,對應(yīng)方案中的其他條件的選擇均相同。圖像轉(zhuǎn)換層放置在前的方案1和9比其相對應(yīng)的放置在后的方案3和11平均距離誤差分別小0.010像素和0.020像素,圖像轉(zhuǎn)換層放置在前的方案5和13比其相對應(yīng)的放置在后的方案7和15平均距離誤差分別大0.030像素和0.084像素。方案1,5,9和13的平均推理耗時分別比方案3,7,11和15多3.90 ms,2.44 ms,3.73 ms和2.55 ms,符合3.3節(jié)中的描述。從實驗結(jié)果可以看出,圖像轉(zhuǎn)換層放置在單應(yīng)性矩陣預(yù)測層前、后對平均距離誤差的影響不大,所以保留平均推理耗時更少的圖像轉(zhuǎn)換層放置在單應(yīng)性矩陣預(yù)測層后的方案3,7,11和15。
在方案3,7,11和15中,單應(yīng)性矩陣預(yù)測層結(jié)構(gòu)采用resnet34的方案7和15比采用resnet18的方案3和11平均距離誤差分別小0.130 (3.80%)像素和0.027 (0.82%)像素,但是推理耗時多5.37 (30.27%) ms和5.19 (28.64%) ms。由于在實際應(yīng)用中,目前的平均距離誤差均已滿足需求且差距極小,單應(yīng)性矩陣預(yù)測層結(jié)構(gòu)采用速度更快的resnet18,保留方案3和11。
方案3單應(yīng)性矩陣預(yù)測層的輸入是灰度圖,方案11輸入是彩色圖。表1中,方案3和方案11的其他條件均相同。方案3的平均距離誤差比方案11大0.110像素,平均推理耗時小0.38 ms。在單應(yīng)性預(yù)測層主干網(wǎng)絡(luò)相同時,輸入圖為彩色的方案參數(shù)量更多,所以平均推理耗時增加。由于平均距離誤差均已滿足需求且差距極小,所以選擇速度更快的方案3。
為了預(yù)測多模態(tài)硬幣圖像間的單應(yīng)性矩陣,本文設(shè)計了圖像轉(zhuǎn)換層改進(jìn)現(xiàn)有的單模態(tài)單應(yīng)性矩陣預(yù)測深度神經(jīng)網(wǎng)絡(luò),從而完成跨模態(tài)的單應(yīng)性矩陣預(yù)測任務(wù);通過進(jìn)行對比實驗,確定單應(yīng)性矩陣預(yù)測層的輸入是灰度圖、單應(yīng)性矩陣預(yù)測層的主干網(wǎng)絡(luò)采用resnet18、圖像轉(zhuǎn)換層放置在單應(yīng)性矩陣預(yù)測層后、損失函數(shù)為L1的方案為最終方案。本文方法配準(zhǔn)精度高、推理速度快,在測試集上的平均距離誤差為3.417像素,相較于傳統(tǒng)的基于互信息的跨模態(tài)圖像配準(zhǔn)方法的5.575像素減小38.71%,平均推理耗17.74 ms時,相較于傳統(tǒng)的基于互信息的跨模態(tài)圖像配準(zhǔn)方法的6 368.49 ms顯著縮短。
本文方法局限性包括:相機畸變、拍攝視角變化帶來的非平面物體成像內(nèi)容變化等問題,其會破壞待配準(zhǔn)圖像與目標(biāo)圖像間的透視變換關(guān)系,導(dǎo)致所有基于單應(yīng)性矩陣預(yù)測的配準(zhǔn)方法包括本文方法誤差加大甚至無法配準(zhǔn),在具體應(yīng)用中應(yīng)當(dāng)評估該方法是否適用。由于網(wǎng)絡(luò)訓(xùn)練是分階段進(jìn)行的,需要先完成圖像轉(zhuǎn)換層的訓(xùn)練后,再進(jìn)行單應(yīng)性矩陣預(yù)測層的訓(xùn)練,該過程較為繁瑣,后續(xù)可進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),實現(xiàn)端到端的訓(xùn)練。
[1] DETONE D, MALISIEWICZ T, RABINOVICH A. Deep image homography estimation[EB/OL]. (2016-06-13) [2020-12-17]. https://arxiv.org/pdf/1606.03798.pdf.
[2] ZHANG J R, WANG C, LIU S C, et al. Content-aware unsupervised deep homography estimation[C]//Computer Vision – ECCV 2020. Cham: Springer International Publishing, 2020: 653-669.
[3] NGUYEN T, CHEN S W, SHIVAKUMAR S S, et al. Unsupervised deep homography: a fast and robust homography estimation model[J]. IEEE Robotics and Automation Letters, 2018, 3(3): 2346-2353.
[4] LE H, LIU F, ZHANG S, et al. Deep homography estimation for dynamic scenes[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 7649-7658.
[5] 王品學(xué), 張紹兵, 成苗, 等. 基于可變形卷積和自適應(yīng)空間特征融合的硬幣表面缺陷檢測算法[EB/OL]. (2021-04-14) [2021-09-08]. https://kns-cnki-net.webvpn.las.ac.cn/kcms/ detail/51.1307.tp.20210413.1607.002.html.
WANG P X, ZHANG S B, CHEN M, et al. Coin surface defect detection algorithm based on deformable convolution and adaptive spatial feature fusion[EB/OL]. (2021-04-14) [2021-09-08]. https://kns-cnki-net.webvpn.las.ac.cn/kcms/detail/51.1307.tp.20210413.1607.002.html(in Chinese).
[6] 劉爽. 基于多約束深度網(wǎng)絡(luò)的MRI非剛性配準(zhǔn)研究[D]. 大連: 大連理工大學(xué), 2021.
LIU S. The research of MRI non-rigid registration based on multi-constrained deep network[D]. Dalian: Dalian University of Technology, 2021 (in Chinese).
[7] MA J Y, JIANG X Y, FAN A X, et al. Image matching from handcrafted to deep features: a survey[J]. International Journal of Computer Vision, 2021, 129(1): 23-79.
[8] BAY H, ESS A, TUYTELAARS T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.
[9] RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//2011 International Conference on Computer Vision. New York: IEEE Press, 2011: 2564-2571.
[10] ALCANTARILLA P, NUEVO J, BARTOLI A. Fast explicit diffusion for accelerated features in nonlinear scale spaces[J]. IEEE Trans. Patt. Anal. Mach. Intell, 2011, 34(7): 1281-1298.
[11] BARATH D, MATAS J, NOSKOVA J. MAGSAC: marginalizing sample consensus[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 10189-10197.
[12] JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[C]//The 28th International Conference on Neural Information Processing Systems. New York: ACM Press, 2015: 2017-2025.
[13] 曹國剛, 朱信玉, 陳穎, 等. 基于改進(jìn)頭腦風(fēng)暴優(yōu)化算法的醫(yī)學(xué)圖像配準(zhǔn)方法[J]. 數(shù)據(jù)采集與處理, 2020, 35(4): 730-738.
CAO G G, ZHU X Y, CHEN Y, et al. Medical image registration based on improved brain storm optimization algorithm[J]. Journal of Data Acquisition and Processing, 2020, 35(4): 730-738 (in Chinese).
[14] 岳根霞. 基于遺傳算法的多模態(tài)病變圖像關(guān)聯(lián)挖掘仿真[J]. 計算機仿真, 2021, 38(2): 225-229.
YUE G X. Image association and mining simulation of multi-modality lesion based on genetic algorithm[J]. Computer Simulation, 2021, 38(2): 225-229 (in Chinese).
[15] 李培, 姜剛, 馬千里, 等. 結(jié)合張量與互信息的混合模型多模態(tài)圖像配準(zhǔn)方法[J]. 測繪學(xué)報, 2021, 50(7): 916-929.
LI P, JIANG G, MA Q L, et al. A hybrid model combining tensor and mutual information for multi-modal image registration[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(7): 916-929 (in Chinese).
[16] SCHNEIDER N, PIEWAK F, STILLER C, et al. RegNet: Multimodal sensor registration using deep neural networks[C]// 2017 IEEE Intelligent Vehicles Symposium. New York: IEEE Press, 2017: 1803-1810.
[17] MAHAPATRA D, ANTONY B, SEDAI S M, et al. Deformable medical image registration using generative adversarial networks[C]//2018 IEEE 15th International Symposium on Biomedical Imaging. New York: IEEE Press, 2018: 1449-1453.
[18] BALAKRISHNAN G, ZHAO A, SABUNCU M R, et al. An unsupervised learning model for deformable medical image registration[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9252-9260.
[19] BALAKRISHNAN G, ZHAO A, SABUNCU M R, et al. VoxelMorph: a learning framework for deformable medical image registration[J]. IEEE Transactions on Medical Imaging, 2019, 38(8): 1788-1800.
[20] ARAR M, GINGER Y, DANON D, et al. Unsupervised multi-modal image registration via geometry preserving image-to-image translation[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 13407-13416.
[21] QIN C, SHI B B, LIAO R, et al. Unsupervised deformable registration for multi-modal images via disentangled representations[C]//The 2019 International Conference on Information Processing in Medical Imaging. Cham: Springer International Publishing, 2019: 249-261.
[22] HUANG X, LIU M Y, BELONGIE S, et al. Multimodal unsupervised image-to-image translation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 179-196.
[23] LEE H Y, TSENG H Y, HUANG J B, et al. Diverse image-to-image translation via disentangled representations[M]// Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 36-52.
[24] ISOLA P, ZHU J Y, ZHOU T H, et al. Image-to-image translation with conditional adversarial networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5967-5976.
[25] OKUTA R, UNNO Y, NISHINO D, et al. Cupy: a numpy-compatible library for nvidia gpu calculations[EB/OL]. [2021-07-19]. https://xs.dailyheadlines.cc/scholar?q=Cupy%3A +a+numpy-compatible+library+for+nvidia+gpu+calculations.
Homography estimation for multimodal coin images
DENG Zhuang-lin1,2, ZHANG Shao-bing1,2,3, CHENG Miao1,2,3, HE Lian1,2,3
(1. Chengdu Institute of Computer Applications, Chinese Academy of Sciences, Chengdu Sichuan 610041, China; 2. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049, China; 3. Shenzhen CBPM-KEXIN Banking Technology Company Limited, Shenzhen Guangdong 518206, China)
Registration of coin images under different illuminant is the predecessor of coin surface defect detection. However, the traditional multimodal registration method based on mutual information is slow and low accuracy, and the existing image registration methods realized by homography estimation based on deep learning only work in single-mode tasks. A homography estimation method based on deep learning for multimodal coin images is proposed in this paper, and image registration can be realized with the estimated homography. First, the homography estimation layer is used to estimate the homography between the pair of input images, and the homography is used for perspective transformation of the image to be registered; Then, the image translation layer is used to translate the pair of images to the same domain, and this layer can be removed in inference so as to reduce the inference time; Finally, train the network with the loss calculated using the pair of images in the same domain. Experiments show that the average distance error of the proposed method on the test set is 3.417 pixels, which is 38.71% lower than the traditional multimodal registration method based on mutual information. The inference time of the proposed method is 17.74 ms, which is much less than 6368.49 ms of the traditional multimodal registration method based on mutual information.
homography; image registration; coin; image to image translation; multimodality
TP 391
10.11996/JG.j.2095-302X.2022030361
A
2095-302X(2022)03-0361-09
2021-09-24;
2022-02-11
24 September,2021;
11 February,2022
鄧壯林(1996–),男,碩士研究生。主要研究方向為人工智能與機器視覺。E-mail:917687496@qq.com
DENG Zhuang-lin (1996-), master student. His main research interests cover artificial intelligence and machine vision. E-mail:917687496@qq.com
張紹兵(1979–),男,正研級高級工程師,碩士。主要研究方向為高速圖像處理、缺陷檢測、深度學(xué)習(xí)。E-mail:zhangshaobing@cbpm-kexin.com
ZHANG Shao-bing (1979-), senior engineer, master. His main research interests cover high-speed image processing, defect detection and deep learning. E-mail:zhangshaobing@cbpm-kexin.com