陳英,吳文強(qiáng),徐亮,郭書斌
南昌航空大學(xué)軟件學(xué)院,南昌 330063
隨著計(jì)算機(jī)技術(shù)理論的不斷發(fā)展和計(jì)算機(jī)算力的逐步提升,人工智能技術(shù)迅猛發(fā)展,并在生物識(shí)別領(lǐng)域取得十分優(yōu)越的表現(xiàn)。生物特征識(shí)別是指通過判別個(gè)體之間的生理特征和行為特征的差異性進(jìn)行身份標(biāo)識(shí)的有效方式(孫哲南 等,2021)。虹膜是生物特征中備受關(guān)注的模態(tài)之一,相比于其他生物識(shí)別技術(shù),虹膜識(shí)別突出的優(yōu)勢(shì)是唯一性、穩(wěn)定性和非接觸性(Lumini 和Nanni,2017)。因此,虹膜識(shí)別吸引了各界的廣泛關(guān)注,并逐年發(fā)展壯大且走向成熟,已經(jīng)部署和應(yīng)用在國防、金融管理、智慧安防和智能家居等諸多領(lǐng)域(Nirgude和Gengaje,2022)。
Daugman(1993)最早使用Gabor 濾波器對(duì)歸一化后的虹膜圖像進(jìn)行編碼,并轉(zhuǎn)化為相應(yīng)的相位信息,然后利用二值化轉(zhuǎn)化為可以用于匹配的特征模板IrisCode,最后通過計(jì)算特征模板之間的漢明距離進(jìn)行匹配驗(yàn)證身份信息,該工作奠定了虹膜識(shí)別早期研究的基礎(chǔ),有著十分重要的意義。Monro 等人(2007)使用離散余弦對(duì)歸一化后的虹膜圖像進(jìn)行編碼,有效解決了在特征編碼中橡膠模型產(chǎn)生的圖像重疊塊問題。Kumar 和Passi(2010)提出聯(lián)合使用Haar小波和Log-Gabor濾波器對(duì)虹膜圖像相位編碼,能夠有效提升虹膜識(shí)別的性能。隨著計(jì)算機(jī)的計(jì)算能力幾何倍數(shù)地增長,越來越多的識(shí)別任務(wù)更加青睞采用深度學(xué)習(xí)的方法。Liu 等人(2016)提出使用深度學(xué)習(xí)的方法挖掘虹膜圖像對(duì)之間的映射關(guān)系,并通過多個(gè)成對(duì)濾波衡量圖像的相似度。Zhao 和Kumar(2017a)設(shè)計(jì)了基于卷積神經(jīng)網(wǎng)絡(luò)的輕量型網(wǎng)絡(luò),并提供了基于深度學(xué)習(xí)的虹膜檢測(cè)、分割和識(shí)別的框架UniNet(Zhao 和Kumar,2019),具有十分重要的意義。Zhao 和Kumar(2018)提出基于卷積神經(jīng)網(wǎng)絡(luò)的模型,引入注意力模塊使網(wǎng)絡(luò)能夠更多關(guān)注眼周圖像中重要區(qū)域,通過額外的語義區(qū)域能夠?qū)W到更多判別特征,在一定程度上增強(qiáng)了模型的魯棒性。為了提高非約束環(huán)境中虹膜識(shí)別的性能,Chen等人(2021b)提出使用基于動(dòng)態(tài)路徑搜索的虹膜分割非歸一化預(yù)處理方法,并采用基于部分卷積算子的深度卷積網(wǎng)絡(luò)提取虹膜紋理的特征,增強(qiáng)了虹膜識(shí)別在復(fù)雜場(chǎng)景下的可靠性。Choudhary 等人(2020)提出了3 種基于卷積和殘差塊集合的模型,取得了不錯(cuò)的效果。Chen 等人(2021a)提出一種基于稠密連接與注意力機(jī)制網(wǎng)絡(luò)對(duì)無分割的虹膜圖像進(jìn)行特征提取,取得了令人滿意的效果。Yang 等人(2021)提出了基于雙空間注意力機(jī)制的虹膜識(shí)別算法,通過編碼器和解碼器結(jié)構(gòu)生成多維空間的特征表示,有效提升了低質(zhì)虹膜圖像的識(shí)別性能。在虹膜領(lǐng)域的其他研究方向,張志禮等人(2022)通過引入?yún)^(qū)域注意力機(jī)制對(duì)虹膜的遮掩部分進(jìn)行補(bǔ)全以豐富虹膜特征。劉明康等人(2020)提出通過增強(qiáng)虹膜圖像的灰度空間進(jìn)行人體活體檢測(cè)。王雅麗等人(2018)使用深度學(xué)習(xí)的方式對(duì)虹膜圖像進(jìn)行粗特征提取,然后采用高斯混合模型提取Fisher 向量,并作為最終的虹膜特征表達(dá),以驗(yàn)證使用虹膜圖像進(jìn)行人種分類的可行性。
目前,虹膜識(shí)別技術(shù)已經(jīng)在多數(shù)場(chǎng)景取得了令人滿意的表現(xiàn),但在遠(yuǎn)距離、非協(xié)作場(chǎng)景下的應(yīng)用仍然面臨較大的局限性。首先,虹膜識(shí)別需要受試者站在與傳感器相對(duì)較近的距離并在相應(yīng)的提示下密切配合傳感完成身份認(rèn)證,這種限制性和不友好性的采集過程對(duì)于大規(guī)模的應(yīng)用部署有很大的局限性。其次,虹膜識(shí)別的可靠性受傳感器和虹膜之間的距離影響較大,隨著傳感器與虹膜采集距離的不斷增大,虹膜圖像質(zhì)量顯著下降,導(dǎo)致虹膜識(shí)別效果不佳(Nguyen等,2017)。
為了提高遠(yuǎn)距離、非限制場(chǎng)景下低質(zhì)圖像的虹膜識(shí)別性能,一種有效的方式是使用多種生物特征輔助虹膜識(shí)別完成可靠的身份認(rèn)證(Raffei 等,2019)。毫無疑問,融合多種模態(tài)的生物特征信息較基于單一模態(tài)的識(shí)別顯然更有優(yōu)勢(shì)。首先,盡管人體自身有多種生物特征,但每種生物特征由于其自身的特點(diǎn)在特定的應(yīng)用場(chǎng)景中具備獨(dú)特的優(yōu)勢(shì)和劣勢(shì),任何一種生物特征都無法適應(yīng)所有的應(yīng)用場(chǎng)景,在這種情況下,基于多種模態(tài)的生物特征識(shí)別能夠有效利用各自的優(yōu)勢(shì)進(jìn)行互補(bǔ)以克服其自身缺陷的不足。其次,每個(gè)人獨(dú)特的生物特征是由其自身的生理特征因素隨機(jī)決定的,例如基因,外部因素的變化無法改變其自身的特征,當(dāng)存儲(chǔ)的生物特征信息遭遇信息泄露時(shí),將面臨巨大的風(fēng)險(xiǎn),安全的認(rèn)證方式將無法得到有效保障。事實(shí)上,在生物特征識(shí)別領(lǐng)域,使用多種模態(tài)信息進(jìn)行融合識(shí)別已經(jīng)是大多數(shù)人普遍采用的方式。例如,徐碩等人(2022)融合人體的外觀特征和姿態(tài)特征,不僅能夠捕獲更豐富的步態(tài)特征,而且能夠在一定程度上降低因外觀特征對(duì)步態(tài)識(shí)別產(chǎn)生的影響。譚等泰等人(2020)通過多種方式融合視頻中的高頻信息和低頻信息,提高了行為識(shí)別的可靠精度。
值得注意的是,根據(jù)實(shí)際場(chǎng)景的需要選擇合適的模態(tài)和融合方式對(duì)虹膜識(shí)別具有十分重要的意義。在人臉的眼睛區(qū)域中包含豐富的生物特征信息,例如虹膜和眼周(Algashaam 等,2021)。眼周特指眼睛周圍的區(qū)域,包括眼瞼、睫毛、瞳孔等部位(Smereka 等,2015),傳感器可以同時(shí)捕獲眼周圖像與虹膜圖像,無需進(jìn)行二次操作。所以,非限制條件下的眼周識(shí)別逐漸成為一種頗具熱點(diǎn)的生物特征識(shí)別方式,相關(guān)的研究工作已經(jīng)證實(shí)眼周區(qū)域豐富的語義信息具備較好的可辨識(shí)性,可以用于身份標(biāo)識(shí)。Park等人(2009)研究了使用紋理點(diǎn)算子方法提取眼周區(qū)域全局和局部的特征信息,從而產(chǎn)生可用于匹配的特征集,驗(yàn)證了使用個(gè)人眼周圖像進(jìn)行身份認(rèn)證的可行性,奠定了眼周識(shí)別的研究基礎(chǔ)。Nie等人(2014)提出使用生成隨機(jī)神經(jīng)網(wǎng)絡(luò)—受限波爾茲曼機(jī)(convolutional restricted Boltzmann machines,CRBM)提取眼周圖像的語義特征,不僅可以學(xué)習(xí)輸入集的概率分布,而且在適應(yīng)圖像大小的同時(shí)降低了計(jì)算復(fù)雜度。Zhao 和Kumar(2017b)提出使用語義輔助卷積神經(jīng)網(wǎng)絡(luò)SCNN(spatial convolutional neural network)提取在較少約束的環(huán)境下自動(dòng)捕獲的眼周圖像的紋理特征,該網(wǎng)絡(luò)結(jié)合顯式語義信息自動(dòng)恢復(fù)全局眼周特征,實(shí)現(xiàn)了在相對(duì)較少數(shù)量的訓(xùn)練樣本條件下卓越的匹配精度。Proenca 和Neves(2018)提出使用不同來源的虹膜增強(qiáng)眼周圖像的抗干擾性,并使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)增強(qiáng)后的眼周圖像進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)在訓(xùn)練過程中降低對(duì)虹膜特征的依賴,取得了較為滿意的結(jié)果。Talreja 等人(2022)提出基于屬性的深度眼周識(shí)別框架(attribute-based deep periocular recognition,ADPR),將預(yù)測(cè)的軟生物特征和眼周特征融合在一起,提高了整體非約束下眼周識(shí)別的性能。Brito 和Proen?a(2021)提出了一個(gè)眼周識(shí)別框架,在提取眼周圖像特征的同時(shí),能夠提供支持決策的特征域的視覺表達(dá),有效解決了解釋不匹配問題。Mishra 等人(2022)提出使用thermo-visible 特征和集合子空間網(wǎng)絡(luò)分類器來改進(jìn)現(xiàn)有的虹膜識(shí)別系統(tǒng),提高了單一模態(tài)眼周識(shí)別的精準(zhǔn)度。Vyas(2022)旨在通過結(jié)合手動(dòng)特征和基于深度學(xué)習(xí)的特征表示來增強(qiáng)近紅外眼周圖像的表示,增強(qiáng)眼周識(shí)別的可靠性和穩(wěn)定性。
盡管眼周識(shí)別已經(jīng)取得了顯著效果,但是眼周識(shí)別容易受到復(fù)雜背景信息的干擾,性能的穩(wěn)定性無法保障,虹膜紋理特征比較穩(wěn)定,對(duì)虹膜識(shí)別的影響力有限。此外,由于景深窄、用戶移動(dòng)不合作以及曝光時(shí)間不協(xié)調(diào)等因素的影響,傳感器采集的虹膜紋理圖像受噪音影響,圖像質(zhì)量較差,而眼周圖像不容易受到上述因素的影響。綜上所述,通過融合虹膜與眼周特征的方式能夠做到模態(tài)之間的優(yōu)勢(shì)互補(bǔ),在非限制性、遠(yuǎn)距離場(chǎng)景下實(shí)現(xiàn)準(zhǔn)確、穩(wěn)定的身份驗(yàn)證。
Tan 和Kumar(2013)加權(quán)融合眼周和虹膜的匹配得分,有效提高了遠(yuǎn)距離、非理想虹膜圖像的識(shí)別精度。Santos 等人(2015)采用的融合策略與Tan 和Kumar(2013)的方法相類似,與其不同之處是,眼周和虹膜匹配得分的權(quán)重由兩層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到,該方法在一定程度上提高了移動(dòng)跨傳感器的識(shí)別性能。Ahuja 等人(2016)分別采用ROOT SIFI 和基于深度學(xué)習(xí)的方法生成虹膜和眼周的特征表示,并計(jì)算特征向量之間的歐幾里得距離和余弦距離,確定圖像之間的相似度,得到匹配得分,最后采用平均值和線性回歸方法對(duì)匹配分?jǐn)?shù)融合。Verma 等人(2016)利用隨機(jī)決策森林策略有效融合眼周和虹膜的匹配得分,在遠(yuǎn)距離虹膜識(shí)別數(shù)據(jù)集上取得了較為滿意的結(jié)果。Algashaam 等人(2021)設(shè)計(jì)了兩個(gè)神經(jīng)網(wǎng)絡(luò)用于模擬基于變換的分?jǐn)?shù)融合和基于分類的分?jǐn)?shù)融合過程,然后將兩個(gè)子網(wǎng)絡(luò)有效組合起來以達(dá)到分?jǐn)?shù)融合的目的。Wang 和 Kumar(2021)提出使用UniNet 提取兩種不同模態(tài)的辨別特征,然后將匹配得分作為神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行動(dòng)態(tài)融合,取得了較好的性能。Zhang 等人(2018)提出使用加權(quán)連接的方式,融合兩個(gè)模態(tài)的辨別特征,解決移動(dòng)設(shè)備上低質(zhì)虹膜圖像性能不佳的問題。Luo等人(2021)提出一種端到端深度特征融合的框架,使用通道注意力和空間注意力,能夠提取魯棒的辨別特征,并使用協(xié)同注意力機(jī)制融合眼周和虹膜的特征信息。但是,這些方法缺乏靈活性和自適應(yīng)性,更重要的是忽視了各個(gè)模態(tài)在不同階段語義特征的特點(diǎn)和優(yōu)勢(shì),無法將不同模態(tài)的不同階段的互補(bǔ)信息有效結(jié)合。
本文通過高效通道注意力學(xué)習(xí)跨通道間交互信息,并通過特征復(fù)用的方法在特征圖通道維數(shù)上進(jìn)行拼接,豐富了特征圖的語義信息,有效提取虹膜和眼周的判別特征。同時(shí)考慮低、中、高層的語義信息的特點(diǎn)和優(yōu)勢(shì),通過引用中間融合表達(dá)層,根據(jù)不同階段不同模態(tài)特征圖對(duì)融合產(chǎn)生的有效貢獻(xiàn)度自適應(yīng)地學(xué)習(xí)相對(duì)應(yīng)的權(quán)重,并通過加權(quán)融合的方式有效地融合虹膜和眼周的特征。
虹膜圖像和眼周圖像的預(yù)處理過程如圖1 所示,主要分為3 個(gè)步驟。首先,在原始的虹膜數(shù)據(jù)集采集的人臉圖像中定位出虹膜所處的區(qū)域并進(jìn)行裁剪;其次,使用分割算法(Chen 等,2022)對(duì)裁剪區(qū)域逐像素點(diǎn)進(jìn)行定位和分割;然后,將虹膜圖像與其對(duì)應(yīng)的掩碼圖像進(jìn)行與操作,使圖像中的非虹膜區(qū)域的像素值均變?yōu)?;最后,找到與真實(shí)虹膜區(qū)域相切的最小矩陣進(jìn)行截取。事實(shí)上,相關(guān)研究(Ahmad 和Fuller,2019)已經(jīng)證實(shí),在虹膜圖像預(yù)處理過程中,并不是必須將圖像通過歸一化形成一個(gè)固定尺寸大小的矩陣。一方面,歸一化操作會(huì)產(chǎn)生圖像塊重疊的問題;另一方面,基于深度學(xué)習(xí)的方法是基于數(shù)據(jù)驅(qū)動(dòng)的,在訓(xùn)練過程中模型能夠自動(dòng)聚焦并學(xué)習(xí)圖像中的虹膜區(qū)域,而無效的像素點(diǎn)(黑色區(qū)域)將自動(dòng)忽略。
圖1 虹膜圖像和眼周圖像的預(yù)處理過程Fig.1 The preprocessing of iris image and periocular image
眼周區(qū)域采用Zhang 等人(2018)提出的歸一化方法將眼周區(qū)域固定為統(tǒng)一大小的尺寸,具體為
式中,I(x,y)和In(xn,yn)分別指原圖像和歸一化圖像之間的映射關(guān)系,x和y代表原來的尺寸,R和Rn分別表示開始的瞳孔中心和歸一化后的瞳孔中心,w和h分別表示歸一化后尺寸的大小。虹膜圖像與眼周圖像的輸入尺寸設(shè)置為160 × 120 像素。同時(shí),在預(yù)處理階段沒有對(duì)輸入圖像進(jìn)行任何數(shù)據(jù)增強(qiáng)操作。
虹膜—眼周深度特征融合網(wǎng)絡(luò)如圖2 所示。該網(wǎng)絡(luò)從整體上可以分為兩個(gè)子網(wǎng)絡(luò)層和中間特征融合聯(lián)合表達(dá)層3 部分。子網(wǎng)絡(luò)層分別用于提取虹膜和眼周圖像的辨別特征,主要由卷積層、Block層、全局平均池化層和全連接層等結(jié)構(gòu)構(gòu)成。首先使用核大小為5 × 5卷積層對(duì)輸入的2維圖像進(jìn)行粗略的特征提取,然后利用若干個(gè)Block層對(duì)粗特征進(jìn)一步提取獲得更魯棒的辨別特征,形成語義信息更豐富的高層特征圖。
圖2 眼周—虹膜深度特征融合網(wǎng)絡(luò)Fig.2 Periocular-iris depth feature fusion network
Block 層主要由3 個(gè)串行部分依次組成,在前向傳播中第1個(gè)階段,使用BN(batch-normalization)-ReLUConv 1×1 和BN-ReLU-Conv 3×3 對(duì)輸入特征X進(jìn)行特征提取,得到X1;然后利用通道注意力機(jī)制學(xué)習(xí)特征向量通道之間的交互信息,并賦予輸入X,得到X2;最后使用Concate 操作,在空間維度上對(duì)特征向量X1和X2進(jìn)行拼接,得到輸出特征Y。通過特征復(fù)用的方法能夠有效減輕在前向傳播過程中梯度消失的問題,進(jìn)一步加深網(wǎng)絡(luò)的深度。隨后,將第1 階段的輸出作為第2階段的輸入,并在第2階段執(zhí)行相同的操作,經(jīng)過Block 層前兩個(gè)階段的特征提取操作,特征圖在通道維度上急劇增加,為了有效減輕模型的計(jì)算復(fù)雜度,再使用BN-ReLU-Conv 1×1 和平均池化層將特征圖的寬和高減少為原來的一半。在模型的Block 層中大量使用了BN-ReLU-Conv 1×1和BN-ReLU-Conv 3×3 線性整流單元來設(shè)計(jì)網(wǎng)絡(luò),目的是能夠在減少模型計(jì)算復(fù)雜度和不改變特征圖尺寸的條件下增加網(wǎng)絡(luò)的非線性特性,緩解訓(xùn)練過程中模型的過擬合,增加其泛化性。批量歸一化的計(jì)算過程為
式中,γk和βk分別表示學(xué)習(xí)的參數(shù),xk和yk表示輸入和輸出特征圖。
高效通道注意力(Wang等,2020)能夠在特征圖維度不改變的情況下,學(xué)習(xí)跨通道之間的相關(guān)性,具體實(shí)現(xiàn)過程為
式中,δ代表非線性激活函數(shù)ReLU。
首先,使用全局平均池化層(global average pooling,GAP)將特征圖的寬高均轉(zhuǎn)化為1,得到1 × 1 ×C的特征矩陣,其計(jì)算過程為
然后,對(duì)1 × 1 ×C的矩陣進(jìn)行1 維卷積操作,學(xué)習(xí)不同通道之間的交互信息,卷積核大小為K,K值的大小是非靜態(tài)的,由輸入特征圖的通道維數(shù)決定,其計(jì)算過程為
式中,C表示輸入特征圖的通道維數(shù),α和γ的初始值分別設(shè)置為2和1,|·|odd表示向下取整操作。
最后,將學(xué)習(xí)到的通道注意力值賦予對(duì)應(yīng)維度,得到輸出X2。通過使用注意力機(jī)制和Concate 操作能夠在網(wǎng)絡(luò)前向傳播的過程中達(dá)到特征復(fù)用的目的,有效減輕梯度消失的問題,提升模型的識(shí)別性。
不同模態(tài)在不同階段對(duì)融合特征的直接貢獻(xiàn)不同,為此,在模型中引入中間融合聯(lián)合表示層,該層根據(jù)虹膜和眼周低、中、高層語義特征對(duì)融合產(chǎn)生的貢獻(xiàn)賦予不同的權(quán)重,如果其中一種模態(tài)對(duì)識(shí)別的貢獻(xiàn)更大,則會(huì)賦予更大的權(quán)重,并通過加權(quán)組合的方式融合特征。中間融合聯(lián)合表達(dá)層的具體實(shí)現(xiàn)細(xì)節(jié)為
在前向傳播階段,HCj,HIj,HPj分別表示第j個(gè)中間融合層、虹膜以及眼周的特征矩陣,α、β和γ分別表示對(duì)應(yīng)學(xué)習(xí)的權(quán)重值,在訓(xùn)練的初始階段,α,β,γ的初始值都為1;在反向傳播階段,所有可訓(xùn)練的權(quán)重參數(shù)利用隨機(jī)梯度下降算法更新最新權(quán)重,直至模型收斂,最終學(xué)習(xí)到最優(yōu)權(quán)重值,權(quán)重更新的實(shí)現(xiàn)過程為
經(jīng)過上述過程提取的高層語義特征能夠很好地反映原始圖像的紋理信息,但是特征圖的維數(shù)過高,為了進(jìn)一步提取高層語義特征的顯著信息,采用全局平均池化層,將形狀大小為W×H×C的特征矩陣轉(zhuǎn)化為1 × 1 ×C的特征向量,W,H,C分別表示為特征圖的寬、高和通道維數(shù)。然后,使用全連接層將通道維數(shù)轉(zhuǎn)變?yōu)镹,N為數(shù)據(jù)集圖像的類別數(shù)。最后,通過加權(quán)融合全連接層的辨別特征,并使用softmax函數(shù)將其標(biāo)準(zhǔn)化作為最終輸出的辨別特征,其計(jì)算過程為
式中,α,β,γ分別表示學(xué)習(xí)的權(quán)重。eIj,ePj,eCj分別表示虹膜、眼周和中間融合層1 × 1 ×N向量的第j個(gè)值,在初始階段,權(quán)重值都設(shè)置為1;在后向傳播階段,應(yīng)用隨機(jī)梯度下降方法更新權(quán)重,直至模型收斂,權(quán)重更新結(jié)束。權(quán)重更新過程與式(7)類似。在模型訓(xùn)練階段,使用交叉熵?fù)p失函數(shù)衡量預(yù)測(cè)結(jié)果和真正例樣本之間的誤差大小。誤差越大,表示預(yù)測(cè)結(jié)果更偏離真實(shí)結(jié)果。交叉熵?fù)p失函數(shù)的計(jì)算為
式中,PN表示預(yù)測(cè)結(jié)果,TN表示真實(shí)標(biāo)簽。在測(cè)試階段,本文沒有使用普遍采用的IrisCode 模板作為特征模板,而是直接使用網(wǎng)絡(luò)最后一層全連接層使用softmax 將其標(biāo)準(zhǔn)化,并作為實(shí)值特征模板。從分類問題上看,該實(shí)值特征模板就是圖像類別的預(yù)測(cè)概率,向量中的最大值的下標(biāo)即為預(yù)測(cè)的圖像類別。模型主要結(jié)構(gòu)如表1所示。
表1 模型的具體結(jié)構(gòu)Table 1 Specific structure of the model
ND(notre dame)-IRIS-0405(Phillips 等,2010)數(shù)據(jù)集共288 個(gè)受試者的虹膜圖像,每個(gè)受試者為一類,每類虹膜圖像包括25幅左眼虹膜和10幅右眼虹膜圖像,虹膜圖像總數(shù)量共10 080幅,較大的虹膜數(shù)據(jù)集有效避免了模型在訓(xùn)練中的過擬合問題。每類虹膜圖像的前18 幅左眼和前7 幅右眼圖像用于訓(xùn)練,后7 幅左眼和3 幅右眼圖像用于測(cè)試,訓(xùn)練集與測(cè)試集的比例為5∶2。因此,測(cè)試集共包括12 960個(gè)類內(nèi)得分和4 132 800個(gè)類間得分。
CASIA(Institute of Automation,Chinese Academy of Sciences)-Iris-M1-S3(Zhang 等,2018)數(shù)據(jù)集使用移動(dòng)設(shè)備采集了360 個(gè)受試者的人臉圖像,每個(gè)受試者為一類,每類包含10 幅圖像。經(jīng)裁剪后,每類得到10幅左眼和10幅右眼圖像,即該數(shù)據(jù)集共包含3 600幅左眼和3 600幅右眼圖像。左眼圖像劃分為訓(xùn)練集,右眼圖像劃分為測(cè)試集。因此,測(cè)試集共包括16 200個(gè)類內(nèi)得分和6 462 000個(gè)類間得分。
CASIA-Iris-Distance(Tan,2018)數(shù)據(jù)集是中國科學(xué)院采集的遠(yuǎn)距離虹膜圖像,共采集了142 個(gè)受試者的人臉虹膜圖像,每個(gè)受試者采集的圖像數(shù)量不同,但都至少有10 幅,圖像數(shù)量共2 567 幅。實(shí)驗(yàn)中使用所有類別的前10 幅圖像作為一個(gè)新數(shù)據(jù)集,共1 420幅。經(jīng)裁剪得到10幅左眼和10幅右眼圖像,左右眼不加以區(qū)分,視為同一類。每類的前5幅左眼和前5 幅右眼圖像作為訓(xùn)練集,余下部分作為測(cè)試集,測(cè)試集共6 390 個(gè)類內(nèi)得分和2 008 590 個(gè)類內(nèi)得分。詳細(xì)參數(shù)如表2所示。
表2 使用的數(shù)據(jù)集詳細(xì)信息Table 2 The details of used dataset
圖3 為使用的數(shù)據(jù)集的圖像示例。ND-IRIS-0405 數(shù)據(jù)集采集的紋理較為清晰,圖像質(zhì)量較好,數(shù)據(jù)集數(shù)量較大,能夠有效避免訓(xùn)練中的過擬合現(xiàn)象。CASIA-Iris-M1-S3 數(shù)據(jù)集是使用移動(dòng)端手機(jī)短距離(采集距離為20~30 cm)設(shè)備采集的人臉圖像,虹膜的紋理信息較為模糊,圖像質(zhì)量較差。CASIA-Iris-Distance 數(shù)據(jù)集在長距離(采集距離為3~4 m)非限制狀態(tài)下捕獲的虹膜紋理區(qū)域,容易受到睫毛和眼瞼等遮擋因素的干擾,同時(shí)由于捕獲距離較長,紋理信息比較模糊,類間特征差異較大。
圖3 采用的虹膜數(shù)據(jù)集圖像示例Fig.3 Examples of iris dataset images used((a)NDIRIS-0405;(b)CASIA-Iris-M1-S3;(c)CASIA-Iris-Distance)
實(shí)驗(yàn)環(huán)境的具體參數(shù)如表3 所示。學(xué)習(xí)率的初始 值 為0.001,當(dāng) 訓(xùn) 練100 個(gè)epoch 之 后,每50 個(gè)epoch 將減少學(xué)習(xí)率為原來的1/10,共訓(xùn)練300 個(gè)epoch。由于硬件設(shè)施的局限性,batch size 最大值只能設(shè)為8。
表3 實(shí)驗(yàn)環(huán)境的具體參數(shù)Table 3 Specific parameters of experimental environment
與其他實(shí)驗(yàn)對(duì)比選取的評(píng)價(jià)指標(biāo)包括FRR(false reject rate)、TAR(true accept rate)和EER(equal error rate)。FRR 和EER 數(shù)值越低說明性能越優(yōu)越,TAR則反之。圖4分別是3個(gè)數(shù)據(jù)集中虹膜識(shí)別、眼周識(shí)別以及虹膜—眼周融合識(shí)別的受試者工作特征曲線(receiver operating characteristic curve,ROC)。
圖4 提出的方法在3個(gè)公開數(shù)據(jù)集的ROC曲線Fig.4 The ROC curves of the three public datasets((a)NDIRIS-0405;(b)CASIA-Iris-M1-S3;(c)CASIA-Iris-Distance)
表4 是本文方法與其他方法在ND-IRIS-0405 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比??梢钥闯觯疚姆椒ǖ腅ER 和FRR(FAR = 0.1%)分別為0.19%和0.21%,與對(duì)比方法表現(xiàn)出的最好的0.37%和0.70%相比有較高程度的性能提升。這是因?yàn)?,一方面,本文方法能夠有效地提取出辨別性更強(qiáng)的特征信息,虹膜和眼周識(shí)別的EER 值分別為0.45%和0.60%,均不超過1%,遠(yuǎn)低于對(duì)比方法的1.21%和0.63%。另一方面,深度特征融合方法能夠有效地融合虹膜和眼周的特征信息,生成判別性更強(qiáng)的語義特征。
表4 本文方法與其他方法在ND-IRIS-0405數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results between other methods and ours on ND-IRIS-0405 dataset/%
表5 和表6 分別是本文方法與其他方法基于CASIA-Iris-M1-S3和CASIA-Iris-Distance 兩個(gè)數(shù)據(jù)集的單模態(tài)和融合方法的實(shí)驗(yàn)結(jié)果對(duì)比,比較的性能指標(biāo)主要是TAR 和EER。由于這兩個(gè)公開數(shù)據(jù)集的圖像質(zhì)量不佳且采集距離較遠(yuǎn),對(duì)識(shí)別算法具有一定的挑戰(zhàn)??梢钥闯觯贑ASIA-Iris-M1-S3 數(shù)據(jù)集中,本文方法的TAR(FAR = 0.01%)和EER 值分別表現(xiàn)為97.77%和0.48%,而對(duì)比方法中表現(xiàn)最好的TAR 和EER 值分別是97.3%和0.73%。特別是單一的虹膜識(shí)別,本文方法的TAR 和EER 值為96.69%和0.67%,均優(yōu)于對(duì)比方法的融合性能,有力地驗(yàn)證了本文方法在模糊導(dǎo)致的圖像質(zhì)量不佳時(shí)依然能夠充分地提取出魯棒的辨別特征。作為具有挑戰(zhàn)性的虹膜數(shù)據(jù)集CASIA-Iris- Distance,現(xiàn)有方法表現(xiàn)最好的EER值和TAR 值分別為2.20%(虹膜識(shí)別)和87.25%(虹膜識(shí)別),盡管該方法在單模態(tài)虹膜識(shí)別的各項(xiàng)指標(biāo)均優(yōu)于本文所提出的單模態(tài)虹膜識(shí)別,但是本文方法通過融合眼周區(qū)域的特征能夠彌補(bǔ)虹膜識(shí)別的不足,提高整體身份驗(yàn)證的準(zhǔn)確度。
表5 本文方法與與其他方法在CASIA-Iris-M1-S3數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparison of experimental results between other methods and ours on CASIA-Iris-M1-S3 dataset/%
表6 本文方法與其他方法在CASIA-Iris-Distance數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果對(duì)比Table 6 Comparison of experimental results between other methods and ours on CASAI-Iris-Distance dataset/%
2.4.1 輸入圖像尺寸的影響
由于計(jì)算機(jī)硬件條件的限制,模型的輸入圖像尺寸未與對(duì)比方法保持一致(224×224 像素),為了保證實(shí)驗(yàn)數(shù)據(jù)的公平性,避免圖像尺寸造成的干擾,設(shè)置了相關(guān)的一組消融實(shí)驗(yàn)。在該實(shí)驗(yàn)中,將輸入尺寸由160 × 120 像素改變?yōu)?28 × 64 像素,其他參數(shù)保持不變。
圖5 顯示了不同輸入尺寸下識(shí)別率曲線和ROC曲線??梢钥闯?,在識(shí)別率曲線中,隨著訓(xùn)練次數(shù)的增加,識(shí)別率曲線不斷收斂,尺寸的變化并不影響網(wǎng)絡(luò)收斂的速度,收斂速度保持相對(duì)一致。
圖5 輸入圖像尺寸的影響Fig.5 Influence of input image size((a)curves of Rank;(b)curves of ROC)
表7 為輸入圖像尺寸實(shí)驗(yàn)結(jié)果對(duì)比。從表7 可以看出,隨著輸入尺寸的不斷縮小,識(shí)別效果會(huì)受其影響導(dǎo)致識(shí)別精度相應(yīng)下降,融合后的EER 值由0.19%上升至0.45%,魯棒性顯著下降。這說明盡管模型輸入尺寸小于對(duì)比方法,但是由于本文方法獲取的特征更具有辨別性,因此性能表現(xiàn)較為優(yōu)越。
表7 輸入圖像尺寸實(shí)驗(yàn)結(jié)果對(duì)比Table 7 Comparison of experimental results of input image size/%
2.4.2 數(shù)據(jù)增強(qiáng)的影響
為了防止模型在訓(xùn)練中模型的輸入偏向訓(xùn)練集而導(dǎo)致的過擬合現(xiàn)象,設(shè)計(jì)了兩組實(shí)驗(yàn)并分別對(duì)數(shù)據(jù)集添加高斯噪聲和椒鹽噪聲。應(yīng)該注意到,添加噪聲在一定程度上會(huì)影響圖像質(zhì)量導(dǎo)致識(shí)別性能下降,對(duì)特征提取的算法具有一定的考驗(yàn),從而反映該算法的魯棒性。圖6 和圖7 分別是有無高斯噪聲和椒鹽噪聲對(duì)比的識(shí)別率曲線和受試者工作特征曲線,從圖中可以看出,在添加噪音之后,識(shí)別率曲線相對(duì)抖動(dòng)較大,最終的收斂速度與未添加噪聲保持相對(duì)一致。表8是數(shù)據(jù)增強(qiáng)的實(shí)驗(yàn)結(jié)果對(duì)比。從表8可以看出,添加噪聲的EER值均為0.23%,略高于無噪聲因素干擾的0.19%,盡管如此,仍然低于對(duì)比方法中的0.37%,再次說明了本文方法具有較強(qiáng)的魯棒性,能夠在圖像質(zhì)量不佳時(shí)表現(xiàn)出優(yōu)異的性能。
表8 數(shù)據(jù)增強(qiáng)的實(shí)驗(yàn)結(jié)果對(duì)比Table 8 Comparison of experimental results of data enhancement/%
圖6 高斯噪聲的影響Fig.6 Influence of Gaussian noise((a)curves of Rank;(b)curves of ROC)
圖7 椒鹽噪聲的影響Fig.7 Influence of salt and pepper noise((a)curves of Rank;(b)curves of ROC)
2.4.3 注意力機(jī)制的影響
為了驗(yàn)證通道注意力機(jī)制與特征重用組合模塊對(duì)模型的性能的影響,移除Block模塊中的注意力模塊,采用注意力模塊的輸入進(jìn)行替代,其他網(wǎng)絡(luò)結(jié)構(gòu)以及實(shí)驗(yàn)中超參數(shù)完全保持一致,在3 個(gè)數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),結(jié)果如表9—表11所示??梢钥闯?,移除通道注意力模塊并使用注意力模塊的輸入進(jìn)行替代會(huì)降低匹配精度,這是因?yàn)橐胪ǖ雷⒁饬梢詫W(xué)習(xí)到特征圖通道之間的交互信息,在一定程度上增強(qiáng)了特征的判別性,語義信息更加豐富。特征向量在通道維度上的拼接又能很好地保留有效的特征,避免在網(wǎng)絡(luò)傳播中有效特征丟失的問題。
表9 在ND-IRIS-0405數(shù)據(jù)集上通道注意力機(jī)制影響的結(jié)果對(duì)比Table 9 Comparison of experimental results of channel attention on ND-IRIS-0405 dataset/%
表10 在CASIA-Iris-M1-S3數(shù)據(jù)集上通道注意力機(jī)制影響的結(jié)果對(duì)比Table 10 Comparison of experimental results of channel attention on CASIA-Iris-M1-S3 dataset/%
表11 在CASIA-Iris-Distance數(shù)據(jù)集上通道注意力機(jī)制影響的結(jié)果對(duì)比Table 11 Comparison of experimental results of channel attention on CASIA-Iris-Distance dataset/%
本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)通過聯(lián)合使用高效通道注意力機(jī)制和特征重用的方法在一定程度上能夠減緩模型梯度消失的問題,有助于加深模型的深度,獲取魯棒的辨別特征。同時(shí),通過引入中間融合聯(lián)合表達(dá)層根據(jù)不同模態(tài)的低、中、高層語義特征產(chǎn)生的貢獻(xiàn)程度自適應(yīng)地學(xué)習(xí)相對(duì)應(yīng)的權(quán)重,并最終通過加權(quán)融合的方式有效地將虹膜和眼周特征融合為更具辨別性的特征,提升了遠(yuǎn)距離、非協(xié)作狀態(tài)下虹膜識(shí)別性能。與其他方法相比較,本文方法更加注重不同階段特征的差異性,而不是僅聚焦于高維語義特征的差異,在一定程度上能夠增強(qiáng)融合特征的可辨別性,并且該方法容易實(shí)現(xiàn)和訓(xùn)練。但是,應(yīng)該注意到,該工作沒有具體衡量不同階段對(duì)最終融合結(jié)果的影響作用的差異性。在下一步工作中,將考慮如何利用不同階段產(chǎn)生影響的差異性更加高效地融合其語義特征,同時(shí)將工作重點(diǎn)聚焦于移動(dòng)端設(shè)備遠(yuǎn)距離、非協(xié)作場(chǎng)景下的虹膜識(shí)別,這對(duì)于虹膜識(shí)別在現(xiàn)實(shí)中的大規(guī)模部署和應(yīng)用,具有十分重要的現(xiàn)實(shí)意義。