自2021年12月10日起,駕駛證電子化便利措施在全國全面推行,駕駛?cè)丝梢酝ㄟ^手機提交照片的方式在“交管12123”App上申領電子駕駛證。為提高照片審核效率、規(guī)范照片質(zhì)量,基于人工智能的數(shù)字圖像處理算法被運用在電子駕駛證業(yè)務中。本文從人臉檢測、關鍵點檢測、背景去除、質(zhì)量檢測、合規(guī)性檢測和亮度調(diào)整共六個方面,分析證件照自動處理技術,給出了詳細的分析和解決方法,為下一步如何提高照片自動審核效率、改善照片質(zhì)量提出了研究建議。
電子駕駛證具備使用便捷、不易丟失、實時可查驗等優(yōu)點,既可以在交管窗口辦理業(yè)務、接受執(zhí)法檢查時出示使用,也可在客貨運輸、汽車租賃、保險購置等各式各樣的應用場景下使用。電子駕駛證一經(jīng)推出,受到了社會各界和群眾的廣泛關注和好評。
首次申領電子駕駛證時,“交管12123”App將自動調(diào)取駕駛證申請人已留存的照片作為電子駕駛證照片,電子駕駛證生成后,可自愿選擇是否更換照片。如申請人未留存照片的,將提示申請人通過手機拍照或者相冊選擇的方式提交證件照,通過審核后,即可生成電子駕駛證。雖然通過手機提交證件照的方式便民利民,但存在兩個問題亟需解決:一是提交照片的質(zhì)量一致性差。手機上采集證件照易受環(huán)境影響,不同拍攝光線、不同角度采集的證件照差異很大,照片規(guī)范性難以約束,質(zhì)量難以統(tǒng)一,很難達到標準證件照的技術要求;二是審核工作量大。由于駕駛證屬于法定證照,審核人員需確認是否是本人、是否有違規(guī)動作、是否有過分照片處理和美化、是否有裸露等行為,審核通過后才可發(fā)放電子駕駛證。常規(guī)采用人工方式審核照片工作量大、效率低,照片審核結(jié)果不能及時反饋給用戶,用戶體驗較差。
為了提高照片審核效率、規(guī)范照片質(zhì)量,基于智能手機平臺實現(xiàn)證件照的自動處理技術有待探索。將傳統(tǒng)數(shù)字圖像處理和深度學習技術融合,證件照自動處理的精度和效率都得到了大幅提高,有效提升了用戶體驗。因此,基于深度學習技術的證件照自動處理技術被應用到電子駕駛證業(yè)務中。
數(shù)字圖像處理學科大約形成于20世紀60年代初,早期的圖像處理目的是改善圖像質(zhì)量。伴隨著硬件設施處理能力的強化和圖像處理研究的深入,數(shù)字圖像處理方法擴展至圖像壓縮、圖像增強、目標檢測、圖像分割和圖像識別等,并在復雜多變的應用場景中得到廣泛使用。智能手機的普及伴隨著圖像處理能力的飛速提升,使得數(shù)字圖像處理技術在手機上的應用越來越廣泛,智能手機中照相App的各種濾鏡、圖像變換使用的就是數(shù)字圖像處理技術,包括增強、去噪、對比度拉伸、縮放、幾何變換、灰度化、二值化、目標檢測、圖像分割、實例分割、圖像修復等。
值得注意的是,近幾年基于深度學習的人工智能技術得到了飛速的發(fā)展。得益于深度學習強大的圖像特征表示能力,越來越多的研究學者將深度學習應用于圖像處理,取得了諸多令人矚目的研究成果,并在實際應用中體現(xiàn)出了巨大的實用價值。2006 年,Geoffrey Everest Hinton(杰弗里·埃弗里斯特·辛頓)提出了深度學習算法,它本質(zhì)上屬于神經(jīng)網(wǎng)絡的一種。之后深度學習在諸多領域取得了巨大成功,受到研究學者廣泛關注。深度學習能夠取得成功有兩個重要原因。首先是大數(shù)據(jù)的出現(xiàn)在很大程度上緩解了訓練過擬合的問題。其次,計算機硬件的飛速發(fā)展提供了強大的計算能力,使得訓練大規(guī)模神經(jīng)網(wǎng)絡成為可能。目前我們使用的手機中的美顏特效、圖片搜索、人臉識別等都已經(jīng)使用到了深度學習技術。
傳統(tǒng)證件照的制作與處理主要通過手工P圖的方式實現(xiàn),這種處理方式耗時耗力,效率較低,不適合批量處理海量數(shù)據(jù)。當面對海量的圖像處理任務時,通過多種的圖像處理算法來實現(xiàn)圖片的批量處理成為研究的熱點之一。
基于計算機算法的證件照自動處理主要包括人臉定位、去背景、亮度調(diào)整三個步驟。本文將進一步細化為人臉檢測、關鍵點檢測、背景去除、質(zhì)量檢測、合規(guī)性檢測和亮度調(diào)整共六個步驟,詳細分析每個步驟的操作目的和實現(xiàn)原理。證件照自動處理流程如圖1所示。
圖1 證件照自動處理流程圖
證件照自動處理首先要做的就是人臉檢測。所謂的人臉檢測就是判斷圖像中是否包含人臉肖像及其標定包含人臉肖像在圖像中的具體位置。人臉檢測算法會采用矩形框來標注出人臉肖像在圖像中的位置,如圖2所示。
圖2 人臉檢測
在人臉檢測的過程中,會得到一個預測值Score,該預測值表明當前檢測到的人臉肖像的置信度,是指當前算法檢測到的這個框內(nèi)包含真實人臉的可能性,可通過調(diào)節(jié)Score閾值的大小,來定義篩選人臉不清楚等質(zhì)量不合格照片。證件照要求頭部位置居中,通過人臉檢測處理算法,一方面可以判定當前證件照中是否存在人臉肖像,另一方面可以根據(jù)得到的人臉框位置判定臉部是否偏移,人臉肖像占整個照片的大小是否滿足要求。
為了進一步分析證件照質(zhì)量,可采用關鍵點檢測算法得到臉部關鍵位置再進行質(zhì)量分析。常見的人臉關鍵點檢測算法有5點檢測、68點檢測等,根據(jù)檢測到的關鍵點再結(jié)合空間幾何映射計算得到俯仰角pitch、偏航角yaw和滾轉(zhuǎn)角roll,如圖3所示。根據(jù)這三個角度來判斷頭部姿態(tài)是否符合證件照要求。電子駕駛證采用了人臉關鍵點使用5點檢測,具體包括左眼、右眼、鼻子、左嘴角和右嘴角,如圖4所示,簡單、快速地進行證件照質(zhì)量分析。
圖3 頭部姿態(tài)示意圖
圖4 關鍵點檢測
證件照要求背景單一,常規(guī)為白底、紅底或藍底三種。但使用手機拍攝的人像帶有各式各樣的背景,因此,需對手機拍攝的肖像照片先進行去背景處理,如何快速準確地實現(xiàn)自動去背景成為了當前亟需解決的難題,也是當下計算機視覺領域的研究熱點。
傳統(tǒng)去背景方法利用三分圖(Trimap)來輔助解決任務,這類算法由于沒有考慮背景的復雜性,算法適應性較差。另外,由于依賴用戶提供的三分圖精度,因此不適合自動批量處理。近幾年來,基于卷積神經(jīng)網(wǎng)絡的深度學習去背景算法相繼被提出。這些算法在精度和魯棒性方面相比傳統(tǒng)方法取得了顯著的進步,即使是相對復雜的背景也能夠準確地提取出人像前景。為了能夠在移動設備上實現(xiàn)基于深度學習的去背景應用,一些算法嘗試結(jié)合MobileNet網(wǎng)絡實現(xiàn)輕量化部署,這大大優(yōu)化了移動設備上的證件照去背景性能,使得復雜的重模型能夠以輕量化的形態(tài)運行在移動設備上,從而提升人像背景去除能力,圖5展示了證件照背景替換的效果圖。
圖5 背景替換效果圖
通過人臉檢測和關鍵點檢測,可在一定程度上保障用戶的臉部位置和姿態(tài)符合證件照要求。但是受限于拍攝環(huán)境的不確定性,使用者通過手機提交的照片往往存在臉部光線過亮、光線過暗、偏光、模糊等質(zhì)量問題。因此,需要對臉部光線、模糊等問題進行檢測,判斷是否在證件照規(guī)定的要求范圍內(nèi)。
1.臉部光線檢測
結(jié)合人臉檢測和去背景人像語義分割的結(jié)果,可得到人臉區(qū)域外輪廓。接下來只需要計算人臉區(qū)域的灰度均值和顏色均值即可判斷臉部光線是否過亮、過暗以及是否偏光等光線問題。圖6顯示了部分典型光線不合格照片示例。
圖6 典型光線問題照片
2.模糊檢測
傳統(tǒng)的圖像清晰度評價算法有很多種,主要分為空域和頻域兩大類。在空域中,主要思路是考察圖像的領域?qū)Ρ榷?,即相鄰像素灰度特征之間的梯度差;在頻域中,主要思路是考察圖像的頻率分量,對焦清晰的圖像高頻分量較多,對焦模糊的圖像低頻分量較多。典型算法包括Tenengrad梯度方法、Laplacian梯度方法和方差方法。一般來說,單一清晰度評價方法誤檢率較高,精度較差。因此,為了提高檢測精度,可以綜合使用多種清晰度評價方法,利用集成學習取得更好的檢測結(jié)果。檢測證件照是否模糊可以采用傳統(tǒng)的清晰度評價算法來實現(xiàn)。
傳統(tǒng)清晰度檢測算法檢測速度快、對硬件環(huán)境要求低,但是總體的檢測精度不高。一些研究學者開始嘗試使用深度學習算法來實現(xiàn)圖像清晰度評價。基于輕量級卷積神經(jīng)網(wǎng)絡的清晰度評價算法,將清晰度檢測任務看作是一個基本的二分類問題:清晰或模糊。對于證件照任務來說,樣本場景相對比較簡單,因此,通過大量真實訓練樣本的學習可以得到比傳統(tǒng)檢測算法更好的效果。
除了常見的質(zhì)量問題以外,少量用戶存在上傳不合規(guī)照片等行為,例如存在戴口罩、戴墨鏡、戴帽子等不符合證件照規(guī)范的照片。圖7顯示了部分典型的不合規(guī)問題照片。
圖7 典型不合規(guī)問題照片
合規(guī)性檢測任務采用兩種解決方法。一種就是用一個統(tǒng)一的檢測模型,檢測所有類別及其對應的位置,例如YoloV3算法。使用這類算法訓練相對比較簡單,但是由于是多類集中學習,因此檢測結(jié)果容易產(chǎn)生混淆。還有個問題就是一旦某個類別多獲取了一些標注數(shù)據(jù),此時就需要重新訓練整個模型,訓練比較耗時。另一種方法就是將任務拆分為單個的二分類算法,針對每個二分類算法單獨訓練,這樣有助于精度的提升,并且每個分類子模型較輕,方便在移動設備上進行部署。
通過檢測的照片可能還存在少量光線較弱、較強或者不均勻的問題。因此,證件照處理最后的一個步驟就是照片亮度調(diào)整,從而使所有照片的亮度限定在一個合理的范圍內(nèi),進一步控制證件照質(zhì)量。所謂的亮度調(diào)整就是對照片的整個亮度進行分析,使得亮度分布盡可能均勻。傳統(tǒng)的亮度調(diào)整算法包括直方圖均衡化、Gamma矯正、局部亮度補償?shù)?,這類算法運算速度快、對硬件要求較低,很多手機的照相功能都集成了此類算法。圖8顯示了使用亮度補償功能后的照片處理效果。
圖8 自然場景圖像亮度調(diào)整處理效果
盡管使用方便,但是這類算法在處理不均勻亮度照片時效果較差,而且算法魯棒性不高。近年來,一些基于深度學習的光線自適應調(diào)整算法相繼被提出,尤其是基于生成對抗網(wǎng)絡的系列算法,在視覺體驗和魯棒性上均取得了巨大的進步,是未來的重要研究方向。圖9顯示了使用深度學習進行證件照人像亮度調(diào)整的效果。
圖9 證件照人像亮度調(diào)整效果
上述證件照自動處理步驟環(huán)環(huán)相扣,各環(huán)節(jié)之間的信息具有一定的互補性。只有充分掌握各個環(huán)節(jié)的處理技術,才能綜合考慮并設計出穩(wěn)定、高效的證件照自動處理系統(tǒng)。未來,可以從兩方面來改進現(xiàn)有算法和系統(tǒng)。一方面就是可以結(jié)合前沿的深度學習算法,進而有效改進現(xiàn)有模型精度,例如考慮自監(jiān)督學習算法,充分利用無標簽樣本信息來提升性能。另一方面則是可以研究知識蒸餾等模型輕量化方法將算法轉(zhuǎn)化到移動端實現(xiàn)快速處理。