王 茜 陳欣如
1(上海市公安局刑事偵查總隊信息中心 上海 200083) 2(國網(wǎng)上海市電力公司市南供電公司 上海 201199)
近年來人像識別技術在公共安全領域中得到了越來越多的應用,但許多在專業(yè)刑偵領域中對案件偵破起到決定作用的人像要素,如嫌疑人模擬畫像[1]、目擊者的頭腦印象(mental image)[2]、被害人顱骨復原像[3]、描述者語義化的特征描述[4]等,由于無法進行常規(guī)人像比對和語義化屬性檢索,從而陷入只能依靠人工篩選的困境。同時在大量視頻偵查應用中,許多非正面、殘缺、超分辨率等未達到人像識別和檢索質量要求的素材,而往往被現(xiàn)有的人像檢索系統(tǒng)拒之門外。本文將上述非標準、非常規(guī)的人像檢索問題統(tǒng)一歸類為“非標人像檢索”問題,嘗試尋找可行的解決方法。
以往針對“非標人像”檢索問題的研究相對較少,在專門對應算法方面的研究幾乎空白,因此只能通過人臉角度糾正、超分辨率圖像清晰化處理、人像補全等圖像處理方法修正“素材”來達到檢索的目的,耗費人工且效果不佳。近年來,少數(shù)學者開始著眼于該領域,文獻[1]基于湯曉鷗教授早期的研究,通過將所有非標圖像、頭腦印象均繪制為模擬畫像的方法實現(xiàn)了異質人像(Heterogeneous Image)比對方法,但效果極大地受制于目擊者的描述能力以及繪制者的專業(yè)水平;文獻[2]針對頭腦印象進行了深入研究,并試圖通過新興腦科學中的神經影像學方法偵測出人腦中包含特征的相關人像;文獻[5]提出了利用人類智能“告知”機器操作者傾向的交互式檢索技術,可“根據(jù)用戶需求突出顯示最相關的結果”;文獻[6]進一步提出了可運用交互式技術解決模糊圖像、頭腦印象搜索問題的觀點,并構建了一套基于超圖度量學習(HpyerGraph Metric Learning,HML)的交互式人像檢索系統(tǒng),為本文的研究奠定了基礎。
本文針對非標人像檢索的應用需求,首先引入公安行業(yè)標準化人像屬性并通過多標簽分類神經網(wǎng)絡[7](Multi-label Classification Convolutional Neural Network, MLCNN)實現(xiàn)了人像屬性分類。接著通過人工交互的方式區(qū)分顯著性與非顯著性語義屬性,提出一種基于顯著性語義屬性的交互式非標人像檢索方法,并最終根據(jù)該方法構建了一套循環(huán)少、收斂快的交互式人像檢索應用。
近幾年來,多位學者提出了基于語義的多標簽圖像檢索方案,其中,文獻[8]構建了基于支持向量回歸的機器學習方法(Support Vector Regressor based Machine Learning,SVR-L),以提升算法對高維人臉的分辨能力,并明確提出了該方法可用于“描述檢索嫌疑犯”;文獻[9]提出多標記收縮哈希方法,可以保留多標記圖像的多水平語義相似性,使其更適用于更大規(guī)模的圖像搜索;文獻[10]提出了通過多標簽屬性神經網(wǎng)絡解決多標記圖像的快速行人分類檢索方法。文獻[10]和文獻[11]將該方法運用于相似服裝的精細化檢索中,均取得了較好的效果,證明了多標簽屬性神經網(wǎng)絡能較好地解決細粒度(fine-grained)圖像的檢索問題。
對于人像的描述和特征屬性,我國公安行業(yè)已有現(xiàn)行的國級、部級標準(下簡稱行標)。較之現(xiàn)有CelebA(Large-scale CelebFaces Attributes Dataset)、LFW(Labeled Faces in the Wild Home)等已知的開放數(shù)據(jù)集而言,行標屬性分類一是針對部件(主要指面部五官)的分類更細致,二是其關心的五官及整體面部特征與開放數(shù)據(jù)集不盡相同,如CelebA數(shù)據(jù)庫中40種屬性中僅有18種涉及到行標關心的五官及整體面部特征,三是屬性值設定更加符合國人的表述方式,如三角眼、長方臉等。表1為本文采用的行標與CelebA中相關屬性的比較(僅列出鼻部、前額部的相關屬性)。本文通過多標簽分類神經網(wǎng)絡對人像庫進行了基于行標分類標簽,并生成了基于行標語義屬性的人像分類表示集。
表1 本文采用的人像語義屬性與CelebA中的屬性設置的比較(前額部、鼻部)
交互式圖像檢索技術是將人的參與引入到檢索過程中,以解決人眼視覺和機器視覺間很難跨越的“語義鴻溝”[7]的檢索技術。近幾年,學者們注意到該方法的優(yōu)越性,嘗試將該方法作為人工分辨環(huán)節(jié)(human loop)[12]與各類機器視覺算法結合使用,在人像檢索領域中,獲得了較好的應用效果。
在交互方式上,絕大多數(shù)交互式系統(tǒng)采用了更加便于機器理解的“是或否”的二進制(binary)選擇方案,部分采用了選擇式方案[6]、比較式方案[8]、問答式方案[13]。本文在交互式檢索部分提出采用了“多選一”式的選擇交互方案,以減少交互次數(shù)、提升算法效率,并通過分類排序和部分丟棄策略進一步解決單一交互式系統(tǒng)計算量大、收斂慢的問題。
圖像顯著性屬性(也可稱為視覺興趣屬性)的原理是讓機器模仿人眼對圖像不同區(qū)域的重視程度,提取出圖像的主要特征屬性[14]。其難點在于機器往往對何為顯著性屬性這一問題無法成功把握。對此,本文提出利用交互式系統(tǒng)“人機互動”的天然優(yōu)越性,讓操作者直接“告知”機器所尋找目標的顯著性屬性,從而大大降低了查找的范圍,提升了算法的效率。
基于顯著性語義屬性的交互式人像檢索方法主要由以下幾個步驟組成:基于行標語義屬性構建一個多標簽學習神經網(wǎng)絡,將圖像轉化為各屬性標簽的表示集[15];進行第一次人機交互,標記顯著性語義屬性,分類及分類排序包含顯著性屬性圖像集和剩余圖像集,并根據(jù)策略獲取下一步候選隊列(candidates);循環(huán)進行第二步層進式人機交互,并根據(jù)人工選擇結果進行再排序,生成下一循環(huán)的候選隊列,直至操作者確認結束。本文提出的基于顯著性語義屬性的交互式非標人像檢索方法的整體框架如圖1所示。
圖1 基于顯著性語義屬性的交互式非標人像檢索方法示意圖
方法的細化實施過程如下:
(1) 設I幅訓練圖像集為{xi|xi∈Xv},v為圖像向量的維度。設共計L個行業(yè)規(guī)范化屬性標簽集合Z為一維二進制向量{zl|zl∈Z}。應用MLCNN神經網(wǎng)絡,將訓練圖像集轉化為v×L維的屬性表示集,即:
yi,l=Rep(xi) 1≤i≤I,1≤l≤L
(1)
式中:Rep(·)為從Xv到Yv×L的轉化函數(shù)。在假設每個屬性的貢獻(contribution)參數(shù)δ(i,l)一致的情況下,圖像xi基于各屬性的分值函數(shù)Score(xi)為yi,l個分屬性損失函數(shù)C(i,l)的和,即:
(2)
C(i,l)為各有效屬性的Softmax多標記損失函數(shù)值:
(3)
根據(jù)Score(xi),生成X的屬性分值矩陣Si,從而生成各圖像xi1和xi2間基于屬性的距離函數(shù)Dis(xi1-xi2):
Dis(xi1-xi2)=(Si1-Si2)T(Si1-Si2)
(4)
(2) 交互式顯著性屬性獲取及初排序。在每次初始化的工作界面上,系統(tǒng)通過交互界面,列出了屬性Z中對應的屬性值以供操作者選擇。交互者僅需選擇某幾個印象深刻、確定屬性的屬性值,而對其他相對模糊、無法確定的屬性選項予以留白。設每次循環(huán)操作者的選擇為目標Qr,其中Q0為我們對初始化操作設置的目標,根據(jù)操作者對s個輸入的人工選擇集合記為GQ0,我們生成了s個人工屬性集合GQr={g1,g2,…,gs}。根據(jù)GQr(r=0),我們將規(guī)范化屬性標簽集合Z中所有屬性分類為顯著性屬性和非顯著性屬性,將屬性集zl改寫為zl,φ(l),并將顯著性屬性判斷函數(shù)φ(i,l)置為:
(5)
(6)
式中:α(r)表示當{φ(i,l)=1}即判斷該屬性為顯著性,或{φ(i,l)=0}即判斷該屬性為非顯著性時δ(l)會選用不同的屬性貢獻值;r是交互的循環(huán)次數(shù)。設初始值α(0)=0.9,且:
α(r+1)=min(0.5,α(0)-0.05r)r>0
從而使后續(xù)循環(huán)中,顯性屬性較之非顯性屬性優(yōu)勢逐漸衰減,直至r=10后,兩者屬性貢獻值一致,從而保證算法在最為重要的前10次循環(huán)中達到快速收斂的目的。同時,顯性屬性優(yōu)勢不斷衰減減少顯著性屬性選擇不當所造成的損失。
將Y分為Y+和Y-是為了在下一步中實施不同的圖像集縮小策略,以減少每次交互檢索的計算量,而設置較大的α值,會使得初始排序中與目標相似屬性越多的訓練圖像相似度排序明顯靠前,快速接近目標圖像。
將式(6)代入式(5)進行重新計算,獲得了兩個基于目標Qr按距離倒敘排列的基于顯著屬性距離的隊列RankA(Qr,Ar)∈Y+和非顯著屬性距離排序RankB(Qr,Br)∈Y-。通過Top(·)取位函數(shù)分別取RankA和RankB的前ta和前tb位(本文設ta=15和tb=5)入選交互顯示集Candidate(r),即:
Candidate(r)=Top(RankA(Qr,Ar),ta)∩
Top(RankB(Qr,Br),tb)
(7)
獲取了初始候選人排序隊列Candidate(0)。
(3) 混合相似度再排序交互式檢索。為最大幅度減少人工誤差,增加機器視覺的輔助判斷作用,在這一步檢索中,對每次人工選擇Choice(r)∈Candidate(r-1)提取的LBP加HSV的整體復合特征Fu,并采用基于改進保持直接簡單原則的度量方法(Keep it Simple and Straightforward Metric, KISSME)生成融合特征相似度距離矩陣A:
Dis(xi1-xi2)=(Ai1-Ai2)T(Vin-1-Vout-1)(Ai1-Ai2)
(8)
根據(jù)式(4)和式(8)生成融合距離函數(shù),即:
D(xi1-xi2)=(1-μ)Dis(xi1-xi2)+μDis(xi1-xi2)
(9)
式中:μ為輔助特征權重函數(shù),將這一權值設置簡單化,即如果人工選擇Qr+1落在式(7)中前一循環(huán)候選人隊列中Top(RankA(Qr,Ar),ta)部分,則說明基于顯著屬性的檢索效果好,執(zhí)行策略1,μ=0.1;反之執(zhí)行策略2,μ=0.5。
為避免無效循環(huán)和加速收斂,在每次循環(huán)的再排序步驟前,增加了聚類后的候選人轉化操作Kmean():
Top′(RankA(Qr,Ar),ta)=
Kmean(Top(RankA(Qr,Ar),ta))
(10)
以Top(RankA(Qr,Ar),ta)為初始質心,對RankA(Qr,Ar)集合做k-means聚類操作,獲取新質心最近圖片集Top′(RankA(Qr,Ar),ta)。
同時,為減少每次循環(huán)的計算量,進一步加速收斂,當實施策略1時,將RankB(Qr,Br)丟棄,將RankA(Qr,Ar)按前后各一半分給RankA(Qr+1,Ar+1)和RankB(Qr+1,Br+1);反之在策略2中,將RankB(Qr,Br)的后一半丟棄,前一半加入RankA(Qr,Ar),并根據(jù)式(8)生成的倒序排列前后各半分賦值給RankA(Qr+1,Ar+1)與RankB(Qr+1,Br+1),再實施檢索。
基于以上策略,不斷地在進行生成Candidate(r)、候選人聚類轉化、獲取Qr、生成RankA(Qr,Ar)、生成Candidate(r+1)幾個操作中進行循環(huán),最終通過人工斷定找到最終目標終止循環(huán)。
上述操作和權值設置既避免了僅依靠屬性識別帶來的弊端,又可以不斷縮減矩陣大小,減少了每次交互循環(huán)算法的消耗,實現(xiàn)了提升識別效果和快速檢索目標的雙重作用,從而使算法可應用于中大型規(guī)模的數(shù)據(jù)集。
為貼近行業(yè)應用的需求,本文采用了行業(yè)內收集的人像樣本,構建了30萬人人均1.7幅正面照片庫Df作為訓練集。所有圖像根據(jù)行標分為73個語義類別,合計315個屬性。為避免某一屬性下零樣本和小樣本的情況,本文手工挑選了Df中1 000人,以保證每個屬性下的分類圖像數(shù)DifN大于等于5,進行了專家級標注,該標準人像集記為Ds。通過MLCNN方法,生成了D的屬性表示集Dfd。
驗證人員UserS共計40人,他們被分為2組,UseA組20人為專業(yè)偵查人員,UseB組20人為一般測試人員。
實驗將兼顧算法本身性能和應用效果,圍繞本文方法的重點,在算法收斂速度、精度、性能,以及應用適用性等方面進行驗證。為此,本文構建實驗方法如下:
1) 不同方法生成度量距離的效果比較。本文的檢索性能通過查準率P(precision)、召回率R(Recall)和F1(F-measure)值衡量,實驗結果如表2所示。
表2 各算法生成度量距離結果比較(r=1)
2) 引入顯著性屬性查詢結果比較。通過計算累積精度值[8](cumulative precision)P(r)作為每次循環(huán)r可能成功的概率,精確評估算法的性能,結果如圖2所示。其中,con為無顯著性屬性的結果,con+為添加顯著性屬性和非顯著性屬性分類的結果。由于本文算法在r=0時進行了初排序,故P(r)初始值不為0。
圖2 添加顯著性屬性對算法P(r)值的影響
3) 用戶能力對算法結果影響測試。已知交互式系統(tǒng)對用戶的專業(yè)性、熟練度要求較高,且最終是否能檢索成功存在一定隨機性[6]。將用戶組UseA和UseB用每種方法共10次進行分類結果記錄,得到表3。最終成功數(shù)也參照設置HML方法,即60次循環(huán)為人可接受的最大交互次數(shù),超過則視為失敗;其他數(shù)值在統(tǒng)計中均去除了檢索失敗的情況。其中,本文方法在循環(huán)次數(shù)上均需要加一,這是因為本文方法循環(huán)次數(shù)上需要增加其他文獻方法所沒有的顯著性屬性交互初排序步驟(r=0)。
表3 各算法檢索效能比較
4) 對不同應用適用性能力應用方法比較測試。從D中隨機選出40幅目標圖像作為目標集合,其中10幅人像記為Query1被轉化為專業(yè)人像畫家根據(jù)照片繪制的模擬畫像,但操作時為全程可見;10幅人像Query2被進行模糊化或殘缺處理(處理至類似低清視頻中效果),也全程可見;10幅圖像Query3未被處理,但僅允許操作者記憶3秒后隱藏顯示;10幅圖像Query4被轉換成60度側面照(無法完全看清全臉),且操作時為全程可見。由UseA、UseB用戶組分別應用本文算法進行三種目標圖像的各10次的檢索,并繪制圖3。
圖3 不同用戶組檢索不同目標的P(r)值曲線圖
1) 根據(jù)表2可知,本文所用的度量距離方法,在查準率、召回率、F1值上均達到同類算法最優(yōu),尤其是查準率較之其他算法提高最多,提升了3到7個百分點,證明了算法在度量距離取值方法上的優(yōu)越性。
2) 根據(jù)圖2,未添加顯著性屬性的con曲線較之con+更加平滑;而添加顯著性屬性的con+升速較快,尤其在前10次循環(huán)中表現(xiàn)更甚,其在第5次達到了0.453,較之con第5次的0.369提升了8.4個百分點;在第10次達到了0.663,較之con第10次的0.577提升了8.6個百分點;而con+在最后極值達到0.966,較之con極值0.887提升了7.9個百分點。實驗結果充分證明添加顯著性屬性的再排序方法對算法效能提升顯著。
3) 根據(jù)表3,本文算法最終成功檢索數(shù)較之其他算法多,平均循環(huán)次數(shù)上較其他算法有非常大的提升。未加入顯著性的算法con整體上較SVR-L更優(yōu),略優(yōu)于HML,但加入顯著性屬性后平均循環(huán)次數(shù)明顯減少,平均循環(huán)次數(shù)僅為15.2和11.3,證明了本文算法在減少循環(huán)、快速收斂上的優(yōu)異性。同時,實驗結果表明,交互式系統(tǒng)的整體檢索效果仍然與用戶的判斷能力有很大關聯(lián),但本文算法會幫助減弱非專業(yè)用戶與專業(yè)用戶之間的差距。
但針對本文唯一一次不成功的檢索進行追蹤分析,發(fā)現(xiàn)用戶在r=0時顯著性屬性判定和r=2時相似人像選擇連續(xù)兩個步驟中均判定錯誤,正確結果被排除而導致了任務失敗。這表明本文算法失敗的主要風險集中于前期顯著性屬性判定步驟中,但這個是可控的。
4) 由圖3可知,人腦無論針對模擬畫像、模糊殘缺人像,甚至是Query4僅看到側面的情況下,也能較好把握人像的屬性特征,尤其是專業(yè)人員,這些都是目前機器視覺很難實現(xiàn)的,進一步說明了在特殊應用中選擇交互式算法而非其他僅機器視覺算法的正確性。同時,針對模擬畫像Query1,我們發(fā)現(xiàn)非專家組UseB往往在后期循環(huán)交互過程中無法較好把握目標轉化為真實人像的特征,導致了該組平均循環(huán)次數(shù)的驟然增加,但該情況在專家組UseA中得到了很大緩解,故本文建議針對模擬畫像的應用,所提的方法更適合專家級的用戶使用。
本文提出一種基于顯著性語義屬性的交互式非標人像檢索方法,實現(xiàn)了一種人工工作量合理、檢索成功率高、收斂速度快、應用面廣、符合公安行業(yè)規(guī)范的非標人像檢索應用。通過融合屬性的距離函數(shù)設置,逐步減少距離函數(shù)計算量的圖像集縮小策略,引入顯著性屬性的再排序方法,大大優(yōu)化了算法效率。下一步,我們將進一步提升算法對人為判斷錯誤的糾錯能力,以及尋找針對模擬畫像的檢索應用更加行之有效的方法。