孫會強(qiáng) 呂佳 吳秀敏
摘? 要: 為了合成出更加清晰的人臉?biāo)孛璁嬒?,文中提出一種基于稀疏表示的自適應(yīng)圖像建模方法。通過從訓(xùn)練數(shù)據(jù)中提取有效的訓(xùn)練集,降低學(xué)習(xí)的盲目性和難度,獲取更加精確的字典結(jié)果。在精確字典結(jié)果的基礎(chǔ)上,通過控制線性組合系數(shù)的非零元素個數(shù),實現(xiàn)測試圖像的自適應(yīng)重構(gòu)與優(yōu)化,從而解決傳統(tǒng)經(jīng)典合成算法噪聲較大的問題。仿真測試結(jié)果表明,文中所提出的方法提取了更多的圖像塊,能夠濾除更多的高頻分量,其合成圖像的噪聲更小,具有更加優(yōu)秀的平滑性。
關(guān)鍵詞: 人臉?biāo)孛? 圖像建模; 稀疏表示; 訓(xùn)練集提取; 圖像重構(gòu); 仿真測試
中圖分類號: TN911.73?34; TP391? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)14?0146?03
Method of 3D sketch image modeling based on sparse feature selection
SUN Huiqiang, L? Jia, WU Xiumin
(Yanan University, Yanan 716000, China)
Abstract: A method of adaptive image modeling based on sparse representation is proposed to synthesize? clearer face sketch images. By extracting the effective training set from the training data, the blindness and difficulty of learning are reduced, and the more accurate dictionary results are obtained. On the basis of accurate dictionary results, the adaptive reconstruction and optimization of the image under testing are realized by controlling the quantity of non?zero elements of the linear combination coefficient, so as to overcome the large noise in the traditional classical synthesis algorithm. The simulation results show that the proposed method can extract more image blocks, filter out more high?frequency components, and its synthesized image has less noise and better smoothness.
Keywords: facial sketch; image modeling; sparse representation; training set extraction; image reconstruction; simulation testing
0? 引? 言
隨著科學(xué)與技術(shù)的快速發(fā)展,圖像逐漸成為了人類信息傳播的重要載體,在各個領(lǐng)域衍生出眾多不同的形態(tài)[1?2]。例如公安部門使用清晰的人臉畫像偵破案件;動漫領(lǐng)域利用真實的人臉照片生成卡通化的人物圖像。這些不同的形態(tài)均為由人臉生成的異質(zhì)圖像。
一般而言,與指紋、手紋、虹膜和視網(wǎng)膜等身體特征相比,人臉也是人體表征性較強(qiáng)的特征之一。其蘊(yùn)含較多的信息量,同時應(yīng)用便捷。在該背景下,學(xué)者們逐漸擴(kuò)展了人臉圖像的應(yīng)用范圍,實現(xiàn)了多種人臉照片的合成算法[3?6]。在這些文獻(xiàn)中,大部分的合成算法均是基于K近鄰算法進(jìn)行的,其詳細(xì)過程為:首先輸入一定數(shù)量的隨機(jī)圖像塊,選取固定數(shù)量的近鄰;再利用機(jī)器學(xué)習(xí)方法處理這些圖像塊,獲取其具體的圖像特征。然而,在算法訓(xùn)練集數(shù)量的限制下,提取圖像塊的數(shù)量不太可能等于近鄰數(shù)量K。而兩者的差值產(chǎn)生了較大的噪聲,從而影響算法的整體性能。如何降低圖像合成的噪聲并合成更加清晰的素描圖像,成為了一個值得研究的問題。針對這一問題,本文提出一種基于稀疏特征選擇的自適應(yīng)圖像合成方法。該方法通過引入圖像的稀疏表示方法,使用自適應(yīng)的方法計算相關(guān)的圖像特征個數(shù),突破了提取訓(xùn)練集特征對于圖像數(shù)據(jù)樣本個數(shù)的限制,從而降低異質(zhì)人臉合成圖像的噪聲。為了驗證該方法的有效性和穩(wěn)定性,本文進(jìn)行相關(guān)的仿真試驗。仿真結(jié)果表明,與傳統(tǒng)合成方法相比,本文所提出的方法具有更加優(yōu)秀的圖像合成效果。
1? 稀疏表示
稀疏表示是一種利用較少的基本信號表示原始信號的方法,在圖像重建、去噪和修復(fù)中均有廣泛的應(yīng)用。一般而言,不妨令[D]表示[s×N]維的過完備矩陣。該矩陣又稱為字典,矩陣的每一列均是一個原子。利用該方法令[n0]表示大多數(shù)分量為0的列向量,則信號[y]可表示為[N]個列變量的線性組合,如下:
[y=Dn0]? ? ? ? ? ? (1)
且信號[y]的稀疏表達(dá)式為:
[n0=argminnn0,? ?s.t.? y=Dn0] (2)
式中,[n0]是列向量[n0]中分量不為0的個數(shù)。一般而言,求解式(2)是一個NP困難問題。但在一定的假設(shè)下,式(2)的求解問題可以轉(zhuǎn)變?yōu)槭剑?)的求解,而這是一個利用凸優(yōu)化可以解決的問題,又稱Lasso問題,即:
[n0=argminnn1,? ?s.t.? y=Dn0]? (3)
2? 素描圖像合成方法
在文獻(xiàn)[7?8]的啟發(fā)下,本文提出一種基于稀疏表示的素描圖像合成方法。該方法首先利用匹配追蹤算法,求解訓(xùn)練圖像的稀疏表示系數(shù);其次將人臉數(shù)據(jù)庫的圖像分割為多個圖像子塊;再利用機(jī)器學(xué)習(xí)和訓(xùn)練集獲取全部區(qū)域的素描?照片塊的所有參數(shù),得到其稀疏表示方式,即“字典”。該方法用公式描述為:
[minD,nn1+αE-Dc22]? ?(4)
式中:[D]表示稀疏表示方式中的字典,由照片塊[Dph]和素描塊[Dsk]按列組合的矩陣;[E]表示訓(xùn)練后的照片塊和素描塊按列組合的矩陣;[n]表示稀疏表示的系數(shù)矩陣。利用式(4)進(jìn)行不間斷的交替求解,即可求解[D]和[n]。該方法的計算過程如下所述。
2.1? 匹配追蹤算法
在求解的過程中,本文主要使用多原子匹配追蹤算法。通過迭代的方法提取和圖像塊匹配度最高的原子,從而精確描述人臉圖像的多種紋理結(jié)構(gòu)信息[9?10]。從算法本質(zhì)上看,匹配追蹤是一種復(fù)雜度較低的貪婪算法,也是廣泛使用的迭代稀疏分解算法。該算法選取內(nèi)積衡量相關(guān)性,每次迭代均從字典[D=dk,k=1,2,…,K]中挑選與殘差信號相關(guān)性最高的列向量。最終盡量逼近原始人臉圖像,其具體步驟如下:
1) 初始化,即令原始人臉圖像信號[f]賦值給初始的殘差信號[R0f],即[R0f=f],同時令迭代輪數(shù)[i=0];
2) 計算殘差信號與所有字典信號之間的內(nèi)積系數(shù)[αk],即計算[αk=Ri,dk];
3) 計算內(nèi)積的最大值,即記錄某原子的下標(biāo)[ki=argmaxαk];
4) 計算新一輪的殘差信號,即[Ri+1f=Rif-αkidki];
5) 若新一輪殘差信號的內(nèi)積未達(dá)到一定的閾值,即[Ri+1f2≤ζ],則終止迭代計算;否則,令[i=i+1],轉(zhuǎn)向步驟2),繼續(xù)運(yùn)算。
利用匹配追蹤算法的多輪迭代,當(dāng)?shù)目偞螖?shù)[N]逐漸增大時,則信號[f]將達(dá)到收斂狀態(tài),即[limN→∞RNf=0]。此時,本文可以得到原始的人臉圖像信號分解公式:
[f=i=0N-1αkidki]? ? ? ? ?(5)
一般而言,匹配追蹤算法的復(fù)雜度主要取決于字典矩陣[D]中的原子個數(shù)。若原子個數(shù)越多,則匹配追蹤算法的空間復(fù)雜度越高[11?12]。另外,當(dāng)原子個數(shù)較多時,匹配追蹤算法容易產(chǎn)生“過匹配”現(xiàn)象。即在迭代輪數(shù)較小時,選擇錯誤的原子會導(dǎo)致后續(xù)計算耗費更多的時間代價去糾正錯誤,最終難以達(dá)到最優(yōu)解[13]。例如,原始人臉圖像信號[f=d1+d2],字典[D=dk,k=1,2,…,K]。若匹配追蹤算法在前期的迭代過程中選擇[di]([3≤i≤K]),此時為了糾正選取原子的誤差,迭代計算將持續(xù)運(yùn)行。最終,稀疏表示系數(shù)將難以得到最優(yōu)解。
2.2? 特征選擇
訓(xùn)練數(shù)據(jù)集通常包含多張人臉照片,這里不妨設(shè)某張訓(xùn)練照片為[Lp]。首先將這張照片平均分為[N]個圖像塊,令[yi]表示照片的第[i]個列向量,則照片[Lp]的圖像塊可以表示為[y1,y2,…,yN]。使用[Dph]表示照片塊形成的字典,[Dsk]表示素描塊形成的字典,令[ni]為稀疏表示的相應(yīng)系數(shù),則照片塊向量[yi=Dpn]的數(shù)學(xué)表示為:
[ni=argminnn1]? ? ? ?(6)
所以,令[Nyi]表示照片塊向量[yi]的近鄰個數(shù),則近鄰照片塊與表示系數(shù)[ni]之間的關(guān)系為:
[Nyi=jσnij≠0,j=1,2,…,#ni] (7)
式中:[nij]是表示系數(shù)[ci]的第[j]項元素;[#ni]是表示系數(shù)[ci]的元素個數(shù)。其近鄰索引[σnij]的定義為:
[σnij=nij,? nij>ε0 ,? ?otherwise]? ? (8)
式中,[ε]表示較小的正整數(shù),一般取值為0.001。若其取值變大,模糊效應(yīng)將變得更小,進(jìn)而圖像塊的近鄰數(shù)量則越小。另外,對于差異較大的訓(xùn)練圖像塊,其近鄰照片塊[Nyi]的子圖像塊個數(shù)是不同的。其主要由稀疏表示系數(shù)決定,從而實現(xiàn)圖像塊個數(shù)的自適應(yīng)確定,素描重構(gòu)的權(quán)值歸一化計算公式為:
[nij=σnijj=1#niδnij]? ? ? ?(9)
根據(jù)歸一化計算后的稀疏表示系數(shù)[nij],利用素描塊字典[Dsk],即可得到原始照片塊[yi]對應(yīng)的合成素描塊[xi]。將所有的合成素描塊[xi]([1≤i≤N])進(jìn)行一定的組合,即可得到完整的合成素描圖像。
3? 仿真結(jié)果與分析
為了驗證合成方法的有效性,本文使用CU數(shù)據(jù)庫進(jìn)行必要的仿真與分析。一般而言,CU數(shù)據(jù)庫主要包含3個子數(shù)據(jù)庫:學(xué)生數(shù)據(jù)庫、AR數(shù)據(jù)庫和XM2VTS數(shù)據(jù)庫。這些子數(shù)據(jù)庫分別包含180張、120張和290張人臉照片。在合成方法中,本文將這些照片分割成大小為[36×36]的圖像塊,從各個子數(shù)據(jù)庫中選取100對素描?照片對進(jìn)行初步的訓(xùn)練,其他作為測試數(shù)據(jù)。另外,本文選取基于K近鄰的人臉畫像合成算法,與基于稀疏特征選擇的算法合成效果進(jìn)行對比。經(jīng)過多張照片的訓(xùn)練與測試,本文得到多張素描?照片對,并選取一張照片進(jìn)行對比、分析,如圖1~圖3所示。其中,圖1展示了輸入照片;圖2展示了基于K近鄰算法的合成圖像;圖3展示了基于稀疏特征選擇的合成算法圖像。