應曉清,劉 浩,2*,袁文野,楊正成
(1. 東華大學 信息科學與技術(shù)學院,上海201620;2. 人工智能教育部重點實驗室,上海200240)
圖像特征提取是機器視覺領(lǐng)域的研究熱點之一,近年來已有眾多的特征提取算法相繼被提出,并根據(jù)是否標記輸入數(shù)據(jù)可大致分為三類:無監(jiān)督、監(jiān)督及半監(jiān)督學習[1-6]。其中,無監(jiān)督學習因其可自主探尋數(shù)據(jù)潛在模式與聯(lián)系而備受矚目。 在無監(jiān)督特征提取中,典型的主成分分析(Principal Component Analysis,PCA)[7]旨 在 線 性 降 維 的 同 時投影數(shù)據(jù)至由主成分向量所跨越的線性子空間內(nèi),以最小的重構(gòu)誤差保留全局方差[8];另一具有代表性的局部保持投影(Locality Preserving Projection,LPP)[9]則可通過恢復原始空間固有的非線性流形結(jié)構(gòu)以保持數(shù)據(jù)的局部鄰域關(guān)系,但LPP 技術(shù)忽視了全局視角且對噪聲數(shù)據(jù)尤為敏感。 因此,低秩表示(Low-Rank Representation,LRR)[10]因 其 既 對 噪 聲 干擾具有強魯棒性,又可揭示數(shù)據(jù)全局結(jié)構(gòu)信息,而受到廣泛關(guān)注[11-16]。為了高效地綜合各種技術(shù)以使得圖像分類穩(wěn)健而準確,Lu 等人[17]提出一種低秩保留投影(Low-Rank Preserving Projections,LRPP)的圖像歸類框架,LRPP 框架雖然具有一定的代表性,但執(zhí)行效果很大程度上取決于樣本標簽的質(zhì)量,在噪聲環(huán)境下分類性能下降明顯,導致其在實際應用中可能受到諸多限制[18-20]。 因此,圖像特征提取的去噪問題亟待解決。
圖像噪聲分為標簽噪聲與特征噪聲,其中標簽噪聲通常更難以學習與推廣[21]。針對含噪標簽,在不同圖像歸類框架下已經(jīng)提出了較多恢復算法可供參考,大致分為標簽噪聲容忍與標簽噪聲凈化[22-26]。標簽噪聲容忍僅針對某些特定分類器,缺乏通用性與可擴展性;而標簽噪聲凈化則為一種用于清除或修正部分噪聲標簽的預處理步驟,具備良好的普遍性[27]。鑒于直接去除含噪樣本圖像可能導致模型欠擬合或低識別率,因此本文提出一種基于子集劃分迭代投影集成(Subset-divided Iterative Projection Bagging,SIPB)的標簽恢復算法,可實現(xiàn)在確保樣本數(shù)據(jù)完整性的同時整體提升其標簽可信度。首先,該算法隨機多次地提取多個小規(guī)模子集信息,其次,結(jié)合PCA 降維、鄰域圖正則化等技術(shù)確定樣本各成分權(quán)重并保留數(shù)據(jù)局部結(jié)構(gòu),從而構(gòu)建更為準確合理的低秩投影矩陣,然后,通過K-近鄰算法(KNearest Neighbor,KNN)快速預估其余樣本標簽,并存儲各次迭代結(jié)果,最后,根據(jù)多數(shù)投票原則實現(xiàn)類別標簽的恢復?;谟柧毤饕蓭в姓鎸崢撕灥臉颖局鲗н@一先驗,本文算法能以此部分可靠信息為基準,進而修正多數(shù)錯誤標簽,以高效提升分類器的魯棒性能,且該算法可靈活運用于各種圖像歸類框架,具備一定可擴展性與較大實用價值。多次實驗表明,本文算法能有效抵抗噪聲干擾,較其他標簽恢復算法有一定優(yōu)勢。
如前所述,低秩保留投影LRPP 圖像歸類框架將局部保持投影LPP、稀疏約束及低秩表示LRR 等技術(shù)進行高效的集成,實現(xiàn)了圖學習與投影學習的有機融合,可在數(shù)據(jù)整體及局部性間取得較好的平衡,同時具備減弱投影子空間噪聲干擾等潛能。盡管已有實驗表明該框架面向特征提取表現(xiàn)較為出色,但其忽視標簽含噪這一普遍現(xiàn)象,因而在模擬噪聲環(huán)境下的分類性能并不理想。
圖1 標簽含噪的LRPP 圖像歸類框架Fig. 1 LRPP image classification framework with noisy labels
圖1 為標簽含噪的LRPP 圖像歸類框架,該框架首先將樣本圖像劃分為訓練集與測試集,并依據(jù)比例ρ隨機替換部分訓練集類別標簽,以生成訓練樣本含噪標簽集。參數(shù)ρ為某樣本對應標簽被誤認作另一類標簽的概率,稱作標簽噪聲水平(也可稱作丟失率或含噪率),因此ρjk數(shù)學形式如式(1)所示:
具體地,當ρ=0. 3 時,代表某標記為j的圖像xi,有30% 的概率被認定屬于另一標記k(k≠j);然后,在LRPP 圖像歸類框架下依次使用K-近鄰準則預估測試集的標簽信息,并將預估結(jié)果與其真實類別標簽比對,進而統(tǒng)計出該歸類框架的總體 分 類 精 度(Overall Accuracy,OA)與 卡 帕(Kappa)系數(shù),其中Kappa 系數(shù)的計算基于混淆矩陣,其值越大,則代表該歸類框架的分類精度越高。
為排除實驗結(jié)果偶然性,本節(jié)分別選用來自兩個基準數(shù)據(jù)庫(即Yale B 與AR 數(shù)據(jù)庫,其詳細說明見4. 1 節(jié))的圖像樣本進行綜合分析,且涉及LRPP 圖像歸類框架的相關(guān)參數(shù)取值均與文獻[17]一致。表1 體現(xiàn)含噪率對圖1 所述圖像歸類框架總體分類精度的影響程度,圖2 則展示不同噪聲水平下該歸類框架的Kappa 系數(shù)變化趨勢及整體均值,其中含噪率ρ取值區(qū)間為[0. 05,0. 4],sele_num為各類樣本內(nèi)所取訓練樣本數(shù)。顯然,隨著噪聲比例逐步增加,該圖像歸類框架的總體分類精度及Kappa 系數(shù)均呈明顯下降趨勢,當含噪率ρ達0. 4 時,其總體分類精度便已大致由90% 跌落至50%,Kappa 系數(shù)也由0. 9 下行至0. 6 左右。由此可見,現(xiàn)有算法對噪聲數(shù)據(jù)較為敏感,需要提出新的樣本圖像標簽去噪算法,以提升圖像歸類框架的魯棒性與可靠性。
表1 LRPP 圖像歸類框架下不同含噪率對總體分類精度的影響Tab. 1 Overall accuracies of LRPP image classification framework with different noise rates (%)
圖2 LRPP 圖像歸類框架下不同含噪率對Kappa 系數(shù)的影響Fig. 2 Kappa coefficients of LRPP image classification framework with different noise rates
為解決上述問題,本文提出一種基于子集劃分迭代投影集成的SIPB 標簽恢復算法。
給定標簽含噪的圖像集X,共C類樣本標簽,其中各幅圖像均為N維,共M幅圖像,其對應標簽分別為L1,L2,. . . ,LM∈{1,2,. . . ,C},將該圖像集隨機劃分為訓練集X1與測試集X2。圖3 為本文算法具體流程圖,說明如下:
Step 1:獲 取 樣 本 集X1m×N及 其 含 噪 標 簽 集L1m×1,初始化當前迭代次數(shù)t=1。
Step 2:根據(jù)自定義訓練集劃分比例q,將數(shù)據(jù)集X1劃分為訓練集X11與測試集X12,并執(zhí)行歸一化處理。
Step 3:對訓練集X11進行PCA 可靠降維,生成其低秩特征向量矩陣P,PCA 可靠降維的具體處理流程如圖4 所示。
Step 4:構(gòu)造訓練集X11的最近鄰圖矩陣W,矩陣W各元素wij可簡單定義為:
其中:Nk(xj)表示樣本xj的k個最近鄰域樣本,那么wij=1 即表示樣本xi在數(shù)據(jù)分布中位于樣本xj的最近鄰域,可認為兩樣本相似且具較大可能性屬于同一標簽。因此,最近鄰圖矩陣W獲取了樣本數(shù)據(jù)局部信息,可作為構(gòu)建低秩投影矩陣的基準之一。
圖3 SIPB 算法流程圖Fig. 3 Flow chart of proposed SIPB method
圖4 PCA 可靠降維處理Fig. 4 Flow chart of PCA dimensionality reduction processing
Step 5:構(gòu)造低秩投影矩陣Q,公式如下:
此公式的詳細解法請參考文獻[28],其中wij為矩陣W的第(i,j)個元素,zj即矩陣Z第j列向量,且此處取Z=W,矩陣P即訓練集X11經(jīng)PCA可靠降維所得的低秩特征向量矩陣,PQTXzj可視作原始樣本xj的重構(gòu)樣本,表示兩樣本間的歐氏距 離?!琙‖*即矩陣Z核范 數(shù),為矩 陣Z的奇異 值 總和 。‖Q‖2,1為 低 秩 投 影 矩 陣Q的l2,1范 數(shù) ,通過施加l2,1范數(shù)約束,矩陣Q可自主提取出樣本的首要特征,并具有高可解釋性。λ1,λ2為用于平衡相應項重要性的正則化參數(shù),可于候選集{10-5,10-4,10-3,10-2,10-1,1,101,102,103,104,105}內(nèi)擇優(yōu)選取。矩陣Q構(gòu)造完畢后,通過X′11=QTX11,X′12=QTX12得出訓練集、測試集的低秩表示矩陣。
Step 6:計算并歸一化訓練集、測試集的低秩表示矩陣,再將其與訓練集含噪標簽共同輸入K-近鄰分類器,預估測試集的樣本標簽。
Step 7:重復上述Step 2~Step 6,直至當前迭代次數(shù)t=te(te為預設(shè)的迭代閾值)。 構(gòu)建矩陣Yte×m,將各次迭代所得的各樣本標簽信息均逐個按位存入該矩陣,表示形式為若經(jīng)第t次迭代得出第i個樣本對應標簽為j,則Yt,i=j;最后,分析矩陣Y內(nèi)各樣本的te個標簽,根據(jù)多數(shù)投票原則可輸出訓練樣本的標簽恢復矩陣L′1。
本文所提標簽恢復算法作為一種數(shù)據(jù)預處理手段,可靈活運用于各種圖像歸類框架,以最大限度確保分類結(jié)果不為錯誤標簽所誤導,高效再利用含噪樣本,相較于其他標簽恢復算法更能提升系統(tǒng)的魯棒性與可靠性。
本文仿真實驗平臺如下:Intel i5-6200U CPU、8 GB 內(nèi)存、Windows 10 操作系統(tǒng)、MATLAB R2016a。實驗數(shù)據(jù)集選擇廣泛應用于圖像檢測與識別的Yale B 及AR 人臉數(shù)據(jù)庫。Yale B數(shù)據(jù)庫包含來自38 個對象的2 414 張面部圖像,各對象提供約59~64 個樣本。AR 數(shù)據(jù)庫包含來自120 個對象的1 680 張面部圖像,各對象提供14 個樣本。實驗前對上述圖像集均進行裁切及灰度處理,并使用PCA 降維處理保留98% 的能量以提升算法運算速率。實驗過程中隨機從各類樣本內(nèi)提取sele_num數(shù)量樣本作為訓練集,其余樣本作為測試集,并選用在同一圖像歸類框架(即LRPP 圖像歸類框架)下各算法的總體分類精度OA 及Kappa 系數(shù)作為評價指標,以便更為簡單直觀的衡量算法性能,且其中涉及LRPP 圖像歸類框架的相關(guān)參數(shù)均參照文獻[17]進行設(shè)置。為模擬樣本標簽含噪的真實場景,本文選取各種典型丟失率(5%~40%),并采用含噪標簽隨機生成算法預處理訓練數(shù)據(jù),隨機數(shù)生成器使用同一種子,以便針對不同情況產(chǎn)生重復的隨機突發(fā)或隨機丟失,保證實驗更加公平有效。
本文SIPB 算法實驗參數(shù)包括各類樣本內(nèi)所取訓練樣本數(shù)sele_num、訓練集劃分比例q及迭代閾值te。各參數(shù)默認值為sele_num=25(Yale B)或5(AR),q=0. 3,te=50。為探求本文算法的最優(yōu)參數(shù)取值區(qū)間,下述實驗1~3 分別以上述各參數(shù)為唯一影響因子,在LRPP 圖像歸類框架下將本文算法與LRPP 缺省算法進行對比分析,其中丟失率均取ρ=0. 3;實驗4 則在各種典型丟失率下對不同標簽恢復算法進行綜合比較,以客觀評估本文算法性能優(yōu)劣。
4.2.1 本文算法最優(yōu)參數(shù)取值分析
圖5 各類樣本內(nèi)所取訓練樣本數(shù)sele_num 不同時各算法性能對比曲線Fig. 5 Performance comparison of different methods under different sele_num values
實驗1:本實驗以各類樣本內(nèi)所取訓練樣本數(shù)sele_num為唯一變量,其余參數(shù)均設(shè)默認值。各算法總體分類精度OA 及Kappa 系數(shù)變化對比曲線如圖5 所示,由圖可知,在sele_num的各取值范圍內(nèi),本文算法均優(yōu)于LRPP 缺省算法,且隨著該參數(shù)數(shù)值增加,二者差異始終較為顯著。這表明輸入含噪訓練樣本集的規(guī)模在較大范圍內(nèi)變動時,本文算法性能相較于LRPP 缺省算法均占據(jù)一定優(yōu)勢。
實驗2:表2 列出各訓練集劃分比例q下本文算法的總體分類精度OA 及Kappa 系數(shù),而LRPP 缺省算法的實驗結(jié)果可分別于2. 2 節(jié)表1、圖2 內(nèi)獲得。比較結(jié)果可知,q∈[0. 2,0. 25]時 本文算法表現(xiàn)最為出色,相較于缺省算法,其分類精度分別提升20. 423 5% 與10. 926 0%,Kappa 數(shù)值分別增加0. 179 6 與0. 110 2。且即使q取值較大或較小,本文SIPB 算法亦大多能夠有效緩解噪聲對圖像歸類框架的干擾,達到較好的分類效果。
實驗3:表3 體現(xiàn)預設(shè)不同迭代閾值te對本文算法性能的影響,而LRPP 缺省算法的實驗結(jié)果與實驗2 相同,可分別于2. 2 節(jié)表1、圖2 內(nèi)獲得。由實驗數(shù)據(jù)可得,少次迭代時本文算法效果平平,而隨著迭代閾值te增加,該算法的總體分類精度OA 及Kappa 系數(shù)迅速提升,且相較于缺省算法表現(xiàn)出更好性能。迭代閾值取值較大時,本文算法各指標增長速度雖有所放緩,但總體走向仍保持不變,呈上升趨勢。
表2 各訓練集劃分比例下本文算法性能對比Tab. 2 Performance comparison of the proposed method under different q values
表3 各迭代閾值下本文算法性能對比Tab. 3 Performance comparison of the proposed method under different t values
4.2.2 本文算法性能評估
本節(jié)在LRPP 圖像歸類框架下對四種典型的標簽恢復算法,即LRPP 缺省算法、圖正則重建(Graph Regularized Reconstruction,GRR)算法[28]、穩(wěn) 健 圖 構(gòu) 造(Robust Graph Construction,RGC)算法[29]及本文SIPB 算法,于不同丟失率下對噪聲數(shù)據(jù)的魯棒性能進行比較。其中,GRR 算法引入具有正交約束的數(shù)據(jù)重構(gòu)項,增強了模型局部特征的保留能力及樣本辨別力;RGC 算法則能改善由損壞數(shù)據(jù)集所獲的低階恢復,為近年所提的一種魯棒圖學習方法。綜合實驗1~實驗3的結(jié)論,選定本文算法各參數(shù)值為sele_num=25(Yale B)或5(AR),q=0. 23,te=50。
表4 和表5 對各算法的總體分類精度做出比較,可看出,在各種丟失率下本文算法均明顯優(yōu)于缺省算法,其分類精度增益最高分別為27. 732 3% 與9. 907 4%,平均增益分別為16. 939 8% 與8. 136 5%;本文算法相較于GRR算法也優(yōu)勢明顯,其分類精度增益最高分別為25. 273 3% 與7. 406 4%,平均增益分別為14. 856 5% 與6. 111 0%;對比RGC 算法,本文算法分類精度至多提升7. 035 5% 與6. 481 4%,均值提升4. 320 3% 與4. 687 5%。圖6 則展示不同丟失率下各算法Kappa 系數(shù)的變化趨勢及整體均值。由圖可知,隨著丟失率上升,各算法Kappa系數(shù)雖均有所下降,但本文算法性能表現(xiàn)始終更為出眾,其Kappa 均值分別為0. 866 3 與0. 822 0。
表4 在Yale B 數(shù)據(jù)庫內(nèi)不同丟失率下總體分類精度對比Tab. 4 Overall accuracies of different methods on the Yale B database (%)
表5 在AR 數(shù)據(jù)庫內(nèi)不同丟失率下總體分類精度對比Tab. 5 Overall accuracies of different methods on the AR database (%)
圖6 在兩大數(shù)據(jù)庫內(nèi)不同丟失率下kappa 系數(shù)變化的對比曲線Fig. 6 Kappa coefficients under different noise rates on the two databases
綜上所述,在同一歸類框架下本文SIPB 算法的整體降噪性能更優(yōu),可有效提升數(shù)據(jù)標簽可信度,改善系統(tǒng)的魯棒性與可靠性。值得一提的是,本文算法在AR 數(shù)據(jù)庫內(nèi)的實驗性能略低于在Yale B 數(shù)據(jù)庫內(nèi)的實驗性能,其原因在于本文所選AR 數(shù)據(jù)庫樣本總數(shù)較少而標簽種類較多,使得算法執(zhí)行過程中可供參考的真實信息相對不足,較易產(chǎn)生錯誤識別,導致最終的標簽恢復效果相對不顯著。
本文提出了一種基于子集劃分迭代投影集成的標簽恢復算法。該算法首先通過隨機多次地提取小規(guī)模子集信息,并結(jié)合主成分分析、鄰域圖正則化等技術(shù)構(gòu)建準確可靠的低秩投影矩陣,隨后通過K-近鄰算法進行標簽預估與迭代集成,最后根據(jù)多數(shù)投票原則實現(xiàn)類別標簽的有效復原。多次不同數(shù)據(jù)集下的實驗表明:本文算法可有效緩解噪聲干擾,在同一圖像歸類框架下針對Yale B 與AR 數(shù)據(jù)庫分別使分類精度提升了16. 9% 與8. 1%;相較于目前最好的標簽恢復算法,本文算法可提升4. 3%~4. 7% 的分類精度,能夠在確保樣本數(shù)據(jù)完整性的同時改善系統(tǒng)的魯棒性與可靠性。此外,本文算法還可直接嵌套于現(xiàn)有各種圖像歸類框架,具備一定可擴展性與較大實用價值。由于真實標簽噪聲的形式與數(shù)量或許難以預知,甚至具有對抗性,后續(xù)研究中還需進一步探索如何處理此類噪聲。子集劃分及迭代運算帶來了計算復雜度的提升,后續(xù)工作也需要探究子集與迭代閾值的自適應選取機制。