徐雪松 付瑜彬 于波
摘要:【目的】為解決圖像分類模型面對傳統(tǒng)閉集訓(xùn)練方式出現(xiàn)的模型缺乏開集泛化性的問題,提出了一種分離式的獨立分類網(wǎng)絡(luò)結(jié)構(gòu)?!痉椒ā棵總€類別都包含獨立的線性特征層,特征層中設(shè)計的神經(jīng)元節(jié)點能夠在有限的數(shù)據(jù)樣本下更準(zhǔn)確地捕獲類別特征。同時,在模型訓(xùn)練時,文中引入了一類無需標(biāo)注的負(fù)樣本,使得模型在構(gòu)建決策邊界時不僅依賴于已知類別的特征差異,在不增加額外標(biāo)注樣本的情況下,增加模型決策邊界的開集泛化性。【結(jié)果】結(jié)果表明:獨立分類網(wǎng)絡(luò)開集識別(ICOR)模型結(jié)構(gòu)和開集自適應(yīng)訓(xùn)練策略均能有效改善傳統(tǒng)模型開放集識別(OSR)性能;隨著開放度的增加,能表現(xiàn)出更好的魯棒性,能更有效地降低模型的OSR風(fēng)險?!窘Y(jié)論】提出的獨立分類網(wǎng)絡(luò)并融合開集自適應(yīng)訓(xùn)練的算法比現(xiàn)有開集識別算法具有更優(yōu)的開集識別性能。
關(guān)鍵詞:深度學(xué)習(xí);開集識別;圖像分類;遷移學(xué)習(xí)
中圖分類號:TP391;U495 文獻標(biāo)志碼:A
文章編號:1005-0523(2024)02-0079-08
Research on Open Set Recognition Based on Independent Classification Network
Xu Xuesong, Fu Yubin, Yu Bo
(School of Electrical & Automation Engineering, East China Jiaotong University, Nanchang 330013, China)
Abstract: 【Purpose】In order to solve the problem of image classification models lacking open set generalization due to traditional closed set training methods when facing open set recognition problems, we propose a separate independent classification network structure. 【Method】 Each category contains an independent linear feature layer. The neural nodes designed in the feature layer can capture the category features more accurately under limited data samples. At the same time, a class of negative samples without labeling is introduced in the model training, so that the model not only relies on the feature difference of the known categories when constructing the decision boundary, but also increases the open set generalization of the model decision boundary without adding additional labeled samples. 【Result】The results show that both the ICOR model structure and the open-set adaptive training strategy can effectively improve the OSR performance of traditional models; with the increase of openness, it can demonstrate better robustness; can more effectively reduce the OSR risk of the model. 【Conclusion】The proposed independent classification network combined with open-set adaptive training algorithm has better open-set recognition performance than existing open-set recognition algorithms.
Key words: deep learning; open set recognition; image classification; transfer learning
Citation format: XU X S,F(xiàn)U Y B,YU B. Research on open set recognition based on independent classification network[J]. Journal of East China Jiaotong University, 2024, 41(2): 79-86.
【研究意義】在實際應(yīng)用中,由于無法準(zhǔn)確預(yù)知樣本的分布,預(yù)先設(shè)計好的分類器在面對未知類別樣本時難以保持較高的分類準(zhǔn)確性,這就是開放集識別問題(open set recognition,OSR)[1]。近年來許多學(xué)者針對這個問題提出不少方法,總的來說,分成生成式和判別式兩種[2]。
【研究進展】判別式方法通過正則化收縮已知類在特征空間的決策邊界,并在特征空間內(nèi)給未知類分配區(qū)域,從而緩解模型的過度泛化,降低模型的OSR風(fēng)險[3-5]。例如:Scheirer等[1]提出基于支持向量機的OSR算法,通過設(shè)計一個額外的超平面來區(qū)分已知和未知類別;Zhang等[3]采用極值理論對數(shù)據(jù)的尾部分布進行重新建模,提高了模型對尾部分布數(shù)據(jù)的處理能力;Bendale等[4]揭示了Softmax激活函數(shù)不適用于OSR任務(wù),并提出了OpenMax算法作為深度學(xué)習(xí)領(lǐng)域OSR問題的第一個解決方案。
生成式方法通過約束已知類在特征空間的分布來縮小模型的決策邊界,從而提高模型的OSR性能。例如:Neal等[6]提出使用生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)生成實例樣本,并對生成樣本進行概率估計來擴充已知類的分布,使分類器能夠更加準(zhǔn)確地區(qū)分已知類和未知類;Zhang等[7]采用自動編碼器技術(shù)對輸入樣本進行重建,通過對比重建誤差來評估輸入樣本;Xia等[8–10]通過在特征空間內(nèi)對已知類的原型設(shè)計空間約束,限定未知類原型在特征空間的分布區(qū)域,以此來降低模型的OSR風(fēng)險。
判別式方法依賴于對照組樣本來確定各類別特征的分布,因此需要有足夠數(shù)量的對照組樣本,才能準(zhǔn)確刻畫每個類別的邊緣特征。生成式方法通過生成方法學(xué)習(xí)每個類別自身的特征分布,同樣需要足夠豐富的自身樣本才能訓(xùn)練出可靠的生成模型。但實際應(yīng)用中,可能無法獲得足夠數(shù)量的標(biāo)注樣本。此時,由于自身樣本特征稀疏,無論是判別式模型還是生成式模型的訓(xùn)練都面臨較大困難。
【關(guān)鍵問題】卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和ViT(vision transformer)[11]被廣泛應(yīng)用于圖像分類任務(wù)。本文以CNN和ViT模型結(jié)構(gòu)為基礎(chǔ),對模型結(jié)構(gòu)和訓(xùn)練策略進行了優(yōu)化,提出了一種適用于OSR問題的模型結(jié)構(gòu)--獨立分類網(wǎng)絡(luò)開集識別(independent classifiers for open-set recognition,ICOR)模型,以及一種新的模型訓(xùn)練策略--開集自適應(yīng)訓(xùn)練。
【創(chuàng)新特色】本文的創(chuàng)新點主要體現(xiàn)在以下方面:提出了獨立分類網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)給未知類別提供了分類區(qū)域,過獨立的線性層捕獲更多類別特征,幫助模型學(xué)習(xí)更完備的特征;提出了一種開集自適應(yīng)訓(xùn)練策略,在訓(xùn)練中增加了一類未標(biāo)注的開集數(shù)據(jù)集作為所有已知類數(shù)據(jù)的負(fù)樣本,通過額外對比已知類和負(fù)樣本的特征差異來使模型學(xué)習(xí)更完備的已知類特征;本文的ICOR模型結(jié)構(gòu)通過少量數(shù)據(jù)樣本就可實現(xiàn)模型的訓(xùn)練,降低了在研究過程中模型對標(biāo)注圖像的依賴。
1 研究方案
ICOR算法的總體框架如圖1所示。
1.1 特征提取網(wǎng)絡(luò)
實際應(yīng)用中,數(shù)據(jù)樣本的獲取和標(biāo)注往往是個難題。為此,本文在對ICOR模型的特征提取網(wǎng)絡(luò)(feature extraction network)參數(shù)初始化時,采用了遷移學(xué)習(xí)的策略[12]。為了驗證ICOR模型結(jié)構(gòu)的普適性,在實驗中,本文采用了3種具有代表性的特征提取網(wǎng)絡(luò):經(jīng)典的ResNet50深度模型[13]、輕量化的MobileNet模型[14]和基于注意力機制模塊的ViT模型[11]。
遷移學(xué)習(xí)策略的適用性受源任務(wù)與目標(biāo)任務(wù)的相似度、數(shù)據(jù)分布差異的影響。因此,在進行參數(shù)遷移時,選擇了與ICOR模型相同類型的圖像分類模型,使用在ImageNet1K數(shù)據(jù)集(ResNet50、MobileNet)[13-14]和JFT-3B數(shù)據(jù)集[11](ViT)上預(yù)訓(xùn)練的模型參數(shù)初始化ICOR模型的特征提取網(wǎng)絡(luò)。輸入圖像經(jīng)過特征提取后的對應(yīng)表達式為
[Vk=G(θG,Ik)] (1)
式中:[Ik]為輸入圖像;[θG]為特征提取網(wǎng)絡(luò)[G(?)]的模型參數(shù)。對于輸入圖像[Ik],經(jīng)過特征提取網(wǎng)絡(luò)后得到共享特征向量[Vk](share feature layer)。其中,[G(?)]決定特征向量[Vk]的輸出維度,[θG]決定特征向量[Vk]的特征屬性。
1.2 獨立分類網(wǎng)絡(luò)
傳統(tǒng)圖像分類模型常使用Softmax交叉熵函數(shù)構(gòu)建分類損失,這導(dǎo)致了兩個問題:Softmax函數(shù)的歸一化機制將整個特征空間劃分給了已知類,沒有給未知類別留有分類區(qū)域;Softmax容易導(dǎo)致模型過于關(guān)注目標(biāo)類,降低了模型對非目標(biāo)類的學(xué)習(xí)權(quán)重,容易導(dǎo)致模型陷入局部優(yōu)化。
ICOR模型中,引入了圖1所示的分離式獨立分類網(wǎng)絡(luò)結(jié)構(gòu)(independent classification network)。每個獨立分類網(wǎng)絡(luò)結(jié)構(gòu)包含了若干個獨立神經(jīng)元節(jié)點,與共享特征層之間使用全連接結(jié)構(gòu)連接,激活函數(shù)采用GELU。同時,在輸出端使用Sigmoid激活函數(shù)對分類器的輸出進行獨立歸一化到0~1。第i個類別的預(yù)測概率可以表達為
[P(yi|Vk)=Sigmoid(Fi(φi|Vk))] (2)
式中:[Vk]為特征提取網(wǎng)絡(luò)輸出的特征向量,所有獨立分類器共享該特征向量;[Fi(?)]為屬于類別[yi]獨立分類器;[φi]為該獨立分類器的模型參數(shù)。獨立分類網(wǎng)絡(luò)將M分類轉(zhuǎn)換成了M個單分類,每個獨立網(wǎng)絡(luò)只需要獨立判斷輸入樣本屬于本類別的概率,這使得已知類別在特征空間內(nèi)的分布形成閉合的區(qū)域,從而實現(xiàn)已知類和未知類在特征空間上的分離,給未知類別在特征空間內(nèi)保留了分類區(qū)域。針對每一個獨立分類器的預(yù)測輸出,均使用二值交叉熵函數(shù)進行單獨構(gòu)建誤差損失,計算式為
[L=-1Nk=1Ni=1Mlog(P(yi|xk)),? ? ?tk=1-1Nk=1Ni=1Mlog(1-P(yi|xk)), tk=0] (3)
式中;[xk]為輸入圖像;N為迭代中的批次數(shù)量;M為已知類別的數(shù)量。訓(xùn)練中,對于單個獨立分類器,只有當(dāng)輸入樣本屬于第i類時,才被視為該類別的正樣本。因此,ICOR模型對正負(fù)樣本的學(xué)習(xí)權(quán)重是相同的,通過增加模型對負(fù)樣本特征的學(xué)習(xí),可以促使模型縮小正樣本類在特征空間內(nèi)的決策邊界。
1.3 開集自適應(yīng)訓(xùn)練
在常規(guī)監(jiān)督分類任務(wù)訓(xùn)練中,由于標(biāo)簽提供的信息有限,模型可能會擬合一些僅在閉集訓(xùn)練集下有利于分類的特征,這些特征可能并不具備開集泛化性。此外,在實際應(yīng)用中,往往無法有效收集到足夠的數(shù)據(jù)樣本,這可能會導(dǎo)致模型過擬合,使得其特征學(xué)習(xí)偏向于局部優(yōu)化。
本文提出了一種如圖2所示的開集自適應(yīng)訓(xùn)練策略。在模型訓(xùn)練時,額外添加了負(fù)樣本圖像。盡管負(fù)樣本圖像未進行細(xì)致的類別標(biāo)注,但在模型訓(xùn)練中仍然可以提供額外的對比特征,使模型在構(gòu)建已知類的決策邊界時,不局限于已知類的特征差異,這些額外的特征差異信息可以從側(cè)面反映已知類別的邊緣特征分布。當(dāng)模型用于構(gòu)建決策邊界的特征足夠豐富時,模型在面對全新的開集數(shù)據(jù)時,緊湊的決策邊界能賦予模型更好的魯棒性。這種方式的優(yōu)勢在于,無需標(biāo)注的數(shù)據(jù)樣本十分易得,可以直接對大型數(shù)據(jù)集進行隨機采樣。
圖2中,A和B表示的是訓(xùn)練集中閉集類對應(yīng)的圖像,實際問題可能還存在其他類,本文僅以A和B類為例進行描述說明。[?]表示未經(jīng)過標(biāo)注的未知類別的任意圖像,其中[(A,B)??]。開集自適應(yīng)訓(xùn)練的步驟包括。
步驟1? 構(gòu)建圖1所示的ICOR模型,加載特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重,在閉集條件下訓(xùn)練模型(Close training),直至模型收斂,保存模型。
步驟2? 使用步驟1中保存的模型對未標(biāo)注的負(fù)樣本圖像[?]進行預(yù)測(Open testing),并將預(yù)測值高于設(shè)定開集閾值的負(fù)樣本圖像保存。圖2中A′表示圖像[?]的預(yù)測值高于設(shè)定的開集閾值(Open threshold value),且對應(yīng)的預(yù)測類別為A。
步驟3? 將步驟2中保存的圖像(A′和B′)與閉集圖像進行混合,并用于模型的開集自適應(yīng)訓(xùn)練(Open set adaptive training),直至模型收斂,并保存模型。其中,圖像A′和B′對于任何一個獨立分類網(wǎng)絡(luò)的真實標(biāo)簽均設(shè)置為[0],表示不屬于任何閉集已知類別。
步驟4? 使用驗證集圖像對步驟3保存的模型進行驗證(Open set verification),計算模型的開集和閉集精度。其中,開集驗證集C中包含了已知類和未知類圖像。
步驟5? 重復(fù)步驟2到4,直到模型的開集和閉集精度達到預(yù)期要求后,開集自適應(yīng)訓(xùn)練結(jié)束,保存最終模型。
在開集測試中,當(dāng)輸入樣本的預(yù)測值小于設(shè)定的開集閾值時,被判定為開集類;反之,為閉集類。在步驟2中,盡管負(fù)樣本圖像可能被識別為已知類,但負(fù)樣本圖像仍然在特征空間內(nèi)有其所屬的分類區(qū)域,在步驟3中通過標(biāo)簽信息來不斷的迭代學(xué)習(xí),負(fù)樣本圖像能逐步地壓縮已知類在特征空間內(nèi)的區(qū)域,達到收縮已知類別決策邊界的目的。
2 實驗與分析
實驗中,模型的學(xué)習(xí)率為0.001,學(xué)習(xí)動量為0.5,權(quán)重衰減率為0.000 05。實驗平臺服務(wù)器CPU為W-2133 CPU@3.60GHz,GPU為GeForce GTX 1080Ti,搭載Pytorch深度學(xué)習(xí)框架。
2.1 數(shù)據(jù)集介紹
正如1.3節(jié)所分析的,研究在少量樣本條件下的OSR問題對解決實際工程應(yīng)用問題具有極大的實際價值。為此,本文收集了兩個小型的數(shù)據(jù)集。
2.1.1 小型數(shù)據(jù)集FDS
小型數(shù)據(jù)集(few data set,F(xiàn)DS)包含100類實際環(huán)境中的物品,每類物品從不同角度采集20張圖像。數(shù)據(jù)集的部分展示如圖3所示。
實驗中,按照1:9來隨機劃分閉集和開集類別,每個類別按照1:3隨機劃分訓(xùn)練集和驗證集。同時,為了便于ICOR模型的開集自適應(yīng)訓(xùn)練,本文收集了一個不做類別標(biāo)注的未知類數(shù)據(jù)集(unknown data set,UDS),一共包含5 000張圖像,涵蓋各類生活用品、服飾、地標(biāo)等。其中,UDS數(shù)據(jù)集與FDS數(shù)據(jù)集之間在類別上不存在交集。
2.1.2 數(shù)據(jù)集Imagenet-Crop
圖像背景信息可能會對模型訓(xùn)練造成影響,為增加實驗的對比性,本文基于Imagenet1K數(shù)據(jù)集制作了比FDS數(shù)據(jù)更加復(fù)雜的Imagenet-Crop數(shù)據(jù)集。實驗中,隨機從Imagenet1K的1 000個類別中選取10個類別作為閉集類別用于模型的閉集訓(xùn)練,在剩余的990類中,劃分400類作為開集類別用于模型開集測試,590類作為未知類別。
本文聚焦于研究模型的OSR性能,在實驗中適當(dāng)?shù)脑黾恿薎magenet-Crop數(shù)據(jù)集中閉集圖像的數(shù)量,以保證模型的閉集精度。實驗中,在閉集類別對應(yīng)的訓(xùn)練集內(nèi)隨機抽取100張圖像,按照2:8的比例劃分訓(xùn)練集和測試集。
2.2 實驗設(shè)計
為了評估ICOR模型和開集自適應(yīng)訓(xùn)練策略的有效性。本文設(shè)計了在同等實驗條件下關(guān)鍵參數(shù)的消融實驗、模型開放度實驗以及與現(xiàn)有OSR算法的對比實驗。
2.3 消融實驗
2.3.1 獨立分類網(wǎng)絡(luò)對模型開集性能的影響
AUROC常被用于評估模型的OSR性能[8-9],然而AUROC值只考慮到模型對已知類和未知類的分辨能力,并未考慮到模型對已知類的正確分類能力。本文采用“開集精度(open accuracy,OA)”來評估模型識別已知類和未知類的能力,并通過“閉集精度(close accuracy,CA)”來評估模型對閉集類別的正確分類能力,其定義為
[OA=i=1pOⅡ(yi* 式中:[PO]與[PC]分別為測試集中開集和閉集樣本的總數(shù);[yi*=argmax(y1*,y2*,…,yM*)],即對于輸入樣本[xi],[y*i]表示M個獨立分類網(wǎng)絡(luò)中對應(yīng)預(yù)測輸出的最大值;[Ⅱ]為指示函數(shù),當(dāng)邏輯為真,函數(shù)結(jié)果為1;[clsi]為輸入樣本[xi]的正確標(biāo)簽;[od]為開集拒判閾值。由于ICOR模型中每一個獨立分類網(wǎng)絡(luò)都通過Sigmoid函數(shù)激活輸出,可以看作是邏輯回歸的二分類,故設(shè)定開集拒判閾值為0.5。 為平衡模型性能和計算資源的消耗,本文通過多次實驗的先驗知識確定每個獨立分類網(wǎng)絡(luò)的神經(jīng)元節(jié)點個數(shù)為共享特征層的十分之一。在FDS和Imagenet-Crop數(shù)據(jù)集上,訓(xùn)練次數(shù)為200次,采取解凍訓(xùn)練模式,即不對網(wǎng)絡(luò)層進行凍結(jié),訓(xùn)練所有模型的所有網(wǎng)絡(luò)層。實驗結(jié)果如表1所示。 表1中,1、4、7三組使用Softmax函數(shù)的模型在閉集條件下具有良好的識別精度,表明模型已經(jīng)成功收斂。然而,這3組模型的最高OSR精度不超過0.474(1組)。此外,Sigmoid組模型對應(yīng)的表1中的2、5、8組實驗結(jié)果表明,在FDS數(shù)據(jù)集上,3組模型的OSR精度分別提高至0.824、0.707和0.826,這表明Sigmoid函數(shù)對模型的OSR性能有所提高。然而,在Imagenet-Crop數(shù)據(jù)集上,這些模型仍然表現(xiàn)出極高的OSR風(fēng)險。例如,第8組的OSR精度僅為0.437,相對于第7組Softmax組的0.331僅有0.1的提升。 表1中的3、6、9組對比實驗結(jié)果表明,在兩個數(shù)據(jù)集下,ICOR模型均實現(xiàn)了最高的OSR精度。在Imagenet-Crop數(shù)據(jù)集上,最低的OSR精度也達到了0.792(9組),高于Sigmoid組最高的0.744(2組)。此外,通過比較Softmax和Sigmoid組的閉集精度可以發(fā)現(xiàn),使用Sigmoid函數(shù)可以提高模型的OSR精度,但同時也可能降低模型的閉集識別精度。而本文提出的ICOR模型在同樣的實驗條件下,既保證了較高的閉集精度,同時對模型的OSR性能具有良好的改善效果。 2.3.2 開集自適應(yīng)訓(xùn)練對模型開集性能的影響 為評估開集自適應(yīng)訓(xùn)練策略對模型OSR性能的影響,本文在3組模型的Sigmoid和ICOR組的閉集訓(xùn)練基礎(chǔ)上進行了開集自適應(yīng)訓(xùn)練。訓(xùn)練中,在開集測試時,選擇在閉集驗證集中有95%以上樣本被分類正確的預(yù)測置信度作為開集閾值。模型訓(xùn)練分兩個階段,首先進行100次的閉集訓(xùn)練,然后進行100次開集自適應(yīng)訓(xùn)練。實驗結(jié)果見表2。 表2中,K+表示模型經(jīng)過開集自適應(yīng)訓(xùn)練后的結(jié)果。2、6、10組的對比結(jié)果表明,經(jīng)過開集自適應(yīng)訓(xùn)練后,Sigmoid和ICOR組模型在兩個數(shù)據(jù)集上的OSR精度均提升至0.9以上。因此,可以證明開集自適應(yīng)訓(xùn)練能夠有效提高模型的OSR性能。此外,在相同的特征提取網(wǎng)絡(luò)下,ICOR模型相較于Sigmoid能更有效地提升模型的OSR性能。這也表明獨立分類網(wǎng)絡(luò)設(shè)計的有效性。 2.4 開放度測試實驗 為了通過有限的未知類別估計模型在更加開放的環(huán)境中的OSR性能的魯棒性,本文設(shè)計了開放度測試實驗來進一步評估模型的開集性能。數(shù)據(jù)集的開放度(Openness)[1]是指在測試過程中出現(xiàn)未知類別的比例,其定義為 [Openness=1-2CTCE+CR] (5) 式中:[CT]為訓(xùn)練中的已知類別數(shù);[CE]為驗證集中的已知類別數(shù);[CR]為驗證集中已知類別和未知類別數(shù)之和。本文實驗中,驗證集包含了所有訓(xùn)練類別。根據(jù)式(5),F(xiàn)DS和Imagenet-Crop數(shù)據(jù)集對應(yīng)的最大開放度分別為0.574和0.782。 F1值結(jié)合了準(zhǔn)確率和召回率兩個指標(biāo),常被用于評價二分類任務(wù)模型的綜合性能,開集識別問題可以被視為一個簡化的二分類任務(wù),即模型是否準(zhǔn)確識別已知類和未知類。模型在不同開放度條件下的F1分?jǐn)?shù)的變化趨勢如圖4所示。 圖4(a)和圖4(b)展示了3組模型閉集條件下,在FDS和Imagenet-Crop數(shù)據(jù)集上進行開放度實驗的結(jié)果。實驗表明,隨著數(shù)據(jù)集開放度的增加,模型在測試過程中需要處理更多未知類別,各組模型的綜合F1分?jǐn)?shù)逐漸降低,這與預(yù)期實驗趨勢一致。其中,Sigmoid組的折線圖位于Softmax組上方,這表明使用Sigmoid比使用Softmax具有更優(yōu)的開集識別性能,但隨著開放度的增加,Sigmoid組的F1分?jǐn)?shù)迅速下降,表明Sigmoid僅在低開放度條件下表現(xiàn)出良好的魯棒性。相比之下,ICOR模型的折線位于最上方,并且隨著開放度的增加,F(xiàn)1分?jǐn)?shù)下降的速度要較為緩慢,表明相對于其他兩組模型,ICOR模型具有更優(yōu)的開集魯棒性。 圖4(c)和圖4(d)展示了3組模型經(jīng)過開集自適應(yīng)訓(xùn)練后在FDS和Imagenet-Crop數(shù)據(jù)集上進行開放度實驗的結(jié)果。在相同的開放度條件下,ICOR組的綜合F1分?jǐn)?shù)高于Sigmoid組。Sigmoid組的折線在開放度較小時呈水平狀態(tài),但在開放度大于50%和60%時,折線的斜率急劇降低,模型的F1分?jǐn)?shù)急劇下降。這表明Sigmoid組在開集適應(yīng)性訓(xùn)練后,在低開放度下能夠保持較高的開集精度,但隨著開放度的增加,仍然存在嚴(yán)重的開集識別風(fēng)險。實驗中,ICOR組的折線斜率始終保持著緩慢的下降趨勢,模型表現(xiàn)出更優(yōu)的魯棒性。 2.5 算法對比實驗 為驗證ICOR算法對比其它OSR算法(AMPFL[8]、SLCPL[9]、ARPL[15]、GCPL[10])對現(xiàn)有模型OSR性能改善的優(yōu)勢,本文在FDS和Imagenet-Crop數(shù)據(jù)集上進行了對比實驗。實驗中,所有算法使用同一特征提取網(wǎng)絡(luò),并使用遷移自Imagenet1K數(shù)據(jù)集的預(yù)訓(xùn)練參數(shù)。實驗中模型迭代次數(shù)均為200次,實驗結(jié)果如表3所示。 表3中7到18組的實驗結(jié)果表明,AMPFL、SLCPL、ARPL和GCPL等算法對模型的OSR性能改善有限。特別是在ResNet50特征提取網(wǎng)絡(luò)框架下(第7、10、13和16組),盡管這些算法保持著較高的閉集精度,但存在極大的OSR風(fēng)險,甚至高于傳統(tǒng)的Softmax和Sigmoid(第1、4組)。此外,ICOR算法在未進行開集自適應(yīng)訓(xùn)練時(第19、20、21組),實現(xiàn)了試驗中最高的OSR精度;在進行開集自適應(yīng)訓(xùn)練后,ICOR模型的OSR精度均在0.97以上,相比于現(xiàn)有OSR算法,ICOR(K+)在兩個數(shù)據(jù)集上的表現(xiàn)(第22、23、24組)均有明顯的優(yōu)勢。 同時,AMPFL、SLCPL、ARPL、GCPL等算法,隨著特征提取網(wǎng)絡(luò)的改變,模型的開集識別精度也會發(fā)生明顯變化,這表明特征提取網(wǎng)絡(luò)的類型對傳統(tǒng)開集識別算法的開集識別精度具有很大影響,而本文算法隨著特征提取網(wǎng)絡(luò)的變化,開集識別精度保持穩(wěn)定,表現(xiàn)出了更好的魯棒性。 3 結(jié)論 本文針對傳統(tǒng)模型存在的OSR問題,設(shè)計了ICOR模型和開集自適應(yīng)訓(xùn)練策略,通過實驗可以得出以下結(jié)論。 1) 通過消融實驗證明,ICOR模型結(jié)構(gòu)和開集自適應(yīng)訓(xùn)練策略均能有效改善傳統(tǒng)模型OSR性能。 2) 通過開放度實驗證明,本文的ICOR模型及開集自適應(yīng)訓(xùn)練策略隨著開放度的增加,表現(xiàn)出更好的魯棒性能。 3) 對比實驗中其他現(xiàn)有OSR算法,ICOR模型和開集自適應(yīng)訓(xùn)能更有效地降低模型的OSR風(fēng)險。 參考文獻 [1]? ?SCHEIRER W J,? ANDERSON D R R,? SAPKOTA A, et al. Toward open set recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence , 2013, 35(7): 1757-1772. [2]? ?MAHDAVI A, CARVALHO M. A survey on open set recognition[C]//Laguna Hills: 2021 IEEE Fourth International Conference on Artificial Intelligence and Knowledge Engineering (AIKE), 2021. [3]? ?ZHANG H, PATEL V M. Sparse representation-based open set recognition[J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2016, 39(8): 1690-1696. [4]? ?BENDALE A, BOULT T E. Towards open set deep networks[C]//Las Vegas: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. [5]? ?OZA P, PATEL V M. C2AE: Class conditioned auto-encoder for open-set recognition[C]//Long Beach: 2019 IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019. [6]? ?NEAL L, OLSON M, FERN X, et al. Open set learning with counterfactual images[C]//Munich: Proceedings of the European Conference on Computer Vision(ECCV), 2018. [7]? ?ZHANG Y, LEE K, LEE H. Augmenting supervised neural networks with unsupervised objectives for large-scale image classification[C]//New York: International Conference on Machine Learning (ICML), 2016. [8]? ?XIA Z, WANG P, DONG G, et al. Adversarial motorial prototype framework for open set recognition[J]. Journal of LaTeX Class Files, 2015, 14(8): 1-14. [9]? ?XIA Z, WANG P, DONG G, et al. Spatial location constraint prototype loss for open set recognition[J]. Computer Vision and Image Understanding, 2023, 229: 103651. [10] YANG H M, ZHANG X Y, YIN F, et al. Convolutional prototype network for open set recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 44(5): 2358-2370. [11] HAN K, WANG Y, CHEN H, et al. A survey on vision transformer[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(1): 87-110. [12] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//Zurich: European Conference on Computer Vision - ECCV 2014, 2014. [13] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]//Honolulu: 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2017. [14] GAVAI N R, JAKHADE Y A, TRIBHUVAN S A, et al. MobileNets for flower classification using TensorFlow[C]//Pune: 2017 International Conference on Big Data, IoT and Data Science (BID), 2017. [15] GENG C, HUANG S, CHEN S. Recent advances in open set recognition: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 43(10): 3614-3631. 第一作者:徐雪松(1970—),男,教授,博士,碩士生導(dǎo)師,研究方向為移動機器人視覺導(dǎo)航與控制、無人機控制、計算機視覺、模式識別。E-mail: cedarxu@163.com。 通信作者:付瑜彬(1996—),男,碩士研究生,研究方向為深度學(xué)習(xí)、開集識別。E-mail: 1668875496@qq.com。