国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

卷積目標(biāo)分類網(wǎng)絡(luò)的可信評估建模方法

2022-10-28 01:28:02曹恩龍劉赫炎孫智孝劉環(huán)宇
測控技術(shù) 2022年10期
關(guān)鍵詞:可信性魯棒性分類

曹恩龍, 劉赫炎, 孫智孝, 羅 慶, 劉環(huán)宇

1.航空工業(yè)沈陽飛機(jī)設(shè)計研究所,遼寧 沈陽 110000; 2.哈爾濱工業(yè)大學(xué) 電子與信息工程學(xué)院 自動化測試與控制研究所,黑龍江 哈爾濱 150001; 3.哈爾濱工業(yè)大學(xué) 計算學(xué)部 信息對抗技術(shù)研究所,黑龍江 哈爾濱 150001)

目標(biāo)分類系統(tǒng)相比于傳統(tǒng)計算系統(tǒng)而言,系統(tǒng)結(jié)構(gòu)復(fù)雜、具有自主學(xué)習(xí)能力且對數(shù)據(jù)的應(yīng)用更為多元化,例如智能識別網(wǎng)絡(luò)的“數(shù)據(jù)驅(qū)動”“不可測”“難評估”的“黑盒”特性,給可信性評估帶來極大困難。實測數(shù)據(jù)難以完全獲得,嚴(yán)重制約著智能目標(biāo)分類系統(tǒng)的完備性測試。采用目前現(xiàn)有的樣本擴(kuò)充和樣本構(gòu)建方法,難以保證系統(tǒng)可信性評估效果。目前,對可信性評估的方法較為單一,缺少專門的可信性評估技術(shù)規(guī)范和標(biāo)準(zhǔn),一般只采用簡單的準(zhǔn)確率作為評估依據(jù),指標(biāo)單一,無法作為可信性評估的完備指標(biāo),需要同時考慮系統(tǒng)泛化性、魯棒性和自主能力等級的問題。因此,依托現(xiàn)有的可信性評估方法不能滿足目標(biāo)分類系統(tǒng)的評估要求。目標(biāo)分類系統(tǒng)是復(fù)雜的系統(tǒng)工程,如果對其工作狀態(tài)不能進(jìn)行評估,就無法從根本上保證智能系統(tǒng)的可靠性。

目標(biāo)分類系統(tǒng)的泛化性評估模型依賴于訓(xùn)練和測試數(shù)據(jù)獨立分布[1],魯棒性評估依賴于不同類型和強(qiáng)度的輸入擾動[2-3]。對于微小的擾動,雖然人類視覺不可分辨,但是對于卷積目標(biāo)分類網(wǎng)絡(luò)來說,可能會帶來巨大的波動變化,從而導(dǎo)致分類錯誤,這給卷積目標(biāo)分類網(wǎng)絡(luò)的可信性帶來了巨大的隱患[4-6]。

近年來,美國、歐盟等高度關(guān)注人工智能可信評估技術(shù)的發(fā)展。美國對智能系統(tǒng)可信評估技術(shù)領(lǐng)域的研發(fā)戰(zhàn)略、國際基準(zhǔn)、關(guān)鍵技術(shù)和評測標(biāo)準(zhǔn)等四個方面均進(jìn)行了規(guī)劃與研究。美國《國家人工智能研發(fā)戰(zhàn)略計劃》在2016年6月發(fā)布[7]。2019年6月,美國《國家人工智能研發(fā)戰(zhàn)略計劃:2019年更新版》提出“確保人工智能系統(tǒng)可靠”的戰(zhàn)略發(fā)展目標(biāo),指出在廣泛使用人工智能系統(tǒng)前,需要創(chuàng)建可靠、可信賴的人工智能系統(tǒng),同時需要提高可信性、透明度并建立信任等[8]。同年,美國國防創(chuàng)新委員會在2019年10月提出“加強(qiáng)人工智能測試和評估技術(shù)”,在美國發(fā)展測試和評估辦公室(ODT)的領(lǐng)導(dǎo)下,建立人工智能技術(shù)測試和評估基準(zhǔn)。美國國防高級研究計劃局(DARPA)重點支持了“可信性的人工智能”“確保人工智能對抗欺騙的可信性”等項目,將可信賴作為確保自主系統(tǒng)可靠性的重要手段,在此基礎(chǔ)上再將自主系統(tǒng)推廣到軍事領(lǐng)域應(yīng)用[9]。2019年3月,歐盟委員會公布了《可信賴的人工智能道德準(zhǔn)則草案》,構(gòu)建了“可信賴人工智能”框架,為部署、開發(fā)和使用人工智能的企業(yè)、政府、研究機(jī)構(gòu)、社會組織和個人提供了實現(xiàn)“可信賴人工智能”的指南[10]。2019年9月,國際測試委員會(BenchCouncil)發(fā)布了人工智能測試標(biāo)準(zhǔn)、HPC AI500測試基準(zhǔn)等五項新人工智能裝備評測標(biāo)準(zhǔn)[11]。

在標(biāo)準(zhǔn)化方面,國際標(biāo)準(zhǔn)組織人工智能分委會(ISO/IEC JTC1 SC42)于2020年11月成立了WG3可信賴工作組,開展算法可信性、神經(jīng)網(wǎng)絡(luò)魯棒性評估、倫理關(guān)切等標(biāo)準(zhǔn)和報告的研制。我國國家人工智能標(biāo)準(zhǔn)化總體組、全國信標(biāo)委人工智能分委會也在組織開展可信賴等標(biāo)準(zhǔn)研究工作。2021年3月,給出了評估神經(jīng)網(wǎng)絡(luò)魯棒性的流程,并列舉了3種理論評估方法:基于統(tǒng)計的評估方法、基于形式化理論證明的評估方法和基于經(jīng)驗的評估方法。

基于以上的研究可知,建立可靠的目標(biāo)分類系統(tǒng)可信性評估體系是必不可少的,同時為了方便用戶,可以搭建集數(shù)據(jù)、算法、指標(biāo)于一體的目標(biāo)分類系統(tǒng)可信性評估軟件平臺。

1 目標(biāo)分類系統(tǒng)性能評估模型

1.1 基于黑盒的目標(biāo)分類性能評估模型

針對目標(biāo)分類網(wǎng)絡(luò)的結(jié)果,可以使用基于黑盒的目標(biāo)分類性能評估模型。針對數(shù)據(jù)生成系統(tǒng)產(chǎn)生的目標(biāo)數(shù)據(jù),構(gòu)建訓(xùn)練集和測試集,從樣本稀疏性、均衡性來實現(xiàn)泛化能力的評估,對于稀疏性的樣本,采用等價類劃分、成對邊界劃分質(zhì)心定位方法、樣本邊界評估方法,對稀疏性進(jìn)行定義;采用正負(fù)樣本均衡性、類別樣本均衡性、場景/目標(biāo)均衡性分布評估方法,實現(xiàn)對均衡性進(jìn)行評價,采用不同的均衡性和平衡性的測試樣本集,對分類決策系統(tǒng)進(jìn)行目標(biāo)準(zhǔn)確率等10種表征指標(biāo)的計算,最后對性能指標(biāo)進(jìn)行融合,生成對泛化能力和魯棒能力的評價以及最終評價。

基于黑盒的目標(biāo)分類性能評估模型包括以下10個評價指標(biāo)。其中TP表示預(yù)測為1,實際為1,預(yù)測正確;FP表示預(yù)測為1,實際為0,預(yù)測錯誤;FN表示預(yù)測為0,實際為1,預(yù)測錯誤;TN表示預(yù)測為0,實際為0,預(yù)測正確。

① 準(zhǔn)確率(ACC)。準(zhǔn)確率是指預(yù)測正確的樣本數(shù)與樣本總數(shù)之比。

(1)

② 精確率(P)。精確率是指所有被判別為正的樣本中,真正為正的樣本所占的比例。

(2)

③ 召回率(R)。召回率是覆蓋面的度量,度量有多個正例被分為正例。

(3)

④ F1值。F1值是統(tǒng)計學(xué)中用于衡量二分類模型精確度的一種指標(biāo),用于測量不均衡數(shù)據(jù)的精度。它的最大值是1,最小值是0。

(4)

⑤ 混淆矩陣?;煜仃嚳梢苑从愁悇e之間相互誤分的情況。對于包含多個類別的任務(wù),混淆矩陣能很清晰地反映出各類別之間的錯分概率。

⑥ 受試者操作特性曲線(Receiver Operating Characteristics Curve,ROC)。ROC是反映敏感性和特異性連續(xù)變量的綜合指標(biāo)。

⑦ AUC(Area Under Curve,曲線下面積)。 AUC的值就是處于ROC曲線下方的那部分面積的大小。通常,AUC的值介于0.5~1.0之間,AUC值越大的分類器,判斷準(zhǔn)確性越高。

⑧ Kappa系數(shù)(k)。Kappa系數(shù)是一種度量分類結(jié)果一致性的統(tǒng)計量,是度量分類器性能穩(wěn)定性的依據(jù),Kappa系數(shù)值越大,分類器性能越穩(wěn)定。

(5)

式中:po為每一類正確分類的樣本數(shù)量之和除以總樣本數(shù),也就是總體分類精度。假設(shè)每一類真實樣本個數(shù)為a1,a2,…,ac,而預(yù)測出來的每一類的樣本個數(shù)為b1,b2,…,bc,總樣本個數(shù)為n,則有

(6)

(7)

1.2 基于白盒的目標(biāo)分類性能評估模型

① 神經(jīng)元覆蓋率(Neuron Coverage,NC)。

神經(jīng)元覆蓋率是所有測試輸入中唯一激活的神經(jīng)元數(shù)量與深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)中神經(jīng)元總數(shù)的比值。

② 神經(jīng)元邊界覆蓋(Neuron Boundary Coverage,NBC)。

神經(jīng)元邊界覆蓋度量了給定的測試輸入集T覆蓋了多少個拐角區(qū)域,包括上邊界和下邊界值。

③ 噪聲容量估計(Noise Tolerance Estimation,NTE)。

噪聲容量估計反映了對抗樣本在保持分類類別不變的情況下可容忍的噪聲量,計算公式為

(8)

④ 對圖像壓縮魯棒性(Robustness to Image Compression,RIC)。

對圖像壓縮魯棒性常被用于評價計算機(jī)視覺算法中的圖像去噪情況。正常情況下,一個高魯棒性的對抗樣本在進(jìn)行圖像壓縮后應(yīng)保持其誤分類效果,計算公式為

(9)

式中:UA表示非定向攻擊;TA表示定向攻擊;函數(shù)IC表示圖像壓縮處理。

⑤ 對高斯模糊魯棒性(Robustness to Gaussian Blur,RGB)。

對高斯模糊魯棒性常被用于評價計算機(jī)視覺算法中的圖像去噪情況。正常情況下,一個高魯棒性的對抗樣本在高斯模糊后應(yīng)保持其誤分類效果,計算公式為

(10)

式中:UA表示非定向攻擊;TA表示定向攻擊;函數(shù)GB表示高斯模糊處理。

⑥ 最大邊界距離(Worst Case Boundary Distance,BD)。

最大邊界距離表示數(shù)據(jù)點之間到?jīng)Q策邊界的距離,用于衡量模型在最壞情況下的穩(wěn)定性和魯棒性,計算公式為

(11)

式中:V為一個隨機(jī)生成的集合;φi(V)為到模型決策邊界的RMS距離;di為到?jīng)Q策邊界距離的最大值。

⑦ 平均置信度(Average Confidence of Adversarial Class,ACAC)。

平均置信度表示對錯誤類別的平均預(yù)測置信度為經(jīng)過對抗攻擊后,對于所有攻擊成功對抗樣本,所有誤分類類別的平均概率,計算公式為

(12)

⑧ 正確類別平均置信度(Average Confidence of True Class,ACTC)。

正確類別平均置信度通過對對抗攻擊樣本的真實類計算預(yù)測可信度的平均值來評估攻擊在多大程度上偏離真實值,計算公式為

(13)

⑨ 對抗攻擊失真度(Average Lp Distortion,ALDp)。

對抗攻擊失真度為所有攻擊成功的對抗樣本的平均歸一化Lp失真度,計算公式為

(14)

⑩ 平均結(jié)構(gòu)相似性(Average Structural Similarity,ASS)。

平均結(jié)構(gòu)相似性為所有攻擊成功對抗樣本與其原始樣本間的平均相似性,計算公式為

(15)

式中:SSIM表示結(jié)構(gòu)相似度。

擾動敏感距離用于評測人類對擾動的感知能力,計算公式為

(16)

式中:m為像素點總數(shù);δi,j為第i個樣例的第j個像素點;R(xi,j)為xi,j附近平方區(qū)域;std為標(biāo)準(zhǔn)偏差函數(shù)。

K-多節(jié)神經(jīng)元覆蓋表示給定一個神經(jīng)元n,K個多段神經(jīng)元覆蓋度量給定的測試輸入集合T覆蓋范圍[lown,highn]的徹底程度。

強(qiáng)神經(jīng)元激活覆蓋度量了給定的測試輸入集合T覆蓋了多少個角落情況。

經(jīng)驗噪聲敏感性表示綜合對抗攻擊和自然噪音的一個測試集。

Top-k神經(jīng)元覆蓋表示前k個神經(jīng)元的覆蓋測量了每層上曾經(jīng)最活躍的k個神經(jīng)元的數(shù)量,定義為每一層的Top-k神經(jīng)元總數(shù)與DNN中神經(jīng)元總數(shù)的比值。

Top-k神經(jīng)元模式代表了每一層頂層過度活躍神經(jīng)元的不同激活場景。

2 目標(biāo)分類系統(tǒng)可信性評估方法

2.1 目標(biāo)分類系統(tǒng)測試用例生成

2.1.1 泛化性測試用例生成

為了測試分類任務(wù)的泛化能力,需要根據(jù)任務(wù)需求生成測試用例。首先要選擇原始數(shù)據(jù)集,其次在關(guān)鍵參數(shù)處設(shè)置抽取比例參數(shù),從原始數(shù)據(jù)集中每一個圖像類別抽取相應(yīng)比例的圖像作為測試集,對訓(xùn)練樣本進(jìn)行分布調(diào)整,從而使數(shù)據(jù)具有較好的均衡性和稀疏性,將測試集樣本存放在指定的文件夾下,并且測試圖像的類別和數(shù)量應(yīng)與所設(shè)置參數(shù)一致。

2.1.2 魯棒性測試用例生成

為了測試分類任務(wù)的魯棒能力,需要根據(jù)任務(wù)需求生成測試用例。首先選取已經(jīng)具有較好的均衡性和稀疏性的泛化性數(shù)據(jù)的測試集,對其進(jìn)行加噪處理,隨機(jī)將圖像中的像素點置白或者置黑,或者隨機(jī)在圖像上加入不同面積的黑塊對目標(biāo)進(jìn)行遮擋,從而測試不同強(qiáng)度噪聲下分類網(wǎng)絡(luò)的魯棒性。

2.2 目標(biāo)分類系統(tǒng)可信性評估過程

2.2.1 泛化性評估過程

將測試用例生成得到的泛化性測試集作為分類算法的輸入。再使用分類網(wǎng)絡(luò)將測試集中的每一張圖像進(jìn)行分類得到測試解和對應(yīng)的標(biāo)準(zhǔn)解。將測試解和標(biāo)準(zhǔn)解作為評估模型的輸入,設(shè)置評估指標(biāo)對應(yīng)參數(shù),進(jìn)而得到目標(biāo)分類系統(tǒng)各個指標(biāo)的計算結(jié)果,將每個指標(biāo)的計算結(jié)果進(jìn)行融合分析得到最終結(jié)論,在可視化平臺上進(jìn)行顯示。目標(biāo)分類泛化性能力評估流程如圖1所示。

圖1 目標(biāo)分類系統(tǒng)泛化能力評估流程

在進(jìn)行泛化性評估時選擇基于黑盒的目標(biāo)分類性能評估模型,其中包括準(zhǔn)確率、精確率、召回率、F1值、混淆矩陣、ROC曲線、AUC面積、Kappa系數(shù)、海明距離、杰卡德相似系數(shù)10個指標(biāo)。

2.2.2 魯棒性評估過程

將生成的魯棒性測試用例作為分類算法的輸入,不同噪聲強(qiáng)度的測試集經(jīng)過分類網(wǎng)絡(luò)可以分別得到對應(yīng)的測試解和標(biāo)準(zhǔn)解。將多組測試解和標(biāo)準(zhǔn)解作為魯棒能力評估模型的輸入,經(jīng)計算可以得到每種噪聲強(qiáng)度下不同指標(biāo)對應(yīng)的值,同時可以得到評價指標(biāo)隨噪聲強(qiáng)度變化的曲線,針對以上結(jié)果進(jìn)行綜合分析得到最終結(jié)論,顯示在可信性評估平臺上。目標(biāo)分類系統(tǒng)魯棒能力評估流程如圖2所示。

圖2 目標(biāo)分類系統(tǒng)魯棒能力評估流程

除此之外,基于白盒的目標(biāo)分類性能評估模型也可以用于評估目標(biāo)分類系統(tǒng)的魯棒能力,其中KMNC、NBC、SNAC、ALDp、ASS、PSD是基于數(shù)據(jù)層面進(jìn)行評估的,ACAC、ACTC、NTE、ENI是基于模型層面的。

2.3 目標(biāo)分類系統(tǒng)評估結(jié)果評價

2.3.1 泛化性結(jié)果評價

在進(jìn)行目標(biāo)分類系統(tǒng)泛化性評估結(jié)果的評價時,對泛化能力評價體系中的10個指標(biāo)進(jìn)行了綜合分析,得到了每一個指標(biāo)的具體評價標(biāo)準(zhǔn),具體如表1所示。其中,準(zhǔn)確率、精確率、召回率、F1值、AUC面積、Kappa系數(shù)、杰卡德相似系數(shù)是極大型指標(biāo),海明距離是極小型指標(biāo),可將算法評價劃分為四擋。

表1 泛化性結(jié)果評價

2.3.2 魯棒性結(jié)果評價

在進(jìn)行目標(biāo)分類系統(tǒng)魯棒性評估結(jié)果的評價時,對魯棒能力評價體系中的3個指標(biāo)進(jìn)行了綜合分析,同時設(shè)置了可用閾值和失效閾值,認(rèn)為指標(biāo)數(shù)值高于可用閾值所對應(yīng)的噪聲強(qiáng)度為可忽略噪聲,指標(biāo)數(shù)值低于失效閾值所對應(yīng)的噪聲強(qiáng)度為徹底失效噪聲,魯棒性結(jié)果評價可劃分四擋,具體如表2所示。

表2 魯棒性結(jié)果評價

3 仿真實驗及評估

3.1 數(shù)據(jù)集及分類網(wǎng)絡(luò)選取

本次實驗選取了NWPU-RESISC45數(shù)據(jù)集,該數(shù)據(jù)集包含分辨率為256像素×256像素的圖像共計31500張,涵蓋45個場景類別,其中每個類別有700張圖像。分類網(wǎng)絡(luò)選取了ResNet50進(jìn)行仿真實驗。

3.2 可信性評估結(jié)果及結(jié)論分析

為了方便用戶進(jìn)行可視化使用,搭建了目標(biāo)分類系統(tǒng)可信性評估軟件平臺。圖3為目標(biāo)分類系統(tǒng)可信性評估軟件平臺界面圖。左側(cè)部分為泛化性評估模塊,中間部分為魯棒性評估模塊,右側(cè)部分上方為測試用例生成模塊,右側(cè)下方為特異性魯棒評估指標(biāo)模塊。軟件界面圖中為選取NWPU-RESISC45數(shù)據(jù)集和ResNet50網(wǎng)絡(luò)的可信性評估結(jié)果。具體的泛化性指標(biāo)實驗結(jié)果和魯棒性指標(biāo)實驗結(jié)果分別如表3和表4所示。魯棒性數(shù)據(jù)選取的是隨機(jī)遮擋作為噪聲進(jìn)行實驗。

圖3 目標(biāo)分類系統(tǒng)可信性評估軟件平臺界面圖

表3 泛化性指標(biāo)實驗結(jié)果

表4 魯棒性指標(biāo)實驗結(jié)果

4 結(jié)束語

本文開發(fā)了一套目標(biāo)分類系統(tǒng)可信性評估軟件平臺,提供測試用例生成、泛化性指標(biāo)分析、魯棒性指標(biāo)分析等功能。針對目標(biāo)分類系統(tǒng)的泛化性指標(biāo)主要包含10個,魯棒性指標(biāo)主要包含16個,自主能力等級評估指標(biāo)主要包含5個。所開發(fā)的目標(biāo)分類系統(tǒng)可信性評估系統(tǒng)集成了測試用例生成、泛化性指標(biāo)、魯棒性指標(biāo)等功能,提供了便捷的測試用例生成、指標(biāo)評估等接口,方便用戶對目標(biāo)分類系統(tǒng)進(jìn)行全面評估,為使用目標(biāo)分類系統(tǒng)的軍工武器產(chǎn)品提高可信性、可靠性和安全性提供了支持。

猜你喜歡
可信性魯棒性分類
可變情報板發(fā)布內(nèi)容可信性檢測系統(tǒng)探究
基于可信性的鍋爐安全質(zhì)量綜合評價研究
分類算一算
在區(qū)間上取值的模糊變量的可信性分布
荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評價
分類討論求坐標(biāo)
Five golden rules for meeting management
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
遂宁市| 永德县| 区。| 大荔县| 萨嘎县| 江达县| 彝良县| 固镇县| 达拉特旗| 邵东县| 布拖县| 榆中县| 都昌县| 青海省| 大宁县| 苍梧县| 苗栗县| 乐亭县| 绥中县| 郴州市| 驻马店市| 白银市| 苗栗县| 涪陵区| 海伦市| 锦州市| 彰化县| 龙山县| 济源市| 汉沽区| 永德县| 平泉县| 博白县| 赤峰市| 雷波县| 包头市| 莱州市| 杂多县| 个旧市| 陆川县| 龙山县|