蘇 警
(安徽電子信息職業(yè)技術(shù)學(xué)院 軟件學(xué)院,安徽 蚌埠 233000)
隨著人工智能應(yīng)用的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)模型稱為很多軟件系統(tǒng)的重要組成部分[1-2]。因此,在實(shí)際應(yīng)用環(huán)境中對(duì)深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行有效的測(cè)試,是確保模型能夠正常運(yùn)行的必要手段。但是,對(duì)實(shí)際環(huán)境數(shù)據(jù)集進(jìn)行標(biāo)記需要花費(fèi)大量的人力物力,造成巨大的成本。針對(duì)該問題,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的分布表征,縮減測(cè)試所需的輸入空間,有效減少測(cè)試數(shù)據(jù)的標(biāo)注代價(jià)。
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)是由輸入層、輸出層以及多層隱藏層組成是的人工神經(jīng)網(wǎng)絡(luò)。DNN將輸入轉(zhuǎn)換為相應(yīng)的輸出,能夠描述線性和非線性關(guān)系。神經(jīng)網(wǎng)絡(luò)后一層的輸入是其前一層輸出的線性組合,其中的激活函數(shù)φ使神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的擬合能力。與其他機(jī)器學(xué)習(xí)模型類似,深度神經(jīng)網(wǎng)絡(luò)首先會(huì)使用訓(xùn)練數(shù)據(jù)集進(jìn)行參數(shù)訓(xùn)練(即神經(jīng)元之間的權(quán)重wi,j和偏置bi)。實(shí)際上,深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的是后驗(yàn)概率分布,即p(y|x)。
將經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型部署在特定應(yīng)用環(huán)境中時(shí),該深度神經(jīng)網(wǎng)絡(luò)模型可能并不能達(dá)到預(yù)期的精度。造成深度神經(jīng)網(wǎng)絡(luò)模型精度下降的原因有多種,例如模型在特定的訓(xùn)練數(shù)據(jù)集下發(fā)生過擬合或者欠擬合,或者是訓(xùn)練數(shù)據(jù)集和應(yīng)用場(chǎng)景的數(shù)據(jù)集之間存在數(shù)據(jù)分布差異。在實(shí)踐中,數(shù)據(jù)分布差異的情況時(shí)常發(fā)生。因此,在深度神經(jīng)網(wǎng)絡(luò)模型在投入使用之前必須經(jīng)過充分測(cè)試。深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了歸納推理,它與基于邏輯推理的軟件程序不同,因此深度神經(jīng)網(wǎng)絡(luò)測(cè)試與傳統(tǒng)的軟件測(cè)試不同。對(duì)于經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型,不存在確定且通用的測(cè)試方法。深度神經(jīng)網(wǎng)絡(luò)測(cè)試的大概流程是,提供預(yù)先訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型和特定的操作上下文,以判斷該模型在此上下文中的性能,判斷的依據(jù)是深度神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)準(zhǔn)確性。如果能夠獲得足夠多的標(biāo)記數(shù)據(jù),那么深度神經(jīng)網(wǎng)絡(luò)測(cè)試并不是一個(gè)困難的任務(wù)。實(shí)際上,盡管可以從操作環(huán)境中收集未標(biāo)記的數(shù)據(jù),但是對(duì)數(shù)據(jù)進(jìn)行標(biāo)記的成本非常昂貴。因此,深度神經(jīng)網(wǎng)絡(luò)測(cè)試的關(guān)鍵中心問題是如何使用少量的帶標(biāo)記數(shù)據(jù)樣本準(zhǔn)確測(cè)試深度神經(jīng)網(wǎng)絡(luò)在其操作環(huán)境中的性能。
(1)
Var[H(X)]=E[Var[H(X|Z)]]+Var[E[H(X|Z)]]
(2)
式(2)中,總方差Var[H(X)]由兩部分構(gòu)成,第一部分是誤差的均值E[Var[H(X|Z)]],第二部分是誤差的方差Var[E[H(X|Z)]]。E[H(X|Z)]是關(guān)于Z的函數(shù),而且有E[H(X)]=E[E[H(X|Z)]]。
可以利用Z的分布進(jìn)行采樣,并且由于E[H(X|Z)]的方差比H(X)小,可以估計(jì)E[H(X|Z)]而不是直接估計(jì)H(X)。如果可以制作一個(gè)完整的Z樣本,即樣本覆蓋了Z的所有值z(mì)i,則估計(jì)的方差將會(huì)是估計(jì)E[H(X|zi)]所引入的方差。此外,如果H(X)的值完全由Z決定,則方差為零。但是,這兩個(gè)條件難以被滿足,尤其是在操作軟件測(cè)試的復(fù)雜場(chǎng)景中。因此,要提高測(cè)試的效率,需要:(1)盡可能確定影響H(X)準(zhǔn)確性的Z,以便使在每個(gè)zi條件下H(X)的方差最??;(2)盡可能選擇Z中具有代表性的樣本,以便可以很好地處理Z帶來(lái)的不確定性。上述兩點(diǎn)在實(shí)際實(shí)踐的過程中互相矛盾的。直觀地講,H(X)的解釋Z越“精確”,它的粒度就越細(xì),而用小樣本就越難代表它。因此需要小心地選擇樣本Z以在它們之間取得良好的平衡。用于提高測(cè)試效率的調(diào)節(jié)技術(shù)可以看作是常規(guī)白盒測(cè)試中結(jié)構(gòu)化覆蓋。然而,由于深度神經(jīng)網(wǎng)絡(luò)測(cè)試的黑盒性質(zhì),將這一想法應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)測(cè)試極具挑戰(zhàn)性。而且深度神經(jīng)網(wǎng)絡(luò)模型的樣本Z是一個(gè)高維向量,因此難以用小樣本來(lái)表示。
給定訓(xùn)練過的深度神經(jīng)網(wǎng)絡(luò)模型M,從操作上下文中收集的N個(gè)未標(biāo)記樣本的集合S,從集合S中選擇子集T并對(duì)T中的樣本進(jìn)行標(biāo)記,子集T的大小為n=|T|?N。使用T來(lái)測(cè)試模型M在樣本S上的準(zhǔn)確度,使估計(jì)誤差盡量小。利用模型M和樣本集合S的信息,試通過調(diào)節(jié)來(lái)實(shí)現(xiàn)有效的估計(jì)。首先討論基于置信度的分層抽樣調(diào)節(jié),然后提出了一個(gè)解決方案,該方案通過模型M所學(xué)習(xí)的表示來(lái)進(jìn)行調(diào)節(jié),并通過交叉熵最小化來(lái)近似樣本S的分布。
(3)
可以將最后一層隱藏層神經(jīng)元的輸出作為隨機(jī)變量Z。該輸出可以看成是訓(xùn)練數(shù)據(jù)的學(xué)習(xí)表征。操作上下文的數(shù)據(jù)不是獨(dú)立同分布時(shí),表征會(huì)比預(yù)測(cè)更穩(wěn)定。對(duì)于經(jīng)過訓(xùn)練的模型M,假設(shè)其最后一個(gè)隱藏層L由m個(gè)神經(jīng)元ei組成。將每個(gè)神經(jīng)元ei的輸出Dei分成K個(gè)相等的部分,并定義函數(shù)fei(x)=j,表示輸入x所對(duì)應(yīng)的神經(jīng)元ei的輸出屬于集合Dei,j。
令Sz1,…,zm={x∈S|fei(x)=zi}是S的子集,子集Sz1,…,zm中的元素與z=(z1,…,zm)一一對(duì)應(yīng)。樣本Z的概率分布PS(z)的定義為:
(4)
但是,由于樣本Z具有較高的維數(shù),要根據(jù)Z的分布從整個(gè)測(cè)試集S中獲取樣本T極具挑戰(zhàn)性,更不用說(shuō)實(shí)施分層采樣了。對(duì)此,通過最小化PS(Z)和PT(Z)之間的交叉熵來(lái)選擇樣本集合T,即
(5)
其中,
(6)
在這種高維情況下,很難直接計(jì)算出最小值。由于深度神經(jīng)網(wǎng)絡(luò)通常會(huì)減少最后一個(gè)隱藏層中神經(jīng)元之間的相關(guān)性[3],因此可以通過假設(shè)它們?cè)谟?jì)算最小化時(shí)彼此獨(dú)立來(lái)進(jìn)行近似。在這種情況下,可以通過最小化PS(Z)和PT(Z)之間的平均交叉熵來(lái)最小化CE(T),即
(7)
當(dāng)PS(z)=PT(z)時(shí),可以得到CE(T)的最優(yōu)值。因此,模型準(zhǔn)確度的估計(jì)可以表示為:
(8)
為了求解優(yōu)化問題(7),提出了一種基于隨機(jī)游走的輸入選擇算法(如算法1所示)。
表1 隨機(jī)游走的輸入選擇算法
使用Tensorfow和Keras框架實(shí)現(xiàn)了本文提出的方法。對(duì)于基于置信度的分層抽樣,使用通過實(shí)驗(yàn)獲得的最佳設(shè)置。樣本分為三個(gè)層次,具有最高置信度前80%樣本分配給第一層,將其后的10%分配給第二層,將最低的10%分配給第三層。為了獲得大小為n的樣本,分別從三個(gè)層次中選取0.2n、0.4n和0.4n個(gè)樣本。對(duì)于實(shí)現(xiàn)基于表示的條件的基于交叉熵的采樣,將每個(gè)神經(jīng)元的切片數(shù)K設(shè)置為20。
(a)訓(xùn)練數(shù)據(jù)集與操作環(huán)境數(shù)據(jù)集相同 (b)訓(xùn)練數(shù)據(jù)集與操作環(huán)境數(shù)據(jù)集不同
通常,可操作深度神經(jīng)網(wǎng)絡(luò)測(cè)試是在特定操作環(huán)境中檢測(cè)深度神經(jīng)網(wǎng)絡(luò)模型的性能損失。假設(shè)深度神經(jīng)網(wǎng)絡(luò)模型已經(jīng)使用訓(xùn)練集進(jìn)行了很好的訓(xùn)練。實(shí)驗(yàn)采用的深度神經(jīng)網(wǎng)絡(luò)模型為L(zhǎng)eNet-5[4],操作環(huán)境的數(shù)據(jù)集為MNIST[5]。訓(xùn)練數(shù)據(jù)集有兩個(gè),一個(gè)是原始的MNIST數(shù)據(jù)集,另一個(gè)是經(jīng)過篡改標(biāo)注的MNIST數(shù)據(jù)集。估計(jì)器的性能指標(biāo)是平均平方誤差(MSE)。實(shí)驗(yàn)是在PC上進(jìn)行的,使用Liunx操作系統(tǒng),CPU為i7-9700K,內(nèi)存為64GB,GPU為英偉達(dá)GTX 1060Ti。實(shí)驗(yàn)結(jié)果如圖1所示。圖1(a)是訓(xùn)練數(shù)據(jù)集和操作環(huán)境數(shù)據(jù)集均為MNIST的MSE結(jié)果,圖(b)是訓(xùn)練數(shù)據(jù)集為經(jīng)過篡改的MNIST的MSE結(jié)果。由圖1(a)可知,基于置信度的分層采樣方法表現(xiàn)最好,其MSE最低。但是,如圖1(b)所示,當(dāng)訓(xùn)練數(shù)據(jù)集和操作環(huán)境數(shù)據(jù)集不一致時(shí),基于置信度的分層采樣方法具有最高的MSE。這說(shuō)明基于置信度的采樣具有較低的魯棒性。對(duì)比圖1(a)和(b)可知,基于交叉熵的采樣方法表現(xiàn)最為穩(wěn)定,其MSE均低于隨機(jī)采樣方法,具有較高的魯棒性。
利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)到的表征來(lái)提高操作環(huán)境中深度神經(jīng)網(wǎng)絡(luò)測(cè)試的效率,通過實(shí)驗(yàn)評(píng)估了提出的基于表征條件的采樣方法的有效性。在后續(xù)的工作中,將對(duì)實(shí)驗(yàn)進(jìn)行擴(kuò)展。使用更多目前常見的深度學(xué)習(xí)模型(例如VGG-19,ResNet-50,Dave-drop)和數(shù)據(jù)集(例如ImageNet,MS-COCO,VisualQA,CIFAR-10)進(jìn)一步驗(yàn)證本方法的有效性。