基于采樣的深度神經(jīng)網(wǎng)絡(luò)測(cè)試方法研究①

2020-10-29 05:04蘇警

佳木斯大學(xué)學(xué)報(bào)（自然科學(xué)版） 2020年5期

蘇警

(安徽電子信息職業(yè)技術(shù)學(xué)院軟件學(xué)院，安徽蚌埠 233000)

0 引言

隨著人工智能應(yīng)用的發(fā)展，深度神經(jīng)網(wǎng)絡(luò)模型稱為很多軟件系統(tǒng)的重要組成部分[1-2]。因此，在實(shí)際應(yīng)用環(huán)境中對(duì)深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行有效的測(cè)試，是確保模型能夠正常運(yùn)行的必要手段。但是，對(duì)實(shí)際環(huán)境數(shù)據(jù)集進(jìn)行標(biāo)記需要花費(fèi)大量的人力物力，造成巨大的成本。針對(duì)該問題，利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的分布表征，縮減測(cè)試所需的輸入空間，有效減少測(cè)試數(shù)據(jù)的標(biāo)注代價(jià)。

1 實(shí)際環(huán)境的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)測(cè)試

深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network，DNN)是由輸入層、輸出層以及多層隱藏層組成是的人工神經(jīng)網(wǎng)絡(luò)。DNN將輸入轉(zhuǎn)換為相應(yīng)的輸出，能夠描述線性和非線性關(guān)系。神經(jīng)網(wǎng)絡(luò)后一層的輸入是其前一層輸出的線性組合，其中的激活函數(shù)φ使神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的擬合能力。與其他機(jī)器學(xué)習(xí)模型類似，深度神經(jīng)網(wǎng)絡(luò)首先會(huì)使用訓(xùn)練數(shù)據(jù)集進(jìn)行參數(shù)訓(xùn)練(即神經(jīng)元之間的權(quán)重wi,j和偏置bi)。實(shí)際上，深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的是后驗(yàn)概率分布，即p(y|x)。

將經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型部署在特定應(yīng)用環(huán)境中時(shí)，該深度神經(jīng)網(wǎng)絡(luò)模型可能并不能達(dá)到預(yù)期的精度。造成深度神經(jīng)網(wǎng)絡(luò)模型精度下降的原因有多種，例如模型在特定的訓(xùn)練數(shù)據(jù)集下發(fā)生過擬合或者欠擬合，或者是訓(xùn)練數(shù)據(jù)集和應(yīng)用場(chǎng)景的數(shù)據(jù)集之間存在數(shù)據(jù)分布差異。在實(shí)踐中，數(shù)據(jù)分布差異的情況時(shí)常發(fā)生。因此，在深度神經(jīng)網(wǎng)絡(luò)模型在投入使用之前必須經(jīng)過充分測(cè)試。深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了歸納推理，它與基于邏輯推理的軟件程序不同，因此深度神經(jīng)網(wǎng)絡(luò)測(cè)試與傳統(tǒng)的軟件測(cè)試不同。對(duì)于經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)模型，不存在確定且通用的測(cè)試方法。深度神經(jīng)網(wǎng)絡(luò)測(cè)試的大概流程是，提供預(yù)先訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型和特定的操作上下文，以判斷該模型在此上下文中的性能，判斷的依據(jù)是深度神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)準(zhǔn)確性。如果能夠獲得足夠多的標(biāo)記數(shù)據(jù)，那么深度神經(jīng)網(wǎng)絡(luò)測(cè)試并不是一個(gè)困難的任務(wù)。實(shí)際上，盡管可以從操作環(huán)境中收集未標(biāo)記的數(shù)據(jù)，但是對(duì)數(shù)據(jù)進(jìn)行標(biāo)記的成本非常昂貴。因此，深度神經(jīng)網(wǎng)絡(luò)測(cè)試的關(guān)鍵中心問題是如何使用少量的帶標(biāo)記數(shù)據(jù)樣本準(zhǔn)確測(cè)試深度神經(jīng)網(wǎng)絡(luò)在其操作環(huán)境中的性能。

(1)

Var[H(X)]=E[Var[H(X|Z)]]+Var[E[H(X|Z)]]

(2)

式(2)中，總方差Var[H(X)]由兩部分構(gòu)成，第一部分是誤差的均值E[Var[H(X|Z)]]，第二部分是誤差的方差Var[E[H(X|Z)]]。E[H(X|Z)]是關(guān)于Z的函數(shù)，而且有E[H(X)]=E[E[H(X|Z)]]。

可以利用Z的分布進(jìn)行采樣，并且由于E[H(X|Z)]的方差比H(X)小，可以估計(jì)E[H(X|Z)]而不是直接估計(jì)H(X)。如果可以制作一個(gè)完整的Z樣本，即樣本覆蓋了Z的所有值z(mì)i，則估計(jì)的方差將會(huì)是估計(jì)E[H(X|zi)]所引入的方差。此外，如果H(X)的值完全由Z決定，則方差為零。但是，這兩個(gè)條件難以被滿足，尤其是在操作軟件測(cè)試的復(fù)雜場(chǎng)景中。因此，要提高測(cè)試的效率，需要：(1)盡可能確定影響H(X)準(zhǔn)確性的Z，以便使在每個(gè)zi條件下H(X)的方差最??；(2)盡可能選擇Z中具有代表性的樣本，以便可以很好地處理Z帶來(lái)的不確定性。上述兩點(diǎn)在實(shí)際實(shí)踐的過程中互相矛盾的。直觀地講，H(X)的解釋Z越“精確”，它的粒度就越細(xì)，而用小樣本就越難代表它。因此需要小心地選擇樣本Z以在它們之間取得良好的平衡。用于提高測(cè)試效率的調(diào)節(jié)技術(shù)可以看作是常規(guī)白盒測(cè)試中結(jié)構(gòu)化覆蓋。然而，由于深度神經(jīng)網(wǎng)絡(luò)測(cè)試的黑盒性質(zhì)，將這一想法應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)測(cè)試極具挑戰(zhàn)性。而且深度神經(jīng)網(wǎng)絡(luò)模型的樣本Z是一個(gè)高維向量，因此難以用小樣本來(lái)表示。

2 基于采樣的測(cè)試方法

給定訓(xùn)練過的深度神經(jīng)網(wǎng)絡(luò)模型M，從操作上下文中收集的N個(gè)未標(biāo)記樣本的集合S，從集合S中選擇子集T并對(duì)T中的樣本進(jìn)行標(biāo)記，子集T的大小為n=|T|?N。使用T來(lái)測(cè)試模型M在樣本S上的準(zhǔn)確度，使估計(jì)誤差盡量小。利用模型M和樣本集合S的信息，試通過調(diào)節(jié)來(lái)實(shí)現(xiàn)有效的估計(jì)。首先討論基于置信度的分層抽樣調(diào)節(jié)，然后提出了一個(gè)解決方案，該方案通過模型M所學(xué)習(xí)的表示來(lái)進(jìn)行調(diào)節(jié)，并通過交叉熵最小化來(lái)近似樣本S的分布。

(3)

可以將最后一層隱藏層神經(jīng)元的輸出作為隨機(jī)變量Z。該輸出可以看成是訓(xùn)練數(shù)據(jù)的學(xué)習(xí)表征。操作上下文的數(shù)據(jù)不是獨(dú)立同分布時(shí)，表征會(huì)比預(yù)測(cè)更穩(wěn)定。對(duì)于經(jīng)過訓(xùn)練的模型M，假設(shè)其最后一個(gè)隱藏層L由m個(gè)神經(jīng)元ei組成。將每個(gè)神經(jīng)元ei的輸出Dei分成K個(gè)相等的部分，并定義函數(shù)fei(x)=j，表示輸入x所對(duì)應(yīng)的神經(jīng)元ei的輸出屬于集合Dei,j。

令Sz1，…,zm={x∈S|fei(x)=zi}是S的子集，子集Sz1,…,zm中的元素與z=(z1,…,zm)一一對(duì)應(yīng)。樣本Z的概率分布PS(z)的定義為：

(4)

但是，由于樣本Z具有較高的維數(shù)，要根據(jù)Z的分布從整個(gè)測(cè)試集S中獲取樣本T極具挑戰(zhàn)性，更不用說(shuō)實(shí)施分層采樣了。對(duì)此，通過最小化PS(Z)和PT(Z)之間的交叉熵來(lái)選擇樣本集合T，即

(5)

其中，

(6)

在這種高維情況下，很難直接計(jì)算出最小值。由于深度神經(jīng)網(wǎng)絡(luò)通常會(huì)減少最后一個(gè)隱藏層中神經(jīng)元之間的相關(guān)性[3]，因此可以通過假設(shè)它們?cè)谟?jì)算最小化時(shí)彼此獨(dú)立來(lái)進(jìn)行近似。在這種情況下，可以通過最小化PS(Z)和PT(Z)之間的平均交叉熵來(lái)最小化CE(T)，即

(7)

當(dāng)PS(z)=PT(z)時(shí)，可以得到CE(T)的最優(yōu)值。因此，模型準(zhǔn)確度的估計(jì)可以表示為：

(8)

為了求解優(yōu)化問題(7)，提出了一種基于隨機(jī)游走的輸入選擇算法(如算法1所示)。

表1 隨機(jī)游走的輸入選擇算法

3 實(shí)驗(yàn)評(píng)估

使用Tensorfow和Keras框架實(shí)現(xiàn)了本文提出的方法。對(duì)于基于置信度的分層抽樣，使用通過實(shí)驗(yàn)獲得的最佳設(shè)置。樣本分為三個(gè)層次，具有最高置信度前80%樣本分配給第一層，將其后的10%分配給第二層，將最低的10%分配給第三層。為了獲得大小為n的樣本，分別從三個(gè)層次中選取0.2n、0.4n和0.4n個(gè)樣本。對(duì)于實(shí)現(xiàn)基于表示的條件的基于交叉熵的采樣，將每個(gè)神經(jīng)元的切片數(shù)K設(shè)置為20。

(a)訓(xùn)練數(shù)據(jù)集與操作環(huán)境數(shù)據(jù)集相同 (b)訓(xùn)練數(shù)據(jù)集與操作環(huán)境數(shù)據(jù)集不同

通常，可操作深度神經(jīng)網(wǎng)絡(luò)測(cè)試是在特定操作環(huán)境中檢測(cè)深度神經(jīng)網(wǎng)絡(luò)模型的性能損失。假設(shè)深度神經(jīng)網(wǎng)絡(luò)模型已經(jīng)使用訓(xùn)練集進(jìn)行了很好的訓(xùn)練。實(shí)驗(yàn)采用的深度神經(jīng)網(wǎng)絡(luò)模型為L(zhǎng)eNet-5[4]，操作環(huán)境的數(shù)據(jù)集為MNIST[5]。訓(xùn)練數(shù)據(jù)集有兩個(gè)，一個(gè)是原始的MNIST數(shù)據(jù)集，另一個(gè)是經(jīng)過篡改標(biāo)注的MNIST數(shù)據(jù)集。估計(jì)器的性能指標(biāo)是平均平方誤差(MSE)。實(shí)驗(yàn)是在PC上進(jìn)行的，使用Liunx操作系統(tǒng)，CPU為i7-9700K，內(nèi)存為64GB，GPU為英偉達(dá)GTX 1060Ti。實(shí)驗(yàn)結(jié)果如圖1所示。圖1(a)是訓(xùn)練數(shù)據(jù)集和操作環(huán)境數(shù)據(jù)集均為MNIST的MSE結(jié)果，圖(b)是訓(xùn)練數(shù)據(jù)集為經(jīng)過篡改的MNIST的MSE結(jié)果。由圖1(a)可知，基于置信度的分層采樣方法表現(xiàn)最好，其MSE最低。但是，如圖1(b)所示，當(dāng)訓(xùn)練數(shù)據(jù)集和操作環(huán)境數(shù)據(jù)集不一致時(shí)，基于置信度的分層采樣方法具有最高的MSE。這說(shuō)明基于置信度的采樣具有較低的魯棒性。對(duì)比圖1(a)和(b)可知，基于交叉熵的采樣方法表現(xiàn)最為穩(wěn)定，其MSE均低于隨機(jī)采樣方法，具有較高的魯棒性。

4 結(jié) 論

利用深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)到的表征來(lái)提高操作環(huán)境中深度神經(jīng)網(wǎng)絡(luò)測(cè)試的效率，通過實(shí)驗(yàn)評(píng)估了提出的基于表征條件的采樣方法的有效性。在后續(xù)的工作中，將對(duì)實(shí)驗(yàn)進(jìn)行擴(kuò)展。使用更多目前常見的深度學(xué)習(xí)模型(例如VGG-19,ResNet-50,Dave-drop)和數(shù)據(jù)集(例如ImageNet,MS-COCO,VisualQA,CIFAR-10)進(jìn)一步驗(yàn)證本方法的有效性。