李海濤,胡澤濤,張俊虎
(青島科技大學(xué)信息科學(xué)與技術(shù)學(xué)院,山東 青島 266061)
隨著人工神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,深度學(xué)習(xí)這一人工智能重要領(lǐng)域有了更好的前景,其中圖像識別與分類已經(jīng)有了廣泛的應(yīng)用,包括人臉識別、停車場車牌識別、醫(yī)療圖像分析、安防監(jiān)控等[1]。但是當(dāng)深度學(xué)習(xí)逐漸擴(kuò)展到更多行業(yè)中時(shí),其局限性也慢慢暴露出來:數(shù)據(jù)的不足會使深度學(xué)習(xí)與其他傳統(tǒng)方法相比沒有優(yōu)勢,甚至達(dá)不到其他傳統(tǒng)方法取得的效果。這一局限性在圖像識別與分類中,具體表現(xiàn)為數(shù)據(jù)集質(zhì)量參差不齊、數(shù)據(jù)多樣性不足、數(shù)據(jù)集類別不平衡等問題[2]。其中數(shù)據(jù)集類別不平衡問題較為常見且影響較大,表現(xiàn)為數(shù)據(jù)集中某幾類樣本的數(shù)據(jù)量較多,而另外幾類樣本的數(shù)據(jù)量較少,若人工神經(jīng)網(wǎng)絡(luò)采用此種數(shù)據(jù)集訓(xùn)練,最后的判別準(zhǔn)確率會在某幾類上出現(xiàn)明顯的偏差。解決類別不平衡問題最直觀、有效的方法是對數(shù)量少的樣本圖像進(jìn)行擴(kuò)充。
傳統(tǒng)的圖像擴(kuò)充方法主要依據(jù)計(jì)算機(jī)圖形學(xué)相關(guān)理論,通過在幾何變換方面對原始圖像進(jìn)行平移、縮放、旋轉(zhuǎn)、仿射、透視;在圖像增強(qiáng)方面對原始圖像進(jìn)行亮度、色度、對比度、銳度調(diào)整;在噪聲方面對原始圖像添加高斯噪聲或椒鹽噪聲[3]。采用傳統(tǒng)圖像擴(kuò)充方法可以在不增加無意義數(shù)據(jù)的同時(shí)簡單快速地?cái)U(kuò)充樣本圖像數(shù)量,但在數(shù)據(jù)多樣性提升方面效果不佳。近年來隨著神經(jīng)網(wǎng)絡(luò)不斷改進(jìn)變革,涌現(xiàn)出了卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)等眾多復(fù)雜的多節(jié)點(diǎn)網(wǎng)絡(luò)模型,依托于此,誕生了生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)及其一系列改進(jìn)網(wǎng)絡(luò)。生成對抗網(wǎng)絡(luò)通過生成器與判別器二者進(jìn)行博弈式訓(xùn)練,可使生成器生成與真實(shí)樣本極其相似的生成樣本[4]。根據(jù)生成對抗網(wǎng)絡(luò)的結(jié)構(gòu)和特性,可以利用其進(jìn)行有效的圖像擴(kuò)充,使生成圖像多樣性更加豐富。
考慮到生成對抗網(wǎng)絡(luò)所生成樣本的分辨率、多樣性等指標(biāo),本文選取StyleGAN2 作為原始網(wǎng)絡(luò)。在StyleGAN2的基礎(chǔ)上,針對魚類圖像由低到高不同層級特征的變化特點(diǎn),以及StyleGAN2控制不同層級特征變化的方式,本文設(shè)計(jì)一種噪聲抑制樣式生成對抗網(wǎng)絡(luò)NS-StyleGAN2。NS-StyleGAN2 通過去除StyleGAN2的合成網(wǎng)絡(luò)中4×4至16×16分辨率層的噪聲疊加模塊,保留其他分辨率層的噪聲疊加模塊,抑制了StyleGAN2合成網(wǎng)絡(luò)中的低分辨率層噪聲輸入。同時(shí)本文對DCGAN、WGAN等其他生成對抗網(wǎng)絡(luò)進(jìn)行相同實(shí)驗(yàn)對比,發(fā)現(xiàn)利用NS-StyleGAN2 網(wǎng)絡(luò)對魚類圖像樣本訓(xùn)練,可以生成更真實(shí)、更多樣化的魚類圖像樣本。
GANs 于2014 年由Goodfellow 等人提出,是一種無監(jiān)督學(xué)習(xí)方法[5]。GANs 包括2 大部分:生成器G(Generator)和判別器D(Discriminator)[6]。生成器將隨機(jī)噪聲z作為輸入,經(jīng)過多層網(wǎng)絡(luò)運(yùn)算處理輸出生成樣本圖像G(z)。判別器將生成樣本圖像和真實(shí)樣本圖像作為輸入x,經(jīng)過多層網(wǎng)絡(luò)運(yùn)算處理得到二值輸出D(x),值為0 時(shí)表示輸入x為生成樣本圖像,值為1時(shí)表示輸入x為真實(shí)樣本圖像[7]。
最初的GANs 使用梯度下降法達(dá)到納什均衡,訓(xùn)練過程極不穩(wěn)定,會出現(xiàn)梯度消失、模式崩潰(Model Collapse)等問題,造成訓(xùn)練能效低、生成樣本多樣性低、圖像質(zhì)量差[8-12]等問題。為了解決原始GANs 的問題,經(jīng)過后人研究衍生了若干GANs的變種。
深度卷積生成對抗網(wǎng)絡(luò)與原始GANs 相比修改了生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu),在生成器中使用分?jǐn)?shù)步長卷積(Fractional-strided Convolutions)代替池化層,在判別器中使用步長卷積(Strided Convolutions)代替池化層,以此加深網(wǎng)絡(luò)層級,學(xué)習(xí)樣本更多的特征[13]。為了加快網(wǎng)絡(luò)收斂,DCGAN 使用池化層將生成器和判別器的隨機(jī)輸入直接與卷積層特征輸入進(jìn)行連接,去掉了參數(shù)過多的全連接層[14-15]。
基于推土機(jī)距離的生成對抗網(wǎng)絡(luò)(Wasserstein GAN,WGAN)的改進(jìn)方式與DCGAN 的根據(jù)經(jīng)驗(yàn)調(diào)整網(wǎng)絡(luò)架構(gòu)不同,它從原始GANs 的公式定理方面著手,針對推理出的問題從算法邏輯進(jìn)行改進(jìn)。WGAN相較于原始GANs,從理論上解決了梯度消失問題,同時(shí)引入了Wasserstein 距離作為GAN 訓(xùn)練指標(biāo),使網(wǎng)絡(luò)訓(xùn)練更加穩(wěn)定并減少了模式崩塌現(xiàn)象[16-18]。但WGAN沒有對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行大幅度調(diào)整,仍然難以生成高分辨率圖像。
基于樣式的生成對抗網(wǎng)絡(luò)(Style Based GAN,StyleGAN)是英偉達(dá)公司于2019 年提出的一種基于ProGAN 改進(jìn)的生成對抗網(wǎng)絡(luò)變體[19]。StyleGAN 網(wǎng)絡(luò)結(jié)構(gòu)與GANs 類似,包括生成器和判別器,其改進(jìn)點(diǎn)主要集中在生成器。StyleGAN 的生成器網(wǎng)絡(luò)主要包括2個(gè)部分:映射網(wǎng)絡(luò)(Mapping Network)和合成網(wǎng)絡(luò)(Synthesis Network),整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 StyleGAN網(wǎng)絡(luò)結(jié)構(gòu)
Mapping Network 主要對隱藏空間(Latent Space)進(jìn)行解耦,尋找數(shù)據(jù)之間耦合性高的特征之間更深層次的關(guān)系,將這些關(guān)系解耦得到隱藏特征(Latent Code)。Mapping Network 的8 個(gè)全連接層將Latent Code(z)仿射變換(A)為中間變量w,使z的分布函數(shù)變?yōu)榉蔷鶆蛎芏确植己瘮?shù),更符合實(shí)際情況的特征分布。通過Mapping Network 模型可以生成一個(gè)不需要跟隨訓(xùn)練數(shù)據(jù)分布的向量w,并可以減少樣本特征之間的耦合性,達(dá)到控制單一特征而不影響其原始被糾纏的特征[20-23]。
StyleGAN 作為目前最先進(jìn)的高分辨率圖像生成方法之一,其仍存在缺點(diǎn),包括網(wǎng)絡(luò)訓(xùn)練速度慢以及生成的各級特征圖像都包含明顯的斑點(diǎn)偽影(artifacts)。為解決StyleGAN 出現(xiàn)的問題,NVIDIA發(fā)布了StyleGAN的升級版——StyleGAN2。
StyleGAN2通過實(shí)驗(yàn)發(fā)現(xiàn)出現(xiàn)artifacts的原因在于AdaIN操作,于是在一代的基礎(chǔ)上修改合成網(wǎng)絡(luò)架構(gòu),首先將AdaIN轉(zhuǎn)化為歸一化與調(diào)制這2個(gè)操作,并將多余的偏差和噪聲廣播操作移至不同分辨率層之間,最終使用解調(diào)代替歸一化[24-27]。StyleGAN2可以有效減少artifacts現(xiàn)象,加快網(wǎng)絡(luò)訓(xùn)練速度。StyleGAN2網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 與圖1 相比可明顯看出,StyleGAN2 生成器除了將StyleGAN 中的AdaIN 模塊使用調(diào)制解調(diào)模塊Mod、Demod 代替,同時(shí)將噪聲B 疊加的位置從Conv模塊與AdaIN模塊之間移至不同分辨率層之間。
圖2 StyleGAN2網(wǎng)絡(luò)結(jié)構(gòu)
原始StyleGAN2 通過噪聲廣播將噪聲疊加到合成網(wǎng)絡(luò)的從低到高所有分辨率層,以此增加圖像基礎(chǔ)特征到高級特征的多樣性,例如增加人臉圖像的膚色、頭發(fā)顏色、背景色到姿態(tài)、臉型、穿戴等特征的多樣性。但是對于使用StyleGAN2 擴(kuò)充魚類圖像以增加圖像識別分類準(zhǔn)確率來說,每種魚的基礎(chǔ)特征,如魚表面顏色及外輪廓應(yīng)較為一致,因此需要減少圖像基礎(chǔ)特征的多樣性。
針對上述StyleGAN2 在魚類圖像應(yīng)用的問題,本文構(gòu)建一種噪聲抑制樣式生成對抗網(wǎng)絡(luò)(Noise-Suppressed Style Generative Adversarial Networks 2,NS-StyleGAN2)。NS-StyleGAN2 在4×4 至16×16 分辨率層中去除噪聲疊加,在32×32及更高分辨率層保留噪聲疊加,以增加高分辨率層噪聲權(quán)重,抑制低分辨率層噪聲權(quán)重。圖3 為NS-StyleGAN2 結(jié)構(gòu),可明顯看出4×4、8×8 及16×16 分辨率層沒有了噪聲疊加模塊。
圖3 NS-StyleGAN2網(wǎng)絡(luò)結(jié)構(gòu)
基于StyleGAN2網(wǎng)絡(luò)結(jié)構(gòu),NS-StyleGAN2網(wǎng)絡(luò)包括生成器和鑒別器,其樣本圖像生成過程主要由3 個(gè)步驟構(gòu)成:
步驟1 輸入隨機(jī)噪聲到8 個(gè)全連接層,輸出中間變量w。
步驟2 中間變量w先后經(jīng)過仿射變換、調(diào)制解調(diào),與常量或來自上一分辨率層的輸出進(jìn)入卷積層運(yùn)算。
步驟3 32×32 及更高分辨率層經(jīng)過步驟2 得到的輸出與噪聲B疊加輸入下一分辨率層,最高分辨率層的輸出即為最終生成圖像。
實(shí)驗(yàn)電腦配置如下:操作系統(tǒng)為Ubuntu 20.04,CPU 為i9-9900k,GPU 為2 張NVIDIA GeForce RTX3090,單張顯存為12 GB,內(nèi)存為32 GB,Python版本為3.9.7,Pytorch版本為1.9.1。
本文實(shí)驗(yàn)使用202 幅從不同角度實(shí)際拍攝的鰱魚圖像作為數(shù)據(jù)集,每幅圖像分辨率為256×256,顏色為彩色。DCGAN 和WGAN 模型訓(xùn)練時(shí)由于難以生成高分辨率圖像,所以將DCGAN 和WGAN 模型訓(xùn)練所用圖像使用中心裁剪方法裁剪至64×64分辨率。
本文采用起始分?jǐn)?shù)(Inception Score,IS)、弗雷歇起始距離(Frechet Inception Distance,F(xiàn)ID)、內(nèi)核起始距離(Kernel Inception Distance,KID)這3 種GANs 常用的評價(jià)標(biāo)準(zhǔn)作為實(shí)驗(yàn)結(jié)果評價(jià)指標(biāo)。
3.3.1 起始分?jǐn)?shù)IS
起始分?jǐn)?shù)使用圖片分類網(wǎng)絡(luò)Inception Network第3 個(gè)版本以及ImageNet 數(shù)據(jù)集,從生成圖片的清晰度和多樣性2 個(gè)方面驗(yàn)證生成模型的性能。在清晰度方面,IS 計(jì)算生成的圖片屬于1000 類圖片中某個(gè)類別的概率的熵,熵越小代表被檢測圖片越清晰,最理想的情況為生成的圖片屬于某一類圖片的概率極大,屬于其他類別的概率極小; 在多樣性方面,IS 計(jì)算所有生成圖片在1000 類圖片中概率的邊緣分布的熵,熵越大代表圖片多樣性越高,最理想的情況為生成的圖片在各類圖片中均勻分布。綜合2 方面可得公式(1):
其中,exp 沒有具體含義,x~Pg表示從生成器中生成圖片樣本分布,p(y|x)表示生成圖片x屬于各個(gè)類別圖片y的概率分布,p(y)表示生成器所有圖片在所有類別圖片上的邊緣分布,DKL表示KL 散度,用以衡量2 個(gè)概率分布的距離。通過前面分析可知,生成器性能最好情況下p(y|x)為極尖銳分布,p(y)為均勻分布,因此這2 個(gè)分布的KL 散度越大生成器性能越好。
3.3.2 弗雷歇起始距離FID
FID 同樣借助Inception Network 得到圖片樣本的n維特征并將其簡化為向量,使用弗雷歇距離(Frechet Distance)計(jì)算真實(shí)樣本特征和生成樣本特征這2個(gè)多維向量所服從分布之間的距離。2幅相同的圖片樣本其特征向量的分布會重合,因此FID 越小,生成樣本與真實(shí)樣本越相似。FID計(jì)算如公式(2)所示:
其中,μr表示真實(shí)圖片的特征的均值,μg表示生成圖片的特征的均值,∑r表示真實(shí)圖片的特征的協(xié)方差矩陣,∑g表示生成圖片的特征的協(xié)方差矩陣。FID與IS 不同,考慮了真實(shí)樣本與生成樣本的關(guān)系,而IS 只依據(jù)ImageNet 數(shù)據(jù)集,從判別依據(jù)上提升了合理性。同時(shí)FID 不需要對生成樣本進(jìn)行分類,可以避免生成樣本類別模糊、不存在于ImageNet數(shù)據(jù)集等多樣性問題對計(jì)算結(jié)果造成的影響。
3.3.3 內(nèi)核起始距離KID
KID 與FID 類似,使用Inception Network 計(jì)算表征之間最大均值差異的平方來衡量生成樣本與真實(shí)樣本之間的差異。與FID 不同之處在于,KID 擁有一個(gè)3次核的無偏估計(jì)值,計(jì)算結(jié)果與人類感知類似。
本文使用基于Pytorch 框架實(shí)現(xiàn)在DCGAN、WGAN、StyleGAN2 以及本文提出的NS-StyleGAN2 網(wǎng)絡(luò)上對相同的鰱魚數(shù)據(jù)集進(jìn)行訓(xùn)練,每種網(wǎng)絡(luò)分別訓(xùn)練1000 個(gè)epoch,每個(gè)epoch 為使用訓(xùn)練集的全部數(shù)據(jù)對模型進(jìn)行一次完整訓(xùn)練,使用訓(xùn)練完成保存的模型分別生成1000 幅圖像作為生成樣本,最后使用生成樣本計(jì)算GANs 評價(jià)量化指標(biāo),并通過人眼觀察作出評價(jià)。
圖4為NS-StyleGAN2對鰱魚數(shù)據(jù)集進(jìn)行1000個(gè)epoch 訓(xùn)練的FID 得分變化趨勢。前200 個(gè)epoch 訓(xùn)練過程中FID 得分迅速下降,在第800個(gè)epoch 時(shí)FID得分下降到最低值,說明NS-StyleGAN2 在前1000 個(gè)epoch訓(xùn)練中可以收斂。
圖4 NS-StyleGAN2的FID變化趨勢
表1 為4 種模型所生成樣本在IS、FID、KID 量化指標(biāo)上的對比情況,IS 得分越高、FID 與KID 得分越低表明生成樣本越接近真實(shí)樣本、生成器性能越好。本文提出的NS-StyleGAN2 在IS 分?jǐn)?shù)為3.54,F(xiàn)ID 分?jǐn)?shù)為206.56,KID 分?jǐn)?shù)為0.15,IS 分?jǐn)?shù)在4 種模型中最高,而FID、KID 分?jǐn)?shù)均最低。由于DCGAN、WGAN 所生成的樣本分辨率為64×64,遠(yuǎn)低于StyleGAN2 與NS-StyleGAN2 生成樣本的256×256 分辨率,所以生成樣本清晰度遠(yuǎn)不如真實(shí)樣本清晰度,導(dǎo)致DCGAN、WGAN 的評價(jià)得分與StyleGAN2、NS-StyleGAN2 的評價(jià)得分差距較大。NS-StyleGAN2與StyleGAN2相比,通過噪聲抑制手段在減少生成樣本基礎(chǔ)特征變化的同時(shí)保持了高級特征的變化,使生成樣本在更接近于真實(shí)樣本的同時(shí)保持了多樣性,因此NS-StyleGAN2的各項(xiàng)得分均優(yōu)于StyleGAN2。上述結(jié)果表明本文提出的NS-StyleGAN2生成的圖像與真實(shí)圖像更為相似,且具有較高的質(zhì)量與多樣性。
表1 4種模型的3種量化評價(jià)指標(biāo)對比
圖5 為使用原始StyleGAN2 和NS-StyleGAN2 生成的結(jié)果對比,通過對比發(fā)現(xiàn)原始StyleGAN2 生成圖像整體較為模糊,魚表面有明顯不同顏色色塊,且缺失紋理細(xì)節(jié)。NS-StyleGAN2 生成圖像整體較為清晰,魚鰭邊緣細(xì)節(jié)、魚表面紋理較為明顯,魚表面顏色過渡平滑。由于StyleGAN2 在合成網(wǎng)絡(luò)的各個(gè)分辨率層都輸入了噪聲,魚表面顏色、紋理等基礎(chǔ)特征變化幅度較大,導(dǎo)致其模糊不清甚至缺失;而NSStyleGAN2 通過抑制低分辨率層的噪聲輸入,控制了基礎(chǔ)特征的變化幅度,使得基礎(chǔ)特征更加清晰、符合真實(shí)情況。因此本文提出的NS-StyleGAN2可以為魚類識別提供更真實(shí)客觀的樣本。
圖5 原始網(wǎng)絡(luò)與改進(jìn)網(wǎng)絡(luò)生成圖像
圖6 為去除不同分辨率層噪聲疊加的NSStyleGAN2 所生成圖像對比。通過對比發(fā)現(xiàn),去除8×8及以下分辨率層噪聲疊加所生成的圖像與去除16×16 及以下的相比,魚鰓及其附近的魚鰭邊界更為模糊,魚表面顏色過渡不自然;去除32×32 及以下分辨率層噪聲疊加所生成的圖像與去除16×16 及以下的相比,魚鰓形狀模糊,魚鰭形狀姿態(tài)單一且丟失背鰭細(xì)節(jié)。去除噪聲疊加的分辨率過低,只能抑制較少的基礎(chǔ)特征變化,而去除噪聲疊加的分辨率過高,會影響背鰭等高級特征的產(chǎn)生。因此去除16×16 及以下分辨率層噪聲疊加的NS-StyleGAN2能夠取得更理想的圖像生成效果。
圖6 去除不同層級噪聲生成圖像
圖7為4種模型生成樣本與真實(shí)樣本對比,通過人眼觀察發(fā)現(xiàn),DCGAN與WGAN生成的圖像較為類似,圖中魚的整體輪廓較為明顯,魚表面和背景色調(diào)與真實(shí)圖像的較為一致,但由于分辨率和模型收斂程度限制,魚鰭、魚鰓等細(xì)節(jié)特征較為模糊,無法從圖像上觀察出來,且圖像中噪點(diǎn)較為明顯。StyleGAN2生成樣本幾乎沒有噪點(diǎn),魚的外輪廓較為清晰,但細(xì)節(jié)特征仍然模糊,魚表面呈現(xiàn)大量不均勻色塊。而本文提出的NS-StyleGAN2生成的圖像中魚外輪廓邊界鮮明,背景及魚身顏色過渡平滑,魚鰓、魚鰭等結(jié)構(gòu)可明顯辨別。
圖7 4種模型生成圖像
本文在生成對抗網(wǎng)絡(luò)架構(gòu)基礎(chǔ)上,提出了一種噪聲抑制生成對抗網(wǎng)絡(luò)的魚類圖像生成方法,應(yīng)用于魚類圖像生成。本文方法與DCGAN、WGAN、StyleGAN2這3 種方法各生成1000 個(gè)樣本,在IS、FID、KID 這3種量化指標(biāo)以及人眼觀察評價(jià)方面進(jìn)行比較,結(jié)果表明本文方法在魚類圖像方面可以生成更加真實(shí)、客觀的圖像,實(shí)現(xiàn)對魚類圖像數(shù)據(jù)集的擴(kuò)充,有助于解決圖像類別不平衡問題。