国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生成對(duì)抗網(wǎng)絡(luò)模型的基本介紹和應(yīng)用綜述

2019-03-14 07:17馮杰班彪華
現(xiàn)代計(jì)算機(jī) 2019年4期
關(guān)鍵詞:架構(gòu)神經(jīng)網(wǎng)絡(luò)樣本

馮杰,班彪華

(廣西師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院,南寧 530000)

0 引言

與神經(jīng)網(wǎng)絡(luò)相關(guān)的大量工作誕生于20世紀(jì)五十年代,然而當(dāng)時(shí)的計(jì)算機(jī)運(yùn)行得十分緩慢,數(shù)據(jù)量也小,科研人員并沒有發(fā)現(xiàn)在現(xiàn)實(shí)世界中能夠使用神經(jīng)網(wǎng)絡(luò)的場(chǎng)景。因此,在21世紀(jì)初,神經(jīng)網(wǎng)絡(luò)幾乎被機(jī)器學(xué)習(xí)領(lǐng)域?qū)W者所遺忘。直到近年來,神經(jīng)網(wǎng)絡(luò)最先在2009年的語言識(shí)別領(lǐng)域,接下來在2012年的計(jì)算機(jī)視覺中,其憑借優(yōu)異的表現(xiàn)重新回到人們的視線(同時(shí)伴隨著LeNet、AlexNex等網(wǎng)絡(luò)架構(gòu)的提出)。大數(shù)據(jù)(Big Data)以及廉價(jià)高速的GPU為神經(jīng)網(wǎng)絡(luò)的發(fā)展提供了動(dòng)力,使其快速成為當(dāng)今最炙手可熱的研究方向。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中十分令人振奮的一個(gè)分支,它利用大量的數(shù)據(jù)來訓(xùn)練計(jì)算機(jī)去做一些之前只有人類才能做的事情,諸如如何分辨圖像中有哪些物體,分辨人們?cè)诖螂娫挄r(shí)對(duì)話的內(nèi)容,將文檔翻譯成另一種語言,幫助機(jī)器人探索世界并對(duì)各種事情及時(shí)響應(yīng),等等。深度學(xué)習(xí)成為解決機(jī)器認(rèn)知問題最為核心的工具,并且是計(jì)算機(jī)視覺和語音識(shí)別領(lǐng)域當(dāng)下最為優(yōu)秀技術(shù)之一。

最近幾年,深度神經(jīng)網(wǎng)絡(luò)[1]在圖像識(shí)別、語音識(shí)別以及自然語言理解方面的應(yīng)用有了爆炸式的增長,并且都能達(dá)到極高的準(zhǔn)確度。目前最新進(jìn)的深度神經(jīng)網(wǎng)絡(luò)算法可以通過數(shù)據(jù)學(xué)習(xí)到高度復(fù)雜的模型和模式,它們的能力令人印象深刻。然而人類可以做能力遠(yuǎn)超出圖像識(shí)別和語音識(shí)別的任務(wù),而這些任務(wù)想要通過機(jī)器進(jìn)行自動(dòng)化似乎還是天方夜譚。例如:①通過學(xué)習(xí)維基百科上的文章來訓(xùn)練出一個(gè)人工智能作者,以一種通俗易懂的方式寫一篇面向社區(qū)解釋科學(xué)概念的文章。②創(chuàng)造一個(gè)可以通過學(xué)習(xí)著名畫家的作品集來模擬他的風(fēng)格進(jìn)行創(chuàng)作的人工智能畫家。毫無疑問,這些都是很困難的任務(wù),但是生成對(duì)抗網(wǎng)絡(luò)(GAN)使得這些任務(wù)的解決變?yōu)榭赡堋I疃葘W(xué)習(xí)的領(lǐng)軍人物,F(xiàn)acebook AI部門主管Yann LeCun曾經(jīng)說過:“生成對(duì)抗網(wǎng)絡(luò)(GAN)及其變種已然成為近10年來機(jī)器學(xué)習(xí)領(lǐng)域最令人激動(dòng)的想法。”

1 生成對(duì)抗網(wǎng)絡(luò)

生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)是Goodfellow等[2]人在2014年從自博弈論中的“二人零和博弈(即二人的利益之和為零,一方的所得正是另一方的所失)”中受到啟發(fā)而提出的。GAN是一個(gè)通過對(duì)抗過程來估計(jì)生成模型的新框架,并可使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)實(shí)現(xiàn)優(yōu)化。這避免了反復(fù)應(yīng)用馬爾可夫鏈學(xué)習(xí)機(jī)制帶來的配分函數(shù)計(jì)算,不需變分下限也不需近似推斷,從而大大提高了應(yīng)用效率[3]。它需要同時(shí)訓(xùn)練兩個(gè)模型:捕獲數(shù)據(jù)分布的生成模型G(Generative Model)和一個(gè)用于估計(jì)樣本來自訓(xùn)練數(shù)據(jù)而非G的概率的判別模型D(Discriminative Model)[1]。生成模型捕捉真實(shí)數(shù)據(jù)樣本的潛在分布并生成新的數(shù)據(jù)樣本,判別模型是一個(gè)二分類器,判別輸入的數(shù)據(jù)是來自真實(shí)數(shù)據(jù)還是生成的樣本數(shù)據(jù)。為了能在博弈中勝出,兩個(gè)模型需不斷提高自身的生成能力和判別能力。生成模型和判別模型均可用深度神經(jīng)網(wǎng)絡(luò)。生成對(duì)抗網(wǎng)絡(luò)GAN的優(yōu)化過程是一個(gè)極大極小博弈(Minimax Game)問題,優(yōu)化的期望是達(dá)到納什均衡,使得生成模型估測(cè)到數(shù)據(jù)樣本的分布或生成期望的數(shù)據(jù)樣本。

2 基于生成對(duì)抗網(wǎng)絡(luò)GAN的各種變體

2.1 CGAN(Conditionall GAN)

一個(gè)生成對(duì)抗網(wǎng)絡(luò)(GAN)會(huì)同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò)——一個(gè)從未知分布或者噪聲中學(xué)習(xí)生成偽造樣本的生成器,以及一個(gè)學(xué)習(xí)如何從樣本中區(qū)分真?zhèn)蔚呐袆e器。

條件生成對(duì)抗網(wǎng)絡(luò)[4]是在生成對(duì)抗網(wǎng)絡(luò)(GAN)的基礎(chǔ)上進(jìn)行了一個(gè)擴(kuò)展。由于GAN不需要預(yù)先建模,使得生成過程過于自由,對(duì)于較大的圖片,較多像素(Pixel)的情形,基于簡(jiǎn)單生成對(duì)抗網(wǎng)絡(luò)(GAN)的方式就變得不可控。為了解決GAN太過自由這一問題,很自然地就想到給生成對(duì)抗網(wǎng)絡(luò)增加一定的約束,讓生成對(duì)抗網(wǎng)絡(luò)以我們理想的方向去生成圖片。在條件生成對(duì)抗網(wǎng)絡(luò)中,生成模型并不是直接輸入一個(gè)隨機(jī)噪聲,從一個(gè)未知的噪聲分布開始學(xué)習(xí),而是通過一個(gè)特定的約束條件或者某些特征(例如一個(gè)圖像的類別標(biāo)簽,用于圖像修復(fù)的部分?jǐn)?shù)據(jù)屬性等)開始學(xué)習(xí)如何生成樣本。在生成模型和判別模型的建模過程中都引入條件變量,即給兩個(gè)網(wǎng)絡(luò)都加入一個(gè)參數(shù)向量y。這樣生成模型和判別模型都擁有一組聯(lián)合條件變量。一般情況下,生成模型中的先驗(yàn)噪聲輸入p(z)和條件變量y會(huì)以隱藏節(jié)點(diǎn)連接的方式結(jié)合在一起。

所以,條件生成對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)為:

圖1 條件生成對(duì)抗網(wǎng)絡(luò)架構(gòu)

從圖1所示的架構(gòu)中可以看出,CGAN相比于GAN增加了一個(gè)輸入層條件向量C,同時(shí)連接到了生成模型網(wǎng)絡(luò)和判別模型網(wǎng)絡(luò)。

2.2 DCGAN(Deep Convolutional Generative Add--versarial Net woorrkk)

DCGAN即深度卷積生成對(duì)抗網(wǎng)絡(luò)[5],它的基本原理是將卷積神經(jīng)網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò)進(jìn)行結(jié)合,將CNN的概念思想融入到生成模型和判別模型中,讓生成對(duì)抗網(wǎng)絡(luò)的性能得到極大的提高,為后續(xù)各種關(guān)于GAN的工作提供了思想依據(jù)。

DCGAN主要通過以下幾個(gè)架構(gòu)性的約束來固化網(wǎng)絡(luò):

●使用步數(shù)卷積取代卷積網(wǎng)絡(luò)中的池化層;

●在生成模型和判別模型中均使用批規(guī)范化;

●消除網(wǎng)絡(luò)架構(gòu)中較深的全連接層,并且在最后只使用了簡(jiǎn)單的平均池化;

●在生成模型的輸出層使用tanh激活函數(shù),而在其他層則使用ReLU激活函數(shù)。

●在判別模型的所有層中都使用了Lecky ReLU激活函數(shù)。

圖2 DCGAN生成模型的架構(gòu)圖

2.3 CylclleGAN(Cycle Consistent Generative Nett--wwoorrkk)

循環(huán)一致生成網(wǎng)絡(luò)[6]最初在論文Unpaired imageto-image using CycleGAN-arXiv:1703.10593,2017 中提出,主要用來尋找不需要其他額外的信息就能將一張圖像從源領(lǐng)域映射到目標(biāo)領(lǐng)域的方法。被學(xué)者們認(rèn)為是“最好玩”的GANs模型,它可以將灰度圖像變成彩色圖像、將普通的馬轉(zhuǎn)換成黑白條紋的斑馬、還能將一副普通的畫作瞬間變?yōu)榫哂心魏丸蟾叩却髱燂L(fēng)格的“驚世之作”。

圖3 CycleGAN的有趣應(yīng)用

CycleGAN的核心思想是一個(gè)環(huán)形結(jié)構(gòu),主要有兩個(gè)轉(zhuǎn)換器F和G組成(一個(gè)轉(zhuǎn)換器含有一組生成模型和判別模型),如圖所示,X表示X域的圖像,Y表示Y域的圖像。其中x域的圖像先通過轉(zhuǎn)換器G生成y域的圖像,再通過轉(zhuǎn)換器F重構(gòu)回X域輸入的原圖像。同樣的,y域的圖像先通過轉(zhuǎn)換器F生成X域的圖像,再通過轉(zhuǎn)換重構(gòu)回y域輸入的原圖像。其中判別模型Dx和DY起到判別作用,促使圖像進(jìn)行風(fēng)格化遷移。因此,對(duì)于一個(gè)在域X的圖像x,我們期望函數(shù)G(F(x))的結(jié)果與x相同;同樣,對(duì)于一個(gè)在域Y的圖像y,我們期望函數(shù)F(G(y))的結(jié)果和y相同。

圖4 圖像從域到域的遷移示意圖

CycleGAN模型有以下兩個(gè)損失函數(shù):

●對(duì)抗損失:它和生成圖像的分布以及目標(biāo)域的分配相匹配。

●循環(huán)一致?lián)p失:它用來避免學(xué)習(xí)到的轉(zhuǎn)換器G和F互相矛盾。

完整的CycleGAN目標(biāo)函數(shù)如下:

2.4 StackGAN(Stacked Generative Adversarial Networks)

堆積生成對(duì)抗網(wǎng)絡(luò)的思想最早來自文章Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks—arXiv:1612.03242,2017,GAN 在文中被用于通過文字描述來生成圖像。

通過文本制作逼真的圖像在計(jì)算機(jī)視覺領(lǐng)域是一個(gè)極具挑戰(zhàn)的問題,并且有著極其廣泛的應(yīng)用場(chǎng)景。通過文本生成圖像的問題可以分解為兩個(gè)更易于控制的子問題,進(jìn)而可以使用StackGAN[7]。通過這種方法,我們根據(jù)特定條件(文本描述和上一階段的輸出)堆疊出了一個(gè)兩階段生成對(duì)抗網(wǎng)絡(luò)來解決從文本生成逼真圖像這個(gè)問題。

圖5 StackGAN的架構(gòu)模型

StackGAN模型主要分為兩個(gè)階段:

(1)階段一

在本階段中,StackGAN就是一個(gè)標(biāo)志的條件生成對(duì)抗網(wǎng)絡(luò),輸入就是隨機(jī)的正態(tài)分布采樣的z和文本描述刻畫的向量c,網(wǎng)絡(luò)需要學(xué)習(xí)以下內(nèi)容:

●根據(jù)文本描述的條件生成物體大致的形狀和基本的顏色。

●通過先前的分布和隨機(jī)噪聲樣本生成背景區(qū)域。

在這個(gè)階段生成低分辨率的64×64的粗粒度圖像看起來并不真實(shí),有可能物體形態(tài)被扭曲,或者丟失了某些部分。

階段一中GAN分別通過下面的公式來訓(xùn)練判別模型D0(最大化損失)和生成模型G0(最小化損失):

判別模型損失函數(shù):

生成模型損失函數(shù):

(2)階段二

在本階段中,GAN網(wǎng)絡(luò)專注于勾勒細(xì)節(jié),將第一階段的生成結(jié)果和文本描述作為輸入,用第二個(gè)生成對(duì)抗網(wǎng)絡(luò)生成一張符合文本描述信息的256×256分辨率的高清晰度逼真圖像。

判別模型損失函數(shù):

生成模型損失函數(shù):

3 生成對(duì)抗網(wǎng)絡(luò)GAN的相關(guān)應(yīng)用

3.1 圖像超分辨率

超分辨率技術(shù)(Super-Resolution,SR)是指把低分辨率圖像重建出相應(yīng)的高分辨率圖像,其在安防監(jiān)控、衛(wèi)星觀測(cè)和醫(yī)療影像等領(lǐng)域都有較為重要的應(yīng)用價(jià)值。SR一般可分為從單張和多張低分辨率圖像重建出高分辨率圖像兩類?;谏疃葘W(xué)習(xí)的SR,主要是采用單張低分辨率的方法。

來自Twitter公司的Ledig等[8]提出了一個(gè)用于超分辨率的生成對(duì)抗網(wǎng)絡(luò)SRGAN,將低分辨率圖像變換為具有豐富細(xì)節(jié)的高分辨率圖像。作者以VGG-19網(wǎng)絡(luò)作為判別模型,用規(guī)則化處理的殘差網(wǎng)絡(luò)作為生成模型。實(shí)驗(yàn)結(jié)果如圖所示,可以看到SRGAN取得的效果比目前最先進(jìn)的深度殘差網(wǎng)絡(luò)(Deep Residual Net?work,ResNet)更加出色。

圖6 SRGAN生成效果對(duì)比

3.2 圖像修復(fù)

圖像修復(fù)是對(duì)圖像上信息缺損區(qū)域進(jìn)行信息填充的過程,其目的是利用圖像現(xiàn)有的信息來恢復(fù)丟失的信息。圖像修復(fù)技術(shù)可用于舊照片中丟失信息的修復(fù),視頻文字去除以及視頻錯(cuò)誤隱藏等。Pathak等人[9]將CGAN應(yīng)用到圖像修復(fù)中,利用生成對(duì)抗網(wǎng)絡(luò)的思想,以圖像缺失部分的周邊像素作為生成模型的輸入修復(fù)完整的圖像,再將修復(fù)樣本和真實(shí)樣本輸入到判別模型中,進(jìn)行對(duì)抗訓(xùn)練,如圖所示,相比于傳統(tǒng)方法(Image Melding),基于GAN的圖像修復(fù)可以更好地考慮圖像的語義信息,所生成的修復(fù)圖像與周邊更加連貫自然。

最近,英偉達(dá)深度視覺實(shí)驗(yàn)室發(fā)表了論文Progres?sive Growing of GANs for Improved Quality,Stability,and Variation,提出一種以漸進(jìn)增大的方式更穩(wěn)定地訓(xùn)練GAN,實(shí)現(xiàn)了前所未有的高分辨率圖像生成。

3.3 視頻預(yù)測(cè)

圖7 GAN與傳統(tǒng)方法的數(shù)據(jù)填補(bǔ)效果[10]

視頻預(yù)測(cè)是指根據(jù)視頻的當(dāng)前幾幀,來預(yù)測(cè)接下來發(fā)生的一幀或多幀視頻。普遍方法是使用最小二乘法來逐一回歸視頻幀的像素值,這種方法的問題是生成的視頻會(huì)存在動(dòng)作模糊。Mathieu等人[11]最先提出將對(duì)抗訓(xùn)練的思想應(yīng)用到視頻預(yù)測(cè)中,其生成模型是根據(jù)前面若干幀來生成視頻的最后一幀,而判別模型則是對(duì)該幀進(jìn)行判斷。除了生成的最后一幀外,前面的若干幀都是視頻中的真實(shí)圖片,這樣的優(yōu)點(diǎn)是能使得判別模型利用時(shí)間維度的信息更加有效,同時(shí)通過對(duì)抗,有助于生成幀和前面的若干幀保持一致性。

最近,卡內(nèi)基梅隆大學(xué)和Petuum合作提出了一種對(duì)偶運(yùn)動(dòng)生成對(duì)抗網(wǎng)絡(luò)架構(gòu)[12],可以使用一種對(duì)偶對(duì)抗學(xué)習(xí)機(jī)制來學(xué)習(xí)明確地未來幀中的合成像素值與像素上的運(yùn)動(dòng)軌跡保持連貫。具體來說,它能同時(shí)根據(jù)一種共享的頻率運(yùn)動(dòng)編碼器而解決原始的未來幀預(yù)測(cè)問題和對(duì)偶的未來流預(yù)測(cè)問題。這項(xiàng)研究將有助于解決自動(dòng)駕駛的難題。

圖8 對(duì)偶對(duì)抗學(xué)習(xí)機(jī)制架構(gòu)[12]

4 結(jié)語

自2014年Goodfellow提出生成對(duì)抗網(wǎng)絡(luò)以來,其在機(jī)器學(xué)習(xí)領(lǐng)域得到了廣泛的關(guān)注和發(fā)展。經(jīng)過近幾年,各種新穎有趣的生成對(duì)抗網(wǎng)絡(luò)變體不斷被提出,在計(jì)算機(jī)視覺的各個(gè)領(lǐng)域都得到很好地應(yīng)用。生成對(duì)抗網(wǎng)絡(luò)作為一種新型的生成式模型,它的二人零和博弈思想,“無限”的新樣本生成能力,相信會(huì)在計(jì)算機(jī)視覺領(lǐng)域外的語音和語言處理、信息安全等領(lǐng)域發(fā)揮更重大的應(yīng)用價(jià)值。

猜你喜歡
架構(gòu)神經(jīng)網(wǎng)絡(luò)樣本
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測(cè)
基于改進(jìn)Hopfield神經(jīng)網(wǎng)絡(luò)的對(duì)地攻擊型無人機(jī)自主能力評(píng)價(jià)
功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
基于B/S架構(gòu)的圖書管理系統(tǒng)探究
構(gòu)建富有活力和效率的社會(huì)治理架構(gòu)
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
規(guī)劃·樣本
人大專題詢問之“方城樣本”
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
榆社县| 成武县| 林口县| 平南县| 咸宁市| 厦门市| 大兴区| 高州市| 长武县| 栖霞市| 奎屯市| 定襄县| 讷河市| 滁州市| 颍上县| 星子县| 大邑县| 琼海市| 西平县| 镇江市| 东山县| 土默特左旗| 万宁市| 新沂市| 台江县| 蚌埠市| 车致| 枝江市| 昌黎县| 龙川县| 全椒县| 隆安县| 酒泉市| 颍上县| 天峨县| 太原市| 大冶市| 商水县| 安化县| 峡江县| 桦甸市|