陽(yáng)雪 楊博
摘 要:近年來(lái)人工智能發(fā)展非常迅速,有不少人工智能領(lǐng)域的科研成果成功“出圈”,走進(jìn)大眾視野。其中一項(xiàng)人臉生成技術(shù)令全世界感到震驚,因?yàn)閮H靠人的眼睛已經(jīng)無(wú)法明顯區(qū)分由該技術(shù)生成的照片與真實(shí)照片之間的差異。在驚訝之余也有不少人希望了解這項(xiàng)技術(shù)具體是如何實(shí)現(xiàn)的,對(duì)此,本文將作簡(jiǎn)要分析。
關(guān)鍵詞:人工智能;人工神經(jīng)網(wǎng)絡(luò);StyleGAN
2019年初,網(wǎng)站“這個(gè)人不存在”一經(jīng)發(fā)布便火遍全網(wǎng)。每次進(jìn)入網(wǎng)站,頁(yè)面會(huì)展示一張面帶微笑的人臉照片。但神奇的是,圖片上看起來(lái)如此逼真的人臉,其實(shí)并不存在于這個(gè)世界。這些人臉是AI,即人工智能生成的。網(wǎng)站的創(chuàng)建者Philip Wang在社交網(wǎng)站上表明,他希望通過(guò)這種方式提高大眾對(duì)一項(xiàng)最新研究成果StyleGAN的認(rèn)知。StyleGAN是NVIDIA于2018年發(fā)布的新項(xiàng)目,歸屬于人工智能領(lǐng)域的人工神經(jīng)網(wǎng)絡(luò)范疇。對(duì)于這項(xiàng)技術(shù)具體是怎么實(shí)現(xiàn)的,應(yīng)該從源頭講起。
一、人工神經(jīng)網(wǎng)絡(luò)
當(dāng)前的人工智能分為三個(gè)學(xué)派。一是符號(hào)主義,符號(hào)主義認(rèn)為人工智能起源于數(shù)學(xué)領(lǐng)域。二是連接主義,原理是模擬大腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。三是行為主義,主要原理是控制加感知,通過(guò)模擬生物的行為來(lái)實(shí)現(xiàn)人工智能。
而我們要說(shuō)的人工神經(jīng)網(wǎng)絡(luò)則歸屬于連接主義。它類似大腦,由特定結(jié)構(gòu)的神經(jīng)元及連接方法構(gòu)成。為了模擬神經(jīng)元之間信息的傳遞,每個(gè)基本處理單元都被合適的變換函數(shù)控制其狀態(tài)。網(wǎng)絡(luò)包含多個(gè)層次,這些層被歸類為三個(gè)種類,即輸入層,隱藏層,輸出層。
由于人工智神經(jīng)網(wǎng)絡(luò)具有運(yùn)算速度高,適應(yīng)性強(qiáng),容錯(cuò)力強(qiáng)和自組織的優(yōu)良特性,使得深度學(xué)習(xí)這個(gè)新的研究方向誕生。相比人工神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)算法強(qiáng)調(diào)的是網(wǎng)絡(luò)結(jié)構(gòu)的深度。目前經(jīng)典的深度學(xué)習(xí)模型包括自動(dòng)編碼器神經(jīng)網(wǎng)絡(luò),深度信任神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等。卷積神經(jīng)網(wǎng)絡(luò)可以算是人工智能在圖像識(shí)別應(yīng)用領(lǐng)域最主流的算法之一,在大數(shù)據(jù)的支持下,卷積神經(jīng)網(wǎng)絡(luò)可以對(duì)大批圖像進(jìn)行準(zhǔn)確分類。
二、StyleGAN
(一)StyleGAN的基本模型
StyleGAN是基于生成對(duì)抗網(wǎng)絡(luò)研發(fā)的。生成對(duì)抗網(wǎng)絡(luò)是無(wú)指導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)中最具前景的方法之一。它是lanJ.Goodfellow等人在2014年提出的通過(guò)對(duì)抗過(guò)程預(yù)計(jì)生成模型的新型框架。對(duì)抗過(guò)程即為GANS的核心,由生成模型和判別模型組成。生成模型,指在給出的樣本上,使用某個(gè)模型來(lái)生成新的數(shù)據(jù)。判別模型則有一個(gè)判斷標(biāo)準(zhǔn),或者說(shuō)判斷界限,通過(guò)這個(gè)界限去區(qū)分樣本。簡(jiǎn)單來(lái)說(shuō),GANs中生成模型用于盡可能地創(chuàng)造一張?jiān)谌祟惤嵌瓤磥?lái)是真實(shí)的圖片,而判斷模型的任務(wù)是區(qū)分真實(shí)和偽造的圖片。通過(guò)不斷博弈,若生成模型成功“欺騙”了判別模型,那么我們的目的就達(dá)到了。
單從原理上講,生成對(duì)抗網(wǎng)絡(luò)的生成模型和判別模型并沒(méi)有什么限制,我們可以使用任何生成模型和判別模型去實(shí)現(xiàn),生成對(duì)抗網(wǎng)絡(luò)主要是提供了一種框架。正因?yàn)槿绱?,生成?duì)抗網(wǎng)絡(luò)目前已衍生出上百種模型,在這些模型的基礎(chǔ)上,又產(chǎn)生了許多變種,使得其功能更完善,網(wǎng)絡(luò)結(jié)構(gòu)更穩(wěn)定。
(二)StyleGAN的前身
作為GANs的衍生種類,ProGAN希望生成的圖像有超高的分辨率。若要達(dá)此目的,GANs的網(wǎng)絡(luò)結(jié)構(gòu)會(huì)非常多,從而造成訓(xùn)練這樣一個(gè)網(wǎng)絡(luò)既困難又費(fèi)時(shí)。為了解決這一阻礙,ProGAN的思路是,最初訓(xùn)練的時(shí)候,使網(wǎng)絡(luò)的層數(shù)較少,這樣我們非常容易就能生成圖片,但圖片的分辨率自然會(huì)很低。在訓(xùn)練過(guò)程中,逐步加深網(wǎng)絡(luò)層數(shù),隨著訓(xùn)練次數(shù)的增加,生成的圖片也會(huì)越來(lái)越高清,最終甚至能生成1024*1024分辨率的圖片。通過(guò)這樣的方法,ProGAN的學(xué)習(xí)速度比傳統(tǒng)的GANs高出2到6倍。
由于ProGAN每次增加層數(shù)時(shí),開(kāi)發(fā)者沒(méi)有對(duì)其增加控制,而是完全由模型直接生成。我們無(wú)法得知在此過(guò)程中模型具體學(xué)習(xí)到了什么。訓(xùn)練時(shí),樣本規(guī)模大,特征量多,且特征之間是互相關(guān)聯(lián)的,因此ProGAN控制生成具有特定特征圖像的能力非常有限。
(三)StyleGAN的改進(jìn)
若我們希望網(wǎng)絡(luò)能生成我們具體想要的圖片,就需要對(duì)圖片生成過(guò)程中網(wǎng)絡(luò)學(xué)習(xí)到的特征加以控制。StyleGAN便是在此基礎(chǔ)上做了進(jìn)一步的改進(jìn)。那么,StyleGAN具體做了什么呢?
StyleGAN發(fā)現(xiàn),如果使用較好的方法,是可以實(shí)現(xiàn)特征的控制的。由于層數(shù)的不同生成圖片的分辨率也不同,其中的特征也伴隨分別率的從低到高由粗糙到高品質(zhì),若以此分類,可以將這些特征分為三個(gè)種類。最低等的粗糙特征主要是人物姿勢(shì),發(fā)型輪廓和面部表情等;中等的特征則是五官的形狀,發(fā)型等;而高品質(zhì)的特征則是五官的細(xì)微特征等。
首先,為了減少特征之間的關(guān)聯(lián)性,增加映射網(wǎng)絡(luò),將輸入向量重新編碼為中間向量,通過(guò)中間向量的屬性來(lái)控制特征,輸入變量用常量值代替。然后通過(guò)自適應(yīng)實(shí)例標(biāo)準(zhǔn)化模塊將中間向量傳輸?shù)缴傻膱D像中。為了使生成的圖像不失隨機(jī)性,StyleGAN還將如雀斑,痣,法令紋等更細(xì)微的特征作為隨機(jī)噪聲添加到輸入向量中。另外,StyleGAN還使用了樣式混合,截取中間向量和微調(diào)網(wǎng)絡(luò)的超參數(shù)等技巧使生成的圖像更逼真。
三、總結(jié)
目前這類人臉生成網(wǎng)站功能愈加完善,從最初只能生成歐美的成人面部,到現(xiàn)在衍生出“高顏值”生成,“動(dòng)漫人臉”生成和“亞洲人”生成等類型,甚至可以定制生成的圖片。NVIDIA官方已經(jīng)將StyleGAN的代碼開(kāi)源,感興趣的朋友可以在官方網(wǎng)站下載,并在Linux及Windows上運(yùn)行。對(duì)于該技術(shù),有少數(shù)人表達(dá)了他們的焦慮,如今人工智能生成的圖片足夠以假亂真了,怎么避免有不懷好意的人用此技術(shù)做些違法犯罪的事情?好在目前已有學(xué)者在研究深度判別偽造圖片的技術(shù),同時(shí)我相信政府也會(huì)出臺(tái)相應(yīng)政策規(guī)范此類技術(shù)的發(fā)展。
參考文獻(xiàn)
[1]蔡自興等著.人工智能及其應(yīng)用[M].北京:清華大學(xué)出版社.2016.
[2]陳先昌.基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D].浙江工商大學(xué),2014.
[3]王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍.生成式對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望[J].自動(dòng)化學(xué)報(bào),2017,43(03):321-332.
作者簡(jiǎn)介
陽(yáng)雪(1998—),女,漢族,四川廣安,本科,研究方向:計(jì)算機(jī)。
楊博(1999—),男,漢族,四川廣元,本科,研究方向:計(jì)算機(jī)。