池源
還記得去年給大家介紹過的GANs嗎?是 Generative Adversarial Networks 的縮寫,即“生成式對抗網(wǎng)絡(luò)”,有點拗口。這是一種深度學(xué)習(xí) (deep learning) 的模型,如果大家記不清了,我來通俗解釋一下。GANs主要是由兩個CNN所組合而成的神經(jīng)網(wǎng)絡(luò),其中有兩個組件,Generator與Discriminator。GAN就像是一個問答系統(tǒng),是使用警察跟罪犯的關(guān)系作為類比。故事當(dāng)中,罪犯不斷制造假鈔來欺騙警察的眼睛,每被識破一次,就會重新調(diào)整制造假鈔的技術(shù),久而久之,就有辦法生成欺騙警察法眼的能力。
在 GANs 里面,有兩個天天對著干的神經(jīng)網(wǎng)絡(luò),一個努力生成逼真的假貨,一個努力鑒別假貨,通過不斷地學(xué)習(xí)和對抗,它們就能生成極其真實的假貨,非常奇妙??傊?,GANs的出現(xiàn)那叫一個驚為天人。因為它可以無中生有,創(chuàng)造出世界上不存在,但又極為真實的人臉。
沒錯,上面這些臉全都是 GANs 生成的
GANs被運用到圖像增強領(lǐng)域,進而名聲大噪。因為它能實現(xiàn)一項我們以前不敢奢求的功能——去馬賽克。就拿2018年大火的軟件DeepCreamPy來說吧,它就是利用GANs來實現(xiàn)去碼的。
這張圖片,用綠色畫筆涂上了碼。拿DeepCreamPy操作一番后,馬賽克神奇地消失了
這圖的解析度夠渣了吧,甚至可以直接數(shù)出它的解析度為16×16
經(jīng)過PULSE一處理,簡直不要太清晰,放大頭發(fā)部分看看細節(jié),明明只有幾個像素格,它硬是還原成了絲縷分明的秀發(fā)
GANs效果大概是這樣,橫向?qū)Ρ纫幌拢Ч拇_不錯。但肯定會有機友要說:就這水平?確實,這張卡通圖片,去碼難度并不算高,能實現(xiàn)這樣的效果也不算啥。別急,時代在發(fā)展,技術(shù)在進步。上個月,杜克大學(xué)推出了一款圖像增強工具,又一次勾起了筆者燥熱的心。這款工具叫PULSE,不扯虛的,PULSE能實打?qū)嵉匕阎卮a圖,處理成高畫質(zhì)大圖。
一張低解析度圖
學(xué)習(xí)之后,找出相似度最高的,把對應(yīng)的高畫質(zhì)圖進行輸出
看了這些去碼作品,這真的不是魔法嗎?很久以前,我們要提高一張圖片的解析度,往往是利用插值法,在低解析度的圖片中填充像素。就比如PS的改變圖像大小,后來有了GANs,雖然也是填充像素,但憑借機器學(xué)習(xí),填充的方法變得更高級,更像是AI在憑經(jīng)驗:“猜”。但總的來說,以上方法去碼效果有限。而杜克大學(xué)的PULSE思路就很巧妙了,它選擇反其道而行。
AI并不急著去填充低解析度圖片,而是把自己以前GANs出來的高畫質(zhì)圖,壓縮成低解析度和你給的圖片對比。如果你不理解的話,我們再打一個通俗的比方。物理考試中,有一道填空題,需要補全一個公式,你如果去推導(dǎo)E和C的關(guān)系,估計這輩子都填不出正確答案。
但是換種思路,在腦海中回憶背過的公式,其中含有E和C,且跟它長得像的……不就是愛因斯坦質(zhì)能方程嘛(質(zhì)能方程E=mc,E表示能量,m代表質(zhì)量,而c則表示光速,該方程主要用來解釋核變反應(yīng)中的質(zhì)量虧損和計算高能物理中粒子的能量)!明白了吧,直接推導(dǎo)就像是去碼演算法中的老方法,而從回憶中找相似,就類似于杜克大學(xué)的PULSE。
電影藝術(shù)也可以用上這種技術(shù),哪里還需要花錢請演員,費勁地布景、表演、拍攝,直接做個粗糙的腳本,剩下交給AI
當(dāng)然,AI的實際能力也并非完美,牛氣沖天的PULSE剛公布沒多久,就被網(wǎng)友們發(fā)現(xiàn)了問題。有網(wǎng)友拿出身邊朋友的照片,手動壓縮了一番,然后把它放進PULSE里,輸出的結(jié)果,讓人始料未及,出來的這個面孔,雖然是張很真實的臉,但跟本尊大相徑庭。更坑爹的是,本尊本來是個黑人,卻被AI硬生生還原成了白人。緊接著,又有網(wǎng)友發(fā)現(xiàn)不僅是黑人,用亞洲面孔去測試,輸出的結(jié)果也會變成白人。
左為輸入圖,右為PULSE處理后的結(jié)果
由于圖庫沒有匹配,馬里奧的AI輸出簡直不忍目睹
AI這一搞果然引起軒然大波。很多人出來批評,認為AI存在偏見,或者圖片庫比對完全無法和顯示接軌,一時之間罵聲四起。其實,PULSE會出現(xiàn)這樣的結(jié)果,原因不難猜測。PULSE基于英偉達的 StyleGAN,而 StyleGAN 所使用的 FlickFaceHQ 資料集當(dāng)中大部分都是白人面孔。
它就像一個從小只見過白人的小朋友,當(dāng)然會以為全世界的人都是白人。與其說是偏見,倒不如講是認知局限。隨著演算法的精進,資料集日漸豐富,AI 的認知局限肯定會越來越少。除此之外,PULSE犯的錯誤還不止搞錯人種,網(wǎng)友們還拿卡通形象試了試,比如游戲 Wolfenstein 中的卡通像素臉。
PULSE并沒有把它變成卡通高畫質(zhì)大圖,而是用補真實人臉的方式,輸出了一張不倫不類的奇怪臉。Minecraft 當(dāng)中的像素角色,有同樣的遭遇,也就是說,現(xiàn)階段的AI補臉,雖然看起來像模像樣,但本質(zhì)上還是瞎補的,它根本無法還原圖片原本的細節(jié)。所以,如果是警察辦案,真的采用PULSE處理的照片來確定嫌犯,八成會抓錯人。AI還需要更聰明,才能應(yīng)對這個復(fù)雜的人類世界里千奇百怪的問題啊。