白靜
人臉交換技術(shù),顧名思義,就是在圖像或視頻中把一張臉替換成另一張臉。這一技術(shù)在電影制作領(lǐng)域已經(jīng)不是個(gè)新鮮詞了,它需要專業(yè)的視頻剪輯師和特效專家花費(fèi)大量時(shí)間和精力才能完成。
最近出現(xiàn)的換臉視頻可以說是人臉交換技術(shù)的一個(gè)突破,人工智能把A的面部關(guān)鍵信息記錄下來,如下圖所展現(xiàn)出的嘴巴、鼻子、眼睛等信息,并且將這種信息反復(fù)重建和自我改進(jìn),最終可以完全自主地生成一張A的臉,并模擬它的大部分表情。下一步,當(dāng)然就很簡單,只要把這張臉再貼到任意一個(gè)視頻中的B的身體上,“換臉”就完成了。這個(gè)技術(shù)的核心在于可以復(fù)制一張臉。
AI收集的臉部信息
AI換臉的本質(zhì)是把人的五官形象和表情分開。表情是五官在不同情緒下的形象,更多也是指五官的“動(dòng)作”。一個(gè)人的五官和表情總是一體的、難以分割。然而AI換臉技術(shù)的出現(xiàn),正在告訴我們五官形象和表情是可以分離的。
AI換臉的過程為:人工智能預(yù)先分析好視頻里面的五官的形狀和位置;你提供照片后,人工智能再分析照片中的五官形狀和位置;然后再把照片中五官的形狀和位置,與視頻對比著進(jìn)行合并。人臉互換一般可以用于視頻合成、提供隱私服務(wù)、肖像更換或者其他有創(chuàng)新性的應(yīng)用。
最早的人臉互換是通過特征點(diǎn)匹配來提取一張臉中例如眉毛、眼睛等特征信息然后匹配到另一張人臉上。如今,只要有足夠多的圖像數(shù)據(jù),AI就能讓一個(gè)編碼器把一個(gè)人臉壓縮成一個(gè)代碼和兩個(gè)解碼器,一個(gè)解碼器可以還原原始人臉,另一個(gè)可以生成新的人臉,下圖展示了一位女性換臉前后的對比圖,左右兩個(gè)人的姿勢完全一致,只是臉部特征發(fā)生了變化,如果只看右圖,我們很難看出這是生成的假圖。
現(xiàn)實(shí)中的機(jī)器人還沒有科幻電影中那些很夸張的能力,只能根據(jù)使用者的行為動(dòng)作做出一系列的反應(yīng)。而如今的AI“換臉”通過“生成性對抗網(wǎng)絡(luò)”(Generative Adversarial Network)這種機(jī)器學(xué)習(xí)技術(shù)對現(xiàn)有的圖片資料進(jìn)行深度分析的和學(xué)習(xí),這種深度學(xué)習(xí)就是人工智能研究在今天的核心指導(dǎo)思想,也是機(jī)器人在未來的發(fā)展方向。
人工智能已邁向認(rèn)知智能的新階段
換臉對比圖
谷歌的AlphaGo因?yàn)閷W(xué)習(xí)了大量專業(yè)棋手棋譜,然后又從自我對弈中持續(xù)學(xué)習(xí)和提高,因此戰(zhàn)勝了人類世界冠軍。微軟小冰因?yàn)閷W(xué)習(xí)了大量互聯(lián)網(wǎng)上的流行語,才能用既時(shí)尚、又活潑的聊天方式與用戶交流。這些被宣傳為人工智能的典型應(yīng)用大多都擁有深度學(xué)習(xí)的技術(shù)基礎(chǔ),這似乎也符合人類認(rèn)知的特點(diǎn)——人的智慧離不開長大成人過程里的不間斷學(xué)習(xí)。
當(dāng)然,機(jī)器目前的主流學(xué)習(xí)方法和人類的學(xué)習(xí)方式還存在很大的差別。比如,目前的計(jì)算機(jī)視覺系統(tǒng)在看過成千上萬張自行車的照片后,很容易辨別出什么是自行車,什么不是自行車,這種需要大量訓(xùn)練照片的學(xué)習(xí)方式盡管看上去還比較笨拙,但反觀人類,給一個(gè)三四歲的小孩子看一輛自行車之后,再見到哪怕外觀完全不同的自行車,小孩子也十有八九能做出那是一輛自行車的判斷。也就是說,人類的學(xué)習(xí)過程往往不需要大規(guī)模的訓(xùn)練數(shù)據(jù)。
如果說人工智能是一種會(huì)學(xué)習(xí)的機(jī)器,那未來需要著重提高的,就是讓人工智能在學(xué)習(xí)時(shí)的抽象或歸納能力向人類看齊,走向認(rèn)知智能的新世界。
(責(zé)任編輯/王佳穎 美術(shù)編輯/李子夜)