你相信嗎??jī)H憑一段6秒鐘的音頻,就能推寫(xiě)出說(shuō)話者的肖像來(lái)。
人說(shuō)話時(shí),臉部的骨骼、肌肉等都會(huì)影響發(fā)音。美國(guó)的研究人員開(kāi)發(fā)了一個(gè)名為Speech2Face的人工智能系統(tǒng)。他們從網(wǎng)上找來(lái)幾百萬(wàn)段視頻,讓人工智能收聽(tīng)和分析,將聲音和面部特征對(duì)應(yīng)起來(lái)。隨后,他們讓人工智能系統(tǒng)根據(jù)聲音生成人的肖像。人工智能僅憑6秒的語(yǔ)音,就推測(cè)出說(shuō)話者的種族和面部特征,相似度令人感到驚訝。
未來(lái),在影視娛樂(lè)、安保、殘障人士溝通等方面,這款人工智能系統(tǒng)都可能發(fā)揮很大的作用。