OpenAI很明顯知道自己在做什么。2021年底,只有幾個(gè)人的研究小組在OpenAI舊金山辦公室討論了一個(gè)想法,隨后他們創(chuàng)造了OpenAI的文本到圖像模型的新版本:DALL-E。
這是一個(gè)可以將簡(jiǎn)短的文字描述轉(zhuǎn)變?yōu)閳D片的人工智能模型,你可以讓它生成梵高畫的狐貍,或者是披薩做的柯基。
OpenAI的聯(lián)合創(chuàng)始人和首席執(zhí)行官山姆·奧特曼告訴《麻省理工科技評(píng)論》:“我們會(huì)創(chuàng)造一些新東西,然后我們都必須體驗(yàn)它一段時(shí)間,幾乎總是這樣。我們要試圖弄清楚它將是什么樣子的,被用于做什么?!?/p>
但這次不行。當(dāng)他們修改模型時(shí),每個(gè)參與其中的人都意識(shí)到這是一件特別的事情?!昂苊黠@,這就是我們的產(chǎn)品,”山姆說,“(這一點(diǎn))沒有任何爭(zhēng)論,我們甚至從來沒有開會(huì)討論過?!?/p>
但沒有人能夠預(yù)測(cè)這款產(chǎn)品將會(huì)引起多大的轟動(dòng)。山姆說:“這是第一個(gè)被每個(gè)普通用戶帶火的人工智能技術(shù)?!?/p>
DALL-E2在2022年4月發(fā)布。5月,谷歌官宣了(但沒有發(fā)布)它自己的兩種文本到圖像的模型,Imagen和Parti。
然后是Midjourney公司推出了一個(gè)為藝術(shù)家制作的文本到圖像模型。8月,英國初創(chuàng)公司StabilityAI向公眾免費(fèi)發(fā)布了開源模型StableDiffusion。
嘗鮮的用戶蜂擁而至。OpenAI在短短2個(gè)半月內(nèi)就吸引了100萬用戶。超過100萬人開始通過付費(fèi)服務(wù)DreamStudio使用StableDiffusion;更多的人通過第三方應(yīng)用程序使用StableDiffusion,或在他們自己的電腦上安裝免費(fèi)版本。
StabilityAI的創(chuàng)始人易馬德·莫斯塔克表示,他的目標(biāo)是擁有10億用戶。
在2022年10月,我們看到了第二輪熱潮:谷歌、Meta等公司發(fā)布了文本到視頻模型,可以創(chuàng)建短視頻、動(dòng)畫和3D圖像。
這種發(fā)展速度令人驚訝。在短短幾個(gè)月的時(shí)間里,這項(xiàng)技術(shù)登上了媒體頭條和雜志封面,社交媒體上到處都是討論的人和有關(guān)的話題,話題的熱度高居不下,但同時(shí)也引發(fā)了強(qiáng)烈的反彈。
倫敦國王學(xué)院研究計(jì)算創(chuàng)造力的人工智能研究員邁克·庫克說:“這項(xiàng)技術(shù)令人驚嘆,它很有趣,這是新技術(shù)該有的樣子。
但它發(fā)展得如此之快,以至于你的理解根本趕不上它的更新速度。我認(rèn)為,整個(gè)社會(huì)要花上一段時(shí)間來消化它?!?/p>
藝術(shù)家們陷入了這個(gè)時(shí)代最大的動(dòng)蕩之中。有些人會(huì)失去工作;有些人會(huì)找到新的機(jī)會(huì)。一些人選擇訴諸法律,因?yàn)樗麄冋J(rèn)為,訓(xùn)練模型所用的圖像被濫用了。
曾在夢(mèng)工廠等視覺效果工作室工作過的數(shù)字藝術(shù)家,唐·艾倫·史蒂文森三世說:“對(duì)于像我這樣接受過技術(shù)訓(xùn)練的人來說,這非??膳碌?。
“我會(huì)說天吶,這是我的全部工作,”他說,“我在使用DALL-E的第一個(gè)月就陷入了生存危機(jī)。”
盡管一些人仍沉浸在震驚之中,但包括史蒂文森在內(nèi)的許多人正在尋找使用這些工具的方法,并預(yù)測(cè)接下來會(huì)發(fā)生什么。
令人興奮的事實(shí)是,我們不知道接下來會(huì)發(fā)生什么。原因是,雖然創(chuàng)意產(chǎn)業(yè)從娛樂媒體到時(shí)尚、建筑、市場(chǎng)營(yíng)銷等,將最先感受到影響,但這項(xiàng)技術(shù)將把創(chuàng)造力賦予每個(gè)人。
從長(zhǎng)遠(yuǎn)來看,它可以用于產(chǎn)生幾乎任何東西的設(shè)計(jì),從新型藥物到服裝和建筑。生成式的革命已經(jīng)開始。
對(duì)于曾從事電子游戲和電視節(jié)目制作的數(shù)字創(chuàng)作者查德·納爾遜來說,從文本到圖像的模型是一個(gè)千載難逢的突破。
他說:“這項(xiàng)技術(shù)可以讓你在幾秒鐘內(nèi)將腦海里的靈光一閃變成一個(gè)原型。你創(chuàng)造和探索的速度是革命性的——超過了我30年來經(jīng)歷過的任何一個(gè)時(shí)刻。”
在模型剛出的幾周里,人們就開始使用這些工具進(jìn)行原型創(chuàng)造和頭腦風(fēng)暴,從雜志插圖和營(yíng)銷布局到電子游戲環(huán)境和電影概念。
人們制作了同人作品,甚至是整本漫畫書,并在網(wǎng)上不斷分享。山姆甚至用DALL-E來設(shè)計(jì)運(yùn)動(dòng)鞋,就在他把設(shè)計(jì)圖發(fā)在推特上之后,有人為他制作了一雙。
紋身藝術(shù)師兼計(jì)算機(jī)科學(xué)家艾米·史密斯一直在使用DALL-E模型來設(shè)計(jì)紋身?!澳憧梢院涂蛻粢黄鹱聛?,一起進(jìn)行設(shè)計(jì),”她說,“我們正處于一場(chǎng)革命之中?!?/p>
數(shù)字和視頻藝術(shù)家保羅·特里洛認(rèn)為,這項(xiàng)技術(shù)將使關(guān)于視覺效果的頭腦風(fēng)暴更容易、更快速。
“人們都在說,這是特效藝術(shù)家或時(shí)裝設(shè)計(jì)師的末日,”他說,“我不認(rèn)為這是任何職業(yè)的終局。相反,我認(rèn)為它意味著我們不必在晚上和周末加班。”
圖片公司則采取了不同的立場(chǎng)。Getty已經(jīng)禁止了人工智能生成的圖像;Shutterstock公司已經(jīng)與OpenAI簽署了一項(xiàng)協(xié)議,將DALL-E嵌入其網(wǎng)站,并表示將成立一個(gè)基金,對(duì)那些成果被模型當(dāng)作訓(xùn)練數(shù)據(jù)的藝術(shù)家進(jìn)行補(bǔ)償。
史蒂文森說,他在動(dòng)畫工作室制作電影的每一步都嘗試了DALL-E,包括角色和環(huán)境的設(shè)計(jì)。
有了DALL-E,他能夠在幾分鐘內(nèi)完成多個(gè)部門的工作。他說:“對(duì)于那些因?yàn)榧夹g(shù)太貴或太復(fù)雜而無法從事創(chuàng)造工作的人來說,這是令人振奮的。但如果你不愿意接受改變,那就太可怕了?!?/p>
納爾遜認(rèn)為未來還會(huì)有更多的事情發(fā)生。最終,他認(rèn)為這項(xiàng)技術(shù)不僅會(huì)被媒體巨頭所接受,也會(huì)被建筑和設(shè)計(jì)公司所接受。不過,他認(rèn)為人工智能模型還沒有準(zhǔn)備好。
“現(xiàn)在就像你有一個(gè)小魔法盒子,一個(gè)小巫師,”他說。如果你只是想繼續(xù)生成圖像,那足夠了,但如果你需要一個(gè)創(chuàng)造性的合作伙伴,那還不夠。
他說:“如果我想讓它創(chuàng)造故事和構(gòu)建世界,它需要對(duì)我正在創(chuàng)造的東西有更多的認(rèn)知?!?/p>
這就是問題所在:這些模型仍然不知道自己在做什么。
為了了解原因,讓我們看看這些程序是如何工作的。從外部來看,模型是一個(gè)黑盒子。
你輸入一段簡(jiǎn)短的文字描述,又可以被稱為一段提示,然后等待幾秒鐘,你就會(huì)得到一些(或多或少)符合提示的圖像。
你可能不得不調(diào)整你的文本,讓模型產(chǎn)生一些更接近你的想法的東西,或者不斷打磨一個(gè)偶然得到的結(jié)果,這已被稱為“提示工程”。
為了獲得最細(xì)致的、樣式獨(dú)特的圖像,一段描述可以多達(dá)幾百個(gè)單詞,而選擇正確的單詞已經(jīng)成為一項(xiàng)有價(jià)值的技能。相關(guān)的網(wǎng)絡(luò)市場(chǎng)如雨后春筍般涌現(xiàn),專門買賣那些能夠產(chǎn)生理想結(jié)果的文字提示和描述。
文字提示可以包含指示模型選擇特定風(fēng)格的短語,比如“ArtStation的流行趨勢(shì)”,這是在告訴人工智能模仿ArtStation網(wǎng)站上流行的圖像(通常是非常詳細(xì)的)風(fēng)格,這個(gè)網(wǎng)站上有成千上萬的藝術(shù)家展示他們的作品;而“虛幻引擎”則會(huì)激活類似電子游戲的圖像風(fēng)格。
用戶甚至可以輸入特定藝術(shù)家的名字,讓人工智能制作出模仿他們風(fēng)格的仿制品。當(dāng)然,這讓一些藝術(shù)家非常不高興。
外表之下,文本到圖像模型有兩個(gè)關(guān)鍵組成部分:一個(gè)經(jīng)過訓(xùn)練的、將圖像與描述圖像的文本配對(duì)的神經(jīng)網(wǎng)絡(luò),以及另一個(gè)被訓(xùn)練成從零開始生成圖像的神經(jīng)網(wǎng)絡(luò)。其核心思想是讓第二個(gè)神經(jīng)網(wǎng)絡(luò)生成能讓第一個(gè)神經(jīng)網(wǎng)絡(luò)接受的圖像。
新模型背后的重大突破在于圖像生成的方式。DALL-E模型的第一個(gè)版本使用了OpenAI語言模型GPT-3背后的技術(shù),通過預(yù)測(cè)圖像中的下一個(gè)像素來生成圖像,就像預(yù)測(cè)句子中的單詞一樣。這可以實(shí)現(xiàn)目的,但效果不好。
“它沒有給人一種神奇的感覺,”山姆說,“它能運(yùn)轉(zhuǎn)本身就很神奇了。”
相反,DALL-E2模型使用了一種叫做擴(kuò)散模型的東西。擴(kuò)散模型是一種神經(jīng)網(wǎng)絡(luò),經(jīng)過訓(xùn)練后,它可以通過去除訓(xùn)練過程中添加的像素化噪聲來清理圖像。
這個(gè)過程包括拿到一張圖片,改變其中的幾個(gè)像素并重復(fù)多次,直到原始圖像被擦除,最后只剩下隨機(jī)的像素。
“如果你這樣做一千次,最終圖像看起來就像是沒有信號(hào)的電視上面的雪花,”比約恩·歐蒙說。他在德國慕尼黑大學(xué)研究生成式人工智能,幫助建立了StableDiffusion背后的擴(kuò)散模型。
然后訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)逆轉(zhuǎn)這個(gè)過程,并預(yù)測(cè)給定圖像的低像素化版本會(huì)是什么樣子。結(jié)果是如果你給一個(gè)擴(kuò)散模型一堆像素,它會(huì)嘗試生成稍微更干凈的圖像。
把清理后的圖像放回去,模型就會(huì)產(chǎn)生更干凈的圖像。當(dāng)這個(gè)過程足夠長(zhǎng),模型就可以把雪花圖像變成高分辨率圖片。
文本到圖像模型的訣竅是,這個(gè)過程是由語言模型引導(dǎo)的,該語言模型負(fù)責(zé)將文字提示與擴(kuò)散模型產(chǎn)生的圖像相匹配。這將擴(kuò)散模型推向了語言模型認(rèn)為的匹配度更高的圖像。
但這些模型并沒有擺脫文本和圖像之間的聯(lián)系。如今,大多數(shù)文本到圖像的模型都是在一個(gè)名為L(zhǎng)AION的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練的,該數(shù)據(jù)集包含了從互聯(lián)網(wǎng)上提取的數(shù)十億組文本和圖像。
這意味著你從文本到圖像模型中得到的圖像,是真實(shí)網(wǎng)絡(luò)世界的抽象,它包含了被偏見(和色情)扭曲的網(wǎng)絡(luò)內(nèi)容。
還有一點(diǎn)值得注意,目前最流行的兩種模型,DALL-E2和StableDiffusion之間有一個(gè)微小但關(guān)鍵的區(qū)別。
DALL-E2的擴(kuò)散模型適用于全尺寸圖像,而StableDiffusion則使用了一種由歐蒙和他的同事發(fā)明的被稱為“潛在擴(kuò)散”的技術(shù)。
后者作用于神經(jīng)網(wǎng)絡(luò)中編碼圖像的壓縮版本,即所謂的“隱空間”中,其中只保留了圖像的基本特征。
這意味著StableDiffusion需要的算力更少。與運(yùn)行在OpenAI高性能服務(wù)器上的DALL-E2模型不同,StableDiffusion可以在性能尚可的個(gè)人電腦上運(yùn)行。
創(chuàng)造力的爆炸式增長(zhǎng)和新應(yīng)用程序的快速開發(fā),在很大程度上是由于StableDiffusion不僅是開源的,程序員可以自由地改變它,在開源代碼的基礎(chǔ)上構(gòu)建它并以此賺錢,而且它足夠輕巧,人們?cè)诩揖湍苓\(yùn)行。
對(duì)一些人來說,這些模型是向通用人工智能(AGI)邁進(jìn)的一步。AGI指的是未來具有通用或甚至類似人類智能的人工智能,當(dāng)然,你也可以認(rèn)為它是一個(gè)被過度炒作的概念。OpenAI已經(jīng)明確了其實(shí)現(xiàn)AGI的目標(biāo)。
出于這個(gè)原因,OpenAI的聯(lián)合創(chuàng)始人山姆并不關(guān)心DALL-E2現(xiàn)在正與大量類似的工具競(jìng)爭(zhēng),其中一些是免費(fèi)的。
“我們是要制造AGI的,而不是圖像生成器,”他說,“我們的工具將契合一個(gè)更廣泛的產(chǎn)品路線圖。這只是AGI能做的一件小事?!?/p>
這是一個(gè)樂觀的想法,因?yàn)樵S多專家認(rèn)為,今天的人工智能永遠(yuǎn)不會(huì)達(dá)到那個(gè)水平。就基本智能而言,文本到圖像的模型并不比支撐它們的語言模型更智能。
像GPT-3和谷歌的PaLM這樣的工具,會(huì)從他們所訓(xùn)練的數(shù)十億個(gè)文檔中獲取文本模式。類似地,DALL-E和StableDiffusion可能只是復(fù)制了在數(shù)十億個(gè)網(wǎng)絡(luò)樣本中發(fā)現(xiàn)的文本和圖像之間的關(guān)聯(lián)。
雖然社交媒體上有許多眼花繚亂的成果,但如果我們不斷嘗試,總會(huì)發(fā)現(xiàn)不盡如人意的地方。
這些模型會(huì)犯下愚蠢的錯(cuò)誤,比如你想要“河里的鮭魚”,它會(huì)生成“漂浮在河上的生魚片”,或者你想要“蝙蝠飛過棒球場(chǎng)”,它會(huì)給你一張“有飛行的哺乳動(dòng)物和一根木棍”的圖片。
這是因?yàn)樗鼈兯褂玫募夹g(shù),完全不能像人類(甚至大多數(shù)動(dòng)物)那樣理解我們的世界。
即便如此,讓這些模型學(xué)習(xí)更好的技巧可能只是時(shí)間問題。庫克說:“人們說它現(xiàn)在不太擅長(zhǎng)做某件事,沒問題,等再燒一億美元之后,它很可能就會(huì)做了?!?/p>
OpenAI就是這樣做的。山姆說:“我們已經(jīng)知道如何讓模型的性能提高10倍。我們知道,它在遇到一些邏輯推理任務(wù)時(shí)會(huì)表現(xiàn)很差。我們將列出一個(gè)待辦問題清單,然后推出一個(gè)新版本來解決當(dāng)前出現(xiàn)的所有問題?!?/p>
如果關(guān)于智能和理解的說法被夸大了,那么創(chuàng)造力呢?就人類而言,我們說藝術(shù)家、數(shù)學(xué)家、企業(yè)家、幼兒園的小孩子和他們的老師都是創(chuàng)造力的典范。但要了解這些人的共同之處,是很難的一件事。
對(duì)一些人來說,最重要的是結(jié)果。另一些人則認(rèn)為,事物的制造方式,以及在這個(gè)過程中的動(dòng)機(jī)——是最重要的。
盡管如此,許多人還是認(rèn)可瑪格麗特·博登給出的定義
她是英國蘇塞克斯大學(xué)一位有影響力的人工智能研究員和哲學(xué)家,她將創(chuàng)造力這個(gè)概念歸結(jié)為三個(gè)關(guān)鍵標(biāo)準(zhǔn):要有創(chuàng)意,一個(gè)想法或人工制品需要是新的、令人驚訝的和有價(jià)值的。
除此之外,創(chuàng)造性是你第一眼看到就能意識(shí)到的東西?!坝?jì)算創(chuàng)造力”領(lǐng)域的研究人員將他們的工作描述為:如果使用計(jì)算機(jī)產(chǎn)生的成果,可以被認(rèn)為是人類能夠憑一己之力創(chuàng)造出來的東西,那它就會(huì)被認(rèn)為是具有創(chuàng)造性的。
因此,史密斯很高興地稱這種新一代的生成式模型具有創(chuàng)造性,盡管它們會(huì)犯一些愚蠢的錯(cuò)誤。
她說:“很明顯,這些圖像中的創(chuàng)新并不受任何人類輸入的控制。從文本到圖像的轉(zhuǎn)換往往是令人驚訝和美麗的?!?/p>
在澳大利亞莫納什大學(xué)研究計(jì)算創(chuàng)造力的瑪麗亞·特蕾莎·拉拉諾,同意文本到圖像的模型擴(kuò)展了以前的定義,但她并不認(rèn)為它是有創(chuàng)意的。
拉拉諾指出,當(dāng)用戶經(jīng)常使用這些程序時(shí),結(jié)果可能會(huì)開始變得重復(fù)。
這意味著它們沒有完全符合創(chuàng)造力的部分或全部要求,這可能是該技術(shù)的一個(gè)根本性限制。
本質(zhì)上,文本到圖像的模型生產(chǎn)出的圖像,依據(jù)的是數(shù)十億張已經(jīng)存在的圖像。也許機(jī)器學(xué)習(xí)只會(huì)產(chǎn)生(或模仿)它在過去所接觸到的東西的圖像。
這對(duì)計(jì)算機(jī)圖形學(xué)來說可能并不重要。Adobe已經(jīng)開始在Photoshop軟件中加入文本到圖像的生成功能;類似Photoshop但開源的Blender已經(jīng)有一個(gè)StableDiffusion插件;OpenAI正在與微軟合作,為Office辦公套件開發(fā)一個(gè)從文本到圖像的小組件。
正是在這種互動(dòng)中,在這些熟悉的生產(chǎn)力工具的未來版本中,用戶才真正地體會(huì)到了影響:來自那些不取代人類創(chuàng)造力,但卻能增強(qiáng)創(chuàng)造力的機(jī)器。
“我們今天看到的創(chuàng)造力來自于系統(tǒng)的使用,而不是系統(tǒng)本身,”拉拉諾說道。
這一觀點(diǎn)得到了其他計(jì)算創(chuàng)造力研究人員的贊同。這不僅僅關(guān)乎于機(jī)器所做的事情,更多的是他們是怎么做的。把他們變成真正的創(chuàng)意伙伴,意味著推動(dòng)他們更加自主,賦予他們創(chuàng)造性的責(zé)任,讓他們?nèi)ゲ邉澓蛣?chuàng)造。
許多相關(guān)的工具很快就會(huì)接踵而至。有人已經(jīng)編寫了一個(gè)叫做CLIP詢問器的程序,它可以分析一個(gè)圖像,并給出一段用于生成更多類似圖像的提示。
另一些人則在使用機(jī)器學(xué)習(xí),調(diào)整短語和詞匯使得提示的效果更好,讓生成的圖像有更高的質(zhì)量和保真度——這也有效自動(dòng)化了提示工程,一個(gè)剛出現(xiàn)幾個(gè)月的工種。
與此同時(shí),隨著圖像不斷涌現(xiàn),我們也看到了其他方面的影響。庫克說:“互聯(lián)網(wǎng)現(xiàn)在永遠(yuǎn)被人工智能制作的圖像污染了。我們?cè)?022年制作的圖片,將是從現(xiàn)在開始制作的任何模型的一部分?!?/p>
這些工具將對(duì)創(chuàng)意產(chǎn)業(yè)和整個(gè)人工智能領(lǐng)域?qū)a(chǎn)生哪些持久性影響,我們將拭目以待,生成式人工智能已經(jīng)成為另一種表達(dá)工具。
OpenAI聯(lián)合創(chuàng)始人山姆說,他現(xiàn)在會(huì)在私人短息中使用生成的圖像,就像使用emoji表情符號(hào)一樣。他說:“我的一些朋友甚至都懶得去生成圖像,他們會(huì)直接輸入提示文本?!?/p>
但從文本到圖像的模型可能只是一個(gè)開始。生成式人工智能最終可能被用于建筑設(shè)計(jì)和開發(fā)之中,這又被稱為“文本到X(圖片之外的某種事物)”。
“人們會(huì)意識(shí)到,技術(shù)或工藝不再是障礙,唯一的限制是他們的想象力,”納爾遜說。
計(jì)算機(jī)已經(jīng)在幾個(gè)行業(yè)中被使用,以生成大量可能的設(shè)計(jì),然后人們會(huì)篩選出那些可能有效的設(shè)計(jì)。
文本到X的模型將允許人類設(shè)計(jì)師從一開始就微調(diào)生成過程,使用文字引導(dǎo)計(jì)算機(jī)跳過無數(shù)的選項(xiàng),以獲得更加令人滿意的結(jié)果。
計(jì)算機(jī)可以召喚出充滿無限可能性的空間,文本到X將讓我們用詞匯來探索這些空間。
“我認(rèn)為這是可以流傳下去的東西,”山姆說?!皥D像、視頻、音頻、最終,一切都會(huì)被生成。我認(rèn)為它將會(huì)無處不在?!?/p>