?成式??智能正在改變?切當(dāng)炒作消失會(huì)剩下什么?

2023-05-30 10:48

海外星云 2023年2期

OpenAI很明顯知道自己在做什么。2021年底，只有幾個(gè)人的研究小組在OpenAI舊金山辦公室討論了一個(gè)想法，隨后他們創(chuàng)造了OpenAI的文本到圖像模型的新版本：DALL-E。

這是一個(gè)可以將簡(jiǎn)短的文字描述轉(zhuǎn)變?yōu)閳D片的人工智能模型，你可以讓它生成梵高畫的狐貍，或者是披薩做的柯基。

OpenAI的聯(lián)合創(chuàng)始人和首席執(zhí)行官山姆·奧特曼告訴《麻省理工科技評(píng)論》：“我們會(huì)創(chuàng)造一些新東西，然后我們都必須體驗(yàn)它一段時(shí)間，幾乎總是這樣。我們要試圖弄清楚它將是什么樣子的，被用于做什么?！?/p>

但這次不行。當(dāng)他們修改模型時(shí)，每個(gè)參與其中的人都意識(shí)到這是一件特別的事情?！昂苊黠@，這就是我們的產(chǎn)品，”山姆說，“（這一點(diǎn)）沒有任何爭(zhēng)論，我們甚至從來沒有開會(huì)討論過?！?/p>

但沒有人能夠預(yù)測(cè)這款產(chǎn)品將會(huì)引起多大的轟動(dòng)。山姆說：“這是第一個(gè)被每個(gè)普通用戶帶火的人工智能技術(shù)?！?/p>

DALL-E2在2022年4月發(fā)布。5月，谷歌官宣了（但沒有發(fā)布）它自己的兩種文本到圖像的模型，Imagen和Parti。

然后是Midjourney公司推出了一個(gè)為藝術(shù)家制作的文本到圖像模型。8月，英國初創(chuàng)公司StabilityAI向公眾免費(fèi)發(fā)布了開源模型StableDiffusion。

嘗鮮的用戶蜂擁而至。OpenAI在短短2個(gè)半月內(nèi)就吸引了100萬用戶。超過100萬人開始通過付費(fèi)服務(wù)DreamStudio使用StableDiffusion；更多的人通過第三方應(yīng)用程序使用StableDiffusion，或在他們自己的電腦上安裝免費(fèi)版本。

StabilityAI的創(chuàng)始人易馬德·莫斯塔克表示，他的目標(biāo)是擁有10億用戶。

在2022年10月，我們看到了第二輪熱潮：谷歌、Meta等公司發(fā)布了文本到視頻模型，可以創(chuàng)建短視頻、動(dòng)畫和3D圖像。

這種發(fā)展速度令人驚訝。在短短幾個(gè)月的時(shí)間里，這項(xiàng)技術(shù)登上了媒體頭條和雜志封面，社交媒體上到處都是討論的人和有關(guān)的話題，話題的熱度高居不下，但同時(shí)也引發(fā)了強(qiáng)烈的反彈。

倫敦國王學(xué)院研究計(jì)算創(chuàng)造力的人工智能研究員邁克·庫克說：“這項(xiàng)技術(shù)令人驚嘆，它很有趣，這是新技術(shù)該有的樣子。

但它發(fā)展得如此之快，以至于你的理解根本趕不上它的更新速度。我認(rèn)為，整個(gè)社會(huì)要花上一段時(shí)間來消化它?！?/p>

藝術(shù)家們陷入了這個(gè)時(shí)代最大的動(dòng)蕩之中。有些人會(huì)失去工作；有些人會(huì)找到新的機(jī)會(huì)。一些人選擇訴諸法律，因?yàn)樗麄冋J(rèn)為，訓(xùn)練模型所用的圖像被濫用了。

曾在夢(mèng)工廠等視覺效果工作室工作過的數(shù)字藝術(shù)家，唐·艾倫·史蒂文森三世說：“對(duì)于像我這樣接受過技術(shù)訓(xùn)練的人來說，這非?？膳碌?。

“我會(huì)說天吶，這是我的全部工作，”他說，“我在使用DALL-E的第一個(gè)月就陷入了生存危機(jī)。”

盡管一些人仍沉浸在震驚之中，但包括史蒂文森在內(nèi)的許多人正在尋找使用這些工具的方法，并預(yù)測(cè)接下來會(huì)發(fā)生什么。

令人興奮的事實(shí)是，我們不知道接下來會(huì)發(fā)生什么。原因是，雖然創(chuàng)意產(chǎn)業(yè)從娛樂媒體到時(shí)尚、建筑、市場(chǎng)營(yíng)銷等，將最先感受到影響，但這項(xiàng)技術(shù)將把創(chuàng)造力賦予每個(gè)人。

從長(zhǎng)遠(yuǎn)來看，它可以用于產(chǎn)生幾乎任何東西的設(shè)計(jì)，從新型藥物到服裝和建筑。生成式的革命已經(jīng)開始。

神奇的?命

對(duì)于曾從事電子游戲和電視節(jié)目制作的數(shù)字創(chuàng)作者查德·納爾遜來說，從文本到圖像的模型是一個(gè)千載難逢的突破。

他說：“這項(xiàng)技術(shù)可以讓你在幾秒鐘內(nèi)將腦海里的靈光一閃變成一個(gè)原型。你創(chuàng)造和探索的速度是革命性的——超過了我30年來經(jīng)歷過的任何一個(gè)時(shí)刻。”

在模型剛出的幾周里，人們就開始使用這些工具進(jìn)行原型創(chuàng)造和頭腦風(fēng)暴，從雜志插圖和營(yíng)銷布局到電子游戲環(huán)境和電影概念。

人們制作了同人作品，甚至是整本漫畫書，并在網(wǎng)上不斷分享。山姆甚至用DALL-E來設(shè)計(jì)運(yùn)動(dòng)鞋，就在他把設(shè)計(jì)圖發(fā)在推特上之后，有人為他制作了一雙。

紋身藝術(shù)師兼計(jì)算機(jī)科學(xué)家艾米·史密斯一直在使用DALL-E模型來設(shè)計(jì)紋身?！澳憧梢院涂蛻粢黄鹱聛?，一起進(jìn)行設(shè)計(jì)，”她說，“我們正處于一場(chǎng)革命之中?！?/p>

數(shù)字和視頻藝術(shù)家保羅·特里洛認(rèn)為，這項(xiàng)技術(shù)將使關(guān)于視覺效果的頭腦風(fēng)暴更容易、更快速。

“人們都在說，這是特效藝術(shù)家或時(shí)裝設(shè)計(jì)師的末日，”他說，“我不認(rèn)為這是任何職業(yè)的終局。相反，我認(rèn)為它意味著我們不必在晚上和周末加班。”

圖片公司則采取了不同的立場(chǎng)。Getty已經(jīng)禁止了人工智能生成的圖像；Shutterstock公司已經(jīng)與OpenAI簽署了一項(xiàng)協(xié)議，將DALL-E嵌入其網(wǎng)站，并表示將成立一個(gè)基金，對(duì)那些成果被模型當(dāng)作訓(xùn)練數(shù)據(jù)的藝術(shù)家進(jìn)行補(bǔ)償。

史蒂文森說，他在動(dòng)畫工作室制作電影的每一步都嘗試了DALL-E，包括角色和環(huán)境的設(shè)計(jì)。

有了DALL-E，他能夠在幾分鐘內(nèi)完成多個(gè)部門的工作。他說：“對(duì)于那些因?yàn)榧夹g(shù)太貴或太復(fù)雜而無法從事創(chuàng)造工作的人來說，這是令人振奮的。但如果你不愿意接受改變，那就太可怕了?！?/p>

納爾遜認(rèn)為未來還會(huì)有更多的事情發(fā)生。最終，他認(rèn)為這項(xiàng)技術(shù)不僅會(huì)被媒體巨頭所接受，也會(huì)被建筑和設(shè)計(jì)公司所接受。不過，他認(rèn)為人工智能模型還沒有準(zhǔn)備好。

“現(xiàn)在就像你有一個(gè)小魔法盒子，一個(gè)小巫師，”他說。如果你只是想繼續(xù)生成圖像，那足夠了，但如果你需要一個(gè)創(chuàng)造性的合作伙伴，那還不夠。

他說：“如果我想讓它創(chuàng)造故事和構(gòu)建世界，它需要對(duì)我正在創(chuàng)造的東西有更多的認(rèn)知?！?/p>

這就是問題所在：這些模型仍然不知道自己在做什么。

?盒?

為了了解原因，讓我們看看這些程序是如何工作的。從外部來看，模型是一個(gè)黑盒子。

你輸入一段簡(jiǎn)短的文字描述，又可以被稱為一段提示，然后等待幾秒鐘，你就會(huì)得到一些（或多或少）符合提示的圖像。

你可能不得不調(diào)整你的文本，讓模型產(chǎn)生一些更接近你的想法的東西，或者不斷打磨一個(gè)偶然得到的結(jié)果，這已被稱為“提示工程”。

為了獲得最細(xì)致的、樣式獨(dú)特的圖像，一段描述可以多達(dá)幾百個(gè)單詞，而選擇正確的單詞已經(jīng)成為一項(xiàng)有價(jià)值的技能。相關(guān)的網(wǎng)絡(luò)市場(chǎng)如雨后春筍般涌現(xiàn)，專門買賣那些能夠產(chǎn)生理想結(jié)果的文字提示和描述。

文字提示可以包含指示模型選擇特定風(fēng)格的短語，比如“ArtStation的流行趨勢(shì)”，這是在告訴人工智能模仿ArtStation網(wǎng)站上流行的圖像（通常是非常詳細(xì)的）風(fēng)格，這個(gè)網(wǎng)站上有成千上萬的藝術(shù)家展示他們的作品；而“虛幻引擎”則會(huì)激活類似電子游戲的圖像風(fēng)格。

用戶甚至可以輸入特定藝術(shù)家的名字，讓人工智能制作出模仿他們風(fēng)格的仿制品。當(dāng)然，這讓一些藝術(shù)家非常不高興。

外表之下，文本到圖像模型有兩個(gè)關(guān)鍵組成部分：一個(gè)經(jīng)過訓(xùn)練的、將圖像與描述圖像的文本配對(duì)的神經(jīng)網(wǎng)絡(luò)，以及另一個(gè)被訓(xùn)練成從零開始生成圖像的神經(jīng)網(wǎng)絡(luò)。其核心思想是讓第二個(gè)神經(jīng)網(wǎng)絡(luò)生成能讓第一個(gè)神經(jīng)網(wǎng)絡(luò)接受的圖像。

新模型背后的重大突破在于圖像生成的方式。DALL-E模型的第一個(gè)版本使用了OpenAI語言模型GPT-3背后的技術(shù)，通過預(yù)測(cè)圖像中的下一個(gè)像素來生成圖像，就像預(yù)測(cè)句子中的單詞一樣。這可以實(shí)現(xiàn)目的，但效果不好。

“它沒有給人一種神奇的感覺，”山姆說，“它能運(yùn)轉(zhuǎn)本身就很神奇了。”

相反，DALL-E2模型使用了一種叫做擴(kuò)散模型的東西。擴(kuò)散模型是一種神經(jīng)網(wǎng)絡(luò)，經(jīng)過訓(xùn)練后，它可以通過去除訓(xùn)練過程中添加的像素化噪聲來清理圖像。

這個(gè)過程包括拿到一張圖片，改變其中的幾個(gè)像素并重復(fù)多次，直到原始圖像被擦除，最后只剩下隨機(jī)的像素。

“如果你這樣做一千次，最終圖像看起來就像是沒有信號(hào)的電視上面的雪花，”比約恩·歐蒙說。他在德國慕尼黑大學(xué)研究生成式人工智能，幫助建立了StableDiffusion背后的擴(kuò)散模型。

然后訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)逆轉(zhuǎn)這個(gè)過程，并預(yù)測(cè)給定圖像的低像素化版本會(huì)是什么樣子。結(jié)果是如果你給一個(gè)擴(kuò)散模型一堆像素，它會(huì)嘗試生成稍微更干凈的圖像。

把清理后的圖像放回去，模型就會(huì)產(chǎn)生更干凈的圖像。當(dāng)這個(gè)過程足夠長(zhǎng)，模型就可以把雪花圖像變成高分辨率圖片。

文本到圖像模型的訣竅是，這個(gè)過程是由語言模型引導(dǎo)的，該語言模型負(fù)責(zé)將文字提示與擴(kuò)散模型產(chǎn)生的圖像相匹配。這將擴(kuò)散模型推向了語言模型認(rèn)為的匹配度更高的圖像。

但這些模型并沒有擺脫文本和圖像之間的聯(lián)系。如今，大多數(shù)文本到圖像的模型都是在一個(gè)名為L(zhǎng)AION的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練的，該數(shù)據(jù)集包含了從互聯(lián)網(wǎng)上提取的數(shù)十億組文本和圖像。

這意味著你從文本到圖像模型中得到的圖像，是真實(shí)網(wǎng)絡(luò)世界的抽象，它包含了被偏見（和色情）扭曲的網(wǎng)絡(luò)內(nèi)容。

還有一點(diǎn)值得注意，目前最流行的兩種模型，DALL-E2和StableDiffusion之間有一個(gè)微小但關(guān)鍵的區(qū)別。

DALL-E2的擴(kuò)散模型適用于全尺寸圖像，而StableDiffusion則使用了一種由歐蒙和他的同事發(fā)明的被稱為“潛在擴(kuò)散”的技術(shù)。

后者作用于神經(jīng)網(wǎng)絡(luò)中編碼圖像的壓縮版本，即所謂的“隱空間”中，其中只保留了圖像的基本特征。

這意味著StableDiffusion需要的算力更少。與運(yùn)行在OpenAI高性能服務(wù)器上的DALL-E2模型不同，StableDiffusion可以在性能尚可的個(gè)人電腦上運(yùn)行。

創(chuàng)造力的爆炸式增長(zhǎng)和新應(yīng)用程序的快速開發(fā)，在很大程度上是由于StableDiffusion不僅是開源的，程序員可以自由地改變它，在開源代碼的基礎(chǔ)上構(gòu)建它并以此賺錢，而且它足夠輕巧，人們?cè)诩揖湍苓\(yùn)行。

重新定義創(chuàng)造?

對(duì)一些人來說，這些模型是向通用人工智能（AGI）邁進(jìn)的一步。AGI指的是未來具有通用或甚至類似人類智能的人工智能，當(dāng)然，你也可以認(rèn)為它是一個(gè)被過度炒作的概念。OpenAI已經(jīng)明確了其實(shí)現(xiàn)AGI的目標(biāo)。

出于這個(gè)原因，OpenAI的聯(lián)合創(chuàng)始人山姆并不關(guān)心DALL-E2現(xiàn)在正與大量類似的工具競(jìng)爭(zhēng)，其中一些是免費(fèi)的。

“我們是要制造AGI的，而不是圖像生成器，”他說，“我們的工具將契合一個(gè)更廣泛的產(chǎn)品路線圖。這只是AGI能做的一件小事?！?/p>

這是一個(gè)樂觀的想法，因?yàn)樵S多專家認(rèn)為，今天的人工智能永遠(yuǎn)不會(huì)達(dá)到那個(gè)水平。就基本智能而言，文本到圖像的模型并不比支撐它們的語言模型更智能。

像GPT-3和谷歌的PaLM這樣的工具，會(huì)從他們所訓(xùn)練的數(shù)十億個(gè)文檔中獲取文本模式。類似地，DALL-E和StableDiffusion可能只是復(fù)制了在數(shù)十億個(gè)網(wǎng)絡(luò)樣本中發(fā)現(xiàn)的文本和圖像之間的關(guān)聯(lián)。

雖然社交媒體上有許多眼花繚亂的成果，但如果我們不斷嘗試，總會(huì)發(fā)現(xiàn)不盡如人意的地方。

這些模型會(huì)犯下愚蠢的錯(cuò)誤，比如你想要“河里的鮭魚”，它會(huì)生成“漂浮在河上的生魚片”，或者你想要“蝙蝠飛過棒球場(chǎng)”，它會(huì)給你一張“有飛行的哺乳動(dòng)物和一根木棍”的圖片。

這是因?yàn)樗鼈兯褂玫募夹g(shù)，完全不能像人類（甚至大多數(shù)動(dòng)物）那樣理解我們的世界。

即便如此，讓這些模型學(xué)習(xí)更好的技巧可能只是時(shí)間問題。庫克說：“人們說它現(xiàn)在不太擅長(zhǎng)做某件事，沒問題，等再燒一億美元之后，它很可能就會(huì)做了?！?/p>

OpenAI就是這樣做的。山姆說：“我們已經(jīng)知道如何讓模型的性能提高10倍。我們知道，它在遇到一些邏輯推理任務(wù)時(shí)會(huì)表現(xiàn)很差。我們將列出一個(gè)待辦問題清單，然后推出一個(gè)新版本來解決當(dāng)前出現(xiàn)的所有問題?！?/p>

如果關(guān)于智能和理解的說法被夸大了，那么創(chuàng)造力呢？就人類而言，我們說藝術(shù)家、數(shù)學(xué)家、企業(yè)家、幼兒園的小孩子和他們的老師都是創(chuàng)造力的典范。但要了解這些人的共同之處，是很難的一件事。

對(duì)一些人來說，最重要的是結(jié)果。另一些人則認(rèn)為，事物的制造方式，以及在這個(gè)過程中的動(dòng)機(jī)——是最重要的。

盡管如此，許多人還是認(rèn)可瑪格麗特·博登給出的定義

她是英國蘇塞克斯大學(xué)一位有影響力的人工智能研究員和哲學(xué)家，她將創(chuàng)造力這個(gè)概念歸結(jié)為三個(gè)關(guān)鍵標(biāo)準(zhǔn)：要有創(chuàng)意，一個(gè)想法或人工制品需要是新的、令人驚訝的和有價(jià)值的。

除此之外，創(chuàng)造性是你第一眼看到就能意識(shí)到的東西?！坝?jì)算創(chuàng)造力”領(lǐng)域的研究人員將他們的工作描述為：如果使用計(jì)算機(jī)產(chǎn)生的成果，可以被認(rèn)為是人類能夠憑一己之力創(chuàng)造出來的東西，那它就會(huì)被認(rèn)為是具有創(chuàng)造性的。

因此，史密斯很高興地稱這種新一代的生成式模型具有創(chuàng)造性，盡管它們會(huì)犯一些愚蠢的錯(cuò)誤。

她說：“很明顯，這些圖像中的創(chuàng)新并不受任何人類輸入的控制。從文本到圖像的轉(zhuǎn)換往往是令人驚訝和美麗的?！?/p>

在澳大利亞莫納什大學(xué)研究計(jì)算創(chuàng)造力的瑪麗亞·特蕾莎·拉拉諾，同意文本到圖像的模型擴(kuò)展了以前的定義，但她并不認(rèn)為它是有創(chuàng)意的。

拉拉諾指出，當(dāng)用戶經(jīng)常使用這些程序時(shí)，結(jié)果可能會(huì)開始變得重復(fù)。

這意味著它們沒有完全符合創(chuàng)造力的部分或全部要求，這可能是該技術(shù)的一個(gè)根本性限制。

本質(zhì)上，文本到圖像的模型生產(chǎn)出的圖像，依據(jù)的是數(shù)十億張已經(jīng)存在的圖像。也許機(jī)器學(xué)習(xí)只會(huì)產(chǎn)生（或模仿）它在過去所接觸到的東西的圖像。

這對(duì)計(jì)算機(jī)圖形學(xué)來說可能并不重要。Adobe已經(jīng)開始在Photoshop軟件中加入文本到圖像的生成功能；類似Photoshop但開源的Blender已經(jīng)有一個(gè)StableDiffusion插件；OpenAI正在與微軟合作，為Office辦公套件開發(fā)一個(gè)從文本到圖像的小組件。

正是在這種互動(dòng)中，在這些熟悉的生產(chǎn)力工具的未來版本中，用戶才真正地體會(huì)到了影響：來自那些不取代人類創(chuàng)造力，但卻能增強(qiáng)創(chuàng)造力的機(jī)器。

“我們今天看到的創(chuàng)造力來自于系統(tǒng)的使用，而不是系統(tǒng)本身，”拉拉諾說道。

這一觀點(diǎn)得到了其他計(jì)算創(chuàng)造力研究人員的贊同。這不僅僅關(guān)乎于機(jī)器所做的事情，更多的是他們是怎么做的。把他們變成真正的創(chuàng)意伙伴，意味著推動(dòng)他們更加自主，賦予他們創(chuàng)造性的責(zé)任，讓他們?nèi)ゲ邉澓蛣?chuàng)造。

許多相關(guān)的工具很快就會(huì)接踵而至。有人已經(jīng)編寫了一個(gè)叫做CLIP詢問器的程序，它可以分析一個(gè)圖像，并給出一段用于生成更多類似圖像的提示。

另一些人則在使用機(jī)器學(xué)習(xí)，調(diào)整短語和詞匯使得提示的效果更好，讓生成的圖像有更高的質(zhì)量和保真度——這也有效自動(dòng)化了提示工程，一個(gè)剛出現(xiàn)幾個(gè)月的工種。

與此同時(shí)，隨著圖像不斷涌現(xiàn)，我們也看到了其他方面的影響。庫克說：“互聯(lián)網(wǎng)現(xiàn)在永遠(yuǎn)被人工智能制作的圖像污染了。我們?cè)?022年制作的圖片，將是從現(xiàn)在開始制作的任何模型的一部分?！?/p>

這些工具將對(duì)創(chuàng)意產(chǎn)業(yè)和整個(gè)人工智能領(lǐng)域?qū)a(chǎn)生哪些持久性影響，我們將拭目以待，生成式人工智能已經(jīng)成為另一種表達(dá)工具。

OpenAI聯(lián)合創(chuàng)始人山姆說，他現(xiàn)在會(huì)在私人短息中使用生成的圖像，就像使用emoji表情符號(hào)一樣。他說：“我的一些朋友甚至都懶得去生成圖像，他們會(huì)直接輸入提示文本?！?/p>

但從文本到圖像的模型可能只是一個(gè)開始。生成式人工智能最終可能被用于建筑設(shè)計(jì)和開發(fā)之中，這又被稱為“文本到X（圖片之外的某種事物）”。

“人們會(huì)意識(shí)到，技術(shù)或工藝不再是障礙，唯一的限制是他們的想象力，”納爾遜說。

計(jì)算機(jī)已經(jīng)在幾個(gè)行業(yè)中被使用，以生成大量可能的設(shè)計(jì)，然后人們會(huì)篩選出那些可能有效的設(shè)計(jì)。

文本到X的模型將允許人類設(shè)計(jì)師從一開始就微調(diào)生成過程，使用文字引導(dǎo)計(jì)算機(jī)跳過無數(shù)的選項(xiàng)，以獲得更加令人滿意的結(jié)果。

計(jì)算機(jī)可以召喚出充滿無限可能性的空間，文本到X將讓我們用詞匯來探索這些空間。

“我認(rèn)為這是可以流傳下去的東西，”山姆說?！皥D像、視頻、音頻、最終，一切都會(huì)被生成。我認(rèn)為它將會(huì)無處不在?！?/p>

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?成式??智能正在改變?切當(dāng)炒作消失會(huì)剩下什么?

神奇的?命

?盒?

重新定義創(chuàng)造?