姜斌 孟凡民
隨著ChatGPT、文心一言等AIGC(人工智能生成內(nèi)容)工具的流行,AI(人工智能)技術已經(jīng)悄然融入我們的日常生活,顯著提高了我們的工作效率并豐富了我們的生活體驗,同時也激發(fā)了我們的想象力和創(chuàng)新力。在這股AI的技術浪潮中,AI繪畫技術憑借其帶來的驚人創(chuàng)作成果,成了AI領域的一個焦點。
那么,AI繪畫到底是什么?它具備哪些能力,又是基于何種原理和技術運作的呢?讓我們進入AI繪畫的神秘世界里一探究竟!
AI是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學,也是新一輪技術革命和產(chǎn)業(yè)革命的重要驅動力量。在AI技術的廣泛應用中,AIGC技術尤其值得關注。該技術基于先進的機器學習模型,通過分析和學習海量數(shù)據(jù)集,實現(xiàn)了生成文本、圖像、視頻和音樂等多種內(nèi)容的能力。這不僅展現(xiàn)了AI的創(chuàng)新潛力,還為內(nèi)容創(chuàng)作者、設計師、工程師等專業(yè)人士提供了極大的便利和靈感。
作為AIGC技術的一個應用實例,AI繪畫已經(jīng)在互聯(lián)網(wǎng)和數(shù)字藝術界占據(jù)了顯著位置。借助Midjourney、Stable Diffusion和文心一格等平臺,AI繪畫能夠協(xié)助人們快速創(chuàng)作出大量高品質(zhì)的圖像作品。低成本、高可控性和高效率的特點,使其在教育、娛樂等多個生活領域扮演著重要角色。
“雕像本來就在石頭里,我只是把不需要的部分去掉?!?/p>
意大利藝術巨匠米開朗基羅的這句話是在描述他作為雕塑家的創(chuàng)作理念和方法,卻也道出了AI繪畫的基本原理。AI繪畫的過程,從本質(zhì)上來講,是從一張含有大量隨機噪聲的初始圖像出發(fā),通過AI的算法逐步去除“多余”的噪聲,最終“雕刻”出清晰、具體的圖像以滿足特定的需求。這里的隨機噪聲,是指輸入數(shù)據(jù)中的一種隨機信息元素,猶如圖片的噪點,它無法用一個明確的數(shù)學公式表示,在每次生成圖像時會產(chǎn)生微小的變化,用于增加模型的多樣性和創(chuàng)造性。
要理解這一過程,我們可以用AI繪畫工具Stable Diffusion來進行解釋。Stable Diffusion的名字本身就隱含了它的工作原理,即“擴散”過程,其實也是訓練過程。以《蒙娜麗莎》這幅世界名畫為例,若我們將眼睛瞇起來看,畫面就會開始變得模糊,這正是AI繪畫中“前向擴散”(Forward Diffusion)的一個類比。在這一階段,AI通過分析模糊圖像,學習并理解其形態(tài)特征,依靠深度學習從大量圖像中提取特征數(shù)據(jù),并與其文本標簽相對應,構建起龐大的數(shù)據(jù)庫。
當我們需要生成一張具有特定風格的蒙娜麗莎圖像(比如動漫風格)時,訓練好的神經(jīng)網(wǎng)絡便根據(jù)給定的提示詞,在其數(shù)據(jù)庫中檢索相關特征,并開始“逆向擴散”(Reverse Diffusion)過程,即逐步減少圖像中的噪聲,以清晰化圖像。通過這種方式,神經(jīng)網(wǎng)絡能夠基于復雜的算法和龐大的數(shù)據(jù)集,將一張噪聲圖逐步轉化為一張符合用戶需求的清晰圖像,就像是從石塊中逐步雕刻出精美的雕像。
隨著技術的進步和普及,AI繪畫的使用變得更加簡單、直觀。控制這一過程的核心在于向AI提供一條精確的文字指令,即提示詞。為了讓AI準確理解我們的需求,提示詞中需要包含對圖像主題、繪畫風格以及圖像參數(shù)的描述,描述越詳盡,越有助于輔助AI創(chuàng)作出符合預期的作品。
以Midjourney這一AI繪畫工具為例,一條典型的提示詞需要詳細地描述圖像的主體、風格、設定、組成、燈光等要素,還要設置圖像參數(shù)。例如,你可以編輯如下提示詞,“一幅小男孩在房間里讀書的油畫作品,小男孩穿著藍色襯衫,背景為雜亂的房間、昏暗柔和的光線,正對視角,畫幅尺寸為16:9”,就可以較好地指導AI進行圖像生成。
根據(jù)提示詞的指導,AI將生成4幅圖像作為輸出。界面上的“U”和“V”控件分別代表了放大輸出和優(yōu)化修改選項,每個按鈕后的數(shù)字對應4幅生成圖像中的一幅。例如,如果第一幅圖像符合需求,就點擊“U1”,AI將放大并輸出該圖像;若第二幅圖像較為接近需求但需要進一步優(yōu)化,則點擊“V2”,AI便會以第二幅圖像為基礎,再次生成4幅圖像。如果這一批次的圖像仍不滿足需求,用戶可以通過調(diào)整提示詞或點擊界面右側的循環(huán)按鈕,指示AI基于原始提示詞重新生成4幅圖像。這些步驟構成了使用AI進行圖像生成的基本操作流程。
其他AI繪圖工具的操作也大同小異。在百度公司的AI繪圖工具文心一格中,用戶同樣只需要給出一條簡單的提示詞,同時在左側的屬性欄內(nèi)設置好畫幅比例、繪畫風格、繪畫模式等參數(shù),直接點擊“立即生成”,即可生成精美的圖片作品。
隨著AI繪畫技術的持續(xù)迭代進化,一系列先進的生成方法和圖像優(yōu)化功能相繼問世,極大地豐富了用戶創(chuàng)作圖像的方式和手段。這些功能不僅提高了圖像生成的效率和便捷性,還賦予用戶前所未有的能力來定制和優(yōu)化他們的藝術作品,以更精準地滿足個人的創(chuàng)作需求。還是以Midjourney為例,我們來看看AI繪畫還可以怎么“玩”。
以圖生圖
當我們希望新創(chuàng)作的圖片融合現(xiàn)有圖片的某些元素時,可以將現(xiàn)有圖片作為參考,連同提示詞一并發(fā)送給AI。這樣,新創(chuàng)作的圖片就會在一定程度上反映出參考圖片的特征。例如,我們有一張貨船在江面上行駛的照片,并希望以油畫風格重新詮釋它,只要將這張照片和油畫風格的提示詞一起發(fā)送給AI,AI便會以油畫風格創(chuàng)作出全新的畫作。
圖像混合
AI可以將不同的圖片(最多4張)進行混合。AI會先分析這些圖片的內(nèi)容和特征,然后將它們有機地結合在一起,創(chuàng)作出全新的作品。這個過程有時會帶來一些出人意料的創(chuàng)意效果。例如,通過融合一張小男孩踢足球的照片和一張花園的照片,AI能創(chuàng)作出一幅全新的畫面,畫中的小男孩在花園里踢足球。這幅新生成的圖像能夠保持小男孩與花園的原始特征,兩個場景的結合也毫無違和感。
局部重繪
AI還允許用戶對圖像的特定區(qū)域進行細化或修改。這一功能極大地增強了對圖像細節(jié)的控制能力,同時為創(chuàng)作具有創(chuàng)意的圖像效果提供了可能。例如,若要在圖像中的女孩臉部或頭部添加新元素,如墨鏡、口罩或安全帽,用戶只需要利用此功能引導AI對特定區(qū)域進行調(diào)整。如此操作,新添加的元素能夠和諧地融入原始場景之中,確保整體圖像的一致性和自然感。
保持人物一致性
在AI繪畫領域,一直存在一個大問題,即AI很難在多張圖片中保持單個人物的一致性,這使得我們很難生成一些同一人物的連續(xù)性畫面。然而,在最新的Midjourney更新中,AI已經(jīng)可以根據(jù)我們提供的人物肖像以及提示詞內(nèi)容,在各種場景和動作姿勢下保持生成人物的形象與參考圖的一致性。這項功能的出現(xiàn),讓我們能夠利用AI來創(chuàng)作連環(huán)畫、影視分鏡甚至人物攝影作品。
如今,AI技術已經(jīng)在影視、辦公、醫(yī)療等領域得到了實際應用。在AI的支持下,我們能夠輕松地完成一些煩瑣的工作任務,也能夠輕易地將某些創(chuàng)意想法落實到現(xiàn)實中。盡管當前AI繪畫技術在可控性等方面仍面臨挑戰(zhàn),導致實際輸出結果與預期存在偏差,但是技術的迅速發(fā)展預示著它具有巨大潛力。AI繪畫正逐步成為藝術和設計領域的關鍵工具,為創(chuàng)意人士提供了探索新領域的機會。隨著技術的持續(xù)進步,我們期待AI繪畫能夠帶來更高層次的創(chuàng)作能力,開創(chuàng)一個人類與AI協(xié)作共創(chuàng)的新紀元!
(責任編輯:白玉磊)