国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像生成技術(shù)的教與學(xué):穩(wěn)態(tài)擴(kuò)散模型的深入解析與教學(xué)應(yīng)用

2024-10-01 00:00:00林榮輝
中學(xué)理科園地 2024年5期

摘 要:在自動圖像字幕技術(shù)掀起的AI繪圖浪潮中,以Stable Diffusion為代表的圖像生成新機(jī)制既給世間審美派送了杏花疏影,又為智能倫理引進(jìn)了煩亂紛擾。既然《義務(wù)教育信息科技課程標(biāo)準(zhǔn)》與《普通高中信息技術(shù)課程標(biāo)準(zhǔn)》皆有“了解人工智能的新進(jìn)展、新應(yīng)用”的相關(guān)要求,那么此項機(jī)器學(xué)習(xí)領(lǐng)域的最近應(yīng)用理應(yīng)成為中學(xué)信息技術(shù)(科技)教學(xué)領(lǐng)域的新入口,而基教階段人工智能的施教者也應(yīng)該迎接它所攜帶的新挑戰(zhàn)。因此,對人工智能繪圖機(jī)制的進(jìn)化脈絡(luò),對Stable Diffusion數(shù)理模型的分析解構(gòu),對AI圖像生成的教學(xué)適配便成了必要的研究內(nèi)容。

關(guān)鍵詞:穩(wěn)態(tài)擴(kuò)散模型;AI繪圖;人工智能教學(xué);信息科技;信息技術(shù)

計算機(jī)視覺是基教階段人工智能教學(xué)的關(guān)鍵組成,其“觀感”特性天然可與審美傳達(dá)產(chǎn)生關(guān)聯(lián),因此計算機(jī)視覺的教學(xué)理應(yīng)融合與之相配的美學(xué)屬性。然而,高教階段計算機(jī)教學(xué)與美學(xué)界域的交集寥寥,同時基教階段實施教育美育融合的門檻較高,導(dǎo)致眾多信息技術(shù)(科技)從教者雖理得清算法脈絡(luò),敲得出數(shù)理邏輯,辨得明計算思維,卻描不下九州露霜,涂不出故鄉(xiāng)月光,繪不盡紅塵過往。

可喜的是,自2015年掀起的計算機(jī)視覺創(chuàng)新浪潮,特別是自動圖像字幕技術(shù)加持下的機(jī)器學(xué)習(xí),實現(xiàn)了對圖像領(lǐng)域內(nèi)元素對象的文本標(biāo)記。而當(dāng)研究人員拓展思維過程,將文本描述翻轉(zhuǎn)輸出為新圖像時,現(xiàn)實世界難以自然融合的畫境圖景便呈現(xiàn)在世人面前了。穩(wěn)態(tài)擴(kuò)散(Stable Diffusion,下同)模型便是此次創(chuàng)新浪潮中的典型技術(shù)代表??紤]到該技術(shù)在互聯(lián)網(wǎng)上的開源傳播廣度與技術(shù)共享深度,普通的技術(shù)學(xué)科教師也可借助文本描述詞或短語組合,在智能教學(xué)中開展圖像生成與審美融合的探索。

1 圖像生成模型的歷史脈絡(luò)

機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于圖像生成的歷史并不短暫,在穩(wěn)態(tài)擴(kuò)散模型令人驚異地面世之前,2018年,一副由人工智能生成的畫作在嘈雜的爭議中以43.5萬美元在藝術(shù)品拍賣會上被售出。該幅《埃德蒙德·貝拉米肖像(Portrait of Edmond Belamy)》的畫作生成,依靠的是名為生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的深度學(xué)習(xí)模型(圖1)。此模型首先經(jīng)由非監(jiān)督學(xué)習(xí)機(jī)制訓(xùn)練符合要求的特定數(shù)據(jù)集(原件),隨后創(chuàng)建網(wǎng)絡(luò)副本,接著依托生成模型(generative model,GM)和鑒別模型(discriminative model,DM)令兩者同步受訓(xùn)并博弈判斷原件和樣本之間的差異,最后反饋結(jié)果。以對抗生成網(wǎng)絡(luò)為代表的有條件圖像生成方法具有較強(qiáng)的屬性表達(dá)辨別力和泛化力,但需要特定領(lǐng)域的知識信息支撐,從而導(dǎo)致屬性獲取過程較為復(fù)雜[ 1 ]。

相對而言,另一類屬性描述手段—通過自然語言賦予空間視覺元素的策略則創(chuàng)建了一條更加普適與輕巧的生成途徑,即依附生活化的文本表達(dá),串聯(lián)映射圖像特征數(shù)據(jù)集,以此生成能與文本描述詞協(xié)調(diào)共鳴的,甚至具有豐富畫面細(xì)節(jié)的像素組件并使之拼裝呈現(xiàn)。

2021年1月,一家名為OpenAI的人工智能研究公司首先發(fā)布了圖像生成引擎DALL-E,該引擎為用戶構(gòu)建了可以根據(jù)文字描述創(chuàng)建更逼真、更準(zhǔn)確圖像的能力[ 2 ],同時支持無縫編輯。同年6月,Midjourney平臺也宣布收費支持文本生成圖像。2022年8月,Stable Diffusion公司將其同名圖像生成模型(即穩(wěn)態(tài)擴(kuò)散模型)在Github網(wǎng)站公開發(fā)布。因其開源屬性,該模型的昭布脫離了盈利模式的約束,任何技術(shù)人員通過短期訓(xùn)練,便可在硬件條件滿足(主要是顯示芯片與顯存大小門檻)后自由搭建“擴(kuò)散型”圖像生成平臺。至此,“擴(kuò)散型”圖像生成模型在世界范圍飛速傳播。

2 “擴(kuò)散型”圖像生成模型機(jī)制

要使圖像生成器能快速響應(yīng)文本描述,“擴(kuò)散型”生成模型需要一個龐大且多樣化的訓(xùn)練數(shù)據(jù)集。一般來說,為改善圖文的可訪問性和可搜索性,互聯(lián)網(wǎng)圖源在發(fā)布對象時,大多會為圖像同步搭配與之毗連的替代文本。因此以上訓(xùn)練數(shù)據(jù)集通過網(wǎng)絡(luò)“抓取”的公眾圖源大概率一并包含圖片與文字描述。但與搜索引擎的機(jī)理不同,如圖2所示,用戶提交文本提示時,“擴(kuò)散型”生成模型的運作并非依照查詢結(jié)果,定位訓(xùn)練數(shù)據(jù)集中的相關(guān)圖像,然后復(fù)制像素信息完成組合,而是借助深度學(xué)習(xí)模型的“潛在空間”(Latent Space)以高維方式標(biāo)記文本并生成圖像。

以常見物體香蕉的識別為例,以圖3為例,若以單一色深程度(即黃色程度)作為識別物體的線性指標(biāo),模型雖可有效分辨香蕉(黃色)與氣球(紅色)的特征差別,但面對同色氣球(黃色)樣本時,一維指標(biāo)顯得力不從心。此時,若補(bǔ)充以圓形程度為基準(zhǔn)的新指標(biāo),“擴(kuò)散型”模型對物體的識別指標(biāo)便由一維線性擴(kuò)展為二維平面樣式。之后,隨著指標(biāo)排他性性狀的不斷確認(rèn),伴隨判定指標(biāo)體系的延展增維,高維識別模型可大幅強(qiáng)化對指標(biāo)空間的狀態(tài)擴(kuò)展,進(jìn)而構(gòu)建指標(biāo)眾多、屬性各異的分類標(biāo)簽。

此即“擴(kuò)散”模型中深度學(xué)習(xí)算法在遍歷數(shù)據(jù)集時的運行機(jī)理。在具體實現(xiàn)上,算法在遍歷流程時側(cè)重指向提升模型效率的變量,構(gòu)建了與變量等量且高維的數(shù)學(xué)空間。雖然在一般情況下,人類無法理解多維空間的高階架構(gòu),但穩(wěn)態(tài)擴(kuò)散模型可提供至多500個維度的潛在空間支持。這所謂的潛在空間代表了現(xiàn)有人類都無法識別或命名的變量集合,其間的任何一點都可視為由文本提示出發(fā),指標(biāo)體系導(dǎo)航而最終可達(dá)的圖像答案。由于導(dǎo)航過程中的一些隨機(jī)屬性干預(yù),模型無法為固定文本輸入返回同樣固定的結(jié)果,因為數(shù)據(jù)集、訓(xùn)練模型的源生差異,會導(dǎo)致潛在空間定位的迥然不同。

3 穩(wěn)態(tài)擴(kuò)散模型的數(shù)理邏輯

在文本導(dǎo)航與圖像生成之前,“擴(kuò)散型”模型還需要將潛在空間中的一個點轉(zhuǎn)換為實際圖像,該過程即“擴(kuò)散(diffusion)”機(jī)制。“擴(kuò)散”流程從圖像噪聲輸入開始,經(jīng)歷一系列的隨機(jī)值輔助推導(dǎo),最終將像素排列為對人類有意義的構(gòu)圖。

可見,穩(wěn)態(tài)擴(kuò)散模型以圖像去噪為初始目標(biāo),此類機(jī)制與早期圖像生成方法,例如以對生成式對抗網(wǎng)絡(luò)為代表的直接圖像法或以概率統(tǒng)計分布為代表的變分自編碼(Variational Autoencoders,VAEs)器件近似,生成過程皆起源于輸入的隨機(jī)噪聲Z,通過神經(jīng)網(wǎng)絡(luò)層疊加持,由機(jī)器學(xué)習(xí)手段將其轉(zhuǎn)化為樣本數(shù)據(jù)X。早期生成式模型受制于從噪聲到清晰圖像的單步轉(zhuǎn)換,具體為輸入的噪聲僅借助單一模型生成數(shù)據(jù)樣本,生成的圖像往往質(zhì)量欠佳??v然單步生成的模型在現(xiàn)代算力支持下也能改善效果,但需要龐大的模型與海量的時間作為代價。

為改善運行效率,穩(wěn)態(tài)擴(kuò)散模型使用去噪擴(kuò)散概率模式 (Denoising Diffusion Probabilistic Model,DDPM),利用逐次細(xì)分的加噪/去噪聲周期,規(guī)避單一模式的低效陷阱。如圖4所示,去噪擴(kuò)散模式一般由清晰的圖像啟動,而后圖像在細(xì)分周期中逐漸融合噪聲。隨著數(shù)據(jù)與狀態(tài)的遞推傳遞,圖像噪聲的比重同步增大。至XT位置時整個圖像完全轉(zhuǎn)化為噪聲Z。反之同理,逆向處理流程從輸入噪聲開始,圖像按細(xì)分步驟逐漸去噪,最終重構(gòu)回清晰樣態(tài)。

3.1 加噪過程分析

由xt到xt-1的遞推公式

xt=atxt-1+βtεt,εt~N(0.1)

可得:

xt表示圖像遞加噪進(jìn)程第t步的狀態(tài),該狀態(tài)首先由上一階段xt-1乘上權(quán)重at,加上隨機(jī)噪聲εt與權(quán)重βt的乘積實現(xiàn),其中εt滿足0~1之間的正態(tài)分布。其次,累加過程中的兩個權(quán)重at和βt滿足固定平方和公式:

at2+βt2=1

即權(quán)重at和βt滿足一個恒定狀態(tài),此固定關(guān)系為后續(xù)的狀態(tài)推導(dǎo)提供穩(wěn)定支撐。在正向加噪流程中,權(quán)重βt與時間關(guān)聯(lián),隨著噪聲比重的提高同步增大。若合并以上遞推過程和關(guān)系狀態(tài),可得完整的加噪通項:

3.2 去噪過程分析

通常,去噪過程只需將加噪過程反向推導(dǎo)即可。例如,在加噪過程中,xt的狀態(tài)已知,at和βt也由恒定狀態(tài)綁定,余下的變量和階段依靠代換順序?qū)氲秃?。但此想法忽略了一個不可控對象—在加噪過程添加的隨機(jī)噪聲εt。此歸屬于正向流程的隨機(jī)值換位至去噪過程時,系統(tǒng)無法通過反推得出其原本取值。為解決這個問題,模型需要添加新的神經(jīng)網(wǎng)絡(luò)以供“學(xué)習(xí)”出εt。此過程滿足公式:

由加噪環(huán)節(jié)可知,βt隨著時間的增大而不斷增大,因此,由該值構(gòu)成的損失函數(shù)也隨時間增長而同步增大,同理居于分母位置at2的同步減小。εt關(guān)聯(lián)新創(chuàng)建的神經(jīng)網(wǎng)絡(luò)而t為噪聲強(qiáng)度。整體訓(xùn)練過程在輸入噪聲后開啟,逐步進(jìn)行隨機(jī)噪聲的機(jī)器學(xué)習(xí)模擬,而后反復(fù)迭代直到對象重新變?yōu)榍逦膱D像。

3.3 穩(wěn)態(tài)擴(kuò)散模型生成圖像的要點

穩(wěn)態(tài)擴(kuò)散模型憑借編解碼模型和創(chuàng)新性地文本控制,大大降低了傳統(tǒng)機(jī)器學(xué)習(xí)的時間復(fù)雜度,也解放了非專業(yè)人群體驗AI繪圖的桎梏。

(1)時間復(fù)雜度大幅改善

如圖5所示,穩(wěn)態(tài)擴(kuò)散模型預(yù)先訓(xùn)練了編碼與解碼模型,令其對輸入圖片進(jìn)行降維編碼,而后于潛空間上處理去噪擴(kuò)散概率模型。此流程將輸入的圖像規(guī)格,由512×512編碼為64×64,而后進(jìn)行去噪擴(kuò)散,獲得重構(gòu)結(jié)果后再通過解碼最終還原成512×512的真實圖像。經(jīng)過這個編碼與解碼的組合過程,圖像生成的整體耗時有了質(zhì)的飛躍。

(2)橋接文本控制條件

同圖5,穩(wěn)態(tài)擴(kuò)散模型在獲取輸入噪聲的同期引入文本描述作為新條件,用噪聲和文本各得到一個對應(yīng)輸出。然后由兩個輸入的加權(quán)平均得到真實噪聲,最后以權(quán)重調(diào)整文本對輸出結(jié)果的影響力。

4 圖像生成效果影響要素

生成式繪圖通過“擴(kuò)散式”模型,從數(shù)據(jù)中提取圖像的細(xì)分要素,于此模型操作者僅需理解文本提示規(guī)則,便可復(fù)制藝術(shù)家或工作室的風(fēng)格而無需拷貝他們的真實圖像。圖像生成的效果,除受基礎(chǔ)模型成熟程度的影響,還受文本描述詞與圖片尺寸/形態(tài)的制約。

4.1 文本描述詞

初嘗智能繪圖的用戶,其挫敗感多源自文本描述內(nèi)容難以駕馭或畫面美感與預(yù)期設(shè)想的不匹配。這里文本描述詞的使用門檻主要是用戶對關(guān)鍵詞輸入結(jié)構(gòu)和修飾詞語的不熟悉造成的。

如表1,案例一為純英文描述詞指向“張大千”風(fēng)格的山水畫,案例二為中英混合導(dǎo)向“吉卜力”風(fēng)格的動漫畫,案例三則趨向純中文描述的中式虛幻畫。不同語種的案例組合分別對應(yīng)中外主流智能繪圖平臺。從描述詞結(jié)構(gòu)可見,各平臺文本描述雖有差異,但總體都包含對主題內(nèi)容的期望、對畫面主題的進(jìn)一步修飾、對專業(yè)藝術(shù)家或工作室風(fēng)格的參考以及其他細(xì)節(jié)方面的修飾四個部分。

4.2 圖片尺寸與形態(tài)

除文本描述詞,尺寸與形態(tài)也對繪圖的呈現(xiàn)效果產(chǎn)生重要的影響,例如畫面的橫縱比例,場景的橫豎形態(tài)等,都對畫面效果有作用:

(1)人像類畫作類型的構(gòu)筑建議選擇1:1方圖,如若選取了豎圖或者橫圖,可能會出現(xiàn)兩個或者多個人臉疊加現(xiàn)象的,即常被社群用戶戲稱為的“買一送一”。

(2)構(gòu)建風(fēng)景、想象、山水等崇尚空間結(jié)構(gòu)的畫作類型時,優(yōu)先推薦豎圖或者橫圖。特別是計劃輸出山水畫、風(fēng)景畫與大場景的情況。

以上標(biāo)準(zhǔn)并非絕對,一名優(yōu)秀的智能藝術(shù)創(chuàng)作者可以通過多種手段駕馭尺寸的邊界,而且生成模型普遍具有意識隨機(jī)性,創(chuàng)作中時常需要經(jīng)多次迭代才能輸出令人滿意的作品。

5 人工智能圖像生成與教學(xué)適配

基礎(chǔ)教育階段人工智能課程體系并沒有具體的國家標(biāo)準(zhǔn),教材選用也沒有規(guī)范指標(biāo),因此教學(xué)內(nèi)容的選擇和目標(biāo)的確定往往取決于實施教師,所需資源也更偏向于教師自身從互聯(lián)網(wǎng)上搜索到的可用數(shù)字化材料[ 3 ]。生成式智能繪圖技術(shù)的高度話題性和充足的趣味性,為基教階段的人工智能教學(xué)帶了新情境和新入口,伴隨其發(fā)展歷程的版權(quán)爭議性與藝術(shù)性討論也為初高人工智能教學(xué)提供了遼闊的思辨空間。

5.1 智能繪圖引入教學(xué)的屬性增益

教育部《普通高中信息技術(shù)課程標(biāo)準(zhǔn)(2017年版2020年修訂)》對人工智能的學(xué)業(yè)要求中指出:“(學(xué)生能)了解人工智能的新進(jìn)展、新應(yīng)用,并能適當(dāng)運用在學(xué)習(xí)和生活中”[ 4 ];《義務(wù)教育階段信息科技課程標(biāo)準(zhǔn)(2022年版)》在第四學(xué)段(7-9年級)人工智能與智慧社會部分的教學(xué)提示中也提到:“通過對人工智能應(yīng)用的分類和分析,引導(dǎo)學(xué)生發(fā)現(xiàn)其中存在的不同實現(xiàn)方式,認(rèn)識各種實現(xiàn)方式的計算過程,了解其適用的場景”[ 5 ]。依表2,基礎(chǔ)教育階段初高信息技術(shù)(科技)課程標(biāo)準(zhǔn)皆鼓勵在人工智能教學(xué)中引入新應(yīng)用與新接口。同時,作為最具活力的信息科技前沿領(lǐng)域,人工智能技術(shù)的快速迭代本就具有即時性與顛覆性的特征。響應(yīng)時下尖端技術(shù),符合教學(xué)對象對新生事物的渴求;智能繪圖新接口的教學(xué)導(dǎo)入,即以文本描述詞對教學(xué)情境的改善或師生實踐手段的改進(jìn),也與生成圖像的隨機(jī)規(guī)則一道,為算法比重頗高的人工智能技術(shù)原理教學(xué)增添了趣味性,還為受矩陣排布和卷積計算困擾的基教師生彌補(bǔ)了因?qū)徝纻鬟f受高校專業(yè)領(lǐng)域限制而難以實施的缺憾。

5.2 智能繪圖技術(shù)的爭議性與教學(xué)實施的挑戰(zhàn)

生成式智能繪畫技術(shù),本源上是依仗海量人類藝術(shù)家的公開著作,連同基于現(xiàn)代互聯(lián)網(wǎng)“抓取”的開源畫作,萃取佳作集群的構(gòu)圖、色彩、風(fēng)格等物料進(jìn)行的“再創(chuàng)造”。該過程的知識產(chǎn)權(quán)歸屬,依所屬平臺規(guī)則的差異大相徑庭。不僅如此,“擴(kuò)散型”圖像生成過程中潛在空間形成的“黑盒”機(jī)制、于互聯(lián)網(wǎng)“抓取”元素對象的道德/法律規(guī)避案例,連同各閉源/開源平臺非公開數(shù)據(jù)集的“暗部”內(nèi)容等等,都令未成年學(xué)習(xí)者可能面對的繪畫作品充滿了不確定性。再者,以網(wǎng)絡(luò)技術(shù)為核心的網(wǎng)絡(luò)空間成為意識形態(tài)領(lǐng)域最難以預(yù)測的變量[ 6 ],結(jié)合互聯(lián)網(wǎng)偏向英語信息、偏向西方概念的特性,繪畫學(xué)習(xí)來源是否代表人群均衡權(quán)重,是否代表宏觀人類文化形態(tài)也始終存疑。以上內(nèi)容極大地擴(kuò)充了基教階段人工智能教學(xué)中的倫理討論區(qū)間,也對人工智能施教者自身“技術(shù)式敘事”與“中國化敘事”的能力提出了更高也更靈活的要求。

軟件如此,硬件亦然。以穩(wěn)態(tài)擴(kuò)散模型的開源搭建為例,其顯示芯片的高標(biāo)準(zhǔn)與最低8G的顯存需求讓現(xiàn)有基于“因材施教”與“依財適配”的校園信息化建設(shè)決策者變得局促不安。從教師與學(xué)校的視角來看,目前學(xué)校開展人工智能教學(xué)的基礎(chǔ)應(yīng)用和基礎(chǔ)支撐,都依賴于高等教育階段形成的成熟的計算機(jī)科學(xué)研究體系。而這一體系的認(rèn)知本源考察手段,對基礎(chǔ)教育階段的人工智能教學(xué)提出了過高的要求,直接將其應(yīng)用于基礎(chǔ)教育階段,不僅加劇了現(xiàn)有信息技術(shù)與信息科技教師學(xué)科專業(yè)知識和培養(yǎng)體系的不完善之間的矛盾,也導(dǎo)致了高等教育階段培養(yǎng)的智能人才與基礎(chǔ)教育階段需要的智能人才之間的錯位越來越嚴(yán)重。

總之,一味逃避上游人工智能的前沿成果,無視當(dāng)下媒體對前沿科技的恐慌解讀,回避智能教學(xué)的新情境與新領(lǐng)域并非長遠(yuǎn)之計。以一燈傳諸燈,終至萬燈皆明。智能繪圖技術(shù)的公平妙趣,使得教師在個人發(fā)展與智能教學(xué)之間有了細(xì)化的選擇,也令眾人皆能以文本統(tǒng)御機(jī)器,化解意愿與圖像之間的障礙,消弭視畫和虛擬之間的隔閡,最終引導(dǎo)人類文化合作方式的革新。

參考文獻(xiàn):

[1] 王宇昊,何彧,王鑄.基于深度學(xué)習(xí)的文本到圖像生成方法綜述[J].計算機(jī)工程與應(yīng)用,2022,58(10):50-67.

[2] 云熙.風(fēng)口上的AI繪畫:藝術(shù),還是生意?[EB/OL].https://www.ithome.com/0/650/662.htm.2022-11-02.

[3] 林昉.學(xué)習(xí)科學(xué)視域下的中小學(xué)人工智能教學(xué)資源應(yīng)用策略[J].中國信息技術(shù)教育,2022(12):35-37.

[4] 中華人民共和國教育部.普通高中信息技術(shù)課程標(biāo)準(zhǔn)(2017年版2020年修訂)[S].北京.2020:人民教育出版社.2020:28-29.

[5] 中華人民共和國教育部.義務(wù)教育課程方案和課程標(biāo)準(zhǔn)(2022年版)[S].北京.北京師范大學(xué)出版社,2022:41-42.

[6] 方旭.論新時代意識形態(tài)領(lǐng)域重大風(fēng)險的防范與化解[J].理論視野,2021(9):53-59.

秦皇岛市| 永靖县| 桑植县| 德州市| 和硕县| 泰顺县| 荥经县| 永靖县| 兰坪| 光泽县| 荣成市| 寿光市| 上高县| 巨野县| 芜湖市| 明水县| 时尚| 贵州省| 石首市| 灯塔市| 平塘县| 哈尔滨市| 佳木斯市| 三江| 合川市| 安福县| 鄯善县| 桂林市| 澎湖县| 阜宁县| 蕲春县| 陇西县| 盐城市| 黄山市| 望江县| 九江市| 江津市| 鱼台县| 和平区| 大渡口区| 富顺县|