国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖文多模態(tài)融合推理的產(chǎn)品創(chuàng)新方案設(shè)計方法研究

2024-04-23 03:45:24馬進(jìn)范明浩馬良山胡潔
包裝工程 2024年8期
關(guān)鍵詞:足球鞋產(chǎn)品設(shè)計設(shè)計方案

馬進(jìn),范明浩,馬良山,胡潔

基于圖文多模態(tài)融合推理的產(chǎn)品創(chuàng)新方案設(shè)計方法研究

馬進(jìn)1a,范明浩1a,馬良山2,胡潔1b*

(1.上海交通大學(xué) a.感知科學(xué)與工程學(xué)院 b.設(shè)計學(xué)院,上海 200240;2.上海中軟計算機(jī)系統(tǒng)工程有限公司,上海 200001)

針對當(dāng)前產(chǎn)品創(chuàng)新設(shè)計領(lǐng)域中對基于圖像-文本多模態(tài)知識支撐創(chuàng)新設(shè)計方法研究不足的問題,提出了一套基于圖文多模態(tài)的產(chǎn)品創(chuàng)新方案設(shè)計方法。首先,對設(shè)計師的設(shè)計草圖與文本要求進(jìn)行預(yù)處理,然后引入產(chǎn)品設(shè)計知識圖譜來促進(jìn)設(shè)計思維的發(fā)散和創(chuàng)新;其次,通過微調(diào)的生成式預(yù)訓(xùn)練變換器模型和擴(kuò)散模型生成產(chǎn)品方案及其概念圖;最后,利用深度多模態(tài)設(shè)計評估模型對產(chǎn)品設(shè)計方案的可行性和市場潛力進(jìn)行評估。通過產(chǎn)品設(shè)計知識圖譜,及深度多模態(tài)設(shè)計評估模型的引入,該設(shè)計流程可以生成富有創(chuàng)新性且具備可行性的產(chǎn)品方案。基于圖文多模態(tài)的產(chǎn)品創(chuàng)新方案設(shè)計流程結(jié)合了最新的深度學(xué)習(xí)技術(shù),不僅提高了設(shè)計的效率,還為設(shè)計師提供了更廣闊的創(chuàng)新視角和靈感來源。

圖文多模態(tài);深度生成模型;知識圖譜;產(chǎn)品創(chuàng)新設(shè)計

產(chǎn)品的創(chuàng)新設(shè)計是一個從發(fā)散到收斂的過程,涵蓋設(shè)計概念的生成、評價與篩選。如何生成創(chuàng)新設(shè)計解方案是產(chǎn)品創(chuàng)新設(shè)計的核心。發(fā)散性思維作為打破現(xiàn)有產(chǎn)品方案設(shè)計范式的高開放、高活躍度設(shè)計模式,能顯著提高設(shè)計的創(chuàng)新性。然而,受限于設(shè)計師經(jīng)驗(yàn)及學(xué)科背景,現(xiàn)有設(shè)計活動中難以避免地束縛著設(shè)計師創(chuàng)新設(shè)計能力的發(fā)揮[1]。因此,如何將設(shè)計師從其學(xué)科背景和認(rèn)知范圍的局限中解放出來,提升其創(chuàng)造力和想象力,實(shí)現(xiàn)高開放度、高活躍性的設(shè)計,成為當(dāng)前產(chǎn)品創(chuàng)新設(shè)計亟待解決的關(guān)鍵問題。

隨著網(wǎng)絡(luò)信息技術(shù)的不斷發(fā)展,越來越多的知識以圖像、文本和視頻等模態(tài)在互聯(lián)網(wǎng)中呈現(xiàn),這為設(shè)計師利用多學(xué)科知識打破傳統(tǒng)思維束縛奠定了知識基礎(chǔ)。而深度學(xué)習(xí)新浪潮的到來,為挖掘和利用網(wǎng)絡(luò)泛在多模態(tài)知識以獲取支持創(chuàng)新設(shè)計的有用知識、輔助設(shè)計過程的創(chuàng)造性活動、提升設(shè)計效率,以及為設(shè)計師帶來更廣闊的創(chuàng)新視角和靈感來源提供了有效工具。因此,本文將圍繞圖像、文本多模型知識在創(chuàng)新設(shè)計領(lǐng)域的應(yīng)用展開,深入探討基于圖像-文本多模態(tài)融合推理的方法以優(yōu)化產(chǎn)品創(chuàng)新方案的設(shè)計過程,從而探索支持創(chuàng)新設(shè)計方案的自動生成新方法和新思路。

1 研究現(xiàn)狀

深度學(xué)習(xí)不僅通過為設(shè)計師提供跨領(lǐng)域的多學(xué)科知識以實(shí)現(xiàn)創(chuàng)新思維激勵,也可直接作為設(shè)計概念的生成器(輔助工具)來生成創(chuàng)新設(shè)計方案,掀起了設(shè)計領(lǐng)域的技術(shù)革命。Jin等[2]通過深度學(xué)習(xí)網(wǎng)絡(luò)抽取了2013年至2017年RedDot獲獎設(shè)計的范式輔助創(chuàng)新。Deldin等[3]基于AskNature仿生設(shè)計方法實(shí)現(xiàn)了跨領(lǐng)域創(chuàng)新設(shè)計支持。Luo[4]提出的InnoGPS可抽取專利數(shù)據(jù)庫中的設(shè)計知識以支持工程領(lǐng)域的創(chuàng)新設(shè)計。Luo等[5]提出了技術(shù)語義網(wǎng)絡(luò),實(shí)現(xiàn)了根據(jù)設(shè)計目的與思維激勵之間的語義距離來尋找技術(shù)空白,從而為創(chuàng)新設(shè)計提供方向指導(dǎo)。Chakrabarti等[6]提出基于編碼的方法以實(shí)現(xiàn)設(shè)計方案的快速生成。隨著深度生成模型的誕生,AIGC(AI Generated Content)技術(shù)在產(chǎn)品創(chuàng)新設(shè)計中的應(yīng)用迅猛發(fā)展,對抗生成網(wǎng)絡(luò)(Generative Adversarial Network, GAN)、變分自編碼器(Variational Auto-Encoder,VAE)、標(biāo)準(zhǔn)化流模型(Normalization Flow,NF),以及擴(kuò)散模型(Diffusion Models,DM)等從圖像或網(wǎng)絡(luò)中學(xué)習(xí)設(shè)計知識,在視覺表現(xiàn)中以風(fēng)格遷移等方式生成新的設(shè)計方案,取得了良好的效果。Dosovitskiy等[7]提出基于卷積神經(jīng)網(wǎng)絡(luò)的椅子創(chuàng)新設(shè)計概念。Yuan等[8]提出了面向時尚產(chǎn)品設(shè)計的深度注意力對抗神經(jīng)網(wǎng)絡(luò)(Deep Attention-GAN)模型。Oh等[9]將GAN模型與拓?fù)鋬?yōu)化相結(jié)合,從而實(shí)現(xiàn)了汽車輪轂的創(chuàng)新設(shè)計。如圖1所示,以GPT(Generative Pre-trained Transformer)為代表的大語言模型與Midjourney、DALL-E 2和Disco Diffusion等深度生成模型的結(jié)合實(shí)現(xiàn)了基于文本的圖像或視頻生成[10]。Zhu等[11]、Cai等[12]與Lee等[13]都對此進(jìn)行了研究。鄧正根等[14]通過StyleGAN模型將草圖轉(zhuǎn)換為高質(zhì)量的產(chǎn)品設(shè)計方案,實(shí)現(xiàn)了基于草圖的產(chǎn)品概念圖生成方案。Zhu等[15-16]探索了基于自然語言處理技術(shù)的設(shè)計概念生成。

現(xiàn)有的、面向產(chǎn)品創(chuàng)新設(shè)計的深度學(xué)習(xí)方法研究,通常聚焦文本或圖像的單一模態(tài)知識,忽略了對圖像和文本聯(lián)合模態(tài)知識的關(guān)注。多模態(tài)技術(shù)能夠同時處理和融合多源信息,為產(chǎn)品設(shè)計提供更全面的視角。近年來,多模態(tài)融合網(wǎng)絡(luò)模型在結(jié)合圖像和文本數(shù)據(jù)特征中取得了較為不錯的成果。Verma等[17]提出了結(jié)合“需求—檢索—匹配”邏輯和風(fēng)格因果的模型,從而生成了滿足設(shè)計需求的文本-圖像模態(tài)組合。Wu等[18]擴(kuò)展了變分自動編碼器、GAN和基于流的模型以處理圖像和文本等多模態(tài)知識。Lao等[19]提出了多階段處理增強(qiáng)特征融合方法以加強(qiáng)集成視覺和文本多模態(tài)知識的混合,并嵌入融合網(wǎng)絡(luò)以提高視覺問答的準(zhǔn)確性和魯棒性。OpenAI提出的Sora模型能夠?qū)崿F(xiàn)從一段話生成一段視頻?,F(xiàn)有的基于多模態(tài)的創(chuàng)新設(shè)計模型研究雖已取得了較大進(jìn)展,能夠在一定程度上理解設(shè)計師的需求表達(dá),并拓展創(chuàng)新設(shè)計解的方案集合,創(chuàng)造出符合設(shè)計師設(shè)想的產(chǎn)品設(shè)計方案,但在輔助推理過程和設(shè)計方案可解釋性等方面仍然面臨著圖文多模態(tài)匹配知識規(guī)模小、缺乏圖文多模態(tài)一致性知識表示模型等挑戰(zhàn)。

為此,本文提出了基于圖文多模態(tài)融合推理的、從“創(chuàng)新設(shè)計需求—設(shè)計方案發(fā)散生成—方案評估”的產(chǎn)品方案創(chuàng)新設(shè)計方法。設(shè)計過程首先對設(shè)計師的設(shè)計草圖與文本要求進(jìn)行預(yù)處理,然后引入產(chǎn)品設(shè)計知識圖譜來促進(jìn)設(shè)計思維的發(fā)散和創(chuàng)新;其次,通過微調(diào)的生成式預(yù)訓(xùn)練變換器模型和擴(kuò)散模型實(shí)現(xiàn)產(chǎn)品方案及其概念圖的生成;最后,利用深度多模態(tài)設(shè)計評估模型對產(chǎn)品設(shè)計方案的可行性和市場潛力進(jìn)行評估,并引入產(chǎn)品設(shè)計知識圖譜來促進(jìn)設(shè)計思維的發(fā)散和創(chuàng)新。最后,利用深度多模態(tài)設(shè)計評估模型對產(chǎn)品設(shè)計方案的可行性和市場潛力進(jìn)行評估。其中,知識圖譜(Knowledge Graph)通過構(gòu)建網(wǎng)狀知識結(jié)構(gòu),高質(zhì)量、結(jié)構(gòu)化地表達(dá)設(shè)計知識中各類實(shí)體、概念及其之間的語義關(guān)系。通過實(shí)體嵌入(Entity Embedding)和關(guān)系嵌入(Relation Embedding)的知識表征學(xué)習(xí)方法將實(shí)體和關(guān)系映射到低維空間,利用蘊(yùn)含于知識圖譜中的設(shè)計實(shí)例對深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練以提升模型的性能,實(shí)現(xiàn)各種知識的推理和應(yīng)用,解決創(chuàng)新設(shè)計活動中的可解釋性問題,輔助設(shè)計師對設(shè)計概念發(fā)散過程的掌握,從而生成更具創(chuàng)新性的產(chǎn)品設(shè)計方案。而在知識圖譜的搭建上,引入基于空間域的圖注意力網(wǎng)絡(luò)(Graph Attention Networks,GAT)[20],其通過注意力機(jī)制(Attention Mechanism)實(shí)現(xiàn)相鄰節(jié)點(diǎn)聚合操作和權(quán)值自適應(yīng)分配,支持圖結(jié)構(gòu)設(shè)計知識更高效、準(zhǔn)確地建模。擴(kuò)散模型通過其強(qiáng)大的生成能力,以確保在圖像和文本模態(tài)知識生成任務(wù)中所輸出創(chuàng)新設(shè)計方案的多樣性和真實(shí)性。由于擴(kuò)散模型在生成過程中對設(shè)計范式有更深入的理解,在生成細(xì)節(jié)上表現(xiàn)出更高的精確度,能夠更好地捕捉和模仿復(fù)雜的創(chuàng)新設(shè)計方案分布。

2 多模態(tài)融合推理產(chǎn)品創(chuàng)新方案設(shè)計流程

如圖2所示,基于圖文多模態(tài)融合推理的產(chǎn)品創(chuàng)新方案設(shè)計流程可以分為:設(shè)計要求輸入、產(chǎn)品特征提取、知識圖譜發(fā)散、產(chǎn)品方案生成、產(chǎn)品方案評估五個部分。

2.1 設(shè)計需要輸入層

一個產(chǎn)品設(shè)計的成功與否是由市場決定的。因此,設(shè)計師需要對產(chǎn)品進(jìn)行市場調(diào)研,了解產(chǎn)品用戶的需求,對所設(shè)計的產(chǎn)品進(jìn)行初步定位,再結(jié)合設(shè)計師自己的靈感,最終給出產(chǎn)品設(shè)計的文本要求與草圖,作為整個基于圖文多模態(tài)的產(chǎn)品創(chuàng)新方案設(shè)計流程的輸入。

圖2 多模態(tài)融合推理產(chǎn)品創(chuàng)新方案設(shè)計流程

2.2 產(chǎn)品特征提取層

在設(shè)計師將產(chǎn)品設(shè)計需求以文本和草圖的形式輸入后,需要從其中提取出產(chǎn)品的名稱、樣式、功能、風(fēng)格等特征的描述。如圖3所示,設(shè)計草圖的產(chǎn)品特征提取可以使用基于深度學(xué)習(xí)的圖像描述(Image Captioning)模型來對圖像內(nèi)容生成描述性文字。該模型由特征提取器和序列模型兩部分組成,特征提取器是通過產(chǎn)品草圖數(shù)據(jù)集訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò)來對設(shè)計草圖進(jìn)行特征提取。這里的卷積神經(jīng)網(wǎng)絡(luò)需要在特定的設(shè)計草圖數(shù)據(jù)集上微調(diào)以更好地適應(yīng)設(shè)計領(lǐng)域的視覺特征。序列模型則采用帶有注意力機(jī)制的長短期記憶網(wǎng)絡(luò)(Long Short-term memory,LSTM)對提取的視覺特征進(jìn)行處理并生成與圖像內(nèi)容相匹配的描述性文本。這種基于圖像的反饋可以幫助設(shè)計師捕捉其在最初的文本描述中可能遺漏或未能充分表達(dá)的設(shè)計細(xì)節(jié)和元素,與文本形式的設(shè)計需求相互補(bǔ)充,從而提高設(shè)計的全面性和創(chuàng)新性。

通過圖像描述可以將設(shè)計師的草圖轉(zhuǎn)化為與圖像內(nèi)容相匹配的描述性文本,將轉(zhuǎn)換的文本與輸入的文本信息進(jìn)行綜合,其中重復(fù)的文本信息為產(chǎn)品的重要特征需求,其余的作為產(chǎn)品的次要特征需要。而關(guān)于產(chǎn)品的描述性文本則可以通過微調(diào)的生成預(yù)訓(xùn)練變換器模型對其中產(chǎn)品的性質(zhì)特征關(guān)鍵詞進(jìn)行提取,例如產(chǎn)品的顏色、樣式,風(fēng)格,功能等。首先需要收集一定量的產(chǎn)品描述性文本數(shù)據(jù),這些數(shù)據(jù)可以來自產(chǎn)品手冊、設(shè)計網(wǎng)站、用戶評論等。通過人工標(biāo)注識別文本中對產(chǎn)品特征描述的關(guān)鍵詞,然后選擇一個適合的預(yù)訓(xùn)練變換器模型,用標(biāo)注好的數(shù)據(jù)集對模型進(jìn)行微調(diào),設(shè)置適當(dāng)?shù)膶W(xué)習(xí)率、批次大小、迭代次數(shù)等。

圖3 圖像描述模型

2.3 知識圖譜發(fā)散層

為了解決在產(chǎn)品設(shè)計過程中多樣性和整體創(chuàng)新性受到限制的問題,本文引入了設(shè)計概念知識圖譜。設(shè)計概念知識圖譜的搭建一共分為四步(如圖4 所示)。

首先是搭建產(chǎn)品設(shè)計數(shù)據(jù)庫,豐富的產(chǎn)品設(shè)計數(shù)據(jù)是構(gòu)建設(shè)計概念知識圖譜的基礎(chǔ),數(shù)據(jù)來源一般來自設(shè)計類網(wǎng)站、現(xiàn)有的產(chǎn)品數(shù)據(jù)庫,以及一些設(shè)計概念比賽等。在收集到數(shù)據(jù)后,需要對其進(jìn)行清洗和標(biāo)準(zhǔn)化,包括去除噪聲數(shù)據(jù)、格式統(tǒng)一、錯誤糾正等,以確保數(shù)據(jù)的質(zhì)量和一致性。

搭建好產(chǎn)品設(shè)計數(shù)據(jù)庫后,就要對數(shù)據(jù)庫中設(shè)計產(chǎn)品的特征實(shí)體進(jìn)行識別,如產(chǎn)品的顏色、形狀、圖案、風(fēng)格等,需要通過微調(diào)的生成預(yù)訓(xùn)練變換器模型實(shí)現(xiàn)。

關(guān)系提取是構(gòu)建設(shè)計概念知識的核心,即提取實(shí)體之間的各種關(guān)系。實(shí)體之間的關(guān)系可以構(gòu)成一個圖結(jié)構(gòu),其中實(shí)體作為節(jié)點(diǎn)、關(guān)系作為邊,通過圖注意力網(wǎng)絡(luò)來學(xué)習(xí)這些實(shí)體和關(guān)系的復(fù)雜模式,對其實(shí)體節(jié)點(diǎn)進(jìn)行分類,預(yù)測可能存在的、未觀察到的關(guān)系,識別和添加遺漏的信息,從而提高知識圖譜的質(zhì)量和完整性。

最后將提取的實(shí)體和關(guān)系整合到統(tǒng)一的框架中,構(gòu)建出結(jié)構(gòu)化的知識圖譜,并選擇合適的存儲系統(tǒng)來保存知識圖譜。將不同類型的設(shè)計相關(guān)數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫中。關(guān)系數(shù)據(jù)庫由于其結(jié)構(gòu)格式而存儲集成數(shù)據(jù)。NoSQL數(shù)據(jù)庫以基于圖的形式存儲所提取的知識,其中節(jié)點(diǎn)表示實(shí)體、邊代表其關(guān)系。

在基于圖文多模態(tài)的產(chǎn)品創(chuàng)新方案設(shè)計流程中,將產(chǎn)品設(shè)計需求的特征關(guān)鍵詞放入設(shè)計概念知識圖譜中進(jìn)行檢索,并根據(jù)產(chǎn)品創(chuàng)新性需求進(jìn)行不同程度的發(fā)散,找到其中與特征關(guān)鍵詞有關(guān)聯(lián)的實(shí)體作為產(chǎn)品方案生成的參考與依據(jù)。

2.4 產(chǎn)品方案生成層

產(chǎn)品方案生成層主要采用條件擴(kuò)散模型(Con-di-tional Diffusion Model)逐步引入隨機(jī)噪聲到圖像或文本模態(tài)設(shè)計知識中,然后通過相應(yīng)的逆過程來重構(gòu)知識,從而達(dá)到根據(jù)設(shè)計需求生成特定類型的方案輸出這一目的。在基于文本描述的圖像生成任務(wù)中,模型會利用文本信息作為條件,生成與文本描述相符的圖像。

圖4 設(shè)計概念知識圖譜搭建流程

根據(jù)知識圖譜檢索與發(fā)散的結(jié)果,使用預(yù)訓(xùn)練變換器模型生成產(chǎn)品的設(shè)計方案,一個完整的產(chǎn)品設(shè)計方案應(yīng)包括產(chǎn)品概述、設(shè)計理念、產(chǎn)品規(guī)格、技術(shù)方案、成本預(yù)算等部分。然后根據(jù)設(shè)計方案并結(jié)合設(shè)計草圖,使用文本到圖像擴(kuò)散模型(eDiff-I)[21]來生成產(chǎn)品的設(shè)計概念圖。

2.5 產(chǎn)品方案評估層

深度多模態(tài)設(shè)計評估模型(Deep Multimodal Design Evaluation,DMDE)[22]是一種先進(jìn)的評估工具,可以用于分析和理解歷史設(shè)計數(shù)據(jù)中的視覺、功能特征、產(chǎn)品的可行性,以及目標(biāo)用戶之間的關(guān)系。通過DMDE對生成的產(chǎn)品設(shè)計方案來進(jìn)行評估,其過程如下。

1)利用在ImageNet數(shù)據(jù)集上對深度學(xué)習(xí)模型進(jìn)行預(yù)先訓(xùn)練并在專用產(chǎn)品數(shù)據(jù)集上通過微調(diào)的ResNet-50網(wǎng)絡(luò)來處理產(chǎn)品的正交視圖圖像。同時使用經(jīng)過大型產(chǎn)品描述數(shù)據(jù)集微調(diào)的基于變換器的雙向編碼器表示技術(shù)(Bidirectional Encoder Representations from Transformers,BERT)模型來分析文本產(chǎn)品描述,并通過自注意機(jī)制對圖像文本模態(tài)知識進(jìn)行對齊和融合。

2)利用訓(xùn)練好的網(wǎng)絡(luò)對設(shè)計方案的實(shí)用性進(jìn)行初步評估,包括材料選擇、成本估算和制造工藝的可行性。根據(jù)生成的產(chǎn)品設(shè)計方案風(fēng)格,從年齡、性別等層面分析其所面向的目標(biāo)消費(fèi)群體,確保設(shè)計方案的市場競爭力。此外,模型還會對設(shè)計方案的市場潛力進(jìn)行預(yù)測,評估可能的市場接受度和銷售前景。

3)通過綜合所有評估結(jié)果,對設(shè)計方案進(jìn)行打分,將實(shí)用性不足的方案篩除。設(shè)計師可以根據(jù)評估結(jié)果對生成的產(chǎn)品設(shè)計方案進(jìn)行選擇,或者重復(fù)上述過程對方案進(jìn)行不斷的迭代與優(yōu)化,最終得到可行性高、市場競爭力強(qiáng)的產(chǎn)品設(shè)計方案。

在概念開發(fā)過程中,深度多模態(tài)設(shè)計評估模型為設(shè)計師提供了一個數(shù)據(jù)驅(qū)動循環(huán),在概念評估階段提供更為直觀的參考。這一循環(huán)被集成到概念開發(fā)流程中,形成了一個自動化、迭代的設(shè)計評估周期,從而為設(shè)計團(tuán)隊在概念選擇和優(yōu)化過程中提供了數(shù)據(jù)支持。

3 實(shí)驗(yàn)驗(yàn)證——基于圖文多模態(tài)的足球鞋方案設(shè)計

為驗(yàn)證方法有效性,以足球鞋的方案設(shè)計為案例對上述基于圖文多模態(tài)的產(chǎn)品創(chuàng)新方案設(shè)計流程進(jìn)行展示。如圖5所示,完整設(shè)計流程描述如下。

1)在設(shè)計需求的輸入部分,設(shè)計師打算設(shè)計一款中高幫的控球型足球鞋。通過市場調(diào)研后,計劃以龍年限定作為特點(diǎn),產(chǎn)品用戶對象為東亞足球愛好者,因此可以填寫文本信息“設(shè)計一款龍年限定版足球鞋,中高幫,控球型,適合東亞人的足型,AG鞋釘”,并附上設(shè)計草圖。

圖5 基于圖文多模態(tài)的足球鞋方案設(shè)計

2)對輸入的文本和圖像進(jìn)行產(chǎn)品特征實(shí)體的提取。首先用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)對草圖中的元素進(jìn)行識別,然后用帶有注意力機(jī)制的長短期記憶網(wǎng)絡(luò)生成與草圖內(nèi)容相匹配的描述性文本“一雙帶有龍圖案的中高幫AG足球鞋”。隨后,通過微調(diào)的生成預(yù)訓(xùn)練變換器模型對兩部分的文本信息進(jìn)行處理,以“實(shí)體-關(guān)系-實(shí)體”三元組的形式提取其中描述產(chǎn)品特征的實(shí)體與關(guān)系,例如“足球鞋-圖案-龍”。

3)將所提取的、描述產(chǎn)品特征的實(shí)體與關(guān)系放入知識譜圖中進(jìn)行發(fā)散。足球鞋設(shè)計知識圖譜的搭建需要先收集有關(guān)足球鞋設(shè)計的數(shù)據(jù)庫。數(shù)據(jù)主要來自足球鞋網(wǎng)站及開源的數(shù)據(jù)庫(如圖6所示),例如Football Boots Database中有4 694款足球鞋的名稱、材質(zhì)、顏色、價格等數(shù)據(jù)。在對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整理后,通過圖注意力網(wǎng)絡(luò)來學(xué)習(xí)其中實(shí)體和關(guān)系的復(fù)雜模式,然后使用訓(xùn)練好的網(wǎng)絡(luò)對其他實(shí)體節(jié)點(diǎn)進(jìn)行分類,并對可能存在的關(guān)系進(jìn)行預(yù)測、識別與添加,最后整合為可檢索的知識圖譜。對上個步驟中得到的實(shí)體與關(guān)系進(jìn)行運(yùn)用,在知識圖譜中檢索對應(yīng)的足球鞋數(shù)據(jù)并以圖的形式進(jìn)行發(fā)散,作為設(shè)計方案生成的參考與依據(jù)。

4)根據(jù)知識圖譜發(fā)散的結(jié)果生成滿足設(shè)計要求的足球鞋方案。首先選用需要選擇一個預(yù)訓(xùn)練的GPT模型為基礎(chǔ),然后將上一步驟知識圖譜發(fā)散的結(jié)果作為知識庫對GPT模型進(jìn)行微調(diào),并用微調(diào)后的模型生成足球鞋設(shè)計方案,包括產(chǎn)品概述、設(shè)計理念、產(chǎn)品規(guī)格、技術(shù)方案、成本預(yù)算、市場推廣計劃,以及風(fēng)險評估和應(yīng)對策略。隨后,以設(shè)計師的草圖作為基準(zhǔn)圖,根據(jù)文本方案,并利用文本到圖像擴(kuò)散模型(eDiff-I)生成產(chǎn)品的設(shè)計概念圖。

5)利用深度多模態(tài)設(shè)計評估模型對生成的產(chǎn)品設(shè)計方案進(jìn)行評估。首先爬取網(wǎng)絡(luò)商城和足球鞋論壇上使用者對不同足球鞋的評論,然后對評論信息數(shù)據(jù)進(jìn)行清洗與預(yù)處理,構(gòu)建足球鞋評估反饋數(shù)據(jù)集。然后使用構(gòu)建的數(shù)據(jù)集對在ImageNet上預(yù)訓(xùn)練的ResNet-50模型進(jìn)行訓(xùn)練,并使用數(shù)據(jù)集微調(diào)后的BERT模型來分析文本產(chǎn)品描述,對產(chǎn)品可行性與市場潛力進(jìn)行評估,兩部分通過自注意力模塊進(jìn)行特征融合。將上個步驟生成的產(chǎn)品方案與概念圖放入評估模型中,給出足球鞋設(shè)計方案的可行性分析與市場分析并綜合所有評估結(jié)果對其進(jìn)行打分。設(shè)計師可以根據(jù)評估結(jié)果修改輸入的設(shè)計要求,重復(fù)步驟二至步驟四,迭代生成新的設(shè)計方案。

圖6 足球鞋數(shù)據(jù)庫

通過對比實(shí)驗(yàn)來驗(yàn)證本文提出的、基于圖文多模態(tài)融合推理的產(chǎn)品創(chuàng)新方案設(shè)計方法相比于傳統(tǒng)的單一模態(tài)方法的有效性和優(yōu)越性。實(shí)驗(yàn)過程針對同一設(shè)計任務(wù)設(shè)置了三組實(shí)驗(yàn):(1)采用本文的圖文多模態(tài)融合推理方法生成足球鞋設(shè)計方案;(2)僅利用自然語言處理技術(shù)生成足球鞋設(shè)計方案;(3)僅利用圖像處理技術(shù)生成足球鞋設(shè)計方案。如圖7所示,最直觀地通過比較上述三種方法所生成的足球鞋產(chǎn)品概念圖,可以發(fā)現(xiàn)僅基于利用自然語言處理技術(shù)生成的足球鞋設(shè)計方案雖然包括了文本中設(shè)計要求的元素,但龍年限定的特點(diǎn)并沒有按照設(shè)計師所設(shè)想的以鞋身側(cè)面的龍圖案進(jìn)行表達(dá)。而僅用圖像處理技術(shù)生成的足球鞋設(shè)計方案由于圖像信息的模糊性導(dǎo)致生成的產(chǎn)品概念圖完全偏離設(shè)計師的設(shè)計要求。相比之下,圖文多模態(tài)融合推理方法能夠更好地捕捉和融合來自圖像和文本的信息,并生成更貼合設(shè)計需求的創(chuàng)新方案,而且在設(shè)計效率和用戶滿意度等方面也表現(xiàn)出明顯的優(yōu)勢。

總而言之,基于圖文多模態(tài)的產(chǎn)品創(chuàng)新方案設(shè)計流程不僅包括了從初始想法到具體設(shè)計方案的生成,還涵蓋了對設(shè)計方案的全面評估和優(yōu)化,在確保設(shè)計可實(shí)現(xiàn)性的同時,滿足市場需求。通過這種綜合性和系統(tǒng)性的設(shè)計流程,可以為產(chǎn)品設(shè)計領(lǐng)域帶來新的變革,使得設(shè)計過程更加智能化、高效化,同時也更加貼近用戶和市場的真實(shí)需求。這種流程有望推動產(chǎn)品設(shè)計領(lǐng)域向更高水平的發(fā)展,為創(chuàng)新設(shè)計提供強(qiáng)有力的技術(shù)支持。

圖7 本文方法與傳統(tǒng)單一模態(tài)方法的對比

4 結(jié)語

本研究提出了基于圖文多模態(tài)融合推理的產(chǎn)品創(chuàng)新方案設(shè)計流程,通過結(jié)合圖像和文本的多模態(tài)知識,利用最新的深度學(xué)習(xí)技術(shù),包括圖像描述生成模型、設(shè)計概念知識圖譜、圖注意力網(wǎng)絡(luò)、生成式預(yù)訓(xùn)練變換器模型、擴(kuò)散模型,以及深度多模態(tài)設(shè)計評估模型,構(gòu)成了一個完整的產(chǎn)品創(chuàng)新設(shè)計流程,涵蓋產(chǎn)品設(shè)計從概念生成到最終評估的全過程,解決了當(dāng)前在深度學(xué)習(xí)輔助的產(chǎn)品設(shè)計領(lǐng)域中出現(xiàn)的創(chuàng)新性和可實(shí)現(xiàn)性方面的問題,使生成的設(shè)計方案既新穎又可行。這一方法不僅提高了設(shè)計的效率和靈活性,還為設(shè)計師提供了豐富的創(chuàng)新靈感和視角?;趫D文多模態(tài)的產(chǎn)品創(chuàng)新方案設(shè)計方法為產(chǎn)品設(shè)計領(lǐng)域帶來了新的思維方式和工具。這種方法不僅使設(shè)計過程更加智能化和高效,還增強(qiáng)了設(shè)計方案的創(chuàng)新性和市場競爭力。隨著深度學(xué)習(xí)和多模態(tài)數(shù)據(jù)融合方法的不斷發(fā)展,未來這種方法將在設(shè)計領(lǐng)域發(fā)揮更大的作用,推動設(shè)計實(shí)踐的進(jìn)一步革新。

[1] VISWANATHAN V, TOMKO M, LINSEY J. A Study on the Effects of Example Familiarity and Modality on Design Fixation[J]. Artificial Intelligence for Engineering Design And Manufacturing, 2016, 30(2): 171-184.

[2] JIN X, DONG H. New Design Heuristics in the Digital Era[C]// Proceedings of the Design Society: Design Conference. Cambridge: Cambridge University Press, 2020: 607-616.

[3] DELDIN J M, SCHUKNECHT M. The AskNature Database: Enabling Solutions in Biomimetic Design[M]. London: Springer London, 2013: 17-27.

[4] LUO J. Data-driven Innovation: What is It?[J]. IEEE Transactions on Engineering Management, 2022, 70(2): 784-790.

[5] LUO J, SARICA S, WOOD K L. Guiding Data-driven Design Ideation by Knowledge Distance[J]. Knowledge-based Systems, 2021, 218: 106873.

[6] CHAKRABARTI A, SHEA K, STONES R, et al. Computer-based Design Synthesis Research: An Overview [J]. Journal of Computer Information Science and Engineering, 2011, 11(2): 021003.

[7] DOSOVITSKIY A, TOBIAS S J, BROX T. Learning to Generate Chairs with Convolutional Neural Networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 1538-1546.

[8] YUAN C, MOGHADDAM M. Attribute-aware Generative Design with Generative Adversarial Networks[J]. IEEE Access, 2020, 8: 190710-190721.

[9] OH S, JUNG Y, LEE I, et al. Design Automation by Integrating Generative Adversarial Networks and Topology Optimization[C]// ASME International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. Berlin: ASME, 2018: 51753.

[10] BRISCO R, HAY L, DHAMI S. Exploring the Role of Text-to-image AI in Concept Generation[C]// Proceedings of the Design Society. London: Design Society, 2023: 1835-1844.

[11] ZHU Q, ZHANG X, LUO J. Biologically Inspired Design Concept Generation Using Generative Pre-trained Transformers[J]. Journal of Mechanical Design, 2023, 145(4): 041409.

[12] CAI A, RICK S R, HEYMAN J L, et al. DesignAID: Using Generative AI and Semantic Diversity for Design Inspiration[C]// Proceedings of the ACM Collective Intelligence Conference. Delft: ACM, 2023: 1-11.

[13] LEE Y H, CHIU C Y. The Impact of AI Text-to-image Generator on Product Styling Design[C]// International Conference on Human-computer Interaction. Cham: Springer Nature Switzerland, 2023: 502-515.

[14] 鄧正根, 呂健, 劉翔, 等. 基于StyleGAN的草圖生成產(chǎn)品設(shè)計效果圖方法研究[J]. 包裝工程, 2023, 44(6): 188-195.DENG Z, LYU J, LIU X, et al. StyleGAN-based Sketch Generation Method for Product Design Renderings[J]. Packaging Engineering, 2023, 44(6): 188-195.

[15] ZHU Q, LUO J. Generative Pre-trained Transformer for Design Concept Generation: an Exploration[C]// Procee-dings of the Design Society. London: Design Society, 2022: 1825-1834.

[16] ZHU Q, LUO J. Generative Transformers for Design Concept Generation[J]. Journal of Computing and Information Science in Engineering, 2023, 23(4): 041003.

[17] VERMA G, BV S, SHARMA S, et al. Generating Need-adapted Multimodal Fragments[C]// Proceedings of the 25th International Conference on Intelligent User Interfaces. Cagliari: ACM, 2020: 335-346.

[18] WU M, GOODMAN N. Multimodal Generative Models for Scalable Weakly-supervised Learning[J]. Advances inNeural Information Processing Systems, 2018, 31: 21-43.

[19] LAO M, GUO Y, PU N, et al. Multi-stage Hybrid Embedding Fusion Network for Visual Question Answering[J]. Neurocomputing, 2021, 423: 541-550.

[20] VELICKOVIC P, CUCURULL G, CASANOVA A, et al. Graph Attention Networks[J]. STAT, 2017, 10(20): 10-48.

[21] JIN Z, SHEN X, LI B, et al. Training-free Diffusion Model Adaptation for Variable-sized Text-to-image Synthesis [J]. Advances in Neural Information Processing Systems, 2024, 36:31-49.

[22] YUAN C. Deep Neural Network Architectures for User- centered Design Concept Generation and Evaluation[D]. Shenyang: Northeastern University, 2022.

Innovative Product Design Schemes Based on Image-text Multi-modal Fusion Reasoning

MA Jin1a, FAN Minghao1a, MA Liangshan2, HU Jie1b*

(1. a. School of Sensing Science and Technology b. School of Design, Shanghai Jiao Tong University, Shanghai 200240, China; 2. Shanghai China Software Computer Systems Engineering Co., Ltd., Shanghai 200001, China)

The work aims to propose a novel multi-modal process which integrates both image and text elements for innovative product design to address the issue of insufficient innovation and feasibility in product design schemes within the field of AI-assisted product design. The work begins with preprocessing the designer's sketches and textual requirements, followed by the incorporation of a product design knowledge graph to facilitate divergent thinking and innovation. Subsequently, a fine-tuned generative pre-trained Transformer model and a diffusion model were employed to generate product schemes and their conceptual diagrams. Finally, a deep multi-modal design assessment model was adopted to evaluate the feasibility and market potential of the product design schemes. The results indicated that the introduction of the product design knowledge graph and the deep multi-modal design assessment model enabled the generation of innovative product schemes that also possessed feasibility. In conclusion, this multi-modal approach to innovative product scheme design, leveraging cutting-edge AI and deep learning technologies, not only enhances design efficiency but also provides designers with a broader perspective for innovation and inspiration sources.

multi-modal image and text; deep generative models; knowledge graph; innovative product design

TB472

A

1001-3563(2024)08-0021-08

10.19554/j.cnki.1001-3563.2024.08.003

2023-11-10

國家自然科學(xué)基金面上(52375254);上海交通大學(xué)醫(yī)工交叉項(xiàng)目(21X010301670)

通信作者

猜你喜歡
足球鞋產(chǎn)品設(shè)計設(shè)計方案
基于可持續(xù)理念舊建筑改造設(shè)計方案探討
智能產(chǎn)品設(shè)計
包裝工程(2022年12期)2022-07-04 03:05:42
如果十次考滿分
《冷·暖》
中國寶玉石(2020年4期)2020-09-23 07:52:10
《教堂之夜》
中國寶玉石(2020年4期)2020-09-23 07:51:36
數(shù)據(jù)中心ECC設(shè)計方案研究
Nike Mercurial Superfly“What the Mercurial”
足球周刊(2016年11期)2016-10-09 20:51:27
高壓電力系統(tǒng)規(guī)劃設(shè)計方案探討
電子制作(2016年21期)2016-05-17 03:53:23
美津濃Morelia Neo KL AG足球鞋
LESS IS MORE:極簡主義的產(chǎn)品設(shè)計
沙田区| 鹤峰县| 高邮市| 泾阳县| 邵武市| 衡阳县| 宣恩县| 新巴尔虎左旗| 上犹县| 汝南县| 青浦区| 沧源| 龙岩市| 封开县| 苗栗县| 淄博市| 城固县| 香港 | 霍州市| 贞丰县| 贵德县| 通榆县| 黄浦区| 房山区| 元朗区| 湘潭市| 山西省| 子长县| 攀枝花市| 大荔县| 缙云县| 泽普县| 敦化市| 江津市| 乌拉特中旗| 堆龙德庆县| 长葛市| 澄城县| 中宁县| 阿克苏市| 鄂伦春自治旗|