国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移實現(xiàn)與開發(fā)

2021-05-28 12:38:08郭穎王佳新
現(xiàn)代計算機 2021年10期
關(guān)鍵詞:卷積界面神經(jīng)網(wǎng)絡(luò)

郭穎,王佳新

(北方工業(yè)大學(xué)信息學(xué)院,北京100144)

0 引言

在神經(jīng)網(wǎng)絡(luò)之前,圖像風(fēng)格遷移的程序有一個共同的思路:分析某一種風(fēng)格的圖像,建立一個數(shù)學(xué)或者統(tǒng)計模型,再改變要做遷移的圖像讓它能更好地符合建立的模型。此類方法的缺點是:一個程序基本只能做某一種風(fēng)格或者某一個場景,從而導(dǎo)致了基于傳統(tǒng)風(fēng)格遷移研究的局限性。2006年起,深度學(xué)習(xí)之父Hinton掀起了AI浪潮,至今仍是學(xué)術(shù)界與工業(yè)界的研究熱點。對于圖像風(fēng)格遷移這一課題,Gatys等人[1]提出了如下思路:使用卷積神經(jīng)網(wǎng)絡(luò)有效分離圖像的內(nèi)容特征和圖像的風(fēng)格特征。一方面對于內(nèi)容特征來說,模型通過預(yù)訓(xùn)練的VGG[2]模型提取其特征表示。另一方面對于風(fēng)格特征來說,同樣通過預(yù)訓(xùn)練的VGG[2]模型提取其特征表示,其次在其特性圖上計算格拉姆矩陣,從而建模其風(fēng)格表示。輸入任意一張隨機噪聲圖,可通過梯度下降法不斷迭代改變圖像的像素值,目標(biāo)是其內(nèi)容表示接近于內(nèi)容圖片的內(nèi)容,其風(fēng)格表示接近于風(fēng)格圖片的風(fēng)格。也就是說,通過不斷學(xué)習(xí)減小內(nèi)容損失和風(fēng)格損失,即可實現(xiàn)內(nèi)容和風(fēng)格的合成圖像,從而達到“風(fēng)格遷移”的目的。本文主要采用VGG19[3]分類網(wǎng)絡(luò),來實現(xiàn)圖像風(fēng)格遷移。

1 深度風(fēng)格遷移模型介紹

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文采用VGG網(wǎng)絡(luò)結(jié)構(gòu)。同AlexNet[4]相比,VGG采用連續(xù)多層的3×3卷積核來代替AlexNet中的(11×11、7×7、5×5)等較大卷積核。多層非線性層可以增加網(wǎng)絡(luò)深度,從而能夠?qū)W習(xí)到更復(fù)雜的模式,并且代價相對更小。對于給定的與輸出有關(guān)的輸入圖片的局部大小,采用連續(xù)多層的小卷積核效果強于采用單一大的卷積核。在VGG中,使用3個3×3卷積核來代替7×7卷積核,使用2個3×3卷積核來代替5×5卷積核,這樣做可以保證具有相同的與輸出有關(guān)的輸入圖片的局部大小的條件下,增加網(wǎng)絡(luò)的深度,捕捉更深層次的特征,在一定程度上提升神經(jīng)網(wǎng)絡(luò)的效果。VGG有VGG16和VGG19兩種結(jié)構(gòu),兩者本質(zhì)上并沒有區(qū)別,只是網(wǎng)絡(luò)深度不一樣。VGG16包含了16個隱藏層(13個卷積層和3個全連接層),VGG19包含了19個隱藏層(16個卷積層和3個全連接層)。VGG網(wǎng)絡(luò)的結(jié)構(gòu)非常一致,每一層都是使用的3×3的卷積和2×2的max pooling。此外,和原始分類網(wǎng)絡(luò)相比,本文的VGG將max pooling換成了average pooling,略微提升結(jié)果視效。

1.2 圖像內(nèi)容提取

卷積神經(jīng)網(wǎng)絡(luò)[5-6]中的每一層都定義了一個非線性的過濾器組,其復(fù)雜性會隨著在網(wǎng)絡(luò)中所在層的位置而改變。所以一個給定的輸入圖片→x在VGG19網(wǎng)絡(luò)的每一層的編碼的過濾器是響應(yīng)圖片的。一個有Ni個不同的過濾器的層有Ni個特征圖譜,每個圖譜的大小Mi,Mi是特征圖譜的長與寬的乘積。所以對于層L的響應(yīng)可以被存儲在矩陣中Fi中,F(xiàn)i,j表示第i個過濾器在層L中的第j個位置的激活。為了可視化由不同層次編碼的圖片信息,采用對一個白噪聲圖片進行坡度下降來找到另外一張可以匹配原圖的特征反應(yīng)的圖片。代表初始圖像[11],代表處理后新的圖像,令Fl和Pl分別是在l層中的特征表示。所以,二者間的殘差平方和損失函數(shù)[8]為:

此函數(shù)表示對于提取內(nèi)容的圖片p,將該位置所代表的內(nèi)容表示P,通過構(gòu)造使得p在應(yīng)位置的特征無限趨近于P,最終達到內(nèi)容損失函數(shù)的最小結(jié)果。其倒數(shù)為:

任取一張圖像X0,將其輸入上述分類網(wǎng)絡(luò)。其第l個卷積層的響應(yīng)記為Xl,其尺寸是Hl×Wl×Nl。對于目標(biāo)圖像,同樣送入該網(wǎng)絡(luò),可以得到該層響應(yīng)。

若希望X0和內(nèi)容相似,可以最小化如下二范數(shù)誤差:

這一誤差可以對本層響應(yīng)的每一元素求導(dǎo):

進一步,利用鏈?zhǔn)椒▌t,可以求得誤差對輸入圖像每一元素的導(dǎo)數(shù)。這一步驟就是神經(jīng)網(wǎng)絡(luò)經(jīng)典的back-propagation方法。

1.3 圖像風(fēng)格提取

為從風(fēng)格圖像中得到想要的風(fēng)格,使用固定的紋理信息空間來顯示風(fēng)格。該特征空間可以建立在任何卷積神經(jīng)網(wǎng)絡(luò)水平上處理的過濾器出口上,期望是接辦輸入圖的空間擴展。這些特征間的相互聯(lián)系是由Gram矩陣計算的,其中Gli,j是向量化特征圖譜i和j在層l上的內(nèi)積:

為了生成一個匹配給定圖片的紋理,從一個白噪聲圖梯度下降,找到一張與原始圖片的風(fēng)格匹配的圖片。這是通過最小化原始圖片的Gram矩陣和待生成圖片的Gram矩陣之間的平均方差做到的。→代表原始圖像,→x代表生成的新圖像,Al代表1層的風(fēng)格,Gl代表l層相對于總體的損失所占的比率,為:

總風(fēng)格損失函數(shù)是:

先引入一個Nl×Nl的特征矩陣Gl:

Gl由第l層的響應(yīng)計算得出,消除了響應(yīng)的位置信息,可以看做是對風(fēng)格的描述。i,j位置的元素描述了第i通道響應(yīng)和第j通道響應(yīng)的相關(guān)性。

可以求得誤差對本層響應(yīng)的導(dǎo)數(shù):

1.4 圖像風(fēng)格遷移

為生成混合了照片的內(nèi)容和畫作的風(fēng)格的圖片,共同最小化了白噪聲在網(wǎng)絡(luò)某一層到照片的內(nèi)容表達的距離以及在VGG網(wǎng)絡(luò)多層上到風(fēng)格表達的距離。本文最小化的損失函數(shù)是:

2 移動應(yīng)用實現(xiàn)與開發(fā)

2.1 圖像風(fēng)格遷移實現(xiàn)

為了獲得輸入圖像的風(fēng)格表示,本文使用了一個最初設(shè)計用于捕獲紋理信息的特征空間。這個特征空間建立在網(wǎng)絡(luò)每一層的分級響應(yīng)之上。它由不同的分級響應(yīng)在特征圖的空間范圍內(nèi)的相關(guān)性組成(詳見方法)。通過包括多層的特征相關(guān)性,本文得到一個固定的,多尺度的輸入圖像的表示,它捕捉其紋理信息,但不是全部信息。

圖1 風(fēng)格遷移結(jié)果圖

在VGG的每個處理階段,給定的輸入圖像被表示為一組濾鏡圖像。雖然不同的過濾器的數(shù)量增加沿處理層次,濾鏡圖像的大小減少了一些下采樣機制(如最大池),導(dǎo)致在網(wǎng)絡(luò)的每層單位的總數(shù)減少,內(nèi)容重建。本文可以通過只知道網(wǎng)絡(luò)在某一層的響應(yīng)來重建輸入圖像,從而可視化VGG中不同處理階段的信息。本文從建立在VGG層的不同子集上的風(fēng)格表示重建輸入圖像。這樣可以創(chuàng)建出與給定圖像風(fēng)格相匹配的圖像,規(guī)模越來越大,同時丟棄場景的全局排列信息。

2.2 圖像風(fēng)格遷移開發(fā)

有了基礎(chǔ)的圖像風(fēng)格遷移代碼實現(xiàn),本文開發(fā)了一款以圖像風(fēng)格遷移轉(zhuǎn)換功能為主的集圖像處理、社區(qū)分享等功能為一體的圖片處理交流社區(qū)式App。

圖2 軟件功能結(jié)構(gòu)圖

2.3 軟件創(chuàng)作界面展示

圖3 創(chuàng)作相關(guān)界面展示

本文鎖定了兩款直接非常值得借鑒的圖像處理軟件分別是prisma和造畫。造畫是仿prisma的“國內(nèi)版prisma”。在界面觀感上和本尊存在著較大差距,功能和界面符合國內(nèi)模式:“多”。整體上功能覆蓋有余,美觀簡約不足。更有眾多調(diào)色社交軟件如MIX、Pinter-est、Snapseed。Snapseed在視覺上與前兩款A(yù)pp相比有差距,勝在調(diào)色功能。MIX和Pinterest都是比較成熟的優(yōu)質(zhì)App,其產(chǎn)品瀑布流社區(qū)[9]的功能十分值得本文借鑒。于是本文在幾款A(yù)pp的基礎(chǔ)上進行了界面設(shè)計,簡單易操作的創(chuàng)作界面以及豐富的社區(qū)交流界面。

圖4 瀑布流式社區(qū)界面和發(fā)現(xiàn)界面

圖5 消息通知界面

圖6 用戶個人界面

3 結(jié)語

本文旨在對基于卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移做基礎(chǔ)的遷移效果實現(xiàn),并在此基礎(chǔ)上設(shè)計開發(fā)一款圖像風(fēng)格處理與社區(qū)交流為一體的App,本文開發(fā)的此款A(yù)pp旨在強化基于卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移效果,選取大量風(fēng)格圖片進行模型訓(xùn)練,讓用戶可以記錄生活中很多美好的時刻并與自己喜歡的風(fēng)格圖片相結(jié)合,保留生活中每個美好畫面。將記錄下的點滴分享在社區(qū)平臺上,找到志同道合的朋友。

整合更多功能,以契合更多需求:

(1)訓(xùn)練更多國畫風(fēng)格模型,讓風(fēng)格庫更加豐富多樣,開發(fā)新的國風(fēng)風(fēng)格;

(2)利用大數(shù)據(jù)技術(shù)[10],完善根據(jù)用戶的偏好進行社區(qū)內(nèi)容推薦功能;

(3)將訓(xùn)練后的各個風(fēng)格應(yīng)用在視頻上,實現(xiàn)視頻的風(fēng)格遷移。

猜你喜歡
卷積界面神經(jīng)網(wǎng)絡(luò)
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
國企黨委前置研究的“四個界面”
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于FANUC PICTURE的虛擬軸坐標(biāo)顯示界面開發(fā)方法研究
人機交互界面發(fā)展趨勢研究
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
手機界面中圖形符號的發(fā)展趨向
新聞傳播(2015年11期)2015-07-18 11:15:04
县级市| 海南省| 辽中县| 洪江市| 乐陵市| 崇文区| 贵州省| 镇雄县| 兴安盟| 息烽县| 台安县| 年辖:市辖区| 临颍县| 会宁县| 田阳县| 工布江达县| 五莲县| 沙田区| 阳高县| 扎赉特旗| 兴安盟| 进贤县| 高唐县| 射阳县| 肇东市| 明星| 天全县| 通山县| 辽宁省| 威信县| 平潭县| 和田市| 独山县| 安图县| 工布江达县| 安乡县| 南涧| 南和县| 凉山| 曲麻莱县| 晋城|