国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)的幾何學(xué)解釋

2020-09-03 08:16雷娜安東生郭洋蘇科華劉世霞羅鐘鉉丘成桐顧險(xiǎn)峰
工程 2020年3期
關(guān)鍵詞:流形勢能測度

雷娜, 安東生, 郭洋, 蘇科華, 劉世霞, 羅鐘鉉, 丘成桐, 顧險(xiǎn)峰,,*

a DUT-RU Co-Research Center of Advanced ICT for Active Life, Dalian University of Technology, Dalian 116620, China b Department of Computer Science, Stony Brook University, Stony Brook, NY 11794-2424, USA

c School of Computer Science, Wuhan University, Wuhan 430072, China

d School of Software, Tsinghua University, Beijing 100084, China

e Center of Mathematical Sciences and Applications, Harvard University, Cambridge, MA 02138, USA

1. 引言

生成對抗網(wǎng)絡(luò)(GAN)是無條件圖像生成的主要方法之一。在對數(shù)據(jù)集進(jìn)行訓(xùn)練后,GAN能夠生成逼真的、視覺上吸引人的樣本。GAN方法訓(xùn)練了一種無條件生成器和一種判別器,其中生成器可以將隨機(jī)噪聲轉(zhuǎn)換成真實(shí)圖像,而判別器用于測量生成樣本與真實(shí)圖像之間的差異。GAN已經(jīng)過多次改進(jìn)。其中一個(gè)突破是將最優(yōu)傳輸(OT)理論與GAN相結(jié)合,如Wasserstein GAN(WGAN)[1]。在WGAN框架中,生成器計(jì)算了從白噪聲到數(shù)據(jù)分布的OT映射,而判別器計(jì)算了真實(shí)數(shù)據(jù)分布與生成數(shù)據(jù)分布之間的Wasserstein距離。

1.1. 流形分布假設(shè)

GAN的成功可以通過以下事實(shí)進(jìn)行解釋,即GAN有效地發(fā)現(xiàn)了真實(shí)數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)。該結(jié)構(gòu)可以用流形分布假設(shè)來表示,即一類特定的自然數(shù)據(jù)主要集中在一個(gè)低維流形上,且該低維流形被嵌入高維背景空間[2]。

圖1顯示了MNIST數(shù)據(jù)集的流形結(jié)構(gòu)。每個(gè)手寫數(shù)字圖像的維數(shù)為28 × 28,且被看作是R784圖像空間中的一個(gè)點(diǎn)。MNIST數(shù)據(jù)集主要集中在一個(gè)低維流形(2D流形)附近。通過利用t-SNE流形嵌入算法[3],MNIST數(shù)據(jù)集可被映射到一個(gè)平面區(qū)域上,而且每個(gè)圖像可被映射到一個(gè)點(diǎn)上。表示相同數(shù)字的圖像被映射到同一個(gè)集群中,這里共有10個(gè)集群,每個(gè)集群分別用不同的顏色編碼。這表明MNIST數(shù)據(jù)集分布在一個(gè)二維(2D)曲面附近,該曲面被嵌入在R784的單位超立方體中。

1.2. GAN理論模型

圖2顯示了GAN的理論模型。真實(shí)數(shù)據(jù)分布ν主要集中在被嵌入背景空間χ中的流形Σ上。(Σ,ν) 共同揭示了真實(shí)數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)。GAN模型計(jì)算了隱空間Z到流形Σ的解碼映射gθ,其中,θ表示深度神經(jīng)網(wǎng)絡(luò)(DNN)參數(shù)。ζ是隱空間中的Gaussian分布,gθ將ζ前推為μθ。判別器計(jì)算了真實(shí)數(shù)據(jù)分布ν和生成數(shù)據(jù)分布μθ之間的距離,如Wasserstein距離Wc(μθ,ν),其等價(jià)于Kontarovich勢能φξ。

雖然GAN有很多優(yōu)點(diǎn),但是它們也有一些嚴(yán)重的缺點(diǎn)。從理論上講,我們對深度學(xué)習(xí)的基本原理的理解仍然比較粗淺。從實(shí)踐來看,GAN的訓(xùn)練是復(fù)雜的,且其對超參數(shù)非常敏感,而且GAN經(jīng)常會遇到模式崩潰問題。最近,Meschede等[4]研究了9種不同的GAN模型及其變體,結(jié)果表明,基于梯度下降的GAN優(yōu)化并不總是局部收斂的。

根據(jù)流形分布假設(shè),自然數(shù)據(jù)集可以被表示為關(guān)于流形的概率分布。因此,GAN主要完成兩項(xiàng)任務(wù):①流形學(xué)習(xí),即計(jì)算隱空間與背景空間之間的解碼映射和編碼映射;②概率變換,即在隱空間或圖像空間中計(jì)算白噪聲與數(shù)據(jù)分布之間的變換。

圖3顯示了生成器映射gθ=h ? T的分解, 其中,h:Z→Σ是從隱空間到背景空間中數(shù)據(jù)流形Σ的解碼映射,T:Z→Z是概率分布變換映射。流形學(xué)習(xí)的解碼映射是h,測度變換映射是T。

1.3. OT觀點(diǎn)

OT理論[5]研究的是以最經(jīng)濟(jì)的方式將一個(gè)概率分布轉(zhuǎn)化為另一個(gè)概率分布的問題。OT理論給出了計(jì)算最優(yōu)映射的嚴(yán)格而強(qiáng)大的方法,這些方法可以將一個(gè)概率分布轉(zhuǎn)換為另一個(gè)概率分布,同時(shí)計(jì)算出它們之間的距離[6]。

如前所述,GAN完成了流形學(xué)習(xí)和概率分布變換兩大任務(wù)。后一項(xiàng)任務(wù)可以通過直接使用OT方法完成。具體來說, 在圖3中, 概率分布變換映射T可以通過OT理論來計(jì)算。判別器計(jì)算了真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布之間的Wasserstein 距離Wc(μθ,ν),這個(gè)可以利用OT方法直接計(jì)算得到。

從理論角度來看,GAN可以由OT理論來解釋,從而使得一部分黑匣子變得透明,同時(shí)將概率分布變換過程簡化為一個(gè)凸優(yōu)化過程。OT理論使解的存在性和唯一性具有理論保證, 而且其收斂速度和近似程度也可以得到全面分析。

圖1 . MNIST數(shù)據(jù)集的流形分布。(a)MNIST數(shù)據(jù)集中的手寫數(shù)字;(b)利用t-SNE算法得到的2D平面內(nèi)數(shù)字的嵌入結(jié)果。將x和y相對坐標(biāo)進(jìn)行標(biāo)準(zhǔn)化。

圖2 . GAN的理論模型。G:生成器;D:判別器。

圖3 . 生成器映射被分解為解碼映射h和概率分布變換映射T。T#ζ是由T推導(dǎo)出的前推測度。

OT理論也解釋了模式崩潰的根本原因。根據(jù)Monge-Ampère方程的正則性理論,變換映射在某些奇異集上是不連續(xù)的。然而,DNN只能表達(dá)連續(xù)函數(shù)和連續(xù)映射。因此,目標(biāo)變換映射位于GAN所表示的函數(shù)空間之外。這種內(nèi)在的沖突使得模式崩潰問題不可避免。

OT解釋還揭示了更復(fù)雜的生成器和判別器之間的關(guān)系。在現(xiàn)有的GAN模型中,生成器和判別器之間是相互競爭的,它們不共享中間的計(jì)算結(jié)果。OT理論表明,在L2成本函數(shù)下,生成器和判別器的最優(yōu)解可以用閉合式來相互表示。因此,生成器與判別器之間的關(guān)系應(yīng)該是相互協(xié)作的而不是相互競爭的,而且它們應(yīng)該共享中間的計(jì)算結(jié)果以提高計(jì)算效率。

1.4. AE-OT模型

為了降低GAN的訓(xùn)練難度,特別是避免模式崩潰問題,我們提出了一種基于OT理論的更簡單的生成模型——自編碼(AE)OT模型(AE-OT),如圖4所示。

如前所述,生成模型的兩個(gè)主要任務(wù)是流形學(xué)習(xí)和概率分布變換。AE計(jì)算了編碼映射fθ:Z→Σ和解碼映射gξ:Σ→Z, 目的是為了流形學(xué)習(xí)。OT映射T:Z→Z,將白噪聲ζ變換為由編碼映射(fθ)#ν前推的數(shù)據(jù)分布。

圖4 . 生成模型AE-OT,將AE和OT相結(jié)合。

AE-OT模型有很多優(yōu)點(diǎn)。從理論上講,OT理論已經(jīng)建立并得到了人們的充分理解。通過解耦解碼映射和OT映射,我們可以提高生成模型的理論嚴(yán)謹(jǐn)性,從而使部分黑匣子透明化。實(shí)際上,OT映射可被簡化成一個(gè)凸優(yōu)化問題,從而保證解的存在性和唯一性,同時(shí)使得訓(xùn)練過程不會僅局限于局部最優(yōu);與OT映射相關(guān)的凸能量具有明顯的Hessian矩陣結(jié)構(gòu),因此,我們可以利用二階收斂的牛頓法或超線性收斂的擬牛頓法進(jìn)行優(yōu)化。相比之下,現(xiàn)有的生成模型是以具有線性收斂性的梯度下降法為基礎(chǔ)的。而且在AE-OT模型中,未知數(shù)的個(gè)數(shù)與訓(xùn)練樣本的個(gè)數(shù)相等,從而避免了過度參數(shù)化的問題。在Monte Carlo方法中,采樣密度可以完全控制OT映射的誤差范圍。自適應(yīng)等級分層算法進(jìn)一步提高了計(jì)算效率。利用圖形處理器(GPU)可實(shí)現(xiàn)并行OT映射算法。更重要的是,AE-OT模型可以消除模式崩潰問題。

1.5. 貢獻(xiàn)

本研究運(yùn)用OT理論對GAN模型進(jìn)行了解釋。GAN可以完成流形學(xué)習(xí)和概率分布變換兩大任務(wù),后一項(xiàng)任務(wù)可以通過OT方法來實(shí)現(xiàn)。生成器計(jì)算了OT映射,而判別器計(jì)算了真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布之間的Wasserstein距離。使用Brenier定理,我們可以將生成器和判別器之間的競爭關(guān)系用協(xié)作關(guān)系來代替;根據(jù)Monge-Ampère方程的正則性理論,分布變換映射的不連續(xù)性導(dǎo)致了模式崩潰。我們進(jìn)一步提出,利用AE-OT模型來解耦流形學(xué)習(xí)和概率分布變換,從而使部分黑匣子透明化、提高訓(xùn)練效率以及避免模式崩潰。實(shí)驗(yàn)結(jié)果表明了我們所提出的方法的有效性。

本文的組織結(jié)構(gòu)如下:第2部分簡要回顧了OT與GAN的相關(guān)工作;第3部分簡要介紹了OT的基本理論以及Monge-Ampère方程的正則性理論;第4部分介紹了一種適合深度學(xué)習(xí)設(shè)置的用于計(jì)算OT的變分框架;第5部分從OT的角度分析了GAN模型,解釋了生成器與判別器之間的協(xié)作關(guān)系(不是競爭關(guān)系),以及揭示了模式崩潰的內(nèi)在原因;第6部分總結(jié)了實(shí)驗(yàn)結(jié)果;第7部分對全文進(jìn)行了總結(jié)。

2. 前期工作

2.1. 最優(yōu)傳輸

OT問題在各個(gè)領(lǐng)域都發(fā)揮著重要的作用。詳細(xì)描述,請讀者參照參考文獻(xiàn)[7]和[8]。

當(dāng)輸入域和輸出域均為Dirac分布時(shí),OT問題可被看作是一種標(biāo)準(zhǔn)線性規(guī)劃(LP)任務(wù)。為了將問題擴(kuò)展到大數(shù)據(jù)集,參考文獻(xiàn)[9]的作者在原LP問題中增加了一個(gè)熵正則化器,則正則化解可以通過Sinkhorn算法被快速計(jì)算出來。后來Solomon等[10]通過引入快速卷積提高了計(jì)算效率。

第二種解決OT問題的方法是通過OT問題與凸幾何之間的聯(lián)系來最小化凸能量[6],從而計(jì)算出連續(xù)測度與逐點(diǎn)測度之間的OT映射。在參考文獻(xiàn)[11]中,作者利用Legendre對偶理論將凸幾何OT問題與Kantorovich對偶問題聯(lián)系起來。本文所提出的方法是該方法在高維空間上的一種擴(kuò)展。如果輸入和輸出都是連續(xù)密度,求解OT問題就等價(jià)于求解著名的Monge-Ampère方程,該方程是一個(gè)高度非線性橢圓偏微分方程(PDE)。有了一個(gè)額外的虛擬時(shí)間維度,這個(gè)問題可以通過計(jì)算流體動力學(xué)來解決[12-14]。

2.2. 生成模型

在機(jī)器學(xué)習(xí)領(lǐng)域,能夠生成復(fù)雜且高維的數(shù)據(jù)的生成模型近年來變得越來越重要。具體來說,生成模型主要被用于從給定的圖像數(shù)據(jù)集中生成新的圖像。在早期研究中,一些方法已被采用,如深度信念網(wǎng)絡(luò)[15]和深度玻爾茲曼機(jī)[16]。然而,這些方法的相關(guān)訓(xùn)練通常比較困難和低效。后來,變分AE(VAE)方法取得了重要突破[17],其中解碼器利用變分方法將Gaussian分布逼近了真實(shí)數(shù)據(jù)分布[17,18]。在此基礎(chǔ)上,研究人員進(jìn)行了一系列新的研究工作,包括對偶自編碼器(AAE)[19]和Wasserstein AE(WAE)[20]。盡管VAE訓(xùn)練相對容易,但它們生成的圖像看起來很模糊。在某種程度上,這是由于顯式表達(dá)的密度函數(shù)可能無法表示真實(shí)數(shù)據(jù)分布的復(fù)雜性和無法學(xué)習(xí)高維數(shù)據(jù)分布[21,22]。后來,研究人員提出了其他非對抗性訓(xùn)練方法,如PixelCNN[23]、PixelRNN [24]和WaveNet [25]。然而,由于這些方法的自回歸性質(zhì),新樣本的生成是不能并行的。

2.3. 對抗生成模型

針對上述模型的不足,研究人員提出了GAN [26]。雖然GAN是生成逼真樣本的強(qiáng)大工具,但是它們很難被訓(xùn)練,而且會出現(xiàn)模式崩潰的問題。為了更好地訓(xùn)練GAN,研究人員已經(jīng)提出了各種改進(jìn)措施,包括改變損失函數(shù)(如WGAN [1])以及通過剪切[1]、梯度正則化[4,27]或者光譜歸一化[28]來將判別器正則化。然而,GAN的訓(xùn)練仍然是棘手的,需要仔細(xì)選擇超參數(shù)。

2.4. 生成模型的評估

生成模型的評估仍然具有挑戰(zhàn)性。早期的工作包括概率標(biāo)準(zhǔn)[29]。然而,最近的生成模型(尤其是GAN)不適合這種評估。傳統(tǒng)上,GAN的評估依賴于對少數(shù)示例或用戶研究的可視化檢查。近年來,研究人員提出了幾種定量評價(jià)標(biāo)準(zhǔn)。Inception score(IS)[30]可同時(shí)測量多樣性和圖像質(zhì)量,然而它不是距離指標(biāo)。為了克服IS的缺點(diǎn),研究人員在參考文獻(xiàn)[31]中引入了Fréchet inception distance(FID)。該方法對圖像的破壞具有較強(qiáng)的魯棒性,而且與視覺保真度有很好的相關(guān)性。最近的研究[32]介紹了分布的精度和召回率(PRD),這兩個(gè)指標(biāo)用于測量真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布之間的精度和查全率。為了公平地評測GAN,研究人員在參考文獻(xiàn)[33]中進(jìn)行了大規(guī)模比較,在統(tǒng)一的網(wǎng)絡(luò)架構(gòu)下,研究人員比較了7種不同的GAN和VAE,并建立了一個(gè)通用的評價(jià)標(biāo)準(zhǔn)。

2.5. 非對抗性方法

最近,研究人員也提出了各種非對抗性的方法。生成潛優(yōu)化(GLO)[34]是一種“無編碼器AE”的方法,其中生成模型通過非對抗性損失函數(shù)進(jìn)行訓(xùn)練,并且取得了比VAE更好的結(jié)果。隱式最大似然估計(jì)(IMLE)[35]是一種最近點(diǎn)迭代(ICP)相關(guān)的生成模型訓(xùn)練方法。后來Hoshen和Malik [36]提出了生成式隱含最近鄰(GLANN),該方法結(jié)合了GLO和GLANN的優(yōu)點(diǎn)。該方法首先利用GLO發(fā)現(xiàn)了從圖像空間到隱空間的嵌入,然后利用IMLE計(jì)算出了任意分布與隱藏代碼之間的轉(zhuǎn)換。

其他一些方法則是利用含有可控Jacobian矩陣的DNN直接逼近了從噪聲空間到圖像空間的分布變換映射[37-39]。近年來,研究人員選擇了一些基于能量的模型[40-42],他們利用DNN來表示能量函數(shù),并通過Gibb分布對圖像分布進(jìn)行建模。這些方法利用現(xiàn)有模型交替生成偽樣本,然后利用生成的偽樣本和真實(shí)樣本對模型參數(shù)進(jìn)行優(yōu)化。

3. OT理論

在本章中,我們將介紹經(jīng)典OT理論中的基本概念和定理,重點(diǎn)介紹Brenier方法及其在離散集中的推廣。具體細(xì)節(jié)可參考Villani的專著[5]。

3.1. Monge問題

假設(shè)X ?Rd, Y ?Rd是兩個(gè)d維Euclidean空間Rd的子集,μ和υ是被分別定義在X和Y上的兩個(gè)概率測度,則密度函數(shù)如下:

假設(shè)總測度相等,即μ (X) = υ (Y ),那么

我們只考慮保測度的映射。

Defnition 3.1(保測度映射)。如果對于任何可測集B ? Y,集合T-1(B)是μ-可測的,并且μ[T-1(B)] = υ (B),那么映射T : X → Y是保測度的,即

保測度條件被記作T#μ = υ,其中T#μ為T誘導(dǎo)的前推測度。

給定成本函數(shù)c(x, y): X × Y→R≥0,該函數(shù)表示從源到目標(biāo)的傳輸每個(gè)單位質(zhì)量的代價(jià),則定義映射T: X →Y的總傳輸代價(jià)為

Monge的OT問題在于尋找使總傳輸成本最小的保測度映射。

Problem 3.2(Monge's [43];MP)。給定傳輸成本函數(shù)c(x, y): X × Y→R≥0,求使總傳輸成本最小的保測度映射T: X → Y,即

Defnition 3.3(OT映射)。Monge的問題的解被稱為OT映射。OT映射的總傳輸成本被稱為μ和υ之間的Wasserstein距離,被記作Wc(μ, υ)。

3.2. Kontarovich的方法

根據(jù)成本函數(shù)及其測度的性質(zhì),(X, μ)和(Y, υ)之間的OT映射可能不存在。Kontarovich將傳輸映射擴(kuò)展至傳輸平面,并定義了聯(lián)合概率測度ρ(x, y): X × Y→R≥0,這樣ρ的邊際概率分別等于μ和υ。令投影映射πx(x, y) =x和πy(x, y) = y,然后定義聯(lián)合測度類如下:

Problem 3.4(Kontarovich;KP)。給定一個(gè)傳輸成本函數(shù)c(x, y): X × Y→R≥0,求得聯(lián)合概率測度ρ(x, y): X× Y→R≥0,使得傳輸總成本最小。

Kontarovich的問題(KP)可以采用LP方法來求解。由于LP的對偶性,方程(7)(KP公式)可以被重新表述為對偶問題(DP),具體如下:

Problem 3.5(對偶;DP)。給定一個(gè)傳輸成本函數(shù)c(x, y): X × Y→R≥0,求得真實(shí)函數(shù)φ : X→R和ψ:Y→R,使得

公式(8)的最大值給出了Wasserstein距離?,F(xiàn)有的WGAN模型大多是基于L1成本函數(shù)下的對偶形式。

Defnition 3.6(c-變換)。φ : X→R的c-變換被定義為φc: Y →R:

則對偶問題可被重新表述為如下形式:

3.3. Brenier的方法

對于二次Euclidean距離成本函數(shù),Brenier [44]證明了OT映射的存在性、唯一性和內(nèi)在結(jié)構(gòu)。

Theorem 3.7(Brenier's [44])。假設(shè)X和Y是Euclidean空間Rd中的子集,并且傳輸成本是Euclidean 距離的平方,即c(x, y) = 1/2||x - y||2。此外,μ是絕對連續(xù)的,而且μ和υ存在有限的二階矩

則存在一個(gè)凸函數(shù)u: X→R,即所謂的Briener勢能,其梯度映射?u給出了Monge問題的解:

由于Brenier勢能在常數(shù)范圍內(nèi)是唯一的,因此OT映射是唯一的。

假設(shè)Brenier勢能是C2光滑的,則它是下面Monge-Ampère方程的解。

在Rd中,對于Euclidean空間上的L2傳輸成本函數(shù)c(x, y) = 1/2||x - y||2,c-變換與經(jīng)典Legendre變換之間有著特殊的關(guān)系。

Defnition 3.8(Legendre變換)。給定一個(gè)函數(shù)φ:Rn→R,其Legendre變換被定義為如下形式:

由此可知,當(dāng)c(x, y) = 1/2||x - y||2時(shí),下面的等式成立。

Theorem 3.9(Brenier極分解[44])。假設(shè)X和Y是Euclidean空間Rd,μ相對于Lebesgue測度是絕對連續(xù)的,且映射φ: X→Y將μ前推為ν,即φ#μ = υ,則存在一個(gè)凸函數(shù)u: X→R,使得φ = ?u ? s。式中,s: X→X是保測度的,即s#μ = μ。此外,這個(gè)分解是唯一的。

下面的定理在OT理論中是眾所周知的。

Theorem 3.10(Villani [5])。給定凸緊區(qū)域Ω?Rd上定義的測度μ和υ,這里存在一個(gè)成本函數(shù)為c(x, y) =h(x - y)的OT平面ρ,其中h是嚴(yán)格凸的。假定μ是絕對連續(xù)的,并且?Ω為零測度,則ρ是唯一的,且其具有(id, T#)μ(id:恒等映射)的形式。另外,這里存在一個(gè)Kantorovich勢能φ,而且映射T 可用下式表示為:

在這種情況下,Brenier勢能u和Kantorovich勢能φ有如下關(guān)系:

3.4. OT映射的正則性

令Ω和Λ是Rd中兩個(gè)有邊界的光滑開集,令μ =fdx和ν = gdy是Rd上兩個(gè)概率測度,那么f |RdΩ= 0和g|RdΛ= 0。設(shè)f和g在Ω和Λ上分別是非零和非無窮的。

3.4.1. 凸目標(biāo)域

Defnition 3.11(H?lder 連續(xù))。一個(gè)實(shí)值函數(shù)或復(fù)值函數(shù)f在d維Euclidean空間中滿足H?lder條件, 或者它是H?lder連續(xù)時(shí),此時(shí)存在非負(fù)實(shí)常數(shù)C,且α > 0,使得| f (x) - f (y)|≤C||x - y||α對于f定義域中的所有x和y都成立。

Defnition 3.12(H?lder空間)。H?lder空間為Ck,α(Ω),其中Ω是某個(gè)Euclidean空間的一個(gè)開子集,并且整數(shù)k≥0,它是由在Ω上有直到k階連續(xù)偏導(dǎo)數(shù)的函數(shù)組成,從而使得k階偏導(dǎo)數(shù)是α階H?lder連續(xù)的,且0 < α≤ 1。Ck,α(Ω)意味著上述條件適用于Ω的任意緊子集。

Theorem 3.13(Caffarelli [45])。如果Λ是凸的,那么Brenier勢能u是嚴(yán)格凸的,此外,

3.4.2. 非凸目標(biāo)域

如果Λ是非凸的且存在光滑的f和g,那么u?C1(Ω),而且OT映射?u在奇異點(diǎn)處是非連續(xù)的。

Defnition 3.14(次梯度)。給定開區(qū)間Ω?Rd和一個(gè)凸函數(shù)u:X→R,對于x∈Ω,u在x點(diǎn)的次梯度(次微分)可被定義為如下形式:

顯然,u(x)是一個(gè)閉凸集。從幾何學(xué)來看,如果p∈u(x),那么超平面lx,p(z) =u(x) +〈p,z-x〉在x點(diǎn)從下方觸碰到了u,即Ω中的lx,p≤u并且lx,p(x) =u(x),其中l(wèi)x,p是u在x點(diǎn)處的支撐平面。

如果Brenier勢能u的次梯度?u(x)包含一個(gè)點(diǎn),則u在x點(diǎn)處可微。我們根據(jù)次梯度的維數(shù)對這些點(diǎn)進(jìn)行分類,并且定義集合

可以看出,Σ0(u)是正則點(diǎn)的集合,而Σk(u)是奇異點(diǎn)的集合,其中k >0。我們也定義了x點(diǎn)的可達(dá)次梯度,具體如下:

由此可知,次梯度等于可達(dá)次梯度的凸包,即

Theorem 3.15(正則性)。令Ω,Λ?Rd為兩個(gè)有邊界的開集,并且令f,g:Rd→R+為兩個(gè)概率密度函數(shù),該密度函數(shù)在Ω和Λ之外為0,而在Ω和Λ上則界于0和無窮之間。Theorem 3.7中的OT映射被表示為T =?u:Ω→Λ。那么存在兩個(gè)相對閉集ΣΩ?Ω和ΣΛ?Λ,且ΣΩ=Σ= 0,當(dāng)常數(shù)α>0時(shí),使得T:ΩΣ→ΛΣ是屬于類

ΛΩΛ的拓?fù)渫摺?/p>

我們稱ΣΩ為OT映射?u:Ω→Λ的奇異集。圖5給出了基于Theorem 4.2的算法所計(jì)算出的奇異點(diǎn)集結(jié)構(gòu)。具體形式如下:

x0點(diǎn)的次梯度?u(x0)整個(gè)覆蓋了Λ內(nèi)部孔洞,而?u(x1)覆蓋了陰影三角形區(qū)域。對于γk(t)上的每個(gè)點(diǎn),?u[γk(t)]是Λ外部的一條線段。x1是γ1、γ2和γ3的分歧點(diǎn)。Brenier勢能在Σ1和Σ2上是不可微的,OT映射?u在Σ1和Σ2上是不連續(xù)的。

4. 計(jì)算方法

Brenier定理可以被直接推廣到離散情形中。在GAN模型中,源測度μ是一個(gè)被定義在緊凸集Ω上的均勻(或高斯)分布;目標(biāo)測度ν被表示為經(jīng)驗(yàn)測度,它是Dirac測度的總和,即

式中,Y ={y1,y2, ...,yn}是訓(xùn)練樣本,其權(quán)重為Σn i=1υi=μ(Ω);δ是特征函數(shù)。

每個(gè)訓(xùn)練樣本yi對應(yīng)一個(gè)Brenier勢能的支撐平面,且用下式表示,即

式中,支撐平面的截距(高度)hi是未知變量。我們將所有的高度變量記為h= (h1,h2,…,hn)。

Euclidean空間中一族超平面的包絡(luò)是一個(gè)超曲面,它與該族的每個(gè)成員都相切于某一點(diǎn),這些切點(diǎn)共同構(gòu)成了整個(gè)包絡(luò)超曲面。如圖6所示,Brenier勢能uh:Ω→R是一個(gè)由h確定的分片線性凸函數(shù),這個(gè)凸函數(shù)是它所有支撐平面的上包絡(luò),即

Brenier勢能圖是一個(gè)凸多面體。每一個(gè)支撐平面πh,i對應(yīng)多面體的一個(gè)面。多面體的投影誘導(dǎo)了Ω的一個(gè)單元分解,其中每個(gè)支撐平面πi(x)的投影形成一個(gè)單元Wi(h),而p是Rd中的任意一點(diǎn),具體如下:

圖5 . OT映射的奇異點(diǎn)集結(jié)構(gòu)。

圖6 . 分片線性Brenier勢能函數(shù)(a)及其Legendre變換u*h(b)。e*h,i:πh,i的Legendre對偶;?:uh的梯度;Proj:投影映射;Proj*:Legendre對偶空間內(nèi)的投影映射。

這個(gè)單元分解是一個(gè)功率圖。Wi∩Ω的μ測度被記為wi(h),即

梯度映射?uh:Ω→Y將每個(gè)單元Wi(h)映射為一個(gè)點(diǎn)yi,即

如果公式(17)中目標(biāo)測度υ已知,則由公式(19)可得到一個(gè)離散的Brenier勢能,且該勢能的每個(gè)支撐平面wi(h)投影的μ-體積等于給定的目標(biāo)測度υi。這個(gè)結(jié)論已被Alexandrov [46]在凸幾何中證明。

Theorem 4.1(Alexandrov [46])。假設(shè)Ω是一個(gè)緊凸多面體,其在Rn中內(nèi)部非空;n1,…,nk?Rn+1是k個(gè)不同的單位向量;第(n+1)個(gè)坐標(biāo)是負(fù)的以及υ1, ...,υk> 0,使得Σki=1υi= vol(Ω)。則存在凸多面體P?Rn+1恰有k個(gè)余維數(shù)為1的平面F1,...,Fk,使得ni是Fi的法向量,且Ω與Fi投影之間的交集體積為υi。此外,P在垂直平移下唯一。

Alexandrov對解的存在的證明是以代數(shù)拓?fù)錇榛A(chǔ)進(jìn)行的,其不具構(gòu)造性。最近,Gu等[6]基于變分方法給出了構(gòu)造性證明。

Theorem 4.2(參考文獻(xiàn)[6])。令μ是一個(gè)被定義在Rd中緊凸區(qū)域Ω上的概率測度,令Y= {y1,y2,...,yn}是Rd中的一組不同點(diǎn)。那么,對于任意υ1,υ2,...,υn> 0,其中常數(shù)(c,c,...,c)的意義下唯一,使得對于所有1 ≤i≤n,wi(h) =υi。向量h是以下凸能量的唯一最小變元,

在開凸集上被定義為

此外,?uh在所有的傳輸映射T#μ=υ中的最小化二次成本為

公式(23)中上述凸能量的梯度由下式給出。

能量的第i行和第j列的Hessian元素可由下式給出。

如圖6所示,Hessian矩陣具有明確的幾何意義。圖6(a)顯示了離散的Brenier勢能uh,圖6(b)顯示了Hessian矩陣由Definition 3.8所定義的Legendre變換u*h。Legendre變換可以用幾何方法來構(gòu)造,即對于每個(gè)支撐平面πh,i,我們構(gòu)造了對偶點(diǎn)π*h,i =(yi,hi),其中對偶點(diǎn)的

u*h的投影誘導(dǎo)了Y= {y1,y2, ...,yn}的加權(quán)Delaunay三角剖分。如圖7所示,公式(20)中的power diagram和加權(quán)Delaunay三角剖分是彼此的Poincaré對偶,即在power diagram中,如果Wi(h)和Wj(h)相交于某個(gè)(d-1)維單元,則在加權(quán)的Delaunay三角剖分中,yi與yj相連。公式(27)中Hessian矩陣的元素是power diagram中(d-1)維單元的μ-體積與加權(quán)Delaunay三角剖分中對偶邊的長度之間的比率。

傳統(tǒng)的power diagram與上述定理密切相關(guān)。

圖7 . Power diagram(藍(lán)色)和其對偶加權(quán)Delaunay三角剖分(黑色)。

Defnition 4.3. (power 距離)。給定具有power權(quán)重ψi的點(diǎn)yi∈Rn,power距離可由下式給出。

Defnition 4.4. (power diagram)。給定加權(quán)點(diǎn) (y1,ψ1),...,(yk,ψk),power diagram是Rd的單元分解,即

這里的每個(gè)單元都是凸多面體,即

加權(quán)Delaunay三角剖分用T(ψ)表示,它是power diagram的Poincaré對偶,如果Wi(ψ)∩Wj(ψ)≠ φ,則在加權(quán)Delaunay三角剖分中存在連接yi和yj的邊。注意,pow(x,yi) ≤pow(x, yj)等價(jià)于

在實(shí)踐中,我們的目標(biāo)是通過優(yōu)化凸能量方程(23)來計(jì)算離散Brenier勢能方程(19)。對于低維情況,我們可以通過計(jì)算梯度方程(26)和Hessian矩陣方程(27)來直接使用牛頓法。對于深度學(xué)習(xí)的應(yīng)用,直接計(jì)算Hessian矩陣是不可行的,我們可以使用梯度下降法或超線性收斂的擬牛頓法。梯度下降法的關(guān)鍵是估計(jì)μ-體積wi(h)。我們可以通過使用Monte-Carlo方法來完成,即我們從分布μ中隨機(jī)抽取n個(gè)樣本,并計(jì)算落入Wi(h)的樣本數(shù),該樣本數(shù)是收斂到μ-體積的比率。此方法是完全并行的,并可以通過GPU來實(shí)現(xiàn)。此外,我們可以使用等級分層方法來進(jìn)一步提高效率。首先,我們將目標(biāo)樣本按聚類簇進(jìn)行分類,然后計(jì)算目標(biāo)樣本到聚類簇質(zhì)心的OT映射;其次,對于每個(gè)聚類簇,我們計(jì)算了從相應(yīng)單元到聚類簇內(nèi)原始目標(biāo)樣本的OT映射。

圖8 . Brenier勢能函數(shù)的奇異點(diǎn)集與OT映射的間斷點(diǎn)集。

為了避免模式崩潰,我們需要找到Ω中的奇異點(diǎn)集。如圖8所示,目標(biāo)Dirac測度有兩個(gè)聚類簇,源是單位平面圓盤上的均勻分布。Brenier勢能函數(shù)的圖是中間帶有脊線的凸多面體。脊線在圓盤上的投影是奇異點(diǎn)集Σ1(u),OT映射在Σ1上是不連續(xù)的。在一般情況下,如果兩個(gè)單元Wi(h)和Wj(h)相鄰,那么我們可計(jì)算相應(yīng)支撐平面的法線之間的角度為:

如果θij大于閾值,則公共平面Wi(h) ∩Wj(h) 位于不連續(xù)奇點(diǎn)集中。

5. GAN和最優(yōu)傳輸

OT理論為GAN奠定了理論基礎(chǔ)。最近的研究成果,如WGAN [1]、WGAN-GP [27]和RW-GAN [47],都使用了Wasserstein距離來度量已生成的數(shù)據(jù)分布與實(shí)際數(shù)據(jù)分布之間的偏差。

從OT角度來看,生成器與判別器最優(yōu)解之間存在一個(gè)閉合式,因此生成器與判別器之間應(yīng)該是相互合作的而不是競爭的。更多細(xì)節(jié)見參考文獻(xiàn)[11]。此外,Monge-Ampère解的正則性理論可以解釋GAN的模式崩潰[48]。

5.1. 競爭與合作

圖2顯示了WGAN [1]的OT視圖。根據(jù)流形分布假設(shè),真實(shí)數(shù)據(jù)分布υ與一個(gè)被嵌入背景空間χ中的流形Σ非常接近。生成器計(jì)算了從隱空間Z到背景空間的解碼映射gθ,并且把白噪聲ζ(如Gaussian分布)變換為生成分布μθ。通過計(jì)算Kantorovich勢能φξ,判別器計(jì)算了μθ和真實(shí)分布υ之間的Wasserstein距離Wc(μθ,υ)。gθ和φξ都是通過DNN來實(shí)現(xiàn)的。

在訓(xùn)練過程中,生成器通過優(yōu)化gθ以使(gθ)#ζ能更好地逼近υ;判別器通過優(yōu)化Kantorovich勢能φξ來改善對Wassertein距離的估計(jì),生成器和判別器相互競爭、不共享中間結(jié)果。在L1成本函數(shù)下,WGAN的交替訓(xùn)練過程可以被看作是期望值的最小-最大優(yōu)化過程:

但是如果我們把成本函數(shù)換成L2距離,那么根據(jù)Theorem 3.10,在最優(yōu)情況下,Briener勢能u和Kontarovic 勢能能能φ是通過公式(16)的閉合式u(x) =1/2||x||2-φ(x)相聯(lián)系的。生成器尋找到了OT映射?u,而判別器計(jì)算出了φ。因此,一旦生成器達(dá)到最優(yōu)解,判別器無需任何訓(xùn)練即可得到最優(yōu)解,反之亦然。

更詳細(xì)地說,假設(shè)在第k次迭代中,生成器映射為gkθ。判別器計(jì)算了Kontarovich勢能φξ,其給出了當(dāng)前生成的數(shù)據(jù)分布(gkθ)#ζ與實(shí)數(shù)據(jù)分布υ之間的Wasserstein距離;?u給出了從(gkθ)#ζ到υ的OT映射。因此我們可以得到:

這意味著生成器映射可以被更新為

這個(gè)結(jié)論表明,原則上我們可以跳過生成器的訓(xùn)練過程;在實(shí)際應(yīng)用中,我們通過共享中間計(jì)算結(jié)果可以大大提高計(jì)算效率。因此,在設(shè)計(jì)GAN架構(gòu)時(shí),協(xié)作優(yōu)于競爭。

5.2. 模式崩潰和正則性

盡管GAN在許多應(yīng)用中十分強(qiáng)大,但是它們有十分致命的缺陷。第一,GAN的訓(xùn)練比較復(fù)雜,其對超參數(shù)敏感以及收斂性差;第二,GAN易產(chǎn)生模式崩潰問題;第三,GAN可能會產(chǎn)生不真實(shí)的樣本。不收斂性差、模式崩潰和生成不真實(shí)的樣本等問題都可以通過OT映射的正則性定理來解釋。

根據(jù)Brenier的極分解定理,即Theorem 3.9,任何保測度映射都可以被分解為兩個(gè)映射,其中一個(gè)是OT映射,它是Monge-Ampère方程的解。根據(jù)正則性Theorem 3.15,如果目標(biāo)測度υ的支集Λ具有多個(gè)連通分支,即υ具有多個(gè)模式,或者Λ是非凸集合,那么OT映射T:Ω→Λ在奇異點(diǎn)集ΣΩ上是不連續(xù)的。

圖9顯示了多個(gè)連通的情形,Λ具有兩個(gè)連通分支,OT映射T在Σ1上間斷。圖10顯示了Λ是連通但非凸的情形。Ω是矩形、Λ是啞鈴形、密度函數(shù)是常數(shù)、OT映射是不連續(xù)的、奇異點(diǎn)集合Σ1=γ1∪γ2。

圖11顯示了R3中兩個(gè)概率測度之間的OT映射。源測度μ和目標(biāo)測度υ均為均勻分布,Ω的支集是單位實(shí)心球,Λ的支集是實(shí)心斯坦福(Stanford)兔子。我們基于Theorem 4.2計(jì)算了Brenier勢能u:Ω→R。為了可視化映射,我們按如下方式插值概率測度:

圖11顯示了插值測度ρt的支集。表面的褶皺是奇異點(diǎn)集,其中OT映射是不連續(xù)的。

圖9 . 不連續(xù)的OT映射,由基于Theorem 4.2的一個(gè)GPU算法實(shí)現(xiàn)生成。(a)源域; (b)目標(biāo)域。(a)圖中間的線代表的是奇異點(diǎn)集合Σ1。

在一般情況下,由于實(shí)際數(shù)據(jù)分布、嵌入流形Σ以及編碼和解碼映射的復(fù)雜性,目標(biāo)測度支集很少是凸的,所以傳輸映射幾乎不可能整體上都連續(xù)。

另外,一般的DNN,如ReLU DNN只能是逼近連續(xù)映射。ReLU DNN所表示的函數(shù)空間不包含所需的非連續(xù)傳輸映射。訓(xùn)練過程,即搜索過程,將出現(xiàn)以下三種情況:

(1)訓(xùn)練過程不穩(wěn)定、不收斂。

(2)搜索過程會收斂到Λ的多個(gè)連通分支之一,映射會收斂到所期望的傳輸映射的一個(gè)連續(xù)分支。這意味著我們遇到了模式崩潰。

(3)訓(xùn)練過程能使傳輸映射成功覆蓋所有模式,但同時(shí)也覆蓋了Λ以外的區(qū)域。在實(shí)際應(yīng)用中,這種情況將導(dǎo)致GAN產(chǎn)生不真實(shí)的樣本。如圖12所示。因此,從理論上講,直接使用DNN來近似OT映射是不可能的。

5.3. AE-OT模型

如圖4所示,我們將GAN的兩個(gè)主要任務(wù)分為流形學(xué)習(xí)和概率分布變換。第一個(gè)任務(wù)是通過AE來計(jì)算編碼映射fθ和解碼映射gξ;第二個(gè)任務(wù)是利用變分方法來計(jì)算隱空間中的OT映射T。編碼映射fθ將實(shí)際數(shù)據(jù)分布υ前推為(fθ)#υ。在隱空間中,T將均勻分布μ映射到(fθ)#υ。

AE-OT模型有許多優(yōu)勢。尋找OT映射實(shí)際上是一個(gè)凸優(yōu)化問題,這保證了解的存在性和唯一性。訓(xùn)練過程是穩(wěn)定的,并采用了擬牛頓法進(jìn)行超線性收斂。未知數(shù)的數(shù)量與訓(xùn)練樣本的數(shù)量相等,避免了過度參數(shù)化。并行OT映射算法可以通過使用GPU來實(shí)現(xiàn)。OT映射的誤差限可以通過Monte Carlo方法中的采樣密度來控制。具有自適應(yīng)性的等級分層算法進(jìn)一步提高了計(jì)算效率。另外,AE-OT模型可以消除模式崩潰。

6. 實(shí)驗(yàn)結(jié)果

在這一部分,我們將展示實(shí)驗(yàn)結(jié)果。

6.1. 訓(xùn)練過程

圖10 . 不連續(xù)的OT映射,由基于Theorem 4.2的一個(gè)GPU算法實(shí)現(xiàn)生成。(a)源域; (b)目標(biāo)域。(a)圖中的γ1和γ2是兩個(gè)奇異點(diǎn)集合。

圖11 . 從Stanford兔子到實(shí)心球的OT映射。邊界曲面上的皺褶是奇異點(diǎn)集合。(a)~(d)顯示了變化過程。

圖12 . AE-OT模型生成的人臉圖像。(a)生成的實(shí)際人臉圖像;(b)經(jīng)過奇異點(diǎn)的路徑。(b)圖中心位置處的圖像的傳輸映射是非連續(xù)的。

AE-OT模型的訓(xùn)練主要包括兩個(gè)步驟,即訓(xùn)練AE和尋找OT映射。正如第4節(jié)所述,使用GPU的算法實(shí)現(xiàn)來完成OT的步驟。在訓(xùn)練AE過程中,我們使用Adam算法[49]來優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù),其中學(xué)習(xí)率為0.003,β1= 0.5,β2= 0.999。當(dāng)L2損失停止下降時(shí),這意味著神經(jīng)網(wǎng)絡(luò)找到了良好的編碼映射,我們固定編碼器部分并繼續(xù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)以獲得解碼映射。編碼器固定前后的訓(xùn)練損失見表1。接下來,為了找到從給定分布(我們在這里使用均勻分布)到隱空間特征的OT映射,我們從均勻分布中隨機(jī)采樣100N個(gè)隨機(jī)樣本點(diǎn)來計(jì)算能量梯度。這里,N是數(shù)據(jù)集隱空間特征的數(shù)目。實(shí)驗(yàn)中,θij對于不同數(shù)據(jù)集也是不一樣的。具體來說,對于MNIST和FASHION-MNIST兩個(gè)數(shù)據(jù)集,θij是0.75,但對于CIFAR10和CELEBA數(shù)據(jù)集,θij分別為0.68和0.75。

我們的AE-OT模型是在Linux平臺上通過使用Py-Torch來實(shí)現(xiàn)的。所有實(shí)驗(yàn)均在GTX1080Ti上進(jìn)行。

6.2. 傳輸映射不連續(xù)性測試

在這個(gè)實(shí)驗(yàn)中,我們的目的是去驗(yàn)證我們的假設(shè),即在大多數(shù)實(shí)際應(yīng)用中,目標(biāo)測度的支集是非凸的、奇異點(diǎn)集是非空的以及在奇異點(diǎn)集上概率分布變換映射是非連續(xù)的。

如圖12所示,我們使用AE來計(jì)算從CelebA數(shù)據(jù)集(Σ,υ)到隱空間Z的編碼和解碼映射,其中,編碼映射fθ:Σ→Z在隱空間上將υ前推為(fθ)#υ。在隱空間中,我們用第4節(jié)所描述的算法計(jì)算了OT映射,即T:Z→Z, 其中T將單位立方體ζ中的均勻分布映射為(fθ)#υ。然后,我們從分布ζ中隨機(jī)抽取樣本z,并使用解碼映射gξ:Z→Σ將T(z) 映射為生成的人臉圖像gξ ? T(z)。圖12(a)展示了由該AE-OT模型生成的實(shí)際人臉圖像。

如果隱空間中前推測度(fθ)#υ的支集是非凸的,則存在奇異點(diǎn)集合Σk,其中k>0。我們希望驗(yàn)證ΣK的存在。我們在隱空間的單位立方體中隨機(jī)劃上一條線段,然后沿著該線段密集插值以生成面部圖像。如圖12(b)所示,我們找到了一條線段γ,并生成了一個(gè)變形序列,該序列的起點(diǎn)是具有一對棕色眼睛的男孩面部圖像,終點(diǎn)是具有一對藍(lán)色眼睛的女孩面部圖像。在圖像中間部分,我們生成的人臉的一只眼睛是藍(lán)色的,另一只眼睛是棕色的。這些不真實(shí)人臉圖像,應(yīng)該在流形Σ之外。這意味著線段γ穿過了奇異點(diǎn)集Σk,而傳輸映射T在其上是不連續(xù)的,這也驗(yàn)證了我們的猜想是正確的,即被編碼的人臉圖像測度的支集在隱空間中是非凸的。

表1 編碼器固定前后AE的 L2損失

同時(shí),我們發(fā)現(xiàn)AE-OT模型將訓(xùn)練速度提升了5倍,并且提高了模型的收斂穩(wěn)定性,這是因?yàn)镺T過程是一種凸優(yōu)化過程。這為改進(jìn)現(xiàn)有的GAN模型提供了一種很有前途的方法。

6.3. 模式崩潰比較

由于合成數(shù)據(jù)集由明確的分布和已知模式組成,因此利用這種數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),可以精確地測量模式崩潰。我們選擇了兩個(gè)在之前的工作[50,51]中已經(jīng)研究或提出的合成數(shù)據(jù)集——2D網(wǎng)格數(shù)據(jù)集。

關(guān)于模式崩潰測量指標(biāo)的選擇,我們選取了三種以前使用過的指標(biāo)[50,51]。模式數(shù)量(number of modes)是指由生成模型生成的樣本所捕捉到的模式個(gè)數(shù)。在這個(gè)指標(biāo)中,如果在該模式的三個(gè)標(biāo)準(zhǔn)差范圍內(nèi)沒有生成樣本,則我們判定該模式已失效。高質(zhì)量樣本的百分比(percentage of high-quality samples)測量的是在最近模式的三個(gè)標(biāo)準(zhǔn)差范圍內(nèi)生成的樣本比例。參考文獻(xiàn)[51]使用了第三個(gè)測量指標(biāo),即逆Kullback-Leibler(KL)散度。對于這個(gè)指標(biāo),每個(gè)生成樣本都被分配給離其最近的模式,我們計(jì)算了被分配給每個(gè)模式的樣本的直方圖。該直方圖形成了一種離散分布,然后我們計(jì)算了由真實(shí)數(shù)據(jù)形成的直方圖的離散分布的KL散度。直觀地說,該指標(biāo)測量了生成樣本在所有模式間關(guān)于真實(shí)分布的平衡程度。

在參考文獻(xiàn)[51]中,作者用以上三種指標(biāo)評估了GAN [26]、ALI [52]、MD [30]和PacGAN [51]在合成數(shù)據(jù)集上的表現(xiàn)。每個(gè)訓(xùn)練實(shí)驗(yàn)使用的生成器都具有相同的網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練參數(shù)共約400k個(gè)。網(wǎng)絡(luò)訓(xùn)練的訓(xùn)練樣本共有100k個(gè),迭代次數(shù)為400次。對于AE-OT實(shí)驗(yàn),由于源空間和目標(biāo)空間都是2D,因此我們不需要訓(xùn)練任何AE。我們直接計(jì)算了單位正方形上的一致分布與真實(shí)數(shù)據(jù)分布之間的半離散OT映射。理論上,OT映射恢復(fù)所有模式所需的最小真實(shí)樣本數(shù)量是每個(gè)模式需要一個(gè)真實(shí)樣本。然而這可能導(dǎo)致在插值階段生成低質(zhì)量的樣本。因此,對于OT映射的計(jì)算,我們采用了512個(gè)真實(shí)樣本,并根據(jù)這個(gè)映射生成了新的樣本。在這種情況下,我們注意到,在OT映射的計(jì)算中只有512個(gè)參數(shù)需要被優(yōu)化,并且由于Hessian矩陣的正定性,優(yōu)化過程是穩(wěn)定的。我們的結(jié)果見表2,其中前面使用的方法的衡量標(biāo)準(zhǔn)見參考文獻(xiàn)[51]。我們在合成數(shù)據(jù)集上的結(jié)果和GAN、PacGAN的結(jié)果如圖13所示。

6.4. 與現(xiàn)有技術(shù)的比較

我們通過實(shí)驗(yàn)對本文提出的AE-OT模型和其他現(xiàn)有生成模型進(jìn)行了比較,現(xiàn)有生成模型主要包括Lucic等在參考文獻(xiàn)[33]中評估的對抗模型和Hoshen、Malik在參考文獻(xiàn)[36]中研究的非對抗模型。

出于公平考慮,我們采用了相同的測試數(shù)據(jù)集和網(wǎng)絡(luò)架構(gòu)。數(shù)據(jù)集與參考文獻(xiàn)[31,36]中的測試數(shù)據(jù)集類似,包括MNIST [53]、MNIST-Fansion [54]、CIFAR-10[55]和CelebA [56]。網(wǎng)絡(luò)架構(gòu)與參考文獻(xiàn)[33]中Lucic等使用的網(wǎng)絡(luò)架構(gòu)類似。特別是,在我們的AE-OT模型中,解碼器的架構(gòu)和參考文獻(xiàn)[33]中GAN生成器的架構(gòu)一樣,并且編碼器和解碼器是對稱的。

我們利用FID評分[31]和PRD曲線作為評估標(biāo)準(zhǔn)來比較我們的模型和現(xiàn)有的生成模型。FID評分衡量了生成結(jié)果的視覺保真度,并且對圖象損壞具有魯棒性。但是FID評分對模式的添加和刪除非常敏感[33],因此我們又使用了PRD曲線,PRD曲線可以量化真實(shí)數(shù)據(jù)集上模式丟失和添加的程度[32]。

6.4.1. 利用FID評分進(jìn)行比較

FID評分計(jì)算方法如下:①通過運(yùn)行inception網(wǎng)絡(luò)[30]來提取生成圖像和真實(shí)圖像中有視覺意義的特征;②利用Gaussian分布來擬合真實(shí)圖像和生成圖像的分布;③用如下公式計(jì)算兩個(gè)Gaussian分布之間的距離:

表2 2D格點(diǎn)數(shù)據(jù)集上的模式崩潰比較

圖13 . 2D格點(diǎn)數(shù)據(jù)集上的模式崩潰比較。(a)GAN;(b)PacGAN4;(c)AE-OT。橙色點(diǎn)代表真實(shí)樣本,綠色點(diǎn)代表生成樣本。

式中,μr和μg分別代表真實(shí)分布的均值和生成分布的均值;Σr和Σg分別代表兩個(gè)分布的方差。

比較的結(jié)果見表3和表4,幾種GAN的統(tǒng)計(jì)數(shù)據(jù)來自Lucic等[33],非對抗生成模型的統(tǒng)計(jì)數(shù)據(jù)則來自于Hoshen和Malik [36]。一般,我們提出的模型比其他現(xiàn)有生成模型能夠獲得更好的FID評分。

理論上來說,我們的AE-OT模型的FID評分和之前預(yù)訓(xùn)練的AE的FID評分接近,這從我們的實(shí)驗(yàn)中也得到了證實(shí)。

我們的AE采用的是Lucic等在參考文獻(xiàn)[33]中提到的固定網(wǎng)絡(luò)結(jié)構(gòu),它的性能不足以編碼 CIFAR-10或者 CelebaA,因此我們必須下采樣這些數(shù)據(jù)集。我們從CIFAR-10中隨機(jī)選擇了2.5×104張圖像和從CelebaA中隨機(jī)選擇了1.0×104張圖像來訓(xùn)練模型。即使是這樣,我們的模型在CIFAR-10上依然取得了最好的FID評分。由于InfoGAN模型容量的有限性,CelebA的AE性能的FID評分(67.5)并不理想,這就使得生成的數(shù)據(jù)集的FID評分為68.4。通過在AE架構(gòu)中增加兩個(gè)額外的卷積層,CelebA的L2損失將低于0.03,而且FID評分也超過了所有其他模型(28.6,如表4括號中所示)。

6.4.2. 利用PRD曲線進(jìn)行比較

FID評分是度量生成分布和真實(shí)數(shù)據(jù)分布之間差距的一個(gè)有效方法,但它主要用于評價(jià)精確度,它不能準(zhǔn)確地捕捉生成模型所能覆蓋的真實(shí)數(shù)據(jù)比例。參考文獻(xiàn)[32]中的方法將分布之間的散度分解為兩個(gè)部分,即精確度和查全率。

給定一個(gè)參考分布P和一個(gè)學(xué)習(xí)分布Q,精確度可直觀地衡量Q中樣本的質(zhì)量,而查全率衡量了Q所覆蓋的P的比例。

我們使用Sajjadi等在參考文獻(xiàn)[32]中介紹的(F8,F1/8)的概念量化了精確度和查全率的相對重要程度。圖14總結(jié)了對比結(jié)果。每個(gè)點(diǎn)代表的是一個(gè)有超參數(shù)集的具體模型。點(diǎn)離右上角越近,模型的性能越好。藍(lán)色和綠色的點(diǎn)分別表示了參考文獻(xiàn)[32]中評估的GAN和VAE,黃色的點(diǎn)代表的是參考文獻(xiàn)[36]中的GLANN模型,而紅色的點(diǎn)代表的是我們的AE-OT模型。

顯然,在MNIST和FASHION-MNIST數(shù)據(jù)集上,我們提出的模型的性能要優(yōu)于其他模型。對于CIFAR-10數(shù)據(jù)集,我們模型的精確度比GAN和GLANN的稍低,但是查全率是最高的。對于CelebA數(shù)據(jù)集,由于AE容量有限,我們的模型表現(xiàn)得不是很可觀。但是,在AE里添加兩個(gè)卷積層后,我們的模型得到了最高的評分。

6.4.3. 可視化比較

圖15顯示了由我們所提出的方法生成的圖像和參考文獻(xiàn)[33]中Lucic等研究的GAN以及參考文獻(xiàn)[36]中Hoshen和Malik研究的非對抗模型生成的圖像之間的可視化的比較結(jié)果。第一列是初始圖像,第二列是由AE生成的結(jié)果,第三列是由Lucic等[33]采用GAN得到的最好的生成結(jié)果,第四列是由Hoshen和Malik采用模型生成的結(jié)果,最后一列是用我們方法生成的結(jié)果。很明顯,采用我們的方法生成了高質(zhì)量的圖像并且該圖像包含了所有模式。

表3 用FID進(jìn)行定量比較-I

表4 用 FID 進(jìn)行定量比較-II

圖14 . 在四個(gè)數(shù)據(jù)集上,以(F8, F1/8)的精確度-查全率進(jìn)行比較。(a)MNIST;(b)FASHION;(c)CIFAR-10;(d)CelebA。黃褐色的點(diǎn)表示參考文獻(xiàn)[36]中的結(jié)果。紅色的點(diǎn)是利用本文所提出的方法生成的結(jié)果。(d)中紫色的點(diǎn)代表添加兩個(gè)卷積層后,利用本文所提出的方法生成的結(jié)果。

圖15 . 生成圖像質(zhì)量在 4 個(gè)數(shù)據(jù)集上的可視化比較。第一列(a)是真實(shí)數(shù)據(jù);第二列(b)是由AE生成的結(jié)果;第三列(c)顯示的是由GAN[33]以最高的精確度-查全率(F8, F1/8)生成的結(jié)果,它對應(yīng)著圖14中的B點(diǎn);第四列(d)是參考文獻(xiàn)[36]中的結(jié)果;最后一列(e)是利用本文所提出的方法生成的結(jié)果。

7. 結(jié)論

本文利用OT理論來解釋GAN。根據(jù)數(shù)據(jù)流形分布假設(shè),GAN主要完成兩個(gè)任務(wù)——流形學(xué)習(xí)和概率分布變換。概率分布變換可以利用OT方法直接實(shí)現(xiàn)。OT理論解釋了模式崩潰的基本原因,并指出生成器和判別器之間應(yīng)該是合作而非競爭的內(nèi)在關(guān)系。此外,我們提出了AE-OT模型,該模型提高了理論的嚴(yán)謹(jǐn)性、增強(qiáng)了訓(xùn)練的穩(wěn)定性和效率,并且消除了模式崩潰問題。

我們的實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的理論推測,即如果分布傳輸映射是不連續(xù)的,那么奇異點(diǎn)集的存在會導(dǎo)致模式崩潰。此外,通過將我們提出的模型與現(xiàn)有最先進(jìn)的模型進(jìn)行比較發(fā)現(xiàn),我們提出的模型消除了模式崩潰,并在FID評分和PRD曲線方面要優(yōu)于其他模型。

未來,我們將對流形學(xué)習(xí)階段的理論理解進(jìn)行探索,并用嚴(yán)格的方法使這部分黑匣子透明化。

致謝

本研究得到國家自然科學(xué)基金項(xiàng)目(61936002、61772105、61432003、61720106005和61772379)的資助。

Compliance with ethics guidelines

Na Lei, Dongsheng An, Yang Guo, Kehua Su, Shixia Liu, Zhongxuan Luo, Shing-Tung Yau, and Xianfeng Gu declare that they have no conflicts of interest or financial conflicts to disclose.

猜你喜歡
流形勢能測度
作 品:景觀設(shè)計(jì)
——《勢能》
“動能和勢能”知識鞏固
三個(gè)數(shù)字集生成的自相似測度的乘積譜
R1上莫朗測度關(guān)于幾何平均誤差的最優(yōu)Vornoi分劃
“動能和勢能”隨堂練
非等熵Chaplygin氣體測度值解存在性
Cookie-Cutter集上的Gibbs測度
緊流形上的Schr?dinger算子的譜間隙估計(jì)
迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
動能勢能巧辨析
巨鹿县| 元阳县| 松原市| 五河县| 灵丘县| 措美县| 长葛市| 伽师县| 桓台县| 兰州市| 武平县| 周口市| 华蓥市| 禄丰县| 昌宁县| 日土县| 贡觉县| 深水埗区| 鄂托克旗| 石景山区| 奎屯市| 宾阳县| 贺州市| 上高县| 天津市| 墨脱县| 永新县| 永宁县| 鹤山市| 栾城县| 东明县| 施秉县| 吕梁市| 文山县| 五河县| 阿坝县| 伊吾县| 中西区| 海淀区| 岳普湖县| 新平|