顏夢玫,楊冬平
(1.福州大學(xué) 先進(jìn)制造學(xué)院,福建 泉州 362000;2.中國科學(xué)院海西研究院 泉州裝備制造研究中心,福建 泉州 362200;3.之江實(shí)驗(yàn)室 混合增強(qiáng)智能研究中心,杭州 311101)
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)最初主要應(yīng)用于參數(shù)初始化的預(yù)訓(xùn)練過程[1],后來利用具有深度的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)識(shí)別圖像[2]。DNN 吸引了眾多研究者的關(guān)注,由此掀起了深度學(xué)習(xí)的熱潮。然而,盡管DNN 在應(yīng)用領(lǐng)域取得了顯著的成功,但其背后的決策機(jī)理仍不夠明確。目前,深度學(xué)習(xí)方法仍然是一門高度實(shí)踐的藝術(shù),充滿許多啟發(fā)式的技巧,并非一門精確的科學(xué)。這一缺陷對(duì)于金融、醫(yī)療、公共安全和國防等領(lǐng)域通常是致命的[3]。因此,需要構(gòu)建一個(gè)成熟的DNN 理論指導(dǎo)深度學(xué)習(xí)中的廣泛工程應(yīng)用,進(jìn)而優(yōu)化深度學(xué)習(xí)算法。盡管近年來在深度學(xué)習(xí)理論方面取得一些成效,但大部分工作專注研究單個(gè)隱藏層網(wǎng)絡(luò),深度網(wǎng)絡(luò)的理論在很大程度上仍懸而未決。
DNN 與傳統(tǒng)的淺層網(wǎng)絡(luò)的本質(zhì)區(qū)別在于網(wǎng)絡(luò)的深度,而DNN 成功的一個(gè)關(guān)鍵因素在于它的高表達(dá)性:一方面,它可以緊湊地以一種淺層網(wǎng)絡(luò)無法做到的方式表達(dá)輸入空間的高度復(fù)雜函數(shù)。此外,DNN 可以將輸入空間中的高度彎曲流形在隱含層空間中解耦為扁平流形,有利于簡單地線性讀出。這些DNN 的直覺理解完全可以通過現(xiàn)有的平均場理論(Mean Field Theory,MFT)來描述、分析和探討[4]。MFT 不僅可用于描述與分析特定DNN 的訓(xùn)練過程[5],還可以探討DNN 的泛化性能及關(guān)鍵因素[6]。這些理論研究成果,讓人們看到MFT 在構(gòu)建一個(gè)統(tǒng)一理解DNN 運(yùn)行機(jī)制理論框架中是一個(gè)非常重要的基本理論方法。
近年來,美國斯坦福大學(xué)Ganguli 團(tuán)隊(duì)[4]利用動(dòng)力學(xué)平均場理論(Dynamic Mean Field Theory,DMFT)和黎曼幾何[7]研究了DNN 的高表達(dá)性:信息在DNN 中有效傳播機(jī)制和全局曲率隨深度指數(shù)增長?;贒MFT 的信息有效傳播機(jī)制最早起源于20 世紀(jì)80 年代Sompolinsky 等[8]開創(chuàng)性提出的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型,通過DMFT 分析發(fā)現(xiàn)系統(tǒng)隨參數(shù)變化可以從有序態(tài)相變到混沌態(tài),以及發(fā)現(xiàn)混沌邊緣(Edge of Chaos,EoC)的相變點(diǎn)。Ganguli 團(tuán)隊(duì)利用離散時(shí)間的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型[9],將該模型中的時(shí)間點(diǎn)替換成DNN 中網(wǎng)絡(luò)的層數(shù)號(hào),發(fā)現(xiàn)網(wǎng)絡(luò)在EoC 的參數(shù)下呈現(xiàn)出更高的表達(dá)能力。
從MFT 的角度研究DNN 的初始化,發(fā)現(xiàn)了兩個(gè)影響網(wǎng)絡(luò)訓(xùn)練的性質(zhì):前向信息傳播對(duì)于不同樣本的表達(dá)性(Expressivity)和反向梯度傳播的可訓(xùn)練性(Trainability)。在隨機(jī)DNN 中,由表達(dá)性和可訓(xùn)練性確定的超參數(shù)范圍已經(jīng)得到了實(shí)驗(yàn)驗(yàn)證[10-15],當(dāng)網(wǎng)絡(luò)初始化在EoC 附近時(shí),其表達(dá)性和測試精度都會(huì)較高。此外,研究發(fā)現(xiàn),誤差的有效反向傳播需要網(wǎng)絡(luò)參數(shù)滿足所謂的動(dòng)力等距(Dynamical Isometry,DI)條件[16-18]。在這種條件下,研究人員成功訓(xùn)練了在沒有批量歸一化和殘差網(wǎng)絡(luò)結(jié)構(gòu)幫助下的單純一萬層的CNN[11]。
對(duì)于隨機(jī)初始化的DNN,通過MFT 更進(jìn)一步地發(fā)現(xiàn),在網(wǎng)絡(luò)無限寬的極限(網(wǎng)絡(luò)被過度參數(shù)化)下[19]:如果只訓(xùn)練網(wǎng)絡(luò)的最后一層,可以用神經(jīng)網(wǎng)絡(luò)高斯過程(Neural Network Gaussian Process,NNGP)核的核無嶺(Ridgeless)回歸描述網(wǎng)絡(luò)的訓(xùn)練[20],DNN 與NNGP 的內(nèi)在聯(lián)系使人們可以確切地用貝葉斯推斷回歸訓(xùn)練DNN;如果訓(xùn)練所有的層,可以用神經(jīng)正切核(Neural Tangent Kernel,NTK)[5]描述,這種描述使人們可以直接研究DNN 中無窮維的函數(shù)空間和超級(jí)復(fù)雜的參數(shù)空間。
事實(shí)上,深度學(xué)習(xí)中的關(guān)鍵泛化現(xiàn)象也發(fā)生在核方法中:要理解深度學(xué)習(xí)中的泛化,必須先理解核方法中的泛化。哈佛大學(xué)Pehlevan 團(tuán)隊(duì)[6]利用MFT 推導(dǎo)出了核回歸的平均泛化誤差的解析表達(dá)式,提出DNN 泛化的關(guān)鍵因素在于核與任務(wù)的本征譜匹配度。這個(gè)理論揭示了各種泛化現(xiàn)象,包括訓(xùn)練過程中泛化誤差表現(xiàn)出的非單調(diào)行為。該理論進(jìn)一步指出,核回歸的歸納偏置為學(xué)習(xí)曲線的非單調(diào)行為提供了機(jī)理上的理解,并為所謂的“雙重下降”現(xiàn)象[21]提供見解。
因此,MFT 為研究DNN 的運(yùn)行機(jī)理提供了一個(gè)非常重要的基本理論手段。MFT 能從理論角度初步探索深度學(xué)習(xí)中的初始化、訓(xùn)練過程和泛化機(jī)制,進(jìn)而可以在工程上指導(dǎo)深度學(xué)習(xí)算法進(jìn)行改進(jìn)和優(yōu)化[22]。然而,目前國內(nèi)基于深度學(xué)習(xí)理論的相關(guān)科研人員缺少對(duì)DNN 在深度學(xué)習(xí)中取得顯著成功的內(nèi)在機(jī)理的廣泛認(rèn)識(shí),特別是MFT 在理解DNN運(yùn)行機(jī)制中發(fā)揮的基礎(chǔ)性作用。本文對(duì)DNN 現(xiàn)有MFT 的研究進(jìn)行了整理和回顧,從網(wǎng)絡(luò)初始化、訓(xùn)練過程和網(wǎng)絡(luò)泛化性能這三個(gè)方面的理論理解入手,并在各種人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)中進(jìn)行了相關(guān)對(duì)比分析,關(guān)于DNN 內(nèi)在機(jī)理的理解與邏輯框架如圖1 所示。此外,本文還分析了該領(lǐng)域仍存在的難點(diǎn)并展望未來研究趨勢,為進(jìn)一步深入研究深度學(xué)習(xí)理論提供參考。
圖1 MFT在理解DNN內(nèi)在機(jī)理的研究框架Fig.1 Research framework of MFT in understanding intrinsic mechanisms of DNN
DNN 初始化從以下兩個(gè)特性分析:前向信息傳播對(duì)于不同樣本的表達(dá)性和反向梯度傳播的可訓(xùn)練性。這兩種特性分別對(duì)應(yīng)DNN 中的EoC 和DI,如圖2 所示。
圖2 DNN前向信息傳播和反向梯度傳播的兩個(gè)特性Fig.2 Two characteristics of forward information propagation and backward gradient propagation in DNN
1.1.1 隨機(jī)網(wǎng)絡(luò)動(dòng)力學(xué)
通過Sompolinsky 等[8]研究的隨機(jī)非對(duì)稱耦合相互作用的N個(gè)非線性神經(jīng)元網(wǎng)絡(luò)的連續(xù)時(shí)間動(dòng)態(tài)模型,當(dāng)N→∞時(shí),運(yùn)用自洽MFT,可以發(fā)現(xiàn)在增益參數(shù)g>0 時(shí)的臨界值處發(fā)生有序態(tài)到混沌態(tài)的相變。EoC 相變點(diǎn)處的系統(tǒng)狀態(tài)具有無窮長時(shí)間關(guān)聯(lián)的性質(zhì),該網(wǎng)絡(luò)的動(dòng)力學(xué)可由N個(gè)耦合的一階微分方程描述[8](符號(hào)定義見表1),即
表1 相關(guān)變量定義與對(duì)比Tab.1 Definition and comparison of relevant variables
該性質(zhì)在具有離散時(shí)間動(dòng)力學(xué)的系統(tǒng)中也成立。Molgedey 等[9]在此基礎(chǔ)上將動(dòng)態(tài)模型的時(shí)間t離散化,研究在外部噪聲影響下的隨機(jī)非對(duì)稱全連接網(wǎng)絡(luò)的離散時(shí)間動(dòng)力學(xué),即
1.1.2 神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)
用神經(jīng)網(wǎng)絡(luò)層數(shù)l取代離散的時(shí)間變量t,用權(quán)重矩陣W代替突觸連接Jij,每層l有Nl個(gè)神經(jīng)元,由輸入x0引發(fā)的前饋動(dòng)力學(xué)(符號(hào)定義見表1)即為:
其中?為非線性激活函數(shù)。在每層寬度足夠大的極限下,即Nl?1,單輸入向量x0的長度q0在網(wǎng)絡(luò)傳播中會(huì)發(fā)生變化。對(duì)于大Nl,可以得到ql的高斯分布迭代式:
同樣,兩個(gè)輸入x0,1和x0,2的高斯積分形式可表示為:
其中:z1和z2為獨(dú)立的標(biāo)準(zhǔn)高斯變量為u1和u2相關(guān)高斯變量的協(xié)方差矩陣。
圖3 有序態(tài)-混沌態(tài)的相變圖Fig.3 Ordered state-chaotic state phase transition diagram
可以直觀地把χ(σw,σb)作為判斷臨界的序參量。控制有序態(tài)-混沌態(tài)的參數(shù)對(duì)比見表2。
表2 控制相變的參數(shù)Tab.2 Parameters controlling phase transition
總的來說,這是EoC 性質(zhì)在神經(jīng)網(wǎng)絡(luò)中的重要理論分析,結(jié)合MFT 深入分析了信號(hào)在通過大型隨機(jī)前饋網(wǎng)絡(luò)的確定性性質(zhì),揭示了由權(quán)重和偏置的統(tǒng)計(jì)函數(shù)控制的有序態(tài)到混沌態(tài)相變的存在,并且發(fā)現(xiàn)在相變點(diǎn)上有限深度演化的暫態(tài)混沌是深度隨機(jī)網(wǎng)絡(luò)具有指數(shù)表達(dá)性的基礎(chǔ)。
1.1.3 混沌邊緣的具體應(yīng)用
EoC在深度神經(jīng)網(wǎng)絡(luò)參數(shù)初始化中起重要作用。Mishkin等[23]認(rèn)為一個(gè)好的初始化條件很有必要:初始化參數(shù)設(shè)置得當(dāng),網(wǎng)絡(luò)可以訓(xùn)練得很深,訓(xùn)練精度在EoC 附近甚至可達(dá)到100%。表3 顯示了EoC 在不同網(wǎng)絡(luò)的作用,其中對(duì)比了有無EoC情況下達(dá)到目標(biāo)準(zhǔn)確率所需要的迭代次數(shù)。從表3中可以明顯看出,使用EoC初始化時(shí),所需迭代次數(shù)更少;在沒有EoC下,無論目標(biāo)準(zhǔn)確率如何設(shè)置,所需迭代次數(shù)都比有EoC時(shí)多。雖然全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等網(wǎng)絡(luò)在EoC 附近初始化可以訓(xùn)練得很深,但對(duì)于Dropout 網(wǎng)絡(luò),它的最大網(wǎng)絡(luò)層數(shù)的設(shè)定是有上限的[10]。
表3 EoC在各種人工神經(jīng)網(wǎng)絡(luò)中的作用Tab.3 Roles of EoC in various ANNs
給定損失函數(shù)為L 時(shí),反向傳播方程可表示為:
由式(7)可知,χ(σw,σb)控制有序態(tài)-混沌態(tài)的相變,可由ξ?是否發(fā)散表示相變,ξ?與χ、g控制相變的詳細(xì)取值對(duì)比如表2 所示。
若梯度不獨(dú)立,邊界參數(shù)需修正[25]。由MFT 可知:
前面的ξ?通過計(jì)算得出(6ξ2),而在梯度不獨(dú)立的假設(shè)下,可通過計(jì)算整體的得到新的ξ?(12ξ1與12ξ2)。
1.2.1 表達(dá)性與復(fù)雜性
神經(jīng)網(wǎng)絡(luò)的表達(dá)能力取決于它的網(wǎng)絡(luò)架構(gòu),更深的網(wǎng)絡(luò)可表達(dá)更復(fù)雜的功能。對(duì)于分段線性函數(shù)網(wǎng)絡(luò),比如ReLU(Rectified Linear Unit)激活函數(shù)網(wǎng)絡(luò),它的網(wǎng)絡(luò)表達(dá)能力可以用不同線性區(qū)域數(shù)度量,也可以通過將網(wǎng)絡(luò)調(diào)整為接近線性狀態(tài)使網(wǎng)絡(luò)具有高表達(dá)能力[26]。Serra 等[27]從理論和實(shí)驗(yàn)的角度進(jìn)行相關(guān)驗(yàn)證。
1.2.2 信息傳播與反向傳播
通過MFT 研究隨機(jī)權(quán)重和偏差分布的未訓(xùn)練的神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)行為,可以定義一種可訓(xùn)練的深度尺度,并且該深度尺度自然而然地限制了隨機(jī)網(wǎng)絡(luò)傳播信號(hào)的最大深度[10]。由此可見,神經(jīng)網(wǎng)絡(luò)的隨機(jī)權(quán)重初始化在深度學(xué)習(xí)分析中起著重要作用。盡管這些網(wǎng)絡(luò)由隨機(jī)矩陣構(gòu)建,可以用隨機(jī)矩陣?yán)碚摚≧andom Matrix Theory,RMT)分析,但對(duì)于非線性網(wǎng)絡(luò),現(xiàn)有的數(shù)學(xué)結(jié)果并不能直接利用。為此,Pennington 等[28]在逐點(diǎn)(Pointwise)非線性化神經(jīng)網(wǎng)絡(luò)中利用自由概率論方法將RMT 應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)。另外,Yang等[26]的理論表明,梯度信號(hào)隨深度呈指數(shù)增長,無法通過調(diào)整初始權(quán)重方差或調(diào)整非線性激活函數(shù)消除爆炸性梯度。他們認(rèn)為批量歸一化本身就是梯度爆炸的原因,對(duì)于沒有跳躍連接(Skip connections)的普通批量歸一化無法在DNN 訓(xùn)練。雖然無法完全消除梯度爆炸,但可以盡可能調(diào)整網(wǎng)絡(luò)為線性狀態(tài)以減少梯度爆炸的影響,提高沒有殘差連接的深度歸一化網(wǎng)絡(luò)的可訓(xùn)練性。
1.2.3 網(wǎng)絡(luò)可訓(xùn)練能力
經(jīng)典的前饋神經(jīng)網(wǎng)絡(luò)在前向輸入傳播和反向梯度傳播時(shí),都隨深度表現(xiàn)出指數(shù)行為。其中前向動(dòng)力學(xué)指數(shù)行為導(dǎo)致輸入空間幾何形狀快速崩潰,反向動(dòng)力學(xué)指數(shù)行為導(dǎo)致梯度急劇消失或爆炸。在EoC 假設(shè)下,網(wǎng)絡(luò)在穩(wěn)定態(tài)和混沌態(tài)之間的邊界徘徊,保持輸入空間的幾何形狀和梯度信息流,從而增強(qiáng)網(wǎng)絡(luò)的可訓(xùn)練能力。Yang 等[29]將此理念用于殘差網(wǎng)絡(luò),從理論和經(jīng)驗(yàn)上證明了Xavier 或He 等[30]的方案等常見初始化對(duì)于殘差網(wǎng)絡(luò)并非最優(yōu),因?yàn)闆Q定最優(yōu)初始化的方差取決于網(wǎng)絡(luò)深度,與EoC 相關(guān)。Hayou 等[31]從不同激活函數(shù)網(wǎng)絡(luò)的層面上,用MFT 分析了EoC 對(duì)可訓(xùn)練神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化的作用。
1.3.1 Jacobian矩陣
DNN 能很好進(jìn)行訓(xùn)練的原因是:反向傳播過程中的梯度既沒消失也未發(fā)生爆炸,維持在一種穩(wěn)定的狀態(tài)。因此,需逐步剖析梯度更新與傳播的內(nèi)在機(jī)理,旨在改進(jìn)與優(yōu)化現(xiàn)有網(wǎng)絡(luò)算法。對(duì)于損失函數(shù)為L 的網(wǎng)絡(luò),它的梯度鏈?zhǔn)礁驴梢员硎緸椋?/p>
其中:xL表示最后一層的輸入,xl表示第l層的輸入。要想梯度更新能順利從最后一層傳到前面層,需要保證的值在1 附近,Saxe 等[17]將初步定義為一種端到端Jacobian 矩陣,即
該Jacobian 矩陣捕獲了輸入擾動(dòng)經(jīng)過網(wǎng)絡(luò)傳播對(duì)輸出的影響。
DI 概念首次被Saxe 等[17]提出,即滿足輸入-輸出Jacobian 矩陣的奇異值分布在1 附近:
其中:Dl是對(duì)角矩陣,它的矩陣元素滿足對(duì)于Jacobian 矩陣譜的理論計(jì)算,需要用到自由概率論中的S變換將Dl和Wl拆成單獨(dú)兩項(xiàng)計(jì)算,具體計(jì)算過程如圖4 所示,上部分框圖表示W(wǎng)l的S 變換過程,下部分框圖表示最終Jacobian 矩陣JJT的S 逆變換過程。為簡便計(jì)算,考慮求解矩陣JJT的譜分布,其特征值開根號(hào)即為Jacobian 矩陣的特征值。其中:①表示Stieltjes transform;②得到矩生成函數(shù)MX;③為功能函數(shù)的逆變換過程;④為S 變換;⑤為S 變換過程的合并:
圖4 Jacobian矩陣譜計(jì)算流程Fig.4 Computing flow of Jacobian matrix spectrum
如果A和B為兩個(gè)相互獨(dú)立的隨機(jī)矩陣,它們隨機(jī)矩陣乘積的 S 變換就是它們 S 變換的乘積,即SAB(z)=SA(z)SB(z)。⑥為Dl的S變換的中間求解過程,與③和④相同。⑦得到JJT的逆矩生成函數(shù)。⑧因?yàn)镴JT矩陣特別龐大且復(fù)雜,已經(jīng)不能用式子表示,只能通過隱式求解來數(shù)值計(jì)算矩陣JJT的矩生成函數(shù)。⑨類似于過程②。通過⑩則可以求得最終矩陣JJT的譜密度表現(xiàn)形式。最后,根據(jù)不同激活函數(shù)?的設(shè)定,可以將Jacobian 矩陣譜的形態(tài)劃分為Bernoulli 類和Smooth 類[32]兩類。對(duì)于某些特殊的權(quán)重矩陣,可以利用隨機(jī)矩陣?yán)碚撉蠼馓卣髯V,比如隨機(jī)高斯非對(duì)稱實(shí)矩陣譜分布服從Girko 定律(整圓率)[33],對(duì)稱則服從半圓率[34];如果是稀疏矩陣或者是厄米與非厄米矩陣,可以采用空腔方法或復(fù)本方法求解。
1.3.2 動(dòng)力等距的具體應(yīng)用
由前文可知:DNN 的前向傳播體現(xiàn)了高表達(dá)性,可通過EoC 性質(zhì)刻畫;而反向傳播則更注重網(wǎng)絡(luò)的可訓(xùn)練性,梯度傳播的穩(wěn)定性可用DI 刻畫,即梯度既不會(huì)消失也不會(huì)爆炸。這兩種結(jié)論已經(jīng)在全連接網(wǎng)絡(luò)(Fully Connected Network,F(xiàn)CN)[10]、CNN[11]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[12]和殘差神經(jīng)網(wǎng)絡(luò)(ResNets)[13]等得到實(shí)驗(yàn)驗(yàn)證,當(dāng)滿足DI 時(shí),網(wǎng)絡(luò)的訓(xùn)練速度會(huì)特別快[17],在沒有批量歸一化和殘差結(jié)構(gòu)幫助下,還能成功訓(xùn)練一萬層CNN[11]。表4 中列舉了使用DI 后與原網(wǎng)絡(luò)的測試精度對(duì)比,其中“—”表示沒有DI 條件時(shí)網(wǎng)絡(luò)不能訓(xùn)練。
表4 DI對(duì)各種人工神經(jīng)網(wǎng)絡(luò)測試精度的提升作用Tab.4 Role of DI in improvement of test accuracies for various ANNs
對(duì)于Jacobian 矩陣譜,不同網(wǎng)絡(luò)的不同Dl可用自由概率論求解,具體對(duì)比分析如表5 所示。其中滿足DI 正交化的方式大致可以分為三種:直接隨機(jī)權(quán)重矩陣正交化、設(shè)定權(quán)重矩陣S 變換后的特征值為0,以及Jacobian 矩陣譜的特征值為1 或-1。另外Yang 等還從數(shù)學(xué)層面對(duì)神經(jīng)網(wǎng)絡(luò)中的平均場性質(zhì)進(jìn)行了進(jìn)一步的理論分析,比如,EoC 處的殘差網(wǎng)絡(luò)[29]、批量歸一化中的平均場[26]和無限寬的超參數(shù)網(wǎng)絡(luò)[35]等。
滿足DI 的DNN 可通過以下兩個(gè)方面構(gòu)建:
1)隨機(jī)正交化。對(duì)于深度線性網(wǎng)絡(luò),可以通過正交權(quán)重初始化實(shí)現(xiàn)DI,這已被證明可以顯著提高學(xué)習(xí)速度,比沒有實(shí)現(xiàn)DI 的網(wǎng)絡(luò)學(xué)習(xí)速度快幾個(gè)量級(jí)[17]。在非線性情況下,通過自由概率論的強(qiáng)大工具分析計(jì)算深度網(wǎng)絡(luò)輸入輸出Jacobian 行列式的整個(gè)奇異值分布。在此基礎(chǔ)上,Xiao 等[11]提出了一種用于生成隨機(jī)初始正交卷積核算法,能訓(xùn)練一萬層或更多層的Vanilla CNN。Rodríguez 等[36]在正則化基礎(chǔ)上,研究了一種局部強(qiáng)制特征正交性的新型正則化技術(shù)(OrthoReg),在特征去相關(guān)中施加局部約束消除負(fù)相關(guān)特征權(quán)重之間的干擾,使正則化器能達(dá)到更高的去相關(guān)邊界,更有效地減少過擬合。這種正則化技術(shù)可以直接運(yùn)用于權(quán)重上并適用于全卷積神經(jīng)網(wǎng)絡(luò)。此外,Xie 等[37]利用不同濾波器組之間的正交性的正則化器變體加強(qiáng)網(wǎng)絡(luò)的可訓(xùn)練性,還結(jié)合了殘差結(jié)構(gòu)在ImageNet 數(shù)據(jù)集實(shí)現(xiàn)了相關(guān)性能比較。對(duì)于較難訓(xùn)練的RNN,Arjovsky 等[38]構(gòu)建了一種歸一化權(quán)重矩陣新架構(gòu),使它的特征值的絕對(duì)值恰好為1 以優(yōu)化網(wǎng)絡(luò)訓(xùn)練過程。另一種更簡單的解決方案是使用單位(Identity)矩陣或其縮放(Scaled)版本初始化循環(huán)權(quán)重矩陣[39]。在DNN中,Li 等[40]介紹了一種正交DNN,建立了一個(gè)新的泛化誤差界。在CNN 中也有相關(guān)正交性的應(yīng)用[41]。Guo 等[42]提出一種新的正交特征變換Ortho-GConv,用于增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)主干,以穩(wěn)定模型訓(xùn)練并提高模型的泛化性能。
2)等距懲罰項(xiàng)。雖然可以直接設(shè)置正交化條件以滿足DI 初始化,但在訓(xùn)練過程中很難保證,需要對(duì)損失函數(shù)設(shè)置相關(guān)DI 的約束條件,使網(wǎng)絡(luò)在訓(xùn)練過程中也一直保持DI 性質(zhì)。初始化、歸一化和殘差連接被認(rèn)為是訓(xùn)練非常深的CNN并獲得最先進(jìn)性能的三種不可或缺的技術(shù),文獻(xiàn)[43]中通過在初始化和訓(xùn)練期間強(qiáng)制卷積核接近等距,也可以訓(xùn)練沒有歸一化或殘差連接的深度Vanilla CNN。
用MFT 研究DNN 的過參數(shù)化網(wǎng)絡(luò),可以將前向初始化近似為高斯過程,反向梯度訓(xùn)練過程近似為NTK。
在神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)學(xué)習(xí)過程中,訓(xùn)練誤差和泛化誤差不能同時(shí)兼顧,它們之間為此消彼長的關(guān)系。但是Belkin 等[21]發(fā)現(xiàn)當(dāng)參數(shù)足夠多時(shí),訓(xùn)練誤差和泛化誤差之間可以保持一種平衡。因此,過參數(shù)化,即在極限條件下網(wǎng)絡(luò)寬度趨向無窮,從某種程度上具有一定優(yōu)勢。Huang 等[44]從不同數(shù)據(jù)集的層面,對(duì)比分析了過參數(shù)化的優(yōu)勢,發(fā)現(xiàn)參數(shù)越多的網(wǎng)絡(luò)具有更高的測試精度和更強(qiáng)的泛化能力。Arora 等[45]揭示了兩層網(wǎng)絡(luò)在過參數(shù)化情況下對(duì)任意數(shù)據(jù)進(jìn)行泛化的原因。Du 等[46]認(rèn)為兩層神經(jīng)網(wǎng)絡(luò)成功的原因之一是隨機(jī)初始化的一階方法,如梯度下降,即使目標(biāo)函數(shù)是非凸的和非光滑的,也可以在訓(xùn)練過程中達(dá)到零損失的狀態(tài)[47]。雖然具有隨機(jī)初始化的基于梯度的算法可以收斂至過參數(shù)化的神經(jīng)網(wǎng)絡(luò)訓(xùn)練損失函數(shù)的全局最小值,但是保證全局收斂的神經(jīng)網(wǎng)絡(luò)寬度條件非常嚴(yán)格。Zou 等[48]采用一種更溫和(Milder)的過參數(shù)化條件,對(duì)DNN 訓(xùn)練過程中的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)的全局收斂性進(jìn)行了改進(jìn)分析。
過參數(shù)化的網(wǎng)絡(luò)易于平均場理論分析。因?yàn)樵趨?shù)趨于無窮的極限條件下可以用現(xiàn)有的一些理論解釋,例如,熱力學(xué)極限定律、統(tǒng)計(jì)力學(xué)等。另外,參數(shù)多使得知道的先決條件也多,可以用貝葉斯推斷網(wǎng)絡(luò)的參數(shù)[19],即使計(jì)算量太大也可以用變分方法或者蒙特卡洛采樣大致估計(jì)。
在中心極限定理下,無限寬的隨機(jī)連接神經(jīng)網(wǎng)絡(luò)等價(jià)于高斯過程,不管有多少網(wǎng)絡(luò)層數(shù),不用進(jìn)行任何訓(xùn)練也可以對(duì)DNN 進(jìn)行貝葉斯推斷。高斯過程對(duì)于分類函數(shù)的每一個(gè)類都可以提供具體的先驗(yàn)分布,它聯(lián)系神經(jīng)網(wǎng)絡(luò)和核方法,將表示網(wǎng)絡(luò)輸出與輸出之間關(guān)系的核矩陣叫作NNGP 核。對(duì)于式(4)所示網(wǎng)絡(luò),若為單層神經(jīng)網(wǎng)絡(luò),則可以得到網(wǎng)絡(luò)輸出的分布為即高斯核的均值為μ1、方差為K1,每個(gè)變量之間都與i無關(guān)。此時(shí)其中C(x,x')的引入來源于Neal等[19],所以單層網(wǎng)絡(luò)的NNGP 核可以表示為:
對(duì)于深層網(wǎng)絡(luò),它的NNGP 核表示為:
協(xié)方差矩陣可進(jìn)一步簡寫為:
然而,不同的激活函數(shù)?會(huì)生成不同的NNGP 核,對(duì)于ReLU 非線性函數(shù),它的F?為確定的arccosine 核;而對(duì)于Tanh,F(xiàn)?只能采用線性插值的方法數(shù)值求解。
給定數(shù)據(jù)集D={(x1,t1),(x2,t2),…,(xn,tn)},(x,t)為輸入-目標(biāo),用函數(shù)h(x)對(duì)測試點(diǎn)x*進(jìn)行貝葉斯預(yù)測,并且網(wǎng)絡(luò)輸出值為h≡(h1,h2,…,hn),多元高斯先驗(yàn)分布則可表示為h*,h|x*,x~N (0,K),其中協(xié)方差矩陣:
得到NNGP 核就可得到所有訓(xùn)練數(shù)據(jù)之間的關(guān)系和先驗(yàn),采用貝葉斯推斷預(yù)測新的測試數(shù)據(jù)的網(wǎng)絡(luò)輸出,所以此時(shí)只需計(jì)算新產(chǎn)生的,不同神經(jīng)網(wǎng)絡(luò)的NNGP 核公式對(duì)比如表6 所示。
表6 各種人工神經(jīng)網(wǎng)絡(luò)的NNGP公式Tab.6 NNGP formulas for various ANNs
通過研究具有多個(gè)隱藏層的隨機(jī)全連接寬前饋網(wǎng)絡(luò)與具有遞歸內(nèi)核定義的高斯過程之間的關(guān)系,發(fā)現(xiàn)隨著網(wǎng)絡(luò)寬度增加,表示網(wǎng)絡(luò)的隨機(jī)分布函數(shù)逐步收斂到高斯過程[50]。除FCN 外,在無限多卷積濾波器限制下的CNN 也可以看作高斯過程[51],Novak 等[52]還對(duì)比了有無池化層的多層CNN 的類似等價(jià)性。對(duì)于貝葉斯神經(jīng)網(wǎng)絡(luò)(Bayesian Neural Network,BNN),即便其中一些隱藏層(稱為“瓶頸”)保持在有限寬度,也可以收斂到高斯過程[53]。Pretorius 等[54]則研究了噪聲正則化(例如Dropout)對(duì)NNGP 的影響,并將它們的行為與噪聲正則化DNN 中的信號(hào)傳播理論聯(lián)系起來。上述相關(guān)網(wǎng)絡(luò)的高斯過程近似等價(jià)是在無限寬的條件下,Lee 等[55]對(duì)無限寬網(wǎng)絡(luò)和有限寬網(wǎng)絡(luò)的NNGP 對(duì)比研究,并通過對(duì)權(quán)重衰減進(jìn)行逐層縮放(Layer-wise scaling),改進(jìn)了有限寬網(wǎng)絡(luò)中的泛化能力。
盡管高斯過程理論具有吸引力,但它卻不能捕獲特征學(xué)習(xí)(Feature learning),而特征學(xué)習(xí)卻是理解可訓(xùn)練網(wǎng)絡(luò)的關(guān)鍵要素。Naveh 等[56]考慮在大型訓(xùn)練集上使用噪聲梯度下降訓(xùn)練DNN,推導(dǎo)出自洽的高斯過程理論以解釋強(qiáng)大的有限D(zhuǎn)NN 和它的特征學(xué)習(xí)效果。另外,也有從熱力學(xué)理論的角度分析有限超參數(shù)化CNN 的特征學(xué)習(xí),并也適用于有限寬DNN[57]。
對(duì)于DNN 動(dòng)力學(xué)的研究還有另外一個(gè)分支:從NTK 角度觀察。NNGP 核是關(guān)于神經(jīng)網(wǎng)絡(luò)輸出與輸出之間的協(xié)方差矩陣,而NTK 則是在此基礎(chǔ)上將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與核方法聯(lián)系起來研究梯度與梯度之間的關(guān)系。NTK 由Jacot等[5]首次提出,他們認(rèn)為神經(jīng)網(wǎng)絡(luò)在參數(shù)空間的梯度下降與在NTK 下函數(shù)空間的梯度下降等效,所以NTK 可以用于描述神經(jīng)網(wǎng)絡(luò)中無限寬DNN 在梯度下降訓(xùn)練過程中演化的核,而這個(gè)核在無限寬極限下會(huì)趨于一個(gè)確定的核,并且在梯度下降的過程中保持不變[58]。針對(duì)全批量梯度下降訓(xùn)練的神經(jīng)網(wǎng)絡(luò)[46],可以對(duì)輸出進(jìn)行一階泰勒展開,用一個(gè)接近無限寬網(wǎng)絡(luò)的線性模型近似[59],因此該無限寬網(wǎng)絡(luò)的動(dòng)力學(xué)行為可以用一個(gè)常微分方程(Ordinary Differential Equation,ODE)表述,這種無限寬極限的動(dòng)力學(xué)就叫作NTK域(Regime)或惰性訓(xùn)練域(Lazy training regime)。
另外,Arora 等[60]提出了一種高效算法計(jì)算卷積架構(gòu)的NTK,即CNTK(Convolutional Neural Tangent Kernel),文獻(xiàn)[61]結(jié)合CNN 高斯過程內(nèi)核的回歸對(duì)CNTK 算法進(jìn)行了改進(jìn),提高了內(nèi)核的性能;然而,上述文獻(xiàn)作者只研究了淺層網(wǎng)絡(luò)的無限寬極限(NTK 域)影響。Hayou 等[62]發(fā)現(xiàn)EoC 初始化對(duì)于NTK 也有一定的好處,并將NTK 與MFT 聯(lián)系起來,對(duì)DNN 中的SGD 訓(xùn)練和NTK 訓(xùn)練進(jìn)行了對(duì)比。
2.4.1 核的定義
考慮FCN 的輸入為h0(x;θ)=x,每一層的輸出為為 經(jīng)過激活函數(shù)后,網(wǎng)絡(luò)最后一層輸出為fθ(x)表示為:
其中FL:RP→F,代表將參數(shù)θ映射到F空間中的函數(shù)fθ,P表示網(wǎng)絡(luò)參數(shù)量。
對(duì)于任意L層的初始化網(wǎng)絡(luò)來說當(dāng)N1,N2,…,NL-1→∞時(shí),NTK 中的ΘL收斂于一個(gè)確定極限核,即
其中dNL代表維度為NL,與高斯核有關(guān)的遞歸關(guān)系如下:
2.4.2 線性網(wǎng)絡(luò)動(dòng)力學(xué)
用ft(x) ≡表示神經(jīng)網(wǎng)絡(luò)在t時(shí)刻的輸出,令ωt≡θt-θ0,將輸出網(wǎng)絡(luò)進(jìn)行一階泰勒展開可得:
定義的損失函數(shù)為L,梯度流(Gradient flow)則可表示為=-η?θL,根據(jù)鏈?zhǔn)椒▌t有:
因此,神經(jīng)網(wǎng)絡(luò)的動(dòng)力學(xué)可由一個(gè)ODE 描述,無限寬的網(wǎng)絡(luò)就是一個(gè)關(guān)于參數(shù)的線性模型,它可以證明在梯度下降過程中NTK 始終保持不變且具有穩(wěn)定性,損失函數(shù)最終也會(huì)收斂為全局最小值,而且網(wǎng)絡(luò)非常寬時(shí),權(quán)重在訓(xùn)練過程中和初始權(quán)重相比變化也不大。針對(duì)不同的神經(jīng)網(wǎng)絡(luò)并參考文獻(xiàn)[63-64]中的模型定義,NTK 的公式對(duì)比總結(jié)如表7所示。
表7 各種人工神經(jīng)網(wǎng)絡(luò)的NTK公式Tab.7 NTK formulas for various ANNs
2.4.3 網(wǎng)絡(luò)的訓(xùn)練過程特征
NTK 使用梯度流對(duì)DNN 訓(xùn)練的這種動(dòng)力學(xué)在無限寬的極限下稱作NTK 域或惰性訓(xùn)練域。NTK 網(wǎng)絡(luò)參數(shù)的初始化為高斯初始化,而對(duì)于DI,它的網(wǎng)絡(luò)初始化可看作正交初始化。在淺層網(wǎng)絡(luò)中,無論是在DI 條件下,還是處于NTK 域中,正交初始化和高斯初始化的效果都一樣。但是當(dāng)打破該NTK 領(lǐng)域時(shí),即增大學(xué)習(xí)率或固定網(wǎng)絡(luò)寬度以增大網(wǎng)絡(luò)深度時(shí),由于DI 對(duì)DNN 訓(xùn)練的提升作用,此時(shí)網(wǎng)絡(luò)將不再處于NTK 域中[65]。
總的來說,NTK 在無限寬神經(jīng)網(wǎng)絡(luò)下有兩個(gè)非常有用且重要的性質(zhì):一是在無限寬網(wǎng)絡(luò)中,若參數(shù)θ0在以某種分布進(jìn)行初始化,那么在該初始值下的NTKΘ(θ0)是一個(gè)確定的函數(shù),不管初始值為多少,最終總會(huì)收斂到一個(gè)確定的核函數(shù),且與初始化無關(guān);二是無限寬網(wǎng)絡(luò)中的Θ(θt)不會(huì)隨著網(wǎng)絡(luò)訓(xùn)練而變化,即訓(xùn)練中參數(shù)的改變并不會(huì)引起核函數(shù)的變化?;诖?,可以將無限寬網(wǎng)絡(luò)的訓(xùn)練過程理解為簡單的關(guān)于核函數(shù)的梯度下降法,其中核函數(shù)固定,只取決于網(wǎng)絡(luò)結(jié)構(gòu)和激活函數(shù)等。在Neal[19]的結(jié)論基礎(chǔ)上,可以將這個(gè)用梯度下降收斂的極值概率分布看作一個(gè)隨機(jī)過程??傊?,NTK針對(duì)梯度下降法提出,是關(guān)于梯度核的收斂,是訓(xùn)練過程的一種表現(xiàn)形式;而高斯過程是初始化網(wǎng)絡(luò)收斂到高斯核,并未涉及訓(xùn)練過程。
2.4.4 神經(jīng)正切核的具體應(yīng)用
將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與核回歸過程建立等價(jià)關(guān)系后,就可以解決無限寬神經(jīng)網(wǎng)絡(luò)在實(shí)際中的表現(xiàn)問題,此時(shí)只需測試使用NTK 的核回歸預(yù)測器即可。Arora 等[60]在CIFAR-10 上對(duì)圖像分類數(shù)據(jù)集測試了NTK,因?yàn)閷?duì)于圖像數(shù)據(jù)集需要使用CNN 才能獲得良好的性能,所以擴(kuò)展NTK 構(gòu)造適用于CNN 的CNTK,并測試了它們在CIFAR-10 上的性能。實(shí)驗(yàn)發(fā)現(xiàn)CNTK 是非常強(qiáng)大的內(nèi)核,而且全局平均池化可以顯著提高CNN 和CNTK 的分類準(zhǔn)確性,據(jù)此認(rèn)為許多改善神經(jīng)網(wǎng)絡(luò)性能的技術(shù)在某種意義上通用。同樣,除了全局平均池化外,希望其他技巧也可以提高NTK 內(nèi)核性能,比如批量歸一化或者殘差連接層,NTK 不僅應(yīng)用在FNN、CNN 和RNN[66]上,也應(yīng)用于GNN[63],這幾種網(wǎng)絡(luò)的NTK 性能對(duì)比如表8 所示。對(duì)于NTK 的Python 代碼運(yùn)算,可以直接導(dǎo)入相關(guān)函數(shù)包[67]或者使用JAX[68],另外還可以通過Jacobian 構(gòu)造和分解NTK 向量積等方法[69]加速有限寬網(wǎng)絡(luò)的NTK 計(jì)算。此外,Yang[70]從隨機(jī)神經(jīng)網(wǎng)絡(luò)收斂到高斯過程,再到通過NTK預(yù)測梯度下降的訓(xùn)練動(dòng)態(tài),在數(shù)學(xué)上重新推導(dǎo)了經(jīng)典的隨機(jī)矩陣結(jié)果。人們還設(shè)計(jì)了Tensor programs 來單獨(dú)闡述任意RNN 架構(gòu)網(wǎng)絡(luò)的高斯過程[71]、任意架構(gòu)的NTK[64]、NTK 訓(xùn)練動(dòng)力學(xué)的泛化性能[72],以及無限寬網(wǎng)絡(luò)的特征學(xué)習(xí)[73]。對(duì)于DNN 中的可訓(xùn)練性和泛化性,Xiao 等[74]從NTK 的角度制定了一系列架構(gòu)的可訓(xùn)練和泛化的必要條件。
表8 各種人工神經(jīng)網(wǎng)絡(luò)的NTK性能Tab.8 Performance of NTK in various ANNs
第2 章中介紹了過參數(shù)化網(wǎng)絡(luò)的優(yōu)勢,可以在無限寬極限下,將網(wǎng)絡(luò)初始化后信息在網(wǎng)絡(luò)中的傳遞過程用NNGP 核表示,而網(wǎng)絡(luò)參數(shù)的訓(xùn)練過程用NTK 表示,并在一定程度上能描述有限寬網(wǎng)絡(luò)。本章將著重介紹過參數(shù)化可以帶來好的泛化能力的原因、影響泛化性能的因素以及泛化性能的預(yù)測。
Arora 等[45]通過研究兩層網(wǎng)絡(luò)的過度參數(shù)化,利用依賴于數(shù)據(jù)復(fù)雜性的度量,改進(jìn)了獨(dú)立于網(wǎng)絡(luò)規(guī)模的泛化界限。此外,根據(jù)Belkin 等[21]發(fā)現(xiàn)的過參數(shù)化后的訓(xùn)練誤差-泛化誤差關(guān)系,SGD 方法可能隱含地限制了訓(xùn)練網(wǎng)絡(luò)的復(fù)雜性(圖5)。一些實(shí)驗(yàn)現(xiàn)象也表明,當(dāng)SGD 的極小值處于很寬的能量景觀(Landscape)平面時(shí)網(wǎng)絡(luò)會(huì)有很強(qiáng)的泛化能力[75]。對(duì)于簡單兩層神經(jīng)網(wǎng)絡(luò),通過適當(dāng)縮放利用分布動(dòng)力學(xué)(Distributional Dynamics,DD)的特定非線性偏微方程(Partial Differential Equation,PDE)捕獲SGD 動(dòng)力學(xué),進(jìn)而解釋SGD 收斂到具有近乎理想泛化誤差的網(wǎng)絡(luò)的原因[76]。另外,從統(tǒng)計(jì)物理中能量與熵的角度進(jìn)行剖析[77],理論推導(dǎo)證實(shí)了實(shí)驗(yàn)上的直觀現(xiàn)象,其中批量大?。˙atchsize)影響了SGD 的隨機(jī)性,隨機(jī)噪聲會(huì)自發(fā)地使SGD 走向?qū)挼臉O小值。
圖5 訓(xùn)練誤差與泛化誤差曲線示意圖Fig.5 Schematic diagram of training error and generalization error curves
人工神經(jīng)網(wǎng)絡(luò)的泛化能力通常是指它識(shí)別未經(jīng)訓(xùn)練的樣本的能力。泛化問題主要可以分為兩大類:一是“弱泛化”,可理解為“魯棒性(Robustness)”,即訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)來自同一分布;二是“強(qiáng)泛化”,可看作一種“理解(Understanding)”能力,即訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布不同,需要使它在訓(xùn)練集上學(xué)習(xí)的模型在測試集上也表現(xiàn)良好。影響網(wǎng)絡(luò)泛化性能的因素主要如下:
1)網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)現(xiàn)網(wǎng)絡(luò)復(fù)雜性與樣本復(fù)雜性之間的平衡,最主要的方法就是剪枝(Pruning),是決策樹學(xué)習(xí)算法中對(duì)付“過擬合”的主要手段,它的基本策略包括預(yù)剪枝(Prepruning)和后剪枝(Post-pruning)[78]。由于后剪枝決策樹通常比預(yù)剪枝決策樹保留了更多的分支,一般情況下它的泛化性能優(yōu)于預(yù)剪枝。雖然剪枝網(wǎng)絡(luò)可以主動(dòng)去掉一些分支降低過擬合風(fēng)險(xiǎn),但是有些時(shí)候也會(huì)加劇過擬合。例如,當(dāng)通過網(wǎng)絡(luò)修剪增加模型稀疏性時(shí),測試性能因網(wǎng)絡(luò)過擬合變差,即使減輕過擬合可以提升測試性能,但最后也會(huì)因忘記有用信息而變得更差。He 等[79]把網(wǎng)絡(luò)剪枝有時(shí)加劇過擬合的現(xiàn)象稱為“稀疏雙重下降”。針對(duì)該現(xiàn)象,他們還通過彩票假設(shè)機(jī)制提出了一種新的學(xué)習(xí)距離解釋,即稀疏模型的學(xué)習(xí)距離曲線(從初始參數(shù)到最終參數(shù))可能與稀疏雙重下降的曲線很好地相關(guān)。
2)訓(xùn)練樣本。神經(jīng)網(wǎng)絡(luò)作為一種非參數(shù)模型,所有信息都來源于訓(xùn)練樣本集,訓(xùn)練樣本集對(duì)泛化性能的影響有時(shí)超過網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性對(duì)泛化性能的影響[80-81]。在DNN 的訓(xùn)練過程中使用模型參數(shù)的梯度信噪比(Gradient Signal-to-Noise Ratio,GSNR),即梯度的平方均值和方差與數(shù)據(jù)分布的比值,可以建立模型參數(shù)的GSNR 與泛化差距之間的定量關(guān)系:較大的GSNR 會(huì)導(dǎo)致更好的泛化性能[82]。另外,通過泛化鴻溝(Generalization gap)預(yù)測訓(xùn)練數(shù)據(jù)和網(wǎng)絡(luò)參數(shù)的泛化差距,得到可以實(shí)現(xiàn)更好泛化的新的訓(xùn)練損失函數(shù)[83]。對(duì)于使用反向傳播算法訓(xùn)練的前饋分層神經(jīng)網(wǎng)絡(luò),通過在訓(xùn)練樣本中引入加性噪聲也可以增強(qiáng)神經(jīng)網(wǎng)絡(luò)泛化能力[84]。Vyas 等[85]從自然數(shù)據(jù)集出發(fā),分析了NTK 泛化的局限性,研究認(rèn)為真實(shí)網(wǎng)絡(luò)和NTK 之間的本質(zhì)區(qū)別不僅是幾個(gè)百分點(diǎn)測試精度的差距。
3)學(xué)習(xí)機(jī)制。學(xué)習(xí)策略對(duì)網(wǎng)絡(luò)機(jī)制的泛化性能影響較為復(fù)雜,主要源于鞍點(diǎn)和局部極值問題。在相同學(xué)習(xí)誤差和網(wǎng)絡(luò)結(jié)構(gòu)條件下,泛化誤差因到達(dá)不同的局部極值點(diǎn)而不同??梢酝ㄟ^約束網(wǎng)絡(luò)學(xué)習(xí)模型(約束條件與目標(biāo)函數(shù))、全局與局部最優(yōu)算法選擇、訓(xùn)練終止準(zhǔn)則和初始權(quán)重與歸一化等改善前饋網(wǎng)絡(luò)泛化性能。對(duì)于隨機(jī)高斯的權(quán)重初始化,很少有工作考慮到特征各向異性的影響,大多數(shù)都是假設(shè)高斯權(quán)重為獨(dú)立同分布。而Pehlevan 等[86]則據(jù)此推導(dǎo)出具有多層高斯特征模型的學(xué)習(xí)曲線,并且表明第一層特征之間存在相關(guān)性可以幫助網(wǎng)絡(luò)泛化,而后幾層的結(jié)構(gòu)通常有害,闡明了權(quán)重結(jié)構(gòu)如何影響一類簡單的可解模型中的泛化。除此之外,在損失函數(shù)加入懲罰項(xiàng)是當(dāng)前比較常用的正則化優(yōu)化方式,相關(guān)正則化技術(shù)還有Dropout[87]、權(quán)值噪聲和激活噪聲等。
3.2.1 SGD的最優(yōu)值收斂
定義損失函數(shù)
其中R(θ)為正則化函數(shù),yi為網(wǎng)絡(luò)輸出,由SGD 引起的網(wǎng)絡(luò)參數(shù)更新可以表示為:
其中:ηt表示學(xué)習(xí)率,Bt表示隨機(jī)從訓(xùn)練集中選取數(shù)據(jù)的批量大小。根據(jù)Langevin 方程以及梯度流的定義,可以將SGD寫成下述形式,即
此時(shí),η(t)表示一種隨機(jī)噪聲,表示所有數(shù)據(jù)點(diǎn)同時(shí)輸入與批量輸入對(duì)網(wǎng)絡(luò)輸出產(chǎn)生影響的差異,如下所示:
過參數(shù)化網(wǎng)絡(luò)擁有好的泛化性,可能得益于SGD 的作用,Jastrz?bski 等[88]認(rèn)為影響SGD 最小值有3 個(gè)因素,即學(xué)習(xí)率、批量尺寸和梯度協(xié)方差,并且認(rèn)為學(xué)習(xí)率與批量大小的比值是影響SGD 動(dòng)態(tài)和最終最小值寬度的關(guān)鍵決定因素,比率值越高,最小值范圍越寬,泛化效果越好。
SGD 的下降趨勢取決于噪聲的方向及大小。當(dāng)網(wǎng)絡(luò)的訓(xùn)練過程收斂到一定狀態(tài)時(shí),可分兩種情況分析:一種是因?yàn)榈暨M(jìn)了寬的局部最小值,可以通過額外添加噪聲[89]使梯度繼續(xù)下降,朝著更低極小值走去;另一種是處于鞍點(diǎn),就需要新的算法逃離鞍點(diǎn)[90]。
3.2.2 內(nèi)核與泛化誤差
給定P個(gè)觀察樣本輸入xμ服從分布p(x),假設(shè)樣本的標(biāo)簽yμ帶有噪聲其中關(guān)于p(x)平方可積,εμ為添加的零均值噪聲,方差滿足關(guān)系對(duì)上述P個(gè)樣本的數(shù)據(jù)集,核回歸問題[6]可以描述為:
其中:λ為嶺(Ridge)參數(shù),H 是由其再生核K(x,x')和輸入分布p(x)唯一確定的再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)[91],表示RKHS 內(nèi)積,希爾伯特范數(shù)懲罰項(xiàng)控制f的復(fù)雜性[92]。
泛化誤差,即估計(jì)量f*與數(shù)據(jù)分布和數(shù)據(jù)集的平均真實(shí)目標(biāo)值之間的均方誤差,可表示為:
Eg從平均上衡量所學(xué)習(xí)的函數(shù)與從同一分布采樣的未知(和已知)數(shù)據(jù)的目標(biāo)一致程度。式(33)的分析可以使用無序系統(tǒng)統(tǒng)計(jì)物理學(xué)中的復(fù)本方法[93]。
利用Mercer 分解方法,將核K(x,x')分解成關(guān)于正交的特征函數(shù)項(xiàng){?ρ}:
特征值{ηρ}和特征向量{?ρ}構(gòu)成RKHS 的完整基。通過特征圖(Feature map),可將式(34)右邊項(xiàng)設(shè)置為正交基,用于計(jì)算任何核和數(shù)據(jù)分布的核回歸泛化誤差。另外,還可以用該泛化誤差公式很好地描述低至幾個(gè)樣本數(shù)據(jù)集的平均學(xué)習(xí)曲線,由于訓(xùn)練集的隨機(jī)抽樣,學(xué)習(xí)曲線的走勢會(huì)隨著數(shù)據(jù)集樣本量的增加而衰減。對(duì)式(33)的解進(jìn)行實(shí)驗(yàn)分析,一個(gè)直接的觀察是它的譜偏差:若誤差沿特征函數(shù)的收斂越快,則在沒有噪聲限制下的特征值就越高[6]。
基于上述核回歸泛化理論,可以計(jì)算從淺層FCN 到深度CNN 等DNN 訓(xùn)練中的泛化差距(Gap)。Misiakiewicz 等[94]用RKHS 的內(nèi)核特征計(jì)算高維單層卷積核中的任何給定函數(shù)的漸進(jìn)泛化誤差。
在無限寬網(wǎng)絡(luò)極限下,基于高斯過程和NTK 過程的內(nèi)核演化可以預(yù)測網(wǎng)絡(luò)的泛化性能。Simon 等[91]推導(dǎo)出一種預(yù)測核回歸泛化的新理論,不僅可以準(zhǔn)確預(yù)測測試均方誤差,還可以預(yù)測網(wǎng)絡(luò)學(xué)習(xí)函數(shù)的所有一階和二階統(tǒng)計(jì)量,并且可以準(zhǔn)確預(yù)測有限寬網(wǎng)絡(luò)。針對(duì)不同架構(gòu)的DNN,還可以利用重尾自正則化(Heavy-Tailed Self-Regularization,HTSR)[95],在不查看測試數(shù)據(jù)的情況下預(yù)測何種DNN 具有最佳測試準(zhǔn)確性。Bordelon 等[96]通過自洽動(dòng)力場理論分析了用梯度流訓(xùn)練的無限寬度神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)。此外,他們還分析了使用梯度下降和生物學(xué)相關(guān)機(jī)制(反饋對(duì)齊)訓(xùn)練的無限寬深度網(wǎng)絡(luò),并認(rèn)為DMFT 能比較學(xué)習(xí)規(guī)則中的特征和預(yù)測動(dòng)態(tài),內(nèi)核的演化也可以用DMFT 自洽地決定[97]。Cohen 等[98]則利用類物理學(xué)的方法,準(zhǔn)確地預(yù)測了足夠深的DNN 在多項(xiàng)式回歸問題上的學(xué)習(xí)曲線。
Canatar 等[99]分析內(nèi)核與網(wǎng)絡(luò)目標(biāo)函數(shù)的對(duì)齊方式(Kernel alignment),用內(nèi)核表示DNN 學(xué)習(xí)的有用數(shù)據(jù),并在實(shí)驗(yàn)上研究了訓(xùn)練期間由層數(shù)演化的內(nèi)核,當(dāng)內(nèi)核可由淺層到較深層進(jìn)行表示時(shí),網(wǎng)絡(luò)可更好地進(jìn)行泛化。此外,Pehlevan 團(tuán)隊(duì)[6]通過研究核回歸的泛化誤差描述了相關(guān)無限寬過參數(shù)化的神經(jīng)網(wǎng)絡(luò)的泛化能力,并且使用統(tǒng)計(jì)力學(xué)相關(guān)技術(shù)推導(dǎo)出了適用于任何內(nèi)核和數(shù)據(jù)分布的泛化誤差的解析表達(dá)式,結(jié)合真實(shí)和合成數(shù)據(jù)集以及多種內(nèi)核,闡明了內(nèi)核回歸的歸納偏置,并用簡單函數(shù)解釋數(shù)據(jù)表征了內(nèi)核與學(xué)習(xí)任務(wù)的兼容性。
深度神經(jīng)網(wǎng)絡(luò)平均場理論被廣泛用于指導(dǎo)深度學(xué)習(xí)中的工程設(shè)計(jì),但在DNN 中的初始化、訓(xùn)練過程以及泛化預(yù)測這3 個(gè)階段上依然存在一定的挑戰(zhàn):
1)初始化階段。盡管MFT 在DNN 的應(yīng)用中取得了一定成效,還可以和統(tǒng)計(jì)力學(xué)相結(jié)合,從能量的角度出發(fā)理解DNN 的隨機(jī)初始化及表征能力[100],但在訓(xùn)練過程中可能會(huì)破壞好的初始化,這時(shí)該如何拯救尚未可知。已有研究從正則化的角度讓網(wǎng)絡(luò)在訓(xùn)練過程中盡量保持好的網(wǎng)絡(luò)狀態(tài),如上述提到的加入等距懲罰項(xiàng)等方法,但還未達(dá)到完全可以保障的效果。要想真正地探究DNN 的初始化機(jī)制,EoC 和DI這樣的初始化理論可能還遠(yuǎn)遠(yuǎn)不夠,特別是在EoC 和DI 之外是否存在更好的算法可以彌補(bǔ)不理想的初始化狀態(tài),這對(duì)發(fā)展更加可靠的DNN 具有重要的指導(dǎo)意義。因此,利用MFT 進(jìn)一步深入研究DNN 初始化的作用機(jī)制是非常有意義的方向之一。
2)訓(xùn)練階段。既然NTK 可以在理論上描述任意深度L的神經(jīng)網(wǎng)絡(luò),那為何實(shí)際實(shí)驗(yàn)中進(jìn)行的卻是淺層網(wǎng)絡(luò)?一個(gè)可能的原因是較大的網(wǎng)絡(luò)寬度意味著影響輸出的神經(jīng)元很多,連接這些神經(jīng)元的權(quán)重發(fā)生一點(diǎn)細(xì)微變化都可能導(dǎo)致網(wǎng)絡(luò)輸出變化很大;另一種可能的原因是對(duì)于初始化不滿足訓(xùn)練條件的DNN,即不滿足EoC 和DI 條件,梯度不能從網(wǎng)絡(luò)的最后一層反向傳播至輸入層。另外,對(duì)于有限寬網(wǎng)絡(luò),NTK也并不能完全適用[85],實(shí)際實(shí)驗(yàn)中真實(shí)的網(wǎng)絡(luò)寬度也不可能接近無窮,NTK 理論終歸和實(shí)驗(yàn)有偏差,還需改善現(xiàn)有理論,以更好地衡量有限寬或深度網(wǎng)絡(luò)的訓(xùn)練能力。
3)泛化階段。雖然泛化理論在預(yù)測方面取得了一定的突破,但也有局限性:第一,該理論需要在完整數(shù)據(jù)集上進(jìn)行核的特征分解,導(dǎo)致計(jì)算量龐大;第二,對(duì)于DNN 的內(nèi)核描述受到限制,不能捕獲更多有用的深度學(xué)習(xí)現(xiàn)象;第三,該理論使用高斯近似假設(shè),即使實(shí)驗(yàn)驗(yàn)證無誤,但放寬高斯近似假設(shè)后對(duì)于新的實(shí)驗(yàn)見解仍未知。另外,Pehlevan 的泛化理論基于核回歸,而對(duì)于非核回歸等問題目前還沒有類似于核回歸泛化理論的理論。特別是當(dāng)深度神經(jīng)網(wǎng)絡(luò)在做特征學(xué)習(xí)時(shí)處于非NTK 區(qū)域,目前的泛化理論研究還處于初期階段,任重而道遠(yuǎn)。
本文從隨機(jī)網(wǎng)絡(luò)的動(dòng)力學(xué)模型出發(fā),回顧并綜述了DNN的初始化MFT 理論及其對(duì)DNN 學(xué)習(xí)性能的重要性,以及過參數(shù)化和無限寬極限下的各種MFT 理論,介紹了訓(xùn)練過程中收斂性和泛化性的相關(guān)MFT 理論進(jìn)展。目前對(duì)DNN 的工作原理的理解還很粗淺,要想解析DNN 的內(nèi)部機(jī)理開發(fā)和改進(jìn)工程算法,還需要更多的理論實(shí)驗(yàn)探索,從更深層次的角度用MFT 理論理解DNN 的工作原理。