深度神經(jīng)網(wǎng)絡(luò)平均場理論綜述

2024-03-21 02:25顏夢玫楊冬平

計(jì)算機(jī)應(yīng)用 2024年2期

顏夢玫，楊冬平

（1.福州大學(xué) 先進(jìn)制造學(xué)院，福建泉州 362000；2.中國科學(xué)院海西研究院泉州裝備制造研究中心，福建泉州 362200；3.之江實(shí)驗(yàn)室混合增強(qiáng)智能研究中心，杭州 311101）

0 引言

深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）最初主要應(yīng)用于參數(shù)初始化的預(yù)訓(xùn)練過程［1］，后來利用具有深度的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）識(shí)別圖像［2］。DNN 吸引了眾多研究者的關(guān)注，由此掀起了深度學(xué)習(xí)的熱潮。然而，盡管DNN 在應(yīng)用領(lǐng)域取得了顯著的成功，但其背后的決策機(jī)理仍不夠明確。目前，深度學(xué)習(xí)方法仍然是一門高度實(shí)踐的藝術(shù)，充滿許多啟發(fā)式的技巧，并非一門精確的科學(xué)。這一缺陷對(duì)于金融、醫(yī)療、公共安全和國防等領(lǐng)域通常是致命的［3］。因此，需要構(gòu)建一個(gè)成熟的DNN 理論指導(dǎo)深度學(xué)習(xí)中的廣泛工程應(yīng)用，進(jìn)而優(yōu)化深度學(xué)習(xí)算法。盡管近年來在深度學(xué)習(xí)理論方面取得一些成效，但大部分工作專注研究單個(gè)隱藏層網(wǎng)絡(luò)，深度網(wǎng)絡(luò)的理論在很大程度上仍懸而未決。

DNN 與傳統(tǒng)的淺層網(wǎng)絡(luò)的本質(zhì)區(qū)別在于網(wǎng)絡(luò)的深度，而DNN 成功的一個(gè)關(guān)鍵因素在于它的高表達(dá)性：一方面，它可以緊湊地以一種淺層網(wǎng)絡(luò)無法做到的方式表達(dá)輸入空間的高度復(fù)雜函數(shù)。此外，DNN 可以將輸入空間中的高度彎曲流形在隱含層空間中解耦為扁平流形，有利于簡單地線性讀出。這些DNN 的直覺理解完全可以通過現(xiàn)有的平均場理論（Mean Field Theory，MFT）來描述、分析和探討［4］。MFT 不僅可用于描述與分析特定DNN 的訓(xùn)練過程［5］，還可以探討DNN 的泛化性能及關(guān)鍵因素［6］。這些理論研究成果，讓人們看到MFT 在構(gòu)建一個(gè)統(tǒng)一理解DNN 運(yùn)行機(jī)制理論框架中是一個(gè)非常重要的基本理論方法。

近年來，美國斯坦福大學(xué)Ganguli 團(tuán)隊(duì)［4］利用動(dòng)力學(xué)平均場理論（Dynamic Mean Field Theory，DMFT）和黎曼幾何［7］研究了DNN 的高表達(dá)性：信息在DNN 中有效傳播機(jī)制和全局曲率隨深度指數(shù)增長?；贒MFT 的信息有效傳播機(jī)制最早起源于20 世紀(jì)80 年代Sompolinsky 等［8］開創(chuàng)性提出的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型，通過DMFT 分析發(fā)現(xiàn)系統(tǒng)隨參數(shù)變化可以從有序態(tài)相變到混沌態(tài)，以及發(fā)現(xiàn)混沌邊緣（Edge of Chaos，EoC）的相變點(diǎn)。Ganguli 團(tuán)隊(duì)利用離散時(shí)間的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型［9］，將該模型中的時(shí)間點(diǎn)替換成DNN 中網(wǎng)絡(luò)的層數(shù)號(hào)，發(fā)現(xiàn)網(wǎng)絡(luò)在EoC 的參數(shù)下呈現(xiàn)出更高的表達(dá)能力。

從MFT 的角度研究DNN 的初始化，發(fā)現(xiàn)了兩個(gè)影響網(wǎng)絡(luò)訓(xùn)練的性質(zhì)：前向信息傳播對(duì)于不同樣本的表達(dá)性（Expressivity）和反向梯度傳播的可訓(xùn)練性（Trainability）。在隨機(jī)DNN 中，由表達(dá)性和可訓(xùn)練性確定的超參數(shù)范圍已經(jīng)得到了實(shí)驗(yàn)驗(yàn)證［10-15］，當(dāng)網(wǎng)絡(luò)初始化在EoC 附近時(shí)，其表達(dá)性和測試精度都會(huì)較高。此外，研究發(fā)現(xiàn)，誤差的有效反向傳播需要網(wǎng)絡(luò)參數(shù)滿足所謂的動(dòng)力等距（Dynamical Isometry，DI）條件［16-18］。在這種條件下，研究人員成功訓(xùn)練了在沒有批量歸一化和殘差網(wǎng)絡(luò)結(jié)構(gòu)幫助下的單純一萬層的CNN［11］。

對(duì)于隨機(jī)初始化的DNN，通過MFT 更進(jìn)一步地發(fā)現(xiàn)，在網(wǎng)絡(luò)無限寬的極限（網(wǎng)絡(luò)被過度參數(shù)化）下［19］：如果只訓(xùn)練網(wǎng)絡(luò)的最后一層，可以用神經(jīng)網(wǎng)絡(luò)高斯過程（Neural Network Gaussian Process，NNGP）核的核無嶺（Ridgeless）回歸描述網(wǎng)絡(luò)的訓(xùn)練［20］，DNN 與NNGP 的內(nèi)在聯(lián)系使人們可以確切地用貝葉斯推斷回歸訓(xùn)練DNN；如果訓(xùn)練所有的層，可以用神經(jīng)正切核（Neural Tangent Kernel，NTK）［5］描述，這種描述使人們可以直接研究DNN 中無窮維的函數(shù)空間和超級(jí)復(fù)雜的參數(shù)空間。

事實(shí)上，深度學(xué)習(xí)中的關(guān)鍵泛化現(xiàn)象也發(fā)生在核方法中：要理解深度學(xué)習(xí)中的泛化，必須先理解核方法中的泛化。哈佛大學(xué)Pehlevan 團(tuán)隊(duì)［6］利用MFT 推導(dǎo)出了核回歸的平均泛化誤差的解析表達(dá)式，提出DNN 泛化的關(guān)鍵因素在于核與任務(wù)的本征譜匹配度。這個(gè)理論揭示了各種泛化現(xiàn)象，包括訓(xùn)練過程中泛化誤差表現(xiàn)出的非單調(diào)行為。該理論進(jìn)一步指出，核回歸的歸納偏置為學(xué)習(xí)曲線的非單調(diào)行為提供了機(jī)理上的理解，并為所謂的“雙重下降”現(xiàn)象［21］提供見解。

因此，MFT 為研究DNN 的運(yùn)行機(jī)理提供了一個(gè)非常重要的基本理論手段。MFT 能從理論角度初步探索深度學(xué)習(xí)中的初始化、訓(xùn)練過程和泛化機(jī)制，進(jìn)而可以在工程上指導(dǎo)深度學(xué)習(xí)算法進(jìn)行改進(jìn)和優(yōu)化［22］。然而，目前國內(nèi)基于深度學(xué)習(xí)理論的相關(guān)科研人員缺少對(duì)DNN 在深度學(xué)習(xí)中取得顯著成功的內(nèi)在機(jī)理的廣泛認(rèn)識(shí)，特別是MFT 在理解DNN運(yùn)行機(jī)制中發(fā)揮的基礎(chǔ)性作用。本文對(duì)DNN 現(xiàn)有MFT 的研究進(jìn)行了整理和回顧，從網(wǎng)絡(luò)初始化、訓(xùn)練過程和網(wǎng)絡(luò)泛化性能這三個(gè)方面的理論理解入手，并在各種人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）中進(jìn)行了相關(guān)對(duì)比分析，關(guān)于DNN 內(nèi)在機(jī)理的理解與邏輯框架如圖1 所示。此外，本文還分析了該領(lǐng)域仍存在的難點(diǎn)并展望未來研究趨勢，為進(jìn)一步深入研究深度學(xué)習(xí)理論提供參考。

圖1 MFT在理解DNN內(nèi)在機(jī)理的研究框架Fig.1 Research framework of MFT in understanding intrinsic mechanisms of DNN

1 深度神經(jīng)網(wǎng)絡(luò)初始化

DNN 初始化從以下兩個(gè)特性分析：前向信息傳播對(duì)于不同樣本的表達(dá)性和反向梯度傳播的可訓(xùn)練性。這兩種特性分別對(duì)應(yīng)DNN 中的EoC 和DI，如圖2 所示。

圖2 DNN前向信息傳播和反向梯度傳播的兩個(gè)特性Fig.2 Two characteristics of forward information propagation and backward gradient propagation in DNN

1.1 混沌邊緣

1.1.1 隨機(jī)網(wǎng)絡(luò)動(dòng)力學(xué)

通過Sompolinsky 等［8］研究的隨機(jī)非對(duì)稱耦合相互作用的N個(gè)非線性神經(jīng)元網(wǎng)絡(luò)的連續(xù)時(shí)間動(dòng)態(tài)模型，當(dāng)N→∞時(shí)，運(yùn)用自洽MFT，可以發(fā)現(xiàn)在增益參數(shù)g>0 時(shí)的臨界值處發(fā)生有序態(tài)到混沌態(tài)的相變。EoC 相變點(diǎn)處的系統(tǒng)狀態(tài)具有無窮長時(shí)間關(guān)聯(lián)的性質(zhì)，該網(wǎng)絡(luò)的動(dòng)力學(xué)可由N個(gè)耦合的一階微分方程描述［8］（符號(hào)定義見表1），即

表1 相關(guān)變量定義與對(duì)比Tab.1 Definition and comparison of relevant variables

該性質(zhì)在具有離散時(shí)間動(dòng)力學(xué)的系統(tǒng)中也成立。Molgedey 等［9］在此基礎(chǔ)上將動(dòng)態(tài)模型的時(shí)間t離散化，研究在外部噪聲影響下的隨機(jī)非對(duì)稱全連接網(wǎng)絡(luò)的離散時(shí)間動(dòng)力學(xué)，即

1.1.2 神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)

用神經(jīng)網(wǎng)絡(luò)層數(shù)l取代離散的時(shí)間變量t，用權(quán)重矩陣W代替突觸連接Jij，每層l有Nl個(gè)神經(jīng)元，由輸入x0引發(fā)的前饋動(dòng)力學(xué)（符號(hào)定義見表1）即為：

其中?為非線性激活函數(shù)。在每層寬度足夠大的極限下，即Nl?1，單輸入向量x0的長度q0在網(wǎng)絡(luò)傳播中會(huì)發(fā)生變化。對(duì)于大Nl，可以得到ql的高斯分布迭代式：

同樣，兩個(gè)輸入x0，1和x0，2的高斯積分形式可表示為：

其中：z1和z2為獨(dú)立的標(biāo)準(zhǔn)高斯變量為u1和u2相關(guān)高斯變量的協(xié)方差矩陣。

圖3 有序態(tài)-混沌態(tài)的相變圖Fig.3 Ordered state-chaotic state phase transition diagram

可以直觀地把χ(σw，σb)作為判斷臨界的序參量。控制有序態(tài)-混沌態(tài)的參數(shù)對(duì)比見表2。

表2 控制相變的參數(shù)Tab.2 Parameters controlling phase transition

總的來說，這是EoC 性質(zhì)在神經(jīng)網(wǎng)絡(luò)中的重要理論分析，結(jié)合MFT 深入分析了信號(hào)在通過大型隨機(jī)前饋網(wǎng)絡(luò)的確定性性質(zhì)，揭示了由權(quán)重和偏置的統(tǒng)計(jì)函數(shù)控制的有序態(tài)到混沌態(tài)相變的存在，并且發(fā)現(xiàn)在相變點(diǎn)上有限深度演化的暫態(tài)混沌是深度隨機(jī)網(wǎng)絡(luò)具有指數(shù)表達(dá)性的基礎(chǔ)。

1.1.3 混沌邊緣的具體應(yīng)用

EoC在深度神經(jīng)網(wǎng)絡(luò)參數(shù)初始化中起重要作用。Mishkin等［23］認(rèn)為一個(gè)好的初始化條件很有必要：初始化參數(shù)設(shè)置得當(dāng)，網(wǎng)絡(luò)可以訓(xùn)練得很深，訓(xùn)練精度在EoC 附近甚至可達(dá)到100%。表3 顯示了EoC 在不同網(wǎng)絡(luò)的作用，其中對(duì)比了有無EoC情況下達(dá)到目標(biāo)準(zhǔn)確率所需要的迭代次數(shù)。從表3中可以明顯看出，使用EoC初始化時(shí)，所需迭代次數(shù)更少；在沒有EoC下，無論目標(biāo)準(zhǔn)確率如何設(shè)置，所需迭代次數(shù)都比有EoC時(shí)多。雖然全卷積網(wǎng)絡(luò)（Fully Convolutional Network，F(xiàn)CN）、卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）等網(wǎng)絡(luò)在EoC 附近初始化可以訓(xùn)練得很深，但對(duì)于Dropout 網(wǎng)絡(luò)，它的最大網(wǎng)絡(luò)層數(shù)的設(shè)定是有上限的［10］。

表3 EoC在各種人工神經(jīng)網(wǎng)絡(luò)中的作用Tab.3 Roles of EoC in various ANNs

給定損失函數(shù)為L 時(shí)，反向傳播方程可表示為：

由式（7）可知，χ(σw，σb)控制有序態(tài)-混沌態(tài)的相變，可由ξ?是否發(fā)散表示相變，ξ?與χ、g控制相變的詳細(xì)取值對(duì)比如表2 所示。

若梯度不獨(dú)立，邊界參數(shù)需修正［25］。由MFT 可知：

前面的ξ?通過計(jì)算得出（6ξ2），而在梯度不獨(dú)立的假設(shè)下，可通過計(jì)算整體的得到新的ξ?（12ξ1與12ξ2）。

1.2 混沌邊緣特性

1.2.1 表達(dá)性與復(fù)雜性

神經(jīng)網(wǎng)絡(luò)的表達(dá)能力取決于它的網(wǎng)絡(luò)架構(gòu)，更深的網(wǎng)絡(luò)可表達(dá)更復(fù)雜的功能。對(duì)于分段線性函數(shù)網(wǎng)絡(luò)，比如ReLU（Rectified Linear Unit）激活函數(shù)網(wǎng)絡(luò)，它的網(wǎng)絡(luò)表達(dá)能力可以用不同線性區(qū)域數(shù)度量，也可以通過將網(wǎng)絡(luò)調(diào)整為接近線性狀態(tài)使網(wǎng)絡(luò)具有高表達(dá)能力［26］。Serra 等［27］從理論和實(shí)驗(yàn)的角度進(jìn)行相關(guān)驗(yàn)證。

1.2.2 信息傳播與反向傳播

通過MFT 研究隨機(jī)權(quán)重和偏差分布的未訓(xùn)練的神經(jīng)網(wǎng)絡(luò)動(dòng)力學(xué)行為，可以定義一種可訓(xùn)練的深度尺度，并且該深度尺度自然而然地限制了隨機(jī)網(wǎng)絡(luò)傳播信號(hào)的最大深度［10］。由此可見，神經(jīng)網(wǎng)絡(luò)的隨機(jī)權(quán)重初始化在深度學(xué)習(xí)分析中起著重要作用。盡管這些網(wǎng)絡(luò)由隨機(jī)矩陣構(gòu)建，可以用隨機(jī)矩陣?yán)碚摚≧andom Matrix Theory，RMT）分析，但對(duì)于非線性網(wǎng)絡(luò)，現(xiàn)有的數(shù)學(xué)結(jié)果并不能直接利用。為此，Pennington 等［28］在逐點(diǎn)（Pointwise）非線性化神經(jīng)網(wǎng)絡(luò)中利用自由概率論方法將RMT 應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)。另外，Yang等［26］的理論表明，梯度信號(hào)隨深度呈指數(shù)增長，無法通過調(diào)整初始權(quán)重方差或調(diào)整非線性激活函數(shù)消除爆炸性梯度。他們認(rèn)為批量歸一化本身就是梯度爆炸的原因，對(duì)于沒有跳躍連接（Skip connections）的普通批量歸一化無法在DNN 訓(xùn)練。雖然無法完全消除梯度爆炸，但可以盡可能調(diào)整網(wǎng)絡(luò)為線性狀態(tài)以減少梯度爆炸的影響，提高沒有殘差連接的深度歸一化網(wǎng)絡(luò)的可訓(xùn)練性。

1.2.3 網(wǎng)絡(luò)可訓(xùn)練能力

經(jīng)典的前饋神經(jīng)網(wǎng)絡(luò)在前向輸入傳播和反向梯度傳播時(shí)，都隨深度表現(xiàn)出指數(shù)行為。其中前向動(dòng)力學(xué)指數(shù)行為導(dǎo)致輸入空間幾何形狀快速崩潰，反向動(dòng)力學(xué)指數(shù)行為導(dǎo)致梯度急劇消失或爆炸。在EoC 假設(shè)下，網(wǎng)絡(luò)在穩(wěn)定態(tài)和混沌態(tài)之間的邊界徘徊，保持輸入空間的幾何形狀和梯度信息流，從而增強(qiáng)網(wǎng)絡(luò)的可訓(xùn)練能力。Yang 等［29］將此理念用于殘差網(wǎng)絡(luò)，從理論和經(jīng)驗(yàn)上證明了Xavier 或He 等［30］的方案等常見初始化對(duì)于殘差網(wǎng)絡(luò)并非最優(yōu)，因?yàn)闆Q定最優(yōu)初始化的方差取決于網(wǎng)絡(luò)深度，與EoC 相關(guān)。Hayou 等［31］從不同激活函數(shù)網(wǎng)絡(luò)的層面上，用MFT 分析了EoC 對(duì)可訓(xùn)練神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化的作用。

1.3 動(dòng)力等距

1.3.1 Jacobian矩陣

DNN 能很好進(jìn)行訓(xùn)練的原因是：反向傳播過程中的梯度既沒消失也未發(fā)生爆炸，維持在一種穩(wěn)定的狀態(tài)。因此，需逐步剖析梯度更新與傳播的內(nèi)在機(jī)理，旨在改進(jìn)與優(yōu)化現(xiàn)有網(wǎng)絡(luò)算法。對(duì)于損失函數(shù)為L 的網(wǎng)絡(luò)，它的梯度鏈?zhǔn)礁驴梢员硎緸椋?/p>

其中：xL表示最后一層的輸入，xl表示第l層的輸入。要想梯度更新能順利從最后一層傳到前面層，需要保證的值在1 附近，Saxe 等［17］將初步定義為一種端到端Jacobian 矩陣，即

該Jacobian 矩陣捕獲了輸入擾動(dòng)經(jīng)過網(wǎng)絡(luò)傳播對(duì)輸出的影響。

DI 概念首次被Saxe 等［17］提出，即滿足輸入-輸出Jacobian 矩陣的奇異值分布在1 附近：

其中：Dl是對(duì)角矩陣，它的矩陣元素滿足對(duì)于Jacobian 矩陣譜的理論計(jì)算，需要用到自由概率論中的S變換將Dl和Wl拆成單獨(dú)兩項(xiàng)計(jì)算，具體計(jì)算過程如圖4 所示，上部分框圖表示W(wǎng)l的S 變換過程，下部分框圖表示最終Jacobian 矩陣JJT的S 逆變換過程。為簡便計(jì)算，考慮求解矩陣JJT的譜分布，其特征值開根號(hào)即為Jacobian 矩陣的特征值。其中：①表示Stieltjes transform；②得到矩生成函數(shù)MX；③為功能函數(shù)的逆變換過程；④為S 變換；⑤為S 變換過程的合并：

圖4 Jacobian矩陣譜計(jì)算流程Fig.4 Computing flow of Jacobian matrix spectrum

如果A和B為兩個(gè)相互獨(dú)立的隨機(jī)矩陣，它們隨機(jī)矩陣乘積的 S 變換就是它們 S 變換的乘積，即SAB(z)=SA(z)SB(z)。⑥為Dl的S變換的中間求解過程，與③和④相同。⑦得到JJT的逆矩生成函數(shù)。⑧因?yàn)镴JT矩陣特別龐大且復(fù)雜，已經(jīng)不能用式子表示，只能通過隱式求解來數(shù)值計(jì)算矩陣JJT的矩生成函數(shù)。⑨類似于過程②。通過⑩則可以求得最終矩陣JJT的譜密度表現(xiàn)形式。最后，根據(jù)不同激活函數(shù)?的設(shè)定，可以將Jacobian 矩陣譜的形態(tài)劃分為Bernoulli 類和Smooth 類［32］兩類。對(duì)于某些特殊的權(quán)重矩陣，可以利用隨機(jī)矩陣?yán)碚撉蠼馓卣髯V，比如隨機(jī)高斯非對(duì)稱實(shí)矩陣譜分布服從Girko 定律（整圓率）［33］，對(duì)稱則服從半圓率［34］；如果是稀疏矩陣或者是厄米與非厄米矩陣，可以采用空腔方法或復(fù)本方法求解。

1.3.2 動(dòng)力等距的具體應(yīng)用

由前文可知：DNN 的前向傳播體現(xiàn)了高表達(dá)性，可通過EoC 性質(zhì)刻畫；而反向傳播則更注重網(wǎng)絡(luò)的可訓(xùn)練性，梯度傳播的穩(wěn)定性可用DI 刻畫，即梯度既不會(huì)消失也不會(huì)爆炸。這兩種結(jié)論已經(jīng)在全連接網(wǎng)絡(luò)（Fully Connected Network，F(xiàn)CN）［10］、CNN［11］、循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）［12］和殘差神經(jīng)網(wǎng)絡(luò)（ResNets）［13］等得到實(shí)驗(yàn)驗(yàn)證，當(dāng)滿足DI 時(shí)，網(wǎng)絡(luò)的訓(xùn)練速度會(huì)特別快［17］，在沒有批量歸一化和殘差結(jié)構(gòu)幫助下，還能成功訓(xùn)練一萬層CNN［11］。表4 中列舉了使用DI 后與原網(wǎng)絡(luò)的測試精度對(duì)比，其中“—”表示沒有DI 條件時(shí)網(wǎng)絡(luò)不能訓(xùn)練。

表4 DI對(duì)各種人工神經(jīng)網(wǎng)絡(luò)測試精度的提升作用Tab.4 Role of DI in improvement of test accuracies for various ANNs

對(duì)于Jacobian 矩陣譜，不同網(wǎng)絡(luò)的不同Dl可用自由概率論求解，具體對(duì)比分析如表5 所示。其中滿足DI 正交化的方式大致可以分為三種：直接隨機(jī)權(quán)重矩陣正交化、設(shè)定權(quán)重矩陣S 變換后的特征值為0，以及Jacobian 矩陣譜的特征值為1 或-1。另外Yang 等還從數(shù)學(xué)層面對(duì)神經(jīng)網(wǎng)絡(luò)中的平均場性質(zhì)進(jìn)行了進(jìn)一步的理論分析，比如，EoC 處的殘差網(wǎng)絡(luò)［29］、批量歸一化中的平均場［26］和無限寬的超參數(shù)網(wǎng)絡(luò)［35］等。

滿足DI 的DNN 可通過以下兩個(gè)方面構(gòu)建：

1）隨機(jī)正交化。對(duì)于深度線性網(wǎng)絡(luò)，可以通過正交權(quán)重初始化實(shí)現(xiàn)DI，這已被證明可以顯著提高學(xué)習(xí)速度，比沒有實(shí)現(xiàn)DI 的網(wǎng)絡(luò)學(xué)習(xí)速度快幾個(gè)量級(jí)［17］。在非線性情況下，通過自由概率論的強(qiáng)大工具分析計(jì)算深度網(wǎng)絡(luò)輸入輸出Jacobian 行列式的整個(gè)奇異值分布。在此基礎(chǔ)上，Xiao 等［11］提出了一種用于生成隨機(jī)初始正交卷積核算法，能訓(xùn)練一萬層或更多層的Vanilla CNN。Rodríguez 等［36］在正則化基礎(chǔ)上，研究了一種局部強(qiáng)制特征正交性的新型正則化技術(shù)（OrthoReg），在特征去相關(guān)中施加局部約束消除負(fù)相關(guān)特征權(quán)重之間的干擾，使正則化器能達(dá)到更高的去相關(guān)邊界，更有效地減少過擬合。這種正則化技術(shù)可以直接運(yùn)用于權(quán)重上并適用于全卷積神經(jīng)網(wǎng)絡(luò)。此外，Xie 等［37］利用不同濾波器組之間的正交性的正則化器變體加強(qiáng)網(wǎng)絡(luò)的可訓(xùn)練性，還結(jié)合了殘差結(jié)構(gòu)在ImageNet 數(shù)據(jù)集實(shí)現(xiàn)了相關(guān)性能比較。對(duì)于較難訓(xùn)練的RNN，Arjovsky 等［38］構(gòu)建了一種歸一化權(quán)重矩陣新架構(gòu)，使它的特征值的絕對(duì)值恰好為1 以優(yōu)化網(wǎng)絡(luò)訓(xùn)練過程。另一種更簡單的解決方案是使用單位（Identity）矩陣或其縮放（Scaled）版本初始化循環(huán)權(quán)重矩陣［39］。在DNN中，Li 等［40］介紹了一種正交DNN，建立了一個(gè)新的泛化誤差界。在CNN 中也有相關(guān)正交性的應(yīng)用［41］。Guo 等［42］提出一種新的正交特征變換Ortho-GConv，用于增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Network，GNN）主干，以穩(wěn)定模型訓(xùn)練并提高模型的泛化性能。

2）等距懲罰項(xiàng)。雖然可以直接設(shè)置正交化條件以滿足DI 初始化，但在訓(xùn)練過程中很難保證，需要對(duì)損失函數(shù)設(shè)置相關(guān)DI 的約束條件，使網(wǎng)絡(luò)在訓(xùn)練過程中也一直保持DI 性質(zhì)。初始化、歸一化和殘差連接被認(rèn)為是訓(xùn)練非常深的CNN并獲得最先進(jìn)性能的三種不可或缺的技術(shù)，文獻(xiàn)［43］中通過在初始化和訓(xùn)練期間強(qiáng)制卷積核接近等距，也可以訓(xùn)練沒有歸一化或殘差連接的深度Vanilla CNN。

2 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程

用MFT 研究DNN 的過參數(shù)化網(wǎng)絡(luò)，可以將前向初始化近似為高斯過程，反向梯度訓(xùn)練過程近似為NTK。

2.1 過參數(shù)化網(wǎng)絡(luò)

在神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)學(xué)習(xí)過程中，訓(xùn)練誤差和泛化誤差不能同時(shí)兼顧，它們之間為此消彼長的關(guān)系。但是Belkin 等［21］發(fā)現(xiàn)當(dāng)參數(shù)足夠多時(shí)，訓(xùn)練誤差和泛化誤差之間可以保持一種平衡。因此，過參數(shù)化，即在極限條件下網(wǎng)絡(luò)寬度趨向無窮，從某種程度上具有一定優(yōu)勢。Huang 等［44］從不同數(shù)據(jù)集的層面，對(duì)比分析了過參數(shù)化的優(yōu)勢，發(fā)現(xiàn)參數(shù)越多的網(wǎng)絡(luò)具有更高的測試精度和更強(qiáng)的泛化能力。Arora 等［45］揭示了兩層網(wǎng)絡(luò)在過參數(shù)化情況下對(duì)任意數(shù)據(jù)進(jìn)行泛化的原因。Du 等［46］認(rèn)為兩層神經(jīng)網(wǎng)絡(luò)成功的原因之一是隨機(jī)初始化的一階方法，如梯度下降，即使目標(biāo)函數(shù)是非凸的和非光滑的，也可以在訓(xùn)練過程中達(dá)到零損失的狀態(tài)［47］。雖然具有隨機(jī)初始化的基于梯度的算法可以收斂至過參數(shù)化的神經(jīng)網(wǎng)絡(luò)訓(xùn)練損失函數(shù)的全局最小值，但是保證全局收斂的神經(jīng)網(wǎng)絡(luò)寬度條件非常嚴(yán)格。Zou 等［48］采用一種更溫和（Milder）的過參數(shù)化條件，對(duì)DNN 訓(xùn)練過程中的隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）的全局收斂性進(jìn)行了改進(jìn)分析。

2.2 高斯過程

過參數(shù)化的網(wǎng)絡(luò)易于平均場理論分析。因?yàn)樵趨?shù)趨于無窮的極限條件下可以用現(xiàn)有的一些理論解釋，例如，熱力學(xué)極限定律、統(tǒng)計(jì)力學(xué)等。另外，參數(shù)多使得知道的先決條件也多，可以用貝葉斯推斷網(wǎng)絡(luò)的參數(shù)［19］，即使計(jì)算量太大也可以用變分方法或者蒙特卡洛采樣大致估計(jì)。

在中心極限定理下，無限寬的隨機(jī)連接神經(jīng)網(wǎng)絡(luò)等價(jià)于高斯過程，不管有多少網(wǎng)絡(luò)層數(shù)，不用進(jìn)行任何訓(xùn)練也可以對(duì)DNN 進(jìn)行貝葉斯推斷。高斯過程對(duì)于分類函數(shù)的每一個(gè)類都可以提供具體的先驗(yàn)分布，它聯(lián)系神經(jīng)網(wǎng)絡(luò)和核方法，將表示網(wǎng)絡(luò)輸出與輸出之間關(guān)系的核矩陣叫作NNGP 核。對(duì)于式（4）所示網(wǎng)絡(luò)，若為單層神經(jīng)網(wǎng)絡(luò)，則可以得到網(wǎng)絡(luò)輸出的分布為即高斯核的均值為μ1、方差為K1，每個(gè)變量之間都與i無關(guān)。此時(shí)其中C(x，x')的引入來源于Neal等［19］，所以單層網(wǎng)絡(luò)的NNGP 核可以表示為：

對(duì)于深層網(wǎng)絡(luò)，它的NNGP 核表示為：

協(xié)方差矩陣可進(jìn)一步簡寫為：

然而，不同的激活函數(shù)?會(huì)生成不同的NNGP 核，對(duì)于ReLU 非線性函數(shù)，它的F?為確定的arccosine 核；而對(duì)于Tanh，F(xiàn)?只能采用線性插值的方法數(shù)值求解。

給定數(shù)據(jù)集D={(x1，t1)，(x2，t2)，…，(xn，tn)}，(x，t)為輸入-目標(biāo)，用函數(shù)h(x)對(duì)測試點(diǎn)x*進(jìn)行貝葉斯預(yù)測，并且網(wǎng)絡(luò)輸出值為h≡(h1，h2，…，hn)，多元高斯先驗(yàn)分布則可表示為h*，h|x*，x～N (0，K)，其中協(xié)方差矩陣：

得到NNGP 核就可得到所有訓(xùn)練數(shù)據(jù)之間的關(guān)系和先驗(yàn)，采用貝葉斯推斷預(yù)測新的測試數(shù)據(jù)的網(wǎng)絡(luò)輸出，所以此時(shí)只需計(jì)算新產(chǎn)生的，不同神經(jīng)網(wǎng)絡(luò)的NNGP 核公式對(duì)比如表6 所示。

表6 各種人工神經(jīng)網(wǎng)絡(luò)的NNGP公式Tab.6 NNGP formulas for various ANNs

2.3 高斯過程等價(jià)網(wǎng)絡(luò)

通過研究具有多個(gè)隱藏層的隨機(jī)全連接寬前饋網(wǎng)絡(luò)與具有遞歸內(nèi)核定義的高斯過程之間的關(guān)系，發(fā)現(xiàn)隨著網(wǎng)絡(luò)寬度增加，表示網(wǎng)絡(luò)的隨機(jī)分布函數(shù)逐步收斂到高斯過程［50］。除FCN 外，在無限多卷積濾波器限制下的CNN 也可以看作高斯過程［51］，Novak 等［52］還對(duì)比了有無池化層的多層CNN 的類似等價(jià)性。對(duì)于貝葉斯神經(jīng)網(wǎng)絡(luò)（Bayesian Neural Network，BNN），即便其中一些隱藏層（稱為“瓶頸”）保持在有限寬度，也可以收斂到高斯過程［53］。Pretorius 等［54］則研究了噪聲正則化（例如Dropout）對(duì)NNGP 的影響，并將它們的行為與噪聲正則化DNN 中的信號(hào)傳播理論聯(lián)系起來。上述相關(guān)網(wǎng)絡(luò)的高斯過程近似等價(jià)是在無限寬的條件下，Lee 等［55］對(duì)無限寬網(wǎng)絡(luò)和有限寬網(wǎng)絡(luò)的NNGP 對(duì)比研究，并通過對(duì)權(quán)重衰減進(jìn)行逐層縮放（Layer-wise scaling），改進(jìn)了有限寬網(wǎng)絡(luò)中的泛化能力。

盡管高斯過程理論具有吸引力，但它卻不能捕獲特征學(xué)習(xí)（Feature learning），而特征學(xué)習(xí)卻是理解可訓(xùn)練網(wǎng)絡(luò)的關(guān)鍵要素。Naveh 等［56］考慮在大型訓(xùn)練集上使用噪聲梯度下降訓(xùn)練DNN，推導(dǎo)出自洽的高斯過程理論以解釋強(qiáng)大的有限D(zhuǎn)NN 和它的特征學(xué)習(xí)效果。另外，也有從熱力學(xué)理論的角度分析有限超參數(shù)化CNN 的特征學(xué)習(xí)，并也適用于有限寬DNN［57］。

2.4 神經(jīng)正切核

對(duì)于DNN 動(dòng)力學(xué)的研究還有另外一個(gè)分支：從NTK 角度觀察。NNGP 核是關(guān)于神經(jīng)網(wǎng)絡(luò)輸出與輸出之間的協(xié)方差矩陣，而NTK 則是在此基礎(chǔ)上將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與核方法聯(lián)系起來研究梯度與梯度之間的關(guān)系。NTK 由Jacot等［5］首次提出，他們認(rèn)為神經(jīng)網(wǎng)絡(luò)在參數(shù)空間的梯度下降與在NTK 下函數(shù)空間的梯度下降等效，所以NTK 可以用于描述神經(jīng)網(wǎng)絡(luò)中無限寬DNN 在梯度下降訓(xùn)練過程中演化的核，而這個(gè)核在無限寬極限下會(huì)趨于一個(gè)確定的核，并且在梯度下降的過程中保持不變［58］。針對(duì)全批量梯度下降訓(xùn)練的神經(jīng)網(wǎng)絡(luò)［46］，可以對(duì)輸出進(jìn)行一階泰勒展開，用一個(gè)接近無限寬網(wǎng)絡(luò)的線性模型近似［59］，因此該無限寬網(wǎng)絡(luò)的動(dòng)力學(xué)行為可以用一個(gè)常微分方程（Ordinary Differential Equation，ODE）表述，這種無限寬極限的動(dòng)力學(xué)就叫作NTK域（Regime）或惰性訓(xùn)練域（Lazy training regime）。

另外，Arora 等［60］提出了一種高效算法計(jì)算卷積架構(gòu)的NTK，即CNTK（Convolutional Neural Tangent Kernel），文獻(xiàn)［61］結(jié)合CNN 高斯過程內(nèi)核的回歸對(duì)CNTK 算法進(jìn)行了改進(jìn)，提高了內(nèi)核的性能；然而，上述文獻(xiàn)作者只研究了淺層網(wǎng)絡(luò)的無限寬極限（NTK 域）影響。Hayou 等［62］發(fā)現(xiàn)EoC 初始化對(duì)于NTK 也有一定的好處，并將NTK 與MFT 聯(lián)系起來，對(duì)DNN 中的SGD 訓(xùn)練和NTK 訓(xùn)練進(jìn)行了對(duì)比。

2.4.1 核的定義

考慮FCN 的輸入為h0(x；θ)=x，每一層的輸出為為經(jīng)過激活函數(shù)后，網(wǎng)絡(luò)最后一層輸出為fθ(x)表示為：

其中FL：RP→F，代表將參數(shù)θ映射到F空間中的函數(shù)fθ，P表示網(wǎng)絡(luò)參數(shù)量。

對(duì)于任意L層的初始化網(wǎng)絡(luò)來說當(dāng)N1，N2，…，NL-1→∞時(shí)，NTK 中的ΘL收斂于一個(gè)確定極限核，即

其中dNL代表維度為NL，與高斯核有關(guān)的遞歸關(guān)系如下：

2.4.2 線性網(wǎng)絡(luò)動(dòng)力學(xué)

用ft(x) ≡表示神經(jīng)網(wǎng)絡(luò)在t時(shí)刻的輸出，令ωt≡θt-θ0，將輸出網(wǎng)絡(luò)進(jìn)行一階泰勒展開可得：

定義的損失函數(shù)為L，梯度流（Gradient flow）則可表示為=-η?θL，根據(jù)鏈?zhǔn)椒▌t有：

因此，神經(jīng)網(wǎng)絡(luò)的動(dòng)力學(xué)可由一個(gè)ODE 描述，無限寬的網(wǎng)絡(luò)就是一個(gè)關(guān)于參數(shù)的線性模型，它可以證明在梯度下降過程中NTK 始終保持不變且具有穩(wěn)定性，損失函數(shù)最終也會(huì)收斂為全局最小值，而且網(wǎng)絡(luò)非常寬時(shí)，權(quán)重在訓(xùn)練過程中和初始權(quán)重相比變化也不大。針對(duì)不同的神經(jīng)網(wǎng)絡(luò)并參考文獻(xiàn)［63-64］中的模型定義，NTK 的公式對(duì)比總結(jié)如表7所示。

表7 各種人工神經(jīng)網(wǎng)絡(luò)的NTK公式Tab.7 NTK formulas for various ANNs

2.4.3 網(wǎng)絡(luò)的訓(xùn)練過程特征

NTK 使用梯度流對(duì)DNN 訓(xùn)練的這種動(dòng)力學(xué)在無限寬的極限下稱作NTK 域或惰性訓(xùn)練域。NTK 網(wǎng)絡(luò)參數(shù)的初始化為高斯初始化，而對(duì)于DI，它的網(wǎng)絡(luò)初始化可看作正交初始化。在淺層網(wǎng)絡(luò)中，無論是在DI 條件下，還是處于NTK 域中，正交初始化和高斯初始化的效果都一樣。但是當(dāng)打破該NTK 領(lǐng)域時(shí)，即增大學(xué)習(xí)率或固定網(wǎng)絡(luò)寬度以增大網(wǎng)絡(luò)深度時(shí)，由于DI 對(duì)DNN 訓(xùn)練的提升作用，此時(shí)網(wǎng)絡(luò)將不再處于NTK 域中［65］。

總的來說，NTK 在無限寬神經(jīng)網(wǎng)絡(luò)下有兩個(gè)非常有用且重要的性質(zhì)：一是在無限寬網(wǎng)絡(luò)中，若參數(shù)θ0在以某種分布進(jìn)行初始化，那么在該初始值下的NTKΘ(θ0)是一個(gè)確定的函數(shù)，不管初始值為多少，最終總會(huì)收斂到一個(gè)確定的核函數(shù)，且與初始化無關(guān)；二是無限寬網(wǎng)絡(luò)中的Θ(θt)不會(huì)隨著網(wǎng)絡(luò)訓(xùn)練而變化，即訓(xùn)練中參數(shù)的改變并不會(huì)引起核函數(shù)的變化?；诖?，可以將無限寬網(wǎng)絡(luò)的訓(xùn)練過程理解為簡單的關(guān)于核函數(shù)的梯度下降法，其中核函數(shù)固定，只取決于網(wǎng)絡(luò)結(jié)構(gòu)和激活函數(shù)等。在Neal［19］的結(jié)論基礎(chǔ)上，可以將這個(gè)用梯度下降收斂的極值概率分布看作一個(gè)隨機(jī)過程?？傊?，NTK針對(duì)梯度下降法提出，是關(guān)于梯度核的收斂，是訓(xùn)練過程的一種表現(xiàn)形式；而高斯過程是初始化網(wǎng)絡(luò)收斂到高斯核，并未涉及訓(xùn)練過程。

2.4.4 神經(jīng)正切核的具體應(yīng)用

將神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程與核回歸過程建立等價(jià)關(guān)系后，就可以解決無限寬神經(jīng)網(wǎng)絡(luò)在實(shí)際中的表現(xiàn)問題，此時(shí)只需測試使用NTK 的核回歸預(yù)測器即可。Arora 等［60］在CIFAR-10 上對(duì)圖像分類數(shù)據(jù)集測試了NTK，因?yàn)閷?duì)于圖像數(shù)據(jù)集需要使用CNN 才能獲得良好的性能，所以擴(kuò)展NTK 構(gòu)造適用于CNN 的CNTK，并測試了它們在CIFAR-10 上的性能。實(shí)驗(yàn)發(fā)現(xiàn)CNTK 是非常強(qiáng)大的內(nèi)核，而且全局平均池化可以顯著提高CNN 和CNTK 的分類準(zhǔn)確性，據(jù)此認(rèn)為許多改善神經(jīng)網(wǎng)絡(luò)性能的技術(shù)在某種意義上通用。同樣，除了全局平均池化外，希望其他技巧也可以提高NTK 內(nèi)核性能，比如批量歸一化或者殘差連接層，NTK 不僅應(yīng)用在FNN、CNN 和RNN［66］上，也應(yīng)用于GNN［63］，這幾種網(wǎng)絡(luò)的NTK 性能對(duì)比如表8 所示。對(duì)于NTK 的Python 代碼運(yùn)算，可以直接導(dǎo)入相關(guān)函數(shù)包［67］或者使用JAX［68］，另外還可以通過Jacobian 構(gòu)造和分解NTK 向量積等方法［69］加速有限寬網(wǎng)絡(luò)的NTK 計(jì)算。此外，Yang［70］從隨機(jī)神經(jīng)網(wǎng)絡(luò)收斂到高斯過程，再到通過NTK預(yù)測梯度下降的訓(xùn)練動(dòng)態(tài)，在數(shù)學(xué)上重新推導(dǎo)了經(jīng)典的隨機(jī)矩陣結(jié)果。人們還設(shè)計(jì)了Tensor programs 來單獨(dú)闡述任意RNN 架構(gòu)網(wǎng)絡(luò)的高斯過程［71］、任意架構(gòu)的NTK［64］、NTK 訓(xùn)練動(dòng)力學(xué)的泛化性能［72］，以及無限寬網(wǎng)絡(luò)的特征學(xué)習(xí)［73］。對(duì)于DNN 中的可訓(xùn)練性和泛化性，Xiao 等［74］從NTK 的角度制定了一系列架構(gòu)的可訓(xùn)練和泛化的必要條件。

表8 各種人工神經(jīng)網(wǎng)絡(luò)的NTK性能Tab.8 Performance of NTK in various ANNs

3 深度神經(jīng)網(wǎng)絡(luò)泛化性能

第2 章中介紹了過參數(shù)化網(wǎng)絡(luò)的優(yōu)勢，可以在無限寬極限下，將網(wǎng)絡(luò)初始化后信息在網(wǎng)絡(luò)中的傳遞過程用NNGP 核表示，而網(wǎng)絡(luò)參數(shù)的訓(xùn)練過程用NTK 表示，并在一定程度上能描述有限寬網(wǎng)絡(luò)。本章將著重介紹過參數(shù)化可以帶來好的泛化能力的原因、影響泛化性能的因素以及泛化性能的預(yù)測。

Arora 等［45］通過研究兩層網(wǎng)絡(luò)的過度參數(shù)化，利用依賴于數(shù)據(jù)復(fù)雜性的度量，改進(jìn)了獨(dú)立于網(wǎng)絡(luò)規(guī)模的泛化界限。此外，根據(jù)Belkin 等［21］發(fā)現(xiàn)的過參數(shù)化后的訓(xùn)練誤差-泛化誤差關(guān)系，SGD 方法可能隱含地限制了訓(xùn)練網(wǎng)絡(luò)的復(fù)雜性（圖5）。一些實(shí)驗(yàn)現(xiàn)象也表明，當(dāng)SGD 的極小值處于很寬的能量景觀（Landscape）平面時(shí)網(wǎng)絡(luò)會(huì)有很強(qiáng)的泛化能力［75］。對(duì)于簡單兩層神經(jīng)網(wǎng)絡(luò)，通過適當(dāng)縮放利用分布動(dòng)力學(xué)（Distributional Dynamics，DD）的特定非線性偏微方程（Partial Differential Equation，PDE）捕獲SGD 動(dòng)力學(xué)，進(jìn)而解釋SGD 收斂到具有近乎理想泛化誤差的網(wǎng)絡(luò)的原因［76］。另外，從統(tǒng)計(jì)物理中能量與熵的角度進(jìn)行剖析［77］，理論推導(dǎo)證實(shí)了實(shí)驗(yàn)上的直觀現(xiàn)象，其中批量大?。˙atchsize）影響了SGD 的隨機(jī)性，隨機(jī)噪聲會(huì)自發(fā)地使SGD 走向?qū)挼臉O小值。

圖5 訓(xùn)練誤差與泛化誤差曲線示意圖Fig.5 Schematic diagram of training error and generalization error curves

3.1 泛化性能影響因素

人工神經(jīng)網(wǎng)絡(luò)的泛化能力通常是指它識(shí)別未經(jīng)訓(xùn)練的樣本的能力。泛化問題主要可以分為兩大類：一是“弱泛化”，可理解為“魯棒性（Robustness）”，即訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)來自同一分布；二是“強(qiáng)泛化”，可看作一種“理解（Understanding）”能力，即訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布不同，需要使它在訓(xùn)練集上學(xué)習(xí)的模型在測試集上也表現(xiàn)良好。影響網(wǎng)絡(luò)泛化性能的因素主要如下：

1）網(wǎng)絡(luò)結(jié)構(gòu)。實(shí)現(xiàn)網(wǎng)絡(luò)復(fù)雜性與樣本復(fù)雜性之間的平衡，最主要的方法就是剪枝（Pruning），是決策樹學(xué)習(xí)算法中對(duì)付“過擬合”的主要手段，它的基本策略包括預(yù)剪枝（Prepruning）和后剪枝（Post-pruning）［78］。由于后剪枝決策樹通常比預(yù)剪枝決策樹保留了更多的分支，一般情況下它的泛化性能優(yōu)于預(yù)剪枝。雖然剪枝網(wǎng)絡(luò)可以主動(dòng)去掉一些分支降低過擬合風(fēng)險(xiǎn)，但是有些時(shí)候也會(huì)加劇過擬合。例如，當(dāng)通過網(wǎng)絡(luò)修剪增加模型稀疏性時(shí)，測試性能因網(wǎng)絡(luò)過擬合變差，即使減輕過擬合可以提升測試性能，但最后也會(huì)因忘記有用信息而變得更差。He 等［79］把網(wǎng)絡(luò)剪枝有時(shí)加劇過擬合的現(xiàn)象稱為“稀疏雙重下降”。針對(duì)該現(xiàn)象，他們還通過彩票假設(shè)機(jī)制提出了一種新的學(xué)習(xí)距離解釋，即稀疏模型的學(xué)習(xí)距離曲線（從初始參數(shù)到最終參數(shù)）可能與稀疏雙重下降的曲線很好地相關(guān)。

2）訓(xùn)練樣本。神經(jīng)網(wǎng)絡(luò)作為一種非參數(shù)模型，所有信息都來源于訓(xùn)練樣本集，訓(xùn)練樣本集對(duì)泛化性能的影響有時(shí)超過網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性對(duì)泛化性能的影響［80-81］。在DNN 的訓(xùn)練過程中使用模型參數(shù)的梯度信噪比（Gradient Signal-to-Noise Ratio，GSNR），即梯度的平方均值和方差與數(shù)據(jù)分布的比值，可以建立模型參數(shù)的GSNR 與泛化差距之間的定量關(guān)系：較大的GSNR 會(huì)導(dǎo)致更好的泛化性能［82］。另外，通過泛化鴻溝（Generalization gap）預(yù)測訓(xùn)練數(shù)據(jù)和網(wǎng)絡(luò)參數(shù)的泛化差距，得到可以實(shí)現(xiàn)更好泛化的新的訓(xùn)練損失函數(shù)［83］。對(duì)于使用反向傳播算法訓(xùn)練的前饋分層神經(jīng)網(wǎng)絡(luò)，通過在訓(xùn)練樣本中引入加性噪聲也可以增強(qiáng)神經(jīng)網(wǎng)絡(luò)泛化能力［84］。Vyas 等［85］從自然數(shù)據(jù)集出發(fā)，分析了NTK 泛化的局限性，研究認(rèn)為真實(shí)網(wǎng)絡(luò)和NTK 之間的本質(zhì)區(qū)別不僅是幾個(gè)百分點(diǎn)測試精度的差距。

3）學(xué)習(xí)機(jī)制。學(xué)習(xí)策略對(duì)網(wǎng)絡(luò)機(jī)制的泛化性能影響較為復(fù)雜，主要源于鞍點(diǎn)和局部極值問題。在相同學(xué)習(xí)誤差和網(wǎng)絡(luò)結(jié)構(gòu)條件下，泛化誤差因到達(dá)不同的局部極值點(diǎn)而不同?？梢酝ㄟ^約束網(wǎng)絡(luò)學(xué)習(xí)模型（約束條件與目標(biāo)函數(shù)）、全局與局部最優(yōu)算法選擇、訓(xùn)練終止準(zhǔn)則和初始權(quán)重與歸一化等改善前饋網(wǎng)絡(luò)泛化性能。對(duì)于隨機(jī)高斯的權(quán)重初始化，很少有工作考慮到特征各向異性的影響，大多數(shù)都是假設(shè)高斯權(quán)重為獨(dú)立同分布。而Pehlevan 等［86］則據(jù)此推導(dǎo)出具有多層高斯特征模型的學(xué)習(xí)曲線，并且表明第一層特征之間存在相關(guān)性可以幫助網(wǎng)絡(luò)泛化，而后幾層的結(jié)構(gòu)通常有害，闡明了權(quán)重結(jié)構(gòu)如何影響一類簡單的可解模型中的泛化。除此之外，在損失函數(shù)加入懲罰項(xiàng)是當(dāng)前比較常用的正則化優(yōu)化方式，相關(guān)正則化技術(shù)還有Dropout［87］、權(quán)值噪聲和激活噪聲等。

3.2 泛化性能理論

3.2.1 SGD的最優(yōu)值收斂

定義損失函數(shù)

其中R(θ)為正則化函數(shù)，yi為網(wǎng)絡(luò)輸出，由SGD 引起的網(wǎng)絡(luò)參數(shù)更新可以表示為：

其中：ηt表示學(xué)習(xí)率，Bt表示隨機(jī)從訓(xùn)練集中選取數(shù)據(jù)的批量大小。根據(jù)Langevin 方程以及梯度流的定義，可以將SGD寫成下述形式，即

此時(shí)，η(t)表示一種隨機(jī)噪聲，表示所有數(shù)據(jù)點(diǎn)同時(shí)輸入與批量輸入對(duì)網(wǎng)絡(luò)輸出產(chǎn)生影響的差異，如下所示：

過參數(shù)化網(wǎng)絡(luò)擁有好的泛化性，可能得益于SGD 的作用，Jastrz?bski 等［88］認(rèn)為影響SGD 最小值有3 個(gè)因素，即學(xué)習(xí)率、批量尺寸和梯度協(xié)方差，并且認(rèn)為學(xué)習(xí)率與批量大小的比值是影響SGD 動(dòng)態(tài)和最終最小值寬度的關(guān)鍵決定因素，比率值越高，最小值范圍越寬，泛化效果越好。

SGD 的下降趨勢取決于噪聲的方向及大小。當(dāng)網(wǎng)絡(luò)的訓(xùn)練過程收斂到一定狀態(tài)時(shí)，可分兩種情況分析：一種是因?yàn)榈暨M(jìn)了寬的局部最小值，可以通過額外添加噪聲［89］使梯度繼續(xù)下降，朝著更低極小值走去；另一種是處于鞍點(diǎn)，就需要新的算法逃離鞍點(diǎn)［90］。

3.2.2 內(nèi)核與泛化誤差

給定P個(gè)觀察樣本輸入xμ服從分布p(x)，假設(shè)樣本的標(biāo)簽yμ帶有噪聲其中關(guān)于p(x)平方可積，εμ為添加的零均值噪聲，方差滿足關(guān)系對(duì)上述P個(gè)樣本的數(shù)據(jù)集，核回歸問題［6］可以描述為：

其中：λ為嶺（Ridge）參數(shù)，H 是由其再生核K(x，x')和輸入分布p(x)唯一確定的再生核希爾伯特空間（Reproducing Kernel Hilbert Space，RKHS）［91］，表示RKHS 內(nèi)積，希爾伯特范數(shù)懲罰項(xiàng)控制f的復(fù)雜性［92］。

泛化誤差，即估計(jì)量f*與數(shù)據(jù)分布和數(shù)據(jù)集的平均真實(shí)目標(biāo)值之間的均方誤差，可表示為：

Eg從平均上衡量所學(xué)習(xí)的函數(shù)與從同一分布采樣的未知（和已知）數(shù)據(jù)的目標(biāo)一致程度。式（33）的分析可以使用無序系統(tǒng)統(tǒng)計(jì)物理學(xué)中的復(fù)本方法［93］。

利用Mercer 分解方法，將核K(x，x')分解成關(guān)于正交的特征函數(shù)項(xiàng){?ρ}：

特征值{ηρ}和特征向量{?ρ}構(gòu)成RKHS 的完整基。通過特征圖（Feature map），可將式（34）右邊項(xiàng)設(shè)置為正交基，用于計(jì)算任何核和數(shù)據(jù)分布的核回歸泛化誤差。另外，還可以用該泛化誤差公式很好地描述低至幾個(gè)樣本數(shù)據(jù)集的平均學(xué)習(xí)曲線，由于訓(xùn)練集的隨機(jī)抽樣，學(xué)習(xí)曲線的走勢會(huì)隨著數(shù)據(jù)集樣本量的增加而衰減。對(duì)式（33）的解進(jìn)行實(shí)驗(yàn)分析，一個(gè)直接的觀察是它的譜偏差：若誤差沿特征函數(shù)的收斂越快，則在沒有噪聲限制下的特征值就越高［6］。

基于上述核回歸泛化理論，可以計(jì)算從淺層FCN 到深度CNN 等DNN 訓(xùn)練中的泛化差距（Gap）。Misiakiewicz 等［94］用RKHS 的內(nèi)核特征計(jì)算高維單層卷積核中的任何給定函數(shù)的漸進(jìn)泛化誤差。

3.3 泛化性能內(nèi)核預(yù)測

在無限寬網(wǎng)絡(luò)極限下，基于高斯過程和NTK 過程的內(nèi)核演化可以預(yù)測網(wǎng)絡(luò)的泛化性能。Simon 等［91］推導(dǎo)出一種預(yù)測核回歸泛化的新理論，不僅可以準(zhǔn)確預(yù)測測試均方誤差，還可以預(yù)測網(wǎng)絡(luò)學(xué)習(xí)函數(shù)的所有一階和二階統(tǒng)計(jì)量，并且可以準(zhǔn)確預(yù)測有限寬網(wǎng)絡(luò)。針對(duì)不同架構(gòu)的DNN，還可以利用重尾自正則化（Heavy-Tailed Self-Regularization，HTSR）［95］，在不查看測試數(shù)據(jù)的情況下預(yù)測何種DNN 具有最佳測試準(zhǔn)確性。Bordelon 等［96］通過自洽動(dòng)力場理論分析了用梯度流訓(xùn)練的無限寬度神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)。此外，他們還分析了使用梯度下降和生物學(xué)相關(guān)機(jī)制（反饋對(duì)齊）訓(xùn)練的無限寬深度網(wǎng)絡(luò)，并認(rèn)為DMFT 能比較學(xué)習(xí)規(guī)則中的特征和預(yù)測動(dòng)態(tài)，內(nèi)核的演化也可以用DMFT 自洽地決定［97］。Cohen 等［98］則利用類物理學(xué)的方法，準(zhǔn)確地預(yù)測了足夠深的DNN 在多項(xiàng)式回歸問題上的學(xué)習(xí)曲線。

Canatar 等［99］分析內(nèi)核與網(wǎng)絡(luò)目標(biāo)函數(shù)的對(duì)齊方式（Kernel alignment），用內(nèi)核表示DNN 學(xué)習(xí)的有用數(shù)據(jù)，并在實(shí)驗(yàn)上研究了訓(xùn)練期間由層數(shù)演化的內(nèi)核，當(dāng)內(nèi)核可由淺層到較深層進(jìn)行表示時(shí)，網(wǎng)絡(luò)可更好地進(jìn)行泛化。此外，Pehlevan 團(tuán)隊(duì)［6］通過研究核回歸的泛化誤差描述了相關(guān)無限寬過參數(shù)化的神經(jīng)網(wǎng)絡(luò)的泛化能力，并且使用統(tǒng)計(jì)力學(xué)相關(guān)技術(shù)推導(dǎo)出了適用于任何內(nèi)核和數(shù)據(jù)分布的泛化誤差的解析表達(dá)式，結(jié)合真實(shí)和合成數(shù)據(jù)集以及多種內(nèi)核，闡明了內(nèi)核回歸的歸納偏置，并用簡單函數(shù)解釋數(shù)據(jù)表征了內(nèi)核與學(xué)習(xí)任務(wù)的兼容性。

4 未來方向

深度神經(jīng)網(wǎng)絡(luò)平均場理論被廣泛用于指導(dǎo)深度學(xué)習(xí)中的工程設(shè)計(jì)，但在DNN 中的初始化、訓(xùn)練過程以及泛化預(yù)測這3 個(gè)階段上依然存在一定的挑戰(zhàn)：

1）初始化階段。盡管MFT 在DNN 的應(yīng)用中取得了一定成效，還可以和統(tǒng)計(jì)力學(xué)相結(jié)合，從能量的角度出發(fā)理解DNN 的隨機(jī)初始化及表征能力［100］，但在訓(xùn)練過程中可能會(huì)破壞好的初始化，這時(shí)該如何拯救尚未可知。已有研究從正則化的角度讓網(wǎng)絡(luò)在訓(xùn)練過程中盡量保持好的網(wǎng)絡(luò)狀態(tài)，如上述提到的加入等距懲罰項(xiàng)等方法，但還未達(dá)到完全可以保障的效果。要想真正地探究DNN 的初始化機(jī)制，EoC 和DI這樣的初始化理論可能還遠(yuǎn)遠(yuǎn)不夠，特別是在EoC 和DI 之外是否存在更好的算法可以彌補(bǔ)不理想的初始化狀態(tài)，這對(duì)發(fā)展更加可靠的DNN 具有重要的指導(dǎo)意義。因此，利用MFT 進(jìn)一步深入研究DNN 初始化的作用機(jī)制是非常有意義的方向之一。

2）訓(xùn)練階段。既然NTK 可以在理論上描述任意深度L的神經(jīng)網(wǎng)絡(luò)，那為何實(shí)際實(shí)驗(yàn)中進(jìn)行的卻是淺層網(wǎng)絡(luò)？一個(gè)可能的原因是較大的網(wǎng)絡(luò)寬度意味著影響輸出的神經(jīng)元很多，連接這些神經(jīng)元的權(quán)重發(fā)生一點(diǎn)細(xì)微變化都可能導(dǎo)致網(wǎng)絡(luò)輸出變化很大；另一種可能的原因是對(duì)于初始化不滿足訓(xùn)練條件的DNN，即不滿足EoC 和DI 條件，梯度不能從網(wǎng)絡(luò)的最后一層反向傳播至輸入層。另外，對(duì)于有限寬網(wǎng)絡(luò)，NTK也并不能完全適用［85］，實(shí)際實(shí)驗(yàn)中真實(shí)的網(wǎng)絡(luò)寬度也不可能接近無窮，NTK 理論終歸和實(shí)驗(yàn)有偏差，還需改善現(xiàn)有理論，以更好地衡量有限寬或深度網(wǎng)絡(luò)的訓(xùn)練能力。

3）泛化階段。雖然泛化理論在預(yù)測方面取得了一定的突破，但也有局限性：第一，該理論需要在完整數(shù)據(jù)集上進(jìn)行核的特征分解，導(dǎo)致計(jì)算量龐大；第二，對(duì)于DNN 的內(nèi)核描述受到限制，不能捕獲更多有用的深度學(xué)習(xí)現(xiàn)象；第三，該理論使用高斯近似假設(shè)，即使實(shí)驗(yàn)驗(yàn)證無誤，但放寬高斯近似假設(shè)后對(duì)于新的實(shí)驗(yàn)見解仍未知。另外，Pehlevan 的泛化理論基于核回歸，而對(duì)于非核回歸等問題目前還沒有類似于核回歸泛化理論的理論。特別是當(dāng)深度神經(jīng)網(wǎng)絡(luò)在做特征學(xué)習(xí)時(shí)處于非NTK 區(qū)域，目前的泛化理論研究還處于初期階段，任重而道遠(yuǎn)。

5 結(jié)語

本文從隨機(jī)網(wǎng)絡(luò)的動(dòng)力學(xué)模型出發(fā)，回顧并綜述了DNN的初始化MFT 理論及其對(duì)DNN 學(xué)習(xí)性能的重要性，以及過參數(shù)化和無限寬極限下的各種MFT 理論，介紹了訓(xùn)練過程中收斂性和泛化性的相關(guān)MFT 理論進(jìn)展。目前對(duì)DNN 的工作原理的理解還很粗淺，要想解析DNN 的內(nèi)部機(jī)理開發(fā)和改進(jìn)工程算法，還需要更多的理論實(shí)驗(yàn)探索，從更深層次的角度用MFT 理論理解DNN 的工作原理。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡