陳達(dá)權(quán)
摘要:基于非線性函數(shù)逼近問題的相關(guān)問題一直是工程應(yīng)用領(lǐng)域研究的熱點(diǎn)問題,如傳感器修正、產(chǎn)品設(shè)計(jì)仿真及機(jī)器人控制等,要求模型能夠有效處理大樣本高維非線性數(shù)據(jù)而且能夠達(dá)到高精度、高魯棒性及強(qiáng)泛化能力等性能表現(xiàn),而目前的傳統(tǒng)淺層模型均難以滿足這些具體要求,在充分分析并研究現(xiàn)有典型深度學(xué)習(xí)模型后,得出深度學(xué)習(xí)模型能夠?qū)崿F(xiàn)對(duì)任意高維非線性復(fù)雜函數(shù)進(jìn)行逼近的可行性,并提出相對(duì)傳統(tǒng)淺層模型具有更優(yōu)異性能表現(xiàn)的深度學(xué)習(xí)模型的設(shè)計(jì)方法。
關(guān)鍵詞:深度學(xué)習(xí);函數(shù)逼近;仿真研究;非線性系統(tǒng)建模
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2019)05-0169-02
Valid Analysis of Deep Learning in Non-linear Regression
CHEN Da-quan
(School of Electromechanical Engineering, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: Related problems based on nonlinear function approximation problems have traditionally been a research hotspot in engineering application field research, such as sensor correction, product design simulation and robot control, etc. These problems require the model to effectively process large samples of high-dimensional non-linear data and to have the high precision, the good robustness and the nicer generalization ability, but the current traditional shallow models are difficult to meet these specific requirements. After fully studying and analyzing the existing typical deep learning models, it is feasible to obtain a deep learning model to achieve approximation of arbitrary high-dimensional non-linear complex functions. Finally, a design method for deep learning models with better performance than traditional shallow models is proposed.
Key words: Deep Learning; Function Approximation; Simulation Study; Non-linear system modeling
1 背景
隨著科技的不斷發(fā)展,高新技術(shù)產(chǎn)品的功能復(fù)合化程度越來越高,在開發(fā)階段所需考慮的影響因素較多[1],由于產(chǎn)品各參數(shù)與響應(yīng)間的非線性及多對(duì)多等特征[2],對(duì)于非線性系統(tǒng)的建模要求正在不斷提高,傳統(tǒng)的數(shù)學(xué)模型現(xiàn)已難以滿足。目前,對(duì)于高新技術(shù)產(chǎn)品的非線性系統(tǒng)建模問題,工業(yè)界主要采用代理模型或響應(yīng)面方法。
具體的,代理模型或響應(yīng)面方法,首先將高新技術(shù)產(chǎn)品的非線性系統(tǒng)模型假設(shè)為黑箱函數(shù),然后利用訓(xùn)練樣本集通過優(yōu)化算法對(duì)代理模型進(jìn)行訓(xùn)練,使得代理模型的仿真預(yù)測(cè)與高新技術(shù)產(chǎn)品的對(duì)應(yīng)性能響應(yīng)相逼近,最終通過完成訓(xùn)練的代理模型對(duì)新設(shè)計(jì)的高新技術(shù)產(chǎn)品的性能進(jìn)行仿真預(yù)測(cè)。
因此,非線性函數(shù)逼近問題如函數(shù)逼近、仿真回歸、回歸分析、代理模型或響應(yīng)面方法等,所要解決的問題均是根據(jù)觀測(cè)數(shù)據(jù)通過參數(shù)估計(jì)構(gòu)建能反映輸入和輸出間的映射關(guān)系(即回歸函數(shù)或代理模型),最后通過回歸函數(shù)對(duì)其他新輸入數(shù)據(jù)預(yù)測(cè)其對(duì)應(yīng)的輸出。
非線性函數(shù)逼近問題的具體數(shù)學(xué)描述如下:一個(gè)包含[k]個(gè)樣本的訓(xùn)練集[(x1,y1),(x2,y2),(x3,y3),...,(xi,yi),...,(xk,yk)],其中[xi∈Rn],[yi∈Rm],[n,m∈N+],[x]表示由高新技術(shù)產(chǎn)品的[n]個(gè)參數(shù)(屬性)所組成的輸入向量,[y]表示由高新技術(shù)產(chǎn)品的[m]個(gè)性能響應(yīng)所組成的輸出向量,[n]和[m]均為正整數(shù),利用訓(xùn)練集通過優(yōu)化算法對(duì)模型進(jìn)行訓(xùn)練后找到黑箱函數(shù)[y=f(x;θ)],其中[θ=(θ1,θ2,θ3,......,θt)]為模型[t]個(gè)訓(xùn)練參數(shù),則黑箱函數(shù)[f(x)]即為非線性函數(shù)逼近問題的回歸函數(shù),最后通過回歸函數(shù)[f(x)]對(duì)新輸入數(shù)據(jù)預(yù)測(cè)其輸出。
另外,對(duì)于非線性函數(shù)逼近問題,存在靜態(tài)和動(dòng)態(tài)兩種類型,所謂的動(dòng)態(tài)非線性函數(shù)逼近問題,其模型的輸入為時(shí)序變量,即輸入數(shù)據(jù)間在時(shí)間上存在先后順序關(guān)系;而靜態(tài)非線性函數(shù)逼近問題,則模型的輸入在時(shí)間上不存在相關(guān)性;而且,根據(jù)輸入數(shù)據(jù)相鄰元素間是否直接存在相關(guān)性可分為相關(guān)非線性函數(shù)逼近問題和獨(dú)立非線性函數(shù)逼近問題。
因此,在本文中,所探究的非線性函數(shù)逼近問題具體是靜態(tài)獨(dú)立非線性函數(shù)逼近問題,在實(shí)際工程應(yīng)用中是代理模型或響應(yīng)面方法的代理模型構(gòu)建問題。
2 傳統(tǒng)淺層模型與深度學(xué)習(xí)
用于對(duì)非線性函數(shù)關(guān)系進(jìn)行逼近的代理模型根據(jù)模型結(jié)構(gòu)可分為傳統(tǒng)淺層模型和深度學(xué)習(xí)模型。傳統(tǒng)淺層模型如支持向量機(jī)(SVM)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBF)、三層BP神經(jīng)網(wǎng)絡(luò)及最大熵模型(MaxEnt)等,一般僅有一層隱含層計(jì)算節(jié)點(diǎn)(如RBF等)甚至沒有隱含層計(jì)算節(jié)點(diǎn)(如MaxEnt等),能夠?qū)€性關(guān)系或簡(jiǎn)單非線性關(guān)系進(jìn)行有效表達(dá),對(duì)訓(xùn)練樣本較少的低維數(shù)據(jù)弱非線性映射關(guān)系有較好的表達(dá)效果,但對(duì)輸入數(shù)據(jù)所獲得的特征表達(dá)是簡(jiǎn)單的單層特征表達(dá),所以結(jié)構(gòu)如此簡(jiǎn)單的淺層模型對(duì)復(fù)雜的高維強(qiáng)非線性關(guān)系的表達(dá)能力是十分有限的,對(duì)于復(fù)雜的分類問題或仿真預(yù)測(cè)問題在泛化能力的提高上將受到限制。
相對(duì)于傳統(tǒng)淺層模型,深度學(xué)習(xí)模型的區(qū)別在于模型結(jié)構(gòu)的深度變得更深,通常隱含層層數(shù)至少在3層以上,數(shù)據(jù)每經(jīng)過一層隱含層則完成一次空間映射,對(duì)輸入數(shù)據(jù)逐層地構(gòu)造數(shù)據(jù)中的中高層次抽象特征,實(shí)現(xiàn)從訓(xùn)練樣本集中逐層地學(xué)習(xí)到樣本數(shù)據(jù)中更本質(zhì)的特征以完成數(shù)據(jù)特征的提取,最終實(shí)現(xiàn)對(duì)復(fù)雜函數(shù)的逼近[ 3-5]。因此,深度學(xué)習(xí)模型相比于傳統(tǒng)淺層模型具有更強(qiáng)的學(xué)習(xí)能力,可在高度非線性的復(fù)雜函數(shù)中學(xué)習(xí)到緊湊的層次化的特征表示,能更好地解釋輸入數(shù)據(jù),使模型擁有更強(qiáng)的泛化能力,在各種更復(fù)雜的實(shí)際應(yīng)用環(huán)境中能夠達(dá)到遠(yuǎn)遠(yuǎn)超越傳統(tǒng)淺層模型所能達(dá)到的極限性能[6]。
目前,深度學(xué)習(xí)模型己經(jīng)被廣泛地應(yīng)用在如計(jì)算機(jī)視覺及語音識(shí)別等分類及識(shí)別領(lǐng)域中,并表現(xiàn)出傳統(tǒng)淺層模型所遠(yuǎn)遠(yuǎn)無法達(dá)到的優(yōu)異性能。但是,相對(duì)而言深度學(xué)習(xí)模型在仿真回歸領(lǐng)域的研究及應(yīng)用則相對(duì)較少,一般在仿真預(yù)測(cè)應(yīng)用方面深度學(xué)習(xí)模型的隱含層層數(shù)僅為2層或3層,模型結(jié)構(gòu)相比于傳統(tǒng)淺層模型基本無差別,顯然其性能表現(xiàn)相比傳統(tǒng)淺層模型也是基本無差別。
所以,在本文中,最主要的探究?jī)?nèi)容是利用深度學(xué)習(xí)模型(隱含層層數(shù)為4層及以上)對(duì)于非線性函數(shù)逼近問題是否有效可行。
3 深度學(xué)習(xí)模型在非線性函數(shù)逼近問題應(yīng)用中的分析及設(shè)計(jì)
神經(jīng)網(wǎng)絡(luò)模型是可以被看作一個(gè)黑箱模型的非線性系統(tǒng),能夠表達(dá)難以用數(shù)學(xué)公式進(jìn)行描述的輸入和輸出間的固有規(guī)律,最終使其學(xué)習(xí)到數(shù)據(jù)間的固有規(guī)律并可在實(shí)際中使用[7]。因此,神經(jīng)網(wǎng)絡(luò)模型在各種預(yù)測(cè)及分類問題上均有較好的性能表現(xiàn),其中傳統(tǒng)三層BP神經(jīng)網(wǎng)絡(luò)模型更是應(yīng)用最為廣泛的經(jīng)典模型,并且,當(dāng)模型中隱含層神經(jīng)元足夠多且訓(xùn)練時(shí)間足夠長(zhǎng)時(shí),其將可以任意精度逼近任意非線性映射關(guān)系[8]。
具體的,神經(jīng)網(wǎng)絡(luò)模型的性能表現(xiàn)主要是由模型拓?fù)浣Y(jié)構(gòu)、神經(jīng)元中輸入輸出特性、神經(jīng)元間連接權(quán)值及神經(jīng)元間特殊連接權(quán)值所決定,利用如反向傳播算法的學(xué)習(xí)算法通過如梯度下降算法的優(yōu)化算法對(duì)模型中各參數(shù)進(jìn)行訓(xùn)練及學(xué)習(xí)。但是,隨著神經(jīng)網(wǎng)絡(luò)模型的隱含層層數(shù)增加,在訓(xùn)練過程中會(huì)出現(xiàn)如梯度消失等問題,導(dǎo)致具有多個(gè)隱含層的深度神經(jīng)網(wǎng)絡(luò)模型出現(xiàn)訓(xùn)練無法收斂的問題。直到2006年,Geoffrey Hinton等人通過利用貪婪逐層無監(jiān)督預(yù)訓(xùn)練策略成功的對(duì)深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行有效訓(xùn)練[9],從此開啟了深度學(xué)習(xí)的大時(shí)代。
顯然,深度學(xué)習(xí)的概念源于神經(jīng)網(wǎng)絡(luò)模型,深度神經(jīng)網(wǎng)絡(luò)模型(深度學(xué)習(xí)模型)沿用了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu),只是在隱含層的層數(shù)上相對(duì)更多,其典型的模型類型包括:全連接神經(jīng)網(wǎng)絡(luò)(FNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)及循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),其中全連接神經(jīng)網(wǎng)絡(luò)模型包括:深度信念網(wǎng)絡(luò)(DBN)及深度自編碼器(DAE)等。
首先,大量的計(jì)算機(jī)視覺實(shí)際應(yīng)用表明,卷積神經(jīng)網(wǎng)絡(luò)模型的局部權(quán)值共享結(jié)構(gòu)在圖像處理問題上有著卓越的表現(xiàn)性能,但值得注意的是,模型的卷積核實(shí)際上僅是帶有濾波或幾何特征檢測(cè)功能的濾波器,其主要作用是找出輸入圖像中相鄰像素點(diǎn)間可能存在的幾何關(guān)系或空間關(guān)系,所以卷積神經(jīng)網(wǎng)絡(luò)模型更適合圖像數(shù)據(jù)的處理。
其次,循環(huán)神經(jīng)網(wǎng)絡(luò)模型通過引入的循環(huán)神經(jīng)元來提取序列數(shù)據(jù)的動(dòng)態(tài)時(shí)序特征,具有強(qiáng)大的時(shí)序數(shù)據(jù)學(xué)習(xí)能力,能夠有效處理輸入數(shù)據(jù)間存在時(shí)序關(guān)系的動(dòng)力學(xué)系統(tǒng)建模問題,所以循環(huán)神經(jīng)網(wǎng)絡(luò)模型更適合動(dòng)態(tài)數(shù)據(jù)的處理。
另外,深度置信網(wǎng)絡(luò)模型及堆疊自編碼器模型均是典型的全連接神經(jīng)網(wǎng)絡(luò)模型,均是利用貪婪逐層無監(jiān)督預(yù)訓(xùn)練策略對(duì)具有多個(gè)隱含層的深度學(xué)習(xí)模型實(shí)現(xiàn)有效訓(xùn)練,但隨著深度學(xué)習(xí)技術(shù)在激活函數(shù)上的突破,選取ReLU函數(shù)作為神經(jīng)元激活函數(shù)的深度學(xué)習(xí)模型可以直接通過反向傳播算法而無須利用基于貪婪逐層無監(jiān)督預(yù)訓(xùn)練策略也能夠?qū)崿F(xiàn)有效訓(xùn)練。由此,可不考慮訓(xùn)練過程復(fù)雜煩瑣的深度置信網(wǎng)絡(luò)模型及堆疊自編碼器模型而針對(duì)具體實(shí)際問題直接設(shè)計(jì)合適的深度全連接神經(jīng)網(wǎng)絡(luò)模型。
相對(duì)于其他神經(jīng)網(wǎng)絡(luò)模型,全連接神經(jīng)網(wǎng)絡(luò)模型更擅長(zhǎng)于靜態(tài)數(shù)據(jù)內(nèi)部本質(zhì)特征的提取,而且神經(jīng)網(wǎng)絡(luò)模型的一致逼近原理也表明:?jiǎn)螌与[含層神經(jīng)元足夠多的淺層網(wǎng)絡(luò)模型及隱含層足夠多的深度網(wǎng)絡(luò)模型均可以任意精度逼近任何非線性映射關(guān)系[10]。此外,對(duì)于具有豐富信息維度的數(shù)據(jù),模型容量相對(duì)較小的淺層網(wǎng)絡(luò)模型是無法進(jìn)行有效處理的,唯有具有更大模型容量更強(qiáng)學(xué)習(xí)能力的深度學(xué)習(xí)模型才能夠?qū)ζ溥M(jìn)行有效處理。
綜上所述,對(duì)于輸入數(shù)據(jù)具有靜態(tài)性及相互獨(dú)立性的非線性函數(shù)逼近問題(非線性仿真回歸問題),選用深度全連接前饋神經(jīng)網(wǎng)絡(luò)模型是最為適合,具體地,從模型的模型容量、學(xué)習(xí)速度及泛化能力等方面考慮,模型的隱含層層數(shù)至少為3層以上,而且越接近輸入層的隱含層的神經(jīng)元數(shù)量相對(duì)更多,最后除了最接近輸入層的一個(gè)或兩個(gè)隱含層外,模型的其他隱含層的神經(jīng)元均選取ReLU函數(shù)作為其激活函數(shù)。
4 結(jié)論
本文在充分研究并分析現(xiàn)有典型深度學(xué)習(xí)模型后,得到深度學(xué)習(xí)模型能夠?qū)崿F(xiàn)對(duì)任意高維非線性復(fù)雜函數(shù)進(jìn)行逼近的可行性,具體的,深度學(xué)習(xí)模型能夠有效處理大樣本高維非線性數(shù)據(jù)而且能夠達(dá)到高的精度、好的魯棒性及強(qiáng)的泛化能力的性能表現(xiàn),所提出的通過選取ReLU函數(shù)作為后層神經(jīng)元激活函數(shù)的深度學(xué)習(xí)模型相對(duì)于傳統(tǒng)淺層模型在復(fù)雜應(yīng)用環(huán)境下具有更優(yōu)異的性能表現(xiàn)。
參考文獻(xiàn):
[1] Wang G G, Shan S. Review of metamodeling techniques in support of engineering design optimization[J]. Journal of Mechanical Design, 2007, 129(4):370-380.
[2] Kodiyalam S, Yang R J, Gu L. High performance computing and surrogate modeling for rapid visualization with multidisciplinary optimization[J]. AIAA journal, 2004, 42(11):2347-2354.
[3] S Haykin. Neural networks: a comprehensive foundation[M]. New York: Macmillan, 1994.
[4] Y LeCun, Y Bengio, G Hinton. Deep learning[J]. Nature, 521(7553):436-444, 2015.
[5] J Schmidhuber. Deep learning in neural networks: An overview[J]. Neural Networks, 61:85-117, 2015.
[6] Y Bengio. Learning deep architectures for AI[J]. Foundations and trends in machine learning, 2(1):1-127, 2009.
[7] Schalkoff R J. Artificial neural networks[M]. New York: Mc Graw-Hill, 1997.
[8] Rumelhart D E, Hinton G E, Williams R J. Learning Internal Representations by Error Propagation[C]. In: Parallel Distributed Processing: Explanations in the Microstructure of Cognition, Cambridge, MA: MTT Press, 1986, 01:318-362.
[9] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7):1527-1554.
[10] Huang G B, Chen L, Siew C K. Universal approximation using incremental constructive feedforward networks with random hidden nodes[J]. IEEE Trans on Neural Networks, 2006, 17(4):879-892.
【通聯(lián)編輯:梁書】