邵紅梅,安鳳仙
(1.中國石油大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,山東東營 257061;2.淮陰工學(xué)院數(shù)理學(xué)院,江蘇淮安 223003)
一類訓(xùn)練前饋神經(jīng)網(wǎng)絡(luò)的梯度算法及收斂性
邵紅梅1,安鳳仙2
(1.中國石油大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,山東東營 257061;2.淮陰工學(xué)院數(shù)理學(xué)院,江蘇淮安 223003)
為加速網(wǎng)絡(luò)訓(xùn)練,給出學(xué)習(xí)率的一種更廣泛的選取方式,并從理論上證明這類新的變學(xué)習(xí)率的梯度學(xué)習(xí)算法的收斂性和訓(xùn)練過程中誤差函數(shù)的單調(diào)遞減性。
前饋神經(jīng)網(wǎng)絡(luò);收斂性;變學(xué)習(xí)率;梯度算法
梯度法是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的一種簡單又常用的學(xué)習(xí)算法[1-6]。在梯度算法中,學(xué)習(xí)率的大小對網(wǎng)絡(luò)誤差函數(shù)的收斂性和收斂速度有很大的影響[5,7-8]。對于一般的優(yōu)化問題,為了保證目標(biāo)函數(shù)的下降和算法的收斂,線搜索是確定學(xué)習(xí)步長的常用方法,如精確一維搜索以及按 Ar mijo-Goldstein準(zhǔn)則、Wolfe-Powell準(zhǔn)則等進(jìn)行確定步長的非精確線搜索[9,10]等,但是在實(shí)際應(yīng)用中它們往往需要花費(fèi)很大的計(jì)算量或很多次繁瑣的試探性工作。為此,針對神經(jīng)網(wǎng)絡(luò)訓(xùn)練,人們提出了很多選取學(xué)習(xí)率的改進(jìn)策略[1-2,7-8,11-12]。受文獻(xiàn) [1]的啟發(fā),筆者給出一種更廣泛的簡單選取學(xué)習(xí)率的規(guī)則,并以訓(xùn)練一個兩層的前饋神經(jīng)網(wǎng)絡(luò)為例,嚴(yán)格證明對應(yīng)的批處理梯度算法的收斂性。
為了方便敘述和簡化證明過程,考慮具有N個輸入單元和 1個輸出單元的兩層前饋神經(jīng)網(wǎng)絡(luò)。記W =(w1,w2,…,wN)為整個網(wǎng)絡(luò)的連接權(quán)構(gòu)成的權(quán)向量,記σ(·)為輸出單元對應(yīng)的激活函數(shù) (常用Sigmoid類型的函數(shù)[2,5])。給定一組訓(xùn)練樣本集{ξi,Oi,當(dāng)全部呈現(xiàn)給網(wǎng)絡(luò)后,得到如下誤差函數(shù):
其中
對應(yīng)的梯度函數(shù)為
任給初始權(quán)值W0∈RN,每完成一個訓(xùn)練周期后,按如下規(guī)則不斷進(jìn)行更新:
其中,ηn>0為第 n個訓(xùn)練周期內(nèi)的學(xué)習(xí)率,且從某給定初值η0>0開始,ηn隨訓(xùn)練周期的增加而按下述規(guī)則變化:
式中,參數(shù) K>0是一個預(yù)先取定的常數(shù)。針對不同問題,K>0的取值可能不同,但這不影響算法的收斂性能。
在證明學(xué)習(xí)率按公式(4)變化的這類批處理梯度算法(3)的收斂性之前,需要作如下假設(shè):
假設(shè)2 權(quán)序列{Wn}一致有界,即存在有界閉區(qū)域Φ滿足{Wn}?Φ;
假設(shè)3 誤差函數(shù)的穩(wěn)定點(diǎn)集Φ0={W∈Φ:▽E(W)=0}為有限集。
為了敘述方便,記ΔWn=Wn+1-Wn。
引理 1 設(shè)學(xué)習(xí)率(ηn)如公式 (4)所定義,則存在適當(dāng)大的正常數(shù)γ>0和λ >K-θ,使
(1)ηn=O(n-θ);
從而ηn=O(n-θ)得證。接下來,再利用同階無窮小的定義,便可證得結(jié)論(2)和(3)。
引理3 設(shè) F:Ω?Rn→Rm(n,m≥1)在有界閉集Ω?Rn上連續(xù),集合Ω0={x∈Ω:F(x)=0}是有限點(diǎn)集。若序列 (xk)?Ω滿足
引理 2是一個無窮項(xiàng)級數(shù)收斂定理,其證明可仿照文獻(xiàn)[1]中的引理 3.5給出。
引理 3是證明強(qiáng)收斂結(jié)論的一個有力工具,其證明與文獻(xiàn)[9]中定理 3.5.10相似。
引理 4 誤差函數(shù) E(W)如式 (1)所定義且假設(shè) 1成立,那么對任意的初值W0∈RN,由算法(3)得到的誤差函數(shù)序列{E(Wn)}是單調(diào)遞減的,即
其中N0∈N為某個自然數(shù)。
防治措施:①強(qiáng)化藥劑防治,從5月份開始,每隔15天交替噴施波爾多液和殺菌劑,保證每次陰雨天氣環(huán)境中,枝條和葉片都有藥劑的保護(hù)。噴藥應(yīng)細(xì)致全面,枝干和葉片正反面都要均勻用藥,防止遺漏。主要使用的藥劑有5波美度石硫合劑、25%優(yōu)庫和50%多菌靈、70%代森錳鋅800倍液和25%咪酰胺乳油3 000倍液。②增強(qiáng)樹體抵抗力。合理施用有機(jī)肥,加強(qiáng)樹體管理提高樹體對病害的抵抗能力。③冬季修剪和生長季修剪結(jié)合,改善通風(fēng)透光條件,合理負(fù)載,防止病菌滋生。④保持果園清潔,減少病菌傳播。
對每個 Ei(t)在點(diǎn)Wn·ξi處作泰勒展開,得
其中Wn,i·ξi位于Wn+1·ξi和Wn·ξi的連線之間。
再由式 (1),(3),(5)和 (6)得
結(jié)合式 (7)和(8),有 E(Wn+1)≤E(Wn),n≥N0,即誤差函數(shù)的單調(diào)性得證。
定理 1(弱收斂定理) 設(shè)網(wǎng)絡(luò)誤差函數(shù)E(W)如式(1)所定義。從任意初始值W0∈RN開始,權(quán)序列{Wn}依據(jù)算法 (3)不斷更新,并且隨著訓(xùn)練周期的增加學(xué)習(xí)率按公式 (4)不斷變化,那么在假設(shè) 1成立的情況下,可以得到如下結(jié)論:
證明 一方面,由式(7)可得
注意到 E(Wn)≥0對所有的 n=0,1,2,…均成立,因此在上式中令 n→∞,便有
故
再結(jié)合式(3)和引理 1(2),便可驗(yàn)證下式成立:
因此,應(yīng)用中值定理并結(jié)合E″i(t)函數(shù)的有界性,便可做出如下估計(jì):
即弱收斂得證。
定理 2(強(qiáng)收斂定理) 在定理 1的基礎(chǔ)上,若假設(shè) 2和假設(shè) 3也成立,那么對任意的初值W0∈RN,由算法 (3)得到的權(quán)序列{Wn}是強(qiáng)收斂的,即存在W*∈Φ0滿足
證明 由假設(shè)1知,梯度函數(shù)▽E(W)在RN上連續(xù)。另外,由式 (13)和弱收斂結(jié)論可驗(yàn)證以下兩個等式成立:
[1] WU W,FENG G R,L I X.Training multilayer perceptrons via minimization of sum of ridge functions[J].Advances in Computational Mathematics,2002,17:331-347.
[2] 吳微.神經(jīng)網(wǎng)絡(luò)計(jì)算 [M].北京:高等教育出版社, 2003:6-10.
[3] HAGAN M T,DEMUTH H B,BEALEM.神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)[M].戴葵,宋輝,譚明峰,等,譯.北京:機(jī)械工業(yè)出版社,2003.
[4] 蔡吉剛,李樹榮,王平.基于小波神經(jīng)網(wǎng)絡(luò)的自適應(yīng)控制器設(shè)計(jì) [J].中國石油大學(xué)學(xué)報(bào):自然科學(xué)版, 2007,31(5):141-143.
CA IJi-gang,L I Shu-rong,WANG Ping.Design of adaptive controller based on wavelet neural network[J].Journal of China University of Petroleum(Natural Science E-dition),2007,31(5):141-143.
[5] RUMELHARTD E,MCCLELLAND J L,PDP Research Group.Parallel distributed processing-explorations in the microstructure of cognition[M].Cambridge:M IT Press, 1986:320-340.
[6] SHAO H M,WU W,L I F.Convergence of online gradientmethod with a penalty ter m for feedforward neural networkswith stochastic inputs[J].NumericalMathematics, A Journal of Chinese Universities(English Series),2005, 14(1):87-96.
[7] JACOBS R A. Increased rates of convergence through learning rate adaptation[J].Neural Networks,1988,1 (4):295-307.
[8] MAGOULAS G D.Effective neural network training with a different learning rate for each weight:The 6th IEEE International Conference on Electronics,Circuits and Systems,Pafos,Cyprus,5-8 September,1999[C].Cyprus:IEEE,c1999:591-594.
[9] 袁亞湘,孫文瑜.最優(yōu)化理論與方法[M].北京:科學(xué)教育出版社,2001.
[10] ARM I JO L.Minimization of function having Lipschitz continuouse first partial derivatives[J].Pacific Journal ofMathematics,1966,16(1):1-3.
[11] CHAN L W,FALLSI DE F.An adaptive training algorithm for back-propagation networks[J]. Computer Speech and Language,1987(2):205-218.
[12] LUO Z.On the Convergence of the LMS algorithm with adaptive learning rate for linear feedforward network[J]. Neural Computation,1991,3(2):226-245.
(編輯 修榮榮)
A class of gradient algorithm s with variable learn ing rates and convergence analysis for feedforward neural networks tra in ing
SHAO Hong-mei1,AN Feng-xian2
(1.School of M athem atics and Computational Science in China University of Petroleum,Dongying257061,China; 2.Departm ent of Com puter Science,Huaiyin Institute of Technology,Huaian223003,China)
A general updating rule for learning rateswas presented and the convergence of the corresponding batch gradient algorithmswith variable learning rates for training feedforward neural net works was proved.The monotonicity of the error function in the training iteration was also proved.
feedforward neural networks;convergence;variable learning rate;gradient algorithm
TP 183
A
10.3969/j.issn.1673-5005.2010.04.035
1673-5005(2010)04-0176-03
2009-12-16
中國石油大學(xué)博士科研基金(Y080809)
邵紅梅(1981-),女(漢族),山東曹縣人,講師,博士研究生,從事神經(jīng)網(wǎng)絡(luò)計(jì)算及數(shù)據(jù)挖掘方面的研究。