印明昂, 王鈺爍, 孫志禮, 于云飛
(1. 東北大學(xué) 機(jī)械工程與自動(dòng)化學(xué)院, 遼寧 沈陽(yáng) 110819;2. 中車長(zhǎng)春軌道客車股份有限公司, 吉林 長(zhǎng)春 130062; 3. 中國(guó)航發(fā)沈陽(yáng)發(fā)動(dòng)機(jī)研究所, 遼寧 沈陽(yáng) 110015)
以分類算法為基礎(chǔ)的“人工智能”正深刻影響著科研領(lǐng)域的每一方面.在此背景下,各項(xiàng)實(shí)驗(yàn)中樣本數(shù)據(jù)的數(shù)量和維度呈現(xiàn)出“爆炸”增長(zhǎng)的態(tài)勢(shì).為適應(yīng)這種趨勢(shì),近年,數(shù)值計(jì)算理論與優(yōu)化方法得到了長(zhǎng)足發(fā)展.其中,一階優(yōu)化算法以其出眾的計(jì)算效率在數(shù)值優(yōu)化領(lǐng)域得到了廣泛的研究和應(yīng)用[1].Sashank等[2]指出自適應(yīng)步長(zhǎng)加速算法Adam在收斂性上存在缺陷,并通過賦予歷史梯度的“長(zhǎng)期記憶”提出AMSGrad算法,從理論上解決了收斂問題.Jun等[3]同樣從Adam的收斂問題出發(fā),通過一種基于歷史與當(dāng)前梯度的平方衰減構(gòu)建了一種有針對(duì)性的自適應(yīng)優(yōu)化算法.Ma等[4]在動(dòng)量加速隨機(jī)梯度下降法的基礎(chǔ)上提出準(zhǔn)雙曲權(quán)重衰減的加速算法QHM,并找到一種通過改變超參數(shù)將該算法轉(zhuǎn)變?yōu)槠渌惴ǖ姆椒?Luo等[5]對(duì)比了隨機(jī)梯度下降法(SGD)與自適應(yīng)方法的泛化與收斂能力,通過使用動(dòng)態(tài)的學(xué)習(xí)率變化界限提供了Adam和AMSGrad的一種新變種,分別稱為AdamBound和AMSBound,實(shí)現(xiàn)了從自適應(yīng)方法到SGD的漸進(jìn)平穩(wěn)過渡.
本文基于一種當(dāng)前梯度、預(yù)測(cè)梯度及歷史動(dòng)量梯度三者結(jié)合的復(fù)合梯度,提出一種新型自適應(yīng)步長(zhǎng)加速優(yōu)化算法,稱為復(fù)合梯度下降法(C-Adam),并通過尋找在文獻(xiàn)[6]中定義的遺憾(regret)上界,證明C-Adam算法的收斂性.最后對(duì)MNIST,Cifar-10常用測(cè)試數(shù)據(jù)集及45鋼靜拉伸破壞實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)通過多種算法建立Logistic回歸模型,對(duì)比驗(yàn)證本文算法的性能表現(xiàn).
算法 1 復(fù)合梯度法C-Adam
輸入:超參數(shù):b1,b2;迭代步長(zhǎng)η
初始化θ=0;(待求參數(shù))
初始化gt=0;(當(dāng)前梯度)
ut=0;(預(yù)測(cè)梯度)
mt=0;(動(dòng)量一階矩)
vt=0;(動(dòng)量二階矩)
初始化t=0;(迭代次數(shù))
當(dāng)θ不收斂或未達(dá)到最大迭代次數(shù)時(shí),循環(huán):
t=t+1;
gt=▽?duì)菾(θt-1);(取得參數(shù)當(dāng)前梯度)
θt=θt-1-η·gt;(梯度下降法更新參數(shù))
t=t+1;
ut=▽?duì)菾(θt-1);(取得參數(shù)預(yù)測(cè)梯度)
mt=b1·mt-1+ (1-b1)·(gt+ut);(梯度復(fù)合)
vt=b2·vt-1+ (1-b2)·(gt+ut)2;
θt=θt-1-η·mt/(vt)1/2;(更新參數(shù))
循環(huán)結(jié)束
輸出:參數(shù)θt
算法1為復(fù)合梯度下降法的偽代碼描述.其中,θ表示所求問題的解;gt表示數(shù)據(jù)在當(dāng)前位置的梯度;ut表示利用梯度下降法更新θ后下一位置的梯度(如采用mini-batch策略在此次更新中不改變所選數(shù)據(jù)),稱為預(yù)測(cè)梯度;mt表示動(dòng)量梯度,由歷史動(dòng)量、當(dāng)前梯度及預(yù)測(cè)梯度三者復(fù)合而成;vt表示三種梯度二階矩的復(fù)合,用以自適應(yīng)控制迭代的步長(zhǎng);mt,vt的慣性衰減通過超參數(shù)b1,b2控制,通常b1=0.99,b2=0.999;t表示迭代次數(shù).
算法1與以往加速算法的區(qū)別在于將預(yù)測(cè)梯度與歷史動(dòng)量區(qū)別開,通過一次真實(shí)的梯度更新找到下一步動(dòng)量更精準(zhǔn)的下降方向.這一過程雖進(jìn)行了兩次迭代,但與其他算法的兩次迭代相比下降速度更快,結(jié)果更為精確.這一結(jié)論將在第二節(jié)數(shù)據(jù)測(cè)試部分得到驗(yàn)證.
運(yùn)用文獻(xiàn)[6]中的收斂性分析方法對(duì)復(fù)合梯度法進(jìn)行收斂性證明.
首先觀察下式:
(1)
由算法1可知式(1)成立,將其進(jìn)一步展開,有
(2)
其中,〈,〉表示向量之間的內(nèi)積.根據(jù)算法1中mt的更新規(guī)則,有
(3)
(4)
根據(jù)柯西-許瓦茲不等式:2ab≤a2+b2,有
(5)
根據(jù)文獻(xiàn)[6]定義遺憾(regret)為
(6)
又由凸函數(shù)性質(zhì):
(7)
因此為尋找復(fù)合梯度法的遺憾上界,將式(5)和式(7)代入式(6),有
(8)
下面首先整理含有mt的項(xiàng),
(9)
式(9)表示將求和的最后一項(xiàng)單獨(dú)處理,并寫成向量的分量形式.其中,d表示向量維度.由η=η/t1/2及mt,vt的更新形式,通過數(shù)學(xué)歸納法,式(9)可變形為
(10)
根據(jù)閔可夫斯基不等式
∑(ak·bk)2≤∑ak2·∑bk2
(11)
由于0 (12) (13) 由于每次迭代均可以放大為式(13)的最后一項(xiàng),因此式(13)不等式的右側(cè)可繼續(xù)放大為 (14) 式(14)的最后一個(gè)等式由數(shù)學(xué)歸納法得出.通過觀察可知,式(14)中j的取值從t開始,因此j≥t.由此可繼續(xù)整理得 (15) 由等比數(shù)列求和公式及柯西-許瓦茲不等式,式(15)可放大為 (16) 式(16)可繼續(xù)放大為 (17) 將式(17)的結(jié)論代回式(8),整理得 (18) 根據(jù)vt的更新規(guī)則,有 另由假設(shè)θ的凸可行域F的半徑存在上界D∞,式(18)可變?yōu)?/p> (19) 最終可得復(fù)合梯度法的遺憾上界為 (20) 綜上,復(fù)合梯度下降法存在遺憾上界,因此該算法具有收斂性. 由美國(guó)郵政系統(tǒng)開發(fā)的MNIST數(shù)據(jù)集[7]是圖像識(shí)別的經(jīng)典數(shù)據(jù)集,共包含7萬(wàn)張出自不同人的手寫0~9數(shù)字圖片.每張圖片均為28×28像素的黑白圖片,因此每組樣本由784維的數(shù)據(jù)和一個(gè)樣本標(biāo)簽組成. 利用MNIST數(shù)據(jù)集建立Logistic回歸模型.C-Adam算法超參數(shù)b1=0.99,b2=0.999;Adam,AMSGrad算法采用默認(rèn)設(shè)置;NAG算法的慣性系數(shù)選擇0.99;AdaDelta算法的權(quán)重衰減系數(shù)選擇0.01.所有算法的迭代步長(zhǎng)均為0.001,mini-batch隨機(jī)數(shù)量選擇256,最大迭代次數(shù)設(shè)置為500.5種算法的訓(xùn)練損失及測(cè)試損失見圖1,圖2. Cifar-10數(shù)據(jù)集[8]共包含10個(gè)種類、6萬(wàn)張像素為32×32的彩色圖像,每個(gè)像素點(diǎn)包括R,G,B三個(gè)數(shù)值,因此該數(shù)據(jù)集維度為32×32×3=3 072. 對(duì)Cifar-10數(shù)據(jù)集建立Logistic回歸模型.C-Adam算法超參數(shù)b1=0.99,b2=0.999;Adam,AMSGrad算法采用默認(rèn)設(shè)置;NAG算法的慣性系數(shù)選擇0.99;AdaDelta算法的權(quán)重衰減系數(shù)選擇0.01.所有算法的迭代步長(zhǎng)均為0.001,mini-batch隨機(jī)數(shù)量選擇256,最大迭代次數(shù)設(shè)置為1 000.5種算法的訓(xùn)練損失及測(cè)試損失見圖3,圖4. 對(duì)45鋼試件進(jìn)行兩次靜拉伸破壞實(shí)驗(yàn),分別采集實(shí)驗(yàn)過程中產(chǎn)生的聲發(fā)射信號(hào)數(shù)據(jù),并根據(jù)拉伸機(jī)信息劃分實(shí)驗(yàn)階段,最終將兩組數(shù)據(jù)合并,建立Logistic回歸模型. 試件的樣式尺寸根據(jù)國(guó)標(biāo)GB/T6398—2000的有關(guān)內(nèi)容確定,具體尺寸見圖5.試件中部狹長(zhǎng)型缺口為預(yù)制缺陷,通過兩圓孔與拉伸機(jī)連接.控制拉伸機(jī)加載速度恒定為0.033 mm/s,兩次實(shí)驗(yàn)分別進(jìn)行511,673 s,分別測(cè)得聲發(fā)射信號(hào)27 081組和18 463組. 得到原始信號(hào)后首先根據(jù)文獻(xiàn)[9]所述方法進(jìn)行特征提取,獲得每組信號(hào)的30個(gè)特征參量;然后利用文獻(xiàn)[10]的降噪方法對(duì)所有特征進(jìn)行降噪處理,并將所得數(shù)據(jù)歸一化;最后繪制拉伸機(jī)的時(shí)間-力曲線,找到試件經(jīng)歷的不同狀態(tài),以此對(duì)數(shù)據(jù)進(jìn)行類別劃分.兩組實(shí)驗(yàn)的階段劃分如圖6,圖7所示. 將兩次實(shí)驗(yàn)數(shù)據(jù)合并,并建立Logistic回歸模型.其中,5種算法的超參數(shù)選擇與Cifar-10數(shù)據(jù)集實(shí)驗(yàn)相同.訓(xùn)練損失與測(cè)試損失見圖8,圖9,模型的擬合正確率及驗(yàn)證正確率見表1. 表1 模型擬合及驗(yàn)證正確率Table 1 Model fitting and verification accuracy 1) 由三組訓(xùn)練損失圖可以看出,C-Adam在訓(xùn)練過程中的收斂速度明顯高于其他算法,且隨著迭代次數(shù)的增加損失值下降明顯,證明該算法具有快速收斂的特性. 2) 對(duì)于三組測(cè)試損失,C-Adam的收斂速度同樣優(yōu)于其他算法,且收斂于更小的損失水平,說(shuō)明該算法具有良好的穩(wěn)定性. 3) 通過45鋼拉伸實(shí)驗(yàn)數(shù)據(jù)的模型擬合結(jié)果可知,C-Adam的擬合正確率達(dá)到98.17%,驗(yàn)證正確率達(dá)到97.86%,明顯高于其他算法,說(shuō)明該算法可以提供更優(yōu)的解.2 案例分析
2.1 MNIST數(shù)據(jù)集
2.2 Cifar-10數(shù)據(jù)集
2.3 基于聲發(fā)射信號(hào)的靜拉伸破壞實(shí)驗(yàn)
3 結(jié) 論