一種自適應(yīng)步長(zhǎng)的復(fù)合梯度加速優(yōu)化算法

2020-09-16 04:32:50印明昂王鈺爍孫志禮于云飛

東北大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年9期

印明昂，王鈺爍，孫志禮，于云飛

(1. 東北大學(xué) 機(jī)械工程與自動(dòng)化學(xué)院, 遼寧沈陽(yáng) 110819；2. 中車長(zhǎng)春軌道客車股份有限公司，吉林長(zhǎng)春 130062； 3. 中國(guó)航發(fā)沈陽(yáng)發(fā)動(dòng)機(jī)研究所, 遼寧沈陽(yáng) 110015)

以分類算法為基礎(chǔ)的“人工智能”正深刻影響著科研領(lǐng)域的每一方面.在此背景下，各項(xiàng)實(shí)驗(yàn)中樣本數(shù)據(jù)的數(shù)量和維度呈現(xiàn)出“爆炸”增長(zhǎng)的態(tài)勢(shì).為適應(yīng)這種趨勢(shì)，近年，數(shù)值計(jì)算理論與優(yōu)化方法得到了長(zhǎng)足發(fā)展.其中，一階優(yōu)化算法以其出眾的計(jì)算效率在數(shù)值優(yōu)化領(lǐng)域得到了廣泛的研究和應(yīng)用[1].Sashank等[2]指出自適應(yīng)步長(zhǎng)加速算法Adam在收斂性上存在缺陷，并通過賦予歷史梯度的“長(zhǎng)期記憶”提出AMSGrad算法，從理論上解決了收斂問題.Jun等[3]同樣從Adam的收斂問題出發(fā)，通過一種基于歷史與當(dāng)前梯度的平方衰減構(gòu)建了一種有針對(duì)性的自適應(yīng)優(yōu)化算法.Ma等[4]在動(dòng)量加速隨機(jī)梯度下降法的基礎(chǔ)上提出準(zhǔn)雙曲權(quán)重衰減的加速算法QHM，并找到一種通過改變超參數(shù)將該算法轉(zhuǎn)變?yōu)槠渌惴ǖ姆椒?Luo等[5]對(duì)比了隨機(jī)梯度下降法(SGD)與自適應(yīng)方法的泛化與收斂能力，通過使用動(dòng)態(tài)的學(xué)習(xí)率變化界限提供了Adam和AMSGrad的一種新變種，分別稱為AdamBound和AMSBound，實(shí)現(xiàn)了從自適應(yīng)方法到SGD的漸進(jìn)平穩(wěn)過渡.

本文基于一種當(dāng)前梯度、預(yù)測(cè)梯度及歷史動(dòng)量梯度三者結(jié)合的復(fù)合梯度，提出一種新型自適應(yīng)步長(zhǎng)加速優(yōu)化算法，稱為復(fù)合梯度下降法(C-Adam)，并通過尋找在文獻(xiàn)[6]中定義的遺憾(regret)上界，證明C-Adam算法的收斂性.最后對(duì)MNIST，Cifar-10常用測(cè)試數(shù)據(jù)集及45鋼靜拉伸破壞實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù)通過多種算法建立Logistic回歸模型，對(duì)比驗(yàn)證本文算法的性能表現(xiàn).

1 復(fù)合梯度下降法

1.1 算法描述及更新規(guī)則

算法 1 復(fù)合梯度法C-Adam

輸入：超參數(shù)：b1,b2；迭代步長(zhǎng)η

初始化θ=0;(待求參數(shù))

初始化gt=0;(當(dāng)前梯度)

ut=0;(預(yù)測(cè)梯度)

mt=0;(動(dòng)量一階矩)

vt=0;(動(dòng)量二階矩)

初始化t=0;(迭代次數(shù))

當(dāng)θ不收斂或未達(dá)到最大迭代次數(shù)時(shí)，循環(huán)：

t=t+1;

gt=▽?duì)菾(θt-1);(取得參數(shù)當(dāng)前梯度)

θt=θt-1-η·gt;(梯度下降法更新參數(shù))

t=t+1;

ut=▽?duì)菾(θt-1);(取得參數(shù)預(yù)測(cè)梯度)

mt=b1·mt-1+ (1-b1)·(gt+ut);(梯度復(fù)合)

vt=b2·vt-1+ (1-b2)·(gt+ut)2;

θt=θt-1-η·mt/(vt)1/2;(更新參數(shù))

循環(huán)結(jié)束

輸出：參數(shù)θt

算法1為復(fù)合梯度下降法的偽代碼描述.其中，θ表示所求問題的解；gt表示數(shù)據(jù)在當(dāng)前位置的梯度；ut表示利用梯度下降法更新θ后下一位置的梯度(如采用mini-batch策略在此次更新中不改變所選數(shù)據(jù))，稱為預(yù)測(cè)梯度；mt表示動(dòng)量梯度，由歷史動(dòng)量、當(dāng)前梯度及預(yù)測(cè)梯度三者復(fù)合而成；vt表示三種梯度二階矩的復(fù)合，用以自適應(yīng)控制迭代的步長(zhǎng)；mt，vt的慣性衰減通過超參數(shù)b1，b2控制，通常b1=0.99，b2=0.999；t表示迭代次數(shù).

算法1與以往加速算法的區(qū)別在于將預(yù)測(cè)梯度與歷史動(dòng)量區(qū)別開，通過一次真實(shí)的梯度更新找到下一步動(dòng)量更精準(zhǔn)的下降方向.這一過程雖進(jìn)行了兩次迭代，但與其他算法的兩次迭代相比下降速度更快，結(jié)果更為精確.這一結(jié)論將在第二節(jié)數(shù)據(jù)測(cè)試部分得到驗(yàn)證.

1.2 收斂性證明

運(yùn)用文獻(xiàn)[6]中的收斂性分析方法對(duì)復(fù)合梯度法進(jìn)行收斂性證明.

首先觀察下式：

(1)

由算法1可知式(1)成立，將其進(jìn)一步展開，有

(2)

其中，〈,〉表示向量之間的內(nèi)積.根據(jù)算法1中mt的更新規(guī)則，有

(3)

(4)

根據(jù)柯西-許瓦茲不等式：2ab≤a2+b2，有

(5)

根據(jù)文獻(xiàn)[6]定義遺憾(regret)為

(6)

又由凸函數(shù)性質(zhì):

(7)

因此為尋找復(fù)合梯度法的遺憾上界，將式(5)和式(7)代入式(6)，有

(8)

下面首先整理含有mt的項(xiàng)，

(9)

式(9)表示將求和的最后一項(xiàng)單獨(dú)處理，并寫成向量的分量形式.其中，d表示向量維度.由η=η/t1/2及mt，vt的更新形式，通過數(shù)學(xué)歸納法，式(9)可變形為

(10)

根據(jù)閔可夫斯基不等式

∑(ak·bk)2≤∑ak2·∑bk2

(11)

由于0

(12)

(13)

由于每次迭代均可以放大為式(13)的最后一項(xiàng)，因此式(13)不等式的右側(cè)可繼續(xù)放大為

(14)

式(14)的最后一個(gè)等式由數(shù)學(xué)歸納法得出.通過觀察可知，式(14)中j的取值從t開始，因此j≥t.由此可繼續(xù)整理得

(15)

由等比數(shù)列求和公式及柯西-許瓦茲不等式，式(15)可放大為

(16)

式(16)可繼續(xù)放大為

(17)

將式(17)的結(jié)論代回式(8)，整理得

(18)

根據(jù)vt的更新規(guī)則，有

另由假設(shè)θ的凸可行域F的半徑存在上界D∞，式(18)可變?yōu)?/p>

(19)

最終可得復(fù)合梯度法的遺憾上界為

(20)

綜上，復(fù)合梯度下降法存在遺憾上界，因此該算法具有收斂性.

2 案例分析

2.1 MNIST數(shù)據(jù)集

由美國(guó)郵政系統(tǒng)開發(fā)的MNIST數(shù)據(jù)集[7]是圖像識(shí)別的經(jīng)典數(shù)據(jù)集，共包含7萬(wàn)張出自不同人的手寫0～9數(shù)字圖片.每張圖片均為28×28像素的黑白圖片，因此每組樣本由784維的數(shù)據(jù)和一個(gè)樣本標(biāo)簽組成.

利用MNIST數(shù)據(jù)集建立Logistic回歸模型.C-Adam算法超參數(shù)b1=0.99，b2=0.999；Adam，AMSGrad算法采用默認(rèn)設(shè)置；NAG算法的慣性系數(shù)選擇0.99；AdaDelta算法的權(quán)重衰減系數(shù)選擇0.01.所有算法的迭代步長(zhǎng)均為0.001，mini-batch隨機(jī)數(shù)量選擇256，最大迭代次數(shù)設(shè)置為500.5種算法的訓(xùn)練損失及測(cè)試損失見圖1，圖2.

2.2 Cifar-10數(shù)據(jù)集

Cifar-10數(shù)據(jù)集[8]共包含10個(gè)種類、6萬(wàn)張像素為32×32的彩色圖像，每個(gè)像素點(diǎn)包括R,G,B三個(gè)數(shù)值，因此該數(shù)據(jù)集維度為32×32×3=3 072.

對(duì)Cifar-10數(shù)據(jù)集建立Logistic回歸模型.C-Adam算法超參數(shù)b1=0.99，b2=0.999；Adam，AMSGrad算法采用默認(rèn)設(shè)置；NAG算法的慣性系數(shù)選擇0.99；AdaDelta算法的權(quán)重衰減系數(shù)選擇0.01.所有算法的迭代步長(zhǎng)均為0.001，mini-batch隨機(jī)數(shù)量選擇256，最大迭代次數(shù)設(shè)置為1 000.5種算法的訓(xùn)練損失及測(cè)試損失見圖3，圖4.

2.3 基于聲發(fā)射信號(hào)的靜拉伸破壞實(shí)驗(yàn)

對(duì)45鋼試件進(jìn)行兩次靜拉伸破壞實(shí)驗(yàn)，分別采集實(shí)驗(yàn)過程中產(chǎn)生的聲發(fā)射信號(hào)數(shù)據(jù)，并根據(jù)拉伸機(jī)信息劃分實(shí)驗(yàn)階段，最終將兩組數(shù)據(jù)合并，建立Logistic回歸模型.

試件的樣式尺寸根據(jù)國(guó)標(biāo)GB/T6398—2000的有關(guān)內(nèi)容確定，具體尺寸見圖5.試件中部狹長(zhǎng)型缺口為預(yù)制缺陷，通過兩圓孔與拉伸機(jī)連接.控制拉伸機(jī)加載速度恒定為0.033 mm/s，兩次實(shí)驗(yàn)分別進(jìn)行511，673 s，分別測(cè)得聲發(fā)射信號(hào)27 081組和18 463組.

得到原始信號(hào)后首先根據(jù)文獻(xiàn)[9]所述方法進(jìn)行特征提取，獲得每組信號(hào)的30個(gè)特征參量；然后利用文獻(xiàn)[10]的降噪方法對(duì)所有特征進(jìn)行降噪處理，并將所得數(shù)據(jù)歸一化；最后繪制拉伸機(jī)的時(shí)間-力曲線，找到試件經(jīng)歷的不同狀態(tài)，以此對(duì)數(shù)據(jù)進(jìn)行類別劃分.兩組實(shí)驗(yàn)的階段劃分如圖6,圖7所示.

將兩次實(shí)驗(yàn)數(shù)據(jù)合并，并建立Logistic回歸模型.其中，5種算法的超參數(shù)選擇與Cifar-10數(shù)據(jù)集實(shí)驗(yàn)相同.訓(xùn)練損失與測(cè)試損失見圖8，圖9，模型的擬合正確率及驗(yàn)證正確率見表1.

表1 模型擬合及驗(yàn)證正確率Table 1 Model fitting and verification accuracy

3 結(jié) 論

1) 由三組訓(xùn)練損失圖可以看出，C-Adam在訓(xùn)練過程中的收斂速度明顯高于其他算法，且隨著迭代次數(shù)的增加損失值下降明顯，證明該算法具有快速收斂的特性.

2) 對(duì)于三組測(cè)試損失，C-Adam的收斂速度同樣優(yōu)于其他算法，且收斂于更小的損失水平，說(shuō)明該算法具有良好的穩(wěn)定性.

3) 通過45鋼拉伸實(shí)驗(yàn)數(shù)據(jù)的模型擬合結(jié)果可知，C-Adam的擬合正確率達(dá)到98.17%，驗(yàn)證正確率達(dá)到97.86%，明顯高于其他算法，說(shuō)明該算法可以提供更優(yōu)的解.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡