王海榮 李偉波 萬權(quán) 鄢華 向銳
摘要:針對審計調(diào)查中人臉圖像識別應(yīng)用場景,首先模擬了一個相應(yīng)環(huán)境干擾的人臉數(shù)據(jù)集,增加數(shù)據(jù)的多樣性;在預(yù)處理階段,研究采用自適應(yīng)直方圖光照平衡和模擬眼鏡遮蓋的改進方法進行了圖像增強處理;在模型訓練階段,提出一種最優(yōu)權(quán)重再重載的模型訓練算法。對比實驗結(jié)果表明,經(jīng)過圖像增強預(yù)處理的改進和最優(yōu)權(quán)重再重載的模型訓練,提高了應(yīng)用場景中人臉識別的準確率、魯棒性和效率。
關(guān)鍵詞:深度學習;人臉識別;審計調(diào)查 ;圖像增強;模型訓練
中圖分類號:TP301? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)10-0012-07
Abstract: According to the application scenarios of face recognition in the audit investigation, a face data set with corresponding environmental interference was simulated in advance to increase the diversity of data. In the preprocessing stage, transformation operations such as adaptive histogram light balance, glasses concealment, and horizontal flipping were done, which improved the accuracy and robustness of the training model. In the pre-processing comparison experiment, the accuracy of the model increased by 5.7% after a series of pre-processing. In the model training stage, a model training algorithm with optimal weights and reload is proposed. Experimental results show that this training algorithm has significant advantages over traditional training algorithms in terms of the convergence speed and final accuracy of model training.
Key words: deep learning; face recognition; audit investigation; image enhancement; model training
傳統(tǒng)的人臉識別有基于幾何特征的人臉識別方法\基于模板匹配的方法\基于子空間的方法\基于統(tǒng)計的方法[1]。而現(xiàn)在主流的人臉識別的方法是基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法,雖然在檢測速度和占用的性能資源沒有傳統(tǒng)的方法的優(yōu)勢,但是在檢測準確率方面,具有明顯的優(yōu)勢和更好的應(yīng)用前景[2]。不過,在人臉識別實際應(yīng)用過程中仍然有許多問題亟待解決。
“在飛行檢查的會議合規(guī)性調(diào)查中,一些涉及人員審核的場景比如會議現(xiàn)場或者聚餐現(xiàn)場的人臉識別場景,需要對這些活動現(xiàn)場中的關(guān)鍵人物進行人臉識別”審計人員會根據(jù)會議關(guān)鍵人物到場情況來判斷會議的合規(guī)性和風險程度?,F(xiàn)場會議人員審核作為其中至關(guān)重要的一環(huán)節(jié),往往需要準確實時。但是一般的人臉圖像識別算法在這些復(fù)雜多樣的場景下面,由于光線不均,檢測對象人臉遮蓋等因素很容易導致檢測失敗,識別出錯等問題[3-5]。面對這些問題,文獻[6-9]使用隨機遮蓋方法來提高對人臉遮蓋的魯棒性,但是對于人臉的特定局部特征不具有針對性。文獻[4]介紹了可以使用Retinex算法緩解光照的問題,但是沒有應(yīng)用在人臉識別預(yù)處理中。
基于審計調(diào)查的應(yīng)用場景,在預(yù)處理階段,提出直方圖均衡處理和Retinex光照均衡處理,緩解人臉光照不均的問題;使用模擬眼鏡遮蓋改進算法提高識別戴眼鏡人臉準確度和魯棒性。在模型訓練階段,根據(jù)在卷積神經(jīng)網(wǎng)絡(luò)模型訓練過程中往往需要大量的訓練時間才能獲得一個比較滿意的模型效果這一現(xiàn)象,提出一種最優(yōu)權(quán)重重載的模型訓練算法,加快模型的收斂速率,提高模型最終成型的準確率。通過對比實驗的結(jié)果表明,這些改進能夠讓模型取得了比較好的效果,并且具有非常好的普適性和應(yīng)用價值。
1 相關(guān)理論與方法研究
1.1 圖像增強處理
圖像增強處理能夠讓原始數(shù)據(jù)集圖像信息得到充分的利用。圖像增強處理一般有兩種處理方式。第一種是離線增強,即數(shù)據(jù)集擴充;第二種是在線增強,即數(shù)據(jù)集加載時的預(yù)處理。
在深度學習圖像領(lǐng)域模型訓練過程中,一般在預(yù)處理階段來實現(xiàn)圖像增強。因為一般數(shù)據(jù)集所占用的內(nèi)存都比較大,這樣能節(jié)省很多空間。同時這樣也便于使用隨機處理,可以讓訓練出的模型泛化性能會更好。
研究將局部遮蓋和直方圖均衡和Retinex均衡這三種圖像增強處理操作用于模型訓練的預(yù)處理中的意義,就在于充分利用原始圖像的信息,實現(xiàn)模型對局部特征和對光照不均的魯棒性。
1.1.1 局部遮蓋
局部遮蓋與隨機遮蓋的區(qū)別就是,局部遮蓋的針對性更強,能夠提高模型對特定局部特征的魯棒性。在人臉識別中,為了提高模型對眼鏡的魯棒性,我們可以使用眼鏡遮蓋的局部遮蓋干擾算法。
眼鏡遮蓋算法就是模擬出人臉戴眼鏡的圖像。在實現(xiàn)眼鏡遮蓋這個過程中,首先通過MTCNN(Multi-task convolutional neural networks[10],多任務(wù)卷積神經(jīng)網(wǎng)絡(luò))人臉檢測算法定位到人臉的兩只眼睛的坐標,然后根據(jù)該坐標進人臉對齊并添加眼鏡遮蓋。一般情況下,兩只眼睛并不在同一水平下面。根據(jù)兩只眼睛的坐標[x1,y1]與[x2,y2]求出與水平線的夾角θ
然后根據(jù)夾角θ進行矯正,即可達到人臉對齊的效果。
1.1.2 直方圖均衡
直方圖均衡化是將原始圖像的灰度直方圖通過變化函數(shù)重新分配為灰度均勻的直方圖,增強了對比度。
每個移動模板中的直方圖中每一灰度級k出現(xiàn)的概率可定義為:
其中 N表示圖像的像素總數(shù),L表示圖像灰度級數(shù),表示第k級灰度,r_k表示第k個灰度級
然后根據(jù)灰度級概率進行均衡化處理:
對比效果見圖2。
1.1.3 Retinex光照均衡
Retinex理論[11-12]認為物體的圖像(S)是由物體表面對入射光(L)反射得到的,而反射率R則由物體本身決定,不受入射光L的影響而變化。圖像的照度取決于照射在該物體上的1光源,反射率取決于物體本身。根據(jù)Retinex理論,從數(shù)學的角度看,可以將圖像除以反射率來計算出照度?;赗etinex方法的圖像形成模型如下:
其中I(m,n)表示圖像,I的取值范圍在0到255之間,R(m,n)是物體的反射率,反射率的范圍在0和1之間,L(m,n)是照度,照度取值范圍也在0到255之間。
最終可以整理出:
根據(jù)式(5)可以看到,要估計反射率,必須對照度以及圖像進行估算。因此,可以使用各種估算照度的濾波器。通過濾波器,可以使圖像平滑,并且在大多數(shù)基于Retinex的圖像增強方法中,平滑的圖像可以充當照度。這就是單尺度Retinex算法(SSR)原理。
本文在圖像預(yù)處理階段引入Retinex算法,緩解人臉圖像光照不均的問題。經(jīng)過Retinex做圖像預(yù)處理的對比圖效果如圖3所示(左邊是原圖,右邊是經(jīng)過Retinex處理后的圖)。
1.2 模型優(yōu)化算法
一個合適的優(yōu)化算法就像選擇了一條潛在的捷徑,能夠模型訓練的時候快速地找到模型參數(shù)的最優(yōu)解。研究模型優(yōu)化算法的意義就在于找到這樣的一條捷徑,縮短模型的訓練時間,節(jié)省模型訓練的資源。常用的模型優(yōu)化算法方法有隨機梯度下降法SGD和Adam,在模型訓練的過程中也是各有優(yōu)勢。最近剛出的RAdam效果也是非常不錯。
1.2.1 隨機梯度下降法SGD
隨機梯度下降源于1951年Robbins和Monro提出的隨機逼近,最初被應(yīng)用于模式識別和神經(jīng)網(wǎng)絡(luò),現(xiàn)已成為求解大規(guī)模機器學習優(yōu)化問題的一類主流且非常有效的方法[13]。主要用來求解類似于如下求和形式的優(yōu)化問題:
其中,[fw]表示整個數(shù)據(jù)集的損失,[fi]表示第i個樣本的損失,[w]表示當前的模型的權(quán)重,[xi]表示輸入第i個樣本的特征,[yi]表示第i個樣本的標簽
梯度下降法:
當n很大時,每次迭代計算所有的[?fwt]會非常耗時。
隨機梯度下降的想法就是在[?fi]每次在中隨機選取一個[?fik]計算代替如上的,以這個隨機選取的方向作為下降的方向。
注意到在[wt]靠近極小值點[w*]時,[?fiw*≠0],這導致隨機梯度下降法精度低。由于方差的存在,要使得算法收斂,就需要[ηt]隨[t]逐漸減小。因此導致函數(shù)即使在強凸且光滑的條件下,收斂速度也只有[O1/t]。
SGD每次迭代可以只用一個訓練批次的數(shù)據(jù)來更新參數(shù),使得代價函數(shù)變小,優(yōu)點就是訓練速度快,但是收斂慢。
1.2.2 自適應(yīng)學習率優(yōu)化算法Adam
Adam集成了SGD的一階動量和RMSProp的二階動量,動量就是在梯度下降的過程中加入了慣性,使得梯度方向不變的維度上速度變快,梯度方向有所改變的維度上的更新速度變慢,這樣就可以加快收斂并減小振蕩[14]。
偏差修正:在訓練前期,梯度權(quán)值比較小,需要將權(quán)值之和修正為1。
Adam結(jié)合了Adagrad善于處理稀疏梯度和Rmsprop善于處理非平穩(wěn)目標的優(yōu)點,適用于大數(shù)據(jù)集和高維空間。
1.2.3 RAdam優(yōu)化算法
由Liyuan Liu提出對Adam改進的優(yōu)化器RAdam[15],兼有Adam和SGD兩者的優(yōu)點,既保證了收斂速度,也不容易調(diào)入到局部最優(yōu)解。RAdam指出在訓練的初期 Adam 中的方差會非常大。而公式(11)起到修正更新方向的作用,因此 Adam 參數(shù)的更新量的方差也會很大。在訓練的初期([ρt<4]))時,使用帶動量的SGD來更新參數(shù)。后期再使用做一個學習率的預(yù)熱(learning rate warmup)。最后參數(shù)每一步的更新量就是:
2 理論應(yīng)用與改進
2.1 圖像增強應(yīng)用與改進
在審計調(diào)查的人臉圖像識別項目中的人臉圖像識別容易受光照不均,遮蓋等因素影響。因此為了增加模型對光照和遮蓋的魯棒性,在數(shù)據(jù)增強階段添加了三個增強操作:局部遮蓋干擾,直方圖均衡以及Retinex光照均衡。
在局部遮蓋干擾過程中需要使用到MTCNN檢測出關(guān)鍵點的坐標。由于MTCNN人臉檢測的時間成本比較高,因此這里做進一步的優(yōu)化。也就是在前期將原始數(shù)據(jù)集的經(jīng)過MTCNN進行裁剪的時候,將識別出的人臉關(guān)鍵點(包括兩只眼睛、鼻尖和兩個嘴角,一起共五個點的坐標)保存在文本文件中。然后在進行的眼鏡遮蓋需要當前圖片的人眼坐標的時候就直接在文本文件中查找相應(yīng)的坐標并返回。這樣處理就減少MTCNN的使用次數(shù),降低預(yù)處理的時間消耗。
另外,對于添加的局部遮蓋干擾,直方圖均衡以及Retinex光照均衡這三個增強操作,分別給定一個概率值[pi]來判斷是否使用該操作。這樣就可以對樣本進行不同程度的干擾,使得樣本數(shù)據(jù)信息進行充分的利用。經(jīng)過這樣的預(yù)處理得到的圖像為:
其中[pi]表示第i個預(yù)處理的概率,[n]表示預(yù)處理的數(shù)量,[ti]表示第i個預(yù)處理,這樣經(jīng)過一輪預(yù)處理操作之后得到的圖片進行訓練就可以使的模型的魯棒性更強。
這個算法的偽代碼如算法1所示。
算法 1 預(yù)處理改進
輸入:img,trans,prop
輸出:trans_img
1.fori in range(n):
2.p=random()
3.if p < prop[i] then
4.img = trans[i](img)
5.return trans_img
2.2 基于最優(yōu)權(quán)重重載的模型訓練方法
在模型訓練階段有很多影響效果的因素,比如學習率的初始化,優(yōu)化器的選擇以及訓練方法的設(shè)計。選擇一個好的訓練方法能夠提高訓練效率,加快模型收斂的速度,節(jié)省模型收斂時間。
SGD和Adam兩種優(yōu)化方式都能在一定程度上解決訓練過程中的收斂問題,但是都傾向于向前去尋找最優(yōu)解,這容易導致丟失曾經(jīng)已經(jīng)遍歷到的局部甚至全局最優(yōu)解。這種情況在圖像上一般表現(xiàn)為:驗證集的準確率在訓練過程中的某個瞬間會達到最大,繼續(xù)訓練驗證集的準確率反而會下降。如圖4所示。
出現(xiàn)這個情況的時候,Epochs(整個數(shù)據(jù)集訓練的次數(shù))設(shè)置得再大也沒有效果,因為驗證集已經(jīng)收斂了。面對這個問題普遍的做法是,停止訓練,重新調(diào)整超參數(shù)。這種方式還需要進行手動調(diào)參,操作繁雜且不可控?;谧顑?yōu)權(quán)重重載的模型訓練方法就是在SGD或者Adam優(yōu)化器訓練的過程中,將最高準確率或者最小損失的權(quán)重(上圖中best對應(yīng)的權(quán)重)保存下來。預(yù)先設(shè)置一個比較小的epochs=50,然后,每次自動重新訓練的過程當中,加載上一次保存的最佳模型的權(quán)重,反復(fù)循環(huán)幾次,達到加快模型收斂速度的效果。
其中[wi]表示當前批次的損失,[Lwbest]表示損失最小的權(quán)重對應(yīng)的最小損失值。這個過程的算法偽代碼算法2所示:
算法 2:最優(yōu)權(quán)重重載算法
輸入:? Epochs,train_times //總的迭代次數(shù),間隔的迭代次數(shù)
輸出: model_file //模型文件
1.init model
2.set pre_acc=0
3.for train_iter in range(train_times)
4.? if exist(model_file) then reload(model)
5.? ? init optimizer, scheduler, loss_fn,
6.? ? for epoch in range(epochs)
7.? ? ? Train(model)
8.? ? ? acc = Valid(model)
9.? ? ? if acc >pre_acc then
10.? ? ? ?model_file=save(model)
11.return model_file
算法執(zhí)行流程如圖5。
3 對比實驗
3.1 實驗準備
實驗環(huán)境:顯卡GTX 1660Ti,顯存6G,系統(tǒng)windows 64,編程工具pycharm,語言版本python3.6,深度學習框架pytorch1.3,使用畫圖工具tensorboard。
數(shù)據(jù)集處理:將數(shù)據(jù)集打亂后,取其中10%作為驗證集固定不變,90%作為訓練集進行反復(fù)的訓練。
3.2 預(yù)處理對比實驗
實驗設(shè)置:在預(yù)處理對比實驗過程中的實驗參數(shù)為:學習率Lr =0.001;數(shù)據(jù)集 LFW;Batch = 100;模型 InceptionResnetV1;優(yōu)化器Adam;調(diào)度器MultiStepLR;LOSS:CrossEntropyLoss;預(yù)訓練:vggface2;模型大?。?1M。
預(yù)處理的對比實驗結(jié)果如表1所示。
實驗結(jié)果分析:實驗從實驗中我們可知,左右翻轉(zhuǎn)對準確率的提高2.3%;眼鏡遮蓋提高了0.6%,累計提高了2.9%;直方圖處理增加了1.1%,累計提高了4.0%;Retinex均衡處理增加了1.7左右,累計提高了5.7%。達到的最好的效果訓練曲線如圖 6所示。實驗表明經(jīng)過數(shù)據(jù)增強能顯著提高整個模型的魯棒性和準確率。
3.1 訓練方法對比實驗
實驗采用的數(shù)據(jù)集是lfw經(jīng)過MTCNN人臉檢測對齊裁剪成112*112的人臉數(shù)據(jù)集,訓練過程中的采樣方法是無放回地按照給定的索引列表采樣樣本元素,即隨機地從原始的數(shù)據(jù)集中抽樣數(shù)據(jù),生成任意一個下標組合,從而利用下標來提取dataset中的數(shù)據(jù)的方法。
為了充分驗證最優(yōu)權(quán)重重加載算法的有效性和優(yōu)越性,這部分的實驗分別對MobileNetV2,resnet18,shufflenet_v2_x2_0三個模型做了三組實驗,每組實驗針對不同的優(yōu)化器(SGD,Adam,RAdam)又做了權(quán)重重載訓練和普通訓練的兩種算法的對比實驗。參數(shù)都設(shè)置為epochs=300,batch_size=30,weight_decay=5e-4,學習率為1e-2。在重載的曲線中權(quán)重重載的次數(shù)設(shè)置為5。實驗結(jié)果如圖7-9所示,其中每張圖的左半部分為權(quán)重重載實驗的曲線,右半部分為正常訓練的曲線。下面著重分析圖7中的實驗數(shù)據(jù)。
在優(yōu)化器為SGD訓練對比過程中,經(jīng)過300個epochs,使用重載的算法的訓練集的準確率已經(jīng)完全收斂到了100%,損失也接近0,擬合效果很不錯。驗證集上面準確率已經(jīng)高達50%,損失也控制在了2.3。而使用一般的訓練流程訓練,訓練集的準確率還在40%左右震蕩,損失也在2.5左右震蕩,完全達不到擬合,驗證集的準確率也只達到30%左右,損失還在3.5。相比之下,在使用相同的SGD優(yōu)化器和相同時間間隔訓練條件下面,使用重載比不使用重載的驗證集提高了20%的準確率,損失降低了1.2,訓練集收斂速度提高了60%,損失降低了2.5。實驗非常明顯地表現(xiàn)出重載算法的比不使用重載算法具有更強勁的收斂速度和收斂效率。
在優(yōu)化器為Adam訓練對比過程中,經(jīng)過了300個epochs的訓練后,使用重載的訓練集達到了83%,還有繼續(xù)上漲的空間,損失也在再慢慢地往下降;驗證集的準確率達到了62%,也還有上漲的趨勢。而使用非重載的訓練集已經(jīng)擬合到了100%,損失也降到了0;驗證集的準確率只有34%,損失中間獲得了一個最小值,后面訓練到后面越來越大。相比之下,在訓練集還沒有擬合的情況下面,重載的驗證集就比非重載的驗證集高出0.28,何況后面重載還有上漲的勢頭。證明了重載算法與Adam優(yōu)化器搭配使用也是能夠顯著提高模型訓練的收斂速度,抑制過擬合的效果,以及提高模型的驗證集的準確率。
在優(yōu)化器為RAdam訓練對比過程中,經(jīng)過了300個epochs的訓練后,重載和非重載的準確率都收斂到了100%,損失都收斂到了0附近。而在驗證集上面,使用重載的算法準確率達到72%,損失穩(wěn)定在1.8左右;非重載的準確率只有0.61%,但是損失降到最低值1.8后,后面又繼續(xù)上漲,穩(wěn)定在3.3左右,此時已經(jīng)訓練出的模型已經(jīng)失去了泛化能力。相比之下,兩個訓練集都收斂的情況下面,重載算法準確率高出了0.11,損失穩(wěn)定在1.8,而非重載算法訓練到后面效果會越來越差。這個實驗證明,重載算法能夠訓練出泛化能力更好和準確率更高的模型,而且訓練出的模型更加的穩(wěn)定,不會出現(xiàn)因為訓練時長過長而導致泛化能力變差的情況。
從上面實驗結(jié)果分析可以得出,重載算法對MobileNetV2使用不同的優(yōu)化器都具有很好的優(yōu)越性。從圖8,圖9中也可知,對其他的模型也是具有同樣的適用效果。
從上面的訓練曲線圖整理出最終的模型結(jié)果(epochs=300)見表2:
從表2中可知,利用重載算法搭配不同的模型使用不同的優(yōu)化器,模型的準確率也都有相當?shù)奶嵘?,最高的能夠接?0%。
總之,通過以上的大量的實驗表明,使用最優(yōu)權(quán)重重載的訓練模型的方法能夠加快模型收斂速度,提高模型的準確率和模型的泛化能力,抑制訓練集過擬合的情況,對不同的模型也是具有普適作用。
4 結(jié)語
針對審計調(diào)查中的人臉圖像識別應(yīng)用場景,在預(yù)處理階段,提出了局部遮蓋干擾,直方圖均衡以及Retinex光照均衡這三個增強操作。其中局部遮蓋干擾主要以眼鏡遮蓋為例進行分析和實驗,在實驗中使得模型提高了0.6%的準確率。表明隨機眼鏡遮蓋能有效緩解戴眼鏡導致的識別不準的問題。同時也側(cè)面表明了隨機局部遮蓋能夠提高模型的局部特征魯棒性。直方圖均衡和Retinex均衡則分別使模型相應(yīng)提高了1.1%和1.7%的準確率,表明了這兩種增強方法能夠緩解光照不均對人臉圖像識別的影響。在訓練人臉識別模型階段,提出了一種最優(yōu)權(quán)重重載的訓練方法,經(jīng)過對比實驗表明該訓練算法能夠提高模型訓練過程中的收斂速度,提高模型的泛化能力,經(jīng)過不同模型的多組實驗表明了該方法的有效性和普適性。
參考文獻:
[1] 祝秀萍,吳學毅,劉文峰.人臉識別綜述與展望[J].計算機與信息技術(shù),2008,16(4):53-56.
[2] 陳希彤,盧濤.基于全局深度分離卷積殘差網(wǎng)絡(luò)的高效人臉識別算法[J].武漢工程大學學報,2019,41(3):276-282.
[3] 王慧星,黃勃,高永彬,等.部分遮擋人臉識別的方法綜述[J].武漢大學學報(理學版),2020,66(5):451-461.
[4] 梁琳,何衛(wèi)平,雷蕾,等.光照不均圖像增強方法綜述[J].計算機應(yīng)用研究,2010,27(5):1625-1628.
[5] 嚴春滿,張迪,郝有菲,等.基于LC-KSVD字典學習的變化光照下人臉識別方法[J].傳感器與微系統(tǒng),2020,39(11):44-46.
[6] 楊蘭蘭,高銘宇,王晨寧,等.基于數(shù)據(jù)增強的人臉表情識別方法研究[J].計算機產(chǎn)品與流通,2020(11):128-129.
[7] 王子威,范伊紅,趙錦雯,等.基于FasterR-CNN的教室監(jiān)控人數(shù)識別系統(tǒng)的開發(fā)與研究[J].電腦知識與技術(shù),2020,16(17):35-38.
[8] 張韓鈺,吳志昊,徐勇,等.增強卷積神經(jīng)網(wǎng)絡(luò)的人臉篡改檢測方法[J/OL].計算機工程與應(yīng)用:1-7[2020-11-17].http://kns.cnki.net/kcms/detail/11.2127.TP.20200701.1040.016.html.
[9] 甘嵐,沈鴻飛,王瑤,等.基于改進DCGAN數(shù)據(jù)集增強方法[J/OL].計算機應(yīng)用:1-11[2020-11-17].http://kns.cnki.net/kcms/detail/51.1307.TP.20201015.1715.017.html.
[10] Zhang K P,Zhang Z P,Li Z F,et al.Joint face detection and alignment using multitask cascaded convolutional networks[J].IEEE Signal Processing Letters,2016,23(10):1499-1503.
[11] 劉明珠,蘇桃宇,王依寧.壓擴多尺度Retinex圖像增強算法研究[J].哈爾濱理工大學學報,2020,25(5):93-99.
[12] 鄭美林,王杉.基于RETINEX的圖像增強方法探討[J].九江學院學報(自然科學版),2020,35(3):69-73.
[13] 史加榮,王丹,尚凡華,張鶴于.隨機梯度下降算法研究進展[J/OL].自動化學報:1-17[2020-11-17].https://doi.org/10.16383/j.aas.c190260.
[14] Diederik P. Kingma and Jimmy Lei Ba. Adam: a Method for Stochastic Optimization.Interna-tional Conference on Learning Representations, pages 1–13, 2015
[15] Liu L Y,Jiang H M,He P C,et al.On the variance of the adaptive learning rate and beyond[EB/OL].2019
【通聯(lián)編輯:唐一東】