国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于貝葉斯權(quán)函數(shù)的模型無關(guān)元學(xué)習(xí)算法

2022-04-12 09:24:14許仁杰劉寶弟張凱劉偉鋒
計(jì)算機(jī)應(yīng)用 2022年3期
關(guān)鍵詞:權(quán)函數(shù)貝葉斯梯度

許仁杰,劉寶弟,張凱,劉偉鋒

(中國石油大學(xué)(華東)海洋與空間信息學(xué)院,青島 266580)

0 引言

元學(xué)習(xí)(meta learning)是一種“學(xué)習(xí)如何學(xué)習(xí)”的機(jī)器學(xué)習(xí)算法。模型無關(guān)的元學(xué)習(xí)(Model Agnostic Meta Learning,MAML)算法[1]通過元任務(wù)集合中的數(shù)據(jù)學(xué)習(xí)可以快速適應(yīng)某些目標(biāo)數(shù)據(jù)任務(wù)的初始模型[2-5],可以使用數(shù)量有限、有標(biāo)記的任務(wù)樣本進(jìn)行訓(xùn)練,且在訓(xùn)練時(shí)可使用不同的模型,因而被廣泛應(yīng)用于解決各個(gè)領(lǐng)域的問題[6-14]。

雖然MAML 在解決回歸、分類和強(qiáng)化學(xué)習(xí)等問題中都有較好的表現(xiàn),但是其計(jì)算復(fù)雜度高、過擬合、梯度下降速度慢等問題還有待解決,因此研究者們從多個(gè)角度對(duì)MAML 進(jìn)行了改進(jìn),包括簡化運(yùn)算、改進(jìn)損失函數(shù)和運(yùn)算流程等。針對(duì)MAML 的計(jì)算復(fù)雜度太高與梯度更新方法計(jì)算過于復(fù)雜的問題,有學(xué)者提出了只用一階導(dǎo)數(shù)對(duì)二階導(dǎo)數(shù)進(jìn)行逼近的元參數(shù)優(yōu)化的一階MAML、Reptile[10]方法;這一類方法雖然可以簡化MAML 的計(jì)算復(fù)雜度,但通常是以準(zhǔn)確率的降低作為代價(jià)。針對(duì)MAML 在某些情況下會(huì)產(chǎn)生過擬合或者無法有效訓(xùn)練等問題,有學(xué)者通過信息論、高斯過程等方法提出了更緊的損失函數(shù)[6-7,12],或者通過設(shè)置參數(shù)使MAML 對(duì)過去學(xué)到的元知識(shí)進(jìn)行遺忘[9];但這種方式通常是針對(duì)某一類具體問題而進(jìn)行的,往往有它自身的局限性。針對(duì)MAML 下降速度過慢的問題,有學(xué)者從一個(gè)函數(shù)空間中構(gòu)造更好的權(quán)函數(shù)[8,15]或者提出了更有效的梯度更新方式[16-18];但這一類改進(jìn)方法會(huì)在提升準(zhǔn)確率的同時(shí)帶來更大的計(jì)算量。

盡管上述方法都對(duì)MAML 進(jìn)行了有效的改進(jìn),但是由于通過前兩種方法改進(jìn)MAML 在訓(xùn)練過程中認(rèn)為每個(gè)樣本對(duì)于元知識(shí)的影響都是一樣的,無法很好地根據(jù)不同的任務(wù)對(duì)損失函數(shù)進(jìn)行調(diào)整,也不能根據(jù)抽取樣本是否能很好地體現(xiàn)該任務(wù)的性質(zhì)而改變樣本對(duì)整體的影響,所以在學(xué)習(xí)過程中依然可能會(huì)產(chǎn)生訓(xùn)練速度低、過擬合或準(zhǔn)確率較低等問題;而后一種方法的計(jì)算量較大。為了解決這些問題,本文通過概率方法構(gòu)造出了一個(gè)更好的權(quán)函數(shù)來提高M(jìn)AML 的訓(xùn)練速度以及準(zhǔn)確率。與文獻(xiàn)[8]中從再生核希爾伯特空間搜索損失函數(shù)不同,本文提出了一種更輕量、更便于計(jì)算的權(quán)函數(shù),對(duì)每個(gè)任務(wù)損失函數(shù)進(jìn)行加權(quán),用來表示不同的任務(wù)在訓(xùn)練過程中的重要程度。具體地,本文認(rèn)為隨機(jī)抽取的任務(wù)近似符合一個(gè)高斯分布,越靠近這個(gè)高斯分布的期望的任務(wù)在元參數(shù)更新過程中占據(jù)更加重要的地位;相反地,越遠(yuǎn)離高斯分布期望的任務(wù)所占的權(quán)重應(yīng)該越小。添加這個(gè)權(quán)函數(shù)的MAML 可以在更快逼近任務(wù)分布的期望的同時(shí)避免一些小概率出現(xiàn)的任務(wù)對(duì)網(wǎng)絡(luò)訓(xùn)練造成更大的影響,從而在提升訓(xùn)練速度的同時(shí)增加模型的準(zhǔn)確度,訓(xùn)練好的元參數(shù)也能更適用于高概率出現(xiàn)的任務(wù)。

將本文方法與基礎(chǔ)的MAML 方法在Omniglot 與Mini-ImageNet 數(shù)據(jù)集上進(jìn)行小樣本圖像分類實(shí)驗(yàn),結(jié)果表明在大多數(shù)情況下,本文方法的準(zhǔn)確率都高于傳統(tǒng)的MAML。

本文主要工作包括:從高斯隨機(jī)過程的角度提出了一種與迭代相關(guān)的MAML 解釋方法,并根據(jù)這種解釋方法通過貝葉斯分析提出了一種加權(quán)的MAML——BW-MAML,最后通過實(shí)驗(yàn)驗(yàn)證了BW-MAML 的有效性。

1 相關(guān)工作

本文工作的基礎(chǔ)是HB-MAML(Model-Agnostic Meta-Learning as Hierarchical Bayesian)[3]以及加權(quán)元學(xué)習(xí)[8]。文獻(xiàn)[7]從貝葉斯分析的角度出發(fā),將元學(xué)習(xí)的過程描述為一個(gè)高斯隨機(jī)過程,并以此提出了一個(gè)正則化項(xiàng);而文獻(xiàn)[8]從泛函分析的角度,認(rèn)為常用的平方誤差與Hinge 誤差在原空間的核函數(shù)都能構(gòu)成再生核希爾伯特空間,并在這個(gè)空間中選取最優(yōu)的損失函數(shù)。通過文獻(xiàn)[8]中方法可以找到下降速度更快的損失函數(shù),但該損失函數(shù)是通過抽取的樣本獲得的,所以根據(jù)抽取任務(wù)的不同會(huì)使損失函數(shù)產(chǎn)生較大的波動(dòng),進(jìn)而使優(yōu)化難度偏高?;谏鲜鑫墨I(xiàn)的成果,本文從貝葉斯分析[19]與高斯隨機(jī)過程[18,20]的角度在線性函數(shù)空間中找到一個(gè)更便于計(jì)算的最優(yōu)損失函數(shù),使更重要任務(wù)的損失在損失函數(shù)中占更大的權(quán)重,通過優(yōu)化這個(gè)損失函數(shù)可以使元參數(shù)更容易向最優(yōu)解進(jìn)行梯度下降。

2 基于貝葉斯權(quán)函數(shù)的模型無關(guān)元學(xué)習(xí)

2.1 MAML

最終在外循環(huán)中使用隨機(jī)梯度下降方法通過迭代求得其最小值。在這個(gè)過程中,將每個(gè)任務(wù)的損失相加作為整個(gè)模型的損失,旨在求得在迭代一次后對(duì)每個(gè)任務(wù)的損失都最小的θ。所以將

作為外循環(huán)的迭代方法。

MAML 在訓(xùn)練時(shí),首先從任務(wù)分布中抽取一些任務(wù),使用一個(gè)內(nèi)循環(huán)針對(duì)每個(gè)任務(wù)的參數(shù)根據(jù)損失函數(shù)進(jìn)行梯度下降;然后根據(jù)更新過參數(shù)的任務(wù)損失,使用一個(gè)外循環(huán)對(duì)元參數(shù)進(jìn)行梯度下降,以獲得一個(gè)最適合全部任務(wù)的元參數(shù)。在這個(gè)過程中,MAML 將所有任務(wù)視為是同等重要的。

基于貝葉斯權(quán)函數(shù)的模型無關(guān)元學(xué)習(xí)就是在MAML 的元梯度更新方法上進(jìn)行改進(jìn),在本文中,根據(jù)不同任務(wù)在訓(xùn)練中重要性不同,在外循環(huán)的元梯度下降時(shí)求MAML 中每個(gè)任務(wù)損失的加權(quán)和,從而能使元參數(shù)更快地進(jìn)行訓(xùn)練。本文采用由貝葉斯分析推導(dǎo)而來的損失函數(shù),因此本文將這種改進(jìn)算法稱為基于貝葉斯權(quán)函數(shù)的模型無關(guān)元學(xué)習(xí)(Bayes-Weighted Model-Agnostic Meta-Learning,BW-MAML)算法。

接下來介紹貝葉斯分析角度設(shè)置的損失函數(shù)及權(quán)函數(shù)的推導(dǎo)過程。

2.2 損失函數(shù)

高斯隨機(jī)過程[18,20]是機(jī)器學(xué)習(xí)中常用的方法之一,在實(shí)踐中可以對(duì)機(jī)器學(xué)習(xí)的梯度下降過程視為一串隨機(jī)的概率事件進(jìn)行分析。而對(duì)于其中的一個(gè)隨機(jī)事件,與文獻(xiàn)[7]中的推導(dǎo)類似,根據(jù)貝葉斯分析將上文中的損失函數(shù)(3)重寫成一個(gè)概率形式:

元學(xué)習(xí)的損失函數(shù)最小的問題就轉(zhuǎn)化為一個(gè)令負(fù)log 概率最小的問題,也就是找到一個(gè)元參數(shù),使在各個(gè)任務(wù)中經(jīng)過一次或幾次梯度下降后的任務(wù)參數(shù)屬于該任務(wù)的概率最高。

2.3 基于貝葉斯分析的權(quán)函數(shù)

基于損失函數(shù)(4),可以得到如下推斷:如果使用抽取的訓(xùn)練任務(wù)以元參數(shù)為基礎(chǔ)進(jìn)行訓(xùn)練,在理想情況下,第n個(gè)元參數(shù)θ()n會(huì)在數(shù)次迭代后達(dá)到一個(gè)對(duì)該任務(wù)最優(yōu)的點(diǎn),記為,本文認(rèn)為所有的都是對(duì)的逼近,而且由于噪聲的存在,一般認(rèn)為:

由于抽取的任務(wù)隨機(jī),并且都屬于同一個(gè)任務(wù)分布P(T),所以這些任務(wù)都獨(dú)立同分布,即它們都擁有同樣的統(tǒng)計(jì)學(xué)規(guī)律。根據(jù)一般性假設(shè),在本文中認(rèn)為這些任務(wù)在任務(wù)空間中都符合高斯分布[18,20],使用一個(gè)邊界似然函數(shù)來表示一步元參數(shù)更新的條件概率:

為元參數(shù)的更新方式,而不是簡單地把各個(gè)樣本看作是均勻分布。

又由于每個(gè)θi符合一個(gè)高斯分布,所以任意幾個(gè)的值的分布也應(yīng)該符合一個(gè)同期望的高斯分布,所以把這個(gè)公式的右側(cè)進(jìn)行歸一化作為本文算法的權(quán)函數(shù)就可以得到最終的元迭代格式:

通過將添加這個(gè)權(quán)函數(shù)的元參數(shù)更新方式替代原本的元參數(shù)更新方式,可以對(duì)優(yōu)化元參數(shù)貢獻(xiàn)更大的損失進(jìn)行強(qiáng)調(diào),對(duì)出現(xiàn)概率較小的損失則通過較小的權(quán)函數(shù)降低其對(duì)整個(gè)迭代過程的影響。因此BW-MAML 可以降低整個(gè)梯度下降過程的隨機(jī)性,并且使終點(diǎn)更加趨近于所有分布的平均值,以獲得一個(gè)更重視高概率出現(xiàn)的任務(wù),一定程度上忽略小概率出現(xiàn)任務(wù)對(duì)元參數(shù)產(chǎn)生的影響。訓(xùn)練時(shí)算法的偽代碼如算法1 所示。

算法1 BW-MAML 的訓(xùn)練過程。

輸入 任務(wù)分布p(T)步長α,β;

輸出 優(yōu)化后的參數(shù)θ。

如圖1 所示,BW-MAML 等價(jià)于將MAML 通過幾個(gè)任務(wù)的參數(shù)求得下一步的元參數(shù)的過程改為通過估計(jì)元參數(shù)的期望,并將得到的期望作為下一步的元參數(shù)開始下一次迭代。

圖1 一階BW-MAML原理Fig.1 Principle of first-order BW-MAML

BW-MAML 與基礎(chǔ)MAML 算法的不同點(diǎn)體現(xiàn)在算法1 中的第8)行,簡單來講,傳統(tǒng)的MAML 算法直接將幾個(gè)任務(wù)的損失相加,而本文算法在計(jì)算任務(wù)損失函數(shù)的加權(quán)和的同時(shí)使用高斯分布的權(quán)函數(shù)而不是均勻分布,使元參數(shù)能更快、更準(zhǔn)確地逼近最優(yōu)解。

3 實(shí)驗(yàn)與分析

本文在Mini-ImageNet 數(shù)據(jù)集[21]與Omniglot 數(shù)據(jù)集[22]上進(jìn)行了小樣本圖像分類實(shí)驗(yàn),對(duì)BW-MAML 的有效性和實(shí)用性進(jìn)行驗(yàn)證。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

Omniglot 是一個(gè)手寫字母數(shù)據(jù)集,包含50 個(gè)不同字母的1 623 個(gè)不同手寫字符,在處理數(shù)據(jù)集時(shí)將其分成了包含30個(gè)字母的“背景”集和包含20 個(gè)字母的“評(píng)估”集;Mini-ImageNet 數(shù)據(jù)集是元學(xué)習(xí)和小樣本學(xué)習(xí)中常用的數(shù)據(jù)集之一,它包含100 類共60 000 幅彩色圖片,每類中含有600 個(gè)樣本,每幅圖片的規(guī)格為84×84。

3.2 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證BW-MAML 在較小數(shù)據(jù)集上的性能,在Omniglot 數(shù)據(jù)集上測(cè)試了一階MAML(First-Order MAML,F(xiàn)OMAML)與BW-MAML 的5-way 1-shot、5-way 5-shot、20-way 1-shot 以及20-way 5-shot 的小樣本分類對(duì)比實(shí)驗(yàn),其中,NwayK-shot 意味著在任務(wù)中包含N個(gè)類,而每個(gè)類中包含K個(gè)樣本。在網(wǎng)絡(luò)選擇上,本文采用了一個(gè)使用3×3 卷積核的四層卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為其內(nèi)容網(wǎng)絡(luò)。在訓(xùn)練過程中,每次從訓(xùn)練集中隨機(jī)抽取6 個(gè)訓(xùn)練任務(wù),然后對(duì)內(nèi)容網(wǎng)絡(luò)按照一階BW-MAML、一階MAML等不同算法針對(duì)每個(gè)任務(wù)每次進(jìn)行5 次梯度下降,總共進(jìn)行60 000 次迭代。對(duì)于超參數(shù),與MAML 相同,本文選擇任務(wù)參數(shù)學(xué)習(xí)率α=0.1,元參數(shù)學(xué)習(xí)率β=0.001,元參數(shù)的訓(xùn)練使用Adam[23]作為優(yōu)化器。本文將準(zhǔn)確率定義為測(cè)試集中預(yù)測(cè)正確的數(shù)量與總量的比值,表1 中的準(zhǔn)確率是10 組準(zhǔn)確率的平均值。從表1 可以看出,在Omniglot 數(shù)據(jù)集上,1-way 5-shot 與5-way 5-shot 時(shí)BW-MAML 和MAML 的準(zhǔn)確率接近,20-way 1-shot 與20-way 5-shot 時(shí),BW-MAML 相對(duì)MAML 的準(zhǔn)確率平均提升了0.199 個(gè)百分點(diǎn)。

表1 兩種算法在Omniglot上的準(zhǔn)確率對(duì)比 單位:%Tab.1 Accuracy comparison of two algorithms on Omniglot unit:%

在較大的數(shù)據(jù)集Mini-ImageNet 上進(jìn)行實(shí)驗(yàn)時(shí),本文將Mini-ImageNet 隨機(jī)分為不相交的訓(xùn)練集與測(cè)試集,并將訓(xùn)練集依次傳入對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。與上一組實(shí)驗(yàn)類似,本文在Mini-ImageNet 上進(jìn)行了一階、二階MAML 與一階、二階BWMAML 與其他元學(xué)習(xí)算法的5-way 1-shot、5-way 5-shot 的小樣本分類對(duì)比實(shí)驗(yàn),除每次訓(xùn)練迭代100 000 次以外,其他超參數(shù)與在Omniglot 上的實(shí)驗(yàn)一致。實(shí)驗(yàn)結(jié)果如表2 所示,可以看出,在Mini-ImageNet 上BW-MAML 的各項(xiàng)準(zhǔn)確率都比MAML 更高。通過使用權(quán)函數(shù)對(duì)損失的重要性進(jìn)行區(qū)分,BW-MAML 比MAML 的平均準(zhǔn)確率提高了0.907 個(gè)百分點(diǎn),可見本文的方法無論是在Omniglot 還是在Mini-ImageNet 這樣略大的數(shù)據(jù)集上都表現(xiàn)得更好。

表2 Mini-ImageNet上的準(zhǔn)確率對(duì)比 單位:%Tab.2 Accuracy comparison on Mini-ImageNet unit:%

為了驗(yàn)證每次抽取的不同任務(wù)數(shù)對(duì)模型的影響,在Mini-ImageNet 中使用5-way 1-shot 的一階BW-MAML 并進(jìn)行60 000 次迭代,每隔500 步使用100 個(gè)測(cè)試任務(wù)對(duì)模型效果進(jìn)行評(píng)估,然后選取了準(zhǔn)確率變化較明顯的訓(xùn)練時(shí)期(前段)以使結(jié)果更為明顯,其他參數(shù)設(shè)置與之前的實(shí)驗(yàn)相同。從第n=500,1 000,1 500,2 000,2 500 步與訓(xùn)練完成后最終的準(zhǔn)確率探究了每次抽取4 個(gè)、6 個(gè)與8 個(gè)任務(wù)對(duì)BW-MAML 訓(xùn)練速度的影響,結(jié)果如表3 所示。從表3 可以看出,BW-MAML 在收斂速度方面的效果也優(yōu)于MAML,在訓(xùn)練進(jìn)行2 500 步后,6 任務(wù)時(shí)BW-MAML 的準(zhǔn)確率是最高的,且比同樣6 任務(wù)的MAML 準(zhǔn)確率提高了1.9 個(gè)百分點(diǎn)。但在訓(xùn)練完成后,6 任務(wù)的最終的準(zhǔn)確率介于8 任務(wù)和4 任務(wù)的準(zhǔn)確率之間??梢婋m然最終的準(zhǔn)確率和每次訓(xùn)練所用的任務(wù)數(shù)存在正比例關(guān)系,但在2 500 步內(nèi),BW-MAML 在6 任務(wù)情況下的訓(xùn)練速度最快。

表3 針對(duì)不同任務(wù)數(shù)在Mini-ImageNet上的準(zhǔn)確率對(duì)比Tab.3 Contrast experiment for different task numbers on Mini-ImageNet

4 結(jié)語

由于MAML 在選擇任務(wù)上具有隨機(jī)性,而在實(shí)際使用這些任務(wù)進(jìn)行訓(xùn)練時(shí)并沒有考慮每個(gè)任務(wù)對(duì)元參數(shù)的影響。在本文中通過理論推導(dǎo)并論證了一種新的貝葉斯加權(quán)的MAML,然后通過實(shí)驗(yàn)驗(yàn)證了這個(gè)方法在兩個(gè)數(shù)據(jù)集上的實(shí)用性,并通過一個(gè)對(duì)比實(shí)驗(yàn)檢驗(yàn)了超參數(shù)(任務(wù)數(shù))的選擇,這證明本文提出的方案確實(shí)提升了實(shí)驗(yàn)的準(zhǔn)確率,本文的方法可以提升在較為符合高斯分布的數(shù)據(jù)集上的準(zhǔn)確率。在常用的數(shù)據(jù)集中BW-MAML 比MAML 的準(zhǔn)確率更高。但還有很多新的思路亟待嘗試,比如先選擇一種更好的損失基函數(shù),然后再對(duì)這組基函數(shù)求出最優(yōu)的權(quán)系數(shù);或者先通過一些方法求出樣本大概的分布情況,然后在這個(gè)基礎(chǔ)上再進(jìn)行加權(quán);再或者直接通過高斯過程設(shè)計(jì)出新的結(jié)構(gòu)以取代梯度下降等。

猜你喜歡
權(quán)函數(shù)貝葉斯梯度
基于改進(jìn)權(quán)函數(shù)的探地雷達(dá)和無網(wǎng)格模擬檢測(cè)混凝土結(jié)構(gòu)空洞缺陷工程中的數(shù)學(xué)問題
一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
一類廣義的十次Freud-型權(quán)函數(shù)
一種自適應(yīng)Dai-Liao共軛梯度法
異徑電磁流量傳感器權(quán)函數(shù)分布規(guī)律研究*
一類扭積形式的梯度近Ricci孤立子
貝葉斯公式及其應(yīng)用
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
一種基于貝葉斯壓縮感知的說話人識(shí)別方法
電子器件(2015年5期)2015-12-29 08:43:15
兩類ω-超廣義函數(shù)空間的結(jié)構(gòu)表示
原阳县| 襄樊市| 滕州市| 昭苏县| 大姚县| 大冶市| 长春市| 广河县| 滕州市| 扶沟县| 砚山县| 灌南县| 丹江口市| 博客| 阿荣旗| 虹口区| 温州市| 恩平市| 云龙县| 芒康县| 普格县| 吴川市| 永丰县| 屯留县| 双辽市| 托克托县| 丹东市| 华池县| 四会市| 红桥区| 醴陵市| 迁安市| 栾川县| 富宁县| 元江| 奉贤区| 会理县| 大关县| 德江县| 色达县| 彭山县|