李 星,鄧康康, 李 超
(1.福州大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,福建 福州 350100;2.武夷學(xué)院 數(shù)學(xué)與計算機學(xué)院,福建 武夷山 354300)
近年來,結(jié)構(gòu)凸優(yōu)化模型及其算法已經(jīng)成為機器學(xué)習(xí)研究的熱點,尤其是非光滑優(yōu)化技術(shù)。更好地利用非光滑項的結(jié)構(gòu)對于一個算法獲得良好的性能是至關(guān)重要的??紤]如下形式的可分解強凸優(yōu)化問題
其中E為歐氏空間。通篇假設(shè):
(a)f:E → (-∞,∞]是強凸函數(shù),dom (f)=Rn,即存在 σ>0,
且在E上梯度▽f是利普希茨連續(xù)的,即存在一個常數(shù) Lf,使得
‖ ▽ f(x)-▽ f(y)‖ ≤ Lf‖ x-y‖ ,? x,y∈ dom (f);
(b)g:E→(-∞,∞]是閉凸(不一定可微)函數(shù),且dom (g)? int(dom (f));
(c)問題(1)的最優(yōu)解集Ω*是非空的,最優(yōu)值記為Fopt。
臨近梯度算法[9]是求解各種非光滑優(yōu)化問題的常用方法之一,具有計算成本低、收斂性強和步長選擇廣[4,5,6]等優(yōu)勢。該算法具有如下迭代格式:
其中▽ f(xk)是 f在 xk處的梯度。
經(jīng)過簡單運算,并省略常數(shù)項,可將式(2)改寫為
采用臨近點算子,式(3)寫為
臨近梯度算法僅具有O(1/k)的收斂速率,這里k是迭代次數(shù)。Beck和Teboulle[2]提出了一種快速臨近梯度(簡稱FISTA)算法,并證明算法的全局收斂性和目標(biāo)函數(shù)值的的收斂速率。雖然FISTA算法[7,8]可以保證目標(biāo)函數(shù)值具有O(1/k2)的收斂速率,但在實際應(yīng)用中,由于它的局部震蕩性,實驗效果往往并不理想。為了克服FISTA算法的缺陷,Chambolle和Dossal[3]提出了快速迭代收縮/閾值(簡稱FISTA-CD)算法,通過對參數(shù)更新規(guī)則的修正,提高了算法的實現(xiàn)效率,并證明算法仍具有的收斂速率。2017年,Beck[1]總結(jié)了大量的一階優(yōu)化方法,詳細(xì)地介紹了不同的可分解優(yōu)化問題,給出許多有效的求解算法模型,同時證明了算法的全局收斂性和O(1/k2)的收斂速率。
算法1:FISTA-CD算法
初始化:給定 x0∈Rn,t0=1,令
執(zhí)行下列步驟:
4)令 k=k+1,返回 1);
直到收斂.
Barzilai-Borwein算法[4]是求解大規(guī)模無約束優(yōu)化問題的重要方法之一,該方法在計算當(dāng)前迭代步長時充分利用前一步的信息,嘗試用一個標(biāo)量矩陣γkI逼近Bk,使Bk=γkI滿足擬牛頓公式,達(dá)到較好逼近目標(biāo)函數(shù)在xk處的Hessian陣的效果。BB步長具有如下形式
其中 sk=xk-xk-1,yk=▽ f(xk)-▽ f(xk-1)。
受文獻(xiàn)[1,3]的啟發(fā),提出一種與BB算法相結(jié)合的快速臨近BB(簡稱FISTA-BB)算法,主要有兩個目的:一是采用BB步長作為FISTA-CD算法中的步長因子,使其有一個好的初始選擇;二是選擇合適的更新準(zhǔn)則,加快算法的收斂速度。
全文結(jié)構(gòu)如下:第1節(jié)描述了求解可分解強凸優(yōu)化問題的FISTA-BB算法,并證明該算法具有全局收斂性和0(1/k2)的收斂速率;第2節(jié)通過與當(dāng)前高效算法進行詳細(xì)的收斂性能數(shù)據(jù)比對,從而驗證本文所構(gòu)造的算法的有效性;最后,第3節(jié)對全文進行總結(jié)。
首先定義臨近梯度算子
針對問題(1),我們提出一種FISTA-BB算法,具體框架如下:
算法2:FISTA-BB算法
S0)初始化:給定 x0∈Rn,令 y0=x0,kmax>0,ε>0,t0=1,L0>0,ρ∈[0,1],0<q<(2-p)2,μ>1,令 k=0;
S1)計算 xk+1,即
令Lk+1=μkak+1,這里的ik是滿足下述條件的最小非負(fù)整數(shù),即
S4)當(dāng)k>kmax或‖ yk+1-yk‖ <ε 時,停止迭代;否則令k=k+1,返回 S1).
為了證明算法的收斂性,先給出如下3個引理:
引理 1:假設(shè) f和 g 滿足(a)和(b),對于任意的x∈ E,y∈ int(dom (f)),且 L>0 時,滿足
證明:見文獻(xiàn)[1]中第281頁的定理10.16。
引理 2:假設(shè)f是強凸函數(shù),且滿足
則對于任意的k≥0,是Lk有界的,即
其中 σ>0,μ>1。
證明:由于f是強凸函數(shù),且Lk≥ak>0,則有
從而得到Lk≥σ.
為了證明Lk≤μLf,根據(jù)假設(shè)中函數(shù)f的光滑性,得到
用反證法,假設(shè)Lk>μLf,等價于μikak>μLf,于是有μik-1ak>Lf,根據(jù)假設(shè)中函數(shù)f的光滑性有
對式(20),根據(jù) y0=x0,得到
為了說明算法的有效性,下面對本文所提出的FISTA-BB算法進行初步的數(shù)值實驗。測試問題均選自文獻(xiàn)[1],算法的程序采用Matlab R2016a編制,且所有實驗在筆記本為 CPU 1.90GHz,RAM 6.00GB 上運行實現(xiàn)。
算例 3.1[1]:求解如下問題
設(shè)計如下實驗參數(shù):
終止條件:‖ yk+1-yk‖<ε;
參數(shù)設(shè)定:ε=1.0e-6,t0=1,L0=2,μ=2,kmax=104,在FISTA-CD算法中取d=2,在FISTA-BB算法中取p=0,q=4;
實驗數(shù)據(jù):算例 3.1 中,令 λ=0.002,初始點為 x=ones(n,1),x=(1:n/4)=0,b=A*x;算例 3.2 中,初始點為x=zeros(n,1),B=rand(n,n),b=rand(n,1),這里兩個算例均取A為對稱正定矩陣,定義如下
通過使用MATLAB編程運算得到下面的測試結(jié)果,表1和表2均列出了在不同的維數(shù)下,分別對算例3.1和算例3.2進行求解,統(tǒng)計FISTA-CD算法和FISTA-BB算法的迭代次數(shù)(iter)和運算時間(cput以秒為單位)的結(jié)果。
表1 算例3.1的數(shù)值結(jié)果Table 1 Numerical results of example 3.1
表2 算例3.2的數(shù)值結(jié)果Table 2 Numerical results of example 3.2
根據(jù)上述的數(shù)值實驗結(jié)果可以看出:FISTA-BB算法能夠有效求解本文所考慮的相關(guān)問題,同時在不同維數(shù)的情況下,該算法的迭代次數(shù)和運算時間明顯優(yōu)于FISTA-CD算法。
本文提出了求解可分解強凸優(yōu)化問題 (1)的FISTA-BB算法,與文獻(xiàn)[3]給出的FISTA-CD算法相比,F(xiàn)ISTA-BB算法從很大程度上減少了迭代次數(shù)和降低了運算時間.本文證明了FISTA-BB算法具有0(1/k2)的收斂速率,初步數(shù)值實驗表明了算法的可行性和有效性。