王 俊
(江蘇科技大學(xué) 理學(xué)院, 鎮(zhèn)江 212100)
在最優(yōu)化領(lǐng)域中,非光滑優(yōu)化問(wèn)題[1]越來(lái)越引起研究者的重視.主要是因?yàn)檫@些不可微的目標(biāo)函數(shù)有一些實(shí)際的意義或者好的特性.比如,比較活躍的壓縮感知領(lǐng)域中的lp(0
首先,給出連續(xù)不可微函數(shù)的光滑近似的定義,而連續(xù)可微函數(shù)又稱為光滑函數(shù).
另外,對(duì)于任意的t∈R,兩類連續(xù)不可微函數(shù)絕對(duì)值函數(shù)|t|和最大值函數(shù)max{0,t}的等式關(guān)系:
|t|=max{0,t}+max{0,-t}
(1)
由式(1)說(shuō)明這兩類連續(xù)不可微函數(shù)是可以相互轉(zhuǎn)化的.另外,需要特別指出的是,雖然最大值函數(shù)max{0,t}是連續(xù)不可微的,但是max2{0,t}是連續(xù)可微的,且其導(dǎo)函數(shù)為2max{0,t}.
文獻(xiàn)[6,10,12-13]基于卷積的性質(zhì),利用分段連續(xù)的密度函數(shù)ρ:R→R+構(gòu)造最大值函數(shù)的單參數(shù)光滑近似.需要注意的是,這個(gè)密度函數(shù)滿足:
(1) (對(duì)稱性)ρ(s)=ρ(-s)
(2) (有界性)有界常數(shù)
利用密度函數(shù)的兩個(gè)性質(zhì),可以驗(yàn)證
是定義好的(well-defined).另外,對(duì)于任意給定的參數(shù)μ>0,φ(t,μ)關(guān)于變量t是連續(xù)可微的、凸的和嚴(yán)格遞增的,而且還滿足:
0≤|φ(t,μ)-max{0,t}|≤κμ
由不等式和定義1可得φ(t,μ)是max{0,t}的光滑近似,并且稱這個(gè)常數(shù)κ為光滑近似的有界常數(shù).顯然,構(gòu)造不同的密度函數(shù)可得不同的光滑近似函數(shù).
(i) 取
那么
稱為max{0,t}的光滑近似.再由式(1)有:
是絕對(duì)值函數(shù)|t|的光滑近似.
稱為max{0,t}的光滑神經(jīng)網(wǎng)絡(luò)近似.結(jié)合式(1)可得:
是絕對(duì)值函數(shù)|t|的光滑近似.又因?yàn)?/p>
max{x1,x2}=x1+max{0,x2-x1}
則
是max{x1,x2}的光滑近似.進(jìn)一步把以上結(jié)果推廣到n維歐式空間Rn上可得:
是max{x1,x2,…,xn}的一個(gè)光滑近似.
稱為max{0,t}的CHKS[9]光滑近似.結(jié)合式(1)可得:
是絕對(duì)值函數(shù)|t|的一個(gè)光滑近似.
又因?yàn)樽畲笾岛瘮?shù)max{0,t}是凸的和全局Lipschitz連續(xù)的,所以任意光滑近似φ(t,μ)也是凸的和全局Lipschitz連續(xù)的.另外,對(duì)于任意固定的t∈R,φ(t,μ)關(guān)于μ是連續(xù)可微的、單調(diào)遞增和凸的,且滿足對(duì)于μ2>μ1>0, 有:
0≤φ(t,μ2)-φ(t,μ1)≤κ(μ2-μ1)
任意給定的連續(xù)函數(shù)g:dom(g)→R,其凸共軛g*:(dom(g))*→R定義:
式中,dom(g)為函數(shù)g的定義域.利用凸共軛的定義,可以構(gòu)造g的光滑近似:
式中,d為1-強(qiáng)凸函數(shù)[14].
是絕對(duì)值函數(shù)|t|的光滑近似,并被稱為經(jīng)典的Huber函數(shù).于是由式(1)得:
是max{0,t}的光滑近似.
在如下的情況
有
(iv) 取d(z)=z1log(z1)+z2log(z2)+z2log(z2),可得:
是|t|的光滑近似.于是有:
是max{0,t}的光滑近似.
是|t|的光滑近似.另外,由式(1)可得:
是max{0,t}的光滑近似.
對(duì)于幾類絕對(duì)值函數(shù)的光滑化近似函數(shù),可以得到一個(gè)重要結(jié)果[7].需要指出的是,在不同的實(shí)際問(wèn)題中,這個(gè)結(jié)論可以指導(dǎo)如何選取合適的光滑近似.
定理1[10]對(duì)于任意給定的參數(shù)μ>0和t∈R, 則:
a)φ1(t,μ)≤φ2(t,μ)≤φ3(t,μ)
b)φ6(t,μ)≤φ5(t,μ)≤φ4(t,μ)
c)φ4(t,μ)≤|t|≤φ1(t,μ)
值得注意的是,由定理1可知,在φi(t,μ),i=1,2,…,6中,φ1(t,μ)和φ4(t,μ)是逼近絕對(duì)值函數(shù)的效果最好的上下界光滑近似,所以根據(jù)實(shí)際需要優(yōu)先選擇這兩個(gè)近似函數(shù).圖 1說(shuō)明,當(dāng)取參數(shù)μ=0.01時(shí),上界光滑近似函數(shù)φ1,φ2和φ3的局部性質(zhì).顯然上界光滑近似中效果最好的是φ1, 這和定理1的結(jié)果是一致的.
圖1 當(dāng)參數(shù)μ=0.01, 光滑近似φ1和φ2與φ3的比較
圖2表明,當(dāng)參數(shù)μ=0.01時(shí),下界光滑近似函數(shù)φ4,φ5和φ6的局部性質(zhì).顯然,這些下界光滑近似中,逼近效果最好的是φ4,這也驗(yàn)證了定理1的結(jié)果.
圖2 當(dāng)參數(shù)μ=0.01, 光滑近似φ4和φ5與φ6的比較
現(xiàn)在考慮一類帶有雙參數(shù)α和μ的最大值函數(shù)max{0,t}的光滑近似[15]:
其中,0≤α≤1和μ>0.α控制光滑近似函數(shù)的逼近精確度和μ決定對(duì)于任意的t∈R,近似函數(shù)φ(t,α,μ)是否更加精確.當(dāng)然,μ的解釋也適用于其他幾類近似函數(shù).再利用式(1)可得:
是|t|的一個(gè)光滑近似.當(dāng)α=1/2時(shí),可由
得φ(t,1/2,μ)=φ4(t,μ).在一定程度上,可以把φ(t,α,μ)看作是φ4(t,μ)的一個(gè)推廣.然而,有個(gè)問(wèn)題:對(duì)于其他的參數(shù)α≠1/2, 這兩個(gè)近似函數(shù)φ(t,α,μ)和φ4(t,μ)的大小關(guān)系.
定理2[1]對(duì)于任意的α∈[0,1],μ>0和?t∈R,有如下的不等式成立:
b) 0≤|t|-φ(t;α,μ)≤2μmax{α2,(1-α)2};
c) -2(1-2α)2μ≤φ(t;α,μ)≤2μα(1-α)
構(gòu)造并證明一個(gè)關(guān)于絕對(duì)值函數(shù)的光滑近似函數(shù),是文中的重要結(jié)果之一.
定理3對(duì)于任意的t∈R和參數(shù)μ>0,則
是絕對(duì)值函數(shù)|t|的光滑近似,且
0≤|t|-φ7(t,μ)≤κ7μ
其中
所以近似函數(shù)φ7(t,μ)關(guān)于t是連續(xù)的.其次,
故有
因此φ7(t,μ)是連續(xù)可微的.然后,利用φ7(t,μ)=φ7(-t,μ)和其定義域是對(duì)稱的,可得:
于是有0≤|t|-ω(t,μ)≤κ7μ.
最后,再由定義1可證φ7(t,μ)是絕對(duì)值函數(shù)的一個(gè)光滑近似.因此,定理3得證.
利用定理3和式(1), 可得到:
是max{0,t}的光滑近似.
對(duì)比φ7(t,μ)與之前的光滑近似φi(t,μ),i=1,2,…,6.一個(gè)最直接、最有效和最簡(jiǎn)單的方法是比較有界常數(shù)κ的大小,幾類光滑逼近函數(shù)的有界常數(shù)κ,見表1.
表1 絕對(duì)值函數(shù)的幾類光滑近似的有界常數(shù)
一個(gè)判斷標(biāo)準(zhǔn)是有界常數(shù)κ越小,逼近效果越好.實(shí)際上,利用光滑近似函數(shù)的有界常數(shù)κ也可以判斷這七類近似函數(shù)的優(yōu)劣.可以看到φ1和φ4是他們中除去φ7之外,逼近效果最好的上下界光滑近似,這與定理1中給出的結(jié)論是符合的.然而對(duì)于絕對(duì)值函數(shù)的下界光滑近似,從定理3以及表1中的有界常數(shù)κ7<κ4可得到光滑近似φ7比已知的φ4更好.進(jìn)一步地,當(dāng)μ=0.01, 圖3更是驗(yàn)證了以上的分析結(jié)果,而且還表明光滑近似φ7比φ4和φ1的逼近更好.
圖3 當(dāng)參數(shù)μ=0.01, 光滑近似φ1和φ4與φ7的比較
(1) 基于正弦函數(shù)構(gòu)造了一類新穎的光滑逼近函數(shù),并通過(guò)引進(jìn)有界常數(shù)來(lái)說(shuō)明新構(gòu)造的光滑近似的逼近效果有一個(gè)精度的提升.
(2) 在實(shí)際工程應(yīng)用中推薦選用光滑近似φ1,這是因?yàn)樽钚』?便是可以迫使絕對(duì)值函數(shù)也取得最小,即|t|≤φ1(t,μ).而且,已有的文獻(xiàn)中,在圖像處理、稀疏優(yōu)化、回歸分析、神經(jīng)網(wǎng)絡(luò)、復(fù)雜系統(tǒng)以及深度學(xué)習(xí)等領(lǐng)域中,只要涉及絕對(duì)值函數(shù)的光滑近似的,一般都是選擇φ1.
(3) 若是不需要作最小化處理,僅僅是為了在理論分析中使用,那么可選擇逼近效果更好的光滑近似φ7.