李正良, 彭思思, 王 濤*
(1.重慶大學(xué) 土木工程學(xué)院,重慶 400045;2.重慶大學(xué) 山地城鎮(zhèn)建設(shè)與新技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,重慶 400045)
對(duì)于一些較為復(fù)雜的實(shí)際工程問(wèn)題,常采用物理實(shí)驗(yàn)和仿真模擬進(jìn)行深入探究和分析,但這些方法往往需要消耗大量的人力物力,耗時(shí)長(zhǎng),成本高,其應(yīng)用受到很大限制。而代理模型技術(shù)可以有效解決上述問(wèn)題,成為一種非常流行的代替昂貴數(shù)值模擬的有效方式[1]。代理模型的本質(zhì)是用輸入和輸出參數(shù)來(lái)模擬響應(yīng)系統(tǒng)的行為,通過(guò)選取一定數(shù)量的樣本點(diǎn)來(lái)構(gòu)建具有相當(dāng)精度的數(shù)學(xué)函數(shù)模型,其在工程設(shè)計(jì)和優(yōu)化中得到廣泛應(yīng)用[1]。作為構(gòu)建代理模型的關(guān)鍵步驟,采樣方法至關(guān)重要,采樣方法選取的樣本點(diǎn)很大程度地決定了代理模型的精度水平。如何選取盡可能少的樣本點(diǎn)構(gòu)建具有足夠精度的代理模型一直是研究者們關(guān)注的重點(diǎn)和熱點(diǎn),對(duì)此國(guó)內(nèi)外學(xué)者展開了大量的研究[1]。
現(xiàn)有的代理模型采樣方法一般分為一次性采樣方法和序列采樣方法兩大類。一次性采樣(one -shot sampling)方法主要考慮空間填充設(shè)計(jì),使樣本點(diǎn)盡量均勻地分布在整個(gè)設(shè)計(jì)空間中,較為常見(jiàn)的方法有全因子試驗(yàn)設(shè)計(jì)法、正交設(shè)計(jì)法和拉丁超立方采樣法等[2]。然而在實(shí)際工程中采樣數(shù)量往往難以確定,一次性采樣容易導(dǎo)致過(guò)采樣或欠采樣[2],造成計(jì)算資源的浪費(fèi)或近似精度難以滿足要求,且自適應(yīng)能力差。相較于一次性采樣方法,序列采樣方法(sequential sampling)對(duì)初始樣本的依賴性較弱,能有效控制樣本的數(shù)量,可以根據(jù)實(shí)際物理系統(tǒng)的空間特性進(jìn)行采樣,因此得到了學(xué)者們的青睞[3-7]。序列采樣方法的基本思路為選取少量樣本初步構(gòu)建近似模型,在序列迭代的過(guò)程中充分利用已有樣本和模型的信息來(lái)確定候選樣本點(diǎn)的位置,通過(guò)在欠采樣和高度非線性的局部區(qū)域逐步加點(diǎn),不斷提高模型的近似精度,直至滿足設(shè)計(jì)者的需求。當(dāng)前,該方法已應(yīng)用于模型預(yù)測(cè)[3,4]、優(yōu)化設(shè)計(jì)[5,6]以及可靠度分析[7]等諸多領(lǐng)域。
為了在整個(gè)設(shè)計(jì)空間中得到良好的全局近似結(jié)果,兼顧代理模型的全局精度和局部精度,不少學(xué)者針對(duì)全局代理模型的序列采樣方法進(jìn)行了深入探究。其中,泰森多邊形(或Voronoi)作為一種合理劃分空間和分析影響區(qū)域的常用工具,能有效地對(duì)整個(gè)設(shè)計(jì)空間進(jìn)行全局探索,近些年來(lái)應(yīng)用于序列采樣方法的相關(guān)研究中。Crombecq等[2]提出了一種LOLA-Voronoi序列采樣方法,創(chuàng)新性地根據(jù)泰森多邊形法衡量樣本密度,并通過(guò)局部線性逼近法分析數(shù)據(jù)點(diǎn)周圍的非線性程度,進(jìn)而選擇新的候選樣本點(diǎn)。但該方法在估計(jì)樣本的梯度信息時(shí)需進(jìn)行復(fù)雜的鄰域選擇,計(jì)算速度較慢;Xu等[8]結(jié)合了泰森多邊形法和LOO交叉驗(yàn)證(leave -one -out cross validation)誤差進(jìn)行采樣,發(fā)展了一類魯棒性強(qiáng)的CV-Voronoi序列采樣方法;繆繼華等[9]將CV-Voronoi方法與支持向量回歸模型相結(jié)合,提出了基于支持向量點(diǎn)的空間加點(diǎn)策略。雖然CV-Voronoi序列采樣方法具有較高的精度和較強(qiáng)的魯棒性,但其序列采樣過(guò)程中交叉驗(yàn)證涉及大量的建模計(jì)算,且隨著樣本點(diǎn)數(shù)量的增加,計(jì)算量不斷上升,致使其計(jì)算成本較為昂貴。
鑒于此,為了節(jié)約計(jì)算成本、加快采樣速度及提高建模效率,本文引入k-fold交叉驗(yàn)證(k-fold cross validation)[10]方法,并結(jié)合泰森多邊形法對(duì)設(shè)計(jì)空間進(jìn)行全局探索和局部開發(fā),發(fā)展了一種k-fold CV-Voronoi自適應(yīng)序列采樣方法,并通過(guò)數(shù)值算例和工程算例對(duì)本文方法進(jìn)行驗(yàn)證。
本文發(fā)展的k-fold CV-Voronoi自適應(yīng)序列采樣方法基于泰森多邊形法剖分設(shè)計(jì)空間,通過(guò)k-fold交叉驗(yàn)證方法展開誤差追蹤,在交叉驗(yàn)證誤差最大的區(qū)域內(nèi)進(jìn)行自適應(yīng)采樣。該方法核心內(nèi)容包括剖分設(shè)計(jì)空間、確定子區(qū)域以及選取候選點(diǎn)。
(1) 設(shè)計(jì)空間剖分。泰森多邊形由離散點(diǎn)連成的三角形各條邊的垂直平分線圍成,是對(duì)空間區(qū)域的一種無(wú)縫不重疊剖分。對(duì)于d維設(shè)計(jì)空間Ω的一組樣本點(diǎn)X={x1,x2,…,xn},其中第i個(gè)點(diǎn)xi的Voronoi區(qū)域Di定義為[9]
Di={x∈Ω|d(x,xi) (j=(1,2,…,n),j≠i) (1) 式中n為已知的樣本數(shù)量,x為設(shè)計(jì)空間Ω的向量點(diǎn),d(xi,xj)為樣本點(diǎn)xi和xj之間的距離。 以二維設(shè)計(jì)空間為例,在[-1,1]2范圍內(nèi)隨機(jī)生成10個(gè)樣本點(diǎn),其Voronoi單元?jiǎng)澐智闆r如 圖1 所示。可以看出,任意一個(gè)泰森多邊形Di內(nèi)部只存在一個(gè)已知樣本點(diǎn)xi,且多邊形Di中的點(diǎn)與其中心樣本xi的距離最近,因此可將多邊形Di圍成的區(qū)域視為樣本xi的有效影響范圍。 圖1 二維Voronoi圖及其單元預(yù)測(cè)誤差 (2) 子區(qū)域確定。當(dāng)整個(gè)設(shè)計(jì)空間劃分為一系列多邊形區(qū)域后,需進(jìn)一步考慮代理模型在各個(gè)子區(qū)域內(nèi)的近似情況,在預(yù)測(cè)誤差較大的區(qū)域增加樣本點(diǎn)能有效提高模型精度。交叉驗(yàn)證方法可以獲取樣本點(diǎn)的預(yù)測(cè)誤差信息,可用于評(píng)價(jià)代理模型的近似效果,但常見(jiàn)的LOO交叉驗(yàn)證方法隨著序列采樣過(guò)程的進(jìn)行,所需的計(jì)算量在成倍上升,計(jì)算成本較大。因此,本文引入k-fold交叉驗(yàn)證方法[10]計(jì)算樣本點(diǎn)的預(yù)測(cè)誤差,其詳細(xì)步驟如圖2所示。 圖2 k -fold交叉驗(yàn)證方法流程 k-fold交叉驗(yàn)證方法將樣本集X隨機(jī)分成k組(k≤n)互斥的子集{V1,V2,…,Vk},分別計(jì)算各集合中樣本點(diǎn)的預(yù)測(cè)誤差[1],其表達(dá)式可寫為 (i=1,2,…,k)(2) 圖1所示的二維實(shí)例中,采用不同大小的實(shí)心圓點(diǎn)表示由式(2)計(jì)算的樣本點(diǎn)預(yù)測(cè)誤差值,當(dāng)樣本點(diǎn)xi的誤差ei越大,即表明在多邊形Di區(qū)域內(nèi)代理模型的擬合效果越差,與實(shí)際函數(shù)存在較大偏差。假設(shè)第c個(gè)樣本點(diǎn)xc的誤差最大,在相應(yīng)的多邊形Dc區(qū)域內(nèi)進(jìn)行采樣。 (3) 候選點(diǎn)選取。為保證樣本的空間填充特性,最大程度獲取函數(shù)局部信息,k-fold CV-Voronoi自適應(yīng)序列采樣法應(yīng)滿足多邊形區(qū)域Dc內(nèi)的候選樣本點(diǎn)與其中心點(diǎn)xc之間的距離盡可能大。具體操作為在預(yù)測(cè)誤差最大的多邊形區(qū)域內(nèi)產(chǎn)生一批隨機(jī)點(diǎn),根據(jù)式(3)所示的最大距離最小化(maxmin)準(zhǔn)則[11]抽取新的樣本點(diǎn), max[d(x,xc)] (x∈Dc) (3) 式中max(·)為求最大值的函數(shù),x為區(qū)域Dc的向量點(diǎn)。 對(duì)于二維空間,采用上述方法進(jìn)行采樣的結(jié)果如圖3所示,其中空?qǐng)A圈代表一系列隨機(jī)點(diǎn),實(shí)心點(diǎn)即為新增樣本點(diǎn)。 圖3 二維采樣過(guò)程 與一般的序列采樣方法對(duì)比,本文建議的k-fold CV-Voronoi自適應(yīng)采樣方法存在三點(diǎn)優(yōu)勢(shì)。其一,該采樣方法本身完全獨(dú)立于代理模型技術(shù),因此能與多種類型的代理模型相結(jié)合,可應(yīng)用于不同工程問(wèn)題,具有普適性;其二,算法中包括探索階段和開發(fā)階段兩個(gè)過(guò)程,通過(guò)泰森多邊形的空間劃分和交叉驗(yàn)證誤差的計(jì)算,實(shí)現(xiàn)了整個(gè)設(shè)計(jì)空間內(nèi)局部開發(fā)和全局探索之間的動(dòng)態(tài)平衡,自適應(yīng)性強(qiáng);其三,引入k-fold交叉驗(yàn)證策略能有效減少建模過(guò)程的計(jì)算成本,加快采樣速度,提高建模效率。 對(duì)于實(shí)際工程中的建模問(wèn)題,采用k-fold CV-Voronoi自適應(yīng)序列采樣方法構(gòu)建精確代理模型的具體步驟如下。 (1) 選取適當(dāng)?shù)脑囼?yàn)設(shè)計(jì)方法,在設(shè)計(jì)空間中抽取少量初始樣本集X,并計(jì)算其響應(yīng)Y。 (2) 根據(jù)樣本及其響應(yīng)值,建立相應(yīng)的代理模型,并計(jì)算模型的近似精度。 (3) 基于已有樣本信息,利用泰森多邊形法剖分整個(gè)設(shè)計(jì)空間。 (4) 采用k-fold交叉驗(yàn)證方法計(jì)算每個(gè)樣本點(diǎn)的預(yù)測(cè)誤差,選出誤差最大的樣本點(diǎn)所在的多邊形區(qū)域。 (5) 在選出的多邊形區(qū)域中產(chǎn)生一系列隨機(jī)點(diǎn),根據(jù)maxmin準(zhǔn)則選擇候選樣本點(diǎn)xnew并計(jì)算真實(shí)響應(yīng)值ynew,將其加入集合X和Y,更新樣本。 (6) 檢查停止準(zhǔn)則。若計(jì)算結(jié)果滿足給定的停止準(zhǔn)則,建模結(jié)束;否則,繼續(xù)步驟(2),進(jìn)行下一輪迭代。 RBF是目前應(yīng)用最為廣泛的代理模型之一[12],其選擇某一歐氏距離函數(shù)作為基函數(shù),通過(guò)徑向基函數(shù)的線性組合來(lái)擬合實(shí)際函數(shù),所得模型近似精度比較高,具有良好的魯棒性,適用于解決高度非線性問(wèn)題[13]。為驗(yàn)證k-fold CV-Voronoi自適應(yīng)序列采樣方法的效率以及適用性,將建議的自適應(yīng)序列采樣方法與RBF代理模型相結(jié)合,應(yīng)用于數(shù)學(xué)函數(shù)算例進(jìn)行對(duì)比分析,并針對(duì)k-fold交叉驗(yàn)證方法中k的取值展開討論。 將建議的k-fold CV-Voronoi自適應(yīng)序列采樣方法應(yīng)用于5個(gè)典型的數(shù)學(xué)函數(shù),建立RBF模型并檢驗(yàn)其精度,并與Xu等[8]提出的基于LOO 交叉驗(yàn)證的CV-Voronoi采樣方法進(jìn)行對(duì)比。數(shù)學(xué)測(cè)試函數(shù)的相關(guān)信息列入表1。 表1 測(cè)試函數(shù)信息 為了獲得盡可能多的函數(shù)信息,初始樣本點(diǎn)應(yīng)在整個(gè)設(shè)計(jì)空間中均勻分布,并且具有良好的投影特性,故本文采用操作簡(jiǎn)單和易于實(shí)現(xiàn)的拉丁超立方抽樣法(LHS)[14]選取初始樣本。在序列加點(diǎn)過(guò)程中,考慮有限的計(jì)算成本,設(shè)置停止準(zhǔn)則為,循環(huán)加點(diǎn)過(guò)程中當(dāng)生成的總樣本達(dá)到設(shè)置的最大樣本數(shù)量時(shí)停止采樣。若測(cè)試函數(shù)的設(shè)計(jì)維度為d,設(shè)置初始樣本數(shù)量為N0=5d,最大樣本個(gè)數(shù)為N=4N0。抽取500個(gè)測(cè)試樣本驗(yàn)證代理模型的精度,采用兩個(gè)常見(jiàn)的模型全局精度指標(biāo)評(píng)價(jià)模型的近似程度,均方根誤差(RMSE)和平方相關(guān)系數(shù)(R2)的表達(dá)式為 (4) (5) 為了消除隨機(jī)誤差的影響,表2所列結(jié)果為多次計(jì)算的平均值。 表2 不同采樣方法下RBF建模結(jié)果 由表2可知,在初始樣本和總樣本數(shù)量不變的條件下,本文方法所得能以少量的計(jì)算成本取得較好的建模效果,而LOO交叉驗(yàn)證策略下序列采樣過(guò)程中的建模次數(shù)遠(yuǎn)高于k-fold交叉驗(yàn)證。設(shè)初始樣本數(shù)量為N0,采樣結(jié)束時(shí)的樣本總量為N,采用LOO交叉誤差驗(yàn)證的CV-Voronoi自適應(yīng)序列加點(diǎn)方法共需要1/2(N+N0-1)(N-N0)次建模,而采用本文的k-fold CV-Voronoi方法僅需k(N-N0+1)次建模計(jì)算,大幅縮減了計(jì)算消耗。 另一方面,對(duì)比表2各個(gè)函數(shù)模型的精度指標(biāo)發(fā)現(xiàn),在計(jì)算成本較小的前提下,本文方法的精度水平不低于CV-Voronoi自適應(yīng)序列加點(diǎn)方法。綜合而言,本文方法計(jì)算成本低,計(jì)算效率高,且魯棒性強(qiáng)。 值得注意的是,表2中代理模型的精度結(jié)果隨本文方法k的取值變化而發(fā)生改變,因此,為了確定k值的取值,本文進(jìn)一步探究不同k值對(duì)代理模型精度的影響。仍采用表1的函數(shù)為例,對(duì)于每個(gè)測(cè)試函數(shù),分別選取了不同的初始樣本值N0,其相應(yīng)k值在N0的公因數(shù)按從小到大的順序分別進(jìn)行取值[16],如當(dāng)初始樣本個(gè)數(shù)N0=12時(shí),k值分別取2,3,4,6和12,樣本總量保持不變。采用本文方法建立RBF模型,以全局指標(biāo)R2衡量模型精度,將多次測(cè)試結(jié)果整理成如圖4所示的箱線圖。 圖4 不同k值情況下RBF模型精度 通過(guò)觀察圖4平均數(shù)、眾數(shù)和分位數(shù)等數(shù)據(jù)發(fā)現(xiàn),在初始樣本數(shù)量相同的情況下,同一測(cè)試函數(shù)不同k值下所得代理模型計(jì)算結(jié)果均未表現(xiàn)出明顯的線性規(guī)律,即當(dāng)k發(fā)生變化時(shí),RBF模型的整體精度R2可能上升亦可能下降,在局部區(qū)域會(huì)出現(xiàn)極值。根據(jù)試驗(yàn)中多種情況下所得測(cè)試結(jié)果可知,對(duì)于所有測(cè)試函數(shù),當(dāng)k/N0=1/6~1/3時(shí),所得模型的精度較高,且一般在k=1/4*N0處取得極值,建模效果最佳(如圖4中Rosenbrock函數(shù)在N0=12,k=3;N0=56,k=14時(shí)取得最優(yōu)結(jié)果),并且此時(shí)交叉驗(yàn)證的次數(shù)較少,計(jì)算成本低。 文獻(xiàn)[17,18]也對(duì)比了LOO和k-fold交叉驗(yàn)證,證明在一次性采樣建模中k-fold交叉驗(yàn)證方法取k=10時(shí)取得較優(yōu)結(jié)果。但采用序列采樣方法構(gòu)建代理模型時(shí),可以通過(guò)不斷添加新的樣本來(lái)更新模型,在多次循環(huán)迭代過(guò)程中不斷提高模型精度,常選用較小的初始樣本值和k值,故在上述k-fold CV-Voronoi方法測(cè)試中,k的建議取值略小于以往文獻(xiàn)給出的參考值。 圖5所示的交叉斜材作為保證輸電塔結(jié)構(gòu)穩(wěn)定性的重要部件,對(duì)承受橫向荷載起著關(guān)鍵作用,并且常與輔材一起改善輸電塔內(nèi)部的結(jié)構(gòu)受力。 圖5 輸電塔交叉斜材構(gòu)造 交叉斜材的承載力與截面幾何尺寸和拉壓比等因素之間的函數(shù)關(guān)系是其設(shè)計(jì)與優(yōu)化的關(guān)鍵。本文選取交叉斜材的角鋼截面肢長(zhǎng)l、肢寬b以及拉力與壓力的比γ作為自變量,通過(guò)ANSYS有限元分析軟件對(duì)輸電塔交叉斜材進(jìn)行數(shù)值模擬分析,計(jì)算不同參數(shù)下桿件的最大內(nèi)應(yīng)力響應(yīng),采用本文方法建立RBF模型。建模過(guò)程中初始樣本數(shù)量為N0=15,測(cè)試樣本數(shù)量為30,k-fold交叉驗(yàn)證的k值取為1/4N0。 表3展現(xiàn)了建模過(guò)程中隨著樣本數(shù)量N的增加,RBF模型精度的變化情況。由表3可知,本文方法能快速提高代理模型的近似程度,當(dāng)樣本總量為30時(shí),代理模型的整體精度R2達(dá)到80%以上,能夠以較小的計(jì)算成本取得令人滿意的建模效果,且所得代理模型可進(jìn)一步用于輸電塔交叉斜材的設(shè)計(jì)和優(yōu)化。在實(shí)際應(yīng)用中,設(shè)計(jì)者可根據(jù)目標(biāo)函數(shù)精度要求控制加點(diǎn)過(guò)程的進(jìn)行,從而提高建模效率,節(jié)約了計(jì)算成本。 針對(duì)現(xiàn)有采樣方法的不足之處,本文發(fā)展了一種適用于任意代理模型的k-fold CV-Voronoi自適應(yīng)序列采樣方法,該法能有效地在整個(gè)函數(shù)設(shè)計(jì)空間進(jìn)行全局探索和局部開發(fā),具有很強(qiáng)的自適應(yīng)性和魯棒性。通過(guò)數(shù)學(xué)算例和工程算例得結(jié)論如下。 (1) 相同條件下,本文方法在序列迭代過(guò)程中交叉驗(yàn)證的建模計(jì)算次數(shù)較低,能大幅減少計(jì)算成本,提高建模效率。 (2) 本文方法適用于復(fù)雜系統(tǒng)的建模分析,且在計(jì)算資源有限的情況下具有顯著優(yōu)勢(shì)。 (3) 提供了本文方法中k值的最佳取值范圍,即k=(1/6~1/3)N0,可供設(shè)計(jì)及科研人員參考。2.2 算法流程
3 數(shù)學(xué)算例
3.1 數(shù)學(xué)函數(shù)測(cè)試
3.2 關(guān)于k的討論
4 工程算例
5 結(jié) 論