陳蔣力 陳少?gòu)?qiáng) 任峰? 胡海豹?
1) (西北工業(yè)大學(xué)航海學(xué)院,西安 710072)
2) (中國(guó)船舶重工集團(tuán)公司第七〇五研究所,西安 710077)
針對(duì)經(jīng)典圓柱繞流問題,采用深度強(qiáng)化學(xué)習(xí)方法,提出了基于壁面壓力反饋的圓柱繞流減阻閉環(huán)主動(dòng)控制方法,并比較分析了施加控制前后圓柱阻力系數(shù)、升力系數(shù)及流場(chǎng)的差異.控制系統(tǒng)中,以圓柱壁面上均勻分布的壓力探針測(cè)得的信號(hào)作為反饋,利用多層感知機(jī)建立壓強(qiáng)信號(hào)與吹/吸射流及控制效果的映射關(guān)系,即控制策略;通過在圓柱上下表面狹縫施加連續(xù)可調(diào)的吹/吸射流來進(jìn)行主動(dòng)控制.同時(shí),利用深度強(qiáng)化學(xué)習(xí)中的近端策略優(yōu)化方法,在大量的學(xué)習(xí)過程中對(duì)該控制策略進(jìn)行不斷調(diào)整和優(yōu)化,以實(shí)現(xiàn)穩(wěn)定減阻效果.在圓柱繞流流動(dòng)環(huán)境搭建方面,采用格子Boltzmann 方法建立與深度強(qiáng)化學(xué)習(xí)模型之間的交互式框架,模擬提取非定常流場(chǎng)條件下圓柱表面的壓強(qiáng)信號(hào),并計(jì)算實(shí)時(shí)調(diào)整吹/吸射流強(qiáng)度時(shí)圓柱表面升力、阻力數(shù)據(jù),以評(píng)估所選控制策略的優(yōu)劣.研究表明:雷諾數(shù)為100 時(shí),主動(dòng)控制策略能減少約4.2%的圓柱阻力,同時(shí)減少約49%升力幅度;同時(shí)施加主動(dòng)控制后圓柱的減阻效果與圓柱回流區(qū)長(zhǎng)度呈現(xiàn)強(qiáng)相關(guān)趨勢(shì).此外,不同雷諾數(shù)下智能體習(xí)得的策略減阻效果不同,雷諾數(shù)為200 和400 時(shí),該主動(dòng)控制策略能依次減小圓柱阻力17.3%和31.6%.本研究可為后續(xù)開展基于壁面壓力反饋的圓柱流動(dòng)主動(dòng)控制實(shí)驗(yàn)以及其他復(fù)雜環(huán)境下鈍體流動(dòng)智能控制提供參考.
流動(dòng)控制根據(jù)是否需要外部能量輸入分為被動(dòng)流動(dòng)控制和主動(dòng)流動(dòng)控制[1].被動(dòng)控制具有無需能量輸入、設(shè)置簡(jiǎn)單、成本低等優(yōu)點(diǎn),但當(dāng)流場(chǎng)實(shí)際情況偏離預(yù)期時(shí),控制往往難以達(dá)到最佳效果[2].在主動(dòng)控制中,根據(jù)是否需要從流場(chǎng)中獲取反饋信息并用以調(diào)節(jié)激勵(lì)器的輸出大小,可以分為開環(huán)控制和閉環(huán)控制[3].研究發(fā)現(xiàn),閉環(huán)主動(dòng)控制相較于開環(huán)控制具有自適應(yīng)能力強(qiáng)的特點(diǎn),能夠充分發(fā)揮激勵(lì)器的潛力,在少量能量輸入情況下往往就能得到很好的控制效果,因而有著更大的潛力[4].然而,非線性的Navier-Stokes 方程所描述的流場(chǎng)具有高維、多模態(tài)等復(fù)雜特征,導(dǎo)致設(shè)計(jì)有效的實(shí)時(shí)閉環(huán)主動(dòng)流動(dòng)控制策略往往十分困難[5].
近年來,迅速發(fā)展的深度強(qiáng)化學(xué)習(xí)(DRL)以其擅長(zhǎng)與環(huán)境進(jìn)行交互的特點(diǎn),為上述流動(dòng)控制難題帶來了新的思路.研究表明,深度強(qiáng)化學(xué)習(xí)能夠在高維、非線性等復(fù)雜環(huán)境中有效地習(xí)得控制策略[6].如果利用深度強(qiáng)化學(xué)習(xí)與流動(dòng)控制環(huán)境進(jìn)行交互,在不斷試錯(cuò)、調(diào)整優(yōu)化策略后,由習(xí)得策略建立控制律,對(duì)于閉環(huán)流動(dòng)控制方法來說具有重要意義.Rabault 等[7]將深度強(qiáng)化學(xué)習(xí)應(yīng)用于鈍體減阻,利用近端策略優(yōu)化方法[8]成功習(xí)得了能夠?qū)崿F(xiàn)穩(wěn)定減阻約8%的閉環(huán)主動(dòng)控制策略.該研究中,將位于圓柱周圍和下游流場(chǎng)中的151 個(gè)傳感器(每個(gè)傳感器同時(shí)采集流向速度及橫向速度)測(cè)得的速度作為反饋信號(hào),并將獎(jiǎng)勵(lì)函數(shù)(與升力系數(shù)和阻力系數(shù)有關(guān))作為獎(jiǎng)懲機(jī)制.Paris 等[9]引入一種新算法(S-PPO-CMA)優(yōu)化傳感器位置,在雷諾數(shù)120 時(shí),成功習(xí)得了穩(wěn)定減阻約18.4%的閉環(huán)主動(dòng)控制策略.任峰等[10]基于格子Boltzmann 方法搭建流動(dòng)環(huán)境,在弱湍流條件下成功習(xí)得減阻的閉環(huán)主動(dòng)控制策略,實(shí)現(xiàn)了約30%的圓柱減阻效果,為優(yōu)化傳感器布局,進(jìn)行了敏感性分析.
上述研究均以尾流中的速度傳感器等作為反饋信號(hào).考慮到應(yīng)用條件下的實(shí)際情形,在尾流固定位置處布置傳感器技術(shù)實(shí)現(xiàn)上比較困難,因此本研究以實(shí)際應(yīng)用場(chǎng)景中較容易測(cè)得的壁面壓力作為反饋信號(hào).本文采用GPU 加速的格子Boltzmann方法[11]對(duì)低雷諾數(shù)下的圓柱繞流進(jìn)行數(shù)值模擬,將深度強(qiáng)化學(xué)習(xí)應(yīng)用于主動(dòng)流動(dòng)控制,并通過分析施加控制前后射流速度的變化得到主動(dòng)控制對(duì)流動(dòng)的影響機(jī)制.
本文選取了圖1 所示的物理模型.其中,直徑為D的圓柱放置在長(zhǎng)L=21.79D,寬H=4.06D的狹窄管道中.將圓柱中心設(shè)置為坐標(biāo)系零點(diǎn),與入口邊界距離L1=2D,與出口邊界距離L2=19.79D.為了促進(jìn)渦旋脫落,圓柱中心略微偏離計(jì)算域中心線(y方向上向上偏離0.05D).由于計(jì)算域較為狹窄,上下兩側(cè)壁面會(huì)對(duì)圓柱的升阻力系數(shù)有所影響,但不影響最終控制效果.雷諾數(shù)定義為Re=UmD/υ,其中D為圓柱直徑,υ是流體的運(yùn)動(dòng)黏度,Um為入口處的平均速度.參考時(shí)間T定義為T=D/Um.
圖1 物理模型示意圖Fig.1.Schematics of the physical model.
本文圓柱的阻力系數(shù)和升力系數(shù)分別用CD和CL表示,定義如下:
其中ρ為流場(chǎng)中流體的密度,FD以及FL分別為圓柱所受的總阻力和總升力.
本文通過圓柱上下表面的狹縫施加吹/吸射流控制,狹縫寬度與圓心角為10°的弧長(zhǎng)相對(duì)應(yīng),為保證零質(zhì)量流量射流,上下表面射流速度的大小與方向均相同.為了保證控制的連續(xù)性,并避免施加控制后射流速度的跳躍,將射流速度表示為
其中Ujet與分別為當(dāng)前時(shí)間步以及下個(gè)時(shí)間步的射流速度,兩個(gè)時(shí)間步的時(shí)間間隔為T/δt=800 (δt=1 為格子時(shí)間),at指在當(dāng)前時(shí)間步下,深度強(qiáng)化學(xué)習(xí)智能體輸出的動(dòng)作值(智能體及動(dòng)作值的詳細(xì)解釋在2.4 節(jié)給出).α為數(shù)值參數(shù),α=0.1 與Rabault 等[12]一致.(3)式為指數(shù)衰減形,其表達(dá)形式及α的取值會(huì)影響訓(xùn)練效率,詳見參考文獻(xiàn)[12].
本文獎(jiǎng)勵(lì)函數(shù)設(shè)置為
其中〈·〉 代表在兩次施加激勵(lì)過程中進(jìn)行時(shí)間平均,w為權(quán)重,本文將權(quán)重設(shè)置為1,這樣不僅能減少圓柱阻力,還能保證在較低雷諾數(shù)時(shí)圓柱升力系數(shù)不會(huì)出現(xiàn)顯著零偏,詳見參考文獻(xiàn)[10].
由于格子Boltzmann 方法不依賴連續(xù)介質(zhì)假設(shè),算法簡(jiǎn)單,具有良好的計(jì)算局部性等優(yōu)點(diǎn)[13,14].本文基于格子Boltzmann 方法建立流動(dòng)數(shù)值模擬環(huán)境.本文的格子Boltzmann 求解器使用了D2Q9格式[15](二維流動(dòng),每個(gè)格點(diǎn)處速度向9 個(gè)方向離散)作為離散速度模型,通過多松弛時(shí)間算法[16,17]來提高數(shù)值模擬的精度和穩(wěn)定性,采用He-Luo 模型[18]確保本文中流體的不可壓縮性.
本文中多松弛時(shí)間模型表達(dá)式為
式中f(x,t)指在t時(shí)刻x位置處的分布函數(shù),feq為平衡態(tài)分布函數(shù),ei為粒子的離散速度,δt為格子時(shí)間步長(zhǎng),M稱為變換矩陣,可以將速度空間轉(zhuǎn)換至矩空間.松弛參數(shù)設(shè)置為
其中τ為松弛時(shí)間,松弛時(shí)間與運(yùn)動(dòng)黏度關(guān)系為τ=0.5 +,cs=3–1/2為格子聲速.
邊界條件的設(shè)置與此前工作[10]類似,入口處的速度設(shè)置為拋物線形,數(shù)學(xué)表達(dá)式為
出口處的壓力設(shè)置為零,入口和出口均采用非平衡外推格式[19].上下壁面采用具有二階精度的半步長(zhǎng)反彈格式[20],圓柱曲面使用雙線性插值法進(jìn)行處理[21],上下壁面及圓柱表面均為無滑移壁面.此外,圓柱受力采用改進(jìn)的動(dòng)量交換方法求得[22].
網(wǎng)格數(shù)量以及時(shí)間分辨率的選取,對(duì)數(shù)值模擬時(shí)的計(jì)算精度和計(jì)算耗時(shí)有一定的影響,表1 測(cè)試了Re=100 時(shí)三種不同網(wǎng)格數(shù)和時(shí)間分辨率下的算例,對(duì)比了這些算例中圓柱的各個(gè)參數(shù).其中T為參考時(shí)間,Sr為斯特勞哈爾數(shù)(Sr=f D/Um,其中f為渦旋脫落頻率).
表1 無關(guān)性驗(yàn)證(Re=100)Table 1.Validation and convergence study (Re=100).
從表1 中可以看到,與算例Ⅲ(本文最佳的網(wǎng)格數(shù)及時(shí)間分辨率)相比,算例Ⅰ中平均阻力系數(shù)與平均升力系數(shù)的絕對(duì)值分別相差0.009 和0.028,相對(duì)誤差分別為0.3%和4.4%.而算例Ⅱ的平均升力系數(shù)的絕對(duì)值相對(duì)誤差在0.5%以內(nèi),且計(jì)算耗時(shí)小于算例Ⅲ,很好地滿足了低計(jì)算耗時(shí)和高計(jì)算精度的要求.因此,Re=100 時(shí),本文以表1 中的算例Ⅱ?yàn)闃?biāo)準(zhǔn),搭建流動(dòng)數(shù)值模擬環(huán)境.
在合適的時(shí)間分辨率和網(wǎng)格數(shù)下,成功搭建了Re=100 時(shí)的流動(dòng)數(shù)值模擬環(huán)境.表2 給出了該環(huán)境下的計(jì)算結(jié)果以及其他學(xué)者數(shù)值模擬的結(jié)果,包括圓柱表面的最大阻力系數(shù)、最大升力系數(shù)以及渦旋脫落頻率(Sr).對(duì)比發(fā)現(xiàn),各個(gè)計(jì)算結(jié)果相對(duì)偏差均在2.5%以內(nèi),這驗(yàn)證了格子Boltzmann 方法在該問題上的準(zhǔn)確性與可靠性.
表2 Re=100 時(shí)最大升阻力系數(shù)CD,max,CL,max 與Sr 對(duì)比Table 2.Comparison of CD,max,CL,max and Sr at Re=100.
深度強(qiáng)化學(xué)習(xí)的本質(zhì)是互動(dòng)學(xué)習(xí)[25].智能體(本文指模擬人的思維決策過程,可以同環(huán)境相交互的程序)主要通過以下三個(gè)方面與環(huán)境進(jìn)行交互:動(dòng)作at,狀態(tài)st和獎(jiǎng)勵(lì)函數(shù)rt.本文所使用的是深度強(qiáng)化學(xué)習(xí)中的近端策略優(yōu)化方法(PPO),具有較高的穩(wěn)定性和可靠性等優(yōu)點(diǎn)[8].
首先引入軌跡τt的概念,表示在給定參數(shù)θ下,某次學(xué)習(xí)時(shí),狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)函數(shù)隨時(shí)間的變化關(guān)系:
(8)式指環(huán)境輸出狀態(tài)值s0給DRL 智能體,選擇動(dòng)作a0,并得到獎(jiǎng)勵(lì)函數(shù)r0,環(huán)境被動(dòng)作改變,輸出新的狀態(tài)s1.經(jīng)過不斷重復(fù),得到某次學(xué)習(xí)下的控制策略,并以累計(jì)獎(jiǎng)勵(lì)函數(shù)R(t)評(píng)估策略,其中γ(0 <γ<1)為折扣系數(shù),本研究中固定為0.97.
近端策略優(yōu)化方法使用了兩組人工神經(jīng)網(wǎng)絡(luò),分別為動(dòng)作策略(輸入狀態(tài),輸出動(dòng)作的概率分布)的actor 網(wǎng)絡(luò)和評(píng)價(jià)策略(輸入狀態(tài),得到值函數(shù),計(jì)算出優(yōu)勢(shì)函數(shù))的critic 網(wǎng)絡(luò),即actor-critic網(wǎng)絡(luò).創(chuàng)建critic 網(wǎng)絡(luò)用以減小實(shí)際獎(jiǎng)勵(lì)與預(yù)期獎(jiǎng)勵(lì)的數(shù)學(xué)期望之間的差異,即
其中參數(shù)θ代表神經(jīng)網(wǎng)絡(luò)的所有權(quán)重的集合,V(st)指值函數(shù),即狀態(tài)st下所有可能的動(dòng)作與其累計(jì)獎(jiǎng)勵(lì)函數(shù)的乘積的和(預(yù)期獎(jiǎng)勵(lì)的數(shù)學(xué)期望).
本文依據(jù)Schulman 等[8]的工作,選取了近端優(yōu)化策略中actor 網(wǎng)絡(luò)的目標(biāo)函數(shù),用于輸出某狀態(tài)下動(dòng)作的概率分布.該目標(biāo)函數(shù)算法簡(jiǎn)單且具有良好的穩(wěn)定性[8].其數(shù)學(xué)表達(dá)形式為:
其中,rt(θ)指的是新舊策略概率比(πθ(at|st) 和πθold(at|st)分別為當(dāng)前策略和舊策略在狀態(tài)st下采取動(dòng)作at的概率).clip 函數(shù)用于限制新舊策略概率比,是指將rt(θ)的大小限制在[1–ε,1+ε]之間,當(dāng)rt(θ)的值大于1+ε時(shí),用1+ε代替rt(θ),當(dāng)rt(θ)小于1–ε,用1–ε代替rt(θ).ε是超參數(shù),設(shè)置為0.2,與Schulman 等一致,在Schulman 文中,與ε=0.1 和ε=0.3 相比,ε=0.2 時(shí)算法的效果最佳,詳見參考文獻(xiàn)[8].min()即取下界,具體理解為:當(dāng)>0 時(shí),當(dāng)前動(dòng)作產(chǎn)生的獎(jiǎng)勵(lì)估計(jì)大于預(yù)期獎(jiǎng)勵(lì)的數(shù)學(xué)期望,因此增加新策略中當(dāng)前動(dòng)作出現(xiàn)的概率,為提高訓(xùn)練的穩(wěn)定性,限制其不能超過原策略的1+ε倍;反之,當(dāng)<0 時(shí),限制其不能小于原策略的1–ε倍.
本節(jié)主要復(fù)現(xiàn)了Rabault 等[7]的結(jié)果,并采用了相同位置的速度傳感器.Re=100 時(shí),智能體以流場(chǎng)速度作為反饋信號(hào),訓(xùn)練得到減阻的閉環(huán)主動(dòng)控制策略.由于已有學(xué)者[7,10,12]開展過相似的研究?jī)?nèi)容,此處不再詳細(xì)描述.
圖2 給出了基于速度反饋的智能體的訓(xùn)練過程,本文進(jìn)行三次不同的訓(xùn)練,并對(duì)三次訓(xùn)練過程中的阻力系數(shù)取平均值,得到一條更為平滑的曲線.每一訓(xùn)練集(episode)均相當(dāng)于一次完整的數(shù)值模擬過程,持續(xù)時(shí)間為32T,可以看到,隨著訓(xùn)練集數(shù)的增加,在200 集后,阻力系數(shù)(通過對(duì)每一集后半段的阻力系數(shù)取平均得到對(duì)應(yīng)阻力系數(shù))逐漸穩(wěn)定,在400 集時(shí)阻力系數(shù)大約在2.98 附近,但仍然有大幅度波動(dòng)出現(xiàn),這是由于深度強(qiáng)化學(xué)習(xí)智能體的訓(xùn)練過程具有一定的隨機(jī)性.
圖2 智能體訓(xùn)練過程(速度反饋)Fig.2.Learning curves of DRL agent (velocity feedback).
圖3 為訓(xùn)練完成,智能體已習(xí)得閉環(huán)主動(dòng)控制策略后,施加控制前后圓柱的阻力系數(shù)隨時(shí)間變化對(duì)比圖,可以看到,施加控制至流場(chǎng)達(dá)到穩(wěn)定后,圓柱的阻力系數(shù)為2.989,減阻率為6.6%,且射流速度僅為入口處平均來流速度的0.15 倍.
圖3 控制前后阻力系數(shù)(CD)隨時(shí)間變化圖Fig.3.Temporal variations of drag coefficient (CD) with and without active flow control.
在成功搭建流動(dòng)控制環(huán)境后,智能體需要基于有限的流場(chǎng)信息來訓(xùn)練主動(dòng)流動(dòng)控制策略.考慮到速度傳感器成本大,在尾流處布置困難,難以用于實(shí)際實(shí)驗(yàn)中.而壓力傳感器較速度傳感器成本低,在圓柱表面處布置容易.本節(jié)通過壁面壓力反饋方法代替原來的尾流速度反饋方法.
考慮到壓力探針數(shù)量對(duì)智能體的影響,本文分別對(duì)比了6,14 和30 個(gè)壓力探針下智能體習(xí)得控制策略的減阻效果.圖4 分別給出了6,14 及30 個(gè)壓力探針的位置分布,采用在壁面上均勻分布的方式并避開了圓柱上下表面的吹/吸射流.
圖4 壓力探針位置圖 (a) 6 個(gè)壓力探針;(b) 14 個(gè)壓力探針;(c) 30 個(gè)壓力探針Fig.4.Schematics of the pressure sensors position:(a) 6 pressure sensors;(b) 14 pressure sensors;(c) 30 pressure sensors.
本文圓柱曲面邊界處理方法為雙線性插值法[21],由于圓柱表面位于流體格點(diǎn)與固體格點(diǎn)之間,無法直接得到壓力分布曲線.因此采用了多次線性插值的方法,通過圓柱表面附近格點(diǎn)間接得到未控制下圓柱的壓力分布曲線.
為了和Tiwari 等[26]進(jìn)行對(duì)比,本節(jié)搭建了Re=20 時(shí)的數(shù)值模擬環(huán)境,并得到圓柱表面的壓力分布曲線.其中,壓力經(jīng)過無量綱處理,即
式中,Pref為參考?jí)毫?這里Pref=1907,Umax=1.5Um是入口處的最大速度.
Re=20 時(shí)圓柱表面壓力分布曲線對(duì)比圖如圖5 所示,其中點(diǎn)(0.5,0)作為橫坐標(biāo)起點(diǎn),逆時(shí)針方向?yàn)檎较?可以看到本文得到的Re=20時(shí)的圓柱壓力分布曲線與Tiwari 等[26]的結(jié)果幾乎重合.
圖5 圓柱壓力分布曲線,Re=20Fig.5.Pressure distribution curve along the cylinder surface,Re=20.
Protas 和Wesfreid[27]將圓柱的阻力分為兩部分,一部分為由渦旋脫落引起的阻力,另一部分為圓柱無渦旋脫落時(shí)的阻力.研究表明,對(duì)于圓柱繞流而言,主動(dòng)控制僅能減少由渦旋脫落引起的阻力[27?29].同時(shí),圓柱阻力與回流區(qū)長(zhǎng)度具有一定的聯(lián)系,在無渦旋脫落時(shí)圓柱尾流處回流區(qū)呈細(xì)長(zhǎng)狀,長(zhǎng)度隨著Re的提高而增加.施加主動(dòng)控制后,圓柱阻力減小,此時(shí)回流區(qū)長(zhǎng)度更接近穩(wěn)定無渦旋脫落時(shí)的回流區(qū)長(zhǎng)度.Rabault 等[7]指出,Re=100 時(shí),本文計(jì)算域下無渦旋脫落時(shí)圓柱的阻力系數(shù)約為2.93.
本節(jié)智能體以壁面壓力作為反饋信號(hào),并進(jìn)行訓(xùn)練,訓(xùn)練曲線如圖6 所示.與圖2 相比,圖6 中的智能體需要更多集數(shù)進(jìn)行訓(xùn)練以使阻力系數(shù)趨于穩(wěn)定.訓(xùn)練完成后,將訓(xùn)練過程中阻力系數(shù)最小時(shí)對(duì)應(yīng)的控制策略作為本次訓(xùn)練得到的最佳策略.智能體分別采用6,14 和30 個(gè)壓力探針作為反饋信號(hào),通過主動(dòng)控制和無控制得到的圓柱阻力系數(shù)、升力系數(shù)和射流速度隨時(shí)間變化曲線,如圖7所示.
圖6 智能體訓(xùn)練過程(壓力反饋)Fig.6.Learning curves of DRL agent (wall pressure feedback).
圖7 主動(dòng)控制和無控制下圓柱的阻力系數(shù)(CD),升力系數(shù)(CL)和射流速度(Ujet)變化曲線,Re=100Fig.7.Temporal variations of drag coefficient (CD),lift coefficient (CL),and jet velocity (Ujet) with and without active control,Re=100.
如圖7 所示,探針數(shù)量不同的智能體施加主動(dòng)控制均能減少圓柱阻力.當(dāng)壓力探針數(shù)量為6 時(shí),能習(xí)得減阻的閉環(huán)主動(dòng)控制策略,但是僅將圓柱的平均阻力系數(shù)減少到3.11 左右,平均升力系數(shù)由–0.026 增加至–0.019,減阻效果達(dá)到了2.9%,減少的阻力占因渦旋脫落產(chǎn)生的阻力的34.1%.相比之下,壓力探針數(shù)量增加至14 時(shí),智能體習(xí)得的控制策略能將平均阻力系數(shù)減小到3.07 左右,平均升力系數(shù)由–0.002 減少至–0.013,減阻效果達(dá)到了4.2%,減小的阻力占由于渦旋脫落導(dǎo)致的阻力的51.3%.當(dāng)壓力探針增加至30 個(gè)時(shí),習(xí)得的控制策略也只能將平均阻力系數(shù)減小到3.08 左右,平均升力系數(shù)由0.010 增加至0.012.同時(shí),升阻力系數(shù)的變化幅度減少.阻力波動(dòng)從無控制下的[3.16,3.25]分別減少至[3.08,3.13](對(duì)應(yīng)6 個(gè)壓力探針),[3.05,3.09](對(duì)應(yīng)14 個(gè)壓力探針),[3.06,3.09](對(duì)應(yīng)30 個(gè)壓力探針).升力波動(dòng)從無控制下的[–0.99,1.01]分別減少至[–0.62,0.63](對(duì)應(yīng)6 個(gè)壓力探針),[–0.53,0.52](對(duì)應(yīng)14 個(gè)壓力探針),[–0.55,0.57](對(duì)應(yīng)30 個(gè)壓力探針).從射流速度隨時(shí)間變化曲線中可以看出,主動(dòng)控制時(shí),首先以較大的射流速度改變流場(chǎng)結(jié)構(gòu),此時(shí)與圓柱阻力快速減少相對(duì)應(yīng).在控制達(dá)到穩(wěn)定后,僅需少量能量(以14 個(gè)探針為例,約為剛開始控制時(shí)最大射流速度的0.5 倍,入口處平均速度的0.15 倍)即可以達(dá)到很好的減阻效果.
本節(jié)試圖分析控制前后流動(dòng)的變化,來探究主動(dòng)控制對(duì)流場(chǎng)的影響.圖8 為控制前后的瞬時(shí)流場(chǎng)云圖(以14 個(gè)壓力探針習(xí)得的控制策略為例),每張圖的上部分為無控制下的流場(chǎng)云圖,下部分為施加主動(dòng)控制下的流場(chǎng)云圖.由于在Re=100 時(shí)進(jìn)行數(shù)值模擬,云圖中可以看到規(guī)則的流場(chǎng),受逆壓梯度和流體黏性的影響,圓柱壁面產(chǎn)生邊界層分離現(xiàn)象,并在分離點(diǎn)后形成回流區(qū)(流向速度為負(fù)的區(qū)域)和尾流區(qū)(圓柱尾渦周期性脫落).
圖8 Re=100 時(shí)的瞬時(shí)流場(chǎng)云圖(a1)—(d1)無控制下流向速度,橫向速度,壓力及渦量云圖;(a2)—(d2)主動(dòng)控制下流向速度,橫向速度,壓力及渦量云圖Fig.8.Instantaneous contours of flow fields at Re=100:(a1)–(d1) Contours of streamwise velocity,transverse velocity,pressure,and vorticity without active control;(a2)–(d2) contours of streamwise velocity,transverse velocity,pressure,and vorticity with active control.
從瞬時(shí)的流向速度對(duì)比云圖中可以看到,與控制前相比,施加主動(dòng)控制后圓柱上分離點(diǎn)位置變化較小,回流區(qū)長(zhǎng)度顯著增加,達(dá)到了2.08D左右,而控制前回流區(qū)長(zhǎng)度僅有1.68D左右,回流區(qū)長(zhǎng)度增加了23.8%.
從瞬時(shí)橫向速度對(duì)比云圖和瞬時(shí)壓力對(duì)比云圖中可以看到,相比無控制下的流場(chǎng),主動(dòng)控制下流場(chǎng)內(nèi)流體的瞬時(shí)橫向速度變小,圓柱前后的壓力差(圓柱的壓差阻力)減小,尾流處壓力為負(fù)的區(qū)域面積增大.從瞬時(shí)渦量對(duì)比云圖中可以看到,主動(dòng)控制下尾流處渦的形成和脫落過程被改變,渦開始脫落的位置和未控制時(shí)相比向下游推移,同時(shí)渦脫落頻率和渦量強(qiáng)度減小.
對(duì)500 張?jiān)茍D(約3 個(gè)渦脫落周期)取平均得到如圖9 所示的時(shí)間平均的流向速度云圖、橫向速度云圖和壓力云圖.分析流場(chǎng)時(shí)均云圖同樣看到,與無控制情況相比,施加主動(dòng)控制后圓柱分離點(diǎn)位置變化較小,回流區(qū)長(zhǎng)度顯著增加,時(shí)均壓力云圖中,圓柱前后的壓力差變小,尾流處壓力為負(fù)的區(qū)域面積增大,這說明施加主動(dòng)控制能減少圓柱的部分壓差阻力.
圖9 Re=100 時(shí)的時(shí)均流場(chǎng)云圖 (a1)—(c1)無控制下流向速度,橫向速度及壓力云圖;(a2)—(c2)主動(dòng)控制下流向速度,橫向速度及壓力云圖Fig.9.Time-averaged contours of flow fields at Re=100:(a1)–(c1) Contours of streamwise velocity,spanwise velocity,pressure,and vorticity without active control;(a2)–(c2) contours of streamwise velocity,spanwise velocity,and pressure with active control.
在第2 節(jié)中,智能體始終在Re=100 時(shí)的數(shù)值模擬環(huán)境中進(jìn)行訓(xùn)練.隨著Re的改變,繞流流場(chǎng)也會(huì)發(fā)生變化,研究指出當(dāng)Re增加時(shí),因渦旋脫落產(chǎn)生的阻力占總阻力的比例提高,且無渦旋脫落時(shí)圓柱尾流處回流區(qū)長(zhǎng)度也隨之增加[25,27?29].本節(jié)通過對(duì)比不同Re智能體習(xí)得的閉環(huán)主動(dòng)控制策略(以第3 節(jié)14 個(gè)壓力探針為例),探究Re對(duì)減阻效果及流場(chǎng)的影響.
Re=100,200 和400 時(shí),智能體施加主動(dòng)控制后得到的結(jié)果如圖10 所示.圖10 中的數(shù)據(jù)表明,Re不同時(shí),智能體均能習(xí)得減阻的閉環(huán)主動(dòng)控制策略,在本文研究范圍內(nèi)(Re=100—400),無控制下圓柱的阻力系數(shù)與升力系數(shù)的變化幅度隨著Re的增大逐漸提高,主動(dòng)控制下圓柱減阻率同樣隨著Re增大逐漸提高.當(dāng)Re=100 時(shí),主動(dòng)控制下圓柱的平均阻力系數(shù)達(dá)到穩(wěn)定時(shí)僅僅只有3.07,阻力系數(shù)變化幅度從未控制下的0.096 減少至主動(dòng)控制下的0.054,減阻效果達(dá)到了4.2%;當(dāng)Re=200 時(shí),主動(dòng)控制下圓柱的平均阻力系數(shù)達(dá)到穩(wěn)定時(shí)為2.59,減阻效果達(dá)到了17.3%;Re=400 時(shí),施加控制后圓柱的平均阻力系數(shù)最終穩(wěn)定在2.15 左右,阻力系數(shù)幅值從未控制下的0.504 減少至主動(dòng)控制下的0.129,減阻效果高達(dá)31.6%.不同Re下升力系數(shù)變化幅度均減少,Re=100 時(shí),升力系數(shù)變化幅度由[–0.98,1.01]減少至[–0.53,0.52];Re=200 時(shí),升力系數(shù)變化幅度[–2.11,2.16]由減少至[–1.09,1.22],控制下升力系數(shù)平均值為–0.025;Re=400 時(shí),升力系數(shù)變化幅度[–2.78,2.86]由減少至[–0.73,0.33],控制下升力系數(shù)平均值為–0.212.
圖10 主動(dòng)控制與無控制下的圓柱阻力系數(shù)(CD),升力系數(shù)(CL)和射流速度(Ujet)變化曲線Fig.10.Time-resolved value of drag coefficient (CD),lift coefficient (CL),and jet velocity (Ujet) with and without control.
通過研究圖10 中射流速度隨時(shí)間變化的曲線,可以發(fā)現(xiàn)閉環(huán)主動(dòng)控制策略的具體實(shí)施方案.如第3 節(jié)所述,施加主動(dòng)控制時(shí),智能體首先以較大的射流速度改變流場(chǎng)結(jié)構(gòu),隨后,以較小的射流速度維持流場(chǎng)形態(tài).和Re=100 時(shí)的射流速度不同,Re=400 時(shí)射流速度在達(dá)到平衡時(shí)出現(xiàn)顯著的零偏,本文認(rèn)為這是因?yàn)楫?dāng)Re增加后,圓柱減少了更多的阻力,使得阻力系數(shù)的絕對(duì)值在獎(jiǎng)勵(lì)函數(shù)中的占比較大,這使得升力系數(shù)可能出現(xiàn)較大的零偏.可以通過提高獎(jiǎng)勵(lì)函數(shù)中升力系數(shù)的權(quán)重以減少射流速度的零偏,詳見參考文獻(xiàn)[10].
Re=200 和Re=400 時(shí)控制前后的時(shí)均流向速度云圖如圖11 所示.可以發(fā)現(xiàn),在本文的Re范圍內(nèi),圓柱減阻率與圓柱回流區(qū)長(zhǎng)度強(qiáng)相關(guān),Re越高,主動(dòng)控制下圓柱減阻率越大,回流區(qū)長(zhǎng)度越長(zhǎng).Re=200 時(shí),回流區(qū)長(zhǎng)度增加136.7%;Re=400 時(shí),回流區(qū)長(zhǎng)度增加341.5%.
圖11 無控制下和施加主動(dòng)控制下的時(shí)均流向速度云圖(a1) Re=200,無控制;(a2) Re=200,施加控制;(b1) Re=400,無控制;(B2) Re=400,施加控制Fig.11.Time-averaged streamwise velocity fields without control and with active control:(a1) Re=200,without control;(a2) Re=200,with control;(b1) Re=400,without control;(b2) Re=400,with control.
開展了基于壁面壓力的圓柱減阻智能流動(dòng)控制研究,得到以下結(jié)論.
1) 在智能體進(jìn)行學(xué)習(xí)的過程中,壓力探針數(shù)量的選取較為重要.壓力探針數(shù)量太少,會(huì)影響減阻效果,壓力探針數(shù)量太多,則會(huì)增加控制系統(tǒng)成本.
2) 主動(dòng)控制時(shí),圓柱的阻力減少,對(duì)應(yīng)圓柱的回流區(qū)長(zhǎng)度顯著增加,渦強(qiáng)度減小.同時(shí)Re=100 時(shí)圓柱的升力系數(shù)波動(dòng)幅度減少49%.
3) 主動(dòng)控制時(shí),先以較大的射流速度改變流場(chǎng)結(jié)構(gòu),達(dá)到穩(wěn)定后,以較小的射流速度維持流場(chǎng)結(jié)構(gòu),即只需較小的能量輸入可實(shí)現(xiàn)較好的減阻效果.
4)Re不同時(shí),智能體習(xí)得的閉環(huán)主動(dòng)控制策略不同,在本文所選Re范圍內(nèi),主動(dòng)控制時(shí)圓柱的減阻率隨Re增加而增加,Re=100 時(shí),圓柱的減阻率達(dá)到了4.2%.Re=200 時(shí),圓柱的減阻率達(dá)到了17.3%.Re=400 時(shí)圓柱的減阻率達(dá)到了31.6%.