孫旭敏,潘小敏,盛新慶
(北京理工大學 信息與電子學院,電磁仿真中心,北京 100081)
?
電特大天線增益的高效求解
孫旭敏,潘小敏,盛新慶
(北京理工大學 信息與電子學院,電磁仿真中心,北京 100081)
為解決電特大天線輻射特性計算效率低的問題,提出并實現(xiàn)了一種基于多極子的聚集思想快速求解遠場信息的高效并行算法. 根據(jù)目標在并行多層快速多極子中幾何樹的特征,提出高層遠場模式直接聚集,并且按行并行插值的混合MPI-OpenMP并行計算方案. 將該算法應用于大射電天文望遠鏡FAST(five-hundred-meter aperture spherical telescope)的遠場方向圖和增益的計算,通過與等效電流直接積分法計算對比展示其計算精度與效率. 結果驗證該算法的遠場輻射特性計算精度,且同等遠場計算任務量下,平均單方向計算效率提高近萬倍.
并行多層快速多極子;MPI并行;OpenMP并行;電特大;增益
隨著計算機并行技術的發(fā)展,為了滿足大目標尤其是電特大目標特性的精確計算對高效算法的要求,基于集群系統(tǒng)的消息傳遞(message passage interface,MPI)模型的多進程并行技術以及多核處理器的共享內(nèi)存(OpenMP)多線程并行技術的應用[1-5],并行MLFMA對目標散射特性的計算能力已達到未知數(shù)為十億數(shù)量級.
文獻[6]中利用并行MLFMA來分析500 m口徑射電天文望遠鏡(five-hundred-meter aperture spherical telescope,F(xiàn)AST)的輻射特性,此天線主瓣電平高波束窄,為了保證其計算精度,該文獻的做法是在最大增益附近處dθ=±10°內(nèi)計算更密的遠場信息,這樣需要較大遠場信息量的耗時計算,而且方向數(shù)量的多少直接影響其精度,如此人為的因素就需要考慮,在精度和效率之間需要找到一個平衡點,對于程序的使用者來說這無疑是比較繁瑣的.
對于上述問題,文獻[7]中已實現(xiàn)其計算目標散射的MPI并行算法的研究,該方法與電流直接積分求解相比,計算電大目標效率提高很客觀. 為解決應用目前的MPI-OpenMP并行架構MLFMA計算電特大輻射目標效率低的問題,采用該遠場計算方法,其實現(xiàn)過程中平面波聚集方案的選取與實現(xiàn)則直接影響算法的計算精度與效率. 多極子幾何樹結構最高層(盒子尺寸最大的層)具有特殊性,計算輻射問題時需要重新考慮負載平衡的實現(xiàn),經(jīng)分析高層遠場模式不同的聚集方案所需的計算資源,包括按分層逐次/單層直接聚集以及改進型的按行/按列并行插值方案,選取最優(yōu)的MPI并行方案,并重點致力于對OpenMP并行的研究,最終實現(xiàn)高效匹配的MPI-OpenMP并行方案,將其應用于求解電特大輻射問題,在保證所需內(nèi)存最小化的情況下,實現(xiàn)了對其輻射特性的精確高效計算.
與并行MFLMA計算散射問題相比,應用其計算輻射問題的主要區(qū)別就是饋源和計算指標不同. 饋源部分選用簡化的電壓源模型,該模型采用δ函數(shù)源,饋源端口處的RWG邊作為激勵邊來初始化矩陣方程的右端項;在計算天線輻射特性時,以方向性系數(shù)近似作為天線軸向增益,其數(shù)值計算公式如下:
(1)
(2)
此外,并行MLFMA中應用多極子思想處理遠相互作用中,通過各基函數(shù)聚集而得的遠場模式公式為
(3)
對比上述兩式,可知計算天線方向性增益時所需的全向遠場模值可通過計算多極子中結合所有基函數(shù)貢獻的遠場模式,通過乘以常數(shù)因子可得,來提高計算效率.
基于并行MLFMA的多極子思想計算輻射問題,實現(xiàn)重點就是應用多極子的聚集思想,根據(jù)等效電流并行求解天線的遠場信息. 基于MPI-OpenMP并行架構的遠相互作用處理的聚集、轉移操作高效所得的第2層遠場模式,已包含所有未知數(shù)的貢獻,因此需適當選擇實現(xiàn)高層(第2層到第0層即目標本身)遠場模式的聚集方案,并通過適當選取零層截斷系數(shù)以保證高斯面積分方法所對應的遠場模式方向數(shù)可滿足精度要求. 并對聚集過程所需計算資源進行分析驗證以確定最優(yōu)方案,其中插值系數(shù)矩陣的計算資源由父層和子層遠場模式數(shù)量決定,平移系數(shù)由父層與子層盒子空間關系及父層遠場模式?jīng)Q定,其實現(xiàn)中涉及的主要問題:高層聚集方式選取——分層逐次聚集與單層直接聚集;聚集過程的MPI并行方案——按盒子并行與按平面波并行;不同MPI并行方案下OpenMP并行實現(xiàn)的負載均衡問題.
目標總體遠場模式的計算,可以由第二層遠場模式通過分層逐次聚集與單層直接聚集兩種方式來實現(xiàn)(圖1中2D結構樹). 而對于電大輻射問題高層的遠場模式數(shù)較多,單層聚集在構造插值系數(shù)與平移系數(shù)及聚集過程中節(jié)省大量的計算資源,主要考察其與分層聚集的計算精度. 通過以sph-0242與sph-10(金屬球半徑電長度分別為2.42,10.00)的散射問題為例,比較兩種方案相對于電流直接積分法和解析所得的RCS結果,這兩種方案相對于解析解的相對誤差基本<5%,而誤差較大的方向均由于RCS接近于0 dB,并且直接聚集和電流積分的誤差相差不大,而對于其他數(shù)值算例以及電大目標的散射計算也驗證單層直接聚集方案可以保證計算精度要求,故選取該方案,并在此基礎上討論并行方案的選取與實現(xiàn).
2.1 基于多極子快速求解增益的MPI并行方案
基于并行MLFMA采用的是高層平均分配平面波,低層平均分配盒子的混合MPI并行方案,由過渡層(iTrsLev)與第2層關系決定高層聚集過程的MPI并行方案. 當iTrsLev<2,高層按盒子并行,除了進程間盒子相互依賴關系外,其插值和平移過程與原盒子并行類似,每層的全部遠場模式方向數(shù)同樣作用于所有進程;當iTrsLev≥2,高層按平面波并行,針對大部分目標尤其是電大目標,其高層遠場模式數(shù)量較多均為平面波并行,且這些層盒子尺寸大數(shù)量少,當以盒子并行時隨著線程數(shù)增加其效率下降. 并行MLFMA的層間插值系數(shù)存儲方式,按盒子并行時以父層平面波作為負載,其關于子層平面波的插值系數(shù)共享,采用按所有父層平面波即按行存儲方式;按平面波并行則以該進程父層平面波作為負載,分別保存其關于所有對其有貢獻的所有子層平面波的插值系數(shù),采用按這些子層平面波即按列存儲方式,以此方案來節(jié)省計算資源. 而高層結構樹的特殊性(父層即第0層只有一個盒子,子層即第2層所有盒子均是其子盒子)使得在采用相應并行方案的同時,需要對其聚集過程中計算資源進行估計并改進算法,包括構造相應插值以及平移矩陣的內(nèi)存及時間,以及聚集過程中循環(huán)次序的調(diào)整,以實現(xiàn)線程并行的負載均衡及并行效率的提高.
按盒子并行方案的插值系數(shù)依舊采用原始按行插值形式,其總平面波方向數(shù)較少,聚集后采用歸約操作(MPI_Reduce)對完整的遠場再進行數(shù)據(jù)后處理部分;按平面波并行方案是本文重點,由于高層結構樹的特殊性以及此時父層遠場模式數(shù)較多,需要改進其并行聚集方案,其中對于插值系數(shù)矩陣、聚集過程以及數(shù)據(jù)通信部分的并行實現(xiàn)進行探討及驗證.
其中分塊插值系數(shù)矩陣均為稀疏矩陣,改進型按行插值與按列插值的并行插值系數(shù)矩陣選取及存儲方案如圖2(a)所示,改進的按行方案先以父層所有平面波進行搜索,若對其插值有貢獻的子層平面波(數(shù)目≤16)有在本地的則進行保存,否則將不保存,則本進程所有被貢獻的父層平面波都將被保存,其中包含與之左右相鄰進程的部分平面波,以這些局部父層平面波為一維索引,得到對應的子層平面波與插值系數(shù),相對于原按行方案,于父層平面波的局部性以節(jié)省內(nèi)存需求;圖2(b)所示,改進的按列方案為減少通信開銷,以本地子層平面波為貢獻項,即以本進程子層平面波為一維索引,得到其所有有貢獻的父層平面波與插值系數(shù). 相對于改進型的插值方案,平移過程均以父層局部平面波作為整體負載,按子層全部盒子進行循環(huán),平移之后按盒子貢獻疊加得到局部平面波. 從本質來看,兩種插值方式的信息一致,子層都無需進行通信,父層均得到局部平面波信息,不過其相對應的聚集過程中插值方案選取將直接影響并行計算資源,于線程并行中詳細討論.
對于電特大輻射問題,遠場模式聚集方法的零層方向由截斷系數(shù)決定,該方向數(shù)很大,區(qū)別于散射問題對于遠場信息的歸約處理,為實現(xiàn)節(jié)省計算資源,需要對聚集得到的局部平面波進行通信(MPI_Sendrecv)得到按進程并行的平面波信息,即將局部平面波不屬于本進程的部分平面波發(fā)送給對應進程,該進程對應疊加接收到的平面波來進行處理. 最終將各進程的遠場模式通過數(shù)據(jù)收集(MPI_Gatherv)操作將主極化和交叉極化的場值均集中于主進程(0號進程),此時得到整個三維空間的全向遠場,通過天線增益計算公式即可得增益.
2.2 基于多極子快速求解增益的OpenMP加速技術
高層聚集應用基于共享內(nèi)存的指導性調(diào)度線程并行OpenMP來加快計算,為了充分實現(xiàn)其最佳并行效率,需先確定計算密集區(qū),并保證達到負載均衡的任務量來實現(xiàn)線程同步. 高層聚集包括插值系數(shù)矩陣填充、方向向量填充、平面波聚集、遠場模式數(shù)據(jù)處理這四部分,其中平面波聚集最耗時,在數(shù)據(jù)后處理總時間中占60%多,且其遠場方向數(shù)足夠大可保證并行的任務量,因此對按行與按列兩種聚集方案的OpenMP并行實現(xiàn)均進行分析和討論.
按行插值聚集中,單線程方案中以子層盒子作為循環(huán)對象,插值系數(shù)以父層平面波作為一維索引,插值過程以父層局部平面波作為整體進行. 線程并行化的實現(xiàn),首先需要確定負載任務的并行分配:由于父層為單盒子,子層盒子間為獨立計算,子層盒子數(shù)(3D最大為64)數(shù)目有限,而且根據(jù)插值系數(shù)的特征,父層平面波可作為獨立計算負載,此時需要調(diào)整循環(huán)次序,以父層局部平面波為一階循環(huán)來進行負載匹配,子層盒子為二階循環(huán),再應用已獨立保存的平面波方向和盒子位置信息來進行平移操作. 因此應用按行插值聚集方案通過循環(huán)次序的調(diào)整不僅可按最大任務量實現(xiàn)最佳并行,而且減少了平移的計算時間.
按列插值聚集中,區(qū)別在于其插值系數(shù)的一維索引是子層平面波,故無法通過循環(huán)次序的變換將父層平面波負載作為線程匹配對象,因此考慮到線程并行共享內(nèi)存的模式與子層盒子的獨立性,只能仍以子層盒子數(shù)作為并行的循環(huán)對象,且需要對將寫入的父層局部平面波分配與線程數(shù)一致的內(nèi)存空間,獨立存儲,聚集完成后再以各線程結果求和來實現(xiàn)子層貢獻的疊加,該方案由于并行對象有限以及求和計算增加,并行效率明顯隨著線程數(shù)增加而下降,且對內(nèi)存的要求增大.
由于父層平面波數(shù)目較大,為了節(jié)省內(nèi)存,采用了原遠相互作用中的內(nèi)存循環(huán)技術,若結構體中遠場模式除目前子層平面波后內(nèi)存足夠則無需另開內(nèi)存,而按列插值聚集并行過程中該內(nèi)存需求與線程數(shù)成正比,無法保證在提高并行計算效率的同時不提高內(nèi)存的消耗. 因此基于并行效率和內(nèi)存需求的多方面分析,最優(yōu)的并行方案為結合MPI-OpenMP并行技術的改進型按行插值聚集方案.
計算飛機散射問題來測試其遠場計算的線程并行效率,電尺寸為240λ,未知數(shù)為450萬,根據(jù)節(jié)點資源,線程數(shù)從2~12變化,其高層按平面波并行時線程并行效率如圖3,當線程到達12時,并行效率仍高于83%,該并行策略較成功實現(xiàn)了并行加速.
計算反射面天線FAST-300(反射面光滑,口徑為300 m)的輻射特性,與電流直接積分法計算結果比較來驗證本文并行算法的精度和效率. 該反射面天線于焦點以天文臺提供的階梯喇叭作為饋源,分析頻率為300 MHz,天線電尺寸為300λ,結構樹層數(shù)為10層,平均剖分尺寸為0.13λ,總未知數(shù)為1 737萬,用64個進程6個線程并行計算,E-plane遠場方向圖結果如圖4,計算增益為58.19 dBi,與電流直接積分法和商業(yè)軟件FEKO(PO法)所得的58.28 dBi和58.22 dBi相比,其誤差均小于1‰,輻射特性結果吻合較好.
其中兩種方法所需的計算資源如表1,快速的遠場聚集方案在遠場計算中應用了遠場模式的內(nèi)存循環(huán)技術,不過保存高層插值與平移系數(shù)需要額外的內(nèi)存,其中電流直接積分法為保證最大輻射方向的精度,仍計算兩次遠場信息,表中統(tǒng)計一次計算時間,方向選取(θ,φ)步進為1°,快速遠場計算中方向以高斯取點決定,其平均遠場計算時間提高約為1.6萬倍,總時間亦如預期提高,因此若計算結構更復雜或精度要求更高的輻射問題時,同等計算任務量下該算法更具優(yōu)勢.
表1 FAST-300天線計算資源
為實現(xiàn)應用并行MLFMA高效準確地計算電特大輻射問題,采用了快速的多極子遠場聚集求解方案. 基于并行結構樹的高層特殊性,對于高層不同聚集方案的資源需求進行分析,并通過算例驗證,確定以改進型按行插值的單層直接聚集作為最優(yōu)方案,為進一步提高計算效率,于計算密集區(qū)通過循環(huán)次序調(diào)整結合線程并行,并應用了內(nèi)存循環(huán)技術來節(jié)省額外內(nèi)存.
通過計算理想金屬目標的散射問題,驗證其遠場聚集的線程并行效率,在線程數(shù)為12時依然高達83%的并行效率;以電特大反射面天線FAST的計算,驗證了其對于多方向遠場需求計算的高效性,與電流直接積分法相比,輻射特性精度和效率均得到顯著提高,數(shù)據(jù)后處理部分將同等計算任務量條件下,效率提高近萬倍.
[1] Song J M,Chew W C. Multilevel fast-multipole algorithm for solving combined field integral equations of electromagnetic scattering [J].Microwave and Optical Technology Letter,1995,10(1):14-19.
[2] 潘小敏,盛新慶.一種多層快速多極子的高效并行方案[J].電子學報,2007,35(3):567-571.
Pan Xiaomin,Sheng Xinqing. A highly efficient parallel approach of multi-level fast multipole algorithm[J]. Acta Electronica Sinica,2007,35(3):567-571. (in Chinese)
[3] 潘小敏,盛新慶. 一種高性能并行多層快速多極子算法[J].電子學報,2010,38(3):580-584.
Pan Xiaomin,Sheng Xinqing. A high-performance parallel multi-level fast multipole algorithm[J]. Acta Electronica Sinica,2010,38(3):580-584. (in Chinese)
[4] 潘小敏,皮維超,盛新慶.基于共享內(nèi)存的高效OpenMP并行多層快速多極子算法[J].北京理工大學學報,2012,32(2):164-169.
Pan Xiaomin,Pi Weichao,Sheng Xinqing. Efficient parallelization of multi-level fast multipole algorithm based on OpenMP[J]. Transactions of Beijing Institute of Technology,2012,32(2):164-169. (in Chinese)
[5] Pan Xiaomin,Pi Weichao,Yang Minglin,et al. Solving problems with over one billion unknowns by the MLFMA[J]. IEEE Transactions on Antennas and Propagation,2012,60(5):2571-2574.
[6] 段猛,李斌,盛新慶,等.基于并行多層快速多極子的大射電天文望遠鏡FAST的計算[C]∥2011年全國天線年會.南京:[s.n.],2011:666-669.
Duan Meng,Li Bin,Sheng Xinqing,et al. The computation of large spherical radio telescope FAST antenna based on the parallel MLFMA[C]∥Proceedings of The 2011 National Conference on Antennas. Nanjing: [s.n.], 2011:666-669. (in Chinese)
[7] Velamparambil S,Chew W C,Song J. 10 million unknowns: is it that big?[J]. IEEE Antennas and Propagation Magazine,2003,45(2):43-58.
(責任編輯:劉芳)
Efficient Solution for Extremely Electric Large Antenna Gain
SUN Xu-min,PAN Xiao-min,SHENG Xin-qing
(Center for Electromagnetic Simulation,School of Information and Electronics,Beijing Institute of Technology,Beijing 100081,China)
An efficient parallel algorithm to accelerate the calculation of the far-fields was proposed and implemented for solving the electric large antenna radiation problem,based on the upward pass or the aggregation phase of the parallel multilevel fast multipole algorithm(MLFMA). According to the geometry tree structure of the parallel MLFMA,an efficient hybrid MPI-OpenMP parallelization algorithm was designed with the direct aggregation of coarser level far-field radiation pattern and parallel in-row interpolation. The computation of far-field radiation pattern and antenna gain of the extremely large parabolic reflector of FAST by this algorithm shows the accuracy and efficiency of the parallel program,compared with the computation by the equivalent current direct integration method. The numerical results demonstrate that the presented approach has good accuracy for the radiation characteristics,and the computational efficiency has improved about ten thousand times for single direction under same far-field calculation task compared to the equivalent current direct integration method.
parallel multi-level fast multi-pole algorithm (parallel MLFMA);MPI parallel;OpenMP parallel;extremely electric large;gain
2014-03-17
國家“九七三”計劃項目(2012CB720702)
孫旭敏(1989—),女,博士生,E-mail: sunxm1989@foxmail.com.
盛新慶(1968—),男,教授,博士生導師,E-mail: xsheng@bit.edu.cn.
O 441.4
A
1001-0645(2016)07-0718-05
10.15918/j.tbit1001-0645.2016.07.011