包紅林,李 敏,張 萌
(中國石油化工股份有限公司石油物探技術研究院,江蘇南京211103)
波動方程逆時偏移成像主要由雙程波動方程延拓和波場成像兩步構成,先對震源波場采用雙程波方程正向外推,并保存外推波場數(shù)據(jù);然后對接收波場采用雙程波方程反向外推,并在外推過程中讀取記錄的震源外推波場快照,應用成像條件獲取成像值,所有時間步求和得到單炮成像數(shù)據(jù)體。隨著油氣勘探向深層目標體和精細勘探方向發(fā)展,野外勘探普遍采用高精度與高密度地震采集技術,地震數(shù)據(jù)規(guī)模不斷增大。對逆時偏移計算而言,地震數(shù)據(jù)規(guī)模增大,使得單炮數(shù)據(jù)成像空間規(guī)模增大,波場外推計算量與波場數(shù)據(jù)量增大。對大規(guī)模地震數(shù)據(jù)進行逆時偏移計算時,巨大的計算與存儲需求成為制約逆時偏移計算效率的主要因素[1-3]。
隨著GPU技術出現(xiàn),利用GPU強大并行計算能力進行逆時偏移波場有限差分延拓計算,節(jié)點內采用CPU/GPU異構協(xié)同平臺進行炮集逆時偏移計算[1-3],使用一定規(guī)模計算節(jié)點組成的集群進行多炮數(shù)據(jù)的并行計算,已成為大規(guī)模地震數(shù)據(jù)逆時偏移計算的標配模式,基本滿足了其對海量計算的需求。但逆時偏移的大數(shù)據(jù)量波場數(shù)據(jù)存儲需求一直沒有得到有效解決,嚴重影響了逆時偏移計算的效率提升。
逆時偏移集群計算節(jié)點,通常配置2個Intel多核CPU和2個GPU(硬件架構見圖1),每個CPU采用6個高速內存通道連接12個內存插槽,GPU采用PCIe3.0×16通道連接CPU,GPU0讀寫CPU0直連內存的速度可達12GB/s,構成1個高帶寬、低延遲互聯(lián)的CPU/GPU計算單元。理想條件下,每個計算節(jié)點可由2個CPU/GPU計算單元同時進行兩炮數(shù)據(jù)的偏移計算。計算節(jié)點使用DRAM內存,因DRAM內存的密度及功耗受制造工藝限制,內存條存在容量低、價格高與功耗大的問題,內存條容量多為16GB或32GB,計算節(jié)點的24個內存插槽最多可配置768GB內存,內存總價高,功耗也會變得更高,因此,集群計算節(jié)點一般最多配置為192GB或256GB內存,需配置大容量的SAS或SSD硬盤來滿足應用數(shù)據(jù)存儲需求。
圖1 計算節(jié)點硬件架構示意
單炮逆時偏移先進行震源波場正傳計算,需要存儲相關成像計算所需的震源波場數(shù)據(jù),數(shù)據(jù)存儲規(guī)模很大。以實際生產(chǎn)處理的某大規(guī)模地震數(shù)據(jù)為例,該地震數(shù)據(jù)共87838炮,成像范圍為2901(Nx)×2901(Ny)×1501(Nz)(Nx,Ny,Nz分別為x,y,z方向的成像網(wǎng)格點數(shù)),成像網(wǎng)格為20m×20m×10m,單炮7027道,成像計算網(wǎng)格數(shù)為563×487×1501,偏移最大外推時間為6s,采樣間隔為0.7ms,延拓總步數(shù)Nt為8285,每隔10步進行一次相關成像計算,因此震源波場數(shù)據(jù)需要存儲830步,每步波場數(shù)據(jù)存儲量約為1.533GB,單炮震源波場數(shù)據(jù)總存儲量約為1272.5GB。常用計算節(jié)點配置的256GB內存,難以滿足波場數(shù)據(jù)存儲需求,為此逆時偏移計算通常使用以計算換存儲的震源波場重構方法(或波場存儲策略)來降低波場數(shù)據(jù)存儲量。文獻[4]提出了基于邊界存儲和基于檢查點技術的有效邊界存儲策略,并測試對比了不同存儲策略的計算量與波場存儲量;文獻[5]對比了隨機邊界存儲、基于吸收邊界的全波場存儲、檢查點存儲、有效邊界存儲等4種存儲策略的計算成本與存儲量需求,討論分析了隨機邊界和有效邊界存儲策略的計算效率和成像精度;文獻[6]對比了隨機邊界法、有效邊界法和檢查點技術等波場重構方法的優(yōu)缺點,提出了基于優(yōu)化檢查點技術的波場插值重構方法。由此可知,在常用的波場重構方法中,隨機邊界存儲策略無需存儲波場數(shù)據(jù),但在淺層邊界處會產(chǎn)生較為明顯的噪聲干擾,檢查點與有效邊界存儲策略則需要通過本地硬盤存儲波場數(shù)據(jù)[4-6]。
本文以采用檢查點技術的TTI介質逆時偏移方法為例,此方法通過使用無損壓縮算法,進一步降低波場數(shù)據(jù)本地硬盤存儲量,其計算流程如圖2所示。主要步驟包括:①GPU震源波場正傳計算,CPU將檢查點震源波場數(shù)據(jù)壓縮后存儲到硬盤,從最后一個檢查點對應時間(Nc)開始至延拓計算最大時間,CPU將相關成像計算所需的震源波場數(shù)據(jù)存儲到內存;②GPU檢波點波場反傳計算,從延拓計算最大時間至最后一個檢查點對應時間(Nc),CPU從內存讀取其對應時間的震源波場數(shù)據(jù),傳送給GPU進行相關成像計算;③GPU檢波點反傳計算前,CPU先從硬盤讀取壓縮后的檢查點波場數(shù)據(jù)到內存解壓,并傳送給GPU進行震源波場重構計算,將重構震源波場中相關成像計算所需的震源波場數(shù)據(jù)存儲到內存;④GPU檢波點波場反傳計算,CPU從內存讀取對應時間的震源波場數(shù)據(jù),傳送給GPU進行相關成像計算。重復進行步驟③與步驟④,最終獲得整個成像結果。由此可見,采用檢查點技術進行波場重構,使得總的偏移計算量由2Nt增加到接近3Nt(Nt為總的計算時間步),計算量約增加1/2,增加波場重構計算是影響逆時偏移計算效率的一個主要因素。由于需要通過本地硬盤進行檢查點波場數(shù)據(jù)存取,以前面提到的大規(guī)模地震數(shù)據(jù)為例,單炮偏移計算時,因采用無損壓縮檢查點波場數(shù)據(jù)的方法,需本地硬盤存儲的所有檢查點波場數(shù)據(jù)中最大存儲量約為3.1GB,SSD磁盤寫入數(shù)據(jù)需要9s,讀取數(shù)據(jù)需要7s;SAS磁盤存儲讀或寫入數(shù)據(jù)需要22s,SAS磁盤讀寫時間約是SSD硬盤的3倍。通過采用GPU計算與CPU硬盤異步讀寫的優(yōu)化方法,可以部分隱藏硬盤讀寫時間。但是因本地硬盤低速讀寫性能引起的較長數(shù)據(jù)讀寫時間仍是影響逆時偏移計算效率的一個因素。
圖2 常規(guī)檢查點技術逆時偏移計算流程
隨著IT技術的發(fā)展,研究新計算機技術用于逆時偏移,使其更加高效地進行大規(guī)模地震數(shù)據(jù)處理,一直是逆時偏移應用發(fā)展的一個重要研究方向。本文從逆時偏移目前存在的震源波場數(shù)據(jù)存儲問題出發(fā),通過研究分析存儲技術發(fā)展和新產(chǎn)品應用,提出計算節(jié)點超大內存配置與波場數(shù)據(jù)內存存儲方案,提升逆時偏移的計算效率。
隨著大數(shù)據(jù)時代的來臨,處理數(shù)據(jù)量迅速增長,以Apache Spark為代表的大數(shù)據(jù)內存計算正被廣泛部署應用,內存計算是將處理數(shù)據(jù)全部存放在內存中進行實時計算與處理的高性能并行計算,擺脫低速磁盤性能限制,大幅提升數(shù)據(jù)吞吐量與讀寫速度,成為海量數(shù)據(jù)分析的利器[7-8]?;赟park內存計算框架的逆時偏移成像技術研究也已開展[9]。面對動態(tài)隨機存取存儲器(dynamic random access memory,DRAM)的存儲密度與功耗受制造工藝限制問題,近幾年一些新型非易失性隨機存儲(non-volatile memory,NVM)介質相繼推出,具有存儲密度大、靜態(tài)能耗低、價格低廉等特性,但因存在寫性能低及寫壽命有限等問題,目前難以全面取代DRAM,因此利用DRAM與NVM各自性能優(yōu)點的混合內存體系被廣泛關注。已有研究設計了線性統(tǒng)一編址混合內存、DRAM作為NVM緩存的混合內存、分層混合內存等3種混合內存硬件體系結構,并開展了體系結構、操作系統(tǒng)、編程模型等軟件方面的研發(fā),來實現(xiàn)大幅提升服務器的內存容量并降低成本,滿足內存計算快速增長的內存容量需求[7-8,10-11]。2015年推出了一種全新的非易失存儲技術3D Xpoint,采用多層次的三維交叉點陣列結構,相比DRAM存儲密度提高10倍,基于此技術的Intel Optane SSD硬盤能夠提供高達4GB/s的帶寬[10-11]。2018年推出了基于3D Xpoint技術的傲騰內存,其與DDR4內存插槽兼容,具有接近DDR4內存的讀寫速度和延遲,提供128,256,512GB 3種規(guī)格內存條;需要Intel第二代至強可擴展處理器支持,采用混合內存架構,DDR4內存用作三級高速緩存,傲騰內存用作主內存;1臺雙CPU服務器的24個內存插槽通常采用12個DDR4與12個傲騰內存條或12個DDR4與8個傲騰內存條配置模式,最高可配置6TB傲騰內存。傲騰內存技術為大內存計算及人工智能提供平臺基礎支撐,也為逆時偏移等大數(shù)據(jù)量存儲需求的地震數(shù)據(jù)處理方法研究及軟件研發(fā)提供了一個全新的內存存儲解決方案。
基于傲騰內存配置,我們設計了超大內存計算節(jié)點配置方案。計算節(jié)點配置2個支持傲騰內存的Intel第二代至強可擴展處理器?;谀鏁r偏移存儲需求分析及性價比考慮,選用128GB傲騰內存條及8GB DDR4內存條,采用12×128GB傲騰內存+12×8GB內存配置模式,共配置96GB DDR4內存+1536GB傲騰內存,可滿足逆時偏移內存存儲需求。節(jié)點安裝RedHat7.6及以上操作系統(tǒng),操作系統(tǒng)與應用程序無需修改就可運行。
基于超大內存計算節(jié)點,可根據(jù)震源波場數(shù)據(jù)大小,采用內存直接存取或內存無損壓縮存取的方法,實現(xiàn)逆時偏移波場數(shù)據(jù)內存存儲。以前面的大規(guī)模地震數(shù)據(jù)為例,單炮偏移計算時存儲的相關成像計算所需的震源波場數(shù)據(jù)量約為1272.5GB,無損壓縮后的存儲量約為626.8GB,此時單臺計算節(jié)點的內存可滿足兩炮同時偏移計算的波場數(shù)據(jù)存儲需求。針對單計算節(jié)點單炮偏移計算而言,如果延拓計算總步數(shù)為10000,每隔10步進行一次相關成像計算,那么需要存儲1000步的震源波場數(shù)據(jù)。以1536GB傲騰內存容量為例進行測算,可滿足不超過3110GB的震源波場數(shù)據(jù)無損壓縮后的存儲,每步震源波場的最大存儲量為3.11GB,由此推算出最大成像計算網(wǎng)格數(shù)可達913×913×1001或745×745×1501。在此情況下,單炮偏移計算采用計算節(jié)點內2個CPU/GPU計算單位協(xié)同計算的方法,以滿足其對GPU顯存及GPU計算性能的需求,并通過GPU計算與邊界數(shù)據(jù)交換異步執(zhí)行的優(yōu)化方法實現(xiàn)邊界數(shù)據(jù)交換時間的隱藏[1-3]。
采用震源波場數(shù)據(jù)內存存儲的逆時偏移計算流程見圖3。主要步驟包括:①GPU震源波場正傳計算,CPU將相關成像計算所需的震源波場數(shù)據(jù)直接或無損壓縮存放到內存中;②GPU檢波點波場反傳計算,CPU從內存直接或解壓讀取對應時間的震源波場數(shù)據(jù),傳送給GPU進行相關成像計算。重復進行步驟②,獲得最終成像結果。采用震源波場數(shù)據(jù)內存存儲的方法,將單炮偏移總計算量從3Nt降到最小計算量2Nt,計算效率提升1/3。由于操作系統(tǒng)將96GB DDR4內存用作三級緩存,CPU在DDR4內存中進行波場數(shù)據(jù)的讀寫及壓縮或解壓存儲,操作系統(tǒng)根據(jù)混合內存管理策略,在DDR4內存與傲騰內存間自動進行數(shù)據(jù)遷移,因此,CPU讀寫混合內存數(shù)據(jù)的速度與僅使用DDR4內存基本相當。利用DDR4內存高速存取特性,擺脫了低速硬盤讀寫性能瓶頸。以每步1.533GB波場數(shù)據(jù)為例,其內存讀寫時間僅需0.13s,這個讀寫時間可通過GPU計算與波場數(shù)據(jù)讀寫異步執(zhí)行的優(yōu)化方法完全隱藏掉。因此,采用震源波場數(shù)據(jù)內存存儲的逆時偏移計算方法,避免了常規(guī)檢查點技術逆時偏移計算方法存在的低速硬盤
圖3 超大內存逆時偏移計算流程
讀寫與震源波場重構計算等影響計算效率的問題,通過降低計算量與隱藏波場數(shù)據(jù)讀寫時間,大幅提升了偏移計算效率。
采用實際生產(chǎn)數(shù)據(jù)進行應用測試。從測試環(huán)境與測試數(shù)據(jù)選擇兩方面考慮測試方案。測試環(huán)境方面,現(xiàn)有100個節(jié)點的集群計算節(jié)點配置2個Intel 6132 CPU(第一代至強可擴展處理器)、256GB DDR4內存、2塊16GB顯存的V100 GPU,由于該型號CPU不支持傲騰內存,現(xiàn)有計算節(jié)點不能實施超大內存方案,為此采用1臺配置2個Intel 6226R CPU(第二代至強可擴展處理器)、1.5TB傲騰內存(12×16GB+12×128GB傲騰內存)、2塊V100S GPU的節(jié)點作為測試計算節(jié)點,設計了不同平臺的單節(jié)點對比測試方案。測試計算節(jié)點采用震源波場數(shù)據(jù)內存存儲逆時偏移計算方法,與現(xiàn)有計算節(jié)點采用檢查點技術逆時偏移計算方法對比,分析震源波場數(shù)據(jù)內存存儲的逆時偏移計算方法的應用成效。
選用了9864炮密度較低的常規(guī)地震數(shù)據(jù),成像范圍為561(Nx)×861(Ny)×1001(Nz),成像網(wǎng)格為25m×25m×10m。TTI介質包含速度、ε、δ、地層方位角和傾角等5個參數(shù)模型,每個參數(shù)模型數(shù)據(jù)量為2GB。偏移計算最大頻率為70Hz,單炮1677道,成像計算網(wǎng)格數(shù)為282×259×1001,延拓計算總步數(shù)為8368,每隔10步進行一次相關成像計算,因此需要存儲837步相關成像計算所需的震源波場數(shù)據(jù)。采用檢查點技術逆時偏移方法計算時設置了6個檢查點,波場數(shù)據(jù)內存存儲逆時偏移計算采用波場數(shù)據(jù)內存直接存取的方法。兩種偏移計算方法對比測試結果見表1,超大內存單炮偏移計算用時縮短了37s。
表1 不同平臺單計算節(jié)點常規(guī)地震數(shù)據(jù)單炮偏移計算測試結果
高密度地震數(shù)據(jù)選用前文所述大規(guī)模地震數(shù)據(jù),TTI介質的5個參數(shù)模型數(shù)據(jù)量均為47GB。因偏移計算最大頻率為90Hz,現(xiàn)有計算節(jié)點的V100 GPU顯存為16GB,節(jié)點需采用一炮2個GPU協(xié)同計算模式,并將單炮成像網(wǎng)格Nz方向的值由1501減至770,成像計算網(wǎng)格數(shù)變?yōu)?63×487×770,需要存儲830步相關成像計算所需的震源波場數(shù)據(jù)。采用檢查點技術逆時偏移方法計算時設置了3個檢查點,波場數(shù)據(jù)內存存儲逆時偏移計算采用波場數(shù)據(jù)內存壓縮存取的方法。兩種偏移計算方法對比測試結果見表2,超大內存單炮偏移計算用時縮短了217s。
表2 不同平臺單計算節(jié)點高密度地震數(shù)據(jù)單炮偏移計算測試結果
在測試計算節(jié)點上,選用前文所述大規(guī)模地震數(shù)據(jù),偏移計算最大頻率為70Hz,成像計算網(wǎng)格數(shù)為563×487×1501,延拓計算總步數(shù)為8285,需要存儲的相關成像計算所需震源波場數(shù)據(jù)步數(shù)為830。先后采用檢查點技術與波場數(shù)據(jù)內存存儲逆時偏移計算方法,進行相同平臺對比測試。采用檢查點技術逆時偏移方法計算時設置了6個檢查點,波場數(shù)據(jù)內存存儲逆時偏移計算采用波場數(shù)據(jù)內存壓縮存取的方法。兩種偏移計算方法的測試結果見表3,超大內存單炮偏移計算用時縮短了279s。
表3 相同平臺單節(jié)點高密度地震數(shù)據(jù)單炮偏移計算測試結果
對偏移計算實測結果進行分析,得到波場數(shù)據(jù)內存存儲逆時偏移計算效率見表4。高密度炮數(shù)據(jù)相同平臺測試結果顯示,波場數(shù)據(jù)內存存儲逆時偏移計算效率提升了46.1%,其中約33%的效率提升為去除重構波場計算的成效,剩余13%為高速內存數(shù)據(jù)存取的成效,說明波場數(shù)據(jù)內存存儲對計算效率提升顯著。不同平臺兩種數(shù)據(jù)對比測試結果顯示,波場數(shù)據(jù)內存存儲逆時偏移計算效率提升了57.8%(高密度數(shù)據(jù))~66.0%(常規(guī)數(shù)據(jù)),說明波場數(shù)據(jù)內存存儲逆時偏移計算方法對于不同密度炮數(shù)據(jù)計算效率提升存在差別,此差別主要是由于檢查點存儲策略在對不同密度炮數(shù)據(jù)偏移計算時,其本地硬盤波場數(shù)據(jù)讀寫時間隱藏優(yōu)化方法成效不同所致。
表4 波場數(shù)據(jù)內存存儲單炮逆時偏移計算效率
針對逆時偏移,利用傲騰內存構建計算節(jié)點超大內存,通過波場數(shù)據(jù)內存高速緩存,解決了大數(shù)據(jù)量波場數(shù)據(jù)存儲問題,實現(xiàn)了最小計算量的全波場數(shù)據(jù)內存存儲策略,大幅提升了大規(guī)模地震數(shù)據(jù)逆時偏移計算效率。實際生產(chǎn)數(shù)據(jù)測試結果表明,對于大規(guī)模地震數(shù)據(jù),節(jié)點配置超大內存,高密度地震數(shù)據(jù)單炮計算效率提升46.1%以上,顯著縮短了大規(guī)模地震數(shù)據(jù)逆時偏移計算時間,減少了計算能源消耗。該技術還可應用于其它大內存需求的地震數(shù)據(jù)處理,如角度域處理,因此具有很好的實用性和經(jīng)濟效益。
隨著面向人工智能應用的全新Ampere架構的A100 GPU推出,其單精度浮點FP32運算性能由V100S的16.4TFlops提升到19.5TFlops,性能提升幅度有限,但其單精度浮點TF32運算性能高達156TFlops,是V100S FP32運算性能的9.5倍,因此,將逆時偏移計算從使用現(xiàn)有的CUDA核遷移到新的Tensor Core,利用超高的TF32計算能力,實現(xiàn)偏移計算效率的飛躍,將成為偏移計算未來發(fā)展方向之一。隨著非易失性隨機存儲介質、DDR5內存及GPU Direct存儲等新技術不斷應用,構建多個高速數(shù)據(jù)傳輸通道高效協(xié)同的數(shù)據(jù)存儲與傳輸模式,滿足GPU超高計算能力對高速數(shù)據(jù)存取性能需求,也是偏移計算未來發(fā)展的一個方向。
致謝:感謝H3C和Intel公司在本研究中給予的產(chǎn)品與技術支持!