周 創(chuàng),居興國,李子昂,劉小民
(1.中國石油化工股份有限公司石油物探技術(shù)研究院,江蘇南京211103;2.中國科學(xué)技術(shù)大學(xué)地球和空間科學(xué)學(xué)院,安徽合肥230026)
在地震勘探及地震學(xué)領(lǐng)域,初至層析反演是近地表速度建模的常用手段,現(xiàn)已在區(qū)域和全球地震學(xué)[1-4]、油氣勘探[5-7]、淺表地球物理勘探[8-9]等領(lǐng)域得到了廣泛應(yīng)用。初至波旅行時拾取的精度直接影響了層析反演的效果。地表條件復(fù)雜的情況下,地震資料信噪比低,初至變化大,干擾嚴(yán)重,難以使用常用的商業(yè)軟件或方法進行自動拾取,海量的初至需要人工拾取,因此使得處理效率大大降低。
經(jīng)過40多年的研究,眾多學(xué)者提出了多種初至拾取方法。但對于近地表條件復(fù)雜的西南山區(qū)低信噪比地震數(shù)據(jù),目前還沒有一種方法能取得良好的效果。1972年P(guān)ERALDI等[10]提出了相關(guān)法拾取初至,其精度受限于子波的選取。1985年COPPENS[11]提出了滑動時窗的能量比法拾取初至,該方法能很好避開續(xù)至波的干擾,但是容易誤判初至前的強干擾,且時窗長度的選取會隨工區(qū)條件發(fā)生變化。徐鈺等[12]在此基礎(chǔ)上提出了多時窗能量比法,考慮能量比的次極值,利用相位域起跳點及奇異值檢測技術(shù)來質(zhì)控,提高了拾取精度。許銀坡等[13]先用能量比法確定初至波大致位置并評價其可信度,然后再拾取可信度高的初至,該方法降低了人工標(biāo)注的時間,但對于地形復(fù)雜下的初至拾取效果改善不大。BP神經(jīng)網(wǎng)絡(luò)算法考慮了相鄰道之間的關(guān)系,易于實現(xiàn),王金峰等[14]提出改進的BP神經(jīng)網(wǎng)絡(luò)算法來拾取初至,取得較好效果,但該方法需要人工提取特征,且隨著地形變化及數(shù)據(jù)量不斷增加,人工經(jīng)驗提取特征局限性越來越大,因而該方法的應(yīng)用效果有限。曾富英等[15]根據(jù)分形原理,用時窗的變化來反映地震道曲線的局部形態(tài)特征,提出了一種初至拾取方法,精度較高,但拾取效果取決于小圓半徑的選取。李輝峰等[16]使用數(shù)字圖像處理技術(shù)拾取初至,取得較好效果,但初至與背景噪聲邊界模糊時效果不佳。
深度學(xué)習(xí)[17]作為機器學(xué)習(xí)的一個分支,在地震勘探領(lǐng)域得到了廣泛應(yīng)用,例如基于地震圖像先驗?zāi)P蜆?gòu)建的全波形反演[18]、基于卷積神經(jīng)網(wǎng)絡(luò)的地震數(shù)據(jù)去噪[19]、基于卷積神經(jīng)網(wǎng)絡(luò)的速度拾取[20]及深度學(xué)習(xí)層析成像[21]等方法。在初至拾取方面,劉佳楠等[22]利用全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[23]自動拾取地震初至,在高噪聲地震數(shù)據(jù)處理中取得了較好的結(jié)果,但依賴大量數(shù)據(jù)且收斂速度慢。蔡振宇等[24]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對汶川地震余震P波進行自動拾取,當(dāng)信噪比較低時仍能準(zhǔn)確拾取初至,但該方法只是針對天然地震數(shù)據(jù),未進一步測試勘探地震數(shù)據(jù)。生成對抗網(wǎng)絡(luò)(GAN)是一種通過對抗網(wǎng)絡(luò)來估計生成模型的新的深度學(xué)習(xí)框架[25],在此基礎(chǔ)上加入卷積神經(jīng)網(wǎng)絡(luò),結(jié)合二者優(yōu)點,發(fā)展成為深度卷積生成對抗網(wǎng)絡(luò)(DCGAN)[26],具有分辨率更高、生成樣本特征更明顯等特點。
本文構(gòu)建了一種適用于地震數(shù)據(jù)初至拾取的DCGAN,并將之用于地震數(shù)據(jù)初至拾取。在對地震數(shù)據(jù)進行能量均衡等預(yù)處理后,選取初至?xí)r刻后含波峰的半波長數(shù)據(jù)作為初至特征加入訓(xùn)練。首先初始化DCGAN,然后分別將預(yù)處理后的地震數(shù)據(jù)與初至數(shù)據(jù)用于生成器與判別器的訓(xùn)練,直到得到網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)參數(shù)。初至拾取的過程為:將地震數(shù)據(jù)輸入訓(xùn)練完成的網(wǎng)絡(luò),在生成器中生成一個初至數(shù)據(jù),再對其每道求取峰值時間,即為每道的初至?xí)r間。最后,用山地地震數(shù)據(jù)進行初至拾取實驗,并與現(xiàn)有初至拾取方法(如長短時窗比(STA/LTA)法和峰度赤池信息量準(zhǔn)則(AIC)法)進行對比,驗證了本文方法的可行性和有效性。
GAN的基本思想源自于博弈論中的納什均衡理論,可以將GAN網(wǎng)絡(luò)中的生成網(wǎng)絡(luò)模型(Generator,即生成器)和判別網(wǎng)絡(luò)模型(Discriminator,即判別器)看作是參與博弈游戲的雙方。生成器學(xué)習(xí)真實數(shù)據(jù)分布特征,以生成與真實數(shù)據(jù)相似的生成數(shù)據(jù),其最終目的是使生成數(shù)據(jù)能欺騙判別器;而判別器的最終目的是通過學(xué)習(xí)能正確判斷輸入數(shù)據(jù)是真實數(shù)據(jù)還是生成數(shù)據(jù);雙方為取得勝利,必須不斷學(xué)習(xí)優(yōu)化,提高自身的生成能力和判別能力,最終達到二者之間的納什均衡。
在地震初至拾取中,生成器和判別器可分別表示為G和D,其輸入數(shù)據(jù)分別為地震數(shù)據(jù)z及真實初至x。對于判別器D,當(dāng)生成器G固定時,訓(xùn)練的目標(biāo)函數(shù)可表示為:
(1)
式中:θD和θG分別表示判別器和生成器的待優(yōu)化參數(shù);Pdata(x)為真實初至分布;Pz(z)為地震數(shù)據(jù)分布;x~Pdata(x)為服從真實初至分布下的采樣;z~Pz(z)為服從地震數(shù)據(jù)分布下的采樣;Ex~Pdata(x)(·)表示在x~Pdata(x)條件下計算期望值;Ez~Pz(z)(·)表示在z~Pz(z)條件下計算期望值;D(x)表示x為真實初至的概率;G(z)表示輸入為z時的生成器生成數(shù)據(jù)。在實際訓(xùn)練時,判別器的訓(xùn)練數(shù)據(jù)集來源于兩部分:真實初至集Pdata(x)(標(biāo)注為1)和生成器的數(shù)據(jù)集PG(x)(標(biāo)注為0)。
當(dāng)輸入數(shù)據(jù)來自真實初至集x時,D的目標(biāo)是使輸出的D(x)趨近1,反之當(dāng)輸入數(shù)據(jù)來自生成數(shù)據(jù)集G(z)時,D的目標(biāo)是使輸出的D(G(z))趨近0,與此同時G的目標(biāo)是使之趨近1。因此,生成對抗網(wǎng)絡(luò)訓(xùn)練的過程是一個極小-極大化問題,其目標(biāo)函數(shù)可以描述為:
Ez~Pz(z){log[1-D(G(z))]}
(2)
總而言之,生成對抗網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的過程,不僅要訓(xùn)練判別器D來最大化判別數(shù)據(jù)來源的準(zhǔn)確率,同時也要訓(xùn)練生成器G來最小化log[1-D(G(z))]。求解目標(biāo)函數(shù)(2)可以采用交替優(yōu)化的方法:先固定G,優(yōu)化D,使D的判別準(zhǔn)確率最大;然后固定D,優(yōu)化G,使D的判別準(zhǔn)確率最小;最后的結(jié)果是當(dāng)且僅當(dāng)Pdata=PG時達到全局最優(yōu)解。在訓(xùn)練的同一輪參數(shù)更新中,一般對D的參數(shù)更新多次后再對G的參數(shù)更新一次。
DCGAN首次將卷積網(wǎng)絡(luò)引入到GAN,利用卷積層強大的特征提取能力來提高GAN的效果。為提高收斂速度和樣本質(zhì)量,DCGAN對G和D的卷積神經(jīng)網(wǎng)絡(luò)做如下改變:
1) 取消池化層,G中使用反卷積進行上采樣,D中用步幅卷積層(strided convolutions)替代池化層;
2) G和D中數(shù)據(jù)均進行批量歸一化處理,解決初始化差的問題;
3) G中移除全連接層,變?yōu)槿矸e網(wǎng)絡(luò)(FCN);
4) G網(wǎng)絡(luò)中激活函數(shù)用ReLU函數(shù),最后一層用Tanh函數(shù);
5) D網(wǎng)絡(luò)中所有層激活函數(shù)用LeakyReLU函數(shù)。
圖1為一個典型DCGAN生成器結(jié)構(gòu)圖,主要由4個卷積層構(gòu)成。將一個維度為100的向量z重塑后作為輸入,不斷進行反卷積,每個卷積層都是一個步長為2的轉(zhuǎn)置卷積運算,輸出數(shù)據(jù)的維度是輸入層的兩倍,最后輸出一個64×64×3的數(shù)據(jù)。
圖1 典型的DCGAN生成器結(jié)構(gòu)
對于炮集記錄,初至只是時間信息,轉(zhuǎn)化成數(shù)據(jù)信息比較單一,因此本文將初至?xí)r刻后包含波峰的第一個半波長數(shù)據(jù)作為初至數(shù)據(jù),并從參與訓(xùn)練的地震數(shù)據(jù)中提取出來,作為真實初至數(shù)據(jù)。
由于不同道間、炮間的地震數(shù)據(jù)能量差別很大,有時會相差幾個量級,這時如果直接參與訓(xùn)練會使訓(xùn)練過程不穩(wěn)定或不收斂。因此本文首先對每個炮集記錄做道間均衡處理:
(3)
(4)
本文提出的用于初至拾取的DCGAN結(jié)構(gòu)如圖2 所示。訓(xùn)練網(wǎng)絡(luò)分為生成器和判別器兩部分,生成器由多個卷積層(conv)構(gòu)成,每層卷積核大小均為3×3;判別器由多個卷積層和最后一個全連接層(FC)構(gòu)成,每層卷積核大小也是3×3。在生成器中,除最后一層外,每個卷積層的卷積核個數(shù)設(shè)置為64個,即做完卷積操作后得到64個特征映射;判別器中,每個卷積層的卷積核個數(shù)設(shè)置為128個,即做完卷積后得到128個特征映射。本文輸入的地震數(shù)據(jù)可看作一個250×90×1的向量,在生成器中經(jīng)過第一個卷積層后生成一個250×90×64的向量,此后經(jīng)每個卷積層都輸出一個250×90×64的向量,經(jīng)過最后一層卷積層輸出為250×90×1的向量。判別器的輸入為代表真實初至的250×90×1向量,經(jīng)每層卷積層都輸出一個250×90×128的向量,最后經(jīng)全連接層輸出一個0~1的實數(shù)。
圖2 用于初至拾取的DCGAN結(jié)構(gòu)示意
網(wǎng)絡(luò)的訓(xùn)練過程為:將地震數(shù)據(jù)輸入到生成器,經(jīng)過一系列卷積層的卷積操作,最后生成一個初至數(shù)據(jù),再與所對應(yīng)地震數(shù)據(jù)的真實初至同時作為輸入進行判別器訓(xùn)練,判別器將兩個初至的相似程度反饋給生成器,就實現(xiàn)了生成器與判別器的相互迭代優(yōu)化。
針對地震數(shù)據(jù)的特殊屬性,本文DCGAN具有如下特點。
1) 數(shù)據(jù)體優(yōu)化:在卷積層進行卷積操作前對輸入的特征數(shù)據(jù)進行擴展邊界處理,補零值至與輸入數(shù)據(jù)相同大小,保證了輸出數(shù)據(jù)大小與輸入數(shù)據(jù)一致。
2) 優(yōu)化算法:生成器與判別器中除最后一層外均使用批量歸一化(Batch Normalization)優(yōu)化算法以及丟棄正則化層(dropout)。批量歸一化優(yōu)化算法可以歸一化每一層的輸入,使它們的均值為0、方差為1,使數(shù)據(jù)更集中而不用擔(dān)心數(shù)據(jù)太小或者太大,有助于處理初始化不良導(dǎo)致的訓(xùn)練問題,提升網(wǎng)絡(luò)的穩(wěn)定性;丟棄正則化層可以在每個卷積層輸出后隨機丟棄一些特征,避免整個網(wǎng)絡(luò)偏向某一特征,一定程度上避免了過擬合問題。
3) 卷積層數(shù):生成器與判別器均由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,卷積層數(shù)直接影響到整個網(wǎng)絡(luò)的性能。卷積層數(shù)較少時,提取到的樣本特征比較簡單,可能導(dǎo)致網(wǎng)絡(luò)訓(xùn)練不完全,網(wǎng)絡(luò)模型精度低。卷積層數(shù)的增加使得網(wǎng)絡(luò)能提取到更深層的特征、網(wǎng)絡(luò)模型精度更高,但增加到一定程度后,隨著層數(shù)的增加可能產(chǎn)生過擬合問題,即網(wǎng)絡(luò)模型在訓(xùn)練集上表現(xiàn)很好,但是在測試集中表現(xiàn)不好。因此本文通過改變生成器和判別器的卷積層數(shù)來進行測試,選取最優(yōu)網(wǎng)絡(luò)。
本文選用西南某探區(qū)的山地地震資料進行測試,選取300炮地震數(shù)據(jù)作為樣本訓(xùn)練DCGAN,其中每炮選取90道,每道250個采樣點(采樣間隔為4ms,總時長為1000ms)。
首先對全部地震樣本數(shù)據(jù)進行預(yù)處理,圖3對比了其中某單炮樣本數(shù)據(jù)預(yù)處理前后的結(jié)果。從圖3a可以看出,原始地震單炮能量不均衡,近道能量是遠道能量的幾十甚至上百倍,此時如果直接用于訓(xùn)練會使整個訓(xùn)練過程無法收斂甚至崩潰,因此須做能量均衡和歸一化處理。圖3b為預(yù)處理后的單炮樣本數(shù)據(jù)。圖3c為選取人工拾取初至后的半波長數(shù)據(jù),作為真實初至參與判別器訓(xùn)練。
圖3 地震樣本數(shù)據(jù)預(yù)處理
在深度學(xué)習(xí)中,不同的網(wǎng)絡(luò)結(jié)構(gòu)會影響網(wǎng)絡(luò)的性能和精度,最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)問題是深度學(xué)習(xí)領(lǐng)域的一個研究熱點,到目前為止仍沒有一個確切的方法來選擇一個最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。為確定生成器與判別器的最佳卷積層數(shù),本文參考前人對深度學(xué)習(xí)參數(shù)選取的研究[27-29]以及生成對抗網(wǎng)絡(luò)在圖像處理中的成功經(jīng)驗[30-31],使用5種不同方案的網(wǎng)絡(luò)結(jié)構(gòu)來訓(xùn)練DCGAN,如表1所示,每種方案均經(jīng)過100歷元(epoch),1個epoch等于使用訓(xùn)練集中的全部樣本訓(xùn)練一次。另外隨機選取工區(qū)內(nèi)的某一炮地震數(shù)據(jù)作為試驗炮進行效果測試,如圖4所示。對試驗炮先進行人工初至拾取以及預(yù)處理,為比較拾取效果,取人工拾取初至?xí)r刻后的半波長數(shù)據(jù)作為真實初至數(shù)據(jù)。
圖4 地震試驗數(shù)據(jù)預(yù)處理
分別用表1中5種不同方案訓(xùn)練的DCGAN進行初至拾取,結(jié)果如圖5所示。由圖5可以看出,在網(wǎng)絡(luò)卷積層數(shù)不夠時(方案一、方案二),由于訓(xùn)練不完全,更深層特征沒有得到訓(xùn)練,因此拾取結(jié)果很模糊,初至特征不明顯,很難辨認(rèn)初至波;而在網(wǎng)絡(luò)卷積層數(shù)過多時(方案四、方案五),可能產(chǎn)生過擬合問題,最終導(dǎo)致拾取結(jié)果不理想。最終測試結(jié)果表明只有當(dāng)生成器與判別器卷積層數(shù)都選取合適時,才能得到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu),使初至特征得到體現(xiàn),達到最佳拾取初至的效果。
圖5 不同網(wǎng)絡(luò)結(jié)構(gòu)初至拾取結(jié)果
表1 DCGAN參數(shù)
經(jīng)過本文方法得到的初至數(shù)據(jù)是初至?xí)r間后包含波峰的半波長數(shù)據(jù),因此還需對拾取結(jié)果的每一道計算峰值,得到真實初至波峰時刻的時間值,5種不同方案拾取的初至?xí)r間結(jié)果如圖6所示。
圖6 不同方案結(jié)果與真實初至對比
為了直觀顯示每種方案初至(波峰)拾取的最終結(jié)果,對每一道定義誤差E=TG-TR,其中TG為本文方法拾取的初至,TR為人工拾取的初至,可認(rèn)為是真實初至。計算5種不同方案在每道上拾取的誤差,結(jié)果如圖7 所示,可以看出,方案三拾取效果最佳,結(jié)果最接近真實初至,只有少量幾道存在誤差,且都在4個采樣點以內(nèi),因此可認(rèn)為方案三拾取結(jié)果能達到實際生產(chǎn)需要。
圖7 不同方案的拾取誤差
圖8 不同方案平均誤差隨迭代次數(shù)變化的曲線
長短時窗比(STA/LTA)法和峰度赤池信息量準(zhǔn)則(AIC)法都是目前比較常用的初至拾取方法,為有效說明本文方法的拾取效果,分別用STA/LTA法和AIC法拾取初至,將拾取結(jié)果與本文方法的拾取結(jié)果進行對比,人工拾取初至視為真實初至,最終結(jié)果如圖9所示。
圖9 本文方法與常用方法拾取結(jié)果對比
由圖9可看出,STA/LTA法和AIC法在含噪聲的55~65道附近拾取效果不佳,而本文方法拾取精度較高,在圖中可以看出誤差只在1~2個采樣點。對于近道和初至?xí)r間變化較大的相鄰道,STA/LTA法和AIC法的拾取結(jié)果也不如本文方法的拾取結(jié)果,因此可認(rèn)為本文方法在拾取精度方面優(yōu)于STA/LTA法和AIC法,能滿足生產(chǎn)需要。
深度學(xué)習(xí)技術(shù)在地震勘探領(lǐng)域的應(yīng)用研究處于起步階段,雖然在地震數(shù)據(jù)去噪、斷層識別、儲層預(yù)測等方面已經(jīng)有一些研究,但還沒有在圖像處理或語音識別等領(lǐng)域的應(yīng)用那么成功。深度卷積生成對抗網(wǎng)絡(luò)是近年來提出的深度學(xué)習(xí)方法,在圖像處理領(lǐng)域的應(yīng)用已經(jīng)取得巨大成功,本文將該方法引入到地震勘探領(lǐng)域,作為一種新的地震數(shù)據(jù)初至拾取方法進行了探索性研究。
地震初至拾取算法的關(guān)鍵在于構(gòu)建一個適合的DCGAN,該網(wǎng)絡(luò)分為生成器和判別器兩部分,且都由卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。卷積層中分別加入ReLU、Tanh、LeakyReLU等激活函數(shù),使用批量歸一化優(yōu)化算法,再加上丟棄正則化層防止過擬合,使DCGAN訓(xùn)練在保證較高分辨率和精度的情況下,保留更多原始數(shù)據(jù)細節(jié),從而使得訓(xùn)練過程更穩(wěn)定。初至拾取實驗表明:在選取最優(yōu)DCGAN網(wǎng)絡(luò)的情況下,本文方法具有一定可行性,拾取的初至仍能保證較高的精度,與現(xiàn)有方法(如STA/LTA法、AIC法)相比,拾取結(jié)果較好,能滿足生產(chǎn)需要。
本文通過對不同網(wǎng)絡(luò)深度結(jié)構(gòu)進行測試,得到了一個最優(yōu)的DCGAN網(wǎng)絡(luò)模型。下一步工作是對更多參數(shù)進行測試,如每個卷積層的激活函數(shù)及卷積核個數(shù)、大小、步長等。另一方面,當(dāng)前得到的模型由同一個工區(qū)的部分?jǐn)?shù)據(jù)訓(xùn)練得到,面對更多類型的復(fù)雜數(shù)據(jù)可能很難取得效果,因此還需對更多類型地震數(shù)據(jù)進行訓(xùn)練,提高模型泛化能力。