張翠軍, 胡家昕, 魏亞杰, 王振凱, 王承偉, 曹靜杰
河北地質(zhì)大學(xué) a. 圖書館, b. 人工智能與機(jī)器學(xué)習(xí)研究室, c. 信息工程學(xué)院, d. 京津冀城市群地下空間智能探測(cè)與裝備重點(diǎn)實(shí)驗(yàn)室, e. 河北省戰(zhàn)略性關(guān)鍵礦產(chǎn)資源重點(diǎn)實(shí)驗(yàn)室, 河北 石家莊 050031
傳統(tǒng)勘探采集過程中, 鄰炮間通常設(shè)置足夠大的時(shí)間間隔以規(guī)避反射信號(hào)對(duì)檢波器的交叉干擾, 導(dǎo)致開展高密度采集時(shí), 耗時(shí)長(zhǎng)、 效率低。 混合震源采集技術(shù)允許反射信號(hào)之間相互疊加, 提高了采集效率,但引入了混合震源疊加噪聲, 需要進(jìn)行混合震源分離以便后續(xù)處理[1]。
傳統(tǒng)混合震源分離技術(shù)主要基于濾波方法或基于稀疏反演方法。 在濾波方面, 韓立國(guó)等[2]結(jié)合多級(jí)中值濾波和曲波變換, 提出多時(shí)域迭代去噪的混疊噪聲壓制方法, 實(shí)現(xiàn)了混合震源分離; 魏亞杰等[3]提出基于脈沖檢測(cè)的方法, 使得在震源激發(fā)時(shí)間范圍較小時(shí)也能成功將其分離。 在稀疏反演方面, Lin 等[4]將曲波域和離散小波域作為稀疏域, 在混合震源采集中應(yīng)用壓縮感知理論, 實(shí)現(xiàn)混合震源分離; Bagani等[5]通過基于求解線性反問題的波場(chǎng)分離方法分離混合震源。
近年來, 深度學(xué)習(xí)(Deep Learning) 技術(shù)發(fā)展迅速, 在計(jì)算機(jī)視覺領(lǐng)域表現(xiàn)出優(yōu)越性能, 將其應(yīng)用于地震數(shù)據(jù)處理和解釋環(huán)節(jié)是地震勘探智能化的發(fā)展趨勢(shì)[6]。 2016 年, Zhang 等[7]針對(duì)隨機(jī)高斯噪聲提出降噪卷積神經(jīng)網(wǎng)絡(luò) (Denoising Convolutional Neural Network, DnCNN) 模型, 能夠提取出含噪圖像中的隨機(jī)噪聲或有效信號(hào), 以達(dá)到有效降噪的目的。 高好天等[8]將DnCNN 運(yùn)用于地震數(shù)據(jù)降噪, 驗(yàn)證了去除圖像中隨機(jī)噪聲的網(wǎng)絡(luò)模型, 同樣適用于去除地震數(shù)據(jù)中的隨機(jī)噪聲, 與針對(duì)有效信號(hào)特征進(jìn)行學(xué)習(xí)所得模型相比, 針對(duì)噪聲特征進(jìn)行學(xué)習(xí)所得模型的降噪效果較好。 Sun 等[9]通過卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network, CNN) 對(duì)混疊噪聲進(jìn)行壓制, 模型在有效信號(hào)弱、 混疊噪聲強(qiáng)的惡劣情況下仍能保持較好的降噪效果。
因深度學(xué)習(xí)模型DnCNN 針對(duì)加性高斯隨機(jī)噪聲具有良好的壓制效果, 鑒于混疊噪聲與隨機(jī)噪聲相似的加性特點(diǎn), 嘗試將DnCNN 應(yīng)用于混合震源分離。針對(duì)DnCNN 模型在訓(xùn)練過程中頻繁出現(xiàn)過擬合、 損失曲線大幅震蕩等問題, 引入神經(jīng)元失活機(jī)制和混合空洞卷積機(jī)制對(duì)其進(jìn)行改進(jìn), 提出一種解決混合震源分離問題的改進(jìn)DnCNN 模型。
混疊噪聲屬于加性噪聲, 含加性噪聲的數(shù)據(jù)dirty的構(gòu)成如式1 所示。
其中,clean為未受噪聲影響的干凈數(shù)據(jù), 論文稱之為有效信號(hào);noise為噪聲數(shù)據(jù)。
對(duì)于含加性噪聲的數(shù)據(jù), 一般通過數(shù)學(xué)方法直接或間接提取有效信號(hào)。 論文采取間接提取有效信號(hào)的方式, 其先提取出含噪信號(hào)中的噪聲, 再用含噪信號(hào)減去噪聲, 得到清晰的有效信號(hào)。
DnCNN 模型針對(duì)高斯隨機(jī)噪聲提出, 以含噪數(shù)據(jù)作為輸入, 以有效信號(hào)或者噪聲作為輸出。 網(wǎng)絡(luò)共17 層, 均為卷積核大小為3×3 的卷積層, 層與層之間設(shè)置批量歸一化[10]操作, 并設(shè)置從輸入層連接輸出層的殘差通路[11], 具體結(jié)構(gòu)如圖1 所示。
圖1 DnCNN 模型示意圖[8]Fig.1 Schematic diagram of DnCNN model
DnCNN 模型層數(shù)較多, 而訓(xùn)練所使用的數(shù)據(jù)集規(guī)模較小, 極易造成過擬合問題, 即模型沒有學(xué)習(xí)到訓(xùn)練數(shù)據(jù)的潛在特征分布, 而是記錄下了訓(xùn)練數(shù)據(jù)的全部信息, 導(dǎo)致模型健壯性差、 泛化性差。 訓(xùn)練過程中過擬合直接表現(xiàn)為模型的訓(xùn)練誤差損失遠(yuǎn)低于驗(yàn)證誤差損失, 二者曲線不能良好貼合。
為了防止過擬合現(xiàn)象, 通常的解決方法有增強(qiáng)訓(xùn)練數(shù)據(jù)、 降低模型復(fù)雜度、 正則化 (Regularization)[12]等。 失活機(jī)制(Dropout)[13,14]也為解決過擬合問題而提出, 訓(xùn)練過程中使用失活機(jī)制的網(wǎng)絡(luò)層會(huì)隨機(jī)截?cái)嘣搶硬糠稚窠?jīng)元的前向傳播通路, 減弱或消除神經(jīng)元間存在的相互作用, 使模型對(duì)某些強(qiáng)烈的局部特征依賴降低[15], 以提高其健壯性與泛化性。論文在模型固定、 數(shù)據(jù)增強(qiáng)的情況下, 在DnCNN 網(wǎng)絡(luò)中隱藏層之間的連接處加入失活機(jī)制。 失活機(jī)制的示意圖如圖2 所示。
圖2 失活機(jī)制示意圖Fig.2 Schematic diagram of Dropout
2.1.2 混合空洞卷積
DnCNN 使用3×3 大小的卷積核, 感受野有限,使得模型對(duì)于全局信息把握不足, 影響最終降噪結(jié)果, 論文引入空洞卷積 (Dilated Convolution)[16]以提高模型的感受野。 空洞卷積相較于普通卷積, 引入“擴(kuò)張率” 參數(shù), 其在保持參數(shù)量不增加的情況下,使得感受野擴(kuò)大, 示意圖(以擴(kuò)張率=2 為例) 如圖3 所示。
圖3 空洞卷積示意圖Fig.3 Schematic diagram of Dilated Convolution
空洞卷積在提高感受野的同時(shí), 會(huì)損失連續(xù)的特征信息, 從計(jì)算層面看, 原3×3 大小的卷積核,在擴(kuò)張率為2 的情況下, 該卷積核覆蓋的感受野達(dá)到了5×5, 但真正參與計(jì)算的像素?cái)?shù)目為9, 即有16 個(gè)像素被忽視, 使得該計(jì)算過程中丟失了64%的有效信息。
當(dāng)連續(xù)使用具有相同擴(kuò)張率的空洞卷積時(shí), 會(huì)引起網(wǎng)格效應(yīng)(The Gridding Effect)[17], 即前向傳播過程中, 因參與計(jì)算的像素間隔相同, 使得某一層得到的計(jì)算結(jié)果來自上一層完全獨(dú)立、 沒有相互依賴的像素集合, 且其余大部分像素并不會(huì)隨著層數(shù)的增加而參與計(jì)算, 最終導(dǎo)致其有效信息完全丟失。 網(wǎng)格效應(yīng)的示意圖如圖4 所示(以擴(kuò)張率=2 為例)。
圖4 網(wǎng)格效應(yīng)(擴(kuò)張率=2) 示意圖Fig.4 Schematic diagram of The Gridding Effect (dilatation rate=2)
為解決網(wǎng)格效應(yīng)帶來的問題, 以混合空洞卷積(Hybrid Dilated Convolution, HDC) 機(jī)制保證特征的連續(xù)性。 HDC 機(jī)制通過在連續(xù)的數(shù)層中依次設(shè)置逐步增加的擴(kuò)張率, 使得其最后一層的感受野中不存在“空洞”, 以確保全局信息的獲取。 論文將連續(xù)三層卷積層作為一個(gè)HDC 模塊, 分別設(shè)置擴(kuò)張率為1、 2、3, 其示意圖如圖5 所示。
圖5 HDC 模塊示意圖Fig.5 Schematic diagram of Hybrid Dilated Convolution Module
2.1.3 批量歸一化
批量歸一化(Batch Normalization, BN) 是一種規(guī)范化方法, 針對(duì)大型深層網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)的收斂速度慢、 梯度消失等問題提出, 其思想源于圖像預(yù)處理環(huán)節(jié)中的“白化” (Whitening) 操作, 即將輸入圖像的像素值分布變換到均值為0、 方差為1 的正態(tài)分布,以保證圖像像素值的分布更加均勻, 而不是大部分像素都集中在一個(gè)有限的(如高曝光的圖像會(huì)整體呈現(xiàn)出一種偏亮白的不飽滿色調(diào)) 范圍內(nèi)。 白化操作效果如圖6 所示。
圖6 白化操作效果Fig.6 Whitening operation
深層網(wǎng)絡(luò)在訓(xùn)練過程中, 數(shù)據(jù)的分布情況會(huì)不可避免地發(fā)生偏移或者受到擾動(dòng), 隨著網(wǎng)絡(luò)深度加深,偏移或擾動(dòng)的影響可能會(huì)逐步增大, 數(shù)據(jù)的整體分布會(huì)趨向于激活函數(shù)取值區(qū)間的上下界, 從而導(dǎo)致反向傳播過程中出現(xiàn)梯度消失等問題, 使得訓(xùn)練的收斂速度趨于緩慢。 批量歸一化參考白化操作, 將每一層隱藏層都視為下一層的輸入層, 每一層的前向傳播進(jìn)行到激活函數(shù)之前, 通過批量歸一化操作將特征圖的數(shù)據(jù)分布變換到均值為0、 方差為1 的標(biāo)準(zhǔn)正態(tài)分布,消除數(shù)據(jù)分布偏移的影響。 批量歸一化的具體操作如算法1 所示。
算法1: Batch Normalization輸入: 一個(gè)小批量的樣本集合B B = {x1,..., xm} ;需要學(xué)習(xí)的參數(shù):γ, β輸出:{yi = BNγ, β(xi)}1. μB ← 1 m ∑m i=1xi / /小批量平均值2. σ2B ← 1 m ∑m i=1(xi - μB)2 / /小批量方差^3. xi ← xi - μB σ2B + ε/ /歸一化4. yi ←γxi^+ β ≡BNγ, β(xi) / /調(diào)節(jié)
2.1.4 改進(jìn)DnCNN 網(wǎng)絡(luò)結(jié)構(gòu)
改進(jìn)DnCNN 模型以含噪數(shù)據(jù)作為輸入, 噪聲作為輸出。 輸入層接受單通道的地震數(shù)據(jù), 數(shù)據(jù)經(jīng)由卷積核大小為3×3、 擴(kuò)張率為2 的空洞卷積層, 生成64通道特征圖。 輸入層得到的特征圖送入HDC 模塊,HDC 模塊內(nèi)由連續(xù)三層擴(kuò)張率分別為1、 2、 3 的空洞卷積層組成, 相鄰層間進(jìn)行批量歸一化和ReLU 激活, 其輸出仍為64 通道的特征圖。 HDC 模塊共串聯(lián)10 次, 相鄰模塊間通過批量歸一化提高訓(xùn)練過程穩(wěn)定性, 再由ReLU 激活, 并使用Dropout 機(jī)制隨機(jī)抑制部分神經(jīng)元的前向傳播以減少過擬合現(xiàn)象。 經(jīng)過10次HDC 模塊的計(jì)算, 數(shù)據(jù)由卷積核大小為3×3 的輸出層將通道數(shù)從64 合并為1。 網(wǎng)絡(luò)采用殘差機(jī)制, 從輸入層連接輸出層, 使得網(wǎng)絡(luò)易于優(yōu)化, 緩解深度增加時(shí)導(dǎo)致的梯度消失問題。 改進(jìn)后的DnCNN 示意圖如圖7 所示。
圖7 改進(jìn)后DnCNN 示意圖Fig.7 Schematic diagram of Improved DnCNN
論文將空洞卷積、 失活機(jī)制以及混合空洞卷積模塊分別融入DnCNN 模型, 對(duì)混疊噪聲數(shù)據(jù)的特征進(jìn)行學(xué)習(xí), 并將訓(xùn)練完畢的模型運(yùn)用于測(cè)試數(shù)據(jù)進(jìn)行混疊噪聲降噪, 對(duì)比、 分析其降噪結(jié)果, 實(shí)現(xiàn)混合震源數(shù)據(jù)分離。
2.2.1 實(shí)驗(yàn)環(huán)境
論文實(shí)驗(yàn)所使用的硬件環(huán)境和軟件環(huán)境如表1 所示。
表1 實(shí)驗(yàn)軟硬件環(huán)境信息Table 1 Information of experimental software andhardware environment
2.2.2 超參數(shù)設(shè)置
實(shí)驗(yàn)訓(xùn)練所用patch 分辨率設(shè)置為100×100, 數(shù)目設(shè)置為9 000, 其中89%作為訓(xùn)練集, 11%作為驗(yàn)證集; batchsize 設(shè)置為64; 最大迭代次數(shù)設(shè)置為180;初始學(xué)習(xí)率設(shè)置為0.000 1, 當(dāng)?shù)螖?shù)分別達(dá)到40、90 和110 時(shí), 學(xué)習(xí)率均降為前一輪的1/10。
實(shí)驗(yàn)采用Adam 優(yōu)化器[18]在訓(xùn)練過程中進(jìn)行反向傳播[19]以更新模型參數(shù)。
2.2.3 損失函數(shù)
損失函數(shù)為均方誤差(Mean square error, MSE),其計(jì)算方法如式2 所示。
其中,n為一個(gè)batch 中使用的patch 數(shù)量;xi和yi分別為該batch 中第i個(gè)patch 的降噪結(jié)果及標(biāo)簽。
2.2.4 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)為信噪比(Signal to Noise Ratio, SNR)、 峰 值 信 噪 比 (Peak Signal to Noise Ratio, PSNR)、 平方誤差(Square Error, SE), 計(jì)算方法分別如式3、 式4 和式5 所示。
其中,x為某樣本經(jīng)模型降噪后的結(jié)果,y是其對(duì)應(yīng)的有效信號(hào)標(biāo)簽。
2.2.5 實(shí)驗(yàn)結(jié)果展示及分析
實(shí)驗(yàn)采用某海域一套實(shí)測(cè)單震源數(shù)據(jù)(100 個(gè)震源、 100 個(gè)檢波器) 作為測(cè)試集, 其含有100 個(gè)樣本。設(shè)置五種算法模型(1) DnCNN; (2) DnCNN+Dilated Convolution; (3) DnCNN+Dropout; (4) DnCNN+Dilated Convolution+Dropout; (5) DnCNN+HDC+Dropout, 分別計(jì)算測(cè)試集降噪結(jié)果的信噪比平均值、峰值信噪比平均值、 有效信號(hào)標(biāo)簽和降噪結(jié)果的平方誤差平均值, 對(duì)比結(jié)果如表2 所示。
從表2 中可以看出, 在保持學(xué)習(xí)率一致的情況下, 模型(1) 即DnCNN 模型訓(xùn)練完畢后, 在測(cè)試集上的混疊噪聲降噪結(jié)果信噪比平均值達(dá)到了15.98、峰值信噪比平均值達(dá)到了35.93, 二者均為5 個(gè)模型測(cè)試結(jié)果中最低值; 平方誤差平均值為30.57, 是5個(gè)模型測(cè)試結(jié)果中的最大值。
表2 五種算法模型降噪結(jié)果對(duì)比Table 2 Comparison of denoising results of 5 methods
模型(2) 將DnCNN 模型15 層隱藏層中大小為3x3、 擴(kuò)張率為1 的普通卷積替換為大小為3x3、 擴(kuò)張率為2 的空洞卷積, 卷積操作的感受野增加。 相較于模型(1), 模型(2) 的信噪比和峰值信噪比的平均值略有提升、 平方誤差平均值減小, 說明其整體降噪效果得到小幅提升。 模型(2) 連續(xù)使用具有相同擴(kuò)張率的卷積操作所引起的網(wǎng)格效應(yīng), 在計(jì)算過程中丟失了大量的數(shù)據(jù)特征, 且參與計(jì)算的信息也不具有連續(xù)性, 使得降噪效果雖有提升, 但提升幅度不大。
模型(3) 保持DnCNN 卷積操作不變, 在15 層隱藏層之間加入了失活機(jī)制, 隨機(jī)將部分神經(jīng)元的前向傳播截?cái)? 該操作雖然增加了訓(xùn)練過程的隨機(jī)性,但有效降低了過擬合及曲線震蕩出現(xiàn)的可能性, 其最終測(cè)試結(jié)果信噪比平均值較模型(1)、 (2) 有明顯提升, 且平方誤差平均值降低顯著, 是五種模型測(cè)試結(jié)果中的最小值。
模型(4) 同時(shí)結(jié)合模型(2)、 (3) 兩種改進(jìn)策略, 但實(shí)際測(cè)試結(jié)果顯示信噪比、 峰值信噪比都受到較大影響, 并且平方誤差增大, 造成這種結(jié)果的原因是特征圖信息的連續(xù)性受到了較大的破壞。 空洞卷積和失活機(jī)制均會(huì)對(duì)數(shù)據(jù)特征的連續(xù)性造成一定破壞,兩者分別單獨(dú)使用時(shí), 空洞卷積可以增加卷積核的感受野、 失活機(jī)制可以在一定程度上消除神經(jīng)元間不利的相互作用, 此時(shí)兩者單獨(dú)對(duì)降噪效果的增益能夠彌補(bǔ)對(duì)信息連續(xù)性破壞產(chǎn)生的影響; 兩者搭配使用時(shí),對(duì)特征的連續(xù)性產(chǎn)生的破壞效果相互疊加, 影響進(jìn)一步增大。 實(shí)驗(yàn)結(jié)果表明, 空洞卷積和失活機(jī)制搭配使用時(shí), 模型學(xué)習(xí)能力降低, 降噪效果變差。
模型(5) 通過混合空洞卷積機(jī)制, 有效緩解了連續(xù)使用具有相同擴(kuò)張率的空洞卷積所引起的網(wǎng)格效應(yīng), 保護(hù)了數(shù)據(jù)特征的連續(xù)性, 信噪比平均值、峰值信噪比平均值均得到提升, 其中關(guān)鍵指標(biāo)信噪比平均值達(dá)到了17.36, 是5 個(gè)模型結(jié)果中的最高值, 峰值信噪比和平方誤差也保持在較好的水平,說明模型(5) 相較于其他模型, 降噪效果得到了明顯提升。
5 個(gè)模型的損失曲線如圖8 所示。 圖8 為5 種算法的損失曲線圖, 因第1 輪迭代中模型的損失誤差都較大, 會(huì)拉升圖像縱軸范圍尺度, 影響細(xì)節(jié)展示, 所以將其隱藏, 只展示第2 輪及以后的損失曲線變化情況。 從圖8 (1) 中可以看出, DnCNN 訓(xùn)練過程中會(huì)出現(xiàn)強(qiáng)烈的損失曲線震蕩問題, 且經(jīng)多次反復(fù)實(shí)驗(yàn),損失曲線震蕩、 過擬合等情況出現(xiàn)概率極高, 對(duì)最終訓(xùn)練效果影響較大。 圖8 (2) 中, 空洞卷積略微降低了損失曲線震蕩的幅度, 但震蕩情況依然嚴(yán)重, 且存在過擬合問題(紅色的驗(yàn)證誤差曲線在震蕩處遠(yuǎn)高于綠色的訓(xùn)練誤差曲線)。 圖8 (3) ~ (5) 中, 失活機(jī)制的引入使得曲線震蕩問題得到明顯改善, 過擬合發(fā)生的可能性也大大降低, 在大致相同的范圍下(取縱向坐標(biāo)0~1 000 范圍), (3) 和(4) 仍有小幅震蕩, 論文所提改進(jìn)DnCNN 模型的損失曲線則更加平滑, 下降趨勢(shì)穩(wěn)定且沒有過擬合現(xiàn)象發(fā)生。
圖8 五種算法的損失曲線Fig.8 Loss curve of 5 algorithms
從表1 中可以看出, 論文改進(jìn)的DnCNN 模型測(cè)試信噪比平均值最高, 降噪效果最好, 其降噪結(jié)果如圖9 所示。
圖9 中, 圖9 (1) 為原始含噪數(shù)據(jù); 圖9 (2)為圖9 (1) 中噪聲的標(biāo)簽; 圖9 (3) 為模型提取出的噪聲數(shù)據(jù); 圖9 (4) 為圖9 (1) 減去圖9 (2) 所得有效信號(hào)的標(biāo)簽; 圖9 (5) 為圖9 (1) 減去模型提取的噪聲圖9 (3) 所得的降噪結(jié)果。 可以看出,論文改進(jìn)模型對(duì)于含噪數(shù)據(jù)中的混疊噪聲預(yù)測(cè)準(zhǔn)確,降噪效果明顯, 并且能夠較好地保護(hù)有效信號(hào)。
混合震源數(shù)據(jù)分離結(jié)果如圖10 所示。
圖10 中, 圖10 (1) 為含噪數(shù)據(jù), 即混合在一起的有效信號(hào); 圖10 (2) 為圖10 (1) 中的一個(gè)有效信號(hào)標(biāo)簽; 圖10 (3) 為論文改進(jìn)模型分離所得結(jié)果。 可以看出, 論文改進(jìn)模型對(duì)于有效信號(hào)的保護(hù)效果較好, 分離結(jié)果中有效信號(hào)完整, 樣本中靠下部的弱信號(hào)也清晰可見, 被削弱的程度很小, 有利于后續(xù)數(shù)據(jù)處理和解釋。
圖10 分離結(jié)果Fig.10 Deblending result
論文通過引入HDC 模塊和Dropout 對(duì)DnCNN 模型進(jìn)行改進(jìn), 并將改進(jìn)后的模型用于混疊噪聲降噪,最終實(shí)現(xiàn)混合震源數(shù)據(jù)分離。 改進(jìn)后的DnCNN 模型對(duì)于地震數(shù)據(jù)中含有的混疊噪聲具有良好的壓制效果:一方面, HDC 模塊通過連續(xù)增加的擴(kuò)張率保證了全局信息的獲取, 一定程度上保護(hù)了特征的連續(xù)性; 另一方面, Dropout 抑制了神經(jīng)元間的相互作用, 提高了訓(xùn)練過程的穩(wěn)定性。 綜上所述, 改進(jìn)后的DnCNN 模型對(duì)混疊噪聲預(yù)測(cè)準(zhǔn)確, 降噪效果明顯, 地震數(shù)據(jù)信噪比得到提升, 使得在混合震源數(shù)據(jù)分離階段能夠較好地保護(hù)有效信號(hào), 一定程度上避免其受到削弱。