国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多網(wǎng)絡(luò)融合的缺失測(cè)井?dāng)?shù)據(jù)復(fù)原方法

2021-10-15 12:48路成輝曹志民
關(guān)鍵詞:信任度測(cè)井交叉

韓 建 路成輝 曹志民,2,3* 馬 躍

1(東北石油大學(xué)電子科學(xué)學(xué)院 黑龍江 大慶 163318) 2(大慶油田博士后工作站 黑龍江 大慶 163318) 3(東北石油大學(xué)博士后流動(dòng)站 黑龍江 大慶 163318)

0 引 言

測(cè)井?dāng)?shù)據(jù)在油氣儲(chǔ)存和油氣資源評(píng)價(jià)中具有十分重要的作用。然而由于人為、儀器故障等原因,實(shí)際應(yīng)用中經(jīng)常出現(xiàn)部分井段測(cè)井?dāng)?shù)據(jù)失真或缺失的情況,甚至出于成本考慮而放棄獲取整套測(cè)井?dāng)?shù)據(jù)。因?yàn)橹匦聹y(cè)井往往需要很高的成本,所以采用一種穩(wěn)定的數(shù)據(jù)合成方法變得尤為重要[1]。

近年來,隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法在工業(yè)和科學(xué)工程領(lǐng)域廣泛應(yīng)用,不少研究者提出采用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法來實(shí)現(xiàn)測(cè)井曲線復(fù)原。例如,利用線性回歸、支持向量機(jī)、模糊邏輯模型和人工神經(jīng)網(wǎng)絡(luò)等方法來估計(jì)地質(zhì)參數(shù)[2-3]、判別巖性[4-5]、確定地層界線[6-7]和復(fù)原地質(zhì)數(shù)據(jù)[8-11]等。傳統(tǒng)線性模型簡(jiǎn)單易理解并且容易擴(kuò)展,但是表達(dá)能力有限,對(duì)模型表達(dá)能力有巨大作用的組合特征通常需要人工不斷地探索。傳統(tǒng)的一些人工神經(jīng)網(wǎng)絡(luò)構(gòu)造的是一種點(diǎn)對(duì)點(diǎn)的映射關(guān)系,忽略測(cè)井曲線特征之間的反演特性,即某些特征可由其他某個(gè)特征或某幾個(gè)特征推演得到。深度神經(jīng)網(wǎng)絡(luò)在給定足夠多隱藏層或者隱藏單元的情況下,同時(shí)憑借Embedding向量以及非線性激活函數(shù),能夠?qū)W習(xí)高階的特征組合,能在特定平滑假設(shè)下以有限的精度逼近任意函數(shù),故在許多領(lǐng)域獲得較大成功[12-14]。但受限于地質(zhì)儲(chǔ)層結(jié)構(gòu)復(fù)雜和非均質(zhì)性較強(qiáng),單一模型無法同時(shí)滿足有限度的特征交叉和高度的非線性表征能力,在測(cè)井?dāng)?shù)據(jù)復(fù)原方面表現(xiàn)不佳。

本文以缺失測(cè)井?dāng)?shù)據(jù)復(fù)原為研究對(duì)象,提出一種融合深度特征學(xué)習(xí)網(wǎng)絡(luò)和交叉網(wǎng)絡(luò)對(duì)缺失測(cè)井?dāng)?shù)據(jù)復(fù)原模型。該模型由兩個(gè)網(wǎng)絡(luò)組成,其中的交叉網(wǎng)絡(luò)由多個(gè)層組成,它以自動(dòng)方式顯式地應(yīng)用特征交叉信息,每一層基于現(xiàn)有的層產(chǎn)生高階交互,因此能有效地學(xué)習(xí)特征之間高度非線性的相互作用關(guān)系,同時(shí)再利用殘差思想構(gòu)造深層網(wǎng)絡(luò),降低模型復(fù)雜度。另一網(wǎng)絡(luò)先通過構(gòu)造的樹模型進(jìn)行特征選擇,將樹模型得到的稀疏向量通過嵌入層轉(zhuǎn)成稠密向量,作為神經(jīng)網(wǎng)絡(luò)的輸入。通過網(wǎng)絡(luò)的聯(lián)合提高模型的非線性表達(dá)能力,有效地捕獲特征之間的相互作用關(guān)系,并減少人工篩選特征的不合理性。在真實(shí)數(shù)據(jù)集上的應(yīng)用效果表明,本文模型在現(xiàn)有相關(guān)評(píng)價(jià)指標(biāo)方面相較于單一模型(DNN、交叉網(wǎng)絡(luò)、GBDT)獲得較好表現(xiàn)。

1 數(shù)據(jù)介紹

為提高模型適用范圍,收集和篩選的實(shí)驗(yàn)數(shù)據(jù)來自大慶油田勘探開發(fā)研究院相關(guān)專業(yè)人員進(jìn)行多次標(biāo)定后取平均,共有220段完整測(cè)井?dāng)?shù)據(jù)(132 448條記錄數(shù)據(jù)),數(shù)據(jù)集中包括2個(gè)地質(zhì)層(地質(zhì)層由相關(guān)軟件和專業(yè)人員共同確定),其中A地質(zhì)層144段測(cè)井?dāng)?shù)據(jù),B地質(zhì)層76段測(cè)井?dāng)?shù)據(jù)。測(cè)井?dāng)?shù)據(jù)中全部包括8個(gè)屬性,如:聲波時(shí)差(AC)、自然電位(SP)、自然伽馬(GR)、密度(DEN)和深側(cè)向電阻率(LLD)等。圖1為部分輸入變量和目標(biāo)變量的散點(diǎn)圖矩陣,可以看到原始數(shù)據(jù)中存在異常值,特征之間存在較強(qiáng)的非線性關(guān)系且離散。

圖1 部分輸入變量和目標(biāo)變量的散點(diǎn)圖矩陣

考慮到DEN測(cè)井對(duì)揭示儲(chǔ)層特征十分重要,且在某些情況下經(jīng)常存在斷層甚至無法測(cè)量的情況,因此選擇DEN作為目標(biāo)測(cè)井,其范圍為1.41~2.69,其他屬性作為自變量對(duì)DEN進(jìn)行預(yù)測(cè)。為避免網(wǎng)絡(luò)模型受到不同輸入數(shù)據(jù)尺度的影響,需要一個(gè)特征空間生成階段,即將輸入數(shù)據(jù)轉(zhuǎn)換到與目標(biāo)測(cè)井尺度相同的范圍,輸入特征轉(zhuǎn)化過程如下:

F={log10(AC),log10(26+LLS),log10(GR),

(1)

訓(xùn)練數(shù)據(jù)集中,A地質(zhì)層122段測(cè)井?dāng)?shù)據(jù),B地質(zhì)層58段測(cè)井?dāng)?shù)據(jù);驗(yàn)證數(shù)據(jù)集中,A地質(zhì)層12段測(cè)井?dāng)?shù)據(jù),B地質(zhì)層10段測(cè)井?dāng)?shù)據(jù);測(cè)試數(shù)據(jù)集中,A地質(zhì)層10段測(cè)井?dāng)?shù)據(jù),B地質(zhì)層8段測(cè)井?dāng)?shù)據(jù)。

2 模型框架

模型框架主要包括兩個(gè)部分:交叉網(wǎng)絡(luò)(Cross Network,CN)和深度特征學(xué)習(xí)網(wǎng)絡(luò)(Deep Feature Learning Network,DFN)。交叉網(wǎng)絡(luò)是由多層交叉層組成,使用多層交叉層對(duì)輸入向量進(jìn)行特征交叉,目的是增加特征之間的交互力度,每一交叉層的基本操作是將原始輸入向量與先前層向量進(jìn)行交互,并加入偏置和先前層向量。CN能夠有效地學(xué)習(xí)特定階數(shù)的特征組合,特征組合的最高階數(shù)取決于網(wǎng)絡(luò)層數(shù)。而CN小規(guī)模的參數(shù)限制了模型的表達(dá)能力,為獲得高度非線性的組合特征,加入DFN模型,為解決人工進(jìn)行特征篩選的不合理性,引入梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)先對(duì)特征進(jìn)行篩選,具體結(jié)構(gòu)如圖2所示。

2.1 深度特征學(xué)習(xí)網(wǎng)絡(luò)

深度特征學(xué)習(xí)網(wǎng)絡(luò)先由GBDT進(jìn)行特征篩選,通過嵌入層將GBDT得到的稀疏向量壓縮到低維稠密向量,再通過多層感知機(jī)網(wǎng)絡(luò)較強(qiáng)的擬合能力進(jìn)行模型訓(xùn)練,詳細(xì)結(jié)構(gòu)如下。

(1) 特征篩選層:模型采用GBDT進(jìn)行特征篩選。GBDT作為一種常用的樹模型,可對(duì)原始特征進(jìn)行特征劃分、特征組合和特征選擇,并得到高階特征屬性和非線性映射。通過原始輸入數(shù)據(jù)訓(xùn)練GBDT模型,然后利用GBDT模型學(xué)習(xí)到的樹來構(gòu)造新特征,構(gòu)造的新特征向量取值yi∈{0,1},向量的每個(gè)元素對(duì)應(yīng)于GBDT模型中樹的葉子節(jié)點(diǎn)。當(dāng)一個(gè)樣本點(diǎn)通過某棵樹最終落在這棵樹的一個(gè)葉子節(jié)點(diǎn)上,在新特征向量中這個(gè)葉子節(jié)點(diǎn)對(duì)應(yīng)的元素值為1,而這棵樹的其他葉子節(jié)點(diǎn)對(duì)應(yīng)的元素值為0。

(2) 嵌入層:嵌入層將稀疏向量壓縮到低維稠密向量。由于GBDT的輸出是一個(gè)高維稀疏數(shù)據(jù),在進(jìn)入多層感知機(jī)網(wǎng)絡(luò)前,引入一個(gè)嵌入層來完成將輸入向量壓縮到低維稠密向量:

xembed,i=wembed,ixi

(2)

式中:xembed,i為嵌入層輸出向量,wembed,i為第i個(gè)稀疏數(shù)據(jù)權(quán)重,將嵌入向量與連續(xù)特征向量疊加起來形成一個(gè)向量x0作為神經(jīng)網(wǎng)絡(luò)的輸入:

(3)

(3) 多層感知機(jī)是一個(gè)全連接的前饋神經(jīng)網(wǎng)絡(luò),通過反向梯度下降算法進(jìn)行權(quán)重的更新。每個(gè)深度層具有如下公式:

hl+1=f(Wlhl+bl)

(4)

式中:hl∈Rnl,hl+1∈Rnl+1分別是第l層和第l+1層隱藏層;Wl∈Rnl+1×nl,bl∈Rnl+1是第l深度層的參數(shù);f(·)是ReLU激活函數(shù)。

2.2 交叉網(wǎng)絡(luò)

交叉網(wǎng)絡(luò)的核心思想是以一種高效的方式進(jìn)行顯示的特征組合,每一層的神經(jīng)元數(shù)量都相同,且等于輸入向量的維度,每個(gè)層具有以下公式:

(5)

2.3 模型融合

兩個(gè)網(wǎng)絡(luò)模型最后的輸出向量進(jìn)行拼接,輸入給一個(gè)全連接層做線性回歸。得到融合模型的輸出:

f=([xL1,hL2]wo)

(6)

式中:xL1∈Rd,hL2∈Rm分別是交叉網(wǎng)絡(luò)和深度特征學(xué)習(xí)網(wǎng)絡(luò)的輸出;wo∈R(d+m)是融合層權(quán)重向量。

損失函數(shù)是均方誤差加一個(gè)正則化項(xiàng):

(7)

式中:fi是式(6)的輸出;yi是真實(shí)值;N是輸入樣本的總數(shù);λ是L2正則化系數(shù)。

通過最小化loss,在融合的模型訓(xùn)練過程中采用梯度反向傳播的方式對(duì)模型中權(quán)重和偏置參數(shù)進(jìn)行更新。需要說明的是在深度特征學(xué)習(xí)網(wǎng)絡(luò)中通過GBDT進(jìn)行特征篩選層是一個(gè)單獨(dú)的網(wǎng)絡(luò),不參與模型的聯(lián)合訓(xùn)練。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境和超參數(shù)設(shè)置

本文實(shí)驗(yàn)環(huán)境操作系統(tǒng)為Windows 10,深度學(xué)習(xí)框架為tensorflow1.14.0,集成學(xué)習(xí)框架為lightGBM。交叉網(wǎng)絡(luò)中交叉層數(shù)為6,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中全連接層為4層,每層神經(jīng)元個(gè)數(shù)為50,Batch size設(shè)置為128,Droupout設(shè)為0.3,激活函數(shù)采用ReLU,學(xué)習(xí)率設(shè)為0.01,采用adam優(yōu)化方法,實(shí)驗(yàn)中epoch值設(shè)為50。GBDT中max_depth設(shè)為6,max_features為0.9,learning_rate為0.05,n_estimators為100。

3.2 評(píng)價(jià)指標(biāo)

本文采用三個(gè)指標(biāo)評(píng)價(jià)模型的性能,描述如下:

(1) 皮爾遜相關(guān)系數(shù):

(8)

(2) 均方誤差:

(9)

(3) 信任度。為可視化各模型在測(cè)井分段實(shí)驗(yàn)復(fù)原效果,提出信任度的定義,信任度越高表示該模型在該分段測(cè)井?dāng)?shù)據(jù)中表現(xiàn)越好。信任度定義如下:

(10)

各模型的整體信任度定義為:

(11)

式中:N為樣本數(shù)。

3.3 測(cè)井生成實(shí)驗(yàn)和分析

本文采用深度神經(jīng)網(wǎng)絡(luò)(DNN)、交叉網(wǎng)絡(luò)模型(CN)、GBDT模型和本文方法(CN-DFN)來生成測(cè)井?dāng)?shù)據(jù)。圖4-圖7展示的是不同模型在其中一個(gè)測(cè)試數(shù)據(jù)集(A1)上的預(yù)測(cè)結(jié)果與真實(shí)數(shù)據(jù)對(duì)比圖,在每個(gè)模型的下面為每一個(gè)預(yù)測(cè)數(shù)據(jù)的信任度,圖中方框?yàn)楦鲗W(xué)習(xí)器信任度較高區(qū)域。表1為不同模型在部分測(cè)試數(shù)據(jù)集上的相關(guān)系數(shù)、均方誤差和信任度。通過實(shí)驗(yàn)可以發(fā)現(xiàn)單純的深度神經(jīng)網(wǎng)絡(luò)模型在合成測(cè)井曲線上預(yù)測(cè)結(jié)果不佳,主要是因?yàn)樯疃葘W(xué)習(xí)需要足夠多的學(xué)習(xí)樣本,對(duì)數(shù)據(jù)較敏感,而油田地質(zhì)結(jié)構(gòu)的復(fù)雜性增加了模型學(xué)習(xí)的難度。Gradient Boosting和CN在合成測(cè)井曲線上有較好的表現(xiàn),原因是GBDT擬合的是上一棵樹的殘差,隨著樹的增加,殘差越來越小,最終結(jié)果由多棵樹累加得到,通過迭代式學(xué)習(xí)對(duì)數(shù)據(jù)學(xué)習(xí)較充分,而CN顯式地生成所有的交叉特征,可有效地學(xué)習(xí)特征之間高度非線性的相互作用關(guān)系,與地質(zhì)屬性中特征之間存在強(qiáng)交互有關(guān)。而本文方法在測(cè)試集上得到多塊信任度較高區(qū)域,是由于經(jīng)過GBDT的特征選擇,得到對(duì)預(yù)測(cè)結(jié)果較重要的特征,將得到的特征通過神經(jīng)網(wǎng)絡(luò)擬合,同時(shí)結(jié)合交叉網(wǎng)絡(luò)顯式生成特定交叉特征的優(yōu)點(diǎn),挖掘出潛在的特征交叉信息,可在一定程度上提高數(shù)據(jù)復(fù)原的效果。

圖4 GBDT在測(cè)試數(shù)據(jù)集(A1)上的信任度和預(yù)測(cè)值

圖6 DNN在測(cè)試數(shù)據(jù)集(A1)上的信任度和預(yù)測(cè)值

圖7 CN-DFN在測(cè)試數(shù)據(jù)集(A1)上的信任度和預(yù)測(cè)值

表1 各模型在部分測(cè)試數(shù)據(jù)集上的結(jié)果

4 結(jié) 語

本文模型不需要對(duì)輸入數(shù)據(jù)進(jìn)行復(fù)雜的特征篩選和轉(zhuǎn)換過程就可在合成測(cè)井曲線上面得到一定程度的提升,其原因可歸為以下兩點(diǎn):

(1) 交叉網(wǎng)絡(luò)可獲得較好的損失函數(shù)且優(yōu)于具有相同結(jié)構(gòu)的單一DNN模型,對(duì)于這種具有超參數(shù)的模型,這種提升減輕了模型初始化的隨機(jī)性效應(yīng)。利用交叉網(wǎng)絡(luò)來進(jìn)行特征交叉,顯式地學(xué)習(xí)到更多交叉特征組合,并通過殘差思想構(gòu)造深層網(wǎng)絡(luò),降低模型學(xué)習(xí)的隨機(jī)性和時(shí)間復(fù)雜度。

(2) 通過構(gòu)造的樹模型進(jìn)行特征選擇,可有效降低人工進(jìn)行特征篩選的不合理性,通過嵌入層,將稀疏向量壓縮到低維稠密向量,降低模型計(jì)算復(fù)雜度,同時(shí)融合神經(jīng)網(wǎng)絡(luò)較強(qiáng)的非線性表達(dá)能力,可使模型學(xué)習(xí)到更多隱含信息。

猜你喜歡
信任度測(cè)井交叉
一種基于組分補(bǔ)償?shù)亩S核磁共振測(cè)井?dāng)?shù)據(jù)高精度處理方法
資源勘查工程專業(yè)《地球物理測(cè)井與解釋》課程的教學(xué)改革
我國(guó)測(cè)井評(píng)價(jià)技術(shù)應(yīng)用中常見地質(zhì)問題分析
“六法”巧解分式方程
全球民調(diào):中國(guó)民眾對(duì)政府信任度最高
連數(shù)
連一連
連星星
2014,如何獲得信任
自然電位測(cè)井曲線干擾問題分析
遵化市| 济源市| 赞皇县| 邳州市| 泰顺县| 巴彦淖尔市| 桓仁| 彭山县| 兰西县| 蓝田县| 项城市| 民乐县| 铜陵市| 织金县| 翁牛特旗| 英山县| 陆河县| 伊吾县| 赤峰市| 黄骅市| 巴楚县| 宁陕县| 乌鲁木齐市| 宁化县| 鹤壁市| 黑河市| 澎湖县| 万州区| 金乡县| 稷山县| 萨迦县| 璧山县| 永济市| 阿拉善左旗| 会理县| 方山县| 云和县| 从化市| 天峻县| 禄劝| 宁河县|