馬俊修,石勝男,陳 進,張景臣,何小東,李雪晨,郭丁菲
1)中國石油新疆油田分公司工程技術(shù)研究院,新疆克拉瑪依 834000;2)中國石油大學(北京)非常規(guī)油氣科學技術(shù)研究院,北京 102249
中國新疆瑪湖致密砂礫巖開發(fā)普遍采用“水平井+大規(guī)模體積壓裂”技術(shù),油藏具有礫石粒徑變化大、巖性復雜和非均質(zhì)性強的特征,導致各井的壓裂條件參差不齊,且壓裂后井間生產(chǎn)效果差異較大.明確瑪湖地區(qū)水平井的壓裂效果主控因素、實現(xiàn)產(chǎn)能預測和定量優(yōu)化壓裂參數(shù)一直是瑪湖壓裂水平井開發(fā)的重點和難點[1].
近年來,機器學習方法在油氣田開發(fā)中的應(yīng)用日益廣泛,基于機器學習方法的產(chǎn)能預測及壓裂工藝參數(shù)優(yōu)化研究成為不少學者研究的重點.WANG等[2]采用GDE全局優(yōu)化算法,基于200口井的數(shù)據(jù)建立了經(jīng)濟模型,優(yōu)化了財務(wù)凈現(xiàn)值;ANIFOWOSE等[3]結(jié)合支持向量機和人工神經(jīng)網(wǎng)絡(luò),成功預測了儲層孔隙度和滲透率;葉俊華等[4]采用灰色關(guān)聯(lián)法對吉006斷塊壓后主控因素進行了分析;張杰等[5]基于神經(jīng)網(wǎng)絡(luò)、決策樹及聚類等方法,建立了壓裂施工效果預測模型;陶亮等[6]結(jié)合層次分析法與灰色理論建立了產(chǎn)能模型,并將其應(yīng)用于松遼盆地致密油藏,取得了良好的現(xiàn)場效果.綜上所述,國內(nèi)外學者在建立壓裂效果預測模型上開展了大量研究,但多側(cè)重于產(chǎn)量預測以及主控因素分析,對進一步的壓裂參數(shù)優(yōu)化研究較少.
本研究基于收集的瑪湖地區(qū)壓裂水平井數(shù)據(jù),通過缺失值填補、異常值識別和數(shù)據(jù)縮放等預處理工作提高數(shù)據(jù)質(zhì)量,基于隨機森林算法分析了影響水平井壓裂效果的主控因素,建立各項特征參數(shù)與最終可采儲量(estimated ultimate recovery, EUR)之間的數(shù)學模型,從而實現(xiàn)水平井的壓裂參數(shù)定量優(yōu)化,達到針對性地指導壓裂方案的目的.
在數(shù)據(jù)分析和挖掘的過程中,數(shù)據(jù)是極其關(guān)鍵的要素,數(shù)據(jù)的質(zhì)量對最終獲得的模型或結(jié)論的影響很大[9-10].由于各種原因,油氣田現(xiàn)場的數(shù)據(jù)往往存在數(shù)據(jù)缺失、數(shù)錯誤和異常等現(xiàn)象.因此,在進行產(chǎn)能預測及壓裂設(shè)計優(yōu)化前,本研究先對數(shù)據(jù)進行缺失值和異常值的分析處理,以及數(shù)據(jù)預處理,提高數(shù)據(jù)集的質(zhì)量,保證最后所建模型的準確性.
對75口井18個特征參數(shù)的缺失率進行統(tǒng)計分析發(fā)現(xiàn),停泵壓力的缺失率為26.7%,地層壓力、泊松比、楊氏模量和最小水平主應(yīng)力的缺失率為20%,平均含油飽和度、Ⅰ類儲層厚度、平均孔隙度、裂縫間距和施工排量的缺失率在5%以下,其他參數(shù)不存在缺失值.雷蕾等[11]研究發(fā)現(xiàn),當缺失率超過5%時,對分類模型的準確率會有影響,需采取填補等方法進行預處理后再進行建模.
本研究采取精細的缺失值處理策略,當缺失率>25%,且屬性重要程度低時,直接刪除該屬性(停泵壓力);當缺失率<5%,采用中位值簡單填補方式(平均含油飽和度、Ⅰ類油層厚度、平均孔隙度和裂縫間距);當缺失率>5%,且屬性重要程度高時,采用隨機森林多重插補的方式(地層壓力、泊松比、楊氏模量和最小水平主應(yīng)力),將每個缺失值的特征作為其他特征的函數(shù)建立隨機森林模型,使用該函數(shù)的值作為估算,通過變量之間的關(guān)系對缺失數(shù)據(jù)進行預測,使得填補的缺失值更加真實.
異常值指遠離絕大多數(shù)樣本點的特殊群體,也稱為離群點,通常這樣的數(shù)據(jù)點在數(shù)據(jù)集中都表現(xiàn)出不合理的特性.如果忽視這些異常值,在某些建模場景下就會導致結(jié)論的錯誤(如神經(jīng)網(wǎng)絡(luò)回歸模型等),所以在數(shù)據(jù)的探索過程中,有必要識別出這些異常值并進行處理[12-13].
圖1 箱型圖識別平均砂比Fig.1 Box diagram to identify average sand ratio
由于數(shù)據(jù)類型復雜,且數(shù)據(jù)單位、屬性和產(chǎn)能的影響方式均不同,在模型優(yōu)選分析計算時需要進行如式(1)的標準化處理,以消除不同數(shù)量級和不同量綱的影響.
(1)
其中,yi為標準化處理后樣本i的特征輸出;xi為樣本特征; min(xi)為樣本特征最小值;max(xi)為樣本特征最大值.
為明確各儲層參數(shù)、工程參數(shù)對產(chǎn)能的非線性影響程度,本研究采用隨機森林方法確定產(chǎn)能的主控因素.隨機森林是一種集成機器學習方法,在決策樹的訓練過程中進一步引入隨機屬性選擇而形成的.相比決策樹,該方法泛化性更好,并能夠得到各變量的相對重要度.隨機森林建模時隨機采樣未被抽到的數(shù)據(jù)稱為袋外數(shù)據(jù)集,這些數(shù)據(jù)沒有參與訓練集模型的擬合,可以用來檢驗模型的泛化能力[15-16].在對模型進行重要性排序時,使用相應(yīng)的袋外數(shù)據(jù)計算它的袋外誤差r1. 然后袋外數(shù)據(jù)中的某個特征順序被隨機變換,再次計算袋外誤差r2. 假設(shè)隨機森林有N棵樹,則某個特征的重要性I為
(2)
根據(jù)上述原理,建模計算得到瑪湖地區(qū)水平井各項特征因素對產(chǎn)能的重要性評分,各項特征參數(shù)重要性總評分為1.0[17].儲層參數(shù)總評分為0.550,2級儲層主控參數(shù)依次為含油飽和度、孔隙度、鉆遇率和地層壓力,評分分別為0.175、0.152、0.051和0.046;工程參數(shù)的重要性總評分為0.45,2級施工主控參數(shù)裂縫間距、總液量、總砂量、施工排量和平均砂比分別為0.152、0.112、0.094、0.042和0.031.由此可見,瑪湖地區(qū)水平井的產(chǎn)能受儲層參數(shù)影響較大,但在進行壓裂施工參數(shù)優(yōu)化時,應(yīng)重點考慮裂縫間距、總液量和總砂量等工程參數(shù),以獲取最大產(chǎn)能.
逆?zhèn)鞑?back propagation, BP)神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡(luò),根據(jù)輸入的訓練樣本,可自動適應(yīng)和確定各神經(jīng)元的連接權(quán)重[18].BP神經(jīng)網(wǎng)絡(luò)基本思想是梯度下降法,利用梯度搜索技術(shù),使網(wǎng)絡(luò)的實際輸出值和期望輸出值的誤差均方差為最小[19-20],是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一.遺傳算法(genetic algorithms, GA)通過學習模擬生物進化論和自然界遺傳機制,形成一種并行隨機搜索最優(yōu)化方法[21].
本研究建立了產(chǎn)能預測的BP神經(jīng)網(wǎng)絡(luò)模型,并使用遺傳算法進行優(yōu)化,模型的工作流程如圖2.使用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)模型可以獲取更加準確的初始權(quán)值和閾值,神經(jīng)網(wǎng)絡(luò)模型進行優(yōu)化后,可以更好地反應(yīng)出輸入數(shù)據(jù)與輸出數(shù)據(jù)之間的關(guān)系,達到精確預測的目的.
圖2 遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)過程Fig.2 BP neural network process optimized by genetic algorithm
本研究以16個儲層及施工參數(shù)作為輸入特征值(表1),以EUR作為輸出參數(shù),建立特征參數(shù)與產(chǎn)能之間的3層BP神經(jīng)網(wǎng)路模型,設(shè)隱含層的神經(jīng)元為20個,網(wǎng)格訓練的學習率為 0.001,期望誤差為 0.05.通過反誤差函數(shù)不斷調(diào)節(jié)網(wǎng)格權(quán)值與閥值,直到網(wǎng)格輸出誤差逐步達到期望誤差,完成網(wǎng)格訓練.本次模型使用遺傳算法的個體編碼長度應(yīng)包括中間層到輸入層的16×20個連接權(quán)值,輸出層到中間層的1×20個連接權(quán)值以及20+1個閾值,遺傳算法的個體編碼長度最終為16×20+1×20+20+1=361.
共收集壓裂水平井75口,按照數(shù)量比為85∶15劃分訓練集和測試集,分割后訓練集為64口,測試集為11口,數(shù)據(jù)集的原始產(chǎn)量分布如圖3.
圖3 訓練樣本與測試樣本產(chǎn)量的原始分布情況Fig.3 The original distribution of the output of training samples and test samples
使用訓練集數(shù)據(jù)訓練模型,并基于模型在測試集上的評分評估模型性能.采用決定系數(shù)R2評估模型的性能.決定系數(shù)R2得分反映因變量的全部變異能通過回歸關(guān)系被自變量解釋的比例,如式(3),R2越接近1,樣本中預測值和真實值越相近,表示回歸分析中自變量對因變量的解釋越好.
(3)
模型訓練后,為驗證優(yōu)化后的模型性能,將其預測測試集樣本的結(jié)果與原始數(shù)據(jù)及未經(jīng)優(yōu)化后的BP模型預測結(jié)果進行對比,結(jié)果如圖4.由圖4可見,使用遺傳算法優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型(GA-BP)效果更好,該模型測試集的決定系數(shù)得分R2=0.76, 未經(jīng)優(yōu)化的決定系數(shù)得分R2=0.62, 證明該模型該模型性能優(yōu)良,泛化能力好,具備一定的適用性.
圖4 測試集樣本預測結(jié)果Fig.4 Test set sample prediction results
為了進一步驗證瑪湖地區(qū)水平井體積壓裂產(chǎn)能預測模型的適用性,以瑪湖地區(qū)某兩口待壓井(井1和井2)為例,開展產(chǎn)量預測.將其鄰井數(shù)據(jù)輸入產(chǎn)量預測模型中,驗證模型的性能,同時與已投入生產(chǎn)的鄰井相比,在儲層及工程參數(shù)相似的情況下,使用模型驗證儲層特征相近的臨井情況,可以為井1和井2提供一定參考,井1、井2及鄰井的特征參數(shù)如表1,井1鄰井與井2鄰井預測的EUR分別為54 356 t和25 394 t,與真實值相比,誤差均在11.3%以下,證明該模型性能良好.使用模型預測井1和井2的EUR分別為58 758 t和26 034 t,與其鄰井相比,預測的EUR數(shù)值更接近.
表1 井1和井2與鄰井特征參數(shù)及預測結(jié)果
由2.1節(jié)分析主控因素得知,影響瑪湖地區(qū)水平井的工程參數(shù)主要為裂縫間距、總液量以及總砂量.實際壓裂過程中,多種參數(shù)之間存在著相互影響,需要在多參數(shù)相互影響下,利用正交試驗的方法進行多參數(shù)影響下的優(yōu)化研究.正交試驗就是對多因素可能產(chǎn)生關(guān)聯(lián)影響的探究,通過正交表進行因素的排布,在各因素不同水平值的排列組合的眾多方案中,選取有代表性的水平值,形成最優(yōu)方案[22],井1及井2的正交表參數(shù)如表2和表3.
表2 井1正交參數(shù)表
表3 井2正交參數(shù)
根據(jù)不同的設(shè)計方案,預測不用壓裂規(guī)模下的油井產(chǎn)能情況,并測算相應(yīng)方案下的壓裂投資,綜合考慮產(chǎn)能和經(jīng)濟成本,選取最優(yōu)的壓裂方案,得到井1與井2的EUR預測結(jié)果如圖5和圖6.
圖5 不同方案下井1預測產(chǎn)能與投資Fig.5 Productivity and investment of Well 1 under different plans
圖6 不同方案下井2預測產(chǎn)能與投資Fig.6 Productivity and investment of Well 2 under different plans
綜合考慮產(chǎn)能與壓裂投資,井1選擇方案6(裂縫間距為20 m,總液量約為2×104m3,總砂量約為0.1×104m3)為最優(yōu)施工參數(shù)組合,此時預測EUR為64 225 t,在此壓裂規(guī)模下的壓裂投資為1 213.5萬元,符合投資限額要求.在此方案下的EUR相較于原58 758 t提高了9.3%.井2選擇方案9(裂縫間距為35 m,總液量約為1.2×104m3,總砂量約為900 m3)為最優(yōu)施工參數(shù)組合,此時預測EUR為34 264 t,在此壓裂規(guī)模下的壓裂投資為954.4萬元,符合投資限額要求.在此方案下的EUR相較于原26 034 t提高了37.3%.
1)隨機森林算法確定了影響瑪湖地區(qū)水平井EUR的主要儲層參數(shù)依次為含油飽和度、孔隙度、鉆遇率以及地層壓力,主要工程參數(shù)為裂縫間距、總液量和總砂量.
2)基于各特征參數(shù)與最終可采儲量之間的BP神經(jīng)網(wǎng)絡(luò)模型,利用遺傳算法對各層的權(quán)值及閾值進行優(yōu)化,該產(chǎn)能預測模型決定系數(shù)達到0.78,模型性能較好.
3)應(yīng)用建立的產(chǎn)能模型進行壓裂參數(shù)優(yōu)化,井1與井2的最終可采儲量分別提高了9.3%和37.3%,可為現(xiàn)場水平井壓裂參數(shù)的優(yōu)化設(shè)計提供參考.
4)不同區(qū)塊的儲層特征、流體性質(zhì)和井網(wǎng)特征均不相同,水平井產(chǎn)能參數(shù)影響程度也會不同,本研究所建立產(chǎn)能預測及壓裂參數(shù)優(yōu)化方法可推廣至其他油藏,為現(xiàn)場壓裂設(shè)計提供參考.