張春曉
(西安石油大學(xué)石油工程學(xué)院,陜西西安 710065)
隨著非常規(guī)致密儲層的快速開發(fā),油氣田生產(chǎn)數(shù)據(jù)量迅速增加。油氣井產(chǎn)量預(yù)測在油藏管理、投資決策和資源配置中發(fā)揮著關(guān)鍵作用。同時(shí),油氣井生產(chǎn)數(shù)據(jù)之間的非線性和動態(tài)特性,使準(zhǔn)確預(yù)測油氣井產(chǎn)量具有一定挑戰(zhàn)性。1993 年,俞啟泰[1]推導(dǎo)了不同階段定產(chǎn)液量條件下的水驅(qū)產(chǎn)量遞減曲線公式。但傳統(tǒng)的產(chǎn)量遞減曲線公式法,通?;诤唵蔚哪P?,忽略了油藏內(nèi)部的復(fù)雜物理、化學(xué)和地質(zhì)過程,也無法靈活的適用具體的油氣田。1995 年,計(jì)秉玉[2]從相對滲透率曲線和物質(zhì)平衡原理推導(dǎo)了雙曲型、調(diào)和型和指數(shù)型產(chǎn)量遞減方程式。雖然,相對滲透率曲線和物質(zhì)平衡原理推導(dǎo)的方程擬合效果較好,但是公式中一般假設(shè)儲層屬于均質(zhì),但實(shí)際中儲層多為非均質(zhì),且缺失相關(guān)的物理解釋。2004 年,張雄君等[3]建立了灰色關(guān)聯(lián)分析產(chǎn)量遞減預(yù)測方法,輔助產(chǎn)量預(yù)測、提高采收率。但是灰色關(guān)聯(lián)法受限于歷史產(chǎn)量數(shù)據(jù)的質(zhì)量,直接影響到預(yù)測結(jié)果的準(zhǔn)確度和可信度。同時(shí)它難以適用復(fù)雜的產(chǎn)量變化機(jī)制和多影響因素之間的相互關(guān)系。雖然灰色關(guān)聯(lián)法在一定情況下可輔助產(chǎn)量預(yù)測,但實(shí)際應(yīng)用中該方法難以量化預(yù)測結(jié)果的不確定性,需要結(jié)合更全面、更精確的數(shù)據(jù)和分析方法以及深入理解油氣田開發(fā)的復(fù)雜性,來做出更準(zhǔn)確的預(yù)測和決策??傊?,針對傳統(tǒng)方法難以捕獲油井生產(chǎn)數(shù)據(jù)中的復(fù)雜時(shí)間特征以及對儲層性質(zhì)、水力壓裂參數(shù)與油氣井產(chǎn)量之間的非線性關(guān)系;針對開發(fā)過程中影響因素多、建模和計(jì)算難度大、時(shí)間長、成本高等問題。2009 年,周彩蘭等[4]提出了一種BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行油氣井產(chǎn)量預(yù)測。但傳統(tǒng)BP 神經(jīng)網(wǎng)絡(luò)及其改進(jìn)產(chǎn)量預(yù)測方法并不適用于時(shí)間序列預(yù)測問題。2019 年,谷建偉等[5]提出利用長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)模型實(shí)現(xiàn)具有長期記憶能力的時(shí)間序列產(chǎn)量預(yù)測模型。LSTM 模型通常需要經(jīng)過適當(dāng)?shù)奶卣鞴こ?,包括?shù)據(jù)標(biāo)準(zhǔn)化、序列長度設(shè)定等。所以,不恰當(dāng)?shù)奶卣魈幚砜赡軐?dǎo)致模型性能和準(zhǔn)確度下降。隨著人工智能領(lǐng)域的發(fā)展,機(jī)器學(xué)習(xí)正在成為油氣井產(chǎn)量預(yù)測的替代方案[6]。本研究提出一種基于深度長短期記憶神經(jīng)網(wǎng)絡(luò)(DLSTM)油氣井產(chǎn)量預(yù)測優(yōu)化方法,以華北油田某區(qū)塊生產(chǎn)數(shù)據(jù)為例,運(yùn)用深度學(xué)習(xí)模型,提高了預(yù)測準(zhǔn)確度,為今后油氣井產(chǎn)量預(yù)測工作提供參考。
LSTM[7]是循環(huán)神經(jīng)網(wǎng)絡(luò)[8](RNN)的一種變形結(jié)構(gòu),擅長捕獲序列數(shù)據(jù)中的遠(yuǎn)程依賴性和時(shí)間特征。不僅能夠?qū) 時(shí)刻的輸入與輸出相關(guān)聯(lián),并且能夠與t 時(shí)刻之前的序列信息相關(guān)聯(lián)。它解決了RNN 在記憶長期依賴關(guān)系時(shí)梯度消失的問題,通過記憶門和遺忘門控制恒定誤差流的打開和關(guān)閉。由于增加神經(jīng)網(wǎng)絡(luò)的深度[9]是提高神經(jīng)網(wǎng)絡(luò)性能的有效途徑之一。DLSTM 是由深度遞歸網(wǎng)絡(luò)的連接方式堆疊幾個(gè)LSTM 塊而構(gòu)成。不僅能夠減少原始數(shù)據(jù)的噪聲,利用每單個(gè)LSTM 層處理每個(gè)部分,并且能夠傳給下一層做匯總輸出。將每個(gè)層的隱藏狀態(tài)在不同的尺度上進(jìn)行,對長期依賴關(guān)系的數(shù)據(jù)或處理多變量數(shù)據(jù)序列有很大幫助,使模型具有更好的泛化性。
LSTM 能夠捕捉序列上的依賴信息,適于對油氣井生產(chǎn)的動態(tài)和演變性質(zhì)[10]進(jìn)行建模。利用DLSTM 優(yōu)勢,解決復(fù)雜時(shí)間特征依賴與超參數(shù)優(yōu)化配置調(diào)整等問題,研究了一種DLSTM 預(yù)測優(yōu)化模型。其中涉及數(shù)據(jù)預(yù)處理、DLSTM 架構(gòu)的設(shè)計(jì)、使用遺傳算法[11](GA)超參數(shù)優(yōu)化以及對該模型的綜合評估。
首先,需要進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)標(biāo)準(zhǔn)化,確保數(shù)據(jù)在合適的范圍內(nèi)。DLSTM 的輸入數(shù)據(jù)由歷史生產(chǎn)數(shù)據(jù)序列組成,每個(gè)序列代表先前生產(chǎn)值的一個(gè)窗口,輸出數(shù)據(jù)對是預(yù)測目標(biāo)后續(xù)生產(chǎn)值。其中,將幾個(gè)輸入序列進(jìn)行加權(quán)平均,利用差分來消除趨勢,生成平滑的時(shí)間序列。從而減少噪聲,可以將非平穩(wěn)數(shù)據(jù)呈現(xiàn)特定趨勢,并將趨勢特征添加到預(yù)測模型。
油氣井產(chǎn)量預(yù)測的DLSTM 架構(gòu)能夠捕獲生產(chǎn)數(shù)據(jù)中短期、長期依賴性和固有的復(fù)雜時(shí)間關(guān)系,從而提高產(chǎn)量預(yù)測準(zhǔn)確性。DLSTM 由多層長短期記憶單元組成,是一種特殊類型的RNN。輸入層是將訓(xùn)練數(shù)據(jù)、批量大?。˙atch-size)、迭代輪次(Epoch)、神經(jīng)元數(shù)量(Neurons)作為輸入。將訓(xùn)練數(shù)據(jù)分割為滯后特征(Lag)和目標(biāo)值。
隨后,將序列模型初始化構(gòu)建LSTM 架構(gòu)。深層架構(gòu)包含多個(gè)LSTM 層進(jìn)行相互堆疊,每個(gè)LSTM 層都包含一組記憶單元和門控機(jī)制捕獲時(shí)間依賴性。第一個(gè)LSTM 層添加指定數(shù)量的神經(jīng)元,并為下一個(gè)LSTM層返回序列。第二個(gè)LSTM 層添加指定數(shù)量的神經(jīng)元,但不返回序列。在LSTM 層之間插入Dropout 層,不但防止了過擬合,而且增強(qiáng)了模型的泛化能力。輸出層是一個(gè)全連接的密集層,產(chǎn)生預(yù)測的生產(chǎn)序列(圖1)。
圖1 產(chǎn)量預(yù)測模型架構(gòu)圖
在訓(xùn)練期間,涉及到數(shù)據(jù)通過網(wǎng)絡(luò)的前向、后向傳播,用Adam 優(yōu)化器進(jìn)行權(quán)重更新。其中,Epoch 數(shù)量、神經(jīng)元和批量大小等超參數(shù)直接影響著整個(gè)DLSTM的性能。GA 常被用于尋找最優(yōu)解、優(yōu)化問題和參數(shù)調(diào)優(yōu)等領(lǐng)域。為了最優(yōu)化超參數(shù)配置,采用GA 來有效探索超參數(shù)空間并輸出最大化預(yù)測精度的最佳配置。GA通過模擬自然界的進(jìn)化過程,不斷選擇、交叉和變異逐步優(yōu)化模型的Epoch 數(shù)量、神經(jīng)元和批量大小等超參數(shù)的配置方案。GA 通過在超參數(shù)空間中搜索,逐步改進(jìn)LSTM 模型的性能。該方法通過自動化調(diào)參過程,不但節(jié)省了時(shí)間和精力,而且準(zhǔn)確的優(yōu)化了模型配置。但是GA 的性能還取決于參數(shù)的選擇和適應(yīng)度函數(shù)。隨后,通過將最小化預(yù)測生產(chǎn)值和實(shí)際生產(chǎn)值之間的均方誤差損失作為目標(biāo)函數(shù),采用多個(gè)LSTM 層來有效捕獲油井生產(chǎn)數(shù)據(jù)中固有的復(fù)雜時(shí)間依賴性,構(gòu)建DLSTM 架構(gòu)。并且DLSTM 模型集成了Dropout 層,能夠防止過度擬合,確保模型的泛化能力。隨后,通過DLSTM 模型對歷史生產(chǎn)數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測。
采用均方根誤差[12](RMSE)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)性能指標(biāo)對該模型預(yù)測效果進(jìn)行評估。RMSE 是一種常用的統(tǒng)計(jì)指標(biāo),用于評估預(yù)測模型的性能,尤其是在回歸和預(yù)測任務(wù)中。它通過計(jì)算的平方根來量化預(yù)測值和觀測值(實(shí)際值)之間的差異。由于不同尺度的序列的誤差不能直接用來對比,基于RMSE 更為合理。
在DLSTM[13]的油氣井產(chǎn)量預(yù)測優(yōu)化方法中,RMSE將用于量化預(yù)測和觀測石油產(chǎn)量值之間的差異。RMSE值越小,模型預(yù)測的能力越強(qiáng)。
均方根百分比誤差(RMSPE)是一種統(tǒng)計(jì)指標(biāo),也用于衡量預(yù)測模型的準(zhǔn)確性。它量化了預(yù)測值和觀測值(實(shí)際值)之間的相對差異,同時(shí)考慮了觀測值的大小。針對比較不同預(yù)測性能縮放的數(shù)據(jù)集,最常用的就是RMSPE。首先,計(jì)算預(yù)測值和觀測值之間的平均平方百分比差。然后,取結(jié)果的平方根。平方百分比差異通過觀察值的幅度來縮放,以確保度量對相對誤差而不是絕對誤差敏感。通過比較預(yù)測的石油產(chǎn)量值與實(shí)際觀測值,來評估DLSTM 模型的準(zhǔn)確性。
DLSTM 作為油氣井產(chǎn)量預(yù)測模型,優(yōu)點(diǎn)在于捕捉長期依賴關(guān)系和解決梯度消失的問題,同時(shí)能夠提高預(yù)測的準(zhǔn)確度。以華北油田某區(qū)塊生產(chǎn)數(shù)據(jù)為例,運(yùn)用DLSTM 進(jìn)行產(chǎn)量預(yù)測。該模型基于Keras 深度學(xué)習(xí)框架,損失函數(shù)設(shè)置為RMSE 函數(shù),架構(gòu)為兩層LSTM層,一層Dropout 層,一層輸出層,并用GA 優(yōu)化預(yù)測模型中的超參數(shù)(Epoch 數(shù)量、神經(jīng)元數(shù)量和批量大小)配置方案。
該實(shí)驗(yàn)運(yùn)用DLSTM 產(chǎn)量預(yù)測優(yōu)化模型,分別選取隱藏單元(Hidden units)、迭代輪次(Epoch)、序列長度(Look back)兩組數(shù)據(jù)對預(yù)測的準(zhǔn)確度進(jìn)行對比。當(dāng)DLSTM 產(chǎn)量預(yù)測模型架構(gòu)較簡潔時(shí),數(shù)據(jù)越多,步長越小,對短期預(yù)測越準(zhǔn)確;當(dāng)DLSTM 產(chǎn)量預(yù)測模型架構(gòu)較復(fù)雜時(shí),需要數(shù)據(jù)量大,對長期預(yù)測更準(zhǔn)確(表1、圖2)。
表1 不同規(guī)模參數(shù)及測試集均方根誤差、測試集均方根百分比誤差
圖2 不生產(chǎn)數(shù)據(jù)與深度長短期記憶神經(jīng)網(wǎng)絡(luò)油氣井產(chǎn)量模型預(yù)測數(shù)據(jù)對比圖
根據(jù)表1 實(shí)驗(yàn)數(shù)據(jù)可知,隱藏單元為4,迭代輪次為1 000,序列長度為5 時(shí),DLSTM 油氣井產(chǎn)量預(yù)測測試集RMSE 低至0.221。由此可見,該模型預(yù)測具備產(chǎn)量預(yù)測的有效性以及捕獲復(fù)雜時(shí)間特征的準(zhǔn)確性。
基于深度長短期記憶神經(jīng)網(wǎng)絡(luò)(DLSTM)油氣井產(chǎn)量預(yù)測模型,集成了數(shù)據(jù)預(yù)處理、DLSTM 架構(gòu)、超參數(shù)配置優(yōu)化等模塊,同時(shí)捕獲了潛在的長期依賴關(guān)系和時(shí)間復(fù)雜性,提高了油氣井產(chǎn)量預(yù)測的準(zhǔn)確性。該油氣井產(chǎn)量預(yù)測模型:
(1)捕獲了長期依賴關(guān)系和時(shí)間特征,適用于對油氣井生產(chǎn)數(shù)據(jù)的動態(tài)行為進(jìn)行建模;
(2)使網(wǎng)絡(luò)能夠?qū)W習(xí)分層特征并捕獲油氣井生產(chǎn)數(shù)據(jù)短期[14]波動和長期趨勢;
(3)多個(gè)長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)層結(jié)合Dropout層,避免過度擬合,同時(shí)提高了產(chǎn)量預(yù)測的準(zhǔn)確性;
(4)能處理油氣井生產(chǎn)數(shù)據(jù)的非線性關(guān)系,捕獲了復(fù)雜的油氣井生產(chǎn)開發(fā)過程。
DLSTM 架構(gòu)通過捕獲數(shù)據(jù)中的時(shí)間依賴特征和復(fù)雜線性關(guān)系來增強(qiáng)油氣井產(chǎn)量預(yù)測效果,有助于提高準(zhǔn)確性和泛化性。未來可進(jìn)一步的研究和探索混合模型和其他數(shù)據(jù)源,以提高該方法的穩(wěn)健性。