付豪 方全堂 杜一鶴
1. 中國(guó)石化西北油田分公司完井測(cè)試管理中心 新疆 輪臺(tái) 841600
2. 西南石油大學(xué)石油與天然氣工程學(xué)院 四川 成都 610500
與常規(guī)氣藏相比,致密氣藏具有儲(chǔ)量豐富的特點(diǎn),將成為我國(guó)能源結(jié)構(gòu)轉(zhuǎn)型的重要支點(diǎn)。但是致密氣藏具有單井控制儲(chǔ)量少、產(chǎn)量低、遞減快的特點(diǎn),使得制定開(kāi)發(fā)決策難度大,效益開(kāi)發(fā)成本高,所以迫切需要針對(duì)致密氣藏進(jìn)行產(chǎn)能預(yù)測(cè)。由于受到了傳統(tǒng)產(chǎn)能預(yù)測(cè)方法的諸多限制,氣井產(chǎn)能準(zhǔn)確預(yù)測(cè)難度較大,氣田產(chǎn)量評(píng)價(jià)的適應(yīng)性差,相同預(yù)測(cè)方法在不同類型氣井之間存在較大誤差,跟時(shí)間序列相關(guān)性不強(qiáng),得到的預(yù)測(cè)結(jié)果說(shuō)服力不足。以日產(chǎn)氣量作為時(shí)間序列,分別建立長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)和基于卡爾曼平滑算法的自回歸差分移動(dòng)平均模型(ARIMARTS)氣井產(chǎn)量預(yù)測(cè)模型?;谙嚓P(guān)參數(shù)對(duì)模型的影響,以四川某氣田生產(chǎn)數(shù)據(jù)為例,對(duì)比和討論了兩種模型在致密氣藏產(chǎn)能預(yù)測(cè)中的適用性。
LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),解決了傳統(tǒng)中文全稱(RNN)中的梯度消失和爆炸問(wèn)題,適用于序列數(shù)據(jù)。核心思想是引入輸入門(mén)、遺忘門(mén)、輸出門(mén)來(lái)控制信息流動(dòng),通過(guò)學(xué)習(xí)得到權(quán)重控制信息傳遞。LSTM還有記憶單元,在輸入門(mén)和遺忘門(mén)的控制下,更新和保留長(zhǎng)期記憶[1]。
ARIMA-RTS是ARIMA模型結(jié)合遞歸最小二乘法的時(shí)間序列分析方法。ARIMA適用于帶有趨勢(shì)和季節(jié)性的數(shù)據(jù)預(yù)測(cè)與分析。ARIMA模型包含自回歸(AR)、差分(I)和移動(dòng)平均(MA)部分。通過(guò)ARIMA對(duì)時(shí)間序列進(jìn)行建模預(yù)測(cè)。然后,通過(guò)遞歸最小二乘法(RTS)優(yōu)化參數(shù),考慮數(shù)據(jù)誤差,減少參數(shù)估計(jì)偏差[2]。
對(duì)于一組關(guān)于時(shí)間序列變化的數(shù)據(jù)處理,首先需要對(duì)異常值進(jìn)行處理,采用統(tǒng)計(jì)判別法中的肖維勒準(zhǔn)則對(duì)數(shù)據(jù)集進(jìn)行處理。肖維勒準(zhǔn)則以正態(tài)分布為前提,假設(shè)多次重復(fù)所得n次測(cè)量值中,某個(gè)測(cè)量值的殘余誤差|vi|≥Zcσ,則刪除此數(shù)據(jù)。由于數(shù)據(jù)集的數(shù)據(jù)之間,存在量綱不同,且數(shù)值之間的差距很大,在利用矩陣實(shí)驗(yàn)室(matlab)平臺(tái)進(jìn)行編程的過(guò)程中存在諸多不便,針對(duì)異常數(shù)據(jù)進(jìn)行處理之后,采用最大最小值(min-max)標(biāo)準(zhǔn)歸一化方法處理數(shù)據(jù)集,以此來(lái)降低誤差,提高預(yù)測(cè)準(zhǔn)確度。另外,采用均方誤差(MSE)誤差計(jì)算公式對(duì)LSTM和ARIM進(jìn)行誤差分析。
為了保證LSTM模型的準(zhǔn)確性和穩(wěn)定性,采用靜態(tài)約束條件和動(dòng)態(tài)約束條件對(duì)模型進(jìn)行約束,選擇儲(chǔ)層厚度、孔隙度、滲透率和含氣飽和度作為靜態(tài)約束條件,選擇水氣比、井口油壓和單井剩余可采儲(chǔ)量為動(dòng)態(tài)約束條件。長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)模型在循環(huán)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,引入了三個(gè)門(mén)函數(shù)來(lái)解決循環(huán)神經(jīng)網(wǎng)絡(luò)中存在的梯度爆炸的問(wèn)題。具體的計(jì)算步驟為:(1)導(dǎo)入處理后的訓(xùn)練數(shù)據(jù),并將其進(jìn)行歸一化;(2)生成訓(xùn)練數(shù)據(jù)集;(3)輸入相關(guān)參數(shù)的種類與個(gè)數(shù),包括輸入變量個(gè)數(shù),隱含層的層數(shù)以及輸出變量個(gè)數(shù);(4)初始化LSTM神經(jīng)網(wǎng)絡(luò)權(quán)重,調(diào)整輸入門(mén)(Input Gate),遺忘門(mén)(Forget Gate),輸出門(mén)(Output Gate)相關(guān)門(mén)函數(shù);(5)進(jìn)行學(xué)習(xí)訓(xùn)練和繪制Error-Cost曲線圖;(6)訓(xùn)練集驗(yàn)證和進(jìn)行預(yù)測(cè)。
產(chǎn)量預(yù)測(cè)需要對(duì)預(yù)測(cè)結(jié)果的準(zhǔn)確性與穩(wěn)定性、對(duì)訓(xùn)練集的擬合效果準(zhǔn)確性進(jìn)行要求,采用了擬合平均相對(duì)誤差和預(yù)測(cè)平均相對(duì)誤差進(jìn)行評(píng)價(jià),相對(duì)誤差越小,證明該模型預(yù)測(cè)越準(zhǔn)確。根據(jù)數(shù)據(jù)集的量,分別調(diào)整了學(xué)習(xí)率、隱藏節(jié)點(diǎn)數(shù)、訓(xùn)練步數(shù)和序列長(zhǎng)度的數(shù)值,首先對(duì)隱藏節(jié)點(diǎn)參數(shù)進(jìn)行訓(xùn)練,再用MSE誤差進(jìn)行分析,隱藏節(jié)點(diǎn)數(shù)分別為8,16,32,64,128,256,得到誤差分析見(jiàn)圖1(a),從圖中可以得知,隨著隱藏節(jié)點(diǎn)數(shù)的增加,訓(xùn)練時(shí)間也相應(yīng)增加,當(dāng)隱藏節(jié)點(diǎn)數(shù)為16的時(shí)候,MSE誤差最小。所以設(shè)置隱藏節(jié)點(diǎn)數(shù)為16,調(diào)整序列長(zhǎng)度,設(shè)置序列長(zhǎng)度為2,4,6,8,10,相應(yīng)MSE誤差和訓(xùn)練時(shí)間見(jiàn)圖1(b),從圖中可以發(fā)現(xiàn),當(dāng)序列長(zhǎng)度為10的時(shí)候,MSE誤差最小,所以設(shè)置隱藏節(jié)點(diǎn)數(shù)16,序列長(zhǎng)度為10,調(diào)整訓(xùn)練步數(shù),設(shè)置訓(xùn)練步數(shù)為100,400,500,600,1000,相應(yīng)MSE誤差和訓(xùn)練時(shí)間見(jiàn)圖1(c)。
圖1 MSE誤差和訓(xùn)練時(shí)間分析
綜上所示,LSTM模型隱藏節(jié)點(diǎn)數(shù),序列長(zhǎng)度,訓(xùn)練步數(shù)分別為:16,10,500。采用現(xiàn)場(chǎng)4口井的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和泛化度測(cè)試,訓(xùn)練和測(cè)試效果見(jiàn)圖2,從圖中可以發(fā)現(xiàn),LSTM模型的訓(xùn)練效果較為良好,能夠有效展現(xiàn)原始數(shù)據(jù)的變化趨勢(shì),并且也能夠有效減少了噪聲的干擾。
圖2 LSTM模型訓(xùn)練效果
ARIMA-RTS模型將日產(chǎn)氣量這一單一因素作為輸入?yún)?shù),預(yù)測(cè)日產(chǎn)氣量作為輸出參數(shù)。首先在數(shù)據(jù)進(jìn)行預(yù)處理時(shí),由于ARIMA-RTS模型針對(duì)平滑數(shù)值曲線的處理較好,所以需要額外重視填充缺失值。ARIMA-RTS模型需要時(shí)間序列滿足平穩(wěn)性和非白噪聲的要求,主要采用差分法和平滑法來(lái)實(shí)現(xiàn)序列的平穩(wěn)性操作,平滑法適合帶有周期性穩(wěn)步上升趨勢(shì)的數(shù)據(jù)集。一般而言,只需要對(duì)時(shí)間序列進(jìn)行一階差分,將實(shí)現(xiàn)序列的平穩(wěn)性。隨后,利用單位根檢驗(yàn)(ADF)檢驗(yàn)序列的平穩(wěn)性,再利用白噪聲檢驗(yàn)判斷序列是否為隨機(jī)性序列,統(tǒng)計(jì)量的P值小于顯著性水平0.05,認(rèn)為序列為非白噪聲序列。再利用拖尾和截尾確定自相關(guān)函數(shù)(ACF)和偏自相關(guān)函數(shù)(PACF),ACF和PACF用以確定p,q。最后建立ARIMA-RTS模型,進(jìn)行日產(chǎn)氣量參數(shù)預(yù)測(cè)。
ARIMA-RTS模型的參數(shù)選擇較為復(fù)雜,分別采用ADF、ACF和PACF確定d,p,q的值,利用matlab建立ARIMA-RTS參數(shù)判斷模型,對(duì)相關(guān)參數(shù)進(jìn)行判斷。從圖3(a)、(b)中可以得到,p=2,q=2,d=1。然后,對(duì)現(xiàn)場(chǎng)數(shù)據(jù)進(jìn)行殘差檢驗(yàn),具體結(jié)果見(jiàn)圖3(c)。
圖3 ARIMA-RTS模型參數(shù)p,q圖及殘差檢驗(yàn)
為了更進(jìn)一步體現(xiàn)ARIMA-RTS模型的適用性,本文針對(duì)數(shù)據(jù)模型情況和數(shù)據(jù)集平滑性,調(diào)整相關(guān)方差,得到了4口井的ARIMA-RTS模型擬合檢驗(yàn)見(jiàn)圖4,結(jié)果發(fā)現(xiàn),模型擬合結(jié)果較好,符合預(yù)期。
圖4 ARIMA-RTS模型擬合檢驗(yàn)
根據(jù)生產(chǎn)數(shù)據(jù)的完整性、準(zhǔn)確性和數(shù)據(jù)規(guī)模,用于對(duì)比兩種模型之間的預(yù)測(cè)效果,選取了四川盆地某氣田XC3井。XC3井已開(kāi)井生產(chǎn)2875天,生產(chǎn)數(shù)據(jù)較為充實(shí),數(shù)據(jù)量完整,對(duì)數(shù)據(jù)集進(jìn)行平滑之后,利于神經(jīng)網(wǎng)絡(luò)和ARIMA-RTS模型進(jìn)行產(chǎn)能預(yù)測(cè)。以現(xiàn)有生產(chǎn)數(shù)據(jù)作為訓(xùn)練集和驗(yàn)證集,建立與時(shí)間序列相關(guān)的LSTM、ARIMA-RTS產(chǎn)量預(yù)測(cè)模型,對(duì)未來(lái)375天的氣井產(chǎn)量進(jìn)行預(yù)測(cè)。
利用建立的LSTM產(chǎn)量預(yù)測(cè)模型和ARIMA-RTS產(chǎn)量預(yù)測(cè)模型對(duì)XC3井2500天~2875天的產(chǎn)氣量進(jìn)行了預(yù)測(cè)。對(duì)LSTM模型,采用0~2500天的生產(chǎn)數(shù)據(jù)對(duì)其進(jìn)行訓(xùn)練,保證參數(shù)的精確度,以此保證訓(xùn)練的穩(wěn)定性以及預(yù)測(cè)的準(zhǔn)確性。對(duì)ARIMA-RTS模型進(jìn)行數(shù)據(jù)擬合,保證模型的準(zhǔn)確度。將原始數(shù)據(jù)與LSTM模型預(yù)測(cè)數(shù)據(jù)和ARIMA-RTS模型預(yù)測(cè)數(shù)據(jù)進(jìn)行了對(duì)比,結(jié)果見(jiàn)圖5,從圖中可以發(fā)現(xiàn),對(duì)于原始數(shù)據(jù)集而言,LSTM模型的預(yù)測(cè)更加平穩(wěn),而ARIMA-RTS模型在較多位置易出現(xiàn)數(shù)值突變的現(xiàn)象,但是兩種模型的預(yù)測(cè)數(shù)據(jù)基本上都在原始數(shù)據(jù)集附近,準(zhǔn)確度都較高。
圖5 ARIMA-RTS和LSTM模型預(yù)測(cè)結(jié)果對(duì)比
從兩種模型MSE誤差和預(yù)測(cè)時(shí)間得知,LSTM模型的均方誤差為0.89%,較為準(zhǔn)確的預(yù)測(cè)了2500~2875天的產(chǎn)氣量,預(yù)測(cè)時(shí)間較長(zhǎng)(554.28s),而ARIMA-RTS模型均方誤差在2.6%,也比較準(zhǔn)確地預(yù)測(cè)了2500~2875天的產(chǎn)氣量,且預(yù)測(cè)時(shí)間較短(20.15s)。
通過(guò)基于機(jī)器學(xué)習(xí)的LSTM模型和基于數(shù)據(jù)挖掘原理的ARIMA-RTS模型,我們對(duì)XC3井第2500天~第2875天的產(chǎn)量進(jìn)行預(yù)測(cè)。LSTM模型表現(xiàn)較好,MSE誤差為0.89%,但耗時(shí)和復(fù)雜性較高。而ARIMA-RTS模型MSE誤差為2.6%,整體精度仍滿足要求,耗時(shí)少且簡(jiǎn)單。