張蕾,竇宏恩,王天智,王洪亮,彭翼,張繼風(fēng),劉宗尚,米蘭,蔣麗維
(1.中國石油勘探開發(fā)研究院,北京 100083;2.大慶油田勘探開發(fā)研究院,黑龍江大慶 163000)
油井產(chǎn)量是油田開發(fā)的首要指標(biāo),預(yù)測產(chǎn)量變化是油田開發(fā)動態(tài)分析的關(guān)鍵環(huán)節(jié)。單井產(chǎn)量變化受儲集層性質(zhì)、措施等諸多因素影響,合理考慮各因素影響規(guī)律、準(zhǔn)確把握產(chǎn)量變化特點(diǎn)是實(shí)現(xiàn)單井產(chǎn)量準(zhǔn)確預(yù)測的關(guān)鍵。相較遞減曲線、油藏?cái)?shù)值模擬等傳統(tǒng)產(chǎn)量預(yù)測方法,機(jī)器學(xué)習(xí)方法具有強(qiáng)大的非線性擬合能力和高效率,在產(chǎn)量預(yù)測方面具有極大的應(yīng)用潛力。
近20年來,國內(nèi)外基于機(jī)器學(xué)習(xí)對產(chǎn)量預(yù)測問題開展了廣泛的研究[1-3],常見方法如隨機(jī)森林(RF)[4]、支持向量機(jī)(SVM)[5-6]、模糊綜合評價(jià)(FE)[7]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[8]等,它們通過回歸產(chǎn)量及其影響因素之間的關(guān)系完成預(yù)測,但缺乏對產(chǎn)量時(shí)序變化規(guī)律的考慮。2015年以來,以長短時(shí)記憶(LSTM)、門控遞歸單元(GRU)為代表的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)成為產(chǎn)量預(yù)測領(lǐng)域的新熱點(diǎn)[9-10],較SVM、RF等經(jīng)典算法,RNN著重考慮了產(chǎn)量序列的時(shí)序變化規(guī)律,雖然訓(xùn)練時(shí)長有較大增加,但產(chǎn)量預(yù)測精度得到了進(jìn)一步的提高。
對于多影響因素、長時(shí)間跨度、多序列并行的單井產(chǎn)量預(yù)測,前人僅使用少數(shù)幾個(gè)特征構(gòu)建模型。若要進(jìn)一步提高單井產(chǎn)量預(yù)測精度,需全面考慮動靜態(tài)影響因素,構(gòu)建多特征的產(chǎn)量預(yù)測模型。當(dāng)特征數(shù)據(jù)增多時(shí),RNN難以兼具對高維空間信息和時(shí)序信息的提取,模型預(yù)測精度受限,故有必要采用一種新算法實(shí)現(xiàn)對單井產(chǎn)量的準(zhǔn)確預(yù)測。時(shí)域卷積神經(jīng)網(wǎng)絡(luò)(TCN)是一種可以處理時(shí)序信息的卷積神經(jīng)網(wǎng)絡(luò)(CNN),CNN的基礎(chǔ)結(jié)構(gòu)使它在擬合單井產(chǎn)量時(shí)序關(guān)聯(lián)的同時(shí)可以從諸多特征中提取出關(guān)鍵特征,實(shí)現(xiàn)精準(zhǔn)的單井產(chǎn)量預(yù)測。
基于此,本文提出使用TCN構(gòu)建模型進(jìn)行水驅(qū)油藏單井產(chǎn)量預(yù)測。首先綜合考慮儲集層、注水、措施等動靜態(tài)因素構(gòu)建數(shù)據(jù)集,針對數(shù)據(jù)特點(diǎn)進(jìn)行數(shù)據(jù)空缺填充和數(shù)據(jù)異常校正。然后針對油井各階段生產(chǎn)規(guī)律復(fù)雜、難以捕捉的難點(diǎn),依據(jù)油井含水率劃分生產(chǎn)階段分別建模,使用麻雀搜索算法(SSA)進(jìn)行模型超參數(shù)尋優(yōu),最終將階段模型集成為全生命周期模型實(shí)現(xiàn)全井預(yù)測。
TCN是以膨脹的因果卷積層為基礎(chǔ)結(jié)構(gòu)、以時(shí)間序列為輸入的卷積神經(jīng)網(wǎng)絡(luò)模型[11]。因果卷積指左填充的一維卷積神經(jīng)網(wǎng)絡(luò),它賦予了TCN時(shí)間約束特性,使其適應(yīng)于時(shí)序問題。膨脹卷積指依一定規(guī)律增加卷積層步幅后的卷積層,它可以顯著提高卷積神經(jīng)網(wǎng)絡(luò)感受野,使TCN可以抓取更長的時(shí)序依賴關(guān)系,解決了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)對時(shí)序的建模長度受限于卷積核大小的問題。對于長輸入的任務(wù),在TCN中引入殘差連接可顯著降低覆蓋全部輸入所需的卷積層層數(shù)或卷積核大小。為防止因網(wǎng)絡(luò)層數(shù)過多而導(dǎo)致的梯度消失/爆炸問題,可在每一層卷積網(wǎng)絡(luò)后添加權(quán)重歸一化。相較LSTM等循環(huán)神經(jīng)網(wǎng)絡(luò),TCN的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使其具有可并行、收斂快、跨時(shí)域的特點(diǎn)。
使用適當(dāng)?shù)膬?yōu)化算法可以快速篩選出神經(jīng)網(wǎng)絡(luò)模型的最佳超參數(shù),極大地提高模型構(gòu)建效率。
SSA是一種模擬自然規(guī)律的群體優(yōu)化方法[12],從麻雀的群體智慧、覓食行為和反捕食行為出發(fā),將潛在的超參數(shù)組合設(shè)定為麻雀的位置,不同位置的麻雀具有不同的適應(yīng)度(即該超參數(shù)組合下模型的預(yù)測精度)。依照一定規(guī)律將麻雀分為生產(chǎn)者、覓食者和發(fā)現(xiàn)者3類,3類麻雀會在每一次迭代中改變位置、交換身份。給定最大迭代次數(shù)、生產(chǎn)者數(shù)量、發(fā)現(xiàn)者數(shù)量、麻雀總數(shù)和安全閾值,經(jīng)過有限次位置迭代,適應(yīng)度最高的麻雀的位置將是最佳的超參數(shù)組合。
大慶長垣油田某水驅(qū)區(qū)塊具有 60多年的開發(fā)歷史,為典型中高滲砂巖油藏,目前該區(qū)塊油井已普遍進(jìn)入高含水及特高含水階段,部分井含水率超過98%。自1960年采用基礎(chǔ)井網(wǎng)投入開發(fā)以來,該區(qū)塊經(jīng)歷了井網(wǎng)調(diào)整、全面轉(zhuǎn)抽、三次加密、“二三結(jié)合”、壓裂酸化等多種增產(chǎn)措施,厚油層底部水洗程度高,注入水低效循環(huán)。由于開發(fā)井網(wǎng)密集、注采關(guān)系復(fù)雜、增產(chǎn)措施頻繁,常規(guī)動態(tài)分析方法誤差較大,數(shù)值模擬應(yīng)用困難、收斂較差。
選取油藏基礎(chǔ)數(shù)據(jù)、區(qū)塊基礎(chǔ)數(shù)據(jù)、520口油水井的單井儲集層數(shù)據(jù)和單井基礎(chǔ)數(shù)據(jù)、426口油井的月度生產(chǎn)數(shù)據(jù)、94口水井的月度注水?dāng)?shù)據(jù)、單井措施數(shù)據(jù)構(gòu)建數(shù)據(jù)集,其中油井月度生產(chǎn)數(shù)據(jù)平均時(shí)間跨度406個(gè)月,共計(jì)173 187條。
2.2.1 數(shù)據(jù)填充與降維
空缺填充和異常樣本校正是構(gòu)建高質(zhì)量數(shù)據(jù)集的關(guān)鍵環(huán)節(jié),數(shù)據(jù)填補(bǔ)、校正質(zhì)量與模型預(yù)測精度直接相關(guān)。針對數(shù)據(jù)集中靜壓、流壓、動液面 3項(xiàng)特征部分?jǐn)?shù)據(jù)缺失的問題,提出基于隨機(jī)森林模型的空缺填充方法。首先計(jì)算預(yù)填充特征與其他特征的斯皮爾曼相關(guān)性系數(shù),篩選相關(guān)性系數(shù)大于0.2或小于-0.2的特征;其次建立影響特征與預(yù)填充特征的隨機(jī)森林模型,使用已有數(shù)據(jù)進(jìn)行模型訓(xùn)練;最后輸入缺失數(shù)據(jù)的主控因素進(jìn)行模型預(yù)測,模型預(yù)測值即為填充值。
針對泵徑、泵深和油嘴 3項(xiàng)特征部分?jǐn)?shù)據(jù)存在異常零值的情況,采取向前/向后看齊的校正策略,即對于異常數(shù)據(jù),在該井井史范圍內(nèi)從當(dāng)前時(shí)間步同時(shí)向前向后尋找非零正常數(shù)據(jù),使用先找到的非零正常數(shù)據(jù)替代該時(shí)間步的異常零值。對于某項(xiàng)特征數(shù)據(jù)全缺失的井,使用與該井距離最近井的特征平均值填充。若有多個(gè)特征全缺失的井,酌情取舍。
為得到更準(zhǔn)確的模型預(yù)測結(jié)果,需適時(shí)進(jìn)行特征壓縮,以提高特征質(zhì)量、控制特征數(shù)量。數(shù)據(jù)集中靜態(tài)特征較多,包括類別特征和數(shù)值特征,其中類別特征經(jīng)獨(dú)熱編碼處理后表現(xiàn)為高維的稀疏0-1矩陣,為防止類別特征淹沒在密集變化的數(shù)值特征中,分別以95%置信度使用主成分分析法(PCA)對類別特征和數(shù)值特征進(jìn)行降維,最終形成33維的靜態(tài)壓縮特征。
2.2.2 數(shù)據(jù)整合
本文動態(tài)數(shù)據(jù)主要包括油井生產(chǎn)序列、水井注水序列、小層措施序列3類,為符合模型輸入數(shù)據(jù)格式,應(yīng)將描述注水和措施的序列整合至油井生產(chǎn)序列中。
為整合水井注水序列至油井生產(chǎn)序列,提出注水井影響半徑法,定義油井當(dāng)月受注水井影響程度It,i并將其作為特征增加到數(shù)據(jù)集中。注水井影響半徑由It,i與產(chǎn)油量之間的斯皮爾曼相關(guān)性系數(shù)確定,本文選取相關(guān)性系數(shù)最高的1 000 m作為影響半徑。以水井為圓心、以影響半徑為半徑劃出影響范圍,在影響范圍內(nèi)的油井即為受注井。
對小層措施數(shù)據(jù)進(jìn)行合并、數(shù)值化處理。在數(shù)據(jù)集中添加壓裂、堵水等 6項(xiàng)類別特征和措施層厚度 1項(xiàng)數(shù)值特征。若油井的某小層進(jìn)行了某類措施作業(yè),則該月對應(yīng)類別特征記錄為1,措施層厚度則記錄為作業(yè)小層厚度的和。
整合后最終數(shù)據(jù)集特征包括注水特征、措施特征、油井靜態(tài)特征和生產(chǎn)動態(tài)特征 4部分。此外,對輸入序列進(jìn)行標(biāo)準(zhǔn)化處理、對產(chǎn)量序列進(jìn)行平滑處理,以增加模型平穩(wěn)度、降低擬合難度。
在本文數(shù)據(jù)集的70余項(xiàng)特征中,部分描述油藏構(gòu)造和區(qū)塊參數(shù)的特征對單井產(chǎn)量預(yù)測作用不大,故去除油藏類型、沉積相等10余項(xiàng)特征,經(jīng)特征工程處理后形成65項(xiàng)最終特征。計(jì)算65項(xiàng)特征之間的斯皮爾曼相關(guān)性系數(shù)并繪制熱力圖,以顏色的深淺表示特征相關(guān)性的強(qiáng)弱,紅色為正相關(guān)、藍(lán)色為負(fù)相關(guān)(見圖1)。編號No.0—No.32的特征為降維處理后表示單井地質(zhì)、工程特點(diǎn)的抽象特征,由于其在時(shí)間上不變,整體呈弱相關(guān)性,如 A-1、A-2區(qū)域所示。B-1、B-2區(qū)域特征為壓裂、堵水、維護(hù)、補(bǔ)孔、酸化等措施特征,其在數(shù)值上表現(xiàn)為稀疏的0-1矩陣,故相比數(shù)值特征呈現(xiàn)出極弱的相關(guān)性。對于預(yù)測目標(biāo)月度產(chǎn)油量,與其相關(guān)性最強(qiáng)的特征依次為月度產(chǎn)氣量、日期、采收率、月度產(chǎn)液量、泵深、油嘴尺寸、含水率、泵徑、No.7、月度產(chǎn)水量等。
圖1 特征相關(guān)性分析(No.0—No.32為類別特征和數(shù)值特征經(jīng)過PCA降維后的抽象特征)
在油井長達(dá)60年的生產(chǎn)歷史中,產(chǎn)量變化存在顯著的階段性,為準(zhǔn)確把握不同生產(chǎn)階段油井產(chǎn)量的變化特點(diǎn),需要劃分階段、分別建模。本文依據(jù)油井含水率變化規(guī)律編寫算法自動劃分單井生產(chǎn)歷程,fw<30%,30%≤fw<60%,60%≤fw≤80%,fw>80%分別對應(yīng)低、中、高、特高含水階段(見圖2)。由于含水率數(shù)據(jù)存在不連續(xù)或突變,而生產(chǎn)階段相對連續(xù),在對訓(xùn)練集進(jìn)行階段劃分前應(yīng)對含水率序列進(jìn)行階梯化處理。建立 4個(gè)階段預(yù)測模型然后集成,預(yù)測時(shí)給定輸入各月生產(chǎn)階段判斷權(quán)重,確定待預(yù)測月所處生產(chǎn)階段,然后由相應(yīng)階段模型進(jìn)行預(yù)測,最終的全生命周期預(yù)測結(jié)果由各階段預(yù)測結(jié)果拼接得到。
圖2 生產(chǎn)歷程劃分示意圖
不同生產(chǎn)階段月度產(chǎn)油量主控因素也會有差異,需要計(jì)算4個(gè)生產(chǎn)階段月產(chǎn)油量與其他特征的相關(guān)性系數(shù),篩取相關(guān)性系數(shù)大于0.2或小于-0.2的特征分別構(gòu)建輸入數(shù)據(jù)集,各階段模型最終輸入特征如圖3所示。
圖3 各生產(chǎn)階段月度產(chǎn)油量與影響特征的相關(guān)性系數(shù)
以井為單元劃分?jǐn)?shù)據(jù)集:341口油井用于模型訓(xùn)練,43口油井構(gòu)成驗(yàn)證集用于進(jìn)行超參數(shù)的尋優(yōu),42口油井構(gòu)成測試集用于模型測試。采用時(shí)間滑窗方法生成輸入數(shù)據(jù),指定輸入步長和輸出步長,分別構(gòu)建適應(yīng)于各個(gè)模型的輸入和標(biāo)簽。
針對單井產(chǎn)量預(yù)測特征數(shù)量多、時(shí)間步長短、數(shù)據(jù)體量小等特點(diǎn),對TCN模型做3個(gè)方面的改進(jìn):①在時(shí)間卷積層前堆疊卷積核大小為 1的一維卷積層,提取特征;②不使用膨脹卷積和殘差連接,設(shè)置因果卷積層卷積核大小為輸入時(shí)間步長,步幅為1;③使用因果卷積層輸出中最后一個(gè)時(shí)間步的值進(jìn)行最終預(yù)測。改進(jìn)后的TCN模型結(jié)構(gòu)見圖4。
圖4 改進(jìn)后的TCN模型結(jié)構(gòu)圖
使用SSA進(jìn)行模型超參數(shù)尋優(yōu),最大迭代次數(shù)為50、生產(chǎn)者數(shù)量為20、發(fā)現(xiàn)者數(shù)量為20、安全閾值為0.8,麻雀總數(shù)為100。以12個(gè)月輸入步長預(yù)測模型為例,TCN模型各層參數(shù)見表1。
表1 改進(jìn)的TCN模型超參數(shù)SSA尋優(yōu)結(jié)果
為全面評價(jià)本文改進(jìn)TCN模型在產(chǎn)量序列預(yù)測中的適應(yīng)性,基于當(dāng)前時(shí)序預(yù)測領(lǐng)域 5種代表性方法,構(gòu)建 11種產(chǎn)量預(yù)測模型進(jìn)行對比,包括:①CNN和LSTM[13]的組合模型 CNN-LSTM;②LSTM 模型;③基于編碼解碼機(jī)結(jié)構(gòu)[14]并在時(shí)間維度添加Luong注意力機(jī)制[15]的LSTM模型,即Attention-LSTM(T);④添加Temporal Pattern Attention[16]機(jī)制實(shí)現(xiàn)對特征注意力的LSTM模型,即Attention-LSTM(F);⑤結(jié)合Luong注意力機(jī)制和Temporal Pattern Attention機(jī)制同時(shí)實(shí)現(xiàn)對時(shí)間和特征注意力的LSTM模型,即Attention-LSTM(T&F);⑥在特征維度添加注意力[17-19]的自注意力機(jī)制模型 Self Attention(F);⑦在時(shí)間維度添加注意力的自注意力機(jī)制模型Self Attention(T);⑧同時(shí)在時(shí)間維度和特征維度添加注意力的自注意力機(jī)制模型Self Attention(T&F);⑨LSTM 和特征維度自注意力機(jī)制的結(jié)合模型Self Attention-LSTM(F);⑩LSTM和時(shí)間維度自注意力機(jī)制的結(jié)合模型 Self Attention-LSTM(T);LSTM和時(shí)間、特征維度自注意力機(jī)制的結(jié)合模型Self Attention-LSTM(T&F)。對比模型超參數(shù)同樣由SSA尋優(yōu)得到。
基于編碼解碼機(jī)結(jié)構(gòu)的模型使用 Teacher Forcing策略進(jìn)行訓(xùn)練。為實(shí)現(xiàn)最佳的訓(xùn)練效果,文中模型優(yōu)化器選擇 Adagrad算法,初始學(xué)習(xí)率均設(shè)為 0.05,并使用ReduceLROnPlateau回調(diào)函數(shù)實(shí)現(xiàn)對學(xué)習(xí)率的控制。為防止過擬合,在模型中應(yīng)用層正則化,并使用EarlyStop回調(diào)函數(shù)控制訓(xùn)練進(jìn)程。為減少模型訓(xùn)練隨機(jī)性帶來的不確定性,模型準(zhǔn)確性評價(jià)結(jié)果來自相同參數(shù)設(shè)置下3次實(shí)驗(yàn)后的平均值。
模型預(yù)測的準(zhǔn)確性采用平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)、復(fù)相關(guān)系數(shù)(R2)和均方根誤差(RMSE)來評價(jià),如(3)—(6)式所示。
應(yīng)用上述12種模型預(yù)測42口采油井的產(chǎn)量,以輸入步長為12個(gè)月、輸出步長為3個(gè)月為例,統(tǒng)計(jì)了第13個(gè)月預(yù)測值的平均絕對誤差(見表2),其中集成模型表示由 4個(gè)階段模型集成的全生命周期模型,單一模型為使用全部數(shù)據(jù)籠統(tǒng)訓(xùn)練的全生命周期模型。由表2可知,改進(jìn)的TCN模型預(yù)測精度最高,集成模型的平均絕對誤差為 17.66 m3,較單一全生命周期模型預(yù)測誤差低3.05 m3。
注意力機(jī)制在機(jī)器翻譯、語音識別等多個(gè)時(shí)間序列預(yù)測任務(wù)中都被證實(shí)對模型預(yù)測能力具有顯著的提升作用[20-23],本文研究了9種添加注意力機(jī)制的模型,但均未取得較高的預(yù)測精度(見表2),這表明注意力機(jī)制對生產(chǎn)數(shù)據(jù)預(yù)測任務(wù)的適應(yīng)性不強(qiáng)。分析認(rèn)為:①對于本文產(chǎn)量預(yù)測任務(wù)而言,決定下一時(shí)刻產(chǎn)量的不是先前某幾個(gè)時(shí)刻的產(chǎn)量及其影響因素,而是一段時(shí)間內(nèi)生產(chǎn)動態(tài)的整體變化趨勢。注意力機(jī)制的引入令模型賦予個(gè)別時(shí)間步較大的權(quán)重,干擾了產(chǎn)量及其影響因素在一段時(shí)間內(nèi)的整體變化趨勢,導(dǎo)致模型預(yù)測精度降低。②LSTM模型已有足夠能力分析12個(gè)月生產(chǎn)動態(tài)數(shù)據(jù),引入的注意力機(jī)制無法發(fā)揮出處理長時(shí)間序列數(shù)據(jù)的優(yōu)勢,反而加大了模型的訓(xùn)練難度,最終降低了模型預(yù)測精度。③在特征維度上引入注意力機(jī)制會增加模型結(jié)構(gòu)的復(fù)雜性和待訓(xùn)練參數(shù)量,隨著模型擬合能力的增加,數(shù)據(jù)集中的弱噪聲會被模型誤學(xué)習(xí)而出現(xiàn)過擬合現(xiàn)象,降低模型的預(yù)測精度。
表2 不同模型第13個(gè)月預(yù)測值的平均絕對誤差對比表
對比 4個(gè)不同生產(chǎn)階段模型發(fā)現(xiàn),所有算法下低含水階段模型的預(yù)測精度均為最低,原因是低含水階段在油井生產(chǎn)歷程中只占據(jù)很小的一部分,樣本數(shù)目不足,模型訓(xùn)練不充分。
隨機(jī)篩選 8口動態(tài)數(shù)據(jù)缺失較多的井進(jìn)行數(shù)據(jù)填充校正效果對比。表3列出了TCN模型分別采用本文方法、使用平均值填充且不進(jìn)行異常數(shù)據(jù)校正的方法、使用插值填充法填充并進(jìn)行異常值校正的方法、使用平均值填充且進(jìn)行異常數(shù)據(jù)校正的方法處理輸入樣本預(yù)測結(jié)果。4個(gè)評價(jià)指標(biāo)均證實(shí)本文數(shù)據(jù)填充校正處理的有效性,輸入樣本平均預(yù)測誤差最小、精確率最高。
表3 TCN模型采用不同填充校正方法處理的輸入樣本預(yù)測結(jié)果對比表
以單一全生命周期模型為例,分別用TCN模型和LSTM 模型驗(yàn)證不同輸入步長對模型預(yù)測精度的影響(見圖 5),在短輸入步長時(shí) TCN模型預(yù)測效果較LSTM模型更好,在長輸入步長時(shí)LSTM模型預(yù)測效果更好。由于本文對油井生產(chǎn)歷程進(jìn)行了劃分,井的平均連續(xù)時(shí)間跨度由406個(gè)月降至103個(gè)月,若使用較長的輸入步長,樣本的數(shù)量會非常少,可預(yù)測的階段幾乎都集中于特高含水階段,應(yīng)用受限。圖 5顯示TCN模型在 12~50個(gè)月的時(shí)間步長范圍內(nèi)預(yù)測精度相近,在保證模型預(yù)測精度的前提下,選擇12個(gè)月的時(shí)間步長以實(shí)現(xiàn)樣本數(shù)量的最大化。
在互聯(lián)網(wǎng)高度普及的情況下,眾多不良信息滲透到我國的高校校園當(dāng)中。這些信息的來源主要有幾個(gè)方面,首先是境外的反華勢力,常常對我國的內(nèi)部發(fā)展指手畫腳,部分西方偽專家針對我國的發(fā)展常常做出一些不負(fù)責(zé)任的批評,一些西方媒體,對于我國國有企業(yè)的發(fā)展十分忌憚,因此在網(wǎng)絡(luò)中時(shí)常出現(xiàn)攻擊我國核心價(jià)值觀的言論,這樣的言論將影響到大學(xué)生的思想建設(shè)。其次是部分反華勢力與分裂勢力不斷聯(lián)合,對一些具體事件不斷歪曲,利用部分人的獵奇心理破壞社會團(tuán)結(jié)。最后在我國經(jīng)濟(jì)的快速發(fā)展的過程中,出現(xiàn)了一些不和諧因素,這些因素的存在也使得網(wǎng)絡(luò)環(huán)境受到影響。
圖5 不同輸入步長下TCN模型和LSTM模型的預(yù)測結(jié)果
4.4.1 堆疊一維卷積核層進(jìn)行特征提取的必要性
表4列出了添加和不添加特征提取層的TCN模型預(yù)測第13、14、15個(gè)月月產(chǎn)油量的誤差評價(jià)結(jié)果。結(jié)果顯示,4個(gè)模型評價(jià)指標(biāo)下,添加特征提取層的模型預(yù)測精度均更高,其中第 1個(gè)預(yù)測值的平均絕對誤差較不添加特征提取層下降了22.8%。對于多因素的時(shí)間序列問題,模型預(yù)測的難點(diǎn)不僅在于捕捉時(shí)間序列的先后聯(lián)系,更在于構(gòu)建先前特征與后續(xù)表現(xiàn)之間的關(guān)系,由此特征的提取就較為必要。
表4 添加和不添加特征提取層的TCN模型3個(gè)預(yù)測值的定量評價(jià)結(jié)果
4.4.2 因果卷積層輸出的選擇
因果卷積層的輸出是長度與輸入時(shí)間步長相同的序列,使用全部輸出做最后的預(yù)測還是使用有限個(gè)步長的輸出作為下一層的輸入對模型預(yù)測精度有較大影響。本文分別對比了使用全輸出、最后1個(gè)月的輸出、最后2個(gè)月的輸出、后6個(gè)月的輸出、后10個(gè)月的輸出5種情況下的預(yù)測結(jié)果。結(jié)果顯示,使用全輸出反而會降低模型預(yù)測精度(見表 5)。因?yàn)樽詈笠粋€(gè)時(shí)間步的輸出已經(jīng)涵蓋了所有前序時(shí)間步的信息,足以完成預(yù)測。
表5 因果卷積層不同輸出步長對模型預(yù)測結(jié)果影響
4.4.3 激活函數(shù)的選擇
LIU等[23]提出在基本的TCN體系結(jié)構(gòu)上添加殘差連接、正則化和激活函數(shù)可以提高其性能。為實(shí)現(xiàn)模型非線性擬合能力,在模型的第 4層添加激活函數(shù)。不同激活函數(shù)下 TCN模型預(yù)測精度對比顯示,本文TCN模型中 softsign激活函數(shù)可取得更好的預(yù)測效果(見表6)。就本文數(shù)據(jù)集而言,由于覆蓋全部輸入所需因果卷積層數(shù)不多,模型不使用殘差連接,同時(shí)也無需進(jìn)行權(quán)重正則化來預(yù)防梯度消失的問題。但為了預(yù)防過擬合,在第3層和第5層后應(yīng)用層正則化。
表6 不同激活函數(shù)下TCN模型預(yù)測結(jié)果對比
圖6 6口隨機(jī)挑選井的預(yù)測產(chǎn)量與真實(shí)產(chǎn)量對比圖(預(yù)測值(13)為模型用前12個(gè)月的歷史數(shù)據(jù)預(yù)測的第13個(gè)月的產(chǎn)量,預(yù)測值(14)為第14個(gè)月的預(yù)測產(chǎn)量,預(yù)測值(15)為第15個(gè)月的預(yù)測產(chǎn)量)
圖6a—圖6c對比了模型對第13個(gè)月、第14個(gè)月、第15個(gè)月的預(yù)測結(jié)果并繪制第13個(gè)月預(yù)測結(jié)果的平均絕對誤差分布。第13個(gè)月預(yù)測結(jié)果與真實(shí)產(chǎn)量曲線基本重疊,預(yù)測效果最好。隨著預(yù)測時(shí)間間隔的增加,預(yù)測曲線與真實(shí)曲線之間的差距明顯加大,且拐點(diǎn)的延滯現(xiàn)象逐漸加劇。誤差分布顯示,較大的誤差往往出現(xiàn)在曲線峰尖處。這是因?yàn)槟P陀?xùn)練的樣本是經(jīng)過平滑處理的產(chǎn)量序列,與未經(jīng)平滑處理的真實(shí)值對比,預(yù)測值變化趨勢較為平緩。
圖6d—圖6f對比了TCN、CNN-LSTM、Attention-LSTM(F)、Self Attention-LSTM(F)、遞減模型5種產(chǎn)量預(yù)測模型預(yù)測結(jié)果。4種機(jī)器學(xué)習(xí)模型的預(yù)測效果均好于遞減模型。TCN、CNN-LSTM模型預(yù)測效果最好,Attention-LSTM(F)模型預(yù)測效果次之,Self Attention-LSTM(F)模型預(yù)測效果最差。遞減模型雖可以對未來產(chǎn)量變化的趨勢作出較準(zhǔn)確的判斷,但對波動性變化預(yù)測不足,只能給出平均的預(yù)測結(jié)果。
綜上所述,本文模型可以實(shí)現(xiàn)對油田單井月產(chǎn)量的高精度預(yù)測,預(yù)測精度較傳統(tǒng)遞減模型和LSTM等機(jī)器學(xué)習(xí)模型更高,更具應(yīng)用價(jià)值。
提出了基于時(shí)域卷積神經(jīng)網(wǎng)絡(luò)模型的水驅(qū)油田單井產(chǎn)量預(yù)測方法,實(shí)現(xiàn)了高效、精確的單井產(chǎn)量預(yù)測。采用隨機(jī)森林及主成分分析等方法進(jìn)行數(shù)據(jù)空缺填充和降維,保證了數(shù)據(jù)集的真實(shí)性和完備性。使用麻雀搜索算法確定模型最佳超參數(shù),在提高工作效率的同時(shí)得到更好的模型預(yù)測精度。將單井生產(chǎn)歷程依照含水率高低劃分為低含水、中含水、高含水和特高含水4個(gè)階段,分別建立階段預(yù)測模型然后集成并完成單井全生命周期產(chǎn)量預(yù)測。分析及實(shí)例應(yīng)用結(jié)果顯示,相比其他11種時(shí)間序列預(yù)測模型,改進(jìn)的TCN模型具有更好的預(yù)測性能。對于數(shù)據(jù)波動大且具有較明顯階段特征的產(chǎn)量序列預(yù)測,劃分階段、分段建模的方法可有效降低模型擬合難度、提升模型預(yù)測精度。
符號注釋:
Di,j——第i口油井和第j口注水井之間的距離,m;fw——含水率,%;i——油井編號;j——注水井編號;It,i——第i口油井在t時(shí)刻受注水井影響程度,m3/m;nw,i——影響第i口油井的注水井總數(shù);N——樣本數(shù)量;k——月產(chǎn)量樣本編號;qk——月產(chǎn)量真實(shí)值,m3;——月產(chǎn)量預(yù)測值,m3;——月產(chǎn)量真實(shí)值平均值,m3;t——時(shí)間(年-月);Wt,j——第j口注水井在t時(shí)刻的月注入量,m3;xo,i——第i口油井的x坐標(biāo),m;xw,j——第j口注水井的x坐標(biāo),m;yo,i——第i口油井的y坐標(biāo),m;yw,j——第j口注水井的y坐標(biāo),m。