谷建偉, 任燕龍, 王依科, 劉 巍
(中國石油大學(華東)石油工程學院,山東青島 266580)
剩余油分布規(guī)律一直是油田開發(fā)工作者長期關心的問題,明確剩余油分布就意味著明確了油藏開發(fā)調(diào)整方向,為各種調(diào)整措施指出了改造目標,因此剩余油分布預測研究貫穿整個油田開發(fā)過程[1]。前人經(jīng)過多年研究,形成了油藏工程綜合分析法、礦場監(jiān)測法、數(shù)值模擬法等各種尋找剩余油的方法[2-6],為提高油藏采收率起到巨大作用。這些研究成果和資料積累為剩余油分布研究新方法提供了有力的支持。隨著人工智能技術的日益發(fā)展以及中國各油氣專業(yè)公司信息化進程開展,特別是持續(xù)進行的信息化資源建設,已經(jīng)做到各類生產(chǎn)數(shù)據(jù)實時動態(tài)入庫,已積累的各類數(shù)據(jù)構成了龐大的數(shù)據(jù)寶藏,為機器學習技術深度判別、預測以及應用于各業(yè)務板塊的復雜及抽象問題的解決奠定了堅實的基礎[7]。目前,機器學習技術在石油工程領域取得了大量研究成果,如結合不同的機器學習算法得到了可描述多循環(huán)產(chǎn)量趨勢特征的多峰預測模型[8],利用集成的機器學習方法預測巖屑成分[9],利用人工神經(jīng)網(wǎng)絡預測油田產(chǎn)量[10-13]等,但是該技術應用于剩余油分布預測領域還屬于空白。筆者以水驅(qū)油理論為指導,在分析剩余油分布影響因素的基礎上,采用多源數(shù)據(jù)構造樣本庫,并開展數(shù)據(jù)清洗和融合;以支持向量機(support vector machine,SVM)和長短期記憶網(wǎng)絡(long short-term memory,LSTM)為組合模型,構建一種新的剩余油分布預測方法。
影響剩余油分布的主控因素可分為以下3類:
(1)第1類是儲層的物性特征參數(shù),例如儲層構造特征、平面滲透率分布、縱向滲透率分布、地層厚度、沉積相帶特征、韻律特征、油藏邊界條件等[14-16]。這類因素是油藏本身所固有的特征,一般不考慮性質(zhì)發(fā)生改變,但是其屬性特征對剩余油分布有很大的影響。
(2)第2類是滲流特征參數(shù),這類參數(shù)主要反映流體性質(zhì)和流體在巖石中流動特點,例如驅(qū)替劑的黏度、原油黏度、流體密度、礦化度、油水相對滲透率曲線(油水相對滲透率曲線形狀也反映了巖石微觀孔喉特征的影響)、油水界面張力等參數(shù)。在油藏開發(fā)過程中,為了提高油田開發(fā)效果,第2類參數(shù)可以部分地進行人為改造,以便于提高驅(qū)油效果。
(3)第3類參數(shù)是油藏開采控制參數(shù),例如油水井數(shù)比、井網(wǎng)類型、瞬時注采速度、累積注采量、地層壓力維持水平、射孔方式、層系井網(wǎng)劃分方式等參數(shù)[14-15]。對于此類參數(shù),石油工程師要進行不斷調(diào)整,以適應于地層剩余油分布特征,更多地采出地下原油。
以上3類參數(shù)都會影響到開發(fā)過程中剩余油分布,因此在預測剩余油分布時需要綜合考慮。
利用機器學習方法進行剩余油分布預測面臨的一個主要問題是如何采集足夠剩余油分布的樣本。由于要預測的是地下剩余油分布,其存在條件大大限制了樣本資料來源,目前主要有4類剩余油飽和度樣本來源:第1類是各種新鉆井的測井解釋資料,新井在投產(chǎn)前都進行測井,從解釋成果中可以得到井點部位的飽和度資料;第2類是室內(nèi)試驗資料,對于取芯井巖心開展飽和度測試,可以得到特定開發(fā)階段的剩余油飽和度;第3類是油藏工程方法計算的剩余油飽和度,例如可以通過分流量方程和含水率反算含油飽和度;第4類是油藏數(shù)值模擬計算的剩余油飽和度。對于開展了數(shù)值模擬的油藏,可以得到每個網(wǎng)格、每個時間點下的飽和度,這些飽和度均可以作為樣本。以上4種樣本來源各有特點,第1、2類飽和度來源方式簡單、直接,有代表性,但是樣本個數(shù)非常少。第3類來源的剩余油飽和度是理論計算的飽和度,是一定范圍內(nèi)的平均值。以上前3類方法來源的飽和度樣本數(shù)量非常少,無法支撐起機器學習所需要的樣本;通過數(shù)值模擬方式得到的樣本數(shù)據(jù)來源廣、信息豐富、數(shù)量巨大,是本文中的主要數(shù)據(jù)來源。
在樣本構建過程中,根據(jù)歷年來積累的中高滲透率水驅(qū)開發(fā)油藏的數(shù)值模擬資料,選取15個典型油藏模型作為基礎模型,在這些油藏模型基礎上,有目的地改變儲層物性參數(shù)分布(滲透率控制在(10~7 500)×10-3μm2,孔隙度控制在0.15~0.39)、相滲曲線形狀、油水黏度比(3~300)、注采井網(wǎng)類型(在尊重真實井網(wǎng)的基礎上設計多種井網(wǎng)變化形式)、邊界性質(zhì)(目前考慮封閉和開啟兩種邊界形式,封閉邊界主要考慮的是砂體尖滅和油藏斷層邊界,油藏內(nèi)部小斷層沒有考慮,開啟邊界主要用各種水體類型刻畫),衍生出約1 000套油藏數(shù)值模擬模型,對這些模型都進行水驅(qū)開發(fā)動態(tài)計算,直至綜合含水率達到99.5%。這些數(shù)值模擬結果作為樣本資料的主要來源,測井解釋、室內(nèi)試驗、油藏工程折算資料作為輔助樣本來源,建立剩余油分布樣本庫。
通過以上4種途徑采集到的剩余油飽和度樣本結構有差異,并不能直接用來機器學習,還需要按照驅(qū)替理論進行數(shù)據(jù)清洗融合,達到減少數(shù)據(jù)種類數(shù)量、快速學習的目的。為方便描述和計算,樣本以單元體為單位進行統(tǒng)計和計算,對于來源于數(shù)值模擬的樣本,一個網(wǎng)格或者相鄰幾個網(wǎng)格都可以做一個單元體;每個單元體的物理位置、面積、儲層體積根據(jù)井點大地坐標和儲層參數(shù)進行計算,單元體有其孔隙度、滲透率、飽和度等參數(shù)值。
(1)單元體平均滲透率。單元體g的平均滲透率采用面積加權平均計算,單元體示意圖如圖1所示。在單元體g內(nèi)包含n個基本計數(shù)單位,i為其中某一個計數(shù)單位。
圖1 平均滲透率計算示意圖
單元體平均滲透率計算式為
(1)
式中,kg和ki分別為單元體g平均滲透率和單元體內(nèi)第i個計數(shù)單位的滲透率,μm2;Si為第i個計數(shù)單位的面積,m2。
(2)單元體平均孔隙度。計算思路同平均滲透率,但是權值選用的是計數(shù)單位的面積和厚度乘積,
(2)
式中,φg和φi分別為單元體g平均孔隙度和第i個計數(shù)單位孔隙度;hi為第i個計數(shù)單位厚度,m。
(3)單元體平均構造深度。計算思路同平均孔隙度,
(3)
式中,Topg和Topi分別為單元體g平均構造深度和第i個計數(shù)單位的構造深度,m。
(4)無因次累積生產(chǎn)參數(shù)。單元體飽和度受到其周圍注采井注采量影響,為了描述單元體飽和度變化與累積注采參數(shù)之間的關系,需要找出合適的表征參數(shù),經(jīng)過反復對比測試,最終提出無因次累積產(chǎn)油特征值lop和無因次累積產(chǎn)水特征值lwp作為表征參數(shù),表達式分別為
(4)
(5)
式中,no為單元體周圍直接相鄰的一線生產(chǎn)井數(shù)量;kgi為單元體g與第i口生產(chǎn)井之間的平均滲透率,μm2;Npi為第i口生產(chǎn)井累積產(chǎn)油量,m3;Wpi為第i口生產(chǎn)井累積產(chǎn)水量,m3;di為單元體g與第i口生產(chǎn)井的距離,m,可以根據(jù)單元體中心點坐標與各生產(chǎn)井大地坐標計算;φgi為單元體g與第i口生產(chǎn)井之間的平均孔隙度;N為單元體的地質(zhì)儲量,m3。
從lop和lwp計算方法可以看出,這兩個參數(shù)將滲透率、孔隙度、距離等因素進行了綜合考慮,距離注采井越遠,影響越弱。
(5)無因次累積注水參數(shù)。單元體周圍注水井累積注水量對單元體剩余油分布有重要影響,提出無因次累積注水量特征值lwi做為表征參數(shù),
(6)
式中,Wii為第i口注水井累積注水量,m3;nw為單元體周圍一線注水井的數(shù)量。
(6)油水相對滲透率參數(shù)。油相和水相相對滲透率是含水飽和度的函數(shù),而且相對滲透率曲線特征對水驅(qū)油效率具有較大影響。為了表征相滲曲線影響,需要提取相滲曲線的特征參數(shù),
Kro/Krw=dexp(-cSw).
(7)
式中,Sw為含水飽和度;Krw和Kro分別為水、油相的相對滲透率;c和d為與流體和儲層物性有關的常數(shù)。采用束縛水飽和度Swc、殘余油飽和度Sor、等滲點飽和度Swo、c、d等5個特征參數(shù)表達相滲曲線的影響。
(7)油水黏度影響。油水的黏度、密度等參數(shù)對剩余油分布也有影響,一般認為黏度的影響更大。為了減少樣本參數(shù)種類,在這里采用油水黏度比μr表征黏度的影響。
(8)單元體波及判別。單元體飽和度變化預測中還需要一個基本的指標label,即該單元體是否被波及到的標識。以單元體任意時刻飽和度Sw與初始飽和度Swi的差值作為單元體是否被波及到的判別標識,考慮數(shù)值計算誤差及彈性影響,將含水飽和度變化超過3%作為被水波及與否的界限,計算式為
(8)
label取值0表示單元體沒有波及到,取值1時表示該時刻該單元體已被水波及。
從以上這些特征參數(shù)的處理過程中可以看出,目前選取的樣本參數(shù)實際上已經(jīng)隱含包括了影響剩余油的3大類主要因素。此外本次樣本庫建立過程中采用約1 000套油藏數(shù)模結果,每套模型中又計算多個時刻的剩余油飽和度分布,樣本數(shù)量充足。
油藏水驅(qū)開發(fā)是一個長期過程,在某一開發(fā)時刻,油藏中可能同時存在已波及單元體和未波及單元體,如果將這兩種單元體進行統(tǒng)一學習訓練,效果會很差。本文中先建立分類模型判斷某一時刻單元體是否波及;然后再搭建單元體飽和度變化預測模型。
判斷單元體是否被水波及的問題是一個典型的二分類問題,主要使用支持向量機SVM分類器來解決。SVM利用非線性映射的方法,將數(shù)據(jù)從樣本空間映射到高維特征空間中,在高維特征空間中樣本數(shù)據(jù)就可以線性可分,就是對數(shù)據(jù)進行升維和線性化。本文中使用sklearn機器學習算法庫中的SVM分類器建立模型。
LSTM是循環(huán)神經(jīng)網(wǎng)絡(recurrent neural networks,RNN)的一種變體,RNN中具有一種重復神經(jīng)網(wǎng)絡模塊的鏈式結構,記錄數(shù)據(jù)的時間變化特征,并傳遞到下一個時間節(jié)點,從而使神經(jīng)網(wǎng)絡具有記憶功能。但是由于循環(huán)神經(jīng)網(wǎng)絡采用的是梯度下降算法,存在著梯度彌散和梯度爆炸的問題,因此Hochreiter等[17]提出了LSTM神經(jīng)網(wǎng)絡。
LSTM之所以可以進行長期記憶,主要是由于其獨特的細胞結構。傳統(tǒng)的RNN只有一個非常簡單的細胞結構,例如一個tanh層,而LSTM的細胞結構比較獨特,如圖2所示。
圖2 LSTM細胞結構示意圖
LSTM細胞結構包括一個記憶鏈(紅線)、遺忘門(黃線)、輸入門(藍線)、輸出門(橙線)。通過記憶鏈Ct記錄和更新當前的細胞狀態(tài),并向下一個時間節(jié)點傳遞。另外,通過3個門結構來保護和控制細胞狀態(tài),對信息進行篩選和更新。
遺忘門作用于剩余油分布預測模型訓練過程中的細胞狀態(tài),選擇性遺忘記憶細胞中對剩余油分布變化影響較小的相關信息,
ft=[Wf·(ht-1,Xt)+bf].
(9)
式中,Wf為遺忘門的連接權重;bf為遺忘門的偏置系數(shù)。
輸入門將新輸入的剩余油分布變化信息選擇性的更新記錄到新的細胞狀態(tài)中,
it=[Wi·(ht-1,Xt)+bi],
(10)
(11)
式中,Wi為輸入門的連接權重;bi為輸入門的偏置系數(shù);WC為記憶單元的連接權重;bC為記憶單元的偏置系數(shù)。
細胞狀態(tài):
(12)
輸出門作用于輸入和隱含層輸出,使最后輸出既包括細胞狀態(tài)又包括輸入,將其結果更新到下一個隱層,
ot=[Wo·(ht-1,Xt)+bo],
(13)
ht=ottanh(Ct).
(14)
式中,Wo為輸出門的連接權重;bo為輸出門的偏置系數(shù)。
從LSTM模型細胞構成可以看出,在其學習訓練過程中能不斷地汲取影響研究對象的主要因素,并適當遺忘非主要因素,這個特征與剩余油的變化過程有較高的契合度,因此選取這種模型作為剩余油預測模型。
LSTM模型的學習訓練過程分為5個步驟:①從左到右傳播時,按照模型計算方法計算模型的輸出值;②將模型輸出值與實際值比較,計算誤差;③從右到左,按照網(wǎng)絡層級和時間反向傳播,將誤差分配到每個LSTM細胞結構單元;④根據(jù)相應的誤差項計算每個權重的梯度;⑤ 應用適應性動量估計優(yōu)化算法更新權重。對于本文中以LSTM為核心的剩余油分布預測模型,其訓練過程見圖3。
圖3 以LSTM為核心的剩余油分布預測模型訓練過程示意圖
LSTM是一種改進的循環(huán)神經(jīng)網(wǎng)絡,它非常適合處理與時間序列高度相關的問題[18],近期有學者已經(jīng)將該模型應用在PM 2.5顆粒運移預測中[19]。油藏水驅(qū)開發(fā)過程是一個典型的時序性問題,隨注水時間增加,累積注水量逐漸增加,單元體受到的沖刷作用增強,剩余油飽和度逐漸減小,兩者的相關性非常明顯,因此采用LSTM模型預測已波及單元體的飽和度變化規(guī)律非常適合,本文中借助keras深度學習框架來完成剩余油預測模型搭建。預測剩余油分布的神經(jīng)網(wǎng)絡模型由兩個LSTM層和一個dense層構成。其中LSTM層負責學習剩余油分布與物性參數(shù)分布、流體特征、井網(wǎng)形式以及注采參數(shù)之間的內(nèi)在關系,并記憶各參數(shù)的時間變化特征。dense層則用來把LSTM提取到的特征整合起來,實現(xiàn)由特征向量X到因變量Y的映射。dense層的每一個節(jié)點與上一層所有節(jié)點均相互連接,其具有以下優(yōu)勢:可以將分布式特征進行整合,輸出為一個值,大大減少特征的排列順序?qū)τ柧毜挠绊?可以看成是一個多項式,增加神經(jīng)網(wǎng)絡的非線性映射能力,理論上可以提高神經(jīng)網(wǎng)絡的學習能力,但是學習能力太好也會產(chǎn)生過擬合的問題;還可在一定程度上保留模型的復雜度。
對數(shù)據(jù)預處理完成后,選取不同時刻、不同單元體的lop、lwp、lwi、topg、μr、c、d、Swc、Sor、Swo、Sw、label組成學習樣本,用以深度學習模型的訓練。其中l(wèi)abel為分類模型的標簽,Sw為預測模型的因變量,其他參數(shù)為特征參數(shù)。把生成的學習樣本的90%作為訓練集數(shù)據(jù),其他的10%作為測試集數(shù)據(jù)(測試數(shù)據(jù)要優(yōu)先選擇礦場測試數(shù)據(jù)),將訓練集數(shù)據(jù)輸入給SVM分類模型和LSTM預測模型進行訓練。
剩余油預測中主要關心問題是剩余油預測準確性,因此提出分類準確率Acc1和預測準確率Acc作為評估指標;通過對分類模型和預測模型的參數(shù)設置不同的取值進行試驗,優(yōu)選出分類模型和預測模型的最優(yōu)參數(shù)組合。根據(jù)最優(yōu)參數(shù)組合設置好模型參數(shù)后,把學習樣本輸入給模型重新訓練,將訓練后的模型保存,便可以用來預測剩余油分布,
(15)
(16)
式中,ntrue為某一時刻模型分類正確的單元體數(shù)量;n為單元體總數(shù);Sopi為某一時刻模型預測的單元體i的含油飽和度;Sori為某一時刻單元體樣本i的含油飽和度。
在訓練過程中要求Acc1分類準確率達到99.8%、Acc預測準確率達到98%作為訓練結束的終止條件。
選取勝坨油田某小層作為測試實例,該油藏前期進行過數(shù)值模擬擬合過程,已經(jīng)得到了測試小層的剩余油分布結果,將該結果與LSTM模型得到的剩余油預測結果進行對比。測試小層有6口生產(chǎn)井,2口注水井,已經(jīng)累積生產(chǎn)20余年。小層三維地質(zhì)模型如圖4所示,滲透率分布及井網(wǎng)分布如圖5所示。圖5中,P1、P2、P3、P4、P5、P6為生產(chǎn)井,W1、W2為注水井。地層水黏度為0.6 mPa·s,地層原油黏度為17.5 mPa·s,油水相對滲透率曲線如圖6所示。
圖4 小層三維地質(zhì)模型
圖5 小層滲透率及井位分布
圖6 相對滲透率曲線
生產(chǎn)井和注水井的月度注采數(shù)據(jù)取實際生產(chǎn)資料,并保持與數(shù)值模擬計算中采用的數(shù)據(jù)一致。將該小層的構造、孔隙度、滲透率、厚度、油水黏度比、相滲曲線特征值、井位大地坐標、比例尺、每口注采井的月度注采數(shù)據(jù)均按照前面數(shù)據(jù)處理的方式進行處理,計算每個單元體的lop、lwp、lwi、topg、μr、c、d、Swc、Sor、Swo特征參數(shù)組成特征向量X,作為輸入數(shù)據(jù)。需要說明的是,LSTM模型主要是處理時間序列模型,在上面數(shù)據(jù)清洗處理過程中,實際上是通過注采月度數(shù)據(jù)以逐月累積的形式,將油藏開發(fā)時間t隱含在lop、lwp、lwi參數(shù)中,通過以上3個無因次累積參數(shù)的增加來代表開發(fā)時間的增加。
將單元體的特征向量X輸入到訓練好的預測模型中,即可對任意時刻、任意位置的含油飽和度預測。由于該測試小層進行了數(shù)值模擬研究,在這里以數(shù)值模擬結果作為參照值,將LSTM模型預測的剩余油分布與數(shù)值模擬結果進行對比,評價預測的精確程度。圖7為LSTM模型和數(shù)值模擬兩種剩余油預測方法計算得到的該小層在不同注水開發(fā)時間的剩余油飽和度。
圖7 兩種方法預測效果對比
由圖7可以看出,兩種方法計算的剩余油飽和度變化趨勢非常相似,為了仔細說明兩種方法的差異,采用式(16)計算預測準確率。由于預測準確率在每個預測時間點都會有差異,選取第30、60、120個月3個時刻的進行對比,3個時刻的準確率分別為97.9%、97.2%和96.1%,預測準確率都超過96%,這說明基于LSTM模型預測剩余油飽和度可以用于礦場應用。從計算時間來看,120個月的剩余油分布計算時間僅有3.8 min,計算速度相對快。由于這種方法不存在歷史擬合過程和建模過程,只要把整理好的相關數(shù)據(jù)輸入到模型中即可以直接預測剩余油飽和度分布,所以整個過程耗時較少、可控;數(shù)值模擬方法需要建模、歷史擬合調(diào)整和計算過程,目前無法統(tǒng)計總體時間,因此無法將以上兩種方法的耗時指標直接對比;但是可以肯定基于機器學習的剩余油分布預測新方法耗時很少。新預測方法主要耗時在于前期的模型學習訓練過程,但訓練學習過程是計算機自動完成的,不需要太多的人為干預,而且一旦樣本確定訓練完成后,可以實現(xiàn)對任意油藏水驅(qū)開發(fā)條件下的剩余油分布直接預測,預測效率高。
從圖7對比中可以看到,LSTM模型能根據(jù)儲層的非均質(zhì)性很好地預測出剩余油分布特征,與數(shù)值模擬結果相似度較高;但是在部分區(qū)域還是有差異。在測試小層模型中選取注采井間主流線區(qū)內(nèi)一點m和非主流線區(qū)內(nèi)一點n。圖8為兩種方法計算的m和n點含水飽和度隨時間變化。從圖8可以看出,LSTM剩余油分布預測模型對于主流線區(qū)飽和度預測準確率高于非主流線區(qū)飽和度預測精度;非主流線區(qū)在中含水階段的飽和度預測有一定差異,此階段對應了水驅(qū)油前緣階段;在處于中高含水階段后,不論主流線還是非主流線區(qū)域,預測精度都較高。主流線區(qū)m點的總體預測準確率為98.7%,非主流線區(qū)n點的總體預測準確率為94.2%。
圖8 主流區(qū)點m和非主流區(qū)點n含水飽和度變化
綜合SVM分類器和LSTM回歸器的優(yōu)點,建立先分類后預測的剩余油分布機器學習預測模型。利用SVM分類器判斷單元體是否見水,再通過LSTM對剩余油分布進行預測。經(jīng)過多次試算對比,確定了12類參數(shù)的清洗融合處理方法,并給出了具體的參數(shù)計算方法。測試小層剩余油分布驗證表明,基于機器學習的剩余油預測模型計算結果與數(shù)值模擬剩余油結果相比整體精度超過96%,且預測耗時短,說明該方法可以用于礦場剩余油分布快速預測。