王 晉 田繼宏 鄒先雄 李 偉 莫高武 張 淵
(中海油能源發(fā)展股份有限公司工程技術(shù)分公司,上海 200050)
現(xiàn)代社會(huì)是一個(gè)數(shù)字社會(huì),每時(shí)每刻都會(huì)產(chǎn)生無數(shù)的數(shù)據(jù)。據(jù)IDC預(yù)測(cè),到2025年全球的數(shù)據(jù)量將達(dá)到175 ZB,相當(dāng)于1.88×1011TB。如何利用好這些數(shù)據(jù),將成為今后亟需解決的問題[1]。隨著CPU、GPU、以太網(wǎng)、固態(tài)硬盤和HPC等硬件的發(fā)展,硬件已經(jīng)不是限制石油石化系統(tǒng)發(fā)展的主要矛盾了,而數(shù)據(jù)的處理才是限制石油石化系統(tǒng)發(fā)展的主要矛盾。石油石化系統(tǒng)存在PB級(jí)別的海量數(shù)據(jù),其中90%是非結(jié)構(gòu)化數(shù)據(jù),包括各專業(yè)的實(shí)驗(yàn)、監(jiān)測(cè)、分析和報(bào)告等,非結(jié)構(gòu)化數(shù)據(jù)不適合用簡(jiǎn)單的邏輯關(guān)系來表達(dá)。除此之外,只有10%是結(jié)構(gòu)化數(shù)據(jù),例如單位的財(cái)務(wù)系統(tǒng)、檔案系統(tǒng)和開發(fā)生產(chǎn)信息系統(tǒng)等[2]。
世界油氣行業(yè)正處在自動(dòng)化向數(shù)字化轉(zhuǎn)變的起步階段,一些帶頭企業(yè)在數(shù)字化轉(zhuǎn)型中取得了可喜的成績(jī)。挪威國家石油公司通過對(duì)遠(yuǎn)程操控鉆井機(jī)器人、四維模擬技術(shù)以及數(shù)據(jù)集成管理平臺(tái)的應(yīng)用,形成了全球化的業(yè)務(wù)支持中心。沙特阿美通過生產(chǎn)運(yùn)行實(shí)時(shí)數(shù)據(jù)管理和油藏智能化管理,形成了集成運(yùn)營環(huán)境[3]。BP石油公司通過油藏遠(yuǎn)程監(jiān)控和診斷、模型仿真以及數(shù)據(jù)管理實(shí)現(xiàn)輔助生產(chǎn)與管理決策的作用,BP通過未來油田項(xiàng)目,實(shí)現(xiàn)了基于實(shí)時(shí)分析的快速?zèng)Q策,同時(shí)也實(shí)現(xiàn)了多學(xué)科、多點(diǎn)的遠(yuǎn)程協(xié)同,對(duì)其總產(chǎn)量的貢獻(xiàn)率達(dá)到50%[4]。雪佛龍(Chevron)開發(fā)了油藏生產(chǎn)應(yīng)用系統(tǒng),利用共享信息平臺(tái)整合各類生產(chǎn)數(shù)據(jù)。道達(dá)爾(Total)與Google聯(lián)手率先將人工智能技術(shù)應(yīng)用在對(duì)油氣勘探開發(fā)地質(zhì)數(shù)據(jù)的處理分析中。貝克休斯(Baker Hughes)以Predix工業(yè)互聯(lián)網(wǎng)平臺(tái)為基礎(chǔ),通過人工智能、云計(jì)算技術(shù)開發(fā)了油田開發(fā)管理系統(tǒng)[5]。斯倫貝謝(Schlumberger)在微軟Azure云計(jì)算平臺(tái)上構(gòu)建了勘探開發(fā)認(rèn)識(shí)環(huán)境,使用DELFI勘探和生產(chǎn)環(huán)境感知系統(tǒng)把人工智能、數(shù)據(jù)分析和自動(dòng)化多個(gè)技術(shù)領(lǐng)域的優(yōu)勢(shì)集合在一起,使勘探開發(fā)工作更加智能化。
中國石油發(fā)布了國內(nèi)油氣行業(yè)首個(gè)“夢(mèng)想云”智能云平臺(tái),充分利用油氣生產(chǎn)物聯(lián)網(wǎng)系統(tǒng)、工程技術(shù)物聯(lián)網(wǎng)系統(tǒng)等技術(shù)加速推動(dòng)數(shù)字化油田向智能油田的轉(zhuǎn)型。中國石化基于物聯(lián)網(wǎng)、云計(jì)算等技術(shù),推出油田勘探開發(fā)業(yè)務(wù)協(xié)同平臺(tái)和勘探開發(fā)云中心。中海油通過建設(shè)勘探開發(fā)實(shí)時(shí)決策系統(tǒng),構(gòu)建以“井”為中心、井場(chǎng)與基地多學(xué)科協(xié)同作戰(zhàn)的信息系統(tǒng)平臺(tái),有效地節(jié)約了鉆井時(shí)間,提高了目的層的鉆遇率。
為了提高低滲、特低滲油氣藏的產(chǎn)能,需要對(duì)地下儲(chǔ)層采取一系列的工程技術(shù)措施,常見的措施有水力壓裂和酸化技術(shù)。
而在應(yīng)用這些措施的過程中,需要處理涉及眾多專業(yè)的多類型數(shù)據(jù)(例如沉積相圖(如圖1所示)和測(cè)井曲線圖(如圖2所示))。這些數(shù)據(jù)包括物探專業(yè)人員用到的地震SGY數(shù)據(jù)、地震解釋和反演數(shù)據(jù);鉆完井專業(yè)人員負(fù)責(zé)的鉆井?dāng)?shù)據(jù)、完井?dāng)?shù)據(jù)和測(cè)試數(shù)據(jù);測(cè)井專業(yè)人員用到的測(cè)井?dāng)?shù)據(jù)、測(cè)井解釋數(shù)據(jù);地質(zhì)油藏專業(yè)人員分析的溫壓數(shù)據(jù)、巖心數(shù)據(jù)、各類地質(zhì)圖件和試井資料;開發(fā)專業(yè)人員經(jīng)常分析的油氣生產(chǎn)數(shù)據(jù)等。在這些數(shù)據(jù)中,除了油氣生產(chǎn)數(shù)據(jù)已經(jīng)入庫,其余的數(shù)據(jù)大都散布在各個(gè)科室和各科研人員的電腦中。
圖1 沉積相圖
圖2 測(cè)井曲線圖
由于對(duì)這些數(shù)據(jù)缺乏有效的數(shù)據(jù)管理方法,因此嚴(yán)重阻礙了科研人員對(duì)數(shù)據(jù)的調(diào)用。經(jīng)??梢钥吹綖榱四承╆P(guān)鍵數(shù)據(jù),需要部門間的領(lǐng)導(dǎo)進(jìn)行協(xié)調(diào),甚至花費(fèi)了大量的人力物力求得數(shù)據(jù)卻不是最新版本的現(xiàn)象。
數(shù)據(jù)現(xiàn)在已經(jīng)被公認(rèn)為是一種新的經(jīng)濟(jì)資產(chǎn)類別,儲(chǔ)層改造需要地質(zhì)和工程人員通過有效整合這些數(shù)據(jù)來完成可行性論證、基本設(shè)計(jì)和詳細(xì)設(shè)計(jì),進(jìn)而在現(xiàn)場(chǎng)施工后實(shí)現(xiàn)油氣增產(chǎn)的目標(biāo)。
大數(shù)據(jù)技術(shù)的研究方法不同于實(shí)驗(yàn)型科研、理論型科研和計(jì)算型科研的研究方法,它是一種數(shù)據(jù)密集型的科研方式,前三種是先有理論,再用數(shù)據(jù)驗(yàn)證。大數(shù)據(jù)技術(shù)是一種研究革命,它是先有數(shù)據(jù),通過計(jì)算數(shù)據(jù)總結(jié)出結(jié)論。
在儲(chǔ)層改造研究工作中的數(shù)據(jù)具有多源異構(gòu)、分布廣泛以及動(dòng)態(tài)數(shù)據(jù)增長迅速的特點(diǎn)。因此需要用大數(shù)據(jù)技術(shù)解決好數(shù)據(jù)的獲取、存儲(chǔ)、共享、搜索、分析以及可視化方面的問題。因?yàn)榇髷?shù)據(jù)技術(shù)在儲(chǔ)層改造研究中處于起步階段,所以該文從理論上論證它的實(shí)現(xiàn)途徑。
采用分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)來進(jìn)行多元數(shù)據(jù)的獲取、存儲(chǔ)和共享[5]。當(dāng)研究人員需要讀或?qū)懩骋粚I(yè)數(shù)據(jù)時(shí),可以通過目錄來查詢?cè)摂?shù)據(jù)是屬于哪個(gè)部門、哪方面的數(shù)據(jù)(如圖3所示),研究人員知道數(shù)據(jù)的存儲(chǔ)位置后,再具體訪問對(duì)應(yīng)部門的相關(guān)數(shù)據(jù)[6]。目錄需要實(shí)現(xiàn)各部門數(shù)據(jù)與目錄之間的映射,各部門把有價(jià)值的專業(yè)數(shù)據(jù)定期上傳到相應(yīng)位置。
圖3 HDFS分布式文件系統(tǒng)架構(gòu)圖
因?yàn)槟夸浭撬醒芯咳藛T都需要用到的,所以它變成系統(tǒng)性能的瓶頸,再加上對(duì)數(shù)據(jù)安全的需求,一旦該目錄損壞,所有人員就都查詢不到數(shù)據(jù)了[7]。因此,需要對(duì)系統(tǒng)進(jìn)行優(yōu)化,讓多個(gè)目錄并列運(yùn)行,但是需要保證這些目錄的一致性,保證每個(gè)目錄指引的文件都是一樣的,這樣就可以保證所有研究人員獲得的數(shù)據(jù)版本都是一致的。
在處理測(cè)井、物探、地質(zhì)和生產(chǎn)數(shù)據(jù)的搜索、分析以及可視化功能時(shí),需要用到HDFS架構(gòu)之上的映射規(guī)約編程模型MapReduce(如圖4所示)。MapReduce主要分為Map階段和Reduce階段。Map階段就是一個(gè)分發(fā)任務(wù)的階段,Reduce階段就是一個(gè)統(tǒng)計(jì)、匯總的階段。而研究人員不需要管理任務(wù)的分發(fā)和合并,MapReduce后臺(tái)可以實(shí)現(xiàn)對(duì)任務(wù)的分發(fā)和合并。研究人員只需要關(guān)心任務(wù)(Task)如何運(yùn)行,并編制相應(yīng)的程序就可以了。例如,通過Map階段可以統(tǒng)計(jì)某油田砂體有效厚度>20 m,且孔隙度大于10%、滲透率>1 md且含氣飽和度>40%的甜點(diǎn);然后再通過Reduce階段對(duì)所有的甜點(diǎn)進(jìn)行匯總。
圖4 MapReduce架構(gòu)圖
分布式哈希表(Hbase)是利用分布式文件系統(tǒng)HDFS來儲(chǔ)存數(shù)據(jù),利用MapReduce來處理海量數(shù)據(jù)。分布式哈希表是以列的形式來存儲(chǔ)儲(chǔ)層改造論證中所需要的基礎(chǔ)數(shù)據(jù),基礎(chǔ)數(shù)據(jù)包括井號(hào)、井型、井別、完鉆井深、作業(yè)時(shí)間、工藝類型、射孔段、離含水層距離、壓力系數(shù)、溫度、孔隙度、滲透率、含水飽和度、施工壓力、閉合壓力、排量、總液量、加砂量、返排率以及壓后產(chǎn)量等。正是因?yàn)槊靠诰枰y(tǒng)計(jì)的數(shù)據(jù)很多,而且日常工作中經(jīng)常需要對(duì)多井的某個(gè)信息進(jìn)行對(duì)比,所以哈希表更有利于儲(chǔ)改數(shù)據(jù)的存儲(chǔ)。這樣可以更方便地讀取某口目標(biāo)井的信息。分布式哈希表建立的數(shù)據(jù)大表數(shù)據(jù)庫相比于傳統(tǒng)數(shù)據(jù)庫具有硬件成本低廉、數(shù)據(jù)庫存大和查詢吞吐量大等優(yōu)點(diǎn)。
儲(chǔ)層改造研究涉及多個(gè)專業(yè),在研究過程中經(jīng)常需要調(diào)用多個(gè)專業(yè)軟件,例如儲(chǔ)層解釋反演軟件、測(cè)井解釋軟件、地質(zhì)模型軟件、數(shù)值模擬軟件以及壓裂設(shè)計(jì)軟件等,需要將多個(gè)專業(yè)軟件集成在一起(如圖5所示),這就需要在分布式文件系統(tǒng)的基礎(chǔ)上,創(chuàng)建一個(gè)軟件資源管理器,Application Master管理就是這樣的軟件資源管理器。將多個(gè)專業(yè)軟件集成在軟件管理器上,由軟件資源管理器統(tǒng)一管理數(shù)據(jù),省略了在不同軟件之間導(dǎo)入、導(dǎo)出數(shù)據(jù)的步驟。除此之外,軟件資源管理器還可以避免出現(xiàn)各種專業(yè)軟件不兼容的問題,進(jìn)一步提高儲(chǔ)改工作的效率。
圖5 集成軟件管理
面對(duì)海量數(shù)據(jù)的挑戰(zhàn),國外石油巨頭已經(jīng)開始積極探索,國內(nèi)中石油、中石化和中海油也在油氣生產(chǎn)的各個(gè)環(huán)節(jié)展開數(shù)字化的部署。
儲(chǔ)層改造的特殊性需要各個(gè)專業(yè)的數(shù)據(jù)進(jìn)行支撐論證、分析和設(shè)計(jì),因此需要對(duì)這些數(shù)據(jù)進(jìn)行管理。
其中,利用分布式文件系統(tǒng)可以實(shí)現(xiàn)儲(chǔ)層改造研究過程中對(duì)數(shù)據(jù)的存儲(chǔ);利用MapReduce模塊可以更加高效地利用油田成產(chǎn)過程中的數(shù)據(jù);利用分布式哈利表建立儲(chǔ)改數(shù)據(jù)大表;將儲(chǔ)改工作中常用的軟件進(jìn)行集成管理。這些技術(shù)將致力優(yōu)化儲(chǔ)層改造相關(guān)工藝的各種參數(shù),數(shù)字化的儲(chǔ)層改造將會(huì)成為數(shù)字化油田的重要組成部分。