張 敏
(大港油田信息中心大數(shù)據(jù)技術(shù)部,天津 300280)
在過去,互聯(lián)網(wǎng)巨頭谷歌公司依靠專有的大數(shù)據(jù)技術(shù)獨占鰲頭,2003 年,谷歌連續(xù)發(fā)表了3 篇有關(guān)大數(shù)據(jù)技術(shù)的論文引發(fā)了討論熱潮,分別論述了谷歌分布式文件系統(tǒng)、映射與簡化并行計算框架(MapReduce)、谷歌大數(shù)據(jù)表,由此拉開了大數(shù)據(jù)技術(shù)序幕。2007 年,開源組織仿照谷歌公司產(chǎn)品建立了Hadoop 大數(shù)據(jù)開源處理平臺,大數(shù)據(jù)處理技術(shù)開始普及。鑒于大數(shù)據(jù)技術(shù)對各行各業(yè)以及傳統(tǒng)信息技術(shù)所造成的沖擊,中油集團公司領(lǐng)導對信息化工作提出要求:“迎接大數(shù)據(jù)時代的到來,提升可持續(xù)發(fā)展的價值水平?!?012 年7 月,中國石油集團經(jīng)濟技術(shù)研究院上交了相關(guān)研究專題報告,集團公司領(lǐng)導批示:“以‘大數(shù)據(jù)就是大油氣,就是核心競爭力’理念為基礎(chǔ),啟動大數(shù)據(jù),提升價值水平和能力?!?018 年底,勘探開發(fā)夢想云2.0 的發(fā)布,更是讓石油企業(yè)在大數(shù)據(jù)領(lǐng)域邁出了探索性的一大步。
大數(shù)據(jù)時代,企業(yè)的戰(zhàn)略分析、戰(zhàn)略決策都要依靠信息系統(tǒng)技術(shù)的應(yīng)用,實現(xiàn)對信息數(shù)據(jù)的挖掘和分析,尤其是對大數(shù)據(jù)、海量數(shù)據(jù)的挖掘和分析,數(shù)據(jù)挖掘的對象就是信息系統(tǒng)的后臺數(shù)據(jù)庫數(shù)據(jù),決策分析結(jié)果的準確程度嚴重依賴于數(shù)據(jù)庫數(shù)據(jù)的準確性和數(shù)據(jù)量,數(shù)據(jù)量越豐富,準確性越高,決策分析結(jié)果也就越接近真相;信息數(shù)據(jù)資源越豐富,可提供給勘探工作者使用的信息也越豐富,如井位分布對比、地質(zhì)結(jié)構(gòu)分析對比、層序地層帶分析對比、區(qū)塊油氣勘探歷史資料的分析等。通過豐富的數(shù)據(jù)資源分析,勘探工作者更易于發(fā)現(xiàn)地層、地質(zhì)結(jié)構(gòu)規(guī)律、油氣成藏原理以及區(qū)塊油氣分布特點和規(guī)律,這樣就更有利于勘探工作者進行井位分布、鉆井設(shè)計、地質(zhì)設(shè)計等。
面對大數(shù)據(jù)應(yīng)用如火如荼地開展,勘探領(lǐng)域的數(shù)據(jù)問題也日益凸顯。
油氣行業(yè)留存著大量歷史數(shù)據(jù),這些歷史數(shù)據(jù)大部分以紙質(zhì)文檔的形式保存。這些數(shù)據(jù)在大數(shù)據(jù)應(yīng)用中是寶貴的數(shù)據(jù)資源,但部分油氣田數(shù)據(jù)結(jié)構(gòu)化并未完成,導致這部分數(shù)據(jù)還滯留在檔案部門,無法參與到大數(shù)據(jù)應(yīng)用建設(shè)中去。
通過多個系統(tǒng)錄入主數(shù)據(jù)時,同一套主數(shù)據(jù)在各個系統(tǒng)之中是不一樣的。比如,中石油的A1 和A2 系統(tǒng)都錄入主數(shù)據(jù),會出現(xiàn)同一口井在兩個系統(tǒng)中井號不同的問題。
由于數(shù)據(jù)機制和職責不明確,缺乏相應(yīng)的考核機制,部分油氣田數(shù)據(jù)不能及時上傳到數(shù)據(jù)庫中,數(shù)據(jù)不能及時入庫,研究人員無法及時獲取新數(shù)據(jù)和展開大數(shù)據(jù)挖掘工作。
數(shù)據(jù)質(zhì)量問題包括關(guān)鍵性數(shù)據(jù)缺失、關(guān)鍵性數(shù)據(jù)錯誤和多源數(shù)據(jù)不一致3 類。①數(shù)據(jù)缺失。部分關(guān)鍵性數(shù)據(jù)缺失,如井的基本信息相關(guān)屬性(包括開鉆日期、完鉆日期、完井日期、補心海拔、地面海拔、補心高等);業(yè)務(wù)數(shù)據(jù)缺失,如套管數(shù)據(jù)缺少套管下深等。②數(shù)據(jù)錯誤。井基礎(chǔ)信息和業(yè)務(wù)數(shù)據(jù)錄入錯誤,如井的開鉆日期和完鉆日期填反、坐標填反、完鉆井深錄入錯誤等問題。③多源數(shù)據(jù)。同一數(shù)據(jù)在不同專業(yè)提交的數(shù)據(jù)中數(shù)值不一樣,如鉆井、錄井中的套管數(shù)據(jù)相關(guān)信息出現(xiàn)矛盾的問題。
基礎(chǔ)數(shù)據(jù)過于龐大,對于大數(shù)據(jù)應(yīng)用來說,不能很快地定位到應(yīng)用所需要的數(shù)據(jù)位置,也就不能方便及時地獲取到所需的數(shù)據(jù)服務(wù),嚴重影響數(shù)據(jù)的應(yīng)用效果。
目前國內(nèi)石油行業(yè)越來越重視數(shù)據(jù)治理工作,新疆油田、塔里木油田、大港油田等先后開展了相關(guān)工作。
新疆油田在數(shù)據(jù)治理方面開展了大量工作,通過監(jiān)控數(shù)據(jù)采集過程、摸索數(shù)據(jù)質(zhì)量控制與管理方法,從2006 年就開展了數(shù)據(jù)公報的發(fā)布工作,實現(xiàn)了數(shù)據(jù)質(zhì)量的大幅提升,有效地支持了勘探開發(fā)業(yè)務(wù)的開展。
塔里木油田依托項目整體管理,將數(shù)據(jù)采集納入施工結(jié)算,用項目管理手段進行數(shù)據(jù)的全面控制和管理,實現(xiàn)數(shù)據(jù)質(zhì)量的提升。
吉林油田從模型管理入手全面開展數(shù)據(jù)管理相關(guān)工作,是中石油最早開展模型管理相關(guān)工作的企業(yè)。
大港油田通過近10 年的數(shù)據(jù)資源建設(shè),全面完成了主要專業(yè)數(shù)據(jù)庫建設(shè),實現(xiàn)了地震動態(tài)監(jiān)測和井下作業(yè)、油藏生產(chǎn)等專業(yè)數(shù)據(jù)入庫,目前專業(yè)數(shù)據(jù)庫總數(shù)據(jù)量超過70 TB,井筒數(shù)據(jù)超過萬口,有效保護了油田專業(yè)數(shù)據(jù)資產(chǎn),并為大港油田相關(guān)單位提供了有效的數(shù)據(jù)服務(wù)。同時,大港油田以專業(yè)庫數(shù)據(jù)庫為基礎(chǔ)、以EPDM 模型為框架建設(shè)了勘探開發(fā)中心數(shù)據(jù)庫,實現(xiàn)了勘探開發(fā)科研生產(chǎn)所需數(shù)據(jù)全部集成。2012 年開發(fā)的中心庫管理系統(tǒng)實現(xiàn)了專業(yè)庫模型管理與元數(shù)據(jù)初步管理,提供了中心數(shù)據(jù)庫模型管理、模型升級、模型瀏覽及元數(shù)據(jù)升級功能,新增模型與實例對比、實例與實例模型對比以及專業(yè)庫模型管理功能?;谥行臄?shù)據(jù)庫開展EPDM 應(yīng)用層設(shè)計,采用數(shù)據(jù)庫視圖技術(shù)、Web Service 接口技術(shù),建立中心數(shù)據(jù)庫應(yīng)用層,開發(fā)視圖近400 個、Web 服務(wù)接口近600 個,建立了基于中心數(shù)據(jù)庫的應(yīng)用體系,并建立了可視化組件庫。
在數(shù)據(jù)質(zhì)量方面,大港油田采用“三級審核”機制,完善了專業(yè)數(shù)據(jù)采集流程。同時,信息中心按季度發(fā)布數(shù)據(jù)公報,對各類數(shù)據(jù)入庫情況進行公示,以提高數(shù)據(jù)采集單位對數(shù)據(jù)入庫質(zhì)量的重視程度。
油田企業(yè)應(yīng)基于目前專業(yè)的數(shù)據(jù)治理經(jīng)驗,建立數(shù)據(jù)治理要素體系及組織架構(gòu),結(jié)合自身的管理架構(gòu),一般需要設(shè)置領(lǐng)導決策層、業(yè)務(wù)部門主管、互聯(lián)網(wǎng)技術(shù)(Internet Technology,IT)部門主管、執(zhí)行項目經(jīng)理等主要角色。這些角色可以由專職人員擔任,也可由各部門抽調(diào)兼職人員擔任。
結(jié)合現(xiàn)狀,企業(yè)應(yīng)為數(shù)據(jù)治理的開展提供管理依據(jù),制定數(shù)據(jù)治理的業(yè)務(wù)流程、責任體系,構(gòu)建數(shù)據(jù)治理的支持環(huán)境,頒布數(shù)據(jù)治理的規(guī)章制度等。還要規(guī)定工具的使用方法與產(chǎn)品使用流程。
企業(yè)基于對現(xiàn)有業(yè)務(wù)與概念的全新認識,統(tǒng)一定義企業(yè)運營管理和管理過程中涉及的業(yè)務(wù)概念和邏輯規(guī)則,便于為企業(yè)內(nèi)部的決策提供重要依據(jù)。數(shù)據(jù)模型按行業(yè)不同劃分,一般包括當事人、產(chǎn)品、協(xié)議、財務(wù)等。
數(shù)據(jù)標準提供了一整套規(guī)范,目的是為業(yè)務(wù)人員、技術(shù)人員的日常工作提供規(guī)范。數(shù)據(jù)標準的制定,需要適應(yīng)業(yè)務(wù)和技術(shù)的發(fā)展要求,優(yōu)先解決普遍的、緊要的問題。
相關(guān)人員制定數(shù)據(jù)標準,要以業(yè)務(wù)數(shù)據(jù)為出發(fā)點,經(jīng)過詳細的數(shù)據(jù)調(diào)研、訪談、設(shè)計、評審等嚴格的標準定義流程;遵循“循序漸進、不斷完善”的原則。要制定可落地的數(shù)據(jù)標準產(chǎn)品,數(shù)據(jù)標準絕不孤立存在,確保每一個數(shù)據(jù)標準對應(yīng)企業(yè)的數(shù)據(jù)需求,做到數(shù)據(jù)標準有理有據(jù)。
元數(shù)據(jù)是架起企業(yè)內(nèi)業(yè)務(wù)與IT 部門之間的一座橋梁。無論在企業(yè)的業(yè)務(wù)部門還是IT 部門,有一套完整的對各項數(shù)據(jù)的業(yè)務(wù)含義、口徑、技術(shù)標準、分布情況等進行說明的元數(shù)據(jù)是非常必要和重要的。通過使用元數(shù)據(jù),相關(guān)人員可以快速獲取整個企業(yè)的數(shù)據(jù)業(yè)務(wù)含義,幫助企業(yè)理解數(shù)據(jù),增強分析的敏捷性。
使用元數(shù)據(jù)產(chǎn)品還能夠方便內(nèi)部管理、審計或適應(yīng)外部監(jiān)管的需求追溯業(yè)務(wù)指標、報表的數(shù)據(jù)來源和加工過程,追溯數(shù)據(jù)的來源。針對企業(yè)內(nèi)部、外部的數(shù)據(jù)需求,開展元數(shù)據(jù)管理可以快速在企業(yè)中建立業(yè)務(wù)與技術(shù)之間的銜接通道,為企業(yè)管理提供重要的保障。
隨著企業(yè)信息化程度不斷加深,跨業(yè)務(wù)、跨部門、跨業(yè)務(wù)系統(tǒng)的業(yè)務(wù)連貫性需求越來越迫切,許多已經(jīng)實施或者正在實施的ERP、CRM 或BI 應(yīng)用對企業(yè)系統(tǒng)數(shù)據(jù)的一致性、完整性和準確性提出了新的要求。企業(yè)通過分析具有共性的數(shù)據(jù),如客戶數(shù)據(jù)、產(chǎn)品數(shù)據(jù)等,構(gòu)建主數(shù)據(jù)模型,大大增加了數(shù)據(jù)交叉使用的機會。
企業(yè)的數(shù)據(jù)質(zhì)量與業(yè)務(wù)績效之間存在直接聯(lián)系,高質(zhì)量的數(shù)據(jù)可以使公司保持競爭力,數(shù)據(jù)質(zhì)量管控是數(shù)據(jù)治理的重要組成部分。因此,企業(yè)應(yīng)全面梳理數(shù)據(jù)質(zhì)量問題,使用全面的通俗易懂的數(shù)據(jù)質(zhì)量檢查手段,提供數(shù)據(jù)問題修改的最佳方法。
良好的數(shù)據(jù)基礎(chǔ)是實現(xiàn)大數(shù)據(jù)應(yīng)用的前提。數(shù)據(jù)治理基于技術(shù)與管理相結(jié)合的一套持續(xù)改善的管理機制,貫穿于數(shù)據(jù)管理的整個過程,包括組織架構(gòu)、政策制度、技術(shù)工具、數(shù)據(jù)標準、流程規(guī)范、監(jiān)督及考核等多方面內(nèi)容,使勘探開發(fā)數(shù)據(jù)管理工作成為一個有機統(tǒng)一的整體。數(shù)據(jù)治理因涉及的IT 技術(shù)主體眾多,包含元數(shù)據(jù)管理、主數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)集成、監(jiān)控與報告,因此需要各方加強協(xié)調(diào),這樣才能為企業(yè)發(fā)展打造良好的數(shù)據(jù)環(huán)境。