張春生,郭長杰,尹兆濤
?
大數(shù)據(jù)分析在油氣行業(yè)的應(yīng)用研究
張春生,郭長杰,尹兆濤
摘 要:為解決油氣行業(yè)各業(yè)務(wù)領(lǐng)域應(yīng)用大數(shù)據(jù)技術(shù)挖掘沉睡數(shù)據(jù)中的隱性規(guī)則、商業(yè)機(jī)會(huì)從而優(yōu)化生產(chǎn)、輔助決策的需求,分析了國內(nèi)外油氣公司大數(shù)據(jù)分析的應(yīng)用場景及基礎(chǔ)設(shè)施建設(shè)現(xiàn)狀,在現(xiàn)有供應(yīng)商解決方案的基礎(chǔ)上,結(jié)合我國油氣行業(yè)應(yīng)用大數(shù)據(jù)分析的需求設(shè)計(jì)了統(tǒng)一的油氣大數(shù)據(jù)分析平臺(tái),并從大數(shù)據(jù)管理、人才組織及自主研發(fā)等角度提出油氣公司部署大數(shù)據(jù)分析的相關(guān)建議。
關(guān)鍵詞:大數(shù)據(jù)分析;油氣;大數(shù)據(jù)建模;物聯(lián)網(wǎng);云
大數(shù)據(jù)分析能夠在海量數(shù)據(jù)中挖掘幫助決策的隱藏模式、未知的相關(guān)關(guān)系以及其他有價(jià)值信息,有利于企業(yè)制定科學(xué)決策,提高經(jīng)濟(jì)效益。2010年至今大數(shù)據(jù)技術(shù)架構(gòu)日趨成熟,行業(yè)應(yīng)用日益增多[1]。在技術(shù)層面,Hadoop2.0比舊版本相比具有更高的可用性及擴(kuò)展性。同時(shí)內(nèi)存計(jì)算平臺(tái)Spark 異軍突起,整合了批處理、交互式和流處理等多種數(shù)據(jù)處理模型,并通過將中間數(shù)據(jù)存放在內(nèi)存中大大提升計(jì)算速度。在技術(shù)架構(gòu)成熟的基礎(chǔ)上,大數(shù)據(jù)的發(fā)展主要集中在結(jié)合智能計(jì)算的大數(shù)據(jù)分析、跨學(xué)科交叉數(shù)據(jù)融合分析與應(yīng)用,以及與物聯(lián)網(wǎng)、移動(dòng)互聯(lián)、云計(jì)算等熱點(diǎn)技術(shù)相互交叉融合應(yīng)用等方面。機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等分析預(yù)測方法以及高級(jí)統(tǒng)計(jì)分析模型在海量存儲(chǔ)和高效計(jì)算等大數(shù)據(jù)技術(shù)的支撐下?lián)Q發(fā)了生機(jī),IT供應(yīng)商紛紛推出大數(shù)據(jù)分析產(chǎn)品及行業(yè)解決方案[2][3]。
隨著油氣儲(chǔ)藏的減少,油氣開發(fā)難度增加以及近年來油價(jià)持續(xù)低迷的經(jīng)濟(jì)環(huán)境,國內(nèi)外石油和天然氣公司越來越依賴數(shù)據(jù)分析來降低運(yùn)營成本及提高決策的科學(xué)性。例如殼牌成立大數(shù)據(jù)分析組織,實(shí)現(xiàn)1萬口油氣井傳感數(shù)據(jù)實(shí)時(shí)分析處理;BP在煉化廠建立高級(jí)過程控制中心,運(yùn)用數(shù)學(xué)模型分析工廠內(nèi)所收集的大數(shù)據(jù),優(yōu)化生產(chǎn)過程;國內(nèi)中石化結(jié)合振動(dòng)分析技術(shù)建立設(shè)備全生命周期預(yù)知維修系統(tǒng)等。這些應(yīng)用多為油氣生產(chǎn)某一業(yè)務(wù)領(lǐng)域特定問題的分析解決,尚未出現(xiàn)統(tǒng)一的大數(shù)據(jù)分析平臺(tái)支持勘探生產(chǎn)精準(zhǔn)研判、生產(chǎn)安全平穩(wěn)運(yùn)行、下游精準(zhǔn)銷售與客服等各業(yè)務(wù)領(lǐng)域及全產(chǎn)業(yè)鏈整體優(yōu)化。本文在國內(nèi)外大數(shù)據(jù)分析應(yīng)用現(xiàn)狀分析的基礎(chǔ)上,探討國內(nèi)油氣行業(yè)大數(shù)據(jù)分析應(yīng)用需求,對(duì)石油行業(yè)大數(shù)據(jù)分析統(tǒng)一平臺(tái)進(jìn)行設(shè)計(jì),并提出油氣公司部署大數(shù)據(jù)分析的相關(guān)建議。
1.1 應(yīng)用場景
石油行業(yè)的地震數(shù)據(jù)早已達(dá)到PB級(jí)以上,因此大數(shù)據(jù)分析最先在勘探開發(fā)領(lǐng)域得到應(yīng)用,隨后在管道運(yùn)輸、煉油化工及成品油銷售領(lǐng)域逐漸開始發(fā)揮作用。當(dāng)前油氣公司在進(jìn)行分析預(yù)測過程中面對(duì)不確定的模型變量或無法建立關(guān)系數(shù)據(jù)模型的負(fù)責(zé)問題,開始借助大數(shù)據(jù)分析模型從海量數(shù)據(jù)中發(fā)掘規(guī)律性關(guān)聯(lián),找出解決方案。
在勘探開發(fā)領(lǐng)域首先是海量地震數(shù)據(jù)存儲(chǔ)與處理,殼牌公司嘗試在亞馬遜虛擬私有云上部署Hadoop環(huán)境進(jìn)行地震數(shù)據(jù)前處理,雪佛龍公司使用IBM大數(shù)據(jù)平臺(tái)BigInsights處理地震數(shù)據(jù),并將處理過的數(shù)據(jù)輸入到高性能的大數(shù)據(jù)分析模型中進(jìn)行分析。在鉆井工程方面用于鉆井卡管實(shí)時(shí)預(yù)測,建立基于數(shù)學(xué)算法的概率模型,如決策樹、神經(jīng)網(wǎng)絡(luò)、CHAID方法等決策樹技術(shù),全面分析歷史作業(yè)數(shù)據(jù),識(shí)別出過去發(fā)生的與卡管事件相關(guān)的230個(gè)屬性特征。根據(jù)預(yù)測模型分析包括大鉤負(fù)載、滑輪位置及下井深度等的關(guān)聯(lián)關(guān)系,并將預(yù)測模型嵌入實(shí)時(shí)鉆井優(yōu)化軟件系統(tǒng),提前5秒發(fā)現(xiàn)卡管預(yù)兆并自動(dòng)采取措施。英國石油(BP)公司利用預(yù)測模型預(yù)測卡管精確度達(dá)到85%,在阿布扎比的一組50口井的鉆井作業(yè)中,通過最小化卡管造成的作業(yè)延遲節(jié)省了5300萬美元。在采油工程方面,通過對(duì)大量歷史的采油井工況數(shù)據(jù)(抽油井示功圖、電泵進(jìn)電流曲線等)進(jìn)行分析,結(jié)合專家的診斷結(jié)果建立采油工況診斷識(shí)別模型,實(shí)現(xiàn)采油井工況診斷自動(dòng)預(yù)警,及時(shí)發(fā)現(xiàn)問題,提高采油井生產(chǎn)效率。在增產(chǎn)措施方面,通過分析大量增產(chǎn)措施的歷史數(shù)據(jù)找出措施工藝參數(shù)配置和實(shí)際增油量的關(guān)聯(lián)關(guān)系,分析出針對(duì)特定區(qū)塊的增產(chǎn)措施工藝的優(yōu)化的方案,提高油氣措施增產(chǎn)效果。在油氣層發(fā)現(xiàn)方面,構(gòu)建更加精準(zhǔn)的油氣層測井曲線識(shí)別模型,對(duì)測井?dāng)?shù)據(jù)挖掘分析發(fā)現(xiàn)油、氣、水層測井曲線的不同特征規(guī)律,實(shí)現(xiàn)測井曲線自動(dòng)解釋和分析,挖掘老井中的潛力層,提高產(chǎn)量。
在管道與天然氣領(lǐng)域,大數(shù)據(jù)分析用于管道泄漏點(diǎn)迅速定位,實(shí)現(xiàn)管道檢測智能告警與預(yù)警。韓國SK能源在不新增傳感器的前提下,通過對(duì)現(xiàn)有7個(gè)壓力傳感器數(shù)據(jù)的分析即可在1分鐘內(nèi)發(fā)現(xiàn)1%流量的泄漏,漏點(diǎn)定位精度達(dá)300米。在煉油與化工領(lǐng)域,應(yīng)用文本分析等大數(shù)據(jù)技術(shù)對(duì)巡檢及HSE日志記錄等沉睡數(shù)據(jù)進(jìn)行發(fā)掘分析,找出存在的常見隱患與不安全行為,并進(jìn)行更細(xì)化的歸類,從而有針對(duì)性地制定安全隱患治理方案。中國石化對(duì)煉廠安全記錄進(jìn)行文本關(guān)鍵詞分析挖掘后,成功識(shí)別出巡檢遺漏高風(fēng)險(xiǎn)區(qū)和高危時(shí)間段,以及安全裝備使用的潛在問題。在銷售領(lǐng)域中國石化與阿里巴巴進(jìn)行合作,利用大數(shù)據(jù)分析技術(shù)進(jìn)行客戶畫像,分析中石化客戶的消費(fèi)能力、消費(fèi)偏好、消費(fèi)習(xí)慣,進(jìn)行定制化的營銷推送。
1.2 基礎(chǔ)設(shè)施建設(shè)
物聯(lián)網(wǎng)作為大數(shù)據(jù)產(chǎn)生的源頭及數(shù)據(jù)傳輸?shù)幕A(chǔ)設(shè)施,已經(jīng)成為部署大數(shù)據(jù)分析的先行工程。油氣公司已經(jīng)在開展大數(shù)據(jù)分析之前建立了完善的物聯(lián)網(wǎng)體系。殼牌使用惠普提供的地球神經(jīng)中樞系統(tǒng)(CeNSE,Central Nervous System for the Earth)解決方案來構(gòu)建一個(gè)無線傳感器系統(tǒng),在油氣田勘探開發(fā)生產(chǎn)中獲得更準(zhǔn)確的信息。據(jù)悉殼牌計(jì)劃將傳感器部署到1萬口油氣井中,預(yù)計(jì)將產(chǎn)生共計(jì)10EB的數(shù)據(jù)。殼牌在其油氣井中布置了光纖電纜,可以高速地傳輸井中傳感器實(shí)時(shí)獲得的油氣井?dāng)?shù)據(jù),滿足大數(shù)據(jù)的傳輸需求。從2012年開始BP將越來越多的傳感器安裝在鉆機(jī)、油井和管道中用來測量溫度、壓力、設(shè)備動(dòng)態(tài),構(gòu)建了物聯(lián)網(wǎng)的雛形。BP通過在井下安裝傳感器接收來自地下深處的數(shù)據(jù),指導(dǎo)鉆井隊(duì)如何有效地施工,系統(tǒng)每天可以從一口井中獲得TB級(jí)原始數(shù)據(jù)。BP還構(gòu)建了高效的通信網(wǎng)絡(luò),鋪設(shè)了2000多公里的光纜,將海上油田與BP的管控中心進(jìn)行連接,實(shí)現(xiàn)現(xiàn)場數(shù)據(jù)在線分析、生產(chǎn)實(shí)時(shí)診斷及遠(yuǎn)程指揮調(diào)度。雪佛龍通過全球信息交換網(wǎng)絡(luò)暢通項(xiàng)目(GIL)實(shí)現(xiàn)了大數(shù)據(jù)的高效聚集。
隨著大數(shù)據(jù)分析對(duì)其承載平臺(tái)的性能要求越來越高,云計(jì)算與大數(shù)據(jù)分析相結(jié)合能夠很好地適應(yīng)當(dāng)前數(shù)據(jù)處理技術(shù)的性能需求變化。云計(jì)算技術(shù)的不斷發(fā)展可以為大數(shù)據(jù)分析提供更為靈活、迅速的部署方案以及擴(kuò)展性更強(qiáng)、使用成本更低的存儲(chǔ)資源和計(jì)算資源,將大數(shù)據(jù)分析部署云中是未來大數(shù)據(jù)發(fā)展方向。搜集的數(shù)據(jù)需要進(jìn)行妥善的存儲(chǔ),既需要滿足對(duì)其存儲(chǔ)的需求,也要盡可能地降低存儲(chǔ)建設(shè)投入及后期運(yùn)維費(fèi)用。殼牌從2010年開始使用亞馬遜虛擬私有云(Amazon VPC,Amazon Virtual Private Cloud)來構(gòu)建自己的云架構(gòu)。由于需要處理的數(shù)據(jù)量巨大,殼牌從2012年開始在私有云服務(wù)平臺(tái)中嘗試Hadoop技術(shù)以提高大數(shù)據(jù)量的處理能力。BP的選擇了九家云服務(wù)提供商來構(gòu)建一個(gè)混合IaaS和SaaS的服務(wù)架構(gòu)來滿足云化要求,拓展自身的存儲(chǔ)、計(jì)算能力,降低IT建設(shè)和維護(hù)費(fèi)用,提供更為集中的服務(wù)。
大數(shù)據(jù)分析在石油行業(yè)各板塊發(fā)揮作用不只需要數(shù)據(jù)專家還需要各領(lǐng)域?qū)<乙约皵?shù)學(xué)、物理等學(xué)科的專家。殼牌的數(shù)據(jù)分析部門目前大約有70名全職員工,聚集了IT、油氣技術(shù)、數(shù)學(xué)和物理學(xué)等方面的專家。BP公司在2014年建立了大數(shù)據(jù)專家中心DCoE(Digital Centre of Expertise),召集了數(shù)字專家、數(shù)據(jù)科學(xué)家和IT技術(shù)人員負(fù)責(zé)開發(fā)、部署和集成全球業(yè)務(wù)的數(shù)字解決方案。DCoE將在BP已有成果的基礎(chǔ)上融合上游專業(yè)技術(shù)和其他各領(lǐng)域知識(shí),挖掘大數(shù)據(jù)價(jià)值,加快公司在石油生產(chǎn)領(lǐng)域數(shù)字化的步伐,提高企業(yè)的決策支持能力和公司整體績效。
綜上所述,大數(shù)據(jù)分析在國外應(yīng)用較早,國內(nèi)的石油企業(yè)雖然在云、物聯(lián)網(wǎng)等領(lǐng)域取得一定的建設(shè)成果,但大數(shù)據(jù)方面僅是在個(gè)別業(yè)務(wù)領(lǐng)域的初步嘗試,尚未出現(xiàn)大范圍的應(yīng)用,更缺乏統(tǒng)一存儲(chǔ)、處理、分析的管理工具進(jìn)行支撐。
油氣公司信息化建設(shè)在促進(jìn)業(yè)務(wù)發(fā)展方面取得豐碩成果的同時(shí)積累了大量的數(shù)據(jù),具有大體量、大增量的特點(diǎn),且數(shù)據(jù)類型復(fù)雜,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)并存。隨著云計(jì)算平臺(tái)的建成及應(yīng)用集成項(xiàng)目的推進(jìn),海量數(shù)據(jù)集中到一起,大數(shù)據(jù)應(yīng)用提上日程。
1)應(yīng)用大數(shù)據(jù)管理手段適應(yīng)業(yè)務(wù)發(fā)展
油氣生產(chǎn)物聯(lián)網(wǎng)在石油行業(yè)的建設(shè)和應(yīng)用日益深入。物聯(lián)網(wǎng)系統(tǒng)通過傳感器、視頻、移動(dòng)終端、電子標(biāo)簽等數(shù)據(jù)采集工具實(shí)時(shí)采集設(shè)備狀態(tài)、生產(chǎn)運(yùn)行、人員、安全、監(jiān)控、物流和銷售等數(shù)據(jù),通過有線和無線的方式傳輸?shù)綌?shù)據(jù)管理平臺(tái),為各業(yè)務(wù)領(lǐng)域的相關(guān)系統(tǒng)應(yīng)用提供數(shù)據(jù)。企業(yè)的應(yīng)用集成系統(tǒng)構(gòu)建了統(tǒng)一、穩(wěn)定、可靠的數(shù)據(jù)共享平臺(tái),將各業(yè)務(wù)板塊分散的信息系統(tǒng)數(shù)據(jù)匯聚在一起,形成了體積龐大的生產(chǎn)經(jīng)營數(shù)據(jù)集合。物聯(lián)網(wǎng)和應(yīng)用集成項(xiàng)目產(chǎn)生的海量數(shù)據(jù)將遠(yuǎn)遠(yuǎn)超出傳統(tǒng)數(shù)據(jù)庫和存儲(chǔ)能力范圍,需要具有高容量、可擴(kuò)展的存儲(chǔ)系統(tǒng)以及高效分析能力的數(shù)據(jù)挖掘工具進(jìn)行管理。
2)挖掘數(shù)據(jù)資產(chǎn)價(jià)值,實(shí)現(xiàn)科學(xué)管理
信息化建設(shè)過程中積累的海量數(shù)據(jù)已經(jīng)成為了寶貴資產(chǎn),蘊(yùn)含了豐富的價(jià)值,有待利用大數(shù)據(jù)處理技術(shù)、高級(jí)分析和建模技術(shù)挖掘利用,實(shí)現(xiàn)生產(chǎn)管控實(shí)時(shí)高效,生產(chǎn)運(yùn)行動(dòng)態(tài)優(yōu)化、經(jīng)營決策科學(xué)準(zhǔn)確。借助大數(shù)據(jù)分析技術(shù)進(jìn)行生產(chǎn)狀態(tài)在線分析、交互可視化實(shí)現(xiàn)生產(chǎn)事故、機(jī)器故障實(shí)時(shí)診斷;通過因子分析模型、交互式可視化和數(shù)據(jù)發(fā)現(xiàn)等工具識(shí)別事故原因快速解決問題;利用神經(jīng)網(wǎng)絡(luò)、灰度預(yù)測等技術(shù)預(yù)測油價(jià)變動(dòng)、油田產(chǎn)量、銷售情況等趨勢支持前瞻性研判,提高業(yè)務(wù)洞察力;應(yīng)用數(shù)據(jù)建模和機(jī)器學(xué)習(xí)等技術(shù)優(yōu)化生產(chǎn)計(jì)劃、指導(dǎo)銷售行為,提高生產(chǎn)經(jīng)營水平。
3)提高分析預(yù)測能力,提升各板塊業(yè)務(wù)水平
勘探生產(chǎn)領(lǐng)域需要基于大數(shù)據(jù)技術(shù)進(jìn)行油氣價(jià)格預(yù)測、地震及測井?dāng)?shù)據(jù)分析、采油井工礦診斷、區(qū)塊增產(chǎn)措施分析等應(yīng)用提高油田產(chǎn)量;煉化領(lǐng)域需要利用大數(shù)據(jù)模型進(jìn)行化工品綜合收率、能耗、安全行為進(jìn)行分析以及設(shè)備進(jìn)行預(yù)知性維護(hù)提高裝置平穩(wěn)率、加強(qiáng)安全受控;銷售領(lǐng)域需要基于客戶大數(shù)據(jù)進(jìn)行市場預(yù)測、客戶畫像實(shí)現(xiàn)精準(zhǔn)營銷和加大非油品營銷力度,增加客戶粘性;管道與天然氣領(lǐng)域需要通過大數(shù)據(jù)技術(shù)進(jìn)行能耗預(yù)測、泄露檢測、壓縮機(jī)故障診斷等應(yīng)用,加強(qiáng)管道完整性管理,降低運(yùn)營成本;工程技術(shù)領(lǐng)域需要應(yīng)用建模和分析技術(shù)實(shí)現(xiàn)套管卡管預(yù)測、設(shè)備監(jiān)控與預(yù)知性維修等業(yè)務(wù)應(yīng)用,加強(qiáng)現(xiàn)場生產(chǎn)管控;工程建設(shè)領(lǐng)域可以借助大數(shù)據(jù)技術(shù)提升工程設(shè)計(jì)優(yōu)化分析及風(fēng)險(xiǎn)分析與防范等提高業(yè)務(wù)能力;裝備制造領(lǐng)域可以將大數(shù)據(jù)分析技術(shù)應(yīng)用于裝備設(shè)備故障分析、指導(dǎo)產(chǎn)品研發(fā)等方面,保障生產(chǎn)安全平穩(wěn)運(yùn)行;綜合辦公領(lǐng)域在人力資源、財(cái)務(wù)績效、科研、安全、紀(jì)檢監(jiān)察、審計(jì)、合規(guī)性等方面應(yīng)用大數(shù)據(jù)分析模型提高分析預(yù)測能力。
3.1 供應(yīng)商解決方案
傳統(tǒng)IT廠商紛紛向大數(shù)據(jù)解決方案提供商轉(zhuǎn)型,提供數(shù)據(jù)中心和服務(wù)器等硬件、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)庫等基礎(chǔ)軟件、大數(shù)據(jù)分析應(yīng)用軟件以及技術(shù)咨詢、運(yùn)維支持等方面的一站式解決方案。其中大數(shù)據(jù)基礎(chǔ)軟件和應(yīng)用軟件是大數(shù)據(jù)解決方案的核心。傳統(tǒng)IT廠商既有微軟、IBM、HP等解決方案提供商還包括 SAS、甲骨文、Teradata等數(shù)據(jù)分析軟件商,大多以原有IT解決方案為基礎(chǔ),融合Hadoop形成融合了結(jié)構(gòu)化和非結(jié)構(gòu)化兩條體系的“雙?!狈桨?。新興的大數(shù)據(jù)創(chuàng)業(yè)公司如Cloudera、Hortonworks、MapR等主要基于Hadoop開發(fā)了商業(yè)版本和大數(shù)據(jù)分析工具,單獨(dú)或者與傳統(tǒng)IT廠商合作提供企業(yè)級(jí)大數(shù)據(jù)解決方案。國內(nèi)的華為、聯(lián)想、浪潮、曙光等一批IT廠商也都紛紛推出大數(shù)據(jù)解決方案。
針對(duì)油氣行業(yè),Oracle將傳統(tǒng)的數(shù)據(jù)倉庫和 Hadoop、NoSQL數(shù)據(jù)庫等大數(shù)據(jù)處理技術(shù)進(jìn)行結(jié)合,提供油氣行業(yè)大數(shù)據(jù)分析解決方案,主要集中在5方面的應(yīng)用:1)利用Hadoop集群對(duì)大量地震數(shù)據(jù)進(jìn)行分析處理,提高勘探生產(chǎn)效率及投資回報(bào)率;2)基于實(shí)時(shí)傳感數(shù)據(jù)分析識(shí)別安全隱患、機(jī)器故障,以提高生產(chǎn)的安全性、可靠性;3)基于大數(shù)據(jù)分析進(jìn)行供應(yīng)鏈和物流優(yōu)化管理,提高生產(chǎn)運(yùn)作效率;4)更準(zhǔn)確的市場分析,支持科學(xué)投資決策;5)提升企業(yè)公眾形象,維護(hù)和政府部門關(guān)系。Oracle在鉆井領(lǐng)域數(shù)據(jù)分析的架構(gòu)實(shí)例,如圖1所示:
圖1 Oracle鉆井領(lǐng)域大數(shù)據(jù)分析架構(gòu)示例
在圖1解決方案中對(duì)于生產(chǎn)實(shí)時(shí)數(shù)據(jù),由事件處理器進(jìn)行在線分析,并由專家系統(tǒng)針對(duì)具體業(yè)務(wù)規(guī)則對(duì)生產(chǎn)操作進(jìn)行預(yù)警或?yàn)楝F(xiàn)場人員快速推薦解決方案。對(duì)于歷史數(shù)據(jù)的存儲(chǔ)分為低密度存儲(chǔ)模塊與高密度存儲(chǔ)模塊。其中低密度存儲(chǔ)模塊為非關(guān)系型數(shù)據(jù)庫和分布式存儲(chǔ)集群 Hadoop,主要用于存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),高密度存儲(chǔ)模塊內(nèi)容為關(guān)系型數(shù)據(jù)庫用于存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。
Hortonworks公司專注于 Hadoop的開發(fā)和應(yīng)用,針對(duì)油氣行業(yè)建立了大數(shù)據(jù)分析架構(gòu),如圖2所示:
圖2 Hortonworks石油行業(yè)大數(shù)據(jù)分析解決方案
系統(tǒng)自動(dòng)采集測井日志,經(jīng)過清洗消除異常數(shù)據(jù),形成單一測井曲線視圖并以新的LAS文件或者圖片展示。系統(tǒng)支持SAS、R語言等統(tǒng)計(jì)工具建立新的模型,對(duì)多種不同類型的 LAS測井?dāng)?shù)據(jù)進(jìn)行分析。在監(jiān)控和報(bào)警方面,利用Storm實(shí)時(shí)監(jiān)控測井設(shè)備參數(shù)變量,實(shí)時(shí)分析和報(bào)警,保持測井的操作點(diǎn)能夠?qū)崟r(shí)處于最佳狀態(tài)。系統(tǒng)對(duì)海量圖形文件、傳感數(shù)據(jù)及地震測量數(shù)據(jù)進(jìn)行分析,預(yù)測油井產(chǎn)量,或利用遞減曲線分析法(DCA)基于歷史數(shù)據(jù)預(yù)測單井的未來產(chǎn)量,為油田區(qū)塊投資提供科學(xué)依據(jù),降低企業(yè)未來獲利的不確定性。在設(shè)備維修方面,將泵、油井及其他設(shè)備的傳感數(shù)據(jù)輸入大數(shù)據(jù)分析平臺(tái),結(jié)合天氣、地質(zhì)活動(dòng)或者其他媒體信息全面展示井下發(fā)生的情況,實(shí)現(xiàn)可預(yù)測性的設(shè)備維護(hù)。在健康安全環(huán)保方面,通過Hadoop以其原始形式或任意格式存儲(chǔ)HSE相關(guān)數(shù)據(jù)。
綜上所述,SAS、微軟、Oracle等傳統(tǒng)數(shù)據(jù)管理提供商在大數(shù)據(jù)分析解決方案中充分利用已有的解決方案,結(jié)合了大數(shù)據(jù)技術(shù)存儲(chǔ)海量非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢,但對(duì)大數(shù)據(jù)高性能并行計(jì)算、流處理以及支持高級(jí)分析挖掘等優(yōu)勢利用較少。以Hortonworks為代表的初創(chuàng)公司基于大數(shù)據(jù)開源軟件構(gòu)建解決方案,能充分應(yīng)用大數(shù)據(jù)技術(shù)的長處,并針對(duì)石油行業(yè)具體業(yè)務(wù)需求研發(fā)相關(guān)功能,有利于推動(dòng)發(fā)大數(shù)據(jù)分析在油氣行業(yè)的深化應(yīng)用。
3.2 油氣行業(yè)統(tǒng)一的大數(shù)據(jù)分析平臺(tái)設(shè)計(jì)
油氣產(chǎn)業(yè)鏈上各業(yè)務(wù)領(lǐng)域均提出了大數(shù)據(jù)分析應(yīng)用的需求,因此“十三五”期間油氣企業(yè)應(yīng)對(duì)大數(shù)據(jù)分析應(yīng)用進(jìn)行頂層設(shè)計(jì),研究統(tǒng)一的大數(shù)據(jù)分析平臺(tái)架構(gòu),實(shí)現(xiàn)企業(yè)數(shù)據(jù)資產(chǎn)的統(tǒng)一管理與全面掌控。應(yīng)用先進(jìn)的模型和算法對(duì)數(shù)據(jù)進(jìn)行綜合分析與深度挖掘,提煉數(shù)據(jù)價(jià)值,各業(yè)務(wù)板塊在統(tǒng)一平臺(tái)上根據(jù)具體業(yè)務(wù)需求細(xì)化應(yīng)用。
油氣行業(yè)統(tǒng)一的大數(shù)據(jù)分析平臺(tái)總體架構(gòu)如圖3所示:
圖3 初步建議的大數(shù)據(jù)分析平臺(tái)總體架構(gòu)
總體架構(gòu)由5個(gè)層次組成,其中數(shù)據(jù)源包括物聯(lián)網(wǎng)系統(tǒng)、DCS等自動(dòng)化控制系統(tǒng)、業(yè)務(wù)應(yīng)用系統(tǒng)以及外部信息等各類生產(chǎn)經(jīng)營數(shù)據(jù);數(shù)據(jù)存儲(chǔ)層由分布式存儲(chǔ)系統(tǒng)管理,各存儲(chǔ)節(jié)點(diǎn)部署于云中,可線性擴(kuò)展,動(dòng)態(tài)調(diào)配;數(shù)據(jù)處理層由先進(jìn)的分布式計(jì)算框架和分布式數(shù)據(jù)庫組成,大大提高模型計(jì)算和數(shù)據(jù)處理能力;通用服務(wù)層主要包括各類基礎(chǔ)統(tǒng)計(jì)分析和預(yù)測模型以及分析預(yù)測算法,為各業(yè)務(wù)領(lǐng)域大數(shù)據(jù)分析應(yīng)用提供模型算法支撐,此外還提供數(shù)據(jù)倉庫服務(wù)、實(shí)時(shí)處理引擎、接口服務(wù)、圖表工具等通用工具;應(yīng)用層為各業(yè)務(wù)板塊大數(shù)據(jù)分析業(yè)務(wù)應(yīng)用,解決業(yè)務(wù)中負(fù)責(zé)的分析預(yù)測問題。
通過建立統(tǒng)一的石油大數(shù)據(jù)分析平臺(tái),匯集來自于物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、信息系統(tǒng)中的相關(guān)數(shù)據(jù),為機(jī)關(guān)職能部門、專業(yè)分公司和地區(qū)公司提供數(shù)據(jù)分析相關(guān)的存儲(chǔ)、計(jì)算、業(yè)務(wù)分析建模等相關(guān)功能,加強(qiáng)數(shù)據(jù)管理和挖掘分析能力,支持各級(jí)管理者科學(xué)決策、實(shí)時(shí)決策。在勘探開發(fā)領(lǐng)域,加強(qiáng)構(gòu)造模式、儲(chǔ)層模式、油藏模式規(guī)律分析指導(dǎo)油田滾動(dòng)評(píng)價(jià)工作,提高剩余油富集區(qū)發(fā)現(xiàn)及油田剩余油研究工作效率。對(duì)煉油化工生產(chǎn)過程、儲(chǔ)運(yùn)和公用工程等數(shù)據(jù)一體化整合分析,輔助平穩(wěn)生產(chǎn)操作、安全事故預(yù)控以及供應(yīng)鏈整體優(yōu)化。通過對(duì)銷售過程數(shù)據(jù)和用戶數(shù)據(jù)的即時(shí)收集與分析實(shí)現(xiàn)成品油市場預(yù)測、供需平衡策略制定。在天然氣與管道領(lǐng)域,對(duì)管道運(yùn)行數(shù)據(jù)和能耗數(shù)據(jù)進(jìn)行實(shí)時(shí)綜合分析,支持管輸優(yōu)化,實(shí)現(xiàn)長輸管道運(yùn)營效益即時(shí)分析。
石油行業(yè)云的建設(shè)為大數(shù)據(jù)分析應(yīng)用提供了強(qiáng)大的計(jì)算能力和彈性可擴(kuò)展的資源池。企業(yè)也具備了建立大數(shù)據(jù)分析平臺(tái)的業(yè)務(wù)條件,同時(shí)市場上大數(shù)據(jù)技術(shù)方案已經(jīng)成熟,應(yīng)用案例逐漸涌現(xiàn),為項(xiàng)目建設(shè)提供了技術(shù)保障。在大數(shù)據(jù)技術(shù)行業(yè)應(yīng)用日益廣泛和深入的趨勢下,石油企業(yè)應(yīng)借鑒國內(nèi)外企業(yè)最佳實(shí)踐,明確各領(lǐng)域應(yīng)用需求,積極推動(dòng)大數(shù)據(jù)建設(shè)項(xiàng)目,具體建議如下:
1)完善大數(shù)據(jù)管理機(jī)制和辦法
建立大數(shù)據(jù)標(biāo)準(zhǔn)體系,推進(jìn)數(shù)據(jù)采集、指標(biāo)口徑、分類目錄、交換接口、訪問接口、數(shù)據(jù)質(zhì)量、數(shù)據(jù)交易、技術(shù)產(chǎn)品、安全保密等關(guān)鍵共性標(biāo)準(zhǔn)的制定和實(shí)施。推進(jìn)數(shù)據(jù)管控制度建設(shè),明確業(yè)務(wù)職能責(zé)任部門、專業(yè)分公司數(shù)據(jù)管理及共享的義務(wù)和權(quán)利,形成數(shù)據(jù)治理長效機(jī)制。開展元數(shù)據(jù)管理工作,厘清業(yè)務(wù)、技術(shù)和操作數(shù)據(jù)的關(guān)系與脈絡(luò),為大數(shù)據(jù)管理提供基礎(chǔ)工具[4]。明確數(shù)據(jù)采集、傳輸、存儲(chǔ)、使用、開放等各環(huán)節(jié)保障網(wǎng)絡(luò)安全的范圍邊界、責(zé)任主體和具體要求,切實(shí)加強(qiáng)對(duì)涉秘信息的保護(hù)。
2)提高大數(shù)據(jù)建模能力,培養(yǎng)人才隊(duì)伍
數(shù)據(jù)建模是大數(shù)據(jù)分析的核心,各業(yè)務(wù)板塊復(fù)雜的業(yè)務(wù)分析都離不開根據(jù)業(yè)務(wù)特點(diǎn)建立的數(shù)據(jù)模型,使管理者決策由單純依靠經(jīng)驗(yàn)判斷向數(shù)據(jù)定量分析轉(zhuǎn)變。各業(yè)務(wù)領(lǐng)域應(yīng)培養(yǎng)大數(shù)據(jù)建模人才,明確業(yè)務(wù)上需要分析預(yù)測的問題,基于傳統(tǒng)數(shù)據(jù)挖掘、統(tǒng)計(jì)分析理論構(gòu)建面向問題特征的大數(shù)據(jù)分析模型和算法,豐富大數(shù)據(jù)分析平臺(tái)的模型庫和算法庫,形成知識(shí)資產(chǎn)[5]。匯聚IT、業(yè)務(wù)、數(shù)學(xué)建模等方面的專家,組建數(shù)據(jù)分析共享服務(wù)機(jī)構(gòu),為各業(yè)務(wù)領(lǐng)域大數(shù)據(jù)分析提供集中的技術(shù)服務(wù)。
3)充分利用開源工具,形成自主知識(shí)產(chǎn)權(quán)
在信息技術(shù)發(fā)展趨勢中,開源已經(jīng)成為IT創(chuàng)新的源泉。其中Hadoop已成為成熟的大數(shù)據(jù)處理體系,Spark是近兩年來崛起的并行計(jì)算框架,具有內(nèi)存計(jì)算能力,Mashout成為機(jī)器學(xué)習(xí)經(jīng)典算法的有效工具,R語言是統(tǒng)計(jì)分析領(lǐng)域的新生力量。企業(yè)在開展大數(shù)據(jù)項(xiàng)目過程中應(yīng)充分利用這些開源工具,打造具有自主知識(shí)產(chǎn)權(quán)的解決方案,既有利于避免技術(shù)上受制于人而時(shí)時(shí)處于被動(dòng)地位,又能培養(yǎng)自己的信息化人才隊(duì)伍,提升核心競爭力,特別是有利于保護(hù)核心業(yè)務(wù)數(shù)據(jù)安全,防止涉密數(shù)據(jù)外泄。
4)構(gòu)建統(tǒng)一的大數(shù)據(jù)分析應(yīng)用平臺(tái)
從需求分析出發(fā),從頂層進(jìn)行設(shè)計(jì),構(gòu)建統(tǒng)一的大數(shù)據(jù)分析應(yīng)用平臺(tái)。依托云平臺(tái)和數(shù)據(jù)中心,構(gòu)建大數(shù)據(jù)存儲(chǔ)管理服務(wù)基礎(chǔ)設(shè)施。不斷融合信息門戶、社交網(wǎng)站等渠道的信息形成大數(shù)據(jù)知識(shí)互動(dòng)和共享平臺(tái)。基于Hadoop技術(shù)生態(tài)體系及人工智能模型持續(xù)完善業(yè)務(wù)分析平臺(tái),支持各級(jí)石油管理者定制化應(yīng)用及業(yè)務(wù)創(chuàng)新,形成具備自生能力的系統(tǒng),適應(yīng)油氣業(yè)務(wù)發(fā)展及需求變化。
隨著大數(shù)據(jù)技術(shù)、物聯(lián)網(wǎng)技術(shù)在各行各業(yè)不斷創(chuàng)造商業(yè)奇跡,數(shù)據(jù)的價(jià)值正在被社會(huì)重新定義。油氣公司應(yīng)用大數(shù)據(jù)分析技術(shù)對(duì)數(shù)據(jù)資產(chǎn)中蘊(yùn)含的潛在規(guī)則、商業(yè)機(jī)會(huì)、隱性知識(shí)進(jìn)行價(jià)值挖掘,幫助企業(yè)優(yōu)化生產(chǎn)管理模式,提高經(jīng)營決策的科學(xué)性具有重要意義。在油氣上下游產(chǎn)業(yè)鏈部署統(tǒng)一的大數(shù)據(jù)分析平臺(tái)需要統(tǒng)籌規(guī)劃、頂層設(shè)計(jì)。其中數(shù)據(jù)治理是項(xiàng)目成功的重要基礎(chǔ),需要通過元數(shù)據(jù)管理等工具構(gòu)建企業(yè)數(shù)據(jù)架構(gòu)體系,完善數(shù)據(jù)架構(gòu)管控措施,實(shí)現(xiàn)數(shù)據(jù)、流程的標(biāo)準(zhǔn)化和體系化。大數(shù)據(jù)分析的核心是大數(shù)據(jù)模型的建立和應(yīng)用,決定了各業(yè)務(wù)領(lǐng)域應(yīng)用大數(shù)據(jù)分析的定制性和創(chuàng)新性,因此對(duì)同時(shí)具有數(shù)據(jù)知識(shí)和業(yè)務(wù)知識(shí)的技術(shù)人員進(jìn)行持續(xù)的培養(yǎng)及組織的發(fā)展是構(gòu)建自我完善、自我升級(jí)的大數(shù)據(jù)分析平臺(tái)的持久動(dòng)力,也是平臺(tái)深化應(yīng)用的關(guān)鍵。
參考文獻(xiàn)
[1] 黨倩娜, 羅天雨, 曹磊. 多維視角下大數(shù)據(jù)領(lǐng)域技術(shù)創(chuàng)新演進(jìn)、前沿與特性[J]. 科學(xué)學(xué)與科學(xué)技術(shù)管理, 2015, 36(8):50-60.
[2] 高志鵬, 牛琨, 劉杰. 面向大數(shù)據(jù)的分析技術(shù)[J]. 北京郵電大學(xué)學(xué)報(bào), 2015, 38(3):1-12.
[3] 官思發(fā), 孟 璽, 李宗潔, 劉揚(yáng). 大數(shù)據(jù)分析研究現(xiàn)狀、問題與對(duì)策[J]. 情報(bào)雜志, 2015, 34(5):98-104.
[4] Jiawei Han, Micheline Kamber, Jian Pei. 數(shù)據(jù)挖掘:概念與技術(shù)[M]. 機(jī)械工業(yè)出版社, 2012.
[5] Sunil Soares, 大數(shù)據(jù)治理[M]. 清華大學(xué)出版社,2014
中圖分類號(hào):TP27
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1007-757X(2016)07-0064-04
收稿日期:(2016.01.12)
作者簡介:張春生(1982-),男,河北雄縣人,中國石油規(guī)劃總院,工程師,博士,研究方向:油氣行業(yè)信息技術(shù)應(yīng)用、規(guī)劃,北京,102206郭長杰(1978-),男,日照市人,中國石油規(guī)劃總院,工程師,研究方向:油氣行業(yè)信息工程,北京,102206尹兆濤(1980-),男,濰坊人,中國石油規(guī)劃總院,工程師,博士,研究方向:油氣行業(yè)信息工程,北京,102206
Research on Application of Big Data Analytics in Oil and Gas Industry
Zhang Chunsheng1,2, Guo Changjie2,Yin Zhaotao2
(1. Renmin University of China, Beijing 100872, China; 2. Petrochina Planning and Engineering Institute, Beijing 100083, China)
Abstract:To meet the demand of mining implicit rules and business opportunities from data to optimize production and support decision making in oil and gas industries, the current situation about application scenarios and infrastructure of big data analysis in domestic and foreign oil and gas companies is analyzed. Based on the solutions of popular vendors and the application demand of big data analytics in our country, the unified big data analytics platform of oil and gas is designed, and relevant recommendations in terms of big data management, organization and independent development for oil and gas companies to deploy big data analysis are proposed.
Key words:Big Data analytics; Oil and Gas; Modeling; Internet of Things; Cloud