帥訓(xùn)波 石文昌 馮 梅 周兆華 賀 佩
1.中國(guó)石油勘探開發(fā)研究院信息技術(shù)中心 2.中國(guó)人民大學(xué)信息學(xué)院
3.中國(guó)石油勘探開發(fā)研究院氣田開發(fā)研究所 4.中國(guó)石油勘探開發(fā)研究院油氣地球物理研究所
我國(guó)石油天然氣信息化歷程劃分為面向局部應(yīng)用的分散建設(shè)、體系標(biāo)準(zhǔn)規(guī)范化的統(tǒng)一建設(shè)、跨信息系統(tǒng)的集成應(yīng)用和面向服務(wù)的智能共享等4個(gè)主要階段[1]。隨著云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)和人工智能等新興信息技術(shù)在我國(guó)油氣行業(yè)的深度應(yīng)用,石油天然氣工業(yè)信息化建設(shè)正在邁入數(shù)字化轉(zhuǎn)型和智能化發(fā)展的新征程[2-4]。加快推進(jìn)信息系統(tǒng)之間的數(shù)據(jù)共享交換與綜合分析應(yīng)用,是我國(guó)油氣行業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、智能化發(fā)展的重要先決條件[5-6]。
一般說(shuō)來(lái),國(guó)內(nèi)目前具有對(duì)天然氣地質(zhì)信息進(jìn)行綜合管理功能的信息系統(tǒng)主要?jiǎng)澐譃槿缦?類[1,7-11]:①行業(yè)內(nèi)各大型油氣集團(tuán)公司分別統(tǒng)一規(guī)劃建設(shè)的勘探與生產(chǎn)數(shù)據(jù)管理信息系統(tǒng)、油氣水井生產(chǎn)數(shù)據(jù)管理信息系統(tǒng)等;②各集團(tuán)公司分別建設(shè)的勘探與生產(chǎn)ERP應(yīng)用集成類大型信息系統(tǒng);③各油氣田分公司根據(jù)自身業(yè)務(wù)特色而自建的典型應(yīng)用類信息系統(tǒng)。應(yīng)用實(shí)踐表明[7],上述信息系統(tǒng)已經(jīng)基本實(shí)現(xiàn)了“云化”部署應(yīng)用,而且各個(gè)系統(tǒng)在不同程度上均積累了“海量”的天然氣地質(zhì)數(shù)據(jù)。
筆者通過(guò)調(diào)研與分析當(dāng)前信息系統(tǒng)之間數(shù)據(jù)互聯(lián)互通的應(yīng)用現(xiàn)狀發(fā)現(xiàn),天然氣地質(zhì)數(shù)據(jù)的交換共享存在的突出問(wèn)題主要有包括:①數(shù)據(jù)通常存儲(chǔ)分散在不同的應(yīng)用信息系統(tǒng)中,難以形成企業(yè)級(jí)數(shù)據(jù)統(tǒng)計(jì)與分析;②多系統(tǒng)中的相同數(shù)據(jù)項(xiàng)管理不一致,各業(yè)務(wù)部門間對(duì)數(shù)據(jù)的賦值填報(bào)類型異構(gòu),并且量值“打架”,數(shù)據(jù)質(zhì)量不高;③在基礎(chǔ)類數(shù)據(jù)管理方面,粒度粗細(xì)不均,連同數(shù)據(jù)質(zhì)量參差不齊等諸因素共同導(dǎo)致了數(shù)據(jù)綜合分析應(yīng)用水平偏低。
對(duì)國(guó)外大型能源公司關(guān)于數(shù)據(jù)共享交換與綜合分析應(yīng)用現(xiàn)狀的調(diào)研結(jié)果表明[12-15],主要最佳實(shí)踐案例情況如下:①殼牌公司建立了系統(tǒng)完備的數(shù)據(jù)模型標(biāo)準(zhǔn)和信息系統(tǒng)交互標(biāo)準(zhǔn),將全球數(shù)千個(gè)油田的數(shù)據(jù)傳到亞馬遜服務(wù)器,通過(guò)相似性比較,提高了決策質(zhì)量;②??松梨诠疽栽朴?jì)算技術(shù)為支撐,構(gòu)建了數(shù)據(jù)生態(tài)與智能認(rèn)知環(huán)境;③斯倫貝謝公司以數(shù)據(jù)生態(tài)為技術(shù),集成人工智能與大數(shù)據(jù)分析技術(shù),構(gòu)建了勘探開發(fā)智能云計(jì)算平臺(tái)。
云計(jì)算技術(shù)通過(guò)基于網(wǎng)絡(luò)的計(jì)算方式,將共享的軟件、硬件資源和信息進(jìn)行組織整合,按需提供給計(jì)算機(jī)和其他信息系統(tǒng)使用。業(yè)界公認(rèn)的云計(jì)算架構(gòu)包括基礎(chǔ)設(shè)施層或資源層、平臺(tái)層、軟件服務(wù)層或應(yīng)用層共3個(gè)層次,其對(duì)應(yīng)名稱分別為 IaaS、PaaS和 SaaS。云計(jì)算技術(shù)具有資源共享好、計(jì)算能力強(qiáng)和存儲(chǔ)自主擴(kuò)展性能好等技術(shù)優(yōu)勢(shì),為解決信息化建設(shè)中“信息孤島”問(wèn)題提供了很好的思路。
針對(duì)各信息系統(tǒng)之間難以進(jìn)行數(shù)據(jù)共享的問(wèn)題,在對(duì)云計(jì)算技術(shù)應(yīng)用案例與信息系統(tǒng)平臺(tái)化建設(shè)方案詳細(xì)調(diào)研基礎(chǔ)之上[15-16],從數(shù)據(jù)管理的角度,應(yīng)用云計(jì)算技術(shù),開展了基于動(dòng)態(tài)存儲(chǔ)的天然氣地質(zhì)信息共享平臺(tái)構(gòu)建研究。此項(xiàng)工作對(duì)于實(shí)現(xiàn)石油天然氣行業(yè)生產(chǎn)的降本增效和管理模式優(yōu)化等高質(zhì)量發(fā)展,具有非常重要的科學(xué)意義和工程價(jià)值。
從數(shù)據(jù)管理角度,依據(jù)對(duì)地質(zhì)特征描述的分辨率由高到低的標(biāo)準(zhǔn)來(lái)劃分,天然氣地質(zhì)信息主要包括巖石物理、測(cè)井、地震和地質(zhì)文檔等四大類主要數(shù)據(jù)。巖石物理數(shù)據(jù)主要刻畫氣井各層位的詳細(xì)信息;測(cè)井?dāng)?shù)據(jù)用于表達(dá)氣井單井的地層特征;地震數(shù)據(jù)從三維空間對(duì)地層綜合特征進(jìn)行表示;地質(zhì)文檔大多是直接描述沉積和構(gòu)造特征的非結(jié)構(gòu)化類型的文本和圖表形式。
本文所構(gòu)建的平臺(tái)管理數(shù)據(jù)對(duì)象主要有:①巖石物理、測(cè)井、氣藏和生產(chǎn)動(dòng)態(tài)等基礎(chǔ)結(jié)構(gòu)化數(shù)據(jù);②天然氣地質(zhì)信息相關(guān)文檔、圖片、音頻和視頻等非結(jié)構(gòu)化數(shù)據(jù)。為了兼顧數(shù)據(jù)共享應(yīng)用效率,平臺(tái)對(duì)體量大且格式復(fù)雜的地震類數(shù)據(jù),暫時(shí)沒(méi)有作為重點(diǎn)集成應(yīng)用對(duì)象。
數(shù)據(jù)庫(kù)設(shè)計(jì)是天然氣信息共享平臺(tái)構(gòu)建過(guò)程中關(guān)鍵環(huán)節(jié),是一種將現(xiàn)實(shí)世界中數(shù)據(jù)及關(guān)系與信息編碼之間建立映射的方式。當(dāng)前正在實(shí)際生產(chǎn)運(yùn)行的諸多油氣信息系統(tǒng)在建設(shè)過(guò)程中,均采用了基于實(shí)體—聯(lián)系模型(ER模型)應(yīng)用的數(shù)據(jù)庫(kù)設(shè)計(jì)方法。
應(yīng)用實(shí)踐表明,對(duì)于各種類型的天然氣信息管理系統(tǒng),無(wú)論是分散建設(shè)和統(tǒng)一建設(shè),還是集成應(yīng)用等不同階段中,中國(guó)石油企業(yè)標(biāo)準(zhǔn)《勘探開發(fā)數(shù)據(jù)結(jié)構(gòu)第1部分:基礎(chǔ)數(shù)據(jù):Q/SY10547.1—2018》對(duì)各天然氣信息系統(tǒng)的數(shù)據(jù)庫(kù)設(shè)計(jì)和應(yīng)用管理,均起到了堅(jiān)實(shí)的基礎(chǔ)性作用,這給本文的天然氣地質(zhì)信息共享平臺(tái)的數(shù)據(jù)庫(kù)建設(shè)奠定了很好的應(yīng)用基礎(chǔ)。
為了使得已有各信息系統(tǒng)間進(jìn)行高效數(shù)據(jù)集成與共享,結(jié)構(gòu)化數(shù)據(jù)庫(kù)結(jié)構(gòu)依據(jù)中國(guó)石油企業(yè)標(biāo)準(zhǔn)《勘探開發(fā)數(shù)據(jù)結(jié)構(gòu)第1部分:基礎(chǔ)數(shù)據(jù):Q/SY10547.1—2018》中的數(shù)據(jù)庫(kù)結(jié)構(gòu)規(guī)范而設(shè)計(jì)。數(shù)據(jù)庫(kù)滿足對(duì)地質(zhì)基礎(chǔ)信息的綜合管理需求,其所包含的基礎(chǔ)地質(zhì)信息有基本實(shí)體、物探、測(cè)井、試油試采、地質(zhì)與氣藏等8類133個(gè)關(guān)鍵數(shù)據(jù)項(xiàng)(表1)。
表1 天然氣基礎(chǔ)地質(zhì)信息類別統(tǒng)計(jì)表
天然氣地質(zhì)信息共享平臺(tái)的基礎(chǔ)數(shù)據(jù)庫(kù)中的地質(zhì)基礎(chǔ)數(shù)據(jù),主要是從當(dāng)前中石油等集團(tuán)公司統(tǒng)建或各油氣田公司自己建設(shè)的天然氣數(shù)據(jù)庫(kù)信息應(yīng)用系統(tǒng)中讀取,并集成應(yīng)用。對(duì)于某些關(guān)鍵數(shù)據(jù)項(xiàng),既存在集團(tuán)公司統(tǒng)建數(shù)據(jù)庫(kù)系統(tǒng)中,又存在相關(guān)的油氣田公司自建的數(shù)據(jù)庫(kù)系統(tǒng)中的情況,以數(shù)據(jù)最近的更新時(shí)間為依據(jù)進(jìn)行選擇讀取與集成應(yīng)用的對(duì)象。數(shù)據(jù)交換中間件技術(shù)是實(shí)現(xiàn)對(duì)所有集成數(shù)據(jù)源的集成調(diào)度管理和負(fù)載均衡的工具,因此,應(yīng)用數(shù)據(jù)交換中間件技術(shù)實(shí)現(xiàn)對(duì)數(shù)據(jù)源的匯集,經(jīng)過(guò)數(shù)據(jù)質(zhì)量和數(shù)據(jù)關(guān)系約束等校驗(yàn)后,將從各信息系統(tǒng)中讀取的數(shù)據(jù)安全地存儲(chǔ)在本文構(gòu)建的地質(zhì)信息共享平臺(tái)數(shù)據(jù)庫(kù)中。基于數(shù)據(jù)交換中間件的天然氣地質(zhì)信息共享平臺(tái)的數(shù)據(jù)集成應(yīng)用接口設(shè)計(jì)如圖1所示。
平臺(tái)選用具有存儲(chǔ)數(shù)據(jù)持久、存儲(chǔ)空間可擴(kuò)展性能強(qiáng)和集群部署無(wú)單點(diǎn)故障的OpenStack Swift工具來(lái)實(shí)現(xiàn)對(duì)視頻、音頻和圖像等類型的非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)管理。為了避免命名空間與存儲(chǔ)位置之間的索引和轉(zhuǎn)換,平臺(tái)在搭建過(guò)程中采用了對(duì)外的命名空間直接指定存儲(chǔ)位置的策略方式。存儲(chǔ)的過(guò)程中,首先采用人工輔助標(biāo)注的方式生成與其一一對(duì)應(yīng)的非結(jié)構(gòu)化文檔,并且該非結(jié)構(gòu)化文檔是對(duì)其對(duì)應(yīng)的視頻、音頻或圖像的重要關(guān)鍵特征信息進(jìn)行盡可能地詳細(xì)描述。
以滿足用戶對(duì)信息檢索的快速響應(yīng)需求為目標(biāo),對(duì)大量的非結(jié)構(gòu)化數(shù)據(jù)的高效檢索方法是本文研究的重點(diǎn)之一。對(duì)文檔類型非結(jié)構(gòu)化數(shù)據(jù)的快速檢索的基本思想是,根據(jù)用戶對(duì)天然氣地質(zhì)信息檢索習(xí)慣,用戶提交的檢索往往均為名詞或名詞組,例如:含油氣盆地、寒武系和低滲透等,因此,對(duì)文檔中名詞分類提取是檢索實(shí)現(xiàn)的關(guān)鍵,根據(jù)每個(gè)詞的統(tǒng)計(jì),選取頻次高的一系列詞組作為文檔的特征詞向量。將文檔的特征詞向量與用戶提交的檢索詞組進(jìn)行匹配,以匹配中的特征詞所指向的文檔,作檢索結(jié)果返回。
關(guān)于文檔名詞提取的實(shí)現(xiàn)方法,國(guó)內(nèi)常用代表性工具有清華大學(xué)研制的HULAC包(https://github.com/thunlp/THULAC-Python)和北京理工大學(xué)的PyNLPIR分詞系統(tǒng)(https://github.com/tsroten/pynlpir)。從軟件易調(diào)用的角度,考慮到PyNLPIR是一整套對(duì)原始文本集處理和加工的軟件,提供了中間件處理效果可視化展示。因此,研究過(guò)程選用了PyNLPIR中文分詞系統(tǒng)。此次提出基于文檔特征詞抽取的非結(jié)構(gòu)化數(shù)據(jù)檢索方法流程如圖2所示。
1)特征文檔生成。對(duì)音頻、視頻和圖像等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行關(guān)鍵信息描述,形成特征文檔。
2)名詞分詞。對(duì)文檔進(jìn)行分詞處理,提取文檔中的名詞向量,并統(tǒng)計(jì)每個(gè)名詞在其文檔中出現(xiàn)的頻度。
3)特征向量提取。根據(jù)石油天然氣領(lǐng)域科研常識(shí)或經(jīng)驗(yàn),枚舉常用的地質(zhì)名詞列表。參照該名詞列表,依據(jù)名詞在其文檔中出現(xiàn)頻度自高向低排序,提取頻度高的幾個(gè)或多個(gè)名詞構(gòu)成文檔特征詞向量。
4)檢索對(duì)象優(yōu)化。兼顧到檢索的有效性,根據(jù)用戶提供的檢索詞,依據(jù)某些原則,選取在期望時(shí)間內(nèi)可以完成對(duì)特征詞向量匹配的文檔集合,作為被檢索對(duì)象。
5)檢索結(jié)果排序。對(duì)于選定的被檢索對(duì)象集合,將用戶檢索詞依次與每個(gè)被檢索對(duì)象進(jìn)行匹配。對(duì)于匹配成功的多個(gè)文檔,首先以用戶提交的檢索詞匹配成功順序?qū)Ψ祷亟Y(jié)果排序;對(duì)于同一詞匹配成功多份文檔的情況,根據(jù)歷史用戶對(duì)文檔檢索點(diǎn)擊數(shù)量對(duì)返回結(jié)果進(jìn)行排序。
6)非結(jié)構(gòu)化數(shù)據(jù)輸出。根據(jù)返回結(jié)果,判定特征向量所指向的非結(jié)構(gòu)化數(shù)據(jù)類型。如果是文檔數(shù)據(jù),則直接返回;如果音頻、視頻或圖片等數(shù)據(jù),將再進(jìn)一步根據(jù)特征文檔的所指向,返回相應(yīng)的音頻、視頻和圖像等非結(jié)構(gòu)化數(shù)據(jù)。
如果將天然氣地質(zhì)信息共享平臺(tái)的數(shù)據(jù)庫(kù)視為一個(gè)匯集各信息系統(tǒng)綜合數(shù)據(jù)的“數(shù)據(jù)湖”,那么平臺(tái)的數(shù)據(jù)集成應(yīng)用接口就是各信息系統(tǒng)通向“數(shù)據(jù)湖”的溪流。因此,對(duì)平臺(tái)“數(shù)據(jù)湖”中的地質(zhì)基礎(chǔ)數(shù)據(jù)質(zhì)量管理,是平臺(tái)對(duì)數(shù)據(jù)的全生命周期管理的關(guān)鍵環(huán)節(jié)。從數(shù)據(jù)源入口集成、數(shù)據(jù)入庫(kù)審批、數(shù)據(jù)使用到數(shù)據(jù)校對(duì)等環(huán)節(jié)進(jìn)行嚴(yán)格的細(xì)粒度監(jiān)控,以提高數(shù)據(jù)質(zhì)量。面對(duì)異構(gòu)或多源的數(shù)據(jù)集成現(xiàn)象,在集成應(yīng)用之前,主要從管理與技術(shù)相結(jié)合的方式,采取了數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)和可信數(shù)據(jù)源管理等兩個(gè)策略實(shí)現(xiàn)平臺(tái)的整體數(shù)據(jù)質(zhì)量管理。
在數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)方面,通過(guò)借鑒國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)以及信息系統(tǒng)標(biāo)準(zhǔn)規(guī)范等文件,對(duì)平臺(tái)的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范進(jìn)行制定,對(duì)平臺(tái)所涉及的各項(xiàng)數(shù)據(jù)進(jìn)行定義與解釋,以及數(shù)據(jù)質(zhì)量及安全性要求進(jìn)行統(tǒng)一定義,包含數(shù)據(jù)在業(yè)務(wù)層面的定義和數(shù)據(jù)在技術(shù)層面的定義等。在與各信息系統(tǒng)接口集成時(shí),遵循數(shù)據(jù)標(biāo)準(zhǔn)中所規(guī)范的數(shù)據(jù)定義和語(yǔ)義解釋等進(jìn)行相應(yīng)的數(shù)據(jù)入庫(kù),從而確保了數(shù)據(jù)庫(kù)目錄架構(gòu)的準(zhǔn)確性與一致性。在可信數(shù)據(jù)源管理方面,通過(guò)從信息系統(tǒng)集成情況,判別可信數(shù)據(jù)源是否有且只有唯一,若唯一,則直接確認(rèn);若有多個(gè)數(shù)據(jù)源頭,以業(yè)務(wù)邏輯模型為輸入信息,梳理出各個(gè)屬性在信息系統(tǒng)的分布情況,然后借助專家經(jīng)驗(yàn)從數(shù)據(jù)屬性分布、業(yè)務(wù)管理流向以及IT系統(tǒng)的相關(guān)業(yè)務(wù)操作的時(shí)間戳等三個(gè)方面來(lái)綜合分析與判斷,輔助確定可信數(shù)據(jù)源。
當(dāng)前,人工智能在油氣行業(yè)得到了深度應(yīng)用,像基于人工神經(jīng)網(wǎng)絡(luò)、遺傳算法和機(jī)器學(xué)習(xí)等為代表的各類數(shù)據(jù)挖掘算法在油氣工程領(lǐng)域也出現(xiàn)了不同程度的應(yīng)用創(chuàng)新[17-20]。由于地質(zhì)條件自身的復(fù)雜性與構(gòu)造差異性,相同數(shù)據(jù)挖掘算法應(yīng)用于不同地質(zhì)構(gòu)造的數(shù)據(jù)集合時(shí),其各個(gè)參數(shù)是不同的。例如地震反演遺傳算法,分別應(yīng)用于四川盆地地震數(shù)據(jù)、松遼盆地地震數(shù)據(jù)和柴達(dá)木盆地地震數(shù)據(jù)時(shí),其雜交率和變異率等參數(shù)設(shè)置是不同的。因此,對(duì)于開發(fā)或者勘探地質(zhì)人員來(lái)說(shuō),面對(duì)不同的綜合地質(zhì)數(shù)據(jù)對(duì)象,選擇什么樣的挖掘應(yīng)用算法,以及所選擇的算法參數(shù)如何選取一直是一個(gè)“被重視”并“被困擾”的問(wèn)題。
平臺(tái)主要是從如下兩個(gè)方面對(duì)數(shù)據(jù)挖掘算法及其參數(shù)應(yīng)用進(jìn)行集成應(yīng)用:
1)應(yīng)用編程語(yǔ)言將每個(gè)數(shù)據(jù)挖掘算法進(jìn)行編程實(shí)現(xiàn),并編譯形成動(dòng)態(tài)連接庫(kù)文件,然后把動(dòng)態(tài)連接庫(kù)文件封裝在一個(gè)執(zhí)行文件中,使其擁有入口和出口,可獨(dú)立運(yùn)行完成算法流程運(yùn)算。
2)根據(jù)對(duì)各個(gè)算法在實(shí)際應(yīng)用的參數(shù)調(diào)整研究或者專家經(jīng)驗(yàn)分析結(jié)果,對(duì)于各個(gè)算法用于不同構(gòu)造時(shí)而進(jìn)行參數(shù)調(diào)整,分別詳細(xì)記錄,形成算法參數(shù)“設(shè)置指南”,主要包括區(qū)塊名稱、計(jì)算的歷史數(shù)據(jù)量、參數(shù)個(gè)數(shù)、參數(shù)類型和最佳參數(shù)設(shè)置等詳細(xì)信息,為算法應(yīng)用于不同區(qū)塊或不同計(jì)算量數(shù)據(jù)而設(shè)置最優(yōu)參數(shù)提供指導(dǎo)。數(shù)據(jù)挖掘算法程序塊與其對(duì)應(yīng)的參數(shù)“設(shè)置指南”進(jìn)行統(tǒng)一的存儲(chǔ)與管理。
通過(guò)構(gòu)建方法庫(kù)字典的方式對(duì)信息平臺(tái)中應(yīng)用算法進(jìn)行應(yīng)用管理。方法庫(kù)字典主要包括算法類別、算法功能、適用范圍、參數(shù)設(shè)置指南、算法程序調(diào)用入口和典型案例應(yīng)用與展示等。從用戶使用的角度,通過(guò)構(gòu)建方法庫(kù)字典對(duì)算法實(shí)現(xiàn)最優(yōu)化調(diào)度管理,主要功能有如下三方面:
1)搭建方法庫(kù)用戶操作界面,豐富平臺(tái)的基礎(chǔ)服務(wù)功能。用戶可以通過(guò)方法庫(kù)字典對(duì)算法檢索,對(duì)算法功能信息和案例應(yīng)用等進(jìn)行了解,為如何應(yīng)用好相關(guān)算法提供幫助。
2)提供算法參數(shù)設(shè)置推薦,擴(kuò)展平臺(tái)的輔助決策功能。用戶通過(guò)方法庫(kù)字典檢索到某種數(shù)據(jù)挖掘算法時(shí),根據(jù)計(jì)算的數(shù)據(jù)對(duì)象屬性,比如區(qū)塊和地質(zhì)年代等,可以依據(jù)參數(shù)設(shè)置指南的內(nèi)容對(duì)算法的應(yīng)用參數(shù)進(jìn)行最優(yōu)化設(shè)置,以確保數(shù)據(jù)挖掘算法的應(yīng)用效果。
3)提供豐富的算法典型案例,建立方法庫(kù)與數(shù)據(jù)庫(kù)之間的共享應(yīng)用橋梁。一方面,用戶從數(shù)據(jù)庫(kù)里選取一定量的數(shù)據(jù)集合后,通過(guò)與方法庫(kù)中算法的典型案例的數(shù)據(jù)集比較,可以對(duì)所選取數(shù)據(jù)集的數(shù)量和質(zhì)量進(jìn)行初步評(píng)判,為數(shù)據(jù)體的質(zhì)量提升提供輔助參照;另一方面,用戶通過(guò)方法庫(kù)字典的算法入口地址快速調(diào)用算法,將數(shù)據(jù)集合和數(shù)據(jù)挖掘算法結(jié)合起來(lái)進(jìn)行計(jì)算,計(jì)算結(jié)果既可以以直觀清晰方式在線展現(xiàn),也可下載到本地存儲(chǔ),供決策者使用。此外,經(jīng)過(guò)實(shí)踐驗(yàn)證或者專家綜合分析判定為算法計(jì)算結(jié)果為理想的算例,作為方法庫(kù)中關(guān)于本算法的典型應(yīng)用案例,為算法被后續(xù)調(diào)用提供參考。
根據(jù)應(yīng)用功能設(shè)計(jì),平臺(tái)劃分為基礎(chǔ)設(shè)施管理子系統(tǒng)、數(shù)據(jù)管理子系統(tǒng)、文檔管理子系統(tǒng)、分析預(yù)警子系統(tǒng)、優(yōu)化決策子系統(tǒng)、數(shù)據(jù)展示子系統(tǒng)、系統(tǒng)管理子系統(tǒng)和安全管理子系統(tǒng)等8個(gè)部分,功能架構(gòu)如圖3所示。
基礎(chǔ)設(shè)施管理子系統(tǒng)采用私有云架構(gòu),為地質(zhì)信息共享平臺(tái)系統(tǒng)提供基礎(chǔ)資源支撐。
數(shù)據(jù)管理子系統(tǒng)主要實(shí)現(xiàn)從目前國(guó)內(nèi)現(xiàn)行的A1和A2等大型石油天然氣數(shù)據(jù)庫(kù)中進(jìn)行接口式集成應(yīng)用,為天然氣地質(zhì)信息共享平臺(tái)提供數(shù)據(jù)源支撐。
文檔管理子系統(tǒng)主要是構(gòu)建天然氣知識(shí)庫(kù),包括視頻數(shù)據(jù)、音頻數(shù)據(jù)、開發(fā)方案、產(chǎn)能建設(shè)、日常管理數(shù)據(jù)等,為數(shù)據(jù)分析預(yù)警、優(yōu)化決策提供數(shù)據(jù)源支撐。
分析預(yù)警子系統(tǒng)實(shí)現(xiàn)綜合數(shù)據(jù)查詢、分類統(tǒng)計(jì)、壓力和產(chǎn)量分析、效益分析和氣田風(fēng)險(xiǎn)預(yù)警等,為管理決策人員、技術(shù)管理人員和基層技術(shù)人員提供綜合分析。
優(yōu)化決策子系統(tǒng)實(shí)現(xiàn)生產(chǎn)優(yōu)化、智能決策、效益預(yù)測(cè)、前期評(píng)價(jià)、智能評(píng)價(jià)、動(dòng)態(tài)分析等功能,為天然氣業(yè)務(wù)管理決策人員提供綜合分析參考。
數(shù)據(jù)展示子系統(tǒng)主要實(shí)現(xiàn)綜合數(shù)據(jù)的單井展示、區(qū)塊展示、氣田展示、預(yù)警展示、產(chǎn)量態(tài)勢(shì)預(yù)測(cè)等功能,實(shí)現(xiàn)數(shù)據(jù)動(dòng)態(tài)的可視化應(yīng)用。
系統(tǒng)管理和安全管理兩個(gè)子系統(tǒng)分別對(duì)平臺(tái)安全提供管理保障和技術(shù)保障。
根據(jù)數(shù)據(jù)在平臺(tái)中的功能應(yīng)用,平臺(tái)實(shí)現(xiàn)的數(shù)據(jù)架構(gòu)自下而上劃分為六層,依次為:數(shù)據(jù)源、數(shù)據(jù)采集層、數(shù)據(jù)管理層、數(shù)據(jù)分析層,數(shù)據(jù)應(yīng)用層及數(shù)據(jù)展示層,數(shù)據(jù)架構(gòu)如圖4所示。
1)數(shù)據(jù)源層主要為平臺(tái)各種功能與服務(wù)運(yùn)行提供數(shù)據(jù)資源,主要包括行業(yè)內(nèi)的A1、A2、A4、A5等典型應(yīng)用數(shù)據(jù)庫(kù)。
2) 數(shù)據(jù)采集層主要按照本文1.1節(jié)的接口設(shè)計(jì)方式,實(shí)現(xiàn)平臺(tái)數(shù)據(jù)采集,采集方式包括代理采集、數(shù)據(jù)推送和系統(tǒng)自動(dòng)導(dǎo)入。代理采集方式應(yīng)在各個(gè)天然氣基礎(chǔ)庫(kù)服務(wù)器上部署采集代理,從資源層實(shí)時(shí)采集數(shù)據(jù);而推送方式需要各個(gè)資源層的數(shù)據(jù)庫(kù)向平臺(tái)實(shí)時(shí)推送數(shù)據(jù)。
3)數(shù)據(jù)管理層是平臺(tái)的核心層,主要分為生產(chǎn)運(yùn)行數(shù)據(jù)庫(kù)和知識(shí)文檔庫(kù)兩個(gè)數(shù)據(jù)庫(kù)對(duì)綜合數(shù)據(jù)全面管理。對(duì)生產(chǎn)運(yùn)行數(shù)據(jù)庫(kù)存儲(chǔ)從資源層采集的結(jié)構(gòu)化數(shù)據(jù),按照本文1.3節(jié)的數(shù)據(jù)質(zhì)量管理方式,對(duì)數(shù)據(jù)進(jìn)行質(zhì)量校驗(yàn)后入庫(kù);知識(shí)文檔數(shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、管理和分析。
4)數(shù)據(jù)分析層主要實(shí)現(xiàn)對(duì)生產(chǎn)運(yùn)行庫(kù)和知識(shí)文檔庫(kù)的綜合應(yīng)用分析,該層所采用的技術(shù)方法包括統(tǒng)計(jì)計(jì)算、查詢處理、SQL分析、批處理及機(jī)器學(xué)習(xí)等。
5)數(shù)據(jù)應(yīng)用層提供數(shù)據(jù)分析與預(yù)警服務(wù),包括數(shù)據(jù)查詢、分類統(tǒng)計(jì)、數(shù)據(jù)報(bào)表、動(dòng)態(tài)分析、氣田預(yù)警、前期評(píng)價(jià)、效益評(píng)價(jià)、智能決策等應(yīng)用。
6)數(shù)據(jù)展示層為用戶提供良好的人機(jī)交互界面,支持終端操作應(yīng)用包括本地PC終端、智能手機(jī)終端和大屏終端等。
為了提高平臺(tái)的代碼開發(fā)效率,平臺(tái)開發(fā)框架選用開源輕量級(jí)Java平臺(tái)的SpringBoot技術(shù),采用開箱即用和約定優(yōu)于配置的策略,很好地解決了外部依賴jar包的版本沖突和引用不穩(wěn)定等問(wèn)題。平臺(tái)的Web 應(yīng)用程序的前端采用基于Bootstrap 的工具包開發(fā),實(shí)現(xiàn)了表單、表格和網(wǎng)格系統(tǒng)等應(yīng)用;采用AngularJS技術(shù)實(shí)現(xiàn)前端頁(yè)面的應(yīng)用開發(fā)。
平臺(tái)安全管理作為在應(yīng)用功能架構(gòu)中重要基礎(chǔ)模塊之一,細(xì)分為用戶認(rèn)證、權(quán)限管理、存儲(chǔ)安全管理和傳輸安全管理等四個(gè)主要功能。采用基于角色的訪問(wèn)控制權(quán)限管理,平臺(tái)根據(jù)其所面向的用戶不同而配置不同的訪問(wèn)權(quán)限。存儲(chǔ)管理主要是依據(jù)加密算法對(duì)存儲(chǔ)在數(shù)據(jù)庫(kù)中的敏感數(shù)據(jù)進(jìn)行加密,管理員無(wú)法直接從數(shù)據(jù)庫(kù)查看數(shù)據(jù),可保證敏感數(shù)據(jù)不被篡改或者惡意利用。
以蘇里格氣田東區(qū)的綜合數(shù)據(jù)管理為例對(duì)平臺(tái)進(jìn)行應(yīng)用測(cè)試,動(dòng)態(tài)集成加載氣田東區(qū)的綜合地質(zhì)數(shù)據(jù)、關(guān)鍵指標(biāo)數(shù)據(jù)和歷年產(chǎn)能非結(jié)構(gòu)化報(bào)表等不同類別數(shù)據(jù),實(shí)現(xiàn)對(duì)氣田東區(qū)相關(guān)的基礎(chǔ)數(shù)據(jù)表、重要的文檔和圖件的動(dòng)態(tài)存儲(chǔ)、共享檢索和特征分析。對(duì)氣田東區(qū)的綜合數(shù)據(jù)查詢所示(圖5),儲(chǔ)層巖性與物性關(guān)聯(lián)分析(圖6)。
根據(jù)儲(chǔ)層、滲透率、孔隙度和有效厚度等參數(shù)設(shè)置,選用蘇里格氣田氣井動(dòng)態(tài)分類方法[21],將井劃分為優(yōu)質(zhì)井、中等井和劣質(zhì)井,分別標(biāo)注為Ⅰ類井,Ⅱ類和Ⅲ類井。通過(guò)對(duì)三類不同井的歷史產(chǎn)量數(shù)據(jù),調(diào)用方法庫(kù)中的Arps常規(guī)遞減模型算法,實(shí)現(xiàn)了對(duì)不同類別井的產(chǎn)量趨勢(shì)分析(圖7)。
從A趨勢(shì)曲線可以看出,投產(chǎn)初期,Ⅰ類井產(chǎn)量大,Ⅲ類井產(chǎn)量最低,Ⅱ類井居中。隨著投產(chǎn)時(shí)間的延長(zhǎng),Ⅰ類井產(chǎn)量遞減為產(chǎn)量最低,Ⅲ類井產(chǎn)量反而最高,Ⅱ類井產(chǎn)量居中,因?yàn)棰耦惥跗诋a(chǎn)量大,導(dǎo)致地層能量消耗快,因此中后期產(chǎn)量遞減快;Ⅲ類井在整個(gè)生產(chǎn)過(guò)程中,產(chǎn)量遞減速度緩慢;到生產(chǎn)后期階段,Ⅰ類井,Ⅱ類和Ⅲ類井的產(chǎn)量均趨于平穩(wěn)??梢钥闯觯瑢?duì)不同類別井的產(chǎn)量數(shù)據(jù)綜合分析,其變化趨勢(shì)符合實(shí)際生產(chǎn)動(dòng)態(tài)規(guī)律。
1)從天然氣地質(zhì)數(shù)據(jù)應(yīng)用管理角度,應(yīng)用“云化”動(dòng)態(tài)存儲(chǔ)和共享集成應(yīng)用,提出了當(dāng)前各信息應(yīng)用系統(tǒng)之間進(jìn)行數(shù)據(jù)高效共享應(yīng)用的技術(shù)方案。
2)平臺(tái)建設(shè)不僅實(shí)現(xiàn)了天然氣地質(zhì)結(jié)構(gòu)化數(shù)據(jù)的共享管理和非結(jié)構(gòu)化數(shù)據(jù)的動(dòng)態(tài)存儲(chǔ)與搜索;同時(shí)也實(shí)現(xiàn)了天然氣地質(zhì)數(shù)據(jù)挖掘算法集成應(yīng)用及其參數(shù)調(diào)優(yōu)管理。
3)從軟件工程角度,對(duì)天然氣地質(zhì)信息共享平臺(tái)的應(yīng)用功能進(jìn)行詳細(xì)設(shè)計(jì),并對(duì)其采用Spring Boot技術(shù)進(jìn)行軟件實(shí)現(xiàn)。應(yīng)用測(cè)試效果表明構(gòu)建的天然氣地質(zhì)信息共享平臺(tái)具有較好的推廣應(yīng)用前景。