張磊 曹彩平 宋濤 杜俊杰
摘要:在大數(shù)據(jù)技術(shù)得到快速發(fā)展和廣泛運(yùn)用的時(shí)代背景下,智能油田的數(shù)據(jù)清洗成為確保智能油田數(shù)據(jù)分析有效性的關(guān)鍵任務(wù),本研究旨在探討如何利用改進(jìn)的深度置信網(wǎng)絡(luò)算法結(jié)構(gòu)實(shí)現(xiàn)智能油田數(shù)據(jù)的快速清洗和分析。本文闡述了深度置信網(wǎng)絡(luò)、智慧油田以及數(shù)據(jù)清洗的基本概念,并且分析了基于改進(jìn)深度置信網(wǎng)絡(luò)的智慧油田數(shù)據(jù)快速清洗的現(xiàn)實(shí)意義及實(shí)施要點(diǎn),結(jié)合實(shí)例對(duì)深度置信網(wǎng)絡(luò)在智慧油田數(shù)據(jù)快速清洗方面的實(shí)踐應(yīng)用做了具體分析,以期推動(dòng)智能油田數(shù)據(jù)清理工作的可持續(xù)發(fā)展。
關(guān)鍵詞:智能油田;深度置信網(wǎng)絡(luò);數(shù)據(jù)快速清洗;改進(jìn)研究
引言
隨著信息技術(shù)手段的不斷發(fā)展,油田工程領(lǐng)域迎來(lái)了多種機(jī)遇及挑戰(zhàn)。在新時(shí)代背景下,油田工程應(yīng)積極探索信息技術(shù)手段與項(xiàng)目工程的融合應(yīng)用。深度置信網(wǎng)絡(luò)又稱為深度信念網(wǎng)絡(luò),是新時(shí)代誕生的高人工智能化的數(shù)據(jù)處理算法,有利于提高智能油田數(shù)據(jù)快速清洗工作的效率和質(zhì)量[1]。本文將探討如何利用深度置信網(wǎng)絡(luò)優(yōu)化智能油田數(shù)據(jù)清洗工作,以期提高工作效率及數(shù)據(jù)質(zhì)量。
1. 基于改進(jìn)深度置信網(wǎng)絡(luò)的智能油田數(shù)據(jù)快速清洗的現(xiàn)實(shí)意義
1.1 有利于提高數(shù)據(jù)處理效率
石油工程是對(duì)國(guó)家工業(yè)發(fā)展效率和國(guó)際社會(huì)形勢(shì)有著重大影響的基礎(chǔ)性工程,在其建設(shè)和實(shí)施過(guò)程中優(yōu)化工作質(zhì)量和工作效率,有助于確保石油行業(yè)的開(kāi)采成果、工程進(jìn)度的有效控制以及開(kāi)采成本的降低,同時(shí)有助于石油工程實(shí)現(xiàn)安全、綠色和可持續(xù)發(fā)展目標(biāo)。基于改進(jìn)深度置信網(wǎng)絡(luò)進(jìn)行智能油田數(shù)據(jù)的快速清洗,能夠有效利用高級(jí)的數(shù)據(jù)處理算法及深度學(xué)習(xí)技術(shù),自動(dòng)識(shí)別并糾正數(shù)據(jù)中的問(wèn)題,有效降低數(shù)據(jù)分析處理過(guò)程中重復(fù)或錯(cuò)誤數(shù)據(jù)對(duì)分析結(jié)果的影響。
1.2 有助于優(yōu)化石油企業(yè)效益
石油企業(yè)的經(jīng)營(yíng)效益容易受到全球石油市場(chǎng)波動(dòng)影響,立足于智能油田視角,為保障石油企業(yè)安全穩(wěn)定運(yùn)行,需要對(duì)相關(guān)數(shù)據(jù)信息進(jìn)行分析處理。基于改進(jìn)深度置信網(wǎng)絡(luò)的智能油田數(shù)據(jù)快速清洗工作,能夠利用新興技術(shù)手段實(shí)現(xiàn)大量數(shù)據(jù)信息的自動(dòng)化識(shí)別和高效率清洗處理,有效降低人員成本及時(shí)間成本,提高企業(yè)生產(chǎn)決策的科學(xué)性及有效性。同時(shí),為石油企業(yè)提供全面可靠的數(shù)據(jù)支撐及引導(dǎo),有效提升石油企業(yè)經(jīng)濟(jì)效益及社會(huì)效益。
1.3 有益于推動(dòng)油田智能化建設(shè)
隨著技術(shù)手段的不斷優(yōu)化,油田作為支撐國(guó)家工業(yè)發(fā)展的核心產(chǎn)業(yè),應(yīng)該緊跟時(shí)代的發(fā)展,積極探索提高油田開(kāi)發(fā)治理工作效率與質(zhì)量的措施,引入多元技術(shù)手段打造高質(zhì)高效的智能油田。其中,基于改進(jìn)深度置信網(wǎng)絡(luò)進(jìn)行智能油田的數(shù)據(jù)快速清洗,能夠有效深化前沿性信息技術(shù)手段在智能油田建設(shè)管理工作中的應(yīng)用實(shí)踐,充分發(fā)揮深度置信網(wǎng)絡(luò)在數(shù)據(jù)處理方面的優(yōu)勢(shì),使工作人員切實(shí)體會(huì)信息技術(shù)手段應(yīng)用的價(jià)值和意義,有效推動(dòng)油田的智能化建設(shè)發(fā)展[2]。
2. 基于改進(jìn)深度置信網(wǎng)絡(luò)的智能油田數(shù)據(jù)快速清洗的實(shí)施要點(diǎn)
2.1 數(shù)據(jù)清洗的常見(jiàn)問(wèn)題
在油田數(shù)字化建設(shè)過(guò)程中,數(shù)據(jù)清洗工作是智能油田數(shù)據(jù)處理的重要組成部分,通常涉及以下問(wèn)題。
(1)數(shù)據(jù)參考價(jià)值低。隨著油田的持續(xù)開(kāi)采應(yīng)用,數(shù)據(jù)庫(kù)中的信息內(nèi)容逐漸擴(kuò)充,地下油層環(huán)境也會(huì)隨著時(shí)間的推移產(chǎn)生不同程度的變化。在進(jìn)行智能油田數(shù)據(jù)處理過(guò)程中,多年前的油田產(chǎn)油產(chǎn)液數(shù)據(jù)等數(shù)據(jù)信息參考價(jià)值較低,難以有效滿足數(shù)據(jù)處理分析要求,需要技術(shù)人員針對(duì)此類(lèi)數(shù)據(jù)進(jìn)行快速清洗處理。
(2)數(shù)據(jù)缺失值、異常值現(xiàn)象。數(shù)據(jù)缺失值、異常值現(xiàn)象是指在數(shù)據(jù)記錄、收集以及錄入進(jìn)程中,由于意外情況、人員失誤或技術(shù)條件限制,導(dǎo)致數(shù)據(jù)完整性和準(zhǔn)確性出現(xiàn)缺失或異常問(wèn)題,其修復(fù)工作是智慧油田數(shù)據(jù)快速清洗工作中的核心板塊。具體而言,技術(shù)人員需要針對(duì)此類(lèi)數(shù)據(jù)進(jìn)行科學(xué)合理的清洗補(bǔ)全,從而有效提升智能油田大數(shù)據(jù)分析的準(zhǔn)確性及效率。
(3)數(shù)據(jù)存儲(chǔ)位置分散。智能油田數(shù)據(jù)信息化建設(shè)是近年來(lái)逐漸推廣落實(shí)到石油企業(yè)工作運(yùn)營(yíng)進(jìn)程中的新興理念,不同單位體系和工作領(lǐng)域之間存在信息化建設(shè)進(jìn)度及技術(shù)手段不一致的情況,導(dǎo)致出現(xiàn)數(shù)據(jù)存儲(chǔ)位置較為分散、數(shù)據(jù)獲取難度高、冗余數(shù)據(jù)比例較高等潛在問(wèn)題。
2.2 數(shù)據(jù)清洗的基本步驟
在智能油田的數(shù)據(jù)處理進(jìn)程中,數(shù)據(jù)清洗占據(jù)數(shù)據(jù)處理工作中的核心地位,清洗成效對(duì)于數(shù)據(jù)處理的質(zhì)量及準(zhǔn)確度有關(guān)鍵性作用,數(shù)據(jù)清洗的基本步驟分述如下。
(1)數(shù)據(jù)清洗預(yù)處理。在預(yù)處理過(guò)程中,技術(shù)人員需要選擇適當(dāng)?shù)臄?shù)據(jù)處理工具,并對(duì)目標(biāo)數(shù)據(jù)的元數(shù)據(jù)和數(shù)據(jù)特征進(jìn)行抽取查看,以初步了解數(shù)據(jù)的基本情況。
(2)格式或內(nèi)容錯(cuò)誤數(shù)據(jù)清洗。在格式或內(nèi)容錯(cuò)誤數(shù)據(jù)清洗過(guò)程中,技術(shù)人員應(yīng)確保數(shù)據(jù)符合統(tǒng)一格式要求,若數(shù)據(jù)庫(kù)中存在格式或內(nèi)容錯(cuò)誤引發(fā)的數(shù)據(jù)問(wèn)題,可以通過(guò)數(shù)據(jù)清洗對(duì)其進(jìn)行修復(fù)及調(diào)整。
(3)邏輯錯(cuò)誤數(shù)據(jù)清洗。邏輯錯(cuò)誤數(shù)據(jù)清洗主要包括數(shù)據(jù)去重、去除或替換不合理的數(shù)據(jù)值,以及去除或重構(gòu)矛盾數(shù)據(jù)內(nèi)容等不可靠字段值,通過(guò)簡(jiǎn)單邏輯推理進(jìn)行問(wèn)題數(shù)據(jù)清洗處理。
(4)冗余數(shù)據(jù)清洗。在冗余數(shù)據(jù)清洗過(guò)程中,技術(shù)人員需要構(gòu)建數(shù)據(jù)處理模型。在備份原始數(shù)據(jù)的前提下,根據(jù)數(shù)據(jù)處理需要清除冗余數(shù)據(jù)。
(5)關(guān)聯(lián)性驗(yàn)證。在智能油田的數(shù)據(jù)處理進(jìn)程中,由于智能油田數(shù)據(jù)源復(fù)雜多樣,技術(shù)人員需要在多數(shù)據(jù)源合并的過(guò)程中進(jìn)行關(guān)聯(lián)性驗(yàn)證,以確保數(shù)據(jù)的一致性和準(zhǔn)確性,并根據(jù)驗(yàn)證結(jié)果進(jìn)行數(shù)據(jù)清洗處理。
(6)缺省值填充。在缺省值填充過(guò)程中,技術(shù)人員可以使用均值、中值、眾數(shù)、零值或常數(shù)等方式進(jìn)行數(shù)據(jù)填充,以確保數(shù)據(jù)的完整性和可用性。
2.3 數(shù)據(jù)清洗的算法應(yīng)用
基于改進(jìn)深度置信網(wǎng)絡(luò)的智能油田數(shù)據(jù)快速清洗采用了多種算法處理及分析數(shù)據(jù),主要包括深度置信網(wǎng)絡(luò)模型中的RBM神經(jīng)網(wǎng)絡(luò)(restricted boltzmann machine,受限玻爾茲曼機(jī))以及曼哈頓距離法,以上算法能夠有效提升智能油田數(shù)據(jù)清洗效率,其具體應(yīng)用路徑如下。
(1)RBM神經(jīng)網(wǎng)絡(luò)的應(yīng)用。在智能油田數(shù)據(jù)清洗工作中,深度置信網(wǎng)絡(luò)模型主要通過(guò)RBM進(jìn)行模型建構(gòu)。RBM主要包含可見(jiàn)層和隱層,其中,可見(jiàn)層內(nèi)包含a個(gè)數(shù)據(jù)節(jié)點(diǎn),隱層內(nèi)包含b個(gè)數(shù)據(jù)節(jié)點(diǎn),兩個(gè)層級(jí)之間的節(jié)點(diǎn)權(quán)重舉證W如下:
技術(shù)人員需要對(duì)節(jié)點(diǎn)進(jìn)行激活處理和狀態(tài)重構(gòu),通過(guò)多次迭代訓(xùn)練,使深度置信網(wǎng)絡(luò)能夠擬合實(shí)際樣本輸出值與理論值趨近,從而有效清洗及修復(fù)數(shù)據(jù)[3]。
(2)曼哈頓距離法的應(yīng)用。曼哈頓距離法能夠度量?jī)牲c(diǎn)之間的距離,在深度置信網(wǎng)絡(luò)的算法應(yīng)用進(jìn)程中,該方法主要用于計(jì)算字符串之間的編輯距離,以評(píng)價(jià)和判斷字符串之間的相似度。同時(shí),曼哈頓距離法能夠在此基礎(chǔ)上對(duì)字符串和數(shù)據(jù)表之間的曼哈頓距離進(jìn)行測(cè)試,曼哈頓距離結(jié)果越大,數(shù)據(jù)之間的相似度越低。
3. 基于改進(jìn)深度置信網(wǎng)絡(luò)的智能油田數(shù)據(jù)快速清洗的應(yīng)用分析
3.1 應(yīng)用案例
本文以某油田2022年的開(kāi)井日及關(guān)井日臺(tái)賬數(shù)據(jù)為分析對(duì)象,通過(guò)對(duì)企業(yè)油田開(kāi)井日及關(guān)井日的運(yùn)行數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗處理,推動(dòng)智能化建設(shè)實(shí)踐。在實(shí)踐過(guò)程中,基于改進(jìn)深度置信網(wǎng)絡(luò)的智能油田數(shù)據(jù)快速清洗需要利用多元技術(shù)手段構(gòu)建數(shù)據(jù)清洗處理網(wǎng)絡(luò)模型,然后基于模型內(nèi)容進(jìn)行數(shù)據(jù)分析及清理處理,以有效實(shí)現(xiàn)開(kāi)井日及關(guān)井日臺(tái)賬數(shù)據(jù)處理的智能化建設(shè)。技術(shù)人員可以引入大數(shù)據(jù)隨機(jī)樣本劃分等傳統(tǒng)數(shù)據(jù)清洗處理技術(shù),對(duì)算法成果進(jìn)行對(duì)比研究。
3.2 清洗模型
在數(shù)字化時(shí)代,基于深度置信網(wǎng)絡(luò)的智能油田數(shù)據(jù)快速清洗工作需要優(yōu)化和改進(jìn)深度置信網(wǎng)絡(luò)模型。通過(guò)構(gòu)建數(shù)據(jù)清洗自建系統(tǒng),能夠?qū)崿F(xiàn)數(shù)據(jù)清洗處理工作的數(shù)字化、智能化、交互式發(fā)展。
針對(duì)案例油田的開(kāi)井日及關(guān)井日臺(tái)賬數(shù)據(jù)內(nèi)容,技術(shù)人員可以構(gòu)建數(shù)據(jù)清洗模型。模型內(nèi)容主要包括自檢啟動(dòng)模塊(用于啟動(dòng)數(shù)據(jù)清洗流程)、單一項(xiàng)檢索模塊(用于逐一檢查數(shù)據(jù)項(xiàng))、數(shù)據(jù)存儲(chǔ)模塊(用于存儲(chǔ)原始數(shù)據(jù))、分類(lèi)存儲(chǔ)模塊(將數(shù)據(jù)分類(lèi)存儲(chǔ),以便進(jìn)一步處理)、正常項(xiàng)存儲(chǔ)模塊(存儲(chǔ)已經(jīng)通過(guò)檢查的正常數(shù)據(jù)項(xiàng))、異常項(xiàng)存儲(chǔ)模塊(存儲(chǔ)包含異常數(shù)據(jù)的項(xiàng))、數(shù)據(jù)分析模塊(用于分析數(shù)據(jù)以識(shí)別異常)、數(shù)據(jù)修復(fù)模塊(對(duì)異常數(shù)據(jù)進(jìn)行自動(dòng)修復(fù))、審查自檢模塊(再次審查修復(fù)后的數(shù)據(jù)以確保準(zhǔn)確性)、人工查驗(yàn)?zāi)K(進(jìn)行人工查驗(yàn)以驗(yàn)證數(shù)據(jù))以及反饋另存模塊(將人工驗(yàn)證后的數(shù)據(jù)另存以備將來(lái)使用)等[4]。通過(guò)構(gòu)建數(shù)據(jù)清洗網(wǎng)絡(luò)模型,相關(guān)技術(shù)人員能夠?qū)χ悄苡吞镏械漠惓?shù)據(jù)進(jìn)行分類(lèi)儲(chǔ)存和單獨(dú)修復(fù)、對(duì)未修復(fù)數(shù)據(jù)進(jìn)行人工查驗(yàn)及反饋連接,提升智能油田數(shù)據(jù)清洗工作的精準(zhǔn)性及效率。
3.3 對(duì)比分析
在利用改進(jìn)的深度置信網(wǎng)絡(luò)開(kāi)展智能油田數(shù)據(jù)清洗工作過(guò)程中,技術(shù)人員可以使用樣本查準(zhǔn)率(RP)、查全率(RR)兩個(gè)關(guān)鍵指標(biāo)衡量數(shù)據(jù)清洗應(yīng)用算法成效和性能。查準(zhǔn)率(RP)旨在衡量數(shù)據(jù)清洗系統(tǒng)成功檢測(cè)重復(fù)數(shù)據(jù)的能力,查全率(RR)旨在衡量數(shù)據(jù)清洗系統(tǒng)識(shí)別的重復(fù)數(shù)據(jù)記錄中真正包含重復(fù)數(shù)據(jù)的比例[5]。
本文以某油田2022年的開(kāi)井日及關(guān)井日臺(tái)賬數(shù)據(jù)信息為案例,對(duì)其進(jìn)行樣本數(shù)據(jù)的隨機(jī)分組。在實(shí)踐過(guò)程中,技術(shù)人員將深度置信網(wǎng)絡(luò)智能油田數(shù)據(jù)快速清洗結(jié)果定義為研究組,將大數(shù)據(jù)隨機(jī)樣本劃分清洗處理結(jié)果定義為對(duì)比組,在清洗工作完成后,針對(duì)兩組結(jié)果進(jìn)行查準(zhǔn)率與查全率的對(duì)比分析,6次不同樣本間的具體對(duì)比結(jié)果如表1所示。
根據(jù)數(shù)據(jù)對(duì)比結(jié)果可知,基于改進(jìn)深度置信網(wǎng)絡(luò)的智能算法在智能油田的數(shù)據(jù)清洗處理工作中具有查準(zhǔn)率和查全率高的特點(diǎn),在工作運(yùn)行過(guò)程中顯著優(yōu)于其他方法。同時(shí),基于改進(jìn)深度置信網(wǎng)絡(luò)的智能算法在智能油田數(shù)據(jù)清洗處理速度方面存在明顯優(yōu)勢(shì),利用深度置信網(wǎng)絡(luò)模型進(jìn)行數(shù)據(jù)清洗處理呈現(xiàn)耗時(shí)低、準(zhǔn)確率高、效率快的特征,有助于石油企業(yè)快速獲取高精準(zhǔn)度的有效數(shù)據(jù),從而進(jìn)行數(shù)據(jù)分析處理,實(shí)現(xiàn)快速數(shù)據(jù)清洗目標(biāo)。
結(jié)語(yǔ)
綜上所述,基于信息化時(shí)代背景,石油企業(yè)在油田產(chǎn)業(yè)開(kāi)采管理中應(yīng)積極探索數(shù)字智能化建設(shè),運(yùn)用多元信息技術(shù)手段,充分發(fā)揮數(shù)據(jù)處理分析的促進(jìn)作用。在多元信息技術(shù)手段運(yùn)用過(guò)程中,數(shù)據(jù)清洗是智能油田運(yùn)行中的重要工作組成部分,技術(shù)人員可以基于改進(jìn)深度置信網(wǎng)絡(luò)實(shí)現(xiàn)智能油田數(shù)據(jù)清洗效率和質(zhì)量的提升,促進(jìn)石油企業(yè)的智能油田建設(shè)發(fā)展。
參考文獻(xiàn):
[1]張新.智能油田的數(shù)據(jù)治理工程及應(yīng)用技術(shù)研究[J].信息系統(tǒng)工程,2023(5): 52-54.
[2]夏博強(qiáng).大數(shù)據(jù)、物聯(lián)網(wǎng)及人工智能技術(shù)在海上智能油田生產(chǎn)中的應(yīng)用研究[J].數(shù)字通信世界,2023(2):121-123.
[3]王穎,顧娟,楊勇.大型油田數(shù)據(jù)治理工程實(shí)踐[J].中國(guó)管理信息化,2023,26(3):162-167.
[4]方正,丁群,李靜宇,等.基于深度置信網(wǎng)絡(luò)模型的頁(yè)巖油產(chǎn)量預(yù)測(cè)方法[J].油氣井測(cè)試,2022,31(3):61-66.
[5]程大勇.基于優(yōu)化深度置信網(wǎng)絡(luò)的多源異構(gòu)數(shù)據(jù)清洗算法研究[J].重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版),2021,23(6):59-63,69.
作者簡(jiǎn)介:張磊,本科,工程師,研究方向:信息工程。