深海油氣管道數(shù)據(jù)清洗方法設(shè)計(jì)

2022-09-02 03:47:08趙可天唐建華魏紅秋

中國海洋平臺(tái) 2022年4期

趙可天，唐建華，倪劍，魏紅秋，董洋

(1. 中海油能源發(fā)展裝備技術(shù)有限公司，天津 300452；2. 東北大學(xué) 信息科學(xué)與工程學(xué)院，遼寧沈陽 110819)

0 引言

多源數(shù)據(jù)的采集過程中出現(xiàn)臟數(shù)據(jù)，對(duì)管道的風(fēng)險(xiǎn)評(píng)價(jià)、腐蝕控制、故障預(yù)警和管道完整性管理產(chǎn)生影響，因此采集數(shù)據(jù)準(zhǔn)確性對(duì)后期的決策起到關(guān)鍵的作用[1]，準(zhǔn)確且可靠性高的數(shù)據(jù)對(duì)管道風(fēng)險(xiǎn)評(píng)價(jià)及后期制定管道維修計(jì)劃有良好的輔助作用，且可為管道安全運(yùn)行提供更有利的保障，更有效地解決油氣管道安全的問題。

國內(nèi)關(guān)于數(shù)據(jù)清洗研究的成果比較少。剛起步時(shí)，國內(nèi)對(duì)數(shù)據(jù)清洗的研究[2-7]僅局限在改進(jìn)國外已有的英文算法，現(xiàn)在慢慢地提出基于中文數(shù)據(jù)特色的數(shù)據(jù)清洗研究算法。王曰芬等是國內(nèi)比較早進(jìn)入數(shù)據(jù)清洗研究領(lǐng)域的，他們定義數(shù)據(jù)清洗的含義和基本原理，并給出數(shù)據(jù)清洗的評(píng)估方法，對(duì)后來進(jìn)入數(shù)據(jù)清洗領(lǐng)域的研究人員提供了一個(gè)較好的標(biāo)準(zhǔn)。曹建軍等從數(shù)據(jù)質(zhì)量的方向強(qiáng)調(diào)數(shù)據(jù)清洗的重要性，并設(shè)想一個(gè)擴(kuò)展性強(qiáng)、松耦合、交互性好的數(shù)據(jù)清洗框架。葉煥悼等把研究重點(diǎn)放在相似重復(fù)記錄的清洗上，對(duì)相似重復(fù)記錄的檢測(cè)、相似重復(fù)記錄的清除進(jìn)行深入研究，且考慮到知識(shí)層面和語義的重要，并把其引入數(shù)據(jù)清洗框架中。周傲英等的研究重心放在數(shù)據(jù)的不確定性，也是數(shù)據(jù)的多義性，提出運(yùn)行排序、剪枝等技術(shù)開發(fā)新的數(shù)據(jù)清洗算法，并能夠?qū)?shù)據(jù)的后期處理，如數(shù)據(jù)預(yù)處理及融合、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)查詢等操作提供幫助。

目前網(wǎng)絡(luò)上產(chǎn)生大量的像HTML文檔、Web數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù)，因其具有層次性、動(dòng)態(tài)可變性等特點(diǎn)，被廣泛地應(yīng)用于信息傳播，同時(shí)不斷被使用的數(shù)據(jù)還包括圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)，半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的不斷增加[8]會(huì)產(chǎn)生大量的臟數(shù)據(jù)，對(duì)分析問題產(chǎn)生大量的阻礙，由于這些數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的編碼方式不同[9]，清洗方法不能一并使用，因此需要根據(jù)數(shù)據(jù)具有的特點(diǎn)進(jìn)行清洗技術(shù)的研究[10-11]。

1 管道數(shù)據(jù)清洗技術(shù)

數(shù)據(jù)清洗主要清洗的臟數(shù)據(jù)包括離群點(diǎn)值、缺失值和不一致數(shù)據(jù)。數(shù)據(jù)清洗用來完成對(duì)臟數(shù)據(jù)的清洗工作，形成一個(gè)干凈的數(shù)據(jù)集，數(shù)據(jù)清洗流程包括4個(gè)步驟，分別為臟數(shù)據(jù)檢測(cè)、臟數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量評(píng)價(jià)和干凈數(shù)據(jù)回溯。根據(jù)管道內(nèi)檢測(cè)數(shù)據(jù)分析系統(tǒng)及日常生產(chǎn)監(jiān)測(cè)數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)將臟數(shù)據(jù)分為缺失值和異常值，相應(yīng)的清洗方法包括缺失值的清洗方法和離群點(diǎn)檢測(cè)清洗方法[10]。

2 管道數(shù)據(jù)清洗算法設(shè)計(jì)與分析

2.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗

(1) 相關(guān)變量選擇

假設(shè)觀察樣本A=(xij)，其中，i=1,…,n，j=1,…,m，xij表示第j個(gè)日常監(jiān)測(cè)屬性第i個(gè)采集的數(shù)據(jù)，其中m個(gè)日常監(jiān)測(cè)變量屬性為X1,…,Xm，為了消除管道日常監(jiān)測(cè)屬性量綱對(duì)分析問題的影響，對(duì)日常監(jiān)測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

(1)

式中：xj和sj分別為第j個(gè)日常監(jiān)測(cè)變量的管道數(shù)據(jù)樣本均值和樣本標(biāo)準(zhǔn)差；Zij為xij進(jìn)行標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。

將管道日常監(jiān)測(cè)數(shù)據(jù)集A分為A1和A2兩部分：A1中所有單元Z1,…,Zm是無缺失值的樣本，A2的所有單元是含有缺失值的樣本，Zk作為目標(biāo)變量。剔除數(shù)據(jù)A2中第i個(gè)單元含缺失值的所有變量，剩余記錄記為Z，再進(jìn)行變量選擇。

利用皮爾森相關(guān)系數(shù)法對(duì)相關(guān)變量與目標(biāo)缺失變量之間進(jìn)行相關(guān)性分析。皮爾森系數(shù)介于-1與1之間，其絕對(duì)值越趨近于1，證明2個(gè)變量之間的線性關(guān)系越強(qiáng)，之后根據(jù)相關(guān)性系數(shù)大小對(duì)輔助變量進(jìn)行排序。

(2) 多元線性回歸插補(bǔ)法

在管道監(jiān)測(cè)數(shù)據(jù)中許多都是連續(xù)型數(shù)據(jù)，監(jiān)測(cè)數(shù)據(jù)指標(biāo)可以歸結(jié)為m個(gè)自變量與某個(gè)目標(biāo)缺失變量之間的關(guān)系。選擇n個(gè)監(jiān)測(cè)樣本，每個(gè)監(jiān)測(cè)樣本為(yi,x1i,x2i,…,xmi)，i=1,…,n。

如果yi與X1i，X2i，…，Xmi之間存在線性關(guān)系，則上述n組數(shù)據(jù)應(yīng)滿足：

(2)

式中：εi為測(cè)試誤差，相互獨(dú)立且服從N(0,δ2)分布，m

如果εi不存在，那么yi與xmi之間滿足線性關(guān)系：

yi=b0+b1x1i+b2x2i+…+bmxmi

(3)

(4)

回歸方程的衡量指標(biāo)可采用均方誤差EMS或者決定系數(shù)R2衡量缺失值插補(bǔ)的精度。

(5)

(6)

(3) 缺失值清洗步驟

步驟1：輸入含有缺失值的管道系統(tǒng)數(shù)據(jù)集。

步驟2：對(duì)管道全生命周期數(shù)據(jù)構(gòu)成的數(shù)據(jù)集進(jìn)行預(yù)處理。在進(jìn)行數(shù)據(jù)插補(bǔ)前將含有缺失值的記錄和完整的記錄進(jìn)行識(shí)別處理。

步驟3：對(duì)去除冗余信息后的屬性進(jìn)行相關(guān)性分析，利用皮爾森相關(guān)系數(shù)法找出與缺失值所在屬性相關(guān)性較高的屬性，形成訓(xùn)練樣本集。

步驟4：進(jìn)行多元線性回歸插補(bǔ)，將管道樣本集分為訓(xùn)練樣本集、測(cè)試樣本集和缺失插補(bǔ)集，將訓(xùn)練樣本數(shù)據(jù)集放入回歸插補(bǔ)模型中進(jìn)行訓(xùn)練，建立回歸方程，并計(jì)算回歸系數(shù)及擬合回歸曲線。

步驟5：將完整的數(shù)據(jù)集得到的擬合曲線對(duì)測(cè)試樣本集的數(shù)據(jù)特征進(jìn)行插補(bǔ)，并計(jì)算衡量插補(bǔ)精度指標(biāo)，若EMS<0.001或R2>0.95，則訓(xùn)練模型達(dá)到要求，將數(shù)據(jù)缺失插補(bǔ)集的數(shù)據(jù)輸入訓(xùn)練后的模型中進(jìn)行插補(bǔ)，最后將缺失值插補(bǔ)完成。

圖1為以均方誤差為標(biāo)準(zhǔn)進(jìn)行缺失值清洗的流程圖。

圖1 缺失值數(shù)據(jù)清洗流程圖

2.2 基于密度的局部離群點(diǎn)檢測(cè)LOF算法

經(jīng)典的基于密度的局部離群點(diǎn)檢測(cè)算法有局部離群因子(Local Outlier Factor，LOF)算法、ELSC算法等。采用LOF算法對(duì)離群點(diǎn)進(jìn)行檢測(cè)，并將檢測(cè)到的異常點(diǎn)用缺失值填充方法進(jìn)行填充，將數(shù)據(jù)集按照數(shù)據(jù)對(duì)象與局部離群因子互相對(duì)應(yīng)。

LOF算法是基于密度的離群點(diǎn)檢測(cè)方法中一個(gè)比較有代表性的算法。該算法會(huì)給數(shù)據(jù)集中的每個(gè)點(diǎn)計(jì)算一個(gè)LOF，通過判斷LOF是否接近于1來判定是否是離群因子。若LOF遠(yuǎn)大于1，則認(rèn)為是離群因子；若LOF接近于1，則是正常點(diǎn)。

給定對(duì)象集為D， LOF算法的相關(guān)定義如下：

(1) 對(duì)象o的k距離。對(duì)象o的k距離記為distk(o)，是o與目標(biāo)對(duì)象p∈D之間的距離dist(o,p)，另一個(gè)對(duì)象P滿足：

①至少有k個(gè)對(duì)象o′∈D{o}，使得dist(o,o′)≤dist(o,p)；

②k-1個(gè)對(duì)象o″∈D{o}，使得dist(o,o″)

(2) 對(duì)象o的k距離鄰域。o的k距離鄰域包含鄰域內(nèi)到o的距離不大于distk(o)的所有對(duì)象，其是一個(gè)點(diǎn)的集合：

Nk(o)={o′|o′∈D,dist(o,o′)≤distk(o)}

(7)

利用Nk(o)中的數(shù)據(jù)對(duì)象至o的平均距離計(jì)算o的局部密度。但若o具有一個(gè)距其非常近的鄰域o′，dist(o,o′)會(huì)特別小，導(dǎo)致統(tǒng)計(jì)距離度量的波動(dòng)特別高。因此針對(duì)此光滑效果，轉(zhuǎn)換成可達(dá)距離。

(3) 數(shù)據(jù)對(duì)象o相對(duì)于數(shù)據(jù)對(duì)象o′的可達(dá)距離。若dist(o,o′)>distk(o)，則從o′至o的可達(dá)距離是dist(o,o′)，否則是distk(o)，即k是控制光滑效果的用戶指定的參數(shù)，k值越大，鄰域內(nèi)包含的對(duì)象就越多。

(4) 對(duì)象o的局部可達(dá)密度。

(8)

(5) 對(duì)象o的局部離群點(diǎn)因子LOF的數(shù)學(xué)表達(dá)式。

(9)

對(duì)于日常監(jiān)測(cè)管道數(shù)據(jù)集D，其中包含n個(gè)對(duì)象，p∈D。LOF算法的實(shí)現(xiàn)步驟如表1所示。

表1 LOF算法實(shí)現(xiàn)步驟

該算法是一種基于密度的非監(jiān)督算法，適合對(duì)不同密度的數(shù)據(jù)進(jìn)行異常檢測(cè)，利用局部離群因子對(duì)數(shù)據(jù)對(duì)象具備離群點(diǎn)的可能性進(jìn)行計(jì)算。該算法在全局和局部離群點(diǎn)的檢測(cè)過程中都體現(xiàn)出良好的算法性能。

3 清洗算法仿真結(jié)果分析

3.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗結(jié)果分析

為驗(yàn)證管道缺失值清洗的準(zhǔn)確性，隨機(jī)從管道日常監(jiān)測(cè)系統(tǒng)中抽取一段時(shí)間產(chǎn)生的生產(chǎn)數(shù)據(jù)，包括90個(gè)樣本、7個(gè)屬性。

(1) 利用皮爾森相關(guān)系數(shù)法篩選出與存在缺失值的目標(biāo)變量相關(guān)性高的屬性，如表2所示，從7個(gè)屬性變量中可以看出與缺失值目標(biāo)變量腐蝕速率相關(guān)性高的有H2S、CO2、溶解氧。

將這3個(gè)屬性作為輸入輔助變量，圖2(a)為H2S體積分?jǐn)?shù)與腐蝕速率之間的相關(guān)性曲線，圖2(b)為CO2分壓與腐蝕速率之間的相關(guān)性曲線，圖2(c)為溶解氧質(zhì)量濃度與腐蝕速率之間的相關(guān)性曲線。從圖2屬性間的相關(guān)性曲線可以看出，H2S體積分?jǐn)?shù)、CO2分壓、溶解氧質(zhì)量濃度與腐蝕速率呈正相關(guān)。

表2 相關(guān)系數(shù)

(2) 模型訓(xùn)練結(jié)果分析

變量選擇前后模型擬合預(yù)測(cè)與真實(shí)數(shù)據(jù)曲線對(duì)比如圖3所示，圖3(a)為變量選擇前的預(yù)測(cè)與真實(shí)擬合曲線，圖3(b)為變量選擇后預(yù)測(cè)與真實(shí)擬合曲線。由圖3可知：測(cè)試曲線與預(yù)測(cè)曲線基本能夠重合，沒有較大的誤差點(diǎn)。

圖2 屬性間相關(guān)性曲線

圖3 變量選擇前后模型擬合曲線對(duì)比

(3) 模型評(píng)價(jià)指標(biāo)

表3為變量選擇前后測(cè)試精度對(duì)比表。

缺失樣本插補(bǔ)結(jié)果如表4所示。

表3 變量選擇前后測(cè)試精度對(duì)比

表4 缺失樣本插補(bǔ)結(jié)果

3.2 基于密度的局部離群點(diǎn)檢測(cè)LOF算法仿真結(jié)果分析

采用的數(shù)據(jù)集來源于內(nèi)檢測(cè)數(shù)據(jù)分析系統(tǒng)，數(shù)據(jù)集包括3 013個(gè)樣本、54個(gè)屬性。先對(duì)數(shù)據(jù)進(jìn)行簡單的數(shù)據(jù)分析，將固定值的屬性過濾，再對(duì)無異常點(diǎn)的離散值進(jìn)行處理，通過描述分析方法發(fā)現(xiàn)缺陷列表中長度、寬度的數(shù)據(jù)分布中具有離群點(diǎn)，利用基于密度的局部離群點(diǎn)檢測(cè)LOF算法將離群點(diǎn)篩選出來，然后與k-means聚類算法進(jìn)行對(duì)比，選擇離群點(diǎn)檢測(cè)精度高的算法。本試驗(yàn)采用的算法檢測(cè)的離群點(diǎn)只針對(duì)連續(xù)型屬性，目前只在收集到的連續(xù)型數(shù)值中發(fā)現(xiàn)了離群點(diǎn)，主要在通過計(jì)算得出的缺陷長度、寬度、深度中發(fā)現(xiàn)了范圍超限的離群點(diǎn)。同時(shí)采用里程點(diǎn)、時(shí)鐘方位等數(shù)據(jù)定位離群點(diǎn)位置。從3 013個(gè)缺陷信息列表中每隔200個(gè)缺陷點(diǎn)抽樣1次，共抽取15個(gè)樣本，以其中1個(gè)樣本中離群點(diǎn)多的221個(gè)缺陷點(diǎn)作為示例進(jìn)行離群點(diǎn)分析。以下是對(duì)測(cè)試數(shù)據(jù)集進(jìn)行試驗(yàn)的分析結(jié)果，試驗(yàn)計(jì)算出閾值之后設(shè)置不同k值下離群點(diǎn)正檢率、誤檢率、漏檢率等情況進(jìn)行對(duì)比。

先在221個(gè)數(shù)據(jù)集、54個(gè)屬性中找到連續(xù)值不斷變化的屬性進(jìn)行分析，分析最大值、最小值、平均值和75%分位數(shù)指標(biāo)以分析數(shù)據(jù)分布情況，如表5所示。

表5 描述性統(tǒng)計(jì)指標(biāo)結(jié)果

由表5可知，缺陷長度和寬度最大值遠(yuǎn)大于75%分位數(shù)，分布較為離散，其他指標(biāo)分布較為集中。從內(nèi)檢測(cè)數(shù)據(jù)分析系統(tǒng)中將長度、寬度與真實(shí)值進(jìn)行對(duì)比發(fā)現(xiàn)，檢測(cè)出的缺陷長度和寬度超過數(shù)據(jù)應(yīng)該存在的范圍，應(yīng)進(jìn)行離群點(diǎn)檢測(cè)，去除與實(shí)際值不一致的點(diǎn)，以方便后續(xù)的分析。

(1) 離群點(diǎn)檢測(cè)指標(biāo)分析

圖4為設(shè)置異常值占總樣本比例0.15時(shí)設(shè)置不同k值的離群點(diǎn)檢測(cè)的精度對(duì)比，展示不同k值下樣本離群點(diǎn)的正檢率與誤檢率、漏檢率的精度對(duì)比。

由圖4可知：當(dāng)k=14時(shí)，樣本正檢率為0.96，漏檢率最低，與其他k值相比已達(dá)到最佳。由于正檢率和漏檢率是主要目標(biāo)，漏檢率為0.16在當(dāng)前研究問題中已足夠，因此選擇k=14時(shí)的LOF算法。接下來將k-means聚類與LOF算法參數(shù)k=14時(shí)離群點(diǎn)監(jiān)測(cè)精確度進(jìn)行對(duì)比。

圖4 不同k值的離群點(diǎn)檢測(cè)精度對(duì)比

(2)k-means算法準(zhǔn)確度分析

圖5為k-means算法檢測(cè)到的離群點(diǎn)分布圖。由圖5可知，當(dāng)設(shè)定閾值為1.9時(shí)，k-means算法共檢測(cè)到21個(gè)離群點(diǎn)，其中有17個(gè)離群點(diǎn)檢測(cè)正確、4個(gè)誤檢、6個(gè)漏檢。

圖5 k-means算法檢測(cè)離群點(diǎn)分布

(3) LOF算法準(zhǔn)確度分析

利用LOF算法中k=14的檢測(cè)結(jié)果進(jìn)行分析，離群點(diǎn)分布如圖6所示。

圖6 LOF算法檢測(cè)離群點(diǎn)分布

由圖6可知：共檢出28個(gè)離群點(diǎn)，其中有24個(gè)離群點(diǎn)被正確檢測(cè)、1個(gè)漏檢、4個(gè)被誤檢。LOF算法具體檢測(cè)結(jié)果精度與k-means算法對(duì)比如表6所示。

表6 LOF與k-means算法檢測(cè)精度對(duì)比 %

由表6可知：LOF離群點(diǎn)檢測(cè)算法正檢率達(dá)96%，比k-means離群點(diǎn)檢測(cè)算法高41.18%；在誤檢率和漏檢率方面LOF離群點(diǎn)檢測(cè)算法比k-means算法低，其中漏檢率LOF離群點(diǎn)檢測(cè)算法遠(yuǎn)低于k-means算法。因此，LOF檢測(cè)算法在檢測(cè)離群點(diǎn)上精度較高，可用于管道領(lǐng)域連續(xù)值的離群點(diǎn)檢測(cè)。

4 結(jié) 論

提出數(shù)據(jù)缺失值插補(bǔ)算法和數(shù)據(jù)離群點(diǎn)檢測(cè)算法，主要應(yīng)用數(shù)理統(tǒng)計(jì)及數(shù)據(jù)挖掘算法清洗數(shù)據(jù)缺失值及離群點(diǎn)檢測(cè)，數(shù)據(jù)中的缺失值形式分為連續(xù)值和離散值，在缺失值插補(bǔ)算法中提出多元線性回歸插補(bǔ)法，對(duì)檢測(cè)的缺失值進(jìn)行合理化插補(bǔ)。對(duì)于管道數(shù)據(jù)中的離群點(diǎn)利用基于密度的局部離群點(diǎn)檢測(cè)算法，將檢測(cè)出的離群點(diǎn)進(jìn)行仿真測(cè)試，并將離群點(diǎn)精度與k-means算法進(jìn)行比較，基于密度的離群點(diǎn)檢測(cè)算法得到較高的檢測(cè)精度，建立最優(yōu)的檢測(cè)模型，為后續(xù)的數(shù)據(jù)分析工作打下良好的基礎(chǔ)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡