国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深海油氣管道數(shù)據(jù)清洗方法設(shè)計(jì)

2022-09-02 03:47:08趙可天唐建華魏紅秋
中國海洋平臺(tái) 2022年4期
關(guān)鍵詞:離群對(duì)象變量

趙可天, 唐建華, 倪 劍, 魏紅秋, 董 洋

(1. 中海油能源發(fā)展裝備技術(shù)有限公司, 天津 300452;2. 東北大學(xué) 信息科學(xué)與工程學(xué)院, 遼寧 沈陽 110819)

0 引 言

多源數(shù)據(jù)的采集過程中出現(xiàn)臟數(shù)據(jù),對(duì)管道的風(fēng)險(xiǎn)評(píng)價(jià)、腐蝕控制、故障預(yù)警和管道完整性管理產(chǎn)生影響,因此采集數(shù)據(jù)準(zhǔn)確性對(duì)后期的決策起到關(guān)鍵的作用[1],準(zhǔn)確且可靠性高的數(shù)據(jù)對(duì)管道風(fēng)險(xiǎn)評(píng)價(jià)及后期制定管道維修計(jì)劃有良好的輔助作用,且可為管道安全運(yùn)行提供更有利的保障,更有效地解決油氣管道安全的問題。

國內(nèi)關(guān)于數(shù)據(jù)清洗研究的成果比較少。剛起步時(shí),國內(nèi)對(duì)數(shù)據(jù)清洗的研究[2-7]僅局限在改進(jìn)國外已有的英文算法,現(xiàn)在慢慢地提出基于中文數(shù)據(jù)特色的數(shù)據(jù)清洗研究算法。王曰芬等是國內(nèi)比較早進(jìn)入數(shù)據(jù)清洗研究領(lǐng)域的,他們定義數(shù)據(jù)清洗的含義和基本原理,并給出數(shù)據(jù)清洗的評(píng)估方法,對(duì)后來進(jìn)入數(shù)據(jù)清洗領(lǐng)域的研究人員提供了一個(gè)較好的標(biāo)準(zhǔn)。曹建軍等從數(shù)據(jù)質(zhì)量的方向強(qiáng)調(diào)數(shù)據(jù)清洗的重要性,并設(shè)想一個(gè)擴(kuò)展性強(qiáng)、松耦合、交互性好的數(shù)據(jù)清洗框架。葉煥悼等把研究重點(diǎn)放在相似重復(fù)記錄的清洗上,對(duì)相似重復(fù)記錄的檢測(cè)、相似重復(fù)記錄的清除進(jìn)行深入研究,且考慮到知識(shí)層面和語義的重要,并把其引入數(shù)據(jù)清洗框架中。周傲英等的研究重心放在數(shù)據(jù)的不確定性,也是數(shù)據(jù)的多義性,提出運(yùn)行排序、剪枝等技術(shù)開發(fā)新的數(shù)據(jù)清洗算法,并能夠?qū)?shù)據(jù)的后期處理,如數(shù)據(jù)預(yù)處理及融合、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)查詢等操作提供幫助。

目前網(wǎng)絡(luò)上產(chǎn)生大量的像HTML文檔、Web數(shù)據(jù)等半結(jié)構(gòu)化數(shù)據(jù),因其具有層次性、動(dòng)態(tài)可變性等特點(diǎn),被廣泛地應(yīng)用于信息傳播,同時(shí)不斷被使用的數(shù)據(jù)還包括圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的不斷增加[8]會(huì)產(chǎn)生大量的臟數(shù)據(jù),對(duì)分析問題產(chǎn)生大量的阻礙,由于這些數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的編碼方式不同[9],清洗方法不能一并使用,因此需要根據(jù)數(shù)據(jù)具有的特點(diǎn)進(jìn)行清洗技術(shù)的研究[10-11]。

1 管道數(shù)據(jù)清洗技術(shù)

數(shù)據(jù)清洗主要清洗的臟數(shù)據(jù)包括離群點(diǎn)值、缺失值和不一致數(shù)據(jù)。數(shù)據(jù)清洗用來完成對(duì)臟數(shù)據(jù)的清洗工作,形成一個(gè)干凈的數(shù)據(jù)集,數(shù)據(jù)清洗流程包括4個(gè)步驟,分別為臟數(shù)據(jù)檢測(cè)、臟數(shù)據(jù)處理、數(shù)據(jù)質(zhì)量評(píng)價(jià)和干凈數(shù)據(jù)回溯。根據(jù)管道內(nèi)檢測(cè)數(shù)據(jù)分析系統(tǒng)及日常生產(chǎn)監(jiān)測(cè)數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)將臟數(shù)據(jù)分為缺失值和異常值,相應(yīng)的清洗方法包括缺失值的清洗方法和離群點(diǎn)檢測(cè)清洗方法[10]。

2 管道數(shù)據(jù)清洗算法設(shè)計(jì)與分析

2.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗

(1) 相關(guān)變量選擇

假設(shè)觀察樣本A=(xij), 其中,i=1,…,n,j=1,…,m,xij表示第j個(gè)日常監(jiān)測(cè)屬性第i個(gè)采集的數(shù)據(jù),其中m個(gè)日常監(jiān)測(cè)變量屬性為X1,…,Xm,為了消除管道日常監(jiān)測(cè)屬性量綱對(duì)分析問題的影響,對(duì)日常監(jiān)測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

(1)

式中:xj和sj分別為第j個(gè)日常監(jiān)測(cè)變量的管道數(shù)據(jù)樣本均值和樣本標(biāo)準(zhǔn)差;Zij為xij進(jìn)行標(biāo)準(zhǔn)化處理后的數(shù)據(jù)。

將管道日常監(jiān)測(cè)數(shù)據(jù)集A分為A1和A2兩部分:A1中所有單元Z1,…,Zm是無缺失值的樣本,A2的所有單元是含有缺失值的樣本,Zk作為目標(biāo)變量。剔除數(shù)據(jù)A2中第i個(gè)單元含缺失值的所有變量,剩余記錄記為Z,再進(jìn)行變量選擇。

利用皮爾森相關(guān)系數(shù)法對(duì)相關(guān)變量與目標(biāo)缺失變量之間進(jìn)行相關(guān)性分析。皮爾森系數(shù)介于-1與1之間,其絕對(duì)值越趨近于1,證明2個(gè)變量之間的線性關(guān)系越強(qiáng),之后根據(jù)相關(guān)性系數(shù)大小對(duì)輔助變量進(jìn)行排序。

(2) 多元線性回歸插補(bǔ)法

在管道監(jiān)測(cè)數(shù)據(jù)中許多都是連續(xù)型數(shù)據(jù),監(jiān)測(cè)數(shù)據(jù)指標(biāo)可以歸結(jié)為m個(gè)自變量與某個(gè)目標(biāo)缺失變量之間的關(guān)系。選擇n個(gè)監(jiān)測(cè)樣本,每個(gè)監(jiān)測(cè)樣本為(yi,x1i,x2i,…,xmi),i=1,…,n。

如果yi與X1i,X2i,…,Xmi之間存在線性關(guān)系,則上述n組數(shù)據(jù)應(yīng)滿足:

(2)

式中:εi為測(cè)試誤差,相互獨(dú)立且服從N(0,δ2)分布,m

如果εi不存在,那么yi與xmi之間滿足線性關(guān)系:

yi=b0+b1x1i+b2x2i+…+bmxmi

(3)

(4)

回歸方程的衡量指標(biāo)可采用均方誤差EMS或者決定系數(shù)R2衡量缺失值插補(bǔ)的精度。

(5)

(6)

(3) 缺失值清洗步驟

步驟1:輸入含有缺失值的管道系統(tǒng)數(shù)據(jù)集。

步驟2:對(duì)管道全生命周期數(shù)據(jù)構(gòu)成的數(shù)據(jù)集進(jìn)行預(yù)處理。在進(jìn)行數(shù)據(jù)插補(bǔ)前將含有缺失值的記錄和完整的記錄進(jìn)行識(shí)別處理。

步驟3:對(duì)去除冗余信息后的屬性進(jìn)行相關(guān)性分析,利用皮爾森相關(guān)系數(shù)法找出與缺失值所在屬性相關(guān)性較高的屬性,形成訓(xùn)練樣本集。

步驟4:進(jìn)行多元線性回歸插補(bǔ),將管道樣本集分為訓(xùn)練樣本集、測(cè)試樣本集和缺失插補(bǔ)集,將訓(xùn)練樣本數(shù)據(jù)集放入回歸插補(bǔ)模型中進(jìn)行訓(xùn)練,建立回歸方程,并計(jì)算回歸系數(shù)及擬合回歸曲線。

步驟5:將完整的數(shù)據(jù)集得到的擬合曲線對(duì)測(cè)試樣本集的數(shù)據(jù)特征進(jìn)行插補(bǔ),并計(jì)算衡量插補(bǔ)精度指標(biāo),若EMS<0.001或R2>0.95,則訓(xùn)練模型達(dá)到要求,將數(shù)據(jù)缺失插補(bǔ)集的數(shù)據(jù)輸入訓(xùn)練后的模型中進(jìn)行插補(bǔ),最后將缺失值插補(bǔ)完成。

圖1為以均方誤差為標(biāo)準(zhǔn)進(jìn)行缺失值清洗的流程圖。

圖1 缺失值數(shù)據(jù)清洗流程圖

2.2 基于密度的局部離群點(diǎn)檢測(cè)LOF算法

經(jīng)典的基于密度的局部離群點(diǎn)檢測(cè)算法有局部離群因子(Local Outlier Factor,LOF)算法、ELSC算法等。采用LOF算法對(duì)離群點(diǎn)進(jìn)行檢測(cè),并將檢測(cè)到的異常點(diǎn)用缺失值填充方法進(jìn)行填充,將數(shù)據(jù)集按照數(shù)據(jù)對(duì)象與局部離群因子互相對(duì)應(yīng)。

LOF算法是基于密度的離群點(diǎn)檢測(cè)方法中一個(gè)比較有代表性的算法。該算法會(huì)給數(shù)據(jù)集中的每個(gè)點(diǎn)計(jì)算一個(gè)LOF,通過判斷LOF是否接近于1來判定是否是離群因子。若LOF遠(yuǎn)大于1,則認(rèn)為是離群因子;若LOF接近于1,則是正常點(diǎn)。

給定對(duì)象集為D, LOF算法的相關(guān)定義如下:

(1) 對(duì)象o的k距離。對(duì)象o的k距離記為distk(o),是o與目標(biāo)對(duì)象p∈D之間的距離dist(o,p),另一個(gè)對(duì)象P滿足:

①至少有k個(gè)對(duì)象o′∈D{o}, 使得dist(o,o′)≤dist(o,p);

②k-1個(gè)對(duì)象o″∈D{o},使得dist(o,o″)

(2) 對(duì)象o的k距離鄰域。o的k距離鄰域包含鄰域內(nèi)到o的距離不大于distk(o)的所有對(duì)象,其是一個(gè)點(diǎn)的集合:

Nk(o)={o′|o′∈D,dist(o,o′)≤distk(o)}

(7)

利用Nk(o)中的數(shù)據(jù)對(duì)象至o的平均距離計(jì)算o的局部密度。但若o具有一個(gè)距其非常近的鄰域o′,dist(o,o′)會(huì)特別小,導(dǎo)致統(tǒng)計(jì)距離度量的波動(dòng)特別高。因此針對(duì)此光滑效果,轉(zhuǎn)換成可達(dá)距離。

(3) 數(shù)據(jù)對(duì)象o相對(duì)于數(shù)據(jù)對(duì)象o′的可達(dá)距離。若dist(o,o′)>distk(o),則從o′至o的可達(dá)距離是dist(o,o′),否則是distk(o),即k是控制光滑效果的用戶指定的參數(shù),k值越大,鄰域內(nèi)包含的對(duì)象就越多。

(4) 對(duì)象o的局部可達(dá)密度。

(8)

(5) 對(duì)象o的局部離群點(diǎn)因子LOF的數(shù)學(xué)表達(dá)式。

(9)

對(duì)于日常監(jiān)測(cè)管道數(shù)據(jù)集D,其中包含n個(gè)對(duì)象,p∈D。LOF算法的實(shí)現(xiàn)步驟如表1所示。

表1 LOF算法實(shí)現(xiàn)步驟

該算法是一種基于密度的非監(jiān)督算法,適合對(duì)不同密度的數(shù)據(jù)進(jìn)行異常檢測(cè),利用局部離群因子對(duì)數(shù)據(jù)對(duì)象具備離群點(diǎn)的可能性進(jìn)行計(jì)算。該算法在全局和局部離群點(diǎn)的檢測(cè)過程中都體現(xiàn)出良好的算法性能。

3 清洗算法仿真結(jié)果分析

3.1 基于回歸插補(bǔ)法的缺失數(shù)據(jù)清洗結(jié)果分析

為驗(yàn)證管道缺失值清洗的準(zhǔn)確性,隨機(jī)從管道日常監(jiān)測(cè)系統(tǒng)中抽取一段時(shí)間產(chǎn)生的生產(chǎn)數(shù)據(jù),包括90個(gè)樣本、7個(gè)屬性。

(1) 利用皮爾森相關(guān)系數(shù)法篩選出與存在缺失值的目標(biāo)變量相關(guān)性高的屬性,如表2所示,從7個(gè)屬性變量中可以看出與缺失值目標(biāo)變量腐蝕速率相關(guān)性高的有H2S、CO2、溶解氧。

將這3個(gè)屬性作為輸入輔助變量,圖2(a)為H2S體積分?jǐn)?shù)與腐蝕速率之間的相關(guān)性曲線,圖2(b)為CO2分壓與腐蝕速率之間的相關(guān)性曲線,圖2(c)為溶解氧質(zhì)量濃度與腐蝕速率之間的相關(guān)性曲線。從圖2屬性間的相關(guān)性曲線可以看出,H2S體積分?jǐn)?shù)、CO2分壓、溶解氧質(zhì)量濃度與腐蝕速率呈正相關(guān)。

表2 相關(guān)系數(shù)

(2) 模型訓(xùn)練結(jié)果分析

變量選擇前后模型擬合預(yù)測(cè)與真實(shí)數(shù)據(jù)曲線對(duì)比如圖3所示,圖3(a)為變量選擇前的預(yù)測(cè)與真實(shí)擬合曲線,圖3(b)為變量選擇后預(yù)測(cè)與真實(shí)擬合曲線。由圖3可知:測(cè)試曲線與預(yù)測(cè)曲線基本能夠重合,沒有較大的誤差點(diǎn)。

圖2 屬性間相關(guān)性曲線

圖3 變量選擇前后模型擬合曲線對(duì)比

(3) 模型評(píng)價(jià)指標(biāo)

表3為變量選擇前后測(cè)試精度對(duì)比表。

缺失樣本插補(bǔ)結(jié)果如表4所示。

表3 變量選擇前后測(cè)試精度對(duì)比

表4 缺失樣本插補(bǔ)結(jié)果

3.2 基于密度的局部離群點(diǎn)檢測(cè)LOF算法仿真結(jié)果分析

采用的數(shù)據(jù)集來源于內(nèi)檢測(cè)數(shù)據(jù)分析系統(tǒng),數(shù)據(jù)集包括3 013個(gè)樣本、54個(gè)屬性。先對(duì)數(shù)據(jù)進(jìn)行簡單的數(shù)據(jù)分析,將固定值的屬性過濾,再對(duì)無異常點(diǎn)的離散值進(jìn)行處理,通過描述分析方法發(fā)現(xiàn)缺陷列表中長度、寬度的數(shù)據(jù)分布中具有離群點(diǎn),利用基于密度的局部離群點(diǎn)檢測(cè)LOF算法將離群點(diǎn)篩選出來,然后與k-means聚類算法進(jìn)行對(duì)比,選擇離群點(diǎn)檢測(cè)精度高的算法。本試驗(yàn)采用的算法檢測(cè)的離群點(diǎn)只針對(duì)連續(xù)型屬性,目前只在收集到的連續(xù)型數(shù)值中發(fā)現(xiàn)了離群點(diǎn),主要在通過計(jì)算得出的缺陷長度、寬度、深度中發(fā)現(xiàn)了范圍超限的離群點(diǎn)。同時(shí)采用里程點(diǎn)、時(shí)鐘方位等數(shù)據(jù)定位離群點(diǎn)位置。從3 013個(gè)缺陷信息列表中每隔200個(gè)缺陷點(diǎn)抽樣1次,共抽取15個(gè)樣本,以其中1個(gè)樣本中離群點(diǎn)多的221個(gè)缺陷點(diǎn)作為示例進(jìn)行離群點(diǎn)分析。以下是對(duì)測(cè)試數(shù)據(jù)集進(jìn)行試驗(yàn)的分析結(jié)果,試驗(yàn)計(jì)算出閾值之后設(shè)置不同k值下離群點(diǎn)正檢率、誤檢率、漏檢率等情況進(jìn)行對(duì)比。

先在221個(gè)數(shù)據(jù)集、54個(gè)屬性中找到連續(xù)值不斷變化的屬性進(jìn)行分析,分析最大值、最小值、平均值和75%分位數(shù)指標(biāo)以分析數(shù)據(jù)分布情況,如表5所示。

表5 描述性統(tǒng)計(jì)指標(biāo)結(jié)果

由表5可知,缺陷長度和寬度最大值遠(yuǎn)大于75%分位數(shù),分布較為離散,其他指標(biāo)分布較為集中。從內(nèi)檢測(cè)數(shù)據(jù)分析系統(tǒng)中將長度、寬度與真實(shí)值進(jìn)行對(duì)比發(fā)現(xiàn),檢測(cè)出的缺陷長度和寬度超過數(shù)據(jù)應(yīng)該存在的范圍,應(yīng)進(jìn)行離群點(diǎn)檢測(cè),去除與實(shí)際值不一致的點(diǎn),以方便后續(xù)的分析。

(1) 離群點(diǎn)檢測(cè)指標(biāo)分析

圖4為設(shè)置異常值占總樣本比例0.15時(shí)設(shè)置不同k值的離群點(diǎn)檢測(cè)的精度對(duì)比,展示不同k值下樣本離群點(diǎn)的正檢率與誤檢率、漏檢率的精度對(duì)比。

由圖4可知:當(dāng)k=14時(shí),樣本正檢率為0.96,漏檢率最低,與其他k值相比已達(dá)到最佳。由于正檢率和漏檢率是主要目標(biāo),漏檢率為0.16在當(dāng)前研究問題中已足夠,因此選擇k=14時(shí)的LOF算法。接下來將k-means聚類與LOF算法參數(shù)k=14時(shí)離群點(diǎn)監(jiān)測(cè)精確度進(jìn)行對(duì)比。

圖4 不同k值的離群點(diǎn)檢測(cè)精度對(duì)比

(2)k-means算法準(zhǔn)確度分析

圖5為k-means算法檢測(cè)到的離群點(diǎn)分布圖。由圖5可知,當(dāng)設(shè)定閾值為1.9時(shí),k-means算法共檢測(cè)到21個(gè)離群點(diǎn),其中有17個(gè)離群點(diǎn)檢測(cè)正確、4個(gè)誤檢、6個(gè)漏檢。

圖5 k-means算法檢測(cè)離群點(diǎn)分布

(3) LOF算法準(zhǔn)確度分析

利用LOF算法中k=14的檢測(cè)結(jié)果進(jìn)行分析,離群點(diǎn)分布如圖6所示。

圖6 LOF算法檢測(cè)離群點(diǎn)分布

由圖6可知:共檢出28個(gè)離群點(diǎn),其中有24個(gè)離群點(diǎn)被正確檢測(cè)、1個(gè)漏檢、4個(gè)被誤檢。LOF算法具體檢測(cè)結(jié)果精度與k-means算法對(duì)比如表6所示。

表6 LOF與k-means算法檢測(cè)精度對(duì)比 %

由表6可知:LOF離群點(diǎn)檢測(cè)算法正檢率達(dá)96%,比k-means離群點(diǎn)檢測(cè)算法高41.18%;在誤檢率和漏檢率方面LOF離群點(diǎn)檢測(cè)算法比k-means算法低,其中漏檢率LOF離群點(diǎn)檢測(cè)算法遠(yuǎn)低于k-means算法。因此,LOF檢測(cè)算法在檢測(cè)離群點(diǎn)上精度較高,可用于管道領(lǐng)域連續(xù)值的離群點(diǎn)檢測(cè)。

4 結(jié) 論

提出數(shù)據(jù)缺失值插補(bǔ)算法和數(shù)據(jù)離群點(diǎn)檢測(cè)算法,主要應(yīng)用數(shù)理統(tǒng)計(jì)及數(shù)據(jù)挖掘算法清洗數(shù)據(jù)缺失值及離群點(diǎn)檢測(cè),數(shù)據(jù)中的缺失值形式分為連續(xù)值和離散值,在缺失值插補(bǔ)算法中提出多元線性回歸插補(bǔ)法,對(duì)檢測(cè)的缺失值進(jìn)行合理化插補(bǔ)。對(duì)于管道數(shù)據(jù)中的離群點(diǎn)利用基于密度的局部離群點(diǎn)檢測(cè)算法,將檢測(cè)出的離群點(diǎn)進(jìn)行仿真測(cè)試,并將離群點(diǎn)精度與k-means算法進(jìn)行比較,基于密度的離群點(diǎn)檢測(cè)算法得到較高的檢測(cè)精度,建立最優(yōu)的檢測(cè)模型,為后續(xù)的數(shù)據(jù)分析工作打下良好的基礎(chǔ)。

猜你喜歡
離群對(duì)象變量
神秘來電
睿士(2023年2期)2023-03-02 02:01:09
抓住不變量解題
也談分離變量
攻略對(duì)象的心思好難猜
意林(2018年3期)2018-03-02 15:17:24
基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
區(qū)間對(duì)象族的可鎮(zhèn)定性分析
SL(3,3n)和SU(3,3n)的第一Cartan不變量
離群的小雞
分離變量法:常見的通性通法
安图县| 秀山| 额济纳旗| 越西县| 惠州市| 本溪市| 轮台县| 大悟县| 石泉县| 罗源县| 屯昌县| 临漳县| 鄄城县| 新化县| 连州市| 贡觉县| 西吉县| 石林| 满城县| 屯门区| 南部县| 威海市| 柳河县| 准格尔旗| 通州市| 和林格尔县| 尚志市| 鄂温| 邹平县| 紫阳县| 根河市| 江永县| 治多县| 句容市| 海丰县| 津南区| 舟山市| 洪泽县| 曲沃县| 南汇区| 慈溪市|