宋麗娜 ,劉 淼 ,秦 韜 ,何 鑫 ,郭中磊 ,王小勝
(1.河北工程大學(xué)數(shù)理科學(xué)與工程學(xué)院,河北 邯鄲 056038;2.河北省水資源研究與水利技術(shù)試驗(yàn)推廣中心,河北 石家莊 050000;3.中國水利水電科學(xué)研究院水資源研究所,北京 100038)
在我國北方缺水地區(qū),為確保節(jié)約用水與水資源高效利用,對城鎮(zhèn)取用水進(jìn)行監(jiān)測與管控十分必要。近年來,對城鎮(zhèn)取用水戶取用水的在線監(jiān)測已成為國家水資源監(jiān)控能力建設(shè)的一項(xiàng)重要內(nèi)容。但由于取用水在線監(jiān)測數(shù)據(jù)隨機(jī)性強(qiáng),易受環(huán)境與人為因素的影響,大部分監(jiān)測數(shù)據(jù)極易受到異常值的干擾,若不經(jīng)處理直接使用則難以客觀真實(shí)地反映當(dāng)?shù)厝∮盟膶?shí)際情況,并且由于水資源監(jiān)控?cái)?shù)據(jù)規(guī)模日益增大,依靠人工檢測異常值存在難度。因此,研究開發(fā)能夠有效識(shí)別城鎮(zhèn)取用水監(jiān)測數(shù)據(jù)中異常值的科學(xué)方法,對后續(xù)用水總量管控和水資源稅征收等工作具有重要意義。
有效識(shí)別數(shù)據(jù)集中的異常值是數(shù)據(jù)分析中十分重要的環(huán)節(jié)。取用水監(jiān)測數(shù)據(jù)中的異常值識(shí)別是一個(gè)新興的研究課題,目前行業(yè)對于識(shí)別方法尚未形成共識(shí),同時(shí)學(xué)術(shù)界對于異常值的定義也沒有統(tǒng)一標(biāo)準(zhǔn)。本研究定義的城鎮(zhèn)取用水監(jiān)測異常數(shù)據(jù)為某一時(shí)刻的數(shù)據(jù)與其鄰域點(diǎn)相比出現(xiàn)偏離程度較大的數(shù)據(jù)。目前異常值識(shí)別方法可分為基于統(tǒng)計(jì)[1]、分類[2]、距離[3]等的方法。侍建國等[4]、劉明等[5]分別使用高斯分布的 3σ準(zhǔn)則法與方差分析法對異常值進(jìn)行識(shí)別,此類基于統(tǒng)計(jì)的方法存在數(shù)據(jù)無法簡單服從某一特定統(tǒng)計(jì)分布條件的局限性。近年來,隨著數(shù)據(jù)挖掘與人工智能技術(shù)的高速發(fā)展,基于人工智能的識(shí)別算法得到了廣泛應(yīng)用[6],魏晶茹等[7]、趙臣嘯等[8]31分別將改進(jìn)的支持向量機(jī)與孤立森林等算法應(yīng)用到監(jiān)測數(shù)據(jù)異常值識(shí)別中。這 2 種方法本質(zhì)上是基于分類的異常值檢測方法,適合小規(guī)模訓(xùn)練樣本,在大規(guī)模數(shù)據(jù)噪聲較多的情況下會(huì)導(dǎo)致分類性能下降。吳瓊等[9]、林之岸等[10]、李航[11]分別將局部異常因子(LOF)算法應(yīng)用于絕對重力測量與用電等數(shù)據(jù)異常檢測方面,LOF 算法是一種基于距離的異常值識(shí)別方法,以上研究在使用 LOF 算法進(jìn)行異常值檢測時(shí)均取得較好的效果。由于取用水監(jiān)測異常數(shù)據(jù)特征多樣且復(fù)雜,單一的識(shí)別方法會(huì)受異常程度大的數(shù)據(jù)的影響而導(dǎo)致識(shí)別效果不佳,故有學(xué)者提出 2 種方法相結(jié)合分步識(shí)別的方法。方海泉等[12][13]258、楊瑛娟等[14]、張峰等[15]317基于統(tǒng)計(jì)的方法與集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)相結(jié)合應(yīng)用于水資源監(jiān)測異常數(shù)據(jù)識(shí)別,驗(yàn)證了 EEMD 方法在取用水異常值識(shí)別方面的可操作性,且相比于傳統(tǒng)單一的方法具有更好的適用性,識(shí)別效果也明顯提高,但仍存在基于統(tǒng)計(jì)的方法依賴數(shù)據(jù)集分布的缺點(diǎn),以及使用 EEMD 擬合數(shù)據(jù)有噪聲殘余的問題。
CEEMD(互補(bǔ)集成經(jīng)驗(yàn)?zāi)B(tài)分解)法[16]是在傳統(tǒng)經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)法[17]與 EEMD 法[18]上做出的改進(jìn),解決了 EMD的模態(tài)混疊與 EEMD 的噪聲殘余問題。因此針對城鎮(zhèn)取用水監(jiān)測數(shù)據(jù)體量大、類型多的特點(diǎn),結(jié)合數(shù)據(jù)的可直觀與不可直觀識(shí)別異常值的情況,提出 LOF[19]93與 CEEMD 相結(jié)合的方法,分兩步對城鎮(zhèn)取用水監(jiān)測數(shù)據(jù)異常值進(jìn)行自動(dòng)識(shí)別。
LOF 算法通過比較給定數(shù)據(jù)點(diǎn)與相鄰點(diǎn)的密度判斷數(shù)據(jù)是否異常,并同時(shí)量化出數(shù)據(jù)點(diǎn)的異常程度,具有識(shí)別速度快,精度高等特點(diǎn)[19]101。相關(guān)概念如下:
1)可達(dá)距離dk(P,O)。計(jì)算公式為
式中:dk(O)為點(diǎn)O的第k距離,即點(diǎn)O與距點(diǎn)O最近的第k個(gè)點(diǎn)之間的距離;d(P,O)是點(diǎn)O與點(diǎn)P之間的距離。
2)點(diǎn)P的局部可達(dá)密度ρk(P)。計(jì)算公式為
式中:Nk(P)為所有距離不大于dk(P)的點(diǎn)集合;|Nk(P)|為集合Nk(P)中點(diǎn)的個(gè)數(shù)。
局部異常因子lk(P)表示Nk(P)中其他點(diǎn)的局部可達(dá)密度與點(diǎn)P的局部可達(dá)密度之比的平均值,計(jì)算公式為
局部異常因子反映的是點(diǎn)P與其相鄰點(diǎn)之間的離群程度。若lk(P)的值趨近于 1,說明點(diǎn)P與該點(diǎn)相鄰點(diǎn)局部密度相近;若lk(P)的值大于 1,值越大則表示點(diǎn)P與相鄰點(diǎn)越疏遠(yuǎn),可視為可能的異常點(diǎn)。故可通過計(jì)算lk(P)判斷數(shù)據(jù)集中任意點(diǎn)P的離群程度。
CEEMD 法在達(dá)到很好分解效果的同時(shí),能夠有效提高分解效率。序列經(jīng)過 EMD 分解可以得到一系列高頻到低頻的固有模態(tài)函數(shù)(IMF)分量和1 個(gè)殘余分量,其中:IMF 分量是接近單分量信號(hào)特征的 1 組函數(shù),在每一時(shí)刻有且只有 1 個(gè)頻率與之對應(yīng);殘余分量通常不含有序列的振蕩模態(tài),只反映序列的變化趨勢。CEEMD 法的分解步驟如下:
1)將時(shí)間序列數(shù)據(jù)x(t)(t為監(jiān)測數(shù)據(jù)對應(yīng)的時(shí)間)分別加上和減去正態(tài)分布的白噪聲ui(t)構(gòu)成 2 個(gè)新的序列,重復(fù)n次,則第i次序列為
2)對每次構(gòu)造的 2 個(gè)新數(shù)據(jù)分別用 EMD 進(jìn)行計(jì)算,每組結(jié)果的總體平均分別記為和
4)對Ii求集總平均,即
式中:I為x(t)經(jīng)過 CEEMD 分解得到的 1 組 IMF分量與 1 個(gè)殘余分量。
通過對城鎮(zhèn)取用水戶監(jiān)測數(shù)據(jù)的統(tǒng)計(jì)分析,發(fā)現(xiàn)其異常數(shù)據(jù)具有多樣性、復(fù)雜性等特點(diǎn)。按識(shí)別的難易程度,分為可直觀與不可直觀 2 種識(shí)別。可直觀識(shí)別的異常值通??梢酝ㄟ^觀察監(jiān)測數(shù)據(jù)時(shí)間序列曲線的走向與變化得知,即缺失值、0 值、連續(xù) 0 值、突變幅度過大值;不可直觀識(shí)別的異常值一般突變幅度不明顯,是取用水量監(jiān)測數(shù)據(jù)處理中的難點(diǎn)。
因此,針對城鎮(zhèn)取用水量數(shù)據(jù)中同時(shí)存在可直觀與不可直觀識(shí)別異常值的特點(diǎn),采取結(jié)合 LOF 與 CEEMD 組合模型的方法進(jìn)行識(shí)別。首先,應(yīng)用 LOF 方法對原始時(shí)間序列中的可直觀識(shí)別異常值進(jìn)行識(shí)別處理,即初識(shí)別階段;其次,對修正后的序列進(jìn)行 CEEMD 分解,將分解的低頻分量疊加作為正常數(shù)據(jù)的參考序列,通過計(jì)算初識(shí)別后序列與參考序列之間的相對誤差,進(jìn)一步識(shí)別出不可直觀識(shí)別異常值,即精識(shí)別階段。分 2 步對異常值進(jìn)行識(shí)別處理,可以降低不可直觀識(shí)別異常值的漏檢率與誤檢率,更好地提高監(jiān)測數(shù)據(jù)的可靠性。模型結(jié)構(gòu)如圖 1 所示。
圖1 異常值識(shí)別模型
2.2.1 LOF 初識(shí)別階段
記原始日取水監(jiān)測數(shù)據(jù)為x(t)。為避免缺失值、0 值、連續(xù) 0 值 3 類異常值對初識(shí)別的影響,先將其替換為空值,再利用 LOF 識(shí)別突變幅度過大的異常值。選定參數(shù)k后,計(jì)算各數(shù)據(jù)對應(yīng)的 LOF 值lk(P),P=1,2,…,t。若lk(P)> 1,認(rèn)為該點(diǎn)為異常數(shù)據(jù)點(diǎn),lk(P)值越大,該點(diǎn)的離群程度越大,異常的可能性就越大。將識(shí)別到的異常值替換為空值并進(jìn)行修正,其余數(shù)據(jù)順序不變,記為x′(t)。
2.2.2 CEEMD 精識(shí)別階段
初識(shí)別后的數(shù)據(jù)x′(t)是非平穩(wěn)非線性的時(shí)間序列數(shù)據(jù),對于序列中不可直觀識(shí)別的突變幅度不明顯的異常值,采用 CEEMD 方法進(jìn)行分解,可得到尺度各不相同的N個(gè) IMF 分量。將各分量按對應(yīng)頻率從高到低進(jìn)行排序,并將后L個(gè)低頻分量進(jìn)行求和得到一個(gè)新的序列y(t)。當(dāng)?shù)皖l分量選取恰當(dāng)時(shí),低頻分量疊加的序列既能濾除原始序列中的噪聲影響,又能很好地保持序列中的趨勢部分,即該疊加序列既能很好接近序列中的正常值,又不受異常值影響。根據(jù)經(jīng)驗(yàn),低頻分量選取的個(gè)數(shù)L與 IMF 分量個(gè)數(shù)N的比例為 2∶3 時(shí)較合適[13]259,即。利用低頻分量疊加后序列這一特點(diǎn),將疊加序列y(t)與序列x′(t)進(jìn)行對比,計(jì)算 2 個(gè)序列的相對誤差δ,即
相對誤差δ量化了數(shù)據(jù)之間的偏離程度,δ越大,偏離程度越大,異常的可能性越大。設(shè)置δ0為δ的閾值,當(dāng)δ > δ0時(shí),認(rèn)為該點(diǎn)為異常數(shù)據(jù)點(diǎn)。將精識(shí)別后找到的異常值再次替換為空值并修正,記為x′(t)。
取用水監(jiān)測數(shù)據(jù)是時(shí)間序列數(shù)據(jù),對于識(shí)別出的異常值不能簡單地進(jìn)行剔除或做置零處理,這不僅會(huì)影響時(shí)間序列數(shù)據(jù)間的聯(lián)系,也會(huì)影響后續(xù)數(shù)據(jù)分析與預(yù)測的質(zhì)量。因此,對可直觀與不可直觀識(shí)別異常值分別采用線性插值與低頻分量疊加數(shù)據(jù)進(jìn)行修正,該方法在允許一定的誤差下,可以對異常數(shù)據(jù)進(jìn)行合理補(bǔ)償,保證時(shí)間序列數(shù)據(jù)的連續(xù)性。處理方式如下:
1)可直觀識(shí)別異常值。若ti是異常值點(diǎn),x(ti)是其對應(yīng)的異常值,x(ti-1)與x(ti+1)分別為異常值前后 2 個(gè)數(shù)據(jù),則修正后的數(shù)據(jù)為
2)不可直觀識(shí)別異常值。由于低頻分量疊加后的序列能夠很好地接近序列中的正常值,因此在精識(shí)別階段,利用疊加后的序列對異常值進(jìn)行修正。若ti是異常值點(diǎn),x(ti)是其對應(yīng)的異常值,y(ti)是點(diǎn)ti對應(yīng)的低頻疊加數(shù)據(jù),則。
為驗(yàn)證 LOF 與 CEEMD 相結(jié)合的方法在識(shí)別城鎮(zhèn)取用水監(jiān)測數(shù)據(jù)異常值中的有效性,以河北省某自來水廠的取用水監(jiān)測數(shù)據(jù)為例開展實(shí)驗(yàn)分析。首先,收集水廠取水口監(jiān)測數(shù)據(jù);其次,應(yīng)用本研究方法識(shí)別異常值,對數(shù)據(jù)集中的異常值進(jìn)行修正;最后,比較修正前后的取用水總量的變化,分析異常值分布規(guī)律。
選取自來水廠 2019年日取水監(jiān)測數(shù)據(jù)作為研究對象,共計(jì) 365 個(gè)數(shù)據(jù)點(diǎn),具體監(jiān)測數(shù)據(jù)如圖 2 所示,記原始日取水量監(jiān)測數(shù)據(jù)為x(t),數(shù)據(jù)來源于河北省水資源稅取用水信息管理系統(tǒng)。該水廠位于河北省邯鄲市,所用水源為淺層地下水,供水對象為水廠周圍城鎮(zhèn)居民生活用水,供水規(guī)律呈現(xiàn)出夏季多冬季少、白天多夜晚少的典型居民生活用水特征。從數(shù)據(jù)中可以看出,該水廠監(jiān)測數(shù)據(jù)沒有缺失數(shù)據(jù)、0 值與連續(xù) 0 值,存在突變幅度過大的異常數(shù)據(jù),包括過大值與過小值,以過大值為主。
圖2 原始日取水量監(jiān)測數(shù)據(jù)
3.3.1 基于 LOF 的可直觀識(shí)別異常值初識(shí)別
取 3 組樣本數(shù)據(jù),選取k= 10,20,30 多種情況,進(jìn)行異常值識(shí)別計(jì)算,識(shí)別效果如圖 3 所示,圖中A為可直觀異常值個(gè)數(shù),B為不同k值下檢驗(yàn)出的異常值個(gè)數(shù)。
圖3 不同 k 值下 3 組樣本數(shù)據(jù)的識(shí)別效果
I 組共有 12 個(gè)異常點(diǎn),當(dāng)k= 10,20,30 時(shí),可分別識(shí)別出 8,12,12 個(gè)異常值;II 組共有 10 個(gè)異常點(diǎn),當(dāng)k= 10,20,30 時(shí),可分別識(shí)別出 13,10,9 個(gè)異常值;III 組共有 22 個(gè)異常點(diǎn),當(dāng)k=10,20,30 時(shí),可分別識(shí)別出 14,14,22 個(gè)異常值。k=10 時(shí),I 與 III 組數(shù)據(jù)中部分可直觀異常值被漏檢;k= 20 時(shí),I 與 II 組數(shù)據(jù)識(shí)別效果明顯有所提升,但 III 組數(shù)據(jù)仍有部分異常數(shù)據(jù)存在漏選情況;k= 30 時(shí),3 組數(shù)據(jù)均能識(shí)別出可直觀異常值,效果較好。
進(jìn)一步將k的取值細(xì)分到 1~100,并對更多組樣本數(shù)據(jù)進(jìn)行異常值效果驗(yàn)證,發(fā)現(xiàn):所研究的水廠取用水監(jiān)測數(shù)據(jù)樣本,當(dāng)k≥ 30 時(shí),能對樣本有較好的異常值識(shí)別效果,考慮到k越大計(jì)算成本越高,耗時(shí)越大,因此本研究設(shè)定k= 30。
應(yīng)用 LOF 進(jìn)行可直觀識(shí)別異常數(shù)據(jù)的初識(shí)別。設(shè)置k= 30,對序列x(t)初識(shí)別出突變幅度明顯的 23 個(gè)數(shù)據(jù)點(diǎn)如圖 4 所示,圖中紅色范圍對應(yīng)的是局部異常因子值的大小,面積越大說明 LOF 值越大,異常的可能性越大。從圖中可以看出:LOF 在識(shí)別突變幅度較大的可直觀異常值中的表現(xiàn)優(yōu)異,不論是單獨(dú)的還是連續(xù)的異常值都能被有效識(shí)別。同時(shí) LOF 值的大小量化了異常點(diǎn)的異常程度,增加了異常數(shù)據(jù)在管理系統(tǒng)中的可視化水平,為人工判斷異常值提供了更多參考。
圖4 基于 LOF 初識(shí)別的異常點(diǎn)(k = 30)
3.3.2 基于 CEEMD 的非可直觀識(shí)別異常數(shù)據(jù)精識(shí)別
對時(shí)間序列x′(t)進(jìn)行 CEEMD 分解,從高頻到低頻共得到 7 個(gè)分量,包括 6 個(gè) IMF 分量與 1 個(gè)殘余分量,如圖 5 所示。
從圖 5 可以看出:序列低頻部分(IMF3~6,殘余分量)可以刻畫序列趨勢,同時(shí)又蘊(yùn)含著一定的周期波動(dòng)成分;序列高頻部分(IMF1~2)表現(xiàn)較為平穩(wěn),隨機(jī)波動(dòng)性較強(qiáng),可視為噪聲成分。去掉前 2 個(gè)高頻分量,即濾除波動(dòng)幅度大的噪聲成分,再將后 5 個(gè)低頻分量疊加,得到的序列y(t)如圖 6 中紅色虛線所示,圖中藍(lán)色實(shí)線為時(shí)間序列x′(t)。
圖5 初識(shí)別后的數(shù)據(jù)頻譜 CEEMD 分解
圖6 低頻分量疊加的擬合序列
根據(jù)式(7)計(jì)算 2 個(gè)序列之間的相對誤差,結(jié)果如圖 7 所示。結(jié)合現(xiàn)有統(tǒng)計(jì)數(shù)據(jù)及專家經(jīng)驗(yàn)進(jìn)行定量與定性分析,取 2 個(gè)序列相對誤差δ的閾值δ0為 0.5,即當(dāng) 2 條曲線對應(yīng)的某點(diǎn)相對誤差大于 0.5 時(shí),判定該點(diǎn)為異常數(shù)據(jù)點(diǎn)[15]320。據(jù)此,經(jīng)過 CEEMD 的分解與相對誤差的識(shí)別,在異常數(shù)據(jù)精識(shí)別階段共識(shí)別出 8 個(gè)異常數(shù)據(jù),如圖 8 所示。
圖7 相對誤差
圖8 基于 CEEMD 精識(shí)別的異常點(diǎn)
本研究共收集到河北省某自來水廠 1 個(gè)自然年內(nèi)的取用水監(jiān)測數(shù)據(jù) 365 個(gè),取用水量共計(jì)51.27 萬 m3。初識(shí)別階段共找到異常數(shù)據(jù)點(diǎn) 23 個(gè),利用線性插值進(jìn)行初步修正后,得到的年度取用水量為 41.19 萬 m3,變化幅度為 19.6%。精識(shí)別后又找到異常數(shù)據(jù)點(diǎn) 8 個(gè),將其替換為低頻分量疊加數(shù)據(jù),最終取用水量修正為 41.14 萬 m3,較初識(shí)別階段變化幅度為 0.12%。通過觀察案例識(shí)別的取用水監(jiān)測數(shù)據(jù)異常值,發(fā)現(xiàn)異常值多集中在 8—10月,正是 1 a 中取用水量偏高的時(shí)間段,同時(shí)監(jiān)測數(shù)據(jù)也呈現(xiàn)相同趨勢,即夏季取用水量較其余時(shí)間取用水量更多??梢园l(fā)現(xiàn),取用水量偏高時(shí)出現(xiàn)異常值的概率會(huì)增大,主要原因是水資源監(jiān)控能力建設(shè)的前期監(jiān)控體系不完善,尤其是基礎(chǔ)計(jì)量設(shè)施的選取與安裝不太合適,因此在大規(guī)模建設(shè)監(jiān)控網(wǎng)絡(luò)的同時(shí)要加強(qiáng)監(jiān)控設(shè)備的安裝設(shè)計(jì),以保障監(jiān)測數(shù)據(jù)效力的發(fā)揮。
此外,對異常值進(jìn)行識(shí)別的首要目的是監(jiān)控取用水總量,因此為進(jìn)一步說明取用水監(jiān)測數(shù)據(jù)修正后的有效性,本研究利用 LOF 與 CEEMD 修正后的年取用水量數(shù)據(jù)與自來水廠核定的年取用水量數(shù)據(jù)進(jìn)行比較。研究的自來水廠 2019年的核定年取水量為 34.42 萬 m3,其中,核定取水量是當(dāng)?shù)厮块T根據(jù)原始實(shí)測數(shù)據(jù),通過人工排查去除異常值并結(jié)合經(jīng)驗(yàn)判別核定后的結(jié)果。由本研究可知,若使用未經(jīng)質(zhì)量控制的原始數(shù)據(jù),則 2019年度該水廠的取用水總量為 51.27 萬 m3,大于核定取水量與本研究計(jì)算的修正后取水量(41.14 萬 m3)。這說明原始數(shù)據(jù)中存在測量過大的異常點(diǎn)占多數(shù),本研究方法可以識(shí)別這些過大的異常點(diǎn),具有一定的可靠性。本研究修正后的取水量仍大于核定取水量 6.72 萬 m3,由于人工核定采用的方法標(biāo)準(zhǔn)不統(tǒng)一,因此無法斷定人工核定的結(jié)果就一定比自動(dòng)識(shí)別的結(jié)果更加準(zhǔn)確。從分析對比中可以得出,自動(dòng)識(shí)別異常點(diǎn)的修正是有效果的,且效率遠(yuǎn)高于人工篩選。
城鎮(zhèn)取用水戶在線監(jiān)測異常數(shù)據(jù)具有缺失值、0 值、連續(xù) 0 值,以及相比鄰域點(diǎn)呈現(xiàn)突然上升或下降等特征。造成這些異常的原因有多種,包括監(jiān)控設(shè)備故障或停用,數(shù)據(jù)傳輸過程失真,異常用水行為等,在本研究算例中,異常數(shù)據(jù)的存在形式主要以過大值為主。例如 2019年7月9日單日取用水量超過前一時(shí)刻 1.37 萬 m3,與相鄰數(shù)據(jù)規(guī)律明顯不一致。這種情況極大概率是由監(jiān)測設(shè)備損壞、數(shù)據(jù)傳輸異常等因素所致,較小可能是正常的用水行為。因此本研究方法可以給取水單位提供自動(dòng)化的及時(shí)反饋,提示需要進(jìn)行人工檢查維修,對其設(shè)備異常、漏水與竊水等異常用水行為進(jìn)行預(yù)警,與傳統(tǒng)人工異常排查相比,工作量減少且排查效率更高。同時(shí),本研究方法若應(yīng)用于實(shí)踐,可以避免后續(xù)統(tǒng)計(jì)取用水量時(shí)造成較大誤差,為水資源的精準(zhǔn)管理提供便利。
在異常值識(shí)別的方法方面,本研究采用初識(shí)別與精識(shí)別相結(jié)合的思路,結(jié)果證明:初識(shí)別可以有效地將絕大多數(shù)的異常點(diǎn)剔除,對用水總量的影響較大;精識(shí)別雖然對異常值的進(jìn)一步過濾起到一定的作用,但是過程更為復(fù)雜,需要進(jìn)行頻譜分解,對總體用水量的影響很小。因此在計(jì)算條件不能充分允許的情況下,僅通過初識(shí)別就可以對數(shù)據(jù)集中的異常值形成較好的質(zhì)量控制。
通過將修正后的年取用水量與自來水廠的核定數(shù)據(jù)進(jìn)行對比,驗(yàn)證了順序結(jié)合 LOF 與 CEEMD 的方法,結(jié)果具有一定的可靠性,可為進(jìn)一步人工判斷異常值提供一定支撐。盡管該方法在取用水異常值識(shí)別方面效果較好,但是對于異常值識(shí)別算法而言,不論基于何種數(shù)據(jù)特征的異常值識(shí)別方法,都只能找出可能異常值,并不能 100% 確定發(fā)生異常的原因[8]32,如在實(shí)際取用水過程中,觀測數(shù)據(jù)會(huì)存在因?qū)嶋H用水行為突然發(fā)生變化而導(dǎo)致的觀測值突變的情況,因此為準(zhǔn)確判定是否為異常值,還需進(jìn)一步結(jié)合專家經(jīng)驗(yàn)進(jìn)行判別。