国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于孤立森林算法的取用水量異常數(shù)據(jù)檢測方法

2020-04-03 08:15趙臣嘯薛惠鋒
關(guān)鍵詞:二叉樹用水量預(yù)處理

趙臣嘯,薛惠鋒,王 磊,萬 毅

(1.中國航天系統(tǒng)科學(xué)與工程研究院,北京 100048;2.水利部水資源管理中心,北京 100053)

1 研究背景

水是基礎(chǔ)性的自然資源和戰(zhàn)略性的經(jīng)濟資源,是生態(tài)環(huán)境的控制性要素,是經(jīng)濟社會發(fā)展的重要支撐和保障,水資源供需矛盾突出是制約我國可持續(xù)發(fā)展的主要瓶頸之一。在當(dāng)前全國范圍內(nèi)進行水資源稅費改革的大背景下,水資源監(jiān)控能力越來越受到社會各界的關(guān)注,保障取用水?dāng)?shù)據(jù)的準(zhǔn)確性,對用水總量控制和水資源稅征收具有重要意義。取用水量異常值的檢測是保障取用水?dāng)?shù)據(jù)準(zhǔn)確的重要手段之一。

異常值檢測是數(shù)據(jù)挖掘中十分重要的部分,國內(nèi)外學(xué)者在該領(lǐng)域提出了一系列的思路和方法,形成了較為完整的體系。目前,主要的異常值檢測方法按照檢測原理可分為基于偏差、基于統(tǒng)計、基于密度、基于聚類以及基于距離等方法[1]。傳統(tǒng)的異常值檢測方法以基于密度和基于偏差的方法為主。侍建國等[2]采用拉依達準(zhǔn)則處理區(qū)域水文數(shù)據(jù)異常值,肖樹臣等[3]運用格拉布斯法對實驗數(shù)據(jù)進行分析和篩選,但此類異常值檢測方法,都默認(rèn)樣本數(shù)據(jù)符合某種概率分布模型如正態(tài)分布、高斯分布等,而水資源監(jiān)測數(shù)據(jù)隨機性強、易受外界影響,僅簡單將其歸納為某種分布缺乏科學(xué)性、嚴(yán)謹(jǐn)性?;谛〔ㄗ儞Q、基于最小二乘擬合法的異常值檢測方式[4-6]本質(zhì)上都是基于偏差的異常值檢測方法,即首先利用小波變換或最小二乘擬合法對已有數(shù)據(jù)進行處理,再對處理后的數(shù)據(jù)與原始樣本數(shù)據(jù)進行殘差分析,彭小奇等[7]、方海泉等[8]在此基礎(chǔ)上進行了研究。這類算法的主要問題在于,數(shù)據(jù)擬合本身以已有數(shù)據(jù)作為樣本,擬合結(jié)果受已有數(shù)據(jù)影響較大,數(shù)據(jù)擬合中存在很多參數(shù),不同的參數(shù)選擇會對擬合結(jié)果產(chǎn)生較大影響。近年來,隨著數(shù)據(jù)挖掘理論與實踐水平的不斷提升,越來越多的仿生算法被引入到異常值檢測中。王琰等[9]將Bayes方法引入時間序列異常值檢測,韓旻等[10]采用仿生學(xué)中的陰性選擇算法對飛行數(shù)據(jù)異常值進行檢測。文獻[11]于2007年提出Isolation Forest算法并將其應(yīng)用到異常值檢測,張榮昌[12]、張為金[13]等分別將其應(yīng)用到用電數(shù)據(jù)的分析方面,朱佳俊等[14]將孤立森林算法應(yīng)用到用戶畫像的異常行為檢測,均取得了很好的檢測效果。

作為數(shù)據(jù)處理分析的第一步,數(shù)據(jù)異常值的檢測一直以來都是數(shù)據(jù)挖掘領(lǐng)域研究者所關(guān)注的重點。水資源的開放性特點給水資源的監(jiān)測和管理帶來很多困難,對取用水?dāng)?shù)據(jù)異常值的檢測不能簡單沿用傳統(tǒng)的異常值檢測方法和模型,大數(shù)據(jù)時代的到來推動了數(shù)據(jù)挖掘領(lǐng)域向縱深發(fā)展,這為取用水?dāng)?shù)據(jù)的分析和利用提供了新的思路和方法。本文以某取水戶日取水量數(shù)據(jù)為研究對象,以基于Ensemble的孤立森林算法為主要方法進行異常值的檢測。

2 取用水量數(shù)據(jù)特征分析

本文以實際取水戶的實際監(jiān)測數(shù)據(jù)為試驗樣本,在實際取水過程中,數(shù)據(jù)存在很大的隨機性,且易受外界不確定因素影響。無論基于哪種異常值檢測方法,單純依靠數(shù)據(jù)特征篩選異常值往往都是不全面的,且都存在一定程度的誤報。對于取用水?dāng)?shù)據(jù)而言,基于數(shù)據(jù)特征只能找出“疑似異常值”,準(zhǔn)確判定是否為異常值,還需要結(jié)合取水點其他信息以及專家知識,為方便理解,本文仍然使用“異常值”一詞,但應(yīng)該明確文中異常值與實際異常值存在的差異。

2.1 取用水量數(shù)據(jù)特征 取用水量數(shù)據(jù)屬于典型的時間序列數(shù)據(jù),數(shù)據(jù)整體具有明顯的趨勢性、周期性、隨機性、綜合性等特點。數(shù)據(jù)維度方面,以水利部組織建設(shè)的水資源管理系統(tǒng)為例,數(shù)據(jù)維度包含小時取水量(m3/h)、日取水量(m3/d)、年取水量(m3/a)等。不同維度下呈現(xiàn)的數(shù)據(jù)雖然緊密關(guān)聯(lián),但數(shù)據(jù)特征具有很大區(qū)別,在進行分析時,只能對同一維度的數(shù)據(jù)進行分析比較,不同維度間的數(shù)據(jù)不存在可比性。

不同于電力、石油等相對封閉、來源相對單一的資源,水資源具有開放、分散和不確定的特點,易受環(huán)境及人為因素的影響。這些特點給水資源的監(jiān)控和管理帶來挑戰(zhàn),行政部門如何在海量監(jiān)測數(shù)據(jù)中甄別有效、真實數(shù)據(jù),并通過對數(shù)據(jù)的分析支撐決策,是當(dāng)前水資源監(jiān)控能力建設(shè)需要解決的重要問題。

2.2 異常數(shù)據(jù)定義及分類 在數(shù)據(jù)挖掘領(lǐng)域,通常將數(shù)據(jù)中的異常點定義為離群點(outlier),將異常檢測定義為偏差檢測(deviation detection)或例外挖掘(exception mining)。異常數(shù)據(jù)具有以下基本特點:①在數(shù)據(jù)樣本中占比很少;②相比于樣本中的正常數(shù)據(jù),異常數(shù)據(jù)具有明顯不同的屬性。作為時間序列數(shù)據(jù),取用水量數(shù)據(jù)異常值還具有復(fù)雜性、多樣性、滯后性和被動性的特點。

根據(jù)異常的成因進行分類,取用水量異常數(shù)據(jù)可分為兩大類:主體異常和客體異常。主體異常是指取水行為本身存在異常,在數(shù)據(jù)特征上表現(xiàn)為數(shù)據(jù)突然上升或下降、與相鄰時間數(shù)據(jù)規(guī)律不符,通常不會連續(xù)出現(xiàn);客體異常是指數(shù)據(jù)采集、傳輸、交換和存儲的過程存在異常,在數(shù)據(jù)特征上表現(xiàn)為連續(xù)出現(xiàn)極大數(shù)據(jù)或極小數(shù)據(jù),甚至出現(xiàn)負(fù)值。

根據(jù)異常數(shù)據(jù)特點分類,取用水量異常數(shù)據(jù)可分為異常大值、異常小值、零值、負(fù)值、缺報值等類型。零值、負(fù)值成因復(fù)雜,需要篩選出來進行人工鑒別,考查數(shù)據(jù)中的零值是否為異常時,需結(jié)合取用水戶類型,季節(jié)性取水的灌區(qū)、企業(yè)等連續(xù)出現(xiàn)零值不應(yīng)判定為異常;異常大值、異常小值是指有違于樣本數(shù)據(jù)正常取水規(guī)律的值,不能簡單理解為某一閾值之外的數(shù)據(jù),取水量處于正常范圍但與臨近時間點取水規(guī)律不一致的數(shù)據(jù)應(yīng)判斷為異常數(shù)據(jù);缺報值一般是由客體異常造成的,若對缺報值進行簡單的刪除或置零處理,將對缺報值附近數(shù)據(jù)的準(zhǔn)確性造成影響,因此在數(shù)據(jù)處理時,應(yīng)采用統(tǒng)計方法處理缺報值。

根據(jù)異常數(shù)據(jù)識別難易度分類,取用水量異常數(shù)據(jù)還可分為可直觀識別的數(shù)據(jù)異常值和不能直觀識別的數(shù)據(jù)異常值,具體類型見表1。

表1 取用水量數(shù)據(jù)異常值分類

3 數(shù)據(jù)預(yù)處理與數(shù)據(jù)異常值篩選方法

異常值篩選是數(shù)據(jù)進行分析處理的前提,數(shù)據(jù)預(yù)處理則是數(shù)據(jù)異常值篩選的重要基礎(chǔ)。由上文可知,取用水監(jiān)測數(shù)據(jù)異常值可分為可直觀識別的數(shù)據(jù)異常值和難以直觀識別的數(shù)據(jù)異常值,數(shù)據(jù)預(yù)處理的目的即區(qū)分這兩類異常值,并首先對可直觀識別的數(shù)據(jù)異常值進行處理,以減小甚至消除此類數(shù)據(jù)異常值對周圍數(shù)據(jù)的影響,從而提高難以直觀識別的數(shù)據(jù)異常值的檢出率,降低檢錯率。

3.1 數(shù)據(jù)預(yù)處理方法 通常,可直觀識別的數(shù)據(jù)異常值是指數(shù)據(jù)中的負(fù)值、缺報值等,這些異常值往往難以通過某種特定方式修正,需要結(jié)合專家知識進行人工判斷。

在已有研究中,通常將可直觀識別的異常值直接剔除或置零,這種處理方法簡單易實現(xiàn),但忽略了被剔除、置零數(shù)據(jù)點對其他數(shù)據(jù)點產(chǎn)生的影響。若使用基于偏差的異常值檢測算法進行異常值檢測,可直觀識別的異常值處理不當(dāng)將大大提高算法的誤檢率。在取用水監(jiān)測數(shù)據(jù)分析中,經(jīng)常會對數(shù)據(jù)未來趨勢進行預(yù)測,基于擬合的預(yù)測方法十分依賴已有數(shù)據(jù)的數(shù)據(jù)特征,若只對可直觀識別的異常值進行簡單的剔除或置零,將嚴(yán)重影響擬合精度。

本文采用均值法對可直觀識別異常值進行處理,這種方法雖然會影響數(shù)據(jù)的方差,損失數(shù)據(jù)信息,但保證了數(shù)據(jù)的連續(xù)性、平穩(wěn)性和合理性,極大地方便了后續(xù)分析。

可直觀識別異常值的處理一般可分為兩種情況:

圖1 孤立森林算法原理

3.2 基于孤立森林的數(shù)據(jù)異常值檢測算法 孤立森林(Isolation Forest)是一種由周志華等人提出的基于Ensemble的快速異常值檢測算法,具有線性時間復(fù)雜度和高精準(zhǔn)度,是符合大數(shù)據(jù)處理要求的神經(jīng)網(wǎng)絡(luò)算法(圖1)。與本文對異常值的定義一致,孤立森林算法將異常值定義為“容易被孤立的離群點”,即分布稀疏且離密度高的群體較遠(yuǎn)的點。孤立森林算法的基本思想是,對描述同一對象的不同維度的數(shù)據(jù)構(gòu)建一系列的隨機二叉樹。這些隨機二叉樹每個節(jié)點或有兩個子節(jié)點,或為葉子節(jié)點。通過在取值范圍內(nèi)隨機取值,將該范圍內(nèi)的數(shù)據(jù)劃分為兩個分支,再在兩個分支中繼續(xù)隨機取值進行劃分,不斷重復(fù),直到不可分割或者樹的高度達到上限。相對于數(shù)據(jù)樣本中的正常點,異常點通常表現(xiàn)出稀少的特性,因此在隨機樹中異常數(shù)據(jù)會很快被劃分到葉子節(jié)點中,即異常數(shù)據(jù)在隨機樹中的深度較淺;相反,正常數(shù)據(jù)由于集中為簇且密度較大,往往通過多次分割才能劃分為葉子節(jié)點。因此,該算法通過葉子節(jié)點到根節(jié)點之間的路徑長度,可以快速判斷一條數(shù)據(jù)是否為異常數(shù)據(jù),將多維數(shù)據(jù)的分割結(jié)果相綜合,則可以得知某一對象是否為異常對象。例如,圖1中,xi為正常對象,需經(jīng)過多次切割,才能將其從所有數(shù)據(jù)中孤立出來;xo為異常對象,只需經(jīng)過較少次數(shù)的切割即可將其孤立。

孤立森林算法的實現(xiàn)過程可以分為兩個階段。

(1)構(gòu)建t個孤立二叉樹(Isolation Tree)組成的孤立森林。孤立二叉樹是構(gòu)成孤立森林的基本元素,由于孤立森林算法的學(xué)習(xí)過程屬于無監(jiān)督學(xué)習(xí),即不需要專門的訓(xùn)練集對其進行訓(xùn)練,因此構(gòu)造孤立二叉樹的過程大大簡化:①從待檢測數(shù)據(jù)中隨機選擇φ個樣本點作為子樣本集,放入樹的根節(jié)點;②隨機選取一個數(shù)據(jù)維度,在當(dāng)前節(jié)點數(shù)據(jù)中隨機產(chǎn)生一個切割點p—切割點產(chǎn)生于當(dāng)前節(jié)點數(shù)據(jù)中指定維度的最大值和最小值之間;③以此切割點為基礎(chǔ)形成一個超平面,將當(dāng)前節(jié)點的數(shù)據(jù)空間劃分成2個子空間,把指定維度中小于p的數(shù)據(jù)放在當(dāng)前節(jié)點的左邊,把大于等于p的數(shù)據(jù)放在當(dāng)前節(jié)點的右邊;④在子節(jié)點中遞歸步驟②、③,不斷構(gòu)造新的子節(jié)點,當(dāng)數(shù)據(jù)本身不可再分或已經(jīng)達到樹的最大深度log2φ時,遞歸過程結(jié)束。

生成一個孤立二叉樹的偽代碼如表1所示。

表1 孤立二叉樹偽代碼

(2)對被檢測樣本計算異常分值。獲得t棵孤立二叉樹后,孤立森林形成,訓(xùn)練過程結(jié)束。由于孤立二叉樹的形成具有隨機性,單獨一棵樹的結(jié)果并不可靠,因此對于待測數(shù)據(jù)樣本,令其遍歷孤立森林中的每一棵樹,計算數(shù)據(jù)樣本中的每一個樣本值落在每棵孤立二叉樹的第幾層,最后得出樣本x在每棵樹的平均深度h(x)。異常分值與樣本在孤立二叉樹的深度有關(guān),當(dāng)樣本在孤立二叉樹中的深度越小,則異常分值越高,即該樣本為異常樣本的概率越大。

對n個數(shù)據(jù)樣本,將其路徑長度記為h(n),則其平均路徑長度c(n)為:

其中H(i)為諧波數(shù),等于ln(i)+歐拉常數(shù)。

通過對孤立二叉樹的長度進行歸一化處理,可以得到介于0~1之間的數(shù)即為被檢測樣本的異常分值。記s(x ,n)為異常指數(shù),有:

式中:E(h(x))為對某一個給定值的路徑長度的期望;s(x,n)為對該值所對應(yīng)的路徑的歸一化。

孤立森林具有以下特點:①孤立森林具有線性時間復(fù)雜度,不需要計算距離或者密度來尋找異常數(shù)據(jù);②抗噪能力強;③模型穩(wěn)定性好;④可用于分布式系統(tǒng),運算效率高;⑤不善于處理特別高維的數(shù)據(jù),且僅對全局稀疏點敏感。

4 實例分析

為充分驗證孤立森林算法的有效性并比較該算法與傳統(tǒng)異常值檢測算法的性能差異,本文以傳統(tǒng)的基于偏差的最小二乘擬合算法作為對比項。在數(shù)據(jù)預(yù)處理完成后,首先運用孤立森林算法對數(shù)據(jù)樣本進行異常值檢測,分析檢測結(jié)果的合理性和準(zhǔn)確性;再對兩種異常值檢測方法的檢測結(jié)果進行對比,驗證孤立森林算法在處理此類問題方面的優(yōu)越性。

4.1 數(shù)據(jù)說明 試驗采用水利部水資源管理中心提供的廣東省轄區(qū)內(nèi)國家重點監(jiān)控用水戶某城市供水企業(yè)2016年日取水量數(shù)據(jù)366條、2017年日取水量數(shù)據(jù)365條,主要研究供水企業(yè)取水量變化情況。供水企業(yè)擔(dān)負(fù)著保障本地區(qū)生活、生產(chǎn)用水的直接責(zé)任,在水資源監(jiān)測系統(tǒng)中處于主體地位。

4.2 可直觀識別異常值的處理 以該城市供水企業(yè)2017年日取水量監(jiān)測數(shù)據(jù)為例。在全部365條數(shù)據(jù)中,共有有效數(shù)據(jù)350條,缺失數(shù)據(jù)15條。數(shù)據(jù)中不存在負(fù)值、零值、連續(xù)不變值等情況,補充缺失數(shù)據(jù)后可直接進行分析檢測異常值,數(shù)據(jù)預(yù)處理結(jié)果如表2所示。在此基礎(chǔ)上,對預(yù)處理后的樣本數(shù)據(jù)進行特征分析,結(jié)果如表3所示。

表2 2017年數(shù)據(jù)預(yù)處理

表3 樣本數(shù)據(jù)特征分析

圖2為2017年數(shù)據(jù)預(yù)處理前后對比。從圖2中可以看出,經(jīng)過數(shù)據(jù)預(yù)處理,數(shù)據(jù)波形中的斷點消失,而數(shù)據(jù)的總體特征得以完整保留,為后續(xù)的數(shù)據(jù)分析奠定了基礎(chǔ)。應(yīng)該注意,進行補充的數(shù)據(jù)點本身已經(jīng)屬于可直觀識別的異常值,因此在進一步分析時,即使異常點中存在修補數(shù)據(jù),也不應(yīng)納入統(tǒng)計,以避免重復(fù)統(tǒng)計,從而降低誤檢率。

同上,對該城市供水企業(yè)2016年數(shù)據(jù)進行可直觀識別異常值的處理。在全部366條數(shù)據(jù)中,共有有效數(shù)據(jù)364條,缺失數(shù)據(jù)2條。數(shù)據(jù)中不存在負(fù)值、零值、固定值等情況,補充缺失數(shù)據(jù)后可直接進行分析檢測異常值,數(shù)據(jù)預(yù)處理結(jié)果如表4所示,2016年數(shù)據(jù)預(yù)處理前后效果對比見圖3。與對2017年數(shù)據(jù)的處理方式相同,對預(yù)處理后的2016年樣本數(shù)據(jù)進行特征分析,結(jié)果如表5所示。

圖2 2017年數(shù)據(jù)預(yù)處理前后效果對比

表4 2016年數(shù)據(jù)預(yù)處理

表5 樣本數(shù)據(jù)特征分析

圖3 2016年數(shù)據(jù)預(yù)處理前后效果對比

4.3 非可直觀識別異常值的處理 孤立森林算法運用了集成學(xué)習(xí)的思想,在基于孤立森林的取用水量數(shù)據(jù)異常值算法中有兩個重要參數(shù):孤立二叉樹采樣數(shù)φ,稱為采樣規(guī)模;孤立二叉樹數(shù)量t,稱為集成規(guī)模。

采樣規(guī)模和集成規(guī)模的確定遵循以下規(guī)則:①孤立森林算法的計算時間隨著采樣規(guī)模和集成規(guī)模的增加呈現(xiàn)線性增長趨勢;②當(dāng)孤立二叉樹數(shù)量t達到一定值以后,模型精度的提升十分有限;③當(dāng)采樣規(guī)模過大時,模型的性能會明顯下降,查準(zhǔn)率、查全率均會受到影響。

以此為基礎(chǔ),結(jié)合已有研究的經(jīng)驗[15],本文將采樣規(guī)模設(shè)定為256;集成規(guī)模設(shè)定為100。將預(yù)處理后的2016年、2017年數(shù)據(jù)分別輸入試驗程序,將得到全部數(shù)據(jù)點在100棵孤立二叉樹上的平均路徑長度。

表6給出了數(shù)據(jù)樣本中異常概率最高的10個數(shù)據(jù)。如表6所示,這些數(shù)據(jù)在數(shù)據(jù)樣本中的分布情況見圖4。

表6 數(shù)據(jù)異常值檢測結(jié)果(孤立森林算法)

圖4 數(shù)據(jù)異常值檢測結(jié)果(孤立森林算法)

孤立森林算法本身并不會對樣本數(shù)據(jù)中存在的異常值數(shù)量和規(guī)模進行限定,僅按照異常概率進行排序。在本文中,異常值的確定結(jié)合了專家經(jīng)驗。首先,對數(shù)據(jù)異常值進行檢測的首要目的是監(jiān)控取用水總量,因此數(shù)據(jù)異常值中最需要關(guān)注的是極大值和極小值。當(dāng)出現(xiàn)極大值時,應(yīng)考慮取水戶是否存在超量取水,或計量統(tǒng)計過程是否產(chǎn)生偏差;當(dāng)出現(xiàn)極小值時,應(yīng)考慮取水戶是否存在偷采行為。

4.4 算法效果評估 為驗證孤立森林算法的檢測效果和性能,引入傳統(tǒng)的最小二乘擬合異常值檢測算法,這一算法的原理是基于已有數(shù)據(jù)進行曲線擬合,計算得到的擬合曲線與原有數(shù)據(jù)之間的偏差,通過殘差分析得出殘差較大的數(shù)據(jù)點,將其認(rèn)定為異常值。采用最小二乘法擬合法獲得的異常值檢驗結(jié)果如表7所示,異常值在數(shù)據(jù)樣本中的分布情況見圖5。

將孤立森林算法的檢測結(jié)果與最小二乘擬合法的檢測結(jié)果進行對比。以孤立森林算法的檢測結(jié)果為基準(zhǔn),兩種算法的檢測重合度為50%。與最小二乘擬合法相比,孤立森林算法對連續(xù)出現(xiàn)的異常值具有較高的檢出率,最小二乘擬合法雖然能檢出部分異常數(shù)據(jù),但對于連續(xù)出現(xiàn)的異常值缺乏有效檢測,且對某些接近均值或中位數(shù)的正常波動數(shù)據(jù)存在誤檢。

表7 異常值檢測結(jié)果(最小二乘擬合法)

圖5 數(shù)據(jù)異常值檢測結(jié)果(最小二乘擬合法)

此外,傳統(tǒng)的異常值檢測算法通常具有滯后性,無法做到對異常值的實時監(jiān)測,孤立森林算法在這一方面進行了優(yōu)化,已有數(shù)據(jù)的特征已經(jīng)存儲在各個孤立二叉樹中,即孤立森林已經(jīng)涵蓋了已有數(shù)據(jù)的基本特征,以此為基礎(chǔ)可為按時間順序出現(xiàn)的新數(shù)據(jù)進行判斷。

4.5 討論 取用水量監(jiān)測數(shù)據(jù)存在多個維度,而不同維度之間的數(shù)據(jù)不具備可比性,這一特點限制了本文對于數(shù)據(jù)的應(yīng)用范圍。如本文所使用的樣本數(shù)據(jù),當(dāng)數(shù)據(jù)維度縮減到一維時,孤立森林算法實際上將異常值的篩選問題抽象為數(shù)據(jù)出現(xiàn)的頻次問題,異常值出現(xiàn)頻次較低,分布稀疏,因此更容易被區(qū)分出來,孤立森林算法在本研究中的應(yīng)用正是基于這一原理。但這種單一維度的數(shù)據(jù)處理并沒有發(fā)揮出孤立森林算法的最佳性能。

若能將數(shù)據(jù)維度進行拓展,運用孤立森林算法就能實現(xiàn)對數(shù)據(jù)更立體、更全面的分析。假設(shè)將取水點的日取水?dāng)?shù)據(jù)細(xì)化為小時取水?dāng)?shù)據(jù),則1維數(shù)據(jù)被拓展到24個維度,這24個值共同描繪了某一取水點某日的取水行為。將該取水點一年的小時取水量數(shù)據(jù)進行綜合,可以得到一個365×24的矩陣,在此基礎(chǔ)上運用孤立森林算法,算出平均路徑,則可以對365 d的取水行為進行排序,得到最可能屬于異常取水行為的數(shù)據(jù)。這種方式基于對小時取水量的全面分析,數(shù)據(jù)量大,孤立森林的優(yōu)勢得以完全發(fā)揮。

5 結(jié)論

對取用水量數(shù)據(jù)進行分析,得出取用水量數(shù)據(jù)具有趨勢性、周期性、隨機性、綜合性的特點,且數(shù)據(jù)維度多元,不同維度的數(shù)據(jù)變化趨勢不同,缺乏可比性;按照數(shù)據(jù)特點,將取用水量數(shù)據(jù)異常值分為異常大值、異常小值、零負(fù)值、缺報值等4類;孤立森林算法基于數(shù)據(jù)本身的位置特征篩選異常值,具有抗噪能力強、模型穩(wěn)定性好、運算效率高的特點,該方法可用于處理水量數(shù)據(jù)異常值檢測。通過實證分析,以最小二乘法為代表的傳統(tǒng)的基于偏差的數(shù)據(jù)異常值檢測算法易受異常數(shù)據(jù)干擾,檢測結(jié)果不穩(wěn)定,無法發(fā)現(xiàn)連續(xù)出現(xiàn)的異常值,孤立森林算法基于數(shù)據(jù)整體特征,不易受數(shù)據(jù)中異常值的影響,對各類異常值有較高的檢出率。

水資源管理系統(tǒng)中的數(shù)據(jù)以小時為單位進行上報,將日水量數(shù)據(jù)分解為小時水量數(shù)據(jù),可以在更高維度描述一天內(nèi)的取水行為;在處理高維數(shù)據(jù)異常值問題時,孤立森林算法使用超平面對高維數(shù)據(jù)進行分割,相比傳統(tǒng)方法效率更高,篩選結(jié)果更加準(zhǔn)確。

猜你喜歡
二叉樹用水量預(yù)處理
基于雙向二叉樹的多級菜單設(shè)計及實現(xiàn)
基于故障二叉樹的雷達發(fā)射機故障診斷*
求解奇異線性系統(tǒng)的右預(yù)處理MINRES 方法
你的用水量是多少?
二叉樹創(chuàng)建方法
你的用水量是多少?
高COD二噻烷生產(chǎn)廢水預(yù)處理研究
澳大利亞研發(fā)出新型農(nóng)業(yè)傳感器可預(yù)測農(nóng)作物用水量
一種基于SVM 的多類文本二叉樹分類算法?
基于預(yù)處理MUSIC算法的分布式陣列DOA估計
永泰县| 禹州市| 筠连县| 乌鲁木齐县| 七台河市| 哈巴河县| 炉霍县| 沛县| 桑日县| 昆山市| 应城市| 波密县| 内丘县| 平阴县| 廉江市| 申扎县| 张家川| 甘孜| 中西区| 合阳县| 乐山市| 丰城市| 金山区| 高清| 达孜县| 临安市| 乐都县| 淄博市| 彭阳县| 东平县| 张掖市| 呈贡县| 三穗县| 蒙城县| 桐梓县| 松江区| 黎川县| 通山县| 上犹县| 东丰县| 辽源市|