鄒斌斌,李貞貞
(恒誠信國際工程咨詢有限公司,山東 濟(jì)寧 272000)
新能源發(fā)電功率的波動性和不確定性給電力系統(tǒng)的穩(wěn)定運(yùn)行帶來了新的挑戰(zhàn)[1]。其中,異常值檢測是確保電力系統(tǒng)安全、經(jīng)濟(jì)運(yùn)行的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的異常值檢測方法多基于統(tǒng)計(jì)學(xué)原理,如3σ 原則、Box-Jenkins 模型等,這些方法在處理大規(guī)模、高維度的數(shù)據(jù)時,往往面臨著計(jì)算復(fù)雜度高、對異常值敏感等問題。近年來,機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù)為異常值檢測提供了新的思路[2-3]。決策樹作為一種簡單且有效的分類與回歸方法,已被廣泛應(yīng)用于各種異常檢測場景。然而,傳統(tǒng)的決策樹算法在處理新能源發(fā)電功率數(shù)據(jù)時,對于非線性、高維度以及連續(xù)變化數(shù)據(jù)時的應(yīng)用性能較差。因此,文章提出了一種基于改進(jìn)決策樹的新能源發(fā)電功率異常值檢測方法。
由于單一的檢測方法可能無法全面識別各類特征的異常值。因此,需要采用多種方法進(jìn)行綜合分析和檢測,以提高異常值識別的準(zhǔn)確性和可靠性[4]。利用聚類算法將數(shù)據(jù)劃分為不同的簇,針對每個簇的特點(diǎn)采用相應(yīng)的異常值檢測方法。新能源發(fā)電機(jī)組的發(fā)電功率特性可以表示為
式中:ρ為空氣密度,是影響新能源發(fā)電效率的重要因素之一;CP為功率系數(shù),決定了新能源轉(zhuǎn)換為電能的效率;v為風(fēng)速,是新能源風(fēng)力發(fā)電的直接動力來源,其大小和穩(wěn)定性對發(fā)電效率有著顯著影響;R為新能源項(xiàng)目覆蓋半徑,是風(fēng)力發(fā)電設(shè)備的覆蓋范圍和影響區(qū)域;η為發(fā)電效率,是衡量新能源發(fā)電系統(tǒng)性能的重要指標(biāo)。
從式(1)可以看出,發(fā)電功率的特征會受不同環(huán)境和地理?xiàng)l件的影響。為更準(zhǔn)確地模擬分析異常值的分布特征,使用甘肅酒泉風(fēng)電基地作為模擬分析的實(shí)際數(shù)據(jù)來源[5]。數(shù)據(jù)采樣間隔為1 min,風(fēng)速和機(jī)組的額定容量分別為6.5 m/s、800 kW。一般情況下,新能源發(fā)電機(jī)組的運(yùn)行數(shù)據(jù)主要分布在直線和離散數(shù)據(jù)點(diǎn)上。通常,分布帶中的數(shù)據(jù)是由風(fēng)速值和容量值共同構(gòu)成的,反映了不同風(fēng)速和容量條件下發(fā)電功率的特性。其周圍有2 種類型的數(shù)據(jù),一種是發(fā)電功率離群孤立點(diǎn)數(shù)據(jù),另一種是偏差簇?cái)?shù)據(jù)。
因此,根據(jù)新能源發(fā)電機(jī)組的運(yùn)行數(shù)據(jù)在不同條件下的分布特性,可以更精細(xì)地區(qū)分?jǐn)?shù)據(jù),結(jié)果如表1 所示。
表1 數(shù)據(jù)精細(xì)化區(qū)分
不同類型發(fā)電功率異常值具有不同的形成原因和分布特性,導(dǎo)致風(fēng)速也各不相同。第一,正常數(shù)據(jù),風(fēng)速與發(fā)電功率之間的關(guān)系表現(xiàn)出明顯的集中趨勢,這些數(shù)據(jù)緊密地分布在正常的電特性范圍內(nèi)。第二,棄風(fēng)限電數(shù)據(jù),這些數(shù)據(jù)點(diǎn)在風(fēng)速軸的平行線上集結(jié),風(fēng)速值大于風(fēng)速閾值,容量值小于正常容量值的一半,且基本保持恒定。第三,離群孤立點(diǎn)數(shù)據(jù),該數(shù)據(jù)點(diǎn)與正常數(shù)據(jù)相距較遠(yuǎn),通常是由于發(fā)電功率異?;蛘`差導(dǎo)致的測量數(shù)據(jù)誤差過大,超出了正常的測量誤差范圍。離群孤立點(diǎn)數(shù)據(jù)在異常值分布中只占很小一部分,通過統(tǒng)計(jì)方法可以很容易地識別出來。第四,偏差簇?cái)?shù)據(jù),這類數(shù)據(jù)主要分布在風(fēng)速的低尺度范圍內(nèi),具有高密度特性,主要是由于在數(shù)據(jù)傳輸、計(jì)算機(jī)信息處理及存儲過程中長期受電磁干擾所導(dǎo)致的,數(shù)據(jù)局部密度較高,大部分位置都接近正常數(shù)據(jù)的特征。
傳統(tǒng)的異常值檢測方法多基于統(tǒng)計(jì)學(xué)原理,但在處理高維度、非線性及連續(xù)變化的新能源發(fā)電功率數(shù)據(jù)時,往往存在局限性和不足。為解決這一問題,設(shè)計(jì)基于改進(jìn)決策樹的新能源發(fā)電功率異常值檢測模型。該模型結(jié)合了特征工程、模型優(yōu)化及后處理等多個環(huán)節(jié),旨在提高異常值檢測的準(zhǔn)確性和實(shí)時性。
在發(fā)電功率數(shù)據(jù)精細(xì)化區(qū)分的基礎(chǔ)上進(jìn)行數(shù)據(jù)預(yù)處理,清洗和轉(zhuǎn)換原始新能源發(fā)電功率數(shù)據(jù),同時選擇特征,提取與功率異常相關(guān)的特征。相關(guān)公式為
式中:Pmax和Pmin分別為功率的最大值和最小值。
采用集成學(xué)習(xí)的方法改進(jìn)傳統(tǒng)決策樹,通過引入隨機(jī)森林技術(shù),提高決策樹的泛化能力和對非線性數(shù)據(jù)的處理能力。計(jì)算每個特征的重要性,以便在構(gòu)建決策樹時進(jìn)行特征選擇和剪枝,公式為
式中:f(x)為特征的重要性得分;wi為樣本權(quán)重;yi為樣本標(biāo)簽;n為樣本總數(shù);G(xi,x)為高斯核函數(shù),用于計(jì)算樣本xi和x之間的相似度。通過計(jì)算每個特征在決策樹中的信息增益或基尼指數(shù)等指標(biāo),可以確定哪些特征對于異常值檢測更為重要。
基于改進(jìn)決策樹的新能源發(fā)電功率異常值檢測模型為
式中:Y為新能源發(fā)電功率異常值檢測結(jié)果;x1,x2,…,xn為輸入的特征值,包括功率波動率、功率變化率等特征;f(·)為一個非線性映射函數(shù),通過改進(jìn)決策樹模型實(shí)現(xiàn)特征的映射和分類。通過訓(xùn)練和優(yōu)化改進(jìn)決策樹模型,可以得到最佳的映射函數(shù)和異常值檢測效果。
識別異常值就是在眾多樣本數(shù)據(jù)中辨識出與其他樣本行為或形式不同的少數(shù)樣本。文章設(shè)計(jì)的新能源發(fā)電功率異常值檢測流程如圖1 所示。
圖1 新能源發(fā)電功率異常值檢測流程
新能源發(fā)電功率異常值的檢測流程具體如下。第一,將收集到的新能源發(fā)電功率數(shù)據(jù)作為輸入,包括時間序列數(shù)據(jù)、氣象數(shù)據(jù)及設(shè)備狀態(tài)數(shù)據(jù)等,用于構(gòu)建新能源發(fā)電功率異常值檢測模型。第二,并使用改進(jìn)決策樹算法來構(gòu)建新能源發(fā)電功率異常值檢測模型。改進(jìn)決策樹算法能夠更好地處理高維度、非線性及連續(xù)變化的數(shù)據(jù),提高異常值檢測的準(zhǔn)確性和實(shí)時性。在構(gòu)建模型的過程中,對輸入的新能源發(fā)電功率數(shù)據(jù)進(jìn)行特征提取,提取與功率異常相關(guān)的特征,使用這些特征來訓(xùn)練和優(yōu)化改進(jìn)決策樹模型。第三,在構(gòu)建好新能源發(fā)電功率異常值檢測模型后,計(jì)算實(shí)際功率值與預(yù)測功率值之間的殘差。第四,分解殘差。將根據(jù)不同因素對殘差的影響程度進(jìn)行分析。第五,在計(jì)算出殘差并進(jìn)行分解后,利用隱馬爾可夫模型(Hidden Markov Model,HMM)算法檢測發(fā)電功率異常值。HMM 算法是一種常用的時間序列分析方法,可以用于檢測時間序列數(shù)據(jù)的異常值。利用HMM 算法分析殘差數(shù)據(jù),通過計(jì)算狀態(tài)轉(zhuǎn)移概率參數(shù),判斷是否存在異常值。第六,根據(jù)HMM 算法的輸出結(jié)果來判斷數(shù)據(jù)是否為異常值。如果輸出結(jié)果大于1,則表示該數(shù)據(jù)點(diǎn)為正常數(shù)據(jù);如果輸出結(jié)果小于等于1,則表示該數(shù)據(jù)點(diǎn)為異常值。根據(jù)輸出的異常值,提供相關(guān)的分析報告和建議措施,以便及時采取相應(yīng)的措施進(jìn)行異常處置。
為驗(yàn)證基于改進(jìn)決策樹的新能源發(fā)電功率異常值檢測方法的檢測效果,設(shè)計(jì)所需的實(shí)驗(yàn)平臺,將其與其他兩種傳統(tǒng)的新能源發(fā)電功率異常值檢測方法進(jìn)行實(shí)驗(yàn)對比,并分析實(shí)驗(yàn)結(jié)果。
文中使用的數(shù)據(jù)來自2021 年中國風(fēng)力發(fā)電行業(yè)專題調(diào)研與深度分析報告。
為模擬數(shù)據(jù)中的異常值,隨機(jī)選擇h%的風(fēng)電數(shù)據(jù)并對其加入干擾,使其值變?yōu)樵镜?1+h%)。其中,|h|>10,h服從高斯分布,均值μ=0,方差σ=30,加入的數(shù)據(jù)干擾表達(dá)式為
式中:yt*為加入干擾后的數(shù)據(jù);yt為原始數(shù)據(jù)。
為減小實(shí)驗(yàn)誤差,分別應(yīng)用本文方法、基于3σ原則的異常檢測方法(傳統(tǒng)方法1)以及基于Box-Jenkins 模型的檢測方法(傳統(tǒng)方法2)對其發(fā)電功率異常值進(jìn)行3 次檢測實(shí)驗(yàn),對比3 種方法的異常值檢測效果,檢測結(jié)果如表2 所示。
表2 3 種方法的實(shí)驗(yàn)結(jié)果
由表2 可知,文章研究方法在發(fā)電功率異常值檢測方面精確率較高,而傳統(tǒng)方法檢測精確率均低于文章研究方法,證明該研究方法的檢測效果較好,具有實(shí)用性。
文章深入探討了基于改進(jìn)決策樹的新能源發(fā)電功率異常值檢測方法,詳細(xì)介紹了所提的改進(jìn)決策樹方法,以及如何將其應(yīng)用于新能源發(fā)電功率數(shù)據(jù)的異常值檢測。實(shí)驗(yàn)部分,將文章研究方法與傳統(tǒng)方法對比,充分證明了該方法在準(zhǔn)確性方面具有顯著優(yōu)勢。