余俊澤,夏顯威,雷春俊,趙冬立,馬群,陳百齡
(塔里木油田公司 a.新能源事業(yè)部;b.油氣生產(chǎn)技術(shù)部,新疆 庫(kù)爾勒 841000)
電能表作為電力系統(tǒng)中至關(guān)重要的計(jì)量設(shè)備[1],通常用于核定用戶用電量并進(jìn)行經(jīng)濟(jì)核算[2]。隨著社會(huì)進(jìn)步和科技發(fā)展,數(shù)字式電能表已逐漸取代傳統(tǒng)的機(jī)械式電能表[3-5]。
在這一背景下,電能表的在線率成為衡量實(shí)時(shí)數(shù)據(jù)采集成功率的關(guān)鍵指標(biāo),對(duì)于保障整個(gè)電力系統(tǒng)的穩(wěn)定運(yùn)行具有重要意義。電能表的高在線率對(duì)電力企業(yè)進(jìn)行負(fù)荷預(yù)測(cè)、電力調(diào)度和資源優(yōu)化等關(guān)鍵決策具有重要價(jià)值,挖掘與電能表在線率相關(guān)的數(shù)據(jù)并預(yù)測(cè)其變化趨勢(shì)現(xiàn)已成為一項(xiàng)關(guān)鍵任務(wù)[6]。為實(shí)現(xiàn)這一目標(biāo),嘗試通過(guò)支持向量回歸(support vector regression,SVR)算法——一種廣泛應(yīng)用于回歸分析和預(yù)測(cè)的機(jī)器學(xué)習(xí)方法[7-8]來(lái)進(jìn)行電能表在線率的預(yù)測(cè),但是該算法易受過(guò)擬合的影響,預(yù)測(cè)性能差[9-11]。
貝葉斯優(yōu)化方法[12]可有效解決這一問(wèn)題。它通過(guò)定義先驗(yàn)概率分布,融合不確定信息和專家知識(shí),保證了模型的泛化能力。同時(shí),貝葉斯優(yōu)化可以自動(dòng)調(diào)整模型的超參數(shù)[13],避免手工調(diào)參經(jīng)驗(yàn)性強(qiáng)、不準(zhǔn)確的問(wèn)題,進(jìn)而尋找到全局最優(yōu)解[14-16]。于是,將貝葉斯優(yōu)化[17]引入SVR模型中,期望通過(guò)貝葉斯方法自動(dòng)優(yōu)化SVR模型中的重要超參數(shù)(如懲罰參數(shù)C和核函數(shù)參數(shù)γ),從而找到全局最優(yōu)參數(shù)組合,最大限度地發(fā)揮模型的效果[18-19]。
類似的智能優(yōu)化思路還有很多。例如:文獻(xiàn)[20]提出一種主蒸汽壓力的優(yōu)化方法,該方法首先使用聚類算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提取關(guān)鍵特征,然后采用SVR進(jìn)行建模和優(yōu)化,可有效提高主蒸汽壓力預(yù)測(cè)的準(zhǔn)確性;文獻(xiàn)[21]提出一種鋰電池健康狀態(tài)預(yù)測(cè)方法,該方法利用遺傳算法對(duì)SVR模型的參數(shù)進(jìn)行優(yōu)化,可提高模型的泛化能力和預(yù)測(cè)精度,為電池健康管理提供有力支持;文獻(xiàn)[22]提出一種短期電力負(fù)荷區(qū)間預(yù)測(cè)方法,該方法采用多目標(biāo)優(yōu)化策略平衡預(yù)測(cè)精度和計(jì)算復(fù)雜度,并利用貝葉斯優(yōu)化技術(shù)自動(dòng)調(diào)整模型參數(shù),可實(shí)現(xiàn)短期電力負(fù)荷預(yù)測(cè)的優(yōu)化。
這些智能優(yōu)化方法充分展現(xiàn)了機(jī)器學(xué)習(xí)和優(yōu)化算法在實(shí)際生產(chǎn)生活中的巨大潛力。通過(guò)整合多種方法,可以進(jìn)一步提升預(yù)測(cè)模型的性能,從而為實(shí)際應(yīng)用創(chuàng)造更多價(jià)值。
然而,在前述研究中,少有人關(guān)注多維度數(shù)據(jù)的收集以及關(guān)鍵變量的篩選。本研究針對(duì)電能表在線數(shù)等24個(gè)變量展開(kāi)了深入研究,并運(yùn)用反向特征消除(reverse feature elimination,RFE)方法進(jìn)行數(shù)據(jù)降維,成功篩選出影響電能表在線率的5個(gè)主要變量。借助這種方法,可以更有效地預(yù)測(cè)電能表的在線狀態(tài)。
以塔里木油田電網(wǎng)為例,不穩(wěn)定的電能表在線率會(huì)對(duì)實(shí)際生產(chǎn)生活產(chǎn)生較大影響。為此根據(jù)各作業(yè)區(qū)的電能表實(shí)際在線表計(jì)數(shù)、無(wú)信號(hào)表計(jì)數(shù)、停用表計(jì)數(shù)等變量,篩選出影響電能表在線率的主要因素,并將其應(yīng)用于電能表在線率的預(yù)測(cè),這對(duì)于保障油田生產(chǎn)用電計(jì)劃具有重要參考價(jià)值。
鑒于此,將整個(gè)數(shù)據(jù)分析過(guò)程劃分為3個(gè)部分:第1部分為數(shù)據(jù)預(yù)處理;第2部分為運(yùn)用RFE方法進(jìn)行數(shù)據(jù)降維;第3部分為運(yùn)用基于貝葉斯優(yōu)化的SVR方法完成對(duì)電能表在線率的預(yù)測(cè)。
本研究所使用數(shù)據(jù)來(lái)源于電能表在線統(tǒng)計(jì)后臺(tái),數(shù)據(jù)的起止時(shí)間為2022年3月5日—2023年4月2日,數(shù)據(jù)包括系統(tǒng)總計(jì)電能表在線數(shù)、理論在線電能表數(shù)、實(shí)際在線電能表數(shù)、各地區(qū)電能表在線數(shù)、需確認(rèn)現(xiàn)場(chǎng)表計(jì)數(shù)、停用表計(jì)數(shù)、無(wú)信號(hào)表計(jì)數(shù)、校驗(yàn)表計(jì)數(shù)、虛擬表計(jì)數(shù)、終止用戶表計(jì)數(shù)、信號(hào)弱表計(jì)數(shù)、表計(jì)上線率等共24個(gè)變量。
因存在原始數(shù)據(jù)部分?jǐn)?shù)據(jù)缺失且個(gè)別數(shù)據(jù)出現(xiàn)較大波動(dòng)的情況,本研究先進(jìn)行數(shù)值填充及異常值剔除。
1.2.1 數(shù)據(jù)填充和平滑
為簡(jiǎn)化插值計(jì)算并確保一定的插值精度,本文在多種方法中選擇了線性插值方法來(lái)填充缺失數(shù)據(jù)。線性插值的優(yōu)勢(shì)在于其計(jì)算簡(jiǎn)單、易于理解。與其他復(fù)雜的插值方法(如三次樣條插值或高階多項(xiàng)式插值)相比,線性插值的計(jì)算速度更快,且在實(shí)際應(yīng)用中的誤差范圍通常可以接受;因此,選擇線性插值方法可以在保持計(jì)算效率的同時(shí),滿足相應(yīng)的精度需求。
此外,本研究采用移動(dòng)平均法來(lái)消除原始數(shù)據(jù)中存在的隨機(jī)波動(dòng)。移動(dòng)平均法是常用的時(shí)間序列分析方法,通過(guò)計(jì)算一定時(shí)間范圍內(nèi)的數(shù)據(jù)平均值來(lái)平滑數(shù)據(jù)波動(dòng),從而使數(shù)據(jù)更加穩(wěn)定。相較于其他平滑方法(如指數(shù)平滑法),移動(dòng)平均法的優(yōu)勢(shì)主要體現(xiàn)在簡(jiǎn)單易懂、計(jì)算過(guò)程透明2個(gè)方面。而且,移動(dòng)平均法在處理具有周期性和趨勢(shì)性的數(shù)據(jù)時(shí)表現(xiàn)尤為出色,有助于揭示數(shù)據(jù)潛在的規(guī)律。
綜上所述,本研究選擇線性插值方法和移動(dòng)平均法相結(jié)合的方法來(lái)完成數(shù)據(jù)預(yù)處理,進(jìn)而在保證保留原始數(shù)據(jù)精度的同時(shí),消除原始數(shù)據(jù)中的隨機(jī)波動(dòng)。
1.2.2 異常數(shù)據(jù)的剔除
箱型圖主要通過(guò)計(jì)算上下邊緣﹝即上下四分位數(shù)加、減1.5倍的四分位距(interquartile range,IQR)﹞來(lái)確定數(shù)據(jù)的正常范圍,超出這個(gè)范圍的數(shù)據(jù)點(diǎn)會(huì)被標(biāo)記為異常數(shù)據(jù)。通過(guò)清洗和修正異常數(shù)據(jù),可以提高后續(xù)分析和建模的準(zhǔn)確性。
箱型圖如圖1所示:除變量3、變量15箱體較長(zhǎng),其余變量的箱體都呈現(xiàn)出較短的特征;總體而言,各變量分布集中,除變量15的中位數(shù)靠近下四分位數(shù)外,其余變量的中位數(shù)普遍靠近上四分位數(shù),數(shù)據(jù)整體體現(xiàn)出右偏分布。綜上所述,數(shù)據(jù)整體數(shù)值較大,集中程度較高,但存在部分異常值(圖中紅色十字形標(biāo)記),需要進(jìn)一步處理。
圖1 平滑處理后數(shù)據(jù)的箱型圖Fig.1 Box plot of the data after smoothing treatment
進(jìn)一步,本文采取IQR方法來(lái)確定異常值。具體原理如下:
首先,計(jì)算數(shù)據(jù)集的下四分位數(shù)Q1和上四分位數(shù)Q3。四分位數(shù)將數(shù)據(jù)集分為四等份。對(duì)于Q1,有25%的數(shù)據(jù)低于該值;對(duì)于Q3,有75%的數(shù)據(jù)低于該值。
計(jì)算IQR,即Q3與Q1之間的差值
kIQR=Q3-Q1.
(1)
計(jì)算異常值的閾值:
BL=Q1-1.5kIQR,
(2)
BU=Q3+1.5kIQR.
(3)
式(2)、(3)中:BL為下界;BU為上界;1.5為常用系數(shù),用于確定異常值范圍。
對(duì)于數(shù)據(jù)集中的每個(gè)數(shù)據(jù)點(diǎn),如果其小于下界或大于上界,那么就被認(rèn)為是異常值。
常用的數(shù)據(jù)降維方法包括主成分分析(principal components analysis,PCA)、線性判別分析(linear discriminate analysis,LDA)和t-分布鄰域嵌入(t-distributed stochastic neighbor embedding,t-SNE)算法。其中:PCA通過(guò)線性變換將原始特征空間映射到新的低維特征空間,最大化地保留數(shù)據(jù)的方差,該方法適用于無(wú)監(jiān)督學(xué)習(xí)場(chǎng)景;LDA同樣采用線性變換,但該方法關(guān)注于類別間的分離度最大化,適用于有監(jiān)督學(xué)習(xí)場(chǎng)景。
PCA方法可降低數(shù)據(jù)維度;但該方法包含自變量和應(yīng)變量,屬于監(jiān)督學(xué)習(xí)任務(wù),因此PCA不是最佳的降維方法。LDA方法可降低的維度有限,對(duì)于模型的簡(jiǎn)化效果并不好;因此其需要模型具有較強(qiáng)的線性關(guān)系。
由于系統(tǒng)共計(jì)電能表在線數(shù)、理論在線電能表數(shù)、實(shí)際在線電能表數(shù)為相應(yīng)變量相加所得,不存在獨(dú)立性,因此需先去除。后續(xù)均根據(jù)剔除此3個(gè)自變量后的數(shù)據(jù)繼續(xù)分析。
為直觀地展示數(shù)據(jù)集中各個(gè)變量之間的線性相關(guān)性,更好地理解數(shù)據(jù)集中各個(gè)變量之間的關(guān)系,本研究對(duì)表1所示的20個(gè)自變量繪制相關(guān)系數(shù)矩陣點(diǎn)圖,如圖2所示。
表1 待進(jìn)行數(shù)據(jù)降維的變量Tab.1 Variables awaiting dimensionality reduction
圖2 20個(gè)自變量的相關(guān)系數(shù)矩陣點(diǎn)圖Fig.2 Scatter plot matrix of correlation coefficients for 20 independent variables
由圖2可知,變量的相關(guān)系數(shù)矩陣點(diǎn)圖的左上側(cè)和右下側(cè)多為紅色,而左下側(cè)和右上側(cè)的顏色多為藍(lán)色。這種現(xiàn)象意味著數(shù)據(jù)集中存在2個(gè)或多個(gè)變量子集,子集內(nèi)部的變量之間具有較強(qiáng)的正相關(guān)性,而不同子集之間的變量呈現(xiàn)負(fù)相關(guān)性。在實(shí)際分析過(guò)程中,需要關(guān)注高度相關(guān)的變量,因?yàn)樗鼈兙哂卸嘀毓簿€性,會(huì)影響回歸模型的穩(wěn)定性和可解釋性。
結(jié)合以上思考,需要先判斷模型是否屬于復(fù)雜的非線性問(wèn)題,這一步主要通過(guò)殘差分析進(jìn)行。
殘差分析是評(píng)估回歸模型擬合效果和確定模型是否線性的方法。在殘差分析中,判斷模型是否線性可以依據(jù)殘差的隨機(jī)分布:如果模型是線性的,那么殘差應(yīng)該在整個(gè)自變量范圍內(nèi)呈現(xiàn)隨機(jī)分布,沒(méi)有明顯的規(guī)律。通常可以通過(guò)繪制殘差散點(diǎn)圖來(lái)觀察殘差的分布情況,如圖3所示。
由圖3可知,殘差散點(diǎn)圖的散點(diǎn)主要集中于圖像下側(cè),且在[-0.001 5,0.001 5]區(qū)間內(nèi)隨機(jī)分布,這說(shuō)明殘差在這個(gè)區(qū)間內(nèi)沒(méi)有明顯的偏差。但對(duì)于殘差的分布是否具有正態(tài)性,需要進(jìn)一步的檢驗(yàn)??赏ㄟ^(guò)繪制如圖4所示的殘差QQ圖(residual quantile-quantile plot)來(lái)檢驗(yàn)?zāi)P蜌埐钍欠窠品恼龖B(tài)分布。如果殘差呈現(xiàn)正態(tài)分布的話,QQ圖上的點(diǎn)大多會(huì)落在45°線上。
圖4 殘差QQ圖Fig.4 Residual quantile-quantile plot
由圖4可知,殘差QQ圖的數(shù)據(jù)點(diǎn)基本沿同一條直線分布,但尾端數(shù)據(jù)點(diǎn)明顯偏離直線,這說(shuō)明模型不符合正態(tài)分布的假設(shè)。進(jìn)一步比較正態(tài)分布與殘差分布,繪制如圖5所示正態(tài)分布?xì)埐钪狈綀D,通過(guò)觀察圖像的偏度情況,來(lái)評(píng)估回歸模型擬合的結(jié)果。
圖5 正態(tài)分布?xì)埐钪狈綀DFig.5 Histogram of normally distributed residuals
由圖5可知,直方圖形狀偏離正態(tài)分布,表明殘差不符合正態(tài)性假設(shè)。
綜上所述,嘗試建立簡(jiǎn)單的線性回歸模型來(lái)解釋應(yīng)變量隨自變量的變化,是不滿足正態(tài)性假設(shè)的,線性模型不具有穩(wěn)定性和可靠性,電能表在線率的預(yù)測(cè)問(wèn)題屬于非線性問(wèn)題。
特征選擇方法的目標(biāo)是在保留原始特征可解釋性的同時(shí),選擇對(duì)模型預(yù)測(cè)貢獻(xiàn)最大的特征子集。通常在處理非線性問(wèn)題時(shí),特征選擇方法比線性降維方法更具優(yōu)勢(shì)。RFE是一種用于特征選擇的降維方法,其基本原理是使用1個(gè)模型進(jìn)行多輪訓(xùn)練,每輪訓(xùn)練后移除一部分特征,然后重新訓(xùn)練模型,最終選擇表現(xiàn)最佳的特征子集。RFE方法的詳細(xì)步驟如下:
步驟1,設(shè)置自變量矩陣和應(yīng)變量矩陣;
步驟2,設(shè)置RFE的參數(shù)(選擇特征數(shù)量為5,每次迭代時(shí)移除1個(gè)特征);
步驟3,判定當(dāng)前選擇的特征數(shù)量是否小于5;
步驟4,使用當(dāng)前特征集訓(xùn)練1個(gè)線性回歸基礎(chǔ)模型;
步驟5,獲得回歸系數(shù)的絕對(duì)值;
步驟6,從特征集中移除具有最小系數(shù)的特征;
步驟7,更新當(dāng)前特征數(shù)量,返回步驟2。
經(jīng)過(guò)篩選,得到降維后的變量見(jiàn)表2,表中回歸系數(shù)較小是由于自變量和因變量的絕對(duì)值偏差較大。
表2 數(shù)據(jù)降維后得到的各變量Tab.2 Variables obtained after data dimensionality reduction
為反映出各數(shù)據(jù)的波動(dòng)情況,將各變量進(jìn)行歸一化處理后繪圖,如圖6所示。
圖6 歸一化后的降維數(shù)據(jù)Fig.6 Normalized dimensionality reduction data
由圖6可知,序號(hào)為X1、X2、X3的自變量數(shù)據(jù)與因變量之間具有強(qiáng)正相關(guān)性,序號(hào)為X4、X5的自變量數(shù)據(jù)與因變量之間具有強(qiáng)負(fù)相關(guān)性。由此可見(jiàn),數(shù)據(jù)降維過(guò)程將原始高維的自變量空間轉(zhuǎn)換為較低維度的新空間,可保留數(shù)據(jù)中的主要結(jié)構(gòu)和信息,減少系統(tǒng)噪聲并解決多重共線性問(wèn)題。
進(jìn)一步,通過(guò)在整體樣本上不斷重復(fù)RFE,以保證變量篩選結(jié)果穩(wěn)定。統(tǒng)計(jì)各特征被選中次數(shù)及被選中幾率見(jiàn)表3,其中N100、N500、N1000分別為重復(fù)100、500、1 000次RFE后各特征被選中次數(shù)。
表3 RFE重復(fù)試驗(yàn)結(jié)果Tab.3 Results of repeated RFE experiments
綜上,在結(jié)合重復(fù)實(shí)驗(yàn)并保留5個(gè)被選中次數(shù)最高的變量的條件下,重復(fù)執(zhí)行RFE得到的最佳特征子集與前述結(jié)果保持一致。
SVR是一種基于支持向量機(jī)的回歸算法,用于預(yù)測(cè)連續(xù)型目標(biāo)變量。SVR的主要特點(diǎn)是通過(guò)引入ε-insensitive損失函數(shù),使得預(yù)測(cè)誤差在一定范圍內(nèi)的數(shù)據(jù)點(diǎn)不受懲罰,同時(shí)最大化間隔以提高模型的泛化能力。SVR可應(yīng)用于線性和非線性回歸問(wèn)題,通過(guò)使用核函數(shù)(如徑向基函數(shù)、多項(xiàng)式核等)將原始特征映射到高維空間,從而實(shí)現(xiàn)對(duì)非線性關(guān)系的建模。SVR在處理具有高維特征、非線性關(guān)系和噪聲較多的數(shù)據(jù)集時(shí)具有較強(qiáng)的魯棒性。
貝葉斯優(yōu)化是一種基于概率模型的全局優(yōu)化算法。它使用高斯過(guò)程回歸來(lái)擬合目標(biāo)函數(shù)(ε-insensitive損失函數(shù)),尋找得到最佳參數(shù)。貝葉斯優(yōu)化的主要優(yōu)勢(shì)在于僅需要較少的迭代次數(shù),就能找到全局最優(yōu)解。
對(duì)于電能表在線率預(yù)測(cè)問(wèn)題,將數(shù)據(jù)集(自變量和因變量)劃分為訓(xùn)練集和測(cè)試集2個(gè)部分,使用貝葉斯優(yōu)化方法計(jì)算k折交叉模型的損失,以優(yōu)化正則化參數(shù)C以及徑向基核函數(shù)尺度參數(shù)γ2種超參數(shù),進(jìn)而獲得穩(wěn)定的模型泛化能力。具體步驟如下:
步驟1,劃分訓(xùn)練集和測(cè)試集(采用70%數(shù)據(jù)的訓(xùn)練集、30%數(shù)據(jù)的測(cè)試集);
步驟2,定義要搜索的超參數(shù)空間(將正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ均設(shè)置為10-5~105);
步驟3,使用k折交叉驗(yàn)證評(píng)估模型性能(設(shè)置k=5);
步驟4,定義網(wǎng)絡(luò)搜索的目標(biāo)函數(shù)最小值;
步驟5,使用貝葉斯優(yōu)化進(jìn)行網(wǎng)絡(luò)搜索;
步驟6,獲取最佳參數(shù);
步驟7,使用最佳超參數(shù)訓(xùn)練SVR模型;
步驟8,使用測(cè)試集評(píng)估性能;
步驟9,輸出均方誤差。
算法執(zhí)行流程如圖7所示。
圖7 算法執(zhí)行流程Fig.7 Algorithm execution flowchart
運(yùn)行模型后,得到模型運(yùn)算的結(jié)果見(jiàn)表4,其中結(jié)果評(píng)價(jià)可分為最佳和可接受2種結(jié)果。表4中:“最佳”表示目標(biāo)函數(shù)返回的有限值低于先前計(jì)算的目標(biāo)函數(shù)值;“可接受”則表示目標(biāo)函數(shù)返回有限值;目標(biāo)函數(shù)值中第1列所示的“觀測(cè)值”表示計(jì)算的最小目標(biāo)函數(shù)值,此值取當(dāng)前或迭代的目標(biāo)函數(shù)最小值;而第2列的“估計(jì)值”則表示在每次迭代中,軟件使用更新后的高斯過(guò)程模型,根據(jù)當(dāng)前嘗試的所有超參數(shù)集估計(jì)目標(biāo)函數(shù)值的置信邊界上限,然后,軟件選擇具有最小置信邊界上限的點(diǎn),該值即對(duì)應(yīng)達(dá)到該條件后所返回的目標(biāo)函數(shù)值;最右側(cè)2列數(shù)值即目標(biāo)函數(shù)所對(duì)應(yīng)的正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ。
表4 貝葉斯優(yōu)化的過(guò)程及得到的最優(yōu)超參數(shù)組合Tab.4 The process of Bayesian optimization and the optimal hyperparameter combination obtained
在運(yùn)行模型后,挑選根據(jù)最終高斯過(guò)程模型在最終迭代中產(chǎn)生的最佳目標(biāo)函數(shù)估計(jì)值對(duì)應(yīng)的超參數(shù)集作為最佳超參數(shù)組合,見(jiàn)表5。
表5 最佳超參數(shù)組合Tab.5 The best hyperparameter combination
根據(jù)上述內(nèi)容,傳遞SVR模型相關(guān)參數(shù)如下:采用高斯核函數(shù),設(shè)置目標(biāo)函數(shù)ε-insensitive中的ε=0.016,間隙容忍度為1.0×10-3,正則化參數(shù)C=4.204,核函數(shù)尺度參數(shù)γ=10.249。
通過(guò)訓(xùn)練模型得到的支持向量見(jiàn)表6。
表6 支持向量一覽Tab.6 List of support vectors
圖8展示了優(yōu)化過(guò)程中目標(biāo)函數(shù)最小值隨著迭代次數(shù)的變化情況,優(yōu)化算法在20次計(jì)算內(nèi)成功地將目標(biāo)函數(shù)值顯著降低。這表明優(yōu)化算法在這個(gè)問(wèn)題上的收斂速度較快。在20次計(jì)算后,目標(biāo)函數(shù)值接近0,這意味著模型的泛化能力較好,預(yù)測(cè)誤差較小。
圖8 最小目標(biāo)值關(guān)于函數(shù)計(jì)算次數(shù)圖像Fig.8 The minimum target value with respect to the number of function calculation image
估計(jì)的目標(biāo)函數(shù)值隨正則化參數(shù)C和徑向基核函數(shù)尺度參數(shù)γ這2種超參數(shù)變化情況如圖9所示,圖像呈漏斗狀,漏斗狀的圖像表明,超參數(shù)接近最佳組合。
圖9 估計(jì)的目標(biāo)函數(shù)值隨2種超參數(shù)變化的情況Fig.9 Variation of the estimated objective function values with two hyperparameters
本研究將貝葉斯優(yōu)化的SVR算法同隨機(jī)森林算法、梯度提升算法、SVR算法、K最鄰近算法進(jìn)行比較,繪制各算法預(yù)測(cè)結(jié)果曲線,如圖10所示。
圖10 各算法預(yù)測(cè)結(jié)果曲線Fig.10 Comparison image of prediction results from various algorithms
進(jìn)一步使用加權(quán)平均絕對(duì)誤差指標(biāo)EWMAE和均方差指標(biāo)EMSE對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià),并統(tǒng)計(jì)各算法預(yù)測(cè)結(jié)果對(duì)應(yīng)的EWMAE和EMSE,見(jiàn)表7。
表7 各算法對(duì)應(yīng)的加權(quán)平均絕對(duì)誤差和均方差Tab.7 Weighted average absolute error and mean square deviation corresponding to each algorithm
(4)
(5)
式(4)、(5)中:n為樣本個(gè)數(shù);yci為預(yù)測(cè)值;yi為實(shí)際值。
計(jì)算得到貝葉斯優(yōu)化的SVR算法預(yù)測(cè)結(jié)果對(duì)應(yīng)EWMAE為0.408%,EMSE為0.004%,模型在預(yù)測(cè)任務(wù)上具有較好的性能,誤差較小。
通過(guò)使用貝葉斯優(yōu)化下的SVR方法,可高效且準(zhǔn)確地預(yù)測(cè)電能表的在線率。貝葉斯優(yōu)化技術(shù)有助于在超參數(shù)空間中找到最佳組合,從而提高了模型的預(yù)測(cè)性能。與其他傳統(tǒng)方法相比,這種方法計(jì)算時(shí)間較短,使得模型能夠在有限的時(shí)間內(nèi)快速獲得高質(zhì)量的預(yù)測(cè)結(jié)果。同時(shí),預(yù)測(cè)誤差較小,表明模型在預(yù)測(cè)電能表在線率方面具有較好的準(zhǔn)確性和魯棒性。綜上所述,貝葉斯優(yōu)化下的SVR方法在電能表在線率預(yù)測(cè)任務(wù)中表現(xiàn)出色,具有實(shí)際應(yīng)用價(jià)值。