丁琦,邱才明,2,楊浩森,童厚杰
(1.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海市 閔行區(qū) 200240;2.華中科技大學(xué) 電子信息與通信學(xué)院,湖北省武漢市 430074)
新能源發(fā)電設(shè)施的出力預(yù)測(cè)任務(wù)在當(dāng)代高度數(shù)字化的電力系統(tǒng)中承擔(dān)了關(guān)鍵的基礎(chǔ)數(shù)據(jù)支持作用,如在調(diào)度任務(wù)中對(duì)由復(fù)雜傳感器網(wǎng)絡(luò)采樣的規(guī)模級(jí)電力時(shí)空數(shù)據(jù)提供分析服務(wù)、或提供量化依據(jù)來輔助電力系統(tǒng)的數(shù)字化決策等,從而達(dá)到降低能源開銷、提供差異化服務(wù)等目標(biāo)[1]。特別是近年來融合太陽能、風(fēng)能等多種新能源的綜合能源系統(tǒng)加速入網(wǎng),占有比例持續(xù)上升并且在部分地區(qū)電力系統(tǒng)中逐步占據(jù)關(guān)鍵地位。分布式多地部署使得新能源發(fā)電端設(shè)備極易受到具備時(shí)空大數(shù)據(jù)特性的溫度、光照、風(fēng)力等環(huán)境參數(shù)影響,導(dǎo)致系統(tǒng)發(fā)電端出力變化具有明顯的實(shí)時(shí)性、間歇性,呈現(xiàn)顯著的非線性、波動(dòng)性、不確定性的統(tǒng)計(jì)特征,對(duì)電力系統(tǒng)穩(wěn)定安全運(yùn)行提出了挑戰(zhàn)。特別是當(dāng)前經(jīng)濟(jì)恢復(fù)的特殊時(shí)期,電力數(shù)據(jù)預(yù)測(cè)能夠有效地為疫情防控和復(fù)工復(fù)產(chǎn)提供數(shù)據(jù)支持。在實(shí)際負(fù)荷預(yù)測(cè)任務(wù)中,往往需要考察基于上述情況在結(jié)合氣象、氣候、地理環(huán)境、節(jié)假日等因素后生成的多維負(fù)荷數(shù)據(jù)結(jié)構(gòu)體,這對(duì)高度依賴相似歷史數(shù)據(jù)特別是氣象數(shù)據(jù)和基于物理模型的傳統(tǒng)預(yù)測(cè)方法提出了嚴(yán)峻的挑戰(zhàn)[2],顯著提高了多任務(wù)預(yù)測(cè)問題的難度。
目前由于深度神經(jīng)網(wǎng)絡(luò)具有對(duì)規(guī)模數(shù)據(jù)進(jìn)行自動(dòng)地特征建模等能力,相比經(jīng)典方法其在多任務(wù)預(yù)測(cè)上的精度指標(biāo)有顯著地提升,因此大量文獻(xiàn)基于統(tǒng)計(jì)和數(shù)據(jù)的智能策略提出了許多有效的預(yù)測(cè)方法并廣泛應(yīng)用于電力負(fù)荷預(yù)測(cè)領(lǐng)域。但從提高神經(jīng)網(wǎng)絡(luò)對(duì)預(yù)測(cè)任務(wù)的泛化能力出發(fā),重點(diǎn)分析優(yōu)化和學(xué)習(xí)訓(xùn)練過程可注意到,多數(shù)文獻(xiàn)的解決方案呈現(xiàn)典型的二階預(yù)訓(xùn)練-微調(diào)分離式訓(xùn)練流程。該流程特點(diǎn)是:對(duì)已知的規(guī)模級(jí)標(biāo)注數(shù)據(jù)生成預(yù)訓(xùn)練模型,在此基礎(chǔ)上,重點(diǎn)考察改造模型架構(gòu)的方法,實(shí)現(xiàn)將模型參數(shù)遷移至新任務(wù)數(shù)據(jù)集再訓(xùn)練。
如文獻(xiàn)[3]從特征融合角度提出,基于聚類算法,首先按時(shí)間屬性對(duì)工作日和周末的短期負(fù)荷數(shù)據(jù)精細(xì)分類并分別訓(xùn)練支持向量機(jī)預(yù)測(cè)模型,最后用細(xì)菌覓食算法融合多個(gè)模型和新類別數(shù)據(jù),實(shí)現(xiàn)對(duì)短期負(fù)荷預(yù)測(cè)精度的提高;文獻(xiàn)[4]從數(shù)據(jù)特征角度,設(shè)計(jì)二階遷移方法融合多源域歷史負(fù)荷數(shù)據(jù)將K-means聚類和門控循環(huán)單元(gate recurrent unit,GRU)融合作為一次特征提取,并考察基于時(shí)間遺忘因子進(jìn)行二次特征篩選,從而利用二階遷移方法在極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)模型中融合各預(yù)測(cè)任務(wù)的源數(shù)據(jù)實(shí)現(xiàn)精度提升;文獻(xiàn)[5]呈現(xiàn)典型的二階遷移訓(xùn)練特點(diǎn),首先構(gòu)建工作日數(shù)據(jù)的負(fù)荷預(yù)測(cè)網(wǎng)絡(luò)作為模板網(wǎng)絡(luò)進(jìn)行充分訓(xùn)練,然后根據(jù)遷移權(quán)重選擇性凍結(jié)模板網(wǎng)絡(luò)關(guān)鍵權(quán)值作為遷移結(jié)果后,重新初始化其他結(jié)構(gòu)作為適配節(jié)假日數(shù)據(jù)的預(yù)測(cè)網(wǎng)絡(luò),在新數(shù)據(jù)上進(jìn)行微調(diào);文獻(xiàn)[6]從多模型綜合架構(gòu)的角度出發(fā),設(shè)計(jì)底層深度置信-頂層多任務(wù)回歸預(yù)測(cè)框架的多元負(fù)荷預(yù)測(cè)系統(tǒng),提出以并行的協(xié)同訓(xùn)練方式實(shí)現(xiàn)模型層面上短期電、熱、氣等多種負(fù)荷預(yù)測(cè)子任務(wù)的直接融合,當(dāng)預(yù)測(cè)誤差超越允許閾值時(shí),接納新類型數(shù)據(jù)再訓(xùn)練,實(shí)現(xiàn)對(duì)多任務(wù)的整體預(yù)測(cè)框架設(shè)計(jì);文獻(xiàn)[7]從多源數(shù)據(jù)融合角度出發(fā),設(shè)計(jì)多分支輸入模型,通過動(dòng)態(tài)分支結(jié)構(gòu)調(diào)節(jié)用于挖掘、提取歷史負(fù)荷特征的全連接網(wǎng)絡(luò)與提取圖像數(shù)據(jù)的標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)輸入,然后嵌入多分支結(jié)構(gòu)的各局部輸出,作為底層預(yù)測(cè)模型的聯(lián)合輸入,從而有效提升了多特征信息的挖掘效能,實(shí)現(xiàn)了對(duì)多母線多傳感器任務(wù)在模型層面的融合;文獻(xiàn)[8]從重構(gòu)數(shù)據(jù)維度的角度出發(fā),首先基于離散小波技術(shù)對(duì)非線性關(guān)系較為復(fù)雜的時(shí)序數(shù)據(jù)進(jìn)行基于離散小波的高低頻分解構(gòu)建擴(kuò)增數(shù)據(jù),然后充分利用Spark框架的高效并行訓(xùn)練實(shí)現(xiàn)在時(shí)鐘頻率驅(qū)動(dòng)的循環(huán)深度網(wǎng)絡(luò)模型上高低頻信號(hào)的組合訓(xùn)練,將各組合模型結(jié)果取加權(quán)評(píng)價(jià)作為融合的指標(biāo);文獻(xiàn)[9]從共享權(quán)值角度,對(duì)智能能量系統(tǒng)(intelligent energy system,IES)電、熱、冷子任務(wù)分別訓(xùn)練獨(dú)立的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)同時(shí),對(duì)各網(wǎng)絡(luò)剝離若干神經(jīng)元,拼接成各子任務(wù)共享的局部共享LSTM網(wǎng)絡(luò),從而當(dāng)在線訓(xùn)練新類型數(shù)據(jù)時(shí),采取上述典型的硬共享方法遷移共享網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),實(shí)現(xiàn)多任務(wù)預(yù)測(cè)精度的提高。
從上述文獻(xiàn)比較、分析、總結(jié)可見,當(dāng)前文獻(xiàn)對(duì)多任務(wù)預(yù)測(cè)的技術(shù)路線,或高度依賴于精密設(shè)計(jì)人工特征篩選,或在流程上選擇多種經(jīng)典模型融合技術(shù)的策略組合,或依托對(duì)已知高效網(wǎng)絡(luò)模型施加結(jié)構(gòu)性局部調(diào)整。從訓(xùn)練模式和優(yōu)化方法切入的文獻(xiàn)較為稀少。如文獻(xiàn)[10]嘗試性地將基本二階優(yōu)化方法引入負(fù)荷預(yù)測(cè),通過分割數(shù)據(jù)構(gòu)建多個(gè)訓(xùn)練模型分批次盲目訓(xùn)練以擴(kuò)大參數(shù)空間探索較優(yōu)的參數(shù)分布,但僅驗(yàn)證了單維度負(fù)荷數(shù)據(jù)情況下多層感知器模型的有效性;文獻(xiàn)[11]則側(cè)重整合損失函數(shù),在回歸預(yù)測(cè)的輸出模塊通過多層線性結(jié)構(gòu)聯(lián)合多種評(píng)價(jià)函數(shù)作為深度網(wǎng)絡(luò)訓(xùn)練的綜合損失函數(shù),在訓(xùn)練過程中調(diào)節(jié)各指標(biāo)的貢獻(xiàn)權(quán)重。該方法可視為多分支網(wǎng)絡(luò)融合的一種特例,對(duì)優(yōu)化方法缺少進(jìn)一步探究。
基于上述分析,為進(jìn)一步提高預(yù)測(cè)模型對(duì)多源多任務(wù)數(shù)據(jù)集的多維隱含特征融合和參數(shù)遷移能力,本文從改進(jìn)深度網(wǎng)絡(luò)的優(yōu)化方法的角度,引入模型無關(guān)元學(xué)習(xí)[12](model-agnostic meta-learning,MAML)策略,并針對(duì)性地進(jìn)行修改,嘗試提升模型預(yù)測(cè)的泛化性能。MAML策略及其體系屬于元學(xué)習(xí)中基于優(yōu)化策略的分支。元學(xué)習(xí)旨在解決如何學(xué)習(xí)的問題,相比典型深度網(wǎng)絡(luò)學(xué)習(xí)策略,主要具備3類特征:訓(xùn)練過程中包含學(xué)習(xí)子系統(tǒng)、具備可遷移的已訓(xùn)練模型參數(shù)、動(dòng)態(tài)調(diào)節(jié)學(xué)習(xí)偏差。
MAML策略基于二階優(yōu)化思想,起初針對(duì)呈現(xiàn)數(shù)據(jù)類別多、單類樣本數(shù)據(jù)規(guī)模少的小樣本數(shù)據(jù)學(xué)習(xí)任務(wù),其優(yōu)勢(shì)在于:第一,二階優(yōu)化思想強(qiáng)調(diào)在模型的訓(xùn)練優(yōu)化流程中構(gòu)造雙循環(huán),外循環(huán)用于不斷對(duì)隨機(jī)建構(gòu)的任務(wù)更新神經(jīng)網(wǎng)絡(luò)的初始參數(shù)狀態(tài),內(nèi)循環(huán)將外循環(huán)訓(xùn)練得到的參數(shù)初始狀態(tài)對(duì)新數(shù)據(jù)集施加若干快速迭代,實(shí)現(xiàn)利用內(nèi)循環(huán)的二階導(dǎo)信息迫使模型習(xí)得更優(yōu)的初始化參數(shù)的思想[13],從而能夠具備比一般的預(yù)訓(xùn)練-微調(diào)的分離策略對(duì)多任務(wù)具備更好的快速適應(yīng)能力;第二,MAML策略自身是一種簡(jiǎn)潔的優(yōu)化框架,以二階優(yōu)化的角度為多任務(wù)回歸問題提供了一種能快速兼容多數(shù)基于隨機(jī)梯度下降優(yōu)化方法的深度學(xué)習(xí)模型的高效學(xué)習(xí)策略,在實(shí)踐中已驗(yàn)證可取得和設(shè)計(jì)遷移特征或模型融合方法相媲美的性能提升[14-15],可直接利用該框架改造已有的深度網(wǎng)絡(luò)模型。
基于上述分析,本文以多任務(wù)風(fēng)機(jī)出力預(yù)測(cè)為例,進(jìn)一步研究MAML策略在電力負(fù)荷預(yù)測(cè)場(chǎng)景的應(yīng)用,提出一種基于MAML策略、面向多任務(wù)的回歸預(yù)測(cè)框架。
短時(shí)風(fēng)電出力預(yù)測(cè)問題呈典型的回歸特征。具體考察多任務(wù)數(shù)據(jù)集XT,Nt,kt,其中:T為任務(wù)數(shù);Nt、kt分別為第t類任務(wù)的采樣樣本數(shù)和傳感器輸入維度;匹配的功率數(shù)據(jù)為YT,Nt,則優(yōu)化目標(biāo)可形式化描述為
式中:回歸模型為f;其模型參數(shù)為 θ;L為損失函數(shù)。本文中L采取均方誤差(mean squared error, MSE)、均方根誤差(root mean squared error, RMSE)、平均絕對(duì)誤差(mean absolute error, MAE)、平均絕對(duì)百分比誤差(mean absolute percentage error, MAPE)作為回歸模型訓(xùn)練質(zhì)量的指標(biāo),在批訓(xùn)練下各指標(biāo)定義可描述為
式中:N為數(shù)據(jù)的批大小。
在典型的預(yù)訓(xùn)練-微調(diào)的二階方法中,多任務(wù)回歸預(yù)測(cè)問題按任務(wù)類別根據(jù)實(shí)際情況拆分成預(yù)訓(xùn)練數(shù)據(jù)集T0和微調(diào)數(shù)據(jù)集T1,然后分別就2個(gè)數(shù)據(jù)集獨(dú)立執(zhí)行回歸訓(xùn)練,即:
并對(duì)各任務(wù)s重新構(gòu)建新的隨機(jī)數(shù)據(jù)批次,交替執(zhí)行周期t下的梯度計(jì)算:
顯然在該訓(xùn)練策略中,雖然考察了聯(lián)合調(diào)控?fù)p失計(jì)算、設(shè)計(jì)模型結(jié)構(gòu)等融合策略,對(duì)數(shù)據(jù)集T0和T1仍采取了訓(xùn)練獨(dú)立、分離優(yōu)化的方法,其融合效果存在進(jìn)一步提升的空間。
1.2.1 框架介紹與MAML策略描述
框架參考MAML策略對(duì)多分類小樣本數(shù)據(jù)的元學(xué)習(xí)設(shè)計(jì),將該設(shè)計(jì)的特點(diǎn)遷移至多任務(wù)預(yù)測(cè)任務(wù),嘗試實(shí)現(xiàn)利用單回歸模型融合多任務(wù)數(shù)據(jù)的泛化效果。優(yōu)化目標(biāo)可描述為
后者描述為:
其中 θinit為初始化參數(shù)。由公式(9)(10)可見,本文采取的MAML-微調(diào)策略與預(yù)訓(xùn)練-微調(diào)策略的區(qū)別是,MAML策略隨機(jī)構(gòu)建了對(duì)預(yù)訓(xùn)練數(shù)據(jù)集D的參數(shù)空間,即:
如此構(gòu)建和搜索實(shí)現(xiàn)了對(duì)各任務(wù)體更優(yōu)的參數(shù)初始化設(shè)定,從而輔助內(nèi)循環(huán)微調(diào)在其他任務(wù)數(shù)據(jù)D′上訓(xùn)練和搜索的最優(yōu)解,即
式中:t,t1分別為外、內(nèi)循環(huán)周期。
1.2.2 數(shù)據(jù)集生成
為生成適于外循環(huán)搜索參數(shù)初始化分布的分割數(shù)據(jù)集,使內(nèi)循環(huán)按公式(12)習(xí)得的 θ*到對(duì)各任務(wù)在獨(dú)立訓(xùn)練下的理想?yún)?shù)的距離期望最小,即
式中:s為綜合任務(wù)體;R為參數(shù)間的距離度量。首先根據(jù)任意預(yù)設(shè)的容積為T0的抽樣任務(wù)字典,將給定的T類任務(wù)數(shù)據(jù)和功率數(shù)據(jù)按任務(wù)維度隨機(jī)拆分、重組為MAML數(shù)據(jù)集和微調(diào)數(shù)據(jù)。
具體地,對(duì)拆分?jǐn)?shù)據(jù),從T0中隨機(jī)抽取nway個(gè)單任務(wù),每個(gè)單任務(wù)再隨機(jī)抽取kshot個(gè)樣本,稱該抽樣操作生成的數(shù)據(jù)結(jié)構(gòu)為綜合任務(wù)體。特別地,為有效應(yīng)用隨機(jī)梯度下降 (stochastic gradient descent,SGD) 優(yōu)化器且不破壞原初數(shù)據(jù)的時(shí)序依賴性,需保持連續(xù)抽取kshot長(zhǎng)的順序樣本。如此多次隨機(jī)抽取單任務(wù)的樣本片段并重構(gòu)為綜合任務(wù)體后,可進(jìn)一步將多個(gè)綜合任務(wù)構(gòu)成反向傳播中損失函數(shù)計(jì)算的單個(gè)數(shù)據(jù)批次。其中,稱對(duì)二分集D′和D再次二分后生成的片段長(zhǎng)kshot的數(shù)據(jù)集為支持集,剩余樣本同操作構(gòu)成查詢集。
由此,通過隨機(jī)抽取的組合方式,實(shí)現(xiàn)了將多任務(wù)數(shù)據(jù)按上述“部分任務(wù)-部分樣本”結(jié)構(gòu)的綜合任務(wù)體重構(gòu)為4個(gè)數(shù)據(jù)集,即SMAML、QMAML、SFinetuning、QFinetuning。具體算法可見附錄算法1。
1.2.3 訓(xùn)練策略
區(qū)別于對(duì)訓(xùn)練-驗(yàn)證集執(zhí)行反向傳播、在測(cè)試集執(zhí)行預(yù)測(cè)的常規(guī)訓(xùn)練,該框架呈現(xiàn)了雙層循環(huán)、局部誤差計(jì)算、分組更新的特點(diǎn)。
首先對(duì)SMAML數(shù)據(jù)集綜合任務(wù)體執(zhí)行推理計(jì)算,執(zhí)行依SGD方式的梯度計(jì)算,獲得該任務(wù)體下的模型參數(shù) θs,但不應(yīng)用θs更新該階段模型參數(shù)。
然后進(jìn)入微調(diào)階段,應(yīng)用參數(shù) θs生成回歸模型副本,對(duì)SFinetuning數(shù)據(jù)集執(zhí)行推理和梯度計(jì)算獲得,再應(yīng)用參數(shù)對(duì)QFinetuning數(shù)據(jù)集執(zhí)行驗(yàn)證操作。完成微調(diào)階段后,利用和微調(diào)數(shù)據(jù)集無關(guān)的模型參數(shù) θs對(duì)QMAML數(shù)據(jù)集執(zhí)行推理計(jì)算、反向傳播和梯度更新并作為本輪的最終更新結(jié)果。如此再從SMAML取下一個(gè)綜合任務(wù)體重復(fù)操作,直至訓(xùn)練完成,以微調(diào)階段最優(yōu)模型參數(shù) θ′為最終結(jié)果。具體的訓(xùn)練算法可見附錄算法2。
具體地,設(shè)第s個(gè)綜合任務(wù)體初始參數(shù)為,則單循環(huán)學(xué)習(xí)下,第t個(gè)訓(xùn)練周期參數(shù)的梯度更新根據(jù)泰勒公式可展開為
再考察雙循環(huán)結(jié)構(gòu)下權(quán)值梯度,若第t次外循環(huán)時(shí),內(nèi)循環(huán)完成t1;損失函數(shù)L;初始參數(shù) θ0;內(nèi)循環(huán)權(quán)值更新函數(shù)為Ut,滿足:
用公式(15)及依梯度傳導(dǎo)的鏈?zhǔn)椒▌t有:
代入公式(14)至公式(16)并忽略極小項(xiàng)后,
由上述可見,該框架的核心策略是構(gòu)造多個(gè)隨機(jī)的綜合任務(wù)體后,在雙層循環(huán)中,由外循環(huán)對(duì)分割生成的時(shí)序片段批次按公式(17)前項(xiàng)隨機(jī)搜索更優(yōu)的初始化情況,由內(nèi)循環(huán)按后項(xiàng)二階導(dǎo)信息將局部?jī)?yōu)化后的參數(shù) θs快速適應(yīng)至對(duì)其他任務(wù)的回歸預(yù)測(cè)任務(wù),最終實(shí)現(xiàn)提升回歸模型泛化能力的目標(biāo)。
1.3.1 Seq2Seq預(yù)測(cè)模型和注意力機(jī)制
該模型具備天然適應(yīng)時(shí)序數(shù)據(jù)張量的編碼-解碼結(jié)構(gòu)。具體地,編碼器、解碼器結(jié)構(gòu)的核心組成為多層長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[16-18],解碼器以單層全連接網(wǎng)絡(luò)輸出預(yù)測(cè)數(shù)值。
注意力機(jī)制用于解決在長(zhǎng)序列輸入情況下,Seq2Seq中編碼器編碼的語義向量無法充分表征長(zhǎng)序列信息、長(zhǎng)序列信息在編碼時(shí)前置信息覆蓋等問題。該機(jī)制重點(diǎn)聚焦區(qū)分Seq2Seq模型中編碼器和解碼器的空間狀態(tài)的相似性,并對(duì)解碼器各輸入狀態(tài)執(zhí)行軟尋址操作以提高關(guān)鍵輸入的概率占比。
其機(jī)制分為二步,首先,計(jì)算編碼器隱含狀態(tài)hj與編碼器隱藏狀態(tài)si-1的關(guān)聯(lián)權(quán)重eij,即
式中:V,U為注意力機(jī)制的權(quán)值空間。
根據(jù)權(quán)重系數(shù)對(duì)編碼器輸入執(zhí)行Softmax歸一化處理獲得關(guān)聯(lián)系數(shù)aij
第二步,以aij作為權(quán)重對(duì)編碼器首次輸入的隱含狀態(tài)hj或多次時(shí)序計(jì)算后的隱含狀態(tài)si-1取加權(quán)和作為解碼器的部分輸入。
1.3.2 時(shí)序數(shù)據(jù)的窗口機(jī)制
圖2以Seq2Seq模型為案例,描述了經(jīng)滑窗操作的數(shù)據(jù)流在計(jì)算圖中的傳播情況。具體地,對(duì)序列長(zhǎng)度為L(zhǎng)的k個(gè)傳感器陣列數(shù)據(jù)xL,k,生成總窗口長(zhǎng)度為m、 其中包含u個(gè)后置預(yù)測(cè)數(shù)據(jù)的傳感器數(shù)據(jù)窗口xm,k,并匹配生成總窗口長(zhǎng)度為m-u的歷史功率數(shù)據(jù)窗口ym-u。 傳感器窗口xm,k經(jīng)由編碼器編碼生成隱含狀態(tài)h,并協(xié)同解碼器上一隱含狀態(tài)s經(jīng)注意力模塊處理后嵌入到歷史功率窗口數(shù)據(jù)中作為解碼器的聯(lián)合輸入,最終經(jīng)解碼計(jì)算生成預(yù)測(cè)長(zhǎng)度為l的回歸值yl參與反向傳播。
特別地,為進(jìn)一步強(qiáng)化不同窗口間沿采樣維度的時(shí)序數(shù)據(jù)的時(shí)間耦合關(guān)系,減少訓(xùn)練過程的逐批次平均化計(jì)算誤差。若滑窗的滑動(dòng)步長(zhǎng)為t′,則在掃描順序數(shù)據(jù)片段時(shí),取本輪窗口對(duì)應(yīng)的上一窗口輸出預(yù)測(cè)值的后m+l-t′個(gè)功率作為下輪采樣步驟中歷史功率窗口的早期輸入。從而基于對(duì)歷史預(yù)測(cè)輸出的考察,降低了功率預(yù)測(cè)輸出部分沿時(shí)序采樣的累計(jì)誤差,一定程度上緩解了對(duì)長(zhǎng)時(shí)序輸入功率后端數(shù)據(jù)的預(yù)測(cè)影響問題。
1.3.3 Transformer預(yù)測(cè)模型和自注意力機(jī)制
Transformer網(wǎng)絡(luò)呈編碼-解碼結(jié)構(gòu),特點(diǎn)是以自注意力機(jī)制替代了循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)[19]。該機(jī)制同樣針對(duì)長(zhǎng)序表達(dá)和網(wǎng)絡(luò)記憶問題,動(dòng)態(tài)建立了任意長(zhǎng)度下長(zhǎng)序列數(shù)據(jù)的長(zhǎng)距離依賴關(guān)系,從而以點(diǎn)積形式實(shí)現(xiàn)自對(duì)齊的學(xué)習(xí)即
式中:Q、K、V為對(duì)同一輸入向量經(jīng)線性變化生成的二維矩陣,即Q=XW,區(qū)別于注意力機(jī)制中對(duì)計(jì)算時(shí)序的軟編碼;dK為用于縮放點(diǎn)積的方陣K維度;QKT積用于評(píng)估輸入向量和模型記憶特征間標(biāo)記對(duì)標(biāo)記的相似度,從而評(píng)估窗口內(nèi)單個(gè)負(fù)荷數(shù)據(jù)對(duì)整體采樣序列的相對(duì)重要性。此外,由于該結(jié)構(gòu)取締了循環(huán)結(jié)構(gòu),可有效提高訓(xùn)練的并行度。
Transformer網(wǎng)絡(luò)的編碼器由多輸入注意力模塊和線性層構(gòu)成,其中單個(gè)多輸入注意力模塊等效于多個(gè)自注意力模塊的拼接集成。解碼器額外增加了注意力機(jī)制,考察解碼器輸出Q和自身自注意力模塊變量K,V的相似度。
1.3.4 Synthesizer預(yù)測(cè)模型
該模型進(jìn)一步簡(jiǎn)化了Transformer模型的自注意力機(jī)制,可視為對(duì)后者的壓縮[20]。該策略構(gòu)造了參數(shù)化函數(shù)F,直接將輸入變量的序列長(zhǎng)度投影至輸出變量長(zhǎng)度。具體地,將自注意力模塊公式(20)的狀態(tài)變量K常數(shù)化或初始隨機(jī)化,將動(dòng)態(tài)自注意力計(jì)算的點(diǎn)積操作,應(yīng)用雙線性層簡(jiǎn)化至靜態(tài)矩陣計(jì)算,即
即Synthesizer弱化了自對(duì)齊學(xué)習(xí)中的標(biāo)記間的交互,是一種取締了標(biāo)記對(duì)標(biāo)記的點(diǎn)積計(jì)算的簡(jiǎn)化變體,可取得和Transformer可競(jìng)爭(zhēng)的預(yù)測(cè)性能。Transformer和Synthesizer采取與Seq2Seq相同的時(shí)序窗口生成機(jī)制,其計(jì)算圖相當(dāng)于圖2以相應(yīng)模塊取締LSTM和注意力模塊。
2.1.1 數(shù)據(jù)集介紹與設(shè)定
本文采用數(shù)據(jù)集GEFCom2012。該數(shù)據(jù)集記錄了7個(gè)風(fēng)電場(chǎng)從2009年7月1日—2012年6月28日的歷史功率出力測(cè)量和風(fēng)力信息,其中風(fēng)力信息包括緯向和經(jīng)向風(fēng)分量及其對(duì)應(yīng)的風(fēng)速和風(fēng)向等4類信息,采樣間隔為1h,記錄形式為在每月奇數(shù)日0:00和12:00開始各獨(dú)立測(cè)量48次。為便于對(duì)比,選擇2010年12月31日前的數(shù)據(jù)用于訓(xùn)練,數(shù)據(jù)集其余部分用于預(yù)測(cè)評(píng)估。
2.1.2 實(shí)驗(yàn)設(shè)計(jì)與模型參數(shù)介紹
為有效對(duì)比本文提出的基于MAML的回歸預(yù)測(cè)框架和預(yù)訓(xùn)練-微調(diào)的一般模式,將本文方法作為實(shí)驗(yàn)組,并設(shè)計(jì)對(duì)照組如下:將SMAML、QMAML、SFinetuning合并作為訓(xùn)練集、將QFinetuning作為驗(yàn)證集。同時(shí)為進(jìn)一步驗(yàn)證框架有效性,預(yù)測(cè)模型包括4類:算例部分介紹的有注意力機(jī)制Seq2Seq和有自注意力機(jī)制的Transformer、Synthesizer,以及常見的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)-LSTM模型,其中CNN-LSTM的架構(gòu)設(shè)計(jì)為將經(jīng)過單層尺寸不變的卷積層和平均池化層處理后的風(fēng)速信息嵌入歷史功率窗口作為L(zhǎng)STM網(wǎng)絡(luò)的輸入,其輸出展開后經(jīng)全連接層變換輸出預(yù)測(cè)功率。如無其他說明,實(shí)驗(yàn)組和對(duì)照組采用相同的參數(shù)設(shè)置,如注意力機(jī)制等,在訓(xùn)練過程中采取Adam優(yōu)化器。特別地,為降低連續(xù)片段的預(yù)測(cè)誤差積累,在訓(xùn)練過程中,將本次窗口的先期輸入替代為上次窗口的輸出后段。
實(shí)驗(yàn)實(shí)現(xiàn)基于Pytorch 1.8框架;計(jì)算平臺(tái)為NVIDIA 1080 GPU,具體實(shí)驗(yàn)參數(shù)設(shè)置如表1所示。
表1 實(shí)驗(yàn)參數(shù)和模型參數(shù)設(shè)定Table 1 Setting of experiment parameters and model parameters
數(shù)據(jù)預(yù)處理過程分為補(bǔ)償和歸一化操作2步。首先對(duì)7個(gè)風(fēng)電場(chǎng)的風(fēng)力輸入數(shù)據(jù)和出力數(shù)據(jù)的缺失部分按插值補(bǔ)償處理,其次逐維采取離差標(biāo)準(zhǔn)化預(yù)處理,將數(shù)據(jù)歸一化放縮至 ± 1之間。
為進(jìn)一步利用功率數(shù)據(jù)的時(shí)序依賴性和提高模型訓(xùn)練效率,本文利用滑動(dòng)窗口沿時(shí)序順序?qū)υ紨?shù)據(jù)掃描。其中對(duì)部分?jǐn)?shù)據(jù)缺失的早期窗口或后期窗口采取延展重復(fù)末端數(shù)值的補(bǔ)償方式。在利用前滑窗部分模型輸出更新歷史功率窗口時(shí),直接采納最近一次的迭代結(jié)果以簡(jiǎn)化重疊部分的處理。
本文以Seq2Seq、CNN-LSTM、Transformer、Synthesizer模型為算例,重點(diǎn)考察各模型在MAML-微調(diào)模式和預(yù)訓(xùn)練-微調(diào)模式下因訓(xùn)練模式差異導(dǎo)致的精度變化。為便于可視化,在圖3-6中截取部分?jǐn)M合結(jié)果片段(其中藍(lán)色曲線為歸一化后輸出的真實(shí)值,紅色曲線為同一模型在MAML策略下的結(jié)果,綠色曲線為同一模型在預(yù)訓(xùn)練-微調(diào)策略的結(jié)果),其中橫軸僅表征截取片段的相對(duì)時(shí)間間隔。相應(yīng)的指標(biāo)計(jì)算結(jié)果在表2-5中展示,各數(shù)值保留4位有效數(shù)字。
表2 Seq2Seq模型在不同訓(xùn)練策略下的指標(biāo)對(duì)比Table 2 Indicator comparison of Seq2Seq model under different training strategies
注意到本文提出的基于MAML策略的預(yù)測(cè)框架在對(duì)傳感器數(shù)據(jù)和歷史數(shù)據(jù)融合更充分的Seq2Seq模型上的表現(xiàn)更優(yōu)。由于Synthesizer模型是Transformer模型注意力機(jī)制即公式(20)中點(diǎn)積計(jì)算的輕量化壓縮版本,故存在一定的精度損失。同時(shí)注意到,雖然各模型在MAML訓(xùn)練策略下均取得了對(duì)各指標(biāo)的提升(部分模型獲得了較為顯著的提升效果),特別是MAML策略對(duì)有較大梯度變化的輸出峰片段有更好的擬合效果,但對(duì)于梯度變化較小、波動(dòng)性較為明顯的輸出峰谷片段的擬合效果提升非常有限。由于分割數(shù)據(jù)集的隨機(jī)重組實(shí)時(shí)性對(duì)時(shí)序數(shù)據(jù)造成部分破壞,以及窗口生成機(jī)制對(duì)早期窗口先期輸入、后期窗口末端輸入缺失部分自動(dòng)補(bǔ)全的失真影響,使得MAML策略的預(yù)測(cè)結(jié)果相比“預(yù)訓(xùn)練-微調(diào)”策略,預(yù)測(cè)片段存在更明顯的毛刺和噪音。
由上述結(jié)果可見,本文提出的基于MAML策略作用在各算例模型時(shí)均一定程度上提高了其回歸預(yù)測(cè)指標(biāo)。結(jié)果表明,相比預(yù)訓(xùn)練-微調(diào)策略會(huì)極大受限于切換任務(wù)數(shù)據(jù)集時(shí)部分破壞了數(shù)據(jù)的時(shí)序依賴導(dǎo)致擬合難度增加等問題,MAML策略因具備基于構(gòu)建綜合任務(wù)體隨機(jī)抽取任務(wù)集合快速訓(xùn)練并對(duì)新類型數(shù)據(jù)有效適應(yīng)的學(xué)習(xí)能力,從而部分緩解了上述弊端,提升了模型的泛化能力。
表3 CNN-LSTM模型在不同訓(xùn)練策略下的指標(biāo)對(duì)比Table 3 Indicator comparison of CNN-LSTM model under different training strategies
表4 Transformer模型在不同訓(xùn)練策略下的指標(biāo)對(duì)比Table 4 Indicator comparison of transformer model under different training strategies
表5 Synthesizer模型在不同訓(xùn)練策略下的指標(biāo)對(duì)比Table 5 Indicator comparison of synthesizer model under different training strategies
本文針對(duì)電力時(shí)序數(shù)據(jù)的多任務(wù)預(yù)測(cè)問題,構(gòu)建了基于MAML策略的新型回歸預(yù)測(cè)訓(xùn)練框架。該框架應(yīng)用在帶有注意力機(jī)制的Seq2Seq和CNN-LSTM預(yù)測(cè)模型后,實(shí)驗(yàn)結(jié)果表明相比預(yù)訓(xùn)練-微調(diào)方法,具有良好的遷移能力和一定的工程價(jià)值,能夠快速改造已有模型,進(jìn)一步取得泛化性更好、預(yù)測(cè)精度更高的實(shí)際效果。
未來工作將進(jìn)一步在小樣本數(shù)據(jù)缺失、非平衡時(shí)序數(shù)據(jù)、復(fù)雜任務(wù)等工況下研究動(dòng)態(tài)窗口設(shè)計(jì)、擴(kuò)展部署模型等工作。
(本刊附錄請(qǐng)見網(wǎng)絡(luò)版,印刷版略)
附錄 A
式中: N 為數(shù)據(jù)的批大小
附表 A1 算法1:基于MAML策略的數(shù)據(jù)集生成流程Table A1 Algorithm 1: The generation procedure for datasets based on MAML strategy
附表 A2 算法2:基于MAML策略的短時(shí)回歸預(yù)測(cè)訓(xùn)練流程Table A2 Algorithm 2: The regression training procedure for MAML based short term prediction