電力領(lǐng)域數(shù)據(jù)驅(qū)動建模實踐與思考

2022-12-26 19:03:59王慧芳葉睿愷吳雪峰劉建敏

浙江電力 2022年10期

王慧芳，葉睿愷，羅斌，張波，吳雪峰，劉建敏

（1.浙江大學電氣工程學院，杭州 310027；2.國網(wǎng)浙江省電力有限公司金華供電公司，浙江金華 321017）

0 引言

“3060”雙碳戰(zhàn)略目標的實施，促進了“雙高”特征的新型電力系統(tǒng)快速發(fā)展［1］。電力系統(tǒng)的源、網(wǎng)、荷各側(cè)都出現(xiàn)了強非線性運行特征的元件，且比例不斷提高，使得原有的適用于線性特征的系統(tǒng)分析方法難以適用［2］。若對這些元件進行機理建模，分析計算過程需要迭代，影響快速性。為此，一些基于數(shù)據(jù)驅(qū)動的分析計算方法被提出［3-4］。同時，新型電力系統(tǒng)要求有更智能、高效的運維技術(shù)與管理手段［5］，由此產(chǎn)生了文本、圖像等類型的數(shù)據(jù)驅(qū)動建模研究［6-7］。因此，數(shù)據(jù)驅(qū)動建模逐漸成為電力領(lǐng)域的研究熱點之一。

數(shù)據(jù)驅(qū)動建模已在優(yōu)化控制、流程工業(yè)、生物學等一些依靠機理建模研究成本高、難度大的傳統(tǒng)領(lǐng)域獲得了成功應用。如生物領(lǐng)域，Deep-Mind 公司使用公開數(shù)據(jù)集進行端對端模型訓練，建立了可以快速準確預測蛋白質(zhì)結(jié)構(gòu)的AlphaFold模型，預測結(jié)果得分比藥物模擬實驗得分更高，破解了多年的難題［8］。在電力領(lǐng)域，數(shù)據(jù)驅(qū)動建模也進行了較多研究，除一些分散應用外，根據(jù)待解決問題的特點，大致可以分為以下三類：

第一類是針對難以理論建模的問題，如負荷預測、新能源發(fā)電預測［9］、竊電檢測、用戶行為分析等。這類問題由于只能采用數(shù)據(jù)驅(qū)動建模，因此研究較早、成果較多。以負荷預測為例，在中國知網(wǎng)進行精確檢索，近20年就能檢索到2 300多篇中文期刊文章。能夠吸引大量研究的原因主要有：問題較為熟悉；用于建模的數(shù)據(jù)類型具有多樣性和發(fā)展性，建模需求持續(xù)被認可；可用于預測的算法多且發(fā)展快；對模型的性能要求及驗證較為寬容。然而，對于應用者來說，在數(shù)據(jù)公開有限、采用自參考模型驗證的情況下，成果越多反而越難找到適合自身負荷特點的預測模型。因此，該研究迫切需要分類和總結(jié)負荷對象的特點，給出如何挑選合適的負荷預測模型的指導。

第二類是針對理論建模性能欠佳的問題。這類問題進行數(shù)據(jù)驅(qū)動建模的初衷是為了避免由于假設或簡化而導致理論模型不夠準確，或者為了避免理論模型需要迭代計算而導致模型計算速度慢。如IIDG（逆變器型分布式電源）接入后的電網(wǎng)暫態(tài)安全評估［10-11］、潮流計算［3］、短路電流計算［4］等問題。這類研究是在新能源發(fā)展與接入電網(wǎng)后被提出來的，所以研究時間短，成果數(shù)量少，工程應用效果還有待檢驗。

第三類是基于文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)的特定業(yè)務建模問題。關(guān)于該問題的研究成果在逐漸豐富，主要原因是非結(jié)構(gòu)化數(shù)據(jù)的自動理解本身較為困難，一般需采用自然語言或圖像處理等專門技術(shù)，同時又需電力領(lǐng)域知識，研究門檻相對較高。另一方面，研究對數(shù)據(jù)的質(zhì)量和數(shù)量有要求，但要求又較難量化，導致基于未經(jīng)評估數(shù)據(jù)建立的模型性能方面不穩(wěn)定，與工程應用要求還有差距。

綜上，電力領(lǐng)域數(shù)據(jù)驅(qū)動建模的發(fā)展并不均衡，尤其后兩類問題的研究還有較大的拓展和深化空間。由于數(shù)據(jù)驅(qū)動建模，僅通過文獻研究很難深刻體會不同建模過程蘊含的建模難點，實踐是非常關(guān)鍵的環(huán)節(jié)，因此本文將介紹和總結(jié)后兩類數(shù)據(jù)驅(qū)動建模實踐，分享對數(shù)據(jù)驅(qū)動建模的理解以及一些體會。

1 針對理論建模性能欠佳問題的數(shù)據(jù)驅(qū)動建模實踐

1.1 實踐情況與分析

目前主要對三個方面的問題開展了數(shù)據(jù)驅(qū)動建模實踐。第一個是針對電力系統(tǒng)暫態(tài)穩(wěn)定、電壓穩(wěn)定問題，分別建立了用于穩(wěn)定判斷的兩分類暫態(tài)穩(wěn)定評估模型［11］、基于后果評估的節(jié)點故障暫態(tài)穩(wěn)定評估模型［12］以及電壓穩(wěn)定裕度評估模型［13］。第二個是針對配電網(wǎng)單相接地故障區(qū)段定位問題，進行了多分類模型建模實踐［14］；第三個是以含IIDG配電網(wǎng)短路電流計算為目標，進行了數(shù)據(jù)驅(qū)動的回歸模型建模實踐［4，15］。其中，對于第一個問題，基于時域仿真的暫態(tài)穩(wěn)定和基于連續(xù)潮流計算的電壓穩(wěn)定評估方法由于受到計算速度的限制，較難在線應用，所以該問題較早地被提出采用數(shù)據(jù)驅(qū)動進行建模，成果相對較多，基本實現(xiàn)了準確、快速預測暫態(tài)穩(wěn)定和電壓穩(wěn)定的目的。因此，下面主要對后兩個實踐的建模依據(jù)和實踐結(jié)果進行討論。

1.1.1 配電網(wǎng)單相接地故障定位數(shù)據(jù)驅(qū)動建模

配電網(wǎng)中性點一般不直接接地，單相接地故障定位問題是存在已久的難題。理論建模的不足之處在于故障位置的電氣量信息特征微弱而導致閾值設置困難，偏高偏低均可能產(chǎn)生誤判或漏判。建立數(shù)據(jù)驅(qū)動的故障區(qū)段定位多分類模型的依據(jù)是：配電網(wǎng)仿真可以提供任意數(shù)量的樣本；配電網(wǎng)發(fā)生單相接地故障時，故障線路和非故障線路的各相電流變化情況是存在差別的，即使IIDG接入后依然有該特點，即各線路故障前后各相電流有效值構(gòu)成的信息包含著故障發(fā)生的區(qū)段且區(qū)段唯一。因此，可以建立以0和線路編號為標簽的多分類模型，其中0表示無故障。文獻［14］詳細介紹了該數(shù)據(jù)驅(qū)動模型的建立和驗證過程。

研究結(jié)果表明，數(shù)據(jù)驅(qū)動建立的故障區(qū)段定位模型，可以避免閾值的設置，且適用于多種配電網(wǎng)不直接接地場景，包括中性點不接地、經(jīng)消弧線圈接地、小電阻接地等，對于過渡電阻在一定范圍內(nèi)的單相接地故障具有可靠識別能力。能否進一步建立回歸模型，實現(xiàn)故障區(qū)段中故障位置的定位，是下一步需要研究的問題。研究表明，若僅用各線路的各相電流有效值及變化量是難以建立回歸模型的，因為同一區(qū)段內(nèi)發(fā)生不同位置的單相接地故障，各線路各相電流有效值變化的差異非常小，每一個樣本對應的故障位置唯一性不明顯，因此若要建立故障定位回歸模型，需探索新特征。

1.1.2 含IIDG配電網(wǎng)短路電流計算數(shù)據(jù)驅(qū)動建模

IIDG 本身具有多樣性和復雜性，詳細建模易引起維數(shù)災難，簡化建模又會降低準確性。此外，受低壓穿越等控制策略影響，IIDG 具有強非線性，在采用機理分析計算時，不可避免地需要迭代。且迭代規(guī)律與傳統(tǒng)電網(wǎng)潮流計算過程中連續(xù)的非線性過程不同。迭代次數(shù)、是否收斂受電網(wǎng)規(guī)模、非線性元件數(shù)量、元件模型簡化程度、初值選擇等因素影響較大。為了克服理論建模存在的計算速度與準確性間的矛盾，可建立數(shù)據(jù)驅(qū)動的含IIDG配電網(wǎng)短路電流回歸模型。其依據(jù)為在運行方式和故障情況確定后，各支路的短路電流穩(wěn)態(tài)值是確定且唯一的。通過仿真可獲得充裕樣本，也有適合的學習算法進行回歸建模。文獻［4］和［15］分別介紹了以單輸出和多輸出為目標的模型建立和驗證過程。

實踐結(jié)果表明，強非線性元件的接入對數(shù)據(jù)驅(qū)動模型的訓練和在線應用速度不會產(chǎn)生直接影響，僅會增加離線獲取仿真樣本的時間。為提高獲得仿真樣本的速度，除適當簡化強非線性元件模型進而加快仿真速度外，更適合的方法是減少需要的樣本數(shù)量。如文獻［4］提出將IIDG 未接入時的短路電流作為特征之一，可以減少對IIDG接入時的樣本數(shù)量要求，進而減少樣本獲得時間。此外，該類數(shù)據(jù)驅(qū)動建模是通過仿真建模讓計算較慢的理論模型提前實現(xiàn)大量樣本，然后訓練模型并最終實現(xiàn)快速應用，其本質(zhì)是進行了時間騰挪。目前該模型應用于工程還需進一步研究的問題主要是樣本數(shù)據(jù)如何自動更新以適應網(wǎng)絡規(guī)模和結(jié)構(gòu)的變化。

1.2 建模過程總結(jié)

上述建模實踐解決的問題不同，建立的模型形式也不同，但都通過仿真獲得大量數(shù)據(jù)樣本，因此建模過程存在一些共性步驟。

1.2.1 確定輸出量

數(shù)據(jù)驅(qū)動建模首先要確定模型的輸出是什么。不同輸出對輸入數(shù)據(jù)的要求不同，也會影響算法的選擇。以配電網(wǎng)單相接地故障為例，若只判斷配電網(wǎng)是否故障，采用零序電壓就能實現(xiàn)理論模型，不必建立數(shù)據(jù)驅(qū)動模型；若要判斷哪個區(qū)段故障，則可以建立基于各線路、各相電流有效值的多分類數(shù)據(jù)驅(qū)動模型；若要輸出故障詳細位置，則要研究基于其他電氣量信息的回歸模型。因此，不同輸出不僅決定模型類型，也影響輸入特征選擇。

1.2.2 輸入特征選擇

一般來說，特征選擇不全面將導致建模失?。缓侠淼奶卣鬟x擇可以提高模型準確度和計算速度。一方面，特征數(shù)目越多，基于智能算法的模型訓練和使用速度越慢；另一方面，未經(jīng)選擇的特征中往往包含一些質(zhì)量較低的特征，會對模型本身造成干擾，降低模型準確度。特征選擇常以輸出為導向，通過理論分析或智能算法確定哪些特征對于最終的輸出有更大的幫助，以此剔除冗余特征，實現(xiàn)特征降維。比如，配電網(wǎng)單相接地故障區(qū)間定位未采用電壓量數(shù)據(jù)。一方面，配電網(wǎng)的實際情況是電壓互感器比電流互感器配置得少；另一方面，實驗表明，電壓量與電流量之間存在信息冗余，增加電壓數(shù)據(jù)后反而會降低模型性能。

1.2.3 數(shù)據(jù)樣本的獲得

確定問題的特征和輸出后，需獲得訓練模型所需的樣本數(shù)據(jù)。本節(jié)實踐所用的樣本數(shù)據(jù)均來自仿真，獲取時考慮了以下三個方面：

1）建立的電網(wǎng)仿真模型是否有代表性。較多研究采用IEEE不同規(guī)模的電網(wǎng)為算例，但與我國國情不符。為此，實踐中僅采用網(wǎng)架結(jié)構(gòu)和參數(shù)，而對電壓等級、頻率等與我國不同的參數(shù)進行適應性修改，但需要特別關(guān)注修改的完善性。例如把配電網(wǎng)電壓等級從24.9 kV 改為10.5 kV，需要考慮供電半徑相應縮小，即各線路長度和負荷需要修改，否則仿真結(jié)果將不合理。

2）運行方式是否考慮全面、合理。仿真容易通過修改運行方式和故障條件獲得充裕的樣本，然而也容易出現(xiàn)類別不平衡、不合理的情況。類別不平衡將導致樣本偏斜，訓練得到的模型很可能會過擬合。對于不合理的情況，如模擬新能源不同滲透率，不能僅修改新能源的接入容量、接入位置，還需要修改系統(tǒng)等值電源的等值阻抗，否則會出現(xiàn)不存在的運行方式。

3）適當考慮仿真數(shù)據(jù)與實際量測數(shù)據(jù)的誤差以及數(shù)據(jù)的丟失情況，為此引入一定的白噪聲，并設置一定的數(shù)據(jù)缺失比例。

1.2.4 算法選擇與改進

通常根據(jù)要解決的具體問題的特點和難度，選擇具有相應學習能力的智能算法。從功能角度，最常見的模型有分類模型和回歸模型；從輸出數(shù)量角度，模型可分為單輸出模型和多輸出模型。上述任何一類模型都有很多算法可供選擇，因此需要研究算法的適用條件及優(yōu)缺點。針對每一種算法，為提升模型性能，不僅僅需要通過訓練集和測試集的交叉驗證法進行調(diào)參，有時還需根據(jù)應用場景進行適應性改進。比如，暫態(tài)穩(wěn)定評估中，將不穩(wěn)定評估成穩(wěn)定，其危害遠大于將穩(wěn)定評估成不穩(wěn)定。為此選定的算法需要額外考慮代價敏感差異，如引入注意力機制對損失函數(shù)進行改進［11］。更多的情況是需要通過多種算法對比，甚至多種算法綜合運用，實現(xiàn)優(yōu)勢互補，最終形成解決問題的建模算法。

1.2.5 模型性能分析

模型訓練完成后，還需分析模型的應用性能。常見性能包括模型誤差、時間開銷、存儲開銷、可解釋性等。針對模型誤差，不同功能模型的性能度量指標會有差異。對于分類模型，常采用查準率、查全率、兩者的調(diào)和平均F1進行評價；對于回歸模型常采用偏差、方差等指標。其他性能分析由具體問題的特點來決定，如在線應用問題則要重視時間開銷。可解釋性是數(shù)據(jù)驅(qū)動建模的弱項，阻礙了其在一些特定場景的應用。

2 基于非結(jié)構(gòu)化數(shù)據(jù)的驅(qū)動建模實踐

2.1 基于電力文本數(shù)據(jù)的驅(qū)動建模實踐

電力文本數(shù)據(jù)較為特定，一般為某業(yè)務部門所專有，建模目的往往是為提升業(yè)務管理能力和效益，因此建模需求和建模過程具有特定性。以電力公司運檢部門的電力設備缺陷記錄文本為對象，進行了缺陷文本質(zhì)量評價與提升［16-18］、缺陷嚴重程度自動定級［6，17］、缺陷精細化統(tǒng)計［19］、缺陷文本自動檢索與匹配［20-21］等建模實踐。此外，進行了基于對話文本的電力設備供應商評價研究［22］，還嘗試了一些電力長文本的數(shù)據(jù)驅(qū)動建模實踐?；谏鲜鰧嵺`，有以下三點體會。

1）電力文本數(shù)據(jù)驅(qū)動建模一般需要經(jīng)歷文本預處理、文本表示和具體的挖掘算法研究三個階段。每一個階段有多種技術(shù)可供選擇。但有些建模有自身的特色。如缺陷精細化統(tǒng)計［19］只采用了文本預處理技術(shù)，然后自定義了語義槽并進行槽填充，方便依據(jù)槽信息進行統(tǒng)計。再如缺陷文本檢索與辨識也是在經(jīng)歷了預處理技術(shù)后，分別采用了知識圖譜［20］和依存句法樹［21］技術(shù)實現(xiàn)檢索與辨識。此外，同一建模需求也有多重實現(xiàn)方法。如缺陷文本質(zhì)量提升既可以采用基于知識圖譜的圖搜索技術(shù)實現(xiàn)質(zhì)量問題提示［18］，也可以采用基于缺陷文本質(zhì)量評價的質(zhì)量問題提示［16］。因此文本數(shù)據(jù)驅(qū)動建模應根據(jù)建模目的選擇適合的方法，不必過于拘泥于通用流程。

2）電力文本數(shù)據(jù)驅(qū)動建模離不開專業(yè)領(lǐng)域知識，若直接采用通用領(lǐng)域的一些方法，往往難以達到最佳效果。因此需要結(jié)合電力領(lǐng)域知識及文本特點對建模方法進行補充與改進。如為提升電力文本分詞的準確性，可增加電力領(lǐng)域本體字典［23］。

3）基于短文本的建模方法較難直接應用于長文本。電力設備缺陷文本往往是幾十個字的短文本，內(nèi)容上比較有規(guī)律，一般包含缺陷發(fā)生的設備類型、具體部件和部位、現(xiàn)象和程度，因此適合采用知識圖譜技術(shù)進行一些建模應用［18，20］。然而諸如新設備啟動方案、調(diào)度預案等長文本，一般有數(shù)頁，關(guān)鍵詞匯分散且詞頻不高，因此難以移植短文本的技術(shù)進行建模。若由人工構(gòu)建類似于程序流程圖的知識圖譜，則只是形似而神不似，失去了數(shù)據(jù)驅(qū)動建模的意義。此外，知識圖譜構(gòu)建是自動地從大量語料庫中提取共性知識，因此不適合把具體個體名稱放入知識圖譜中。長文本的建模方法還有較大探索空間，如嘗試閱讀理解方法等。

2.2 基于電力圖像數(shù)據(jù)的驅(qū)動建模實踐

在圖像數(shù)據(jù)建模方面，針對變壓器圖像進行了多部件目標檢測［24］、小部件智能識別［25］的建模實踐；針對變電站指針式儀表圖像進行了讀數(shù)建模［7］；針對隔離開關(guān)圖像進行了狀態(tài)自動識別建模［26］?；谏鲜鰧嵺`，有以下兩點體會。

1）電力圖像數(shù)據(jù)驅(qū)動建模中常用到圖像目標檢測技術(shù)和圖像分割技術(shù)，這些技術(shù)往往有多種算法，具體采用哪種需要分析對比，有時還要針對圖像特點進行算法改進。如在圖像目標檢測中，文獻［24］對Faster R-CNN 網(wǎng)絡進行了兩處改進。一是通過提取多個卷積層的信息，使模型可以動態(tài)地適應部件大小差異，提高對小目標的檢測準確性；二是在單目標檢測的基礎(chǔ)上，加入多目標之間的相對位置關(guān)系信息，從而提升了檢測準確率。應用改進后的模型，變壓器多部件自動識別的查全率和查準率獲得了較大提升。文獻［7］在采用圖像分割模型時也對U-Net 網(wǎng)絡進行了兩處改進。一是增加網(wǎng)絡下采樣次數(shù)，并對鄰層特征進行融合、疊加，增強了網(wǎng)絡對低層特征信息的提取，將不同層次神經(jīng)元的感受野控制在更加合理的水平；二是使用Dice 損失函數(shù)計算真實輪廓和預測輪廓的相似度，緩解類別不平衡問題。應用改進后的模型，分割儀表刻度線和指針的準確率獲得較大提升。

2）為提高建模準確性，除針對建模對象的圖像特點進行算法改進外，提升圖像樣本的質(zhì)量和數(shù)量也是重要途徑。圖像質(zhì)量受雨、霧等天氣和灰塵、光線等環(huán)境因素影響，常采用去霧算法等技術(shù)手段提升圖像質(zhì)量。此外還可以采用管理手段，如對灰塵進行定期清掃以保障圖像質(zhì)量。圖像數(shù)量擴充的常用方法有平移、縮放、旋轉(zhuǎn)、改變亮度等基于二維圖像本身進行變換的方法，文獻［26］則提出了模擬攝像機拍攝角度變化的基于三維形狀先驗知識的圖像變換方法。以隔離開關(guān)為實驗對象，通過隔離開關(guān)的二維圖像位置反推其三維空間的坐標；然后以拍攝點為參照，以隔離開關(guān)較近的絕緣柱為軸進行有限角度的旋轉(zhuǎn)，目的是為避免旋轉(zhuǎn)角度過大導致圖像失真；最后再利用透視投影變換重新生成隔離開關(guān)的二維圖像，實現(xiàn)了圖像數(shù)據(jù)的擴充。算例分析表明該擴充方法有效提升了目標檢測模型訓練效果。

3 對電力領(lǐng)域數(shù)據(jù)驅(qū)動建模的思考

3.1 數(shù)據(jù)驅(qū)動建模的定義

雖然數(shù)據(jù)驅(qū)動建模尚無統(tǒng)一定義，但通過上述實踐可以認為：相對于理論研究建模來說，數(shù)據(jù)驅(qū)動建模是利用豐富的數(shù)據(jù)樣本，運用多變量統(tǒng)計分析等理論或者機器學習等智能算法，從樣本數(shù)據(jù)中找出問題的內(nèi)在規(guī)律，進而建立起輸入、輸出間的映射模型。最常見的模型有分類模型和回歸模型，但無論哪類模型都無法直接用數(shù)學公式進行表達。此外，建模所依賴的數(shù)據(jù)可以是多類型、多模態(tài)的，其中有些數(shù)據(jù)需要經(jīng)過一定的預處理后才能被計算機所應用。

3.2 數(shù)據(jù)驅(qū)動建模的條件與基本步驟

由于理論模型可以用數(shù)學公式進行表達和推理，因此具有明確的可解釋性；而數(shù)據(jù)驅(qū)動建模較多采用機器學習算法，可解釋性不足。因此，數(shù)據(jù)驅(qū)動建模一般適用于理論分析太復雜、數(shù)學模型未知或不確定性很大但能獲得充分樣本的問題。進行數(shù)據(jù)驅(qū)動建模，大抵需要具備以下條件：有針對具體問題的明確建模需求；有與問題密切相關(guān)且數(shù)量充足的樣本數(shù)據(jù)，樣本數(shù)據(jù)既包含輸入的特征數(shù)據(jù)也包含輸出的標簽數(shù)據(jù)，且標簽具有唯一性；有與問題相匹配的具備自學習能力的算法。

為此，電力領(lǐng)域數(shù)據(jù)驅(qū)動建模至少要經(jīng)歷3個基本步驟：

1）通過電力領(lǐng)域理論分析或工程經(jīng)驗確定待建模問題的特征因素和模型標簽，即確定問題的輸入、輸出。

2）分析現(xiàn)有數(shù)據(jù)能否滿足建模要求，若不能滿足要求，需擴大數(shù)據(jù)采集范圍或采用實驗手段進行數(shù)據(jù)補充。

3）算法研究既可以采用數(shù)理統(tǒng)計等傳統(tǒng)方法，也可以采用包含深度學習在內(nèi)的機器學習算法，目前較多采用多種方法融合的智能算法，通過訓練和測試建立從輸入特征到輸出標簽的映射模型，并進行模型性能驗證。

3.3 數(shù)據(jù)驅(qū)動建模的優(yōu)勢與風險

從上述步驟可知，與理論建模相比，數(shù)據(jù)驅(qū)動建模是一種能夠融合理論、實驗、數(shù)據(jù)三大研究方式優(yōu)勢的建模方法。當前，人工智能、芯片、大數(shù)據(jù)等國家戰(zhàn)略的實施，促進了數(shù)據(jù)驅(qū)動建模所需的算法、算力和數(shù)據(jù)的快速發(fā)展，因此，數(shù)據(jù)驅(qū)動建模具有良好的發(fā)展前景。尤其是模型具有應用速度快的優(yōu)點，促進了其在實時問題中的應用。

然而，數(shù)據(jù)驅(qū)動建模能否成功，既與問題本身難度有關(guān)，也與數(shù)據(jù)本身的數(shù)量和質(zhì)量有關(guān)，還與選擇的智能算法有關(guān)。智能算法本身無法對依賴于數(shù)據(jù)的模型質(zhì)量進行全面的評價和反饋。理論上，只要有數(shù)據(jù)和算法，總能訓練出模型，而模型是否準確反映了問題只能依靠測試進行驗證。過擬合、欠擬合是數(shù)據(jù)驅(qū)動建模中常見的問題，通常采用增大訓練和測試樣本來避免，但依然很難徹底解決［27］。若不精心設計驗證集，過擬合問題甚至很難發(fā)現(xiàn)，其表現(xiàn)為：模型在訓練集和測試集上表現(xiàn)出很好的泛化能力，而在之外的樣本上卻不能很好地擬合。綜上，目前數(shù)據(jù)驅(qū)動建立的模型，科學性既無法理論證明，也無法窮盡測試，所以數(shù)據(jù)驅(qū)動建?？偸谴嬖谝欢ǖ娘L險。但是，當問題太復雜難以建立理論模型，或者理論模型過于復雜難以工程應用時，若恰好滿足數(shù)據(jù)驅(qū)動建模條件，嘗試數(shù)據(jù)驅(qū)動建模則可以為問題解決提供一種可能途徑。

4 電力領(lǐng)域數(shù)據(jù)驅(qū)動建模應重視的問題

1）建模需求

電力領(lǐng)域的數(shù)據(jù)驅(qū)動建模是目標導向、問題導向的應用性研究，因此確定需求是建模的首要任務。建模需求包括要解決的問題或要實現(xiàn)的模型功能，以及模型要達到的性能。但目前出現(xiàn)了一些只重視算法、而忽略了領(lǐng)域問題本身的研究，如未分析建模條件、建模依據(jù)，或者忽略了模型應用場景、模型性能。為防止建模失敗，需要在建模前進行建模需求分析，以最小代價確定是否適合數(shù)據(jù)驅(qū)動建模。

2）數(shù)據(jù)質(zhì)量和樣本數(shù)量

數(shù)據(jù)是數(shù)據(jù)驅(qū)動建模的根本基礎(chǔ)。保證樣本數(shù)量和數(shù)據(jù)質(zhì)量是降低模型風險的重要手段之一。傳感器與傳感技術(shù)的發(fā)展與進步，確實為獲得高質(zhì)量的工程數(shù)據(jù)提供了條件，然而電網(wǎng)絕大部分時間是正常運行的，工程數(shù)據(jù)的價值密度偏低。對于電網(wǎng)故障和異常問題的研究，樣本往往需要通過數(shù)字仿真技術(shù)或理論模型計算來獲得，因此充裕的樣本積累是數(shù)據(jù)驅(qū)動建模中最為耗時的。樣本數(shù)量不足將導致模型欠擬合或過擬合，是容易被發(fā)現(xiàn)并解決的；但不同類型樣本數(shù)量偏斜導致的過擬合，不容易被發(fā)現(xiàn)，尤其是文本、圖像類數(shù)據(jù)，對其進行數(shù)據(jù)評估較為困難，研究還比較欠缺。

3）數(shù)據(jù)預處理

一般文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過預處理后再進行建模。某些結(jié)構(gòu)化數(shù)據(jù)根據(jù)具體問題的不同也需要進行預處理，即根據(jù)不同數(shù)據(jù)項的價值、作用、獲取頻度、質(zhì)量、相關(guān)性等差異，對初始數(shù)據(jù)進行轉(zhuǎn)化、融合、重新組織等預處理，可以提高模型性能。然而，預處理方法會對模型性能產(chǎn)生較大影響，因此數(shù)據(jù)預處理方法也需要進行對比后選擇。

4）算法選擇

由于近年來常采用人工智能算法進行數(shù)據(jù)驅(qū)動建模，而算法的發(fā)展又非?？焖?，因此容易出現(xiàn)以下兩種情況：一種只用熟悉的方法；另一種只用最新的方法。對于具體問題來說，只有算法自身的優(yōu)缺點與問題相匹配才是最合適的算法，脫離具體問題討論什么算法更好是無意義的［27］。因此，算法選擇要有依據(jù)，并通過比較進行驗證。

5）模型驗證

模型驗證是降低數(shù)據(jù)驅(qū)動建模風險的最有效途徑之一。目前的模型驗證往往是為了表明模型正確，然而數(shù)據(jù)驅(qū)動建模的風險已表明，模型既無法理論證明也無法窮盡測試，因此，對于要進行工程應用的模型來說，驗證的目的應是找出模型潛在的錯誤。只有正確認識驗證目的以及驗證具有不徹底的特性，才能精心設計最能暴露錯誤的樣本構(gòu)成驗證集。由于智能算法的內(nèi)部結(jié)構(gòu)及處理過程復雜，難以通過邏輯路徑覆蓋設計樣本，所以一般采用黑盒測試法設計樣本。具體地，通過分析模型各種應用場景的輸入、輸出數(shù)據(jù)，綜合采用等價類劃分法、邊界值分析法、錯誤猜測法等方法設計驗證樣本，用有限的樣本去發(fā)現(xiàn)盡可能多的錯誤。等價類劃分法、邊界值分析法是黑盒測試中常用的方法，不僅能驗證模型在正確輸入情況下是否能獲得正確的輸出，還能驗證在不正確輸入情況下是否有不應該的輸出。驗證過程中若發(fā)現(xiàn)有不正確的輸出，需要分析原因，從中總結(jié)出影響模型的因素，并針對性地進行改進和解決。訓練樣本數(shù)量不足、應用場景分析不足導致樣本偏斜或者算法不合適，都可能造成模型不準確，因此驗證集需要嚴謹分析、精心設計，隨機選擇一些典型樣本進行驗證是難以表明模型正確性的。

5 結(jié)語

雖然在負荷預測等問題上，數(shù)據(jù)驅(qū)動建模已有較長的研究歷史，但電力領(lǐng)域業(yè)務面廣量多，總體上數(shù)據(jù)驅(qū)動建模經(jīng)驗還相對缺乏，建模失敗難以完全避免，因此及時總結(jié)建模經(jīng)驗非常必要。

新型電力系統(tǒng)的發(fā)展以及智能化要求的提升，越來越多的建模需求被提出。數(shù)據(jù)驅(qū)動建模成功案例的示范將會激發(fā)越來越多數(shù)據(jù)驅(qū)動建模研究。本文針對理論建模性能欠佳問題和基于非結(jié)構(gòu)化數(shù)據(jù)的特定業(yè)務建模問題，介紹了數(shù)據(jù)驅(qū)動建模的實踐情況，總結(jié)了對數(shù)據(jù)驅(qū)動建模的理解和體會。

電力系統(tǒng)有高可靠性的要求，不適合的建模需求或不恰當?shù)慕＿^程都可能誤導業(yè)務人員甚至危害電網(wǎng)安全。但是，對于機理分析太復雜、數(shù)學模型未知或不確定性很大的問題，還是可以嘗試進行數(shù)據(jù)驅(qū)動建模，即使建模不成功也可以從原因分析中獲得啟迪。為此，對電力領(lǐng)域數(shù)據(jù)驅(qū)動建模的綜合建議是大膽嘗試、小心求證。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡