陳娟,惠東,范茂松,胡娟,褚永金
(中國電力科學(xué)研究院有限公司, 北京 100085)
儲能技術(shù)具有很高的戰(zhàn)略地位,世界各國一直都在不斷支持儲能技術(shù)的研究和應(yīng)用[1-2]。2018年全球儲能電站部署容量約為150 GW·h,預(yù)計2030年儲能容量將增至380 GW·h[3]。同時,由于磷酸鐵鋰電池成本的下降,中國新建儲能電站通常采用磷酸鐵鋰電池的方案。照此趨勢發(fā)展,儲能電站在線檢測技術(shù)的應(yīng)用市場需求會隨著新儲能電站的建設(shè)和舊儲能電站的維護而逐年增大。
儲能電站從運營的初始階段至全壽命周期結(jié)束會產(chǎn)生海量的數(shù)據(jù)信息。電站的結(jié)構(gòu)和特點決定了其數(shù)據(jù)量比光伏電站更加龐大,一個50 MW/100 MW·h的磷酸鐵鋰儲能電站由十幾萬節(jié)電池單體組成,僅電池管理系統(tǒng)(battery management system, BMS)[4]一個月的數(shù)據(jù)量即可達 25 GB,一年的數(shù)據(jù)量可達300 GB,全生命周期的數(shù)據(jù)量可以達到3 TB。這樣龐大的數(shù)據(jù)不僅會占用大量的磁盤和數(shù)據(jù)存儲空間,對于在線數(shù)據(jù)處理和電站的機器自動評估更提出了巨大挑戰(zhàn)。電站的在線評估數(shù)據(jù)挖掘工作需要有重點有層次地進行。對于儲能電站的海量數(shù)據(jù),在挖掘之前需要將數(shù)據(jù)分類成頻繁精細處理的數(shù)據(jù)及對象和普通手段處理的數(shù)據(jù)及對象。處理挖掘的過程根據(jù)分類的結(jié)果有繁有簡,這樣在線處理算法和數(shù)據(jù)處理方法將被主要應(yīng)用于選定的特定數(shù)據(jù)集,從而忽略另一些數(shù)據(jù)或者將其他數(shù)據(jù)只做基本邏輯和閾值的判斷。
針對上述問題,本文提出利用粗糙集方法對數(shù)據(jù)屬性進行約簡,將單體電池劃分為頻繁檢測對象和普通檢測對象,從而壓縮在線處理的數(shù)據(jù)量。在此基礎(chǔ)上,選取某儲能電站特定工況下一個電池簇的實測數(shù)據(jù)進行驗證,證明方法的有效性。
儲能電站采集的數(shù)據(jù)中主要包括BMS數(shù)據(jù)、儲能變流器(power conversion system, PCS)數(shù)據(jù)和調(diào)度策略等數(shù)據(jù),其中占比最大的是BMS數(shù)據(jù)。以一個儲能電池簇[5]的BMS數(shù)據(jù)為例,包括占據(jù)絕大多數(shù)的單體電壓、溫度信息,以及上百單體數(shù)據(jù)組成的簇電壓、電流、溫度、荷電狀態(tài)(state of charge, SOC)SOC等信息。電池單體為儲能電站在線評測的最小單元。單體電池的開路電壓(open circuit voltage, OCV)VOC與電池的SOC具有一一對應(yīng)關(guān)系。SOC是直接反應(yīng)單體電池可用容量的物理量,但是在磷酸鐵鋰電池的主要充放電工作區(qū)間,SOC取值為10%~98%,VOC的變化只有160 mV,并且在線情況下難以準確獲取,如圖1SOC-VOC曲線所示。由于傳感器和電路采集精度的問題,目前市面上主流的電壓采集方案的精度為±2 mV[6],這種精度難以滿足磷酸鐵鋰電池在平坦區(qū)和識別區(qū)的荷電狀態(tài)的分析[7]。差分電壓分析[8-9]( differential voltage analysis,DVA)是一種廣泛使用的用來提取電池特征的方法,即利用dV值可以反映電池電壓相對電池容量的變化率[10-11]。dV值是反映電池狀態(tài)的靈敏且實時性高的參數(shù),DVA可以規(guī)避電池電壓在線測量不準確的問題。單體溫度值T是直接反應(yīng)電池安全的參數(shù),溫度值包含電池充放電自身發(fā)熱的信息,也包含結(jié)構(gòu)散熱設(shè)計和電池空間位置的信息。以上數(shù)據(jù)在線測量精度不夠,另外,一簇電池的樣本量高達幾百個,它們在同一采集時刻所展現(xiàn)的同類數(shù)據(jù)是不一致的。
圖1 磷酸鐵鋰電池SOC-VOC曲線Fig. 1 SOC-VOC curve of lithium-iron phosphate battery
針對儲能電站數(shù)據(jù)量大,數(shù)據(jù)本身不精確、不一致的特點,在不增加硬件成本的前提下,為了實現(xiàn)在線評估的實時性和準確性,需要結(jié)合數(shù)據(jù)挖掘的數(shù)學(xué)方法對有效參數(shù)進行識別,對數(shù)據(jù)本身進行簡化,對研究對象進行分類,這是在線評估技術(shù)研究的重點。粗糙集理論作為一種適用于不精確(imprecise)、不一致(inconsistent)、不完整(incomplete)等各種不完備信息的有效工具,其優(yōu)點一方面是其數(shù)學(xué)基礎(chǔ)成熟,不需要先驗知識;另一方面是簡單易用。由于粗糙集理論創(chuàng)建的目的和研究的出發(fā)點就是直接對數(shù)據(jù)進行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律,因此是一種天然的數(shù)據(jù)挖掘或者知識發(fā)現(xiàn)方法。它與基于概率論的數(shù)據(jù)挖掘方法、基于模糊理論的數(shù)據(jù)挖掘方法和基于證據(jù)理論的數(shù)據(jù)挖掘方法等處理不確定性問題理論的方法相比較,最顯著的區(qū)別是它不需要提供問題所需處理的數(shù)據(jù)集合之外的任何先驗知識,而且與處理其他不確定性問題的理論有很強的互補性。
粗糙集理論由波蘭數(shù)學(xué)家Z.Pawlak 于1982年提出,通過結(jié)合邏輯學(xué)和哲學(xué)中對不精確、模糊的定義,針對知識和知識系統(tǒng)提出了知識約簡、知識依賴、知識表達系統(tǒng)等概念,并在此基礎(chǔ)上形成了較完整的理論體系—粗糙集理論。粗糙集理論[12]把知識看作關(guān)于論域的劃分,是研究數(shù)據(jù)集合分類的理論。
可約簡關(guān)系是在保持知識系統(tǒng)分類能力不變的條件下,可刪除的不相關(guān)或不重要的關(guān)系。R為等價關(guān)系集合,等價關(guān)系r∈R,若ind(R)=ind(R-r),則稱r為R中的不必要等價關(guān)系,即可約簡關(guān)系。R中所有必要關(guān)系組成的集合稱為核,記為core (R)[12]。關(guān)系屬性約簡的過程就是求知識系統(tǒng)核屬性的過程。
利用粗糙集理論對數(shù)據(jù)進行分類,考慮對在線數(shù)據(jù)分類的重復(fù)穩(wěn)定性做出定義,引入時域因素,集合樣本X={x1,x2,··· ,xn}對于時刻t1的分類與時刻t2的分類計為
不同時刻的分類重復(fù)率記為η,則
在粗糙集理論中,一個知識表達系統(tǒng)可表示為S=(U, R, V, f),其中U為論域,R為屬性集合,V為屬性值集合,f為一個信息函數(shù),其對象的每個屬性賦予一個信息值。決策表是一類特殊而重要的知識表達系統(tǒng)。設(shè)S=(U, R, V, f)為一個知識表達系統(tǒng),R=C∪D,C∩D= ?,稱C為條件屬性集,D為決策屬性集。具有條件屬性集和決策屬性集的知識系統(tǒng)稱為決策表。
目前,粗糙集已經(jīng)在信息領(lǐng)域、人工智能、管理科學(xué)、醫(yī)學(xué)、化學(xué)、材料學(xué)和地理學(xué)等方面得到成功應(yīng)用。儲能電站的海量數(shù)據(jù)受到采樣精度的影響,在工作狀態(tài)下不同電池的測量值會有離散度。簇內(nèi)幾百節(jié)電池的樣本量又可以利用統(tǒng)計學(xué)分布揭示電池數(shù)據(jù)規(guī)律,因此將粗糙集理論與統(tǒng)計分布學(xué)理論[13-14]相結(jié)合來分析電站的海量數(shù)據(jù)是非常適合的。
粗糙集的思想是在保持論域分類不變的前提下盡可能地減少屬性[15]。與決策無關(guān)的屬性在很大程度上會增加計算復(fù)雜度[16]。屬性約簡的方法主要有2種:(1)采用學(xué)習(xí)算法來評估所選擇的屬性子集[17];(2)根據(jù)屬性重要度或者信息增益等選擇屬性[18-20]。利用粗糙集理論對儲能電站的海量數(shù)據(jù)做預(yù)處理,參見圖2的流程,處理數(shù)據(jù)時按照屬性的重要度已經(jīng)對屬性進行了約簡。
圖2 數(shù)據(jù)處理流程Fig. 2 Flow chart of data processing
本文選擇受觀察儲能電站的一個箱體中任一電池簇2019年5月12日的工況下的BMS數(shù)據(jù)作為待處理數(shù)據(jù),數(shù)據(jù)的更新頻率為每分鐘一次,電流值大于0為放電,小于0為充電,如圖3所示。圖3中紅色標出的時刻電流變化率大于50 A/min,選擇該時刻dV值作為待處理數(shù)據(jù),電池靜置1小時以后的單體數(shù)據(jù)作為VOC的取值。
圖3 電池簇電流工況Fig. 3 Current working conditions of a battery cluster
一個電池簇中能夠獨立的最小單元就是電池單體,電池單體也是作為整個系統(tǒng)安全的最小單元,該電池簇由224節(jié)磷酸鐵鋰單體電池組成,所以論域U={x1, x2,··,x224}。
dV值在電池簇充放電過程中變化靈敏,將dV作為研究對象的屬性之一;溫度值在充放電過程中變化較慢,但是溫度本身反映信息較多,包括空間位置信息、環(huán)境信息、電流積分信息等,因此將溫度T也作為對象的研究屬性之一。VOC是直接反映電池狀態(tài)的參數(shù)。儲能電站數(shù)據(jù)中停止充放電一段時間之后,才能獲取VOC值,并且在線測量通常獲取的只是VOC的一個點值,并非整條充放電曲線值。本文選擇放電結(jié)束一段時間單體電壓穩(wěn)定的VOC值作為對象的研究屬性。單體狀態(tài)屬性集合為C={dV,T,VOC},設(shè)置屬性C1=dV,C2=T,C3=VOC。
針對這224節(jié)磷酸鐵鋰單體樣本,進行統(tǒng)計學(xué)分析,按照統(tǒng)計學(xué)2σ原則對數(shù)據(jù)進行二元邏輯劃分,確定研究對象的屬性值。首先分別繪制單體電壓1分鐘變化值dV、溫度值T和OCV單體電壓值VOC的分布直方圖,分別如圖4~6所示,其中dV、T和VOC均符合正態(tài)分布[21],記作
圖4 dV分布Fig. 4 Statistical distribution of dV
圖5 溫度分布Fig. 5 Statistical distribution of temperature
圖6 VOC分布Fig. 6 Statistical distribution of VOC
3.3.1 單體電壓變化值 dV
選取放電電流變化較大時刻傳送的數(shù)據(jù)(圖1中紅色圈出時刻中的dV值)計算單體電壓的dV的均值和方差為
在本文儲能電池簇案例中根據(jù)式(8)(9)計算得到μdV=6 5 m V,σdV=5.5 m V, 視dV>(μdV+2σdV)與 dV<(μdV–2σdV)范圍為小概率事件。統(tǒng)計分布直方圖如圖4所示,在本案例中,dV=79、81、83、85、87 mV 這些離散度較大的數(shù)據(jù)都屬于重點觀察單體數(shù)據(jù),涉及單體15個,在分類過程中,將數(shù)據(jù)計為1(圖4中被紅色圈出的dV值);在置信區(qū)間(54,76)以內(nèi)的數(shù)據(jù)都記作0。
3.3.2 溫度值
選擇該電池簇64個溫度采集點中溫度最高的溫度點對應(yīng)的電池單體作為重點檢測對象,分布直方圖如圖5所示。最高溫度28℃對應(yīng)3個溫度傳感器,每個溫度傳感器對應(yīng)4節(jié)電池單體,共計12節(jié)單體電池,在邏輯分類中計作1(圖5中被紅色圈出的溫度值),其余電池溫度狀態(tài)記為0。
3.3.3 電壓值VOC
計算VOC的均值和方差為
根據(jù)式(10)(11)計算得到該時刻的電壓均值為 μVOC=3.223V,σVOC=3 m V,視Voc> μVOC+2σVOC與V<μVOC?2σVOC范圍為小概率事件,統(tǒng)計分布直方圖見圖6。其中VOC=3.215、3.216、3.231 V的單體在OCV邏輯狀態(tài)中被記作1(圖中被紅色圈出的電壓值),其余2σVOC置信區(qū)間以內(nèi)的OCV電壓單體被記作0。
知識表達系統(tǒng)S=(U, R, V, f),U為論域,R為屬性集合,V為屬性值的集合,f為等價關(guān)系。在儲能電池簇的數(shù)據(jù)處理中,論域U為224節(jié)單體的 合U={x1,x2,···,x224}, 條件屬性C={dV, T,VOC}包含3個屬性,并且條件屬性值都是二元邏輯值,所以由條件屬性決定的狀態(tài)集合最多有8種,論域U又可以劃分為單體狀態(tài)的集合U={X1, X2, X3, X4, X5, X6, X7, X8};D為決策屬性集合,D={是否作為系統(tǒng)頻繁檢測項},決策集合D中0代表不作為系統(tǒng)頻繁檢測項,1代表作為系統(tǒng)頻繁檢測項;R為屬性集合,R=C∪D;屬性值V按照以上二元邏輯劃分方法賦值。
結(jié)合200天的電站在線充放電數(shù)據(jù),分別用dV、T和VOC值給電池單體人工分類,得到如表1的分類統(tǒng)計,表中的百分數(shù)是224個樣本量的200天“最差”分類結(jié)果。由表1可以看出,dV和T的數(shù)據(jù)特點是絕大多數(shù)為“0”,少數(shù)為“1”,確定不了的可忽略不計;而VOC的數(shù)據(jù)特點是“0”和“1”的數(shù)據(jù)占比相差不多,而絕大多數(shù)屬于確定不了的數(shù)據(jù),也就是VOC判定為“0”時,決策屬性的狀態(tài)可以為“0”也可以為“1”,VOC判定為“1”時,決策屬性的狀態(tài)可以為“0”也可以為“1”,這使得VOC屬性在影響決策屬性的權(quán)重變得很小。
表1 200天數(shù)據(jù)分類Table 1 Data classification in 200 days
根據(jù)以上統(tǒng)計規(guī)律作屬性值的二元邏輯劃分,另外,根據(jù)5月份以前200天的電池簇的充放電數(shù)據(jù)人工分析的結(jié)果,生成決策表如表2所示。
表2 生成決策Table 2 Decisions
通過粗糙集原理,對屬性集進行約簡,找到核屬性,作為最終集合分類的屬性,具體步驟如下。
(1)U按照dV屬性分類得到,U/dV={{X1,X2,X3, X6},{X4,X5,X7,X8}}。
同時根據(jù)式(1),POSdV(X)=U/dV,NEGdV(X)= ? 。
(2)U按照T屬性分類得到,U/T= {{X1,X2,X4, X8},{X3, X5, X6, X7}}。
(3)U按照OCV屬性分類得到,U/VOC={{X2,X5,X6,X8},{X1,X3, X4,X7}}。
(4)U按照dV和T屬性分類得到,U/{dV,T}={{X1,X2},{X3,X6},{X4,X8},{X5,X7}}。
(5)U按照dV和VOC屬性分類得到,U/{dV,VOC}={{X1,X3},{X2,X6},{X4,X7},{X5,X8}}。
(6)U按照T和VOC屬性分類得到,U/{T,VOC}={{X1,X4},{X2,X8},{X3,X7},{X5,X6}}。
(7)U按照dV、T和VOC屬性分類得到,U/C={{X1},{X2},{X3},{X4},{X5},{X6},{X7},{X8}}。
(8)U按照決策屬性D分類得到,U/D={{X1,X2,X3,X4,X6,X8},{X5,X7}}。
(9)根據(jù)式(1),按照dV、T和VOC屬性和決策屬性D分類得到,POSC(XD)={X1}∪{X2}∪{X3}∪{X4}∪{X5}∪{X6}∪{X7}∪{X8}。
(10)同理,按照T、VOC和決策屬性D分類得到的正域,POS(C-dV)(XD) = {X1,X2,X4,X8} ≠POSCXD。
同理,按照dV、VOC和決策屬性分類得到的正域,POS(C-T)(XD) = {X1,X2,X3,X6} ≠POSC(XD)。
同理,按照T、dV和決策屬性D分類得到的正域, P OS(C?VOC)(XD)={X1,X2,X3,X4,X5,X6,X7,X8} =POSC(XD)。
綜上所述,VOC是可約簡屬性,對決策來說是冗余項。因為在線檢測的VOC數(shù)據(jù)由于傳感器的精度限制,它的值在做統(tǒng)計分析過程中是不穩(wěn)定的,這也是被約簡的本質(zhì)原因;而dV和T這兩個屬性只要符合電流變化較大的條件,程序設(shè)計中1min內(nèi)的電流變化量在0.25C(0.25倍的電池容量)以上,就能夠被在線系統(tǒng)檢測出來,成為可以被識別的有用數(shù)據(jù),并且展現(xiàn)出的規(guī)律是穩(wěn)定的。在物理意義上驗證了dV和T作為的核屬性而VOC值作為非核屬性的合理性。
不考慮dV和T屬性作出的分類結(jié)果如下。
上述結(jié)果并不能等于由條件屬性和決策屬性綜合分類的結(jié)果,所以,核屬性為dV和T,核屬性集合為core(dV+T)。
以表1為基準,約簡后的決策表準確度為(1?不確定分類的單體百分比之和)×100%,即(1?1.3%?3.5%)×100%=95.2%。
應(yīng)用核屬性可以將224節(jié)電池單體中分離出需要頻繁檢測的電池編號為{cell8, cell 22, cell 36,cell57, cell58, cell59, cell60, cell64, cell78, cell85,cell86, cell87, cell88, cell89, cell90, cell91, cell92,cell106, cell120, cell134, cell148, cell162, cell176,cell190, cell 204, cell218},見圖7中5月12號分類圖中所標示出的黃色色塊,共計26個需要頻繁檢測的單體,占總樣本量的11.6%。
圖7 分類對比Fig. 7 Comparison of two detection classes
用同樣的方法,處理2019年5月31日的數(shù)據(jù),分離出的需要頻繁檢測的電池編號為{ cell8,cell22, cell36, cell57, cell58, cell59, cell60, cell64,cell78, cell85, cell86, cell87, cell88, cell89, cell90,cell91, cell92, cell106, cell120, cell134, cell148, cell162,cell176, cell190, cell 204, cell218}∪{cell50, cell53,cell54, cell55, cell56, cell105, cell107, cell108}, 見圖7中5月31號分類圖中所標示出的黃色色塊,共計34個頻繁檢測單體,比5月12日的頻繁檢測項增加了8個cell,占總樣本量的15.2%。
根據(jù)式(4),分類重復(fù)率為η=[(224?8)/224]×100%=96.4%。同樣的方法處理2019年5月13—30日的數(shù)據(jù),分類重復(fù)率都在90%以上。
本文在對儲能電站海量數(shù)據(jù)進行數(shù)據(jù)挖掘之前,利用粗糙集理論和統(tǒng)計學(xué)理論對數(shù)據(jù)進行預(yù)處理。研究表明,這一處理方法可以大大減少在線處理的數(shù)據(jù)總量,并且預(yù)處理后的數(shù)據(jù)具有很高的保真性。綜合來看,本研究所給出的處理方法具有以下優(yōu)點。
(1)屬性約簡后,待處理的數(shù)據(jù)保持與原數(shù)據(jù)基本相同的分類屬性,使數(shù)據(jù)關(guān)系變得簡潔,邏輯處理變得容易。
(2)將屬性值利用統(tǒng)計學(xué)原理進行二元邏輯劃分后,設(shè)備內(nèi)存里的浮點屬性值可以轉(zhuǎn)化成邏輯值進行在線處理,大大減少了在線計算量。
(3)不同時刻的分類結(jié)果重復(fù)率高,結(jié)果穩(wěn)定。對于分類集合中的頻繁檢測單體和普通檢測單體,后續(xù)給它們賦予不同的數(shù)據(jù)處理周期,將進一步減小在線處理數(shù)據(jù)的壓力。
綜上,基于粗糙集的儲能電站海量數(shù)據(jù)處理方法具有較好的適用性及應(yīng)用價值,值得進一步開展深入研究。但是,由于在線采集數(shù)據(jù)的局限性,本文在數(shù)據(jù)分析過程中暫時沒有引入更多的電池屬性分析。因此,以粗糙集合理論為基本方法引入更多的屬性進行數(shù)據(jù)挖掘工作將是下一步的重點研究方向。