国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于k-shape算法的行業(yè)典型負(fù)荷特征研究

2022-10-27 03:13國(guó)網(wǎng)四川省營(yíng)銷(xiāo)服務(wù)中心王良之姚岱州馬浩原
電力設(shè)備管理 2022年18期
關(guān)鍵詞:降維刻畫(huà)聚類(lèi)

國(guó)網(wǎng)四川省營(yíng)銷(xiāo)服務(wù)中心 王良之 姚岱州 馬浩原

1 引言

2020年迎峰度冬受寒潮和電煤供應(yīng)短缺的影響,電力供需形勢(shì)嚴(yán)峻。開(kāi)展重點(diǎn)行業(yè)典型負(fù)荷特征研究,為提升電力市場(chǎng)分析預(yù)測(cè)、實(shí)施需求側(cè)響應(yīng),以及準(zhǔn)確把握負(fù)荷供需形勢(shì)奠定技術(shù)基礎(chǔ)。文獻(xiàn)[1]利用反映負(fù)荷特征的向量,通過(guò)聚類(lèi)方式對(duì)負(fù)荷開(kāi)展分類(lèi),提升了短期負(fù)荷預(yù)測(cè)準(zhǔn)確率。另外,掌握行業(yè)負(fù)荷特征,也將有利于開(kāi)展對(duì)重要工業(yè)客戶(hù)的用能結(jié)構(gòu)和成本分析,為進(jìn)一步做好綜合能源服務(wù)和開(kāi)展電力市場(chǎng)交易奠定基礎(chǔ),成為經(jīng)營(yíng)效益的重要抓手。

電力負(fù)荷曲線(xiàn)的特征研究中,往往以曲線(xiàn)聚類(lèi)為研究起點(diǎn),目前常用的電力負(fù)荷曲線(xiàn)聚類(lèi)的方法有k 均值聚類(lèi)、層次聚類(lèi)、模糊C 均值聚類(lèi)、動(dòng)態(tài)時(shí)間彎曲距離(DTW),以及以此為基礎(chǔ)改進(jìn)的算法,這些算法多以歐式距離作為相似性判距的方式,難以識(shí)別曲線(xiàn)形態(tài)。因此,刻畫(huà)曲線(xiàn)形態(tài)成為聚類(lèi)的關(guān)鍵。另外,使用傳統(tǒng)聚類(lèi)方法對(duì)96點(diǎn)負(fù)荷數(shù)據(jù)進(jìn)行聚類(lèi),計(jì)算量大,分類(lèi)效果未必有很大的提升。

電力負(fù)荷曲線(xiàn)采集頻率精細(xì)化,有利于負(fù)荷分析,然而也帶來(lái)了高維數(shù)據(jù)計(jì)算量大的問(wèn)題。負(fù)荷曲線(xiàn)96點(diǎn)采集頻次,雖然對(duì)于區(qū)分刻畫(huà)負(fù)荷曲線(xiàn)的差異有幫助,也同樣增加了噪聲因素,給聚類(lèi)分析帶來(lái)不便,影響分析結(jié)果。因此,如何對(duì)負(fù)荷曲線(xiàn)提取有效特征,成為分析負(fù)荷的關(guān)鍵核心,而如何開(kāi)展對(duì)負(fù)荷曲線(xiàn)特征的分類(lèi),正是聚類(lèi)分析所研究的命題。因此,有效提取特征,也成為聚類(lèi)分析的起點(diǎn)[2]。

本文基于k-shape 的聚類(lèi)算法,對(duì)負(fù)荷序列進(jìn)行聚類(lèi),此算法提出基于時(shí)間序列形態(tài)相似性的距離度量方式,并采用一種新的聚類(lèi)中心計(jì)算方式提取每類(lèi)簇的負(fù)荷曲線(xiàn)形態(tài)。類(lèi)似其他文獻(xiàn)的做法[3],筆者在進(jìn)行聚類(lèi)之前,對(duì)負(fù)荷數(shù)據(jù)進(jìn)行了降維處理,基于負(fù)荷曲線(xiàn)的波動(dòng)特性,采取分段刻畫(huà)曲線(xiàn)特征,從而降低了曲線(xiàn)數(shù)據(jù)維度。另外,對(duì)比了其他降維方法或選取特征指標(biāo)的方式,開(kāi)展對(duì)負(fù)荷特征的聚類(lèi),結(jié)果表明從聚類(lèi)有效性指標(biāo)判斷,k-shape 算法與k-means、DTW 算法相比綜合表現(xiàn)更佳。

2 算法原理

2.1 時(shí)間序列形態(tài)相似性度量

在進(jìn)行時(shí)間序列相似度計(jì)算時(shí),通常采用以下兩種方式:一是歐式距離,可以進(jìn)行同等維度下的時(shí)間序列相似性的比較,但其對(duì)噪聲和異常點(diǎn)較敏感。二是動(dòng)態(tài)時(shí)間彎曲距離(DTW),允許時(shí)間序列彎曲時(shí)間軸,可以度量不同維度下的時(shí)間序列的相似性,計(jì)算量較大,結(jié)果并不理想。為此,考慮使用互相關(guān)作為相似性判斷方式,互相關(guān)是用來(lái)比較兩個(gè)序列x=[x1,x2,...,xm]與y=[y1,y2,...,ym]相似性的一種統(tǒng)計(jì)測(cè)度方式。

理論上來(lái)看,同一類(lèi)型的電力負(fù)荷,如同一個(gè)行業(yè)或同一家企業(yè)產(chǎn)生的負(fù)荷曲線(xiàn),其形態(tài)特征及時(shí)序特征應(yīng)該相似,除開(kāi)外部敏感因素導(dǎo)致的差異可能對(duì)負(fù)荷特征造成影響。如果將具有相同形態(tài)的但存在時(shí)域差異的負(fù)荷曲線(xiàn),進(jìn)行平移。其不同時(shí)域下相似形態(tài)的曲線(xiàn)并為一個(gè)曲線(xiàn)類(lèi)別,能更好地歸并用戶(hù)用電模式。有鑒于此,為比較不同負(fù)荷曲線(xiàn)的相關(guān)關(guān)系,將樣本X 的時(shí)間窗口適度平移使之與Y 全局對(duì)齊,以便進(jìn)行兩序列全局形狀特征的比較。計(jì)算平移s 后的時(shí)間序列X,s為平移量,由此得出互相關(guān)序列CW(X,Y)=[c1,c2,...,cw],其中,cw=Rw-m(X,Y),w ∈{1,2,...,2m-1}。

計(jì)算當(dāng)cw達(dá)到最大值時(shí)w 的位置,相對(duì)于Y,X 的最佳位移量s=w-m。最后將互相關(guān)系數(shù)歸一化,互相關(guān)系數(shù)在-1,1之間,互相關(guān)系數(shù)越大,兩個(gè)序列正相關(guān)度越高,基于以上計(jì)算,提出時(shí)間序列相似性判斷D 距離量度的方法,即:

2.2 時(shí)間序列聚類(lèi)中心的計(jì)算

聚類(lèi)中心代表時(shí)間序列曲線(xiàn)形態(tài)特征,k-means 通過(guò)計(jì)算每類(lèi)數(shù)據(jù)中各個(gè)坐標(biāo)序列相對(duì)應(yīng)數(shù)值的算術(shù)平均值來(lái)提取每類(lèi)簇聚類(lèi)中心,容易受到極端數(shù)據(jù)的污染。因此,提取聚類(lèi)中心可以看作是一個(gè)優(yōu)化選擇問(wèn)題,通過(guò)找尋與每類(lèi)時(shí)間序列平方和最小的序列:

其中,c*為使用該方法提取的最終聚類(lèi)中心,ui是數(shù)據(jù)序列,c為尋優(yōu)迭代的聚類(lèi)中心。該式表明,最優(yōu)聚類(lèi)中心,擁有最大互相關(guān)系數(shù)。

3 K-shape 算法步驟

基于上述理論描述,利用互相關(guān)方法找出類(lèi)的中心,迭代進(jìn)行,聚類(lèi)的具體步驟如下:

第一步:制定聚類(lèi)數(shù)k,初始化每類(lèi)聚類(lèi)中心c。輸入預(yù)處理后的負(fù)荷數(shù)據(jù)。第二步:利用公式(1)依次計(jì)算負(fù)荷集中每一個(gè)負(fù)荷ui到各類(lèi)中心c 的距離D,并將ui歸入到和c 聚類(lèi)最小的類(lèi)i 中。第三步:利用公式(2)提取每類(lèi)聚類(lèi)形態(tài)特征及每類(lèi)聚類(lèi)中心。第四步:重復(fù)第二步和第三步。設(shè)n為最大迭代次數(shù),當(dāng)達(dá)到最大迭代次數(shù)或者每類(lèi)曲線(xiàn)集合不再發(fā)生變化時(shí),停止迭代。第五步:輸出分類(lèi)結(jié)果。

4 分析過(guò)程

利用部分國(guó)民經(jīng)濟(jì)主要行業(yè)近兩年每日的96點(diǎn)負(fù)荷數(shù)據(jù),使用k—shape 算法進(jìn)行聚類(lèi)??紤]到電力數(shù)據(jù)的高維特征,考慮將負(fù)荷數(shù)據(jù)依據(jù)某種特征降維。如平均分段法,把負(fù)荷曲線(xiàn)分段聚合近似的方法來(lái)降低維度,具體來(lái)講,將時(shí)間序列平均分段,比如將96點(diǎn)負(fù)荷數(shù)據(jù)劃分為48點(diǎn)或24點(diǎn)數(shù)據(jù),利用平均分段后的子序列的均值重構(gòu)原始數(shù)據(jù)序列以實(shí)現(xiàn)數(shù)據(jù)的降維處理。然而,使用將時(shí)間序列平均分段并利用子序列的均值近似原始數(shù)據(jù)以實(shí)現(xiàn)數(shù)據(jù)降維的方式,對(duì)波動(dòng)劇烈的時(shí)間序列,會(huì)丟失很多特征信息。如同平均值容易受到異常值的影響,對(duì)原始數(shù)據(jù)的信息刻畫(huà)存在失真一樣。這樣的重構(gòu)降維方式無(wú)法準(zhǔn)確反映原有序列的主要形態(tài)特征,從而使得曲線(xiàn)聚類(lèi)出現(xiàn)偏差。為此,需要其他量化曲線(xiàn)的特征的方法,這種方法對(duì)極端數(shù)據(jù)點(diǎn)不敏感,或者可以更有效地刻畫(huà)波動(dòng)型數(shù)據(jù)特征。從而通過(guò)有限的曲線(xiàn)特征值來(lái)捕捉原始曲線(xiàn)的高維信息,從而實(shí)現(xiàn)對(duì)高維數(shù)據(jù)的降維。

對(duì)高維曲線(xiàn)的降維,還是基于時(shí)間分段,并刻畫(huà)分段曲線(xiàn)的變化幅度和變化方向這一思路開(kāi)展降維處理。由于負(fù)荷曲線(xiàn)在不同時(shí)點(diǎn)上的變化不同,利用在固定時(shí)間窗口內(nèi),負(fù)荷曲線(xiàn)的極差,即固定時(shí)間窗口內(nèi),最大負(fù)荷與最小負(fù)荷的差。當(dāng)這個(gè)極差大于某個(gè)固定值的點(diǎn)的個(gè)數(shù)R,來(lái)刻畫(huà)曲線(xiàn)在固定時(shí)間內(nèi)的波動(dòng)程度。這個(gè)點(diǎn)在時(shí)間段內(nèi)出現(xiàn)的次數(shù)越多,表明波動(dòng)幅度越大。另外,除了刻畫(huà)曲線(xiàn)波動(dòng)幅度,還應(yīng)掌握曲線(xiàn)變化方向的信息?;谶B續(xù)曲線(xiàn)斜率,利用觀(guān)測(cè)點(diǎn)前后曲線(xiàn)的斜率變化情況,來(lái)刻畫(huà)該點(diǎn)是否為曲線(xiàn)顯著的拐點(diǎn),即斜率變化最大的邊緣點(diǎn)。對(duì)邊緣點(diǎn)的個(gè)數(shù)E 的統(tǒng)計(jì),將有利于衡量負(fù)荷曲線(xiàn)變化方向特征。具體做法如下:

第一步:將每段負(fù)荷曲線(xiàn)U 分成m 段,若負(fù)荷曲線(xiàn)是n 點(diǎn)數(shù)據(jù),則每段曲線(xiàn)有n/m 個(gè)數(shù)據(jù)點(diǎn),計(jì)算每段曲線(xiàn)內(nèi)的Ri(極差個(gè)數(shù))和Ei(邊緣點(diǎn)個(gè)數(shù)),最后計(jì)算曲線(xiàn)總的R 和E。

第二步:若R 小于閾值a 并且E 小于閾值b,則使用每段平均值代表每段曲線(xiàn)。表明曲線(xiàn)段本身波動(dòng)在可接受的范圍內(nèi),可由該段數(shù)據(jù)的平均值直接代替該段數(shù)據(jù),從而實(shí)現(xiàn)以一個(gè)數(shù)據(jù)刻畫(huà)一段數(shù)據(jù)的降維作用。若R 小于閾值a 并且E 大于閾值b,表明曲線(xiàn)段內(nèi)振幅不大,但曲線(xiàn)的斜率變化較為劇烈,則利用該段極大值或者極小值替代該段數(shù)據(jù)。

這種情況表明,該段曲線(xiàn)雖然波動(dòng)幅度不大,但在波動(dòng)范圍內(nèi),曲線(xiàn)趨勢(shì)發(fā)生較大變化,或由平緩變得傾斜,或由傾斜變?yōu)槠骄?。僅僅利用該段內(nèi)極大值或者極小值就可以刻畫(huà)這種變化特征。若在其他曲線(xiàn)中出現(xiàn)類(lèi)似變化,則該段時(shí)間內(nèi)的相似曲線(xiàn)極大或極小值會(huì)更為接近。若R 大于閾值a 并且E 大于閾值b,則保留原始數(shù)據(jù)。如此,該段曲線(xiàn)振幅較大,趨勢(shì)變化劇烈,直接用原始數(shù)據(jù)點(diǎn)表達(dá)這種異質(zhì)性。簡(jiǎn)言之,無(wú)振幅的數(shù)據(jù),以一代眾,降維顯著,有振幅有變向的數(shù)據(jù)保留原始,不降維。

第三步,通過(guò)R 和E 刻畫(huà)現(xiàn)有曲線(xiàn),計(jì)算現(xiàn)有數(shù)據(jù)的維度,若數(shù)據(jù)所降維度沒(méi)有滿(mǎn)足要求,則擴(kuò)大閾值a 和b,繼續(xù)進(jìn)行第二步,直到降維數(shù)據(jù)滿(mǎn)足要求。擴(kuò)大a 和b 會(huì)使得曲線(xiàn)振幅和方向性減弱,平均點(diǎn)刻畫(huà)的情況增多,原始點(diǎn)刻畫(huà)的情況減少,從而進(jìn)一步減少維度數(shù)。

為了便于與傳統(tǒng)方法比較,使用負(fù)荷曲線(xiàn)的統(tǒng)計(jì)數(shù)值特征,來(lái)刻畫(huà)原始數(shù)據(jù)并參與聚類(lèi),同樣起到了數(shù)據(jù)降維的作用。或者采用主成分分析方法先對(duì)負(fù)荷進(jìn)行降維,再把降維之后的數(shù)據(jù)進(jìn)行聚類(lèi)。前者做法中,分別選取了負(fù)荷數(shù)據(jù)的統(tǒng)計(jì)特征,如均值、方差、變異系數(shù)、斜率、端點(diǎn)值等來(lái)刻畫(huà)負(fù)荷數(shù)據(jù)的曲線(xiàn)特征。后者做法上,使用主成分分析法,將96點(diǎn)負(fù)荷數(shù)據(jù)進(jìn)行了降維,對(duì)降維之后的數(shù)據(jù)進(jìn)一步開(kāi)展了負(fù)荷聚類(lèi)。從多項(xiàng)評(píng)價(jià)指標(biāo)來(lái)看,k-shape 算法呈現(xiàn)出一定的算法穩(wěn)健特性。下文以某金屬品制造行業(yè)為例,分析分類(lèi)的結(jié)果,圖1顯示該行業(yè)聚類(lèi)得到的典型曲線(xiàn)。

圖1 某金屬品制造96點(diǎn)負(fù)荷曲線(xiàn)的聚類(lèi)

聚類(lèi)評(píng)價(jià)指標(biāo)上選取了SIL 指標(biāo)、DBI 指標(biāo)和CP 指標(biāo)進(jìn)行聚類(lèi)效果評(píng)價(jià),具體見(jiàn)表1。其中,SIL指標(biāo)將單個(gè)樣本與同簇樣本相似程度和其他類(lèi)簇樣本相似程度進(jìn)行比較,SIL 指標(biāo)越高,聚類(lèi)效果越好。DBI 指標(biāo)計(jì)算簇內(nèi)部距離之和與類(lèi)外距離之比,其指標(biāo)值越小,聚類(lèi)效果越佳。CP 指標(biāo)通過(guò)計(jì)算樣本集,每個(gè)樣本到該數(shù)據(jù)集聚類(lèi)中心的平均距離來(lái)判斷每類(lèi)簇緊密程度,指標(biāo)值越低,聚類(lèi)效果越好。

表1 各種算法的效果比較

首先,輸入降維數(shù)據(jù),使用三種算法分別開(kāi)展聚類(lèi)分析,在不同聚類(lèi)類(lèi)別數(shù)時(shí)呈現(xiàn)的聚類(lèi)評(píng)價(jià)如下:從聚類(lèi)有效性指標(biāo)來(lái)看,k—shape 算法與其余兩種算法綜合相比,在不同簇類(lèi)上,SIL 的值相對(duì)較大,DBI 值相對(duì)較小,CP 值相對(duì)更小,說(shuō)明較k-means和DTW 算法而言,k-shape 算法的表現(xiàn)更佳。

其次,在上述幾種算法的基礎(chǔ)上,區(qū)分了降維方式,對(duì)比不同降維方式下的分類(lèi)效果。計(jì)算了該行業(yè)所有負(fù)荷曲線(xiàn)的統(tǒng)計(jì)指標(biāo),用以描述其曲線(xiàn)特征,所有負(fù)荷數(shù)據(jù)進(jìn)行了標(biāo)幺化處理后,做了描述性統(tǒng)計(jì)分析,選取了平均值、方差、極差、變異系數(shù)、中位數(shù)等五個(gè)主要的統(tǒng)計(jì)指標(biāo)。在統(tǒng)計(jì)指標(biāo)的基礎(chǔ)上,進(jìn)行了k-means 算法的聚類(lèi)。

另外,通過(guò)主成分分析法,將所有負(fù)荷數(shù)據(jù)進(jìn)行了降維,前4個(gè)成分的信息總和超過(guò)70%,因此選取前4個(gè)成分進(jìn)行k-means 聚類(lèi),并且通過(guò)與DTW 等算法進(jìn)行了比較。以SIL 指標(biāo)的取值為評(píng)價(jià)依據(jù),分析結(jié)果見(jiàn)表2。

表2 不同數(shù)據(jù)處理方式的效果比較

以SIL 指標(biāo)為依據(jù),統(tǒng)計(jì)指標(biāo)降維方式和主成分降維方式,并未在不同算法中并未體現(xiàn)出明顯的優(yōu)勢(shì),表明上述兩種方式的降維對(duì)于刻畫(huà)曲線(xiàn)形態(tài)的作用不明顯,另外使用k-shape 算法對(duì)原始數(shù)據(jù)和降維數(shù)據(jù)聚類(lèi)的對(duì)比依然顯示了較強(qiáng)的穩(wěn)健性。

5 結(jié)語(yǔ)

針對(duì)電力負(fù)荷數(shù)據(jù)高維度,多形態(tài)的特征和傳統(tǒng)算法的局限性,k—shape 的聚類(lèi)算法顯示出了一定的優(yōu)勢(shì)。一方面在與k-means、DTW 算法的比較中顯示較好的聚類(lèi)特性。另一方面,考慮到降維帶來(lái)的實(shí)際工作效率提升,同時(shí)對(duì)比了不同算法對(duì)降維數(shù)據(jù)的聚類(lèi)效果,結(jié)果表明k-shape 算法較其他算法更為穩(wěn)健,且以統(tǒng)計(jì)指標(biāo)、成分分析作為負(fù)荷曲線(xiàn)形態(tài)刻畫(huà)的方式和降維思路,在聚類(lèi)效果上并未有所提升。本文對(duì)算法的驗(yàn)證,有助于深刻把握電力負(fù)荷的行為模式和曲線(xiàn)特征,在分時(shí)電價(jià)模式下制定購(gòu)售電策略,負(fù)荷預(yù)測(cè)等方面有實(shí)際作用,未來(lái)針對(duì)高維負(fù)荷數(shù)據(jù)的形態(tài)刻畫(huà)和聚類(lèi)效率提升,仍有較大的研究空間。

猜你喜歡
降維刻畫(huà)聚類(lèi)
一種傅里葉域海量數(shù)據(jù)高速譜聚類(lèi)方法
混動(dòng)成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
基于數(shù)據(jù)降維與聚類(lèi)的車(chē)聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用
大氣腐蝕數(shù)據(jù)降維最優(yōu)維度研究
降維打擊
刻畫(huà)人物如何『傳神』
面向WSN的聚類(lèi)頭選舉與維護(hù)協(xié)議的研究綜述
刻畫(huà)細(xì)節(jié),展現(xiàn)關(guān)愛(ài)
刻畫(huà)細(xì)節(jié),凸顯人物
改進(jìn)K均值聚類(lèi)算法
海阳市| 松潘县| 抚远县| 博乐市| 罗田县| 调兵山市| 通化市| 宕昌县| 嘉兴市| 麻江县| 泗阳县| 定陶县| 于田县| 塘沽区| 景德镇市| 渭南市| 陵川县| 二连浩特市| 内黄县| 松溪县| 偃师市| 那坡县| 沙坪坝区| 瑞丽市| 当阳市| 安乡县| 西乌珠穆沁旗| 通榆县| 思茅市| 广昌县| 五寨县| 咸宁市| 和硕县| 凌海市| 浦县| 阿拉尔市| 麻城市| 黔江区| 惠来县| 临颍县| 清水河县|