劉 姝,關(guān) 新,郭 瑞,陳 琳
(沈陽(yáng)工程學(xué)院 新能源學(xué)院,遼寧 沈陽(yáng)110136)
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的未知信息和知識(shí)的過(guò)程。粗糙集是數(shù)據(jù)挖掘的一種分類算法,粗糙集理論認(rèn)為知識(shí)是所有物種所具有分類的能力,對(duì)推理與決策具有重要的意義。知識(shí)必須與具體或抽象世界中特定部分相關(guān)的各種分類模式聯(lián)系在一起,這種特定部分稱為所討論的全域或論域。應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)風(fēng)電機(jī)組在運(yùn)行過(guò)程中產(chǎn)生的大量歷史數(shù)據(jù)進(jìn)行分析,應(yīng)用數(shù)據(jù)分類的方法構(gòu)建模型,發(fā)現(xiàn)風(fēng)電機(jī)組在運(yùn)行狀態(tài)時(shí)數(shù)據(jù)中存在的規(guī)律,進(jìn)行分類并對(duì)其趨勢(shì)進(jìn)行預(yù)測(cè),從而為專家系統(tǒng)提供決策依據(jù)。
采用基于粗糙集理論的數(shù)據(jù)挖掘方法進(jìn)行數(shù)據(jù)類別劃分,首先要獲取風(fēng)電機(jī)組運(yùn)行時(shí)的大量數(shù)據(jù),以1 MW風(fēng)電機(jī)組幾年來(lái)在風(fēng)場(chǎng)運(yùn)行的數(shù)據(jù)為例,把各種工況下運(yùn)行的歷史參數(shù)記錄組成數(shù)據(jù)庫(kù),構(gòu)成了數(shù)據(jù)挖掘的樣本數(shù)據(jù)集合。然后利用粗糙集理論的智能數(shù)據(jù)處理方法,無(wú)需先驗(yàn)專業(yè)知識(shí),便可從數(shù)據(jù)中發(fā)現(xiàn)蘊(yùn)含的知識(shí)模式,找出屬性間的依賴性。在保持分類能力的前提下,約簡(jiǎn)消除冗余的屬性及屬性值,獲取最小的產(chǎn)生式分類決策規(guī)則集,并通過(guò)關(guān)聯(lián)規(guī)則挖掘,對(duì)風(fēng)電機(jī)組的工作狀態(tài)進(jìn)行功率分析。
粗糙集理論是波蘭數(shù)學(xué)家Pawlka在1982年提出的一種新的數(shù)據(jù)分析方法,是用于處理模糊和不確定性知識(shí)的數(shù)學(xué)工具。其主要思想是在保持分類能力不變的前提下,進(jìn)行數(shù)據(jù)預(yù)處理,然后通過(guò)知識(shí)約簡(jiǎn),有效的分析屬性間的依賴關(guān)系,導(dǎo)出問(wèn)題的決策或分類規(guī)則。
定義1令R是U上的一個(gè)等價(jià)關(guān)系,U/R表示R的所有等價(jià)類構(gòu)成的集合,[x]R表示為包含元素x(x∈U)的R等價(jià)類。因此,一個(gè)知識(shí)庫(kù)就是一個(gè)等價(jià)關(guān)系系統(tǒng)K=(U,R),U不是空集,是由對(duì)象組成的論域,R是U上的一個(gè)等價(jià)關(guān)系族。
定義2S=(U,A)為一知識(shí)表達(dá)系統(tǒng),C、D(C?A,D?A)為 2 個(gè)屬性子集,且 CYD=A,CID=φ,C、D分別稱為條件屬性集和決策屬性集,具有條件屬性和決策屬性的知識(shí)表達(dá)系統(tǒng)稱為決策表,記作T=(U,A,C,D),或簡(jiǎn)稱CD決策表。每一個(gè)屬性子集 P(P?A)決定了1個(gè)一元不可分辨關(guān)系,記為 IND(P)。對(duì)于決策表S=(U,A)不可分辨關(guān)系為IND(P)={(x,y)∈U × U:?a∈P,f(x,a)=f(y,a)}。式中,P 為 U上的二元關(guān)系,x、y均為 U中的任意對(duì)象,P(x)為所有與x具有xPy關(guān)系的y的集合。
定義3屬性集合 B?A,對(duì)某一屬性 a(a∈B),如果有IND(B)=IND(B-{a}),那么稱 a是 B中不必要的,否則就稱a是B中必要的。如果屬性集合B?A,滿足條件?a∈B:IND(B)≠IND(B-{a})那么B就是A的一個(gè)約簡(jiǎn)。
首先確定規(guī)則的個(gè)數(shù),列出所有的條件并填入條件項(xiàng),得到初步判定表;然后對(duì)其化簡(jiǎn),合并相似規(guī)則;最后依據(jù)判定表,選擇測(cè)試數(shù)據(jù),設(shè)計(jì)測(cè)試用例。
1 MW變速恒頻風(fēng)電機(jī)組采用變速變槳距功率調(diào)節(jié)方式,額定風(fēng)速為12 m/s,切入風(fēng)速為3.5 m/s,切出風(fēng)速為25 m/s,風(fēng)輪直徑為60.62 m。根據(jù)1MW風(fēng)電機(jī)組在風(fēng)場(chǎng)實(shí)際運(yùn)行過(guò)程中產(chǎn)生的大量數(shù)據(jù),建立知識(shí)表達(dá)的決策表S=(U,A),以1個(gè)月的數(shù)據(jù)為基數(shù)。以2007年10月份為例,采樣間隔為3,取當(dāng)日日均風(fēng)速、輸出有功功率等作為屬性參數(shù)建立決策表。令論域 U={x1,x2,…,x10}表示 10個(gè)不同的對(duì)象;條件屬性 C={c1,c2,c3,c4}中元素分別表示風(fēng)速、風(fēng)輪轉(zhuǎn)速、葉尖速比、齒輪箱參數(shù);D=syggg00表示風(fēng)電機(jī)組輸出的有功功率。將目標(biāo)研究數(shù)據(jù)建立成決策系統(tǒng)表,如表1所示。
表1 風(fēng)電機(jī)組工況數(shù)據(jù)決策表
2.3.1 數(shù)據(jù)預(yù)處理
在數(shù)據(jù)庫(kù)系統(tǒng)中常常有許多含有噪聲、不完整、甚至是不一致的數(shù)據(jù)。例如在1 MW風(fēng)電機(jī)組數(shù)據(jù)的采集過(guò)程中,會(huì)出現(xiàn)操作員的誤操作情況,此時(shí)分析測(cè)出的結(jié)果是錯(cuò)誤數(shù)據(jù),但該錯(cuò)誤數(shù)據(jù)仍被存放在源數(shù)據(jù)庫(kù)中,這類數(shù)據(jù)的出現(xiàn)會(huì)干擾對(duì)功率點(diǎn)跟蹤狀況的判斷。所以必須依照一定的規(guī)則對(duì)其進(jìn)行預(yù)處理,對(duì)這些數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清理和集成。采用等距離劃分算法在每個(gè)屬性上根據(jù)用戶給定的參數(shù)T,把屬性值V劃分為距離相等的段,不考慮每個(gè)段中屬性值個(gè)數(shù)的多少。假設(shè)某個(gè)屬性的最大值為 Vmax,最小值為Vmin,用戶給定的參數(shù)為T,則間隔為α=(Vmax-Vmin)/T。因此屬性上的功率跟蹤點(diǎn)為(i=0,1,…,t),這些點(diǎn)之間的距離相等。
2.3.2 約簡(jiǎn)
知識(shí)簡(jiǎn)約是粗糙集的主要內(nèi)容之一,知識(shí)簡(jiǎn)約也叫做屬性簡(jiǎn)約或者特征提取。在數(shù)據(jù)挖掘過(guò)程中,知識(shí)庫(kù)中存在冗余的知識(shí),對(duì)這些沒(méi)用的知識(shí)進(jìn)行處理會(huì)浪費(fèi)資源,也會(huì)影響最后的決策。知識(shí)簡(jiǎn)約是在不改變知識(shí)庫(kù)決策能力的前提下,刪除不重要的信息。
在粗糙集理論中,對(duì)知識(shí)進(jìn)行表達(dá)和處理的基本工具是知識(shí)表達(dá)系統(tǒng),一個(gè)知識(shí)表達(dá)系統(tǒng)可表示為:
其中,U表示對(duì)象集合,R=CYD是屬性集合,C和 D分別為條件屬性和決策屬性集,V∈Vr,r∈R是屬性值的集合,Vr表示屬性r的值域,f是對(duì)象和屬性的函數(shù),表示U中對(duì)象對(duì)應(yīng)的某個(gè)屬性的取值。
決策表[3]是一類特殊的知識(shí)表達(dá)系統(tǒng),具有條件屬性和決策屬性,記為
其中,A=CYD是屬性集合,C表示條件屬性,D表示決策屬性。
按照約簡(jiǎn)規(guī)則對(duì)決策表進(jìn)行處理,從表1中可以看出x1和x2對(duì)判斷功率點(diǎn)跟蹤的決策沒(méi)有任何的影響,所以可以直接消去。由于F4和F10只能由x8來(lái)決定,所以 x8保留。依次從表中消去 x1、x2、x3、x7,這樣就把條件屬性進(jìn)行了約簡(jiǎn),刪除分類規(guī)則中多余的屬性,保留必要的屬性。但這種決策表并不唯一,下面列出的表2只是其中的一種。
約簡(jiǎn)后的決策表保持了與原決策表完全相同的分類能力,但所需的條件屬性減少了一半。這說(shuō)明功率跟蹤點(diǎn)信息中存在的冗余信息在通過(guò)粗糙集的簡(jiǎn)約算法后被消除。
表2 經(jīng)過(guò)粗糙集約簡(jiǎn)后的決策表
若對(duì)表2再做進(jìn)一步的約簡(jiǎn),消除決策表中的所有協(xié)調(diào)決策規(guī)則中的冗余屬性,可以得到多種最小的決策表,表3是其中的一個(gè)決策表,#號(hào)代表1或者0。
表3 最小決策表
可以看出,表3的結(jié)構(gòu)相對(duì)于表1比較簡(jiǎn)單,最少要通過(guò)2個(gè)屬性確定功率跟蹤點(diǎn),才能進(jìn)行準(zhǔn)確的跟蹤。
由于風(fēng)電場(chǎng)的環(huán)境條件比較惡劣,實(shí)驗(yàn)過(guò)程復(fù)雜,重復(fù)性差,而且控制器在現(xiàn)場(chǎng)研發(fā)具有一定難度,所以建立風(fēng)電機(jī)組的試驗(yàn)平臺(tái)勢(shì)在必行。利用試驗(yàn)平臺(tái)設(shè)定各種不同的風(fēng)速,完成多目標(biāo)控制過(guò)程,并模擬風(fēng)力機(jī)的特性,實(shí)現(xiàn)最大風(fēng)功率研究。
為了進(jìn)一步驗(yàn)證粗糙集數(shù)據(jù)挖掘方法的最大功率研究的有效性,對(duì)1 MW風(fēng)電機(jī)組進(jìn)行了半實(shí)物仿真試驗(yàn)研究,以替代在全實(shí)物平臺(tái)上進(jìn)行的試驗(yàn)研究。利用風(fēng)力發(fā)電機(jī)性能和負(fù)載計(jì)算的集成軟件包BLADE,建立風(fēng)電機(jī)組最大功率跟蹤點(diǎn)并進(jìn)行仿真分析。風(fēng)速隨時(shí)間變化的曲線如圖1和圖2所示。電磁轉(zhuǎn)矩隨時(shí)間變化的曲線如圖3所示。風(fēng)力發(fā)電機(jī)組最大功率跟蹤點(diǎn)曲線如圖4所示。
圖1 低風(fēng)速工況風(fēng)速變化
圖2 高風(fēng)速工況風(fēng)速變化
圖3 電磁轉(zhuǎn)矩
圖4 風(fēng)功率曲線
采用粗糙集數(shù)據(jù)挖掘方法進(jìn)行約簡(jiǎn),可以從不同方面對(duì)風(fēng)電機(jī)組工作狀況進(jìn)行分析,具有很強(qiáng)的自適應(yīng)能力和學(xué)習(xí)能力,能很快的跟蹤風(fēng)電機(jī)組的最大功率點(diǎn)。
通過(guò)對(duì)1 MW雙饋異步發(fā)電機(jī)組實(shí)際工況產(chǎn)生的大量數(shù)據(jù)進(jìn)行分析,粗糙集的約簡(jiǎn)計(jì)算消除了冗余的條件屬性,實(shí)現(xiàn)對(duì)知識(shí)庫(kù)的精簡(jiǎn),并得到相應(yīng)的決策表和決策規(guī)則。利用該決策規(guī)則,對(duì)數(shù)據(jù)進(jìn)行了篩選,繪出了功率曲線,對(duì)當(dāng)前風(fēng)速達(dá)到的輸出功率大小進(jìn)行跟蹤。仿真結(jié)果證明了基于粗糙集數(shù)據(jù)挖掘方法不僅減小了特定屬性信息提取的工作量,更在數(shù)據(jù)分析中發(fā)揮了決策的優(yōu)越性。通過(guò)控制系統(tǒng)可以對(duì)風(fēng)電機(jī)組的參數(shù)進(jìn)行調(diào)節(jié),使風(fēng)力發(fā)電系統(tǒng)始終運(yùn)行在最大功率點(diǎn)的跟蹤曲線上。
[1]閻 樺.基于粗糙集的數(shù)據(jù)挖掘簡(jiǎn)約算法的研究與應(yīng)用[D].重慶.西南大學(xué),2006.
[2]邱有強(qiáng),潘 超,王傳兵,等.基于粗糙集的智能數(shù)據(jù)挖掘算法在風(fēng)機(jī)監(jiān)測(cè)中的應(yīng)用[J].東北電力大學(xué)學(xué)報(bào):自然科學(xué)版,2008,28(2):23-27.
[3]鄭 濤.基于數(shù)據(jù)元標(biāo)準(zhǔn)與粗糙集的數(shù)據(jù)挖掘技術(shù)研究[D].昆明:西南農(nóng)林大學(xué),2005.
[4]龐倩超,王宴民.基于粗糙集的數(shù)據(jù)挖掘[J].北京建筑工程學(xué)院學(xué)報(bào),2005(4):28-31.
[5]吳今培,孫德山.現(xiàn)代數(shù)據(jù)挖掘[M].北京:機(jī)械工業(yè)出版社,2006:15-22.
[6]馬躍峰.基于粗糙集的數(shù)據(jù)挖掘算法的研究[J].科技信息,2006(S4):40-41.
[7]胡友林,侯澍旻.基于粗糙集的風(fēng)機(jī)故障診斷專家系統(tǒng)知識(shí)獲?。跩].機(jī)械工程師,2005(9):81-82.
[8]劉文英,時(shí)念云,李克文.基于粗集的遺傳挖掘在故障診斷中的應(yīng)用研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(5):1179-1182.
[9]邱有強(qiáng),潘 超,王傳兵,等.基于粗糙集的智能數(shù)據(jù)算法在風(fēng)機(jī)監(jiān)測(cè)中的應(yīng)用[J].東北電力大學(xué)學(xué)報(bào):自然科學(xué)版,2008,28(2):23-27.
[10] LI Li,XU Zhanwen.The algorithm for mining classification characteristic ract-eristic rules and trend rules[J].MiniMicro Systems,2000,21(3):319-321.
[11] Jaffe L D.Avalability of solar and wind generating units[J].IEEE Transactions o n Power Apparatus and System,1983,104(5):1012-1016.
[12] Salameh Z M,Irianto S.Optimum windmill-site matching[J].IEEE Transactions on Energy Conversion,1992,7(4):669-675.
[13]蘇 健.基于粗糙集的數(shù)據(jù)挖掘與決策支持方法研究[D].杭州:浙江大學(xué),2002.
[14]王 凱,張永祥,李 軍.粗糙集理論在故障診斷專家系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)測(cè)量與控制,2003(11):827-829.