国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類分析法的織造車間能耗數(shù)據(jù)清洗

2024-12-31 00:00:00黃啟航汝欣戴寧俞博陳煒徐郁山
軟件工程 2024年7期
關(guān)鍵詞:異常檢測聚類

關(guān)鍵詞:數(shù)據(jù)清洗;聚類;異常檢測;去重

0 引言(Introduction)

近年來,降低碳排放已成為全球關(guān)注的熱點(diǎn),各國都在努力減少溫室氣體排放以應(yīng)對氣候變化。我國也制定了二氧化碳排放力爭于2030年達(dá)到峰值,爭取2060年實(shí)現(xiàn)“碳中和”的目標(biāo)[1]。為減少企業(yè)的碳排放量,各個行業(yè)都在進(jìn)行能源管理及預(yù)測方面的應(yīng)用研究。紡織行業(yè)在能源管理及預(yù)測方面的研究起步較晚[2],同時紡織企業(yè)織造車間能源消耗形式復(fù)雜,需要根據(jù)車間的動態(tài)生產(chǎn)情況進(jìn)行動態(tài)用能行為的分析和預(yù)測,對實(shí)時性的要求較高。因此,數(shù)據(jù)清洗對于能耗預(yù)測尤為關(guān)鍵,它不僅能提升數(shù)據(jù)質(zhì)量,還能有效降低數(shù)據(jù)冗余。

在數(shù)據(jù)清洗方面,嚴(yán)英杰等[3]提出了一種基于時間序列分析的雙循環(huán)迭代檢驗法,對變壓器和線路的數(shù)據(jù)進(jìn)行清洗,得到了較高質(zhì)量的數(shù)據(jù),但該方法只適合變電設(shè)備單一數(shù)據(jù)類型的清洗。LI等[4]提出一種基于改進(jìn)隨機(jī)森林的數(shù)據(jù)清洗方法,但該方法對數(shù)據(jù)冗余性的優(yōu)化尚未考慮。在缺失數(shù)據(jù)補(bǔ)全領(lǐng)域,唐冬來等[5]提出了改進(jìn)多分類器的數(shù)據(jù)修補(bǔ)方法,但該方法只能在特定誤差頻率的條件下獲得較好的修補(bǔ)效果。在常規(guī)數(shù)據(jù)插補(bǔ)方面,常見的插補(bǔ)方法有總體均值填補(bǔ)法、回歸填補(bǔ)法、多重插補(bǔ)法等[6],相關(guān)學(xué)者對缺失值問題進(jìn)行了大量的專題研究。在數(shù)據(jù)去重方面,李樹林等[7]提出了基于對比分析的邊緣終端用電時序數(shù)據(jù)去重方法,但該方法沒有考慮去重后對數(shù)據(jù)應(yīng)用方面的影響。綜上所述,本文通過對織造車間動態(tài)生產(chǎn)過程進(jìn)行分析,并對能耗影響因素的數(shù)據(jù)特點(diǎn)和質(zhì)量問題進(jìn)行歸類,結(jié)合織造車間的生產(chǎn)實(shí)際,提出了基于聚類分析法的綜合數(shù)據(jù)清洗方法。

1 織造車間能耗數(shù)據(jù)分析(Energy consumptiondata analysis of weaving workshop

織造車間的能耗組成復(fù)雜,關(guān)聯(lián)因素較多,其主要能耗由生產(chǎn)設(shè)備和輔助設(shè)備產(chǎn)生。此外,車間的生產(chǎn)計劃和氣候環(huán)境等因素也會影響車間能耗。因此,織造車間的能耗組成是一個包含多層次、多要素的復(fù)雜系統(tǒng)。為便于后續(xù)的能耗預(yù)測與數(shù)據(jù)處理,需對車間能耗進(jìn)行層級分析,從而提取能耗影響因素的數(shù)據(jù)特征。

1.1 織造車間能耗層級分析

織造車間的能耗組成從用能行為角度進(jìn)行劃分,可以分為3層,即織造設(shè)備層、輔助設(shè)備層、關(guān)聯(lián)因素層;其能耗層級如圖1所示。織機(jī)是織造車間的主要生產(chǎn)設(shè)備和能耗設(shè)備,還包含照明設(shè)備、空壓機(jī)、車間看板電腦等輔助設(shè)備,生產(chǎn)不同數(shù)量和規(guī)格的產(chǎn)品會導(dǎo)致設(shè)備運(yùn)轉(zhuǎn)狀態(tài)的變化,進(jìn)而產(chǎn)生差異化的能耗,環(huán)境條件也會間接影響織造設(shè)備和輔助設(shè)備的能耗狀況。

輔助設(shè)備層:織造車間的輔助設(shè)備能耗按其變化特點(diǎn)可分為兩類。一是不受生產(chǎn)計劃和環(huán)境條件影響的能耗,如照明能耗、電視看板等設(shè)備的能耗。二是隨生產(chǎn)計劃及設(shè)備生產(chǎn)狀態(tài)變化而動態(tài)變化的能耗,如運(yùn)輸設(shè)備能耗、空壓機(jī)能耗等。

關(guān)聯(lián)因素層:生產(chǎn)計劃會間接影響車間生產(chǎn)設(shè)備與輔助設(shè)備的運(yùn)行狀態(tài)和能耗。同時,環(huán)境溫度、濕度也會影響車間生產(chǎn)設(shè)備與輔助設(shè)備的運(yùn)行狀態(tài)和能耗。因此,需要采集的數(shù)據(jù)有環(huán)境氣象數(shù)據(jù)、生產(chǎn)計劃數(shù)據(jù)(包括品種、規(guī)格等)。

根據(jù)上述對織造車間能耗數(shù)據(jù)的分層,織造車間能耗及關(guān)聯(lián)數(shù)據(jù)如下。①車間生產(chǎn)設(shè)備能耗數(shù)據(jù)。②設(shè)備運(yùn)行數(shù)據(jù)(包括設(shè)備運(yùn)行時長,經(jīng)停、緯停的停車時長、次數(shù)等)。③生產(chǎn)數(shù)據(jù)(包括生產(chǎn)品種和產(chǎn)量)。④環(huán)境氣象數(shù)據(jù)。

1.2 織造車間數(shù)據(jù)特征

所在企業(yè)通過工業(yè)互聯(lián)網(wǎng)和云端數(shù)據(jù)庫建立車間數(shù)據(jù)采集系統(tǒng)。通過對上述能耗層級及采集到的原始數(shù)據(jù)源進(jìn)行分析,得到織造車間能耗和生產(chǎn)數(shù)據(jù)主要具備以下特征。

1.2.1 數(shù)據(jù)質(zhì)量低

采集設(shè)備通過車間無線網(wǎng)絡(luò)傳輸數(shù)據(jù),受設(shè)備傳感器異常等因素的影響,會出現(xiàn)零星不屬于正常值范圍的異常數(shù)據(jù),異常數(shù)據(jù)示例如圖2所示。

這些異常數(shù)據(jù)通常單獨(dú)出現(xiàn),不符合織造車間用能和生產(chǎn)特征;同時,車間生產(chǎn)設(shè)備檢修、采集設(shè)備故障等因素影響會產(chǎn)生部分?jǐn)?shù)據(jù)缺失的情況,缺失數(shù)據(jù)示例如圖3所示。

數(shù)據(jù)缺失通常表現(xiàn)為連續(xù)的數(shù)據(jù)空缺;受車間環(huán)境和設(shè)備電磁干擾,有時也會產(chǎn)生連續(xù)的異常數(shù)據(jù)波動。這些問題會影響數(shù)據(jù)的連續(xù)性和局部完整性,進(jìn)而導(dǎo)致能源管理系統(tǒng)的能耗預(yù)測準(zhǔn)確性降低。數(shù)據(jù)異常類型及原因如表1所示。

1.2.2 數(shù)據(jù)規(guī)模大

紡織企業(yè)的生產(chǎn)設(shè)備多,車間生產(chǎn)與能耗數(shù)據(jù)采集點(diǎn)多,例如某企業(yè)的一個織造車間共有40多臺織造設(shè)備,還有多種輔助設(shè)備,智能電表數(shù)據(jù)采集點(diǎn)有12個,生產(chǎn)數(shù)據(jù)采集點(diǎn)有40個,并且車間生產(chǎn)對數(shù)據(jù)實(shí)時性要求極高,生產(chǎn)數(shù)據(jù)采集頻率為30秒/次,數(shù)據(jù)采集頻率高,智能電表能源數(shù)據(jù)采集頻率為5分鐘/次,因此每日產(chǎn)生的數(shù)據(jù)量巨大,隨著時間的增加,數(shù)據(jù)規(guī)模已經(jīng)達(dá)到PB級別。用于能源預(yù)測分析的數(shù)據(jù)集規(guī)模龐大,嚴(yán)重影響了能耗預(yù)測的效率。

1.2.3 數(shù)據(jù)特征復(fù)雜且具有關(guān)聯(lián)性

織造車間產(chǎn)生的數(shù)據(jù)種類復(fù)雜且具有一定關(guān)聯(lián)性,包括各區(qū)域的能耗數(shù)據(jù)、設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)、生產(chǎn)品種數(shù)據(jù)、產(chǎn)量數(shù)據(jù),以及生產(chǎn)數(shù)據(jù)和作業(yè)環(huán)境數(shù)據(jù)等。其中,環(huán)境氣象數(shù)據(jù)具有周期性波動規(guī)律,部分生產(chǎn)數(shù)據(jù)呈現(xiàn)離散跳動特征。累計正向有功電能、織機(jī)產(chǎn)量等數(shù)據(jù)表現(xiàn)為連續(xù)波動增長趨勢。各類數(shù)據(jù)參數(shù)特征如表2所示。

1.2.4 數(shù)據(jù)價值密度低

目前,車間能源生產(chǎn)大數(shù)據(jù)的數(shù)據(jù)量巨大,同一生產(chǎn)條件下,設(shè)備能耗數(shù)據(jù)相似度高,數(shù)據(jù)冗余大,數(shù)據(jù)價值密度相對較低。

2 數(shù)據(jù)清洗與去重(Data cleaning and deduplication)

織造車間能耗關(guān)聯(lián)數(shù)據(jù)種類多且特征各異,能耗數(shù)據(jù)采集范圍大、頻率高,因此容易出現(xiàn)數(shù)據(jù)缺失和異常的情況。同時,能耗數(shù)據(jù)價值質(zhì)量密度低,只有對原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,降低數(shù)據(jù)冗余,才能得到具有代表性的數(shù)據(jù)集,進(jìn)而提高能源預(yù)測的效率和質(zhì)量。首先針對異常數(shù)據(jù)進(jìn)行異常識別,其次針對缺失數(shù)據(jù)問題,依據(jù)數(shù)據(jù)特點(diǎn)插補(bǔ)缺失部分,最后對數(shù)據(jù)集去重,降低數(shù)據(jù)冗余。

2.1 常用的數(shù)據(jù)清洗方法

數(shù)據(jù)清洗是確保數(shù)據(jù)質(zhì)量和準(zhǔn)確性的關(guān)鍵步驟,常規(guī)的數(shù)據(jù)清洗主要是對異常數(shù)據(jù)的識別和對缺失數(shù)據(jù)的插補(bǔ)。目前,常見的數(shù)據(jù)清洗方法如下。

高通濾波法[8]:用于減弱或阻隔低于給定頻率的低頻信號,其作用是過濾掉由偶然因素引起的噪聲干擾,使得信號的較低頻部分減弱或被抑制,而保持較高頻部分。這種方式可以改善信號的收斂性,有利于獲得更穩(wěn)定的輸出值。但是,周期性噪聲通常具有特定的頻率分量,可能位于高通濾波的通帶范圍內(nèi),因此高通濾波法對周期性的噪聲處理效果不佳。

K-means聚類算法[9]:一種無監(jiān)督學(xué)習(xí)算法,用于將數(shù)據(jù)點(diǎn)劃分成不同的簇群,其基本思想是將數(shù)據(jù)點(diǎn)分配到距離最近的簇中心,并不斷更新簇中心,直到簇中心不再變化或達(dá)到預(yù)定的迭代次數(shù)。由于初始簇質(zhì)心為隨機(jī)選取,所以簇的質(zhì)量不能保證且離群值對模型的影響比較大。

根據(jù)織造車間數(shù)據(jù)分析結(jié)果,發(fā)現(xiàn)采集的數(shù)據(jù)中能耗數(shù)據(jù)和環(huán)境氣象數(shù)據(jù)是時間序列數(shù)據(jù)且具有周期性的特點(diǎn),所以不宜采用高斯濾波法過濾異常數(shù)據(jù)。近年來,有很多研究者采用聚類方法對異常數(shù)據(jù)進(jìn)行清洗,但是傳統(tǒng)K-means聚類算法會受到初始點(diǎn)選擇的影響,很多聚類方法在檢測過程中也存在諸如效率低、誤報率較高的缺點(diǎn)[10]。所以,本文首先應(yīng)用多線程二分K-means聚類算法對異常數(shù)據(jù)進(jìn)行識別,其次根據(jù)不同數(shù)據(jù)的特征采用多樣化的數(shù)據(jù)插補(bǔ)方法,最后對數(shù)據(jù)降重。

2.2 異常數(shù)據(jù)識別

織造車間能耗數(shù)據(jù)量巨大,因此需要采用高效的異常識別方法。本文以K-means聚類算法為基礎(chǔ),該算法思想簡單,收斂速度快,利于處理大數(shù)據(jù)集,效率較高。鑒于K-means聚類算法對初始簇質(zhì)心敏感的缺點(diǎn),需要對算法進(jìn)行改進(jìn)。為避免傳統(tǒng)K-means聚類算法對初始簇質(zhì)心敏感的問題,本文采用二分K-means聚類算法進(jìn)行聚類,避免隨機(jī)選取初始簇質(zhì)心帶來的不確定性。為解決能耗數(shù)據(jù)量大、多次重復(fù)聚類效率低的問題,本文采取多線程方式進(jìn)行聚類,可以提高處理效率。

改進(jìn)K-means聚類算法流程如下。

(1)將所有數(shù)據(jù)根據(jù)周期劃分為N 個組,采取多線程方式對每個組分配一個線程進(jìn)行聚類。

(2)將一個組的所有數(shù)據(jù)點(diǎn)作為一個簇。

(3)將該簇進(jìn)行K-means聚類,即取k=2分成兩個簇,根據(jù)歐幾里得距離公式分別計算對應(yīng)簇中樣本到聚類中心的歐式距離。

(4)根據(jù)誤差平方和公式[式(2)],選取誤差平方和最大的一個簇,即聚類效果不好的那個簇,將其再劃分為兩個簇進(jìn)行多線程聚類。

其中:k 為簇的個數(shù);P 為樣本點(diǎn);Ci 為某個簇內(nèi)所有樣本點(diǎn)的集合;mi 為簇中心。

(5)重復(fù)執(zhí)行“步驟(3)”和“步驟(4)”,直到誤差平方和SSE收斂,達(dá)到k 個簇。

(6)選取SSE 最小的聚類結(jié)果。

異常數(shù)據(jù)具有孤立、頻率低且無規(guī)律的特點(diǎn)。利用這些特點(diǎn),從聚類結(jié)果中選取聚類對象占比小于4%的分組,定為異常數(shù)據(jù)組,識別異常數(shù)據(jù)。

2.3 缺失數(shù)據(jù)修復(fù)

識別出異常數(shù)據(jù)后,首先將異常數(shù)據(jù)刪除,視為缺失數(shù)據(jù),其次進(jìn)行缺失值插補(bǔ)。由于織造車間數(shù)據(jù)構(gòu)成復(fù)雜且普遍存在異常數(shù)據(jù),因此需要根據(jù)不同的數(shù)據(jù)類別采用多樣化的數(shù)據(jù)插補(bǔ)方法(圖4),圖4中STL分解代表時間序列分解法。

目標(biāo)數(shù)據(jù)中的累計正向有功電能等數(shù)據(jù)屬于連續(xù)增長型數(shù)據(jù),采用線性回歸模型進(jìn)行插補(bǔ),該方法簡單快捷,可以獲得較好的插補(bǔ)效果;運(yùn)行狀態(tài)、生產(chǎn)效率等離散跳動型數(shù)據(jù)采用均值插補(bǔ)法進(jìn)行插補(bǔ);環(huán)境氣象數(shù)據(jù)屬于典型的周期性時間序列數(shù)據(jù),采用STL分解法捕捉時序數(shù)據(jù)的季節(jié)性和總體變化趨勢進(jìn)行插補(bǔ),其基本思路是將環(huán)境氣象數(shù)據(jù)分解為趨勢分量Tt,周期分量St,其他分量Rt,其分解式為yt=Tt+St+Rt。對趨勢分量進(jìn)行三次樣條插值,將周期分量添加回插值后的結(jié)果中。STL分解法對異常值具有魯棒性,適合處理季節(jié)性數(shù)據(jù)。

2.4 數(shù)據(jù)集去重

通過對缺失數(shù)據(jù)的插補(bǔ),獲取到較完整的原始數(shù)據(jù)集,但原始數(shù)據(jù)集仍存在數(shù)據(jù)冗余高的特點(diǎn),數(shù)據(jù)集重復(fù)性高,數(shù)據(jù)量大,不利于后續(xù)實(shí)時高效的能耗預(yù)測。因此,需要對原數(shù)據(jù)集進(jìn)行篩選,得到代表性強(qiáng)的數(shù)據(jù)集,提高數(shù)據(jù)價值密度。依據(jù)聚類分析的思想,數(shù)據(jù)聚類利用數(shù)據(jù)之間的相似性和差異性進(jìn)行數(shù)據(jù)劃分[11]。依據(jù)該思想,引入可決系數(shù)指標(biāo)進(jìn)行數(shù)據(jù)去重,主要步驟如下。

(1)對原始數(shù)據(jù)集依據(jù)時間周期,按月進(jìn)行分組切片,第一組數(shù)據(jù)記為D1i,第二組數(shù)據(jù)記為D2i。

(2)引入可決系數(shù),用于衡量優(yōu)化降重后的數(shù)據(jù)集的擬合程度,其公式為

其中:xi 為原始數(shù)據(jù)集中的數(shù)據(jù);x 為原始數(shù)據(jù)集的平均值;x^為對應(yīng)數(shù)據(jù)集中的數(shù)據(jù)。R2 值越接近于1,表示擬合數(shù)據(jù)集越接近于實(shí)際數(shù)據(jù)集。

(3)將D1i、D2j 分別作為公式(3)中xi 和x^計算兩組數(shù)據(jù)值的可決系數(shù)。規(guī)定可決系數(shù)的指標(biāo)值r:當(dāng)R2 gt;r 時,表示所測D1i 與D2j 的擬合優(yōu)度較好,將D1i 與D2j 中對應(yīng)的數(shù)據(jù)取平均值生成新的數(shù)據(jù)集Dfi;當(dāng)R2

(4)分別計算R2,對不滿足要求的切片進(jìn)行計數(shù),若其數(shù)量大于總切片數(shù)的1/5,則單獨(dú)提取保存,否則用D1i 的平均值替換D2j 數(shù)據(jù)集中不符合要求的數(shù)據(jù),再生成新的數(shù)據(jù)集Dfi。

(5)依據(jù)新數(shù)據(jù)集與兩個原始數(shù)據(jù)集的R2 值對各個數(shù)據(jù)集進(jìn)行降序排序,然后選出R2 值最大的數(shù)據(jù)集視為最佳數(shù)據(jù)集Dfa 。

(6)此時得到的最佳數(shù)據(jù)集依然有很高的重復(fù)性,需要引入Pearson相關(guān)系數(shù),用于衡量數(shù)據(jù)間線性相關(guān)程度。將得到的最佳數(shù)據(jù)集Dfa 依次與其他數(shù)據(jù)集Dfi(i≠a)組合,計算它們的Pearson相關(guān)系數(shù)。設(shè)定相關(guān)系數(shù)的判斷指標(biāo)r,若兩個數(shù)據(jù)集K 的相關(guān)系數(shù)大于指標(biāo)值,則表示兩個數(shù)據(jù)集的重復(fù)性過高,需要舍去。依次計算相關(guān)系數(shù)值,剔除重復(fù)性高的數(shù)據(jù)集,篩選出具有代表性的數(shù)據(jù)集。

3 仿真實(shí)驗(simulation experiment)

3.1 織造車間異常數(shù)據(jù)識別算例

本文以某織造企業(yè)織造一號車間的某車間區(qū)域7月1日至7月7日的逐小時能耗數(shù)據(jù)為例,共168個數(shù)據(jù)值,采用上文提出的二分K-means聚類算法對數(shù)據(jù)進(jìn)行聚類分析,識別異常點(diǎn),得到的聚類效果圖如圖5所示。

圖5中,類別3、類別4、類別5的聚類點(diǎn)占比小于4%且對應(yīng)聚類中心與其他數(shù)據(jù)點(diǎn)的距離較遠(yuǎn),因此視為異常數(shù)據(jù),聚類結(jié)果及處理如表3所示。同時,利用樣本數(shù)據(jù)集對本文方法與傳統(tǒng)K-means聚類算法的異常識別效率和誤報率進(jìn)行對比,結(jié)果如表4所示,本文方法采用多線程聚類的方式顯著提高了聚類效率,縮短了聚類時間,同時誤報率較低。

3.2 缺失數(shù)據(jù)插補(bǔ)算例

將識別出的異常數(shù)據(jù)視為缺失數(shù)據(jù),根據(jù)不同的數(shù)據(jù)特點(diǎn),采用多樣化插補(bǔ)方法進(jìn)行數(shù)據(jù)插補(bǔ)。以環(huán)境氣象數(shù)據(jù)為例,采用STL分解法對某車間6月至8月的氣溫數(shù)據(jù)進(jìn)行分解,得到結(jié)果如圖6所示。對其中的趨勢部分進(jìn)行三次樣條插值,然后合并結(jié)果,缺失數(shù)據(jù)插值前的結(jié)果如圖7所示、缺失數(shù)據(jù)插值后的結(jié)果如圖8所示。

3.3 數(shù)據(jù)集去重算例

針對負(fù)荷預(yù)測數(shù)據(jù)集的數(shù)據(jù)價值密度低的問題,采用基于可決系數(shù)和Pearson 相關(guān)系數(shù)的數(shù)據(jù)集去重方法,將織造車間能耗原數(shù)據(jù)集依據(jù)車間區(qū)域分組切片,D11、D12、D13 為織造一車間3個區(qū)域一個月的能耗樣本數(shù)據(jù),D21、D22、D23 為織造二車間3個區(qū)域一個月的能耗樣本數(shù)據(jù),具體數(shù)據(jù)如表5所示。

分別計算兩個車間負(fù)荷數(shù)據(jù)對應(yīng)的可決系數(shù),結(jié)果均滿足新數(shù)據(jù)集的生成條件。將D1i 與D2j 中對應(yīng)的數(shù)據(jù)取平均值生成新的數(shù)據(jù)集Dfi,得到的新數(shù)據(jù)集如表6所示。將生成的新數(shù)據(jù)集與原數(shù)據(jù)集計算可決系數(shù),結(jié)果如表7所示。

表7中的可決系數(shù)相對都不高,原因是部分車間區(qū)域出現(xiàn)一段時間的停工狀態(tài)。其中,D2 的可決系數(shù)最高,視為最優(yōu)數(shù)據(jù)集,分別計算其與其他組別的Pearson相關(guān)系數(shù),D2 與D1、D3的相關(guān)系數(shù)分別為0.962和0.983。一般情況下,若Pearson相關(guān)系數(shù)大于0.9,則視為相互之間的相關(guān)性高,即最優(yōu)數(shù)據(jù)集可以替代其他數(shù)據(jù)集。為了驗證數(shù)據(jù)集的可靠性,分別采用BP神經(jīng)網(wǎng)絡(luò)與決策樹預(yù)測模型對數(shù)據(jù)集進(jìn)行驗證,常用預(yù)測模型下不同訓(xùn)練集預(yù)測結(jié)果誤差對比如表8所示。

表8中的數(shù)據(jù)結(jié)果表明,去重后獲得的數(shù)據(jù)集誤差在可接受范圍內(nèi),使用本文方法后,將數(shù)據(jù)量從4 320組降到了720組,在保證了預(yù)測模型準(zhǔn)確性的同時,大大降低了數(shù)據(jù)冗余,提高了數(shù)據(jù)集的價值密度,為后續(xù)提高能耗預(yù)測效率奠定了基礎(chǔ)。

4 結(jié)論(Conclusion)

本文對某紡織企業(yè)織造車間能耗進(jìn)行了層級分析,對相關(guān)數(shù)據(jù)特征進(jìn)行了分類。針對采集到的原始數(shù)據(jù)存在數(shù)據(jù)質(zhì)量低、數(shù)據(jù)冗余高、價值密度低的問題,提出了基于聚類分析的異常數(shù)據(jù)識別、多樣化插補(bǔ)和去重的綜合數(shù)據(jù)清洗方法。本文提出的基于二分K-means聚類算法的異常值識別方法,在實(shí)際處理大數(shù)量級的能耗數(shù)據(jù)時,可有效提高識別效率,同時對不同類型的數(shù)據(jù)采取了多樣化的數(shù)據(jù)插補(bǔ)方法,提高了插補(bǔ)的適用性。采用依據(jù)可決系數(shù)的數(shù)據(jù)去重方法,通過模擬車間數(shù)據(jù),將降重后的數(shù)據(jù)集應(yīng)用到BP神經(jīng)網(wǎng)絡(luò)和決策樹預(yù)測模型中,結(jié)果表明該方法可以在有效降低數(shù)據(jù)冗余的同時,保證預(yù)測的準(zhǔn)確性,對提高紡織企業(yè)織造車間能源預(yù)測的效率和準(zhǔn)確性有很大的實(shí)際應(yīng)用價值。

猜你喜歡
異常檢測聚類
基于K-means聚類的車-地?zé)o線通信場強(qiáng)研究
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于LMD模糊熵的遙測振動信號異常檢測方法
基于度分布的流量異常在線檢測方法研究
無線Mesh網(wǎng)絡(luò)安全性研究
無線Mesh網(wǎng)絡(luò)基礎(chǔ)知識
條紋顏色分離與聚類
淺談燃?xì)廨啓C(jī)排氣溫度異常檢測及診斷
基于鼠標(biāo)行為的電子商務(wù)中用戶異常行為檢測
基于改進(jìn)的遺傳算法的模糊聚類算法
长岛县| 斗六市| 海伦市| 万荣县| 屏东县| 霍邱县| 宜川县| 武乡县| 江西省| 静海县| 修水县| 萨迦县| 大厂| 台安县| 马鞍山市| 宝丰县| 兰考县| 淳安县| 南京市| 涟水县| 微山县| 张家港市| 平顺县| 江油市| 临安市| 宾川县| 长丰县| 平泉县| 崇州市| 文安县| 华蓥市| 辽宁省| 蕉岭县| 民丰县| 大余县| 宁乡县| 盐池县| 潞西市| 石狮市| 汶上县| 诸暨市|