關(guān)鍵詞:數(shù)據(jù)采集;數(shù)據(jù)清洗;三分量;箱線圖;滑動(dòng)時(shí)間窗
中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
21世紀(jì),互聯(lián)網(wǎng)技術(shù)正迅速推動(dòng)一場新的工業(yè)革命[1]。生產(chǎn)訂單“短頻快”將是信息化時(shí)代的貿(mào)易趨勢[2]。織造車間設(shè)備多樣,并且生產(chǎn)計(jì)劃排產(chǎn)需依靠大量數(shù)據(jù)作為支撐。本文研究了織造作業(yè)車間數(shù)據(jù)采集與數(shù)據(jù)清洗算法,以適應(yīng)紡織行業(yè)須以準(zhǔn)確數(shù)據(jù)作為支撐的發(fā)展趨勢,滿足當(dāng)今訂單形式和柔性作業(yè)的要求。
在紡織行業(yè)信息化研究中,李佳璇[3]研究了智能工廠的生產(chǎn)設(shè)備數(shù)據(jù)采集與遠(yuǎn)程監(jiān)控系統(tǒng)。鄭良等[4]基于智能織造車間的數(shù)據(jù)采集,研究了智能織造車間的數(shù)據(jù)預(yù)處理,但其方法未充分考慮車間數(shù)據(jù)的多樣性。韓梅等[5]采用箱線圖識(shí)別技術(shù)處理異常數(shù)據(jù),但該方法必須有大量樣本數(shù)據(jù)作為支撐,不適用于數(shù)據(jù)采集的初始階段。田騰等[6]采用滑動(dòng)窗口的子序列斜率提取特征,并結(jié)合置信區(qū)間識(shí)別特征進(jìn)行清洗數(shù)據(jù),但該方法不適用于設(shè)備狀態(tài)變化引發(fā)的采集值變化的情況。
綜上所述,織造作業(yè)車間的信息化依賴于數(shù)據(jù)采集。數(shù)據(jù)采集對系統(tǒng)決策、數(shù)據(jù)分析、設(shè)備監(jiān)控、數(shù)據(jù)可視化起決定性作用。織造車間設(shè)備量大、設(shè)備類型多樣,采集數(shù)據(jù)量大,且對實(shí)時(shí)性要求較高,并且在采集過程中容易受設(shè)備、網(wǎng)絡(luò)、服務(wù)器等的影響而產(chǎn)生臟數(shù)據(jù)。因此,本文針對織造設(shè)備和數(shù)據(jù)的特點(diǎn),研究了適用于設(shè)備多樣性的數(shù)據(jù)流有向網(wǎng)采集方法。同時(shí),為保證數(shù)據(jù)的準(zhǔn)確性,本研究在數(shù)據(jù)流的基礎(chǔ)上研究了三分量數(shù)據(jù)清洗算法。
1 織造作業(yè)車間數(shù)據(jù)采集(Weaving workshopdata acquisition)
織造企業(yè)在信息化轉(zhuǎn)型前,車間的排產(chǎn)多依賴人為操作,織軸、織機(jī)、產(chǎn)出等數(shù)據(jù)也多采用人工方式統(tǒng)計(jì),導(dǎo)致排產(chǎn)方案遲滯性高。因此,織造設(shè)備數(shù)據(jù)信息化對于企業(yè)的合理決策至關(guān)重要。織造作業(yè)車間實(shí)施信息化轉(zhuǎn)型后,為滿足織造設(shè)備數(shù)據(jù)信息化需求,文章提出了具體的織造作業(yè)車間數(shù)據(jù)采集方案。
1.1 織造作業(yè)車間網(wǎng)絡(luò)架構(gòu)
織造車間信息化系統(tǒng)由設(shè)備組、網(wǎng)絡(luò)傳輸、服務(wù)器集群和數(shù)據(jù)決策端組成。在設(shè)備組中,織機(jī)的功能包括數(shù)據(jù)統(tǒng)計(jì)和通信,但部分設(shè)備的功能不全。由于車間的設(shè)備廠家、類型多樣,因此需要構(gòu)建通用性強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu)獲取各類設(shè)備的數(shù)據(jù)??梢允褂貌杉⒂?jì)算機(jī)與織造設(shè)備組成功能完備的設(shè)備最小單元。
采集微計(jì)算機(jī)的主要功能包括通信和脈沖統(tǒng)計(jì),其中通信功能包括與服務(wù)器通信和與設(shè)備通信,它將服務(wù)器下發(fā)的指令轉(zhuǎn)發(fā)給設(shè)備,并接收設(shè)備數(shù)據(jù)上傳給服務(wù)器;脈沖統(tǒng)計(jì)功能是統(tǒng)計(jì)脈沖信號(hào)數(shù)據(jù),然后提供給服務(wù)器做轉(zhuǎn)換計(jì)算。在網(wǎng)絡(luò)傳輸中,可采用有線與無線兩種方式,通過路由器、交換機(jī)等與服務(wù)器集群建立網(wǎng)絡(luò)通道。在服務(wù)器集群中,由多臺(tái)分布式服務(wù)器處理織機(jī)數(shù)據(jù)。
數(shù)據(jù)決策端則以服務(wù)器集群數(shù)據(jù)庫數(shù)據(jù)中的數(shù)據(jù)作為決策基準(zhǔn)??椩熳鳂I(yè)車間網(wǎng)絡(luò)總結(jié)構(gòu)圖如圖1所示。
1.2 織機(jī)數(shù)據(jù)采集
織造設(shè)備產(chǎn)生的數(shù)據(jù)分為設(shè)備信息和生產(chǎn)信息,生產(chǎn)信息包括實(shí)時(shí)數(shù)據(jù)與歷史數(shù)據(jù)。在數(shù)據(jù)采集過程中,織造車間的設(shè)備多、數(shù)據(jù)采集頻率高,并且在歷史數(shù)據(jù)中會(huì)有大量重復(fù)的信息,易出現(xiàn)數(shù)據(jù)粘包/半包、抖動(dòng)、重復(fù)、丟失等情況,導(dǎo)致采集Fig.1 Overall structure diagram of weaving workshop network服務(wù)程序數(shù)據(jù)解析錯(cuò)位、數(shù)據(jù)插入時(shí)序錯(cuò)位、同一數(shù)據(jù)多次插入、數(shù)據(jù)丟失等問題,進(jìn)而產(chǎn)生臟數(shù)據(jù)。為解決以上問題,本文針對織機(jī)的數(shù)據(jù)特性,提出分頻次采集方案和服務(wù)器均衡負(fù)載方案。在分頻次采集方案中,對實(shí)時(shí)性要求高的數(shù)據(jù)采用高頻采集,對實(shí)時(shí)性要求低的歷史數(shù)據(jù)采用低頻或定時(shí)采集,該方式能較好地實(shí)現(xiàn)織機(jī)數(shù)據(jù)解耦、削峰。采集織機(jī)數(shù)據(jù)的方式分為兩類:第一類是以設(shè)備作為從機(jī);第二類是以服務(wù)器作為主機(jī),第二類與第一類相反。在這兩類主從關(guān)系中,設(shè)備可主動(dòng)上傳數(shù)據(jù),或等待請求指令下發(fā),然后回復(fù)請求。針對這兩種數(shù)據(jù)交互方式,分頻采集的實(shí)現(xiàn)方式為定時(shí)請求、定量接收。在服務(wù)器均衡負(fù)載方案中,將織機(jī)劃分區(qū)域,并將區(qū)域中的所有數(shù)據(jù)唯一映射到服務(wù)器集群中的某一臺(tái)服務(wù)器,然后在服務(wù)器中將該區(qū)域的織機(jī)數(shù)據(jù)分別映射到不同端口中處理數(shù)據(jù)。數(shù)據(jù)處理流程圖如圖2所示。
在解析織機(jī)數(shù)據(jù)時(shí),由于設(shè)備具有多樣性,所以數(shù)據(jù)傳輸協(xié)議同樣具有多樣性。為提高數(shù)據(jù)采集系統(tǒng)的通用性,織機(jī)采集方案在接收數(shù)據(jù)時(shí),應(yīng)兼容協(xié)議的多樣性。初步處理數(shù)據(jù)時(shí),需靈活應(yīng)對數(shù)據(jù)的多樣性;數(shù)據(jù)處理完畢后,應(yīng)確保數(shù)據(jù)呈現(xiàn)的統(tǒng)一性。因此,本研究基于協(xié)議的多樣性與數(shù)據(jù)的統(tǒng)一性特點(diǎn)設(shè)計(jì)織機(jī)數(shù)據(jù)流處理有向網(wǎng)。如圖3所示,數(shù)據(jù)流處理網(wǎng)中的每一個(gè)結(jié)點(diǎn)都為獨(dú)立函數(shù),該流處理網(wǎng)由數(shù)據(jù)編解碼層In、數(shù)據(jù)解析層Zn、數(shù)據(jù)歸類層M 組成。數(shù)據(jù)解碼層為底層,數(shù)據(jù)歸類層為頂層。其中,底層為數(shù)據(jù)流入口、頂層為數(shù)據(jù)流出口。數(shù)據(jù)流處理網(wǎng)中,自下而上的每一層的函數(shù)之間為并列關(guān)系,每兩層之間為遞進(jìn)關(guān)系。由于要適應(yīng)多種協(xié)議與傳輸方式,所以數(shù)據(jù)編解碼層中的函數(shù)最多,并且每個(gè)函數(shù)對應(yīng)一種傳輸方式、通信協(xié)議,將織機(jī)數(shù)據(jù)從數(shù)據(jù)幀中剝離。數(shù)據(jù)解析層中每一個(gè)函數(shù)對應(yīng)一種數(shù)據(jù)解析方式,其主要作用為從剝離的數(shù)據(jù)中按協(xié)議說明或點(diǎn)位表等解析出所需數(shù)據(jù)。數(shù)據(jù)歸類層僅有一個(gè)函數(shù),其作用為將解析數(shù)據(jù)歸類。
在服務(wù)器中接收到的部分設(shè)備的原始數(shù)據(jù)如圖4所示,經(jīng)數(shù)據(jù)流有向網(wǎng)處理后將數(shù)據(jù)歸類,得到如圖5所示的車速、設(shè)備編號(hào)、設(shè)備狀態(tài)、效率等數(shù)據(jù)。
2 數(shù)據(jù)清洗(Data cleaning)
在整個(gè)生產(chǎn)流程中,織造作業(yè)車間的織機(jī)數(shù)量多、數(shù)據(jù)采集量大,易導(dǎo)致數(shù)據(jù)在網(wǎng)絡(luò)傳輸過程中產(chǎn)生錯(cuò)誤數(shù)據(jù)。因此,初步采集的數(shù)據(jù)經(jīng)過歸類后,并不能直接使用。整個(gè)數(shù)據(jù)鏈路在初步采集后,還應(yīng)對數(shù)據(jù)進(jìn)行清洗,只有確保數(shù)據(jù)正確,才能將數(shù)據(jù)持久化。
在織造過程中,根據(jù)數(shù)據(jù)變化趨勢,可將其分為常分量、增分量和狀態(tài)分量3個(gè)類別。其中,常分量數(shù)據(jù)為定值,不隨時(shí)間變化而變化,如工藝參數(shù)設(shè)定值、工藝參數(shù)實(shí)時(shí)值等;增分量數(shù)據(jù)會(huì)隨著設(shè)備生產(chǎn)時(shí)間的推移而逐漸增大;狀態(tài)分量數(shù)據(jù)為狀態(tài)值的合集,例如設(shè)備運(yùn)行狀態(tài)為二值變量(運(yùn)行、停止)。為保證作業(yè)車間采集數(shù)據(jù)的實(shí)時(shí)性、準(zhǔn)確性,并結(jié)合織造數(shù)據(jù)的特性,通過三分量清洗算法對數(shù)據(jù)進(jìn)行預(yù)處理。針對織機(jī)的三分量數(shù)據(jù),采用改進(jìn)箱線圖法對常分量數(shù)據(jù)進(jìn)行清洗,采用改進(jìn)滑動(dòng)時(shí)間窗法對增分量數(shù)據(jù)和狀態(tài)分量數(shù)據(jù)進(jìn)行清洗。
2.1 常分量數(shù)據(jù)清洗
在常分量數(shù)據(jù)中,可使用四分位數(shù)將采集的所有數(shù)據(jù)分為四等份,并結(jié)合箱線圖的上界、下界和3個(gè)四分位數(shù)共5個(gè)量化標(biāo)準(zhǔn),分析數(shù)據(jù)的集中趨勢、分散性、偏離度及潛在異常值[7]。箱線示意圖如圖6所示。
常分量數(shù)據(jù)在設(shè)備和采集系統(tǒng)正常時(shí),設(shè)備運(yùn)行實(shí)時(shí)值會(huì)圍繞設(shè)定值隨時(shí)間變化而波動(dòng),如工藝參數(shù)值。但是,每臺(tái)設(shè)備都有其獨(dú)立性,為確保數(shù)據(jù)的準(zhǔn)確性并保留設(shè)備的獨(dú)立性,本文引入?yún)?shù)設(shè)定值S計(jì)算加權(quán)箱線圖的上、下界。
2.2 增分量數(shù)據(jù)清洗
增分量數(shù)據(jù)主要為班產(chǎn)量、落布長等。這類數(shù)據(jù)在規(guī)定時(shí)間段內(nèi)隨時(shí)間而正增長,在設(shè)備出現(xiàn)異常停機(jī)、疵點(diǎn)處理停機(jī)時(shí),會(huì)停止增長。在采集過程中,除換班時(shí)清零數(shù)據(jù)外,不會(huì)出現(xiàn)負(fù)增長。由于織機(jī)的生產(chǎn)速度會(huì)隨著設(shè)定速度而波動(dòng),該特性使得設(shè)備在正常運(yùn)行時(shí)的增分量數(shù)據(jù)數(shù)值基本為線程增長。因此,基于增分量數(shù)據(jù)線性增長的特性,為保證數(shù)據(jù)的準(zhǔn)確性和最小化數(shù)據(jù)清洗時(shí)間開銷,在清洗數(shù)據(jù)時(shí)引入設(shè)備狀態(tài)的滑動(dòng)時(shí)間窗法清洗增分量數(shù)據(jù)。
2.3 狀態(tài)分量數(shù)據(jù)清洗
若狀態(tài)分量采集頻率高、單個(gè)數(shù)據(jù)量小,則可在清洗過程中將滑動(dòng)時(shí)間窗滯后一次,使被檢測數(shù)據(jù)置于滑動(dòng)窗口中心,通過窗口內(nèi)的所有數(shù)據(jù)對狀態(tài)分量數(shù)據(jù)的異常抖動(dòng)進(jìn)行檢測,此時(shí)滑動(dòng)窗口被分為前、中、后3個(gè)部分,若前、后的狀態(tài)分量數(shù)據(jù)相同,中間與前、后的狀態(tài)分量數(shù)據(jù)不同時(shí),則判定為數(shù)據(jù)抖動(dòng),設(shè)備狀態(tài)滑動(dòng)窗口圖如圖8所示。
3 實(shí)驗(yàn)驗(yàn)證(Experimental verification)
為檢測本文數(shù)據(jù)清洗方法的可靠性,以實(shí)際生產(chǎn)環(huán)境為前提,將是否在采集數(shù)據(jù)時(shí)對數(shù)據(jù)進(jìn)行清洗作為變量,分別對三分量清洗算法中的改進(jìn)箱線圖法、滑動(dòng)時(shí)間窗法處理的常分量、增分量和狀態(tài)分量進(jìn)行實(shí)驗(yàn)。鑒于在采集過程中采集次數(shù)與采集時(shí)間成正比增加且采集間隔時(shí)間短,因此在實(shí)驗(yàn)中以采集次數(shù)替代時(shí)間。
圖9與圖10分別表示同一臺(tái)設(shè)備在同一時(shí)間段不使用和使用數(shù)據(jù)清洗方法的設(shè)備狀態(tài)圖,設(shè)備狀態(tài)值為0時(shí)停機(jī),設(shè)備狀態(tài)值為1時(shí)運(yùn)行,可以看出,數(shù)據(jù)清洗前出現(xiàn)明顯的抖動(dòng)狀態(tài),數(shù)據(jù)清洗后沒有出現(xiàn)抖動(dòng)狀態(tài)。
由于常分量數(shù)據(jù)中對織機(jī)車速的實(shí)時(shí)性要求高且采集頻率高,所以對常分量數(shù)據(jù)的實(shí)驗(yàn),選用最容易產(chǎn)生臟數(shù)據(jù)的織機(jī)車速作為加權(quán)箱線圖實(shí)驗(yàn)對象。圖11和圖12為隨時(shí)間變化的織機(jī)車速數(shù)據(jù)。其中,圖11為設(shè)備車速原始數(shù)據(jù),圖12為設(shè)備車速清洗數(shù)據(jù)??梢钥闯?,在未經(jīng)數(shù)據(jù)清洗的圖11中原始數(shù)據(jù)產(chǎn)生了較多不符實(shí)際生產(chǎn)的數(shù)據(jù)突變點(diǎn),在停機(jī)狀態(tài)時(shí)應(yīng)為零的車速出現(xiàn)了非零異常值。在經(jīng)過加權(quán)箱線圖處理后的圖12中實(shí)時(shí)車速無異常突變點(diǎn),設(shè)備停機(jī)時(shí)無非零值,證明了箱線圖法能保證設(shè)備數(shù)據(jù)的準(zhǔn)確性。
圖13中為4臺(tái)設(shè)定車速均相同的設(shè)備在同一時(shí)間段的車速采集數(shù)據(jù)箱線圖,可以看出,3號(hào)設(shè)備實(shí)際車速低于設(shè)定值,2號(hào)、4號(hào)設(shè)備實(shí)際車速高于實(shí)際值,1號(hào)設(shè)備實(shí)際車速與設(shè)定值相近。以上結(jié)果證明了在三分量清洗算法中,通過對箱線圖進(jìn)行加權(quán)處理,清洗算法有效地識(shí)別出設(shè)備的獨(dú)立性。
在滑動(dòng)時(shí)間窗的實(shí)驗(yàn)中,以設(shè)備產(chǎn)量作為實(shí)驗(yàn)對象。圖14為部分班次生產(chǎn)過程中的產(chǎn)量原始數(shù)據(jù),可以看出,數(shù)據(jù)在設(shè)備運(yùn)行時(shí)出現(xiàn)鋸齒狀數(shù)據(jù)異常,并在設(shè)備停機(jī)時(shí)仍然會(huì)有產(chǎn)量波動(dòng)甚至出現(xiàn)了負(fù)增長。圖15為數(shù)據(jù)清洗后的設(shè)備產(chǎn)量,在設(shè)備運(yùn)行期間,產(chǎn)量增長值無波動(dòng)、設(shè)備停機(jī)時(shí)無產(chǎn)量變動(dòng)、生產(chǎn)過程中無負(fù)增長,證明本文提出的滑動(dòng)時(shí)間窗清洗方法可行且有效。
4 結(jié)論(Conclusion)
本文研究了針對多樣化設(shè)備的織造作業(yè)車間數(shù)據(jù)采集方案,并基于該方案,結(jié)合織造車間數(shù)據(jù)的特點(diǎn)——常分量、增分量和狀態(tài)分量數(shù)據(jù),深入探討了三分量數(shù)據(jù)清洗算法。該算法通過動(dòng)態(tài)權(quán)重因子改進(jìn)箱線圖,以適應(yīng)采集初期樣本不足的情況,通過引入設(shè)備狀態(tài)改進(jìn)滑動(dòng)時(shí)間窗數(shù)據(jù)清洗算法,有效地清洗了狀態(tài)量數(shù)據(jù)抖動(dòng)、常量和增量的錯(cuò)誤數(shù)據(jù),證明三分量數(shù)據(jù)清洗算法在數(shù)據(jù)采集過程中能夠準(zhǔn)確識(shí)別和剔除臟數(shù)據(jù),確保所采集數(shù)據(jù)的準(zhǔn)確性。然而,在長時(shí)間持續(xù)且數(shù)值異常偏大的情況下,該清洗方法可能會(huì)失效。因此,未來的研究應(yīng)著重于優(yōu)化對長期存在的、極端臟數(shù)據(jù)的特征提取與識(shí)別能力。
作者簡介:
彭來湖(1980-),男,博士,副教授。研究領(lǐng)域:智能裝備與嵌入式控制技術(shù),工業(yè)互聯(lián)網(wǎng)通信。
吳汶糠(1998-),男,碩士生,助理工程師。研究領(lǐng)域:紡織智能制造。
俞博(1996-),男,博士生,工程師。研究領(lǐng)域:紡織智能制造。
方遼遼(1998-),男,博士生,工程師。研究領(lǐng)域:紡織智能制造。
丁春高(1977-),男,本科,工程師。研究領(lǐng)域:自動(dòng)化控制技術(shù)。
沈春婭(1993-),女,博士,工程師。研究領(lǐng)域:紡織智能制造。本文通信作者。