竇希杰, 王世博, 劉后廣, 陳錢有, 鄒文才, 盧召棟
(1.中國(guó)礦業(yè)大學(xué) 機(jī)電工程學(xué)院, 江蘇 徐州 221116;2.中國(guó)礦業(yè)大學(xué) 礦山智能采掘裝備協(xié)同創(chuàng)新中心, 江蘇 徐州 221116)
放頂煤過(guò)程的智能化是制約智能化綜放開采的主要技術(shù)瓶頸[1-2]。在放頂煤過(guò)程中,根據(jù)煤層賦存條件變化進(jìn)行煤矸精準(zhǔn)識(shí)別,并根據(jù)識(shí)別結(jié)果實(shí)時(shí)自動(dòng)調(diào)整放煤口啟閉,是實(shí)現(xiàn)自動(dòng)化放煤的關(guān)鍵[3],不僅能夠降低混矸率,提高煤炭質(zhì)量,還能使放煤工人遠(yuǎn)離綜放工作面,減少惡劣環(huán)境對(duì)工人健康的影響。
對(duì)放頂煤過(guò)程中產(chǎn)生的振動(dòng)信號(hào)進(jìn)行辨識(shí)是實(shí)現(xiàn)煤矸識(shí)別的有效手段之一。近年來(lái),學(xué)者們針對(duì)該方法進(jìn)行了大量研究。文獻(xiàn)[4]分析了煤和矸石沖擊產(chǎn)生的振動(dòng)信號(hào)頻譜特征,得出了2種振動(dòng)信號(hào)頻率不同的結(jié)論,但未根據(jù)頻譜特征進(jìn)一步研究煤矸識(shí)別技術(shù)。文獻(xiàn)[5]分析了放頂煤過(guò)程中液壓支架后尾梁及刮板輸送機(jī)處采集的振動(dòng)信號(hào),認(rèn)為液壓支架后尾梁更適合作為煤矸沖擊振動(dòng)信號(hào)測(cè)點(diǎn),進(jìn)一步分析了不同工況下振動(dòng)信號(hào)的時(shí)域特征,得出了方差、偏度與峭度指標(biāo)對(duì)工況變化敏感的結(jié)論,但放頂煤過(guò)程的復(fù)雜性使得尾梁振動(dòng)信號(hào)具有非平穩(wěn)特性,時(shí)域特征不能準(zhǔn)確地表征振動(dòng)信號(hào)。文獻(xiàn)[6]采用小波分析方法對(duì)煤和矸石沖擊產(chǎn)生的振動(dòng)信號(hào)進(jìn)行特征提取,設(shè)計(jì)了神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)煤矸識(shí)別,但建模時(shí)使用的訓(xùn)練樣本和測(cè)試樣本較少,模型有效性有待進(jìn)一步驗(yàn)證。
本文提出了一種基于經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)特征提取和隨機(jī)森林(Random Forest,RF)的煤矸識(shí)別方法。該方法對(duì)綜放現(xiàn)場(chǎng)采集的大量煤和矸石沖擊液壓支架尾梁產(chǎn)生的振動(dòng)樣本信號(hào)進(jìn)行EMD,在分解產(chǎn)生的本征模態(tài)函數(shù)(Intrinsic Mode Function,IMF)上進(jìn)行特征提取與篩選,形成最優(yōu)化的特征數(shù)據(jù)集訓(xùn)練RF模型,提高了煤矸識(shí)別的準(zhǔn)確性;與BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等機(jī)器學(xué)習(xí)算法相比,采用的RF算法可直接對(duì)特征數(shù)據(jù)集進(jìn)行分類,無(wú)需進(jìn)一步處理,保證了煤矸識(shí)別效率。
EMD是N. E. Huang等[7-8]在對(duì)瞬時(shí)頻率概念研究基礎(chǔ)上提出的一種自適應(yīng)分解的信號(hào)處理方法,在機(jī)械故障診斷[9]、模態(tài)參數(shù)識(shí)別[10]等工程領(lǐng)域得到了廣泛應(yīng)用。EMD可將信號(hào)中不同時(shí)間尺度的波動(dòng)逐級(jí)分解出來(lái),產(chǎn)生一系列IMF。各個(gè)IMF需滿足2個(gè)條件[11]:① 數(shù)據(jù)序列中極值點(diǎn)和過(guò)零點(diǎn)最多相差1個(gè)。② 任一時(shí)刻由信號(hào)的局部極大值與局部極小值定義的包絡(luò)平均值為0。原始信號(hào)S經(jīng)EMD后可表示為
(1)
式中:n為分解得到的IMF個(gè)數(shù);cj為第j個(gè)IMF;r為殘差信號(hào),代表信號(hào)的平均趨勢(shì)。
為了獲取表征原始信號(hào)的特征向量,對(duì)各樣本信號(hào)進(jìn)行EMD,根據(jù)分解結(jié)果選取有效IMF,進(jìn)一步提取IMF能量、峭度、矩陣奇異值及對(duì)應(yīng)的熵作為特征向量,并對(duì)各特征向量的提取效率及有效性進(jìn)行比較,完成特征篩選,建立特征數(shù)據(jù)集。
IMF能量為
(2)
式中:N為樣本包含的數(shù)據(jù)點(diǎn)數(shù);m為有效IMF個(gè)數(shù);cj(i)為第j個(gè)有效IMF的第i個(gè)數(shù)據(jù)點(diǎn)。
IMF峭度為
(3)
式中:E(·)為期望函數(shù);μj為第j個(gè)有效IMF的均值;σj為第j個(gè)有效IMF的標(biāo)準(zhǔn)差。
根據(jù)奇異值分解定義[12],可對(duì)各有效IMF組成的m×N矩陣C進(jìn)行奇異值分解:
C=UQVH
(4)
(5)
依據(jù)式(5),可求得IMF能量熵、奇異值熵及峭度熵。
RF的實(shí)質(zhì)是一個(gè)包含多棵決策樹的組合分類器,在一定程度上克服了單分類器的局限性[16-17],通過(guò)集成提高了分類器的穩(wěn)定性。RF采用Bootstrap方法進(jìn)行重采樣[18],產(chǎn)生多個(gè)訓(xùn)練集;利用每個(gè)訓(xùn)練集生成對(duì)應(yīng)的決策樹,在構(gòu)建決策樹時(shí)采用隨機(jī)分裂屬性集方法。使用訓(xùn)練好的RF模型可直接對(duì)特征數(shù)據(jù)集進(jìn)行分類,簡(jiǎn)化了計(jì)算環(huán)節(jié),減少了特征提取耗時(shí)。
設(shè)集合T中有k個(gè)樣本,若每次有放回地從該集合中抽取1個(gè)樣本,抽取k次形成的新集合T*中不包含第t(t=1,2,…,k)個(gè)樣本的概率為
(6)
當(dāng)k趨于無(wú)窮時(shí),有
(7)
由式(7)可知,雖然T*與T中樣本數(shù)均為k,但T*中可能包含了重復(fù)樣本,且T*中約包含T中63.2%的樣本。
RF算法流程如圖1所示。
圖1 RF算法流程
采用Bootstrap方法對(duì)特征數(shù)據(jù)集進(jìn)行重采樣,產(chǎn)生s個(gè)訓(xùn)練集。之后利用訓(xùn)練集生成對(duì)應(yīng)的決策樹,在每個(gè)非葉子節(jié)點(diǎn)選擇分裂屬性之前,從特征數(shù)據(jù)集中隨機(jī)抽取q個(gè)特征作為當(dāng)前節(jié)點(diǎn)的分裂屬性。使每棵樹完整生長(zhǎng),不進(jìn)行剪枝操作,最終所有決策樹構(gòu)成一個(gè)RF。當(dāng)有測(cè)試集樣本輸入時(shí),RF中每棵決策樹都會(huì)輸出一個(gè)結(jié)果,采用投票方法將s棵決策樹中輸出最多的類別作為測(cè)試集樣本的類別輸出。
基于EMD特征提取和RF的煤矸識(shí)別流程如圖2所示。首先,對(duì)放頂煤過(guò)程中采集的振動(dòng)信號(hào)進(jìn)行等長(zhǎng)度截取預(yù)處理,得到一系列放煤和放矸石振動(dòng)樣本信號(hào);其次,對(duì)各樣本信號(hào)進(jìn)行EMD,根據(jù)分解結(jié)果選取有效IMF,提取IMF能量、矩陣奇異值、峭度及對(duì)應(yīng)的熵作為特征向量;再次,使用各特征向量獨(dú)立訓(xùn)練RF模型,并將測(cè)試集樣本數(shù)據(jù)輸入訓(xùn)練好的RF模型測(cè)試特征向量的有效性,根據(jù)識(shí)別結(jié)果完成特征向量篩選,建立特征數(shù)據(jù)集;最后,使用特征數(shù)據(jù)集訓(xùn)練RF模型,通過(guò)訓(xùn)練好的RF模型實(shí)現(xiàn)煤矸識(shí)別。
圖2 煤矸識(shí)別流程
煤矸識(shí)別試驗(yàn)使用的放煤和放矸石振動(dòng)信號(hào)來(lái)源于同煤大唐塔山煤礦有限公司8222綜放工作面。工作面全長(zhǎng)230.5 m,平均煤層厚度為14.36 m。夾矸6~17層,夾矸單層厚度為0.05~0.82 m。各可采煤層的物理性質(zhì)相似,呈碎塊狀、塊狀、條帶狀結(jié)構(gòu),弱玻璃光澤,水平層理,煤層堅(jiān)固性系數(shù)為2.7~3.7。夾矸多為灰褐色高嶺巖、灰白色高嶺質(zhì)泥巖、灰黑色炭質(zhì)泥巖,堅(jiān)固性系數(shù)為4.0~4.5。
采用1A946E型IEPE壓電式加速度傳感器及DH5925N型便攜式數(shù)據(jù)采集儀對(duì)放頂煤過(guò)程中頂煤和矸石沖擊ZF17000/27.5/42D型液壓支架尾梁產(chǎn)生的振動(dòng)信號(hào)進(jìn)行采集與記錄。儀器設(shè)置位置如圖3所示。采用螺紋安裝方式將加速度傳感器安裝在液壓支架尾梁背面,并通過(guò)信號(hào)線將加速度傳感器與數(shù)據(jù)采集儀連接,如圖4所示。數(shù)據(jù)采集儀布置在液壓支架兩立柱之間,如圖5所示。
圖3 振動(dòng)采集儀器布置
圖4 加速度傳感器安裝現(xiàn)場(chǎng)
圖5 數(shù)據(jù)采集儀安裝現(xiàn)場(chǎng)
試驗(yàn)開始時(shí),將數(shù)據(jù)采集儀的采樣頻率設(shè)置為25.6 kHz,采集并存儲(chǔ)放頂煤過(guò)程中煤和矸石沖擊液壓支架產(chǎn)生的振動(dòng)信號(hào),并根據(jù)放煤工人的提示記錄放煤和放矸石2種工況的開始及結(jié)束時(shí)刻。放煤和放矸石振動(dòng)信號(hào)時(shí)域波形如圖6所示。
(a) 放煤振動(dòng)信號(hào)
對(duì)放頂煤過(guò)程中采集的放煤和放矸石2種工況下的振動(dòng)信號(hào)進(jìn)行EMD,結(jié)果如圖7所示??煽闯?種振動(dòng)信號(hào)經(jīng)EMD后各得到10個(gè)IMF及1個(gè)殘差分量,且對(duì)應(yīng)的IMF幅值和波形具有明確區(qū)別。另外放煤和放矸石振動(dòng)信號(hào)的能量均集中在前8個(gè)IMF中,因此將前8個(gè)IMF作為有效IMF,提取IMF能量、峭度、矩陣奇異值及對(duì)應(yīng)的熵作為特征向量。
對(duì)采集的原始振動(dòng)信號(hào)進(jìn)行預(yù)處理,以5 000點(diǎn)作為1個(gè)樣本長(zhǎng)度,共得到放煤和放矸石振動(dòng)信號(hào)各1 100個(gè)樣本數(shù)據(jù)。從原始樣本中隨機(jī)抽取放煤和放矸石振動(dòng)信號(hào)各1 000個(gè)樣本作為訓(xùn)練集、100個(gè)樣本作為測(cè)試集,將放煤狀態(tài)標(biāo)簽設(shè)置為1、放矸石狀態(tài)標(biāo)簽設(shè)置為0,進(jìn)行RF模型訓(xùn)練及測(cè)試。
(a) 放煤振動(dòng)信號(hào)
為驗(yàn)證所提取特征的有效性,使用各特征向量分別訓(xùn)練RF模型。設(shè)置RF所含決策樹數(shù)量s=500,分裂屬性集中屬性個(gè)數(shù)q=M/2(M為特征總數(shù))。為保證識(shí)別結(jié)果的可靠性,每次均使用隨機(jī)產(chǎn)生的訓(xùn)練集及測(cè)試集進(jìn)行建模及識(shí)別,并將10次識(shí)別的準(zhǔn)確率平均值作為最終結(jié)果。采用不同特征向量進(jìn)行RF建模及識(shí)別的結(jié)果見表1。
表1 采用不同特征向量的煤矸識(shí)別結(jié)果
由表1可知,使用IMF能量訓(xùn)練得到的RF模型對(duì)測(cè)試集樣本的識(shí)別準(zhǔn)確率最高,達(dá)94.30%;采用IMF峭度訓(xùn)練得到的RF模型識(shí)別準(zhǔn)確率最低,僅為75.25%;各特征向量加入對(duì)應(yīng)的熵特征再進(jìn)行訓(xùn)練得到的RF模型識(shí)別準(zhǔn)確率均小幅提升。將IMF峭度特征剔除,使用IMF能量(8維)、IMF能量熵(1維)、IMF矩陣奇異值(8維)、IMF奇異值熵(1維)共18維數(shù)據(jù)建立特征數(shù)據(jù)集,由特征數(shù)據(jù)集訓(xùn)練得到的RF模型對(duì)放煤和放矸石各100組振動(dòng)樣本的識(shí)別準(zhǔn)確率達(dá)96.5%。
RF模型決策樹數(shù)量對(duì)其泛化性能有一定影響。為獲得RF模型的最優(yōu)決策樹數(shù)量,對(duì)包含不同數(shù)量決策樹的RF模型進(jìn)行評(píng)估。具體方法:設(shè)置步長(zhǎng)為50,使決策樹數(shù)量在50~1 000范圍內(nèi)變動(dòng);對(duì)于每個(gè)確定的決策樹數(shù)量,均使用4.2節(jié)中得到的特征數(shù)據(jù)集建立100個(gè)RF模型,取其識(shí)別結(jié)果的平均值作為當(dāng)前RF模型的識(shí)別準(zhǔn)確率。決策樹數(shù)量不同的RF模型識(shí)別準(zhǔn)確率如圖8所示??煽闯霎?dāng)決策樹數(shù)量設(shè)置為100或150時(shí),RF模型識(shí)別效果最優(yōu),此時(shí)對(duì)測(cè)試集樣本的識(shí)別準(zhǔn)確率達(dá)97%。
考慮到綜放工作面煤矸識(shí)別的實(shí)時(shí)性需求,對(duì)特征數(shù)據(jù)集中各特征向量的提取耗時(shí)及RF模型對(duì)測(cè)試集樣本的識(shí)別耗時(shí)進(jìn)行統(tǒng)計(jì)。具體方法:從測(cè)試集樣本中隨機(jī)抽取10組數(shù)據(jù),統(tǒng)計(jì)10組數(shù)據(jù)特征提取的平均耗時(shí);將10組數(shù)據(jù)特征向量輸入RF模型,計(jì)算其平均識(shí)別耗時(shí)。統(tǒng)計(jì)結(jié)果見表2。
圖8 決策樹數(shù)量對(duì)RF模型識(shí)別性能的影響
表2 特征提取及識(shí)別耗時(shí)統(tǒng)計(jì)
由表2可知,使用IMF能量及其熵組成的特征向量訓(xùn)練RF模型時(shí),模型對(duì)測(cè)試集樣本進(jìn)行特征提取與識(shí)別的耗時(shí)為0.142 1s,使用IMF矩陣奇異值及其熵組成的特征向量訓(xùn)練時(shí)耗時(shí)為0.148 1s,使用組合特征向量訓(xùn)練時(shí)耗時(shí)為0.182 7 s。
(1) 在綜放現(xiàn)場(chǎng)采集了大量的煤、矸石沖擊液壓支架尾梁產(chǎn)生的振動(dòng)信號(hào),對(duì)振動(dòng)信號(hào)進(jìn)行EMD,采用IMF能量、峭度、矩陣奇異值及對(duì)應(yīng)的熵對(duì)振動(dòng)信號(hào)進(jìn)行定量描述,并采用不同的特征向量訓(xùn)練RF模型,根據(jù)RF模型對(duì)未知樣本的識(shí)別能力篩選特征,由此建立特征數(shù)據(jù)集。根據(jù)特征數(shù)據(jù)集建立RF模型,對(duì)200組測(cè)試集樣本進(jìn)行識(shí)別,準(zhǔn)確率達(dá)96.5%。
(2) 從泛化能力和識(shí)別效率2個(gè)方面研究了RF模型的性能,結(jié)果表明當(dāng)決策樹數(shù)量設(shè)置為100或150時(shí),RF模型的識(shí)別準(zhǔn)確率最高,達(dá)97%,同時(shí)對(duì)測(cè)試集樣本進(jìn)行特征提取與識(shí)別的耗時(shí)不超過(guò)0.2 s。研究結(jié)果驗(yàn)證了本文方法可快速、準(zhǔn)確地實(shí)現(xiàn)煤矸識(shí)別。