雷雨田 王慶凱 王 旭
(1.北京礦冶研究總院,北京 100160;2.礦冶過程自動控制技術(shù)國家重點實驗室,北京 102628;3.礦冶科技集團(tuán)有限公司,北京 100160)
精礦品位作為評價浮選過程性能的重要指標(biāo)之一,在一定程度上反映了工藝生產(chǎn)率和產(chǎn)品質(zhì)量。精礦品位的影響因素不僅繁多,而且大都具有非線性、強(qiáng)耦合、大滯后等特點,導(dǎo)致我們很難及時得到精礦品位。實際生產(chǎn)中的銅精礦品位大多采用人工取樣離線化驗獲得[1],由于人為主觀因素的差異,獲得的品位數(shù)據(jù)也存在著一定的不確定性,浮選過程精礦品位的建模預(yù)測也因此受到了越來越多的關(guān)注。
浮選過程精礦品位預(yù)測模型主要分為機(jī)理模型、數(shù)據(jù)模型與混合模型。由于浮選過程十分復(fù)雜,一般的機(jī)理模型不能十分準(zhǔn)確地描述實際的礦物浮選過程。數(shù)據(jù)模型則是根據(jù)實際生產(chǎn)過程中累積的大量歷史數(shù)據(jù)來構(gòu)建預(yù)測模型。隨著信息化技術(shù)的高速發(fā)展與基本控制系統(tǒng)及各類傳感器的全面應(yīng)用,浮選過程中大量的生產(chǎn)數(shù)據(jù)可以被及時收集和存儲,這也使得通過獲取浮選過程的過程參數(shù)建立數(shù)據(jù)模型成為了一個熱門的研究方向。因此,目前大多數(shù)的預(yù)測模型都采用數(shù)據(jù)建模方法,常見的有偏最小二乘法(PLS)[2]、主成分分析法(PCA)[3]、獨立成分分析法(ICA)[4]等多元統(tǒng)計數(shù)據(jù)分析法和支持向量機(jī)(SVM)[5]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[6]等機(jī)器學(xué)習(xí)方法以及基于模糊推理的模糊系統(tǒng)[7]。FERNANDEZ-DELGADO等[8]對比了179種分類算法在121個UCI數(shù)據(jù)集上的分類性能。結(jié)果表明,綜合來看,隨機(jī)森林算法的分類性能最優(yōu)[9]。隨機(jī)森林算法不僅原理簡單、易于實現(xiàn),其占用計算資源小且性能強(qiáng)大,在許多實際生產(chǎn)過程中也得到了廣泛應(yīng)用。
基于上述分析,本文利用國內(nèi)某大型選礦廠浮選流程中泡沫圖像分析儀獲取的泡沫特征參數(shù)及其它相關(guān)生產(chǎn)數(shù)據(jù),采用動態(tài)隨機(jī)森林算法對銅精礦品位進(jìn)行建模預(yù)測,并分析隨機(jī)森林算法的預(yù)測效果。
隨機(jī)森林(Random Forest)算法是Bagging(Bootstrap aggregating)集成方法[10]中最具有代表性的算法,是BREIMAN[11]將Bagging集成學(xué)習(xí)理論[12]與隨機(jī)子空間方法[13]結(jié)合后提出的一種機(jī)器學(xué)習(xí)算法。該算法由多棵決策樹組成。決策樹因其單分類器的屬性,存在著過擬合、易收斂到局部最優(yōu)解和性能提升瓶頸等問題。根據(jù)多分類器的思想由多棵決策樹組合而成的隨機(jī)森林算法由此誕生。隨機(jī)森林算法的建立分為生成森林與進(jìn)行決策兩個過程,如圖1、圖2所示。
圖1 隨機(jī)森林生成圖Fig.1 Random forest generation diagram
圖2 隨機(jī)森林決策圖Fig.2 Random forest decision diagram
隨機(jī)森林的核心思想就是對訓(xùn)練集進(jìn)行Bootstrap有放回地重復(fù)采樣,形成多個訓(xùn)練子集。每個子集生成一棵決策樹,進(jìn)而組成隨機(jī)森林。最后統(tǒng)計所有決策樹的分類結(jié)果,根據(jù)得票數(shù)得到最終分類結(jié)果。
測試集最終所屬類別的表達(dá)式見式1。
(1)
式中,Y表示類別標(biāo)簽;Ci(X)表示每棵決策樹的分類結(jié)果;D(X)表示最終分類結(jié)果。
國內(nèi)某大型銅礦選礦廠浮選流程依次采用兩次粗選兩次掃選作業(yè)。其中,一次粗選銅精礦即粗Ⅰ銅精礦進(jìn)入后續(xù)浮選柱精選流程,粗Ⅱ銅精礦經(jīng)再磨分級后進(jìn)入浮選柱精選流程,掃Ⅰ與掃Ⅱ浮選泡沫返回前一作業(yè)進(jìn)行再選,掃Ⅱ底流作為該浮選流程最終的尾礦。本文采用機(jī)器學(xué)習(xí)里的動態(tài)隨機(jī)森林算法對浮選流程中粗Ⅰ銅精礦品位進(jìn)行模擬預(yù)測。將浮選流程中泡沫圖像分析儀獲取的泡沫特征參數(shù)及其它相關(guān)生產(chǎn)數(shù)據(jù)中的一部分?jǐn)?shù)據(jù)用來建立動態(tài)隨機(jī)森林模型,另一部分?jǐn)?shù)據(jù)用于測試所建預(yù)測模型的準(zhǔn)確性。
通過對現(xiàn)場浮選流程分析得知,影響粗Ⅰ銅精礦品位的操作變量和原料屬性變量,一共有15個。結(jié)合BFIPS-Ⅲ浮選泡沫圖像分析儀提取出來的15個泡沫特征參數(shù),一共得到了30個與粗Ⅰ銅精礦品位相關(guān)的過程變量,詳細(xì)變量見圖3橫坐標(biāo)描述。過程變量個數(shù)的多少很大程度上代表了其內(nèi)部蘊(yùn)含信息的多少,但是過程變量個數(shù)過多,復(fù)雜性也會越明顯。因此需要通過相關(guān)性分析對過程變量進(jìn)行降維選擇,根據(jù)相關(guān)系數(shù)大小篩選出一定數(shù)量的關(guān)鍵變量進(jìn)行研究。
在進(jìn)行過程變量與粗Ⅰ銅精礦品位相關(guān)性分析之前,首先需要對收集到的數(shù)據(jù)進(jìn)行預(yù)處理,包括異常生產(chǎn)數(shù)據(jù)清除等操作。然后進(jìn)行過程變量的相關(guān)性分析,根據(jù)相關(guān)系數(shù)大小篩選出一定數(shù)量的關(guān)鍵變量進(jìn)行隨機(jī)森林模型建立。30個過程變量與粗Ⅰ銅精礦品位相關(guān)性分析結(jié)果如圖3所示。
圖3 過程變量相關(guān)性分析結(jié)果圖Fig.3 Process variable correlation analysis results graph
圖3中,橫軸表示過程變量,縱軸表示過程變量與粗Ⅰ銅精礦品位的相關(guān)系數(shù)。根據(jù)過程變量的相關(guān)系數(shù)篩選出7個影響銅浮選精礦品位的關(guān)鍵變量,具體變量如表1所示。
表1 影響銅浮選精礦品位的關(guān)鍵變量Table 1 Key variables affecting the grade of copper flotation concentrate
其中Y軸流速代表溢流泡沫流出浮選槽頂部的速度。表1中7個變量里,前5個變量是泡沫圖像分析儀提取出來的粗Ⅰ浮選槽頂部的浮選泡沫特征參數(shù),后2個變量是浮選流程中的兩個關(guān)鍵藥劑變量。
將7個影響粗Ⅰ銅精礦品位的關(guān)鍵變量作為動態(tài)隨機(jī)森林模型的輸入,粗Ⅰ銅精礦品位作為模型的輸出,以此建立動態(tài)隨機(jī)森林預(yù)測模型。
隨機(jī)森林決策樹數(shù)量設(shè)為500棵。模型預(yù)測結(jié)果如圖4所示。
圖4 動態(tài)隨機(jī)森林建模預(yù)測結(jié)果圖Fig.4 Dynamic random forest modeling prediction results graph
圖4a中的虛線是實際生產(chǎn)過程中品位分析儀測得的粗Ⅰ銅精礦品位測量值,實線是動態(tài)隨機(jī)森林模型對粗Ⅰ銅精礦品位的預(yù)測值。圖4b中實線是動態(tài)隨機(jī)森林模型預(yù)測值與品位分析儀測量值之間的絕對誤差,深色虛線和淺色虛線分別表示模型預(yù)測絕對誤差為±1%和±2%的范圍界限,以便于直觀了解模型的預(yù)測效果。
為了評價模型的預(yù)測性能,需要構(gòu)建合適的評價指標(biāo)體系。本文采用平均絕對誤差MAE(Mean Absolute Error)、均方誤差MSE(Mean Square Error)、預(yù)測絕對誤差在±1%的樣本數(shù)百分比和預(yù)測絕對誤差在±2%的樣本數(shù)百分比作為模型的預(yù)測性能評價指標(biāo)。MAE能夠較為準(zhǔn)確地反映模型的精礦品位預(yù)測值與品位分析儀測量值之間的平均差距大小。MSE能夠反映模型的精礦品位預(yù)測值與品位分析儀測量值之間的偏差程度?!?%和±2%預(yù)測絕對誤差在一定程度上代表了生產(chǎn)現(xiàn)場可接受的預(yù)測誤差范圍。
MAE與MSE的計算公式分別如式2~3,模型預(yù)測結(jié)果見表2。
(2)
(3)
表2 模型預(yù)測評價結(jié)果Table 2 Model prediction evaluation results
從表2數(shù)據(jù)可以看出,基于動態(tài)隨機(jī)森林算法的預(yù)測模型對粗Ⅰ銅精礦品位的預(yù)測平均絕對誤差在1%以下,預(yù)測絕對誤差在±2%的樣本數(shù)百分比在90%以上,模型的預(yù)測精度較高。
1)采用動態(tài)隨機(jī)森林預(yù)測模型能較準(zhǔn)確地預(yù)測下一個測量周期的銅精礦品位,預(yù)測趨勢準(zhǔn)確,預(yù)測精度高,可用于指導(dǎo)作業(yè)者及時調(diào)整作業(yè)決策,確保最終精礦品位的穩(wěn)定。
2)將通過相關(guān)性分析提取出的關(guān)鍵變量作為動態(tài)隨機(jī)森林模型的輸入,粗Ⅰ銅精礦品位作為模型的輸出,以此建立的動態(tài)隨機(jī)森林預(yù)測模型未涉及到原礦品位等需要依賴品位分析儀的變量,在品位分析儀故障期間也可以得到品位預(yù)測值,在一定程度上可以避免因品位分析儀故障導(dǎo)致缺乏品位數(shù)據(jù)無法指導(dǎo)作業(yè)者操作的情況發(fā)生。