袁懿琳 趙榮煥 何坤 黃秀 王洪棟 鄒亮
摘要:鏡質(zhì)組平均最大反射率是表征煤化程度的重要指標(biāo),在確定煤級(jí)、鑒別混煤和指導(dǎo)煉焦配煤中起關(guān)鍵作用。傳統(tǒng)反射率測(cè)定方法費(fèi)時(shí)耗力,且測(cè)量結(jié)果的主觀性較強(qiáng),致使實(shí)驗(yàn)室間鑒定結(jié)果的可比性差。針對(duì)該問(wèn)題,提出一種基于隨機(jī)森林(RF)和樹(shù)突網(wǎng)絡(luò)(DDNet)的煤鏡質(zhì)組反射率估計(jì)方法,主要包括煤巖顯微圖像分割、鏡質(zhì)組識(shí)別和鏡質(zhì)組平均最大反射率預(yù)測(cè)3個(gè)部分。利用手肘法和 K?Means算法對(duì)顯微圖像聚類(lèi),以實(shí)現(xiàn)不同顯微組分區(qū)域的分割;采用人工少數(shù)類(lèi)過(guò)采樣法(SMOTE)對(duì)少數(shù)類(lèi)樣本過(guò)采樣,以改善煤巖中鏡質(zhì)組與非鏡質(zhì)組區(qū)域樣本的不均衡問(wèn)題;利用基于DDNet的回歸算法實(shí)現(xiàn)鏡質(zhì)組平均最大反射率的估計(jì),構(gòu)建回歸模型時(shí)從鏡質(zhì)組區(qū)域中選擇多個(gè)41×41像素的方形窗口并提取其灰度特征,以提高算法的魯棒性,其決定系數(shù)達(dá)到0.990。實(shí)驗(yàn)結(jié)果表明:采用手肘法自動(dòng)確定 K?Means算法的參數(shù) K,具有良好的自適應(yīng)能力,能夠自動(dòng)區(qū)分不同類(lèi)別數(shù)的顯微組分;SMOTE方法可有效避免模型因過(guò)度學(xué)習(xí)樣本先驗(yàn)信息而導(dǎo)致對(duì)多數(shù)類(lèi)識(shí)別好、少數(shù)類(lèi)識(shí)別差的問(wèn)題,提高分類(lèi)準(zhǔn)確度,其中基于 RF 的識(shí)別模型準(zhǔn)確率達(dá)到97.0%;建立了7種回歸估計(jì)模型,其中DDNet回歸模型性能最佳,決定系數(shù)達(dá)到0.990,預(yù)測(cè)結(jié)果與實(shí)際值高度契合,驗(yàn)證了所提方法的可行性。
關(guān)鍵詞:鏡質(zhì)組平均最大反射率;K?Means 聚類(lèi);隨機(jī)森林;樹(shù)突網(wǎng)絡(luò);SMOTE;DDNet回歸算法中圖分類(lèi)號(hào): TD94??? 文獻(xiàn)標(biāo)志碼: A
Estimation of coal vitrinite reflectance based on random forest and dendritic network
YUAN Yilin1, ZHAO Ronghuan2, HE Kun1, HUANG Xiu1, WANG Hongdong2, ZOU Liang2
(1. Research Institute of Petroleum Exploration and Development, PetroChina Company Limited, Beijing 100083,China;2. School of Information and Control Engineering, China University of Mining and Technology,Xuzhou 221116, China)
Abstract: The mean maximum vitrinite reflectance is an important indicator of the degree of coalification, and plays a key role in determining coal grade, identifying mixed coal, and guiding coking coal blending. The traditional reflectance measurement methods are time-consuming and labor-intensive. The subjectivity of measurement results is strong, resulting in poor comparability of identification results between laboratories. To address this issue, a method for estimating coal vitrinite reflectance based on random forests(RF) and dendritic networks(DDNet) is proposed. It mainly includes three parts: coal rock microscopic image segmentation, vitrinite recognition, and mean maximum vitrinite reflectance prediction. The elbow method and K-Means algorithm are used to achieve segmentation of different maceral regions of the clustering microscopic images. The artificial minority oversampling method (SMOTE) is used to oversample minority samples to improve the imbalance between vitrinite and nonvitrinite regional samples in coal and rock. The DDNet-based regression algorithm isused to estimate the mean maximum vitrinite reflectance. When building a regression model, multiple 41×41 pixel square windows are selected from the vitrinite regions to extract their grey scale features. It improves the robustness of the algorithm, with a determination coefficient of 0.990. The experimental results show that using elbow method to automatically determine the parameter K of the K-Means algorithm, which has good adaptive capability. It can automatically distinguish different types of microscopic components. The SMOTE method can effectively avoid the problem of over-learning sample prior information, which leads to good recognition of the majority class and poor recognition of the minority class. It improves classification accuracy. Among them, the recognition model based on RF has an accuracy rate of 97.0%. Seven regression estimation models have been established, among which the DDNet regression model has the best performance, with a determination coefficient of 0.990. The predicted results are highly consistent with the actual values, verifying the feasibility of the proposed method.
Key words: mean maximum vitrinite reflectance; K-Means clustering; random forest; dendritic network; SMOTE; DDNet regression algorithm
0 引言
鏡質(zhì)組反射率與揮發(fā)分產(chǎn)率、粘結(jié)系數(shù)等指標(biāo)有較強(qiáng)相關(guān)性,是公認(rèn)表征煤化程度(煤級(jí))的重要指標(biāo)。其中,油浸物鏡下測(cè)得的鏡質(zhì)組平均最大反射率(Mean Maximum Vitrinite Reflectance, MMVR)應(yīng)用最為廣泛,是進(jìn)行煉焦配煤、混煤鑒別的主要依據(jù)[1-2]。目前 MMVR 測(cè)定主要有2種方式:①基于顯微光度計(jì)的人工測(cè)定。該方式準(zhǔn)確度高,但耗時(shí)長(zhǎng),測(cè)定過(guò)程受人員的專(zhuān)業(yè)知識(shí)影響較大,測(cè)試結(jié)果主觀性較強(qiáng)。②基于計(jì)算機(jī)視覺(jué)技術(shù)的自動(dòng)測(cè)定。該方式憑借其快速、準(zhǔn)確和可重復(fù)性等優(yōu)勢(shì),有望成為 MMVR 測(cè)定的主要方向[3]。
MMVR 自動(dòng)測(cè)定主要包括煤巖顯微組分識(shí)別(鏡質(zhì)組的識(shí)別)和 MMVR 估計(jì)2個(gè)部分[4]。近年來(lái)基于計(jì)算機(jī)視覺(jué)技術(shù)的煤巖顯微組分識(shí)別引起了研究者的極大關(guān)注[5]。M. Mlynarczuk等[6]采用形態(tài)學(xué)梯度、灰度特征和最近鄰算法實(shí)現(xiàn)了三大顯微組分和礦物的識(shí)別,平均準(zhǔn)確率為97.23%。Wang Hongdong等[7]提出了一種基于圖像分析的顯微組分識(shí)別方法,開(kāi)發(fā)了基于圖像分割和分類(lèi)的顯微組分識(shí)別策略,可識(shí)別7種顯微組分或亞組分,準(zhǔn)確率為90.44%。 Lei Meng 等[8]設(shè)計(jì)了具有增強(qiáng)注意力門(mén)的改進(jìn) U?Net 模型并評(píng)估了各種編碼器的性能,在89張顯微圖像上的實(shí)驗(yàn)結(jié)果顯示該方法的分割準(zhǔn)確率達(dá)到91.56%。王培珍等[9]根據(jù)各顯微組分的紋理特點(diǎn)和亮度差異,提出了遷移學(xué)習(xí)的鏡質(zhì)組分類(lèi)方法,實(shí)現(xiàn)了對(duì)結(jié)構(gòu)鏡質(zhì)體、無(wú)結(jié)構(gòu)鏡質(zhì)體和鏡屑體3種顯微組分的識(shí)別。
雖然前人對(duì)顯微組分的智能識(shí)別做了大量嘗試,但對(duì) MMVR 估計(jì)的研究相對(duì)有限。B. M. England 等[10]利用圖像分析儀測(cè)量 MMVR 的分布,獲得了較好的效果。王洪棟[11]提出一種基于機(jī)器學(xué)習(xí)的 MMVR 估計(jì)方法,并發(fā)布首款免費(fèi)公開(kāi)的鏡質(zhì)組反射率分析軟件,其研究結(jié)果證明機(jī)器學(xué)習(xí)方法在估計(jì) MMVR 上具有較大的潛力。
上述研究成果極大推動(dòng)了基于計(jì)算機(jī)視覺(jué)技術(shù)的 MMVR 測(cè)定研究,但仍然存在一些問(wèn)題和改進(jìn)的空間。目前的研究仍多為半自動(dòng)化方式,即圖像中鏡質(zhì)組區(qū)域的識(shí)別仍然依賴(lài)于人工判定。雖然 Wang Hongdong等[12]實(shí)現(xiàn)了全自動(dòng) MMVR 測(cè)定,但由于未考慮鏡質(zhì)組和非鏡質(zhì)組樣本的不均衡問(wèn)題,鏡質(zhì)組識(shí)別率有待進(jìn)一步提升。此外,MMVR 回歸多采用單一灰度特征,回歸分析性能仍有一定提升空間。鑒此,本文提出了一種基于機(jī)器學(xué)習(xí)的 MMVR 估計(jì)方法。首先,使用 K?Means算法將煤巖顯微圖像中的不同顯微組分聚類(lèi),利用聚類(lèi)后的標(biāo)簽將煤巖顯微圖像分割成不同顯微組分。其次,采用隨機(jī)森林(Random Forest,RF)對(duì)分割后的顯微組分分類(lèi),得到鏡質(zhì)組區(qū)域的顯微圖像。然后,采用人工少數(shù)類(lèi)過(guò)采樣法(Synthetic Minority Over-Sampling Technique, SMOTE)對(duì)少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣,以解決分類(lèi)時(shí)鏡質(zhì)組區(qū)域與非鏡質(zhì)組區(qū)域樣本不均衡的問(wèn)題。最后,使用基于樹(shù)突網(wǎng)絡(luò)(Dendrite Net,DDNet)的回歸算法估計(jì) MMVR。本文的主要?jiǎng)?chuàng)新點(diǎn)如下:①通過(guò)引入 SMOTE 算法,解決了鏡質(zhì)組和非鏡質(zhì)組區(qū)域樣本不均衡問(wèn)題,提高了鏡質(zhì)組識(shí)別的準(zhǔn)確率,為 MMVR 回歸分析打下良好基礎(chǔ)。②采用DDNet進(jìn)行 MMVR 回歸分析,提升了 MMVR 估計(jì)的精度和魯棒性。③將顯微圖像分割、鏡質(zhì)組識(shí)別和 MMVR 估計(jì)算法進(jìn)行集成,開(kāi)發(fā)了 MMVR 估計(jì)軟件。
1 研究方法
基于隨機(jī)森林和樹(shù)突網(wǎng)絡(luò)的煤鏡質(zhì)組反射率估計(jì)方法主要由基于 K?Means 的煤巖顯微圖像分割、基于 SMOTE 和 RF 的鏡質(zhì)組區(qū)域識(shí)別和基于DDNet的 MMVR 估計(jì)3個(gè)部分組成。 MMVR 估計(jì)流程如圖1所示。
采用 K?Means算法將顯微圖像中不同顯微組分聚類(lèi),將顯微圖像分割成 K 個(gè)不同的區(qū)域,每個(gè)區(qū)域均對(duì)應(yīng)一種顯微組分。由于每張顯微圖像中顯微組分的類(lèi)別數(shù)不同,本文采用手肘法確定 K 值[13-14],分別采用不同的 K 值進(jìn)行聚類(lèi),并計(jì)算其誤差平方和(每個(gè)樣本點(diǎn)與其聚類(lèi)中心距離的平方和),誤差平方和與 K 的關(guān)系圖是一個(gè)手肘形,取肘部位置對(duì)應(yīng)的 K 值作為最優(yōu)類(lèi)別數(shù)。從分割后的顯微圖像中提取包括紋理、灰度和幾何特征在內(nèi)的綜合特征進(jìn)行鏡質(zhì)組區(qū)域識(shí)別??紤]到較大的鏡質(zhì)組區(qū)域能更真實(shí)地反映煤巖的鏡質(zhì)組反射率,本文僅對(duì)面積大于100×100像素的區(qū)域進(jìn)行識(shí)別。在 MMVR 估計(jì)階段,從識(shí)別出的鏡質(zhì)組區(qū)域隨機(jī)截取41×41像素大小的方形鏡質(zhì)組窗口,從中提取灰度特征,并建立基于DDNet的 MMVR 回歸模型。
1.1 SMOTE 算法
考慮到顯微圖像中非鏡質(zhì)組區(qū)域較多,為避免類(lèi)別不平衡對(duì)模型性能的影響,本文使用 SMOTE 算法,通過(guò)合成新樣本的方式對(duì)少數(shù)類(lèi)樣本進(jìn)行過(guò)采樣[15]。與隨機(jī)過(guò)采樣不同,SMOTE 算法是在特征空間進(jìn)行采樣,并非數(shù)據(jù)空間。該算法通過(guò)生成人工樣本拓寬決策區(qū)域,添加到數(shù)據(jù)集中的新樣本位于原始樣本的附近,而不是樣本本身,從而降低了過(guò)擬合的概率[16]。
1.2 DDNet算法
Liu Gang 等[17-18]提出了一種只包含矩陣乘法和Hadamard 乘積的機(jī)器學(xué)習(xí)算法DDNet。與傳統(tǒng)的全連接神經(jīng)網(wǎng)絡(luò)(Full-connect Neural Network,F(xiàn)NN)相比,DDNet使用 Hadamard 乘積代替非線性激活函數(shù)。單層DDNet與 FNN 的輸入輸出關(guān)系分別為
式中:Y1為單層DDNet的輸出;W l,l?1為第 l?1個(gè)模塊到第 l 個(gè)模塊的權(quán)值矩陣;X 為輸入數(shù)據(jù);“?”為 Hadamard 乘積符號(hào),表示2個(gè)矩陣對(duì)應(yīng)元素相乘; Y2為 FNN 的輸出;f(·)為非線性激活函數(shù)。
DDNet的體系結(jié)構(gòu)可表示為
式中 L 為DDNet模塊的數(shù)量。
DDNet使用 Hadamard 乘積代替非線性激活函數(shù),將展開(kāi)式等價(jià)為特征之間的邏輯表達(dá),實(shí)現(xiàn)了高次冪代替非線性映射的功能,各項(xiàng)前的權(quán)重矩陣則轉(zhuǎn)換為泰勒展開(kāi)式的系數(shù)。DDNet收斂后在類(lèi)似于最優(yōu)組合點(diǎn)處的泰勒展開(kāi),使得其非線性學(xué)習(xí)所受的限制更小。與傳統(tǒng)的 FNN 相比,DDNet具有較快的有效收斂速度,且不易出現(xiàn)過(guò)擬合,泛化能力更好。本文使用DDNet構(gòu)建神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)如圖2所示。
1.3 特征提取
煤巖顯微組分光學(xué)特征復(fù)雜,依靠單一類(lèi)型的特征難以區(qū)分鏡質(zhì)組與其他顯微組分[19-20]。本文提取包括灰度、幾何、紋理特征在內(nèi)的101維特征用于鏡質(zhì)組識(shí)別。其中,灰度特征包括灰度均值、灰度最大值、灰度中值、灰度標(biāo)準(zhǔn)差、對(duì)比度、能量、灰度概率(不同灰度的像素在總像素中的占比)[21],共70維。為提高計(jì)算灰度概率的效率,實(shí)驗(yàn)對(duì)相鄰的4個(gè)灰度級(jí)合并計(jì)算。同時(shí)選取7個(gè) Hu不變矩描述顯微組分的幾何特征[22]。采用灰度共生矩陣描述顯微組分的紋理特征,包含4個(gè)方向上的逆差矩、二階矩、熵、對(duì)比度、差異性、相關(guān)性共24個(gè)特征[23-24]。
MMVR 與灰度分布之間存在密切關(guān)系,為了準(zhǔn)確描述灰度分布并預(yù)測(cè) MMVR,從截取的鏡質(zhì)組方形窗口中提取14維灰度特征進(jìn)行 MMVR 回歸分析,包括灰度均值、灰度最大值、灰度中值、灰度標(biāo)準(zhǔn)差及對(duì)應(yīng)像素點(diǎn)數(shù)量最多的10個(gè)灰度值。
1.4 評(píng)價(jià)指標(biāo)
1.4.1 鏡質(zhì)組識(shí)別的性能評(píng)價(jià)指標(biāo)
通過(guò)準(zhǔn)確率 A、查準(zhǔn)率 P、召回率 R 和 F1分?jǐn)?shù)4個(gè)性能指標(biāo)評(píng)價(jià)鏡質(zhì)組識(shí)別算法的性能。
式中:TP 為被預(yù)測(cè)為正類(lèi)的正樣本數(shù);TN 為被預(yù)測(cè)為負(fù)類(lèi)的負(fù)樣本數(shù);FP 為被預(yù)測(cè)為正類(lèi)的負(fù)樣本數(shù); FN 為被預(yù)測(cè)為負(fù)類(lèi)的正樣本數(shù)。
1.4.2 MMVR 估計(jì)的性能評(píng)價(jià)指標(biāo)
采用均方誤差Mse、平均絕對(duì)誤差 Mae 和決定系數(shù) S 三個(gè)指標(biāo)評(píng)價(jià) MMVR 估計(jì)算法的性能。均方誤差衡量 MMVR 預(yù)測(cè)值與真實(shí)值之間的差異程度。平均絕對(duì)誤差為預(yù)測(cè)值與真實(shí)值的絕對(duì)差值的平均值。決定系數(shù)表明回歸預(yù)測(cè)與真實(shí)值的接近程度,其取值范圍為0~1。決定系數(shù)值越大,表示回歸的性能越好。各指標(biāo)計(jì)算公式為
式中:n 為樣本個(gè)數(shù);y(?)i為預(yù)測(cè)值;yi為真值;y(?)為總體真實(shí)值的平均值。
2 實(shí)驗(yàn)結(jié)果和分析
本文使用來(lái)源于美國(guó)科羅拉多和西弗吉尼亞的13個(gè)煤樣進(jìn)行實(shí)驗(yàn)。樣本包含69張煤巖顯微圖像,其 MMVR 為0.7%~1.79%。10~15個(gè)相互獨(dú)立的實(shí)驗(yàn)室嚴(yán)格遵守反射率測(cè)定標(biāo)準(zhǔn) ASTM D2798-21(Standard Test Method for Microscopical Determination of the Vitrinite Reflectance of Coal),使用顯微光度計(jì)測(cè)得13個(gè)煤樣的 MMVR,最終的 MMVR 數(shù)值為各實(shí)驗(yàn)室測(cè)得數(shù)據(jù)的平均值。13個(gè)煤樣的煤巖顯微圖像均采用 Leica DFC480數(shù)字照相機(jī)在白光照射和油浸物鏡下拍攝,且均處于相同曝光條件下。可通過(guò)以下網(wǎng)址獲取相關(guān)實(shí)驗(yàn)數(shù)據(jù):https://energy.usgs.gov/ PhotoAtlas/?aid=14。
2.1 圖像分割結(jié)果
基于手肘法和 K?Means算法的煤巖顯微圖像分割結(jié)果如圖3所示。圖3(a)?圖3(d)中顯微圖像所含有的顯微組分類(lèi)別數(shù)依次是1?4。分割結(jié)果顯示,采用手肘法自動(dòng)確定 K?Means算法的參數(shù) K,具有良好的自適應(yīng)能力,能夠自動(dòng)區(qū)分不同類(lèi)別數(shù)的顯微組分。
2.2 鏡質(zhì)組識(shí)別結(jié)果
使用 K?Means算法分割13個(gè)煤樣的69張顯微圖像后,去除小于100×100像素的區(qū)域,最終獲得顯微組分區(qū)域共891個(gè),其中鏡質(zhì)組區(qū)域168個(gè),非鏡質(zhì)組區(qū)域723個(gè),類(lèi)別分布不平衡。對(duì)每個(gè)區(qū)域提取幾何、紋理和灰度共101維復(fù)合特征,形成891× 101像素的矩陣,作為基礎(chǔ)數(shù)據(jù)集。將數(shù)據(jù)集按照8∶2的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集進(jìn)行實(shí)驗(yàn)。為了解決鏡質(zhì)組與非鏡質(zhì)組樣本不均衡的問(wèn)題,嘗試了3種不同的過(guò)采樣、下采樣算法:① SMOTE 算法,通過(guò)添加合成的少數(shù)類(lèi)樣本改善數(shù)據(jù)分布的不平衡。②隨機(jī)下采樣(Random Under Sample, RUS),通過(guò)隨機(jī)選擇對(duì)多數(shù)類(lèi)樣本進(jìn)行下采樣。③ SMOTE 算法與 RUS 相結(jié)合的不均衡數(shù)據(jù)處理方法。在鏡質(zhì)組識(shí)別實(shí)驗(yàn)中,對(duì)比了4種經(jīng)典分類(lèi)算法(分類(lèi)回歸樹(shù)(CART)、K 近鄰(KNN)、支持向量機(jī)(SVM)、RF)與不同數(shù)據(jù)處理方法結(jié)合得到的分類(lèi)性能,實(shí)驗(yàn)結(jié)果見(jiàn)表1。同時(shí),為研究采樣后的少數(shù)類(lèi)與多數(shù)類(lèi)樣本比例對(duì)各模型分類(lèi)性能的影響,以使用 SMOTE 算法處理不平衡數(shù)據(jù)為例,分別將鏡質(zhì)組與非鏡質(zhì)組樣本比例設(shè)置為0.3∶1,0.5∶1,0.7∶1,0.9∶1和1∶1。用 SMOTE 算法處理后,樣本不平衡問(wèn)題得到了緩解。隨著鏡質(zhì)組與非鏡質(zhì)組樣本比例的增大,分類(lèi)模型整體性能逐漸變好,當(dāng)該比例達(dá)到0.7時(shí),模型性能趨于穩(wěn)定。為簡(jiǎn)便起見(jiàn),在后續(xù)實(shí)驗(yàn)中,將上述比例設(shè)置為1∶1。
為了避免偶然因素影響,表1中的各項(xiàng)數(shù)據(jù)均為4種分類(lèi)算法重復(fù)實(shí)驗(yàn)50次所得的平均值。由表1可知,RF 算法在實(shí)驗(yàn)中表現(xiàn)最佳。此外,使用 SMOTE 算法對(duì)訓(xùn)練集少數(shù)類(lèi)樣本過(guò)采樣后,4種分類(lèi)算法在準(zhǔn)確率和 F1分?jǐn)?shù)略有提升的同時(shí),召回率大幅增加,且各項(xiàng)指標(biāo)的標(biāo)準(zhǔn)差有所降低。使用 RUS 算法處理后,鏡質(zhì)組與非鏡質(zhì)組樣本的比例被提升為1∶1,數(shù)據(jù)不平衡問(wèn)題得到了解決。相較于不做下采樣處理,模型的平均召回率從0.85提升到0.96,平均 F1分?jǐn)?shù)從0.88提升為0.89,但查準(zhǔn)率明顯下降,預(yù)測(cè)結(jié)果中可能包含較多的假陽(yáng)性樣本。實(shí)驗(yàn)結(jié)果表明,僅使用 SMOTE 算法即可有效避免模型因過(guò)度學(xué)習(xí)樣本先驗(yàn)信息而導(dǎo)致對(duì)多數(shù)類(lèi)識(shí)別好、少數(shù)類(lèi)識(shí)別差的問(wèn)題。
2.3 基于煤樣的 MMVR 回歸結(jié)果
受傳統(tǒng) MMVR 測(cè)定方法的啟發(fā),采用基于煤樣的 MMVR 回歸分析,單個(gè)煤樣的 MMVR 估計(jì)值為其包含的所有煤巖顯微圖像的 MMVR 估計(jì)值的均值。在估計(jì)單幅煤巖顯微圖像的 MMVR 時(shí),選取煤巖顯微圖像中大于100×100像素的鏡質(zhì)組區(qū)域進(jìn)行 MMVR 估計(jì)。模仿傳統(tǒng)取點(diǎn)測(cè)量的方法,從鏡質(zhì)組區(qū)域中截取多個(gè)方形窗口(41×41像素),所有方形窗口 MMVR 估計(jì)結(jié)果的平均值為該煤巖顯微圖像的MMVR。
煤巖顯微圖像的 MMVR 估計(jì)結(jié)果如圖4所示,其中圖4(b)為多個(gè)方形窗口的反射率預(yù)測(cè)結(jié)果分布。該煤巖顯微圖像的 MMVR 實(shí)際值為1.31%,多個(gè)方形窗口預(yù)測(cè)結(jié)果的平均值為1.285%,證明了對(duì)單幅顯微圖像截取窗口進(jìn)行回歸分析的有效性。
在煤樣 MMVR 回歸實(shí)驗(yàn)中,對(duì)比了7種回歸分析算法,包括支持向量機(jī)回歸(Support Vector Regression, SVR)、自適應(yīng)增強(qiáng)(AdaBoost)、K 近鄰(K-Nearest Neighbor,KNN)、梯度提升(Gradient Boosting)、RF、 FNN 和DDNet。實(shí)驗(yàn)采用留一法進(jìn)行交叉驗(yàn)證,為了防止偶然因素影響,共進(jìn)行了20次回歸實(shí)驗(yàn),最終得到的均方誤差、平均絕對(duì)誤差、決定系數(shù)結(jié)果對(duì)比見(jiàn)表2。
由表2可知,DDNet回歸分析算法取得了最佳性能。DDNet作為 FNN 的改進(jìn)算法,在將非線性激活函數(shù)替換為 Hadamard 乘積后,其回歸分析的精度和泛化性能均有顯著提升。
DDNet回歸模型的預(yù)測(cè)結(jié)果如圖5所示,直觀地展示了13個(gè)煤樣 MMVR 的實(shí)際值和預(yù)測(cè)值之間的相關(guān)性。圖5中 MMVR 的預(yù)測(cè)值與實(shí)際值高度契合,證明了將DDNet回歸算法用于 MMVR 預(yù)測(cè)估計(jì)具有較強(qiáng)的可行性。
2.4 軟件界面
為協(xié)助煤巖分析工作者進(jìn)行 MMVR 測(cè)定,開(kāi)發(fā)了一款煤巖 MMVR 估計(jì)軟件。該軟件集成了基于 K?Means 的圖像分割算法、基于 RF 的鏡質(zhì)組識(shí)別算法和基于DDNet的 MMVR 估計(jì)算法。需要說(shuō)明的是,該軟件的適用對(duì)象需符合反射率測(cè)定標(biāo)準(zhǔn) ASTMD2798-21(StandardTestMethodforMicroscopical Determination of the Vitrinite Reflectance of Coal)。針對(duì)圖像分割中超參數(shù) K 的設(shè)定,軟件提供手肘法自動(dòng)確定和人工設(shè)定2種方式。
煤巖 MMVR 估計(jì)軟件界面如圖6所示。通過(guò)“導(dǎo)入煤樣圖片”按鈕批量導(dǎo)入指定煤樣的多幅煤巖顯微圖像,A 區(qū)域顯示導(dǎo)入的顯微圖像;通過(guò)“鏡質(zhì)組識(shí)別”按鈕對(duì)導(dǎo)入的顯微圖像進(jìn)行圖像分割和鏡質(zhì)組識(shí)別,并將識(shí)別出的鏡質(zhì)組區(qū)域顯示于 B 區(qū)域中;通過(guò)“切換圖像”按鈕切換該煤樣的不同顯微圖像及其鏡質(zhì)組識(shí)別結(jié)果;通過(guò)“反射率估計(jì)”按鈕估計(jì)鏡質(zhì)組區(qū)域的 MMVR 值,并將該煤樣所截取窗口的反射率分布柱狀圖和 MMVR 估計(jì)結(jié)果顯示在 C 區(qū)域和 D 區(qū)域中。
3 結(jié)論
1)基于機(jī)器視覺(jué)技術(shù)開(kāi)發(fā)了煤巖 MMVR 估計(jì)系統(tǒng),主要包括煤巖顯微圖像分割、鏡質(zhì)組識(shí)別和 MMVR 回歸3個(gè)部分。采用 K?Means算法,分割顯微圖像中的不同顯微組分,提取鏡質(zhì)組灰度、幾何和紋理等特征;為改善樣本不均衡問(wèn)題,采用 SMOTE 算法對(duì)少數(shù)類(lèi)樣本過(guò)采樣,構(gòu)建了4種鏡質(zhì)組區(qū)域識(shí)別模型,其中 RF 方法性能最優(yōu),分類(lèi)準(zhǔn)確率為97.0%;建立了7種回歸估計(jì)模型,其中DDNet回歸算法取得了最優(yōu)的結(jié)果,決定系數(shù)達(dá)到了0.990。
2)實(shí)驗(yàn)結(jié)果表明,本文所提方法與傳統(tǒng)基于顯微光度計(jì)測(cè)定方法的測(cè)定結(jié)果高度契合,且克服了傳統(tǒng)顯微光度計(jì)測(cè)定方法對(duì)時(shí)間、精力、專(zhuān)業(yè)知識(shí)要求高的缺點(diǎn),驗(yàn)證了機(jī)器學(xué)習(xí)在煤巖顯微圖像分析中應(yīng)用的可行性。
3)下一步擬對(duì)更多樣本、更寬鏡質(zhì)組反射率范圍的煤樣進(jìn)行分析,并嘗試使用更復(fù)雜的神經(jīng)網(wǎng)絡(luò)完成圖像分割、分類(lèi)及回歸任務(wù),以減少對(duì)特征工程的依賴(lài)。
參考文獻(xiàn)(References):
[1] 田英奇,張衛(wèi)華,沈寓韜,等.鏡質(zhì)組反射率指導(dǎo)優(yōu)化配煤煉焦方案的研究[J].煤炭科學(xué)技術(shù),2016,44(4):162-168.
TIAN Yingqi,ZHANG Weihua,SHEN Yutao,et al. Research on optimization of coal blending coking guided by? vitrinite? reflectance[J]. Coal? Science? andTechnology,2016,44(4):162-168.
[2] 俞楠,鄒沖,劉詩(shī)薇,等.利用鏡質(zhì)組反射率鑒定蘭炭與煤粉互混樣的方法解析[J].冶金能源,2022,41(5):13-18.
YU Nan,ZOU Chong,LIU Shiwei,et al. Analysis of the method for identifying the mixed samples of pulverized? coal? and? semi-coke? by? vitrinite reflectance[J]. Energy for Metallurgical Industry,2022,41(5):13-18.
[3] 宋孝忠,張群.煤巖顯微組分組圖像自動(dòng)識(shí)別系統(tǒng)與關(guān)鍵技術(shù)[J].煤炭學(xué)報(bào),2019,44(10):3085-3097.
SONG Xiaozhong,ZHANG Qun. Automatic image recognition system and key technologies of maceral group[J]. Journal of China Coal Society,2019,44(10):3085-3097.
[4] SANTOS R B M,AUGUSTO K S,IGLESIAS J C ?, et al. A deep learning system for collotelinite segmentation and coal reflectance determination[J]. International Journal of Coal Geology,2022,263:104111-104122.
[5] VAN NIEKERK D,MITCHELL G D,MATHEWS J P. Petrographic and reflectance analysis of solvent-swelled and solvent-extracted South African vitrinite-rich and inertinite-rich coals[J]. International Journal of Coal Geology,2009,81(1):45-52.
[6] MLYNARCZUK M,G?RSZCZYK A,?LIPEK B. The application of pattern recognition in the automatic classificationofmicroscopicrockimages[J]. Computers& Geosciences,2013,60:126-133.
[7] WANG Hongdong,LEI Meng,CHEN Yilin,et al. Intelligent identification of maceral components of coal based on image segmentation and classification[J]. Applied Sciences,2019,9(16). DOI:10.3390/app9163245.
[8] LEI Meng,RAO Zhongyu,WANG Hongdong,et al. Maceral groups analysis of coal based on semantic segmentation of photomicrographs via the improved U- net [J]. Fuel,2021,294. DOI:10.1016/j.fuel.2021.120475.
[9] 王培珍,余晨,薛子邯,等.基于遷移學(xué)習(xí)的煤巖殼質(zhì)組顯微組分識(shí)別模型[J].煤炭科學(xué)技術(shù),2022,50(1):220-227.
WANG Peizhen,YU Chen,XUE Zihan,et al. Transfer learning based identification model for macerals of exinite in coal[J]. Coal Science and Technology,2022,50(1):220-227.
[10] ENGLAND B M,MIKKA R A,BAGNALL E J,et al. Petrographic characterization of coal using automatic image analysis[J]. Journal of Microscopy,1979,116(3):329-336.
[11] 王洪棟.基于機(jī)器學(xué)習(xí)的煤巖顯微圖像分析研究[D].徐州:中國(guó)礦業(yè)大學(xué),2019.
WANG Hongdong. Research on photomicrograph analysis of coal based on machine learning[D]. Xuzhou:China University of Mining and Technology,2019.
[12] WANG Hongdong, LEI Meng, LI Ming, et al. Intelligent estimation of vitrinite reflectance of coal from photomicrographs based on machine learning[J]. Energies,2019,12(20):1-16.
[13] ONUMANYI A J,MOLOKOMME D N,ISAAC S J,et al. AutoElbow:an automatic elbow detection method for estimating the number of clusters in a dataset[J]. Applied Sciences,2022,12(15). DOI:10.3390/app12157515.
[14] SAMMOUDA R, EL-ZAART A. An optimized approach for prostate image segmentation using K- means clustering algorithm with elbow method[J]. Computational Intelligence and Neuroscience,2021,2021. DOI:10.1155/2021/4553832.
[15] BOKHARE A,BHAGAT A,BHALODIA R. Multi- layer perceptron for heart failure detection using SMOTE technique[J]. SN Computer Science,2023,4(2). DOI:10.1007/s42979-022-01596-x.
[16] ISHAQ A,SADIQ S,UMER M,et al. Improving the prediction of heart failure patients' survival using SMOTE and effective data mining techniques[J]. IEEE Access,2021,9:39707-39716.
[17] LIU Gang. It may be time to improve the neuron of artificial neural network[EB/OL].[2023-01-20]. https:// www.techrxiv.org/articles/preprint/It_may_be_time_ to_perfect_the_neuron_of_artificial_neural_network/12477266.
[18] LIU Gang,WANG Jing. Dendrite net:a white-box module for classification, regression, and systemidentification[J]. IEEE Transactions on Cybernetics,2022,52(12):13774-13787.
[19] MARIUSZ M,MARTA S. The application of artificial intelligence for the identification of the maceral groups and mineral components of coal[J]. Computers & Geosciences,2017,103:133-141.
[20] 高濤,馮松寶.煤的顯微組分特征研究綜述[J].能源技術(shù)與管理,2021,46(4):15-16,20.
GAO Tao, FENG Songbao. Literature review on property of macerals of coals[J]. Energy Technology and Management,2021,46(4):15-16,20.
[21] LI Na,HAO Huizhen,GU Qing,et al. A transfer learning method for automatic identification of sandstone microscopic? images[J]. Computers & Geosciences,2017,103:111-121.
[22] WU Zhuang,JIANG Shanshan,ZHOU Xiaolei,et al. Application of image retrieval based on convolutional neural networks and Hu invariant moment algorithm in computer?? telecommunications[J].?? Computer Communications,2020,150:729-738.
[23] MEENAKSHI G,GAURAV D. A novel content-based image retrieval approach for classification using GLCM features and texture fused LBP variants[J]. Neural Computing & Applications,2021,33(4):1311-1328.
[24] WANG Qi,HUANG Wei,ZHANG Xueting,et al. GLCM: global-local captioning model for remote sensing image captioning[J]. IEEE Transactions on Cybernetics(Early Access),2022:1-13. DOI:10.1109/ TCYB.2022.3222606.