羅開成,高 陽,楊 藝,3,常亞軍,袁瑞甫
(1.鄭州煤礦機(jī)械集團(tuán)股份有限公司,河南 鄭州 450016;2.鄭州煤機(jī)液壓電控有限公司,河南 鄭州 450016;3.河南理工大學(xué) 電氣工程與自動化學(xué)院,河南 焦作 454000;4.煤炭安全生產(chǎn)與清潔高效利用省部共建協(xié)同創(chuàng)新中心,河南 焦作 454000)
綜合機(jī)械化放頂煤開采(簡稱綜放開采)的智能化建設(shè)是推進(jìn)我國煤炭行業(yè)改造升級的重要環(huán)節(jié)[1,2]。智能感知、智能決策和自動控制是智能化開采的三要素[3]。在智能化開采中,利用智能感知系統(tǒng)實(shí)時(shí)監(jiān)測頂煤量、煤流量等工作面狀態(tài)信息,智能化放煤決策系統(tǒng)根據(jù)監(jiān)測到的信息進(jìn)行決策,建立“智能感知-決策”機(jī)制是綜放開采智能放煤工藝的發(fā)展方向[4,5]。文獻(xiàn)[6]利用雷達(dá)探測技術(shù)、激光三維掃描技術(shù)以及煤矸識別等技術(shù),實(shí)現(xiàn)了對開采頂煤厚度、放煤空間剩余頂煤量以及放出煤流中煤矸比例的實(shí)時(shí)監(jiān)測,工作面自動化系統(tǒng)根據(jù)實(shí)時(shí)監(jiān)測數(shù)據(jù)對放煤口動作進(jìn)行決策,控制放煤口動作。該方法在工業(yè)性實(shí)驗(yàn)中取得了不錯(cuò)的效果,初步實(shí)現(xiàn)了智能化放煤。目前,智能決策發(fā)展相對滯后[7]。如何根據(jù)綜放工作面放煤環(huán)境狀態(tài)信息對支架放煤口的動作進(jìn)行決策,實(shí)現(xiàn)放煤口動作隨放煤環(huán)境的變化而自動調(diào)整,是放煤工藝智能化的關(guān)鍵。因此,本文所在課題組根據(jù)馬爾可夫決策過程基本原理,將放頂煤過程抽象為馬爾可夫決策過程,建立了基于強(qiáng)化學(xué)習(xí)的放頂煤智能決策模型,控制放煤口動作,為建立放煤口智能決策機(jī)制提供思路[8-10]。
本文針對以往建立的基于Q-learning放頂煤智能決策模型不能從綜放工作面全局角度出發(fā)學(xué)習(xí)支架放煤口控制策略,導(dǎo)致在放煤過程中存在放煤口間動作配合簡單,協(xié)同性差的問題,從工作面全局角度出發(fā)學(xué)習(xí)放煤口控制策略,并將控制煤巖分界面形態(tài)也作為智能體學(xué)習(xí)的目標(biāo),建立了基于均值偏差獎賞函數(shù)Q-learning放頂煤智能決策模型,提升綜放工作面放煤過程中放煤口間動作的配合度和協(xié)同性,使其能夠更好地控制放煤過程,提升工作面放煤效果。
強(qiáng)化學(xué)習(xí)的基礎(chǔ)是馬爾可夫決策過程(Markov Decision Process,MDP)。MDP是一種用于對環(huán)境建模的模型,大部分強(qiáng)化學(xué)習(xí)問題都可以建立MDP模型,從而在理論方面為強(qiáng)化學(xué)習(xí)奠定了良好的框架[11]。馬爾可夫性是指環(huán)境下一個(gè)狀態(tài)st+1只與當(dāng)前狀態(tài)st有關(guān),而與以往的歷史狀態(tài)無關(guān)。設(shè)P為狀態(tài)之間的轉(zhuǎn)移概率,馬爾科夫性的數(shù)學(xué)描述為:
P[st+1|st]=P[st+1|st,…,s1]
(1)
MDP可以用五元組M={S,A,R,P,γ}表示,狀態(tài)空間為S={s1,s2,…,sn},其中si表示智能體所處的環(huán)境狀態(tài),i=1,2,…V,n,n表示狀態(tài)空間的維度;動作空間為A={a1,a2,…,am},其中aj為智能體可以選取的動作,j=1,2,…,m,m表示動作空間的維度;R表示狀態(tài)轉(zhuǎn)移后得到的獎賞值;P表示環(huán)境狀態(tài)轉(zhuǎn)移概率;γ為折扣因子,表示未來獎勵(lì)對當(dāng)前決策的影響程度。
在放頂煤過程中,支架放煤口的控制過程是一個(gè)時(shí)間序列,其決策依賴于工作面當(dāng)前的放煤狀態(tài)信息及上一次放煤的結(jié)果,具備馬爾科夫性。因此,控制放煤口的決策過程是典型的馬爾可夫決策過程,并可以用強(qiáng)化學(xué)習(xí)解決[8]。
由于綜放開采中環(huán)境狀態(tài)轉(zhuǎn)移概率P是未知的,導(dǎo)致無法建立決策過程完備的放頂煤MDP模型,從而導(dǎo)致無法利用基于動態(tài)規(guī)劃的方法求解MDP決策問題。但在強(qiáng)化學(xué)習(xí)Q-learning算法中,智能體不需要知道環(huán)境狀態(tài)轉(zhuǎn)移概率P,只需要確定狀態(tài)空間S、動作空間A以及獎賞函數(shù)R,智能體即可學(xué)習(xí)環(huán)境最優(yōu)策略,這與本文研究的需求高度契合。因此,本文選取Q-learning算法來解決放頂煤MDP決策問題,獲取支架放煤口最優(yōu)控制策略。
在Q-learning算法中,通過優(yōu)化一個(gè)可迭代計(jì)算的動作值函數(shù)Qπ(s,a)來獲取最優(yōu)策略[12]。動作值函數(shù)Qπ(s,a)是指根據(jù)當(dāng)前策略π,從狀態(tài)s出發(fā)選擇動作a后能夠獲得累積獎賞的期望值,其定義如下:
(2)
智能體基于貝爾曼最優(yōu)性原理更新動作值函數(shù)Qπ(s,a),使其趨近最優(yōu)策略的動作值函數(shù),更新方式如下:
Qπ(s,a)←Qπ(s,a)+α[R(s,a)+
(3)
式中,s為當(dāng)前時(shí)刻狀態(tài);a為狀態(tài)s下選擇的動作;s′為執(zhí)行動作a后的新狀態(tài);a′為在狀態(tài)s′下能使其動作值函數(shù)最大的動作;π為當(dāng)前策略;α∈(0,1)表示學(xué)習(xí)率;γ∈(0,1)為折扣系數(shù)。
當(dāng)狀態(tài)空間中所有狀態(tài)對應(yīng)的動作值函數(shù)都收斂后,此時(shí)的策略即為最優(yōu)策略。
在Q-learning算法中,智能體每次貪婪地選擇當(dāng)前狀態(tài)對應(yīng)動作值函數(shù)最大的動作。這種利用當(dāng)前知識使得立即獎賞值最大的方法,實(shí)際上可能忽略了能帶來更大獎勵(lì)的動作。為增加Q-learning“利用”已有知識和“探索”新知識的性能,本文采用ε-greedy算法作為選擇動作的策略,其表達(dá)式為:
(4)
式中,ε∈(0,1),表示探索率;|A(s)|是狀態(tài)s條件下可選動作的數(shù)量;a*為最大動作值函數(shù)對應(yīng)的動作。
在之前建立的Q-learning放頂煤智能決策模型中,定義的MDP參數(shù)存在以下不足:①僅根據(jù)頂煤含量確定頂煤賦存狀態(tài),標(biāo)準(zhǔn)過于單一;②僅根據(jù)放出體狀態(tài)定義獎賞函數(shù)R,獎賞函數(shù)與放煤目標(biāo)之間的關(guān)聯(lián)關(guān)系不夠高,導(dǎo)致智能體學(xué)習(xí)到的放煤口控制策略無法使工作面放煤效果達(dá)到最佳;③動作空間A中僅有打開和關(guān)閉兩個(gè)動作,智能體可選擇的動作較少。針對以上不足,本文重新定義了狀態(tài)空間S、動作空間A以及設(shè)計(jì)了一種新的獎賞函數(shù)R,優(yōu)化放頂煤智能決策模型,提升工作面放煤效果。
1.3.1 狀態(tài)空間S設(shè)計(jì)
1)頂煤賦存狀態(tài)特征。將支架放煤口上方以及掩護(hù)梁后方作為檢測區(qū)域,檢測區(qū)域內(nèi)的頂煤含量作為頂煤賦存狀態(tài)的特征之一,記為w。其中,第i臺支架檢測區(qū)域內(nèi)頂煤含量計(jì)算如下:
(5)
式中,mi為第i臺支架檢測區(qū)域內(nèi)的頂煤量;ni為第i臺支架檢測區(qū)域內(nèi)的矸石量。wi越大,則說明當(dāng)前支架檢測區(qū)域內(nèi)待放頂煤越充足。
結(jié)合第i臺支架檢測區(qū)域內(nèi)的頂煤含量wi與所有支架檢測區(qū)域內(nèi)頂煤含量的平均值waverage,定義了第i臺支架的均值偏差量特征μi:
μi=wi-waverage
(6)
式中,wi為第i臺支架對應(yīng)檢測區(qū)域的頂煤含量;waverage為所有支架對應(yīng)檢測區(qū)域頂煤含量的平均值;N為綜放工作面上液壓支架的數(shù)量。當(dāng)μi>0時(shí),代表第i臺液壓支架檢測區(qū)域頂煤含量高于所有支架頂煤含量的平均水平。
2)頂煤賦存狀態(tài)。根據(jù)頂煤含量w與均值偏差量μ共同確定支架放煤口上方頂煤賦存狀態(tài)。但由于Q-learning在處理連續(xù)狀態(tài)時(shí)容易出現(xiàn)維度爆炸的問題[13]。因此,考慮到算法的收斂速度,還需要對頂煤含量w與均值偏差量μ進(jìn)行離散化處理。根據(jù)頂煤含量w與均值偏差量μ的不同離散等級的組合,可以定義不同的頂煤賦存狀態(tài)sn,其定義為:
sn=(wl,uj)
(7)
式中,wl=[w1,w2,…,wl]為頂煤含量w的離散等級空間,l代表其維度大小;uj=[u1,u2,…,uj]為均值偏差量μ的離散等級空間,j代表其維度大小。
對應(yīng)的狀態(tài)空間S為:
S={s0,s1,…,sn}
(8)
式中,n為狀態(tài)空間的維度。
1.3.2 動作空間A設(shè)計(jì)
在綜放開采中,可以通過調(diào)節(jié)放煤口的開口度調(diào)節(jié)放煤量[14]。因此,根據(jù)放煤口開口度大小定義放煤口動作,對應(yīng)的動作空間A為:
A={a1,a2,a3,a4}
(9)
式中,a1代表關(guān)閉放煤口;a2代表放煤口全開;a3代表放煤口半開;a4代表放煤口打開三分之二開口度。
1.3.3 均值偏差獎賞函數(shù)R設(shè)計(jì)
本文結(jié)合放出煤流狀態(tài)與頂煤賦存狀態(tài)特征兩個(gè)方面定義了均值偏差獎賞函數(shù)R:
R=Rcoal+Rdev
(10)
式中,Rcoal是與放出煤流狀態(tài)相關(guān)的獎賞函數(shù);Rdev是與均值偏差特征μ相關(guān)的獎賞函數(shù)。
1)Rcoal獎賞函數(shù)。在綜放開采中,現(xiàn)場工人一般根據(jù)放出煤流中的煤矸比例控制放煤口的開閉。因此,定義獎賞函數(shù)Rcoal:
Rcoal=λ1M1+λ2M2
(11)
式中,λ1代表放出單個(gè)頂煤的獎勵(lì),M1代表放煤口動作后放出頂煤的數(shù)量,λ2代表放出單個(gè)矸石的獎勵(lì),M2代表放煤口動作后放出矸石的數(shù)量。
2)Rdev獎賞函數(shù)。通過對放頂煤過程分析可以得到,當(dāng)煤巖分界面均勻下降時(shí),各支架檢測區(qū)域內(nèi)頂煤賦存狀態(tài)的均值偏差量特征μ在數(shù)值上相互接近。因此,根據(jù)均值偏差量特征μ的離散等級設(shè)計(jì)獎賞函數(shù),記為Rdev,見表1。
表1 獎賞函數(shù)Rdev
在獎賞函數(shù)Rdev中,當(dāng)放煤口執(zhí)行動作后,放煤口上方頂煤賦存狀態(tài)的均值偏差量μ越接近0,則獲得的懲罰rj越小,反之獲得的懲罰rj越大,從而引導(dǎo)智能體學(xué)習(xí)保持煤巖分界面均勻下降。
在放頂煤過程中,當(dāng)煤巖分界面即將達(dá)放煤口或者已經(jīng)到達(dá)放煤口時(shí),智能體的注意力集中在矸石的放出。如果此時(shí)繼續(xù)學(xué)習(xí)保持煤巖分界面均勻下降,智能體將忽略部分矸石的放出,從而導(dǎo)致放煤效果下降。因此,需要對獎賞函數(shù)Rdev的使用進(jìn)行約束。約束后的獎賞函數(shù)R為:
R=Rcoal+C×Rdev
(12)
(13)
當(dāng)sn(wl,.)<0.3,代表當(dāng)支架放煤口上方的頂煤含量小于30%,此時(shí)智能體將不再學(xué)習(xí)保持控制煤巖分界面形態(tài),而專注于控制矸石的放出。
當(dāng)狀態(tài)空間S、動作空間A以及均值偏差獎賞函數(shù)R確定后,利用Q-learning算法在線學(xué)習(xí)頂煤賦存狀態(tài)與支架放煤口動作之間的最優(yōu)映射關(guān)系,獲取支架放煤口最優(yōu)控制策略。智能體的學(xué)習(xí)過程可以描述為:在與環(huán)境交互的過程中,智能體不斷獲取頂煤賦存狀態(tài)sn,支架放煤口動作a以及環(huán)境反饋的獎賞值R等知識。智能體根據(jù)獲取到的知識,按照式(3)計(jì)算并更新對應(yīng)放煤口動作的動作值函數(shù)Qπ(s,a),直到所有的動作值函數(shù)都收斂到最優(yōu)。在選擇放煤口動作時(shí),智能體根據(jù)已經(jīng)學(xué)習(xí)到的當(dāng)前頂煤賦存狀態(tài)下放煤口動作的動作值函數(shù)Qπ(s,a),按照式(4)選擇當(dāng)前放煤口的動作與放頂煤環(huán)境進(jìn)行交互。Q-learning算法框架如圖1所示。
圖1 Q-learning算法框架
本文結(jié)合YADE開源代碼,在Ubuntu系統(tǒng)上開發(fā)了一種基于離散元方法的綜放工作面進(jìn)刀放煤三維仿真實(shí)驗(yàn)平臺,對放頂煤智能決策模型展開研究,如圖2所示。在仿真模型中綠色顆粒代表頂煤,紅色顆粒代表矸石。當(dāng)頂煤通過放煤口被放出時(shí),頂煤顏色由綠色變?yōu)樗{(lán)色,與未放出的頂煤做區(qū)別。圖2中,黃色邊框標(biāo)識的區(qū)域?yàn)橹Ъ茼斆嘿x存狀態(tài)的檢測區(qū)域。當(dāng)訓(xùn)練本文放頂煤智能決策模型時(shí),仿真模型會在每一個(gè)訓(xùn)練步讀取檢測區(qū)域內(nèi)的頂煤顆粒與矸石顆粒的數(shù)量,然后根據(jù)式(5)和式(6)分別計(jì)算頂煤含量w和均值偏差量μ的大小,并將計(jì)算結(jié)果傳遞給智能體確定當(dāng)前頂煤賦存狀態(tài)。在仿真模型中共設(shè)置了4個(gè)放煤口動作,與前文1.3小節(jié)定義的動作空間式(9)對應(yīng)起來,4個(gè)放煤口動作的效果如圖2所示。當(dāng)本次放煤工序結(jié)束后,從工作面首臺支架開始,逐架移動支架,從而實(shí)現(xiàn)工作面連續(xù)進(jìn)刀放煤,移架過程如圖3所示。在仿真模型中放煤高度3.8m,采高3.8m,采放比為1∶1,連續(xù)放3刀頂煤。
圖2 進(jìn)刀放煤三維仿真
圖3 綜放工作面推進(jìn)過程
模型中煤與矸石顆粒材料參數(shù)根據(jù)塔山礦8222綜放工作面設(shè)計(jì),其主要參數(shù)見表2。
表2 煤與矸石顆粒的主要力學(xué)參數(shù)
放煤口控制模型中共設(shè)置了10臺液壓支架,液壓支架根據(jù)塔山礦8222綜放工作面中實(shí)際液壓支架設(shè)計(jì),其主要參數(shù):液壓支架寬度為1.5m,液壓支架高度為3m,掩護(hù)梁長度為3.8m,尾梁長度為2m,頂梁與掩護(hù)梁之間的夾角為50°,尾梁上擺與掩護(hù)梁的夾角為15°,尾梁下擺與掩護(hù)梁的夾角為45°。
基于均值偏差獎賞函數(shù)放頂煤智能決策模型核心Q-learning算法的參數(shù)設(shè)置為:α=0.1,γ=0.9,ε=0.5。
2.2.1 狀態(tài)空間參數(shù)設(shè)置
根據(jù)現(xiàn)場工人的經(jīng)驗(yàn)與前期實(shí)驗(yàn)的結(jié)果,確定式(7)中wl的離散等級空間維度l=5,uj的離散等級空間維度j=7,結(jié)果見表3、表4。
表3 狀態(tài)特征w離散區(qū)間劃分
表4 狀態(tài)特征μ離散區(qū)間劃分
根據(jù)頂煤含量wl與均值偏差量uj不同離散等級的組合,共定義了17種頂煤賦存狀態(tài),見表5。
表5 狀態(tài)空間
在訓(xùn)練過程中,當(dāng)仿真模型將頂煤含量w和均值偏差量μ的計(jì)算結(jié)果傳遞給智能體后,智能體將根據(jù)表3和表4分別確定兩者所處的離散等級,最后智能體再根據(jù)表5確定當(dāng)前支架檢測區(qū)域內(nèi)的頂煤賦存狀態(tài)。
2.2.2 均值偏差獎賞函數(shù)參數(shù)設(shè)置及計(jì)算
設(shè)置Rcoal的參數(shù)為:λ1=3,λ2=-7;Rdev的參數(shù)為:r1=-20,r2=-30,r3=-70,r4=-200,r5=-10,r6=-20,r7=-50。在訓(xùn)練過程中,一方面,仿真模型會檢測支架放煤口動作后放出的頂煤顆粒和矸石顆粒的數(shù)量,并將檢測結(jié)果傳遞給智能體,智能體根據(jù)式(11)計(jì)算獲得獎賞Rcoal的大小。另一方面,受放煤口動作的影響,頂煤賦存狀態(tài)發(fā)生變化,智能體根據(jù)表1確定獲得獎賞Rdev的大小。當(dāng)Rcoal和Rdev的獎賞確定后,再根據(jù)式(12)和式(13)計(jì)算此次放煤口動作,智能體最終獲得的獎賞。
當(dāng)參數(shù)確定后,對放頂煤智能決策模型進(jìn)行訓(xùn)練,訓(xùn)練流程如圖4所示。
圖4 訓(xùn)練流程圖
本文基于進(jìn)刀放煤三維仿真實(shí)驗(yàn)平臺,對建立的放頂煤智能決策模型、原Q-learning智能放煤工藝以及單輪順序放煤工藝,在連續(xù)放3刀煤條件下的放煤效果進(jìn)行測試。其中,單輪順序放煤工藝按照“見矸關(guān)窗”的原則,當(dāng)仿真模型檢測到放煤口瞬時(shí)放出煤流中矸石比例超過30%時(shí)關(guān)閉放煤口[15]。
在仿真測試過程中,由于第二刀與第三刀放煤過程中的煤矸運(yùn)動過程和煤巖分界面形態(tài)不易觀察。因此,在這里僅展示了各放煤工藝第一刀詳細(xì)放煤過程,如圖5所示。
圖5 三種放煤工藝的放頂煤過程
單輪順序放煤過程如圖5(a)所示。由于每次只打開一個(gè)放煤口放煤,導(dǎo)致單個(gè)支架放煤口的放煤量巨大,煤巖分界面迅速下降,幾乎與放煤口垂直。當(dāng)相鄰放煤口放煤時(shí),竄矸現(xiàn)象嚴(yán)重,可能導(dǎo)致放煤口提前關(guān)閉,從而降低頂煤采出率。并且由于每次只打開一個(gè)放煤口放頂煤,也將導(dǎo)致綜放工作面放煤時(shí)間過長,放煤效率低。此外,在單輪順序放頂煤過程中支架放煤口上方可能會發(fā)生頂煤成拱堵塞放煤口的現(xiàn)象,導(dǎo)致頂煤無法順利放出,降低頂煤采出率,如圖6所示。
圖6 頂煤成拱現(xiàn)象
原Q-learning智能放煤工藝的放頂煤過程,如圖5(b)所示。與單輪順序放煤工藝相比,煤巖分界面比較均勻地下降,放煤效率高。在原Q-learning智能放煤工藝中,支架放煤口動作雖然可以隨頂煤賦存狀態(tài)的變化而實(shí)時(shí)調(diào)整。但仔細(xì)觀察各支架放煤口動作可知,放煤口間動作配合簡單。當(dāng)頂煤含量高時(shí),控制放煤口打開;當(dāng)頂煤含量低到一定程度時(shí),控制放煤口關(guān)閉。由此可見,其支架放煤口控制策略比較簡單。并且由于綜放工作面上不同位置的液壓支架打開放煤口放煤時(shí),放煤口上方煤矸運(yùn)移的速率是不相等的。因此,原始Q-learning算法學(xué)習(xí)到的控制策略是不可能很好地保持煤巖分界面平整度,從而無法使綜放工作面放煤效果達(dá)到更高水平。
智能放煤工藝放頂煤過程如圖5(c)所示。觀察其放頂煤過程可以發(fā)現(xiàn),與原Q-learning智能放煤工藝放頂煤過程相比,本文智能放煤工藝在放頂煤過程中煤巖分界面下降更加均勻,分界面平整度保持更好。根據(jù)放頂煤理論可知,在放頂煤過程中保持煤巖分界面均勻下降有利于提高頂煤采出率。與原Q-learning智能放煤工藝不同,在本文智能放煤工藝放頂煤過程中,各支架放煤口間動作高度協(xié)調(diào),協(xié)同性好。
由上述分析可知,基于均值偏差獎賞函數(shù)放頂煤智能決策模型,可以使智能體在與環(huán)境交互的過程中學(xué)習(xí)到更加優(yōu)秀的放煤口控制策略。智能體根據(jù)學(xué)習(xí)到的放煤口策略,更好地控制了放頂煤過程。
在仿真平臺上各放煤工藝連續(xù)3刀放煤的結(jié)果見表6。由表6可知,與另外2種放煤工藝相比,該智能放煤工藝放出頂煤的平均數(shù)量為5292.5,相對于單輪順序放煤的4752.5與基于Q-learning智能放煤工藝的5067.3,分別提高11.4%以及4.44%。放出矸石的平均數(shù)量為344.6,低于基于Q-learning智能放煤工藝的403.5,但高于單輪順序放煤工藝的288.3。從放出煤與矸石帶來的總獎賞看,該智能放煤工藝放出煤與矸石帶來的平均獎勵(lì)為13467.8,比單輪順序放煤工藝提高約10%,比基于Q-learning智能放煤工藝提高約8.8%。由此可見,智能放煤工藝可以有效提升綜放工作面放煤效果。此外,本文對6次實(shí)驗(yàn)放出頂煤數(shù)量、矸石數(shù)量以及放煤總獎賞求方差,結(jié)果見表7。
表6 連續(xù)進(jìn)刀放煤實(shí)驗(yàn)結(jié)果
由表7可知,智能放煤工藝6次實(shí)驗(yàn)中,在放出頂煤數(shù)量、矸石數(shù)量以及放煤總獎賞三個(gè)方面數(shù)據(jù)的方差均小于其它兩種放煤工藝,說明了智能放煤工藝與其它兩種放煤工藝相比,放煤效果更加穩(wěn)定。
表7 放出頂煤、矸石數(shù)量以及總獎賞的方差
1)提出了一種基于均值偏差獎賞函數(shù)放頂煤智能決策模型。該模型根據(jù)當(dāng)前支架放煤口上方頂煤的賦存狀態(tài)對放煤口動作進(jìn)行決策,實(shí)現(xiàn)放煤口動作隨待放頂煤賦存狀態(tài)的改變而實(shí)時(shí)調(diào)整。并且在三維仿真實(shí)驗(yàn)平臺上的仿真過程表明,智能體基于均值偏差獎賞函數(shù)學(xué)習(xí)到的放煤口控制策略,可以使各液壓支架在放頂煤過程中放煤口動作配合更加緊密,從而保持煤巖分界面均勻下降,分界面平整度達(dá)到較為理想狀態(tài)。
2)在三維仿真實(shí)驗(yàn)平臺上的實(shí)驗(yàn)結(jié)果表明,智能放煤工藝在工作面連續(xù)進(jìn)刀放煤條件下,放煤平均獎勵(lì)13467.8,比基于Q-learning智能放煤工藝提高8.8%,比單輪順序放煤工藝提高約10%。因此,本文提出的智能放煤工藝可以有效提升綜放工作面的放煤效果。
3)由于Q-learning算法不易處理連續(xù)環(huán)境狀態(tài),因此本文將放煤口環(huán)境狀態(tài)進(jìn)行離散化處理。但環(huán)境狀態(tài)的離散化會使得放煤口的控制精度降低。因此,在后續(xù)研究中,課題組將進(jìn)一步研究放煤口環(huán)境狀態(tài)的連續(xù)表達(dá)方式以及強(qiáng)化學(xué)習(xí)的最優(yōu)決策模型,以提升放煤口的控制精度,從而進(jìn)一步提升放煤效果。