馬洋錦,付茂全,許志,李敬兆
(1.安徽理工大學(xué) 電氣與信息工程學(xué)院,安徽 淮南 232001;2.大同煤礦集團(tuán)有限責(zé)任公司 安全監(jiān)管五人小組管理部,山西 大同 037000)
礦山信息物理融合系統(tǒng)(Cyber-Physical System,CPS)在智慧礦山建設(shè)中具有重要作用[1-2]。隨著無線通信技術(shù)的不斷發(fā)展,礦山CPS不斷引入基于不同無線通信協(xié)議的感知節(jié)點(diǎn),導(dǎo)致礦山CPS感知節(jié)點(diǎn)種類繁多,且無線通信網(wǎng)絡(luò)錯(cuò)綜復(fù)雜[3-4]。礦山CPS通信節(jié)點(diǎn)無法與現(xiàn)有的多類感知節(jié)點(diǎn)實(shí)現(xiàn)智能連接,難以滿足當(dāng)前礦山CPS建設(shè)需要。
目前,建立礦山CPS多節(jié)點(diǎn)連接的主要方案是在通信節(jié)點(diǎn)上集成多種通信模塊構(gòu)成多模態(tài)通信節(jié)點(diǎn),并采用周期性任務(wù)調(diào)度的方式依次喚醒各通信模塊,不斷切換多模態(tài)通信節(jié)點(diǎn)工作模態(tài),實(shí)現(xiàn)與多類感知節(jié)點(diǎn)的分時(shí)通信[5-6]。但該方案無法實(shí)現(xiàn)通信節(jié)點(diǎn)與感知節(jié)點(diǎn)的精準(zhǔn)配對(duì),通信的時(shí)效性和連續(xù)性均得不到保障。漸進(jìn)式神經(jīng)網(wǎng)絡(luò)作為一種深度神經(jīng)網(wǎng)絡(luò),具有對(duì)已有數(shù)據(jù)進(jìn)行學(xué)習(xí),提取和記憶特征信息的能力[7]。因此,本文提出了一種基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的礦山CPS多節(jié)點(diǎn)智聯(lián)策略,應(yīng)用漸進(jìn)式神經(jīng)網(wǎng)絡(luò)控制多模態(tài)通信節(jié)點(diǎn)精準(zhǔn)切換工作模態(tài),實(shí)現(xiàn)與多感知節(jié)點(diǎn)的通信智能連接,達(dá)到異構(gòu)無線通信網(wǎng)絡(luò)自主建立的效果。
多模態(tài)通信節(jié)點(diǎn)工作模態(tài)的控制與感知節(jié)點(diǎn)通信方式、節(jié)點(diǎn)間距離等因素密切相關(guān),相關(guān)因素考慮越全面,漸進(jìn)式神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)任務(wù)越細(xì)致,對(duì)多模態(tài)通信節(jié)點(diǎn)工作模態(tài)的控制準(zhǔn)確率越高。但隨著訓(xùn)練任務(wù)的增加,漸進(jìn)式神經(jīng)網(wǎng)絡(luò)列數(shù)增多,網(wǎng)絡(luò)結(jié)構(gòu)漸趨復(fù)雜,若直接使用數(shù)據(jù)集對(duì)漸進(jìn)式神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,極易出現(xiàn)因梯度不穩(wěn)定導(dǎo)致的網(wǎng)絡(luò)收斂速度慢、訓(xùn)練精度低等問題[8]。針對(duì)該問題,本文應(yīng)用異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(Asynchronous Advantage Actor-Critic,A3C)算法[9-12]異步生成訓(xùn)練數(shù)據(jù),打破訓(xùn)練數(shù)據(jù)之間的時(shí)間關(guān)聯(lián),提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,改善漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果。
目前礦山CPS中對(duì)物理信息進(jìn)行采集的無線感知節(jié)點(diǎn)的通信方式主要有LoRa,ZigBee,Bluetooth,RFID等[13]。多模態(tài)通信節(jié)點(diǎn)作為礦山CPS通信接口,具備與不同類型感知節(jié)點(diǎn)進(jìn)行實(shí)時(shí)數(shù)據(jù)交互的能力?;诙嗄B(tài)通信節(jié)點(diǎn)的礦山CPS無線通信網(wǎng)絡(luò)架構(gòu)如圖1所示。
多模態(tài)通信節(jié)點(diǎn)硬件部分主要以ARM嵌入式微處理器為核心,集成了LoRa,ZigBee,RFID,Bluetooth等無線通信模塊及工業(yè)以太網(wǎng)接口。多模態(tài)通信節(jié)點(diǎn)根據(jù)無線感知節(jié)點(diǎn)所處位置的環(huán)境狀況、通信狀態(tài)、干擾情況等切換工作模態(tài),智能選擇通信方式,從而與多種無線感知節(jié)點(diǎn)進(jìn)行信息交互,再通過以太網(wǎng)接口將采集的信息傳輸至地面監(jiān)控中心。
圖1 礦山CPS無線通信網(wǎng)絡(luò)架構(gòu)
圖2 漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
由于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不斷擴(kuò)大,在對(duì)之前訓(xùn)練的數(shù)據(jù)進(jìn)行融合時(shí),為保持神經(jīng)網(wǎng)絡(luò)維度的統(tǒng)一,需要對(duì)數(shù)據(jù)進(jìn)行M處理,即采用一個(gè)單隱藏層的多層感知機(jī)(Multilayer Perceptron,MLP)(圖3)對(duì)前列神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)進(jìn)行融合處理,并以一定的維度輸出到下一列神經(jīng)網(wǎng)絡(luò)中。
MLP中輸入神經(jīng)元個(gè)數(shù)N=i-1,輸出神經(jīng)元個(gè)數(shù)P與經(jīng)M處理后的下一列漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的維度相等。MLP隱藏層輸出為
圖3 MLP結(jié)構(gòu)
F(AX+B)=sigmoid(AX+B)
(1)
式中:X為輸入信息矩陣;A為X的權(quán)重矩陣;B為MLP的偏置矩陣。
漸進(jìn)式神經(jīng)網(wǎng)絡(luò)第j層、第k列神經(jīng)元輸出為
(2)
基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的多節(jié)點(diǎn)智聯(lián)策略如圖4所示。多模態(tài)通信節(jié)點(diǎn)的輸入信息矩陣X經(jīng)歸一化處理后得到矩陣Y;Y作為漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)處理后轉(zhuǎn)化為輸出信息矩陣Q;對(duì)輸出信息矩陣Q進(jìn)行L處理(采用變換矩陣與Q相乘)后得到控制矩陣I;多模態(tài)通信節(jié)點(diǎn)根據(jù)控制矩陣I所包含的控制信息進(jìn)入相應(yīng)的工作模態(tài),并對(duì)通信參數(shù)進(jìn)行調(diào)節(jié),完成與感知節(jié)點(diǎn)的數(shù)據(jù)交互。
圖4 多節(jié)點(diǎn)智聯(lián)策略
多模態(tài)通信節(jié)點(diǎn)的輸入信息矩陣X由z組狀態(tài)向量x1,x2,…,xz構(gòu)成,這些狀態(tài)向量由工業(yè)以太環(huán)網(wǎng)上的其他通信節(jié)點(diǎn)和已建立通信連接的感知節(jié)點(diǎn)提供。為消除輸入信息矩陣X量綱的影響,對(duì)X進(jìn)行歸一化處理,得
(3)
漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的每一列神經(jīng)網(wǎng)絡(luò)都會(huì)對(duì)網(wǎng)絡(luò)的輸入進(jìn)行運(yùn)算,但不同列的神經(jīng)網(wǎng)絡(luò)由于是在不同任務(wù)下訓(xùn)練出來的,所以對(duì)輸入信息特征進(jìn)行提取后,通過運(yùn)算得到的輸出不同。對(duì)于任意一列神經(jīng)網(wǎng)絡(luò),若輸入數(shù)據(jù)與訓(xùn)練樣本的特征匹配,經(jīng)運(yùn)算后產(chǎn)生的輸出值很大,否則輸出值很小。若輸入數(shù)據(jù)與訓(xùn)練樣本特征不匹配的神經(jīng)網(wǎng)絡(luò)列數(shù)較多,則產(chǎn)生的多個(gè)小輸出值會(huì)累積并對(duì)多模態(tài)通信節(jié)點(diǎn)造成干擾,必須濾除該類神經(jīng)網(wǎng)絡(luò)的輸出。同時(shí),需要保留輸入數(shù)據(jù)與訓(xùn)練樣本特征相匹配的神經(jīng)網(wǎng)絡(luò)的輸出。因此,對(duì)漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的輸出矩陣Q進(jìn)行L處理:
(4)
(5)
A3C算法框架如圖5所示,執(zhí)行者根據(jù)當(dāng)前任務(wù)狀態(tài)和策略函數(shù)決定下一步動(dòng)作,使任務(wù)的狀態(tài)發(fā)生變化。值函數(shù)根據(jù)動(dòng)作執(zhí)行后任務(wù)狀態(tài)的變化情況對(duì)執(zhí)行者的當(dāng)前策略函數(shù)給出評(píng)價(jià),執(zhí)行者根據(jù)該評(píng)價(jià)對(duì)策略函數(shù)的參數(shù)進(jìn)行修改,同時(shí)值函數(shù)根據(jù)評(píng)價(jià)與任務(wù)當(dāng)前狀態(tài)返回值對(duì)自身參數(shù)進(jìn)行調(diào)整,從而對(duì)執(zhí)行者作出更精確的評(píng)價(jià)。
圖5 A3C算法框架
以值函數(shù)表示任務(wù)當(dāng)前狀態(tài)返回值與執(zhí)行動(dòng)作后值函數(shù)的聯(lián)合數(shù)學(xué)期望:
V(s,θv)=E[r+γV(s′,θv)]
(6)
式中:V(s,θv)為值函數(shù),s為執(zhí)行者當(dāng)前狀態(tài),θv為值函數(shù)的特征參數(shù);r為任務(wù)當(dāng)前狀態(tài)返回值;γ為執(zhí)行動(dòng)作后的值函數(shù)權(quán)值;s′為執(zhí)行者執(zhí)行動(dòng)作后的狀態(tài)。
為了判斷在狀態(tài)s下執(zhí)行動(dòng)作c的可行性程度,定義優(yōu)勢(shì)函數(shù):
A(s,c,θ,θv)=r+γV(s′,θv)-V(s,θv)
(7)
式中θ為策略函數(shù)的特征參數(shù)。
若選擇執(zhí)行動(dòng)作c后得到的實(shí)際效果比期望效果好,即r+γV(s′,θv)>E[r+γV(s′,θv)],則A(s,c,θ,θv)為正,否則A(s,c,θ,θv)為負(fù)。
在A3C算法中,通過策略函數(shù)計(jì)算出所有起始任務(wù)的當(dāng)前狀態(tài)返回值,再由策略梯度定理[14-15]得到策略函數(shù)的梯度:
(8)
式中p(c|s,θ)為狀態(tài)s下策略函數(shù)更新后執(zhí)行動(dòng)作c的概率。
根據(jù)策略函數(shù)的梯度對(duì)策略函數(shù)的特征參數(shù)θ進(jìn)行優(yōu)化,使執(zhí)行者選擇執(zhí)行的動(dòng)作能夠獲得更好的反饋。
值函數(shù)的梯度為
Gθv=?(r-V(s,θv))2/?θv
(9)
根據(jù)值函數(shù)的梯度對(duì)值函數(shù)的特征參數(shù)θv進(jìn)行優(yōu)化,使執(zhí)行者當(dāng)前狀態(tài)更接近實(shí)際值,從而提高參數(shù)訓(xùn)練的準(zhǔn)確度。
為驗(yàn)證采用A3C算法訓(xùn)練漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的有效性,進(jìn)行了基于Darknet深度學(xué)習(xí)框架的漸進(jìn)式神經(jīng)網(wǎng)絡(luò)訓(xùn)練實(shí)驗(yàn)。實(shí)驗(yàn)環(huán)境配置:Intel i9-9900K處理器、NVIDIA GTX 1080Ti顯卡、32 GB內(nèi)存、Windows 10操作系統(tǒng)、Python 3.7開發(fā)工具。實(shí)驗(yàn)超參數(shù)設(shè)置:初始學(xué)習(xí)率為0.001,權(quán)值衰減系數(shù)為0.005,動(dòng)量參數(shù)為0.9。采集1 200組感知節(jié)點(diǎn)的狀態(tài)數(shù)據(jù),每組數(shù)據(jù)包括感知節(jié)點(diǎn)三維坐標(biāo)、距感知節(jié)點(diǎn)300 m以內(nèi)的其他感知節(jié)點(diǎn)數(shù)量、感知節(jié)點(diǎn)所采集的數(shù)據(jù)類型、感知節(jié)點(diǎn)與多模態(tài)通信節(jié)點(diǎn)之間的距離。通過對(duì)狀態(tài)數(shù)據(jù)疊加高斯噪聲實(shí)現(xiàn)數(shù)據(jù)擴(kuò)充,得到7 200組數(shù)據(jù),用來構(gòu)成漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集。在相同的軟硬件平臺(tái)上,使用同一訓(xùn)練數(shù)據(jù)集,采用A3C算法前后漸進(jìn)式神經(jīng)網(wǎng)絡(luò)訓(xùn)練精度如圖6所示??煽闯霾捎肁3C算法訓(xùn)練漸進(jìn)式神經(jīng)網(wǎng)絡(luò)具有收斂速度快、訓(xùn)練精度高等優(yōu)勢(shì)。
為驗(yàn)證漸進(jìn)式神經(jīng)網(wǎng)絡(luò)對(duì)多模態(tài)通信節(jié)點(diǎn)的控制效果,在某礦進(jìn)行了多模態(tài)通信節(jié)點(diǎn)與感知節(jié)點(diǎn)的通信實(shí)驗(yàn),節(jié)點(diǎn)布置見表1。
圖6 漸進(jìn)式神經(jīng)網(wǎng)絡(luò)訓(xùn)練精度曲線
表1 節(jié)點(diǎn)布置
當(dāng)多模態(tài)通信節(jié)點(diǎn)工作模態(tài)與感知節(jié)點(diǎn)通信方式匹配,且多模態(tài)通信節(jié)點(diǎn)與感知節(jié)點(diǎn)通信時(shí)的丟包率小于5%時(shí),則視為模態(tài)轉(zhuǎn)換成功。多模態(tài)通信節(jié)點(diǎn)工作模態(tài)轉(zhuǎn)換準(zhǔn)確率為
(10)
式中εt表示第t(t=1,2,…,β,β為多模態(tài)通信節(jié)點(diǎn)數(shù))個(gè)多模態(tài)通信節(jié)點(diǎn)是否成功轉(zhuǎn)換工作模態(tài),若轉(zhuǎn)換成功,則εt=1,否則εt=0。
先將所有感知節(jié)點(diǎn)設(shè)置為L(zhǎng)oRa通信方式,同時(shí)設(shè)置初始工作模態(tài)分別為ZigBee,RFID,Bluetooth的多模態(tài)通信節(jié)點(diǎn)各50個(gè)。實(shí)驗(yàn)開始30 min后記錄所有多模態(tài)通信節(jié)點(diǎn)的工作模態(tài),并利用式(10)計(jì)算LoRa模態(tài)轉(zhuǎn)換準(zhǔn)確率。同理可得ZigBee,RFID,Bluetooth模態(tài)轉(zhuǎn)換準(zhǔn)確率,見表2。
從表2可看出,在漸進(jìn)式神經(jīng)網(wǎng)絡(luò)控制下,多模態(tài)通信節(jié)點(diǎn)從隨機(jī)初始工作模態(tài)轉(zhuǎn)換為L(zhǎng)oRa,ZigBee,RFID,Bluetooth目標(biāo)工作模態(tài)的準(zhǔn)確率分別高于80%,84%,86%,93%,表明漸進(jìn)式神經(jīng)網(wǎng)絡(luò)對(duì)多模態(tài)通信節(jié)點(diǎn)工作模態(tài)的控制準(zhǔn)確度高,可使多模態(tài)通信節(jié)點(diǎn)的工作模態(tài)根據(jù)感知節(jié)點(diǎn)通信方式可靠轉(zhuǎn)變。
提出了一種基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的礦山CPS多節(jié)點(diǎn)智聯(lián)策略。采用漸進(jìn)式神經(jīng)網(wǎng)絡(luò)控制多模態(tài)通信節(jié)點(diǎn),實(shí)現(xiàn)了多模態(tài)通信節(jié)點(diǎn)工作模態(tài)與感知節(jié)點(diǎn)通信方式的自主匹配,提升了礦山CPS通信節(jié)點(diǎn)的自主組網(wǎng)能力;以A3C算法優(yōu)化漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,加快了網(wǎng)絡(luò)收斂速度,提高了訓(xùn)練精度。該策略不足之處在于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)占用了多模態(tài)通信節(jié)點(diǎn)一定的存儲(chǔ)資源和計(jì)算資源,使得通信節(jié)點(diǎn)的數(shù)據(jù)處理能力受到制約。因此,簡(jiǎn)化漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)并減少網(wǎng)絡(luò)計(jì)算次數(shù),提升多模態(tài)通信節(jié)點(diǎn)數(shù)據(jù)處理效率,將是今后研究的方向。
表2 多模態(tài)通信節(jié)點(diǎn)模態(tài)轉(zhuǎn)換準(zhǔn)確率