閆琳
(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)
隨著人工智能、虛擬現(xiàn)實(shí)(VR)等技術(shù)的發(fā)展,高職教育也迎來了信息化、智能化轉(zhuǎn)型的機(jī)遇。使用計(jì)算機(jī)技術(shù)對(duì)教學(xué)場(chǎng)景進(jìn)行動(dòng)態(tài)建模,再基于各種感知技術(shù)對(duì)場(chǎng)景進(jìn)行信息采集,便可實(shí)現(xiàn)智能化的人機(jī)交互。最終,基于智能設(shè)備完成對(duì)于學(xué)生的職業(yè)技能培訓(xùn),實(shí)現(xiàn)“人工智能+職業(yè)教育”的結(jié)合[1-5]。
在上述背景下,文中以空乘專業(yè)的職業(yè)培訓(xùn)為切入點(diǎn),針對(duì)職業(yè)技能教育場(chǎng)景下的動(dòng)態(tài)建模、智能感知方法進(jìn)行了研究。在動(dòng)態(tài)建模方面,引入了基于視頻圖像的環(huán)境建模方法。并結(jié)合實(shí)際的教學(xué)環(huán)境,對(duì)光照進(jìn)行了自然均衡,提升設(shè)備對(duì)于環(huán)境信息的采集能力[6-8];在智能感知方面,文中使用膠囊結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的神經(jīng)元結(jié)構(gòu),提升算法在復(fù)雜場(chǎng)景下的感知能力[9-12]。
隨著智能設(shè)備的普及,對(duì)于復(fù)雜動(dòng)態(tài)環(huán)境的場(chǎng)景建模與人體行為感知,將在各個(gè)行業(yè)發(fā)揮越來越重要的作用。在進(jìn)行動(dòng)態(tài)環(huán)境建模時(shí),需要根據(jù)文中的應(yīng)用場(chǎng)景,解決動(dòng)態(tài)環(huán)境光照復(fù)雜多變、人體動(dòng)作識(shí)別困難兩個(gè)問題。
由于在動(dòng)態(tài)環(huán)境采集時(shí),光照難以規(guī)律地變化,從而導(dǎo)致采集設(shè)備無法準(zhǔn)確獲取環(huán)境信息。為了解決該問題,文中引入了一種光照自然均衡算法。其基本流程如圖1 所示。
圖1 算法流程
在進(jìn)行直方圖均衡時(shí),傳統(tǒng)的方法能夠改進(jìn)圖像的亮度與對(duì)比度,但由于過度追求亮度的均勻分布,經(jīng)常會(huì)造成圖像炫光。為此,文中對(duì)均衡方法進(jìn)行了改進(jìn)[13-16]。對(duì)于通道V的(x,y)點(diǎn),記其亮度為v(x,y)。首先,對(duì)直方圖進(jìn)行歸一化,在此引入歸一化函數(shù):
將直方圖轉(zhuǎn)化到對(duì)數(shù)坐標(biāo)系:
其中,Hlhet為文中的均衡變換關(guān)系。定義光照補(bǔ)償結(jié)構(gòu)圖ics(x,y):
其中,gn是當(dāng)前環(huán)境下的光感知單元模型:
在進(jìn)行光補(bǔ)償時(shí),需考慮宏觀的圖像因素。當(dāng)圖像整體較亮,但亮度差異較大時(shí),需要對(duì)亮度小的部分提供更大的光補(bǔ)償權(quán)重。為使該方法能夠感知亮度分布的集中度,文中定義了圖像的全局補(bǔ)償感知指數(shù):
接著,根據(jù)物體的光照反射基本原理,能夠獲得直方圖均衡圖像vlh的反射分量vlh(x,y)。隨后對(duì)vlh(x,y)進(jìn)行對(duì)數(shù)變換,然后進(jìn)行歸一化,可以計(jì)算得到反射量的估計(jì)gv(x,y):
最后,利用反射量的估計(jì)值得到vlh補(bǔ)償后的結(jié)果:
為了對(duì)動(dòng)態(tài)環(huán)境感知后的人體進(jìn)行智能識(shí)別,還需引入人體行為識(shí)別算法。由于動(dòng)態(tài)環(huán)境下,人體的行為不斷變化,因此相較于靜態(tài)圖像的行為識(shí)別,動(dòng)態(tài)環(huán)境下則需要對(duì)行為進(jìn)行分解再整合。文中引入了融合注意力機(jī)制的膠囊網(wǎng)絡(luò),在該網(wǎng)絡(luò)中使用膠囊作為信息處理的基本單元,其基本結(jié)構(gòu)如圖2所示。
圖2 膠囊基本結(jié)構(gòu)
相較于神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元,膠囊的激活條件是多個(gè)人體姿勢(shì)之間的比較差值。在圖2 中,ui是圖像低層次特征,Ui是低層次對(duì)應(yīng)的高層次特征,Wij為對(duì)應(yīng)的傳輸權(quán)重,預(yù)測(cè)向量加權(quán)后,得到加權(quán)和sj=∑icij·Uj|i。其中,Uj|i=Wij·ui,加權(quán)和經(jīng)Squash 函數(shù)壓縮后,得到膠囊的輸出vj:
在膠囊網(wǎng)絡(luò)中,對(duì)于層數(shù)L的膠囊c,需要獲取其姿勢(shì)矩陣Mc和激活值ac:
由于在L、L+1 層間,每個(gè)感受野(k,i,j)內(nèi)均會(huì)產(chǎn)生CL×CL+1個(gè)投票,因此在決策時(shí),需要使用最大期望(EM)路由算法。首先,對(duì)分配概率Rij進(jìn)行初始化分配隨后,在路由迭代的過程中,對(duì)高斯模型與高層膠囊的激活值進(jìn)行更新:
最終,能夠獲得模型的參數(shù)pj的更新方法:
相較于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的神經(jīng)元,依靠膠囊組建的非線性網(wǎng)絡(luò)更注重學(xué)習(xí)動(dòng)作組合本身的內(nèi)在機(jī)制,而不是單純的進(jìn)行數(shù)據(jù)集的模仿。為了保證膠囊對(duì)于視頻動(dòng)作的捕捉能力,文中還引入了“擠壓-激勵(lì)”機(jī)制:
“擠壓”后,所有類型的動(dòng)作均在維度方面有所收縮,實(shí)現(xiàn)了信息聚集,能夠捕獲膠囊在類型層上的依賴性:
隨后輸入激勵(lì),整合上下文信息有:
最終,引入尺度變換將“激勵(lì)”后的結(jié)果與原始的特征層進(jìn)行修正:
其中,uc∈RH×W×D。
在算法驗(yàn)證階段,該文使用公開數(shù)據(jù)集J-HMDB與UCF-Sports 進(jìn)行模型的訓(xùn)練和測(cè)試,驗(yàn)證算法在智能感知時(shí)的有效性。視頻環(huán)境的動(dòng)態(tài)感知需要消耗大量的運(yùn)算資源,為了保證順利完成算法的訓(xùn)練和測(cè)試,文中在進(jìn)行實(shí)驗(yàn)時(shí),使用了目前最強(qiáng)的消費(fèi)級(jí)GPU。該顯卡基于NVIDIA 的安培架構(gòu),使用8 nm工藝,運(yùn)行速率能夠達(dá)到19.5 Gbps。仿真環(huán)境的其他硬件參數(shù),如表3 所示。
表3 仿真環(huán)境的硬件參數(shù)
在測(cè)試算法前,需要先利用數(shù)據(jù)集進(jìn)行模型的訓(xùn)練。在進(jìn)行場(chǎng)景的智能感知時(shí),會(huì)由于類別、定位的判別錯(cuò)誤產(chǎn)生類別損失與定位損失。因此文中在設(shè)計(jì)損失函數(shù)時(shí),引入Sigmoid 函數(shù)的交叉熵來計(jì)算損失。首先,對(duì)于空間位置(k,i,j),能夠得到后驗(yàn)概率:根據(jù)后驗(yàn)概率,能夠得到損失函數(shù):
在確定損失后,J-HMDB、UCF-Sports 每個(gè)數(shù)據(jù)集中60%的數(shù)據(jù)分別作為訓(xùn)練數(shù)據(jù)進(jìn)行模型的訓(xùn)練,獲得兩個(gè)不同的模型;隨后,將剩余40%的數(shù)據(jù)作為測(cè)試數(shù)據(jù)分別輸入到對(duì)應(yīng)的模型中。在測(cè)試時(shí),文中將f-Map 和v-Map 的IoU 閾值分別設(shè)置為0.5 與0.2。最終的測(cè)試結(jié)果,如表4 所示。
表4 該文算法的仿真結(jié)果
為了評(píng)估文中算法結(jié)果的公正性,該文采用同樣的仿真環(huán)境,使用經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)算法LeNet進(jìn)行了對(duì)比測(cè)試。其測(cè)試的結(jié)果,如表5 所示。
表5 LeNet的仿真結(jié)果
從表4 能夠看出,該文算法在J-HMDB 數(shù)據(jù)集上f-Map、v-Map 兩個(gè)指標(biāo)均大于UCF-Sports 數(shù)據(jù)集上的指標(biāo)。因此,文中在J-HMDB 數(shù)據(jù)集上的感知效果優(yōu)于UCF-Sports。從表5能夠看出,LeNet在J-HMDB上的感知效果同樣優(yōu)于UCF-Sports。分析兩個(gè)數(shù)據(jù)集的結(jié)構(gòu),在J-HMDB 的數(shù)據(jù)集內(nèi)部的視頻中,所要感知的目標(biāo)大多集中在視頻中央,而UCF-Sports 較分散。由于在損失函數(shù)中,會(huì)引入定位誤差,因此較分散的動(dòng)態(tài)環(huán)境不利用智能感知算法進(jìn)行處理。
對(duì)比表4 與表5 的仿真結(jié)果能夠看出,該文引入的智能感知算法在進(jìn)行動(dòng)態(tài)環(huán)境的感知時(shí),f-Map、v-Map 兩個(gè)指標(biāo)均優(yōu)于LeNet。以J-HMDB 數(shù)據(jù)集為例,文中算法在f-Map、v-Map 上分別提升5.56%與4.98%。LeNet 是視頻識(shí)別、智能感知領(lǐng)域的經(jīng)典算法,因此可以證明文中的算法達(dá)到了能夠廣泛使用的性能要求。但結(jié)合UCF-Sports 數(shù)據(jù)集的仿真結(jié)果,文中算法在該數(shù)據(jù)集上的提升小于J-HMDB。這說明該文算法在處理分散動(dòng)態(tài)環(huán)境的能力上仍有一定的優(yōu)化空間。
此外,為了評(píng)估“擠壓-激勵(lì)”機(jī)制引入的降維比的參數(shù)對(duì)算法性能的影響,文中對(duì)不同降維比下的算法性能進(jìn)行了評(píng)估,結(jié)果如表6 所示。可以看出,當(dāng)降維比增加時(shí),參數(shù)增加量會(huì)降低,f-Map與v-Map會(huì)提升。當(dāng)降維比取16 時(shí),模型參數(shù)與參數(shù)增加量取得了較好的平衡。
表6 不同降維比下的仿真結(jié)果
文中對(duì)于高等院校職業(yè)技能訓(xùn)練智能化過程所需要的動(dòng)態(tài)建模與智能感知方法進(jìn)行了研究。在動(dòng)態(tài)建模方面,引入了光照補(bǔ)償結(jié)構(gòu)圖的光照自然均衡算法,提升視頻設(shè)備對(duì)于環(huán)境信息的采集能力;在智能感知方面,使用膠囊組建了非線性網(wǎng)絡(luò),實(shí)現(xiàn)了復(fù)雜環(huán)境下的目標(biāo)定位與動(dòng)作識(shí)別。文中方法能夠達(dá)到業(yè)界的性能要求,并有所提升,可以進(jìn)行推廣應(yīng)用。