項(xiàng) 祺,周佳煒,孫宇祥,于佳慧,張 韜,周獻(xiàn)中,2
(1.南京大學(xué)工程管理學(xué)院,南京 210093;2.南京大學(xué)智能裝備新技術(shù)研究中心,南京 210093)
戰(zhàn)場(chǎng)態(tài)勢(shì)是指作戰(zhàn)雙方各要素(包括兵力部署情況、裝備情況、地理環(huán)境、天氣條件等)的狀態(tài)、變化與發(fā)展趨勢(shì)。現(xiàn)代戰(zhàn)爭(zhēng)條件下的聯(lián)合作戰(zhàn)使戰(zhàn)場(chǎng)觀察和探測(cè)的范圍急劇擴(kuò)展,反映戰(zhàn)場(chǎng)狀態(tài)的信息呈爆發(fā)性增長(zhǎng),高速度、大機(jī)動(dòng)、遠(yuǎn)射程的新武器將使未來戰(zhàn)場(chǎng)進(jìn)入“秒殺”時(shí)代。在此背景下,多源、異構(gòu)的海量戰(zhàn)場(chǎng)信息如:戰(zhàn)場(chǎng)情報(bào)、偵察、監(jiān)視數(shù)據(jù)呈爆炸式增長(zhǎng)趨勢(shì)。同時(shí),信息化技術(shù)的支持加速了戰(zhàn)場(chǎng)信息共享能力、戰(zhàn)場(chǎng)信息處理能力,進(jìn)而極大地加快了作戰(zhàn)節(jié)奏。但是對(duì)于指揮員來說,在一定時(shí)間內(nèi)關(guān)注、處理、共享的信息量是有限的,這將極大地限制指揮員的態(tài)勢(shì)認(rèn)知與指揮控制能力。
目前,以人工智能技術(shù)為基礎(chǔ)的態(tài)勢(shì)認(rèn)知技術(shù)是輔助指揮員進(jìn)行戰(zhàn)場(chǎng)態(tài)勢(shì)認(rèn)知的重要手段之一。人工智能的研究水平,特別是能夠適用于大數(shù)據(jù)復(fù)雜系統(tǒng)、輔助指揮員進(jìn)行態(tài)勢(shì)認(rèn)知決策的人工智能技術(shù),成為了制約戰(zhàn)場(chǎng)態(tài)勢(shì)認(rèn)知技術(shù)發(fā)展的瓶頸問題。隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)的出現(xiàn)開辟了機(jī)器學(xué)習(xí)研究領(lǐng)域的一個(gè)新的分支,它起源于人工神經(jīng)網(wǎng)絡(luò),其本質(zhì)是模擬人腦中的神經(jīng)元進(jìn)行分析學(xué)習(xí)的過程,具備深層感知的多層網(wǎng)絡(luò)模型??傮w來講,深度學(xué)習(xí)具有強(qiáng)大的非線性處理能力,可以提取更深度的特征,目前被譽(yù)為最接近人腦的智能學(xué)習(xí)方法。
深度學(xué)習(xí)技術(shù)不僅在圖像處理領(lǐng)域、自然語言處理領(lǐng)域取得了極大的進(jìn)展,在戰(zhàn)場(chǎng)態(tài)勢(shì)認(rèn)知與態(tài)勢(shì)評(píng)估方面也展現(xiàn)出了實(shí)際應(yīng)用價(jià)值。沈先耿提出了一種基于稀疏自編碼神經(jīng)網(wǎng)絡(luò)的軍事目標(biāo)圖像分類方法,通過對(duì)目標(biāo)圖像進(jìn)行主成分分析白化處理,降低圖像間的相關(guān)性,通過對(duì)樣本數(shù)據(jù)訓(xùn)練提取圖像特征,輸入到softmax 分類器進(jìn)行識(shí)別,具有較高的識(shí)別精度。朱豐等提出了一種基于深度學(xué)習(xí)的指揮員戰(zhàn)場(chǎng)態(tài)勢(shì)高級(jí)理解思維過程,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)非線性擬合,以判斷敵方對(duì)我方主攻方向?yàn)槔?yàn)證了方法的有效性。郝巖針對(duì)雷達(dá)目標(biāo)識(shí)別問題,結(jié)合深度學(xué)習(xí)方法中的深度信念網(wǎng)絡(luò)DBN 與棧式降噪自編碼網(wǎng)絡(luò)SDAE,提出了一種雙通道單隱含層模型,采用加權(quán)融合方法對(duì)兩通道特征進(jìn)行融合,在一定程度上解決特征利用不充分問題,并在識(shí)別準(zhǔn)確率上超過原網(wǎng)絡(luò)。劉海洋針對(duì)聯(lián)合作戰(zhàn)中戰(zhàn)役方案級(jí)指標(biāo)評(píng)估問題,通過建立基于復(fù)雜網(wǎng)絡(luò)的體系特征項(xiàng)的評(píng)估特征空間,并借助數(shù)據(jù)擬合獲取與評(píng)估特征空間數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽,對(duì)評(píng)估模型進(jìn)行訓(xùn)練。
然而,以上研究?jī)?nèi)容僅針對(duì)態(tài)勢(shì)圖像中的目標(biāo)進(jìn)行識(shí)別分類,缺少對(duì)于整體作戰(zhàn)態(tài)勢(shì)認(rèn)知的語義化描述,難以捕獲全方位與多維度的態(tài)勢(shì)信息,進(jìn)而難以快速和精準(zhǔn)地實(shí)現(xiàn)對(duì)整體形勢(shì)的理解與研判。為了解決上述提到的問題,本文采用一種融合多尺度特征與注意力機(jī)制的戰(zhàn)場(chǎng)態(tài)勢(shì)認(rèn)知方法,基于兵棋推演場(chǎng)景下的態(tài)勢(shì)圖像,通過對(duì)卷積神經(jīng)網(wǎng)絡(luò)中不同卷積層輸出的特征進(jìn)行多尺度融合,并結(jié)合軟注意力機(jī)制對(duì)融合特征進(jìn)行權(quán)重分配,輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM 中進(jìn)行時(shí)序解析,得到對(duì)應(yīng)于態(tài)勢(shì)圖像的態(tài)勢(shì)認(rèn)知描述結(jié)果。本文在兵棋推演系統(tǒng)的推演過程中進(jìn)行實(shí)際仿真,通過兵棋態(tài)勢(shì)圖像對(duì)本文所提態(tài)勢(shì)認(rèn)知方法進(jìn)行驗(yàn)證。在獲得的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法可以明確輸出作戰(zhàn)態(tài)勢(shì)場(chǎng)景下的語義理解信息,對(duì)于作戰(zhàn)態(tài)勢(shì)認(rèn)知這一領(lǐng)域的工作來說,本文具有較好的實(shí)際應(yīng)用價(jià)值。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是一種常見的深度學(xué)習(xí)網(wǎng)絡(luò)模型,在圖像識(shí)別、圖像分割、自然語言處理等方面有著卓越的表現(xiàn)。該模型一般包括輸入層、輸出層以及若干隱藏層,其中,隱藏層又包括卷積層及池化層。卷積層的作用是對(duì)輸入層輸入的數(shù)據(jù)進(jìn)行特征提取,通過多個(gè)卷積核在輸入數(shù)據(jù)上滑動(dòng)進(jìn)行卷積運(yùn)算,形成深層特征,并引入非線性激活函數(shù),增加模型學(xué)習(xí)非線性特征的能力;池化層對(duì)卷積層輸出的特征進(jìn)行下采樣,縮小特征維度,降低模型計(jì)算量,提高模型訓(xùn)練速度。Lecun 與1989 年提出的LeNet-5模型是最早的卷積神經(jīng)網(wǎng)絡(luò)之一,成功地應(yīng)用于美國(guó)郵政服務(wù)中手寫郵政編碼數(shù)字識(shí)別,極大地推動(dòng)了深度學(xué)習(xí)領(lǐng)域的發(fā)展。此后,隨著AlexNet、VGG、GoogLeNet、ResNet的相繼出現(xiàn),使得卷積神經(jīng)網(wǎng)絡(luò)的研究不斷跨上新的臺(tái)階。
圖像描述(image caption)是融合計(jì)算機(jī)視覺與自然語言處理的一個(gè)重要研究領(lǐng)域,圖像描述模型以圖像為輸入,通過模型計(jì)算輸出對(duì)應(yīng)于圖像的自然語言描述。為了產(chǎn)生定性的描述,模型不僅要理解所呈現(xiàn)的對(duì)象,還要理解它們之間的關(guān)系,更重要的是,模型必須根據(jù)這些信息生成符合人類直覺的句子。由于這一特點(diǎn),圖像描述可以應(yīng)用于廣泛的實(shí)際任務(wù),如圖像檢索、人機(jī)交互及幫助視障人士等。目前較先進(jìn)的模型大多采用編碼器-解碼器結(jié)構(gòu),通過編碼器提取圖像特征并轉(zhuǎn)化為表示圖像各部分的特征向量,隨后將特征向量輸入到解碼器中,利用特征生成描述圖像的單詞序列。
基于編碼器- 解碼器結(jié)構(gòu)的圖像描述模型廣受歡迎,Kelvin 首次將注意力機(jī)制(attention mechanism)融入到編碼器-解碼器模型中,其基本思想是讓模型能夠忽略無關(guān)信息而只關(guān)注重點(diǎn)信息。將注意力機(jī)制引入深度神經(jīng)網(wǎng)絡(luò),一方面能夠使得神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)如何確定注意力,另一方面能夠反過來幫助人類理解神經(jīng)網(wǎng)絡(luò)看到的世界。此外,為了在描述生成過程中進(jìn)行交互以獲取更多信息,Mao 提出多模態(tài)循環(huán)神經(jīng)網(wǎng)絡(luò)模型(m-RNN),具體為深度循環(huán)與深度卷積兩個(gè)子網(wǎng)絡(luò)在多模態(tài)層相互作用,構(gòu)成完整的m-RNN 模型。Anderson 提出基于ResNet 的自上而下和自下而上注意力,來對(duì)區(qū)域特定的特征進(jìn)行提取。在圖像語義分割任務(wù)中,Chen 通過構(gòu)造注意力機(jī)制模型,對(duì)不同尺度的物體賦予不同權(quán)重,并進(jìn)行多尺度圖像融合。在自然語言處理領(lǐng)域,Bahdanau 在機(jī)器翻譯中使用注意力機(jī)制,采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)原始語言編碼,并在解碼過程中利用注意力機(jī)制,對(duì)隱藏狀態(tài)分配不同的權(quán)重,對(duì)輸入的句子不同部分進(jìn)行選擇翻譯。
對(duì)于注意力機(jī)制可以這樣理解:當(dāng)人在看一樣?xùn)|西的時(shí)候,他當(dāng)前時(shí)刻關(guān)注的一定是所看的這樣?xùn)|西的某一個(gè)地方,隨著目光的轉(zhuǎn)移,注意力也會(huì)跟著轉(zhuǎn)移,也就是說,當(dāng)人們注意到某個(gè)目標(biāo)或者某個(gè)場(chǎng)景時(shí),對(duì)目標(biāo)內(nèi)部以及該場(chǎng)景內(nèi)每一處空間位置上的注意力分布是不一樣的。在圖像處理領(lǐng)域,注意力機(jī)制可以提示網(wǎng)絡(luò)下一時(shí)間“看”圖像的哪個(gè)位置,其優(yōu)勢(shì)體現(xiàn)在:1)減少處理高維輸入數(shù)據(jù)的計(jì)算負(fù)擔(dān),通過結(jié)構(gòu)化選取輸入的子集,降低數(shù)據(jù)維度;2)讓模型更專注于找到輸入數(shù)據(jù)中顯著的與當(dāng)前輸出相關(guān)的有用信息,提高輸出質(zhì)量。軟注意力機(jī)制是指在選擇信息時(shí),先計(jì)算輸入信息的加權(quán)平均,再輸入到網(wǎng)絡(luò)中進(jìn)行計(jì)算,是一種確定性的注意力,可以進(jìn)行反向傳播。區(qū)別于硬注意力機(jī)制,后者選擇輸入序列上某一位置的信息,比如隨機(jī)選擇或根據(jù)概率最高選擇,但由于選擇過程的不確定性,不能進(jìn)行反向傳播,只能通過強(qiáng)化學(xué)習(xí)的方式訓(xùn)練,故在多數(shù)圖像描述任務(wù)中,都采用軟注意力機(jī)制與神經(jīng)網(wǎng)絡(luò)結(jié)合來處理問題。
圖像視覺特征的提取與表示,是將圖像的視覺信息轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別和處理的定量形式的過程,是基于視覺內(nèi)容的圖像分類、識(shí)別與檢索的關(guān)鍵技術(shù)。經(jīng)過特征提取網(wǎng)絡(luò)輸出的圖像底層視覺特征,在一定程度上能夠反映圖像的內(nèi)容,可以用來描述圖像表達(dá)的意義。本文采用兵棋推演平臺(tái)的戰(zhàn)場(chǎng)態(tài)勢(shì)圖像作為訓(xùn)練數(shù)據(jù),但由于此類圖像背景單一,且具有豐富的細(xì)節(jié)特征信息,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)由于多個(gè)池化層的存在,會(huì)導(dǎo)致邊緣信息、細(xì)節(jié)特征丟失,不利于解碼器準(zhǔn)確解析語義。因此,本文考慮將編碼器中卷積神經(jīng)網(wǎng)絡(luò)的各層級(jí)卷積通道的輸出特征利用起來,設(shè)計(jì)一種多尺度軟注意力模塊,在充分獲取圖像的上下文信息的同時(shí),通過軟注意力機(jī)制分配不同尺度特征的權(quán)重,只關(guān)注重點(diǎn)細(xì)節(jié)而忽略無關(guān)信息。多尺度軟注意力模塊如下頁(yè)圖2 所示。
圖1 融合多尺度特征與軟注意力機(jī)制的戰(zhàn)場(chǎng)態(tài)勢(shì)認(rèn)知模型結(jié)構(gòu)
圖2 多尺度軟注意力模塊示意圖
模塊以VGG19網(wǎng)絡(luò)為骨架,該網(wǎng)絡(luò)與Alex Net 相比,采用連續(xù)的3 個(gè)3×3 卷積核代替7×7卷積核、2 個(gè)3×3 卷積核代替5×5 卷積核,這樣做加深了網(wǎng)絡(luò)深度,使用多次非線性函數(shù),增加函數(shù)的判別能力;同時(shí)減少了參數(shù)的數(shù)量,在一定程度上可以提升神經(jīng)網(wǎng)絡(luò)的效果。VGG19 網(wǎng)絡(luò)包含19個(gè)隱藏層(16 個(gè)卷積層、3 個(gè)全連接層)、5 個(gè)池化層以及1 個(gè)softmax 層。
多尺度軟注意力模塊引入VGG19 網(wǎng)絡(luò)的最后3 層池化層的前一個(gè)卷積層的輸出特征,從而形成多尺度卷積層特征融合。在輸入圖像上進(jìn)行不同尺度和不同區(qū)域間特征提取,充分獲取目標(biāo)的上下文信息,隨后通過軟注意力模塊學(xué)習(xí)各個(gè)尺度特征的重要程度并賦予不同的權(quán)重,使網(wǎng)絡(luò)聚焦于目標(biāo)的關(guān)鍵特征,最后進(jìn)行不同分支的特征融合,進(jìn)而得到多尺度融合特征。
定義第k 個(gè)單詞的歸一化加權(quán)幾何均值NWGM(normalized weighted geometric mean):
圖3 特征向量ai 的權(quán)重αti 計(jì)算示意圖
權(quán)重α的計(jì)算過程為:
其中,a為特征向量,h為前一時(shí)刻LSTM 網(wǎng)絡(luò)隱藏層的狀態(tài),權(quán)重是通過softmax 函數(shù)歸一化得出,最后所有向量a的權(quán)重之和為1。隱藏狀態(tài)隨著LSTM 網(wǎng)絡(luò)的輸出順序的變化而變化,而網(wǎng)絡(luò)接下來要“看”的位置取決于已生成的單詞的序列。完成權(quán)重計(jì)算后,根據(jù)公式:
長(zhǎng)短期記憶網(wǎng)絡(luò)由Hochreiter 在1997 年提出,在解決長(zhǎng)序列訓(xùn)練過程中的梯度消失與梯度爆炸問題有很大的優(yōu)勢(shì)。一個(gè)典型的LSTM 細(xì)胞結(jié)構(gòu)如圖4 所示。
圖4 一個(gè)LSTM 細(xì)胞結(jié)構(gòu)
LSTM 網(wǎng)絡(luò)的核心在于每個(gè)LSTM 細(xì)胞的內(nèi)部狀態(tài),采用門結(jié)構(gòu)實(shí)現(xiàn)選擇性通過某些信息,包括輸入門(input gate)、遺忘門(forget gate)和輸出門(output gate)。采用LSTM 網(wǎng)絡(luò)基于上下文向量、前一時(shí)刻LSTM 的隱層狀態(tài),以及之前生成的單詞通過在每個(gè)時(shí)間步下生成一個(gè)單詞從而輸出描述結(jié)果。整個(gè)模型的計(jì)算過程如下:
LSTM 的初始記憶狀態(tài)與隱藏狀態(tài)的初始狀態(tài),分別通過兩個(gè)多層感知網(wǎng)絡(luò)饋送的特征向量的平均值預(yù)測(cè)得出:
最后采用深度輸出層并基于LSTM 狀態(tài)、上下文向量以及前一個(gè)生成的單詞計(jì)算輸出單詞的概率:
本文采用兵棋推演平臺(tái)的態(tài)勢(shì)圖像作為訓(xùn)練圖像數(shù)據(jù)如圖5 所示,經(jīng)過人工標(biāo)注生成完備的數(shù)據(jù)集。關(guān)于兵棋推演平臺(tái)的具體解釋如下:戰(zhàn)斗雙方為紅方與藍(lán)方,初始紅方在左,藍(lán)方在右,戰(zhàn)斗想定為城鎮(zhèn)攻防戰(zhàn),設(shè)定地圖上一點(diǎn)為重要奪控點(diǎn)(如圖中帶有紅旗的六角格)。初始兵力部署時(shí),紅藍(lán)雙方均設(shè)置一個(gè)坦克算子和一個(gè)戰(zhàn)車算子,約定推演開始后一方算子全殲另一方或一方率先搶占奪控點(diǎn)為獲勝方。每個(gè)算子每回合可以選擇向6 個(gè)方向中的一個(gè)進(jìn)行機(jī)動(dòng),或?qū)缮鋼魧?duì)象進(jìn)行射擊或在城鎮(zhèn)居民地隱蔽。六角格有編號(hào)和高程信息,高程越高,六角格顏色越深。兵棋態(tài)勢(shì)數(shù)據(jù)集中共有14 193 個(gè)樣本,其中,訓(xùn)練集中有8 515 個(gè)樣本,驗(yàn)證集中有4 259 個(gè)樣本,測(cè)試集中有1 419 個(gè)樣本。
圖5 兵棋推演平臺(tái)訓(xùn)練數(shù)據(jù)集示例
本實(shí)驗(yàn)采用深度學(xué)習(xí)Pytorch 框架搭建運(yùn)行環(huán)境,編程語言為Python,使用的顯卡為NVIDIA GeForce RTX 2070 SUPER,顯存16 GB,通過GPU加速運(yùn)算。實(shí)驗(yàn)中設(shè)置迭代次數(shù)為100,初始學(xué)習(xí)率為2e-5,批量大小設(shè)置為150。
在本實(shí)驗(yàn)中采用機(jī)器翻譯評(píng)價(jià)指標(biāo)BLEU分?jǐn)?shù)、METEOR分?jǐn)?shù)對(duì)模型效果進(jìn)行評(píng)價(jià)。BLEU是自然語言處理中機(jī)器翻譯的常用評(píng)價(jià)指標(biāo),評(píng)估內(nèi)容是模型生成的句子(candidate)與實(shí)際句子(reference)之間的相似程度,取值范圍在0.0 到1.0 之間。如果兩個(gè)句子完美匹配,則BLEU 分?jǐn)?shù)為1.0,反之,如果兩個(gè)句子完美不匹配,則BLEU 分?jǐn)?shù)為0.0。該指標(biāo)具有計(jì)算代價(jià)小、易理解、與語言無關(guān)、與人類評(píng)價(jià)結(jié)果高度相關(guān)和應(yīng)用廣泛等特點(diǎn)。本文采用累積N-grams 得分對(duì)模型效果進(jìn)行評(píng)價(jià),計(jì)算BLEU時(shí),允許用戶指定不同的N-grams 權(quán)重以便計(jì)算不同類型的BLEU 的值。N-grams 是指N 個(gè)單詞的不同組合,累積N-grams 得分是為各個(gè)gram 對(duì)應(yīng)的權(quán)重加權(quán),從而得到加權(quán)幾何平均分?jǐn)?shù)。本文取N 為1~4,分 別 對(duì) 應(yīng) 于BLEU-1、BLEU-2、BLEU-3 和BLEU-4 這4 個(gè)評(píng)價(jià)指標(biāo)。BLEU 的計(jì)算公式為:
其中,c 表示生成句子的長(zhǎng)度,r 表示參考句子的長(zhǎng)度,p表示不同的N-grams 精度,ω為n 的倒數(shù)。
METEOR 是在BLEU 的基礎(chǔ)上得出的一種評(píng)價(jià)指標(biāo),該指標(biāo)使用Wordnet 詞庫(kù)擴(kuò)充同義詞集,并同時(shí)考慮單詞詞形,通過計(jì)算同義詞、詞根、詞綴及釋義之間的匹配關(guān)系,并計(jì)算基于單精度的加權(quán)調(diào)和平均數(shù)和單字召回率。與BLEU 指標(biāo)相比,該指標(biāo)同時(shí)考慮了整個(gè)語料庫(kù)上的準(zhǔn)確率與召回率,可以很好地改善BLEU 的評(píng)價(jià)效果。METEOR 的計(jì)算公式為:
3.3.1 對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文提出的特征提取網(wǎng)絡(luò)MSF 在兵棋態(tài)勢(shì)圖像描述生成任務(wù)中的優(yōu)越性,與文獻(xiàn)[19]提出的VGG-LSTM 網(wǎng)絡(luò)上的圖像描述評(píng)價(jià)指標(biāo)進(jìn)行了對(duì)比,對(duì)比實(shí)驗(yàn)結(jié)果如表1 所示。實(shí)驗(yàn)結(jié)果表明,使用MSF 作為圖像描述生成的特征提取網(wǎng)絡(luò),在數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)BLEU-1、BLEU-2、BLEU-3、BLEU-4、BLEU 及METEOR 上分別提升了0.032 6、0.030 4、0.014 6、0.014 3、0.029 9 以及0.030 5,這證明了本文所提出的融合多尺度特征與軟注意力機(jī)制的方法,在態(tài)勢(shì)認(rèn)知任務(wù)中具有一定的優(yōu)越性。
表1 兵棋數(shù)據(jù)集上算法性能評(píng)價(jià)指標(biāo)對(duì)比
3.3.2 消融實(shí)驗(yàn)
為體現(xiàn)本文圖像描述生成階段軟注意力機(jī)制的作用,采用MSF 作為特征提取網(wǎng)絡(luò),與不使用軟注意力機(jī)制的算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可知,在加入軟注意力機(jī)制后,在兵棋態(tài)勢(shì)圖像數(shù)據(jù)集上,評(píng)價(jià)指標(biāo)BLEU-1、BLEU-2、BLEU-3、BLEU-4、BLEU 及METEOR 上分別提升了0.058 8、0.066 1、0.059、0.059 5、0.084 5 以及0.073 2,這證明了本文所采用軟注意力方法的有效性。
表2 消融實(shí)驗(yàn)評(píng)價(jià)指標(biāo)對(duì)比
3.3.3 實(shí)驗(yàn)分析
本文方法與原始方法在部分圖像上的描述結(jié)果如下頁(yè)表3 所示。最后一列為人工標(biāo)注的參考描述,通過比較可見本文方法在語義描述的充分性、通順性與精確性方面,與原始方法相比均有較大的提升。
表3 語義描述結(jié)果比較
可視軟化注意力權(quán)重的圖像描述結(jié)果如圖6所示,通過該圖可以理解算法輸出描述的過程與依據(jù)。圖中亮色部分表示算法對(duì)該部分具有更高的關(guān)注度。圖7 所示為將輸出描述打印在原始圖像后的可視化方式,通過該方式可以在兵棋推演過程中為指揮員實(shí)時(shí)輸出態(tài)勢(shì)認(rèn)知結(jié)果,使指揮員更快速地作出決策方案,具有較大的應(yīng)用價(jià)值。
圖6 軟注意力權(quán)重在圖像上的分布
圖7 兵棋推演態(tài)勢(shì)認(rèn)知結(jié)果
圖像描述任務(wù)是一種涉及計(jì)算機(jī)視覺與自然語言處理兩個(gè)領(lǐng)域的研究工作,具有較大的挑戰(zhàn)性。本文提出了一種融合多尺度特征與軟注意力機(jī)制的戰(zhàn)場(chǎng)態(tài)勢(shì)認(rèn)知方法,該方法通過對(duì)不同卷積層的輸出特征進(jìn)行注意力權(quán)重分配,隨后通過長(zhǎng)短期記憶網(wǎng)絡(luò)輸出態(tài)勢(shì)認(rèn)知結(jié)果。在自建的兵棋態(tài)勢(shì)圖像數(shù)據(jù)集上取得了較好的驗(yàn)證效果,證明本文所提方法能夠提升描述語句的質(zhì)量,此外通過消融實(shí)驗(yàn)驗(yàn)證了軟注意力機(jī)制的作用。最后將注意力權(quán)重分配與某個(gè)態(tài)勢(shì)圖像的認(rèn)知樣例進(jìn)行可視化展示,驗(yàn)證了所提方法的可應(yīng)用性。本文方法可以實(shí)現(xiàn)對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的智能認(rèn)知,從而輔助指揮員進(jìn)行決策。但由于自建數(shù)據(jù)集在標(biāo)注語句時(shí)存在局限性,故下一步嘗試擴(kuò)大描述范圍與數(shù)量,如采用生成對(duì)抗網(wǎng)絡(luò)對(duì)樣本進(jìn)行擴(kuò)充,以達(dá)到更好的效果。進(jìn)一步,本文所提方法可以與兵棋智能博弈平臺(tái)相結(jié)合,在智能博弈過程中實(shí)時(shí)輸出態(tài)勢(shì)認(rèn)知結(jié)果,并將結(jié)果與兵棋推演自我博弈相結(jié)合,對(duì)博弈對(duì)抗過程進(jìn)行干預(yù),使博弈過程融入人的思維方式,使決策更符合人的認(rèn)知。