国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

星際爭霸圖像序列的群體行為識別研究

2022-04-15 04:24:04白江波楊陽張文生
應(yīng)用科技 2022年2期
關(guān)鍵詞:群體行為星際爭霸卷積

白江波,楊陽,張文生

中國科學院 自動化研究所,北京 100080

基于遙感圖像的目標檢測是當前計算機視覺領(lǐng)域的研究熱點。通過目標檢測算法對地面目標進行精確的識別,具有重要的社會和經(jīng)濟價值[1]。隨著計算機視覺技術(shù)的持續(xù)發(fā)展,研究者們將視覺研究領(lǐng)域不斷延伸——從靜態(tài)的目標類別識別和精確定位拓展到目標動態(tài)的行為識別。受限于遙感圖像的成像方式和成本,目前尚沒有遙感圖像目標動態(tài)行為數(shù)據(jù)集。近些年來,大量研究者開展了基于游戲數(shù)據(jù)的人機對抗研究[2]。因為星際爭霸游戲圖像與遙感圖像具有相似的視角、目標和背景,所以利用星際爭霸游戲圖像構(gòu)建群體目標行為識別數(shù)據(jù)集,并開展群體目標行為識別可以為后續(xù)遙感圖像目標群體行為識別研究奠定基礎(chǔ),具有重要的研究價值。

1 相關(guān)工作

針對基于圖像視頻序列的目標行為,國內(nèi)外已有眾多研究成果。根據(jù)圖像中目標的個數(shù),目標行為識別可分為個體目標行為識別和群體目標行為識別。個體目標行為識別的數(shù)據(jù)集主要有:UCF101[3],Kinetics[4],AVA[5]等。個體行為數(shù)據(jù)集的行為類別主要包括個人在日常生活中的常見行為,如唱歌、彈琴、跑步、打球等。個體行為識別早期主要通過密集采樣特征點、特征點軌跡跟蹤,基于軌跡構(gòu)建行為特征的方法進行個體目標行為識別,其代表性算法是改進的密集軌跡(improved dense trajectories,IDT)算 法[6]。隨著2012 年深度學習方法在圖像領(lǐng)域取得的重大突破,研究者們逐步將研究重點轉(zhuǎn)移到基于深度學習的目標行為識別上來。按照是否提取人體關(guān)鍵點,基于深度學習的方法可以簡單劃分為基于圖像視頻的方法和基于人體骨架的方法?;趫D像視頻的深度學習方法又可以按模型方法分為基于長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的方法、基于雙流法(two-stream)的方法和基于時空間3D 卷積的方法。基于LSTM 的方法通常使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提取空間特征,使用LSTM 提取時序特征,進行行為識別,其代表方法如長期循環(huán)卷積網(wǎng)絡(luò)(longterm recurrent convolutional networks,LRCN)[7]等?;陔p流法的方法則通過空間流處理RGB 圖像,得到形狀信息,通過時間流/光流處理光流圖像,得到運動信息,最后將2 個流融合。經(jīng)過分類,得到目標行為,其代表性方法有Two-Stream[8]、時間段網(wǎng)絡(luò)(TSN)[9]以及時間移位模塊(TSM)[10]等?;跁r空間3D 卷積的方法通過添加時間維度將2D 卷積核擴展到3D,直接提取包含時間和空間兩方面的特征?;?D 卷積的方法是當前研究的熱點方法,代表性方法有C3D[11]、I3D[4]以及最新的Facebook 提出的slowfast[12]等。人體骨架是反映個人行為的重要表征,隨著圖卷積網(wǎng)絡(luò)的興起,基于人體骨架的行為識別方法開始成為研究熱點,其代表性方法包括ST-NBNN[13]、Deformable Pose Traversal Convolution[14]和STGCN[15]。群體行為識別的公開數(shù)據(jù)集主要有collective activity datasets[16]和Volleyball dataset[17],前者主要是針對人群的排隊、過馬路和交談等的群體性為,后者是針對排球比賽的進攻、傳球和防守等的群體行為,并對每個個體進行了位置標注。群體行為的識別方法除了前述基于深度學習的圖像視頻識別方法外,還有針對群體中個體關(guān)系建模的行為識別方法[18-20]。從上述介紹中可以看出,目前行為識別研究主要是以“人”為研究對象,個體精細化行為識別較多,群體行為識別較少,針對車輛、飛機等的行為識別研究不足。

2016 年,隨著AlphaGo 在圍棋人機對抗中大放異彩,越來越多的學者投入到基于強化學習的人機對抗研究中。其中,基于星際爭霸的人機對抗研究就是熱點之一[21]。為了推進星際爭霸的策略分類和對抗學習等研究,F(xiàn)acebook發(fā)布了包含65 646個星際爭霸的比賽記錄[22],開發(fā)人員可以直接通過使用Facebook 提供的TorchCraft 工具包[23]提取和存儲數(shù)據(jù)。同年,中科院自動化所也公開了星際爭霸2 宏觀運營研究數(shù)據(jù)集MSC[24],為星際爭霸的任務(wù)全局狀態(tài)評估和建造順序預測提出基線模型和初始基線結(jié)果提供數(shù)據(jù)集。2019 年,Deepmind 團隊在Nature 上發(fā)表文章,展示了其AlphaStar 已經(jīng)超越了戰(zhàn)網(wǎng)上99.8%的活躍玩家[25]。從近些年的文章來看,研究者們的重點在于如何優(yōu)化多智能體模型[26]和強化學習[27]方法提升游戲策略和操作。由于星際爭霸的游戲數(shù)據(jù)可以通過后臺獲得目標在地圖內(nèi)的精確信息,目前很少有研究者通過計算機視覺的方法從游戲視頻中獲取目標信息。

綜上所述,計算機視覺領(lǐng)域大多以“人”為行為識別的研究對象,而游戲?qū)诡I(lǐng)域通常從游戲后臺獲取目標,所以計算機視覺研究領(lǐng)域缺少多類目標的群體行為識別圖像數(shù)據(jù)集。因此,我們構(gòu)建了基于星數(shù)據(jù)的群體行為識別圖像數(shù)據(jù)集,并通過主流目標行為識別算法對數(shù)據(jù)集進行了驗證性測試。數(shù)據(jù)集原始圖像來源于網(wǎng)絡(luò)星際爭霸錄像,通過截取錄像中片段的方法獲取表示目標行為的連續(xù)圖像序列,數(shù)據(jù)集有450 個連續(xù)的目標行為,包含靜止、運動和戰(zhàn)斗等行為。視頻中的靜止和運動行為主要是人類種族的圖像,包含地面和空中作戰(zhàn)單元;戰(zhàn)斗行為主要是人類與人類、蟲族和神族的作戰(zhàn)片段。本文主要結(jié)構(gòu)如下:首先對數(shù)據(jù)集做了詳細介紹,并對構(gòu)建方法進行了簡要說明;其次介紹了與該數(shù)據(jù)集有關(guān)的一些統(tǒng)計信息;最后通過3 種群體行為識別方法對數(shù)據(jù)集進行了驗證并給出了行為識別結(jié)果。

2 數(shù)據(jù)集介紹

2.1 數(shù)據(jù)集的采集方法

我們從網(wǎng)絡(luò)上獲取了28 個星際爭霸比賽集錦錄像,即單個錄像中包含多場比賽?,F(xiàn)有星際爭霸數(shù)據(jù)集是基于游戲數(shù)據(jù)的回放文件,然而游戲界面中回放數(shù)據(jù)無法調(diào)整游戲進度,不利于我們截取需要的視頻片段??紤]到網(wǎng)絡(luò)獲取比賽視頻的方便性,我們主要通過視頻網(wǎng)站獲取需要的游戲錄像。由于獲取比賽的錄像質(zhì)量不一致,圖像 分 辨 率(ppi)從1 024×576 到720×576 都 有 分布,且部分視頻包含水印、臺標和人像等干擾因素。因為在比賽中,戰(zhàn)斗行為是觀眾關(guān)注的重點,而目標移動和靜止不是觀眾關(guān)注的重點,所以,比賽視頻中比較容易獲取戰(zhàn)斗行為的視頻片段,而較難獲取移動和靜止行為視頻片段。為了彌補移動和靜止行為視頻片段的數(shù)量,我們通過自己游戲的辦法,采集了若干個靜止和移動行為的視頻片段。為了豐富靜止和移動行為的目標類型和背景,每個行為視頻的目標數(shù)量和種類不相同,且包含了游戲中典型的5 類游戲背景圖像。

2.2 數(shù)據(jù)集構(gòu)建策略

數(shù)據(jù)集構(gòu)建的過程如圖1 所示。首先,分析比賽過程,截取比賽錄像中滿足目標行為類別的視頻片段。第二,考慮到遙感圖像可能獲得的目標行為圖像數(shù)量,并結(jié)合星際爭霸中游戲的目標行為發(fā)生過程,我們每個視頻片段均勻提取10 幀作為群體目標行為識別的圖像序列。第三,為了避免下方地圖目標信息和臺標人像等對群體目標行為識別的干擾,裁剪圖像的中間區(qū)域作為行為識別的感知范圍,并將裁剪后的圖像分辨率(ppi)轉(zhuǎn)化為256×256。

為了豐富群體目標行為的目標類型和背景,每個序列圖像均包含不同目標種類、數(shù)量和背景。表1 給出了數(shù)據(jù)集的相關(guān)參數(shù),圖2 給出了典型的群體目標行為識別的圖像序列實例。考慮目標存在遮擋且種類多樣,我們沒有給出圖像中每個目標的種類和位置信息,群體目標的行為通過整體圖像直接獲取。每個行為識別圖像序列按照UCF101 數(shù)據(jù)集的要求,被標記為“文件路徑+圖像數(shù)量+行為類別”,用來指示行為圖像序列包含多少幀圖像和行為類別。最后,將整個數(shù)據(jù)集隨機分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集。

表1 星際爭霸群體目標行為識別相關(guān)參數(shù)

2.3 數(shù)據(jù)集的多樣性

影響游戲數(shù)據(jù)行為識別的主要因素包括目標主體的多樣性、目標背景的多樣性和目標行為的多樣性。

針對目標主體多樣性,我們主要選擇人族作為主體目標單位,包含了主要的地面作戰(zhàn)單位,如機槍兵、噴火兵、醫(yī)療兵、坦克、機器球等。如圖3(a)所示,為了增加群體行為樣本中目標主體的多樣性,每個行為樣本中目標的類型混合搭配,不同樣本中的目標數(shù)量不同。此外,由于游戲設(shè)置導致的目標顏色差異,相同目標類型在不同樣本中也會呈現(xiàn)出不同的顏色??紤]到當前行為識別算法的需要和游戲視頻中不同目標的相互遮擋的特點,我們在數(shù)據(jù)集中未標注每個目標單位的位置和類別。

針對目標背景多樣性,如圖3(b)所示,我們選取了空間站、草地、火山地形等多個地圖場景作為群體目標行為的背景,并選擇同一地圖的不同區(qū)域?qū)δ繕巳后w行為進行采樣。通過上述操作,豐富了群體目標背景的多樣性??紤]到目標行為識別的特點,當前數(shù)據(jù)集中目標行為主要在野外,較少包含建筑類目標背景。

針對目標行為多樣性,如圖3(c)所示,靜止行為包含了各類目標單元的密集靜止和散狀靜止2 種表現(xiàn)形式;移動行為包含了各類目標單元的不同方向的移動和不同速度的移動行為;戰(zhàn)斗行為包含了不同對戰(zhàn)種族、不同戰(zhàn)斗武器效果和不同技能效果的戰(zhàn)斗形式。通過提升群體目標行為的多樣性,使數(shù)據(jù)集盡可能覆蓋游戲中的所有行為場景。

3 實驗結(jié)果

3.1 行為識別網(wǎng)絡(luò)模型

如前所述,基于深度學習的目標行為識別方法主要有LSTM,Two-Stream 和3D 卷積網(wǎng)絡(luò)??紤]到當前后兩者已經(jīng)成為目標行為識別的主流方法,我們選取其中近幾年的4 種代表性方法TSN、C3D、I3D 和TSM 作為星際爭霸圖像數(shù)據(jù)群體行為識別測試方法。TSN 算法是一種典型的Two-Stream 類目標行為識別方法,通過同時提取圖像的RGB 特征和光流特征實現(xiàn)目標的行為識別。C3D 通過3D 卷積網(wǎng)絡(luò)同時對圖像序列的時間和空間進行特征提取,從而實現(xiàn)目標行為識別。I3D 汲取了Two-Stream 和3D 卷積的優(yōu)點,通過2 個3D 卷積網(wǎng)絡(luò)分支,提取圖像的RGB 特征和光流特征,實現(xiàn)目標行為更準確的識別。TSM 則在TSN 的基礎(chǔ)上進行了改進,增加了時序移位模塊,通過把檢測幀的特征融入前后幀的特征信息,以增大時域感受野,提高目標行為識別的準確率。下面我們將簡要介紹這3 種行為識別方法的算法框架。

3.1.1 TSN 算法介紹

經(jīng)典Two-stream CNN[8]算法中需要對視頻進行密集采樣,當輸入視頻是一個長視頻時,算法的計算量會變的很龐大。TSN 算法針對該問題,提出了稀疏時間采樣策略。如圖4 所示,無論輸入視頻的長短,TSN 算法直接分成K個片段,然后在每個片段再隨機找出一個時間小片,分別用共享CNN 來提取空間上的特征,再進行特征層的融合,最后進行分類。

那么TSN 算法的圖像序列行為識別可用式(1)表示:

式中:TK為 第個片段,W為共享CNN 網(wǎng)絡(luò)的權(quán)重,函數(shù)F為CNN 網(wǎng)絡(luò)提取得到的圖像片段特征,G為特征融合函數(shù),H為分類層Softmax。本文中TSN 模型使用ResNet50 的2D 卷積核的骨干網(wǎng)絡(luò)。

3.1.2 C3D 算法介紹

一個好的算法通常是一個簡單可靠的模型,并且模型具有通用、簡潔、高效和簡單易實現(xiàn)方式。如圖5(a)所示,C3D 算法就具有這樣的特點,它直接將2D 卷積擴展到3D(添加了時間維度),同時提取包含時間和空間兩方面的特征。給定一段視頻,其大小是c×l×h×w。其中c為圖像的通道數(shù),l為視頻的幀數(shù),h、w分別為每幀視頻的高和寬。3D 卷積的卷積核和池化核也是3D 的,很容易想象得到,就是比2D 擴展一個維度,所以核大小是d×k×k。其中,d為卷積核的時間深度,k為卷積核的空間大小。本文使用標準C3D 骨干網(wǎng)絡(luò),其中包含8 次卷積操作,5 次池化操作,提取視頻的時間和空間特征,最后網(wǎng)絡(luò)在經(jīng)過2 次全連接層和softmax 層后得到最終的輸出結(jié)果。

3.1.3 I3D 算法介紹

I3D 模型吸收了之前模型的優(yōu)點,把雙流的思想加到3D 卷積網(wǎng)絡(luò)當中來,并充分發(fā)揮預訓練的效果,取得優(yōu)異的效果。如圖5(b)所示,I3D 模型將圖像RGB 數(shù)據(jù)和光流數(shù)據(jù)同時作為模型的輸入,然后用3D 卷積網(wǎng)絡(luò)分別提取兩路數(shù)據(jù)的特征,再做特征級的融合,輸入softmax 層后得到的最終的輸出結(jié)果。此外,考慮到充分利用現(xiàn)有2D 卷積網(wǎng)絡(luò)的預訓練參數(shù),I3D 模型通過把2D 模型中的核參數(shù)在時間維上不斷復制,形成3D 核的參數(shù),同時除以N,保證輸出和2D 一樣;其他非線性層結(jié)構(gòu)都與原來的2D 模型一樣,來實現(xiàn)現(xiàn)有2D 卷積網(wǎng)絡(luò)預訓練參數(shù)的充分利用。本文中I3D 模型使用ResNet50 的3D 卷積核的骨干網(wǎng)絡(luò),并使用ResNet50 的2D 卷積網(wǎng)絡(luò)的預訓練參數(shù)對骨干網(wǎng)絡(luò)進行初始化。

3.2 實驗參數(shù)設(shè)置

本文選擇的4 種算法模型均使用mmaction2行為識別框平臺實現(xiàn)。模型訓練前使用預訓練網(wǎng)絡(luò)參數(shù)對模型骨干網(wǎng)絡(luò)進行權(quán)重參數(shù)初始化,均使用隨機梯度下降法進行參數(shù)優(yōu)化,初始學習率為0.001,動量參數(shù)設(shè)為0.9,權(quán)重延遲設(shè)為0.000 5。全連接層使用dropout 泛化方法,其值設(shè)置為0.5。模型批處理參數(shù)設(shè)為4,TSN 模型中K取4,C3D 和I3D 模型中圖像序列片段的長度設(shè)置為10。本文使用NVIDIA GTX2080Ti 顯卡作為模型訓練和測試的硬件平臺。

3.3 實驗結(jié)果分析

游戲圖像序列的測試結(jié)果如表2 所示。

表2 不同模型的群體行為識別準確率

從表2 可以看出:C3D 和I3D 取得了最好得行為識別結(jié)果;戰(zhàn)斗行為較容易進行識別,靜止和移動行為較難進行識別。

就各個類別的群體行為分析如下:4 類群體目標行為識別方法均能夠準確識別游戲中的戰(zhàn)斗行為。其原因是因為戰(zhàn)斗行為中,圖像會出現(xiàn)戰(zhàn)斗引起的火花和光斑等典型戰(zhàn)斗表征?;谶@些表征,通過圖像分類方法也能夠很好地區(qū)分戰(zhàn)斗行為與其他行為。對于靜止行為而言,采用3D 卷積網(wǎng)絡(luò)的模型明顯好于2D 卷積網(wǎng)絡(luò)的Two-stream 模型。其原因是因為群體目標處于靜止狀態(tài)下,目標沒有移動,光流輸入沒有為群體目標的行為作出貢獻,且3D 卷積網(wǎng)絡(luò)對于時空特征捕捉能力強于2D 卷積網(wǎng)絡(luò)。對于移動行為,由于加入了光流輸入,Two-stream 模型的識別結(jié)果得到了一定的提升。但由于移動行為相對于靜止行為更加復雜,C3D 和I3D 的行為識別準確率產(chǎn)生了一定的下降。

另外我們給出了I3D 模型的混淆矩陣,如表3所示。從表3 中可以發(fā)現(xiàn),由于戰(zhàn)斗行為中存在較明顯的光斑,戰(zhàn)斗行為不會誤識別為其他行為。但是由于戰(zhàn)斗行為中,群體目標或處在靜止狀態(tài)或處在移動狀態(tài),導致少量移動行為會誤識別為戰(zhàn)斗行為。

表3 I3D 模型群體行為識別混淆矩陣

進一步,我們給出了TSN、C3D、I3D 等3 種模型的群體目標行為識別計算時間如表4 所示。從表4 中可以看出,采用3D 卷積網(wǎng)絡(luò)模型的計算時間明顯小于Two-stream 模型。C3D 模型包含的卷積層數(shù)少于I3D 模型,故其計算時間最短。綜合群體目標行為識別的識別準確率和計算時間,C3D 模型取得了最好得效果。

表4 不同模型的群體行為識別計算時間 ms

4 結(jié)論

本文以星際爭霸游戲圖像數(shù)據(jù)的群體目標行為識別為研究目標,構(gòu)建了游戲中群體目標典型行為的數(shù)據(jù)集,并應(yīng)用當前主流的行為識別方法對游戲圖像序列進行了群體行為識別。群體目標典型行為的數(shù)據(jù)集共包含戰(zhàn)斗、移動和靜止3 類典型行為,每個行為樣本中包含不同數(shù)量、不同類型和不同背景的目標單元,充分保證了數(shù)據(jù)樣本的多樣性。通過3 種行為識別方法的對比,驗證了本數(shù)據(jù)集的有效性,為后續(xù)研究遙感圖像的群體目標行為識別方法提供了指導和遷移學習的原始數(shù)據(jù)。

為了進一步驗證游戲數(shù)據(jù)的行為識別方法,我們還需要進一步擴充數(shù)據(jù)集數(shù)量,增加神族和蟲族的單元目標,更加精細化群體目標行為類別,提升星際爭霸游戲數(shù)據(jù)群體目標行為數(shù)據(jù)集的有效性。

猜你喜歡
群體行為星際爭霸卷積
中國選手《星際爭霸2》奪冠
群體行為識別深度學習方法研究綜述
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
化工園區(qū)突發(fā)事件情景下的群體行為模擬演化研究*
基于因果分析的群體行為識別
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
群體行為驅(qū)動:流行語的社會心理分析
當代修辭學(2011年6期)2011-01-29 02:49:44
漫談《星際爭霸》
许昌市| 绩溪县| 当雄县| 平远县| 于田县| 饶河县| 宁都县| 乌鲁木齐市| 民乐县| 夏河县| 吉林市| 佳木斯市| 松桃| 湖北省| 同仁县| 依兰县| 克山县| 莱州市| 濮阳县| 泸溪县| 安庆市| 扶余县| 五寨县| 花莲市| 玉屏| 浠水县| 林甸县| 从江县| 洪泽县| 定州市| 南部县| 通榆县| 阿勒泰市| 青田县| 新晃| 阜阳市| 肇庆市| 甘肃省| 镇赉县| 辉南县| 木里|