吳賽賽 吳建寨 程國棟 張 楷 邢麗瑋 韓書慶
(中國農業(yè)科學院 農業(yè)信息研究所/農業(yè)農村部區(qū)塊鏈農業(yè)應用重點實驗室,北京 100081)
動物行為學是研究動物如何通過行為與其環(huán)境之間實現(xiàn)動態(tài)平衡關系的一門學科,動物行為中蘊含著諸多健康信息,直接或間接地反映了其生理、病理以及營養(yǎng)等內在狀態(tài)[1-2]。例如,走路時具有弓背、點頭、步幅短等特征的牛只可能患有肢蹄病[3];將四肢縮于腹下而趴臥的豬只可能處于寒冷狀態(tài)[4];跟隨雌蠅并舔其尾部試圖交尾的雄蠅表示可能處于求偶期[5]。因此,觀察和有效識別動物行為對智能養(yǎng)殖和動物福利具有重要意義,有助于管理者根據動物的行為變化對疾病治療、環(huán)境調整、喂養(yǎng)方案等做出及時反應和決策。在傳統(tǒng)養(yǎng)殖中大多依賴人工觀察來識別不同的動物行為,但由于工作效率低、人員培訓成本高等原因逐漸被取代;而通過傳感器來提取動物運動信息以實現(xiàn)動物行為分類的方式可能會造成動物的應激反應,還容易存在設備掉落導致數(shù)據丟失、電池壽命較短等問題。近年來,隨著計算機視覺技術和深度學習的發(fā)展,基于視覺特征實現(xiàn)動物行為識別作為一種非接觸式、自動化且經濟高效的方式成為當前的主流方法[6]。
基于視覺特征的動物行為識別方法可分為基于整體圖像特征和基于骨架特征的識別?;谡w圖像特征的動物行為識別通過圖像處理、視頻分析等技術從圖像中檢測目標區(qū)域并提取區(qū)域的視覺特征,再基于傳統(tǒng)機器學習或深度學習算法進行動物行為檢測?;趥鹘y(tǒng)機器學習的動物行為識別對圖像數(shù)量要求不高,但人工分析在其中起主導作用;深度學習方法則利用數(shù)據驅動方式學習圖像中的相關特征而無需人工提取特征,但對數(shù)據集規(guī)模要求較高,且由于從整張圖像中提取到的目標區(qū)域和特征是比較粗粒度的,對于復雜行為和相似行為的識別較為困難。基于骨架特征的動物行為識別通過檢測身體部位關鍵點和骨架,能夠監(jiān)測到更加細微的運動和行為變化,為行為分類算法的特征提取提供重要線索。動物行為可通過不同身體部位的運動姿態(tài)表現(xiàn)出來,姿態(tài)估計作為一種基于視頻或圖像觀察物體骨架運動特征的非侵入性方法,利用深度學習算法檢測人體或動物身體上的關鍵點位置,形成骨架特征并對其姿態(tài)進行可視化呈現(xiàn)[7],在人機交互、行為識別、運動捕捉和追蹤、行人檢測和重識別等任務中發(fā)揮著至關重要的作用[8-9]。因此,基于姿態(tài)估計的動物行為識別逐漸獲得學者們的關注和認可。
目前,隨著MPII[10]、COCO[11]、LSP[12]等大規(guī)模圖像訓練數(shù)據集的可用性,人體姿態(tài)估計研究取得重大進展;但動物姿態(tài)估計研究相對較少,主要是受到缺乏大規(guī)??捎脴俗?shù)據和動物的非剛性運動導致姿態(tài)多變的限制。傳統(tǒng)姿態(tài)估計方法一般基于圖結構[13-14]的思想,將身體各部位之間的空間相關性表達為樹狀結構模型,具有耦合連接肢體的運動學先驗[15-17]。但傳統(tǒng)姿態(tài)估計方法的特征提取很大程度上依賴于人工設定的方向梯度直方圖(Histogram of oriented,HOG)[18]和尺度不變特征轉換(Scale invariant feature transform,SIFT)[19]特征,無法充分利用圖像信息,導致算法受制于圖像中的不同外觀、視角、遮擋和固有的幾何模糊性[20-21]。
近年來,計算機視覺和人體姿態(tài)估計領域的進步為動物姿態(tài)估計提供了方向和新工具,為深入分析姿態(tài)估計應用于動物行為識別任務的發(fā)展?jié)摿?本文分別從二維和三維空間的角度詳細論述基于深度學習動物姿態(tài)估計應用進展與發(fā)展方向,然后從姿態(tài)估計與行為識別相結合的角度出發(fā),整合姿態(tài)估計在動物行為識別中的應用和相關研究成果,并結合研究和產業(yè)發(fā)展現(xiàn)狀,討論了當前研究中存在的問題并對未來的研究方向進行展望,為動物智能行為識別、動物福利等相關研究者擴展研究思路和研究方法。
隨著深度學習尤其是卷積神經網絡(Convolutional neural networks,CNN)的發(fā)展和突破,即使不依賴于先驗知識,也可以利用神經網絡提取比人工特征更為準確和魯棒的卷積特征,能夠預測更加復雜的姿態(tài),特別是當使用更深的卷積架構時。CNN不僅可以學習更好的特征表示,還能獲取不同感受野下多尺度多類型的關節(jié)點特征和每個特征的全部上下文(Contextual),然后對這些特征向量回歸身體部位坐標以反映當前姿態(tài)。隨著CNN在人體姿態(tài)估計領域的成功應用,基于CNN及其不同變體實現(xiàn)動物姿態(tài)的自動檢測也受到越來越多的關注。按照維度差異,本文從單目標和多目標的角度來梳理二維姿態(tài)估計方法,從兩階段和端到端方法來梳理三維姿態(tài)估計(圖1)。
圖1 基于深度學習的姿態(tài)估計方法Fig.1 Deep learning-based pose estimation method
二維姿態(tài)估計通過對圖像的關鍵點標注和特征處理,首先檢測人體或動物身體上的關節(jié)點,然后對這些關節(jié)點進行聚類和關系建模,形成身體骨架和可視化姿態(tài)。根據圖像中的對象數(shù)量可以劃分為單目標姿態(tài)估計和多目標姿態(tài)估計。
1.1.1單目標姿態(tài)估計
單目標人體姿態(tài)估計算法在訓練網絡參數(shù)時一般采用有監(jiān)督的訓練方法,根據真值(Ground truth)的類型和監(jiān)督的方式不同,可以分為4種方法:基于坐標回歸、基于熱圖檢測、回歸與檢測的混合模型以及端到端方法[20-21]。
DeepPose[22]是卷積架構在單人人體姿態(tài)估計上的首次嘗試,將姿態(tài)估計表述為基于深度神經網絡(Deep neural networks,DNN)的身體關節(jié)直接坐標回歸問題,但預測坐標是一種非線性很強的回歸任務,對于卷積網絡來說沒有充分利用圖像上的空間信息,因此難以估計復雜的人體姿態(tài)?;跓釄D(Heatmap)檢測的模型能夠保留圖像中的更多信息,不僅構建基于概率分布的真值標簽,還添加了一些人體部位之間的結構信息,主要包括將卷積網絡和圖結構模型[23]或樹結構模型[24]聯(lián)合的方法,以及通過增大感受野以隱式地學習人體結構信息,設計的典型卷積網絡主要有卷積位姿機(Convolutional pose machines,CPM)[25]、堆疊沙漏網絡(Stacked hourglass networks,SHN)[26]等。但卷積網絡在池化過程中經常以降低定位精度為代價,因此回歸+熱圖檢測的混合模型開始出現(xiàn),通過串聯(lián)[22]或并聯(lián)[27]結構將兩者直接級聯(lián)在一起,在檢測與回歸2個過程的共同作用下保證姿態(tài)的估計精度,但由于模型往往采用很大的卷積核或很深的網絡去獲取高質量熱圖,也導致效率難以提升。
單目標動物姿態(tài)估計更多的是應用端到端的神經網絡進行目標檢測和關鍵點估計。2018年,Mathis等[28]開發(fā)了開源工具包DeepLabCut,成為動物姿態(tài)估計領域的一個里程碑,同時也證明了端到端網絡可以提高姿態(tài)估計性能。DeepLabCut基于人體姿態(tài)估計方法DeeperCut[29]的改進,同時利用遷移學習方法,即使只標注少量訓練數(shù)據(約200幀),也取得與人體姿態(tài)估計準確率相當?shù)男阅堋F?個關鍵成分是:在關鍵點估計中應用了在ImageNet數(shù)據集上預訓練的ResNet-50[30]網絡;將去卷積層取代了ResNet輸出的分類層,用來對視覺信息進行上采樣,并產生空間概率密度。此后,Pereira等[31]和Russello等[32]分別提出LEAP和TLEAP模型,相比于DeepLabCut更加輕量且推理速度更快,但它們?yōu)榱颂岣哂柧毸俣榷档土藴蚀_性。因此,為緩解DeepLabCut網絡參數(shù)多導致推理速度慢以及LEAP模型對數(shù)據變化魯棒性差的問題,Graving等[33]推出的DeepPoseKit工具利用堆疊DenseNet通過對圖像的各種空間變換和噪聲變換以優(yōu)化魯棒性和泛化性,還大量減少網絡參數(shù)以提高推理速度,同時還能應用于多目標姿態(tài)估計,DeepLabCut、LEAP以及DeepPoseKit算法的比較如圖2所示。Liu等[34]還介紹了一種多幀動物姿態(tài)估計框架OptiFlex,由FlexibleBaseline和OpticalFlow(光流)2個模塊組成,它不僅可以靈活適應各類動物數(shù)據集,OpticalFlow[35]還通過聚合附近幀的變形信息以提供有關目標幀關鍵點最可能位置的足夠信息,當將其添加到DeepLabCut[28]、LEAP[31]和DeepPoseKit[33]這些基礎模型時,性能都有一定程度的提升。
(a)DeepLabCut算法流程;(b)LEAP算法流程;(c)DeepPoseKit算法流程。(a) DeepLabCut algorithm flow;(b) LEAP algorithm flow;(c) DeepPoseKit algorithm flow.圖2 DeepLabCut、LEAP和DeepPoseKit算法流程Fig.2 DeepLabCut,LEAP and DeepPoseKit algorithm flow
一些在2D人體姿態(tài)估計中流行的檢測器也被應用到動物姿態(tài)估計中,如鐘依健[36]和Li等[7]利用多個基礎模型對牛只的關鍵點進行定位和檢測,實驗結果均顯示SHN的性能最佳,16個關鍵點的平均檢測精度達到90%以上?;赟HN在編碼-解碼過程中容易丟失網絡淺層信息的問題,張雯雯等[37]在SHN基礎上提出基于SE注意力機制的多尺度最大池化模塊以解決特征信息丟失問題;同時引入一種基于Convolutional block attention module(CBAM)注意力機制的改進沙漏模塊,提高網絡對多通道信息的提取,該方法對于馬的PCK@0.05精度為74.01%,對于老虎的精度為66.40%。在姿態(tài)估計這類任務中,需要生成一個高分辨率的heatmap來進行關鍵點檢測,因此高分辨率網絡(HRNet)[38]被應用于鳥類[39]、大熊貓[40]等動物的姿態(tài)估計中,還引入了空洞空間金字塔池化(Atrous spatial pyramid pooling,ASPP)模塊,在提升特征感受野的同時捕獲多尺度信息,其PCK@0.05精度為81.51%。針對當前算法通常在時間和空間維度上分別提取動物骨架特征而忽略了骨架拓撲結構在時空維度的整體性問題,孫崢等[41]在時空圖卷積網絡(Spatial temporal graph convolutional networks,ST-GCN)基礎上插入全局時空編碼網絡,在猴類數(shù)據集研究中雖然比基準模型ST-GCN提升6.79%,但整體準確率僅達到76.54%。
同時,針對動物姿態(tài)估計領域訓練數(shù)據匱乏的問題,學者們研究通過遷移學習的方式來進行緩解。Cao等[42]設計了一種跨域適應方案來學習人類和動物圖像之間的共享特征空間;Zhang等[43]提出基于知識蒸餾的框架以提高各種基于CNN的目標檢測器性能,其中以Faster-RCNN[44]作為教師模型進行訓練,Single shot multibox detector(SSD)[45]作為學生模型;周兵[46]融合隨機背景增強方法RBA、注意力模塊MGAM、半監(jiān)督學習方法SSTCL和孿生網絡結構DNS,在標簽訓練數(shù)據量少的情況下也能明顯提升姿態(tài)估計預測的準確率。
1.1.2多目標姿態(tài)估計
與單目標姿態(tài)估計相比,多目標姿態(tài)估計不僅容易存在個體之間的遮擋、截斷等問題,還需要將檢測到的所有關節(jié)點正確地關聯(lián)到對應的個體身上,具有更高的挑戰(zhàn)性。目前對于多目標姿態(tài)估計的研究思路分為自頂向下(Top-down)和自底向上(Bottom-up)2種方法。
自頂向下方法分為目標檢測和姿態(tài)估計2個階段,首先通過目標檢測器將圖片中的多個個體分別劃分在不同的目標檢測框中,然后對每個目標提議框進行單目標姿態(tài)估計。目標提議框的漏檢、定位偏差與冗余等問題將直接導致后續(xù)姿態(tài)估計出現(xiàn)不完整、不準確或重復檢測等情況,因此自頂向下方法側重于檢測器的研究。在多目標人體姿態(tài)估計中,經典的目標檢測算法包括Region-CNN(R-CNN)[47-48]、Spatial pyramid pooling networks(SPP-net)[49-50]、Fast region-CNN(Fast R-CNN)[51-52]、Faster R-CNN[44,53]、Mask region-CNN(Mask R-CNN)[54]、SHN等模型,以及可以端到端輸出類別和相應定位的YOLO系列[55-56]和SSD模型[45]。
Graving等[33]和張宏鳴等[57]都以一種特殊的自頂向下方法實現(xiàn)多動物姿態(tài)估計,其姿態(tài)估計模型流程圖如圖3所示,首先對單目標體框進行檢測和裁剪,然后進行單目標姿態(tài)估計,最后再將單目標圖像關鍵點映射至原圖像所在位置,依序連接關鍵點形成多目標姿態(tài)。其中,DeepPoseKit利用堆疊的DenseNet檢測動物關鍵點,張宏鳴等[58]則在YOLO v3的基礎上添加RFB(Receptive field block)模塊以擴大感受野進行目標檢測,然后利用8層SHN實現(xiàn)單牛關鍵點檢測,該方法在一定肉牛目標數(shù)量范圍內緩解模型精度急劇降低的問題,其單牛骨架提取的平均精度達到90.75%,多牛骨架為66.05%,不過當目標數(shù)量從1提升至6時,模型精度波動幅度較小,當數(shù)量增至10頭以上模型精度才出現(xiàn)大幅下降。宋懷波等[59]提出基于部分親和場(Part affinity fields,PAF)的多目標奶牛骨架提取方法,但模型精度較低,其中單目標檢測精度為78.9%,3個及以上目標僅為48.59%。
圖3 姿態(tài)估計模型流程圖[33,57]Fig.3 Flowchart of the pose estimation model of literature[33,57]
雖然自頂向下方法能夠輸出較高的精度,但由于關鍵點估計過程建立在目標檢測結果的基礎上,目標檢測的錯誤會傳播到關鍵點檢測任務中,而且當圖像中目標較多時,其效率會受到較大影響。
自底向上方法的過程與自頂向下相反,主要包括節(jié)點部件檢測和節(jié)點部件聚類兩個步驟,首先利用單目標姿態(tài)估計方法檢測出圖像中所有目標的關節(jié)點,然后對這些關節(jié)點進行聚類和拼接,匹配到正確的目標身體上,因此自底向上方法側重于關節(jié)點的聚類研究,經典算法設計包括整數(shù)線性規(guī)劃[29,60]、部分親和場[61]、語義部分分割等[62]。Lauer等[63]運用自底向上的方法實現(xiàn)老鼠、小狗、狨猴和魚的多目標姿態(tài)估計和跟蹤,對DeepLabCut的主干網絡ResNet進行調整,引入更強大的DLCRNet_ms5提取特征,多個并行反卷積層預測關鍵點,然后利用部分親和場對關鍵點進行連接和關聯(lián)個體。由于DeepLabCut假設一幀只有一個對象且適合干凈背景的實驗環(huán)境,Liu等[64]則在DeepLabCut基礎上增加一個CNN層,以幀差圖像為輸入以減少顏色變化的影響,克服低視頻質量和重遮擋問題。然后在后處理模塊中利用非最大限制方法識別候選身體部位,并基于關鍵點約束函數(shù)和空間聚類來估計相應的奶牛中心位置,中心點數(shù)量則代表圖像中的奶牛數(shù)量,但該方法檢測效果不佳,尤其是在多頭牛的圖像數(shù)據集上,交并比(IOU)僅為58.7%。Pereira等[65]提出的Social LEAP(SLEAP)框架是LEAP的繼承,同時實現(xiàn)了自頂向下和自底向上的多目標姿態(tài)估計和跟蹤,以模塊化的U-net[66]作為網絡架構,支持30多種先進的神經網絡主干。
二維姿態(tài)估計可以獲取目標在圖像平面的位置和形態(tài),是目標在圖像平面的投影。雖然從2D視頻跟蹤動物運動對于監(jiān)控特定身體部位很有用,但全身姿態(tài)估計以及復雜或微妙行為的測量需要在3個維度上進行跟蹤,因為重要信息可能會由于多動物間的遮擋而丟失,并且運動量化也受到視角的嚴重影響。三維姿態(tài)估計可以在三維空間對目標的三維結構進行重建,但由于需要預測身體關節(jié)的深度信息,其訓練數(shù)據更加難以獲取,因此目前大多應用于實驗室環(huán)境的單目標姿態(tài)估計,對于自然環(huán)境和多目標估計還難以適用。
目前三維姿態(tài)估計主流方法包括兩階段方法和端到端方法。兩階段方法是以二維姿態(tài)估計發(fā)展較為成熟為前提的,因為其需要先從圖像中獲取二維姿態(tài),然后將二維姿態(tài)作為輸入,進一步估計三維姿態(tài);該方法的重點是第二階段,即如何將二維姿態(tài)信息提升為三維姿態(tài)信息[67-71]。端到端的三維姿態(tài)估計方法以二維圖像作為輸入,直接使用卷積神經網絡進行回歸,輸出三維姿態(tài)[72-75]。大多數(shù)三維姿態(tài)估計方法都應用了2D到3D的提升策略,如OpenPose[61]、DeeperCut[29]、HRNet[38]等已廣泛作為3D姿態(tài)估計方法中的2D姿態(tài)檢測器。
在三維動物姿態(tài)估計中,為了獲得三維空間信息,目前大多研究利用不少于2臺相機來融合多視角信息,基于多目圖像重建3D姿態(tài),如表1所示。從多目圖像進行3D重建的過程中,關鍵在于如何確定場景中同一個點在不同視角下的位置關系,一般采用相機校準板、引入多視角的一致性約束以及借助于立體視覺中的triangulation方法進行3D重建。DeepFly3D[76]工具包為了克服相機校準板在果蠅這種小體型動物上的不適用性,使用類似于人體姿態(tài)估計的稀疏束調整[77]校準模式,并將SHN作為關鍵點檢測器進行2D姿態(tài)估計,然后通過7臺同步相機及其多視圖冗余,在進行triangulation的3D關節(jié)位置重建時,利用圖形結構[13]迭代投影3D姿態(tài)以自動檢測和糾正2D錯誤估計。Freipose則不是以triangulation方法對3D姿態(tài)重建,而是直接在3D中重建身體姿態(tài)和運動軌跡,利用新穎的 3D 卷積網絡架構通過整合所有可用視圖的信息來重建 3D姿態(tài),還允許對老鼠行為進行自動聚類[78]。
表1 三維動物姿態(tài)估計相關研究Table 1 Research related to 3D animal pose estimation
動物種類繁多,目前還不存在一個規(guī)模較大、覆蓋豐富的動物種類的數(shù)據集基準,來驗證姿態(tài)估計算法的性能和泛化能力。為不同種類的動物標注骨架和姿勢不僅需要大量的人力物力,還需要生物學相關的領域知識作為標注依據。各類物種之間的外貌和骨骼具有較大的差異性,使得標注過程也存在一定的困難和誤差。因此,目前在動物姿態(tài)估計領域常見的數(shù)據集大多是以研究某一特定物種為目的,通常僅包含某一類動物(如肉雞)或幾類相似物種(如貓狗馬牛羊),且所定義的關鍵點位置和數(shù)量均有不同,如表2所示。AP-10K[85]是當前包含動物種類最豐富的姿態(tài)估計數(shù)據集,以9個公開發(fā)布的動物數(shù)據集作為基礎,經過仔細清洗、鑒別、再組織和標注,構建了一個包含59 658張圖像的動物數(shù)據集,涵蓋了23科,54個物種的集合。AP-10K類比人體關鍵點,基于動物的骨骼位置和運動特點角度的權衡,最大程度上描述了這些動物的外形和運動特點,定義了17個關鍵點來描述不同種類的哺乳動物。NWAFU數(shù)據集包含2 134張奶牛和肉牛各種姿勢的圖像,定義了16個關鍵點,并手動標注了每張圖像的相應注釋,成為目前牛只姿態(tài)估計的數(shù)據集基準,具體的關鍵點位置和定義如表3和圖4所示。
表2 動物姿態(tài)估計常見數(shù)據集Table 2 Common datasets for animal posture estimation
表3 NWAFU數(shù)據集的關鍵點定義Table 3 Definition of keypoints of the NWAFU dataset
圖4 NWAFU數(shù)據集關鍵點標注示例Fig.4 Example of key points annotation for NWAFU dataset
目前,在姿態(tài)估計領域較常用的評價指標包括正確關鍵點百分比(Percentage of correct keypoints,PCK)、物體關鍵點相似性(Object keypoint similarity,OKS)、全類平均精度(Mean average precision,mAP)以及均方根誤差(RMSE)。
PCK定義正確估計出關鍵點的比例,計算檢測的關鍵點與其對應Ground truth之間的歸一化距離小于設定閾值的比例,如PCK@0.05則表示在閾值為0.05時的正確關鍵點百分比。其計算公式如下:
(1)
式中:i表示關鍵點,di表示關鍵點i的預測值與Ground truth之間的歐式距離,d表示動物的尺度因子,T為人工設定的閾值。
OKS是COCO姿態(tài)估計挑戰(zhàn)賽中提出的評估指標,旨在計算預測關鍵點與Ground truth的相似度。其計算公式如下:
(2)
式中:δ表示關鍵點的可見程度,0表示不可見,1表示可見,S表示圖像像素面積,di表示關鍵點i的預測值與Ground truth之間的歐式距離,σi為關鍵點i的歸一化因子。
在計算出測試集中所有圖像的OKS后,通過人工設定閾值,得到出平均精度(Average precision,AP),對設定的多個閾值所得到的多個AP進行綜合加權平均,即為mAP。
RMSE為均方根誤差,表示預測關鍵點與Ground truth之間的平均像素距離的平方根。計算公式如下:
(3)
式中:m為關鍵點數(shù)量,xi表示關鍵點i的預測值,yi為關鍵點i的Ground truth。
姿態(tài)估計通過關鍵點檢測的方式獲取了動物的骨架信息和動作姿態(tài),通過觀察關鍵點的位置和活動角度、頻率等特征,能監(jiān)測到更加細微的運動和行為變化,同時也能為行為分類模型提供精確的目標特征區(qū)域,提高行為識別的準確性?;谧藨B(tài)估計的動物行為識別相關研究如表4所示。
表4 基于姿態(tài)估計的動物行為識別相關研究Table 4 Research related to animal behavior recognition based on pose estimation
目前姿態(tài)估計主要應用于禽類和牲畜的行為識別中,對精準養(yǎng)殖和智能跟蹤的效率有了很大提升。在禽類行為識別方面,Fang等[92]和Nasiri等[86]都將DeepLabCut作為關鍵點檢測器進行肉雞的姿態(tài)估計,在此基礎上,Fang等[92]將關鍵點位置、凹陷、關鍵點形成的骨架、形狀特征、骨架角度以及伸長率作為行為分類的6個特征,并使用對缺失數(shù)據不敏感的樸素貝葉斯法(Naive bayes model,NBM)進行6種日常行為的分類任務,其中休息行為的分類精度最高,達到96.23%,而行走和奔跑的精度較低,均小于70%,主要原因是行走和奔跑行為在圖像中呈現(xiàn)的運動幅度較為相似,導致模型出現(xiàn)互相交叉誤判的情況;Nasiri等[86]則將連續(xù)提取到的關鍵點輸入到LSTM模型中,根據GS0-GS5的6點評估方法對肉雞的跛行程度進行分類,其中GS0表示正常行走的肉雞,GS5表示跛行情況非常嚴重、完全無法動彈的肉雞,跛行程度的平均準確率高達97.50%,證明了基于姿態(tài)估計的模型作為一種自動和非侵入性的跛行評估工具,可以應用于家禽養(yǎng)殖場的有效管理。HRNet通過并行連接高分辨率到低分辨率卷積來保持高分辨率表征,在像素級分類、區(qū)域級分類和圖像級分類中,都證實了這個方法的有效性。因此,Lin等[39]首先使用 HRNet作為骨干網絡估計鳥類的關鍵點并生成用于鳥類行為識別的全局和粗略特征,然后將關鍵點聚類以定位興奮區(qū)域,并使用卷積操作較少的淺層網絡ResNet生成局部特征,融合全局和局部特征實現(xiàn)行為識別,即使存在多種相似行為,但其行為識別的平均準確率達到87.99%。
在牲畜行為識別方面,董力中等[90]和Li等[91]結合了自底向上策略和PAF方法來實現(xiàn)多目標姿態(tài)估計;且由于骨架關鍵點的結構實質上是一種圖結構,兩者均通過ST-GCN來抽取圖像特征,不僅可以從每一幀中的關節(jié)點坐標表示的牲畜姿態(tài)中學習到動作的特征,還能夠根據同一個關節(jié)點在連續(xù)幀中的位置變化形成的軌跡學習每個關節(jié)點對于動作識別的貢獻,從而同時把握到骨架的自然連接關系與時序性的特征,2種方法的對比如圖5所示。董力中等[90]研究了基于輕量化OpenPose的姿態(tài)估計和基于ST-GCN的豬只行為識別方法,首先通過目標檢測算法YOLO v5和多目標跟蹤算法(Simple online and realtime tracking,SORT)[93]提取并保留豬只目標區(qū)域,然后采用自底向上策略的VGG-19算法和部分親和場(PAF)來檢測豬只的20個關鍵點并衡量肢體骨架關節(jié)點之間的相關度,再執(zhí)行一組二分匹配來關聯(lián)候選部位,解析出合理的目標骨架。將提取到的豬只骨骼關節(jié)點在時間和空間上的特征輸入到ST-GCN網絡中,然后逐層對骨架時空圖進行卷積操作,提取圖結構中的更高級特征圖,最后通過標準的Softmax分類器輸出站立、行走或躺臥的相應豬只行為類別。由于單一特征難以取得很好的效果,Li等[91]融合RGB、光流和骨架多特征進行奶牛跛行檢測,首先利用ResNet101深度殘差網絡提取RGB圖像和光流的特征;然后利用VGG-19和部分親和場提取行走中的奶牛骨骼關節(jié)點特征,將這些特征的時空特征輸入到ST-GCN網絡中,由于跛行奶牛的行走速度比非跛行慢2~3倍,相鄰幀的運動差異不大,因此ST-GCN通過增加時間卷積核的大小,適當增加時間跨度以找到時間維度上高度可區(qū)分的特征。最后,將通過歸一化的RGB、光流和骨骼特征合并到Softmax分類器中進行跛行分類。由于RGB圖像和光流對光照敏感,容易受到環(huán)境干擾,因此添加奶牛骨架信息來加強網絡對牛本身的關注,增加了前景信息的權重。當RGB、光流和骨架特征的權重比例為1∶0.5∶0.5時,最佳準確率為97.20%。而在多目標肉牛姿態(tài)估計和行為識別中,張宏鳴等[57]提出的方法在一定目標數(shù)量范圍內緩解模型精度急劇降低的問題,在YOLO v3的基礎上引入RFB擴大模型感受野,剔除分類模塊提高目標檢測效率;由于肉牛毛色復雜、四肢高度相似、養(yǎng)殖環(huán)境多變、遮擋嚴重等問題,使用對細節(jié)特征感知能力較差的8層SHN來預測16個肉牛關鍵點以提取骨架和姿態(tài)信息。然后通過對關鍵點分布信息的統(tǒng)計,得到肉牛處于站立和臥倒狀態(tài)下其識別角度的特征,以135°的識別角度分界線作為站立或臥倒行為的判斷基礎,證明了該骨架提取模型可以為肉牛行為識別提供技術支持。
圖5 文獻[90]和[91]的方法對比Fig.5 Comparison of the methods in the literature [90] and [91]
雖然動物的關鍵點容易受到視角、姿態(tài)、遮擋等情況的影響,但比起其他種類的特征信息,動物的關鍵點及骨架信息對于環(huán)境變化具有更高的穩(wěn)定性,可以提供更有效的運動特征。目前基于姿態(tài)估計的動物行為識別研究大多首先采用深度神經網絡進行動物關鍵點和骨架提取,然后再利用統(tǒng)計學或深度學習算法實現(xiàn)行為分類,取得不錯的試驗結果,但相關研究仍較少。
動物的行為中蘊含著許多健康信息,加強對動物行為的研究與分析,可以為其疾病預測、動物福利研究提供思路和解決途徑?;陉P鍵點檢測的姿態(tài)估計作為動作識別、行為分析的前置任務,在人機交互、人體行為識別、行人檢測和重識別等領域得到廣泛而成熟的應用,但在動物行為識別等農業(yè)領域的應用場景還比較受限,相關研究尚不充分。基于姿態(tài)估計的動物行為識別不僅可以實現(xiàn)動物異常信息預警、身份識別和跟蹤,還能根據行為變化及時發(fā)現(xiàn)動物福利需求并做出相應調整。目前動物姿態(tài)估計大多借鑒于人體姿態(tài)估計方法,還有如下問題值得繼續(xù)研究。
1)構建大規(guī)模動物姿態(tài)估計數(shù)據集。深度學習模型的性能很大程度上依賴于大量的訓練數(shù)據集,人體姿態(tài)估計的成熟發(fā)展也是得益于存在多個大規(guī)模標注數(shù)據集。而動物種類繁多且物種之間的外貌和骨骼具有較大差異,目前還不存在一個規(guī)模較大、覆蓋全面的動物關鍵點數(shù)據集基準,這也是動物姿態(tài)估計領域研究進展緩慢的直接原因。因此,構建大規(guī)模動物姿態(tài)估計數(shù)據集是當前亟待解決的重要問題。
2)研究遷移學習策略以增強泛化能力。鑒于人體姿態(tài)估計的大量數(shù)據集及其成熟的方法,可以利用跨域學習的方式來提高動物姿態(tài)估計的性能。具有先驗知識的遷移學習是減輕標注數(shù)據需求的有效途徑,在關鍵點檢測或行為分類任務中,不論是從人類領域到動物領域的數(shù)據或算法遷移,還是不同動物種族間的算法遷移方式,都能有效提升目標域的泛化能力,減輕標注數(shù)據量的壁壘。
3)訓練強大的多目標姿態(tài)估計網絡。多目標姿態(tài)估計具有更廣泛的應用場景,但目前該算法不僅很難解決遮擋問題的魯棒性,還存在精度隨著目標增多而降低的問題。在未來的研究中,可以通過擴大模型感受野以增強特征提取能力,提高遮擋部分的檢測精度。同時,自頂向下的多目標姿態(tài)估計方法首先檢測目標框再進行關鍵點估計,在一定程度上能緩解目標較多時的精度問題,但這種方式的效率較低。因此,未來可以通過自頂向下和自底向上相結合的方式,在提高精度的同時保證檢測效率。