高富洪
(西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院,成都 611756)
現(xiàn)實(shí)世界的個(gè)體分為人和物,人和物在各個(gè)場(chǎng)景下都存在錯(cuò)綜復(fù)雜的交互關(guān)系,對(duì)人和物之間的關(guān)系進(jìn)行建模,有助于我們了解人類的行為。檢測(cè)便利店收銀臺(tái)場(chǎng)景下收銀員和顧客在整個(gè)收銀過(guò)程中的交互行為,既有助于保證收銀過(guò)程的規(guī)范性和商品、資金的安全性,也對(duì)便利店的管理發(fā)展和服務(wù)質(zhì)量提升起著積極的作用。顧客在收銀臺(tái)進(jìn)行結(jié)賬時(shí),收銀員會(huì)使用掃碼槍對(duì)商品上的條形碼進(jìn)行掃描識(shí)別,會(huì)與顧客之間接遞收銀小票、銀行卡,會(huì)操作pos 機(jī),會(huì)拿手機(jī)、簽字筆等等?;谏疃葘W(xué)習(xí)的方式來(lái)檢測(cè)收銀員和顧客各自在收銀臺(tái)下的交互行為,無(wú)論是在科研價(jià)值還是實(shí)際應(yīng)用方面,都有著積極的作用。
深度學(xué)習(xí)中的計(jì)算機(jī)視覺(jué)領(lǐng)域近年來(lái)發(fā)展迅猛、備受關(guān)注,而其中的人-物交互(HOI)檢測(cè)也成為了近兩年的研究熱題。在人-物交互檢測(cè)方向,two-stage 是相對(duì)傳統(tǒng)的方法,onestage 是近期流行起來(lái)的方法,它們都有各自的優(yōu)缺點(diǎn),其中two-stage 主要受限于如何定位有關(guān)系的人-物對(duì),而one-stage主要受限于如何權(quán)衡實(shí)體檢測(cè)和關(guān)系分類的多任務(wù)學(xué)習(xí)。Gao等在2018 年提出的HOI 檢測(cè)網(wǎng)絡(luò)iCAN,是一種端到端的以實(shí)例為中心的注意力模型,通過(guò)獲取人-物之間的上下文特征,來(lái)提升網(wǎng)絡(luò)檢測(cè)性能。Liao等在2020年提出的PPDM 網(wǎng)絡(luò)是一種one-stage 方法,包括點(diǎn)檢測(cè)和點(diǎn)匹配兩個(gè)并行分支,交互點(diǎn)隱含地為人、物檢測(cè)提供上下文和正則化信息,抑制了無(wú)意義的HOI 檢測(cè)框,提高了HOI 檢測(cè)的精度。因此,如何整合這兩種方法的優(yōu)點(diǎn)和抑制其缺點(diǎn),成為一個(gè)核心問(wèn)題。
本文中提到的CDN(cascade disentangling network)網(wǎng)絡(luò)是一種特殊的one-stage 方法,通過(guò)級(jí)聯(lián)的方式來(lái)解耦人-物對(duì)檢測(cè)和關(guān)系分類,同時(shí)采用了基于Transformer的HOI檢測(cè)器來(lái)實(shí)現(xiàn)該網(wǎng)絡(luò)。針對(duì)便利店收銀臺(tái)場(chǎng)景,不同于傳統(tǒng)的HOI 檢測(cè),本文對(duì)不同的收銀員和顧客進(jìn)行了細(xì)分類。為了提高人-物關(guān)系分類的準(zhǔn)確性,本文在CDN 網(wǎng)絡(luò)的特征提取模塊加入了基于HRNet 模型的人體關(guān)鍵點(diǎn)信息,最終取得了更好的效果。
隨著監(jiān)控?cái)z像頭的技術(shù)發(fā)展與普及,人們?cè)诠矆?chǎng)所下的大多數(shù)行為都會(huì)被記錄下來(lái),尤其是在涉及到人們生命財(cái)產(chǎn)的地方。本文選取多個(gè)加油站便利店的監(jiān)控記錄作為原始視頻數(shù)據(jù),為了保證數(shù)據(jù)的有效性,將正對(duì)收銀臺(tái)的監(jiān)控視頻單獨(dú)提取出來(lái),因?yàn)樗芡暾赜涗浭浙y員和顧客的交易細(xì)節(jié),并適用于HOI 研究;同時(shí)共選取了14 座加油站不同時(shí)段的收銀臺(tái)監(jiān)控視頻,確保了數(shù)據(jù)的多樣性,也使最后的模型具有更高的通用性。由于本文是在圖片級(jí)別的數(shù)據(jù)集上進(jìn)行研究,所以還需要對(duì)視頻數(shù)據(jù)抽幀操作,避免大量的相似圖片,每間隔20幀抽取一幀作為數(shù)據(jù)集,同時(shí)對(duì)大部分無(wú)人-物交互的圖片進(jìn)行過(guò)濾,總共得到17295張有效圖片,并選取12970 張圖片作為訓(xùn)練集,4325張圖片作為測(cè)試集。
對(duì)于處理完成的圖片數(shù)據(jù)集,本文將劃分收銀員和顧客常見(jiàn)的交互行為標(biāo)簽,總體以HICO-DET 數(shù)據(jù)集的處理方式為依據(jù)。HICODET 是一個(gè)用于檢測(cè)圖像中人-物交互的數(shù)據(jù)集,它包含47776 張圖片(訓(xùn)練集38118 張,測(cè)試集9658張),由80個(gè)對(duì)象類和117個(gè)動(dòng)詞類構(gòu)成600 個(gè)HOI 類。不同于HICO-DET 中的person對(duì)象類,本文加入了兩個(gè)不同的收銀員類和一個(gè)顧客類,總共10 個(gè)對(duì)象類,5 個(gè)動(dòng)詞類,23個(gè)HOI類,具體類別如表1所示。
表1 便利店收銀臺(tái)人-物交互數(shù)據(jù)集標(biāo)簽
按照劃分好的標(biāo)簽,需要對(duì)17295 張便利店收銀臺(tái)場(chǎng)景的圖片進(jìn)行標(biāo)注,本文用Python開(kāi)發(fā)完成HOI 的標(biāo)注軟件,以<人,物,交互動(dòng)作>三元組的形式進(jìn)行標(biāo)注,并將標(biāo)注結(jié)果以JSON 的形式保存,主要包括對(duì)象目標(biāo)框的坐標(biāo)和目標(biāo)之間的動(dòng)作關(guān)系,具體的標(biāo)注界面如圖1所示。
圖1 便利店收銀臺(tái)人-物交互數(shù)據(jù)標(biāo)注界面
本文主要對(duì)CDN 網(wǎng)絡(luò)進(jìn)行改進(jìn),以提升在便利店收銀臺(tái)場(chǎng)景下人-物交互檢測(cè)的準(zhǔn)確性。CDN 網(wǎng)絡(luò)主要包括三個(gè)級(jí)聯(lián)的模塊,分別是特征提取模塊、人-物對(duì)匹配模塊、動(dòng)作關(guān)系分類模塊。特征提取模塊包含卷積神經(jīng)網(wǎng)絡(luò)和Transformer 編碼器,其中提取卷積特征的主干網(wǎng)絡(luò)為ResNet。人-物對(duì)匹配模塊包含一個(gè)人-物對(duì)解碼器,輸入信息為上一模塊的輸出向量和人-物對(duì)查詢器,輸出信息為人的檢測(cè)框、物的檢測(cè)框和類別以及是否有關(guān)系的置信度預(yù)測(cè)。動(dòng)作關(guān)系分類模塊包含一個(gè)動(dòng)作關(guān)系解碼器,輸入信息為上一模塊的輸出信息和動(dòng)作查詢器,輸出信息為具體的動(dòng)作關(guān)系類別。為了增強(qiáng)人-物關(guān)系的匹配置信度的準(zhǔn)確性,本文在特征提取模塊中加入了基于HRNet的人體姿勢(shì)關(guān)鍵點(diǎn)信息,并將其與視覺(jué)特征融合輸入到Transformer 編碼器。此外,在人-物對(duì)匹配模塊加入了人的類別。改進(jìn)的CDN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 改進(jìn)的CDN網(wǎng)絡(luò)結(jié)構(gòu)
輸入高度為、寬度為、通道數(shù)為的原始圖片,利用主干網(wǎng)絡(luò)ResNet 生成特征圖,然后使用1×1 的卷積核將特征圖從多維壓縮到一維,位置信息編碼用于區(qū)分輸出的全局信息中相關(guān)的位置。為了得到更全面的特征信息,讓人-物之間的動(dòng)作交互更準(zhǔn)確,本文利用HRNet提取原始圖片中的人體姿勢(shì)關(guān)鍵點(diǎn),并將其與扁平特征一起作為Transformer 編碼器的輸入。HRNet的主干網(wǎng)絡(luò)包含4個(gè)并行的子網(wǎng)絡(luò),其分辨率逐漸衰減一半,對(duì)應(yīng)的通道數(shù)增加一倍,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。由于Transformer 編碼器采用了多頭注意力機(jī)制,它能從包含豐富上下文信息的特征圖中匯總到全局的信息。
圖3 HRNet網(wǎng)絡(luò)結(jié)構(gòu)[5]
在得到有序的視覺(jué)特征向量后,可以以此來(lái)預(yù)測(cè)、匹配人-物對(duì)。首先隨機(jī)初始化一個(gè)可學(xué)習(xí)的查詢器Q作為人-物對(duì)查詢器,然后構(gòu)造一個(gè)基于Transformer 的解碼器,把人-物對(duì)查詢器Q和上一模塊的全局信息作為輸入,因此可以得到人的檢測(cè)框、人的類別、物的檢測(cè)框和物的類別,并將其組成一個(gè)或多個(gè)人-物對(duì)。同時(shí),利用具體的得分以二分類的形式來(lái)判斷人-物對(duì)是否存在交互關(guān)系。因此,匹配的人-物對(duì)向量P可以表示為
式中,X為特征提取模塊輸出的全局信息,為特征提取模塊的位置編碼信息。此外,把人-物對(duì)匹配模塊最后一層的輸出信息用表示,并用于下一模塊。
類似于人-物對(duì)匹配解碼器,在動(dòng)作關(guān)系模塊同樣構(gòu)建了一個(gè)獨(dú)立的動(dòng)作關(guān)系解碼器,它能對(duì)人-物對(duì)匹配模塊輸出的每個(gè)表征人-物對(duì)的向量分配一個(gè)或多個(gè)關(guān)系類別。關(guān)系解碼器采用的輸入向量不再是隨機(jī)初始化的向量,而是人-物對(duì)匹配模塊的輸出向量,這樣可以利用其訓(xùn)練得到的先驗(yàn)知識(shí)對(duì)表征的每一個(gè)人-物對(duì)進(jìn)行關(guān)系類別解碼,通過(guò)關(guān)系分類訓(xùn)練任務(wù),解碼得到的輸出向量可以表征關(guān)系類別P,并且它同樣和X、有關(guān),可以表示為:
為了驗(yàn)證算法改進(jìn)后的可行性與效果,本文設(shè)計(jì)了多個(gè)實(shí)驗(yàn)進(jìn)行對(duì)比分析,變量包括是否加入基于HRNet 的人體姿勢(shì)關(guān)鍵點(diǎn)、不同層數(shù)的Transformer 編碼器以及不同的主干網(wǎng)絡(luò)。本實(shí)驗(yàn)的軟硬件環(huán)境如表2所示。
表2 實(shí)驗(yàn)軟硬件環(huán)境
本文設(shè)置了評(píng)價(jià)指標(biāo)來(lái)判斷檢測(cè)結(jié)果的正確性,即當(dāng)目標(biāo)檢測(cè)結(jié)果中人和物的檢測(cè)框與真實(shí)框的重疊部分超過(guò)了設(shè)置的閾值,并且檢測(cè)到的人-物交互行為分類正確,則結(jié)果正確,若不滿足一項(xiàng),則錯(cuò)誤。人-物交互檢測(cè)任務(wù)的評(píng)價(jià)方式與多標(biāo)簽分類的評(píng)價(jià)方式類似,采用所有交互行為類別在整個(gè)數(shù)據(jù)集的平均精度來(lái)表示模型的檢測(cè)效果,具體表示為:
式中的AP表示如下:
本文采用ResNet50 和ResNet101 兩種主干網(wǎng)絡(luò)用于提取圖片特征,并且分別加入3 層Transformer編碼器和6層Transformer編碼器。為了研究人體姿勢(shì)關(guān)鍵點(diǎn)對(duì)人-物對(duì)匹配的效果,同時(shí)加入了基于HRNet 的人體姿勢(shì)關(guān)鍵點(diǎn)信息,逐一對(duì)比分析檢測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果如表3所示。
表3 對(duì)比實(shí)驗(yàn)結(jié)果
通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果,可以看出增加Transformer 編碼器內(nèi)部的層數(shù)和更復(fù)雜的ResNet 主干網(wǎng)絡(luò)都對(duì)人-物交互檢測(cè)結(jié)果有提升,在加入基于HRNet 的人體姿勢(shì)關(guān)鍵點(diǎn)后,檢測(cè)結(jié)果提升更多,對(duì)應(yīng)的值依次提高8.7%、9.7%、10.3%。
本文對(duì)原有的人-物交互檢測(cè)方法CDN進(jìn)行改進(jìn),使之滿足便利店收銀臺(tái)場(chǎng)景下收銀員和顧客各自的交互行為檢測(cè)。在目標(biāo)檢測(cè)過(guò)程中,不僅檢測(cè)了不同的物,對(duì)人也進(jìn)行了細(xì)分類,實(shí)際的應(yīng)用價(jià)值更高。為了在圖像中獲取更多的信息,加入了基于HRNet 的人體姿勢(shì)關(guān)鍵點(diǎn),可以讓匹配的人-物對(duì)是否存在交互關(guān)系的得分更加準(zhǔn)確。此外,本文通過(guò)多組對(duì)比實(shí)驗(yàn)證實(shí)了加入人體姿勢(shì)關(guān)鍵點(diǎn)對(duì)檢測(cè)結(jié)果的準(zhǔn)確性有較大的提升。在實(shí)際應(yīng)用方面,通過(guò)實(shí)時(shí)檢測(cè)收銀過(guò)程中收銀員和顧客的行為,不僅節(jié)省了人力監(jiān)管的成本,也為企業(yè)的智能化管理做出了貢獻(xiàn)。