基于改進(jìn)CDN的便利店收銀臺(tái)人-物交互檢測(cè)

2022-07-25 09:42高富洪

現(xiàn)代計(jì)算機(jī) 2022年9期

高富洪

（西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院，成都 611756）

0 引言

現(xiàn)實(shí)世界的個(gè)體分為人和物，人和物在各個(gè)場(chǎng)景下都存在錯(cuò)綜復(fù)雜的交互關(guān)系，對(duì)人和物之間的關(guān)系進(jìn)行建模，有助于我們了解人類的行為。檢測(cè)便利店收銀臺(tái)場(chǎng)景下收銀員和顧客在整個(gè)收銀過(guò)程中的交互行為，既有助于保證收銀過(guò)程的規(guī)范性和商品、資金的安全性，也對(duì)便利店的管理發(fā)展和服務(wù)質(zhì)量提升起著積極的作用。顧客在收銀臺(tái)進(jìn)行結(jié)賬時(shí)，收銀員會(huì)使用掃碼槍對(duì)商品上的條形碼進(jìn)行掃描識(shí)別，會(huì)與顧客之間接遞收銀小票、銀行卡，會(huì)操作pos 機(jī)，會(huì)拿手機(jī)、簽字筆等等?；谏疃葘W(xué)習(xí)的方式來(lái)檢測(cè)收銀員和顧客各自在收銀臺(tái)下的交互行為，無(wú)論是在科研價(jià)值還是實(shí)際應(yīng)用方面，都有著積極的作用。

深度學(xué)習(xí)中的計(jì)算機(jī)視覺(jué)領(lǐng)域近年來(lái)發(fā)展迅猛、備受關(guān)注，而其中的人-物交互（HOI）檢測(cè)也成為了近兩年的研究熱題。在人-物交互檢測(cè)方向，two-stage 是相對(duì)傳統(tǒng)的方法，onestage 是近期流行起來(lái)的方法，它們都有各自的優(yōu)缺點(diǎn)，其中two-stage 主要受限于如何定位有關(guān)系的人-物對(duì)，而one-stage主要受限于如何權(quán)衡實(shí)體檢測(cè)和關(guān)系分類的多任務(wù)學(xué)習(xí)。Gao等在2018 年提出的HOI 檢測(cè)網(wǎng)絡(luò)iCAN，是一種端到端的以實(shí)例為中心的注意力模型，通過(guò)獲取人-物之間的上下文特征，來(lái)提升網(wǎng)絡(luò)檢測(cè)性能。Liao等在2020年提出的PPDM 網(wǎng)絡(luò)是一種one-stage 方法，包括點(diǎn)檢測(cè)和點(diǎn)匹配兩個(gè)并行分支，交互點(diǎn)隱含地為人、物檢測(cè)提供上下文和正則化信息，抑制了無(wú)意義的HOI 檢測(cè)框，提高了HOI 檢測(cè)的精度。因此，如何整合這兩種方法的優(yōu)點(diǎn)和抑制其缺點(diǎn)，成為一個(gè)核心問(wèn)題。

本文中提到的CDN（cascade disentangling network）網(wǎng)絡(luò)是一種特殊的one-stage 方法，通過(guò)級(jí)聯(lián)的方式來(lái)解耦人-物對(duì)檢測(cè)和關(guān)系分類，同時(shí)采用了基于Transformer的HOI檢測(cè)器來(lái)實(shí)現(xiàn)該網(wǎng)絡(luò)。針對(duì)便利店收銀臺(tái)場(chǎng)景，不同于傳統(tǒng)的HOI 檢測(cè)，本文對(duì)不同的收銀員和顧客進(jìn)行了細(xì)分類。為了提高人-物關(guān)系分類的準(zhǔn)確性，本文在CDN 網(wǎng)絡(luò)的特征提取模塊加入了基于HRNet 模型的人體關(guān)鍵點(diǎn)信息，最終取得了更好的效果。

1 數(shù)據(jù)集構(gòu)建

1.1 數(shù)據(jù)采集與處理

隨著監(jiān)控?cái)z像頭的技術(shù)發(fā)展與普及，人們?cè)诠矆?chǎng)所下的大多數(shù)行為都會(huì)被記錄下來(lái)，尤其是在涉及到人們生命財(cái)產(chǎn)的地方。本文選取多個(gè)加油站便利店的監(jiān)控記錄作為原始視頻數(shù)據(jù)，為了保證數(shù)據(jù)的有效性，將正對(duì)收銀臺(tái)的監(jiān)控視頻單獨(dú)提取出來(lái)，因?yàn)樗芡暾赜涗浭浙y員和顧客的交易細(xì)節(jié)，并適用于HOI 研究；同時(shí)共選取了14 座加油站不同時(shí)段的收銀臺(tái)監(jiān)控視頻，確保了數(shù)據(jù)的多樣性，也使最后的模型具有更高的通用性。由于本文是在圖片級(jí)別的數(shù)據(jù)集上進(jìn)行研究，所以還需要對(duì)視頻數(shù)據(jù)抽幀操作，避免大量的相似圖片，每間隔20幀抽取一幀作為數(shù)據(jù)集，同時(shí)對(duì)大部分無(wú)人-物交互的圖片進(jìn)行過(guò)濾，總共得到17295張有效圖片，并選取12970 張圖片作為訓(xùn)練集，4325張圖片作為測(cè)試集。

1.2 數(shù)據(jù)標(biāo)簽劃分

對(duì)于處理完成的圖片數(shù)據(jù)集，本文將劃分收銀員和顧客常見(jiàn)的交互行為標(biāo)簽，總體以HICO-DET 數(shù)據(jù)集的處理方式為依據(jù)。HICODET 是一個(gè)用于檢測(cè)圖像中人-物交互的數(shù)據(jù)集，它包含47776 張圖片（訓(xùn)練集38118 張，測(cè)試集9658張），由80個(gè)對(duì)象類和117個(gè)動(dòng)詞類構(gòu)成600 個(gè)HOI 類。不同于HICO-DET 中的person對(duì)象類，本文加入了兩個(gè)不同的收銀員類和一個(gè)顧客類，總共10 個(gè)對(duì)象類，5 個(gè)動(dòng)詞類，23個(gè)HOI類，具體類別如表1所示。

表1 便利店收銀臺(tái)人-物交互數(shù)據(jù)集標(biāo)簽

1.3 數(shù)據(jù)標(biāo)注與整理

按照劃分好的標(biāo)簽，需要對(duì)17295 張便利店收銀臺(tái)場(chǎng)景的圖片進(jìn)行標(biāo)注，本文用Python開(kāi)發(fā)完成HOI 的標(biāo)注軟件，以<人，物，交互動(dòng)作>三元組的形式進(jìn)行標(biāo)注，并將標(biāo)注結(jié)果以JSON 的形式保存，主要包括對(duì)象目標(biāo)框的坐標(biāo)和目標(biāo)之間的動(dòng)作關(guān)系，具體的標(biāo)注界面如圖1所示。

圖1 便利店收銀臺(tái)人-物交互數(shù)據(jù)標(biāo)注界面

2 算法設(shè)計(jì)與實(shí)現(xiàn)

本文主要對(duì)CDN 網(wǎng)絡(luò)進(jìn)行改進(jìn)，以提升在便利店收銀臺(tái)場(chǎng)景下人-物交互檢測(cè)的準(zhǔn)確性。CDN 網(wǎng)絡(luò)主要包括三個(gè)級(jí)聯(lián)的模塊，分別是特征提取模塊、人-物對(duì)匹配模塊、動(dòng)作關(guān)系分類模塊。特征提取模塊包含卷積神經(jīng)網(wǎng)絡(luò)和Transformer 編碼器，其中提取卷積特征的主干網(wǎng)絡(luò)為ResNet。人-物對(duì)匹配模塊包含一個(gè)人-物對(duì)解碼器，輸入信息為上一模塊的輸出向量和人-物對(duì)查詢器，輸出信息為人的檢測(cè)框、物的檢測(cè)框和類別以及是否有關(guān)系的置信度預(yù)測(cè)。動(dòng)作關(guān)系分類模塊包含一個(gè)動(dòng)作關(guān)系解碼器，輸入信息為上一模塊的輸出信息和動(dòng)作查詢器，輸出信息為具體的動(dòng)作關(guān)系類別。為了增強(qiáng)人-物關(guān)系的匹配置信度的準(zhǔn)確性，本文在特征提取模塊中加入了基于HRNet的人體姿勢(shì)關(guān)鍵點(diǎn)信息，并將其與視覺(jué)特征融合輸入到Transformer 編碼器。此外，在人-物對(duì)匹配模塊加入了人的類別。改進(jìn)的CDN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 改進(jìn)的CDN網(wǎng)絡(luò)結(jié)構(gòu)

2.1 視覺(jué)特征提取

輸入高度為、寬度為、通道數(shù)為的原始圖片，利用主干網(wǎng)絡(luò)ResNet 生成特征圖，然后使用1×1 的卷積核將特征圖從多維壓縮到一維，位置信息編碼用于區(qū)分輸出的全局信息中相關(guān)的位置。為了得到更全面的特征信息，讓人-物之間的動(dòng)作交互更準(zhǔn)確，本文利用HRNet提取原始圖片中的人體姿勢(shì)關(guān)鍵點(diǎn)，并將其與扁平特征一起作為Transformer 編碼器的輸入。HRNet的主干網(wǎng)絡(luò)包含4個(gè)并行的子網(wǎng)絡(luò)，其分辨率逐漸衰減一半，對(duì)應(yīng)的通道數(shù)增加一倍，其網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。由于Transformer 編碼器采用了多頭注意力機(jī)制，它能從包含豐富上下文信息的特征圖中匯總到全局的信息。

圖3 HRNet網(wǎng)絡(luò)結(jié)構(gòu)［5］

2.2 人-物對(duì)匹配

在得到有序的視覺(jué)特征向量后，可以以此來(lái)預(yù)測(cè)、匹配人-物對(duì)。首先隨機(jī)初始化一個(gè)可學(xué)習(xí)的查詢器Q作為人-物對(duì)查詢器，然后構(gòu)造一個(gè)基于Transformer 的解碼器，把人-物對(duì)查詢器Q和上一模塊的全局信息作為輸入，因此可以得到人的檢測(cè)框、人的類別、物的檢測(cè)框和物的類別，并將其組成一個(gè)或多個(gè)人-物對(duì)。同時(shí)，利用具體的得分以二分類的形式來(lái)判斷人-物對(duì)是否存在交互關(guān)系。因此，匹配的人-物對(duì)向量P可以表示為

式中，X為特征提取模塊輸出的全局信息，為特征提取模塊的位置編碼信息。此外，把人-物對(duì)匹配模塊最后一層的輸出信息用表示，并用于下一模塊。

2.3 交互關(guān)系判別

類似于人-物對(duì)匹配解碼器，在動(dòng)作關(guān)系模塊同樣構(gòu)建了一個(gè)獨(dú)立的動(dòng)作關(guān)系解碼器，它能對(duì)人-物對(duì)匹配模塊輸出的每個(gè)表征人-物對(duì)的向量分配一個(gè)或多個(gè)關(guān)系類別。關(guān)系解碼器采用的輸入向量不再是隨機(jī)初始化的向量，而是人-物對(duì)匹配模塊的輸出向量，這樣可以利用其訓(xùn)練得到的先驗(yàn)知識(shí)對(duì)表征的每一個(gè)人-物對(duì)進(jìn)行關(guān)系類別解碼，通過(guò)關(guān)系分類訓(xùn)練任務(wù)，解碼得到的輸出向量可以表征關(guān)系類別P，并且它同樣和X、有關(guān)，可以表示為：

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)準(zhǔn)備

為了驗(yàn)證算法改進(jìn)后的可行性與效果，本文設(shè)計(jì)了多個(gè)實(shí)驗(yàn)進(jìn)行對(duì)比分析，變量包括是否加入基于HRNet 的人體姿勢(shì)關(guān)鍵點(diǎn)、不同層數(shù)的Transformer 編碼器以及不同的主干網(wǎng)絡(luò)。本實(shí)驗(yàn)的軟硬件環(huán)境如表2所示。

表2 實(shí)驗(yàn)軟硬件環(huán)境

本文設(shè)置了評(píng)價(jià)指標(biāo)來(lái)判斷檢測(cè)結(jié)果的正確性，即當(dāng)目標(biāo)檢測(cè)結(jié)果中人和物的檢測(cè)框與真實(shí)框的重疊部分超過(guò)了設(shè)置的閾值，并且檢測(cè)到的人-物交互行為分類正確，則結(jié)果正確，若不滿足一項(xiàng)，則錯(cuò)誤。人-物交互檢測(cè)任務(wù)的評(píng)價(jià)方式與多標(biāo)簽分類的評(píng)價(jià)方式類似，采用所有交互行為類別在整個(gè)數(shù)據(jù)集的平均精度來(lái)表示模型的檢測(cè)效果，具體表示為：

式中的AP表示如下：

3.2 對(duì)比實(shí)驗(yàn)

本文采用ResNet50 和ResNet101 兩種主干網(wǎng)絡(luò)用于提取圖片特征，并且分別加入3 層Transformer編碼器和6層Transformer編碼器。為了研究人體姿勢(shì)關(guān)鍵點(diǎn)對(duì)人-物對(duì)匹配的效果，同時(shí)加入了基于HRNet 的人體姿勢(shì)關(guān)鍵點(diǎn)信息，逐一對(duì)比分析檢測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果如表3所示。

表3 對(duì)比實(shí)驗(yàn)結(jié)果

通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果，可以看出增加Transformer 編碼器內(nèi)部的層數(shù)和更復(fù)雜的ResNet 主干網(wǎng)絡(luò)都對(duì)人-物交互檢測(cè)結(jié)果有提升，在加入基于HRNet 的人體姿勢(shì)關(guān)鍵點(diǎn)后，檢測(cè)結(jié)果提升更多，對(duì)應(yīng)的值依次提高8.7%、9.7%、10.3%。

4 結(jié)語(yǔ)

本文對(duì)原有的人-物交互檢測(cè)方法CDN進(jìn)行改進(jìn)，使之滿足便利店收銀臺(tái)場(chǎng)景下收銀員和顧客各自的交互行為檢測(cè)。在目標(biāo)檢測(cè)過(guò)程中，不僅檢測(cè)了不同的物，對(duì)人也進(jìn)行了細(xì)分類，實(shí)際的應(yīng)用價(jià)值更高。為了在圖像中獲取更多的信息，加入了基于HRNet 的人體姿勢(shì)關(guān)鍵點(diǎn)，可以讓匹配的人-物對(duì)是否存在交互關(guān)系的得分更加準(zhǔn)確。此外，本文通過(guò)多組對(duì)比實(shí)驗(yàn)證實(shí)了加入人體姿勢(shì)關(guān)鍵點(diǎn)對(duì)檢測(cè)結(jié)果的準(zhǔn)確性有較大的提升。在實(shí)際應(yīng)用方面，通過(guò)實(shí)時(shí)檢測(cè)收銀過(guò)程中收銀員和顧客的行為，不僅節(jié)省了人力監(jiān)管的成本，也為企業(yè)的智能化管理做出了貢獻(xiàn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡