韓其凱 李易 楊然 王超群
摘要:人工智能已經(jīng)成為后互聯(lián)網(wǎng)時(shí)代的發(fā)展路徑和方向,國(guó)家出先后出臺(tái)了五個(gè)人工智能創(chuàng)新平臺(tái)??梢哉f,人工智能的春天即將到來(lái)了。與此同時(shí),我們致力于將人工智能技術(shù)推廣普及,對(duì)如何將人工智能技術(shù)進(jìn)行實(shí)際的落地應(yīng)用進(jìn)行了積極的探索與實(shí)現(xiàn)。依托于深度學(xué)習(xí)和計(jì)算機(jī)視覺的相關(guān)技術(shù),我們開發(fā)了口罩佩戴識(shí)別檢測(cè)系統(tǒng)。采用了基于瀏覽器-服務(wù)器端和基于客戶端兩方面的部署。瀏覽器端和客戶端相結(jié)合,實(shí)現(xiàn)了人工智能技術(shù)的落地應(yīng)用,具有實(shí)用性和潛在的商業(yè)價(jià)值。該項(xiàng)目已部署至網(wǎng)站hanqikai.com,進(jìn)行實(shí)際的運(yùn)行測(cè)試,并不斷進(jìn)行維護(hù)。
關(guān)鍵詞:人工智能 計(jì)算機(jī)視覺 深度學(xué)習(xí)
引言 人臉識(shí)別,在過去一年里是人工智能技術(shù)的代名詞,紅遍大江南北,無(wú)論是鐵路客運(yùn)大廳,還是校園出入口,都能見到其身影。然而,公共場(chǎng)合佩戴口罩,已經(jīng)成為人們必須遵守的規(guī)定。當(dāng)大家紛紛戴上口罩,攝像頭背后的它便罷工待斃,再不識(shí)其人了。但是人工智能之所以強(qiáng)大,在于其迭代與自我進(jìn)化的空間無(wú)限,我們利用人工智能領(lǐng)域的深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù),進(jìn)行了口罩佩戴檢測(cè)系統(tǒng)的開發(fā)。該系統(tǒng)可以對(duì)人群中的人臉是否佩戴口罩的情況進(jìn)行識(shí)別檢測(cè),從而幫助檢測(cè)人員有效排查各類人員,提高了工作效率。這說明,人工智能作為強(qiáng)有力的工具,將更好的服務(wù)于社會(huì)大眾。
1 ?項(xiàng)目構(gòu)建及其部署
在目標(biāo)檢測(cè)的算法模型上,我們采用端到端的目標(biāo)檢測(cè)算法—YOLOv4。端到端指的是輸入圖像的特征,輸出的是最后分類得到的結(jié)果。對(duì)于二階段的目標(biāo)檢測(cè)網(wǎng)絡(luò),該網(wǎng)絡(luò)的基本思想是先將圖像進(jìn)行各個(gè)維度的卷積提取圖像的特征,然后進(jìn)行目標(biāo)區(qū)域的搜索,將搜索到的含有物體的框進(jìn)行匯總,再將這些框分別進(jìn)行物體的分類,最后完成對(duì)圖片中物體的檢測(cè)。對(duì)比這兩種目標(biāo)檢測(cè)算法,我們可以得知,單階段的目標(biāo)檢測(cè)算法具有較快的檢測(cè)速度,因?yàn)檩斎雸D片經(jīng)過一次檢測(cè)便可以輸出結(jié)果。對(duì)于二階段的網(wǎng)絡(luò)RCNN系列,需要先進(jìn)行目標(biāo)區(qū)域的搜索,再進(jìn)行物體的分類,顯然這種算法不適合實(shí)時(shí)性的目標(biāo)檢測(cè)工作,但優(yōu)點(diǎn)是識(shí)別精度高,適用于比較看重識(shí)別效果的場(chǎng)景。由于口罩佩戴的識(shí)別需要有比較快的識(shí)別速度,自然要使用單階段的目標(biāo)檢測(cè)算法。因此我們采用了YOLOv4目標(biāo)檢測(cè)算法作為口罩識(shí)別的核心算法。
該目標(biāo)檢測(cè)網(wǎng)絡(luò)的結(jié)構(gòu)大體分為主干特征提取和特征處理兩大部分,其中主干特征提取是對(duì)圖像進(jìn)行不同維度的特征提取。YOLOv4由CSPDarknet53作為主干特征提取網(wǎng)絡(luò),抽取圖像中各個(gè)維度的特征,抽取的特征從低維到高緯,構(gòu)成特征金字塔,最后抽取的特征金字塔送入YOLO-Head網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)以及解碼。
YOLO Head層利用或得到的特征進(jìn)行預(yù)測(cè),在特征層的利用部分,提取多特征層進(jìn)行目標(biāo)檢測(cè),一共提取三個(gè)特征層,分別位于中間層,中下層,底層。 針對(duì)每一個(gè)特征層存在三個(gè)先驗(yàn)框。因此,可以獲得三個(gè)特征層的預(yù)測(cè)結(jié)果。但是這個(gè)預(yù)測(cè)結(jié)果并不對(duì)應(yīng)著嘴中的預(yù)測(cè)框在圖片上的位置,還需要解碼才可以完成。解碼的過程就是將每個(gè)網(wǎng)格點(diǎn)加上對(duì)應(yīng)的橫軸偏移量和縱軸偏移量,加完之后的結(jié)果就是預(yù)測(cè)框的中心,然后利用先驗(yàn)框和偏移量計(jì)算出預(yù)測(cè)框的長(zhǎng)和寬,這樣便可以得到整個(gè)預(yù)測(cè)框的位置了。在計(jì)算損失的時(shí)候,將預(yù)測(cè)出的包含物體的框和我們手工標(biāo)注的框進(jìn)行對(duì)比,求出兩種框的偏移量,將偏差算到損失函數(shù)中去,然后經(jīng)過神經(jīng)網(wǎng)絡(luò)的反向傳播不斷減小損失值,最終訓(xùn)練出理想的神經(jīng)網(wǎng)絡(luò)模型。
數(shù)據(jù)集方面,我們采用的數(shù)據(jù)集為WIDER_FACE數(shù)據(jù)集以及大量自己采集的數(shù)據(jù)集。戴口罩類的圖像通過網(wǎng)絡(luò)爬蟲爬取獲得,沒有戴口罩的圖像是WIDER_FACE數(shù)據(jù)集、VOC2007數(shù)據(jù)集進(jìn)行拼湊而成。將YOLOv4目標(biāo)檢測(cè)算法加載到集成開發(fā)環(huán)境Pycharm中,加入訓(xùn)練數(shù)據(jù)及其標(biāo)簽,寫好訓(xùn)練腳本,就可以利用算法進(jìn)行口罩佩戴模型的訓(xùn)練。
在訓(xùn)練好識(shí)別模型以后,接下來(lái)考慮的就是如何將該項(xiàng)目部署落地的問題。我們采取了兩方面的部署措施,第一個(gè)是將該系統(tǒng)通過服務(wù)器和瀏覽器部署到web端,第二個(gè)部署方案是直接部署到本地客戶端。使用服務(wù)端-瀏覽器進(jìn)行訪問時(shí),可以將圖片或者視頻通過前端頁(yè)面接口傳輸?shù)椒?wù)器上,再將結(jié)果回顯到頁(yè)面中。適用于對(duì)圖片或視頻中的人流進(jìn)行檢測(cè)。前端頁(yè)面效果及其識(shí)別接口請(qǐng)?jiān)L問http://hanqikai.com。本地客戶端時(shí)可以直接調(diào)用攝像頭進(jìn)行檢測(cè)識(shí)別,適用于對(duì)出入口閘機(jī)進(jìn)行檢測(cè),通過捕捉攝像頭的視頻流進(jìn)行檢測(cè)。經(jīng)過實(shí)際測(cè)試,服務(wù)器端和客戶端都取得了較好的識(shí)別結(jié)果。
2 ?分析總結(jié)
在我們的項(xiàng)目探索中,選擇合適的網(wǎng)絡(luò)模型對(duì)于項(xiàng)目起著核心作用。我們對(duì)比了多種網(wǎng)絡(luò)模型,最終選擇YOLOv4目標(biāo)檢測(cè)網(wǎng)絡(luò)作為口罩佩戴識(shí)別檢測(cè)項(xiàng)目的核心檢測(cè)算法。在訓(xùn)練自己的網(wǎng)絡(luò)模型中,我們使用了python網(wǎng)絡(luò)爬蟲技術(shù)在網(wǎng)絡(luò)上爬取了大量人臉數(shù)據(jù)集進(jìn)行手工標(biāo)注,并采取Mosaic數(shù)據(jù)增強(qiáng)方法。通過這個(gè)方法不僅豐富了數(shù)據(jù)集,而且豐富了檢測(cè)物體的背景,在最后訓(xùn)練出的模型效果中,新模型取得了非常好的效果。
在實(shí)現(xiàn)了口罩識(shí)別檢測(cè)系統(tǒng)之后,下一步計(jì)劃將該項(xiàng)目與計(jì)算機(jī)硬件的相關(guān)模塊結(jié)合,實(shí)現(xiàn)根據(jù)是否佩戴口罩進(jìn)行出入口的自動(dòng)控制,并向排查檢測(cè)人員發(fā)出警報(bào)信息。同時(shí)實(shí)現(xiàn)口罩佩戴的檢測(cè)以及數(shù)據(jù)庫(kù)系統(tǒng)的匹配。有效幫助排查檢測(cè)人員進(jìn)行全面檢測(cè),讓人工智能技術(shù)服務(wù)于社會(huì),推動(dòng)人工智能技術(shù)生活化,進(jìn)而使生活智能化。
參考文獻(xiàn):
[1](美)Martin T. Hagan.神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)[M].戴葵,譯. 北京:機(jī)械工業(yè)出版社,2002.9:6-12.
[2]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].1版.北京:清華大學(xué)出版社,2012:6-8.
[3] Joseph Redmon. YOLOv3: An Incremental Improvement [J]. CVPR, 2016(1).
[4] Alexey Bochkovskiy. YOLOv4: Optimal Speed and Accuracy of Object Detection[J]. CVPR, 2020(1).
[5](美)弗朗索瓦·肖萊. Python深度學(xué)習(xí)[M].張亮,譯.北京:人民郵電出版社,2018.8:5-7.
曲阜師范大學(xué) ?山東 ?日照 ?276800