柯泓明 王夢(mèng)鴿 昝超 彭冰
摘要:文章針對(duì)高質(zhì)量公開(kāi)跌倒數(shù)據(jù)集較少,導(dǎo)致模型泛化能力較弱、檢測(cè)準(zhǔn)確率低、現(xiàn)有網(wǎng)絡(luò)全連接層參數(shù)量過(guò)大收斂速度慢的問(wèn)題,設(shè)計(jì)了適用于跌倒檢測(cè)的遷移學(xué)習(xí)方法,使用GAP(Global Average-Pooling,GAP)層替換全連接層方法,并在隱藏層加入BN(Batch Normalization,BN)操作,優(yōu)化網(wǎng)絡(luò)參數(shù),設(shè)置了多組對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)改進(jìn)的網(wǎng)絡(luò)模型在不同的數(shù)據(jù)集上訓(xùn)練時(shí)間相比于之前有所提升,均取得了不錯(cuò)的效果,使得神經(jīng)網(wǎng)絡(luò)既能夠在大規(guī)模圖像數(shù)據(jù)集上學(xué)習(xí)通用的特征又能夠在公開(kāi)跌倒數(shù)據(jù)集上學(xué)習(xí)跌倒特征,增強(qiáng)了網(wǎng)絡(luò)的泛化能力。
關(guān)鍵詞:圖像處理;計(jì)算機(jī)視覺(jué);跌倒檢測(cè)算法;神經(jīng)網(wǎng)絡(luò)
doi:10.3969/J.ISSN.1672-7274.2024.04.027
中圖分類號(hào):TP 394.1? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? ?文章編碼:1672-7274(2024)04-00-03
A Fall Detection Algorithm Based on Improved Convolutional Neural Network
KE Hongming, WANG Mengge, ZAN Chao, PENG Bing
(Hanjiang Normal University, Shiyan 442000, China)
Abstract: This article addresses the problems of weak model generalization ability, low detection accuracy, and slow convergence speed due to the limited number of high-quality public fall datasets. A transfer learning method suitable for fall detection is designed, which replaces the fully connected layer method with a Global Average Pooling (GAP) layer and adds a Batch Normalization (BN) operation in the hidden layer to optimize network parameters, Multiple comparative experiments were conducted, and it was found that the improved network model had improved training time on different datasets compared to before, achieving good results. This enabled the neural network to learn both universal features on large-scale image datasets and fall features on publicly available drop datasets, enhancing the network's generalization ability.
Keywords: image processing; computer vision; fall detection algorithm; neural network
當(dāng)今世界,人口老齡化愈演愈烈,獨(dú)居老人易跌倒造成極高的致殘率和死亡率。因此,對(duì)跌倒檢測(cè)的研究受到全世界范圍內(nèi)的重視,相關(guān)學(xué)者先后研發(fā)并提出一些性價(jià)比高的算法和可行的解決方案,主要分為基于傳感器和基于視覺(jué)影響的方法,但設(shè)備易受光線、復(fù)雜場(chǎng)景干擾等問(wèn)題導(dǎo)致檢測(cè)誤報(bào)率高、準(zhǔn)確性不足、體驗(yàn)性缺乏人性化。
為提高跌倒檢測(cè)能力并解決上述問(wèn)題,本文提出了基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)跌倒檢測(cè)算法。針對(duì)公共跌倒數(shù)據(jù)集較少,導(dǎo)致模型泛化能力較弱、準(zhǔn)確率低問(wèn)題,使用基于模型的遷移學(xué)習(xí)方法,先在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)通用的特征,然后在公開(kāi)的跌倒數(shù)據(jù)集上學(xué)習(xí)跌倒特征,從而增強(qiáng)網(wǎng)絡(luò)的泛化能力,提高準(zhǔn)確率,針對(duì)網(wǎng)絡(luò)全連接層參數(shù)量過(guò)大,收斂速度慢的問(wèn)題,設(shè)計(jì)了使用GAP層替換全連接層方法,并在隱藏層加入BN操作,優(yōu)化網(wǎng)絡(luò)參數(shù),從而提高識(shí)別效果。
1? ?基于遷移學(xué)習(xí)改進(jìn)的VGG-16跌倒識(shí)別
本文主要針對(duì)VGG-16網(wǎng)絡(luò)中存在的問(wèn)題進(jìn)行改進(jìn)實(shí)驗(yàn),在改進(jìn)的CNN上進(jìn)行遷移學(xué)習(xí)的實(shí)驗(yàn),本文將VGG-16網(wǎng)絡(luò)模型在ImageNet等大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,將訓(xùn)練好后的參數(shù)加載到網(wǎng)絡(luò)中使其具有一定基礎(chǔ)識(shí)別能力,再次在UCF101數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練并進(jìn)行微調(diào)網(wǎng)絡(luò)。使得網(wǎng)絡(luò)具有能夠識(shí)別表征人體運(yùn)動(dòng)的特征。
1.1 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)
Simonyan和Zisserman[1]兩人在2014年第一次創(chuàng)造性提出VGG模型,它是當(dāng)前使用最廣、應(yīng)用最多、最成熟的網(wǎng)絡(luò)模型之一。圖1是VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)圖,它由13個(gè)卷積層、3個(gè)全連接層以及5個(gè)池化層相互堆疊而成,卷積層采用的是3×3大小的卷積核提取特征,最后面接入全連接層作為分類,relu函數(shù)作為卷積層的激活函數(shù),在全連接層后加入drupout可以防止過(guò)擬合。選擇很多個(gè)比較小的卷積核可以使得網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)變得更少,進(jìn)而提升網(wǎng)絡(luò)的性能,強(qiáng)化提取復(fù)雜圖像特征的功能。
1.2 改進(jìn)的VGG-16網(wǎng)絡(luò)
1.2.1 全局池化層替換全連接層
原始的VGG-16網(wǎng)絡(luò)的全連接層參數(shù)量過(guò)大,占到整個(gè)網(wǎng)絡(luò)的80%以上,導(dǎo)致訓(xùn)練時(shí)間長(zhǎng),網(wǎng)絡(luò)收斂慢,需要算力強(qiáng)的硬件環(huán)境,部署到移動(dòng)視頻設(shè)備存在一定限制。本文使用GAP[2]替換VGG-16網(wǎng)絡(luò)中的全連接層,得到特征圖的平均值,在經(jīng)過(guò)全連接層后,將結(jié)果輸送到softmax分類器中進(jìn)行分類。圖2表示了GAP代替全連接層對(duì)特征圖進(jìn)行降維的過(guò)程,原始圖經(jīng)過(guò)CNN卷積層后,其特征圖矩陣向下采樣到全局平均池化層中,GAP對(duì)特征矩陣求平均值,從而實(shí)現(xiàn)對(duì)特征圖進(jìn)行降維。
1.3 VGG-16模型遷移框架設(shè)計(jì)
1.3.1 遷移模型
該網(wǎng)絡(luò)模型遷移框架設(shè)計(jì)圖如圖3所示,具體步驟是:在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練模型,使得模型具有可以區(qū)分角落、紋理、基本幾何元素等特征,該數(shù)據(jù)集擁有1 400多萬(wàn)個(gè)圖像和1 000個(gè)類。然后基于在ImageNet上訓(xùn)練的CNN,我們修改輸入層使其可以接收光流圖像,即224×224×20,在UCF101數(shù)據(jù)集上繼續(xù)訓(xùn)練網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以識(shí)別人體動(dòng)作的特征,UCF101數(shù)據(jù)集是一個(gè)人體動(dòng)作視頻庫(kù),包含各種人體動(dòng)作,這些特征可以用于后面識(shí)別跌倒。然后固定前面隱藏層的參數(shù)和權(quán)重,將預(yù)訓(xùn)練好的模型和權(quán)重參數(shù)遷移到跌倒的公開(kāi)數(shù)據(jù)集中,在網(wǎng)絡(luò)結(jié)構(gòu)中加入BN操作并且使用GAP代替全連接層,在優(yōu)化后的VGG-16網(wǎng)絡(luò)在新的數(shù)據(jù)集上微調(diào)訓(xùn)練模型,最后選擇softmax邏輯回歸函數(shù)作為輸出層。
1.3.2 實(shí)驗(yàn)參數(shù)設(shè)置
本文討論的是二分類問(wèn)題,因此可使用二元交叉熵函數(shù)作為模型的損失函數(shù),公式如下:
因?yàn)橐磉_(dá)某個(gè)類的重要性,所以在其中添加類的權(quán)重。式中,表示沒(méi)有跌倒的權(quán)重;表示跌倒的權(quán)重。
為了更好地評(píng)估模型對(duì)于跌倒的識(shí)別性能,我們采用五折交叉驗(yàn)證的方法,從數(shù)據(jù)集中隨機(jī)選擇4份作為訓(xùn)練集,1份作為測(cè)試集,取測(cè)試173.30116結(jié)果的平均值,從而避免訓(xùn)練過(guò)程中偶然性因素對(duì)評(píng)價(jià)指標(biāo)的影響,得到更加客觀的結(jié)果。圖4圖5分別表示網(wǎng)絡(luò)在兩個(gè)跌倒公開(kāi)數(shù)據(jù)集上訓(xùn)練的準(zhǔn)確率和損失函數(shù)曲線。我們根據(jù)不同的訓(xùn)練樣本數(shù)量發(fā)現(xiàn)一些超參數(shù)的設(shè)置在不同數(shù)據(jù)集中有很好的表現(xiàn),分別設(shè)置三個(gè)數(shù)據(jù)集的學(xué)習(xí)率為0.001、0.001、0.01和batch size為64、1 024、1 024以及跌倒權(quán)重為1、1、2。在分別經(jīng)過(guò)3 000、3 000、6 000次迭代后網(wǎng)絡(luò)在訓(xùn)練集上準(zhǔn)確率和模型的損失函數(shù)均逐漸得到很好的收斂。
2? ?數(shù)據(jù)和實(shí)驗(yàn)結(jié)果分析
2.1 實(shí)驗(yàn)測(cè)試環(huán)境與數(shù)據(jù)集
實(shí)驗(yàn)所使用的硬件平臺(tái):CPU為Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50GHz、GPU為NVIDIA GeForce RTX 2080 Ti、內(nèi)存為16 GB、操作系統(tǒng)使用Linux。本文使用URFD、UCF101兩個(gè)公開(kāi)數(shù)據(jù)集以及一個(gè)測(cè)試數(shù)據(jù)集,分別包含72個(gè)短視頻、8個(gè)不同的IP相機(jī)、24個(gè)場(chǎng)景,由視頻和圖片數(shù)據(jù)組成,涵蓋大部分場(chǎng)景。
2.2 評(píng)價(jià)指標(biāo)
跌倒檢測(cè)作為一個(gè)二分類問(wèn)題,在該問(wèn)題上模型具有識(shí)別特定序列的視頻幀是否表示跌倒的功能,而評(píng)估此類模型的性能最常見(jiàn)的指標(biāo)就是靈敏度(sensitivity),或者稱為召回率(recall),又或者稱為真陽(yáng)性率;另外一個(gè)評(píng)價(jià)指標(biāo)是特異性(specificity)或者稱為真陰性率。以上指標(biāo)不會(huì)受到不平衡類別分布的影響,所以它們很適合評(píng)價(jià)跌倒檢測(cè)數(shù)據(jù)集。
2.3 實(shí)驗(yàn)結(jié)果與分析
為了證明修改后的網(wǎng)絡(luò)相較于之前網(wǎng)絡(luò)在訓(xùn)練時(shí)間上有所提升,我們分別在每個(gè)數(shù)據(jù)集上進(jìn)行5次訓(xùn)練,最后取它們的均值,根據(jù)圖6可以發(fā)現(xiàn)修改后的模型相較于修改前模型在訓(xùn)練時(shí)間上有明顯提升。
在兩個(gè)公開(kāi)數(shù)據(jù)集上分別就召回率、特異性以及精準(zhǔn)度完成了對(duì)比實(shí)驗(yàn),結(jié)果顯示在表1和表2中。實(shí)驗(yàn)結(jié)果顯示在兩個(gè)數(shù)據(jù)集上召回率和特異性均有較好的表現(xiàn),這表明該模型具有很好泛化能力,即模型對(duì)于老人跌倒與否具有很好的判斷性能。
3? ?結(jié)束語(yǔ)
本文主要介紹了VGG-16網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合遷移學(xué)習(xí)對(duì)VGG-16網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),在實(shí)驗(yàn)中進(jìn)行了參數(shù)的設(shè)置,并對(duì)實(shí)驗(yàn)硬件設(shè)備環(huán)境、數(shù)據(jù)集、評(píng)判指標(biāo)分別進(jìn)行了介紹,比較了改進(jìn)前后的網(wǎng)絡(luò)在數(shù)據(jù)集上訓(xùn)練時(shí)間的減少程度、三個(gè)數(shù)據(jù)集上的召回率、特異性以及準(zhǔn)確率,最后跟其他文獻(xiàn)中的方法在相同數(shù)據(jù)集上進(jìn)行了對(duì)照實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的網(wǎng)絡(luò)在訓(xùn)練的時(shí)間上有了顯著提升,而且在不同數(shù)據(jù)集上的表現(xiàn)證明此模型的泛化能力較好?!?/p>
參考文獻(xiàn)
[1] Kattenborn T, Leitloff J, Schiefer F, et al. Review on Convolutional Neural Networks (CNN) in vegetation remote sensing[J]. ISPRS journal of photogrammetry and remote sensing, 2021, (173): 24-49.
[2] Kusuma G P, Jonathan J, Lim A P. Emotion recognition on fer-2013 face images using fine-tuned vgg-16[J]. Advances in Science, Technology and Engineering Systems Journal, 2020, 5(6): 315-322.