基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)圖像識別方法研究

2023-09-06 05:43:15張文韜張婷

現(xiàn)代信息科技 2023年14期

關(guān)鍵詞：遷移學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)圖像識別

張文韜張婷

摘 ?要：卷積神經(jīng)網(wǎng)絡(luò)是圖像分類領(lǐng)域效果卓越的深度學(xué)習(xí)算法，然而訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)是一項繁瑣且復(fù)雜的工作，不僅在結(jié)構(gòu)設(shè)計上依賴開發(fā)人員豐富的經(jīng)驗，還容易產(chǎn)生過擬合現(xiàn)象。因此，該文提出一種基于模型遷移的圖像識別方法，該方法能夠在簡化設(shè)計思路的同時極大地提升卷積神經(jīng)網(wǎng)絡(luò)的性能。此外還在三個小型圖片集上進行了多次模型訓(xùn)練和對比分析。研究結(jié)果表明，經(jīng)過遷移學(xué)習(xí)優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)的測試集準(zhǔn)確率均得到顯著提升。

關(guān)鍵詞：圖像識別；深度學(xué)習(xí)；卷積神經(jīng)網(wǎng)絡(luò)；遷移學(xué)習(xí)；預(yù)訓(xùn)練模型

中圖分類號：TP391.4 ? ? 文獻標(biāo)識碼：A ? 文章編號：2096-4706（2023）14-0057-04

Research on Convolutional Neural Network Image Recognition Method

Based on Transfer Learning

ZHANG Wentao， ZHANG Ting

（School of Mechanical and Automotive Engineering， Shanghai University of Engineering Science， Shanghai ?201620， China）

Abstract： Convolutional neural network is an effective deep learning algorithm in the field of image classification. However， training the deep neural network is a tedious and complex work， not only relying on the rich experience of developers in structural design， but also prone to over fitting. Therefore， this paper proposes an image recognition method based on model migration， which can greatly improve the performance of convolutional neural network while simplifying the design idea. In addition， multiple model training and comparative analysis are conducted on three small image sets. The research results show that the test set accuracy of convolutional neural network optimized by Transfer learning is significantly improved.

Keywords： image recognition; Deep Learning; Convolutional Neural Network; Transfer Learning; Pre-trained Model

0 ?引 ?言

隨著智能手機與社交媒體的普及，大量的圖片信息相繼產(chǎn)生。人類能夠在復(fù)雜的自然環(huán)境中識別物體并判斷出物體的類別，然而如何將這種能力應(yīng)用于計算機，令其靈活自如地對圖片信息進行分類，提高信息獲取的效率，并將這些分類識別方法應(yīng)用于后續(xù)的目標(biāo)檢測、目標(biāo)跟蹤等領(lǐng)域，是一個值得深入研究和探討的重要課題[1]。

傳統(tǒng)的分類方法通常采用淺層的模型結(jié)構(gòu)，例如高斯混合模型、K-均值聚類、支持向量機與邏輯回歸模型等，這些結(jié)構(gòu)最多含有一兩個隱含層，難以刻畫復(fù)雜的映射關(guān)系，通常不能在大規(guī)模的數(shù)據(jù)集上取得很高的識別準(zhǔn)確率。隨著人工智能的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network， CNN）在圖像識別領(lǐng)域取得重大突破。CNN結(jié)構(gòu)具有權(quán)值共享與稀疏連接等特點，展現(xiàn)出良好的自適應(yīng)性和強大的學(xué)習(xí)能力，能夠在大幅度減少訓(xùn)練參數(shù)量的同時保證圖像的識別準(zhǔn)確率[2]。因而，CNN對于傳統(tǒng)算法而言擁有極大的優(yōu)勢，在圖像識別領(lǐng)域廣受青睞。

訓(xùn)練一款有效的CNN是一項繁瑣且復(fù)雜的工作。首先，在設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)時，卷積層的數(shù)量和卷積核的大小沒有明確的設(shè)計準(zhǔn)則，往往需要多次嘗試積累經(jīng)驗。其次，采用常規(guī)方法訓(xùn)練的網(wǎng)絡(luò)中的可訓(xùn)練參數(shù)沒有穩(wěn)定的初始化方法，通常為一定范圍內(nèi)的隨機初始化，容易陷入局部最優(yōu)解。最后，在訓(xùn)練樣本數(shù)不足的情況下，深度神經(jīng)網(wǎng)絡(luò)普遍容易產(chǎn)生過擬合的現(xiàn)象[3]。因此，本文針對上述問題提出一種相對簡單且高效的圖像識別方法，采用基于模型的遷移學(xué)習(xí)思路，引入先進的CNN作為預(yù)訓(xùn)練模型，使網(wǎng)絡(luò)能夠以較快的速度收斂并取得較高的識別準(zhǔn)確率，同時還能有效緩解過擬合現(xiàn)象。

1 ?卷積神經(jīng)網(wǎng)絡(luò)模型

CNN經(jīng)過多年的發(fā)展，在圖像識別領(lǐng)域頻頻取得優(yōu)異成績，甚至能夠取得優(yōu)于人眼識別的準(zhǔn)確率。接下來按照時間順序介紹幾種性能優(yōu)異的CNN[4]。

1.1 ?AlexNet

AlexNet是一個包含5層卷積層和3層全連接層的8層CNN模型[5]，其在多個方面進行了創(chuàng)新。例如采用線性整流單元作為激活函數(shù)，利用Dropout正則化緩解過擬合，采用重疊的最大池化避免模糊化效果，提出通過局部響應(yīng)歸一化增強泛化能力，使用數(shù)據(jù)增強擴大樣本集規(guī)模等。這些方法極大地提升了模型性能，使其在ImageNet數(shù)據(jù)集上遠超第二名的識別準(zhǔn)確率，給當(dāng)時的學(xué)術(shù)界和工業(yè)界帶來了巨大沖擊。

1.2 ?VGGNet

VGGNet是牛津大學(xué)計算機視覺組和Google合作研發(fā)的CNN[6]，采用反復(fù)堆疊的小尺寸卷積核代替AlexNet中的大卷積核，在減少參數(shù)的同時將網(wǎng)絡(luò)深度增加至16～19層，顯著改善了當(dāng)前的技術(shù)成果，證明網(wǎng)絡(luò)深度的增加對于其性能的提升具有重要意義。VGGNet的結(jié)構(gòu)規(guī)整，整個網(wǎng)絡(luò)都使用同樣大小的卷積核和池化核，尤其適于硬件加速，同時還具有良好的泛化能力，因此廣泛應(yīng)用于諸多圖像識別任務(wù)中。

1.3 ?GoogLeNet

GoogLeNet是由Google研究院推出的CNN[7]，采用模塊化設(shè)計的思想，通過大量堆疊Inception模塊，設(shè)計出稀疏連接的網(wǎng)絡(luò)結(jié)構(gòu)，并通過密集矩陣的高計算性能來提升計算資源的利用率。如圖1所示，Inception模塊是一種將多個卷積和池化操作組裝在一起的網(wǎng)絡(luò)模塊，一方面可以讓網(wǎng)絡(luò)的深度和寬度高效率地擴充，另一方面也提升了網(wǎng)絡(luò)對尺度的適應(yīng)性和感知力。

1.4 ?ResNet

ResNet是2015年提出的CNN[8]，通過殘差結(jié)構(gòu)成功訓(xùn)練出深層的神經(jīng)網(wǎng)絡(luò)。如圖2所示，ResNet通過在卷積層的輸入和輸出之間添加一條跳連線，將前邊的特征信息直接輸送到后面，有效緩解了因梯度消失或梯度爆炸帶來的模型退化，網(wǎng)絡(luò)得以在輸入特征的基礎(chǔ)上在堆積層學(xué)習(xí)到新的特征，從而獲得性能優(yōu)越且能穩(wěn)定訓(xùn)練的深層網(wǎng)絡(luò)模型。

1.5 ?DenseNet

DenseNet是2017年提出的[9]，通過全新的密集連接機制，以前饋的方式將每一層與前面所有層的輸出特征進行通道合并實現(xiàn)特征重用，不但緩解了梯度彌散問題，而且還能夠在參數(shù)與計算量很少的情況下實現(xiàn)更優(yōu)的性能，如圖3所示。DenseNet可以使用少量的卷積核生成大量的特征，不需要重新學(xué)習(xí)多余的特征圖，每個層都能訪問到網(wǎng)絡(luò)的“集體知識”，同時緊湊的內(nèi)部結(jié)構(gòu)減少了特征冗余，隨著參數(shù)數(shù)量的增加也不會出現(xiàn)性能下降或過度擬合的跡象，因而成為各種計算機視覺任務(wù)中良好的特征提取器。

1.6 ?MobileNet

MobileNet是Google為移動端和嵌入式設(shè)備而設(shè)計的一款輕量化CNN[10]。MobileNet使用深度可分離卷積來構(gòu)建輕量化網(wǎng)絡(luò)，將標(biāo)準(zhǔn)卷積分解成深度卷積和逐點卷積，二者結(jié)合達到的效果與一個標(biāo)準(zhǔn)卷積相近，但計算量卻遠遠少于標(biāo)準(zhǔn)卷積。MobileNet還引入了寬度因子和分辨率因子兩個全局超參數(shù)，使用戶依據(jù)約束條件在內(nèi)存大小和準(zhǔn)確率之間取舍，構(gòu)建出滿足嵌入式設(shè)備小內(nèi)存、低延遲等要求的模型。

2 ?遷移學(xué)習(xí)

遷移學(xué)習(xí)是一種重要的機器學(xué)習(xí)方法，本著將預(yù)訓(xùn)練模型的參數(shù)遷移到新的模型來幫助新模型訓(xùn)練的思路，利用數(shù)據(jù)、任務(wù)或模型之間的相似性，將在舊領(lǐng)域?qū)W習(xí)過的模型應(yīng)用于新的領(lǐng)域。遷移學(xué)習(xí)引入預(yù)訓(xùn)練模型的參數(shù)并將其作為學(xué)習(xí)的起點，在此基礎(chǔ)上對網(wǎng)絡(luò)高層的參數(shù)進行微調(diào)。這樣，新模型能夠運用預(yù)訓(xùn)練模型學(xué)習(xí)到的知識更好地實現(xiàn)相應(yīng)功能。遷移學(xué)習(xí)涉及兩個基本的領(lǐng)域——源域和目標(biāo)域，當(dāng)目標(biāo)領(lǐng)域數(shù)據(jù)量遠遠小于源領(lǐng)域數(shù)據(jù)量時，遷移學(xué)習(xí)能夠借助源領(lǐng)域的知識有效幫助模型去學(xué)習(xí)目標(biāo)領(lǐng)域的知識，本文采用的基于遷移學(xué)習(xí)的CNN圖像識別過程如圖4所示。

CNN適合于從圖像中學(xué)習(xí)層次表示，低層網(wǎng)絡(luò)通常能提取圖像中常見的低級特征（例如邊緣和曲線），其所包含的知識適用于絕大多數(shù)的圖像識別任務(wù)，而高層網(wǎng)絡(luò)更傾向于學(xué)習(xí)抽象化的高級特征，往往僅適用于某些特定的任務(wù)，因而高層的網(wǎng)絡(luò)權(quán)重在遷移后需要進行微調(diào)以適應(yīng)目標(biāo)領(lǐng)域任務(wù)的需求。CNN包含許多在大型圖像數(shù)據(jù)集ImageNet識別任務(wù)中取得高精度的模型，這些模型在開發(fā)的時候已經(jīng)消耗了大量的時間和計算資源，包含有豐富的圖像識別知識，可以作為預(yù)訓(xùn)練模型完成其他圖像識別任務(wù)，以大幅減少訓(xùn)練所需的數(shù)據(jù)量并加快網(wǎng)絡(luò)的收斂過程[11]。

3 ?圖像識別實戰(zhàn)

本節(jié)以MNIST、Fashion-MNIST和CIFAR-10三個圖像數(shù)據(jù)集為例，選擇VGG16、ResNet50、InceptionV3、DenseNet121、Xception和MobileNetV1六種CNN作為研究對象，將是否進行遷移學(xué)習(xí)作為兩種不同的訓(xùn)練方式開展對照實驗，在深度學(xué)習(xí)框架TensorFlow的高級API Keras上進行訓(xùn)練并測試其性能，相關(guān)設(shè)置如表1所示[12]。

MNIST數(shù)據(jù)集由0～9共十種手寫數(shù)字圖片組成，這些圖片均由真人書寫，其圖像數(shù)據(jù)識別主要依賴于模型對黑白輪廓的特征提取能力，識別難度最低。表2展示了六種CNN在MNIST數(shù)據(jù)集上取得的測試集準(zhǔn)確率，可以看出在不使用遷移學(xué)習(xí)的情況下，不同CNN的收斂速度存在差異，例如Xception的準(zhǔn)確率達到了99.09%，而MobileNet的準(zhǔn)確率僅有95.60%，可以認為MobileNet并未完全收斂。而應(yīng)用遷移學(xué)習(xí)后，所有CNN均實現(xiàn)99%以上的準(zhǔn)確率，這說明所有CNN都達到收斂到最優(yōu)解的狀態(tài)。由此可知遷移學(xué)習(xí)具有加快CNN收斂速度的效果。

Fashion-MNIST數(shù)據(jù)集圖像共包含70 000張十種不同類別的時尚穿戴品圖像，分別是T恤、牛仔褲、套衫、裙子、外套、涼鞋、襯衫、運動鞋、包、短靴，不僅考驗?zāi)Ｐ蛯喞奶崛∧芰Γ简災(zāi)Ｐ蛯φ鎸嵨锲返募毠?jié)掌控能力。表3展示了六種CNN在Fashion-MNIST數(shù)據(jù)集上所取得的測試集準(zhǔn)確率，可以看出遷移學(xué)習(xí)對網(wǎng)絡(luò)性能提升的作用更加明顯，全部取得高于91%的測試集準(zhǔn)確率，同時不同CNN之間的性能差異也體現(xiàn)出來。例如在不使用遷移學(xué)習(xí)的情況下，InceptionV3、DenseNet121和Xception有很高的測試準(zhǔn)確率，原因可能在于GoogLeNet系列的CNN對于不同尺寸的感知能力更強。而DenseNet121、Xception和MobileNet產(chǎn)生了過擬合現(xiàn)象，在應(yīng)用遷移學(xué)習(xí)方法之后，訓(xùn)練集與測試集的準(zhǔn)確率差距縮小，說明過擬合現(xiàn)象得到一定程度的緩解。

CIFAR-10數(shù)據(jù)集是一個用于識別普通物體的小型數(shù)據(jù)集，包含10個類別3通道的RGB彩色圖片：飛機、汽車、鳥類、貓、鹿、狗、蛙類、馬、船和卡車，相較于前面的數(shù)據(jù)集包含更加豐富的細節(jié)，同時物體的角度和背景也不盡相同，場景更加接近于現(xiàn)實世界，導(dǎo)致識別難度大幅提升。表4展示了六種CNN在CIFAR-10數(shù)據(jù)集上所取得的測試集準(zhǔn)確率。由于數(shù)據(jù)樣本的復(fù)雜程度大幅提升，六種網(wǎng)絡(luò)取得的準(zhǔn)確率都遠遠小于前兩個數(shù)據(jù)集。無遷移學(xué)習(xí)條件下大部分CNN甚至難以在訓(xùn)練集上取得高精度，只有DenseNet121和Xception訓(xùn)練集的準(zhǔn)確率相對較高，然而卻因為過擬合而無法在測試集上取得良好的效果。而在遷移學(xué)習(xí)條件下，所有訓(xùn)練集的準(zhǔn)確率都上升到95%以上，而測試集準(zhǔn)確率的提升幅度則在10%～38%之間，原因可能在于CIFAR-10更接近于ImageNet數(shù)據(jù)集，預(yù)訓(xùn)練模型能夠有效避免CNN陷于局部最優(yōu)解，緩解過擬合現(xiàn)象，最終以更快的收斂速度取得更高的識別準(zhǔn)確率。

4 ?結(jié) ?論

本文采用基于模型的遷移學(xué)習(xí)方法對CNN的性能進行優(yōu)化，驗證了遷移學(xué)習(xí)對CNN性能的正向影響包括提升準(zhǔn)確率、加快收斂速度、緩解過擬合，以及避免局部最優(yōu)解等方面。本文選用六種CNN作為研究對象，通過在三個小型圖像數(shù)據(jù)集上進行模型訓(xùn)練和對比，展現(xiàn)了這些方法在處理不同圖像識別任務(wù)時的性能差異性。本文采用的方法能夠在較短的時間內(nèi)獲得高準(zhǔn)確率，一定程度上簡化了深度學(xué)習(xí)模型的設(shè)計思路，具有更高的實用性和可操作性。然而，數(shù)據(jù)增強和正則化等常用的深度學(xué)習(xí)優(yōu)化策略尚未在文中采用，同時也未涉及CNN之外的深度學(xué)習(xí)模型，因此可以說神經(jīng)網(wǎng)絡(luò)的圖像識別性能優(yōu)化還可以有更多的研究思路以及更大的提升空間。

參考文獻：

[1] 董瀟.卷積神經(jīng)網(wǎng)絡(luò)的圖像分類優(yōu)化算法研究 [D].淮南：安徽理工大學(xué)，2020.

[2] 李炳臻，劉克，顧佼佼，等.卷積神經(jīng)網(wǎng)絡(luò)研究綜述 [J].計算機時代，2021，346（4）：8-12+17.

[3] 丁文博，許玥.預(yù)訓(xùn)練模型的跨領(lǐng)域跨任務(wù)遷移學(xué)習(xí) [J].科技資訊，2020，18（2）：107-110.

[4] 張珂，馮曉晗，郭玉榮，等.圖像分類的深度卷積神經(jīng)網(wǎng)絡(luò)模型綜述 [J].中國圖象圖形學(xué)報，2021，26（10）：2305-2325.

[5] KRIZHEVSKY A，SUTSKEVER I，HINTON G E. ImageNet Classification with Deep Convolutional Neural Networks [J].Communications of the Acm，2017，60（6）：84-90.

[6] SIMONYAN K，ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL]. arXiv：1409.1556.[2022-11-05]. https：//ui.adsabs.harvard.edu/abs/2014arXiv1409.1556S/abstract.

[7] SZEGEDY C，LIU W，JIA Y Q，et al. Going Deeper with Convolutions [J/OL].arXiv：1409.4842 [cs.CV].[2022-11- 05].https：//arxiv.org/abs/1409.4842.

[8] HE K M，ZHANG X R，REN S Q，et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）.Las Vegas：IEEE，2016：770-778.

[9] HUANG G，LIU Z，MAATEN L V D. Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu：IEEE，2017：2261-2269.

[10] HOWARD A G，ZHU M L，CHEN B，et al. MobileNets： Efficient Convolutional Neural Networks for Mobile Vision Applications [J/OL].arXiv：1704.04861 [cs.CV].[2022-11- 09].https：//arxiv.org/abs/1704.04861.

[11] 趙衛(wèi)東，施實偉，周嬋. 基于ImageNet 預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格遷移 [J]. 成都大學(xué)學(xué)報：自然科學(xué)版， 2021，40（4）：367-373.

[12] 龍良曲.TensorFlow 深度學(xué)習(xí) [M]. 北京：清華大學(xué)出版社，2020.

作者簡介：張文韜（1997—），男，漢族，河南平頂山人，碩士研究生在讀，研究方向：深度學(xué)習(xí)與故障診斷。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)圖像識別方法研究