戴天虹 翟冰
摘 要:木材是一種常見的可再生資源,不同品種的木材有著不同的用途和商業(yè)價值。傳統(tǒng)的木材分類工作主要依靠人工完成,工作效率較低。為提高木材識別效率,提出一種基于改進EfficientNet的木材識別方法。該方法以EfficientNet 作為基準模型,采用大核注意力模塊代替部分移動翻轉(zhuǎn)瓶頸卷積(Mobile Inverted Bottleneck Convolution, MBConv)模塊中的壓縮激勵網(wǎng)絡(luò)(squeeze-and-excitation networks, SENet),聯(lián)合2種注意力機制使網(wǎng)絡(luò)能更有效地提取木材細粒度信息。訓練過程中引入漸進式學習策略,采用不同尺寸大小的圖像和不同丟棄概率的Dropout層進行訓練,進一步提升模型訓練速度和識別準確率。試驗結(jié)果表明,改進后的EfficientNet模型識別準確率達到99.83%,相比于未改進的EfficientNet模型提高了0.49%,且模型參數(shù)僅6.16 MB。該研究的模型能夠很好地識別木材種類,為移動端部署木材種類識別模型提供參考。
關(guān)鍵詞:木材識別;EfficientNet;大核注意力;細粒度信息;漸進式學習
中圖分類號:TP391.4??? 文獻標識碼:A?? 文章編號:1006-8023(2023)04-0093-08
Wood Recognition Research Based on Improved EfficientNet
DAI Tianhong, ZHAI Bing
(College of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin 150040, China)
Abstract:Wood is a common renewable resource. Different kinds of wood have different uses and commercial values. The traditional wood classification work mainly depends on manual work, and the work efficiency is low. In order to improve the efficiency of wood recognition, a wood recognition method based on improved EfficientNet is proposed. In this method, EfficientNet is used as the benchmark model, and the large kernel attention module is used to replace part of squeeze-and-excitation networks (SENet) in Mobile Inverted Bottleneck Convolution (MBconv), and combines the two attention mechanisms to enable the network to extract wood fine grain information more effectively. Progressive learning strategy is introduced in the training process, and images of different sizes and Dropout layers with different discarding probabilities are used for training, which further improves the training speed and recognition accuracy of the model. The experimental results show that the recognition accuracy of the improved EfficientNet model can reach 99.83%, which is 0.49% higher than that of the unimproved EfficientNet model, and the model parameters are only 6.16 MB. The proposed model can identify wood species well, and can provide reference for the deployment of wood species identification model in mobile terminal.
Keywords:Wood recognition; EfficientNet; large kernel attention; fine-grained information; progressive learning
收稿日期:2022-10-22
基金項目:中央高?;究蒲袠I(yè)務(wù)費專項資金資助(2572019CP17);黑龍江省自然科學基金項目(C201414);哈爾濱市科技創(chuàng)新人才項目(2014RFXXJ086)
第一作者簡介:戴天虹,教授,碩士生導(dǎo)師。研究方向為木材缺陷檢測、圖像處理、無線傳感器網(wǎng)絡(luò)路由協(xié)議及匯聚節(jié)點選址算法等。E-mail: th_2000@sina.com
引文格式:戴天虹,翟冰. 基于改進EfficientNet的木材識別研究[J]. 森林工程, 2023,39(4):93-100.
DAI T H, ZHAI B. Wood recognition research based on improved EfficientNet[J]. Forest Engineering, 2023, 39(4):93-100.
0 引言
木材是社會生產(chǎn)活動中重要的物質(zhì)材料,與人們的生活息息相關(guān)。不同種類的木材具有不同的理化性質(zhì),從而導(dǎo)致其用途和商業(yè)價值各不相同。正確地識別木材類別,對于木材合理利用、質(zhì)量評定和公平論價等都具有重要意義[1]。
早期的木材分類工作主要依靠人工根據(jù)木材物理性質(zhì)的直觀表征,通過觀察對比完成,這需要一定的專業(yè)經(jīng)驗知識,且容易出現(xiàn)誤判,其效率較低。隨著計算機視覺技術(shù)的發(fā)展,木材種類自動識別技術(shù)主要包括2類方法,一類是基于傳統(tǒng)的機器學習的識別方法,另一類是基于深度學習的識別方法?;趥鹘y(tǒng)的機器學習的識別方法需要人工提取圖像特征,例如顏色和紋理等,再運用機器學習的方法進行識別。Wang等[2]采用灰度共生矩陣(Grey Level Co-occurrence Matrix, GLCM)進行特征提取,通過支持向量機(Support Vector Machine, SVM)實現(xiàn)分類,在24種木材的480個樣本的數(shù)據(jù)采集達到了91.7%的識別準確率。戴天虹等[3]利用RGB圖像中3個顏色分量的顏色矩信息以及圖片的均值和方差構(gòu)建了11個特征向量對圖像進行處理和分級。王克奇等[4]將圖像從RGB空間轉(zhuǎn)換到L*a*b*顏色空間,并利用模擬退火算法進行特征選擇,最后結(jié)合BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)和K最近鄰(K-Nearest Neighbor, KNN)2種分類方法實現(xiàn)木材分類。Sugiarto等[5]利用方向梯度直方圖(Histogram of Oriented Gradient, HOG)提取木材的紋理,然后采用支持向量機進行識別。趙鵬等[6]對高光譜圖像進行降維處理并采用非下采樣輪廓波變換(Nonsub Sampled Contourlet Transform, NSCT)實現(xiàn)圖像融合,再對融合圖像使用改進的基本灰度光環(huán)矩陣(Improved-Basic Gray Level Aura Matrix, I-BGLAM)提取其紋理特征,同時將高光譜圖像的全波段求均并進行光滑處理得到光譜特征,最后融合紋理特征和光譜特征并利用極限學習機(Extreme Learning Machine, ELM)實現(xiàn)分類。傳統(tǒng)的機器學習方法在特征提取階段效率較低,并且所提取的特征相對于樣本數(shù)據(jù)的代表性將直接影響最終識別的效果。近年來,深度學習發(fā)展非常迅速,卷積神經(jīng)網(wǎng)絡(luò)( Convolutional Neural Networks,CNN)作為深度學習的重要組成部分,其顯著的特征提取性能使他受到廣泛關(guān)注[7-12]。Gao等[13]提出一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和注意力機制的模型對木材缺陷進行分類。Yang等[14]采用在ImageNet預(yù)訓練過的VGG19對25種木材進行特征提取和分類,識別準確率達到93.63%。Liu等[15]提出一種基于分割混洗殘差(Split-Shuffle-Residual, SSR)的CNN,利用SSR模塊在通道維度進行分割和洗牌操作,并通過與殘差結(jié)構(gòu)相結(jié)合減少了計算消耗成本,對橡膠木板的分類準確率達到了94.86%。
綜上,為進一步提高木材圖像識別準確率和速度,本研究提出一種基于改進EfficientNet的木材識別方法,通過消融試驗證明該方法的有效性,為未來更高效地開展木材識別工作以及移動端設(shè)備的模型部署提供技術(shù)與方法。
1 改進的EfficientNet模型
1.1 EfficientNet 模型
以往的卷積神經(jīng)網(wǎng)絡(luò)模型通常通過調(diào)整圖像輸入分辨率、網(wǎng)絡(luò)的深度和通道寬度3個參數(shù)中的一個來優(yōu)化模型性能,而這種優(yōu)化方法需要手動調(diào)整網(wǎng)絡(luò)模型,這使得網(wǎng)絡(luò)設(shè)計的難度增大,且需要消耗更多的資源成本。Tan等[16]提出了一種復(fù)合縮放方法對網(wǎng)絡(luò)的寬度、深度和分辨率進行統(tǒng)一縮放調(diào)整,復(fù)合縮放公式如式(1)所示。
depth:d=αφ
width:w=βφresolution:r=γφ
s.t.α β2γ2≈2
α≥1,β≥1,γ≥1。(1)
式中:d、w、r分別表示網(wǎng)絡(luò)的深度、寬度和輸入圖像的分辨率;φ表示復(fù)合縮放系數(shù);α、β、γ表示對應(yīng)的縮放基數(shù)。
通過固定φ=1,并基于式(1)中的限制條件,利用網(wǎng)格搜索得到α=1.2,β=1.1,γ=1.15,至此得到EfficientNetB0模型。以EfficientNetB0為基線模型,即固定α、β、γ的值,對φ取不同的值便可得到EfficientNetB1—B7。因此,EfficientNet共包括8個系列網(wǎng)絡(luò),即EfficientNetB0—B7,而EfficientNetB0作為基線模型他的參數(shù)量最小,運行速度最快,因此本研究選擇EfficientNetB0為基準模型進行改進。
EfficientNetB0模型的結(jié)構(gòu)如圖1所示,由2個卷積層、16個移動翻轉(zhuǎn)瓶頸卷積(Mobile Inverted Bottleneck Convolution, MBConv)模塊、1個全局平均池化層和1個全連接層(Fully Connected Layers,F(xiàn)C)組成。其中,輸入圖像的尺寸大小為224×224×3,首先通過Conv3×3進行升維操作得到112×112×32的特征圖,然后利用一系列MBConv模塊對特征圖進行運算處理得到7×7×320的特征圖,最后利用Conv1×1、平均池化和全連接層實現(xiàn)輸出結(jié)果。
MBConv模塊結(jié)構(gòu)如圖2所示,主要由普通卷積、深度卷積(Depthwise Convolution)(包括BN和Swish)、SE(Squeeze-and-Excitation)模塊和Dropout層組成。其中深度卷積是逐通道的卷積運算,即1個卷積核負責1個通道。而1×1的普通卷積也稱為逐點卷積,可以在通道維度上對深度卷積產(chǎn)生的特征圖進行加權(quán)運算,兩者結(jié)合可有效降低模型的計算量與參數(shù)量。SE模塊是一種注意力機制,可獲取不同通道的權(quán)重,通過權(quán)重與原始特征相乘得到加權(quán)后的輸出特征,有助于模型在通道維度上對重要的特征信息產(chǎn)生更多的關(guān)注。
1.2 模型改進
近年來,注意力機制在計算機視覺中發(fā)揮著越來越重要的作用,可以看作是一個基于輸入特征的自適應(yīng)選擇過程。計算機視覺中的注意力可分為通道注意力、空間注意力、時間注意力和分支注意力4個基本類別[17],不同的注意力在視覺任務(wù)中有著不同的效果。除此之外,自注意機制[18-19]是另外一種特殊的注意力機制,起源于自然語言處理(Natural Language Processing,NLP),由于其擁有捕獲長距離依賴關(guān)系和自適應(yīng)性的優(yōu)點,逐漸在計算機視覺領(lǐng)域得到了廣泛應(yīng)用。
大核注意力(Large Kernel Attention,LKA)[20]具有卷積操作和自注意力機制的優(yōu)勢,既兼顧了局部上下文信息和長距離依賴關(guān)系,又避免了自注意力機制忽略通道維度的適應(yīng)性等缺點。大核注意力由3個部分組成:深度卷積、深度膨脹卷積(Depthwise dilation convolution)和逐點卷積(Pointwise convolution)。具體地說,1個K×K的卷積可以分解為1個K/d×K/d的深度膨脹卷積(d為膨脹率,·表示向上取整),1個(2d-1)×(2d-1)的深度卷積和1個1×1的普通卷積,因此連接上述分解后的模塊便可組成大核注意力模塊。特征圖通過大核注意力模塊可以計算1個像素點的重要性并生成注意力圖。LKA模塊結(jié)構(gòu)如圖3所示。
LKA模塊可以描述為下式
Attention=Conv1×1(DW-D-Conv(DW-Conv(F)))。(2)
Output=AttentionF。(3)
式中:DW-D-Conv表示深度膨脹卷積;DW-Conv表示深度卷積;F∈RC×H×W表示輸入特征圖,C為通道個數(shù),H為高度,W為寬度;Attention∈RC×H×W是注意力圖,注意力圖中的值表示每個特征元素的重要性表示元素相乘。
LKA能兼顧長距離依賴關(guān)系和局部上下文信息的同時實現(xiàn)通道維度的適應(yīng)性,進一步優(yōu)化模型性能。使用LKA模塊代替SE模塊得到改進后的LKA-MBConv模塊,其結(jié)構(gòu)如圖4所示(試驗中K=21, d=3)。由于LKA模塊的參數(shù)量相比于SE模塊較多且2種注意力機制各有其特點,因此不明顯增加模型參數(shù)量以及聯(lián)合2種注意力機制的作用使模型可以更有效地提取圖像中的細粒度信息,僅針對含有MBConv模塊的階段(Stage)中的第一個MBConv模塊采用LKA-MBConv模塊代替,最終改進后的EfficientNetB0如圖5所示。
1.3 漸進式學習策略
圖像分辨率的大小對訓練效率起著重要的作用。在訓練過程僅僅單一地改變圖像分辨率的大小可能會導(dǎo)致模型準確率的下降。Tan等[21]提出漸進式學習策略,即當采用不同分辨率大小的圖像對模型進行訓練時,也需要自適應(yīng)地調(diào)整正則化程度以匹配當前圖像分辨率,而非采用固定的正則化手段。具體地說,當采用較小分辨率的圖像時,其包含的細粒度信息也會縮減,需要較弱的正則化手段促進模型快速學習到簡單的特征表示,若此時采用較強的正則化手段則會進一步弱化圖像的語義信息,從而難以獲得理想的特征表示。當采用較大分辨率的圖像時,其包含的細粒度信息較多,更容易過擬合,因此采用更強的正則化手段有助于提高模型的泛化性能。
本研究基于漸進式學習策略將總迭代次數(shù)劃分為多個階段,不同階段中采用不同尺寸的輸入圖像和不同丟棄概率的Dropout層,在訓練過程中引入漸進式學習策略能夠有效提高模型訓練速度和識別準確率。
2 試驗與性能分析
2.1 試驗參數(shù)設(shè)置
采用的操作系統(tǒng)是Windows10 專業(yè)版,中央處理器為Intel Core i7-12700H 2.30 GHz,顯卡為NVIDIA GeForce RTX3060,顯存大小為 6 GB,深度學習框架采用了Pytorch 1.12。試驗中基于漸進式學習策略進行模型訓練,訓練中的輸入圖像最小尺寸為128×128,最大尺寸為224×224,測試圖像的尺寸始終為224×224,Dropout層丟棄概率最小為0(即不丟棄),最大為0.2,使用Adam優(yōu)化器訓練50個周期,將總的迭代次數(shù)分為5個階段,每個階段10個周期,在同一個階段中采用的輸入圖像尺寸和Dropout丟棄概率相同,漸進式學習中圖像尺寸與Dropout概率設(shè)置見表1。此外,初始學習率設(shè)置為0.000 1,采用學習率指數(shù)衰減的方式更新學習率,衰減步長為1步,學習衰減率為0.95。批處理大小設(shè)置為16,損失函數(shù)采用交叉熵損失。
2.2 數(shù)據(jù)集
選擇了東北地區(qū)常見的5類樹種(白樺、紅松、落葉松、水曲柳和柞木)的木材樣本進行試驗,木材圖像在標準照明體為D65(即色溫為6 500 K)的條件下采集,最終獲得了包含1 000張圖片的源數(shù)據(jù)庫,圖片尺寸大小均為512×512,每種木材又分為徑切和弦切2類,因此共得到10個類別,其中每種類別各100張圖片,各類別數(shù)據(jù)樣本示例如圖6所示。
2.3 數(shù)據(jù)增強
針對源數(shù)據(jù)樣本過少的缺點,對其采用離線數(shù)據(jù)增強進行擴充,采用的離線數(shù)據(jù)增強方法有:1)水平翻轉(zhuǎn),對源數(shù)據(jù)集圖片進行水平翻轉(zhuǎn);2)隨機旋轉(zhuǎn),對圖像隨機旋轉(zhuǎn)固定角度(90°、180°和270°);3)隨機添加高斯模糊,由于實際應(yīng)用場景中圖像清晰度各不相同,因此添加高斯模糊有助于模擬真實場景,增強后的圖像樣例如圖7所示(以紅松弦切為例)。通過以上離線數(shù)據(jù)增強最終獲得擴充后的數(shù)據(jù)集共6 025張木材圖像。按照大約8∶2的比例劃分訓練集與測試集,最終得到訓練集4 814張圖片,測試集1 211張圖片,各類別木材圖片數(shù)量統(tǒng)計見表2。
2.4 試驗評價標準
將正確分類的木材圖像數(shù)量與總的木材圖像數(shù)量的比值作為分類評價標準,如式(4)所示。
P=NTNA×100%。(4)
式中:P為識別準確率,%;NT為分類正確的木材圖像數(shù)量,個;NA為全部木材圖像數(shù)量,個。
2.5 不同模型性能對比
采用ResNet50、MobileNetV3、EfficientNetB0和改進后的EfficientNetB0進行對比,評價指標包括4項,分別是識別準確率(測試集)、模型參數(shù)、浮點運算量和批處理時間(批次大小為16),試驗結(jié)果見表3。不同的模型在50個epoch中的識別準確率變化曲線如圖8所示,訓練損失值變化曲線如圖9所示。
由表3可知,本算法的識別準確率達到了99.83%,要高于ResNet50和MobileNetV3,且相比于基準模型EfficientNetB0提高了0.49%。本模型對于內(nèi)存的需求不大,模型參數(shù)量僅為6.16 MB,要遠低于ResNet50,浮點運算量同樣低于ResNet50,而準確率要高于ResNet50。雖然本模型參數(shù)量和浮點運算量與MobileNetV3和EfficientNetB0相比都要高一些,但是其差距并不大,從批次處理時間上可以看出本模型僅僅高于基準模型0.005 s,在實際應(yīng)用中的影響較小,而識別準確率相比而言則是顯得更為重要。因此整體而言,本模型針對木材識別問題具有一定的應(yīng)用價值。
2.6 消融試驗
1)試驗1
為驗證改進方法中不同模塊和策略對模型性能的貢獻,以EfficientNetB0為基準模型設(shè)計了消融試驗。試驗結(jié)果見表4。由表4可知,單獨引入LKA模塊后,識別準確率相比于基準模型提升了0.24%,但總的訓練時間有所增長。單獨采用漸進式學習策略時,識別準確率相比于基準模型提升了0.08%,同時總的訓練時間更短。而聯(lián)合LKA模塊和漸進式學習策略2種改進后,相比于基準模型的識別準確率提升了0.49%,總的訓練時間也比基準模型更短。測試結(jié)果表明,LKA模塊和漸進式學習策略使模型性能均有所提升,二者同時添加的效果最好。因此本研究所提出的模型能更好地勝任木材識別任務(wù)。
2)試驗2
針對LKA模塊中K和d的取值對最終模型性能的影響進行了試驗。以本模型為基準進行了對比,結(jié)果見表5。由表5可知,當K和d分別取值21和3或28和4時,模型性能最好,這表明大核卷積對于視覺任務(wù)的重要性。與分解21×21的大核卷積相比,采用分解28×28的大核卷積的模型性能并無明顯提升,但分解28×28的大核卷積會使模型參數(shù)量增加,因此本模型在試驗中將K和d 設(shè)置為21和3。
3)試驗3
針對基準模型中MBConv模塊內(nèi)的SE模塊替換為LKA模塊的方案設(shè)計了對比試驗,即采用2種方案來驗證不同的改進對模型性能的影響。方案1是本模型,即基準模型中含有MBConv模塊的階段中的第一個MBConv模塊內(nèi)的SE模塊替換為LKA模塊;方案2則是將基準模型中所有MBConv模塊內(nèi)的SE模塊替換為LKA模塊。試驗結(jié)果見表6。由表6可知,雖然方案2實現(xiàn)了比基準模型更高的識別準確率,但是方案1(本模型)相比于基準模型提升更大,而且相比于方案2,方案1的模型參數(shù)和浮點運算量更小,由此可見聯(lián)合2種注意力機制的模型性能更好。因此綜合考慮下,本模型更適合移動端的部署。
2.7 混淆矩陣
混淆矩陣是表示精度評價的一種標準格式,經(jīng)常被用來描述分類模型在測試數(shù)據(jù)上的性能。本試驗中10個類別的混淆矩陣如圖10所示,橫軸表示預(yù)測類別,縱軸表示真實類別,藍色深淺表示識別的準確性,顏色越深,識別準確率越高。從圖10可知,改進后的模型除了第6類(水曲柳徑切)識別存在誤差,其余類別均能百分百識別正確,總的識別率能達到99%以上,因此改進的模型實現(xiàn)了預(yù)期效果,能夠很好地識別多數(shù)木材種類,可以為自動化木材種類識別提供技術(shù)參考。
3 結(jié)論
針對木材識別問題提出一種基于改進EfficientNet的識別方法。該方法引入大核注意力模塊和漸進式學習策略,有效增強了模型對細粒度特征信息的提取能力,加快了模型訓練速度,提高了模型識別準確率。消融試驗對比了不同模塊與策略對模型性能的影響。此外,雖然改進后的模型實現(xiàn)了更高的識別準確率,但其相比于基準模型在參數(shù)量和浮點運算量都有所提升,從批處理時間上來看該提升對模型處理圖片速度影響甚微,仍適合部署于資源有限的移動端設(shè)備,但是還需進一步優(yōu)化。同時,本試驗所采用的木材數(shù)據(jù)集規(guī)模有限,因此如何進一步優(yōu)化模型結(jié)構(gòu)和進一步挖掘細粒度特征信息,使模型參數(shù)量和浮點運算量減小的同時更加適合移動端部署和更廣泛的木材識別任務(wù)是下一步要研究的內(nèi)容。
【參 考 文 獻】
[1]晁曉菲,樊李行,蔡騁,等.基于多特征提取和選擇的木材分類與識別[J].現(xiàn)代農(nóng)業(yè)科技,2018(18):118-120.
CHAO X F, FAN L X, CAI C, et al. Wood texture classification and identification based on multi-feature extraction and selection[J]. Modern Agricultural Science and Technology, 2018(18): 118-120.
[2] WANG B, WANG H, QI H. Wood recognition based on grey-level co-occurrence matrix[C]//2010 International Conference on Computer Application and System Modeling (ICCASM 2010). IEEE, 2010, 1: V1-269-V1-272.
[3]戴天虹,王克奇,白雪冰, 等.基于神經(jīng)網(wǎng)絡(luò)和顏色特征對木材進行分級的分析[J].森林工程,2006(1):18-20.
DAI T H, WANG K Q, BAI X B, et al. Analysis of wood classification based on neural network and color features[J]. Forest Engineering, 2006(1): 18-20.
[4]王克奇,楊少春,戴天虹,等.基于均勻顏色空間的木材分類研究[J].計算機工程與設(shè)計,2008(7):1780-1784.
WANG K Q, YANG S C, DAI T H, et al. Research on wood classification using uniform color space[J]. Computer Engineering and Design, 2008(7):1780-1784.
[5]SUGIARTO B, PRAKASA E, WARDOYO R, et al. Wood identification based on histogram of oriented gradient (HOG) feature and support vector machine (SVM) classifier[C]//2017 2nd International conferences on Information Technology, Information Systems and Electrical Engineering (ICITISEE). IEEE, 2017: 337-341.
[6]趙鵬,韓金城,王承琨.基于I-BGLAM紋理和光譜融合的高光譜顯微成像木材樹種分類[J].光譜學與光譜分析,2021,41(2):599-605.
ZHAO P, HAN J C, WANG C K. Wood species classification with microscopic hyper-spectral imaging based on I-BGLAM texture and spectral fusion[J]. Spectroscopy and Spectral Analysis, 2021, 41(2): 599-605.
[7]趙鵬超,戚大偉.基于卷積神經(jīng)網(wǎng)絡(luò)和樹葉紋理的樹種識別研究[J].森林工程,2018,34(1):56-59.
ZHAO P C, QI D W. Study on tree species identification based on convolution neural network and leaf texture image[J]. Forest Engineering, 2018, 34(1): 56-59.
[8]張玉薇,陳棋,田湘云,等.基于UAV可見光遙感的單木冠幅提取研究[J].西部林業(yè)科學,2022,51(3):49-59.
ZHANG Y W, CHEN Q, TIAN X Y, et al. Individual tree crown extraction based on UAV visible light remote sensing technology[J]. Journal of West China Forestry Science, 2022, 51(3):49-59.
[9]汪泉,宋文龍,張怡卓,等.基于改進VGG16網(wǎng)絡(luò)的機載高光譜針葉樹種分類研究[J].森林工程,2021,37(3):79-87.
WANG Q, SONG W L, ZHANG Y Z, et al. Study on hyperspectral conifer species classification based on improved VGG16 network[J]. Forest Engineering, 2021, 37(3): 79-87.
[10]朱良寬,晏銘,黃建平.一種新型卷積神經(jīng)網(wǎng)絡(luò)植物葉片識別方法[J].東北林業(yè)大學學報,2020,48(4):50-53.
ZHU L K, YAN M,HUANG J P. Plant leaf recognition method with new convolution neural network[J]. Journal of Northeast Forestry University, 2020, 48(4):50-53.
[11]王愛麗,張宇梟,吳海濱,等.基于集成卷積神經(jīng)網(wǎng)絡(luò)的LiDAR數(shù)據(jù)分類[J].哈爾濱理工大學學報,2021,26(4):138-145.
WANG A L, ZHANG Y X, WU H B, et al. LiDAR data classification based on ensembled convolutional neural networks[J]. Journal of Harbin University of Science and Technology, 2021, 26(4):138-145.
[12]DONG S, WANG P, ABBAS K. A survey on deep learning and its applications[J]. Computer Science Review, 2021, 40: 100379.
[13]GAO M, WANG F, LIU J, et al. Estimation of the convolutional neural network with attention mechanism and transfer learning on wood knot defect classification[J]. Journal of Applied Physics, 2022, 131(23): 233101.
[14]YANG J, HUANG P, DAI F, et al. Application of deep learning in wood classification[C]//2019 IEEE International Conference on Computer Science and Educational Informatization (CSEI). IEEE, 2019: 124-129.
[15]LIU S, JIANG W, WU L, et al. Real-time classification of rubber wood boards using an SSR-based CNN[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(11): 8725-8734.
[16]TAN M, LE Q. Efficientnet: rethinking model scaling for convolutional neural networks[C]//International Conference on Machine Learning. PMLR, 2019: 6105-6114.
[17]GUO M H, XU T X, LIU J J, et al. Attention mechanisms in computer vision: a survey[J]. Computational Visual Media, 2022, 8: 331-368.
[18]DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[19]Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901.
[20]GUO M H, LU C Z, LIU Z N, et al. Visual attention network[J]. arXiv preprint arXiv:2202.09741, 2022.
[21]TAN M, LE Q. Efficientnetv2: smaller models and faster training[C]//International Conference on Machine Learning. PMLR, 2021: 10096-10106.