崔海朋 秦朝旭 馬志宇
摘要:為確保魚類養(yǎng)殖過程中生長狀況實(shí)時監(jiān)控及科學(xué)化養(yǎng)殖管理,需要實(shí)現(xiàn)高效化、自動化的魚類體征識別。基于此,提出基于深度學(xué)習(xí)的關(guān)鍵特征點(diǎn)檢測模型結(jié)合雙目視覺的魚類體征識別方法?;陬A(yù)處理后的單目視覺數(shù)據(jù)集對融入金字塔分割注意力的高分辨率網(wǎng)絡(luò)模型展開訓(xùn)練,獲得魚類關(guān)鍵特征點(diǎn)檢測模型,在此基礎(chǔ)上能夠?qū)﹄p目視覺圖像中各特征點(diǎn)進(jìn)行快速檢測識別與匹配,從而根據(jù)雙目視覺系統(tǒng)內(nèi)部參數(shù)計算各特征點(diǎn)真實(shí)坐標(biāo)并計算獲得對應(yīng)體征參數(shù)。試驗結(jié)果表明,建立的關(guān)鍵特征點(diǎn)檢測模型對各特征點(diǎn)PCK值均大于0.85,識別得到的體征參數(shù)相對誤差均小于10%,能夠為魚類體征快速準(zhǔn)確識別提供支撐,有效助力魚類養(yǎng)殖科學(xué)化、智能化發(fā)展。
關(guān)鍵詞:魚類;水產(chǎn)養(yǎng)殖;深度學(xué)習(xí);關(guān)鍵點(diǎn)檢測;體征識別
中圖分類號:S24; S951.2
文獻(xiàn)標(biāo)識碼:A
文章編號:2095-5553 (2024) 06-0201-07
收稿日期:2022年9月26日
修回日期:2023年2月20日
*基金項目:山東省重點(diǎn)研發(fā)計劃(科技示范工程)(2021SFGC0701)
第一作者:崔海朋,男,1982年生,山東東營人,碩士,高級工程師;研究方向為深海養(yǎng)殖智能化系統(tǒng)與裝備。E-mail: chp1982@126.com
Fish key feature point detection and sign identification based on deep learning
Cui Haipeng, Qin Chaoxu, Ma Zhiyu
(Qingdao JARI Industrial Control Technology Co., Ltd., Qingdao, 266520, China)
Abstract: In order to ensure real-time monitoring of growth conditions and scientific breeding management in the process of fish farming, it is necessary to realize efficient and automatic fish sign recognition. Based on this, a fish sign recognition method based on deep learning key feature point detection model combined with binocular vision is proposed. Based on the preprocessed monocular vision data set, the high-resolution network model integrated into the pyramid segmentation attention is trained to obtain the fish key feature point detection model. On this basis, the binocular vision image can be rapidly detected, recognized and matched with each feature point, and the real coordinates of each feature point and corresponding physical parameters can be calculated according to the internal parameters of the binocular vision system The test results show that the PCK value of the established key feature point detection model for each feature point is greater than 0.85, and the relative error of the identified sign parameters is less than 10%, which can provide support for the rapid identification of fish signs and effectively help the scientific and intelligent development of fish farming.
Keywords: fish; aquaculture; deep learning; key point detection; signs identification
0 引言
漁業(yè)是我國農(nóng)業(yè)領(lǐng)域的重要組成部分,隨著水產(chǎn)領(lǐng)域的飛速發(fā)展,漁業(yè)當(dāng)前已在我國經(jīng)濟(jì)中占據(jù)了相當(dāng)一部分比重。在水產(chǎn)養(yǎng)殖中,為指導(dǎo)魚類選育、養(yǎng)殖投喂管理等工作合理高效進(jìn)行,往往需要實(shí)現(xiàn)魚類體長、全長、體高等體征參數(shù)變化的自動化監(jiān)測,因此如何精準(zhǔn)快速地對養(yǎng)殖魚類體征進(jìn)行識別是亟待解決的重要問題。
近年來,深度學(xué)習(xí)與人工智能技術(shù)飛速發(fā)展,應(yīng)用廣泛的計算機(jī)視覺技術(shù)也為魚類體征有效識別問題提供新的實(shí)現(xiàn)思路與方法。目前計算機(jī)視覺在水產(chǎn)養(yǎng)殖領(lǐng)域常見的應(yīng)用包括魚類目標(biāo)檢測、魚類圖像分類、魚類圖像分割等多個場景[1-3]。Yu等[4]提出一種基于Mask R-CNN的魚類形態(tài)特征分割方法,可以實(shí)現(xiàn)魚類形態(tài)特征的自動、準(zhǔn)確和批量高效的魚類圖像分割。丁順榮等[5]采用多特征融合及粒子群優(yōu)化SVM,構(gòu)建一種新的魚類識別方法,能夠達(dá)到94.7%的準(zhǔn)確率。Mathias等[6]提出基于二維經(jīng)驗?zāi)B(tài)分解和高斯混合模型的水下場景魚類目標(biāo)檢測方法,能夠達(dá)到良好的檢測效率與效果。針對魚類體征識別,要實(shí)現(xiàn)養(yǎng)殖過程中魚類體長等體征參數(shù)自動化的識別與檢測,需要對魚類頭部、身體、尾部各個關(guān)鍵特征點(diǎn)進(jìn)行準(zhǔn)確識別,以進(jìn)一步測量、計算各個體征參數(shù),與計算機(jī)視覺領(lǐng)域中關(guān)鍵點(diǎn)識別問題相一致。目前在人體姿態(tài)識別、人類面部識別等領(lǐng)域已經(jīng)有許多有效的關(guān)鍵特征點(diǎn)檢測算法投入應(yīng)用,并取得優(yōu)異的效果[7, 8]。
為識別測量魚類在真實(shí)空間中的絕對體征參數(shù),許多研究采用了水下雙目視覺系統(tǒng)[9-11]。針對魚類的體征測量,Shi等[12]通過基于LabVIEW的水下立體系統(tǒng)實(shí)現(xiàn)了魚長自動估計,能夠以較高的準(zhǔn)確率和成功率估計魚的長度。李艷君等[13]通過雙目立體視覺技術(shù)獲取三維信息,能夠有效實(shí)現(xiàn)魚類體長的估測。通過雙目視覺圖像準(zhǔn)確獲取魚類體征參數(shù)首先需要確保實(shí)現(xiàn)左右圖像特征點(diǎn)的精準(zhǔn)匹配,而要滿足在養(yǎng)殖過程中快速地針對大量魚類的關(guān)鍵特征點(diǎn)進(jìn)行確定并匹配的需求,可以結(jié)合深度學(xué)習(xí)方法來實(shí)現(xiàn)自動化的識別。
將雙目視覺圖像與深度學(xué)習(xí)方法結(jié)合起來,根據(jù)采集到的雙目視覺圖像,利用深度學(xué)習(xí)模型建立魚類關(guān)鍵特征點(diǎn)檢測模型,能夠快速實(shí)現(xiàn)雙目視覺圖像中魚類各個關(guān)鍵特征點(diǎn)識別與匹配,以獲得目標(biāo)魚類的體長、體高等體征參數(shù)。但在實(shí)際應(yīng)用中,訓(xùn)練深度學(xué)習(xí)模型往往需要大量已有的圖像數(shù)據(jù)[14]。而在魚類養(yǎng)殖前期往往難以實(shí)際取得滿足訓(xùn)練條件的規(guī)模的雙目圖像數(shù)據(jù),且公開的已知相機(jī)內(nèi)參的魚類雙目視覺圖像數(shù)據(jù)極少,無法滿足現(xiàn)在深度學(xué)習(xí)模型訓(xùn)練的需求。
因此,本文提出結(jié)合單目視覺圖像構(gòu)建的雙目視覺圖像識別魚類體征參數(shù)的流程方法:首先建立獲得魚類圖像關(guān)鍵特征點(diǎn)檢測深度學(xué)習(xí)模型,檢測識別得到各圖像中頭部最前端、尾鰭末端等各個關(guān)鍵特征點(diǎn);隨后在實(shí)際應(yīng)用中針對采集到的雙目視覺圖像,利用訓(xùn)練后的深度學(xué)習(xí)模型檢測兩張圖像中各個特征點(diǎn)并進(jìn)行匹配;最后利用雙目攝影系統(tǒng)內(nèi)部參數(shù)計算識別目標(biāo)體征參數(shù),以實(shí)現(xiàn)魚類體征的快速化、自動化識別。
1 材料與方法
1.1 圖像數(shù)據(jù)獲取與處理
本文中所采用的圖像數(shù)據(jù)包含兩部分,分別包括進(jìn)行關(guān)鍵特征點(diǎn)檢測深度學(xué)習(xí)模型訓(xùn)練的單目視覺數(shù)據(jù),以及用于對模型進(jìn)行檢驗與校正的雙目視覺數(shù)據(jù),部分圖像數(shù)據(jù)如圖1所示。其中所采用的單目視覺數(shù)據(jù)來自互聯(lián)網(wǎng)收集的不同環(huán)境下不同種類的魚類圖片,以使得建立的關(guān)鍵特征點(diǎn)檢測模型具有對于不同種類養(yǎng)殖魚類的適應(yīng)能力。單目視覺圖像由4 080張圖像組成,包含了85種不同種類的魚類,且這些圖像分別來源于實(shí)際深海養(yǎng)殖網(wǎng)箱場景、小型的養(yǎng)殖水缸場景與離水場景等多種不同的拍攝場景。
另一部分雙目視覺圖像主要來源于已有的試驗環(huán)境下通過雙目攝像系統(tǒng)實(shí)際采集的魚類圖像,部分來源于互聯(lián)網(wǎng)收集,共計包含30組圖像,每組圖像包含兩張對應(yīng)不同視覺的圖像,因此數(shù)據(jù)集中共包含60張圖像。由于圖像數(shù)量較少,難以滿足直接訓(xùn)練深度學(xué)習(xí)模型的需求,若通過常規(guī)的旋轉(zhuǎn)、裁切等增加數(shù)據(jù)樣本數(shù)量的增強(qiáng)方法,可能會導(dǎo)致訓(xùn)練后的網(wǎng)絡(luò)模型產(chǎn)生過擬合現(xiàn)象,無法滿足實(shí)際養(yǎng)殖過程中復(fù)雜情況下的魚類體征識別。因此,在本文中,收集單目視覺圖像用于建立關(guān)鍵特征點(diǎn)深度學(xué)習(xí)模型并進(jìn)行訓(xùn)練,隨后雙目視覺圖像則用于對模型識別的關(guān)鍵特征點(diǎn)進(jìn)行匹配并變換計算魚的體征參數(shù)。
獲取圖像數(shù)據(jù)后,首先需要對圖像數(shù)據(jù)進(jìn)行一定的預(yù)處理工作,以提高模型訓(xùn)練與后續(xù)識別的效果[15]。如圖1所示,原始圖片中,不同來源的圖片一般具有不同的尺寸,因此首先需要對原始圖片尺寸進(jìn)行一定的處理。本文中所有圖像均固定為4∶3的比例,像素尺寸對應(yīng)均固定為640×480,對于部分尺寸接近固定值的圖像,在保持魚體完整的前提下可通過對圖像進(jìn)行適當(dāng)裁剪處理。對于尺寸相差較大的圖像,則首先按照原始比例對圖像進(jìn)行縮放,當(dāng)圖像高度或?qū)挾绕渲幸粋€維度的尺寸與固定尺寸相同時,對另一個維度進(jìn)行黑邊補(bǔ)齊處理,使得最終所有圖像在不對比例進(jìn)行拉伸的前提下保持相同的尺寸,圖1中部分圖像處理前后對比如圖2所示。
1.2 圖像數(shù)據(jù)標(biāo)注
在利用圖像數(shù)據(jù)進(jìn)行模型訓(xùn)練之前,需要對每張圖像進(jìn)行標(biāo)注工作。對于本文所要構(gòu)建的關(guān)鍵特征點(diǎn)檢測模型,每張圖像中需要標(biāo)注出各個關(guān)鍵特征點(diǎn)的坐標(biāo)位置。本文選取的體征識別目標(biāo)包括魚類的體長、全長、體高、頭長以及尾鰭長等5個不同的參數(shù),各體征參數(shù)具體的含義見表1。為根據(jù)雙目視覺圖像確定各個體征參數(shù),需要通過關(guān)鍵特征點(diǎn)檢測網(wǎng)絡(luò)識別出各個體征參數(shù)起止測量點(diǎn)的位置,即本文中需要人為在訓(xùn)練數(shù)據(jù)中進(jìn)行標(biāo)注的關(guān)鍵特征點(diǎn)。
為達(dá)成上述識別目標(biāo),在每張圖像中針對6個不同的關(guān)鍵特征點(diǎn)進(jìn)行了標(biāo)注,分別包括頭部最前端、鰓蓋后緣、尾鰭基部、尾鰭末端、腹部最低點(diǎn)以及背部最高端,具體標(biāo)注效果如圖3所示。對于所有關(guān)鍵特征點(diǎn)均可見的圖像,針對每一個特征點(diǎn)均標(biāo)注其在圖像中的坐標(biāo)(以像素坐標(biāo)形式表示),而對于部分圖像,可能存在由于魚的姿勢或拍攝角度等原因?qū)е碌膫€別特征點(diǎn)被遮擋或在畫面外的問題,使得該部分特征點(diǎn)在當(dāng)前圖像中無法標(biāo)注。因此,針對這一部分特征點(diǎn),將其坐標(biāo)標(biāo)注為(0, 0),以表示該圖像中不包含該特征點(diǎn),同時確保每個識別目標(biāo)圖像均具有相同數(shù)量的關(guān)鍵特征點(diǎn)。標(biāo)注過程通過開源的圖像標(biāo)注軟件實(shí)現(xiàn),每張圖像均按照通用的數(shù)據(jù)結(jié)構(gòu)生成標(biāo)注文件[16]。標(biāo)注文件中包含的信息包括圖像的編號、尺寸,關(guān)鍵點(diǎn)的數(shù)量,以及各個關(guān)鍵點(diǎn)的坐標(biāo),通過關(guān)鍵點(diǎn)的順序編號區(qū)分各個關(guān)鍵點(diǎn)所對應(yīng)的類型。
1.3 試驗設(shè)計
本文建立的魚類體征識別方法基本流程如圖4所示,主要包含3個主要步驟:首先利用標(biāo)注及預(yù)處理后的單目視覺圖像數(shù)據(jù)集對特征點(diǎn)檢測算法模型進(jìn)行訓(xùn)練,獲得魚類關(guān)鍵特征點(diǎn)檢測網(wǎng)絡(luò)模型;隨后利用關(guān)鍵特征點(diǎn)檢測網(wǎng)絡(luò)模型分別對每一張雙目視覺圖像中魚類的關(guān)鍵特征點(diǎn)進(jìn)行識別;最后對每一組雙目視覺圖像兩張圖像識別出的關(guān)鍵特征點(diǎn)進(jìn)行立體匹配,并根據(jù)雙目視覺系統(tǒng)內(nèi)參計算得到魚類體征參數(shù)。
1.4 試驗環(huán)境
本文建立的魚類體征識別方法試驗的系統(tǒng)環(huán)境為AMD R7 5800H @ 3.6GHz處理器,16 GB內(nèi)存,顯存為6 GB的RTX 3060 Laptop顯卡和Windows 11操作系統(tǒng)。軟件及算法實(shí)現(xiàn)方面,魚類關(guān)鍵特征點(diǎn)檢測模型的實(shí)現(xiàn)及體征參數(shù)計算算法的建立均基于python編程語言,檢測網(wǎng)絡(luò)基于Pytorch深度學(xué)習(xí)框架構(gòu)建。
2 特征點(diǎn)檢測算法與體征識別方法
2.1 關(guān)鍵特征點(diǎn)檢測算法
本文選用的魚類關(guān)鍵特征點(diǎn)檢測算法為高分辨率網(wǎng)絡(luò)(High Resolution Net, HRNet)模型,目前HRNet在關(guān)鍵點(diǎn)檢測領(lǐng)域的廣泛應(yīng)用已充分表明了其優(yōu)異效果[17, 18]。HRNet是一類具有廣泛應(yīng)用場景的深度卷積神經(jīng)網(wǎng)絡(luò),其最大的特征是能夠有效融合不同分辨率尺度下圖像的特征,使得每個分辨率尺度的特征都能夠更加廣泛地包含來自其他尺度的特征信息,同時還能并行地保留原始尺度特征信息,來確保最終輸出的精確性。在HRNet的基礎(chǔ)上,進(jìn)一步融入金字塔分割注意力(Pyramid Split Attention, PSA)機(jī)制模塊,以進(jìn)一步提取多尺度特征圖空間信息,來實(shí)現(xiàn)跨維度通道注意力重要特征的交互[19]。
HRNet的基本結(jié)構(gòu)如圖5所示,與常規(guī)的高低分辨率特征之間的串行結(jié)構(gòu)不同,HRNet采用了并行的特征圖連接結(jié)構(gòu)。整個網(wǎng)絡(luò)結(jié)構(gòu)被劃分為了4個階段,其中第1個階段中首先針對輸入的原始圖像進(jìn)行卷積處理獲取其特征圖像,在第1階段內(nèi)特征圖像分辨率維持不變,隨后在第1階段后進(jìn)行特征轉(zhuǎn)換,對原始特征圖像進(jìn)行一次下采樣生成低分辨率特征圖像,并將原始特征與低分辨率特征圖像保持并行。在第2階段,高低分辨率特征圖像之間進(jìn)行不同尺度特征的融合,低分辨率特征圖像經(jīng)上采樣操作后與原始特征圖像相連接,作為新的原始分辨率特征圖像,而原始特征圖像經(jīng)再次下采樣后與低分辨率特征圖像連接作為新的低分辨率特征圖像。隨后在第3階段后對低分辨率圖像進(jìn)行進(jìn)一步的下采樣操作獲得更低一級的低分辨率圖像,并進(jìn)行三種不同分辨率下特征圖像的融合,最后在第4階段進(jìn)行相似的操作,將三種不同分辨率下的特征圖像信息進(jìn)行融合,獲得原始分辨率下的特征圖像輸出,再次經(jīng)卷積操作后輸出獲得關(guān)鍵特征點(diǎn)識別結(jié)果。
關(guān)鍵點(diǎn)檢測方法中,獲得最終檢測結(jié)果的方式包括兩種,分別為回歸關(guān)鍵點(diǎn)的具體坐標(biāo)值以及輸出關(guān)鍵點(diǎn)分布的概率熱力圖[17]。直接回歸關(guān)鍵點(diǎn)坐標(biāo)可以在網(wǎng)絡(luò)模型末端增加全連接層輸出對應(yīng)的坐標(biāo)值,但這種方式通常收斂比較困難。輸出概率熱力圖的方式是指直接以特征圖像作為結(jié)果輸出,圖像中每個像素點(diǎn)的值為該關(guān)鍵點(diǎn)位于當(dāng)前像素位置的概率,從而尋找概率最高的位置判斷關(guān)鍵點(diǎn)坐標(biāo)。本文中HRNet采用的輸出熱力圖的方式,在HRNet末端輸出高分辨率的特征圖像后,經(jīng)過一個包含6個大小為1×1的卷積核的卷積層輸出每個關(guān)鍵點(diǎn)的概率熱力圖,其中卷積核個數(shù)對應(yīng)確定的需要檢測的關(guān)鍵點(diǎn)的個數(shù)。
HRNet結(jié)構(gòu)中最為關(guān)鍵的部分是對特征圖像進(jìn)行的上采樣以及下采樣操作,實(shí)現(xiàn)上下采樣的具體操作如圖6所示。其中上采樣首先需要通過卷積核大小為1×1、步長為1的卷積層,隨后經(jīng)批量歸一化層處理后采用最近鄰方法進(jìn)行n倍的上采樣操作。下采樣則是通過卷積核大小為3×3,步長為2的卷積層進(jìn)行縮放1倍下采樣,隨后再經(jīng)批量歸一化層進(jìn)行處理,當(dāng)需要多倍縮放時,則需要重復(fù)通過卷積層處理進(jìn)行多次下采樣。
在HRNet的基礎(chǔ)上,本文進(jìn)一步引入了PSA機(jī)制模塊,PSA模塊是一類高效、輕量的通道注意力機(jī)制模塊,能夠更細(xì)粒度地處理多尺度的輸入特征圖的空間信息,并建立多尺度通道注意力間的長期依賴關(guān)系[19]。PSA模塊基本結(jié)構(gòu)如圖7所示,其首先利用通道劃分模塊對原始特征圖像進(jìn)行通道劃分,其中通道劃分模塊會將原始通道劃分為多組,并針對每組通道特征進(jìn)行不同尺度的卷積操作,以根據(jù)每組通道的空間特征信息進(jìn)行多尺度的特征提??;隨后采用SE權(quán)重模塊提取不同尺度特征圖的通道注意力權(quán)重,并對獲得的多尺度通道注意力權(quán)重利用softmax進(jìn)行重新標(biāo)定;最后對重新標(biāo)定后的注意力權(quán)重與多尺度特征圖像進(jìn)行點(diǎn)乘操作,獲得提取多尺度特征信息后的特征圖像。
為將PSA模塊嵌入基礎(chǔ)的HRNet結(jié)構(gòu)中,將不同階段之間傳遞特征圖像信息的卷積過程替換為PSA模塊的多尺度注意力提取過程,將原始特征圖像轉(zhuǎn)換為獲取了多尺度通道注意力的特征圖像,以提高原始模型對于空間及通道全局特征的提取能力。
2.2 雙目視覺體征識別方法
基于雙目視覺圖像,通過對圖像中各個關(guān)鍵特征點(diǎn)進(jìn)行匹配,確定各個關(guān)鍵點(diǎn)的視差,即可根據(jù)視差與雙目視覺系統(tǒng)基線長度計算各個關(guān)鍵點(diǎn)的真實(shí)坐標(biāo),從而計算魚類體長等體征參數(shù)。
雙目視覺實(shí)現(xiàn)體征識別原理如圖8所示,將左右兩個攝像機(jī)組成雙目視覺系統(tǒng),隨后對攝像機(jī)進(jìn)行標(biāo)定及校正,使得左右攝像機(jī)位于同一水平面對齊并確定基線長度,進(jìn)一步獲得焦距等相機(jī)內(nèi)參[20]。
對于雙目視覺系統(tǒng)中真實(shí)坐標(biāo)為(x,y,z)的物點(diǎn)P,經(jīng)拍攝后可分別在焦距為f的左右成像平面上獲得其對應(yīng)的左右像點(diǎn),其在左右成像面上投影的坐標(biāo)分別為(xl,yl)以及(xr,yr),由于雙目視覺系統(tǒng)經(jīng)標(biāo)定后位于同一水平面,則有yl=yr。因此,根據(jù)相似三角形及透視變換處理,可以獲得物點(diǎn)真實(shí)空間三維坐標(biāo),如式(1)~式(3)所示。
x=lxlxl-xr=lxld(1)
y=lylxl-xr=lyld(2)
z=lfxl-xr=lfd(3)
式中:d——物點(diǎn)在左右成像平面上成像點(diǎn)之間的視差,d=xl-xr。
基于上述雙目視覺系統(tǒng)中物點(diǎn)三維坐標(biāo)計算公式,結(jié)合魚類關(guān)鍵特征點(diǎn)檢測模型,可以快速對雙目圖像中魚類各個體征測量的關(guān)鍵點(diǎn)進(jìn)行識別并匹配,從而獲取每個關(guān)鍵點(diǎn)的視差值,進(jìn)而計算得到其對應(yīng)的三維坐標(biāo),實(shí)現(xiàn)對魚類體長等各個體征參數(shù)的識別計算。
2.3 效果評價標(biāo)準(zhǔn)
針對建立的魚類體征識別方法效果的評價,可以從魚類關(guān)鍵特征點(diǎn)檢測與體征參數(shù)識別的準(zhǔn)確性兩個方面展開評價。針對魚類關(guān)鍵特征點(diǎn)檢測算法,采用常用的指標(biāo)正確識別關(guān)鍵點(diǎn)比例(Percentage of Correct Keypoints,PCK)來評價算法的效果[21]。PCK是指目標(biāo)關(guān)鍵點(diǎn)被識別正確的比例,具體含義為檢測出的關(guān)鍵點(diǎn)距離真實(shí)關(guān)鍵點(diǎn)之間的歸一化距離小于設(shè)定閾值的比例,其計算如式(4)所示。
PCKi=∑Nn=1δdniddefn≤TkN(4)
式中:n——當(dāng)前魚類圖像;
N——需要進(jìn)行效果評價的魚類圖像總數(shù);
dni——第n張圖像的第i個關(guān)鍵點(diǎn)檢測坐標(biāo)與真實(shí)坐標(biāo)之間的歐氏距離;
ddefn——第n張圖像計算歸一化距離時選用的標(biāo)定距離;
δ——第i個關(guān)鍵點(diǎn)的歸一化因子;
Tk——設(shè)定的閾值。
在本文中,ddefn表示采用頭部最前端與鰓蓋后緣真實(shí)坐標(biāo)之間的歐式距離;Tk設(shè)定為0.1,即檢測關(guān)鍵點(diǎn)與真實(shí)關(guān)鍵點(diǎn)之間的距離不大于目標(biāo)魚類頭部長度的1/10視為識別有效關(guān)鍵點(diǎn)。
針對魚類體征識別結(jié)果的準(zhǔn)確性,采用計算得到的各個體征參數(shù)與真實(shí)體征參數(shù)之間的平均相對誤差MRE以及均方根誤差RMSE作為評價指標(biāo)進(jìn)行效果評價,計算如式(5)、式(6)所示。
MREi=1N∑Nn=1yni-yni-yni(5)
RMSEi=1N∑Nn=1(yni-yni-)2(6)
式中:yni——第n張圖像中第i個體征參數(shù)的真實(shí)值;
yni-——第n張圖像中第i個體征參數(shù)的估計值。
3 結(jié)果與分析
為驗證分析建立的魚類體征識別方法的效果,分別從魚類關(guān)鍵特征點(diǎn)檢測效果以及體征參數(shù)計算效果兩個層面進(jìn)行了評價分析。
3.1 魚類關(guān)鍵特征點(diǎn)檢測效果
針對建立的魚類關(guān)鍵特征點(diǎn)檢測模型,首先將單目視覺數(shù)據(jù)集按照8∶2的比例隨機(jī)劃分為訓(xùn)練集與測試集,并采用訓(xùn)練集對檢測模型進(jìn)行訓(xùn)練,訓(xùn)練過程中采用Adam優(yōu)化器,共迭代訓(xùn)練160代,隨后分別利用單目視覺測試集以及雙目視覺全部數(shù)據(jù)集對模型進(jìn)行效果評價,計算各個關(guān)鍵點(diǎn)檢測的PCK值并進(jìn)行對比。為進(jìn)一步驗證建立的檢測算法的有效性,利用相同的數(shù)據(jù)集訓(xùn)練了未耦合PSA模塊的原始HRNet模型以及支持向量機(jī)回歸(Support Vector Regression, SVR)模型,對其檢測效果進(jìn)行對比,其中SVR的檢測結(jié)果輸出方式為直接回歸關(guān)鍵特征點(diǎn)坐標(biāo)值。首先選取部分圖像對PSA-HRNet檢測出的關(guān)鍵點(diǎn)坐標(biāo)與實(shí)際標(biāo)注關(guān)鍵點(diǎn)坐標(biāo)進(jìn)行對比,其在圖像中的標(biāo)注位置對比如圖9所示。
由圖9可見,建立的關(guān)鍵點(diǎn)檢測算法能夠有效確定大多數(shù)關(guān)鍵特征點(diǎn)的坐標(biāo)位置,檢測坐標(biāo)與實(shí)際坐標(biāo)非常接近,說明建立的檢測算法能夠有效識別出魚類體征識別的各個關(guān)鍵特征點(diǎn)。
進(jìn)一步從定量的角度綜合評價對比檢測模型的效果,分別計算獲得了PSA-HRNet模型、HRNet模型以及SVR模型對于單目視覺測試集以及雙目視覺數(shù)據(jù)集各個關(guān)鍵特征點(diǎn)的PCK值,結(jié)果如表2所示。由表2可知,與其余模型相比,PSA-HRNet對于所有關(guān)鍵特征點(diǎn)均具有更大的PCK值,單目與雙目視覺圖像平均PCK值相比較于另外兩種方法分別高5.29%、22.61%與1.99%、25.96%,說明PSA-HRNet通過引入多尺度通道特征注意力的機(jī)制能夠更充分地提取表征關(guān)鍵特征點(diǎn)位置的特征,從而有效提升檢測結(jié)果。并且PSA-HRNet模型所有關(guān)鍵特征點(diǎn)的PCK值均大于0.85,表明建立的關(guān)鍵特征點(diǎn)檢測算法的有效性,為進(jìn)一步體征參數(shù)的計算提供有效支撐。同時,頭部最前端與尾鰭末端相比較于其余特征點(diǎn)PCK值更高,其原因是相比較于其余關(guān)鍵特征點(diǎn)這兩個特征點(diǎn)部位相對更加明確,在人工標(biāo)注時產(chǎn)生的誤差更小,使得識別得到的準(zhǔn)確性更高。
3.2 魚類體征識別效果
根據(jù)關(guān)鍵特征點(diǎn)檢測結(jié)果,對雙目視覺數(shù)據(jù)集圖像識別出的各個關(guān)鍵特征點(diǎn)進(jìn)行匹配,根據(jù)雙目視覺系統(tǒng)參數(shù)計算各關(guān)鍵特征點(diǎn)左右視覺圖像中的視差,以此獲取各個關(guān)鍵特征點(diǎn)的真實(shí)三維坐標(biāo),并在此基礎(chǔ)上計算各個體征參數(shù)的值。針對雙目視覺數(shù)據(jù)集,分別計算了根據(jù)關(guān)鍵特征點(diǎn)檢測結(jié)果計算出的體征參數(shù)與實(shí)際參數(shù)之間的MRE及RMSE,如表3所示。由對比結(jié)果可見,對于各個體征參數(shù),其平均相對誤差均小于10%,均方根誤差最大僅為1.34cm,進(jìn)一步證明了建立的體征識別方法的有效性。
同時,圖10與圖11分別展示了各個圖像樣本每個體征參數(shù)識別相對誤差總體分布情況與分布直方圖,30組雙目視覺圖像共包含150個體征參數(shù)樣本。圖10中絕大多數(shù)樣本點(diǎn)集中分布在表征誤差為10%的虛線內(nèi)部,證明了識別方法的可靠性。而在整體分布特征上,由圖11可知,相對誤差分布整體呈現(xiàn)正態(tài)分布特征,大多數(shù)體征的相對誤差在5%以內(nèi),只有極小部分體征參數(shù)由于受到拍攝角度、標(biāo)注誤差等限制,最終識別結(jié)果的相對誤差超過了15%。以上魚類體征識別的結(jié)果對比,綜合表明了本文建立的魚類體征識別方法的有效性。
4 結(jié)論
本文基于單目視覺圖像構(gòu)建魚類關(guān)鍵特征點(diǎn)檢測模型,在此基礎(chǔ)上實(shí)現(xiàn)對雙目視覺圖像關(guān)鍵特征點(diǎn)的檢測及匹配,以計算獲得魚類體長、全長的體征參數(shù),形成了快速、準(zhǔn)確的魚類體征識別方法。
1) 采集不同環(huán)境下魚類單目視覺圖像及雙目視覺圖像,并對圖像進(jìn)行預(yù)處理及標(biāo)注工作,形成魚類關(guān)鍵特征點(diǎn)單目及雙目視覺數(shù)據(jù)集,并基于單目視覺數(shù)據(jù)集構(gòu)建訓(xùn)練獲得考慮多尺度特征圖像通道注意力地PSA-HRNet深度學(xué)習(xí)模型,獲得的模型針對單目視覺測試集及雙目視覺圖像數(shù)據(jù)集均獲得了優(yōu)異的檢測結(jié)果,各個關(guān)鍵特征點(diǎn)檢測PCK值均大于0.85。
2) 基于建立的魚類圖像關(guān)鍵特征點(diǎn)檢測模型,通過對雙目視覺圖像分別進(jìn)行檢測,實(shí)現(xiàn)了左右視覺圖像中關(guān)鍵特征點(diǎn)的檢測及匹配,并根據(jù)雙目視覺系統(tǒng)參數(shù)計算獲得了各關(guān)鍵特征點(diǎn)真實(shí)坐標(biāo),在此基礎(chǔ)上實(shí)現(xiàn)了對魚類各個體征參數(shù)的計算,各個體征參數(shù)識別結(jié)果相對誤差均小于10%,RMSE最高僅為1.34 cm,表明本文提出的魚類體征識別方法具有出色的精度,能夠為魚類高效、科學(xué)養(yǎng)殖提供有力支撐。
參 考 文 獻(xiàn)
[1]Zhao Z, Liu Y, Sun X, et al. Composited FishNet: Fish detection and species recognition from low-quality underwater videos [J]. IEEE Transactions on Image Processing, 2021, 30: 4719-4734.
[2]陳文輝, 蔡妹姝, 嚴(yán)松, 等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)與遷移學(xué)習(xí)的魚類分類識別[J]. 福建師大福清分校學(xué)報, 2019(5): 30-38.
Chen Wenhui, Cai Meishu, Yan Song, et al. Fish classification based on deep convolutional neural network and transfer learning [J]. Journal of Fuqing Branch of Fujian Normal University, 2019(5): 30-38.
[3]蔡衛(wèi)明, 龐海通, 張一濤, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的養(yǎng)殖魚類品種識別模型[J]. 水產(chǎn)學(xué)報, 2022, 46(8): 1369-1376.
Cai Weiming, Pang Haitong, Zhang Yitao, et al. Recognition model of farmed fish species based on convolutional neural network [J]. Journal of Fisheries of China, 2022, 46(8): 1369-1376.
[4]Yu C, Fan X, Hu Z, et al. Segmentation and measurement scheme for fish morphological features based on Mask R-CNN [J]. Information Processing in Agriculture, 2020, 7(4): 523-534.
[5]丁順榮, 肖珂. 基于粒子群優(yōu)化SVM和多特征融合的魚類分類方法研究[J]. 中國農(nóng)機(jī)化學(xué)報, 2020, 41(11): 113-118, 170.
Ding Shunrong, Xiao Ke. Improving fish classification method in particle swarm optimization SVM and multi-feature fusion [J].Journal of Chinese Agricultural Mechanization, 2022, 41(11): 113-118, 170.
[6]Mathias A, Dhanalakshmi S, Kumar R, et al. Underwater object detection based on Bi-dimensional empirical mode decomposition and Gaussian Mixture Model approach [J]. Ecological Informatics, 2021, 66: 101469.
[7]Zhang J, Chen Z, Tao D. Towards high performance human keypoint detection [J]. International Journal of Computer Vision, 2021, 129(9): 2639-2662.
[8]曾文獻(xiàn), 馬月, 李偉光. 輕量化二維人體骨骼關(guān)鍵點(diǎn)檢測算法綜述[J]. 科學(xué)技術(shù)與工程, 2022, 22(16): 6377-6392.
Zeng Wenxian, Ma Yue, Li Weiguang. A survey of lightweight two-dimensional human skeleton key point detection algorithms [J]. Science Technology and Engineering, 2022, 22(16): 6377-6392.
[9]趙建敏, 關(guān)曉鵬. 基于雙目深度估計的牛體尺測量方法設(shè)計[J]. 光電子·激光, 2022, 33(4): 429-435.
Zhao Jianmin, Guan Xiaopeng. Design of the measurement method of cow body size based on binocular depth estimation [J]. Journal of Optoelectronics Laser, 2022, 33(4): 429-435.
[10]董鵬, 周烽, 趙悰悰, 等. 基于雙目視覺的水下海參尺寸自動測量方法[J]. 計算機(jī)工程與應(yīng)用, 2021, 57(8): 271-278.
Dong Peng, Zhou Feng, Zhao Congcong, et al. Automatic measurement of underwater sea cucumber size based on binocular vision [J]. Computer Engineering and Applications, 2021, 57(8): 271-278.
[11]郭卜瑜, 于佳, 王姣姣, 等. 雙目視覺用于魚苗尺寸測量[J]. 光學(xué)技術(shù), 2017, 43(2): 153-157.
Guo Buyu, Yu Jia, Wang Jiaojiao, et al. Stereo vision for measuring the size of fish [J]. Optical Technique, 2017, 43(2): 153-157.
[12]Shi C, Wang Q, He X, et al. An automatic method of fish length estimation using underwater stereo system based on LabVIEW [J]. Computers and Electronics in Agriculture, 2020, 173: 105419.
[13]李艷君, 黃康為, 項基. 基于立體視覺的動態(tài)魚體尺寸測量[J]. 農(nóng)業(yè)工程學(xué)報, 2020, 36(21): 220-226.
Li Yanjun, Huang Kangwei, Xiang Ji. Measurement of dynamic fish dimension based on stereoscopic vision [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(21): 220-226.
[14]Wu X, Sahoo D, Hoi S C H. Recent advances in deep learning for object detection [J]. Neurocomputing, 2020, 396: 39-64.
[15]Lei W, Luo J, Hou F, et al. Underground cylindrical objects detection and diameter identification in GPR B-scans via the CNN-LSTM framework [J]. Electronics, 2020, 9(11): 1804.
[16]Wang C, Pang C. Object detection method of power equipment based on mask R-CNN [J]. Academic Journal of Science and Technology, 2022, 1(2): 60-62.
[17]Sun K, Xiao B, Liu D, et al. Deep high-resolution representation learning for human pose estimation [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 5693-5703.
[18]馬皖宜, 張德平. 基于多譜注意力高分辨率網(wǎng)絡(luò)的人體姿態(tài)估計[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2022, 34(8): 1283-1292.
Ma Wanyi, Zhang Deping. Human pose estimation based on multi-spectral attention and high resolution network [J]. Journal of Computer-Aided Design & Computer Graphics, 2022, 34(8): 1283-1292.
[19]Zhang H, Zu K, Lu J, et al. EPSANet: An efficient pyramid squeeze attention block on convolutional neural network [C]. Proceedings of the Asian Conference on Computer Vision. 2022: 1161-1177.
[20]羅桂娥. 雙目立體視覺深度感知與三維重建若干問題研究[D]. 長沙: 中南大學(xué), 2012.
Luo Guie. Some issues of depth perception and three dimension reconstruction from binocular stereo vision [D]. Changsha: Central South University, 2012.
[21]周燕, 劉紫琴, 曾凡智, 等. 深度學(xué)習(xí)的二維人體姿態(tài)估計綜述[J]. 計算機(jī)科學(xué)與探索, 2021, 15(4): 641-657.
Zhou Yan, Liu Ziqin, Zeng Fanzhi, et al. Survey on two-dimensional human pose estimation of deep learning [J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(4): 641-657.