国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義分割的視頻魚類特征提取方法研究

2024-01-01 00:00:00李瀟洋陳健常劍波
水生態(tài)學雜志 2024年5期
關(guān)鍵詞:語義分割

摘要:從視頻圖像中快速、準確提取水生生物(如魚類)的特征信息,是信息科學與水生態(tài)研究結(jié)合的熱點?;赥ransformer的視覺模型,采用一種基于弱監(jiān)督語義分割的視頻魚類特征提取方法,在無需預訓練或微調(diào)的條件下,可以實現(xiàn)對魚的身體、頭部和魚鰭3類形態(tài)區(qū)域標簽的分割提取。采用DeepFish分割數(shù)據(jù)集構(gòu)建計算機視覺自注意力模型(vision transformer,ViT),通過對水下拍攝的魚類視頻進行實驗,結(jié)果實現(xiàn)了魚體形態(tài)主體特征的有效提取,對擬定的3類形態(tài)標簽區(qū)域進行了良好的分割標記。研究方法具有較高的效率、分割準確度和標記區(qū)域的連續(xù)平滑性,可提供良好的語義特征,為人工智能技術(shù)在魚類等水生生物監(jiān)測實踐中提供了一種低成本、高效率的新方法。

關(guān)鍵詞:弱監(jiān)督學習;語義分割;視覺自注意力模型;魚類特征提取

中圖分類號:S931.1" " " " 文獻標志碼:A" " " " 文章編號:1674-3075(2024)05-0204-09

人工智能技術(shù),如深度學習、計算視覺自注意力模型等,在水生態(tài)視頻圖像監(jiān)測中展現(xiàn)出了強大潛力。相較于依靠延繩釣探捕、拖網(wǎng)探捕等捕撈技術(shù)的傳統(tǒng)方法,利用水下拍攝的魚類視頻并輔以深度學習方法提取魚類特征可以節(jié)省探測的時間與成本,同時這種非接觸測量方式不會使魚類產(chǎn)生應激反應,能夠更真實地反映魚類在環(huán)境中的活動狀態(tài)。隨著深度學習技術(shù)的發(fā)展和神經(jīng)網(wǎng)絡模型的深化,視頻水生生物特征獲取的準確性和效率得到了顯著提高(Yang et al,2021)。在魚類表型分割方面,Dong等(2023)基于關(guān)鍵點檢測技術(shù)提取了魚體輪廓形狀,并分析了魚類形態(tài)特征,但關(guān)鍵點的標記存在一定主觀性,限制了模型成果的泛化能力。Zhang等(2021)應用Fish 4 Knowledge(F4K)數(shù)據(jù)集進行訓練,提出了一種深度學習方法,可以對魚類進行識別和分類。李健源等(2024)基于改進的DeepSORT算法,采用YOLOv5模型作為目標檢測模型,對監(jiān)測視頻中目標魚實現(xiàn)了動態(tài)識別和自動計數(shù)。此外,如卷積神經(jīng)網(wǎng)絡(CNNs)等深度學習模型,也可以高精度地識別和分類圖像數(shù)據(jù),如魚類物種、藻類繁殖等,但也存在訓練深度學習模型需要大量數(shù)據(jù),可解釋度弱等不足。

計算機視覺自注意力模型(vision transformer,ViT)是一種基于Transformer的視覺模型,與傳統(tǒng)的深度學習模型(如CNN)相比,ViT使用自注意力機制來處理圖像數(shù)據(jù),能夠提供更微觀的圖像分析,從而捕捉圖像中的長距離依賴關(guān)系,提升監(jiān)測的精度和細節(jié)豐富度(Dosovitskiy et al,2020)。語義分割利用神經(jīng)網(wǎng)絡分析圖像中每個像素所代表的真實物體,對圖像進行像素級分類,從而分割出物體輪廓,可更有效提取水生生物,如魚體形態(tài)區(qū)域的特征并開展量化分析。Yu等(2020)基于Mask R-CNN實現(xiàn)了魚體形態(tài)特征測量,Li等(2023)基于ResNet50為編碼器的UNet模型實現(xiàn)了對8類魚體形態(tài)區(qū)域的精準分割。計算機視覺技術(shù)的應用不僅可以提高魚類跟蹤、計數(shù)和行為分析的效率,也可以提高魚類形態(tài)測量的準確率和效率。然而現(xiàn)有的研究主要基于有監(jiān)督學習的模式,其對有效標記樣本的需求量較大,訓練模型所需的算力成本大,模型參數(shù)優(yōu)化過程復雜(田志新等,2022;李健源等,2024)。

語義分割是計算機視覺中的重要領(lǐng)域,它通過標注出圖像中每個像素所屬的對象類別,實現(xiàn)圖像區(qū)域的劃分和理解。對于面向語義分割的魚類相關(guān)視覺任務,由于其存在因數(shù)據(jù)標注規(guī)模以及深度學習模型預訓練微調(diào)導致的算力資源需求大的問題,本文試圖引入弱監(jiān)督語義分割技術(shù)來快速提取水生態(tài)監(jiān)測視頻中魚類的特征信息,通過使用不完整的監(jiān)督信息(如圖像級別的標簽、掩碼或大致的邊界框)來進行提示性的語義分割,從而在較低的算力需求和少量標記工作量的條件下實現(xiàn)有效的圖像理解(Zhi et al,2021)。

1" "材料與方法

1.1" "數(shù)據(jù)來源

采用DeepFish數(shù)據(jù)集(Saleh et al,2020)進行建模,從620張標注好的圖像中選取310張進行模型訓練、124張進行模型驗證、186張進行模型測試。DeepFish數(shù)據(jù)集是一個用于評估水下視覺分析算法的真實魚類棲息地數(shù)據(jù)集,該數(shù)據(jù)集是從澳大利亞熱帶海洋環(huán)境20個棲息地水下收集的約4萬張圖像經(jīng)人工處理標注而來。該數(shù)據(jù)集的原始視頻是將攝像機放置于海底,并在水體渾濁度相對較低的時間段內(nèi)采集獲得,原始圖像以全高清分辨率(1 920×1 080像素)剪輯導出。其典型樣本圖像的分割掩碼圖及不同棲息地的樣本分布見圖1,涵蓋了水下成像的復雜環(huán)境,有助于訓練和測試模型在不同環(huán)境下對魚體特征學習的能力。

采用實拍水下魚群監(jiān)控視頻的方式進行推廣應用測試。選用由中國水利水電科學院在雅江某魚道內(nèi)定點拍攝的3段異齒裂腹魚(Schizothorax oconnori)(體長30~50 cm)視頻,視頻幀尺寸為1 280×720像素,幀率均為30幀/秒,視頻文件參數(shù)見表1。3段視頻在清晰度、魚類個體數(shù)量和成像位置上存在差異,用于檢驗弱監(jiān)督語義分割方法的魯棒性。

1.2" "魚體輪廓與形態(tài)區(qū)域分割

1.2.1" "魚體輪廓語義標記" "參考魚類關(guān)鍵點數(shù)據(jù)集(Yu et al,2023),考慮實際水下成像條件,將魚體形態(tài)測量區(qū)域分割為3個語義標記:頭部、身體和魚鰭(圖2)。

1.2.2" "魚類語義分割特征提取流程" "采用基于部件協(xié)同分割的弱監(jiān)督語義分割方法進行語義分割特征提取,具體流程見圖3。使用FFmpeg工具(Tomar,2006)逐秒提取視頻關(guān)鍵幀圖像,通過加載預訓練權(quán)重的ViT模型從待分割圖像提取特征向量,首先加載魚體輪廓分割的模板圖片集進行聚類分組,基于模板匹配的方法,實現(xiàn)待分割圖像各像素點的區(qū)域判定,得到魚體輪廓分割的區(qū)域掩碼,然后加載魚體形態(tài)區(qū)域分割的模板圖像集進行模板匹配,實現(xiàn)魚體特定形態(tài)區(qū)域的提取分割。

采用基于ViT模型實現(xiàn)在圖像塊粒度表征圖像特征的方法,ViT模型架構(gòu)見圖4。

提取特征的步驟如下:

(1)將輸入的圖像分成一系列的圖像塊,構(gòu)建成一個序列,直接將圖像塊拉伸為一維向量序列,轉(zhuǎn)化為詞嵌入向量;ViT模型構(gòu)建圖像塊一般按像素劃分,各塊之間不存在重疊,為了提升特征提取的分辨率并有效提取塊邊界信息,采用滑動窗口的方式生成部分重疊的圖像塊序列。分塊數(shù)(N)的計算公式如下:

N = NH [×] NW = ([H+S-PS][×][W+S-PS]) ①

式中:NH和NW分別為高度和寬度上切分塊的數(shù)量,H為圖像高度,W為圖像寬度,S為滑窗步長,P為圖像分塊大小。

(2)對圖像塊序列中的每個元素添加一個用于表示序列元素位置信息的位置編碼。

(3)將圖像塊的嵌入向量和位置編碼向量作為輸入,使用多層的Transformer編碼器進行處理。其中編碼器由多個Transformer模塊構(gòu)成,每個模塊包含多個自注意力層和前饋神經(jīng)網(wǎng)絡。編碼器層的堆疊使得模型能夠更好地捕捉圖像的高級特征。

(4)Transformer模塊由自注意力層、全連接前饋層、殘差連接和層歸一化操作等基本單元組成,其中自注意力層是核心組成部分,由可學習的查詢矩陣WQ、鍵矩陣WK及值矩陣WV組成,圖像塊向量的輸入i分別經(jīng)過上述3個矩陣的變換得到查詢向量q,鍵向量k,值向量v,最后經(jīng)過自注意力機制的公式得到層的輸出向量t,計算公式如下:

[k,q,v=WK,WQ,WV×i]" " ②

[t=Softmax(qkTd)×v]" " ③

式中:Softmax為歸一化指數(shù)函數(shù),d為輸入向量i的嵌入維度,T為k向量的轉(zhuǎn)置。

自注意力機制的實現(xiàn)基于查詢向量q,鍵向量k,值向量v。對于輸入序列中的每個元素,模型都會計算它與所有其他元素的相似度(通過q和k的匹配來實現(xiàn)),而后根據(jù)相似度加權(quán)求和,得到當前元素與鄰近元素的關(guān)系。關(guān)系相近的元素即為同一語義的集合,由此可以提取出相同語義的區(qū)域,即魚類的特征形態(tài)區(qū)域。

由于q,k,v,t向量都是輸入向量i的線性變換,逐層傳遞的編碼信息即可反映圖像塊的特征。本文直接利用預訓練模型進行特征提取,圖像以256的短邊長度輸入到ImageNet數(shù)據(jù)集預訓練的ViT模型(Caron et al,2021)提取圖像特征,模型自主力層計算的向量集作為編碼高級語義信息的特征向量。研究對比了模型在不同分塊大小、嵌入維度、滑窗步長、特征向量類型及提取層數(shù)深度參數(shù)下魚體輪廓分割結(jié)果,以優(yōu)選適用于魚體形態(tài)區(qū)域分割的模型參數(shù)。本文研究的推理模型結(jié)構(gòu)參數(shù)如表2所示,DeiT(data efficient image transformer)是指通過知識蒸餾方法訓練的ViT小模型,其通過大的預訓練模型傳遞知識信息訓練,而非像ViT模型從頭訓練。因此,DeiT在保持與ViT模型結(jié)構(gòu)相同且性能同等條件下壓縮了模型體積,有助于減輕對算力的需求,實現(xiàn)更高效的部署。實驗環(huán)境基于ubuntu22.04操作系統(tǒng),CPU為12線程i5-12400,RTX3060(12GB)顯卡,內(nèi)存32GB,CUDA版本為11.7,編程語言為python3.8,深度學習框架為Pytorch1.13,設置了固定的隨機種子,確保實驗結(jié)果的復現(xiàn)性。

1.2.3" "模板匹配" "為了實現(xiàn)自動分割標記,采用模板匹配方法對圖像的特征向量進行聚類分析。在魚體輪廓分割處理中,選擇數(shù)據(jù)集中魚體掩碼最大的5張圖像作為模板,對魚體形態(tài)分割處理,篩選魚類形態(tài)特征顯著和清晰的4視頻幀作為模板。

模板圖像的特征向量集以余弦相似度來度量,計算公式如下:

[cos(θ)=i=1n(xi×yi)i=1n(xi)2×i=1n(yi)2]" " "④

式中:xi,yi為對比的2個圖像特征向量。

通過K均值聚類算法得到多個聚類中心,從而獲得水下場景的語義標簽聚類簇。K均值聚類算法選取與類型總數(shù)相同的點作為初始化聚類中心,計算每個點到聚類中心的距離,并聚類到離該點最近的聚類中去。之后計算每個聚類中所有點的坐標平均值,并將這個平均值作為新的聚類中心。重復上述2個步驟,直到每個類的聚類中心不再變化,完成聚類。根據(jù)聚類中心的相對位置判定語義標記的魚體輪廓,從而實現(xiàn)水下魚體圖像區(qū)域的自動分割。

由于環(huán)境特征變化,通過K均值聚類算法推理得到的魚體形態(tài)區(qū)域分割存在一定的噪點,造成分割區(qū)域邊緣不平滑,因此需要進行適當?shù)暮筇幚砑夹g(shù)實現(xiàn)標簽平滑。本文使用多標簽條件隨機場技術(shù)實現(xiàn)語義分割標簽的區(qū)域平滑連續(xù)(Kr?henbühl amp; Koltun,2012)。由于視頻圖像和魚類特征位置變化的連續(xù)性,本方法并沒有采用深度學習視覺任務常用的數(shù)據(jù)增強和圖像增強技術(shù),以保持模板與目標圖像在水下成像環(huán)境的一致性。

1.3" "評價指標

采用語義分割任務中常見的平均交并比(mean intersection over union,mIoU)和平均像素準確率(mean pixel accuracy,mPA)作為魚體輪廓分割實驗的模型精度評價指標,采用推理速度評價魚體形態(tài)區(qū)域分割模型的計算效率,單位為幀/s。其中平均交并比(mIoU)?通過計算預測區(qū)域和真實區(qū)域之間的交集與并集的比值來評估模型性能,值越高,表示模型預測的區(qū)域與真實區(qū)域的重疊程度越高。?平均像素準確率(mPA)?是計算模型對每個類別的像素預測正確的比例,將所有類別的像素準確率取均值即得到mPA,mPA越高,說明模型對像素級別的分類越準確?。推理速度是一秒鐘完成推理的畫面數(shù)量,數(shù)值越高,模型的計算效率越高。

2" "結(jié)果與分析

2.1" "魚體輪廓分割

在DeepFish數(shù)據(jù)集選擇的5張模板圖像的聚類及分割效果如圖5所示,模型分割結(jié)果比較理想,5張模板圖像的mIoU達到0.83,186張測試圖像的mIoU達到0.54,測試集圖像魚體面積與模型分割預測效果的關(guān)系如圖6所示,62.5%的測試圖像mIoU超過0.5。

2.2" "魚體形態(tài)區(qū)域分割

在本文測試的3段水下魚群監(jiān)控視頻中,典型關(guān)鍵幀的部件協(xié)同分割結(jié)果如圖7所示,魚體形態(tài)區(qū)域能被準確分割。在分割準確度上,當視野中的魚類比較稀疏時,更容易獲得較好的形態(tài)區(qū)域語義分割效果。在推理速度上,單張RTX3060顯卡推理魚體形態(tài)區(qū)域分割處理過程為1.2幀/s,單張V100顯卡的推理速度為3.1幀/s,結(jié)合視頻關(guān)鍵幀提取,本方法的推理效率可以滿足實踐需求。

3" "討論

3.1" "ViT模型參數(shù)優(yōu)化與比選

本文以嵌入維度為384、分塊大小為8、滑動步長為4的DeiT-S/8模型作為基準模型參數(shù),研究第11層自注意力模塊中特征向量類別對分割效果的影響,結(jié)果如表3所示,鍵向量的特征提取實現(xiàn)的分割效果最佳,值向量的分割存在較大的背景假陽性,本文實驗均選用鍵向量作為特征提取的向量類型。

以基準模型為例,研究特征提取的層數(shù)對分割結(jié)果的影響,結(jié)果如圖8所示。提取的特征層數(shù)越深,平均像素精度和平均交并比越高,分割效果越好。本文實驗均選用11層即最后一層進行模型特征提取。

ViT模型的圖像分塊序列化和嵌入維度參數(shù),既影響了模型參數(shù)的規(guī)模,也影響著模型對圖像特征信息提取的分辨率,進而影響模型開展精細化區(qū)域分割的性能和效果,本文在固定模型特征提取的向量類型和層數(shù)固定的條件下,對不同圖像分塊序列化和嵌入維度參數(shù)的模型在魚體輪廓分割上的效果進行對比分析,結(jié)果如表4所示。本文選擇的基準模型結(jié)構(gòu)分割的效果表現(xiàn)最佳,模型性能主要受分塊大小影響,由于使用的均是預訓練權(quán)重模型進行推理,對于水下環(huán)境通用特征的提取會干擾魚體分割的效果,模型規(guī)模最大的ViT-B/8模型的分割效果反而不如參數(shù)規(guī)模較小的Deit-S/8模型。在同等參數(shù)規(guī)模的模型中,分塊數(shù)越小,分割效果越好,主要原因是提取的圖像特征細節(jié)更多,但同時模型推理速度會變慢?;安介L可補充模型分塊邊界區(qū)域的圖像特征,實現(xiàn)在不額外投入模型訓練資源的條件下,提取更細致的圖像特征,理論上具備提升模型性能的可行性(Amir et al,2021)。但實驗結(jié)果表明其影響效果因模型的結(jié)構(gòu)參數(shù)規(guī)模而異,對于模型規(guī)模小、特征提取能力相對弱的DeiT-S/16模型,滑窗步長減少,分割效果反而越差;而對于其他更大規(guī)模的模型而言,滑窗步長越小,分割效果越好。說明滑窗處理的有效性受主干模型本身特征提取能力的制約,此外縮小滑窗步長會增加模型對圖像的計算量,因此未來在開展水下魚類特征提取模型的訓練和優(yōu)化中,需要權(quán)衡滑窗處理與模型參數(shù)規(guī)模,以滿足模型性能與推理速度的需求。

3.2" "ViT模型提取的語義特征

在魚體形態(tài)區(qū)域分割實驗中,根據(jù)實際觀測視頻的成像條件,本文選擇4張視頻關(guān)鍵幀作為模板,研究模板圖像在不同層之間的匹配聚類結(jié)果,以分析ViT模型最后4層特征向量的表征特點(圖9)。深層的特征向量聚類結(jié)果可以區(qū)分魚體形態(tài)細部特征,而淺層則主要區(qū)分魚體的空間位置,本文采用最后一層模型的聚類結(jié)果作為特征匹配的模板,從最后一層(第11層)的分割結(jié)果來看,本文提出的3個魚體形態(tài)標記區(qū)域之間的差異顯著,提取的掩碼分割效果較為平滑和連續(xù)。

本文的結(jié)果驗證了ViT模型提取的特征在自注意力層之間傳遞的特點,即淺層特征更多側(cè)重于位置嵌入的相似度,深層特征側(cè)重語義信息(Amir et al,2021)。由于本文的K均值聚類算法中的距離定義采用的是余弦相似度,在稠密、多目標圖像識別上有一定的局限性,K均值聚類算法本身對于離群值和非連續(xù)特征的提取效果不佳,因此實現(xiàn)高效魚體形態(tài)區(qū)域信息聚合和分割的聚類算法有待進一步研究。

3.3" "弱監(jiān)督語義分割方法的優(yōu)勢

在模板聚類階段,本文的方法不僅魚體輪廓區(qū)域可識別提取,水草等水下環(huán)境要素也可以通過模板進行聚類分割識別;在聚類分割階段,由于模板的聚類結(jié)果中魚體輪廓邊緣存在部分噪點,因此分割區(qū)域標簽的平滑處理會適當聚集壓縮分割區(qū)域。本文選擇的5張模板圖像中魚體區(qū)域在圖像像素面積占比均超過10%(圖5),模板圖像集與小尺寸魚體圖像特征之間存在一定的差距,因此對于測試集圖像中部分小尺寸魚體輪廓的分割效果有待改進提升。由于本文采用的是預訓練的ViT模型,沒有更改特征提取模型結(jié)構(gòu)和參數(shù),未來在開展針對性的水下魚類特征提取模型研究中,可采用移位窗口(Liu et al,2021)等多尺度特征提取方法提升ViT模型對多尺度圖像特征提取的適應性。

本文方法與文獻公開的預訓練或微調(diào)模型的精度對比如表5所示,本文方法在相對較低的推理模型參數(shù)量條件下,實現(xiàn)了實用化的分割效果。本文基準ViT模型與ResNet50卷積網(wǎng)絡的推理參數(shù)量相當,ViT模型的優(yōu)勢在于基于自注意力機制構(gòu)建的序列化關(guān)聯(lián)性能夠捕捉到圖像中不同區(qū)域之間的語義關(guān)系,從而無需過多依賴顯式的位置編碼,因此從預訓練的神經(jīng)網(wǎng)絡提取中間層的特征可被廣泛用于各類視覺任務。本方法無需對ViT模型預訓練或微調(diào),對推理算力需求較低,因此相較于有監(jiān)督學習方法,本文提出的弱監(jiān)督學習方法在推理效率上更有優(yōu)勢,而且對分割標注的樣本需求量極低,可極大降低數(shù)據(jù)預處理成本,降低ViT模型應用落地的難度。

4" "結(jié)論

魚類圖像形態(tài)的幾何和語義特征高度相關(guān)。本文基于Transformer的視覺模型,提出了一種基于弱監(jiān)督語義分割的視頻魚類特征提取方法,通過加載預訓練權(quán)重的ViT模型從待分割圖像提取特征向量,然后進行模板匹配,實現(xiàn)魚體特定形態(tài)區(qū)域的提取分割。主要結(jié)論如下:

(1)本文在DeepFish測試集共186張測試圖像的平均交并比(mIoU)指標達到0.54,62.5%的測試圖像mIoU超過0.5,提取速度高于1幀/s。因此本方法能快速準確實現(xiàn)無接觸式分割、提取魚類特征。

(2)本文基準ViT模型與ResNet50卷積網(wǎng)絡的推理參數(shù)量相當,同時無需對ViT模型預訓練或微調(diào),即可實現(xiàn)實用化的分割效果。因此本方法擁有相對較低的推理算力需求與分割標注的樣本需求量,可降低數(shù)據(jù)預處理成本,降低ViT模型應用落地的難度。

本文提出的方法在無需預訓練或微調(diào)的條件下實現(xiàn)了對魚的身體、頭部和魚鰭3類形態(tài)區(qū)域標簽的分割提取并進行良好的標記,具有較高的效率和標記區(qū)域的連續(xù)平滑性,為形態(tài)測量等魚類行為研究提供了良好的語義特征表示。

參考文獻

李健源, 柳春娜, 盧曉春, 等, 2024. 構(gòu)建VED-SegNet分割模型提取魚類表型比例[J]. 農(nóng)業(yè)工程學報, 40(3):175-183.

田志新, 廖薇, 茅健, 等, 2022. 融合邊緣監(jiān)督的改進Deeplabv3+水下魚類分割方法[J]. 電子測量與儀器學報, 36(10):9.

Amir S, Gandelsman Y, Bagon S, et al, 2021. Deep vit features as dense visual descriptors[J]. arXiv:2112.05814.

Caron M, Touvron H, Misra I, et al, 2021. Emerging properties in self-supervised vision transformers[J]. arXiv:2104.14294.

Dong J, Shangguan X, Zhou K, et al, 2023. A detection-regression based framework for fish keypoints detection[J]. Intelligent Marine Technology and Systems, 1(1):9.

Dosovitskiy A, Beyer L, Kolesnikov A, et al, 2020. An image is worth 16x16 words: transformers for image recognition at scale[J]. arXiv:2010.11929.

Islam M J, Edge C, Xiao Y, et al, 2020. Semantic segmentation of underwater imagery: dataset and benchmark[J]. arXiv:2004.01241v3.

Kr?henbühl P, Koltun V, 2012. Efficient inference in fully connected crfs with gaussian edge potentials[J]. arXiv:1210.5644.

Li J, Liu C, Yang Z, et al, 2023. RA-UNet: an intelligent fish phenotype segmentation method based on ResNet50 and atrous spatial pyramid pooling[J]. Frontiers in Environmental Science, 11:1201942.

Liu Z, Lin Y, Cao Y, et al, 2021. Swin transformer: hierarchical vision transformer using shifted windows[J]. arXiv:2103.14030.

Saleh A, Laradji I H, Konovalov D A, et al, 2020. A realistic fish-habitat dataset to evaluate algorithms for underwater visual analysis[J]. Scientific Reports, 10(1):14671.

Tomar S, 2006. Converting video formats with FFmpeg[J]. Linux journal, (146):10.

Yang L, Liu Y, Yu H, et al, 2021. Computer vision models in intelligent aquaculture with emphasis on fish detection and behavior analysis: a review[J]. Archives of Computational Methods in Engineering, 28(4):1-32.

Yu C, Fan X, Hu Z, et al, 2020. Segmentation and measurement scheme for fish morphological features based on mask R-CNN[J]. Information Processing in Agriculture,7(4):523-524.

Yu Y, Zhang H, Yuan F, 2023. Key point detection method for fish size measurement based on deep learning[J]. IET Image Processing, 17(14):4142-4158.

Zhang Y, Zhang F, Cheng J, et al, 2021. Classification and recognition of fish farming by extraction new features to control the economic aquatic product[J]. Complexity, (1):5530453.

Zhi S, Laidlow T, Leutenegger S, et al, 2021. In-place scene labelling and understanding with implicit scene representation[J]. arXiv:2103.15875.

(責任編輯" "熊美華)

A Semantic Segmented Framework for Extracting Fish Features from Videos

LI Xiao‐yang1, CHEN Jian1, CHANG Jian‐bo2

(1. Electronic Information School, Wuhan University, Wuhan 430072, P.R. China;

2. School of Water Resources and Hydropower Engineering, Wuhan University, Wuhan 430072, P.R. China)

Abstract:Fast and accurate extraction of information on features of aquatic organisms from video images is a research hotspot that draws from information science and ecological research. In this study, we developed a fish feature extraction method based on weakly supervised semantic segmentation and the vision transformer. Our aim was to realize the segmentation and extraction of three types of fish morphological regions (body, head, and fins) without the need for pre-training or fine-tuning. First, a self-attention model was created using a DeepFish segmentation dataset, and then applied to extract information from underwater videos of Schizothorax oconnori. Results show that the method we proposed effectively extracted the three morphological features of the test fish, appropriately segmenting, marking and labeling the three features. In general, the process is highly efficient, accurate, and smoothly labeled the semantic features. It is a low-cost, highly efficient method for the practical application of artificial intelligence technology in the monitoring of fish and other aquatic organisms.

Key words: weakly supervised learning; semantic segmentation; vision transformer; fish feature extraction

猜你喜歡
語義分割
基于全卷積網(wǎng)絡的肝臟CT語義分割
軟件工程(2020年6期)2020-06-21 15:16:16
基于弱監(jiān)督學習的圖像語義分割方法綜述
基于語義分割的室內(nèi)動態(tài)場景同步定位與語義建圖
結(jié)合語義邊界信息的道路環(huán)境語義分割方法
計算機應用(2019年9期)2019-10-31 09:21:33
一種改進迭代條件模型的遙感影像語義分割方法
軟件導刊(2019年1期)2019-06-07 15:08:13
基于積神經(jīng)網(wǎng)絡的圖像著色方法研究
基于全卷積網(wǎng)絡FCN的圖像處理
基于語義分割的車道線檢測算法研究
基于深度學習的太陽能電池板缺陷檢測模型設計
一種基于多尺度角點檢測的語義分割網(wǎng)絡
定州市| 肇州县| 兴义市| 祁连县| 龙井市| 嵊州市| 静海县| 陇西县| 高淳县| 卢氏县| 通江县| 巴马| 临颍县| 神木县| 永靖县| 沈阳市| 青河县| 宁晋县| 东城区| 崇州市| 天等县| 益阳市| 锡林浩特市| 南乐县| 怀柔区| 咸丰县| 柳河县| 游戏| 延津县| 托里县| 来安县| 台江县| 张家口市| 瑞丽市| 额尔古纳市| 松潘县| 时尚| 正定县| 麟游县| 景洪市| 丹巴县|