張佳澤,張勝茂,王書獻,楊昱皞,戴 陽,熊 瑛
1. 上海海洋大學 信息學院,上海 201306
2. 中國水產科學研究院東海水產研究所/農業(yè)農村部漁業(yè)遙感重點實驗室,上海 200090
3. 大連海洋大學 航海與船舶工程學院,遼寧 大連 116023
4. 江蘇省海洋水產研究所,江蘇 南通 226007
中國毛蝦 (Acetes chinensis) 又稱蝦皮,隸屬于櫻蝦科、毛蝦屬,為浮游性小型蝦類,分布于我國渤海、黃海、東海沿岸及南海北部沿岸,是我國重要的海洋經濟漁業(yè)資源[1]。我國毛蝦捕撈始于20世紀50年代,隨著沿海經濟的開放,捕撈量持續(xù)上升,從1958年起(1.25×106t)持續(xù)平穩(wěn)上漲,1964年驟降至6.54×105t,之后連續(xù)20年緩慢增長至1985年的2.09×105t;而后開始迅速增長,至2016 年達到 7.2×105t,此后捕撈量驟降,2018 年降至 4.25×105t[2]。2020年起,為了保護毛蝦資源、實現(xiàn)生態(tài)循環(huán)可持續(xù)發(fā)展的戰(zhàn)略目的,我國開始實行毛蝦限額捕撈[3-4]。
深度學習是機器學習領域中一個新的研究方向,它被引入機器學習使其更接近于最初的目標——人工智能,目前應用最廣的是卷積神經網(wǎng)絡系統(tǒng)(Convolutional neural networks, CNN),其在文字、語音、圖片和視頻等領域應用廣泛,取得了很大的進步,正逐漸深入到海洋等研究領域中[5]。近年來,卷積神經網(wǎng)絡在特征學習方面應用眾多,各種預訓練卷積網(wǎng)絡 (ConvNets) 模型被用于提取圖像特征。這些圖像特征產生于網(wǎng)絡最后幾個全連接層的激活值,在遷移學習任務中表現(xiàn)良好 。但由于缺少運動建模,基于圖像的深度特征并不能直接適用于視頻[6-7]?;谏疃葘W習的行為識別技術中最重要的就是行為識別網(wǎng)絡,行為識別網(wǎng)絡通常以視頻流為數(shù)據(jù)源,綜合考察一個時間序列上的圖像信息,繼而實現(xiàn)一個完整的行為識別[8]。在深度學習應用于該領域前,耿家利[9]使用漁船監(jiān)控系統(tǒng)(Vessel Monitoring System, VMS) 存儲的軌跡數(shù)據(jù),利用Fisher判別模型對漁船各種行為對應的軌跡模式進行特征提取,并建立判別模型,依據(jù)漁船當前的軌跡數(shù)據(jù)自動判斷漁船的作業(yè)行為。Zhang等[10]主要依靠船速、航行時間及漁船軌跡和捕撈努力量等,對捕撈漁船行為進行了識別和分析,并對捕撈產量及資源空間分布進行了統(tǒng)計。
基于深度學習的行為識別方法中,寧耀[11]首次提出了基于卷積長短期記憶神經網(wǎng)絡 (Convolutional LSTM Network, ConvLSTM) 的漁船行為識別方法,該方法通過CNN搭建了4次卷積操作和1次池化操作并對LSTM層進行特征時間相關性學習,最終經過2次全連接層和Softmax層得到漁船行為的分類結果。Tran等[12]認為2D卷積神經網(wǎng)絡不能很好捕獲時序信息,因此,提出了C3D(Convolutional 3D) 卷積神經網(wǎng)絡,采用了小卷積核進行特征提取,并得到比2D更好的分類結果。Carreira[13]基于Inception-V1模型,將2D卷積擴展到3D卷積,提出了I3D模型,但該模型參數(shù)量巨大,對硬件要求較高。
傳統(tǒng)的捕撈漁船行為識別方法主要依靠船速、航行時間和軌跡進行判斷,具有一定的局限性,而深度學習在目標檢測和識別領域有較為突出的表現(xiàn)及應用前景[14-19]。本文搭建了一種3-2D融合的卷積神經網(wǎng)絡模型,利用采集到的捕撈漁船視頻數(shù)據(jù),經過篩選、標記及壓縮、分割等預處理后,通過訓練模型實現(xiàn)捕撈漁船視頻數(shù)據(jù)行為特征的提取和分類。
根據(jù)《2021年伏休期間特殊經濟品種專項捕撈許可和捕撈輔助船配套服務安排的公示》,毛蝦限額捕撈點為遼寧、山東、江蘇三地海域[20]。限額捕撈時間為2021年6月15日—7月15日,本文毛蝦捕撈漁船長36.9 m、噸位160 t、主機功率220 kW,網(wǎng)具為張網(wǎng) (一口網(wǎng)的囊袋是 3~5 個) (圖1)。
圖1 毛蝦限額捕撈張網(wǎng)示意圖Fig. 1 Schematic diagram of net fishing quota for A. chinensis
本研究利用型號為DS-2CD7A47EWD-XZS (D)的海康威視高清攝像頭進行4個方向的拍攝,4個攝像頭的分辨均為 2 560×1 440 (圖2);其中,在前甲板駕駛艙上方安裝2個攝像頭分別為Camera 01和 Camera 03,后甲板安裝 Camera 02,前甲板旗桿上安裝 Camera 04,Camera 01 和 Camera 03 分別從左、右2個角度拍攝了作業(yè)人員的后方、收放網(wǎng)以及鐵錨的狀態(tài),Camera 04主要拍攝人員正方向、鐵錨、絞機及收放網(wǎng)狀態(tài)的操作,這3個攝像頭從不同角度記錄了捕撈作業(yè)方式的全過程,而Camera 02作為輔助,主要拍攝后甲板其他船只的??亢托旭偅鳛椴稉茲O船??亢托旭偟呐袛嘁罁?jù)之一,拍攝時段為6月17日—7月7日。
圖2 捕撈漁船安裝攝像頭示意圖Fig. 2 Schematic diagram of camera installation on fishing vessel
捕撈漁船一般在白天作業(yè),有時等待收網(wǎng)時間較長,偶爾也在晚上作業(yè)。為了保證數(shù)據(jù)的有效性,剔除晚上無作業(yè)或晚上停船等行為的視頻,本文將毛蝦捕撈漁船劃分為5種行為 (圖3):Behavior 1代表停靠碼頭,漁船旁有明顯的碼頭和人員,周邊有同樣靠岸的漁船;Behavior 2代表漁船航行,左右兩側浪花明顯,且尚未下張網(wǎng);Behavior 3代表下網(wǎng),捕撈漁船左側有明顯浪花說明船在航行,同時前甲板上人員開始下網(wǎng);Behavior 4代表收網(wǎng),捕撈漁船停在海中,且前甲板船員開始用絞機和人工進行收網(wǎng);Behavior 5代表等待,捕撈漁船停在海中靜止,且前甲板上沒有張網(wǎng),船員也陸續(xù)離開前甲板。其中,下網(wǎng)約30 min,收網(wǎng)約2 h,每天下網(wǎng)3~4次,出海作業(yè)共計20 d。
圖3 捕撈漁船5種行為圖Fig. 3 Five behavior diagrams of fishing vessels
對攝像頭下載的數(shù)據(jù)進行分割、裁剪處理,按捕撈漁船行為劃分為時間長短不一的視頻數(shù)據(jù),作為訓練、驗證、測試模型的數(shù)據(jù)集。漁船的5種行為對應4個攝像頭視頻數(shù)量如圖4,其中Camera 02位于后甲板,因此攝像頭不能拍攝下網(wǎng)和收網(wǎng)的全過程。
圖4 捕撈漁船初始拍攝數(shù)據(jù)統(tǒng)計圖Fig. 4 Statistics chart of initial shooting data of fishing vessel
針對數(shù)據(jù)不均勻且漁船為了節(jié)約用電經常關停攝像頭等問題,需要對數(shù)據(jù)進行人工篩選,剔除模糊不清和斷幀的數(shù)據(jù),將4個攝像頭數(shù)據(jù)整合進行重新統(tǒng)計。如表1所示,共使用視頻數(shù)據(jù)集:???0個、航行110個、下網(wǎng)110個、收網(wǎng)110個、等待80個;樣本數(shù)據(jù)集相對均勻。使用PotPlayer軟件進行幀數(shù)讀取和txt文本對數(shù)據(jù)進行記錄。分別記錄視頻路徑、幀數(shù)和捕撈漁船標簽并標記出每個數(shù)字對應的行為狀態(tài) (表2,僅列出部分數(shù)據(jù)供參考了解標簽格式)。由于1個視頻中會出現(xiàn)多個狀態(tài),因此視頻幀數(shù)需要銜接,如表2中第2和第3行表示對同1個視頻進行行為劃分,其中0~11 940 幀代表航行狀態(tài),11 940~50 093 幀表示下網(wǎng)狀態(tài),分別在文本中記錄這兩條數(shù)據(jù)。視頻數(shù)據(jù)標記完成后,將其分割成每100幀為一個批次,并在txt文本中記錄該信息,因此可統(tǒng)計到5種行為視頻數(shù)據(jù)的批次圖 (圖5)。
表1 選用視頻數(shù)據(jù)Table 1 Selection of video data
表2 制作數(shù)據(jù)標簽Table 2 Production of data labels
圖5 每100幀為一批次讀取數(shù)據(jù)量Fig. 5 Read data every 100 frames as a batch
由于攝像頭拍攝的是1 080 p的高清視頻數(shù)據(jù),會使得需要的網(wǎng)絡結構更復雜,還會出現(xiàn)訓練時間過長及超參數(shù)等問題。因此將視頻數(shù)據(jù)進行二次處理,壓縮成大小為256×256像素,在減小網(wǎng)絡訓練壓力的同時提升訓練速度。
本文使用3-2D融和模型來學習時空特征,如圖6所示為搭建的網(wǎng)絡結構圖,模型包含1個3D卷積層、6個2D卷積層、1個1D卷積層以及2個全連接層和分類層 (Softmax)。
圖6 3-2D融合模型的卷積神經網(wǎng)絡結構圖Fig. 6 Convolutional neural network structure diagram of 3-2D fusion model
在第1卷積層,首先進行3D網(wǎng)絡卷積,網(wǎng)絡輸入為2×100×256×256×3的結構,即每批大小(batch_size) 為2,也就是每次輸入2個視頻,每次處理100幀數(shù)據(jù),每幀輸入圖像大小為256×256,其中圖像為RGB 3種顏色的彩色圖像故為3通道輸入,進一步采用3×3×3的卷積核進行卷積初始輸入通道為100輸出200,步長為 (1,2,2) 使其降至二維處理,且經過批量歸一化 (Batch normalization, BN)[21]處理以及帶參數(shù)的線性修正單元 (Parametric rectified linear unit, PRelu)[22]作為激活函數(shù)。
在第2—第7層,依次進行6次2D卷積使用3×3卷積核、步長為 (2,2),進一步提取到特征,輸出2×1 000×2×2,使得圖像尺寸降至2×2,之后進行BN層和PRelu激活。
在第8層,經過1次全連接和BN以及PRelu使得尺寸降低至1×1,最后經過1次全連接層和分類層輸出各個視頻所屬的行為狀態(tài)。其中分類層采用了Softmax函數(shù)計算捕撈行為的概率值,其表達式為[23]:
式中:vi為第i個節(jié)點的輸出值;vj為第j個節(jié)點的輸出值;c為總的類別個數(shù);假設當前索引為i,則Si為當前類別節(jié)點輸出指數(shù)與所有類別節(jié)點輸出指數(shù)和的比值,即當前捕撈漁船行為的判斷概率值。
BN通過將每一層網(wǎng)絡的輸入進行歸一化操作,保證輸入分布的均值與方差固定在一定范圍內,減少了網(wǎng)絡中的內部協(xié)變量偏移問題,并在一定程度上緩解了梯度消失,加速了模型收斂。由于BN在總體樣本中引入了隨機噪聲,這不僅使得模型具有正則化效果,也使得網(wǎng)絡的參數(shù)和激活函數(shù)等更具魯棒性。其主要核心思想表達式為[24]:
式中:xi為原始輸入數(shù)據(jù);μ為均值;σ2為方差;ε為標準差;︿xi為經過標準化后的數(shù)據(jù)。
在過去的幾年,線性修正單元 (Rectified Linear Unit, ReLU) 常在卷積神經網(wǎng)絡中當作激活函數(shù)使用,其表達式為:
ReLU函數(shù)將所有的數(shù)據(jù)變換為不小于0的數(shù),這樣使得計算更加方便,并且由于其計算復雜度低且沒有指數(shù)等運算的優(yōu)點,要比其他激活函數(shù)計算速度快。但是由于ReLU在x<0時梯度為0,這樣就導致負的梯度在經過ReLU函數(shù)時被設為0,而且該神經元可能不再會被任何數(shù)據(jù)激活。如果發(fā)生該情況,那么該神經元之后的梯度將永遠為0,也就是ReLU神經元已壞死,不再對任何數(shù)據(jù)有所響應,被稱之為“硬飽和問題”,因此針對這種情況,PRelu函數(shù)做了很好地優(yōu)化,其公式表達式為[25]:
式中:ai是一個初始參數(shù),且在給定范圍內隨機抽取的值,在訓練的短時間內即可穩(wěn)定下來。該函數(shù)成功解決了負數(shù)問題,使得負梯度被很好地應用于模型訓練,解決了梯度的“硬飽和問題”,因此本文選擇PRelu作為激活函數(shù)。
將漁船采集好的視頻數(shù)據(jù),輸入到已搭建的3-2D融合模型,經過240 h可以得到模型結果。
本文在ubuntu系統(tǒng)20.04版本的遠程服務器上運行,環(huán)境為 Python 3.6、CUDA 10.1,以及 pytroch 1.4.0深度學習平臺。其硬件配置為NVIDIA Tesla V100S-PCIE,運行內存為 32 GB。輸入視頻數(shù)據(jù)像素大小為256×256,初始學習率設置為0.001,分為5類,使用5個進程同時運行,批處理 (batch) 設置為8,每經過105次迭代將學習率降低0.01%,數(shù)據(jù)使用8∶2隨機選取進行訓練和測試,經過1.1×106次迭代得到最終漁船行為模型。
在深度學習模型中,本文主要采用召回率(Prec)、精確率 (Ppre)、損失率 (Ploss)[26]、平衡 F 分數(shù) (PF1)、查準率和查全率 (P-R) 曲線[27]及平均精確度 (PAP) 等指標對模型進行評價。
以下各個指標計算公式主要用到4個數(shù)據(jù):NTP、NFP、NTN和NFN。NTP即 True Positive,指將正樣本正確預測出來的數(shù)量;NFP即False Positive,指將負樣本錯誤預測為正樣本的數(shù)量;NTN即True Negative,指將負樣本正確預測出來的數(shù)量;NFN即False Negative,指將正樣本預測為負樣本的數(shù)量[28-31]。
Prec是正確預測出來的正樣本數(shù)量和所有的正樣本數(shù)量的比率,其表達式為:
Ppre指正確預測出來的正樣本數(shù)量占所有預測出來的正樣本數(shù)量的比率,其表達式為:
Ploss指真實值與預測值之間的差,損失值越小表示結果距離真實值越近,本文主要使用了交叉熵損失函數(shù),其表達式為:
式中:q(x) 為取值;p(x) 為對應概率值。
F1-score是Prec和Ppre的調和值,綜合考慮了召回率和精確率對實驗數(shù)據(jù)的影響,防止某一指標主導實驗結果,其表達式為:
P-R曲線可以直觀地顯示出樣本的精確率和查全率在總體數(shù)據(jù)上的關系。
AP是類別的精度的平均值,是模型評價的重要指標之一,其中AP主要是P-R曲線與坐標軸圍成面積之和,其表達式如下:
式中:p(r)為函數(shù)P-R曲線函數(shù)。
模型經過1.1×106次訓練的結果如圖7-a所示,該圖顯示了精度與迭代次數(shù)的關系,隨著迭代次數(shù)增加到105次,模型識別視頻數(shù)據(jù)行為類別的精度逐漸穩(wěn)定在0.99以上;同理,圖7-b顯示了召回率和迭代次數(shù)的關系,同樣在約105次時,模型的召回率即識別分類當中正確分類的已經穩(wěn)定在0.98以上;圖7-c顯示了損失率與迭代次數(shù)的關系,隨著迭代次數(shù)的增加,模型的損失率也逐漸降低,最終穩(wěn)定在0.02以下。
圖7 訓練模型結果圖Fig. 7 Result graph of training model
圖8顯示了精度與召回率的關系,隨著召回率的增加,精度逐漸下降,所以需要找到精度和召回率的一個平衡點,且曲線與坐標軸面積之和等于AP。因此,分別列出了幾個主要指標對應訓練和測試的結果,測試時間為 35.46 ms·幀?1(表3)。各個指標結果均表明該模型具有很好的泛化能力。
圖8 精度與召回率的關系圖Fig. 8 Relationship between precision rate and recall rate
表3 模型評價主要指標及結果Table 3 Main indicators and results of model evaluation
為了驗證實驗結果的有效性,選取一段視頻通過預處理進行測試分析,毛蝦限額捕撈漁船的5種作業(yè)類別和對應判別的類別概率值見圖9。
圖9 捕撈漁船結果測試圖片F(xiàn)ig. 9 Test picture of fishing vessel result test picture
捕撈漁船的行為劃分對于限額捕撈研究具有重要意義。本文對2D和3D模型進行研究[32],分析總結出2D卷積神經網(wǎng)絡在空間上并不能很好捕獲時序信息,在時序較強的數(shù)據(jù)方面會丟失部分信息,造成模型的精度不高;而3D卷積神經網(wǎng)絡分別在空間和時間上進行卷積,可以更好地保留數(shù)據(jù)的時空特征[33],因此精度夠高,但由于參數(shù)量過大,使得訓練速度較慢,尤其是在攝像頭等限定模型大小的設備中,不易被廣泛應用。因此本研究設計出兩者結合的方式,既可保留數(shù)據(jù)的有效時序信息,又可加快訓練速度,實現(xiàn)精度高和速度快的雙重目標。
捕撈漁船行為識別既是水產學研究中的主要課題之一,又是限額捕撈的主要研究方向。傳統(tǒng)的捕撈漁船研究方法是指基于船舶自動識別系統(tǒng) (Automatic Identification System, AIS) 和 VMS 數(shù)據(jù)對捕撈漁船類別和行為進行識別,AIS和VMS主要記錄了漁船的位置、航速、航向以及時間信息且連續(xù)自主的發(fā)送漁船信息,通過衛(wèi)星中轉獲得漁船的實時信息,及時了解漁船的動態(tài)信息[34]。國外學者Kroodsma等[35]利用獲取的AIS數(shù)據(jù)經過CNN 算法識別了包括拖網(wǎng)漁船、刺網(wǎng)漁船、延繩釣漁船等6種類型漁船,識別率最高可達95%。由于CNN算法自身的局限性容易引起過擬合現(xiàn)象,故卷積受到了網(wǎng)絡限制,本實驗與其相比精度提高了0.35%,且節(jié)約了大量的數(shù)據(jù)處理時間。Guan等[36]對南海北部基于AIS數(shù)據(jù)進行前期的數(shù)據(jù)處理和貝葉斯優(yōu)化算法,選擇出貢獻率較大的多個特征,經過LightGBM模型訓練得到最優(yōu)的分類模型,但是由于模型自身缺陷對噪聲點比較敏感或產生較深的決策樹,因此易產生過擬合現(xiàn)象。裴凱洋等[37]依據(jù)捕撈漁船的作業(yè)原理和狀態(tài)類別進行劃分,利用BP神經網(wǎng)絡將速度、角度和距離作為輸入,輸出漁船的行為類別;與之相比本研究采用了更深層次的網(wǎng)絡且加入BN等層,大幅提升了網(wǎng)絡訓練速度且防止了過擬合現(xiàn)象的發(fā)生,整體精度提升了5.35%;相較于單獨使用BP神經網(wǎng)絡,精度提升明顯。相比于傳統(tǒng)的研究方法,本研究將更直觀的視頻方式輸入到網(wǎng)絡中,保留了數(shù)據(jù)的時序信息,使得捕撈漁船劃分多個行為的信息和時間直接關聯(lián),并且在數(shù)據(jù)預處理過程中,可以剔除其他因素影響,如補給造成的停航問題等。但本研究仍存在一些不足,主要體現(xiàn)在研究的深度和廣度方面,今后可基于AIS和VMS數(shù)據(jù)對資源分布、捕撈漁船作業(yè)方式、漁場預測、捕撈努力量和捕撈時長計算及其規(guī)律作進一步研究[38-40]。本研究更適用于快速確定捕撈漁船的行為類別,提高作業(yè)行為劃分的準確度和效率。為了評估所提供方法的分類性能,本文研究了國內外不同學者的評估方法,從召回率、精確率、損失率、平衡F分數(shù)、查準率、查全率和平均精確度等多個方面進行了測試,所用模型對比已有模型在行為劃分識別方面有較好的實驗結果,在時空特征表示方面具有可行性和有效性。
捕撈漁船的行為劃分,有助于精細化捕撈管理,捕撈行為可輔助管理控制分析。捕撈行為的精確劃分,對捕撈管理有一定的促進作用,通過捕撈行為分析,可統(tǒng)計出下網(wǎng)、收網(wǎng)、中間等待等時間,提取漁船的捕撈網(wǎng)次,計算出出航一次的捕撈努力量。從管理層面出發(fā),可根據(jù)捕撈漁船的行為規(guī)定出海捕魚的時間、次數(shù)以及每次捕撈的時長,對限額捕撈可起到精準化控制的作用。此外,根據(jù)捕撈漁船行為劃分,可以建立有效的漁業(yè)資源監(jiān)測與評估體系。據(jù)此加強船員在捕撈方式和捕撈時長上的培訓,并制定相關制度,加強對船員的管理。
本研究在實驗推進中仍存在一些問題:1) 實驗中一些復雜情況未及時劃分,且標簽受人為因素影響,不同人劃分的行為存在一定差異,因此結果易受主觀因素影響。2) 船上不可控因素較多,如船員的行為不受控制和夜間作業(yè)燈光等問題。傍晚,船員有時會出現(xiàn)在前甲板上運轉機器且在微弱的燈光下作業(yè),雖然持續(xù)時間短,但是這些因素易影響分類的準確性,從而影響實驗結果。3) 前甲板上Camera 01和Camera 03安裝的角度偏高,有時不能準確拍攝到下網(wǎng)的結束時間,因此給人工標記帶來了一定困難,使實驗結果存在一定誤差。4) 限額捕撈同時受到了時空因素的影響,如拍攝數(shù)據(jù)中包含夜間作業(yè),夜間的視頻數(shù)據(jù)質量較差,對實驗結果產生一定影響,同時受到漁獲物容器位置的影響,多次從視頻中看到漁獲物較少甚至看不到漁獲物,給漁獲物的統(tǒng)計帶來一定困難。5) 該模型雖然訓練精度較高,也縮短了訓練時間,但是由于服務器I/O讀寫效率低,使得實際訓練時間較長,理論上訓練時間可以縮短1/4。本研究依據(jù)部分船員的捕撈經驗,將捕撈漁船的行為劃分為5種,但是由于出海情況復雜多變,且沒有更加完整健全的分類研究過程,因此分類還不夠完善?,F(xiàn)階段仍主要依據(jù)船員的捕撈經驗和篩選來劃分漁船行為,使得模型經過訓練獲得相對準確的結果。
本文以捕撈漁船行為檢測為出發(fā)點,采用4個攝像頭拍攝漁船視頻數(shù)據(jù),結合2D和3D模型各自的優(yōu)缺點,構建了3-2D融合的檢測模型,提取了視頻數(shù)據(jù)特征進行訓練檢測,解決了漁船行為分析的問題。通過驗證,該模型有較好的實驗結果,對我國漁業(yè)監(jiān)控以及毛蝦漁船的行為分析有重要意義和關鍵作用。
在研究過程中發(fā)現(xiàn),設計思路時未考慮到鐵錨的數(shù)量,因此該部分沒有獨自進行標簽,在未來可以考慮統(tǒng)計鐵錨的數(shù)量和張網(wǎng)在海里的作業(yè)時間等。其次,由于網(wǎng)絡參數(shù)仍較多及網(wǎng)絡訓練次數(shù)過多的問題使得模型較大,無法業(yè)務化應用,未來實際應用時可以考慮更換較小的網(wǎng)絡模型進行訓練,同時添加多層網(wǎng)絡,防止過擬合現(xiàn)象的發(fā)生。下一步工作中,將調整攝像頭角度、重新安裝攝像頭,針對收集漁獲進行定點拍攝,增加一個Behavior 6,作為漁船處理漁獲物的行為,通過近似計算估計漁獲物產量,為限額捕撈提供更豐富的數(shù)據(jù)參考。最后,網(wǎng)絡可以通過引入增強模塊 (Context enhancement module, CEM) 和空間注意力模塊 (Spatial Attention Module, SAM) 使多尺度特征更加聚集,特征區(qū)分性也更加明顯,從而使得模型更加完善。