姬壯偉
(長治學院計算機系,山西長治 046011)
語義分割是當下熱門研究領域,在如今智能化的社會中,多個領域都有廣泛的應用,自動駕駛中對路況的語義分析,地理信息中對不同地形的語義理解,醫(yī)學影像中對細胞和組織的語義分割等,這對分割模型的分割進度和分割效率都有很高的要求[1-7]。
分割模型的設計起初使用了很多方法去提高分割的精度,F(xiàn)CN 首次像素級別端到端的對圖像進行分割,并將底層特征和淺層特征融合上采樣提高分割效率;SegNet 引起嚴格對稱編解碼結構模型的熱潮;DeepLab 提出多尺度特征融合和空洞卷積,將分割精度提至空前的高度。但同時模型的深度越來越深,復雜度越來越高,參數(shù)量越來越大,分割效率很低,難以應用在諸多移動設備的應用環(huán)境中。
保證模型的分割精度需同時可以提取原圖的空間信息和上下文信息,空間信息在卷積網(wǎng)絡的淺層,能有效的對各分割對象進行分割定位,但由于淺層網(wǎng)絡感受野小,上下文信息不全,難以準確的對分割對象進行分類,而對于卷積網(wǎng)絡的深層,通過多次下采樣獲得了對原圖像足夠大的感受野,提取了分割對象的語義,但相對的,同時丟失了分割對象的空間信息,難以定位分割對象邊界。模型對原圖像的特征提取分為兩條路徑,即空間特征提取路徑和上下文信息提取路徑,最后融合圖像的空間和上下文信息,上采樣完成端到端的圖像分割預測。同時為了減少模型的參數(shù)量,每次常規(guī)卷積之前,都使用1×1 卷積減少通道數(shù),并通過全局池化搭建殘差通達,降低模型的過擬合。
使用camvid 數(shù)據(jù)集進行測試,在驗證集和測試集分別得到了59.3%和58.6%的MIOU,參數(shù)量僅為5.8 M,F(xiàn)PS 可達到15.2,相比DeepLab 經(jīng)典分割模型,精度雖然降低了幾個百分點,但參數(shù)量降低了94%。
Camvid 數(shù)據(jù)集是一個關于道路和駕駛場景的數(shù)據(jù)庫,最初是通過安裝在汽車儀表板上的960×720 分辨率攝像頭捕獲的五個視頻序列,其中一個用1 fps 的速度,剩余四個用15 fps 的速度對序列采樣共701 幀。該數(shù)據(jù)集共32 個分割對象類別,依次用手動注釋,如建筑物、墻壁、樹、人行道、標志、行人、汽車等。
分割模型架構如圖1所示,分兩條路徑對原圖像進行特征提取。左邊為空間位置信息提取路徑,對原圖像進行3 次2 倍下采樣,得到分割對象空間位置特征圖;右邊為上下文信息提取路徑,對原圖像進行4 次4 倍快速下采樣,得到分割對象上下文語義信息分割圖,相比原圖像,特征圖縮小32 倍,保證了足夠的感受野大小,保留了分割對象的語義信息。在兩種不同特征圖融合階段,首先將語義信息特征圖進行4倍上采樣至同樣尺寸大小,再和空間信息特征圖做相加融合,最后上采樣至原圖像大小進行輸出測試分割效果圖。
圖1 雙路徑模型架構圖
語義分割需要模型完成兩個任務,即分割對象的定位和分類??臻g路徑主要為定位任務,由于下采樣次數(shù)少,分割對象基本保留原有的空間位置信息,在上采樣還原時能確保分割對象的空間位置正確;上下文路徑主要為分類任務,特征圖是經(jīng)過多次下采樣生成,對原圖像像素具有足夠大的感受野,各分割對象之間的聯(lián)系信息幫助判斷分割對象的所屬類別,保留了足夠多的分割對象語義信息幫助判斷類別。通過融合空間和上下文信息,提高模型的分割精度。
卷積操作的參數(shù)量取決與卷積核的大小,在卷積操作中,通常圖像尺寸縮小一倍,通道數(shù)便增加一倍,通道數(shù)的急劇增加將導致模型參數(shù)量劇增。因此專門設計空間和上下文路徑的卷積操作,如圖2 所示,SPConv 為空間路徑卷積模塊,可看出在真正卷積操作之前,首先使用1*1 卷積減少特征圖通道數(shù),卷積后再使用1*1 卷積恢復通道數(shù);除此之外,在卷積路徑外另加殘差路徑,殘差路徑僅使用最大值池化減低圖像分辨率,以此來防止模型的過擬合。TextConv 為上下文路徑卷積模塊,為了快速下采樣,每一個殘差路徑則對應兩個連續(xù)的下采樣操作。
圖2 卷積模塊示意圖
使用camvid 數(shù)據(jù)集分別訓練單條路徑的編解碼模型和雙路徑模型,并分別使用驗證集和測試集計算模型預測的MIOU,同時統(tǒng)計各模型的參數(shù)量等信息。兩種模型實驗同時在RTX3080 設備上進行,統(tǒng)計兩種模型的信息如表1 所示,從表中可以看出,雖然雙路徑模型的分割精度相比下降了將近5 個百分點左右,但參數(shù)量減少了94.8%,每秒分割圖像幀率也得到了顯著提高,足以應用在很多移動設備分割環(huán)境之中。
表1 單雙路徑模型對比表
所提出的語義分割模型以輕量化為目的,使用單點卷積精簡網(wǎng)絡模型參數(shù),同時為了應對參數(shù)量下降帶來的分割精度降低的問題,設計了兩條路徑分別提取分割對象的空間位置信息和語義信息,保證模型的分割精度在可接受范圍。通過實驗證明所提模型可在保證精度的前提下,極大減少模型復雜度,提高分割效率。