基于輕量級UNet的復雜背景字符語義分割網(wǎng)絡

2024-03-05 12:13:16顧天君孫陽光林虎

中南民族大學學報（自然科學版） 2024年2期

顧天君，孫陽光，林虎

（中南民族大學 a.計算機科學學院；b.湖北省制造企業(yè)智能管理工程技術(shù)研究中心，武漢 430074）

文字作為人與人基礎(chǔ)的交流手段，是信息重要的載體.隨著信息產(chǎn)業(yè)的迅速發(fā)展，文字迫切需要信息化，進而適應日益繁多的需求.現(xiàn)階段關(guān)于光學字符識別（Optical Character Recognition， OCR）的研究和應用已經(jīng)成熟，其利用光學技術(shù)和計算機技術(shù)進行字符識別，改變了我們的生活.例如在學習和工作中，只需要通過軟件掃描紙質(zhì)文檔就可以生成其電子檔版本，且正確率很高，豐富了交流手段并且降低了溝通成本.而現(xiàn)有的OCR 技術(shù)對于復雜背景下的字符識別具有應用局限性.出于提高復雜背景下文字識別準確率的考慮，研究出一種適用于復雜背景的字符分割算法符合現(xiàn)階段的需要.

2014年全卷積網(wǎng)絡（Fully Convolutional Networks，F(xiàn)CN）實現(xiàn)對圖像端到端的分割，語義分割技術(shù)快速發(fā)展并被廣泛應用于各個領(lǐng)域，如：醫(yī)學圖像［1-3］等，并在其快速發(fā)展過程中產(chǎn)生了許多新的語義分割網(wǎng)絡，然而現(xiàn)有的語義分割網(wǎng)絡大多伴隨著計算效率或分割精度的問題［4-6］，為語義分割技術(shù)在字符采集行業(yè)中的應用造成了困難.

為了解決以上問題，本文提出了基于輕量級UNet的復雜背景字符語義分割網(wǎng)絡.該網(wǎng)絡的主要創(chuàng)新如下：首先，在特征提取模塊中拋棄了傳統(tǒng)卷積，應用深度可分離卷積［7-10］，減少了網(wǎng)絡的參數(shù)量以及計算量，并使用殘差學習模塊解決網(wǎng)絡退化問題［11-13］.其次，對低層特征與高層特征的上采樣結(jié)果進行特征融合，有效的結(jié)合了高層特征與低層特征的優(yōu)勢，具有較高的網(wǎng)絡分割精度.后續(xù)的實驗證明了本文網(wǎng)絡在復雜背景字符分割上的有效性.

1 技術(shù)原理

1.1 UNet

UNet 是一種基于編碼-解碼結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡，其具有兩個特點［14］：（1）多尺度的圖像信息，在網(wǎng)絡的編碼過程中不斷降低特征的分辨率以獲取不同尺度的特征，其中高層特征具有高語義，而低層特征具有高分辨率，使得UNet獲取到的圖像信息更加全面.（2）跳躍連接結(jié)構(gòu)，為解決特征上采樣產(chǎn)生的失真問題，在解碼過程中對低層特征以及高層特征的上采樣結(jié)果進行融合，特征融合結(jié)果結(jié)合高層特征的高語義以及低層特征的高分辨率，滿足了分割對這兩方面信息的需求.

1.2 特征提取模塊

特征提取模塊是語義分割任務的核心元素［15-17］，也是網(wǎng)絡的重要組成，因此很大程度上決定了網(wǎng)絡的規(guī)模大小.為了減少網(wǎng)絡的參數(shù)量以及計算量，本文網(wǎng)絡在特征提取模塊中將傳統(tǒng)卷積變?yōu)樯疃瓤煞蛛x卷積（Depthwise Separable Convolution， DSConv）.

深度可分離卷積過程可分為兩部分（如圖1 所示），首先考慮特征的區(qū)域，然后結(jié)合不同通道，實現(xiàn)了對輸入特征區(qū)域和通道的分離［18］.其中C、H、W 分別代表特征的通道數(shù)、高、寬，第一部分為逐通道卷積，逐通道卷積分開使用，卷積核數(shù)量與輸入通道數(shù)相同，實現(xiàn)了對輸入特征所有通道的逐一過濾，參數(shù)量以及計算量比傳統(tǒng)卷積更少；第二部分為逐點卷積，每個卷積核對輸入特征的每個通道都進行卷積計算，其計算結(jié)果是各個通道卷積結(jié)果的和，卷積核數(shù)量為輸入通道數(shù)與輸出通道數(shù)的乘積，實現(xiàn)了對過濾后所有通道的逐點卷積，用來獲取通道之間的信息，這種分解結(jié)構(gòu)相較傳統(tǒng)卷積減少了參數(shù)量和計算量.

圖1 DSConv基本結(jié)構(gòu)Fig.1 Basic structure of DSConv

UNet 的特征提取模塊含有兩層卷積，輸出通道數(shù)都與特征提取模塊輸出結(jié)果的通道數(shù)相同.本文為了進一步減少網(wǎng)絡的參數(shù)以及計算量，將第一層卷積的輸出通道數(shù)設(shè)置為特征提取模塊輸出結(jié)果通道數(shù)的一半，進一步減少了網(wǎng)絡特征提取模塊中的參數(shù)量以及計算量.

在神經(jīng)網(wǎng)絡中，后一層神經(jīng)元的輸入是前一層神經(jīng)元輸出的加權(quán)和，也就是說前一層的特征在后一層被抽象出來了，網(wǎng)絡的學習過程也就是調(diào)節(jié)和優(yōu)化各連接權(quán)重和閾值并不斷抽象的過程［19］.本文網(wǎng)絡在特征提取模塊中使用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積，減少了網(wǎng)絡卷積操作的參數(shù)量和計算量，使網(wǎng)絡更加輕量.但是深度可分離卷積是雙層結(jié)構(gòu)，與使用傳統(tǒng)卷積相比，特征提取模塊的卷積層數(shù)也增大了一倍，增大了網(wǎng)絡性能退化的風險.為了穩(wěn)定網(wǎng)絡反向傳播時各層的權(quán)重，解決網(wǎng)絡退化問題，本文在特征提取模塊中加入了殘差學習模塊.

綜上所述，本文特征提取模塊如圖2所示，其中X代表輸入的特征，模塊由直接映射路徑以及殘差路徑組成，其中殘差路徑由兩個DSConv 構(gòu)成，直接映射路徑由1 × 1 Conv 構(gòu)成，兩條路徑進行相加并通過ReLU激活函數(shù)即為特征提取模塊的輸出.

圖2 特征提?。‵E）模塊Fig.2 Feature extraction module

1.3 雙線性插值

雙線性插值（Bilinear Interpolation）是一種提高圖像分辨率的方法，其利用原圖像中目標點四周的四個真實存在的像素值來共同決定目標圖中的一個像素值，核心思想是在兩個方向分別進行一次線性插值［20］.傳統(tǒng)UNet采用反卷積方式進行上采樣，需要耗費大量的參數(shù)以及計算量.反卷積方式是通過卷積操作對圖像進行尺寸放大，而雙線性插值方法不需要參數(shù)且計算量與反卷積相比可以忽略不記，出于提升計算效率的考慮，本文使用雙線性插值進行上采樣.

由于雙線性插值是在圖像的原有基礎(chǔ)上對其像素進行擴充，因此不能改變圖像的通道數(shù).為了保證網(wǎng)絡跳躍連接結(jié)構(gòu)中低層特征與高層特征上采樣結(jié)果在通道數(shù)上的一致性，本文在上采樣前的特征提取階段中，通過卷積操作調(diào)整高層特征的通道數(shù)，使得上采樣結(jié)果的通道數(shù)與后面進行融合的特征相同.

1.4 特征融合模塊

特征在下采樣以及上采樣的過程中都會產(chǎn)生一定程度上的失真.與特征上采樣相比，下采樣的失真相對可以忽略，也保留了更多的細節(jié)信息，因此對特征上采樣中信息失真問題的處理是提升網(wǎng)絡性能的重要影響因素.UNet 在跳躍連接結(jié)構(gòu)中通過拼接的方式融合低層特征與高層特征的上采樣結(jié)果，以此減少特征上采樣的失真.但是這種方式不僅使得特征融合后輸出特征的通道數(shù)較大，增加了網(wǎng)絡的參數(shù)量以及計算量.而且這種簡單的特征融合方式不能充分體現(xiàn)網(wǎng)絡中高、低層特征的關(guān)系.綜上所述，本文將高層特征上采樣結(jié)果以及低層特征通過加權(quán)求和的方式進行融合.較拼接方式，特征融合結(jié)果減少了一半的通道數(shù)，間接減少了網(wǎng)絡的參數(shù)量以及計算量.

1.5 網(wǎng)絡模型結(jié)構(gòu)

本文網(wǎng)絡原理框架如圖3所示，網(wǎng)絡可分為四個階段：初始化（Initialize）、編碼（Encoding）、解碼（Decode）、輸出（Output）.在初始化階段，輸入尺寸為128 × 128的三通道待分割圖像，通過特征提取模塊提取語義信息，初始化階段共進行一次特征提取，最終輸出64 × 128 × 128的特征圖.在編碼階段，每次編碼首先使用最大池化方式（MaxPool）對特征進行下采樣，再使下采樣結(jié)果通過特征提取模塊，提取特征的語義信息，編碼階段共進行四次編碼，最終輸出512 × 8 × 8的特征圖.在解碼階段，每次解碼都首先通過雙線性插值的方式對特征進行上采樣，再通過特征融合模塊，將上采樣結(jié)果與編碼階段中相同尺寸的編碼輸出特征進行融合，最后使特征融合結(jié)果通過特征提取模塊，提取特征的語義信息，解碼階段共進行四次解碼，最終輸出3 × 128 ×128 的特征圖.在輸出階段，通過1 × 1 Conv 整合解碼階段的最后特征的各通道并輸出結(jié)果.

圖3 網(wǎng)絡原理框架Fig.3 The framework of network

與UNet相比，本文網(wǎng)絡在特征提取模塊中使用深度可分離卷積代替?zhèn)鹘y(tǒng)卷積，使得網(wǎng)絡輕量化.應用殘差學習模塊解決網(wǎng)絡退化問題.并采用雙線性插值方法進行上采樣，提高了計算效率.最終得到本文網(wǎng)絡.具體結(jié)構(gòu)如表1 所示.相較UNet，改進減少了網(wǎng)絡的參數(shù)量以及計算量.

表1 網(wǎng)絡整體結(jié)構(gòu)Tab.1 The whole structure of network

1.6 損失函數(shù)

神經(jīng)網(wǎng)絡的性能不僅取決于網(wǎng)絡的結(jié)構(gòu)，還取決于損失函數(shù)的選取.損失函數(shù)的作用在于度量模型的預測結(jié)果與真實值之間的差異，損失函數(shù)的值越小，代表模型的效果越好.交叉熵損失函數(shù)具有求導簡單、收斂速度快的優(yōu)點，因此主流的語義分割網(wǎng)絡都將其作為損失函數(shù)使用，在對圖像進行二分類任務時，本文使用二元交叉熵（Binary Cross Entropy， BCE）損失函數(shù)，具體函數(shù)公式如（1）式：

其中N 代表訓練集的大小，g（i）代表第i張圖片的真實值，p（i）代表第i張圖片的預測值.

2 實驗

2.1 樣本數(shù)據(jù)增強

為了驗證本文網(wǎng)絡的性能，選取77張不同字樣的字符圖像作為實驗數(shù)據(jù)集的原始字符圖像，每張圖像的尺寸為128 × 128.由于字符圖像的數(shù)量較少且實際應用中出現(xiàn)的字符會不完整，為了貼合實際，按1∶20 的比例對字符進行隨機殘缺，生成1540 張不同的字符圖像，并將其與不同背景圖片進行圖像融合，最終得到本文的實驗數(shù)據(jù)集.從全部樣本隨機抽取10%作為實驗的測試集，剩下的作為訓練集.

2.2 實驗環(huán)境與參數(shù)設(shè)置

實驗使用的深度學習框架為PaddlePaddle 2.0.2，環(huán)境為Python 3.7，批處理大小為10，在Nvidia Tesla V100 32GB GPU 上使用隨機梯度下降的方式訓練模型200 個epoch.在網(wǎng)絡的訓練過程中，本文采用RMSProp 優(yōu)化器，并使用ReduceOnPlateau 學習率調(diào)度器，設(shè)置訓練的初始學習率η為0.01、patience 為5、factor為0.1.

2.3 評價指標

本文采用交并比、精確率、召回率以及F分數(shù)衡量模型的分割精度.其中交并比（Intersection Over Union， IoU）是指模型的預測結(jié)果與標注圖之間的交并比，用來衡量模型預測結(jié)果與標注圖之間的相似度.精確率（Precision）是指模型所有預測出的目標中預測正確的概率，用來度量正例中真正的正例樣本的比.召回率（Recall）是指所有的正樣本中正確識別的概率，用來度量被正確判定的正例占總的正例的比重.F 分數(shù)（F）即精確率和召回率的調(diào)和平均數(shù)，它同時兼顧了模型的查準率和查全率.樣本中的正例代表圖像中的字符部分，反例代表圖像中的背景部分，具體函數(shù)公式如（2）～（5）式：

其中，TP（True Positive）表示真正例，即模型預測為正例，實際也為正例，F(xiàn)P（False Positive）表示假正例，即模型預測為正例，實際為反例，F(xiàn)N（False Negative）表示假反例，即模型預測為反例，實際為正例，TN（True Negative）表示真反例，即模型預測為反例，實際也為反例.

3 實驗結(jié)果及分析

3.1 與其他網(wǎng)絡比較

為了分析本文網(wǎng)絡的性能，分別與Paddle 框架自帶的經(jīng)典網(wǎng)絡FCN8s、AttaionUNet 和UNet 進行對比.從測試集中抽取了4個樣本，并將各模型的預測結(jié)果與對應樣本的標注圖進行比較（結(jié)果如圖4 所示），其中圖4（a）代表待預測的樣本，圖4（b）代表樣本對應的標注圖，圖4（c）-（f）為不同模型的預測結(jié)果.可以看到，在對字符與背景對比度強的部分進行預測時，各模型都能夠把字符較為完整地分割出來，在對字符與背景對比度弱的部分進行預測時，各模型漏分與誤分的現(xiàn)象開始不同程度上的增多.

圖4 不同模型的分割結(jié)果對比Fig.4 Comparison of segmentation results of different models

為了更直觀地表示各模型的預測結(jié)果與標注圖的具體差異，使用淺灰色、深灰色、黑色分別代表模型預測結(jié)果與標注圖的重疊區(qū)域、漏分區(qū)域、誤分區(qū)域（結(jié)果如圖5 所示），其中圖5（a）代表樣本對應的標注圖，圖5（b）-（e）為不同模型的預測結(jié)果.從FCN8s 預測結(jié)果與標注圖的對比可以看出，F(xiàn)CN8s無法分割出字符的局部具體細節(jié)，在對難度較大的樣本進行預測時，誤分與漏分的次數(shù)過多，難以從FCN8s 的預測結(jié)果中辨認出樣本具體是哪種字符，因此FCN8s 無法滿足實際應用對網(wǎng)絡的分割精度要求.從AttaionUNet、UNet、本文網(wǎng)絡預測結(jié)果與標注圖的對比可以看出，這三種網(wǎng)絡都能夠從復雜背景下的字符樣本中較好的分割出字符的具體形狀，可以滿足實際應用對網(wǎng)絡的分割精度要求.

圖5 不同模型差異化分割結(jié)果Fig.5 Different models differentiate segmentation results

為了進一步分析各網(wǎng)絡的性能，在完整的測試集上進行測試.由于測試集含有部分字符內(nèi)容殘缺的樣本，而殘缺字符與完整字符的樣本相比，降低了圖像中字符與背景的對比度，增大了模型進行語義分割的難度，因此各模型的分割精度有不同程度上的下降.給出各模型的Params 和FLOPs，從計算效率以及分割精度兩個層面上分析各網(wǎng)絡的性能（如表2 所示）.在計算效率層次上比較各網(wǎng)絡的性能，本文網(wǎng)絡的Params為1.32M且FLOPs僅為0.70G，而較FCN8s、AttaionUNet 和UNet 網(wǎng)絡相比，本文網(wǎng)絡的Params 和FLOPs 均降低了一個數(shù)量級.在分割精度層面上比較各網(wǎng)絡的性能，本文網(wǎng)絡在分割精度指標IoU、Precision 以及F上均得分最高.綜上所述，本文網(wǎng)絡兼顧了計算效率以及分割精度，在滿足實際應用中實時性檢測要求的同時有著較高的分割精度.

表2 與其他網(wǎng)絡的性能對比Tab.2 Performance comparison with other models

3.2 H-DIBCO2018公開數(shù)據(jù)集測試

為了驗證對比網(wǎng)絡的魯棒性，本文在H-DIBCO2018公開數(shù)據(jù)集上進行實驗.H-DIBCO2018 中的樣本來源于READ（Recognition and Enrichment of Archival Documents）項目，其中涵蓋了從十五到十九世紀的各種收藏，共10 張圖像.將其中9 張圖像用于訓練，剩余的1 張圖像用于測試，并將尺寸為1013 × 511的測試圖像填充為1024 × 512，以便于網(wǎng)絡跳躍結(jié)構(gòu)中編碼階段和解碼階段的特征圖操作.由于訓練集的數(shù)據(jù)量較小而圖像尺寸較大，使用隨機剪裁的方式對訓練圖像進行數(shù)據(jù)增廣，并統(tǒng)一裁剪結(jié)果為尺寸為128 × 128 像素的圖像，最終生成1123 張訓練樣本.為了能更充分的考察各網(wǎng)絡的性能，在樣本上添加椒鹽噪聲（噪聲比例為0.15），降低了圖像中字符與背景的對比度，加大了分割的難度.在訓練集上對本文網(wǎng)絡與FCN8s、AttationUNet和UNet進行訓練，將收斂的網(wǎng)絡模型在測試集上進行測試（結(jié)果如圖6所示）.從圖中可以看出，本文網(wǎng)絡在公開數(shù)據(jù)集上相較其他網(wǎng)絡也具有良好的表現(xiàn).通過對各模型的性能進行評估（如表3 所示），與FCN8s、AttationUNet 和UNet 相比，本文網(wǎng)絡在計算效率以及分割精度上顯示了本文網(wǎng)絡具有較好的性能.

表3 與其他網(wǎng)絡的性能對比Tab.3 Performance comparison with other models

圖6 H-DIBCO2018數(shù)據(jù)集測試結(jié)果Fig.6 H-DIBCO2018 dataset test results

4 結(jié)論

針對目前語義分割網(wǎng)絡在復雜字符背景分割中應用困難的問題，本文提出了一種基于輕量級UNet的復雜背景字符語義分割網(wǎng)絡.本文在UNet網(wǎng)絡結(jié)構(gòu)的基礎(chǔ)上對其特征提取模塊和跳躍連接結(jié)構(gòu)中特征融合的方式進行改進，并使用雙線性插值方法進行上采樣.與近年來的其他語義分割網(wǎng)絡相比較，測試結(jié)果顯示本文網(wǎng)絡較好的平衡了計算效率與分割精度，為復雜字符背景分割提供了一種集合速度與準確于一體的算法.盡管本文網(wǎng)絡取得了較好的成績，但是改進后的網(wǎng)絡仍然存在著細節(jié)部位不準確的問題，因此后續(xù)的研究會致力于提升網(wǎng)絡對字符局部細節(jié)分割的準確率，使得網(wǎng)絡可以應用在更多的實際場景中.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡