基于高斯密度圖的自然場(chǎng)景中文文字檢測(cè)

2023-09-19 13:34:30王昌波仝明磊

電子設(shè)計(jì)工程 2023年18期

王昌波，仝明磊

（上海電力大學(xué)電子與信息工程學(xué)院，上海 200000）

隨著人工智能學(xué)科的快速發(fā)展，文字檢測(cè)技術(shù)得到了廣泛的應(yīng)用，如智能導(dǎo)航[1]、證件識(shí)別[2]、銘牌識(shí)別[3]和單據(jù)識(shí)別[4]等。目前深度學(xué)習(xí)方向的文字檢測(cè)方法分為基于目標(biāo)檢測(cè)和基于圖像分割的方法[5]。目標(biāo)檢測(cè)的方法通過CNN（卷積神經(jīng)網(wǎng)絡(luò)）提取圖片的高層次特征，再生成預(yù)選錨框，通過目標(biāo)框回歸的方法找到合適的錨框。該方式具有計(jì)算量小、速度快的優(yōu)勢(shì)，但識(shí)別準(zhǔn)確率略有欠缺，代表方法有CTPN[6]、TextBoxes[7]等。圖像分割的方法本質(zhì)上是對(duì)圖片的像素點(diǎn)進(jìn)行二分類，代表網(wǎng)絡(luò)有U-net[8]等，這類檢測(cè)方法具有精度高的優(yōu)點(diǎn)，并且可以將任意形狀的文字直接生成檢測(cè)框，但計(jì)算量有所提升，并且分類結(jié)果之間是孤立離散的，代表方法有SegLink[9]、PixelLink[10]、InceptText[11]等。

雖然許多研究者提出了一些效果良好的文字檢測(cè)方法，但大多是應(yīng)用在英文文本的方法。對(duì)比英文文本，中文文本種類更多，文字更密集[12]。為了適應(yīng)中文的特點(diǎn)，該文設(shè)計(jì)了一種適合中文文字檢測(cè)任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)和方法，使用高斯分布密度圖作為文字區(qū)域的標(biāo)注，設(shè)計(jì)了一種類U-net結(jié)構(gòu)的語義分割網(wǎng)絡(luò)，并且將特征融合部分的結(jié)構(gòu)由原來的跳躍連接模塊改成了基于transformer[13]的交叉通道融合注意力模塊，以解決編解碼階段特征集不兼容的問題。除了模型的改進(jìn)外，該文針對(duì)密集文本區(qū)域預(yù)測(cè)出的密度圖中，文本區(qū)域重疊的問題提出了解決方法。

1 方法建模

1.1 網(wǎng)絡(luò)模型整體結(jié)構(gòu)

該文針對(duì)中文文字檢測(cè)的應(yīng)用場(chǎng)景，設(shè)計(jì)了一種新的適合中文檢測(cè)任務(wù)的網(wǎng)絡(luò)。該網(wǎng)絡(luò)由特征編碼、特征解碼和特征融合部分構(gòu)成。特征編碼部分采用VGG16 作為backbone，每個(gè)ConvBlock 部分添加了BN 層(Batch Norm layer)，用來加快網(wǎng)絡(luò)訓(xùn)練的收斂速度，防止梯度爆炸或消失。編碼網(wǎng)絡(luò)累計(jì)下采樣五次，取1/2、1/4、1/8、1/16 這四個(gè)尺度特征圖作為特征融合模塊的輸入。特征解碼部分使用雙卷積模塊和線性插值函數(shù)逐層恢復(fù)特征尺度，同時(shí)在對(duì)應(yīng)的尺度上疊加特征融合部分輸出的特征圖。多層次特征融合部分借助交叉通道融合注意力模塊將不同層次的特征進(jìn)行合理融合，解決了特征集不兼容的問題。模型的整體結(jié)構(gòu)如圖1 所示。

圖1 模型結(jié)構(gòu)

相比較于原始的U 型編解碼網(wǎng)絡(luò)，該網(wǎng)絡(luò)結(jié)構(gòu)著重考慮了不同層次特征融合的權(quán)重對(duì)輸出結(jié)果的影響，能自適應(yīng)地調(diào)整不同尺度下特征圖所傳遞的語義信息。相比于同樣的編解碼結(jié)構(gòu)，該網(wǎng)絡(luò)能獲得更好的收斂效果和收斂速度。

1.2 高斯分布密度圖標(biāo)簽生成

高斯分布在自然和社會(huì)科學(xué)中經(jīng)常被用來代表一個(gè)不明的隨機(jī)變量。若隨機(jī)變量X服從一個(gè)位置參數(shù)為μ、尺度參數(shù)為σ的高斯分布，記為：

其概率密度函數(shù)為:

通常距離文本框中心位置越近的像素點(diǎn)屬于該文本的概率越高。文中將普通的四邊形文字標(biāo)注框轉(zhuǎn)化成高斯分布的密度圖標(biāo)注。相較于傳統(tǒng)二進(jìn)制離散的數(shù)據(jù)標(biāo)注，這種標(biāo)注的內(nèi)容是連續(xù)的數(shù)值，能夠包含一定像素點(diǎn)間的關(guān)聯(lián)信息[14]，因此在密集文本檢測(cè)中能顯著提高檢測(cè)的準(zhǔn)確率。

實(shí)現(xiàn)中首先將實(shí)驗(yàn)數(shù)據(jù)集標(biāo)注的四邊形標(biāo)注框映射到一張與輸入圖片同尺寸的空白背景圖上，再通過仿射變換的方法將標(biāo)準(zhǔn)的二維正態(tài)分布圖分別扭曲到該圖上的每一個(gè)標(biāo)注框內(nèi)，生成計(jì)算網(wǎng)絡(luò)損失的真值圖(Ground Truths)文中由于輸入圖片的尺寸并不是原始尺寸，因此標(biāo)注框還要跟網(wǎng)絡(luò)訓(xùn)練時(shí)輸入的圖片保持同比例的縮放。

1.3 交叉通道融合注意力機(jī)制

U-net 與簡單的編解碼網(wǎng)絡(luò)相比，其優(yōu)勢(shì)在于其跳躍連接模塊能夠融合網(wǎng)絡(luò)在下采樣過程中丟失的語義信息。但是在文獻(xiàn)[15]中提到U-net 的4 個(gè)跳躍連接模塊并不是對(duì)模型性能提升都有幫助，甚至有些部分還對(duì)網(wǎng)絡(luò)的性能有負(fù)面影響。因此，該文采用交叉通道融合注意力模塊（CCTM）取代傳統(tǒng)的特征融合結(jié)構(gòu)，交叉通道融合注意力模塊如圖2所示。

圖2 交叉通道融合注意力模塊

編碼網(wǎng)絡(luò)提取出的特征圖經(jīng)過一個(gè)Embed 模塊變成一個(gè)單維的張量，該張量被輸入到線性歸一化模塊LN 中，LN 的輸出與其他三個(gè)層次特征圖的輸出一同經(jīng)過交叉通道映射模塊后，被送入多頭注意力機(jī)制模塊MSA。MSA 模塊的輸出首先疊加經(jīng)過Embed 模塊的特征張量，再輸出到下一部分的LN 模塊和MLP 模塊。從Embed 模塊到MLP 模塊的流程是一個(gè)CCTM 的Block，然后可以根據(jù)需要調(diào)整Block的數(shù)量。在CCTM 的輸出結(jié)果之后，需要經(jīng)過一個(gè)Reconstruct 操作將單維張量再轉(zhuǎn)換回特征圖，該圖與解碼網(wǎng)絡(luò)中的同尺度特征相疊加，至此完成交叉通道融合注意力的工作。

1.4 網(wǎng)絡(luò)工作過程

該文在網(wǎng)絡(luò)加載數(shù)據(jù)時(shí)還需要根據(jù)原始標(biāo)注信息生成由高斯分布標(biāo)注構(gòu)成的GT 圖。該圖是一個(gè)取值范圍在[0,1]區(qū)間連續(xù)的并且尺寸與網(wǎng)絡(luò)輸入圖片相同的單通道圖片。由于該文網(wǎng)絡(luò)中添加了BN層，因此，網(wǎng)絡(luò)的輸入圖片需要縮放到網(wǎng)絡(luò)指定的輸入尺寸，再作歸一化處理。然后將歸一化圖片輸入到網(wǎng)絡(luò)，網(wǎng)絡(luò)輸出文字密度圖。在網(wǎng)絡(luò)訓(xùn)練過程中，該文用網(wǎng)絡(luò)輸出的密度圖和預(yù)處理得到的GT 計(jì)算網(wǎng)絡(luò)的MSE(Mean Square Error,均方差損失)，反向傳播、調(diào)整網(wǎng)絡(luò)權(quán)重。在測(cè)試過程中，將該密度圖輸入到后處理流程中生成預(yù)測(cè)框。網(wǎng)絡(luò)工作流程如圖3所示。

圖3 網(wǎng)絡(luò)工作流程

1.5 預(yù)測(cè)框的生成

文中網(wǎng)絡(luò)輸出的是文字密度圖，無法直接用于評(píng)估和展示，因此在后處理部分需要將密度圖轉(zhuǎn)換為文字預(yù)測(cè)框。

首先，將網(wǎng)絡(luò)輸出的密度圖進(jìn)行二值化，得到一張像數(shù)值僅有0 和1 的單通道圖片。然后，對(duì)該圖片進(jìn)行連通域處理，得到文字分布的連通域信息。之后，篩選掉面積過小的部分，為保留下來的連通域生成最小的外接矩形。一般來說，該矩形可以作為文字預(yù)測(cè)框輸出，但經(jīng)過該文實(shí)驗(yàn)驗(yàn)證，在中文文本密集且文本面積較小的區(qū)域，容易出現(xiàn)不同文本區(qū)域，預(yù)測(cè)出來的連通域存在重疊的情況，嚴(yán)重影響了檢測(cè)的準(zhǔn)確率，因此文中提出了采用對(duì)矩形框內(nèi)的圖片向矩形的長邊進(jìn)行垂直投影的方法，以劃分出矩形內(nèi)重疊的文本區(qū)域。具體實(shí)現(xiàn)如下：

如果生成的矩形符合長寬比在0.56 到1.8 之間，則直接輸出該矩形作為預(yù)測(cè)框；否則，就認(rèn)定該矩形框?yàn)楫惓z測(cè)框。對(duì)于異常檢測(cè)框，首先對(duì)二值化圖上的該矩形部分進(jìn)行透視變換，使其長邊映射到x軸上，如圖4 所示。然后將透射圖上的像素點(diǎn)在x軸上進(jìn)行投影，獲得投影曲線用f(x)表示，如圖5 中粗實(shí)線。對(duì)投影曲線進(jìn)行求導(dǎo)獲得投影導(dǎo)數(shù)曲線，用f′(x)表示，如圖5 中細(xì)實(shí)線。

圖5 投影曲線、導(dǎo)數(shù)曲線和分割點(diǎn)

設(shè)h為透視圖片的高度，垂直分割超參數(shù)為α，表示重疊區(qū)域高度和圖片高度比值的閾值，水平分割超參數(shù)為β，h×β被用于控制相鄰重疊區(qū)域的最小分割間隔，x0為當(dāng)前分割的位置，x-1是前一個(gè)分割點(diǎn)的位置，則滿足式（3）-（6）要求即可逐個(gè)獲取分割點(diǎn)。圖5 中的垂直虛線為計(jì)算出來的分割點(diǎn)。

按照待分割點(diǎn)占長邊的比例將原矩形框沿長邊分解為多個(gè)矩形框，新產(chǎn)生的矩形框作為預(yù)測(cè)框。經(jīng)實(shí)驗(yàn)證明，該方法能大幅提高檢測(cè)的準(zhǔn)確率。有無異常檢測(cè)框再分割方法的輸出結(jié)果如圖6 所示。

圖6 無再分割和有再分割對(duì)比

2 實(shí)驗(yàn)

2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)采用的系統(tǒng)為Ubuntu 20.04，GPU 型號(hào)為GTX Titan X，顯存為12 GB，核心頻率為1 075 MHz，Python 版本為3.6，Pytorch 版本為1.7.0。

2.2 數(shù)據(jù)集

實(shí)驗(yàn)在CTW(Chinese Text in the Wild)數(shù)據(jù)集[16]上完成。該數(shù)據(jù)集包含100 萬個(gè)漢字，共由3 850 個(gè)字符構(gòu)成，這些漢字由人工在30 000 多張街景圖像中進(jìn)行注釋。同時(shí)，這些圖片里還包含了多種類型自然場(chǎng)景下的文本，如平面文本、凹凸文本、弱光環(huán)境下的文本和部分遮擋的文本等。

2.3 評(píng)估指標(biāo)

該文采用文字檢測(cè)任務(wù)廣泛采用的準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1 值三項(xiàng)具體數(shù)值對(duì)模型進(jìn)行評(píng)估。在該指標(biāo)中使用的4 個(gè)參數(shù)分別是TP(真陽性)、TN(真陰性)、FP(假陽性)和FN(假陰性)。

Precision 為預(yù)測(cè)結(jié)果中正確預(yù)測(cè)的比例：

Recall 為真實(shí)正例中被預(yù)測(cè)出的比例：

F1 值是綜合考慮Precision 和Recall 的指標(biāo)：

2.4 數(shù)據(jù)預(yù)處理

由于CTW 數(shù)據(jù)集中測(cè)試集和驗(yàn)證集的標(biāo)注文件不完整，該文實(shí)驗(yàn)將數(shù)據(jù)集按8∶1∶1 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集，其中，訓(xùn)練集圖片數(shù)量大約有14 000 張，驗(yàn)證集和測(cè)試集圖片數(shù)量大約有1 700 張?？紤]到網(wǎng)絡(luò)訓(xùn)練采用原始的2 048×2 048分辨率的圖片，對(duì)硬件要求高且實(shí)驗(yàn)周期長，該文將使用的圖片尺寸設(shè)定為1 024×1 024 分辨率，既保證了實(shí)驗(yàn)對(duì)硬件條件要求寬松，又能夠縮短網(wǎng)路的訓(xùn)練時(shí)間。該文的數(shù)據(jù)預(yù)處理是與訓(xùn)練或測(cè)試過程同步進(jìn)行的，根據(jù)網(wǎng)絡(luò)參數(shù)要求調(diào)整輸入圖片的尺寸，同時(shí)也計(jì)算出與圖片保持相同縮放比的新標(biāo)注框，并且在網(wǎng)絡(luò)訓(xùn)練階段還需生成真值圖。

2.5 模型訓(xùn)練

該文訓(xùn)練的模型采用了Adam 優(yōu)化器[17-20]，并且為了保證模型的收斂速度和收斂效果，采用了學(xué)習(xí)率動(dòng)態(tài)調(diào)整的策略。該文訓(xùn)練的所有版本的模型訓(xùn)練次數(shù)均為8 個(gè)epoch，訓(xùn)練時(shí)的batch_size 參數(shù)設(shè)置為2，測(cè)試時(shí)為設(shè)置10。

2.6 消融實(shí)驗(yàn)

為了驗(yàn)證該文方法的效果，進(jìn)行了消融實(shí)驗(yàn)。結(jié)果如表1 所示。方法1 使用VGG16 作為編碼網(wǎng)絡(luò)，特征融合部分采用U-net 的跳躍連接結(jié)構(gòu)，在生成GT 時(shí)采用標(biāo)準(zhǔn)二維高斯分布圖扭曲到原標(biāo)注框的方法，解碼網(wǎng)絡(luò)采用了雙卷積加上采樣的方式。方法2 是在方法1 的基礎(chǔ)上添加交叉通道注意力機(jī)制。方法3 是在網(wǎng)絡(luò)與方法2 相同的基礎(chǔ)上添加了后處理的異常檢測(cè)框，再進(jìn)行分割的方法。由表1可以明顯看出，方法2 對(duì)比方法1 在三個(gè)方面均有一定幅度提升，顯示了交叉通道注意力機(jī)制對(duì)該文實(shí)驗(yàn)是有效的。方法3 比方法2 在三個(gè)指標(biāo)上有很大提升，這表示該文提出的異常檢測(cè)框再分割的方法對(duì)實(shí)驗(yàn)結(jié)果有非常明顯的優(yōu)化效果。

表1 不同方法消融對(duì)比

2.7 顯性結(jié)果展示

為了使實(shí)驗(yàn)的結(jié)果更加直觀，圖7 展示了網(wǎng)絡(luò)輸出的密度圖和標(biāo)出預(yù)測(cè)框的原圖。在復(fù)雜的自然場(chǎng)景中，該文方法對(duì)大目標(biāo)或密集的小目標(biāo)都有很好的檢測(cè)效果，即使有文字目標(biāo)存在部分遮擋的情況也能檢測(cè)到，顯示了該文方法具有很好的準(zhǔn)確性和魯棒性。

圖7 部分結(jié)果展示

3 結(jié)論

該文提出了一種基于高斯密度圖區(qū)域標(biāo)注的中文文本檢測(cè)方法，該方法針對(duì)密集中文文本精確度差和小文本難以定位的問題，將高斯分布圖作為標(biāo)注的方式應(yīng)用在深度學(xué)習(xí)網(wǎng)絡(luò)上，有效地提高了分割的準(zhǔn)確率。并且在網(wǎng)絡(luò)的特征融合部分采用了交叉通道注意力機(jī)制，提高了網(wǎng)絡(luò)的收斂效果和性能。對(duì)于密集文字區(qū)域網(wǎng)絡(luò)輸出的密度圖容易有區(qū)域重疊的問題，根據(jù)中文文本通常成行或列出現(xiàn)的特點(diǎn)，提出異常檢測(cè)框再分割的方法，應(yīng)用在后處理中能夠極大地提高密集文本檢測(cè)的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡