国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自然場景文本檢測技術(shù)研究

2023-11-25 11:52:21周賢望
科海故事博覽 2023年29期
關(guān)鍵詞:文本框形狀特征

周賢望

(廣東技術(shù)師范大學(xué),廣東 廣州 510665)

1 前言

在現(xiàn)今數(shù)字化高度發(fā)展的時代,由于移動設(shè)備普及和人們對圖片信息的需求增加,自然場景圖片中的文本信息越來越多。自然場景圖片中的文本信息所包含的語義對于人們理解世界和交流思想具有非常重要的作用。然而,自然場景復(fù)雜的背景極大地增加了圖像中文本的檢測難度。因此,場景文本檢測與識別成為計算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。文本檢測與識別技術(shù)已經(jīng)廣泛應(yīng)用于拍照翻譯軟件、商品識別、信息檢索、智能辦公、智慧城市等領(lǐng)域[1]。因此,對于場景文本檢測技術(shù)的研究具有重要的意義和價值。文本檢測的主要目標(biāo)是在數(shù)字圖像或視頻中自動識別并定位文本區(qū)域。這是文本識別技術(shù)的必要步驟,文本檢測的準(zhǔn)確率將直接影響最終的識別結(jié)果,在整個文字識別任務(wù)中占據(jù)著重要的位置。

文本檢測是光學(xué)字符識別(Optical Character Recognition,OCR)技術(shù)中的一個非常關(guān)鍵的環(huán)節(jié),它是OCR技術(shù)的第一步,能夠從圖像中準(zhǔn)確地定位出文本區(qū)域,為后續(xù)的文本識別和分析提供必要的信息。文本檢測的準(zhǔn)確性直接影響了整個OCR 系統(tǒng)的性能,因此,重視和優(yōu)化文本檢測技術(shù)非常重要。最初的研究主要聚焦于水平文本檢測,隨著深度學(xué)習(xí)的發(fā)展,文本檢測的研究方向也慢慢從任意方向的文本檢測到當(dāng)前的任意形狀文本檢測,在場景文本檢測領(lǐng)域,諸多學(xué)者進(jìn)行了大量的研究工作并提出了許多文本檢測方法,但是仍然存在一些問題,例如小目標(biāo)文本不容易檢測、文本角度多樣以及任意形狀文本難以準(zhǔn)確檢測。因此,進(jìn)一步的研究仍有必要,以提高場景文本檢測的準(zhǔn)確性和實(shí)用性。

2 場景文本檢測研究現(xiàn)狀

當(dāng)前,文本檢測的方法可以按照所研究的問題分類為不同類型:水平方向文本檢測方法、任意方向文本檢測方法、任意形狀文本檢測方法。

2.1 水平方向文本檢測方法

在水平文本檢測方法中,很多方法采用邊緣檢測技術(shù)來提取自然場景中的文本候選區(qū)域,因為這些文本通常具有豐富的邊緣和角點(diǎn)信息[2]。其中,最大穩(wěn)定極值區(qū)域[3]是最為經(jīng)典的文本檢測算法之一,該方法的核心思想來自分水嶺算法。它利用文本區(qū)域穩(wěn)定的不相連“極值點(diǎn)”來定位和分割字符筆畫邊緣信息。具體而言,MSER 首先將灰度圖像進(jìn)行二值化處理,逐漸提高閾值。這類似于分水嶺算法中水平面上升的過程。在這個過程中,一些“山谷”和“較矮的丘陵”將被淹沒。如果從空中俯視,則圖像將被分為陸地和水域兩部分,對應(yīng)于切分字符和背景的二值圖像。每個閾值都將生成一個二值圖像,通過對灰度圖像進(jìn)行二值化處理,并逐步提高閾值,可以獲得字符和背景的二值圖像。據(jù)此,可以采用規(guī)則或分類器來定位和預(yù)測文本候選區(qū)域。另外,筆畫寬度變換算法是一種針對筆畫兩側(cè)邊緣平行的特點(diǎn)的文本檢測方法。該方法通過對高對比度邊緣進(jìn)行逐像素分析,從垂直于邊緣的方向上找到與之平行的邊緣上的一點(diǎn),由這兩點(diǎn)構(gòu)成一個筆畫橫截面并將許多寬度相似的筆畫橫截面連接起來,能夠有效地定位文本位置[4]。最后,CTPN模型將文本區(qū)域視為文本組件序列,結(jié)合目標(biāo)檢測方法能夠克服任意長度文本的檢測難點(diǎn)[5]。然而,該方法只能檢測水平的文本區(qū)域。綜上所述,基于邊緣的文本檢測方法和MSER 算法是常用的文本檢測方法,筆畫寬度變換算法是一種改進(jìn)的文本檢測方法,CTPN 模型可以克服任意長度文本的檢測難點(diǎn),但只能檢測水平的文本區(qū)域。

2.2 任意方向文本檢測方法

近年來,計算機(jī)視覺領(lǐng)域中的目標(biāo)檢測得到了迅猛發(fā)展,作為目標(biāo)檢測研究內(nèi)容的特定領(lǐng)域中的文本檢測也得到了極大發(fā)展,該領(lǐng)域目前已經(jīng)涌現(xiàn)出一大批任意方向文本檢測方法。

TextBoxes 網(wǎng)絡(luò)結(jié)構(gòu)使用不同卷積層的多尺度特征來檢測文本,可以有效地識別不同尺寸文本。此外,該網(wǎng)絡(luò)還可以根據(jù)文本區(qū)域的縱橫比,設(shè)置不同的縱橫比來檢測不同大小和不同方向的文本。然而,TextBoxes 網(wǎng)絡(luò)的低層特征表達(dá)能力相對較弱,這會導(dǎo)致它在預(yù)測小尺寸文本方面的準(zhǔn)確率不是很高。此外,非極大值抑制算法處理候選文本框的結(jié)果不理想。余崢[6]通過將TextBoxes 網(wǎng)絡(luò)中不同的特征層相融合并利用鄰域候選文本框的位置關(guān)系構(gòu)建了一個新的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以提高任意方向文本檢測的性能?;贑TPN 模型提出的任意方向的文本檢測模型SegLink,為了克服CTPN模型無法檢測傾斜文本的缺點(diǎn),通過預(yù)測分段八個方向是否有與其他分段連接,使預(yù)測分段可以鏈接生成任意方向的文本框。算法要點(diǎn)如下:先檢測文本或者文本行的局部區(qū)域,再將這些局 部區(qū)域連接起來形成一個完整的單詞或者文本行。它將文字檢測任務(wù)分解成兩個子任務(wù):檢測文字片段和預(yù)測片段之間的連接關(guān)系。方承志等[7]提出了一種基于殘差網(wǎng)絡(luò)及筆畫寬度變換的自然場景文本檢測算法。該算法引入了殘差結(jié)構(gòu)來加深網(wǎng)絡(luò)深度,擴(kuò)大感受野并避免梯度消失問題,從而提升了網(wǎng)絡(luò)的學(xué)習(xí)能力。此外,該算法還將預(yù)測框和真實(shí)文本框之間的中心點(diǎn)距離作為懲罰項加入損失函數(shù),有效區(qū)分了不同重疊方式的檢測框,進(jìn)一步提高了檢測精度。

2.3 任意形狀文本檢測方法

任意形狀文本檢測的發(fā)展要從兩個重要的數(shù)據(jù)集說起:CTW-1500 和Total-text。自2017 年提出這兩個數(shù)據(jù)集之后,大量學(xué)術(shù)界和工業(yè)界關(guān)于任意形狀文本的研究紛至沓來。李偉沖[8]在現(xiàn)有的任意方向場景文字檢測算法TextBoxes 的基礎(chǔ)上,提出了一種端到端可訓(xùn)練的任意形狀文本檢測和識別方法,從而實(shí)現(xiàn)文字的同時檢測和識別。該方法利用帶有傾斜角度的文本框,能夠?qū)崿F(xiàn)對不規(guī)則形狀的文本檢測,并通過特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)和全卷積層來提高檢測精度。為了能夠適應(yīng)文本的檢測和識別,他在TextBoxes 的文本檢測分支中添加了對四邊形文字框角度的預(yù)測,并且通過添加文本識別分支擴(kuò)展了TextBoxes 的網(wǎng)絡(luò)結(jié)構(gòu)。此外,他引入了特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)和全卷積層來提高檢測精度,使得模型能夠有效地檢測不同尺寸的文本。通過利用四邊形文本框或者包含傾斜角度的文本框?qū)崿F(xiàn)不規(guī)則形狀的文本檢測。同時,SegLink++ 模型也是一個很好的解決方案,它引入線段和點(diǎn)兩種類型的鏈接來定義文本區(qū)域,并利用深度網(wǎng)絡(luò)的多級合并細(xì)節(jié)的能力來處理各種尺度和形狀的文本信息,可以檢測任意形狀的文本。這些模型的引入,為任意形狀文本的檢測和識別提供了更加有效的工具和技術(shù),從而實(shí)現(xiàn)對各種形狀的文本進(jìn)行更好的檢測和理解。

Long 等[9]提出了一種名為Textsanke 的非常靈活的文本實(shí)例表征方法。該方法利用一系列連接且重疊的圓盤來表示文本區(qū)域,每個圓盤的圓心在文本區(qū)域中心線上。這種方法能夠?qū)崿F(xiàn)對線性文本和不規(guī)則文本的檢測。唐秦[10]將自然場景下的文本檢測與識別分為兩個任務(wù)進(jìn)行研究,并提出了一種特征聚合與感受野增強(qiáng)的場景文本檢測算法,該算法能夠獲得更加穩(wěn)定且精確的任意形狀文本檢測器。這種方法是在PSENet(Progressive Scale Expansion Network)的基礎(chǔ)上進(jìn)行改進(jìn)的,通過加入特征聚合與感受野增強(qiáng)模塊,實(shí)現(xiàn)了不同尺度特征信息的提取與融合,并增強(qiáng)了網(wǎng)絡(luò)低層特征的感受野。白鶴翔等[11]在PSENet模型基礎(chǔ)上,加入了三個用以增強(qiáng)邊緣特征的網(wǎng)絡(luò)模塊。其中,淺層特征增強(qiáng)模塊可有效增強(qiáng)包含更多邊緣特征的淺層特征;邊緣區(qū)域檢測分支將普通特征和邊緣特征進(jìn)行區(qū)分以對目標(biāo)的邊緣特征進(jìn)行顯式建模;分支特征融合模塊可將兩種特征在識別過程進(jìn)行更好的融合,提升了任意形狀的文本檢測準(zhǔn)確率和召回率。這些方法為任意形狀的文本檢測提供了更加靈活、準(zhǔn)確的解決方案,并同時提高了文本檢測的準(zhǔn)確率和召回率。這些方法可能會在圖像處理領(lǐng)域得到廣泛的應(yīng)用。

通常在進(jìn)行文本檢測任務(wù)時,采用分割網(wǎng)絡(luò)來處理預(yù)測的概率圖并轉(zhuǎn)化為二值圖以優(yōu)化模型訓(xùn)練和計算。然而,傳統(tǒng)的二值化過程不可微分,需要進(jìn)行繁瑣的后處理,這會嚴(yán)重影響網(wǎng)絡(luò)性能和收斂速度。為了解決這個問題,蔡鑫鑫[12]提出了一種基于分割的方法,該方法使用低成本的分割頭和高效的后處理,分割頭由特征增強(qiáng)和特征融合模塊組成,前者提供多層次信息指導(dǎo)分類,后者將深度特征集合成最終特征進(jìn)行分割。并利用可微分二值化模塊(DB)將概率圖轉(zhuǎn)換為文本區(qū)域,從而提高了文本檢測的準(zhǔn)確性。Liao等[13]在DBNet 的基礎(chǔ)上提出了DBNet++并引入了自適應(yīng)尺度融合(ASF)模塊,該模塊可自適應(yīng)地融合不同尺度的特征以提高尺度的魯棒性。但兩者的不足之處都在于難以檢測重疊文本。

3 發(fā)展與挑戰(zhàn)

目前,深度學(xué)習(xí)已經(jīng)成為自然場景文本檢測領(lǐng)域的重要研究工具,但該領(lǐng)域的研究方法仍有一定的局限性。下面將介紹該領(lǐng)域存在的一些問題以及未來的主要研究方向。

當(dāng)前主流的文本檢測方法中,都是以矩形或者四邊形作為文本區(qū)域檢測框,這種線性文本區(qū)域檢測框的設(shè)定方式導(dǎo)致了這類方法無法很好地適應(yīng)任意形狀的文本。因此,可以通過提高模型對任意形狀文本的檢測性能。這種描述方式不僅需要保證檢測結(jié)果的準(zhǔn)確性和魯棒性,還需要考慮到計算效率的問題?;谶@樣的要求,近年來出現(xiàn)了各種各樣的文本框描述方式,例如基于分割的方法、錨點(diǎn)定位的方法、密集預(yù)測的方法等。這些方法在提高文本檢測性能方面都有著各自的優(yōu)缺點(diǎn),具體選擇哪種方法需要根據(jù)實(shí)際應(yīng)用場景和需求進(jìn)行權(quán)衡??傊O(shè)計合適的文本區(qū)域描述方式是提高文本檢測性能至關(guān)重要的研究思路。

此外,以目標(biāo)檢測模型為基礎(chǔ)改進(jìn)的文本檢測方法往往忽略了文本特征與其他目標(biāo)物體特征的獨(dú)特性,導(dǎo)致在一些場景下檢測效果并不理想。針對這個問題,可以從文本組件筆畫特征進(jìn)行考慮,可以先設(shè)計微文本框去檢測文本組件,再利用微分的思想將這些微文本框進(jìn)行拼接組合成任意形狀的文本區(qū)域框。

與傳統(tǒng)的文本檢測方式相比,微文本框的設(shè)計可以進(jìn)一步增加文本檢測的靈活性,提高任意形狀文本檢測的性能和準(zhǔn)確率。此外,使用微文本框可以有效地解決文本形狀和大小的差異問題,對檢測尺寸差異性大的文本場景非常有效。因此,將微文本框引入文本檢測技術(shù)是一種非常有前途的方法,可以為今后的相關(guān)工作提供重要參考,也有很好的應(yīng)用前景。

除了通過以上思路來提高文本檢測的準(zhǔn)確率之外,基于直接邊框回歸的思路也是提高文本檢測速度的一個重要思路,基于此思想的方法可以直接預(yù)測任意形狀的文本區(qū)域。這種方法可以有效避免傳統(tǒng)方法需要先生成大量的候選框以及復(fù)雜的后處理過程,從而提供更快速、更精準(zhǔn)的文本檢測能力。另外,由于移動設(shè)備終端的處理能力有限,構(gòu)建更輕量化的文本檢測網(wǎng)絡(luò)也將成為未來的重要需求。如何權(quán)衡好文本檢測模型的檢測速度和精度是未來研究中的重要方向,需要不斷探索新的文本區(qū)域描述方式、模型結(jié)構(gòu)以及優(yōu)化算法,以提高文本檢測的性能,并在實(shí)現(xiàn)高效的同時確保準(zhǔn)確性,滿足各種場景下的需求。

4 結(jié)論

自然場景文本檢測目前是計算機(jī)視覺和模式識別領(lǐng)域的研究熱點(diǎn)之一,其方法已逐步從經(jīng)典方法轉(zhuǎn)向基于深度學(xué)習(xí)的方法,并且研究對象涵蓋了水平方向文本到任意方向和任意形狀的文本。本文主要整理了近年來基于深度學(xué)習(xí)的文本檢測方法,并根據(jù)文本檢測技術(shù)要解決的問題對研究者們所提出的思想、方法進(jìn)行分類,并闡述了其待解決問題和發(fā)展趨勢。

猜你喜歡
文本框形狀特征
挖藕 假如悲傷有形狀……
巧用文本框?qū)崿F(xiàn)PPT多圖片排版
如何表達(dá)“特征”
PPT文本框的另類應(yīng)用
不忠誠的四個特征
你的形狀
抓住特征巧觀察
看到的是什么形狀
文本框酷變3D效果
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
茶陵县| 游戏| 嘉定区| 安泽县| 禄丰县| 泗水县| 牟定县| 绥滨县| 信丰县| 丹棱县| 金沙县| 无为县| 双流县| 兴业县| 来宾市| 曲阜市| 桂平市| 泗水县| 上虞市| 双鸭山市| 天长市| 长兴县| 比如县| 丽水市| 阿瓦提县| 滦南县| 湖北省| 嘉峪关市| 枣庄市| 正安县| 广灵县| 漳州市| 会宁县| 安福县| 潮州市| 龙里县| 隆尧县| 南汇区| 双辽市| 屏东市| 张掖市|