摘要:針對自然場景中的文本圖像存在信息、背景復(fù)雜,以及基于CNN(ConvolutionalNeuralNetworks)的自然場景文本圖像檢測魯棒性低的問題,提出一種改進的FasterRCNN(RegionbasedConvolutionalNeuralNetworks)模型和多頭注意力機制的字符關(guān)聯(lián)模型文本檢測識別方法。該方法首先使用改進的FasterRCNN模型檢測出圖像中字符的特征,其次通過字符關(guān)聯(lián)模塊和多頭注意力模塊獲取字符間的語義關(guān)聯(lián)信息,最后由字符輸出模塊的生成識別結(jié)果。實驗結(jié)果表明,該方法具有良好的魯棒性,能夠有效利用字符間的關(guān)聯(lián)信息和上下文語義信息解碼字符序列,尤其是在不規(guī)則文本的識別中表現(xiàn)優(yōu)異。
關(guān)鍵詞:場景文本識別;改進的FasterRCNN;魯棒性;注意力機制
中圖分類號:TP391文獻標志碼:A
0引言(Introduction)
自然場景中的文本檢測識別[1]具有廣泛的應(yīng)用場景。然而,由于文本圖像中存在背景、信息復(fù)雜等問題,影響了模型的文本識別精度?;贔asterRCNN模型求出圖像中所有文本區(qū)域的方法[2],在處理文本數(shù)量不確定的場景時,其識別性能往往不盡如人意,表現(xiàn)出較低的魯棒性。同時,準確獲取字符的順序和全局的語義信息也至關(guān)重要,但是當前大多數(shù)文本識別方法[3\|4]都是采用單向順序傳送或者使用CRNN(ConvolutionalRecurrentNeuralNetwork),這些方法不僅效率低,而且從解碼時間步獲取的信息不足,會導(dǎo)致錯誤識別。
針對基于CRNN的自然場景文本檢測識別方法中存在的結(jié)構(gòu)復(fù)雜、魯棒性低的問題,提出基于改進的FasterRCNN和多頭注意力機制的文本檢測識別模型。該模型基于多頭注意力的字符關(guān)聯(lián)網(wǎng)絡(luò),能夠有效識別圖像中的字符,并將字符進行格式化,確保字符間的位置信息相關(guān)聯(lián),并能夠同時獲取上下文之間的語義信息。
1相關(guān)工作(Relatedwork)
在早期的研究中,一些場景文本識別方法[5\|6]大都是將檢測到的字符進行分類,即先通過滑動窗口檢測單個字符,再采用動態(tài)規(guī)劃的方法將其整合得到文本單詞內(nèi)容。隨后,陸續(xù)出現(xiàn)了基于單詞分類的識別方法。JADERBERG等[7]把輸入的圖像首先通過CNN,其次經(jīng)過過濾后獲得每個字符之間的界限,最后使用分類方法得出結(jié)果序列。ALMAZN等[8]則是直接預(yù)測圖像中的特征,將文本的標注映射到同一個公共的向量空間中以計算最近的距離。
深度學(xué)習(xí)的飛速發(fā)展也讓自然場景文本檢測識別模型、算法的性能有了顯著的提高。主流方法是開始使用RNN(RecurrentNeuralNetwork)[9]對序列特征進行建模,通常以字符序列的形式出現(xiàn)?;谡Z義分割仿射變換和CRNN模型,LIU等[10]提出了快速文本定位方法(FastOrientedTextSpotting,F(xiàn)OTS),此方法可以檢測識別出非水平的文本,但只適用于較短的文本;SHI等[11]將CNN與RNN融合后運用到場景文本識別中,實現(xiàn)了字符序列預(yù)測。但是,該方法在處理字符序列時,對序列中不同位置的字符賦予了相近的權(quán)重,導(dǎo)致對于識別結(jié)果至關(guān)重要的關(guān)鍵字符并未獲得足夠的重視,可能在一定程度上影響了識別的精確度和魯棒性。
注意力機制[12]能自動關(guān)注與當前任務(wù)相關(guān)的信息,從而忽略不相關(guān)或冗余的信息。劉崇宇等[13]提出的文本檢測方法使用了注意力機制,更加注重對輸入圖形的整體的文本檢測。LEE等[14]提出的ABINet(Autonomous,BidirectionalandIterativeNetwork)方法的建模中使用了Transformer。馬洋洋等[15]提出的CTC(ConnectionistTemporalClassification)\|Attention方法同樣采用了Transformer,都是通過其中內(nèi)置的多頭自注意力機制大幅度提高了模型的上下文表達能力,并且取得了SOTA(State\|of\|the\|Art)的效果。
然而,上述提及的很多模型都是主要針對規(guī)則方向上的文本圖像,但是在自然場景下,很多圖像的文本復(fù)雜、形狀多變且難以準確識別。對于圖像背景、信息復(fù)雜的文本識別,就需要先對圖像中的文本進行預(yù)處理。SHI等[16]提出基于空間變換網(wǎng)絡(luò)STN(SpaceTransformerNetwork)[17],使用薄板樣條算法TPS(ThinPlateSpline)預(yù)處理傾斜的文本,增強了模型的識別能力。宋問玉等[18]則是在矯正過后使用Retinex和ACE(AutomaticColorEqualization)對圖像進行彩色增強,使得輸入圖像的文本更加清晰可辨。
為了準確識別文本內(nèi)容,需要更加關(guān)注字符之間的關(guān)聯(lián)信息,一些研究工作嘗試通過分割字符從而更加關(guān)注字符之間的關(guān)聯(lián)信息。Two\|Attention[19]是基于FCN(FullyConvolutionalNeuralNetworks)的方法,將輸入圖像中的文本字符進行分割,然而此類方法要求模型必須達到每個字符級別的精確度,這無疑大大增加了訓(xùn)練的難度。
2算法框架(Algorithmframework)
2.1總體模型框架
本文提出了一種基于多頭注意力機制的字符關(guān)聯(lián)模型的自然場景文本檢測識別模型,其整體框架如圖1所示。模型主要由字符檢測模塊、字符關(guān)聯(lián)模塊、多頭注意力模塊和字符輸出模塊組成。在處理一個帶有文本的圖像時,首先使用改進的FasterRCNN模型檢測并提取出圖像中所有字符的特征向量,字符關(guān)聯(lián)模塊從字符檢測模塊提取的信息中逐一獲取字符之間的關(guān)聯(lián)信息;其次通過多頭注意力,使用多通道對字符關(guān)聯(lián)模塊輸出的特征向量進行解碼,生成維度的特征序列,并獲取正則化后的全局語義信息,將正則化后的特征向量輸入字符輸出模塊;最后輸出模型的識別結(jié)果。
2.2字符檢測模塊
改進的FasterRCNN模型流程圖如圖2所示,它使用ResNet\|101[20]網(wǎng)絡(luò)替換原FasterRCNN中的VGG\|16[21]網(wǎng)絡(luò)。在原始的前饋CNN上,增加了一個跳躍連接層,與VGG\|16相比,ResNet\|101的優(yōu)勢是可以簡化網(wǎng)絡(luò)結(jié)構(gòu),減少計算量,以及防止反向傳播時的梯度彌散問題,可以使網(wǎng)絡(luò)結(jié)構(gòu)達到更深的層度。以下是基于改進FasterRCNN模型的字符檢測模塊的實驗流程:首先將所有的英文字母(包括大小寫)、輸入圖像中的文本背景和0~9的數(shù)字等信息輸入ResNet\|101網(wǎng)絡(luò)中進行字符的檢測提取,獲得通道的特征圖。
得到全局的特征通道圖之后,根據(jù)感受野之間的對應(yīng)關(guān)系,從整體的特征圖中提取出檢測到字符的通道特征圖,然后使用大小為512的卷積核將所有字符特征圖的通道數(shù)量設(shè)置為最小,由于ROI(RegionofInterest)Pooling需要進行兩次量化,量化后的候選框起初回歸出來的位置的偏差會影響檢測或者分割的準確度,因此選擇ROI(RegionofInterest)Align量化特征圖,特征圖的大小設(shè)置為49,并通過最后的模塊將特征圖轉(zhuǎn)為識別模塊中所需要的維度序列。
2.3字符關(guān)聯(lián)模塊
根據(jù)順序讀取字符的關(guān)聯(lián)信息,可以更好地識別文本圖像,特別是在背景和信息復(fù)雜的文本中,需要獲取字符之間的關(guān)聯(lián)信息。常用的方法是使用RNN對文本圖像轉(zhuǎn)化的序列進行編碼和解碼,但會出現(xiàn)字符關(guān)聯(lián)信息不足的問題,從而導(dǎo)致字符的誤識別。想要在字符檢測模塊中得到的特征圖上準確地定位字符,就需要獲取字符之間的關(guān)聯(lián)信息,這樣可以讓之后的輸出具有字符的關(guān)聯(lián)信息。圖3展示了本文的字符關(guān)聯(lián)模塊的架構(gòu)圖。
2.4多頭注意力模塊
注意力機制的核心思想是通過對輸入數(shù)據(jù)的不同部分賦予不同的權(quán)重,以表示它們在特定任務(wù)中的相對重要性。因此,可以將注意力機制看作一種強調(diào)或弱化某些特征的方法,使得模型能夠更好地關(guān)注到與當前任務(wù)最相關(guān)的特征。傳統(tǒng)的注意力機制通常是基于RNN等模型實現(xiàn)的,存在依賴前一時刻以及順序執(zhí)行的問題。本文提出的多頭注意力模塊是將多個注意力機制進行堆疊,在每個注意力機制之間進行殘差級聯(lián),這種做法大大增強了模型的識別能力。通過不斷地訓(xùn)練模型,每個注意力機制在不同的位置能夠同時處理來自不同特征子空間的信息,從而得到更全面、豐富的特征表示。其中,自注意力機制可以快速地提取局部特征內(nèi)部的依賴關(guān)系,采用縮放點積注意力,首先將位置關(guān)聯(lián)模塊的輸出特征[WTHX]Y[WTBX]通過3次不同的線性變換得到3個維度均為d2的輸入矩陣,即查詢[WTHX]Q、鍵K、值V,其次將Q、K[WTBX]的轉(zhuǎn)置做點積運算并除以 ,最后將Softmax處理獲得的結(jié)果與[WTHX]V[WTBX]做張量乘法。縮放點積注意力的計算公式為
2.5字符輸出模塊
長短期記憶網(wǎng)絡(luò)(LSTM)能使循環(huán)神經(jīng)網(wǎng)絡(luò)記錄之前的信息和忽略一些不重要的信息,從而對長期語境等關(guān)系進行建模。門控循環(huán)單元(GRU)在此基礎(chǔ)上,保留了長期序列信息,同時可以減少梯度消失問題。因此,字符輸出模塊由一個注意力機制和一個GRU組成。多頭注意力機制輸出的特征向量輸入字符輸出模塊后,最終的輸出為結(jié)果序列。
字符輸出模塊的注意力機制可以獲取到每個字符之間的依賴關(guān)聯(lián)信息,即不管在哪個時間或者步驟上,都可以只關(guān)注想要識別的字符。在解碼環(huán)節(jié),該模塊通過不斷地更新其狀態(tài),能夠全面獲得特征向量中的全部狀態(tài)信息。用Z=(z1,z2,…,zM)表示輸出的結(jié)果序列,其中M為每個序列特征的迭代次數(shù),即生成的序列長度也為M。輸出至t步,本文的識別模型由多頭注意力的輸出、字符輸出模塊中GRU的隱藏層狀態(tài)以及t-1步時的zt-1輸出獲得結(jié)果序列。在t步時,zt的計算公式如下:
3實驗結(jié)果(Experimentalresult)
3.1實驗細節(jié)
在本文的實驗過程中,首先將原始圖像輸入字符檢測模塊中進行檢測,并提取字符特征,為了提高字符檢測的精度,輸入的圖片必須具有較高的分辨率。其次將字符檢測模塊輸出圖像作為識別模塊中的輸入圖像,控制點數(shù)量設(shè)置為20。為了使訓(xùn)練集的數(shù)據(jù)更具針對性,需要對兩個不規(guī)則文本中的圖像進行字符的標注,使用ICDAR2013、ICDAR2015、TotalText數(shù)據(jù)集進行訓(xùn)練,并且將mini\|batch的大小設(shè)置為256。使用SGD(StochasticGradientDescent)對訓(xùn)練的參數(shù)進行逐步優(yōu)化,SGD動量的大小為0.9,權(quán)重的衰減大小為0.001,進行2×104次迭代;為了保證參數(shù)的最優(yōu)化,學(xué)習(xí)率設(shè)置為0.001。
在識別階段有兩層單向連接的LSTM單元,多頭注意力模塊是由2個Transformer單元塊組成的,由字符輸出模塊輸出最終的字符序列。模型訓(xùn)練時,使用AdaDelta(AdaptiveDelta)進行參數(shù)上的優(yōu)化,在識別階段有兩層單向連接的LSTM單元,批處理大小為256,初始學(xué)習(xí)率為0.6,輸出序列N的最大長度設(shè)置為25。
[BT5+*3.2數(shù)據(jù)集與評價指標
為了準確評估本文所提實驗方法的有效性,需要將其與一些常見的自然場景文本檢測識別方法進行對比,本文選擇數(shù)據(jù)集ICDAR(InternationalConferenceonDocumentAnalysisandRecognition)2013、ICDAR2015和TotalText作為訓(xùn)練集和測試集,前者為規(guī)則數(shù)據(jù)集,后兩者為不規(guī)則數(shù)據(jù)集。
評價文本檢測模塊部分,主要使用文本檢測方法中的查準率P、查全率R和調(diào)和平均值F。
查準率P的計算公式為
對整個文本識別結(jié)果的性能評估指標采用單詞級的識別精度。
消融實驗采用的評估指標為FS、FW、FG、Ffull、Fnone,分別代表使用ICDAR2013、ICDAR2015測試集提供的強詞典、弱詞典、通用詞典、TotalText測試詞典和無詞典輔助。
3.3定量實驗結(jié)果分析
在ICDAR2013、ICDAR2015和TotalText數(shù)據(jù)集上,將本文的檢測模型與其他檢測方法進行了實驗對比,結(jié)果如表1所示,從表1中的數(shù)據(jù)可以看出,本文的檢測模型展現(xiàn)出了優(yōu)異的性能。
在ICDAR2013、ICDAR2015和TotalText數(shù)據(jù)集上的實驗結(jié)果表明,與表1中的其他文本檢測方法相比,本文模型在查準率與查全率方面大多高于對比模型的相應(yīng)指標值。即便與表現(xiàn)最佳的文本檢測模型相比,也僅在查全率上略微低了1百分點。4Wlf8Gk4WFKpay0Mmkj/CuRPBDgg961JTQ5cBxBHIPE=這一結(jié)果充分證明了本文檢測模型具有高度的魯棒性。
表2展示了本文檢測模型與其他檢測模型在ICDAR2013、ICDAR2015及TotalText數(shù)據(jù)集上的實驗結(jié)果。從表2的實驗結(jié)果中可以看出,本文的檢測模型在3個數(shù)據(jù)集上分別取得了93.7%、83.0%、88.6%的優(yōu)異結(jié)果,相比于其他模型,性能更優(yōu)。尤其在不規(guī)則文本數(shù)據(jù)集ICDAR2015及TotalText上,本文的檢測模型表現(xiàn)更優(yōu)異。即便在ICDAR2013數(shù)據(jù)集上稍遜于EPAN,但是EPAN在ICDAR2015、TotalText上EPAN數(shù)據(jù)集上獲得的精度結(jié)果不如本文的檢測模型。
與TextScanner、Two\|Attention模型相比,本文模型在ICDAR2015、TotalText數(shù)據(jù)集上展現(xiàn)出了較大的性能提升。具體而言,相較于Two\|Attention模型,本文在ICDAR2015、TotalText數(shù)據(jù)集上分別提升了3.7百分點、1.8百分點;與TextScanner模型相比,則分別提升了3.6百分點、5.3百分點。當與基于注意力機制的SAR、EPAN模型相比,本文模型在ICDAR2015、TotalText不規(guī)則的文本數(shù)據(jù)集上相比于ICDAR2013有更大的性能提升。本文模型的識別模塊考慮了相鄰字符間的關(guān)聯(lián)信息與上下文之間的語義信息,因此與傳統(tǒng)采用分割或者基于傳統(tǒng)注意力機制的模型相比,能夠逐一獲取字符之間的關(guān)聯(lián)信息,并關(guān)聯(lián)到全局之間的語義信息,可以獲得更佳的實驗結(jié)果。
3.4消融實驗
本小節(jié)通過消融實驗評估不同模塊對模型總體性能的影響。為驗證本文使用的ResNet\|101對檢測模塊起到的重要作用,設(shè)計了對比實驗,將改進后的FasterRCNN(采用ResNet\|101)與原始版本的FasterRCNN(采用VGG\|16作為基準框架)進行性能對比。此消融實驗同樣在ICDAR2013、ICDAR2015和TotalText數(shù)據(jù)集上進行,對比結(jié)果如表3所示。Ours(1)代表使用原來的VGG\|16框架的實驗結(jié)果。
在文本識別階段,Ours(2)代表從本文模型去除字符關(guān)聯(lián)模塊和多頭注意力模塊,僅采用Bi\|LSTM進行序列建模。實驗對比結(jié)果如表4所示。觀察表4的數(shù)據(jù)可以得出,字符關(guān)聯(lián)模塊和多頭注意力模塊對本文模型的性能有很大的提升作用。
在ICDAR2013、ICDAR2015、TotalText數(shù)據(jù)集上,僅依賴Bi\|LSTM進行序列建模的消融實驗?zāi)P团c本文模型相比,顯示性能分別下降了0.9百分點、2.8百分點、4.2百分點。由此可以得出,僅使用Bi\|LSTM進行序列的建模,其性能表現(xiàn)一般,容易漏檢圖像中的字符。相比之下,本文模型使用字符關(guān)聯(lián)模塊和多頭注意力模塊進行序列建模,可以使字符的區(qū)域逐一對齊并對其成功加以檢測識別,使得字符所在的區(qū)域可以獲得更合理的比例權(quán)重。
4結(jié)論(Conclusion)
本文提出的基于多頭注意力機制的文本檢測識別方法考慮了字符之間的關(guān)聯(lián)信息和上下文之間的語義信息。首先,使用改進的FasterRCNN模型求出場景圖像中所有字符的特征向量;其次,通過識別模塊中的各個模塊獲得識別結(jié)果。針對檢測部分魯棒性低的問題,研究人員對FasterRCNN進行改進,使其能夠更好地應(yīng)對復(fù)雜不規(guī)則的文本。對于識別階段中上下文之間字符信息語義不相關(guān)的問題,引入字符關(guān)聯(lián)模塊和多頭注意力模塊,可以關(guān)聯(lián)字符之間的語義信息并對其檢測識別。在實驗部分,本文選取了常見的檢測模型及識別方法與本文的檢測模塊以及整體模型進行比較,并在3個數(shù)據(jù)集上進行實驗,結(jié)果表明本文的檢測模型的查全與查準以及識別準確度都很出色,尤其是在不規(guī)則文本ICDAR2015、TotalText中的表現(xiàn)更好。在接下來的工作中,將擴充方法來對全文之間語義信息不顯著的文本進行檢測識別。
參考文獻(References)
[1]ZHUY,YAOC,BAIX.Scenetextdetectionandrecognition:recentadvancesandfuturetrends[J].Frontiersofcomputerscience,2016,10(1):19\|36.
[2]LIH,WANGP,SHENCH,etal.Towardsend\|to\|endtextspottingwithconvolutionalrecurrentneuralnetworks[C]∥IEEE.Proceedingsofthe20cFDWvilYO2ezGTqeP+iNi5bmeGidGZ/hz4BsW6utNq8=17IEEEInternationalConferenceonComputerVision.Venice:IEEE,2017:5238\|5246.
[3]ZOUBJ,YANGWJ,LIUS,etal.Athree\|stagetextrecognitionframeworkfornaturalsceneimages[J].JournalofZhejiangUniversity(NaturalScience),2021,48(1):1\|8.
[4]WANGXY,DONGLF.ApplicationofattentionmechanisminofflineChinesehandwrittentextlinerecognition[J].Journalofchinesecomputersystems,2019,40(9):1876\|1880.
[5]WANT,WUDJ,COATESA,etal.End\|to\|endtextrecognitionwithconvolutionalneuralnetworks[C]∥IEEE.Proceedingsofthe21stInternationalConferenceonPatternRecognition(ICPR2012).HonshuIsland:IEEE,2012:3304\|3308.
[6]NEUMANNL,MATASJ.Real\|timescenetextlocalizationandrecognition[C]∥IEEE.Proceedingsofthe2012IEEEConference onComputerVisionandPatternRecognition.Providence:IEEE,2012:3538\|3545.
[7]JADERBERGM,SIMONYANK,VEDAIDIA,etal.Readingtextinthewildwithconvolutionalneuralnetworks[J].Internationaljournalofcomputervision,2016,116(1):1\|20.
[8]ALMAZNJ,GORDOA,F(xiàn)ORNSA,etal.Wordspottingandrecognitionwithembeddedattributes[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2014,36(12):2552\|2566.
[9]楊麗,吳雨茜,王俊麗,等.循環(huán)神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機應(yīng)用,2018,38(S2):1\|6,26.
[10]LIUX,LIANGD,YANS,etal.Fastorientedtextspottingwithaunifiednetwork[C]∥IEEE.ProceedingsoftheInternationalConferenceonComputerVision.S\|eoul:IEEE,2019:5676\|5685.
[11]SHIBG,BAIX,YAOC.Anend\|to\|endtrainableneuralnetworkforimage\|basedsequencerecognitionanditsapplicationtoscenetextrecognition[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2016,39(11):2298\|2304.
[12]BAHDANAUD,CHOKH,BENGIOY.Neuralmachinetranslationbyjointlylearningtoalignandtranslate[C]∥Ithaca.Proceedingsofthe3rdInternationalConferenceonLearningRepresentations(ICLR).SanDiego:Ithaca,2015.
[13]劉崇宇,陳曉雪,羅燦杰,等.自然場景文本檢測與識別的深度學(xué)習(xí)方法[J].中國圖象圖形學(xué)報,2021,26(6):1330\|1367.
[14]LEECY,OSINDEROS.Recursiverecurrentnetswithattentionmodelingforocrinthewild[C]∥IEEE.Proceedingsofthe2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEE,2016:2231\|2239.
[15]馬洋洋,肖冰.基于CTC\|Attention脫機手寫體文本識別[J].激光與光電子學(xué)進展,2021,58(12):130\|137.
[16]SHIBG,YANGMK,WANGXG,etal.ASTER:anattentionalscenetextrecognizerwithflexiblerectification[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2019,41(9):2035\|2048.
[17]JADERBERGM,SIMONYANK,ZISSERMANA.Spatialtransformernetworks[C]∥NIPS.AdvancesinNeuralInformationProcessingSystems.Montreal:NIPS,2015:2017\|2025.
[18]宋問玉,杜文爽,封宇,等.雙注意力機制的復(fù)雜場景文字識別網(wǎng)絡(luò)[J].無線電工程,2024,54(2):343\|350.
[19]LYUPY,LIAOMH,YAOC,etal.MaskTextSpotter:Anend\|to\|endtrainableneurralnetworkforspottingtextwitharbitraryshapes[C]∥Springer.ProceedingsoftheEuropeanConferenceonComputerVision.Munich:Springer,2018:67\|83.
[20]ZHANGRY,WANGQQ,LUY.CombinationofResNetandcenterlossbasedmetriclearningforhandwrittenChinesecharacterrecognition[C]∥IEEE.Proceedingsofthe201714thIAPRInternationalConferenceonDocumentAnalysisandRecognition.Kyoto:IEEE,2017:25\|29.
[21]LIUB,ZHANGXY,GAOZY,etal.WelddefectimagesclassificationwithVGG16\|basedneuralnetwork[C]∥ZHAIG,ZHOUJ,YANGX.InternationalForumonDigitalTVandWirelessMultimediaCommunications.Singapore:Springer,2018:215\|223.
[22]TIANZ,HUANGWL,HET,etal.Detectingtextinnaturalimagewithconnectionisttextproposalnetwork[C]∥Springer.Proceedingsof theEuropeanConferenceonComputerVision.Amsterdam:Springer,2016:56\|72.[HJ1.75mm]
[23]LIJM,ZHANGCQ,SUNYP,etal.Detectingtextinthewildwithdeepcharacterembeddingnetwork[C]∥Springer.Proceedingsofthe14thAsiaConferenceonComputerVision.Perth:Springer,2018:501\|517.
[24]LONGSB,RUANJQ,ZHANGWJ,etal.TextSnake:Aflexiblerepresentationfordetectingtextofarbitraryshapes[C]∥Springer.ProceedingsoftheEuropeanConferenceonComputerVision.Cham:Springer,2018:19\|35.
[25]XUECH,LUSJ,ZHANGW.MSR:multi\|scaleshaperegressionforscenetextdetection[C]∥MorganKaufmannProceedingsoftheTwenty\|EighthInternationalJointConferenceonArtificialIntelligence.Macao:MorganKaufmann,2019:989\|995.
[26]LIAOMH,SHIBG,BAIX.TextBoxes++:asingle\|shotorientedscenetextdetector[J].IEEEtransactionsonimageprocessing:apublicationoftheieeesignalprocessingsociety,2018,27(8):3676\|3690.
[27]LIAOMH,LYUPY,HEMH,etal.MaskTextSpotter:anend\|to\|endtrainableneuralnetworkforspottingtextwitharbitraryshapes[J].IEEEtransactionsonpatternanalysisandmachineintelligence,2021,43(2):532\|548.
[28]ZHANFN,LUSJ.ESIR:end\|to\|endscenetextrecognitionviaiterativeimagerectification[C]∥IEEE.Proceedingsofthe2019IEEE/CVFConferenceonComputerVisionandPatternRecognition.LongBeach:IEEE,2019:2054\|2063.
[29]YANGMK,GUANYS,LIAOMH,etal.Symmetry\|constrainedrectificationnetworkforscenetextrecognition[C]∥IEEE.Proceedingsofthe2019IEEE/CVFInternationalConferenceonComputerVision.Seoul:IEEE,2019:9147\|9156.
[30]WANZY,HEMH,CHENHR,et al.Textscanner:readingcharactersinorderforrobustscenetextrecognition[C]∥AAAI.ProceedingsoftheAAAIConferenceonArtificialIntelligence.NewYork:AAAI,2020,34(7):12120\|12127.
[31]LIH,WANGP,SHENCH,etal.Show,attendandread:asimpleandstrongbaselineforirregulartextrecognition[C]∥AAAI.ProceedingsoftheAAAIConferenceonArtificialIntelligence.Honolulu:AAAI,2019,33(1):8610\|8617.
[32]HUANGYL,SUNZH,JINLW,etal.EPAN:effectivepartsattentionnetworkforscenetextrecognition[J].Neurocomputing,2020,376:202\|213.