關(guān)鍵詞:漢字識別;特征提取;關(guān)鍵筆形;多任務(wù)網(wǎng)絡(luò)
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
漢字識別技術(shù)在圖像識別領(lǐng)域占據(jù)核心地位,尤其在單據(jù)處理和證件驗證等應(yīng)用中發(fā)揮了至關(guān)重要的作用。然而,現(xiàn)有研究主要集中于背景清晰的圖像,而忽視了復(fù)雜環(huán)境下的識別挑戰(zhàn)。圖像模糊和噪聲顯著增大了特征提取的難度,影響了識別準(zhǔn)確率。目前,主流方法是基于字符細(xì)粒度特征輔助漢字識別,但在復(fù)雜場景下提取有效特征仍然面臨挑戰(zhàn),暴露了現(xiàn)有方法的不足。因此,如何提升漢字的有效特征提取能力,并通過有限的特征實現(xiàn)字符準(zhǔn)確識別,成為當(dāng)務(wù)之急[1]。為此,本文提出一種融合空間信息的關(guān)鍵筆形特征提取方法,僅使用少量的關(guān)鍵特征即可準(zhǔn)確識別漢字;同時,通過多任務(wù)網(wǎng)絡(luò)提取多維特征,包括字符、字根和關(guān)鍵筆形,并應(yīng)用字符相似度算法減少特征噪聲,提升識別準(zhǔn)確性。通過實驗證明,本方法顯著提升了漢字在復(fù)雜場景下的識別準(zhǔn)確率。
1 相關(guān)研究(Related work)
目前,基于深度學(xué)習(xí)的漢字識別主流方法大致可分為基于字符和基于字根兩種。以下將詳細(xì)介紹這兩種方法相關(guān)技術(shù)的發(fā)展,以及復(fù)雜場景下漢字識別技術(shù)的發(fā)展情況。
1.1 基于字符的方法
早期的漢字光學(xué)字符識別(OCR)方法依賴于模板匹配和規(guī)則引擎[2],這在處理數(shù)量龐大且形態(tài)多樣的中文字符時,常面臨準(zhǔn)確性和擴(kuò)展性方面的挑戰(zhàn)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)開始被廣泛應(yīng)用于漢字的識別任務(wù)中。隨后,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和長短時記憶網(wǎng)絡(luò)(LSTM)等模型被應(yīng)用于建模和識別字符序列。循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(CRNN)[3]的出現(xiàn)進(jìn)一步推動了字符識別技術(shù)的發(fā)展。MORAN(Multi-Object Rectified Attention Network)模型[4]將傳統(tǒng)特征與深度學(xué)習(xí)方法相結(jié)合,引入特定領(lǐng)域的知識以增強(qiáng)模型的性能。FANG 等[5] 提出ABINET (Autonomous,Bidirectional and Iterative Language Modeling for Scene TextRecognition)模型,采用端到端的訓(xùn)練模式,結(jié)合語言模型捕獲文本的全局上下文信息,從而顯著提升文本識別的準(zhǔn)確性和效率。由于基于字符的方法在某些情形下難以區(qū)分相似字符,因此開發(fā)更高效的特征提取方法對于提升漢字識別的準(zhǔn)確性與魯棒性至關(guān)重要。
1.2 基于字根的方法
如圖1所示,漢字的字符結(jié)構(gòu)遵循國家標(biāo)準(zhǔn)(GB 18030—2005)進(jìn)行分類,采用遞歸分層方案對字符進(jìn)行解析,可以將漢字解構(gòu)為含有多個結(jié)構(gòu)和字根的樹狀結(jié)構(gòu)。具體來說,漢字結(jié)構(gòu)可根據(jù)UTF-8(Unicode Transformation Format-8 bits)編碼標(biāo)準(zhǔn)進(jìn)一步劃分為12個基本類別。漢字基本結(jié)構(gòu)的詳細(xì)定義如圖2所示。
在傳統(tǒng)的漢字識別方法中,字根識別通常依賴于預(yù)先提取的筆畫信息。隨后,研究者基于字根的方法采用逐像素匹配算法,直接從漢字圖像中提取字根信息。然而,隨著深度學(xué)習(xí)技術(shù)的興起和其在漢字識別領(lǐng)域的廣泛應(yīng)用,研究者開始將字根識別轉(zhuǎn)化為序列預(yù)測問題,并將其應(yīng)用于字符識別,這種方式顯著提高了漢字的識別準(zhǔn)確率。但是,復(fù)雜場景下的漢字識別仍面臨不少挑戰(zhàn)。
1.3 復(fù)雜場景中漢字識別方法
目前,針對復(fù)雜場景中文本識別的問題,基于空間變換的網(wǎng)絡(luò)被用于處理場景文本中的變形漢字[6],進(jìn)一步增強(qiáng)了模型對復(fù)雜場景的適應(yīng)性。隨后,SHI等[7]提出ASTER(Anattentional scene text recognizer with flexible rectification)模型,基于注意力機(jī)制創(chuàng)建了一個具有靈活校正能力的場景文本識別器,它融合了注意力機(jī)制和自適應(yīng)文本校正技術(shù),顯著提高了在具有復(fù)雜背景場景中文本的識別準(zhǔn)確率。QIAO等[8]提出了SEED(Semantics enhanced encoder-decoder frameworkfor scene text recognition)模型,構(gòu)建了一種語義增強(qiáng)的編解碼器框架,用于場景文本識別。該框架通過結(jié)合語義信息提升文本識別的準(zhǔn)確性。LU 等[9]提出了一個多方面非局部網(wǎng)絡(luò)(MASTER),該網(wǎng)絡(luò)針對場景文本識別任務(wù),通過融合多個視角的非局部特征提高識別精度和魯棒性。
2 實現(xiàn)細(xì)節(jié)(Implementation details)
本文提出了一種融合字符、字根和關(guān)鍵筆形的多維表示漢字識別模型(MRCCR)?;诙嗑S表示的漢字識別網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示,主要由3個部分組成:共享特征提取模塊、多任務(wù)特征提取網(wǎng)絡(luò)及多維特征綜合判定模塊。
首先,模型利用深度殘差網(wǎng)絡(luò)(ResNet)提取圖像的共享特征,為下一步的特征提取和識別任務(wù)打下堅實的基礎(chǔ)。其次,通過多任務(wù)學(xué)習(xí)策略,模型在特征提取網(wǎng)絡(luò)中并行提取字符、字根和關(guān)鍵筆形的多層次特征,旨在增強(qiáng)特征的表征性能。再次,通過反向傳播機(jī)制,模型持續(xù)優(yōu)化共享特征的提取過程,從而增強(qiáng)特征的表達(dá)能力和識別精度。最后,在多維特征綜合判定模塊中,模型對提取的多維特征進(jìn)行評估和融合,使用相似度算法篩選出關(guān)聯(lián)性高的特征,剔除低相關(guān)性特征污染,實現(xiàn)特征的最優(yōu)融合。此方法有效提升了模型對復(fù)雜漢字識別的魯棒性和準(zhǔn)確性。
2.1 融合空間信息的關(guān)鍵筆形特征提取方法
如表1所示,關(guān)鍵筆形的定義依據(jù)四角編碼標(biāo)準(zhǔn)(CY/T271—2023)進(jìn)行劃分,該方法將漢字中的單筆形或復(fù)合筆形進(jìn)行唯一編號。與傳統(tǒng)依賴筆順的編碼方式不同,四角編碼方式根據(jù)筆畫在空間中的位置順序,從漢字的左上角、右上角、左下角和右下角提取對應(yīng)的單筆或復(fù)合筆畫進(jìn)行編碼。為優(yōu)化編碼的唯一性并減少重復(fù),編碼過程中會在靠近右下角(第四角)的上方額外選取一個筆畫作為補(bǔ)充編碼。若該補(bǔ)充筆畫與右上角的編碼相同,則此補(bǔ)充編碼記為0。以“端”字為例(圖4),按照四角編碼的規(guī)則,其左上角的筆畫編碼為“亠”,右上角的筆畫編碼為“丨”,左下角的筆畫編碼為“ ”,右下角的筆畫編碼為“亅”,并以“”作為補(bǔ)充編碼。綜上,通過對照筆畫標(biāo)準(zhǔn),“端”字的四角編碼確定為“0,1,2,2,7”。
關(guān)鍵筆形提取流程如圖5所示。首先,將圖片輸入編碼器中提取初步字符特征及注意力矩陣。其次,將注意力矩陣與對應(yīng)位置的卷積特征圖點乘,并采用1×1的卷積層進(jìn)行特征壓縮,得到字符級別圖像特征。再次,將字符級特征輸入關(guān)鍵筆形解碼器中進(jìn)行解碼。最后,輸出相應(yīng)的關(guān)鍵筆形編碼。
基于關(guān)鍵筆形的特征提取方法在編碼過程中,不僅保留了特征序列的前后關(guān)系,還將筆形之間的空間關(guān)系融入特征序列中。傳統(tǒng)的漢字細(xì)粒度特征以特征序列的形式展開,僅包含了特征之間的前后關(guān)系,未能充分反映特征之間的空間關(guān)系。采用基于關(guān)鍵筆形的特征編碼方式,能夠為特征提取提供更豐富的空間特征,從而提升提取特征的信息量。
2.3 多維表征提取模塊
漢字的細(xì)粒度特征具有多種表示形式,例如字符、字根和關(guān)鍵筆形特征。表2展示了漢字“浣”涵蓋的多維特征。為了提取字符、字根和關(guān)鍵筆形3個維度的特征,設(shè)計了多維表征提取模塊。該模塊通過多任務(wù)的方式,利用字符、字根和關(guān)鍵筆形3個特征預(yù)測模塊,分別提取相應(yīng)的特征。
通過合理設(shè)置權(quán)衡系數(shù),可以確保模型在各個方面的損失得到平衡,從而更好地優(yōu)化模型的性能。
3 實驗(Experiments)
3.1 數(shù)據(jù)集
為了更好地比較模型在中文數(shù)據(jù)集的性能,在中文文本識別通用數(shù)據(jù)集(CTR)[11]上比較當(dāng)前基準(zhǔn)模型。此外,為更好地適應(yīng)復(fù)雜場景下的印刷文本識別需求,基于Text Render5創(chuàng)建了4個復(fù)雜場景印刷文本數(shù)據(jù)集。
通用數(shù)據(jù)集CTR的場景數(shù)據(jù)集包含背景復(fù)雜的、模糊的、字體不同的和遮擋的636 455個文本樣本。網(wǎng)頁數(shù)據(jù)集訓(xùn)練集數(shù)據(jù)一共包含140 589張中英文網(wǎng)頁文本圖像。文本數(shù)據(jù)集是由Text Render5生成的文本樣式文本圖像。語料庫來自維基百科、電影、亞馬遜和百度。該數(shù)據(jù)集共包含500000個數(shù)據(jù)集。手寫數(shù)據(jù)集一共包含116 643張文本圖像。
對于復(fù)雜場景的數(shù)據(jù)集,按照影響因素劃分為以下4類。①遮擋(來自前景):描述前景物體或文字對目標(biāo)文字的遮擋。②傾斜或彎曲(來自字符):對字符本身的傾斜或彎曲現(xiàn)象進(jìn)行評估。③背景混淆(來自背景):背景中的其他元素或紋理可能對目標(biāo)文字造成干擾。④圖片模糊(圖像來源,像素?fù)p失):涉及圖像采集、處理或傳輸過程中可能產(chǎn)生的模糊或像素?fù)p失。通過考量以上4類影響因素,研究人員能更全面地評估模型在復(fù)雜場景下印刷文本識別的性能和魯棒性。每個數(shù)據(jù)集分別包含10 000張圖片。
所有數(shù)據(jù)集的訓(xùn)練集、測試集和驗證集的數(shù)據(jù)量均按照8∶1∶1的比例進(jìn)行劃分,采用隨機(jī)操作的方式對這些樣本進(jìn)行洗牌。
3.2 實現(xiàn)細(xì)節(jié)
在本次實驗中,采用PyTorch作為深度學(xué)習(xí)框架,并利用NVIDIA RTX 3090 GPU進(jìn)行高效計算,內(nèi)存容量為24 GB,為模型訓(xùn)練提供了充足的資源。優(yōu)化器選用ADADELTA,初始學(xué)習(xí)率設(shè)定為1.0。同時,動量設(shè)為0.9,權(quán)重衰減為1e-4。
為確保模型對圖像細(xì)節(jié)的準(zhǔn)確識別,將輸入文本圖像的分辨率固定為32×32。此外,每批訓(xùn)練數(shù)據(jù)的數(shù)量設(shè)置為64,這一設(shè)置有助于提高識別的準(zhǔn)確性。
3.3 實驗結(jié)果
3.3.1 模型評估指標(biāo)
本研究選取度量精度(Accuracy, ACC)和歸一化編輯距離(Normalized Edit Distance, NED)作為評估模型性能的關(guān)鍵指標(biāo)。通過結(jié)果的可視化分析,本文直觀地展示了算法在處理復(fù)雜場景下的識別能力。
在進(jìn)行性能評估前,本研究實施了一系列的數(shù)據(jù)預(yù)處理步驟,包括刪除文本中所有的空格、將所有英文字符統(tǒng)一轉(zhuǎn)換為小寫字母,以及將繁體中文字符統(tǒng)一轉(zhuǎn)換為簡體中文字符,旨在消除不必要的變異性,為計算提供了標(biāo)準(zhǔn)化的數(shù)據(jù)基礎(chǔ)。
利用度量精度對模型的識別準(zhǔn)確率進(jìn)行量化評估。為了全面評估長文本圖像的識別性能,本研究還引入了歸一化編輯距離作為評估指標(biāo),以衡量模型對于長文本識別的綜合能力。ACC和NED的取值范圍均為[0,1],其中較高的值代表模型具有更好的性能表現(xiàn)。
3.3.2 應(yīng)用于通用數(shù)據(jù)集的結(jié)果對比
在場景數(shù)據(jù)集、網(wǎng)頁數(shù)據(jù)集、文本數(shù)據(jù)集、手寫數(shù)據(jù)集中,本文提出的MRCCR算法均優(yōu)于當(dāng)前較先進(jìn)的算法。使用字符精度(CACC)作為評估指標(biāo)。
表3的對比結(jié)果表明,本研究提出的算法在文本數(shù)據(jù)集上達(dá)到了最高的準(zhǔn)確率,超越了現(xiàn)有的PRAB模型。這一結(jié)果主要歸功于算法采用了多維表征模型,該模型通過提取多層次特征,顯著提高了識別的準(zhǔn)確性。
在文本數(shù)據(jù)集中,約有1.20%的樣本未能被成功識別。這些失敗案例多涉及復(fù)雜情形,例如印刷文本的結(jié)構(gòu)模糊或輪廓不清晰,這對算法中的關(guān)鍵筆形監(jiān)督模塊構(gòu)成了挑戰(zhàn)。對于網(wǎng)頁數(shù)據(jù)集,由于數(shù)據(jù)量較小,所有模型的準(zhǔn)確率普遍較低。然而,當(dāng)從數(shù)據(jù)集中剔除非中文文本,僅針對中文字符進(jìn)行準(zhǔn)確率計算時,本研究提出的算法識別準(zhǔn)確率高達(dá)91.56%。其中,中文字符僅占據(jù)所有字符的44.9%。復(fù)雜場景下的文本基準(zhǔn),因其包含復(fù)雜的現(xiàn)實背景及噪聲干擾(例如模糊和遮擋)而更具挑戰(zhàn)性。與基于Transformer的PRAB模型相比,本文提出的MRCCR算法在復(fù)雜場景文本識別方面取得了顯著提升,性能提高了1.62百分點。這一顯著提升可能源于MRCCR算法所采用的三層分解表征監(jiān)督,與現(xiàn)有技術(shù)相比,該算法對復(fù)雜背景和噪聲的抗干擾能力更強(qiáng),展現(xiàn)出更強(qiáng)的魯棒性。在手寫數(shù)據(jù)集上,盡管手寫數(shù)據(jù)集因潦草書寫導(dǎo)致所有基準(zhǔn)模型性能普遍欠佳,但引入基于關(guān)鍵筆形特征的算法后,性能仍有所提升。
3.3.3 復(fù)雜場景數(shù)據(jù)集實驗分析
從Text Render5生成的文本數(shù)據(jù)集的測試集中,選取了一些傾斜、遮蓋、背景模糊、遮擋等復(fù)雜場景下的文本圖像(圖8),對比同一個圖片在4種不同模型下的識別結(jié)果。
從表4中的識別結(jié)果可以看出,針對圖8中的復(fù)雜場景下文本圖片的識別,本文算法相較于其他3種算法,在圖像缺失、字符扭曲及背景模糊的場景下具有較好識別效果。例如在對圖8(d)的識別中,由于圖片模糊,特征提取困難,CRNN、SEED及TransOCR模型均未正確識別出漢字“貸”,而本文提出的方法基于空間提取關(guān)鍵筆形,可以更好地提取文本圖像的特征,以少量關(guān)鍵特征表示漢字,進(jìn)而正確識別出了該字符。
結(jié)合表4和表5的實驗結(jié)果可以看出,相較于其他算法,本文提出的算法在處理模糊場景數(shù)據(jù)集時展現(xiàn)出較強(qiáng)的適應(yīng)性。這一優(yōu)勢主要歸功于應(yīng)用了多維表征融合識別算法,它結(jié)合注意力機(jī)制,利用多層次信息提取特征,顯著提升識別器的處理能力。該算法能輕松應(yīng)對不常見的文本布局,如傾斜、彎曲等復(fù)雜情況,同時有效降低了由前景遮擋或背景混亂引發(fā)的噪聲干擾。通過精確捕捉關(guān)鍵特征,本文提出的算法能顯著提高漢字識別的準(zhǔn)確性。
3.4 消融實驗
為了驗證本文提出模型的有效性,在通用數(shù)據(jù)集上對關(guān)鍵筆形預(yù)測模塊和綜合判定模塊進(jìn)行了消融實驗。首先,通過從多維表征識別模型中移除關(guān)鍵筆形預(yù)測模塊,并在沒有此模塊的情況下進(jìn)行實驗,分析了該模塊的影響,以證明其對提高漢字識別的性能的貢獻(xiàn)。其次,在驗證綜合判定模塊的有效性時,采用了一種替代融合機(jī)制,即將特征通過平均融合并歸一化的方式。為了便于對比,將去除關(guān)鍵筆形預(yù)測模塊和綜合判定模塊的版本定義為基礎(chǔ)模型,同時為了方便比較,使用“-G”表示在模型中去除關(guān)鍵筆形特征模塊,使用“-Z”表示在模型中去除綜合判定模塊。
3.4.1 關(guān)鍵筆形消融實驗
如表6所示,在去除關(guān)鍵筆形表征模塊后,本文提出的模型在各類數(shù)據(jù)集上的性能均出現(xiàn)了下降趨勢。具體而言,在場景數(shù)據(jù)集、網(wǎng)頁數(shù)據(jù)集、文本數(shù)據(jù)集和手寫數(shù)據(jù)集上,性能分別降低了1.62百分點、1.09百分點、0.15百分點和1.27百分點??梢钥闯?,手寫數(shù)據(jù)集和場景數(shù)據(jù)集的性能下降最為顯著,這主要是因為這兩個數(shù)據(jù)集包含的背景復(fù)雜性和遮蓋等挑戰(zhàn)性因素較多。關(guān)鍵筆形模塊旨在提升特征提取能力,去除該模塊后,特征提取的增益被取消,進(jìn)而導(dǎo)致識別準(zhǔn)確性降低。
3.4.2 綜合判定模塊消融實驗
表6中的測試結(jié)果表明,刪除綜合判定模塊后,模型的整體準(zhǔn)確率略有下降,例如在文本數(shù)據(jù)集上識別字符的正確率從98.17%下降到97.99%,下降了0.18百分點。進(jìn)一步可以判斷出綜合判定模塊可以去除特征噪聲,選取最佳字符,使預(yù)測精度略有提高。
實驗結(jié)果顯示,關(guān)鍵筆形模塊對于提升漢字識別的準(zhǔn)確性起到了關(guān)鍵作用。通過采用多維表征融合的漢字識別策略,不僅整體提高了漢字識別能力,還增強(qiáng)了在復(fù)雜場景下的識別準(zhǔn)確性。此外,消融實驗的結(jié)果也進(jìn)一步印證了本文模型的有效性。
4 結(jié)論(Conclusion)
本研究致力于提升在復(fù)雜場景中漢字的有效特征提取能力,以提高漢字識別的準(zhǔn)確性。首先,提出了一種基于空間的關(guān)鍵筆畫特征提取方法,將空間信息融合到特征序列中,實現(xiàn)了使用最少的關(guān)鍵特征對漢字進(jìn)行準(zhǔn)確標(biāo)識。在此基礎(chǔ)上,本研究進(jìn)一步提出了一種基于多維表示的漢字識別方案,該方案利用注意力機(jī)制結(jié)合多任務(wù)網(wǎng)絡(luò),有效提取了漢字字符、字根及關(guān)鍵筆畫的多維度特征,從而提高了在復(fù)雜場景中的關(guān)鍵特征提取水平。此外,通過應(yīng)用字符相似度算法去除特征中的噪聲,進(jìn)一步提高了字符的識別準(zhǔn)確率。實驗結(jié)果表明,基于多維表征的漢字識別方案在復(fù)雜場景中的漢字識別能力優(yōu)于基線模型。
作者簡介:
陳成(1997-),男,碩士。研究領(lǐng)域:自然語言處理,圖像識別。
姜明(1974-),男,博士,教授。研究領(lǐng)域:自然語言處理,圖像識別。本文通信作者。
張旻(1977-),男,博士,講師。研究領(lǐng)域:自然語言處理,圖像識別。