張瓊霞 王大寒 朱順痣
摘 要:為了提高零樣本漢字識別的準(zhǔn)確率,克服傳統(tǒng)方法在未見漢字識別上的局限性,并進(jìn)一步改進(jìn)以偏旁部首為基元的漢字識別方法,本研究提出了一種以注意力機(jī)制為基礎(chǔ)的編碼器-解碼器架構(gòu)的部首計數(shù)分析網(wǎng)絡(luò),用于零樣本漢字識別問題。在編碼器階段,引入了多尺度部首計數(shù)模塊;而在解碼器階段,則運用了多尺度注意力機(jī)制。本文將一個漢字看作是由若干偏旁部首及其空間結(jié)構(gòu)組成的序列,通過計算偏旁部首及空間結(jié)構(gòu)的數(shù)量,實現(xiàn)了對漢字的有效識別。實驗結(jié)果表明,在SCUT-SPCC和CTW兩個基準(zhǔn)數(shù)據(jù)集上,本文所提出的新模型在零樣本漢字識別方面表現(xiàn)優(yōu)異。本研究能夠更好地捕捉漢字的特征信息,并實現(xiàn)對未見漢字的準(zhǔn)確識別。這對漢字識別領(lǐng)域的研究與應(yīng)用具有重要指導(dǎo)意義,可為相關(guān)領(lǐng)域的研究提供新思路和方法。
關(guān)鍵詞:漢字識別;零樣本學(xué)習(xí);部首計數(shù)分析網(wǎng)絡(luò);多尺度;注意力機(jī)制
中圖分類號:TP391.4
文獻(xiàn)標(biāo)志碼:A
作為光學(xué)字符識別(optical character recognition,OCR)領(lǐng)域的一個重要分支,零樣本漢字識別(zero-shot Chinese character recognition,ZSCCR)已被研究多年,并在相關(guān)領(lǐng)域發(fā)揮著重要作用。鑒于漢字字符數(shù)量繁多、新字符層出不窮,且有些漢字(如古籍文字等)缺乏或完全沒有標(biāo)注樣本,因此,零樣本漢字識別仍是一個極具挑戰(zhàn)性的問題。就圖像識別而言,研究人員把零樣本學(xué)習(xí)這一思想納入圖像識別的過程之中,賦予了圖像對未見類別進(jìn)行識別的功能。近些年來,很多研究人員開始在漢字識別中運用零樣本學(xué)習(xí),以解決未見漢字識別的難題。漢字是由共用的基元(偏旁部首)組成,大約500個部首便足以涵蓋2萬多個漢字。基于偏旁部首的零樣本漢字識別方法,將漢字進(jìn)行分解,形成由偏旁部首和空間結(jié)構(gòu)組成的序列,將該序列作為輔助信息,參與到網(wǎng)絡(luò)的訓(xùn)練和測試階段,顯著減少了識別詞匯的規(guī)模,并顯著提高了相似字符之間的區(qū)分度。由于有限的偏旁部首在訓(xùn)練階段均已出現(xiàn)過,因此,基于偏旁部首的零樣本漢字識別方法具備對訓(xùn)練集中未見過的類別進(jìn)行辨識的能力。
本研究提出了一種以注意力機(jī)制為基礎(chǔ)的編碼器-解碼器框架的部首計數(shù)分析網(wǎng)絡(luò)[1],將漢字識別問題轉(zhuǎn)換為圖像到序列的轉(zhuǎn)換問題。具體而言,本文將漢字視為由若干偏旁部首及其空間結(jié)構(gòu)所構(gòu)成的序列,并在編碼器部分插入多尺度偏旁部首計數(shù)模塊。使用此弱監(jiān)督計數(shù)模塊,一方面,計數(shù)結(jié)果表示部首及空間結(jié)構(gòu)的數(shù)量,可以作為額外的全局信息來提高識別精度。另一方面,部首計數(shù)能夠額外提供每個部首的位置信息,生成的表示計數(shù)結(jié)果的一維計數(shù)向量可以使注意力結(jié)果更加準(zhǔn)確,從而提高識別的性能。在解碼器部分,本文采用改進(jìn)的覆蓋注意力機(jī)制,原先覆蓋注意力向量是通過簡單累加而獲得的,改進(jìn)后的注意力機(jī)制降低大維度,提高小維度,能夠關(guān)注到未被關(guān)注過的區(qū)域,從而使注意力結(jié)果更為準(zhǔn)確,進(jìn)一步提升識別準(zhǔn)確率。
1 相關(guān)工作
在深度學(xué)習(xí)快速發(fā)展的背景下,漢字識別方法不斷革新?;谏疃葘W(xué)習(xí)技術(shù)的零樣本漢字識別方法大致可分為3類[2](見圖1):基于字符的方法、基于偏旁部首的方法和基于筆畫的方法。
1.1 基于字符的方法
基于字符的方法將每個漢字視為一個整體來處理和標(biāo)注。Ciresan等[3]提出一種端到端的多列深度神經(jīng)網(wǎng)絡(luò)(multi-column deep neural networks,MCDNN),該網(wǎng)絡(luò)首次在漢字識別中應(yīng)用卷積神經(jīng)網(wǎng)絡(luò),通過整合8個深度網(wǎng)絡(luò)的研究結(jié)果,在手寫字符識別方面取得了優(yōu)于人類水平的性能。此后,Zhang等[4]提出將傳統(tǒng)方向圖與卷積神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,在當(dāng)時的競賽中,達(dá)到了最佳模型的效果,并對在線和離線手寫中文字符識別進(jìn)行了全面研究和新的基準(zhǔn)數(shù)據(jù)集構(gòu)建。然而,基于字符的方法面臨著無法識別未見類、標(biāo)記數(shù)據(jù)工作量大以及需要優(yōu)化的參數(shù)過多等問題。為解決這些問題,可以將基于字符的方法與其他技術(shù)相結(jié)合,例如,結(jié)合基于模板的方法,通過學(xué)習(xí)字符與模板之間的映射關(guān)系或相似度度量來識別未知漢字。
1.2 基于偏旁部首的方法
在2018年,Zhang等[5]提出了一種新型偏旁部首分析網(wǎng)絡(luò)(radical analysis network,RAN),用于在印刷體漢字識別中實現(xiàn)零樣本學(xué)習(xí)。通過將空間注意力機(jī)制運用到編碼器-解碼器架構(gòu)中,利用高效的注意力機(jī)制,能夠自適應(yīng)地聚焦于與漢字部首相關(guān)的最重要信息。Wang等[6]所提出的密集偏旁部首分析網(wǎng)絡(luò)(DenseRAN)利用密集連接網(wǎng)絡(luò)和注意力機(jī)制同時分析漢字部首及其二維結(jié)構(gòu),把每個字符視為一個部首序列,將識別任務(wù)看作是圖像字幕。Wang等[7]提出了一種新型偏旁部首聚合網(wǎng)絡(luò)(FewShotRAN),包括部首映射編碼器、部首聚合模塊和字符分析解碼器,以利用漢字的部首級別結(jié)構(gòu)實現(xiàn)少樣本/零樣本離線手寫漢字識別。相較于傳統(tǒng)的基于整體字符的識別方法,這些基于偏旁部首的識別策略在降低分類規(guī)模方面表現(xiàn)出顯著優(yōu)勢,并且能夠有效地應(yīng)對未見類別或新出現(xiàn)的字符識別任務(wù)。
1.3 基于筆畫的方法
基于筆畫的方法將每個字符分解為筆畫序列,筆畫序列是漢字的最基本單元。Chen等[2]提出基于筆畫分解的網(wǎng)絡(luò)(stroke-level decomposition network,SLD-Net),將字符分解為5個筆畫的組合,并采用一種基于匹配的策略,將預(yù)測的筆畫序列轉(zhuǎn)換為特定字符,從而有利于從根本上解決零樣本問題。
人類能夠在極少甚至零樣本的情況下學(xué)習(xí)新概念。為了模仿這種能力,研究者們提出了零樣本學(xué)習(xí)[8]的方法,以降低所需數(shù)據(jù)集數(shù)量。零樣本學(xué)習(xí)的核心思想在于利用輔助信息(如屬性或文本)來支持表征學(xué)習(xí)和度量學(xué)習(xí),以實現(xiàn)可見類信息向未見類信息的推理遷移學(xué)習(xí)為目標(biāo),進(jìn)一步推動信息在不同類別之間的遷移。零樣本學(xué)習(xí)被認(rèn)為是解決漢字識別字符類別繁多、已標(biāo)注數(shù)據(jù)難獲取及識別未見類的一種有效方法。它假設(shè)除了文本描述或?qū)傩远x等輔助信息之外,沒有新類別的訓(xùn)練數(shù)據(jù)可用。迄今為止,許多工作已被提出用于零樣本目標(biāo)分類。
零樣本漢字識別研究中最為主流的方法仍然是以基于偏旁部首分析為基礎(chǔ)的。RAN[5]將漢字描述為500多個偏旁部首和12個字體結(jié)構(gòu)的序列組合,圖2展示了12種偏旁部首的空間結(jié)構(gòu),這些空間結(jié)構(gòu)特征可用于描述漢字中偏旁部首的結(jié)構(gòu)形態(tài)。同時,提出了一種以注意力機(jī)制為基礎(chǔ)的編碼器-解碼器架構(gòu),以序列生成的形式識別漢字。Wu等[9]提出了聯(lián)合空間和偏旁部首的分析網(wǎng)絡(luò)(joint spatial and radical analysis network,JSRAN)進(jìn)一步開發(fā)了RAN的潛能,并且利用空間變換機(jī)制處理旋轉(zhuǎn)漢字。Yang等[10]采用了具有更強(qiáng)表達(dá)能力的Transformer解碼器替代RAN中的GRU解碼器,為漢字生成表意文字描述序列(ideographic description sequences,IDS),這增強(qiáng)了網(wǎng)絡(luò)對空間結(jié)構(gòu)的提取能力。2020年,Cao等[11]提出了一種新的分層分解嵌入方法(hierarchical decomposition embedding,HDE),該方法利用樣本特征與語義嵌入的兼容性,實現(xiàn)了零樣本字符分類。Huang等[12]提出了一種新型偽孿生神經(jīng)網(wǎng)絡(luò)(hippocampus-heuristic character recognition network,HCRN),使機(jī)器人能夠像人類一樣對特征進(jìn)行記憶與總結(jié),使機(jī)器“學(xué)會學(xué)習(xí)”。Ao等[13]提出跨模態(tài)原型學(xué)習(xí)方法(cross-modal prototype learning,CMPL),以達(dá)到零樣本識別的目的。對于每個字符類,通過將打印字符映射到深度神經(jīng)網(wǎng)絡(luò)特征空間來生成原型,對于未見類,其原型可直接從打印的字符樣本中產(chǎn)生,通過線上線下數(shù)據(jù)共享原型,實現(xiàn)了跨模態(tài)聯(lián)合學(xué)習(xí)。Luo等[14]提出基于偏旁部首自信息的方法(self information of radicals,SIR),用于衡量偏旁部首在漢字識別的重要性,在基于序列匹配的框架中,提出了漢字不確定性消除方法(Chinese character uncertainty elimination,CUE),以減輕偏旁部首序列不匹配問題。在基于屬性嵌入的框架中,提出了部首信息嵌入方法(radical information embedding,RIE),可以突顯不可或缺偏旁部首的重要性,同時削弱一些不必要偏旁部首的影響。
2 部首計數(shù)分析網(wǎng)絡(luò)
由于漢字的偏旁部首在尺寸和形狀上可能表現(xiàn)出顯著差異,同時漢字的空間結(jié)構(gòu)具有多樣性和復(fù)雜性,為了應(yīng)對這些難題,本研究提出了一種以注意力機(jī)制為基礎(chǔ)的編碼器-解碼器架構(gòu),名為部首計數(shù)分析網(wǎng)絡(luò)(radical counter analysis network,RCAN),旨在通過將漢字圖像識別為偏旁部首序列(IDS)以實現(xiàn)漢字識別。圖3中的IDS序列是通過對偏旁部首結(jié)構(gòu)樹進(jìn)行深度優(yōu)先遍歷,其中根節(jié)點上的字符表示偏旁部首結(jié)構(gòu),葉子節(jié)點上的字符表示偏旁部首,依次遍歷所得。RCAN的網(wǎng)絡(luò)架構(gòu)由3個部分組成,包括主干網(wǎng)絡(luò)、多尺度部首計數(shù)模塊以及結(jié)合計數(shù)的多尺度注意力解碼器。在編碼器階段,我們采用多尺度部首計數(shù)模塊,其核心理念是使模型能夠自主學(xué)習(xí)漢字中的偏旁部首和空間結(jié)構(gòu)的計數(shù)信息。漢字通常由多個偏旁部首和空間結(jié)構(gòu)組成,其出現(xiàn)頻率和排列方式對漢字的結(jié)構(gòu)和語義具有關(guān)鍵作用。計數(shù)感知模塊能夠捕獲這些信息,從而有助于模型更深入地理解漢字的內(nèi)在特性,進(jìn)一步提升識別任務(wù)中的性能。在解碼器階段,我們應(yīng)用了多尺度注意力機(jī)制,將編碼器部分的向量作為輸入,根據(jù)該向量生成輸出序列。圖4展示了RCAN的總體架構(gòu)。
2.1 編碼器
在編碼器-解碼器架構(gòu)中,編碼器的主要作用是從圖像中提取特征,以便進(jìn)行后續(xù)處理。本文選取DenseNet[15](密集卷積網(wǎng)絡(luò))作為主干網(wǎng)絡(luò),該網(wǎng)絡(luò)采用高度稠密的短路連接策略,也就是每層輸入都包括了前面全部層輸出的并集。這種連接策略有助于增強(qiáng)特征在模型內(nèi)的傳遞,從而使特征能夠被重復(fù)利用,并在很大程度上緩解了梯度消失問題。
在本文中,使用DenseNet網(wǎng)絡(luò)從給定的灰度圖中提取高維視覺特征F,其尺寸為H×W×C,其中H表示高度,W表示寬度,C代表偏旁部首的數(shù)量。所提取的高維視覺特征將用于多尺度部首計數(shù)模塊以及結(jié)合計數(shù)的注意力解碼器部分。
2.2 多尺度部首計數(shù)模塊
在編碼器部分插入多尺度部首計數(shù)模塊,旨在預(yù)測漢字偏旁部首及其空間結(jié)構(gòu)的數(shù)量。如圖5所示,多尺度部首計數(shù)模塊由多尺度特征提取、通道注意力和和池化層組成。使用大小不同的兩個卷積核(分別為3×3和5×5)并行提取多尺度特征,通過并行卷積操作獲得新的大小不同的特征圖,從而豐富圖像特征。
注意力機(jī)制實質(zhì)上是通過網(wǎng)絡(luò)自主學(xué)習(xí),獲得一組權(quán)重系數(shù),并且采用“動態(tài)加權(quán)”方法,突出感興趣區(qū)域并抑制與之無關(guān)的背景區(qū)域。注意力機(jī)制可以大致分為強(qiáng)注意力與軟注意力兩種類型。強(qiáng)注意力機(jī)制能夠有效地突出動態(tài)變化。盡管效果很好,但是考慮到它不可微的特點,致使它的應(yīng)用受到了一定程度的制約。區(qū)別于強(qiáng)注意力,軟注意力具有可微性,可由神經(jīng)網(wǎng)絡(luò)中的梯度下降法訓(xùn)練得到,故適用范圍更廣。軟注意力可按通道注意力、空間注意力、自注意力等不同維度(例如,通道、空間、時間、范疇等等)加以歸類。利用通道注意力機(jī)制來呈現(xiàn)不同特征通道間的相關(guān)關(guān)系,利用深度學(xué)習(xí)自動得到各特征通道顯著程度并賦予不同權(quán)重系數(shù),從而增強(qiáng)了重要特征表達(dá),抑制了非重要特征影響。
在這里,選擇其中一個分支進(jìn)行簡單說明。本文中采用的部首計數(shù)模塊在卷積層之后,采用通道注意力FCANet[16]算法對特征信息進(jìn)行進(jìn)一步的增強(qiáng)。將輸入的特征圖Xi(i ∈ {0,1,… ,n-1})按通道維度劃分為多個部分:[X0,X 1,…,Xn-1];對其中每一部分,計算它們的二維離散余弦變換(2DDCT)頻率分量Freq(以下公式中簡寫為f),并作為通道注意力的預(yù)處理結(jié)果,其中u,v是與Xi對應(yīng)的頻率分量的2D索引。具體地,可用式(1)表示。
fi=f u,v2DDCT(Xi)(1)
為了綜合各部分的頻域成分,通過連接(concatenate)將給定的維度進(jìn)行組合,得到式(2)。
f=cat([f 0, f 1,…, f n-1])(2)
多頻譜通道注意力機(jī)制描述如式(3)。
S=fsigmoid(fc(f))(3)
其中,S表示頻率通道的注意力權(quán)重,用于調(diào)整頻率通道的重要性,fc表示全連接層(fully connected layer),能將輸入向量進(jìn)行線性變換。
本方法有效地解決了通道注意力機(jī)制中信息不充分的問題。具體而言,通過對各個通道的不同頻率分量進(jìn)行獨立評估,確定每個頻率成分的重要度,并進(jìn)一步分析不同數(shù)量的頻率成分對結(jié)果的影響。通過使用1×1卷積將信道數(shù)從C’降低為C,其中C是偏旁部首的數(shù)量,我們得到了一個sigmoid函數(shù)生成的(0,1)范圍內(nèi)的計數(shù)偽密度圖M∈RH×W×C。對于每個Mi∈RH×W,它能夠有效地反映第i個符號類別的位置。從這個角度看,每個Mi實際上是一個偽密度圖,可以利用求和池化來獲得計數(shù)向量V∈R1×C ,其中Vi 表示第i類符號的預(yù)測計數(shù),如公式(4)所示。
Vi=∑Hp=1∑Wq=1Mi,pq(4)
值得注意的是,不同分支所包含的特征圖包含不同尺度的信息,并且具有高度互補(bǔ)性。因此,將互補(bǔ)計數(shù)向量結(jié)合起來,并使用平均操作生成最終計數(shù)結(jié)果:Vf∈R1×C,將此結(jié)果輸入到解碼器中。
2.3 帶注意力的解碼器
RCAN的解碼器利用編碼器部分得到的高維視覺特征來生成目標(biāo)序列,即漢字的偏旁部首及空間結(jié)構(gòu)序列(IDS)。IDS序列可用數(shù)學(xué)符號表示為Y={y1,y2,…,yT},其中yi∈RC,C表示IDS序列中字符構(gòu)成的字典大小,包括 396個偏旁部首和12個偏旁空間結(jié)構(gòu)(在識別時將空間結(jié)構(gòu)視為偏旁部首)。結(jié)合計數(shù)的注意力解碼器的部分結(jié)構(gòu)如圖6所示。
從圖片獲得高維視覺特征F∈RH×W×684。首先,采用1×1大小的卷積核來調(diào)整通道數(shù)量,并得到轉(zhuǎn)換后的特征T∈RH×W×512。為了增強(qiáng)模型對空間位置的感知能力,使用固定的絕對編碼P∈RH×W×512來表示T中不同的空間位置。具體而言,采用了空間位置編碼[17],該編碼對兩個空間坐標(biāo)獨立使用具有不同頻率的正弦和余弦函數(shù)。
在生成注意力圖時,采用一個11×11的大卷積核和一個5×5的小卷積核并行地提取多尺度特征,較大的卷積核能夠捕捉輸入圖像更廣闊的信息范圍,而小的卷積核則能夠獲取像素八領(lǐng)域信息的最小尺寸。通過同時使用不同尺寸的卷積核進(jìn)行并行卷積操作,可以增強(qiáng)圖像特征的豐富性。
圖像到序列識別的輸入輸出是可變長度的,為解決可變長度的輸入輸出對齊問題,本文采用帶注意力機(jī)制的解碼器進(jìn)行圖像到序列的識別。在解碼過程中,第t步解碼時,利用第t-1步的輸出符號yt-1嵌入到GRU(門控循環(huán)單位)中,計算得到隱藏狀態(tài)ht∈R1×256。通過這個隱藏狀態(tài),可以得到注意力系數(shù)αT∈RH×W,如式(7)所示。
ht=GRU(yt-1,ht-1)(5)
et=ωTtanh(T+P+WaA+Whht)+b(6)
αt,ij=exp(et,ij)/∑Hp=1∑Wq=1et,pq (7)
其中,et是當(dāng)前時間步的輸出值,αt,ij是第t解碼時刻輸出與輸入里第i個元素的注意力概率,ω、Wa、Wh和b是可優(yōu)化參數(shù)和偏置項,覆蓋注意力A是所有過去注意力權(quán)重的總和。
覆蓋注意力A通過注意力機(jī)制簡單累加而獲得,然而,由于兩種分布的維度變化過于單一,可能導(dǎo)致原本關(guān)注過的區(qū)域獲得更多的關(guān)注,而缺乏直接的維度變化。本文改進(jìn)了覆蓋注意力,借鑒了RMSPorp[18]和《帶有覆蓋率機(jī)制的文本摘要模型研究》[19]等論文的思想,將原來的覆蓋注意力向量修改為如式(8),其目的是為了降低注意力機(jī)制在累加過程中被過分關(guān)注的維度。e-at-1為了降低大維度,提高小維度,使得st的累加結(jié)果能夠關(guān)注到未被關(guān)注過的區(qū)域。 μ為超參數(shù),調(diào)節(jié) st累加的來源,實驗選取0.85。
s=μst-1+(1-μ)e-at-1(8)
通過將注意力權(quán)重αt和高維視覺特征F進(jìn)行空間乘積,可以得到上下文特征向量C’∈R1×256,其主要作用是為了對齊編碼器和解碼器,從而解決編碼序列和解碼序列長度不一致的問題。解碼操作本質(zhì)上也是分類問題,選取概率最高的字符作為當(dāng)前的解碼字符。實際上,上下文特征向量C’只對應(yīng)于特征圖F的局部區(qū)域,僅用于捕捉該位置周圍的上下文信息,具有局部性。此外ht和E(yt-1)也缺乏全局信息。為了提高預(yù)測的準(zhǔn)確性,考慮使用計數(shù)向量V作為額外的全局信息,并將它們與上下文特征向量C’組合起來預(yù)測yt,字符的輸出概率如式(9),其中,ωo、Wc、Wv、Wt、We和bo是可優(yōu)化參數(shù)和偏置項。
p(yt)=fsoftmax(ωTo(WoC’+WvV+Wtht+WeE))+bo(9)
yt~p(yt)(10)
3 實驗分析
3.1 實驗數(shù)據(jù)集
本研究在SCUT-SPCCI和CTW兩個數(shù)據(jù)集上進(jìn)行了實驗,證明所提方法的有效性。其中:
SCUT-SPCCI(South China University of Technology,Synthesized printed Chinese character image,華南理工大學(xué)合成印刷中文字符數(shù)據(jù)集)[20]為一個多字體打印字符數(shù)據(jù)集,包含280種不同的字體。本研究選擇了3 755個常用字符和34種不同的字體作為整體數(shù)據(jù)集。這3 755個字符由406個偏旁部首以及12個空間結(jié)構(gòu)所組成。如圖7所示,基本訓(xùn)練集包含2 955個字符類別和30種字體,測試集由剩下的800個字符類別組成,這些字符類別有同樣的30種字體。與少樣本學(xué)習(xí)(few-shot)類似,N-shot訓(xùn)練集由基本訓(xùn)練集和其他N種字體的3 755個字符類別組成。在基本訓(xùn)練集中的字符包含所有部首的前提下,字符集劃分是隨機(jī)的。輸入圖像的大小為48×48。
CTW(Chinese text in the wild, 自然場景中文字符數(shù)據(jù)集)[21]是一個超大的街景圖片中文文本數(shù)據(jù)集,具有大約100萬個樣本,這些樣本由6個不同的屬性組成,如圖8所示為CTW數(shù)據(jù)集中不同屬性的部分例子。由于其多樣性和復(fù)雜性,CTW數(shù)據(jù)集是一個非常具有挑戰(zhàn)性的常用數(shù)據(jù)集,能夠真實地反映模型的實用性。在以下實驗中,輸入圖像大小被均勻地調(diào)整為32×32。
3.2 實驗配置
訓(xùn)練階段使用一個NVIDIA Tesla V100 型號GPU。使用Adadelta優(yōu)化器對模型參數(shù)進(jìn)行優(yōu)化,并將學(xué)習(xí)率初始化為1.0。為了避免模型過擬合,我們設(shè)置了一個權(quán)重衰減率為1e-4。此外,將訓(xùn)練批次大小設(shè)置為160,并使用字符識別準(zhǔn)確率(ExpRate)作為評價標(biāo)準(zhǔn)。
3.3 主要實驗結(jié)果
3.3.1 在SCUT-SPCC數(shù)據(jù)集上的結(jié)果
為了驗證RCAN的性能,進(jìn)行了一系列實驗,其中包括了對WCN(whole character network,全字符網(wǎng)絡(luò))、RNA、RCN(radical counter network,部首計數(shù)網(wǎng)絡(luò))在零樣本和少樣本情況下的對比。如表1的實驗結(jié)果所示,無論是在零樣本或者少樣本情況下,RCAN在漢字識別方面的準(zhǔn)確率均高于所對比方法。這表明該網(wǎng)絡(luò)能夠有效學(xué)習(xí)漢字的偏旁部首和空間結(jié)構(gòu)信息,并在一定程度上提升零樣本漢字識別的準(zhǔn)確率。以上識別準(zhǔn)確率結(jié)果表明,RCAN可以從訓(xùn)練集中有效地學(xué)習(xí)漢字部首和空間結(jié)構(gòu)信息,從而能夠在一定程度上增強(qiáng)對未見漢字的識別準(zhǔn)確率。這種提高準(zhǔn)確率的能力可以歸因于RCAN所采用的特殊方法。具體而言,該方法可以通過對漢字部首進(jìn)行計數(shù)和分析,提取出漢字的特征信息。這些特征信息不僅包括漢字的語義信息,還包括其形狀和結(jié)構(gòu)信息,這些信息對于漢字的識別非常重要。此外,RCAN還可以通過學(xué)習(xí)漢字之間的相似性以及差異性,來進(jìn)一步提高其識別準(zhǔn)確率??傊?,我們的實驗結(jié)果表明,RCAN是一種非常有效的方法,可用于提高零樣本漢字識別的準(zhǔn)確率。
3.3.2 在CTW數(shù)據(jù)集上的結(jié)果
在本研究中,我們進(jìn)行了與RCN[22]相似的實驗,僅選取了CTW數(shù)據(jù)集中出現(xiàn)頻率最高的前1 000個字符類別進(jìn)行對比實驗。如圖9部分字符識別結(jié)果對比所示,與RCN相比,RCAN在識別構(gòu)成字符的偏旁部首數(shù)量以及空間結(jié)構(gòu)數(shù)量方面準(zhǔn)確率更高。同時因為RCAN引入漢字的空間結(jié)構(gòu)信息,從而避免了像RCN那樣的識別順序錯誤。如表2所示,通過對實驗結(jié)果進(jìn)行分析,證明RCAN在識別性能方面表現(xiàn)優(yōu)于其他算法。
4 結(jié)論
本文引出了一種以注意力機(jī)制為基礎(chǔ)的編碼器-解碼器架構(gòu)的部首計數(shù)分析網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,采用密集卷積網(wǎng)絡(luò)作為編碼器,并引入多尺度部首計數(shù)模塊。通過解碼器階段的多尺度注意力機(jī)制,將漢字視為由若干偏旁部首及其空間結(jié)構(gòu)所構(gòu)成的序列,并計算出構(gòu)成一個漢字的部首及空間結(jié)構(gòu)的數(shù)量。實驗結(jié)果表明,本文提出的網(wǎng)絡(luò)在未見類漢字識別方面具有優(yōu)越性,并且在自然場景文本數(shù)據(jù)集上表現(xiàn)良好的魯棒性。未來工作中,將探究該網(wǎng)絡(luò)在其他語言識別任務(wù)中的應(yīng)用能力,并將其應(yīng)用于更為復(fù)雜的漢字識別任務(wù),例如古籍文字識別等。此外,還將致力于進(jìn)一步優(yōu)化網(wǎng)絡(luò)性能,以提高其在實際應(yīng)用場景中的效果。綜上,本研究提出的RCAN對于漢字相關(guān)領(lǐng)域的研究具有重要意義,并將為相關(guān)領(lǐng)域的研究提供有力支持。
參考文獻(xiàn):
LI B H,YE Y,LIANG D K,et al. When counting meets HMER: counting-aware network for handwritten mathematical expression recognition[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 197-214.
[2] CHEN J Y,LI B,XUE X. Zero-shot Chinese character recognition with stroke-level decomposition[C]//Proceedings of the Thirtieth International Joint Conference on Articicial Intelligence,IJCAI 2021,Virtual Event/Montreal Canada,19-27 August 2021.IJCAI ORG,2021: 615-621.
[3] CIRESAN D , SCHMIDHUBER J. Multi-column deep neural networks for offline handwritten Chinese character classification[C]//2015 International Joint Conference on Neural Networks (IJCNN). IEEE, 2015: 1-6.
[4] ZHANG X Y, BENGIO Y, LIU C L. Online and offline handwritten Chinese character recognition: a comprehensive study and new benchmark[J]. Pattern Recognition, 2017, 61: 348-360.
[5] ZHANG J S, ZHU Y X, DU J, et al. Radical analysis network for zero-shot learning in printed Chinese character recognition[C]//2018 IEEE International Conference on Multimedia and Expo (ICME).San Diego, CA: IEEE, 2018: 1-6.
[6] WANG W C, ZHANG J S, DU J, et al. Denseran for offline handwritten Chinese character recognition[C]//2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR).Niagara Falls, NY, USA: IEEE, 2018: 104-109.
[7] WANG T W, XIE Z C, LI Z, et al. Radical aggregation network for few-shot offline handwritten Chinese character recognition[J]. Pattern Recognition Letters, 2019, 125: 821-827.
[8] ZHANG Z M, Saligrama V. Zero-shot learning via semantic similarity embedding[C]//Proceedings of the IEEE International Conference on Computer Vision.Santiago,Chile, 2015: 4166-4174.
[9] WU C J, WANG Z R, DU J, et al. Joint spatial and radical analysis network for distorted Chinese character recognition[C]//2019 International Conference on Document Analysis and Recognition Workshops (ICDARW).Sydney, Australia: IEEE, 2019, 5: 122-127.
[10]YANG C, WANG Q, DU J, et al. A transformer-based radical analysis network for Chinese character recognition[C]//2020 25th International Conference on Pattern Recognition (ICPR). Milan, Italy:IEEE, 2021: 3714-3719.
[11]CAO Z, LU J, CUI S, et al. Zero-shot handwritten Chinese character recognition with hierarchical decomposition embedding[J]. Pattern Recognition, 2020, 107: 107488.
[12]HUANG G J, LUO X Y, WANG S W, et al. Hippocampus-heuristic character recognition network for zero-shot learning in Chinese character recognition[J]. Pattern Recognition, 2022, 130: 108818.
[13]AO X, ZHANG X Y, YANG H M, et al. Cross-modal prototype learning for zero-shot handwriting recognition[C]//2019 International Conference on Document Analysis and Recognition (ICDAR).Sydney, Australia:IEEE, 2019: 589-594.
[14]LUO G F, WANG D H, DU X, et al. Self-information of radicals: a new clue for zero-shot Chinese character recognition[J]. Pattern Recognition, 2023, 140: 109598.
[15]HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu,HI:IEEE, 2017:2261-2269.
[16]QIN Z Q, ZHANG P Y, WU F, et al. Fcanet: frequency channel attention networks[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal,Canada,2021: 783-792.
[17]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017:6000-6010.
[18]RUDER S. An overview of gradient descent optimization algorithms[J]. arXiv preprint arXiv:1609.04747, 2016.
[19]鞏軼凡, 劉紅巖, 何軍, 等. 帶有覆蓋率機(jī)制的文本摘要模型研究[J]. 計算機(jī)科學(xué)與探索, 2019, 13(2): 205-213.
[20]ZHONG Z Y, JIN L W, FENG Z Y. Multi-font printed Chinese character recognition using multi-pooling convolutional neural network[C]//2015 13th International Conference on Document Analysis and Recognition (ICDAR). Beijing,China:IEEE, 2015: 96-100.
[21]YUAN T L, ZHU Z, XU K, et al. A large Chinese text dataset in the wild[J]. Journal of Computer Science and Technology, 2019, 34: 509-521.
[22]LI Y Q, ZHU Y X, DU J, et al. Radical counter network for robust Chinese character recognition[C]//2020 25th International Conference on Pattern Recognition (ICPR).Milan, Italy: IEEE, 2021: 4191-4197.
[23]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[24]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV,USA:IEEE, 2016: 770-778.
(責(zé)任編輯:曾 晶)
Radical Counter Analysis Network for Zero-shot Learning
Chinese Character Recognition
ZHANG Qiongxia1,2,3, WANG Dahan*1,2, ZHU Shunzhi1,2
(1.School of Computer and Information Engineering,Xiamen University of Technology,Xiamen 361000,China;
2.Fujian Key Laborary of Pattern Recognition and Image Understanding,Xiamen 361000,China;
3.School of Mechatronics and Information Engineering,Putian University,Putian 351100,China)
Abstract:
In order to improve the accuracy of zero-shot Chinese character recognition (ZSCCR), overcome the limitations of traditional methods for unseen Chinese character recognition,and further improve the Chinese character recognition methods which take radicals as primitives,this study proposes a radical counting analytic network based on the attention mechanism for an encoder-decoder architecture for the zero-shot Chinese character recognition problem. In the encoding stage, a multi-scale radical counting module is introduced, while in the decoding stage, a multi-scale attention mechanism is applied. In this paper, a Chinese character is regarded as a sequence consisting of a number of radicals and their spatial structures, and effective recognition of Chinese characters is achieved by counting the number of radicals and spatial structures. Experimental results on two benchmark datasets, SCUT-SPCC and CTW, show that the proposed model performs well in the recognition of zero-shot Chinese characters. This study is able to better capture the feature information of Chinese characters and achieve accurate recognition of unseen Chinese characters. This is of great significance in guiding the research and application in the field of Chinese character recognition, and can provide new ideas and methods for related fields.
Key words:
Chinese character recognition; zero-shot learning; radical counting analysis network; multi-scale; attention mechanism
貴州大學(xué)學(xué)報(自然科學(xué)版)2023年6期