白瑪旺久 格桑多吉 扎西多吉 楊欣
摘要:藏文古籍文檔版面分析是對文檔圖像中插圖、文本段、文本行、標(biāo)題等區(qū)域信息進(jìn)行分析并提取的一種方法,是古籍?dāng)?shù)字化的重要研究課題。相較其他語種的歷史文檔,藏文古籍文檔版面布局呈現(xiàn)出版面結(jié)構(gòu)更加復(fù)雜、字體形狀和大小風(fēng)格多樣化等特點。該文針對藏文古籍文獻(xiàn)特征,構(gòu)建手寫體、印刷體、木刻雕版三種版面結(jié)構(gòu)及字體不同的藏文古籍圖像數(shù)據(jù)集,并將基于CNN和VIsion Transformer并行架構(gòu)的AFFormer通用語義分割模型遷移到藏文古籍版面分析任務(wù)上。在合并數(shù)據(jù)集上不同版面區(qū)域的6個類別平均交并比MIoU達(dá)到93.6%。通過實驗表明,AFFormer模型對藏文古籍版面分析數(shù)據(jù)集上的粗粒度版面區(qū)域和細(xì)粒度文本行檢測與提取性能優(yōu)于其他語義分割的基線模型,該方法在藏文古籍版面分析任務(wù)上具有較高的可行性。
關(guān)鍵詞:藏文古籍;版面分割;多粒度;注意力機(jī)制
中圖分類號:TP3? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2023)36-0001-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)
0 引言
文檔圖像的版面布局分析是OCR任務(wù)的重要分支,是計算機(jī)視覺領(lǐng)域的一個長期研究課題,早期主要是基于規(guī)則[1]及機(jī)器學(xué)習(xí)[2]方法進(jìn)行分割和提取。傳統(tǒng)方法適用于簡單布局文檔分割解析,在處理復(fù)雜場景的版面分析仍面臨諸多挑戰(zhàn)。隨著深度神經(jīng)網(wǎng)絡(luò)的蓬勃發(fā)展,深度學(xué)習(xí)算法在解決自然語言處理、計算機(jī)視覺任務(wù)上展現(xiàn)出了強大的可行性。DLA任務(wù)可視為經(jīng)典的視覺對象檢測和分割問題,利用卷積神經(jīng)網(wǎng)絡(luò)、全卷積神經(jīng)網(wǎng)絡(luò)、Transformer以及多模態(tài)的視覺特征來解決復(fù)雜文檔版面布局解析[3]。ChenKai[4]提出基于卷積神經(jīng)網(wǎng)絡(luò)的歷史文檔版面分割方法,在像素級別數(shù)據(jù)上獲得了較好的分割效果。Sofifia[5]提出基于深度學(xué)習(xí)的通用文檔分割方法,該方法針對版面分割出來的不同區(qū)域進(jìn)行特征提取,對提取結(jié)果進(jìn)行分類,實現(xiàn)區(qū)域的判別。隨著版面分析領(lǐng)域的深入研究,也涌現(xiàn)出優(yōu)秀的傳統(tǒng)方法與深度學(xué)習(xí)方法結(jié)合的版面分析算法。其中, Yang等人[6]提出多模態(tài)全卷積版面分析網(wǎng)絡(luò),輸入文檔圖像及對應(yīng)的文本內(nèi)容,通過編碼器得到下采樣的視覺特征圖,解碼器采用文本編碼特征向量以及視覺特征圖,輸出像素級別類別分割結(jié)果,在不同數(shù)據(jù)集的DLA任務(wù)上取得良好的性能。
基于深度學(xué)習(xí)的文檔對象檢測(DOD)在外語、中文等語種的古籍文檔數(shù)據(jù)集以及印刷體文檔數(shù)據(jù)集上的研究非常成熟,而藏文信息數(shù)字化研究相對滯后,文檔版面分析任務(wù)仍處于研究階段,藏文古籍文檔版面分析主要集中在文本行切分、圖像和文本塊分割等單粒度任務(wù)上。文獻(xiàn)[7-8]分別提出基于連通分量分析藏文歷史文獻(xiàn)文本行切分方法、基于輪廓跟蹤以及基于廣度優(yōu)先搜索擴(kuò)展生長算法的藏文古籍文本行分割的方法,但仍無法有效地解決藏文古籍文檔上相鄰文本行之間的粘連問題,導(dǎo)致行級分割錯誤。文獻(xiàn)[9]提出了一種基于支持向量機(jī)(Support Vector Machine,SVM)版面分割方法,將圖像濾波切分為圖像塊提取特征并訓(xùn)練,然后用SVM對待分割圖像中的圖像塊進(jìn)行分類,根據(jù)分類結(jié)果得到粗略版面分割結(jié)果,在粗略版面分割結(jié)果的基礎(chǔ)上結(jié)合投影法獲得精確版面分割結(jié)果,這種方法只能局限在簡單單粒度的版面分析任務(wù)上。針對以上問題,文獻(xiàn)[10]利用判別式對抗網(wǎng)絡(luò)(Discriminative Adversarial Networks,DAN)框架,提出以語義分割的像素分類實現(xiàn)藏文木刻板古籍文檔的版面分割、文本區(qū)域檢測,該方法在藏文古籍版面結(jié)構(gòu)單一的木刻板古籍文獻(xiàn)的文本區(qū)域檢測與提取具有較好的表現(xiàn)。
上述版面分析算法對于與之相對應(yīng)的數(shù)據(jù)集是有效的。然而,不同藏文古籍版面具有不同的特點,版面元素的多樣性導(dǎo)致分割效果不佳,如何利用現(xiàn)有深度學(xué)習(xí)方法實現(xiàn)對藏文古籍圖像版面分析,完成圖文分割,仍是需要解決的難題之一。
針對收集到的多字體、多風(fēng)格的手寫體、印刷體以及木刻雕版的藏文古籍版面圖像數(shù)據(jù)集,本文使用一種魯棒的、基于多粒度表征的數(shù)據(jù)表示方法,將藏文古籍中的文本表征分解為文本區(qū)域和文本行兩個層次分明又相互關(guān)聯(lián)的不同粒度表示。其中,細(xì)粒度表征從局部出發(fā),能更準(zhǔn)確地捕獲文本位置內(nèi)部空間信息,結(jié)合從全局出發(fā)的粗粒度表征方法,可為細(xì)粒度表征提供更加魯棒的結(jié)構(gòu)信息。
從版面布局分析,藏文古籍文檔面臨結(jié)構(gòu)復(fù)雜、圖文粘連、風(fēng)格差異大、圖文低質(zhì)殘缺、在手寫古籍文檔中上下文本行粘連度大、字體大小不一等情況,因此本研究采用CNN和Vision Transformer并行架構(gòu)的AFFormer分割模型進(jìn)行像素嵌入和原型表示作為特定的可學(xué)習(xí)局部描述,取代解碼器,保留高分辨率特征上豐富的圖像語義特征,最后將不同的語義分割模型應(yīng)用于藏文古籍版面分析任務(wù)上,并對比不同模型的分割效果。
1 數(shù)據(jù)構(gòu)建
在藏文古籍?dāng)?shù)字化研究領(lǐng)域中,標(biāo)注后的圖像數(shù)據(jù)集資源極度稀缺,然而深度學(xué)習(xí)任務(wù)依賴大量的標(biāo)注數(shù)據(jù)集來提高模型性能及泛化能力。本文對藏傳佛教資源中心(TBRC)發(fā)布的藏文古籍文獻(xiàn)掃描圖進(jìn)行分類收集,選擇2 000張圖像數(shù)據(jù)進(jìn)行處理,由手寫、印刷體、木刻雕板三種藏文古籍文檔版面數(shù)據(jù)類型,采用Labelme圖像標(biāo)注工具對藏文古籍版面進(jìn)行多點標(biāo)注,文檔版面布局分為背景(Background)、標(biāo)題(Title)、插圖(Figure)、文本塊(Text_Block)、文本行(Text_line)、圖標(biāo)題(Figure_Title)、頁碼(Page_Number)。藏文古籍文獻(xiàn)版式多樣,文本區(qū)域和非文本區(qū)域、相鄰文本行及相鄰字丁之間粘連度大,存在嚴(yán)重的背景干擾或者前景遮擋等情況,影響文本行定位的魯棒性,因此采取多粒度標(biāo)注方式。版面布局信息及文本行輪廓標(biāo)記如圖1所示。
圖像版面元素標(biāo)注后生成JSON格式的標(biāo)注文件,根據(jù)原始藏文古籍圖像標(biāo)簽坐標(biāo)生成對應(yīng)的mask標(biāo)簽圖,將數(shù)據(jù)集轉(zhuǎn)換成模型所對應(yīng)的輸入格式,最終構(gòu)建2 000張藏文古籍版面分析數(shù)據(jù)集(Tibetan Ancient Book Layout Analysis Dataset,簡稱TABLAD),其中手寫體藏文古籍版面數(shù)據(jù)集800張圖片、印刷體藏文古籍版面數(shù)據(jù)集530張圖片、木刻雕版藏文古籍版面數(shù)據(jù)集670張圖片。最后,按照8:1:1的比例劃分為訓(xùn)練集、驗證集、測試集,以便進(jìn)行模型訓(xùn)練和評估。
2 AFFormer分割模型
傳統(tǒng)語義分割任務(wù)主要集中在設(shè)計有效的解碼器,AFFormer模型采用無頭輕量級結(jié)構(gòu),網(wǎng)絡(luò)模型總體架構(gòu)如圖2所示。通過引入自適應(yīng)頻率濾波器和卷積神經(jīng)網(wǎng)絡(luò)來提升模型的性能和效率,利用基于Transformer的原型表示(Prototype Representations,PR)作為特定可學(xué)習(xí)的局部描述,去掉解碼器,保留高分辨率特征上的豐富圖像語義。通過去除解碼器來壓縮計算量,但在并行結(jié)構(gòu)的精度受到低計算資源的限制,因此該網(wǎng)絡(luò)采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)與Vision Transformer進(jìn)行像素嵌入和原型表示來節(jié)省計算成本,并引入自適應(yīng)頻率濾波器代替標(biāo)準(zhǔn)自注意力機(jī)制,增強特征圖的邊緣信息,從而提高分割的精度。在藏文古籍版面分割任務(wù)上,首先輸入圖像進(jìn)行補丁嵌入并CNN提取語義特征,將特征聚類為原型特征,通過并行的Transformer網(wǎng)絡(luò)自注意力機(jī)制來捕捉頻率信息,最后CNN將圓形表示轉(zhuǎn)換為像素描述。用原型語義來描述像素語義信息,在每個階段給定一個特征[F∈RH×W×C],將初始化[G∈Rh×w×c]作為圖像原型,其中,G中的每個點作為局部聚類中心,其對應(yīng)區(qū)域[α2]中進(jìn)行加權(quán)初始化,公式如下所示:
[G(s)=i=0nwixi]
其中,F(xiàn)表示輸入圖像嵌入后的特征,G表示原型特征,[n=α×α,wi表示xi]的權(quán)重。
3 實驗分析
3.1 實驗環(huán)境及參數(shù)設(shè)置
本文在自定義四種數(shù)據(jù)集上進(jìn)行性能對比,訓(xùn)練過程均基于Ubuntu 20.04.2 LTS操作系統(tǒng), Python 3.8.17,Pytorch 1.13.1,CUDA 11.7,cuDNN 8.7.1,NVIDIA GeFore RTX 2080Ti GPU 環(huán)境下進(jìn)行實驗。
3.2 評價指標(biāo)
文檔版面布局分析任務(wù)實質(zhì)上是多分類任務(wù),文章采用語義分割模型的評估標(biāo)準(zhǔn)對藏文古籍文檔掃描圖像的粗粒度版面布局和細(xì)粒度文本行區(qū)域的分割檢測結(jié)果進(jìn)行評價。本文藏文古籍版面分割數(shù)據(jù)集包含背景有7個類別,表示為k+1,i表示真實值、j表示預(yù)測值、pij表示i預(yù)測為j,計算每一個類別的平均交并比(Mean Intersection over Union,MIoU),計算公式如下所示。
[IoU=intersectionunion=A?BA?B]
[MIoU=1k+1i=0kTPFN+FP+TP=1k+1i=0kpiij=0kpij+j=0kpji-pii]
其中,TP(True Positive)表示將正類預(yù)測為正類,F(xiàn)N(False Negative)表示將正類預(yù)測為負(fù)類,F(xiàn)P(False Positive)表示將負(fù)類預(yù)測為正類。
3.3 實驗效果
本文構(gòu)建了三種不同風(fēng)格的藏文古籍版面數(shù)據(jù)集,使用UNet、Knet、DeepLabV3+、Segformer、PSPNet、Mask2former、AFFormer模型進(jìn)行對比實驗,從平均交并比(MIoU)指標(biāo)可以看出AFFormer模型在三種數(shù)據(jù)集上的分割效果比其他模型有顯著提升,在手寫體、印刷體、木刻板三種版面數(shù)據(jù)集上MIoU分別達(dá)到93.39%、97.89%、94.89%。具體實驗效果可視化如圖3所示。
4 結(jié)束語
為了解決藏文古籍版面上的圖、文本、標(biāo)題以及上下文本行之間粘連導(dǎo)致邊緣輪廓不清晰、上下文信息丟失等問題,本文在藏文古籍版面特點基礎(chǔ)上,構(gòu)建手寫體、印刷體、木刻雕版三種不同版面及字體風(fēng)格的版面分析數(shù)據(jù)集,并采用多粒度方式標(biāo)注版面元素位置信息。為了探索藏文古籍版面區(qū)域更細(xì)粒度的多尺度特征,本文使用卷積神經(jīng)網(wǎng)絡(luò)CNN與Transformer融合模型AFFormer版面分割網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)構(gòu)輕量化同時能夠精準(zhǔn)分割藏文古籍版面區(qū)域以及多字體古籍文本行,提高對古籍版面區(qū)域特征的表征能力,相比文獻(xiàn)[10]提出的藏文古籍木刻版文本區(qū)域提取方法,AFFormer模型在手寫體、印刷體、木刻雕版三種數(shù)據(jù)集上細(xì)粒度文本行區(qū)域的檢測提取上MIoU均提升5%,表明該算法能較好地平衡不同版面區(qū)域分割精度,在藏文古籍多粒度版面分割任務(wù)上可行并且有效。
參考文獻(xiàn):
[1] FRANK LE BOURGEOIS,ZBIGNIEW BUBLINSKI,HUBERT EMP-TOZ.A fast and efficient method for extracting text paragraphs and graphics from unconstrained documents[C].ICPR, 1992;272–276.
[2] ANGELIKA GARZ,MARKUS DIEM,ROBERT SABLATNIG.Detecting text areas and decorative elements in ancient manuscripts[C].ICFHR,2010:176–181.
[3] WEI LIU,DRAGOMIR ANGUELOV,DUMITRU ERHAN,et,al.Ssd:Single shot multibox detector[C].ECCV, 2016:21–37.
[4] CHEN K,SEURET M,HENNEBERT J,et al.Convolutional neural networks for page segmentation of historical document images[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR).Kyoto,Japan.IEEE,2017:965-970.
[5] ARES OLIVEIRA S,SEGUIN B,KAPLAN F.dhSegment:a generic deep-learning approach for document segmentation[C]//2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR).Niagara Falls,NY,USA.IEEE,2018:7-12.
[6] YANG X,YUMER E,ASENTE P,et al.Learning to extract semantic structure from documents using multimodal fully convolutional neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA.IEEE,2017:4342-4351.
[7] ZHOU F M,WANG W L,LIN Q.A novel text line segmentation method based on contour curve tracking for Tibetan historical documents[J].International Journal of Pattern Recognition and Artificial Intelligence,2018,32(10):1854025.
[8] 李金成,王筱娟,王維蘭,等.結(jié)合文字核心區(qū)域和擴(kuò)展生長的藏文古籍文本行切分[J].激光與光電子學(xué)進(jìn)展,2021,58(2):113-123.
[9] 任方針,王秀友,朱弋,等.基于SVM的藏文古籍版面分割[J].阜陽師范大學(xué)學(xué)報(自然科學(xué)版),2021,38(2):92-96.
[10] 貢去卓么,才讓加,三知加.基于語義分割的藏文古籍文檔文本區(qū)域檢測[J].計算機(jī)仿真,2022,39(5):448-454.
【通聯(lián)編輯:代影】