国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Faster-RCNN的古籍圖像文字檢測(cè)研究*

2023-01-11 14:11謝恩澤
新世紀(jì)圖書(shū)館 2022年11期
關(guān)鍵詞:骨干古籍文字

謝恩澤 吳 政 倪 劼

0 引言

我國(guó)是歷史悠久的文化古國(guó),現(xiàn)存古籍文獻(xiàn)浩瀚如海,而圖書(shū)館作為古籍文獻(xiàn)重要收藏單位,利用數(shù)字化方式開(kāi)展古籍文獻(xiàn)保護(hù),是其重要的工作職責(zé)。在十四五時(shí)期,國(guó)家也對(duì)古籍?dāng)?shù)字化工作提出了更高的要求,明確要加快數(shù)字化發(fā)展,加強(qiáng)古籍保護(hù)利用研究[1]。然而,若要推動(dòng)古籍?dāng)?shù)字化工作走向更高的臺(tái)階,古籍圖像文字檢測(cè)與識(shí)別是其中最重要的內(nèi)容之一。其中,古籍圖像文字檢測(cè)是識(shí)別的基礎(chǔ),利用信息技術(shù)手段,快速、高效實(shí)現(xiàn)古籍圖像單個(gè)文字檢測(cè),這對(duì)古籍?dāng)?shù)字化工作具有重要意義。

很長(zhǎng)一段時(shí)間以來(lái),我國(guó)學(xué)者們都是利用傳統(tǒng)圖像處理技術(shù)實(shí)現(xiàn)古籍圖像中的文字檢測(cè)。例如,吳國(guó)新等人提出根據(jù)文字特征,利用投影法實(shí)現(xiàn)古籍中的東巴文檢測(cè)[2]。蘇向東依據(jù)圖像水平投影對(duì)古籍蒙文進(jìn)行列切分,然后根據(jù)最大連通域?qū)崿F(xiàn)圖像中的字切分[3]。張國(guó)鋒通過(guò)運(yùn)用傳統(tǒng)圖像處理基礎(chǔ)中的投影法和連通域法,對(duì)貴州地區(qū)水書(shū)古籍文獻(xiàn)實(shí)現(xiàn)了文字切分[4]。李小璐采用圖像二值化、數(shù)學(xué)形態(tài)學(xué)處理、邊緣檢測(cè)和連通域分析相結(jié)合的方式,實(shí)現(xiàn)了西夏古籍圖像中的文字分割[5]。黃娟根據(jù)古籍中的文字特點(diǎn),設(shè)計(jì)了一種不規(guī)則自適應(yīng)局部檢索區(qū)域的圖像檢索算法,實(shí)現(xiàn)了古籍圖像中的漢字提取[6]。倪劼則是根據(jù)古籍文獻(xiàn)漢字呈現(xiàn)的特征,借鑒流水模式的思路,提出一種基于傳統(tǒng)圖像處理技術(shù)的古籍文獻(xiàn)漢字切分新方式,并命名為流水算法[7]。齊艷媚等人針對(duì)古籍漢字中的復(fù)雜性,引入猶豫模糊集理論,提出了一種古籍漢字圖像檢索模型[8]。諸如利用傳統(tǒng)圖像算法雖然能夠解決一般情況下的古籍文字檢測(cè),但每一種傳統(tǒng)圖像算法,都需要依賴(lài)人工設(shè)計(jì)的提取器,這要求設(shè)計(jì)者具有較高的專(zhuān)業(yè)知識(shí),算法還需要經(jīng)歷一個(gè)復(fù)雜的調(diào)參過(guò)程,并且大多數(shù)算法都是針對(duì)某一項(xiàng)特定場(chǎng)景的應(yīng)用,造成算法的泛化能力及魯棒性不強(qiáng)。

隨著深度卷積神經(jīng)網(wǎng)絡(luò)在圖像處理方面取得顯著的進(jìn)展,近年來(lái)利用深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)圖像目標(biāo)檢測(cè)受到了廣泛關(guān)注。深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為One-Stage和Two-Stage兩類(lèi),以YOLO為代表的One-Stage算法直接通過(guò)主干網(wǎng)絡(luò)給出類(lèi)別和位置信息,具有較快的檢測(cè)速度,但是相對(duì)Two-Stage算法,目標(biāo)檢測(cè)精度略低,且更適合圖像中的大目標(biāo)檢測(cè),主要應(yīng)用于視頻圖像檢測(cè)。而Two-Stage更適合靜態(tài)圖像的處理,F(xiàn)aster-RCNN便是其中性能最為優(yōu)秀的算法之一,自問(wèn)世以來(lái)就引起很多行業(yè)研究人員的重視。例如,艾曼通過(guò)自建數(shù)據(jù)集,實(shí)現(xiàn)了基于Faster-RCNN算法的汽車(chē)車(chē)牌檢測(cè)[9]。雷磊等人利用Faster-RCNN模型對(duì)患者進(jìn)行腫瘤目標(biāo)識(shí)別及分類(lèi),實(shí)現(xiàn)了肝細(xì)胞肝癌與肝內(nèi)膽管細(xì)胞癌的影像識(shí)別及分類(lèi)模型應(yīng)用[10]。魏業(yè)文等人提出一種改進(jìn)的Faster-RCNN算法,并對(duì)模型進(jìn)行參數(shù)調(diào)優(yōu),提高了輸電線(xiàn)路智能巡檢中的識(shí)別精度與響應(yīng)速度[11]。祝文韜等人在Faster-RCNN算法基礎(chǔ)上,提出了一種基于雙線(xiàn)性插值的改進(jìn)方案,實(shí)現(xiàn)了飛機(jī)目標(biāo)檢測(cè),并提高了精度和準(zhǔn)確率[12]。王志遠(yuǎn)等人先通過(guò)圖像處理技術(shù),再利用Faster-RCNN模型,成功實(shí)現(xiàn)了農(nóng)業(yè)種植中蘋(píng)果葉部圖像的三種病害檢測(cè)[13]。

綜上所述,可以看到當(dāng)前很多行業(yè)已大量運(yùn)用Faster-RCNN算法實(shí)現(xiàn)目標(biāo)檢測(cè)的智能化處理,但這在公共圖書(shū)館還未引起足夠重視,尤其是在古籍?dāng)?shù)字化工作中,還沒(méi)有被廣泛應(yīng)用。因此,本文擬根據(jù)采集到的古籍圖像進(jìn)行人工樣本標(biāo)注,構(gòu)建古籍圖像文字?jǐn)?shù)據(jù)集,并嘗試通過(guò)運(yùn)用Faster-RCNN算法對(duì)這些數(shù)據(jù)集進(jìn)行訓(xùn)練,并對(duì)實(shí)驗(yàn)結(jié)果展開(kāi)測(cè)試和驗(yàn)證,以實(shí)現(xiàn)古籍圖像文字的精準(zhǔn)檢測(cè)。

1 Faster-RCNN算法及其結(jié)構(gòu)

Faster-RCNN是在RCNN和Fast-RCNN基礎(chǔ)上,利用RPN(Region proposal network)網(wǎng)絡(luò)替代傳統(tǒng)的Selective Search算法,使得效率有了很大的提升。RPN的本質(zhì)是基于滑窗的無(wú)類(lèi)別目標(biāo)檢測(cè)器。作為Faster-RCNN最重要的部分,RPN階段創(chuàng)新性的提出了anchor概念,通過(guò)不同的anchor尺寸,實(shí)現(xiàn)了目標(biāo)檢測(cè)中的多尺度方法,使得候選框的生成更加的科學(xué),并且大幅提升了候選框生成的效率和準(zhǔn)確性。

可以將Faster-RCNN看做是RPN和Fast-RCNN兩個(gè)部分的結(jié)合,這將使得目標(biāo)檢測(cè)中的特征圖提取、感興趣區(qū)域、目標(biāo)分類(lèi)、目標(biāo)定位融合到深度神經(jīng)網(wǎng)絡(luò)中,并且由GPU來(lái)完成全部運(yùn)算,真正實(shí)現(xiàn)端到端的目標(biāo)檢測(cè)。因?yàn)樵谡麄€(gè)過(guò)程中,先要產(chǎn)生候選區(qū)域,再對(duì)候選區(qū)域進(jìn)行分類(lèi)以及位置精修,所以Faster-RCNN是一種典型的Two-Stage檢測(cè)算法,結(jié)構(gòu)如圖1所示。

圖1 Faster-RCNN結(jié)構(gòu)

由圖1可以看出,F(xiàn)aster-RCNN的整個(gè)過(guò)程如下:首先,將輸入圖片壓縮后送入骨干網(wǎng)絡(luò),通過(guò)卷積層提取圖片的特征,即feature maps;其次,特征圖經(jīng)過(guò)區(qū)域提名網(wǎng)絡(luò),即RPN網(wǎng)絡(luò),輸出多個(gè)候選區(qū)域;第三,與Fast-RCNN相同,輸入輸出感興趣池化層,即ROI pooling;最后,通過(guò)展平全連接層對(duì)目標(biāo)進(jìn)行分類(lèi)和確定精確位置。

由于Faster-RCNN由RPN和Fast-RCNN兩部分組成,所以損失函數(shù)也包括RPN的損失和Fast-RCNN的損失,并且兩部分都包括分類(lèi)損失和回歸損失,四個(gè)損失相加就是最后的總體損失,即總體Loss值,用于反向傳播更新參數(shù),具體如公式(1)所示。

從公式(1)中可以看到,“+”號(hào)左邊部分為分類(lèi)損失,右邊部分為回歸損失。

2 研究對(duì)象選定思考

本次是以南京圖書(shū)館所藏《胥臺(tái)麋鹿記》作為研究對(duì)象,該文獻(xiàn)作為近代研究太平天國(guó)時(shí)期重要文史資料,具有很高的歷史價(jià)值。通過(guò)人工拍攝方式獲取古籍文獻(xiàn)圖像,拍攝時(shí)采用固定角度,在古籍文獻(xiàn)正上方50厘米處高度架設(shè)拍攝器材,最終獲取圖片樣本26張,采集圖片分辨率為1326 *2382像素,具體樣本見(jiàn)圖2所示。由圖2可以看出,該文獻(xiàn)為手抄版本,頁(yè)面整體保存情況良好,有輕微的的破損、污漬現(xiàn)象。文獻(xiàn)為古籍傳統(tǒng)豎式排列,每頁(yè)十多列約500字,頁(yè)面中文字密度較大,且存在涂改、印章等情況,以此作為古籍圖像文字檢測(cè)研究,具有一定的參考價(jià)值。

圖2 研究樣本

首先,頁(yè)面狀態(tài)復(fù)雜。從古籍文獻(xiàn)本身質(zhì)量來(lái)看,由于保存年代較久,受到多種因素影響,文獻(xiàn)本身質(zhì)量并不會(huì)像現(xiàn)代印刷品,頁(yè)面會(huì)出現(xiàn)污漬、破損、殘缺等現(xiàn)象。其次,從古籍內(nèi)容的排列方式來(lái)看,由于沒(méi)有統(tǒng)一的書(shū)寫(xiě)和印刷標(biāo)準(zhǔn),內(nèi)容排列方式也多種多樣。第三,從古籍的版本類(lèi)型來(lái)看,有刻本、抄本、拓本、字帖等,其中在手寫(xiě)抄本頁(yè)面中,文字會(huì)存在更多的連筆、字體粘連、交錯(cuò)、重疊等情況。最后,很多古籍文獻(xiàn)中還會(huì)有印章、題跋、涂抹、修改的情況出現(xiàn)。這些都使得古籍文獻(xiàn)頁(yè)面呈現(xiàn)復(fù)雜狀態(tài),為最終文字檢測(cè)造成很大難度。

其次,檢測(cè)目標(biāo)密集。與其他圖像目標(biāo)檢測(cè)有所不同,古籍圖像文字呈現(xiàn)密集狀態(tài)。在一張古籍文獻(xiàn)圖像中,可能存在幾十到幾百個(gè)文字目標(biāo),檢測(cè)的目標(biāo)較多,且目標(biāo)較小。本文試圖通過(guò)優(yōu)化的Faster-RCNN算法檢測(cè)圖像中的文字。卷積神經(jīng)網(wǎng)絡(luò)在處理目標(biāo)檢測(cè)任務(wù)時(shí),能夠很好的使復(fù)雜問(wèn)題簡(jiǎn)單化,將大量圖像信息降維成少量的信息再做處理。正常情況下,這樣的降維不會(huì)對(duì)結(jié)果產(chǎn)生較大影響。然而,在進(jìn)行古籍圖像文字檢測(cè)時(shí),與一般圖像目標(biāo)檢測(cè)任務(wù)有很大不同。一張圖像中可能存在大量的目標(biāo),并且每個(gè)目標(biāo)占據(jù)的像素很少,在卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像信息進(jìn)行降維后,每個(gè)文字所占的像素就會(huì)更低,使得目標(biāo)邊緣信息模糊,導(dǎo)致檢測(cè)難度較大。

最后,缺少公共數(shù)據(jù)集。因Faster-RCNN是一種有監(jiān)督學(xué)習(xí)的算法,需要將樣本進(jìn)行標(biāo)注,通過(guò)對(duì)標(biāo)注樣本訓(xùn)練,才可以得到一個(gè)最優(yōu)模型。與無(wú)監(jiān)督學(xué)習(xí)算法不同,F(xiàn)aster-RCNN可以更好的衡量算法的精確度,而缺點(diǎn)就是需要有大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。目前,圖像目標(biāo)檢測(cè)領(lǐng)域有很多可以使用的公用數(shù)據(jù)集,如COCO、ImageNet、PASCAL VOC等,但這些數(shù)據(jù)集一般來(lái)說(shuō)是對(duì)普通常見(jiàn)目標(biāo)進(jìn)行檢測(cè),如人、動(dòng)物、植物、汽車(chē)等,并且目標(biāo)為普通大小尺寸,并不會(huì)出現(xiàn)目標(biāo)過(guò)大或者過(guò)小的情況。而古籍圖像文字檢測(cè),由于其文獻(xiàn)特殊性,并不會(huì)有公用數(shù)據(jù)集出現(xiàn),因此需要自己構(gòu)建相關(guān)數(shù)據(jù)集,用于數(shù)據(jù)訓(xùn)練和檢測(cè)。由于本次實(shí)驗(yàn)內(nèi)容是檢測(cè)古籍圖像中的文字目標(biāo),所以最終數(shù)據(jù)集僅需要做二分類(lèi)標(biāo)注。數(shù)據(jù)集樣本的數(shù)量大小將會(huì)對(duì)最終的結(jié)果產(chǎn)生影響,為了提升檢測(cè)精度,自建數(shù)據(jù)集時(shí)還要考慮到樣本多樣性。

3 對(duì)Faster-RCNN算法調(diào)優(yōu)與訓(xùn)練

Faster-RCNN骨干網(wǎng)絡(luò)的主要作用是提取輸入圖像的特征圖。隨著網(wǎng)絡(luò)結(jié)構(gòu)的不斷加深,下采樣卷積核的感受野會(huì)同時(shí)增加,可以采集到更加豐富的圖像局部信息。Faster-RCNN采用Vgg16作為骨干網(wǎng)絡(luò),Vgg16因其深度只有16層,運(yùn)行速度很快,但是精度并不理想。本文嘗試檢測(cè)古籍圖像中的文字,使得對(duì)速度要求并不是十分敏感,但是對(duì)精度要求較高,通過(guò)綜合權(quán)衡現(xiàn)有常見(jiàn)的骨干網(wǎng)絡(luò),最終將選擇結(jié)構(gòu)更深的ResNet101作為骨干網(wǎng)絡(luò),在此網(wǎng)絡(luò)架構(gòu)上對(duì)參數(shù)進(jìn)行調(diào)整優(yōu)化,并且通過(guò)實(shí)驗(yàn)對(duì)Vgg16和ResNet101的結(jié)果進(jìn)行比較研究,以使訓(xùn)練達(dá)到預(yù)期效果。

3.1 調(diào)整anchor參數(shù)

在Faster-RCNN原算法的RPN部分,使用了三種尺寸(128,256,512),三種寬高比(0.5,1,2),因此共產(chǎn)生9種anchor。由于古籍圖像中的文字與公共數(shù)據(jù)集中給出的檢測(cè)目標(biāo)不同,為了得到更好的文字檢測(cè)結(jié)果,需要對(duì)anchor的參數(shù)進(jìn)行調(diào)整,以便能夠適應(yīng)圖像中的小目標(biāo)、多目標(biāo)。根據(jù)對(duì)獲取古籍圖像中的文字進(jìn)行分析,將最終anchor大小修改為(8,16,32),寬高比修改為(0.4,1,2.5)。

3.2 多尺寸融合訓(xùn)練

本次實(shí)驗(yàn)通過(guò)人工標(biāo)注的方式,開(kāi)展古籍圖像文字檢測(cè)訓(xùn)練,具體如表1所示。

表1 訓(xùn)練數(shù)據(jù)詳細(xì)列表

訓(xùn)練數(shù)據(jù)集采用不同分辨率、不同標(biāo)注集的方法,這是為了在深度學(xué)習(xí)過(guò)程中,通過(guò)樣本多樣性加強(qiáng)對(duì)不同類(lèi)型圖像能有較強(qiáng)的檢測(cè)能力,從而提升檢測(cè)精度。最終標(biāo)注訓(xùn)練圖片1163張,總訓(xùn)練字符數(shù)量3160個(gè)。訓(xùn)練圖片類(lèi)別如圖3(a)—圖3(d)所示。

圖3 訓(xùn)練圖片類(lèi)別

為了比較不同骨干網(wǎng)絡(luò)的檢測(cè)結(jié)果,本次使用Vgg16和ResNet101骨干網(wǎng)絡(luò)分別對(duì)樣本進(jìn)行訓(xùn)練,迭代次數(shù)均為70 000次,最終總體Loss值如圖4所示。圖中橙色曲線(xiàn)表示Vgg16,藍(lán)色曲線(xiàn)表示ResNet101,x軸表示訓(xùn)練迭代次數(shù),y軸表示Loss值。從圖中可以看出,兩種骨干網(wǎng)絡(luò)隨著訓(xùn)練次數(shù)的增加,都呈現(xiàn)了逐步收斂現(xiàn)象,最終Loss值都能達(dá)到一個(gè)比較理想的狀態(tài),ResNet101由于網(wǎng)絡(luò)層次更深,表現(xiàn)優(yōu)于Vgg16。

圖4 訓(xùn)練損失曲線(xiàn)比較

4 古籍圖像文字實(shí)驗(yàn)檢測(cè)效果

本文采用Tensorflow2.0作為實(shí)驗(yàn)的基礎(chǔ)框架,通過(guò)優(yōu)化后的Faster-RCNN算法開(kāi)展古籍圖像文字檢測(cè)。實(shí)驗(yàn)環(huán)境操作系統(tǒng)為Ubuntu 16.04,CPU為Intel Core i7-8700,GPU為RTX1080Ti,Python版本為Python3.7,內(nèi)存為16 G。

實(shí)驗(yàn)結(jié)果采用標(biāo)框方式,標(biāo)注檢測(cè)到的文字目標(biāo)。為了比較不同骨干網(wǎng)絡(luò)的檢測(cè)效果,分別對(duì)Vgg16和ResNet101兩種骨干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),最終古籍圖像文字檢測(cè)效果如圖5和圖6所示。

圖5 使用Vgg16骨干網(wǎng)絡(luò)檢測(cè)結(jié)果(a)正確檢測(cè) (b)過(guò)檢測(cè) (c)漏檢測(cè)

圖6 使用ResNet101骨干網(wǎng)絡(luò)檢測(cè)結(jié)果(a)正確檢測(cè) (b)正確檢測(cè) (c)正確檢測(cè)

從優(yōu)化后的Faster-RCNN算法在利用Vgg16骨干網(wǎng)絡(luò)進(jìn)行古籍圖像文字檢測(cè)效果看,其中圖5(a)準(zhǔn)確檢測(cè)到了其中的文字,上半部涂改部分則被準(zhǔn)確的忽略掉。圖5(b)顯示存在過(guò)檢測(cè)現(xiàn)象,“矣”字的上半部分被單獨(dú)又檢測(cè)為新的文字。圖5(c)顯示存在漏檢測(cè)現(xiàn)象,其中“之”字并沒(méi)有被檢測(cè)出來(lái)。

從優(yōu)化后的Faster-RCNN算法在利用ResNet 101骨干網(wǎng)絡(luò)進(jìn)行古籍圖像文字檢測(cè)效果看,我們以相同位置作為比較,從圖6(a)、圖6(b)、圖6(c)三個(gè)位置來(lái)看,使用了ResNet101骨干網(wǎng)絡(luò)后,這些區(qū)域均能被準(zhǔn)確檢測(cè)出來(lái)。

5 古籍圖像文字檢測(cè)效果評(píng)估

為評(píng)價(jià)優(yōu)化后的Faster-RCNN算法在古籍圖像文字檢測(cè)中的效果,本文將采用分類(lèi)任務(wù)評(píng)價(jià)方式進(jìn)行評(píng)估。分類(lèi)任務(wù)的常用評(píng)價(jià)指標(biāo)包括精確率(Precision)、召回率(Recall)、f值(F1 Score),其公式如下。

公式(2)中的p為文字檢測(cè)精確率,這里表示最終檢測(cè)到的文字當(dāng)中,結(jié)果為正樣本的比例,其中TP表示正確檢測(cè)數(shù),F(xiàn)P為過(guò)檢數(shù)。

公式(3)中的r為召回率,這里表示對(duì)所有樣本進(jìn)行實(shí)驗(yàn)后,實(shí)際檢測(cè)為正樣本所占比例,其中TP表示正確檢測(cè)數(shù),F(xiàn)N為漏檢數(shù)。

公式(4)中的f為精確率與召回率的綜合評(píng)價(jià)值,在這里表示檢測(cè)樣本數(shù)據(jù)整體調(diào)和均值。

本次選擇《胥臺(tái)麋鹿記》中12頁(yè)圖像文獻(xiàn)、共5133字作為實(shí)驗(yàn)測(cè)試,并對(duì)優(yōu)化后的Faster-RCNN采用Vgg16和ResNet101進(jìn)行比較,具體樣本測(cè)試結(jié)果如表2所示。

表2 樣本數(shù)據(jù)檢測(cè)結(jié)果

從表2中可以看出,使用Vgg16實(shí)際共檢測(cè)出4769字,樣本檢測(cè)數(shù)小于實(shí)際樣本字?jǐn)?shù),過(guò)檢文字為38個(gè),漏檢文字為402個(gè)。根據(jù)結(jié)果分析,雖然對(duì)Faster-RCNN進(jìn)行了一定的優(yōu)化,受到版面因素影響,仍出現(xiàn)較多錯(cuò)檢文字,在采用Vgg16作為骨干時(shí)出現(xiàn)過(guò)檢、漏檢主要有兩種原因:一是筆畫(huà)較少的文字,由于在圖像中所占像素非常少,導(dǎo)致未能被檢測(cè)出來(lái),如“之”“一”等;二是文獻(xiàn)中的文字存在復(fù)寫(xiě)情況,使得在實(shí)驗(yàn)中被算法誤判為文字涂抹,導(dǎo)致未能正確檢測(cè)出來(lái)。而使用ResNet101作為骨干網(wǎng)絡(luò)時(shí),實(shí)際共檢測(cè)出4982字,過(guò)檢文字為13個(gè),漏檢文字為164個(gè)。通過(guò)對(duì)比來(lái)看,使用更深的網(wǎng)絡(luò)結(jié)構(gòu)可以減少過(guò)檢、漏檢情況出現(xiàn),但其中仍有錯(cuò)檢現(xiàn)象,主要還是存在于小目標(biāo)文字以及涂改文字中。最終實(shí)驗(yàn)結(jié)果,骨干網(wǎng)絡(luò)使用Vgg16時(shí),樣本總體檢測(cè)精確率為99.20%,召回率為92.17%,f值為95.61%;骨干網(wǎng)絡(luò)使用ResNet101時(shí),樣本總體檢測(cè)精確率為99.74%,召回率為96.80%,f值為98.25%。

6 結(jié)語(yǔ)

本文基于Faster-RCNN算法,對(duì)其中的anchor參數(shù)進(jìn)行優(yōu)化,較好地適應(yīng)了古籍圖像文字檢測(cè)。經(jīng)過(guò)試驗(yàn)發(fā)現(xiàn),采用網(wǎng)絡(luò)結(jié)構(gòu)層次更深的ResNet101作為骨干網(wǎng)絡(luò),在優(yōu)化后的Faster-RCNN算法中檢測(cè)古籍圖像文字精準(zhǔn)度更高。本文優(yōu)化古籍文字檢測(cè)算法檢測(cè)精準(zhǔn)度仍有提升空間,還需要調(diào)整參數(shù),提升文字檢測(cè)率,同時(shí)需要加大樣本訓(xùn)練量,以提升算法的泛化適應(yīng)能力。Faster-RCNN算法是圖像目標(biāo)檢測(cè)領(lǐng)域中的佼佼者,其實(shí)施難度小、目標(biāo)檢測(cè)效果好,適合在圖書(shū)館自動(dòng)化業(yè)務(wù)中推廣普及,相信隨著更多優(yōu)秀算法被應(yīng)用,古籍?dāng)?shù)字化的工作會(huì)不斷取得更大進(jìn)步。

猜你喜歡
骨干古籍文字
中醫(yī)古籍“疒”部俗字考辨舉隅
文字的前世今生
關(guān)于版本學(xué)的問(wèn)答——《古籍善本》修訂重版說(shuō)明
熱愛(ài)與堅(jiān)持
做人民的公仆 做事業(yè)的骨干
西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
當(dāng)我在文字中投宿
核心研發(fā)骨干均16年以上!創(chuàng)美克在產(chǎn)品研發(fā)上再發(fā)力
我是古籍修復(fù)師
關(guān)于組建“一線(xiàn)話(huà)題”骨干隊(duì)伍的通知
东台市| 乾安县| 长宁县| 井冈山市| 阳西县| 开封市| 富蕴县| 门源| 行唐县| 平乐县| 陵川县| 阳朔县| 建水县| 莫力| 阜宁县| 临海市| 东阳市| 闽侯县| 宁安市| 彩票| 和硕县| 通渭县| 思茅市| 富平县| 济源市| 崇明县| 日土县| 景德镇市| 天镇县| 荆州市| 新源县| 台安县| 神农架林区| 寿光市| 库车县| 无锡市| 政和县| 顺昌县| 桓台县| 来安县| 牙克石市|