国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的護(hù)照文本信息識別

2024-11-06 00:00:00謝子敬
數(shù)字通信世界 2024年10期

摘要:應(yīng)用基于深度學(xué)習(xí)的場景文本檢測和場景文本識別的算法,實現(xiàn)對多國護(hù)照圖片中關(guān)鍵文本信息的結(jié)構(gòu)化輸出具有重要意義。該文針對檢測算法難以處理極端長寬比和小尺度文字的問題,使用了基于像素分割的檢測方法,并且進(jìn)行多尺度特征融合獲得不同尺度的特征圖;針對字符像素受干擾的情況,使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像特征的上下文關(guān)系建模,以減輕污損干擾;針對無關(guān)文本干擾的情況,使用了基于文本和布局信息的多模態(tài)Transformer進(jìn)行建模,獲取關(guān)鍵信息的多模態(tài)模式,濾去無關(guān)信息,進(jìn)行關(guān)鍵詞匹配和提取,獲得了較好的實驗結(jié)果。

關(guān)鍵詞:護(hù)照;深度學(xué)習(xí);文本檢測;文本識別;關(guān)鍵信息提取

doi:10.3969/J.ISSN.1672-7274.2024.10.018

中圖分類號:TP 3 文獻(xiàn)標(biāo)志碼:B 文章編碼:1672-7274(2024)10-00-04

A Passport Text Information Recognition System Based on Deep Learning

Abstract: It’s meaningful to apply existing scene text detection and recognition algorithms based on deep learning to passports so as to implement structured output of the key information in multinational passport pictures. In this paper, Aiming at solving the problem of detecting texts with extreme aspect ratio and relatively small size, we use pixel segmentation based algorithm and conduct multi-scale feature fusion; to alleviate the interference in character pixel, we use recurrent neural network to model the context of picture features, so as to reduce the interference of defacing; to avoid the interference of irrelevant text, the multi-modal Transformer based on text information and layout information is used for modeling, so as to obtain multi-modal mode of key information, filtering out irrelevant information, matching and extracting key words.The experimental results show that the system has a lot of advantages.

Keywords: passport; deep learni?ng; text detecti?on; text recogni?ti?on; key i?nformati?on extracti?on

1 研究背景

目前通過計算機(jī)視覺技術(shù)實現(xiàn)護(hù)照識別面臨的主要問題有:圖像存在背景紋理、紫外光防偽花紋、無關(guān)條形碼和圖形等的干擾,這會對文本檢測產(chǎn)生影響;護(hù)照中有MZR碼這樣的極長文本以及其他細(xì)小文本,這對檢測模型的分辨率提出了要求。有些算法對不同字號、字體風(fēng)格、顏色與空間排列變化等適應(yīng)性還不強(qiáng)。防偽花紋的紋理特征會產(chǎn)生干擾,往往會造成識別效果下降等。鑒此,本論文旨在設(shè)計一個護(hù)照文本信息結(jié)構(gòu)化識別系統(tǒng),通過以鍵值對的格式輸出關(guān)鍵信息,達(dá)到較好的準(zhǔn)確率與識別效果,從而為更好地解決以護(hù)照為代表的證照信息識別有效性問題提供思路。

2 算法理論基礎(chǔ)

對護(hù)照中文本信息的識別需要經(jīng)過文本檢測、文本識別和關(guān)鍵信息提取的過程。本文設(shè)計的檢測模塊采用DB算法實現(xiàn)。DB(Differentiable Binarization),即可微分二值化,是Liao M.等人[1]提出的文本檢測算法,包括DB操作在內(nèi)的整個神經(jīng)網(wǎng)絡(luò)稱之為DBNet。DB算法屬于基于分割的文本檢測算法,無須復(fù)雜的后處理,能夠處理細(xì)長文本,在檢測時具有準(zhǔn)確度與推理速度方面的優(yōu)勢,其有效性與效率一般要好于其他算法。本文需要對護(hù)照圖片進(jìn)行文本檢測,找出護(hù)照中所有文本框的位置,獲得其四點文本框。文本中設(shè)計的識別模塊的任務(wù)是識別出圖像中的文字內(nèi)容,返回預(yù)測出的文本和預(yù)測結(jié)果的置信度。本設(shè)計的文本識別模塊采用CRNN[2](Convolutional Recurrent Neural Network)。CRNN框架中,轉(zhuǎn)錄層使用了CTC方法,計算從雙向LSTM的輸出概率分布中所有能夠獲得標(biāo)簽字符的路徑概率之和。基于IIIT5K、SVT、IC03數(shù)據(jù)集CRNN在沒有字典矯正的情況下分別獲得了78.2%、80.8%、89.4%的準(zhǔn)確率,同時具有較快的推理速度,是文本識別的典型算法。關(guān)鍵信息提?。↘ey Information Extraction,KIE)是一種從文檔圖片中抽取特定信息的技術(shù)。本設(shè)計使用LayoutXLM[3]算法對文本檢測和識別后的結(jié)果進(jìn)行關(guān)鍵信息抽取。LayoutXLM能在多語言文檔數(shù)據(jù)集上進(jìn)行字符級別的圖像標(biāo)注,使用多語言的文檔做預(yù)訓(xùn)練,用來理解文檔布局、文本和圖像內(nèi)容。它采用了Transformer架構(gòu),對帶掩碼的視覺語言建模任務(wù)、圖像文本對齊任務(wù)和圖像文本匹配任務(wù)等多任務(wù)進(jìn)行預(yù)訓(xùn)練,這三個預(yù)訓(xùn)練任務(wù)能加強(qiáng)模塊的文本信息對齊能力、文本信息與圖像信息中細(xì)粒度和粗粒度的對齊能力。本設(shè)計在權(quán)衡性能的情況下去掉了其中的視覺編碼及與視覺相關(guān)的預(yù)訓(xùn)練,僅處理護(hù)照中的文本信息和布局信息,結(jié)果顯示該算法在面對不同類型護(hù)照時都能有效提取出所需關(guān)鍵詞,以鍵值對輸出。

3 過程實現(xiàn)

本實驗設(shè)計的步驟主要包括前述算法選擇、數(shù)據(jù)獲取與標(biāo)注、模型訓(xùn)練和模型評估,然后通過采用相關(guān)算法從護(hù)照圖像中檢測與識別文本信息,并最終提取出關(guān)鍵信息,實現(xiàn)對多國護(hù)照圖片中關(guān)鍵文本信息的結(jié)構(gòu)化輸出。

3.1 數(shù)據(jù)來源與標(biāo)注

在數(shù)據(jù)來源方面,預(yù)訓(xùn)練數(shù)據(jù)集包括用于文本檢測的LSVT-2019中的3萬張護(hù)照圖片,用于文本識別的原始真實數(shù)據(jù)26萬張圖片與合成的500萬張圖片,用于關(guān)鍵信息提取的XFUNDS數(shù)據(jù)集200張圖片。LSVT-2019和XFUND來源于公開數(shù)據(jù)集。文本識別圖片來源于LSVT-2019和PaddleOCR。微調(diào)數(shù)據(jù)集來源于百度、小紅書以及采集到的真實護(hù)照。綜合起來總計文本檢測圖片650張,文本識別圖片則包括了原始真實圖片11 000張和使用Text Recognition Data Generator合成的文本圖片7萬張,關(guān)鍵信息提取圖片有150張。在進(jìn)行數(shù)據(jù)標(biāo)注時,對LSVT-2019中的圖片標(biāo)注了文本位置的4點坐標(biāo)和文本內(nèi)容,同時對文本識別數(shù)據(jù)集圖片中的字符數(shù)字進(jìn)行了標(biāo)注。針對XFUNDS數(shù)據(jù)集,將圖片中出現(xiàn)的關(guān)鍵詞進(jìn)行了文本內(nèi)容和關(guān)鍵詞類別的標(biāo)注。微調(diào)數(shù)據(jù)集使用PaddleOCR提供的PaddleOCRLabel半自動化標(biāo)注軟件進(jìn)行標(biāo)注,標(biāo)注格式同上。本設(shè)計中在進(jìn)行文本檢測標(biāo)注時將屬于同一字段的文本都放在同一個文本框中,如護(hù)照上的出生日期不應(yīng)標(biāo)注成“23”“MAR”“96”,而是“23 MAR 96”。在標(biāo)注文本識別數(shù)據(jù)時將文本字符內(nèi)容標(biāo)注出即可。

3.2 評價指標(biāo)

對護(hù)照圖片信息實現(xiàn)文本檢測、文本識別與關(guān)鍵信息提取實驗時須設(shè)定評價指標(biāo)。這里,文本檢測訓(xùn)練的評價指標(biāo)主要包括準(zhǔn)確率、召回率和Hmean。當(dāng)預(yù)測文本框與標(biāo)注文本框的交并比大于0.5時可以認(rèn)為圖像預(yù)測成功。準(zhǔn)確率指正確預(yù)測的文本框個數(shù)與總預(yù)測個數(shù)的比值,當(dāng)一條文本中的所有字符均預(yù)測準(zhǔn)確(不計空格),我們稱這條文本預(yù)測正確。召回率指準(zhǔn)確預(yù)測的文本框個數(shù)與總標(biāo)注個數(shù)的比值。Hmean為準(zhǔn)確率與召回率的調(diào)和平均值。文本識別訓(xùn)練評價指標(biāo)有準(zhǔn)確率和歸一化編輯距離。編輯距離指將原文本通過替換、刪除或增添等操作后得到目標(biāo)文本所需要的操作數(shù)。歸一化編輯距離為1-(各預(yù)測文本的編輯距離之和/所有文本字符數(shù))。關(guān)鍵信息提取的評價指標(biāo)有準(zhǔn)確率、召回率和Hmean。當(dāng)一條關(guān)鍵信息被正確檢測和識別后,模型對其關(guān)鍵詞類別進(jìn)行預(yù)測,若與標(biāo)準(zhǔn)類別相同則表明預(yù)測正確。類似地,其中準(zhǔn)確率為vgoItqYT0IXAAbgULyDX8Q==關(guān)鍵信息中預(yù)測正確個數(shù)占所有已預(yù)測信息數(shù)目的比值,召回率為關(guān)鍵信息中預(yù)測正確個數(shù)占總待預(yù)測個數(shù)比值。

3.3 模型訓(xùn)練

本實驗使用的硬件系統(tǒng)與軟件系統(tǒng)中,服務(wù)器使用Linux操作系統(tǒng)Ubuntu,發(fā)行版本為20.04.1,顯卡使用單卡RTX A5000(24G),處理器參數(shù)為“Intel(R) Xeon(R) Gold 6330 CPU @ 2.00GHz”,深度學(xué)習(xí)框架使用paddlepaddle-gpu2.4.2版本、Python3.8版本,及Cuda11.2版本。進(jìn)行護(hù)照文本檢測實驗時,在前述預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行微調(diào)。設(shè)置Adam優(yōu)化器,設(shè)定學(xué)習(xí)率為0.001進(jìn)行余弦衰減,采用warm_up訓(xùn)練策略以提升訓(xùn)練效果,加入L2正則化,訓(xùn)練epoch數(shù)目為100,batch_size大小為24。圖像預(yù)處理采用隨機(jī)翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、隨機(jī)仿射變換和隨機(jī)剪裁等圖像增強(qiáng)策略對數(shù)據(jù)進(jìn)行增廣,以減少過擬合。護(hù)照文本識別實驗中,在前述預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行微調(diào)。實驗中將CRNN算法和基于Transformer的SVTR算法的運(yùn)行結(jié)果進(jìn)行了對比,并且對CRNN訓(xùn)練的學(xué)習(xí)率進(jìn)行了多次試驗。其中進(jìn)行CRNN訓(xùn)練時epoch數(shù)目為30,最佳學(xué)習(xí)率為0.0003,使用Adam優(yōu)化器、學(xué)習(xí)率進(jìn)行余弦衰減,實施warm_up訓(xùn)練策略,訓(xùn)練前將圖像像素改變?yōu)?2×480,以適應(yīng)長文本圖像。提取關(guān)鍵信息時,在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行微調(diào),訓(xùn)練epoch數(shù)目為100,使用AdamW優(yōu)化器,將學(xué)習(xí)率設(shè)置為0.0001并進(jìn)行余弦衰減,采用warm_up訓(xùn)練策略,對輸入文本信息進(jìn)行最長大小為512的詞嵌入。

4 實驗N3hw9WuAfkbr3BGfjnrU7Q==結(jié)果與分析

4.1 文本檢測實驗結(jié)果與分析

首先對護(hù)照文本信息進(jìn)行檢測,得到訓(xùn)練損失與準(zhǔn)確率評估情況分別見圖1與圖2所示。

圖1中,總損失是概率圖損失、閾值圖損失和二值圖損失的加權(quán)平均和。橫坐標(biāo)為訓(xùn)練步數(shù),縱坐標(biāo)為總損失數(shù)值,反映模型對真實標(biāo)簽的擬合情況。圖2中橫坐標(biāo)為評估準(zhǔn)確率的次數(shù),縱坐標(biāo)為當(dāng)次評估的準(zhǔn)確率。評估過程中在第32次達(dá)到了最高準(zhǔn)確度0.944。在測試運(yùn)行速度時,推理預(yù)測了324張圖片,用時13.15 s,平均每張用時40 ms,F(xiàn)PS為24.69,訓(xùn)練后模型效果較好。從結(jié)果來看,文本檢測模型對于中文和英文的檢測效果較好,對圖像中的數(shù)字、中文、英文都能很好地檢測出來,也學(xué)習(xí)到了外國語言如厄立特里亞護(hù)照中出現(xiàn)的外語文字圖像特征。

4.2 文本識別實驗結(jié)果與分析

首先對基于注意力和Transformer的模型SVTR進(jìn)行了訓(xùn)練,訓(xùn)練集和驗證集中的真實圖片和合成文本圖片比例為1∶1。實驗結(jié)果表明最高達(dá)到了0.944的準(zhǔn)確率、0.9906的歸一化編輯距離,以及511的FPS。然后使用不基于注意力機(jī)制的模型CRNN進(jìn)行了訓(xùn)練,最高達(dá)到了0.971的準(zhǔn)確率、0.9959的歸一化編輯距離和730的FPS。CRNN算法的最終效果比SVTR算法效果好,究其原因,這是因為護(hù)照文本字符大部分不具有上下文相關(guān)性,注意力機(jī)制沒有帶來很大效果提升,反而減慢了推理速度。其次,在實驗中對CRNN訓(xùn)練效果較好的學(xué)習(xí)率進(jìn)行了多次試探,使用了0.001、0.0005、0.0003、0.0001等學(xué)習(xí)率進(jìn)行訓(xùn)練,最終發(fā)現(xiàn)當(dāng)學(xué)習(xí)率為0.0003時效果最好。若只使用真實數(shù)據(jù)作為測試集,準(zhǔn)確率為0.937,歸一化編輯距離為0.9913。測試預(yù)測24 000張圖片,用時105 s,F(xiàn)PS為228,平均每張圖片推理用時4 ms。聯(lián)級時將檢測模型檢測到的文字區(qū)域進(jìn)行單獨(dú)識別,將所有的檢測識別結(jié)果重新書寫在空白頁面上。從結(jié)果中可以看出,檢測和識別模型能夠?qū)D片進(jìn)行基本的檢測和識別。

4.3 關(guān)鍵信息提取結(jié)果

最后,在對護(hù)照文本進(jìn)行關(guān)鍵信息提取時,結(jié)果顯示最高準(zhǔn)確率為0.971。關(guān)鍵信息提取網(wǎng)絡(luò)過濾了關(guān)鍵詞的提示詞,如“姓名/Name”、“護(hù)照”,將所需要的關(guān)鍵詞的內(nèi)容提取了出來,具體有護(hù)照類別、國家碼、護(hù)照號碼、姓名、性別、出生日期、出生地點、簽發(fā)日期、簽發(fā)地點、到期日期、簽發(fā)機(jī)關(guān)、MZR碼、護(hù)照序列號,反映模型對于基本的關(guān)鍵信息都能實現(xiàn)有效提取。

5 結(jié)束語

本實驗對護(hù)照文本信息進(jìn)行了檢測、識別與關(guān)鍵信息的提取工作。在文本檢測時,針對細(xì)長文本使用了基于像素分割思想的算法,能獲得大尺度和小尺度的特征;在文本識別任務(wù)中,針對字符污損和模糊的情況使用了雙向LSTM對文本特征進(jìn)行上下文建模,減少了干擾像素的影響;在關(guān)鍵信息提取任務(wù)中,針對護(hù)照存在不同版式的情況使用了融合位置信息和布局信息的Transformer Encoder結(jié)構(gòu)對關(guān)鍵詞布局進(jìn)行建模,實現(xiàn)對多版本護(hù)照的關(guān)鍵信息提取。通過實驗可知,文本檢測模型獲得了94.4%的準(zhǔn)確率和24的FPS,模型能在一定程度上克服護(hù)照樣本受強(qiáng)烈花紋干擾導(dǎo)致文本實例分割不清晰的情況;文本識別模型獲得了93.7%的準(zhǔn)確率、0.991 3的編輯距離和228的FPS,模型可以識別輕微模糊的文字圖片;關(guān)鍵信息提取模型獲得了97.1%的準(zhǔn)確率,在大部分情況下都可以有效地實現(xiàn)護(hù)照文本中的關(guān)鍵信息提取。綜合來看,本實驗較好地實現(xiàn)了整個護(hù)照文本信息的檢測、識別與提取工作。本設(shè)計在未來的改進(jìn)方向是讓模型學(xué)習(xí)非文字圖像的特征并對非文字像素進(jìn)行去除,同時模型可以改進(jìn)為端到端的設(shè)計,以進(jìn)一步減少模型參數(shù)量和推理用時。

參考文獻(xiàn)

[1] Zhu Y., Chen J., Liang L., et al. Fourier Contour Embedding for Arbitrary-Shaped Text Detection[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, virtual: IEEE, 2021:3123-3131.

[2] Shi B., Wang X., Lyu P., et al. Robust Scene Text Recognition with Automatic Rectification[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA: IEEE, 2016:4168-4176.

[3] Xu Y., Lv T., Cui L., et al. LayoutXLM: Multimodal Pre-training for Multilingual Visually-Rich Document Understanding[J]. arXiv preprint arXiv:2104.08836, 2021.

长宁区| 高清| 东山县| 苍溪县| 江永县| 涡阳县| 韩城市| 广饶县| 定结县| 富顺县| 隆尧县| 宁陕县| 常熟市| 大田县| 徐闻县| 天峨县| 张家界市| 南郑县| 敖汉旗| 广德县| 武穴市| 洛宁县| 招远市| 铁岭市| 鄂温| 当雄县| 色达县| 镇安县| 雅安市| 灌南县| 陆良县| 长汀县| 大同市| 沁阳市| 富民县| 无棣县| 平泉县| 溆浦县| 南宁市| 定陶县| 肥西县|