国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的智能OCR識(shí)別關(guān)鍵技術(shù)及應(yīng)用研究

2021-09-16 06:49王日花中國(guó)傳媒大學(xué)北京100024
郵電設(shè)計(jì)技術(shù) 2021年8期
關(guān)鍵詞:深度分類圖像

王日花(中國(guó)傳媒大學(xué),北京 100024)

0 引言

近年來(lái),移動(dòng)互聯(lián)、大數(shù)據(jù)等新技術(shù)飛速發(fā)展,倒逼傳統(tǒng)行業(yè)向智能化、移動(dòng)化的方向轉(zhuǎn)型[1-2]。隨著運(yùn)營(yíng)集約化、數(shù)字化的逐漸鋪開(kāi),尤其是以O(shè)CR 識(shí)別、數(shù)據(jù)挖掘等為代表的人工智能技術(shù)逐漸深入業(yè)務(wù)場(chǎng)景,為用戶帶來(lái)持續(xù)的經(jīng)濟(jì)效益和品牌效應(yīng)。圖書(shū)情報(bào)領(lǐng)域作為提升公共服務(wù)的一個(gè)窗口,面臨著新技術(shù)帶來(lái)的沖擊,必須加強(qiáng)管理創(chuàng)新,積極打造智能化的圖書(shū)情報(bào)服務(wù)平臺(tái)[3-5],滿足讀者的個(gè)性化需求。無(wú)論是高校圖書(shū)館還是公共圖書(shū)館,都需加強(qiáng)人工智能基礎(chǔ)能力的建設(shè),并與圖書(shū)館內(nèi)部的信息化系統(tǒng)打通,優(yōu)化圖書(shū)館傳統(tǒng)的服務(wù)模式,提升讀者的借閱體驗(yàn)。

影像分類和錄入紙質(zhì)材料是圖書(shū)館的常態(tài)生產(chǎn)需求,比如:拍照的圖書(shū)文本和借閱證件信息的分類與錄入,會(huì)消耗大量人力、物力和時(shí)間成本,影響業(yè)務(wù)流程的效率和用戶體驗(yàn)。人工錄入的效率和準(zhǔn)確性低,且易受館員情緒影響。長(zhǎng)期從事繁瑣機(jī)械的錄入工作,對(duì)于館員是極大的心理負(fù)擔(dān)。智能OCR 利用機(jī)器24 h 連續(xù)工作,不受時(shí)間限制,可解決上述圖書(shū)館業(yè)務(wù)的痛點(diǎn),提高影像處理效率。

1 傳統(tǒng)OCR識(shí)別技術(shù)介紹

光學(xué)字符識(shí)別(Optical Character Recognition,OCR)指自動(dòng)識(shí)別圖像中的文字內(nèi)容,屬于人工智能機(jī)器視覺(jué)領(lǐng)域的一個(gè)重要的分支[6-8],即把文本、卡證等載體上的文字通過(guò)光學(xué)等技術(shù)手段轉(zhuǎn)化為計(jì)算機(jī)認(rèn)識(shí)的電子化數(shù)據(jù)。傳統(tǒng)OCR 識(shí)別采用統(tǒng)計(jì)模式,處理流程較長(zhǎng),包括圖像的預(yù)處理、二值化、連通域分析、版面分析、行切分、字切分、單字符識(shí)別和后處理等步驟。典型的傳統(tǒng)OCR識(shí)別流程如圖1所示。

圖1 傳統(tǒng)OCR識(shí)別技術(shù)流程

傳統(tǒng)OCR識(shí)別方法存在諸多弊端,匯總?cè)缦拢?/p>

a)在進(jìn)行版面分析時(shí),使用大量的規(guī)則,導(dǎo)致程序維護(hù)成本很高。

b)行業(yè)域分析完全依靠圖像二值化得到的二值圖,對(duì)于掃描文檔效果尚可,面對(duì)手機(jī)拍攝和高拍儀取圖時(shí),難取得效果良好的二值化圖,造成二值化過(guò)程中大量信息的丟失。

c)傳統(tǒng)OCR技術(shù)包含8個(gè)模塊,如圖1所示,其中任何一個(gè)模塊的不完善都會(huì)產(chǎn)生誤差,誤差的累積將導(dǎo)致識(shí)別率大幅下降。

d)傳統(tǒng)OCR識(shí)別靈活性差,對(duì)于自然場(chǎng)景下拍攝的復(fù)雜樣本基本無(wú)法處理,沒(méi)有修改提升空間,可用性不高。

e)傳統(tǒng)的方法將OCR系統(tǒng)割裂成過(guò)多的環(huán)節(jié),倚重人工規(guī)則,需要在每個(gè)環(huán)節(jié)上引入人工干預(yù)并根據(jù)場(chǎng)景設(shè)定方法參數(shù),難做到端到端的訓(xùn)練。

深度學(xué)習(xí)算法可以有效地規(guī)避傳統(tǒng)OCR 識(shí)別的不足,通過(guò)組合低層特征形成更加抽象的高層表示屬性類別或特征,挖掘數(shù)據(jù)的分布式特征表示。借助神經(jīng)網(wǎng)絡(luò)來(lái)模擬人腦進(jìn)行分析、學(xué)習(xí)和訓(xùn)練,即模仿人腦機(jī)制來(lái)分析圖像、聲音和文本等數(shù)據(jù),被廣泛應(yīng)用于人工智能的模型構(gòu)建和處理中。

2 基于深度學(xué)習(xí)的智能OCR識(shí)別概述

隨著2012 年Imagenet 競(jìng)賽采用深度學(xué)習(xí)技術(shù)的AlexNet奪得冠軍,深度學(xué)習(xí)算法開(kāi)始應(yīng)用于圖像視頻領(lǐng)域?;谏疃葘W(xué)習(xí)的智能OCR 技術(shù)是一次跨越式的升級(jí)[9-12],深度學(xué)習(xí)算法實(shí)現(xiàn)整行識(shí)別,提升了OCR的識(shí)別率和識(shí)別速度,人工需要幾分鐘才能錄入的文本,智能OCR 技術(shù)可以秒速進(jìn)行精準(zhǔn)識(shí)別。智能OCR識(shí)別技術(shù)對(duì)識(shí)別流程進(jìn)行了優(yōu)化,優(yōu)化后的識(shí)別流程包括檢測(cè)、識(shí)別和后處理3個(gè)主要步驟,如圖2所示。

圖2 智能OCR識(shí)別技術(shù)流程

基于深度學(xué)習(xí)的OCR 定位與識(shí)別通過(guò)卷積神經(jīng)網(wǎng)絡(luò)CNN、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN、長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM技術(shù)實(shí)現(xiàn),可在灰度圖像上實(shí)現(xiàn)文字區(qū)域的自動(dòng)定位和整行文字的識(shí)別,解決了傳統(tǒng)OCR 技術(shù)中單字識(shí)別無(wú)法借助上下文來(lái)判斷形似字的問(wèn)題。此外,智能OCR 識(shí)別技術(shù)在低質(zhì)量圖片的容忍能力和識(shí)別準(zhǔn)確率方面得到了顯著的提升,可在印刷體低分辨率與模糊字符識(shí)別、印刷體復(fù)雜或者非均勻背景識(shí)別、印刷體多語(yǔ)言混合識(shí)別、印刷體藝術(shù)字體識(shí)別、手寫小寫數(shù)字識(shí)別、手寫大寫金額識(shí)別、手寫通用文本識(shí)別等場(chǎng)景下實(shí)現(xiàn)高效的識(shí)別和分類?;谏疃葘W(xué)習(xí)的智能OCR 識(shí)別技術(shù)[13-15]支持移動(dòng)設(shè)備拍攝的圖像識(shí)別,可適用于對(duì)焦不準(zhǔn)、高噪聲、低分辨率、強(qiáng)光影等復(fù)雜背景。

除了在卡證識(shí)別、票據(jù)識(shí)別、表單識(shí)別、文檔識(shí)別,智能OCR 可應(yīng)用于互聯(lián)網(wǎng)廣告推薦系統(tǒng)、UCG 圖片視頻過(guò)濾、醫(yī)學(xué)影像識(shí)別、街景路牌識(shí)別等。智能OCR 識(shí)別屬于多類分類問(wèn)題,場(chǎng)景復(fù)雜、挑戰(zhàn)性大;尤其是中文識(shí)別,字符集達(dá)到20 000 類,而英文數(shù)字加字母只有62類。影響OCR識(shí)別效果的因素較多,比如背景的復(fù)雜度、字體的種類、分辨率的高低、多語(yǔ)言混合度、字體的排列、變形和透視情況等。

3 智能OCR的關(guān)鍵技術(shù)和創(chuàng)新應(yīng)用

3.1 移動(dòng)端適配和圖像質(zhì)量判斷

圖書(shū)館生產(chǎn)需求更多的發(fā)生在移動(dòng)端,用戶更喜歡用手機(jī)拍照后即可識(shí)別,智能OCR 技術(shù)綜合已有的信息化技術(shù),可在各種移動(dòng)端實(shí)現(xiàn)適配。首先,基于輕量級(jí)深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)移動(dòng)端的取圖功能;其次,融合視頻流識(shí)別技術(shù),即從視頻中識(shí)別出圖書(shū)館卡證的有效信息。深度學(xué)習(xí)網(wǎng)絡(luò)可高效地學(xué)習(xí)到邊緣情況,通過(guò)邊緣的檢測(cè),得到物體的邊緣輪廓,然后通過(guò)邊緣跟蹤合并,保障識(shí)別效果。移動(dòng)端適配網(wǎng)絡(luò)計(jì)算量很小,大多數(shù)的移動(dòng)端設(shè)備均支持,即使透視變換很嚴(yán)重的圖像也能很好地校正,保證移動(dòng)端識(shí)別的準(zhǔn)確率。

移動(dòng)端圖像的采集受光照強(qiáng)弱、拍攝抖動(dòng)、對(duì)焦方式等條件影響,有時(shí)會(huì)導(dǎo)致采集的原始圖像非常模糊,最終使得圖像無(wú)法被有效地識(shí)別?;诖?,需要將模糊的圖像阻擋在識(shí)別之前,使得系統(tǒng)資源被合理的利用。基于深度學(xué)習(xí)的圖像質(zhì)量判斷,提供一種圖像質(zhì)量判斷能力,通過(guò)CNN 學(xué)習(xí)得到輸入圖像質(zhì)量的分類,給出判斷的可信度。

3.2 多任務(wù)目標(biāo)檢測(cè)

角度檢測(cè)和文本檢測(cè)是文本識(shí)別的前提,可在雜亂無(wú)序、千奇百怪的復(fù)雜場(chǎng)景中準(zhǔn)確定位出角度、直線、圖章、文字等區(qū)域。由于圖像可能帶有一定角度,有的甚至有可能是90°以上傾斜或者倒立圖像,需要檢測(cè)出圖像的主方向角度;處理的圖像可能存在表格線,圖章等,都需要檢測(cè)出來(lái);對(duì)于圖像中的文字行區(qū)域,需按照文本行檢測(cè)出每一塊的外接四邊形。傳統(tǒng)的方法是功能模塊分開(kāi),各自采用不同的網(wǎng)絡(luò)進(jìn)行定位,所需的網(wǎng)絡(luò)規(guī)模巨大,串行效率較低。為解決此問(wèn)題,可采用基于多任務(wù)(MultiTask)的FCN 檢測(cè)網(wǎng)絡(luò),將角度檢測(cè)、直線檢測(cè)、圖章檢測(cè)、文字檢測(cè)融合在一個(gè)檢測(cè)網(wǎng)絡(luò)中,從輸出的特征圖中預(yù)測(cè)出需要檢測(cè)結(jié)果。

3.3 整行識(shí)別的核心技術(shù)

文字圖像是按照一定的規(guī)則和順序排列的,OCR可看成是一種與語(yǔ)音識(shí)別類似的序列識(shí)別問(wèn)題。基于與語(yǔ)音識(shí)別問(wèn)題類似,OCR 技術(shù)可視為時(shí)序依賴的詞匯或短語(yǔ)識(shí)別問(wèn)題。利用CNN+LSTM+Attention+CTC 網(wǎng)絡(luò)實(shí)現(xiàn)端到端的整行文字識(shí)別,精度和效率均有較大提升,下面介紹2種常見(jiàn)的整行識(shí)別算法。

3.3.1 基于CRNN 的整行識(shí)別技術(shù)(CNN+LSTM+CTC)

基于聯(lián)結(jié)時(shí)序分類CTC(Connectionist Temporal Classification)訓(xùn)練RNN 的算法,在語(yǔ)音識(shí)別領(lǐng)域中相對(duì)于傳統(tǒng)算法具有顯著優(yōu)勢(shì),所以嘗試在OCR 識(shí)別中借鑒CTC 損失函數(shù)。CRNN 就是其中代表性算法,CRNN 算法輸入100×32 歸一化高度的詞條圖像,基于7 層CNN 提取特征圖,把特征圖按列切分(Map-to-Se?quence),每一列包含512 個(gè)維度特征,輸入到兩層雙向LSTM神經(jīng)網(wǎng)絡(luò)(每層包含256個(gè)單元格)進(jìn)行分類。在訓(xùn)練過(guò)程中,通過(guò)CTC 損失函數(shù)的指導(dǎo),實(shí)現(xiàn)字符位置與類標(biāo)的近似軟對(duì)齊。CRNN 借鑒語(yǔ)音識(shí)別中的LSTM+CTC 的建模方法,不同點(diǎn)是輸入的LSTM 特征,從語(yǔ)音領(lǐng)域的聲學(xué)特征(MFCC),替換為CNN 網(wǎng)絡(luò)提取的圖像特征向量。CRNN算法把CNN做圖像特征工程的潛力與LSTM 做序列化識(shí)別的潛力結(jié)合,既提取了魯棒特征,又通過(guò)序列識(shí)別避免了傳統(tǒng)算法中難度極高的單字符切分與單字符識(shí)別等問(wèn)題,同時(shí)序列化識(shí)別也嵌入時(shí)序依賴(隱含利用語(yǔ)料)。

智能OCR 識(shí)別技術(shù)通過(guò)改進(jìn)LSTM+CTC 算法,在CNN 一側(cè),通過(guò)在卷積層采取類似VGG 網(wǎng)絡(luò)的結(jié)構(gòu),減少CNN 卷積核數(shù)量的同時(shí)增加卷積層深度,既保證精度又降低時(shí)耗,同時(shí)加入BatchNorm 機(jī)制。在RNN一側(cè),針對(duì)LSTM 有對(duì)語(yǔ)料和圖像背景過(guò)擬合的傾向,在雙向LSTM 單元層實(shí)現(xiàn)Dropout。在訓(xùn)練階段,針對(duì)CTC loss 對(duì)初始化敏感和收斂速度慢的問(wèn)題,采用樣本由易到難、分階段訓(xùn)練的策略。在測(cè)試階段,針對(duì)字符拉伸導(dǎo)致識(shí)別率降低的問(wèn)題,保持輸入圖像尺寸比例,根據(jù)卷積特征圖的尺寸動(dòng)態(tài)決定LSTM 時(shí)序長(zhǎng)度。

3.3.2 聯(lián)合CTC和Attention機(jī)制的整行識(shí)別

近年來(lái),注意力機(jī)制廣泛應(yīng)用于語(yǔ)音識(shí)別、圖像描述、自然語(yǔ)言處理等領(lǐng)域。就其在OCR 的應(yīng)用而言,注意力機(jī)制能夠?qū)崿F(xiàn)特征向量與原圖字符區(qū)域的近似對(duì)齊,聚焦詞條圖像特征向量的ROI,優(yōu)化深度網(wǎng)絡(luò)Encoder-Decoder 模型的準(zhǔn)確率。相比于CNN+LSTM+CTC 模型,注意力模型更顯式的把當(dāng)前時(shí)刻待分類字符與原圖位置對(duì)齊,也更顯式的利用前一時(shí)刻語(yǔ)料;注意力模型配合自回歸連接,除了精度提升,收斂速度也加快了。

聯(lián)合訓(xùn)練方案的精度更優(yōu),且收斂速度與CTC 相當(dāng),注意力機(jī)制就是采用基于內(nèi)容和歷史相結(jié)合的方法?;趦?nèi)容的方法利用上一步預(yù)測(cè)的字符向量和預(yù)測(cè)該向量的加權(quán)特征向量作為聯(lián)合特征,LSTM 的輸入也來(lái)源于聯(lián)合特征向量,并生成注意力機(jī)制的查詢向量。基于歷史的方法借助上一步的注意力,并利用CNN 模型提取上一步注意力的特征,生成注意力機(jī)制索引向量的部分內(nèi)容。除此,還在訓(xùn)練數(shù)據(jù)與技巧等方面做多處改進(jìn),如引入圖像隨機(jī)填補(bǔ)、依據(jù)每個(gè)batch內(nèi)樣本動(dòng)態(tài)填補(bǔ)圖像長(zhǎng)度等。

3.4 多文檔圖像分割定位和智能分類

對(duì)于識(shí)別的各種票據(jù)、單據(jù)圖像,如果一次只能上傳識(shí)別一張,且需要指定圖像必須正立的,會(huì)大大影響用戶體驗(yàn)。多目標(biāo)分割定位技術(shù),可同時(shí)對(duì)一張圖像上的不同目標(biāo)進(jìn)行分割定位,實(shí)現(xiàn)多種票據(jù)的同時(shí)識(shí)別。算法支持任意角度和任意方向的文檔,分割得到最佳擬合文檔的多邊形,做到最大限度的所見(jiàn)即所得,有利于后面的圖像校正和識(shí)別。

多圖像的智能分類運(yùn)用了分層特征融合方法,從圖像分割開(kāi)始就支持圖像的大類分割分類,然后基于圖像特征和OCR 文本特征進(jìn)行圖像類別的精分類。圖3是一種可注冊(cè)的圖像分類流程。

圖3 智能OCR多文檔圖像智能分類

3.5 識(shí)別結(jié)果結(jié)構(gòu)化

在各種場(chǎng)景中,要求不但要定位識(shí)別出圖像中文字,還需要將圖像分類到之前定義的版式中,方便圖像歸類和識(shí)別結(jié)果入庫(kù)。在版式分類模塊中,通過(guò)工具配置模板,然后利用模板信息對(duì)輸入圖像進(jìn)行匹配打分,提取最大的匹配分?jǐn)?shù);當(dāng)分?jǐn)?shù)大于預(yù)定值時(shí),則匹配成功,否則匹配不成功。整個(gè)版式匹配的算法流程圖如圖4所示。版式匹配分3個(gè)步驟。

圖4 智能OCR版式分類流程圖

第1 步就是利用提取的直線,分析出表格各個(gè)格子(Cell)和表格的結(jié)構(gòu),將文字行納入該Cell。

第2 步,匹配表格結(jié)構(gòu)、行列數(shù)量、表格Cell 的相對(duì)尺寸、Cell 占的行數(shù)和列數(shù),特別是需要匹配表格Cell內(nèi)部關(guān)鍵字。

第3步,計(jì)算線匹配分?jǐn)?shù)和表格線匹配分?jǐn)?shù),計(jì)算關(guān)鍵字文本匹配分?jǐn)?shù)并加權(quán)相加后得到最終的匹配分?jǐn)?shù)。最后,計(jì)算所有的模板與識(shí)別結(jié)果的匹配分?jǐn)?shù),匹配分?jǐn)?shù)最大者為表格分類結(jié)果,調(diào)用設(shè)定的多類識(shí)別核心,完成對(duì)應(yīng)內(nèi)容的二次識(shí)別。

4 結(jié)束語(yǔ)

本文對(duì)OCR 技術(shù)和應(yīng)用進(jìn)行了分析,相比于傳統(tǒng)OCR,基于深度學(xué)習(xí)的智能OCR 技術(shù)具有識(shí)別準(zhǔn)確率更高、速度更快、無(wú)格式依賴、支持私有化快速部署等優(yōu)勢(shì),深度學(xué)習(xí)算法和模型構(gòu)建也是OCR 應(yīng)用的關(guān)鍵。隨著智能OCR 技術(shù)不斷演進(jìn),需要細(xì)化業(yè)務(wù)需求,和已有的信息化系統(tǒng)相結(jié)合,打造智能OCR 創(chuàng)新服務(wù)模型,解決實(shí)際生產(chǎn)中的痛點(diǎn)問(wèn)題[16-18]。以圖書(shū)和情報(bào)領(lǐng)域?yàn)槔浔旧淼男畔⒒接写嵘?,以O(shè)CR 為代表的智能化應(yīng)用相對(duì)不足;下一步,要以智慧圖書(shū)館建設(shè)為目標(biāo),需要調(diào)研已有的OCR 識(shí)別應(yīng)用,強(qiáng)化更多識(shí)別模塊,以技術(shù)突破作為優(yōu)化圖書(shū)館業(yè)態(tài)的基礎(chǔ),促進(jìn)管理模式的創(chuàng)新,不斷打造讀者滿意的圖書(shū)和知識(shí)服務(wù)。

猜你喜歡
深度分類圖像
四增四減 深度推進(jìn)
深度思考之不等式
基于生成對(duì)抗網(wǎng)絡(luò)的CT圖像生成
淺析p-V圖像中的兩個(gè)疑難問(wèn)題
巧用圖像中的點(diǎn)、線、面解題
簡(jiǎn)約教學(xué) 深度學(xué)習(xí)
按需分類
教你一招:數(shù)的分類
說(shuō)說(shuō)分類那些事
給塑料分分類吧
清徐县| 浙江省| 临泽县| 绥江县| 依兰县| 乾安县| 海伦市| 容城县| 广河县| 朝阳市| 腾冲县| 天气| 神农架林区| 南澳县| 托克托县| 华坪县| 沛县| 灵宝市| 娄底市| 陆良县| 淳化县| 射洪县| 翁源县| 桃园市| 惠水县| 鹤山市| 如东县| 盈江县| 新晃| 祁东县| 寻乌县| 托克逊县| 留坝县| 大宁县| 武宁县| 荔波县| 汤原县| 百色市| 化州市| 邹平县| 溧水县|