国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

復(fù)雜環(huán)景下的文本檢測與識別算法的研究

2021-09-03 08:50:42吳繼安楊超宇
綏化學(xué)院學(xué)報 2021年8期
關(guān)鍵詞:字符識別字符灰度

吳繼安 楊超宇

(安徽理工大學(xué)經(jīng)濟(jì)與管理學(xué)院 安徽淮南 232000)

通過使用計算機(jī)視覺,大大提高了工業(yè)生產(chǎn)的生產(chǎn)效率。并且在一些特定的生產(chǎn)環(huán)境下,將字符識別技術(shù)應(yīng)用到商品標(biāo)簽識別中,可以識別并讀取出包裝上的文字信息。其中包括:產(chǎn)品名稱、配料、生產(chǎn)商、產(chǎn)地和生產(chǎn)日期等用于描述該商品相關(guān)的信息。通過利用這一技術(shù),可以將商品進(jìn)行快速分類,并將不合格的產(chǎn)品分離出來。通過應(yīng)用字符識別技術(shù),不僅可以提高信息的精準(zhǔn)度,同時也極大的降低了人力成本[1]。

一、字符檢測

文本檢測是圖像信息分析和提取過程中的重要技術(shù),其關(guān)鍵在于如何區(qū)分和定位復(fù)雜的文本區(qū)域和背景區(qū)域。傳統(tǒng)的圖像文本檢測主要利用人工設(shè)計特征檢測圖像中的文本,傳統(tǒng)的字符檢測需要經(jīng)過圖像預(yù)處理、字符定位、字符分割、字符識別操作完成[2],如圖1。

圖1 字符識別方法對比

工業(yè)商品標(biāo)簽檢測屬于復(fù)雜場景下的文本檢測,不同的商品包裝上包含不同尺寸、顏色、形狀、對比度的標(biāo)簽文本,并且商品標(biāo)簽的背景相較于印刷文檔更加復(fù)雜,傳統(tǒng)的文本檢測方法受到人工設(shè)計特征的局限性,難以滿足復(fù)雜的食品標(biāo)簽文本檢測需求。

通過使用深度學(xué)習(xí)技術(shù),能夠有效避免人工設(shè)計特征存在的局限性,目前已經(jīng)廣泛應(yīng)用于目標(biāo)檢測領(lǐng)域。本文借鑒經(jīng)典算法的思路,提出基于DB算法的文本檢測方法,對于其檢測結(jié)果使用基于CRNN的文本識別的方法。

(一)基于DB算法的文本檢測。近年來,基于分割的方法被廣泛應(yīng)在場景文本檢測領(lǐng)域,這使得字符識別過程中對各種形狀(曲線、垂直、多向)具有較高的檢測精度??晌⒍祷?Differentiable Binarization)是基于分割場景文本的字符檢測[3]。其主要原理是使用分割方法生成的概率圖轉(zhuǎn)化為邊界框和文本區(qū)域,其中包括二值化的后處理。二值化在字符識別中起到了非常關(guān)鍵的作用,而傳統(tǒng)的通過設(shè)置固定的閾值的二值化操作難以適應(yīng)復(fù)雜多變的檢測場景。本文使用的DB算法是通過在分割網(wǎng)絡(luò)中插入二值運(yùn)算進(jìn)行組合優(yōu)化,最終實(shí)現(xiàn)了整個熱圖的自適應(yīng)閾值,如圖2。

圖2 DB算法網(wǎng)絡(luò)結(jié)構(gòu)

可微二值化的基本步驟為:首先提取輸入圖像的主干和特征;然后將圖像傳到特征金子塔,采集到相同尺寸的圖片的同時進(jìn)行特征關(guān)聯(lián);對采集得到的主干和特征進(jìn)行分析,并計算出預(yù)測概率圖(Probability map)和閾值圖(Threshold map);最后根據(jù)預(yù)測概率圖和閾值圖得到最后的近似二值圖,并生成文本邊緣框。因?yàn)闃?biāo)準(zhǔn)的二值處理是不可微的,而且在訓(xùn)練過程中分割網(wǎng)絡(luò)不能得到優(yōu)化[4]。所以使用可微二值,用于更好的計算反轉(zhuǎn)值。

在訓(xùn)練階段,通過得到二值化后的圖片得到概率圖,然后根據(jù)一個閾值推導(dǎo)出二值圖,同時獲得連接區(qū)域。最后,通過公式(1)的補(bǔ)償計算,在樣例區(qū)域通過膨脹再收縮得到文本框,如圖3。

圖3 產(chǎn)品信息檢測

(二)基于CRNN算法的文本識別。早期的OCR(optical character recognition)算法是將單字分割后再進(jìn)行識別的。如常見的車牌識別,先把車牌圖片使用投影方法切割出單個字體,再送入SVM(support vector machine)或者CNN(Convolutional Neural Networks)里完成文字分類。CRNN(Convolutional Recurrent Neural Network)算法是將識別任務(wù)轉(zhuǎn)化為序列建模問題,避免了文字分割這一不必要的工作。它規(guī)避了輸入圖像尺度必須一致的限制,經(jīng)過卷積層、循環(huán)層,輸出階段經(jīng)過特定算法轉(zhuǎn)錄后,便完成了不限長文本識別任務(wù)[5]。如圖4所示,CRNN模型的第一個層次是CNN層。卷積層的目的是提取特征圖。CNN網(wǎng)絡(luò)部分有7個卷積層、2個BN(Batch Normalization)層、4個最大池化層[6]。需要注意的是池化層的卷積核尺寸在長寬方向上不一致,最終導(dǎo)致輸出長寬比例變化的不一致。

圖4 CRNN網(wǎng)絡(luò)結(jié)構(gòu)

CRNN模型的第二個層次是RNN層。文本識別任務(wù)可建模成基于時序的字符序列識別問題,利用CTC(Connectionist Temporal Classification)損失函數(shù)實(shí)現(xiàn)字符位置的軟對齊。LSTM(Long-Short Term Memory)的預(yù)測結(jié)果連接CTC層,去除冗余的字符,將CNN提取到的特征適配到RNN層合,并成最終的識別結(jié)果[7],如圖5。

圖5 生產(chǎn)編號識別

二、系統(tǒng)實(shí)現(xiàn)

(一)圖像預(yù)處理。本文主要研究復(fù)雜環(huán)境下顏色信息的處理與識別,大致可分為圖像處理與識別兩步。圖像預(yù)處理是是圖像識別的基礎(chǔ),在不同的場景下,結(jié)合自己的算法和程序,通過設(shè)定和調(diào)節(jié)參數(shù)將圖片進(jìn)行一系列的處理,使該圖片更宜于被識別[8]。圖像處理主要包含:去噪處理、圖像增強(qiáng)、彩色圖像轉(zhuǎn)變成灰度圖、灰度圖轉(zhuǎn)化成二值圖、邊緣檢測、分割和直方圖匹配、輪廓匹配。圖像預(yù)處理的主要的任務(wù)就是弱化圖像中多余的干擾信息,增強(qiáng)圖像中所要識別信息的局部或者全部的特征,擴(kuò)大圖像中不同信息的特征差別。通過改善圖像質(zhì)量、豐富信息量,加強(qiáng)對圖像后續(xù)的識別效果[9]。

1.圖像預(yù)處理。由于攝像機(jī)采集到的圖像都是彩色的,識別過程中需要對圖片的R、G、B三個通道依次處理,這會對識別速度有很大的影響[10]。所以我們需要對圖片進(jìn)行灰度化處理。圖像的灰度化可以大大減少圖像中所包含的信息,并且計算量也會大大減少,有利于后續(xù)的運(yùn)算和計算。根據(jù)不同顏色的重要性和其他的一些不同的指標(biāo),對R、G、B三個分量進(jìn)行加權(quán)平均,如公式(2)。根據(jù)公式對彩色圖片灰度化處理,得到合理的灰度圖像,如圖6。

圖6 圖像灰度化

2.二值化。大津法(OTSU)又稱最大類間方差法或最小類內(nèi)方差法,即二值化圖像閾值的選取。將彩色圖片上的像素點(diǎn)的灰度值設(shè)為0或255,使圖片背景和目標(biāo)一分為二,呈現(xiàn)出明顯的黑白效果,如圖7。按照圖像的灰度特效,二值化后的前景與目標(biāo)會產(chǎn)生一個類間方差值,即二值化的過程需要取的一個閾值[11]。當(dāng)圖片背景和目標(biāo)錯分時,會使兩部分的差別減小,從而導(dǎo)致錯分概率變大。如公式(3),記H為圖像的總平均灰度,a為目標(biāo)文字、h為平均灰度值。

由式(2)可見公式中a1表示目標(biāo)文字所占圖像的比例;a1=1-a0為圖片背景點(diǎn)數(shù)占比;h0表示w0對應(yīng)的平均灰度值;h1表示w1對應(yīng)平均灰度值。當(dāng)方差N最大時,被處理圖片中的目標(biāo)和背景被錯分的概率最小,此時的得到的灰度值為最佳閾值[12],方差N可由式(4)表示。

(二)標(biāo)簽檢測與識別。經(jīng)過圖像預(yù)處理的操作后,如圖8。經(jīng)過通過灰度化和二值化后的圖片可以更好的被DB文本檢測算法和CRNN文本識別算法更好的被識別出來,可以大大提高識別和檢測效率。然后使用預(yù)先編寫好的程序進(jìn)行文字識別:首先打開處理好的圖片;用鼠標(biāo)標(biāo)記好要識別的區(qū)域,點(diǎn)擊確定后系統(tǒng)開始進(jìn)行文字的提取和識別;識別結(jié)束后,將識別的字符打印到控制臺;最后可以在指定區(qū)域輸入要識別的文字與系統(tǒng)識別的字符進(jìn)行對比判斷。經(jīng)過以上步驟,識別成功或失敗都將給出相應(yīng)提示。

三、結(jié)果分析

(一)實(shí)驗(yàn)步驟與環(huán)境。本字符識別軟件采用Python、OpenCV.js和Pyqt5進(jìn)行編寫,并實(shí)現(xiàn)了字符檢測的可視化操作。實(shí)驗(yàn)使用的電腦配置為:英特爾i9處理器、16g運(yùn)行內(nèi)存和Nvidia GTX2080ti顯卡。圖像采集裝置,如圖9。

圖9 圖像采集裝置

實(shí)驗(yàn)共分為:圖像采集、圖像預(yù)處理、劃分識別區(qū)域、字符分割和字符識別5個步驟,如圖10。將需要標(biāo)簽識別的物品放到圖像采集裝置上。當(dāng)傳感器感應(yīng)到物品,相機(jī)就會進(jìn)行拍照并將圖像傳到軟件進(jìn)行預(yù)處理;用鼠標(biāo)選擇好識別區(qū)域,并輸入要檢測的字符。系統(tǒng)自動會對被標(biāo)記的識別區(qū)域進(jìn)行字符分割和識別;最后將識別結(jié)果與輸入的字符進(jìn)行對比,把匹配和不匹配的圖片分別存入到2個不同的文件夾內(nèi)。

圖10 實(shí)驗(yàn)流程

(二)實(shí)驗(yàn)數(shù)據(jù)分析。如表1中記錄了10個不同的商品標(biāo)簽的檢測結(jié)果。每個標(biāo)簽都有著不同的背景和不同的字符,并且全部在相同的燈照條件下進(jìn)行檢測。通過上述實(shí)驗(yàn)步驟進(jìn)行識別,并分別記錄其識別時間和字符識別準(zhǔn)確率。經(jīng)過分析與對比,本組實(shí)驗(yàn)的平均識別準(zhǔn)確率為98.78%,平均識別時間為903ms。通過使用基于深度學(xué)習(xí)的字符檢測方法,檢測速率和識別準(zhǔn)確率都有著極好的表現(xiàn)。通過對算法進(jìn)一步優(yōu)化和訓(xùn)練,識別的速率和準(zhǔn)確率還會進(jìn)一步提升,并且可以在更多復(fù)雜的環(huán)境中進(jìn)行字符的檢測與識別。

表1 識別數(shù)據(jù)結(jié)果

四、結(jié)論

通過使用基于深度學(xué)習(xí)的文本檢測方法,即通過將DB文本檢測算法對圖片進(jìn)行可微二值化處理,再利用CRNN文本識別算法進(jìn)行字符檢測。實(shí)驗(yàn)過程中,在不同光照和遮擋條件、都有著較好的表現(xiàn)。并且針對不同的形狀、方向和顏色的文字都有著較高的識別準(zhǔn)確率。與傳統(tǒng)的字符識別算法相比,本實(shí)驗(yàn)使用的算法不僅可以應(yīng)用到更多的場景,而且克服了多種字符形態(tài)上的限制。經(jīng)過大量的實(shí)驗(yàn)與測試,DB算法和CRNN算法具有良好的穩(wěn)定性和擴(kuò)展性。通過將這兩種算法相結(jié)合,文本檢測的準(zhǔn)確率和識別速度都有著明顯的提升。

猜你喜歡
字符識別字符灰度
采用改進(jìn)導(dǎo)重法的拓?fù)浣Y(jié)構(gòu)灰度單元過濾技術(shù)
尋找更強(qiáng)的字符映射管理器
基于灰度拉伸的圖像水位識別方法研究
字符代表幾
一種USB接口字符液晶控制器設(shè)計
電子制作(2019年19期)2019-11-23 08:41:50
消失的殖民村莊和神秘字符
一種改進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的英文字符識別
基于最大加權(quán)投影求解的彩色圖像灰度化對比度保留算法
儀表字符識別中的圖像處理算法研究
基于灰度線性建模的亞像素圖像抖動量計算
宁远县| 蚌埠市| 青田县| 仲巴县| 岫岩| 饶阳县| 乌拉特中旗| 岚皋县| 平塘县| 当涂县| 吴江市| 松桃| 项城市| 家居| 北安市| 黔江区| 礼泉县| 集贤县| 鱼台县| 都江堰市| 新源县| 呼伦贝尔市| 潜江市| 河源市| 海丰县| 鹤峰县| 庆安县| 邵阳市| 平和县| 乌拉特前旗| 繁峙县| 盐亭县| 宜阳县| 哈尔滨市| 潼关县| 商都县| 共和县| 胶南市| 石屏县| 吴忠市| 图木舒克市|