劉 斌,程方毅,龔德文
(1.華南理工大學(xué)聚合物成型加工工程教育部重點實驗室//廣東省高分子先進制造技術(shù)及裝備重點實驗室//聚合物新型成型裝備國家工程研究中心,廣州 510641;2.廣東昌恒智能裝備科技有限公司,廣東東莞 519000)
近年來,電商市場的火爆推動了物流行業(yè)的快速發(fā)展與不斷進步,市場對快件分揀的要求也越來越高。分揀識別是自動分揀系統(tǒng)中最為耗時的一個環(huán)節(jié),其分揀的效率和準確率至關(guān)重要。高效、精準地分揀識別一直是物流自動化領(lǐng)域研究的熱點和難點。
自動識別技術(shù)是信息數(shù)據(jù)自動識讀、自動輸入計算機的重要手段和方法,其在物流管理工作中的合理應(yīng)用,可以有效提高物流管理工作的準確性與高效性,實現(xiàn)了物流管理的信息化、現(xiàn)代化發(fā)展[1-2]。其中,條形碼成本低、識別速度快,是目前物流行業(yè)使用最普遍的信息載體。從發(fā)展趨勢來看,越來越多的廠商將圖像識別技術(shù)應(yīng)用于物流自動化中與條形碼識別技術(shù)一并使用,提高自動分揀識別的準確率。本文基于收集整理的自動識別技術(shù)在物流自動化的應(yīng)用特點,總結(jié)各種技術(shù)的優(yōu)缺點及適用范圍,重點探討圖像自動識別技術(shù)在物流自動化中的研究與應(yīng)用現(xiàn)狀,以期為構(gòu)建更快速、更準確、更智能的自動分揀系統(tǒng)提供借鑒。
一維條形碼偏重于“標識”商品,但只在一個方向(通常是水平方向)表示信息,而不在垂直方向表示任何信息,為了便于閱讀器的對準,條碼會有一定的高度,條碼的下方還會有英文字母或阿拉伯數(shù)字[3]。幾種常見的一維條形碼式樣如圖1 所示。其中39 碼長度沒有限制,允許雙向掃描,具備自我檢查能力,能用字母、數(shù)字和其他一些符號共43個字符表示,主要應(yīng)用于工業(yè)生產(chǎn)線和圖書的自動化管理。128碼長度可自由調(diào)整,但最多不超過232個字符,允許雙向掃碼,可自行決定是否要加上檢查碼,具有3種不同的編碼類型,可提供標準ASCII中128個字符的編碼使用,常應(yīng)用于流通配送標簽。codabar碼長度可變,不用校驗碼,條碼字符集僅20個字符,常用于倉庫和航空快遞包裹的跟蹤管理。2of5碼沒有檢驗位,只可以編碼0~9十個數(shù)字,主要應(yīng)用于包裝、運輸?shù)?。影響碼制選擇的因素有很多,在實際生產(chǎn)應(yīng)用中,常根據(jù)所需條碼字符、印刷條件和識讀設(shè)備等因素來選擇需要的碼制。
圖1 幾種常見的一維條形碼式樣
一維條形碼具有可靠準確、識別速度快、成本低、可手動輸入、設(shè)備簡單與易于制作等特點,是一種廉價且高效的識別技術(shù)。一維條形碼在物流自動化的應(yīng)用有效地提升了各個環(huán)節(jié)實施過程中的輸入速度,而且成本較低,具有較高的準確度,是目前物流自動化領(lǐng)域最常見的信息載體[4-5]。但是,一維條形碼容量小,通常只表示物品的基本信息(如訂單號等),如果需要貨物更詳細的信息,必須依賴數(shù)據(jù)庫或通訊網(wǎng)絡(luò)的存在,且只具備校驗功能而不具備糾錯能力,破損或污染后可讀性較差。
二維條形碼偏重于“描述”商品,在水平和垂直方向的二維空間存儲信息,不但具有識別功能,而且可顯示更詳細的商品內(nèi)容[6]。幾種常見的二維條形碼式樣如圖2所示。
圖2 幾種常見的二維條形碼式樣
其中PDF417 碼可表示數(shù)字、字母、二進制數(shù)據(jù)和漢字,具有9個等級的糾錯能力,糾正等級最高時,即使條形碼污損50%也能被正確讀出,常應(yīng)用于海關(guān)報關(guān)單、貨物的運輸和郵遞等。Code49碼可表示全部的128個ASCII字符,常應(yīng)用于食品、工業(yè)等。QR碼呈正方形,在左上角、左下角和右上角各有一個像“回”字的定位圖像,可實現(xiàn)任意角度的高速識別,編碼字符集包含數(shù)字、字母、中國漢字和日本漢字,具有4 個等級的糾錯功能,常應(yīng)用于電子票務(wù)和B2B 領(lǐng)域等。Data Matrix碼外觀是一個由許多小方格所組成的正方形或長方形符號,編碼字符集包括全部的ASCII 字符及擴充ASCII 字符,只需要讀取資料的20%即可精確辨讀,很適合應(yīng)用在條碼容易受損的場所,常應(yīng)用于高溫、機械剝蝕等環(huán)境。
二維條形碼具有信息容量大、編碼范圍廣、容錯能力強、可加密、可靠性高與成本低、易制作等特點,是一種較為經(jīng)濟、實用的自動識別技術(shù)。二維條形碼具備立體、龐大的信息存儲和表達功能,可以對物品進行詳細地信息描述而不依賴數(shù)據(jù)庫或通訊網(wǎng)絡(luò)單獨存在,具有檢驗功能和糾錯能力[7]。二維條形碼在物流自動化中的應(yīng)用大多體現(xiàn)在包裹的跟蹤、追溯等環(huán)節(jié)。
在條形碼識別技術(shù)的研究中,針對條形碼損壞或污染時的識讀一直是主要的研究方向?;魢x[8]提出了一種基于像素補充的一維條形碼識別技術(shù),獲取一維條形碼的非線性特征,通過離散變化法對破損的一維條形碼進行像素差值補充,從而提高殘缺一維條形碼的識別率。何紅莊[9]以矩不變?yōu)樘卣鞯哪J阶R別理論為依據(jù),開發(fā)的一維條形碼譯碼系統(tǒng)不僅能對輕度污染與殘缺的、甚至任意角度有畸變的一維條形碼進行識讀。董華冰[10]提出了一種基于一維條形碼投影曲線的識讀方法和基于全局和局部的歐氏距離算法,能對低分辨率、模糊的一維條形碼進行正確識讀,并能對識讀錯誤的條形碼字符進行修正。屈衛(wèi)鋒[11]開發(fā)的一款二維條形碼的快速識別軟件,可以實現(xiàn)對復(fù)雜背景下受噪聲影響、光照不均影響、畸變影響的低質(zhì)量二維條形碼的快速有效識別。劉震[12]改進了二維條形碼的Reed-Solomon 糾錯算法,與傳統(tǒng)的Reed-Solomon 算法相比,改進后的算法在譯碼速度和準確率上均有所提升。侍倩倩[13]利用人工神經(jīng)網(wǎng)絡(luò)中具有聯(lián)想記憶功能的離散型Hopfield神經(jīng)網(wǎng)絡(luò)實現(xiàn)了二維條形碼的復(fù)原,利用模板匹配的思想實現(xiàn)了污染二維條形碼的識別。
無線射頻識別(RFID)技術(shù),作為一種新興的自動識別技術(shù),在工業(yè)自動化領(lǐng)域已得到廣泛應(yīng)用。無線射頻識別技術(shù)主要由標簽、天線和識讀器3部分構(gòu)成,其原理如圖3所示。
圖3 FRID技術(shù)原理圖
在RFID系統(tǒng)中,信息通過識讀器(又稱閱讀器)的天線發(fā)送出一定頻率范圍的標簽信號。當標簽進入磁場區(qū)域時,天線會產(chǎn)生感應(yīng)電流,從而使得標簽獲得能量,標簽將自身編碼等信息通過載波信號發(fā)送出去。識別器會收到信號并對其進行解碼,解碼后的信息或數(shù)據(jù)被送至計算機主機進行處理,從而完成信息采集、信息識別、信息解碼和信息傳輸全過程[14]。
RFID 技術(shù)的突出特點在識別環(huán)節(jié)。比較其他識別技術(shù),具有無需接觸、識別速度快、適應(yīng)工作環(huán)境范圍廣、批量處理等優(yōu)點,是一種昂貴而高效的自動識別技術(shù)[15]。FRID 雖然可以節(jié)省人力成本,并在較為惡劣的環(huán)境下完成對相關(guān)物流信息的大量存儲和準確掃描,但是,使用RFID技術(shù)的設(shè)備投入是巨大的,需要給所有物品粘貼上電子標簽,國外有這類處理能力的企業(yè)也是屈指可數(shù)的[16]。目前,國內(nèi)快遞行業(yè)普遍都使用條形碼攜帶信息,很少使用電子標簽,這對于國內(nèi)數(shù)目龐大的快件量也是更加經(jīng)濟實惠的方式。
隨著人工智能的不斷發(fā)展,圖像識別技術(shù)在物流自動化中也得到了廣泛應(yīng)用,其應(yīng)用主要有圖像分類和OCR光學(xué)字符識別兩個方向。其中,圖形分類技術(shù)確定產(chǎn)品的類別屬性信息,OCR 技術(shù)識別條碼下方的英文字母和數(shù)字。目前,圖像分類技術(shù)及OCR技術(shù)在自動分揀中常作為條形碼識別的補充模塊,當條形碼識讀出現(xiàn)異常時,由圖像分類技術(shù)或OCR技術(shù)獲取產(chǎn)品信息,結(jié)合條形碼識讀結(jié)果,確定產(chǎn)品即將流向的分揀口。
現(xiàn)如今,圖像識別技術(shù)發(fā)展迅速,特別是在工業(yè)領(lǐng)域,圖像分類技術(shù)已被大規(guī)模應(yīng)用。如周院[17]基于深度學(xué)習(xí)的CNN 網(wǎng)絡(luò)模型實現(xiàn)對絲狀真菌圖像類別的識別。包青平[18]借助深度學(xué)習(xí)實現(xiàn)對服裝長度、寬松度以及各部件等細節(jié)要素的識別。曾平平等[19]提出了一種適用于水果圖像分類識別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),識別準確率可達98.44%。劉儼嬌[20]基于AlexNet深度模型和遷移學(xué)習(xí)技術(shù),針對10種多肉植物和9種生石花的分類,分別實現(xiàn)了95.3%和87.3%的正確率。郜翔[21]以深度模型、遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)為理論指導(dǎo),在102類花卉圖像數(shù)據(jù)集上,達到了96.27的分類準確率。在深度學(xué)習(xí)的發(fā)展歷程中,ImageNet 數(shù)據(jù)集[22]起了巨大的推動作用,ImageNet 是目前深度學(xué)習(xí)應(yīng)用較廣的一個領(lǐng)域,具有1 400 萬幅圖片,大約22 000 種類別,針對ImgaeNet 的一個大約120 萬幅圖像、1 000種類別的子集,經(jīng)過訓(xùn)練后的模型最高可以達到90%以上的準確率。
以某公司為例。在一個海外飲品自動化物流項目中,已有將圖像分類技術(shù)作為條碼自動識別技術(shù)的一個補充模塊來進行自動分揀的應(yīng)用案例,如圖4所示。
圖4 飲品自動化物流項目現(xiàn)場照片
其產(chǎn)品為整箱封裝的啤酒、牛奶、礦泉水等,產(chǎn)品種類有限,且箱子外表面有顏色或紋理差異。當條碼由于種種原因無法正確識讀時,可經(jīng)由圖像分類確定物體的類別,通過PLC 控制物品流向指定的分揀道口,極大地提高了自動分揀識別的準確率,其圖像分類技術(shù)應(yīng)用流程如圖5所示。
其流程主要可分為3步。
(1)第1 步,獲取數(shù)據(jù)集。利用工業(yè)相機自動采集大量圖像數(shù)據(jù),按比例劃分為訓(xùn)練集和驗證集,使用tfrecords[23]數(shù)據(jù)格式存儲圖像數(shù)據(jù)。tfrecords格式可以統(tǒng)一不同的原始數(shù)據(jù)格式,對不同的屬性實現(xiàn)更加有效的管理,并且極大節(jié)省內(nèi)存開銷,一個保存了1 000個100×100圖像數(shù)據(jù)的tfrecords文件,大小僅為28.6 MB。
圖5 圖像分類技術(shù)應(yīng)用流程
(2)第2 步,得到模型文件。從tfrecords 文件中讀取數(shù)據(jù),將訓(xùn)練集和驗證集批量輸入卷積神經(jīng)網(wǎng)絡(luò),開始訓(xùn)練,將訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型持久化,方便反復(fù)調(diào)用。在將網(wǎng)絡(luò)模型保存為離線文件時,只需要知道如何從神經(jīng)網(wǎng)絡(luò)的輸入層經(jīng)過前向傳播計算得到輸出層即可,不需要知道類似變量初始化、模型保存等輔助節(jié)點的信息。
(3)第3 步,自動化分類識別。工業(yè)相機自動獲取圖像,將原始圖像數(shù)據(jù)經(jīng)過數(shù)字圖像處理后輸入離線模型文件,經(jīng)過前向傳播計算得到輸出結(jié)果。輸出結(jié)果為一維矩陣,其每一列的值代表著圖像為每種類別的概率,根據(jù)置信度確定概率最大的為所屬類別。
物流自動化中圖像分類技術(shù)應(yīng)用框架構(gòu)建起來雖然較為容易,但是在實際工程應(yīng)用中,針對不同的類別,通常需要重新獲取數(shù)據(jù)集,構(gòu)建卷積網(wǎng)絡(luò),訓(xùn)練模型,且輸出類別結(jié)果無法自動判斷對錯,只能通過設(shè)置置信度判斷,即使將任意圖像輸入識別模型也會給出限定種類內(nèi)的識別結(jié)果。
光學(xué)字符識別(OCR)[24],簡單來說,是掃描文本數(shù)據(jù),進行圖像處理和分析,從而識別字符的一種自動識別技術(shù)。日益成熟的人工神經(jīng)網(wǎng)絡(luò)模式識別方法,為OCR字符識別技術(shù)的研究提供了一種新的手段,與一些傳統(tǒng)技術(shù)相比,該方法具有快速、精準、容錯性強和具有自主學(xué)習(xí)能力速度等優(yōu)點[25]。與以往的符號邏輯系統(tǒng)完全不同,人工神經(jīng)網(wǎng)絡(luò)通過模擬人腦處理信息的方式來進行特征提取,從而為OCR字符識別技術(shù)的發(fā)展開辟了新的方向。
在物流自動化的實際應(yīng)用中,通常會將包含有條形碼和由英文字母和數(shù)字組成的標識信息張貼在貨物外包裝表面,通過對產(chǎn)品信息進行自動讀取、處理,從而保證在輸送、存儲的過程中對貨物進行有效管理。OCR 識別技術(shù)通過識讀條碼下英文字母和數(shù)字直接獲得條碼的標識信息。孫懷遠[26]等基于機器視覺和OCR識別技術(shù)構(gòu)建的檢測系統(tǒng)實現(xiàn)對藥品包裝瓶批號的快速、自動檢測。彭曉輝[27]研究了一種檢測速度快、準確率高、魯棒性好的IC卡字符識別系統(tǒng),可以對高速運動中的噴碼字符進行可靠的檢驗。周鳳香[28]對應(yīng)用于空調(diào)生產(chǎn)線的字符識別系統(tǒng)進行研究與開發(fā),實現(xiàn)了空調(diào)生產(chǎn)流水線上的標簽字符的自動識別。李了了[29]利用機器視覺和字符識別技術(shù)實現(xiàn)對產(chǎn)品編號或編碼字符的自動識別。郭佳寅[30]研究了一種基于OCR 技術(shù)的自動采集包裝箱上的噴碼信息的采集系統(tǒng),并應(yīng)用于物流自動化系統(tǒng)中。張超[31]開發(fā)的自動識別系統(tǒng)可在玻璃纖維生產(chǎn)自動化物流系統(tǒng)中對同一幅照片上的鏤空字符與二維碼進行自動識別,并已在實際工程中應(yīng)用。在現(xiàn)在的實際生產(chǎn)中,越來越多的自動識別系統(tǒng)選擇同時識別條碼信息和字符信息,提高識別的準確率。物流自動化領(lǐng)域中康耐視(Congnex)、??低暎℉IKVISION)、基恩士(KEYENCE)等機器視覺廠商也都在自家的智能掃碼產(chǎn)品中添加了OCR功能,OCR技術(shù)在物流自動化領(lǐng)域中的應(yīng)用前景越來越廣闊。
光學(xué)字符識別的過程需要使用人工神經(jīng)網(wǎng)絡(luò)技術(shù)進行離線訓(xùn)練和在線識別。離線訓(xùn)練就是創(chuàng)建訓(xùn)練文件,對訓(xùn)練樣本進行濾波、增強、字符分割等一系列預(yù)處理后,將獲得的字符保存在字體訓(xùn)練文件中;在線識別就是將采集到的圖像進行預(yù)處理,使用離線訓(xùn)練好的分類器與字體文件進行識別,從而將置信度較高的字體作為識別結(jié)果輸出。OCR 字符識別流程如圖6所示。
圖6 OCR字符識別流程
在物流自動化中,需要識別的字符僅為英文字母和阿拉伯數(shù)字,個數(shù)有限,屬于小字符集,訓(xùn)練一次模型,即可運用在大部分場景中。隨著對深度學(xué)習(xí)的深入研究,文字識別的準確率越來越高。
OCR 技術(shù)的難點主要集中在文本定位上[32]。當前的文本定位方法大致有兩種:(1)基于區(qū)域的定位。設(shè)定圖像區(qū)域像素具有一致性的特征,如Kim 等基于RGB 彩色空間聚類來實現(xiàn)對文本的定位。(2)基于邊緣的文本定位。假設(shè)文字邊緣清晰與背景有很強的對比度,如Lyu 等使用Sobel 濾波器提取圖像的邊緣,分析邊緣特性,用投影分析方法確定文本區(qū)域。
字符分割的方法較多。(1)基于結(jié)構(gòu)的分割方法。常用的有連通域分割法,該方法首先對前景像素進行掃描,使其形成連通域,然后根據(jù)設(shè)置好的條件組合和裁剪這些連通域,最后剩余下來的連通域為相應(yīng)的字符圖片。(2)基于統(tǒng)計特征的分割方法。常用的有直方圖投影法,該方法根據(jù)相鄰字符之間具有一定的間隔來對字符進行分割,可以較為直觀地得到分割點。
圖像識別技術(shù)主要通過對比存儲信息和當前信息,從而識別圖像,不同圖像、不同目的的識別分析稍有不同,在此介紹其關(guān)鍵技術(shù)。
圖像的自動識別主要由計算機視覺相關(guān)技術(shù)實現(xiàn),其關(guān)鍵技術(shù)有圖像分割、特征提取、圖片匹配或分類等,如圖7所示。
圖7 圖像模式識別流程圖
4.1.1 圖像分割
圖像分割,就是在圖像中將物體分離出來,圖像分類通常是將整個前景物體從自動化輸送機的背景中分割出來,OCR技術(shù)則需要把字符區(qū)域從復(fù)雜背景分割出來。
目前借助各種理論模型提出的分割算法已達上千種。在對某幅圖像進行分割時,通常會結(jié)合多種方法來構(gòu)建分割系統(tǒng),以獲得高效、準確的分割結(jié)果。在實際工業(yè)應(yīng)用中,采集到圖像的質(zhì)量往往不是那么理想,通常需要對采集得到的原始圖像進行圖像預(yù)處理[33-34],從而獲得高質(zhì)量的圖像,方便后續(xù)步驟的順利進行。
(1)以QR 二維條形碼的圖像預(yù)處理為例,如圖8 所示,預(yù)處理過程為:獲取目標原始圖像-->灰度化-->濾波-->二值化-->Hough 變換-->透視校正[35]。由圖可以看出,條形碼的自動識別較為關(guān)注目標區(qū)域的詳細信息,但是,條形碼在使用過程中很容易受到缺損、沾污等各種形式的破壞。一維條形碼不具備糾錯功能,受到破壞時可讀性較差,易造成無法識別;二維條碼雖然具備校驗與糾錯功能,可以檢查甚至糾正錯誤,但是,當破壞區(qū)域較大時,也會導(dǎo)致識讀錯誤。
圖8 QR碼圖像預(yù)處理過程
(2)在圖像分類過程中,輸入圖像的質(zhì)量可能會影響輸出類別的置信度,從而在一定程度上影響分類結(jié)果,因此也需要圖像預(yù)處理來消除圖像不相關(guān)信息,加強可用信息。卷積神經(jīng)網(wǎng)絡(luò)模型可以直接將原始圖像作為神經(jīng)網(wǎng)絡(luò)輸入,但為了減少模型訓(xùn)練所需時間,提高模型識別效率,通常采用227×227、100×100、32×32 等尺寸作為輸入圖像大小。以大華500 萬像素級工業(yè)相機為例,將大小為2 592×2 048 的彩色原始圖像壓縮為100×100大小的彩色圖像,結(jié)果如圖9所示。
通過使皮帶機顏色為純黑色,目標區(qū)域的分割變得更為高效和準確,且圖像分類算法更加關(guān)注圖像整體的泛化特征[36],具有極強的抗干擾性。
(3)OCR 在進行文字識別之前的準備工作,主要為文字的定位、校正以及分割工作。
圖9 原始圖像與縮放后的圖像對比
4.1.2 特征提取
圖像的特征包含顏色、紋理、形狀和空間關(guān)系等[37-38],特征提取是將特征點劃分為不同特征子集的過程。目前主流特征提取有固定式特征提取及自動化特征提取兩種。固定式特征提取大都是利用計算機視覺技術(shù)、光譜分析技術(shù)等各種數(shù)字圖像處理手段人為提取有效特征參數(shù),再通過各種統(tǒng)計學(xué)或者機器學(xué)習(xí)方法進行實驗對比確定有效的特征參數(shù)。如郎波[39]等提出了一種基于視覺機制的多層網(wǎng)絡(luò)計算模型,顯示出了優(yōu)秀的泛化能力。卷積神經(jīng)網(wǎng)絡(luò)[40]由于擁有自動化提取樣本數(shù)據(jù)特征的特點,開始逐步替代固定式特征提取,但是卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建一直是一個難題,且對樣本的數(shù)量要求較高,訓(xùn)練模型的運算量遠超過固定式特征提取。
4.1.3 圖像匹配或分類
圖像匹配是指從待檢測圖像中識別出與目標相同或相似的圖像區(qū)域[37]。最常用的匹配方法是模板匹配和模式識別。模板匹配形式較單一,基本是將圖像像素逐一對比,難以解決變形圖像的識別。模式識別可用于圖像檢索和分類等,將相似的、與其他圖像特征差異明顯的部分圖像分為同類,是人工智能發(fā)展的基石。
傳統(tǒng)的特征提取方法需要人為進行特征提取,主要原因是在SVM[41]和BP[42]神經(jīng)網(wǎng)絡(luò)等識別模型下,以圖片像素點作為特征輸入模型會使得特征過多,需要大量樣本數(shù)據(jù),同時,模型難訓(xùn)練、預(yù)測精度欠擬合、計算機資源占用高等。深度學(xué)習(xí)[43]中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)仿造生物的視覺感知機制構(gòu)建,被大量應(yīng)用于計算機視覺領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過一定的訓(xùn)練可自行完成從圖像中抽取特征這個步驟,且能夠減少因圖像的平移、旋轉(zhuǎn)、拉伸、部分遮擋等因素造成的識別誤判[44]。如周愛明等[45]利用深度學(xué)習(xí)建立了CaffeNet蝴蝶識別模型,在識別自然環(huán)境下拍攝的蝴圖像時,成功率遠超傳統(tǒng)SVM方法。
自AlexNet[46]在2012年IamgeNet識別大賽奪冠后,刺激了各種利用卷積神經(jīng)網(wǎng)絡(luò)進行圖片分類研究的發(fā)展,在此后發(fā)展出的VGGNet、GoogLeNet 等網(wǎng)絡(luò)模型先后以極高的精度奪冠。卷積神經(jīng)網(wǎng)絡(luò)模仿生物的視覺感知,可以直接輸入原始圖像,通過權(quán)重共享,減少網(wǎng)絡(luò)中的自由參數(shù)數(shù)量,大大降低了網(wǎng)絡(luò)模型的復(fù)雜性,不僅具有傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的自適應(yīng)等特點,還具有自動提取特征等特點。卷積神經(jīng)網(wǎng)絡(luò)是由卷積層、池化層和全連接層組成,其中,卷積層與池化層起到的作用是自動提取圖片的特征,全連接層與BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是類似的。卷積神經(jīng)網(wǎng)絡(luò)模型如圖10所示。
圖10 卷積神經(jīng)網(wǎng)絡(luò)模型
利用卷積神經(jīng)網(wǎng)絡(luò)的識別過程是:首先,直接將圖片數(shù)據(jù)和對應(yīng)的標簽輸入到網(wǎng)絡(luò)模型中,無需指定圖片的特征提取方式;然后,利用反向傳播算法依據(jù)標簽和模型的預(yù)測值自動調(diào)整模型參數(shù),提取適合的圖像特征作為分類依據(jù)。卷積神經(jīng)網(wǎng)絡(luò)既降低了特征提取的操作難度,又避免了人為因素在特征選取過程中的誤差。
將圖像輸入訓(xùn)練好的模型,可以得到圖像為每種類別的概率。當圖像受到破損或污染時,所屬正確類別的概率會有所降低,但是依然可以識別,這是因為卷積網(wǎng)絡(luò)更關(guān)注同一類別間的泛化特征。卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展使分類識別技術(shù)進入自動化特征提取和分類識別的階段,但是,卷積神經(jīng)網(wǎng)絡(luò)對樣本的數(shù)量要求較高,且訓(xùn)練模型的運算量遠超過手動特征提取技術(shù)。
此外,卷積神經(jīng)網(wǎng)絡(luò)的識別效果與其深度有很大關(guān)系。深度越深,識別效果越好,但也更容易出現(xiàn)過擬合(即對訓(xùn)練數(shù)據(jù)集的識別精度較高,而對測試數(shù)據(jù)集的識別精度較低);如果網(wǎng)絡(luò)深度過淺,則容易出現(xiàn)欠擬合(即對訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的識別精度都較低)。因此,選擇合適的網(wǎng)絡(luò)深度、避免過擬合是構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)的難點。
在實際應(yīng)用中,有時使用旋轉(zhuǎn)、縮放和偏移等圖像增廣技術(shù)擴充樣本數(shù)量后,依然難以完全達到網(wǎng)絡(luò)模型的訓(xùn)練要求,故發(fā)展出遷移學(xué)習(xí)的概念。遷移學(xué)習(xí)[47]就是直接使用其他數(shù)據(jù)集訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型,由于這些網(wǎng)絡(luò)模型已經(jīng)具有圖片特征提取能力(即卷積核),故只需去除原先的全連接層,再使用較小樣本數(shù)據(jù)訓(xùn)練出自定義的全連接層,即可達到較高的識別精度。因此,遷移學(xué)習(xí)降低了對訓(xùn)練樣本數(shù)量的要求,而識別精度卻能達到較高的水平。
在物流自動化領(lǐng)域,一維條形碼成本低、識別速度快,依然是目前物流行業(yè)使用最普遍的信息載體。隨著深度學(xué)習(xí)與計算機視覺的不斷發(fā)展,在物流自動化領(lǐng)域中,同時應(yīng)用圖像識別技術(shù)和條形碼識別技術(shù)已是大勢所趨。其中,圖像分類技術(shù)應(yīng)用框架構(gòu)建起來較為容易,物品的圖像分割相對簡單,且抗干擾性較強,但是,針對不同的物品,需要重新獲取數(shù)據(jù)集,構(gòu)建卷積網(wǎng)絡(luò),適用于物品種類有限且圖像特征有明顯差異的環(huán)境。OCR識別技術(shù)訓(xùn)練一次模型,即可運用在大部分場景,但是,復(fù)雜背景下的文本定位,仍然是當今研究的一個熱點和難點。
條形碼技術(shù)、圖像分類技術(shù)和OCR技術(shù),既可單獨使用也可組合使用。目前來說,圖像分類技術(shù)和OCR技術(shù)通常是作為條碼識別技術(shù)的補充,但是,隨著人工智能的不斷發(fā)展,在未來的某一天,圖像分類技術(shù)和OCR技術(shù)也許會完全取代條碼識別技術(shù)。