藺 偉,張 馳
(陜西交通職業(yè)技術(shù)學(xué)院,陜西 西安 710016)
隨著現(xiàn)代科技水平的發(fā)展,圖像識(shí)別技術(shù)已經(jīng)成為信息時(shí)代下的常規(guī)技術(shù)之一,并在生活實(shí)踐中得到了廣泛的應(yīng)用。其主要通過(guò)計(jì)算機(jī)完成物理信息和物理數(shù)據(jù)的識(shí)別,通過(guò)對(duì)信息的獲取、處理及辨別,最終將圖像信息應(yīng)用于特定領(lǐng)域?,F(xiàn)如今,圖像識(shí)別技術(shù)在現(xiàn)實(shí)生活中已經(jīng)擁有著廣泛的空間,如人臉識(shí)別、指紋識(shí)別等,其后續(xù)將在醫(yī)療領(lǐng)域、信息搜集領(lǐng)域、質(zhì)量控制領(lǐng)域、安全檢查領(lǐng)域等得到廣泛應(yīng)用。計(jì)算機(jī)技術(shù)以及微電子技術(shù)的發(fā)展萌生了圖像識(shí)別技術(shù),并在人工智能領(lǐng)域中發(fā)揮著越來(lái)越重要的作用,具有廣闊的發(fā)展空間。
圖像識(shí)別技術(shù)是一種信息比較技術(shù),將原先的存檔的信息即存儲(chǔ)在記憶中的信息與最新進(jìn)入感官的信息進(jìn)行特征比較。圖像識(shí)別技術(shù)首先要以圖像描述為基礎(chǔ),利用符號(hào)以及數(shù)字等語(yǔ)音對(duì)景物或者圖像以及兩者相互關(guān)系進(jìn)行基本描述,給予圖像描述反饋的信息并獲得一種抽象的表達(dá)。此外,在利用圖像識(shí)別技術(shù)進(jìn)行特征分析時(shí),可以使用模板匹配模型作為輔助工具。圖像識(shí)別技術(shù)是一項(xiàng)功能十分全面的技術(shù),不僅可以反映識(shí)別對(duì)象的外部特征,還可以實(shí)現(xiàn)對(duì)其的定位以及形態(tài)分析,反饋信息更加全面靈活。目前圖像識(shí)別技術(shù)滲透在各個(gè)領(lǐng)域,比如交通領(lǐng)域的車牌號(hào)識(shí)別檢測(cè)、軍事領(lǐng)域的飛行物監(jiān)測(cè)識(shí)別、系統(tǒng)安全領(lǐng)域的指紋識(shí)別解鎖以及人臉識(shí)別技術(shù)[1]。
圖像識(shí)別技術(shù)具有很強(qiáng)的視覺(jué)感官性,可以有效地反映目標(biāo)事物的變化。當(dāng)目標(biāo)事物所處的位置、距離或角度等發(fā)生明顯變化時(shí),在人眼中反映的圖像的形狀以及大小也會(huì)隨之改變,視覺(jué)效果會(huì)隨著外部事物的變化而不斷調(diào)整,并形成不同的感官,從而影響人們對(duì)事物的認(rèn)知和判斷。圖像識(shí)別技術(shù)是人工智能技術(shù)的重要組成部分,圖像識(shí)別技術(shù)與眼睛的感知系統(tǒng)工作原理相似,都是對(duì)目標(biāo)事物進(jìn)行平面成像。圖像識(shí)別最關(guān)鍵的是圖像特征,首先,進(jìn)行特征歸納,比如大寫(xiě)字母“A”突出的形狀特征是尖角,“O”形似一個(gè)圓圈,而“Y”可以看作是由鈍角、銳角、線條組成的綜合體,圖像識(shí)別技術(shù)通過(guò)捕捉這些具有突出特點(diǎn)的信號(hào)完成識(shí)別。其次,圖像識(shí)別技術(shù)具有判斷功能,可以分析信息含義。圖像識(shí)別技術(shù)是以計(jì)算機(jī)為輔助,模擬人眼的識(shí)別過(guò)程,從而獲得目標(biāo)物的外觀屬性以及相互關(guān)系,存儲(chǔ)圖像識(shí)別的模型。當(dāng)計(jì)算機(jī)識(shí)別的圖像與存儲(chǔ)的模型相吻合時(shí),即可完成圖像匹配并識(shí)別[2]。
計(jì)算機(jī)識(shí)別技術(shù)與人腦識(shí)別技術(shù)工作原理相似,就是運(yùn)用科學(xué)技術(shù)進(jìn)行電子成像,分別由以下幾個(gè)步驟完成:首先,獲取信息數(shù)據(jù),通過(guò)各種傳感器將光以及聲音等自然信息轉(zhuǎn)換成電子信息,并收集存儲(chǔ)獲取的信息。圖像識(shí)別技術(shù)最關(guān)鍵的就是可以抓取特殊信息,快速地識(shí)別目標(biāo)事物區(qū)別于其他事物的顯著特征,為不同種類的事物建立獨(dú)立的數(shù)據(jù)庫(kù),提高圖像識(shí)別技術(shù)的快捷度以及精準(zhǔn)度。其次,信息數(shù)據(jù)的初步處理,這個(gè)過(guò)程主要是對(duì)圖像進(jìn)行去噪、處理清晰度等,呈現(xiàn)圖像的重要信息,防止信息丟失。再次,就是圖片信息的選擇以及提取工作,該項(xiàng)工作是圖像識(shí)別技術(shù)中最關(guān)鍵也是難度系數(shù)最大的技術(shù),尤其是圖像識(shí)別,特征的抓取。圖像識(shí)別技術(shù)提取以及選擇信息的有效性直接影響著后期圖像識(shí)別的精準(zhǔn)度,決定著圖像識(shí)別能否順利完成。所以要提升圖像識(shí)別技術(shù)對(duì)關(guān)鍵突出信息的敏銳度,準(zhǔn)確抓取事物特征,選擇性地篩選保留信息。最后,通過(guò)設(shè)計(jì)分類器對(duì)信息就進(jìn)行系統(tǒng)分類。設(shè)計(jì)分類器的主要功能就是設(shè)計(jì)識(shí)別規(guī)則,使計(jì)算機(jī)系統(tǒng)按照規(guī)則進(jìn)行圖像識(shí)別,為圖像識(shí)別技術(shù)提供辨別標(biāo)準(zhǔn),有效提高圖像識(shí)別技術(shù)的精準(zhǔn)度。利用識(shí)別規(guī)則捕捉目標(biāo)事物的關(guān)鍵特征,并對(duì)圖像進(jìn)行評(píng)價(jià)以及有區(qū)分度的歸類[3]。
目前我國(guó)的模式識(shí)別技術(shù)是人工智能識(shí)別技術(shù)中比較成熟的技術(shù),可以在數(shù)據(jù)量大的復(fù)雜環(huán)境中使用。模式識(shí)別作為一項(xiàng)綜合性較強(qiáng)的技術(shù),是對(duì)以往識(shí)別技術(shù)經(jīng)驗(yàn)以及圖像識(shí)別認(rèn)知的總結(jié),以計(jì)算機(jī)技術(shù)為依托,利用數(shù)學(xué)邏輯運(yùn)算對(duì)圖像的形狀、字符、格式、曲線等各個(gè)特征進(jìn)行信息評(píng)價(jià),最后完成圖像識(shí)別。圖像識(shí)別技術(shù)要經(jīng)歷兩個(gè)階段,第一個(gè)是學(xué)習(xí)階段。學(xué)習(xí)階段最本質(zhì)的就是信息存儲(chǔ),即圖像信息采集,將圖像的特征、信息、樣本等信息進(jìn)行提前采集存儲(chǔ),建立一個(gè)龐大的信息庫(kù),再利用識(shí)別規(guī)則系統(tǒng)的歸納分類信息,建立具有明顯區(qū)分度的圖像識(shí)別程序。第二個(gè)是實(shí)現(xiàn)階段。要想有效地實(shí)現(xiàn)計(jì)算機(jī)精準(zhǔn)識(shí)別,這就要求圖像與模板完全吻合,目標(biāo)物與模板的重合度越高,圖像識(shí)別技術(shù)的效果就越好。雖然圖像識(shí)別技術(shù)與人腦的識(shí)別具有較高的相似度,但是在現(xiàn)實(shí)的操作過(guò)程,兩者存在著明顯的差異。對(duì)于計(jì)算機(jī)識(shí)別技術(shù)而言,當(dāng)最新呈現(xiàn)的圖像與數(shù)據(jù)庫(kù)中的圖像特征吻合時(shí),圖像識(shí)別程序就會(huì)啟動(dòng)并完成識(shí)別。但這種基于相似度的識(shí)別技術(shù)其功能是有限的,當(dāng)兩種事物存在高度相似的特征時(shí),就會(huì)造成識(shí)別誤差并發(fā)生識(shí)別錯(cuò)誤。此技術(shù)在實(shí)際運(yùn)用中缺乏靈活性,要提高模式識(shí)別技術(shù)的性能,加強(qiáng)相似度的區(qū)分,有效避免識(shí)別誤差。
神經(jīng)網(wǎng)絡(luò)識(shí)別技術(shù)是一種比較新穎的識(shí)別技術(shù),該項(xiàng)技術(shù)是傳統(tǒng)圖像識(shí)別技術(shù)與神經(jīng)網(wǎng)絡(luò)算法的有機(jī)融合。神經(jīng)網(wǎng)絡(luò)識(shí)別技術(shù)并不是單純的動(dòng)物神經(jīng)網(wǎng)絡(luò),而是人類基于動(dòng)物神經(jīng)識(shí)別原理進(jìn)行人為加工形成的圖像識(shí)別技術(shù)。其中最具代表性的神經(jīng)網(wǎng)絡(luò)識(shí)別技術(shù)就是遺傳算法和BP網(wǎng)絡(luò)二者有機(jī)融合的新型識(shí)別技術(shù),目前該項(xiàng)技術(shù)已經(jīng)運(yùn)用到多個(gè)領(lǐng)域,具有極強(qiáng)的現(xiàn)實(shí)應(yīng)用性。神經(jīng)網(wǎng)絡(luò)圖像識(shí)別技術(shù)的工作原理是預(yù)先對(duì)圖像特征進(jìn)行抓取,然后將圖像特征信息反映到神經(jīng)網(wǎng)絡(luò)上,通過(guò)神經(jīng)判斷完成圖像精準(zhǔn)識(shí)別以及系統(tǒng)分類。
計(jì)算機(jī)識(shí)別技術(shù)最突出的特點(diǎn)是識(shí)別異常精準(zhǔn),主要是因?yàn)樵摷夹g(shù)擺脫分辨率高低區(qū)別,使得基于該圖像形成的圖像數(shù)據(jù)信息具有對(duì)維性,加大了計(jì)算機(jī)的識(shí)別難度。所以,在圖像識(shí)別工作開(kāi)始前要進(jìn)行降維處理,以提升圖像識(shí)別技術(shù)的精準(zhǔn)度。降維可以分為兩類,包括線性降維以及非線性降維。其中應(yīng)用最廣泛的就是線性降維,主要包括主成分分析(PCA)和線性奇異分析(LDA)兩類。線性降維的最突出優(yōu)勢(shì)是理解功能,該項(xiàng)技術(shù)是對(duì)整體的數(shù)據(jù)集合開(kāi)展處理,獲得的為最優(yōu)低維度。雖然線性降維具有自身獨(dú)特的優(yōu)勢(shì),但該技術(shù)在現(xiàn)實(shí)應(yīng)用中運(yùn)算需要耗費(fèi)大量的時(shí)間及空間,而且程序更為復(fù)雜?;诖?,非線性降維立足線性降維的理論基礎(chǔ),具有高效提取的特點(diǎn),該技術(shù)可以有效抓取圖像特征,并在保持?jǐn)?shù)據(jù)完整性的前提下實(shí)現(xiàn)對(duì)圖像有效降維,保障計(jì)算機(jī)圖像識(shí)別始終在最低維度上運(yùn)行,有效提高圖像識(shí)別技術(shù)的速度以及精準(zhǔn)度。
人臉識(shí)別是以人臉面部特征為基礎(chǔ)的身份識(shí)別技術(shù),需要通過(guò)對(duì)人臉面部特征信息的采集,實(shí)現(xiàn)對(duì)人臉的準(zhǔn)確檢測(cè)和身份識(shí)別。人臉識(shí)別技術(shù)具有廣泛的應(yīng)用空間:首先是人臉支付,用戶可以將人臉信息與支付渠道進(jìn)行綁定,在不使用移動(dòng)設(shè)備或者卡片的情況下實(shí)現(xiàn)刷臉支付。其次是人臉考勤,指企業(yè)將人臉識(shí)別技術(shù)應(yīng)用于考勤系統(tǒng),有助于提高考評(píng)效率。最后是人臉閘機(jī),一般應(yīng)用于機(jī)場(chǎng)、火車站等特定場(chǎng)合,主要用于識(shí)別乘客身份。
商品識(shí)別是實(shí)際生活中最常見(jiàn)的圖像識(shí)別技術(shù),主要應(yīng)用于商品流通過(guò)程。在實(shí)際生活中,超市自助結(jié)賬設(shè)備就使用了商品識(shí)別技術(shù)。顧客在采購(gòu)?fù)瓿珊?,可以使用自助結(jié)賬設(shè)備識(shí)別商品,并快速完成結(jié)賬,提高了結(jié)賬效率,節(jié)約人力成本[4]。
圖片識(shí)別目前被廣泛應(yīng)用于移動(dòng)設(shè)備,主要是對(duì)靜態(tài)圖片進(jìn)行識(shí)別,如車型識(shí)別、服裝識(shí)別、植物識(shí)別等,圖片識(shí)別具有廣泛的應(yīng)用空間,給人們的生活帶來(lái)一定便利。
基于人工智能的圖像識(shí)別技術(shù)在功能定位和操作性能方面均符合現(xiàn)階段社會(huì)和科技的發(fā)展趨勢(shì)。對(duì)科技發(fā)展而言,如今的社會(huì)大環(huán)境決定了現(xiàn)代科技的更新?lián)Q代速度加快,所以在科技發(fā)展的前提下圖像識(shí)別技術(shù)的問(wèn)題也隨之而來(lái)?;谌斯ぶ悄艿膱D像識(shí)別技術(shù)的實(shí)際發(fā)展,需要關(guān)注以下幾方面的問(wèn)題。
人工智能背景下的圖像識(shí)別技術(shù)在本質(zhì)上依然是為人的需求而服務(wù),后續(xù)發(fā)展過(guò)程中需要關(guān)注人們的實(shí)際需求。因此,圖像識(shí)別技術(shù)的優(yōu)化及改良升級(jí)的前提條件就是做好市場(chǎng)調(diào)查工作,通過(guò)有效的市場(chǎng)分析和用戶需求調(diào)查,能夠幫助相關(guān)研究人員明確圖像識(shí)別技術(shù)的研究和發(fā)展方向。
不同用戶對(duì)圖像識(shí)別技術(shù)的使用需求有著本質(zhì)上的差異,這也意味著不同用戶對(duì)圖像識(shí)別技術(shù)的功能要求也會(huì)呈現(xiàn)出較大的區(qū)別。因此,圖像識(shí)別技術(shù)在未來(lái)的發(fā)展過(guò)程中必須多樣化,能夠依據(jù)不同的用戶群體設(shè)置出相應(yīng)的功能類型。這樣不僅有利于簡(jiǎn)化軟件,同時(shí)也能夠保證實(shí)際的應(yīng)用效果。
圖像識(shí)別技術(shù)的發(fā)展依據(jù)是科技革新,在追求功能性和實(shí)用性的基礎(chǔ)上,應(yīng)當(dāng)持續(xù)性進(jìn)行科技革新,以期通過(guò)技術(shù)層面的先進(jìn)性帶動(dòng)整個(gè)技術(shù)體系的升級(jí)和進(jìn)步。對(duì)國(guó)家而言,應(yīng)當(dāng)高度認(rèn)可圖像識(shí)別技術(shù)對(duì)于推動(dòng)社會(huì)進(jìn)步的重要價(jià)值,一方面是要加強(qiáng)資金投入,保證研究資金的充足性;另一方面則要給予一定的政策支持,鼓勵(lì)更多的科研單位、研究人員參與其中。對(duì)研究人員而言,需要在日常工作中進(jìn)一步加強(qiáng)學(xué)習(xí)和研究,持續(xù)性開(kāi)發(fā)新型的圖像識(shí)別技術(shù),讓圖像識(shí)別技術(shù)更加智能化和實(shí)用化。
人工智能中的圖像識(shí)別技術(shù)在實(shí)際生活中有著廣泛的應(yīng)用空間,且后續(xù)的研究和發(fā)展推動(dòng)圖像識(shí)別技術(shù)進(jìn)一步與日常生活融合。考慮到圖像識(shí)別技術(shù)在手機(jī)使用、解鎖和支付等多個(gè)領(lǐng)域中的價(jià)值,部分圖片內(nèi)容涉及個(gè)人隱私,因此,安全性問(wèn)題也就成了圖像識(shí)別技術(shù)在發(fā)展過(guò)程中必須考慮的問(wèn)題。從目前的圖像識(shí)別技術(shù)應(yīng)用現(xiàn)狀來(lái)看,大部分圖像識(shí)別技術(shù)的安全性相對(duì)較高,但這并不意味著已經(jīng)達(dá)到徹底安全的程度。因此,隨著圖像識(shí)別技術(shù)的不斷發(fā)展和應(yīng)用,需要進(jìn)一步提升和優(yōu)化安全性能。只有這樣才能夠符合時(shí)代發(fā)展的趨勢(shì)和基本需求,確保圖像識(shí)別技術(shù)能滿足更多人的使用需求[5]。
圖像識(shí)別技術(shù)目前已經(jīng)形成了獨(dú)有的技術(shù)體系,且在各個(gè)領(lǐng)域中有著廣泛的應(yīng)用價(jià)值?,F(xiàn)階段,圖像識(shí)別技術(shù)的優(yōu)勢(shì)主要包括智能化、便捷化和實(shí)用化3個(gè)方面。圖像識(shí)別技術(shù)的優(yōu)勢(shì)是其應(yīng)用范圍和空間的基礎(chǔ),而這些優(yōu)勢(shì)所能夠給用戶帶來(lái)的體驗(yàn)如下:一是智能化。在人工智能化背景下的圖像識(shí)別技術(shù),圖片處理的智能化是其基本要求,而智能化的圖片處理也是衡量圖像識(shí)別技術(shù)現(xiàn)代化程度的關(guān)鍵所在。在人工智能技術(shù)的加持作用下,圖像識(shí)別技術(shù)能夠?qū)崿F(xiàn)自動(dòng)化的圖片識(shí)別和選擇,并通過(guò)計(jì)算機(jī)應(yīng)用圖片識(shí)別結(jié)果。以手機(jī)的人臉識(shí)別功能為例,其本質(zhì)上是將人臉圖片存儲(chǔ)于手機(jī)的安全系統(tǒng),由圖片識(shí)別技術(shù)提取人臉圖片的關(guān)鍵信息,提取出的圖片特征作為后續(xù)解鎖手機(jī)時(shí)的關(guān)鍵依據(jù)。圖片識(shí)別技術(shù)的智能化功能不僅可以實(shí)現(xiàn)圖片的簡(jiǎn)單識(shí)別,同時(shí)也能進(jìn)行圖片的分析和處理保存。二是便捷化。圖像識(shí)別技術(shù)的快速發(fā)展及廣泛應(yīng)用給現(xiàn)代人的日常生活帶來(lái)了諸多便利,這也意味著后續(xù)在處理圖像時(shí)可以通過(guò)一鍵操作的形式在短時(shí)間內(nèi)完成圖像處理。與此同時(shí),人工智能下圖像處理技術(shù)的關(guān)鍵作用在于改善了現(xiàn)代人的生活方式,無(wú)論是鑰匙識(shí)別、人臉識(shí)別、指紋解鎖等都在極大程度上方便了現(xiàn)代人的日常生活。三是實(shí)用化。現(xiàn)階段,人工智能下的圖像識(shí)別技術(shù)主要應(yīng)用于手機(jī)軟硬件使用、支付、解鎖等常規(guī)領(lǐng)域,自身高度的實(shí)用性特征也進(jìn)一步拓寬了圖像識(shí)別技術(shù)的應(yīng)用空間,且目前暫無(wú)相關(guān)技術(shù)可以替換。因此,人工智能下的圖像識(shí)別技術(shù)將在未來(lái)很長(zhǎng)一段時(shí)間內(nèi)成為人們?nèi)粘I钪械慕M成部分。
隨著科技的發(fā)展和社會(huì)的進(jìn)步,圖像識(shí)別技術(shù)在未來(lái)將會(huì)被運(yùn)用到更多的領(lǐng)域,圖像識(shí)別技術(shù)作為一項(xiàng)時(shí)代應(yīng)用性技術(shù),各國(guó)越來(lái)越重視該技術(shù)的研究以及開(kāi)發(fā)。我們可以堅(jiān)信,未來(lái)計(jì)算機(jī)識(shí)別技術(shù)將會(huì)越來(lái)越完善,圖像識(shí)別技術(shù)將會(huì)滲透到各個(gè)領(lǐng)域,使人們充分享受該技術(shù)帶來(lái)的生活便利。