王 杰
(新鄉(xiāng)醫(yī)學(xué)院三全學(xué)院,河南 新鄉(xiāng) 453000)
隨著人工智能相關(guān)研究的廣泛應(yīng)用及技術(shù)的快速發(fā)展,屬于人工智能架構(gòu)中的技術(shù)應(yīng)用層,處于人工智能發(fā)展階段中的感知智能階段的圖像識別技術(shù)同樣得到廣泛發(fā)展,其中的人臉識別區(qū)別與生物特征識別技術(shù)被廣泛應(yīng)用于各個領(lǐng)域中。
生物特征識別是利用計算機技術(shù),通過采集人類的生物特征樣本信息進行人物的身份信息識別,涉及的內(nèi)容相對廣泛。其中,人的生物特征是人體各個器官部位的綜合體征,包括臉部特征、掌紋、動作、體形、虹膜、指紋、指靜脈、聲紋、步態(tài)等多種生物特征,其識別過程涉及圖像處理、機器學(xué)習(xí)、計算機視覺、語音識別等多項技術(shù)。
不同于指紋、掌紋、虹膜等其他生物特征識別,人臉識別技術(shù)具有直觀、非接觸性、方便采集、交互性強、可擴展性等優(yōu)點,成為大數(shù)據(jù)背景下的生物特征識別中的典型研究領(lǐng)域。在計算機技術(shù)的支持下,生物特征被采集整理,并利用深度學(xué)習(xí)框架包含的算法得出個人獨有特征,以便于進行身份識別。
由于人臉面部的不同角度、表情以及環(huán)境條件,比如光線、角度、分辨率等外界環(huán)境因素,在識別率和誤差率兩方面容易受多維度因素影響,進而造成人臉識別的研究結(jié)果存在誤差。鑒于此情況,本文闡述了深度學(xué)習(xí)理論、卷積神經(jīng)網(wǎng)絡(luò)、基于深度學(xué)習(xí)的人臉識別及深度學(xué)習(xí)在人臉圖像識別技術(shù)中的應(yīng)用,分析了基于深度學(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)的人臉識別技術(shù)應(yīng)用技術(shù)路線,并對未來的應(yīng)用發(fā)展進行展望。
深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域中一個新的研究方向,通過在多層神經(jīng)網(wǎng)絡(luò)上運用機器學(xué)習(xí)算法對數(shù)據(jù)進行表征學(xué)習(xí)的方法,從而實現(xiàn)數(shù)據(jù)挖掘、計算機視覺、語音識別、自然語言處理等任務(wù)的算法集合。人工智能是使機器展現(xiàn)出人類的智力,機器學(xué)習(xí)是達到人工智能目標(biāo)的一條路徑,而深度學(xué)習(xí)則是實現(xiàn)機器學(xué)習(xí)的一種技術(shù)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。研究深度學(xué)習(xí)的動機在于建立模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),使其模仿人腦的機制來解釋數(shù)據(jù),如圖像,聲音和文本等。
多層神經(jīng)網(wǎng)絡(luò)的步驟是由特征映射到值,其中的特征是人工挑選得到的,而深度學(xué)習(xí)的步驟則是信號—特征—值,其中對應(yīng)的特征是由網(wǎng)絡(luò)所選擇的。深度則體現(xiàn)在能對特征進行多次變換操作,深度的特有操作以及其在各領(lǐng)域的迅速發(fā)展,使得相關(guān)領(lǐng)域的研究學(xué)者在研究和應(yīng)用中能夠從樣本中無監(jiān)督地學(xué)習(xí)到更能體現(xiàn)數(shù)據(jù)的本來特征。
深度學(xué)習(xí)的核心是特征學(xué)習(xí),是一個框架,其中包含多個重要的算法:卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計算并且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(FNN)。隨著深度學(xué)習(xí)在理論知識和實踐應(yīng)用領(lǐng)域的不斷深入研究并且迅速發(fā)展,相繼提出了多種卷積神經(jīng)網(wǎng)絡(luò)模型,比如AlexNet、VGGNet、GoogleNet、ResNet等。以AlexNet模型為例,AlexNet的隱含層可以由5個卷積層、3個池化層和3個全連接層組成。人工智能機器學(xué)習(xí)中非常重要的一個算法——深度學(xué)習(xí)算法,而深度學(xué)習(xí)最擅長的能力之一就是分類圖像,目前深度學(xué)習(xí)算法對圖像的分類及對圖像進行識別的準(zhǔn)確率相對較高。
為了有效地解決過擬合問題,對不同的位置區(qū)域提取出具有代表性的特征(進行聚合統(tǒng)計,如最大值、平均值等),這種聚合的操作稱為池化(Pooling),將輸入圖像縮小,減少圖像像素信息,只保留重要信息,但是特征的統(tǒng)計屬性仍可以描述圖像。由于降低了數(shù)據(jù)維度,可以有效地避免過擬合,而池化的過程一般被稱為特征映射的過程,即特征降維。
人臉識別是運用攝像機采集有關(guān)人臉的圖像或視頻,可以自動檢測和跟蹤人臉,并對檢測到的人臉進行自動識別。人臉識別具有采集方便、非接觸、并發(fā)及符合人的特點等特征,這也是其所體現(xiàn)的價值?;谏疃葘W(xué)習(xí)建立的人臉識別技術(shù)主要包括兩方面內(nèi)容,分別是人臉辨識和人臉檢驗,目標(biāo)是使計算機和人一樣可以識別人,并且在某些方面更靈活、更便捷。
在人臉檢驗過程中的主要操作是判定是否存在人臉、圖像是否是人臉、人臉面部五官所在的位置等,即進行1對1的比對操作,對比當(dāng)前所示圖像中的人物是否是同一人,其中檢測是否存在人臉時,需要將區(qū)域內(nèi)人臉圖像裁剪出來;而人臉辨識則是判定區(qū)域內(nèi)人臉圖像的身份,但前提是并不知道人臉圖像的身份,否則在識別可信度上存在片面性。因此人臉識別過程的操作是從大量人臉圖像中提取出指定的人臉,進行1對多的比對操作?;谏疃葘W(xué)習(xí)的深度卷積神經(jīng)網(wǎng)絡(luò)建立的人臉識別,必須構(gòu)建數(shù)量大的圖像數(shù)據(jù)庫,存儲采集到的不同的圖像和人物身份信息,應(yīng)用在各領(lǐng)域時可以提升識別圖像人臉信息和人物身份信息速度。
深度卷積神經(jīng)網(wǎng)絡(luò)通過大量的數(shù)據(jù)訓(xùn)練具有很好的自學(xué)習(xí)能力,不需要嚴(yán)格選擇特征,只需要引導(dǎo)學(xué)習(xí)來達到預(yù)期的目的,因此逐漸被廣泛地應(yīng)用于圖像預(yù)處理領(lǐng)域。通過分析和研究現(xiàn)階段人臉識別技術(shù)在多個領(lǐng)域的應(yīng)用研究成果,研究基于深度學(xué)習(xí)的人臉識別算法,算法流程主要包含組合特征構(gòu)建和組合特征訓(xùn)練兩部分。隨著基于深度學(xué)習(xí)的人臉識別算法的誤差率不斷降低,人臉識別技術(shù)被應(yīng)用于金融行業(yè)、社保行業(yè)、教育行業(yè)、交通行業(yè)等各個與人類生活相關(guān)的方面,“刷臉”身份認(rèn)證、“刷臉”支付、甚至“刷臉”進站等現(xiàn)象的出現(xiàn),表明無論是在學(xué)術(shù)研究還是應(yīng)用領(lǐng)域,人臉識別技術(shù)均有一定成果。
人臉圖像識別的應(yīng)用已成為時下的熱點研究內(nèi)容,而本文的主要研究內(nèi)容就是分析深度學(xué)習(xí)在人臉圖像識別技術(shù)中的應(yīng)用,因此本研究主要包含三個模塊:圖像識別、圖像處理以及深度學(xué)習(xí)模型訓(xùn)練,技術(shù)路線圖如圖1所示。
圖1 技術(shù)路線圖
圖像識別利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標(biāo)和對象的技術(shù),是應(yīng)用深度學(xué)習(xí)算法的一種實踐應(yīng)用。首先通過圖像采集器、攝像頭及數(shù)據(jù)轉(zhuǎn)換卡等外部設(shè)備將光信號、模擬信號等物理信息轉(zhuǎn)化成數(shù)字圖像;其次進行圖像預(yù)處理操作,包括圖像去噪、增強、分割、重建等,具體的算法及相關(guān)技術(shù)主要包括灰度化、直方圖均衡化、形態(tài)學(xué)處理、各向異性擴散等;最后是圖像特征提取,而特征提取則是決定辨別結(jié)果的主要因素,其中常用的特征包括形狀、顏色及紋理等,目標(biāo)圖像的重要特征是特征中的紋理,可以認(rèn)為是顏色或灰度在空間分布的規(guī)律所形成的圖案。
現(xiàn)階段圖像識別技術(shù)一般分為人臉識別與商品識別,人臉識別主要運用在安全檢查、身份核驗與移動支付中;商品識別主要運用在商品流通過程中,特別是無人銷售貨架、智能零售柜等零售領(lǐng)域。
圖像處理即檢測和捕捉圖像、人臉圖像五官關(guān)鍵點的定位(用矩形框選中標(biāo)注)、人臉特征提取操作。該模塊主要涉及光線、圖像等多方面的處理,包含光線補償、圖像灰度化、高斯平滑、圖像對比度增強等操作。圖像預(yù)處理模塊在整個應(yīng)用中有相對關(guān)鍵的作用,圖像處理過程及結(jié)果質(zhì)量的高低將影響實證驗證的可行性分析。
人臉圖像檢測以Adaboost算法為例,通過調(diào)整人臉圖像樣本所占權(quán)重和弱分類器的權(quán)值,從訓(xùn)練出的弱分類器中篩選出權(quán)值系數(shù)最小的弱分類器并組合成一個最終強分類器。首先,分類正確率高的學(xué)習(xí)器權(quán)重較高,分類正確率低的學(xué)習(xí)器權(quán)重較低;其次,對圖像進行歸一化、去噪等圖像處理操作,提取圖像特征,構(gòu)建DCNN模型;最后將以上圖像信息進行人臉圖像信息管理操作,即建立數(shù)據(jù)庫管理系統(tǒng)并將圖像信息進行存儲。
深度學(xué)習(xí)模型訓(xùn)練選擇精確度相對較高的模型,設(shè)置對應(yīng)的優(yōu)化算法及參數(shù)進行訓(xùn)練得到可用的模型,需要大量的實驗并根據(jù)結(jié)果不斷對模型的參數(shù)進行調(diào)整,為提高人臉圖像識別的精確度和提升識別效率起到關(guān)鍵性的作用。在隱私安全方面,隨著深度學(xué)習(xí)及其模型和算法在人臉識別中的應(yīng)用,人臉識別技術(shù)應(yīng)用覆蓋領(lǐng)域逐漸廣泛,造成隱私安全問題,各類終端設(shè)備采集的人臉圖像數(shù)據(jù)的存儲、利益驅(qū)使收集人臉圖像等問題,同樣是需要關(guān)注的熱點。因此,相關(guān)領(lǐng)域的研究學(xué)者針對隱私保護提出了方法,避免技術(shù)被濫用。
隨著深度學(xué)習(xí)的不斷發(fā)展,算法和模型的廣泛應(yīng)用,人臉識別技術(shù)的應(yīng)用已成為時下的研究熱點。目前,在解決各類復(fù)雜因素下的人臉識別問題時,傳統(tǒng)的人臉識別技術(shù),實際應(yīng)用面臨很多方面的挑戰(zhàn)。隨著深度學(xué)習(xí)的發(fā)展和廣泛應(yīng)用,人臉識別研究有了相對較大的成果,構(gòu)建深度學(xué)習(xí)的各類算法或模型,結(jié)合其特點,在自適應(yīng)性、精準(zhǔn)性以及速度等多方面得到很大提升??傮w而言,結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)模型,運用人臉識別技術(shù),完成人臉圖像的有效辨別,最后實現(xiàn)識別功能,有效提高識別準(zhǔn)確度、人臉識別率,從而為各應(yīng)用領(lǐng)域提供科學(xué)而準(zhǔn)確的量化依據(jù)。
基于深度學(xué)習(xí)—DCNN的人臉識別技術(shù)的不斷發(fā)展,在圖像樣本數(shù)量增加的情況下,為了更好地解決問題,國家相關(guān)法律法規(guī)也在不斷完善,技術(shù)的合理化應(yīng)用,如安防人臉辨識和檢驗、各類場所的實時監(jiān)控等領(lǐng)域?qū)θ四樧R別技術(shù)的精確性要求更高,人臉圖像在面部表情、姿勢、光照、遮擋等外界環(huán)境下改進算法,降低人臉圖像識別的誤差率,進一步提高人臉識別的效率。大數(shù)據(jù)時代,為了適應(yīng)當(dāng)前的發(fā)展,對數(shù)據(jù)庫資源要求也相應(yīng)提高,因此將面臨相對較大的挑戰(zhàn)性,而基于深度學(xué)習(xí)的人臉識別技術(shù)與其他技術(shù)結(jié)合使用,可更好推動人工智能在各個領(lǐng)域應(yīng)用的發(fā)展。