胡中堅(jiān),馮 晗,陳飛宇,張文強(qiáng)
1(復(fù)旦大學(xué) 軟件學(xué)院,上海 201203)
2(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203)
隨著科技的發(fā)展,當(dāng)今社會(huì)用戶身份認(rèn)證技術(shù)已經(jīng)被廣泛使用,當(dāng)下如何有效并且準(zhǔn)確地對(duì)用戶進(jìn)行身份驗(yàn)證變得十分重要.傳統(tǒng)身份認(rèn)證一般包括:一通過(guò)密碼等來(lái)確認(rèn)訪問(wèn)者身份;二通過(guò)其擁有的東西對(duì)訪問(wèn)者進(jìn)行認(rèn)證,例如鑰匙等.然而隨著技術(shù)的飛速發(fā)展,傳統(tǒng)身份認(rèn)證的弊端逐漸顯現(xiàn)出來(lái).例如,密碼容易遺忘,鑰匙容易丟失.
為了解決傳統(tǒng)身份認(rèn)證方法中存在的問(wèn)題,基于生物特征的身份認(rèn)證方法逐漸被人們關(guān)注.生物特征是人們與生俱來(lái)的特征,其具有唯一性、穩(wěn)定性、方便性等優(yōu)點(diǎn).人臉識(shí)別是當(dāng)今較為成熟的生物識(shí)別技術(shù),在門(mén)禁、安檢等諸多領(lǐng)域廣泛使用,具有方便快捷、不易丟失等優(yōu)勢(shì).
隨著人臉識(shí)別技術(shù)的廣泛應(yīng)用,人臉識(shí)別系統(tǒng)存在的一些弊端逐漸顯露出來(lái).典型的欺騙手段包括照片欺騙、視頻欺騙等.為了解決這些問(wèn)題,可以在人臉識(shí)別系統(tǒng)中引入唇語(yǔ)識(shí)別技術(shù),打造高安全性的身份認(rèn)證系統(tǒng),以防不法分子的攻擊.
隨著技術(shù)的發(fā)展,國(guó)內(nèi)外出現(xiàn)了大量關(guān)于身份認(rèn)證方法的研究.廣義上的身份認(rèn)證在日常生活中十分常見(jiàn),包括在車站內(nèi)查身份證等其實(shí)都是屬于身份認(rèn)證.計(jì)算機(jī)領(lǐng)域的身份認(rèn)證常見(jiàn)的包括基于口令的身份認(rèn)證和基于生物特征的身份認(rèn)證等[1,2].
文獻(xiàn)[3]中提到了一種基于口令的身份認(rèn)證方案.該方案提到口令加鹽的方法增強(qiáng)安全性,鹽就是一個(gè)字母數(shù)字組合的字符串.數(shù)據(jù)庫(kù)中存儲(chǔ)用戶標(biāo)識(shí)userid以及對(duì)應(yīng)的鹽值salt,加鹽hash 后的口令hash (passwd+salt).驗(yàn)證階段,接收到用戶標(biāo)識(shí)userid和密碼passwd,先到數(shù)據(jù)庫(kù)中找到userid 對(duì)應(yīng)的鹽值salt,如果存在該用戶,接下來(lái)計(jì)算加鹽口令hash (passwd+salt),將計(jì)算得到的加鹽口令與數(shù)據(jù)庫(kù)里存儲(chǔ)的加鹽口令進(jìn)行比較,如果相同,則認(rèn)證成功,否則,認(rèn)證失敗[3].
基于口令的身份認(rèn)證方案是較為常見(jiàn)的一種身份認(rèn)證方案.但該方案有一定的缺點(diǎn),比如口令容易遺忘,被盜用等.
文獻(xiàn)[4]提到了一種人臉?lè)雌墼p認(rèn)證系統(tǒng)架構(gòu).主要包括人臉檢測(cè)對(duì)齊,活體檢測(cè)和人臉比對(duì)匹配.如圖1所示.
圖1 人臉識(shí)別身份認(rèn)證的流程
通過(guò)攝像頭獲取用戶人臉,接下來(lái)人臉檢測(cè)和對(duì)齊,輸入到活體檢測(cè)模塊進(jìn)行檢驗(yàn),最后是人臉比對(duì)匹配.人臉檢測(cè)對(duì)齊使用MTCNN 網(wǎng)絡(luò),該網(wǎng)絡(luò)包括:PNet (Proposal Network)、R-Net (Refine Network)、ONet (Output Network).活體檢測(cè)討論了基于色彩紋理分析和輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)兩種方法[4].人臉識(shí)別比對(duì)利用FaceNet 網(wǎng)絡(luò)[5,6].
隨著人臉識(shí)別和活體檢測(cè)技術(shù)在諸多領(lǐng)域被廣泛使用,其逐漸暴露出安全性問(wèn)題.照片和視頻是常見(jiàn)的攻擊手段[7].照片欺騙是指非法獲取合法用戶的人臉照片攻擊人臉識(shí)別系統(tǒng).為了解決照片欺騙等問(wèn)題,研究人員在人臉識(shí)別系統(tǒng)中引入了活體檢測(cè).然而不法分子又通過(guò)錄制臉部視頻攻擊人臉識(shí)別系統(tǒng).除了偷拍,也可以在各類短視頻APP 里找到用戶本人上傳的視頻,還可以在各類直播平臺(tái)里獲取.識(shí)別視頻攻擊比識(shí)別照片攻擊更加困難,現(xiàn)在有些軟件甚至可以將人臉照片轉(zhuǎn)換成活體視頻! 還有一種是合成人臉的三維模型,這種難度和成本很高,一般很少見(jiàn).
基于唇語(yǔ)識(shí)別的身份認(rèn)證系統(tǒng)要求用戶在對(duì)著攝像頭進(jìn)行人臉識(shí)別的同時(shí)讀出指定的驗(yàn)證碼.系統(tǒng)在驗(yàn)證用戶身份時(shí),不僅要對(duì)人臉識(shí)別比對(duì),還要通過(guò)唇語(yǔ)識(shí)別技術(shù)識(shí)別出視頻里用戶說(shuō)話的內(nèi)容,將唇語(yǔ)識(shí)別結(jié)果和驗(yàn)證碼進(jìn)行比較.只有人臉識(shí)別比對(duì)和唇語(yǔ)識(shí)別比對(duì)都通過(guò)才能通過(guò)系統(tǒng)的認(rèn)證.驗(yàn)證碼是隨機(jī)生成,不法分子很難及時(shí)獲得唇動(dòng)特征與驗(yàn)證碼唇語(yǔ)一致的視頻[8,9].
如圖2所示,基于唇語(yǔ)識(shí)別的身份認(rèn)證方案主要包括兩大模塊.人臉識(shí)別模塊負(fù)責(zé)用人臉識(shí)別1:1 技術(shù)比對(duì),判斷人臉照片和身份證照片是否匹配.活體檢測(cè)模塊負(fù)責(zé)用唇語(yǔ)識(shí)別技術(shù)識(shí)別出視頻里用戶的說(shuō)話內(nèi)容,并比對(duì)唇語(yǔ)識(shí)別結(jié)果和系統(tǒng)的驗(yàn)證碼.只有兩大模塊的比對(duì)驗(yàn)證都通過(guò),該用戶才能通過(guò)身份認(rèn)證.
如圖3所示,基于深度學(xué)習(xí)CNN+LSTM的唇語(yǔ)識(shí)別技術(shù)[10],首先用CNN 卷積神經(jīng)網(wǎng)絡(luò)提取基于關(guān)鍵點(diǎn)的嘴部特征,然后將CNN 提取的特征信息輸入LSTM,輸出是唇語(yǔ)視頻中的內(nèi)容.
圖2 基于唇語(yǔ)識(shí)別的身份認(rèn)證流程圖
圖3 基于深度學(xué)習(xí)的唇語(yǔ)識(shí)別
在自然語(yǔ)言處理中很少會(huì)對(duì)單獨(dú)的單詞來(lái)進(jìn)行識(shí)別和處理,一般要考慮句子中的單詞有上下文的語(yǔ)義關(guān)聯(lián).本文的唇語(yǔ)識(shí)別研究的是識(shí)別隨機(jī)驗(yàn)證碼,驗(yàn)證碼通常是單獨(dú)的一串?dāng)?shù)字或者字母等,并不存在上下文的語(yǔ)義關(guān)聯(lián).本文的唇語(yǔ)識(shí)別中需要先將唇語(yǔ)視頻序列切分成若干個(gè)子序列,然后將這些子序列再輸入到CNN 卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行處理.CNN 提取出唇語(yǔ)視頻中這些子序列的唇動(dòng)特征,再將特征信息輸入到LSTM 網(wǎng)絡(luò)中,對(duì)提取出的唇動(dòng)特征進(jìn)行編碼,最后還會(huì)用Softmax 來(lái)對(duì)唇語(yǔ)視頻里的說(shuō)話內(nèi)容進(jìn)行預(yù)判[11].
2.2.1 基于CNN的關(guān)鍵點(diǎn)檢測(cè)
唇語(yǔ)識(shí)別技術(shù)依賴說(shuō)話者的嘴部動(dòng)作變化,唇動(dòng)變化可以通過(guò)嘴部關(guān)鍵點(diǎn)的唇動(dòng)特征來(lái)表示.如圖4所示,將關(guān)鍵點(diǎn)提高到68 個(gè),嘴唇關(guān)鍵點(diǎn)數(shù)量就是20 個(gè).
圖4 嘴唇關(guān)鍵點(diǎn)
在嘴唇上檢測(cè)20 個(gè)關(guān)鍵點(diǎn),其中外嘴唇關(guān)鍵點(diǎn)有12 個(gè),內(nèi)嘴唇關(guān)鍵點(diǎn)有8 個(gè).通過(guò)每幀圖像里的唇部關(guān)鍵點(diǎn)信息記錄視頻序列中的嘴部運(yùn)動(dòng)[11].
隨著深度學(xué)習(xí)的發(fā)展,AlexNet[12]網(wǎng)絡(luò)在ILSVRC12比賽上獲得了冠軍,文中使用AlexNet 網(wǎng)絡(luò)檢測(cè)嘴唇關(guān)鍵點(diǎn).AlexNet 有3 層全連接層和5 層卷積層.采用CASIA_WebFace 數(shù)據(jù)集預(yù)訓(xùn)練該模型,CASIA_WebFace數(shù)據(jù)集[13]包含10 575 個(gè)人,共494 414 張人臉圖片.完成預(yù)訓(xùn)練后,將AlexNet 網(wǎng)絡(luò)最后一層中10 575 類的分類器替換為40 分類的分類器,用數(shù)據(jù)集再次訓(xùn)練.再次訓(xùn)練的數(shù)據(jù)集,照片的人臉有68 個(gè)關(guān)鍵點(diǎn),嘴唇有20 個(gè)關(guān)鍵點(diǎn).歐氏距離用作訓(xùn)練的損失函數(shù)[14].
訓(xùn)練人臉關(guān)鍵點(diǎn)模型時(shí),根據(jù)檢測(cè)的區(qū)域信息{x,y,w,h},規(guī)范化關(guān)鍵點(diǎn)坐標(biāo)[11]:
其中,(x,y)是檢測(cè)到的人臉中心點(diǎn)坐標(biāo),w是人臉區(qū)域的寬度,h是人臉區(qū)域的高度,(xi,yi),i=1,2,…,20是標(biāo)準(zhǔn)關(guān)鍵點(diǎn)坐標(biāo),i=1,2,…,20為規(guī)范化后的關(guān)鍵點(diǎn)坐標(biāo)[11].
2.2.2 基于LSTM的唇語(yǔ)識(shí)別
用CNN 提取出特征向量輸入LSTM 網(wǎng)絡(luò),輸出唇語(yǔ)視頻中的內(nèi)容.已知輸入xt,t時(shí)刻的記憶狀態(tài)向量Ct,前一個(gè)隱藏層狀態(tài)ht-1,可計(jì)算當(dāng)前隱藏層狀態(tài)ht,計(jì)算如下:
其中,sigm表示非線性的Sigmoid 函數(shù),符號(hào) ?表示點(diǎn)乘運(yùn)算,非線性的雙曲正切函數(shù)是t anh,wij與bj是訓(xùn)練得到的參數(shù)[14].
每個(gè)序列輸出的條件概率都有對(duì)應(yīng)的輸入序列,概率計(jì)算如下[14]:
如圖5所示,在訓(xùn)練的階段,將CNN的學(xué)習(xí)率置為0,用CNN 提取出特征向量,輸入LSTM 網(wǎng)絡(luò),預(yù)測(cè)結(jié)果由LSTM 輸出.損失函數(shù)如下[14]:
圖5 LSTM 識(shí)別
最后在LSTM 網(wǎng)絡(luò)的最后一層引入dropout 層可以避免過(guò)度擬合問(wèn)題,提高識(shí)別效果[11,15].
2.2.3 實(shí)驗(yàn)分析
(1)數(shù)字串實(shí)驗(yàn)
本文提出了一種基于深度學(xué)習(xí)CNN+LSTM的唇語(yǔ)識(shí)別技術(shù).由于身份認(rèn)證系統(tǒng)的驗(yàn)證碼一般為隨機(jī)生成的數(shù)字串,為了評(píng)估該方法在系統(tǒng)中的實(shí)際應(yīng)用價(jià)值,將對(duì)其在數(shù)字串?dāng)?shù)據(jù)集上進(jìn)行實(shí)驗(yàn).而目前公開(kāi)的唇語(yǔ)數(shù)據(jù)集大部分是單詞短語(yǔ),并且是外文發(fā)音,無(wú)法滿足我們的需求.故實(shí)驗(yàn)數(shù)據(jù)集使用公司自主創(chuàng)建的數(shù)字串?dāng)?shù)據(jù)集,該數(shù)據(jù)集中的唇語(yǔ)視頻都是收錄的說(shuō)話人錄制的6 個(gè)數(shù)字的組合,其中80%作為訓(xùn)練集,其余作為測(cè)試集.
實(shí)驗(yàn)結(jié)果如表1所示.表中prea和errb代表選取前a個(gè)預(yù)測(cè)結(jié)果的時(shí)候,識(shí)別錯(cuò)誤的個(gè)數(shù)小于等于b個(gè)時(shí)的準(zhǔn)確率.觀察表中數(shù)據(jù),取pre 1 且全部識(shí)別正確時(shí)的準(zhǔn)確率只有49.6%.分析數(shù)據(jù)發(fā)現(xiàn),表中err 1 比err 0的準(zhǔn)確率要高,這說(shuō)明當(dāng)允許出錯(cuò)的個(gè)數(shù)增多時(shí),準(zhǔn)確率會(huì)有一定提升,同時(shí)pre 1 到pre 4的準(zhǔn)確率也有所提升,這說(shuō)明取多個(gè)預(yù)測(cè)結(jié)果往往比單純的取一個(gè)預(yù)測(cè)結(jié)果更加準(zhǔn)確.在實(shí)際應(yīng)用場(chǎng)景中,根據(jù)實(shí)際需求的不同,可以通過(guò)設(shè)置不同的a和b以提高準(zhǔn)確率.
表1 數(shù)字串唇語(yǔ)識(shí)別準(zhǔn)確率(%)
(2)OuIuVS 數(shù)據(jù)集上的對(duì)比
為了驗(yàn)證本文CNN+LSTM 方法的泛化能力,繼續(xù)在公開(kāi)的數(shù)據(jù)集OuIuVS 上進(jìn)行驗(yàn)證.OuIuVS 數(shù)據(jù)集中的視頻共有20 個(gè)人.每個(gè)人讀10 個(gè)短語(yǔ),每個(gè)短語(yǔ)讀5 遍.
將本文中的方法與其他有關(guān)文獻(xiàn)里的唇語(yǔ)識(shí)別方法在OuIuVS 上進(jìn)行比較.觀察表2中的數(shù)據(jù),我們可以發(fā)現(xiàn)本文中使用的方法效果更好.本文方法在短語(yǔ)識(shí)別的平均準(zhǔn)確率約為81.9%.
表2 OuIuVS 上的結(jié)果對(duì)比
雖然高精度唇語(yǔ)識(shí)別很困難,但唇語(yǔ)識(shí)別仍具有較大的研究?jī)r(jià)值,尤其在特定的應(yīng)用場(chǎng)景,通過(guò)訓(xùn)練和調(diào)整,唇語(yǔ)識(shí)別能有較好的表現(xiàn).
本系統(tǒng)需要完成從采集用戶身份證信息和用戶認(rèn)證視頻到用戶身份認(rèn)證的全流程.采集用戶身份證信息和用戶認(rèn)證視頻的功能一般由前端負(fù)責(zé)提供,顯然前端需要部署在外網(wǎng),以便用戶可以使用.后端負(fù)責(zé)對(duì)采集的信息和視頻進(jìn)行處理,即后端需要進(jìn)行人臉識(shí)別驗(yàn)證和唇語(yǔ)識(shí)別驗(yàn)證,出于安全性考慮,后端一般部署在內(nèi)網(wǎng).而網(wǎng)關(guān)作為前后端的橋梁,也是不可或缺的.
(1)前端前端一般是APP 端或者網(wǎng)頁(yè)端形式.如圖6所示,用戶打開(kāi)APP,輸入自己的姓名,身份證號(hào),再對(duì)著攝像頭讀出驗(yàn)證碼,即可提交身份認(rèn)證請(qǐng)求.
圖6 用戶操作流程
前端包括信息錄入和視頻錄制,信息和視頻存儲(chǔ),驗(yàn)證碼生成等功能.用戶輸入信息后,前端負(fù)責(zé)保存到相應(yīng)的數(shù)據(jù)庫(kù)里.然后需要隨機(jī)生成驗(yàn)證碼供用戶錄制視頻時(shí)讀,并將用戶錄制的視頻保存到文件存儲(chǔ)平臺(tái).在用戶點(diǎn)提交按鈕時(shí)向后端發(fā)送請(qǐng)求,獲取身份認(rèn)證結(jié)果展現(xiàn)給用戶.
(2)網(wǎng)關(guān)
網(wǎng)關(guān)是連接前后端的橋梁,為了使前后端能正常配合提供完整功能,并且出于外網(wǎng)與內(nèi)網(wǎng)交互的安全性考慮,提供網(wǎng)關(guān)這一關(guān)口是非常有必要的.
網(wǎng)關(guān)包括限流、加解密、鑒權(quán)驗(yàn)簽、請(qǐng)求路由等功能.為保護(hù)后端系統(tǒng),網(wǎng)關(guān)需提供限流功能,防止大并發(fā).由于前端處于外網(wǎng),故數(shù)據(jù)需加密通信.為了確保請(qǐng)求未被篡改并且是合法的,需要進(jìn)行驗(yàn)簽鑒權(quán).同時(shí)網(wǎng)關(guān)需要將合法請(qǐng)求轉(zhuǎn)發(fā)給后端服務(wù).
(3)后端
如圖7,后端包括人臉識(shí)別和唇語(yǔ)識(shí)別兩大能力.
圖7 后端功能
后端接收到前端的身份認(rèn)證請(qǐng)求后,需要對(duì)視頻里的用戶進(jìn)行人臉識(shí)別比對(duì)和唇語(yǔ)識(shí)別比對(duì),以判斷是否允許該用戶通過(guò)系統(tǒng)的身份認(rèn)證,并將身份認(rèn)證的結(jié)果通過(guò)網(wǎng)關(guān)返回給前端.
如圖8,本系統(tǒng)主要包含前端、網(wǎng)關(guān)、后端3 個(gè)子系統(tǒng)組成,前端和后端通過(guò)網(wǎng)關(guān)進(jìn)行交互.
圖8 系統(tǒng)部署
前端一般是APP 端和網(wǎng)頁(yè)端,負(fù)責(zé)采集用戶信息和用戶視頻.用戶信息包括用戶的身份證信息,例如姓名、身份證號(hào)等,采集用戶視頻是指采集用戶錄制的用于身份認(rèn)證的視頻.前端需要部署在公網(wǎng),即用戶可以在外網(wǎng)直接使用.后端負(fù)責(zé)接收前端身份認(rèn)證的請(qǐng)求并對(duì)請(qǐng)求進(jìn)行處理響應(yīng),包括人臉識(shí)別1:1 比對(duì)及唇語(yǔ)識(shí)別結(jié)果比對(duì),后端通常在內(nèi)網(wǎng)部署.網(wǎng)關(guān)可用于前端和后端之間的交互.
(1)前端
前端主要是負(fù)責(zé)采集用戶的身份證信息和用戶錄制的視頻.采集包括姓名和身份證號(hào),以及包含人臉用于身份認(rèn)證的視頻,然后保存,通過(guò)網(wǎng)關(guān)往后端發(fā)送身份認(rèn)證請(qǐng)求,獲取后端身份認(rèn)證處理的返回結(jié)果.前端一般是APP 端或者網(wǎng)頁(yè)端的形式.系統(tǒng)采用前后端分離的架構(gòu).
圖9是前端流程圖.前端提供的信息輸入功能允許用戶填寫(xiě)個(gè)人身份證信息.用戶填寫(xiě)完畢后,單擊界面按鈕,系統(tǒng)會(huì)將用戶身份證信息存儲(chǔ)在數(shù)據(jù)庫(kù)中.前端提供的視頻捕獲功能是捕獲用戶通過(guò)攝像頭錄制的視頻,并將用戶視頻保存到文件存儲(chǔ)平臺(tái).文件存儲(chǔ)平臺(tái)將返回與該文件相對(duì)應(yīng)的文件標(biāo)識(shí)id.通常,視頻文件相對(duì)較大,并且在網(wǎng)絡(luò)上的傳輸占用帶寬.
因此,通常將視頻存儲(chǔ)在文件存儲(chǔ)平臺(tái)中,并獲得對(duì)應(yīng)的文件標(biāo)識(shí)id.需要獲取此文件時(shí),只需傳遞相應(yīng)的文件標(biāo)識(shí)id 即可下載.在與文件存儲(chǔ)平臺(tái)的交互過(guò)程中,一般將文件進(jìn)行Base64 編碼后傳輸.收集用戶信息和視頻后,通過(guò)網(wǎng)關(guān)將身份認(rèn)證請(qǐng)求發(fā)送給后端服務(wù),請(qǐng)求參數(shù)包括驗(yàn)證碼,用戶身份證信息和用戶視頻文件標(biāo)識(shí).最后獲取后端身份認(rèn)證處理的返回結(jié)果.
圖9 前端流程
(2)網(wǎng)關(guān)
網(wǎng)關(guān)是公網(wǎng)系統(tǒng)和內(nèi)網(wǎng)系統(tǒng)之間的關(guān)口.前端通過(guò)網(wǎng)關(guān)訪問(wèn)后端.網(wǎng)關(guān)提供一系列功能,例如限流、鑒權(quán)、驗(yàn)簽、加密解密以及請(qǐng)求路由等.
圖10是網(wǎng)關(guān)系統(tǒng)的流程圖.前端系統(tǒng)將服務(wù)請(qǐng)求發(fā)送到網(wǎng)關(guān)系統(tǒng).首先,網(wǎng)關(guān)系統(tǒng)執(zhí)行限流判斷,例如當(dāng)前請(qǐng)求限制為100 個(gè)/s,則1 秒鐘內(nèi)超過(guò)100 個(gè)請(qǐng)求之后的剩余請(qǐng)求將被拒絕.如果滿足當(dāng)前的限流拒絕條件,則拒絕請(qǐng)求.如果不滿足當(dāng)前的限流拒絕條件,則網(wǎng)關(guān)需要處理請(qǐng)求.網(wǎng)關(guān)解密請(qǐng)求的數(shù)據(jù)后,首先需要驗(yàn)證簽名.采用MD5 加鹽驗(yàn)簽提高安全性.然后是鑒權(quán),需要驗(yàn)證請(qǐng)求是否具有調(diào)用相關(guān)服務(wù)的權(quán)限.判斷后,如果是合法請(qǐng)求,則處理該請(qǐng)求,例如請(qǐng)求相應(yīng)的后端系統(tǒng)處理,并獲取后端系統(tǒng)處理的返回結(jié)果.最后,對(duì)獲得的處理結(jié)果進(jìn)行加密和簽名,返回到前端系統(tǒng).
圖10 網(wǎng)關(guān)流程
(3)后端
后端是實(shí)際執(zhí)行身份認(rèn)證處理的子系統(tǒng),主要包括兩個(gè)模塊:人臉比對(duì)和基于唇語(yǔ)識(shí)別的活體檢測(cè).只有兩項(xiàng)驗(yàn)證均通過(guò),才能通過(guò)身份驗(yàn)證.圖11是后端的流程圖.
圖11 后端流程
前端發(fā)送身份認(rèn)證請(qǐng)求給后端.輸入?yún)?shù)包括用戶身份證信息,隨機(jī)唇語(yǔ)驗(yàn)證碼,用戶視頻文件標(biāo)識(shí)id 等.隨機(jī)驗(yàn)證碼一般由前端自行生成.后端收到請(qǐng)求后,檢查必需的參數(shù),如果參數(shù)檢驗(yàn)失敗,則返回參數(shù)錯(cuò)誤.如果通過(guò)了參數(shù)校驗(yàn),則進(jìn)行后續(xù)處理.通過(guò)視頻文件標(biāo)識(shí)id 從文件存儲(chǔ)平臺(tái)獲取視頻文件.從視頻中提取幀,并將視頻劃分為若干子序列.將抽取的人臉圖片和用戶身份證信息傳輸?shù)饺四樧R(shí)別模塊,該模塊對(duì)接公民身份證信息系統(tǒng)或其服務(wù)提供商系統(tǒng)[9],通過(guò)傳入身份證信息獲得用戶的身份證照片,再使用人臉識(shí)別比對(duì)技術(shù),以確定人臉圖像是否與用戶的身份證照片一致.將視頻分割后的若干子序列傳給唇語(yǔ)識(shí)別模塊,使用唇語(yǔ)識(shí)別技術(shù)識(shí)別視頻中用戶說(shuō)話的內(nèi)容,然后比對(duì)唇語(yǔ)識(shí)別結(jié)果和驗(yàn)證碼以確定用戶是否通過(guò)唇語(yǔ)驗(yàn)證.如果人臉識(shí)別比對(duì)和唇語(yǔ)結(jié)果比對(duì)均通過(guò),則用戶通過(guò)身份認(rèn)證,否則用戶無(wú)法通過(guò)身份認(rèn)證.
文中首先分析了常見(jiàn)的身份認(rèn)證方案的不足之處,然后提出基于唇語(yǔ)識(shí)別的身份認(rèn)證方案.基于唇語(yǔ)識(shí)別的身份認(rèn)證方案包括人臉識(shí)別和唇語(yǔ)識(shí)別兩大部分,只有這兩大部分的比對(duì)校驗(yàn)都通過(guò)才能通過(guò)身份認(rèn)證.其中唇語(yǔ)識(shí)別采用基于深度學(xué)習(xí)CNN+LSTM的唇語(yǔ)識(shí)別技術(shù).最后分別設(shè)計(jì)了基于唇語(yǔ)識(shí)別的身份認(rèn)證系統(tǒng)的前端、網(wǎng)關(guān)和后端.