馮彥婕 李思潼 杜帥 朱從亮
【摘 要】唇部是人臉重要特征之一,一般通過唇形的動態(tài)變化來進行唇語識別,而在唇語識別之前,最為重要的就是唇語采集系統(tǒng)。本文所提出的唇語采集系統(tǒng)可以自動識別人臉,并對唇語進行采集,以及對采集到的視頻數(shù)據(jù)進行處理。
【關鍵詞】唇語采集系統(tǒng);Dlib算法;唇語識別
隨著社會經(jīng)濟的發(fā)展,人工智能越來越受到人們的關注,繁重的科學和工程計算與識別已經(jīng)超出了人腦的承受范圍,人們必須借助機器來進行計算分析。80年代末90年代初,語音識別技術得到迅速發(fā)展,自動語音識別系有了長足進步,但是這類系統(tǒng)在噪聲和干擾的條件下識別率顯著下降,原因是它只單純從語音信道獲取信息,而忽略了視覺信息,一旦應用于真實環(huán)境中其性能就會大大下降。特別是在噪聲干擾的情況下,與語音識別技術相比,唇語識別的準確性更高。而唇語識別的前期工作,最為主要便是進行唇語采集。
一、landmark算法
Dlib庫是機器學習的開源庫,包含了大量的機器學習、圖像處理算法,如:深度學習、基于SVM的分類和遞歸算法、針對大規(guī)模分類和遞歸的降維方法、相關向量機等。其中有人臉檢測器,有訓練好的人臉關鍵點檢測器,也有訓練好的人臉識別模型。
landmark算法便是Dlib庫中的一種,它是一種人臉部特征點提取的技術,Dlib庫中為人臉68點標記,如圖1。
當獲得一張圖片后,算法會生成一個initial shape,即先估計一個大致的特征點位置,然后采用gradient boosting算法減小initial shape 和 ground truth 的平方誤差總和。用最小二乘法來最小化誤差,得到每一級的級聯(lián)回歸因子。核心公式如下:
二、特征信息點的標注
利用landmark算法標注出的人臉的特征信息點如圖2、圖3所示。接下來就通過唇部特征信息點,裁剪出唇部圖像,構成數(shù)據(jù)集。
三、唇語采集系統(tǒng)
這里我們使用python語言,通過Dlib庫中的圖像處理語句,啟動攝像頭,獲取一個25幀的視頻,再進行預處理功能,將視頻轉換為圖像,做好分類。通過如此的獲取并分類,我們可以得到一個數(shù)據(jù)庫,這個數(shù)據(jù)庫將為我們之后模型訓練提供訓練唇部模型的數(shù)據(jù)集,以便于能夠檢測不同發(fā)音的嘴型。采集到的視頻數(shù)據(jù)如圖2,對其進行處理,處理后得到的有關唇語的數(shù)據(jù)集如圖3。
四、結束語
本文提出了一種利用Dlib庫中的landmark算法進行唇語采集系統(tǒng)的設計,通過Dlib庫中的圖像處理語句,捕獲25幀的視頻,再對視頻進行處理:進行人臉檢測,檢測面部信息點,再通過唇部信息點確定唇部位置,并切割成64×64×3的唇部圖像,從而達到唇語采集的目的。經(jīng)證明,該方法采集到的數(shù)據(jù)集準確率較高,更加簡便,為后續(xù)模型的訓練做足了準備。
【參考文獻】
[1]M, Hunke, A, Waibel. Face Locating And Tracking For Human-Computer Interaction [J]. Interaction.Proceedings of Twenty-eight asilomar Cofeence on Signals, Systens&Computers, Monnterey, 1994, 2(5): 77-81
[2]K, Mase, A, Pentland. Automatic lipreading by optical‐flow analysis [J]. 《Systems & Computers inJapan》,USA, 2015, 22(6): 67-76
[3]張枝令.Python實現(xiàn)基于深度學習的人臉識別[J].電子商務,2018(05):47+96.