于萬波,范晴濤
基于三角函數(shù)迭代的視頻數(shù)據(jù)特征提取
于萬波,范晴濤
(大連大學信息工程學院,遼寧 大連 116622)
在計算機視覺研究中,基于視頻數(shù)據(jù)進行圖像對象識別逐漸增多。針對視頻數(shù)據(jù)的特征提取,提出了一種基于三角函數(shù)迭代提取視頻三維迭代軌跡特征的方法。該方法是考慮視頻數(shù)據(jù)的時間空間維度,利用三角函數(shù)構造三維動力系統(tǒng),整體一次性進行視頻段數(shù)據(jù)特征的抽取,提取出一種近似混沌吸引子的三維特征點集,這種視頻數(shù)據(jù)迭代特征實際上是迭代軌跡點集合。以VidTIMIT數(shù)據(jù)集進行人臉識別實驗,發(fā)現(xiàn)增加初始迭代值的個數(shù),減少迭代次數(shù)后,提取出的特征點集合具有更好的效果。當VidTIMIT的43組559個視頻全部參與實驗,識別率達到88.16%,與現(xiàn)有文獻中記載的其他方法相比,具有識別率高、計算時間少的特點,初步證實了該三維視頻迭代軌跡特征具有實用性,同時也值得進一步研究驗證與分析。
動力系統(tǒng);迭代;視頻;人臉識別
計算機視覺相關研究在實際工作領域具有廣泛的應用,同時有重要的理論研究價值。研究人員給出了圖像的多種特征提取與處理方法,取得了大量的研究成果。文獻[1-8]選自最近出版的不同期刊,具有一定的代表性。如,F(xiàn)RIED等[1]基于文本的視頻編輯,給出了特寫鏡頭的編輯方法;TRUJILLO等[2]研究連續(xù)的運動信號在語義理解中的作用,強調了視頻在語義理解中的作用;XIE等[3]基于非線性擴展在線多實例學習的早期表達式檢測,認為非線性在其研究中具有重要的意義;ZHAI等[4]提出了一種基于雙稀疏先驗的會議視頻聯(lián)合注視校正與人臉美化方法;LIU等[5]利用單幅圖像以人為中心的軌跡分割,使用了細粒度方法,取得了較好的效果;LIU等[6]基于bag-of-neighbors的多視圖拉普拉斯特征映射進行RGB-D人類情感識別,在人臉圖像庫中得到了實驗驗證;YU等[7]在圖像分類時,使用了稀疏矩陣的投影學習方法,在實例中應用了稀疏逼近的圖像分類方法;LIANG等[8]給出了一種面部和身體表情的網(wǎng)絡表示方法,利用多變量連接模式獲取分類的證據(jù),進行了實驗驗證與理論分析。
另外,關于混沌吸引子、動力系統(tǒng)與迭代的研究包括:文獻[9]研究了三角函數(shù)的混沌特性;文獻[10]利用三角函數(shù)與人臉圖像構造動力系統(tǒng)提取圖像特征,進行人臉識別研究。該特征也稱為迭代軌跡、圖像迭代吸引子等,其初步表達能力得到確認。其特征獲取方法簡單,運算速度快,與人腦的視覺機制可能存在某種聯(lián)系。文獻[10]分別利用正弦函數(shù)和小波函數(shù)作為輔助函數(shù)構造非線性迭代系統(tǒng),對相同的圖像進行迭代得到不同的吸引子特征點集,但其實驗發(fā)現(xiàn)三角函數(shù)更容易產(chǎn)生混沌吸引子特征點集,且質量較高,所以在后續(xù)的人臉識別實驗中使用了正弦函數(shù)作為輔助函數(shù)。同時,對圖像進行灰度調整以提高吸引子特征點集的質量,然后使用Euler方法進行迭代,得到圖像的特征點矩陣進行人臉識別實驗,在Yalelfaces數(shù)據(jù)集上其識別率達到了87.33%。文獻[11]將雙二次有理貝塞爾曲面函數(shù)與圖像構造非線性動力系統(tǒng)進行迭代,對迭代得到的3組人臉圖像特征點集進行Radon變換,考慮到噪聲等因素的影響,進行擬合處理得到擬合曲線,對其中一幅圖像與其他3組33幅圖像計算相關系數(shù),結果顯示相似圖像的相關系數(shù)較大。文獻[12]使用離散余弦變換(discrete cosine transform,DCT)基函數(shù)作為輔助函數(shù)與人臉圖像迭代得到近似混沌吸引子特征點集,并對二維的特征點集進行傅里葉變換,其中吸引子特征點集小的進行變換后識別率得到了提升。
本文在這些已有方法基礎上,將二維圖像識別拓展為三維視頻識別,給出了一種利用三維動力系統(tǒng)提取視頻數(shù)據(jù)特征的算法,該方法作為一種新的視頻數(shù)據(jù)處理操作方法,有待于進一步分析。
目前,文獻發(fā)表的聯(lián)系緊密的相關工作都是基于二維灰度圖像進行的[10-12],其本質上均是利用式(1)進行迭代,即
其中,(,)為輔助函數(shù);(,)為一個灰度圖像;2為圖像在(,)位置處的灰度值。(串行)迭代方法為,給定一個初始值點(,),代入式(1),即可得到二維點(1,2),并記載下該點(1,2);然后將1,2的值分別賦值給,,再代入式(1),可以得到一個新的二維點(1,2),再記載這個新的二維點(1,2),如此重復,得到個二維點,作為這個灰度圖像(,)的特征。實驗與理論分析均證實:相近似的圖像其迭代軌跡的相關系數(shù)較大,所以,迭代軌跡可以作為圖像識別的特征。
還有一種(并行)迭代方法就是,同時給定多個初始值,例如,圖像的所有像素點,均作為初始值點,只迭代1次或2次。實驗與理論分析均證實[13]:系統(tǒng)的混沌特性越強,這2種方法(串行與并行)得到的軌跡越接近。文獻[9]通過實驗方法得到的結論是,三角函數(shù)構造動力系統(tǒng),其混沌特性較強,參數(shù)的混沌區(qū)間較大,所以文獻[10]與文獻[12]均使用了三角函數(shù)作為輔助函數(shù)。
不論是串行方法,還是并行方法,該迭代方法獲取的軌跡點序列(特征點集合),本質上是對圖像的一種“截取”,特征點集合可以作為一種特殊的“截面”。這個特征“截面”與圖像有關,也與輔助函數(shù)有關;當輔助函數(shù)一定時,圖像的近似程度大,截面的近似程度就大。所以,原有文獻利用特征點集合計算相關系數(shù),進行人臉圖像識別,取得了一定的效果。
圖1是使用文獻[10]的方法提取的圖像軌跡點集,并可看出,同一個人的特征點集合近似程度較大,實際上通過數(shù)學計算可以證實這一點。
這種方法將圖像與輔助函數(shù)交織在一起,然后提取圖像特征。輔助函數(shù)本質上是一種載體,其與該運作方法是有效的,可進一步研究。文獻[9-12]不只是研究圖像識別,還設想從識別方法入手,改進數(shù)據(jù)的存儲機制,探索新的表達方法。
圖1 圖像及其迭代特征點集
本文方法是將二維系統(tǒng)改造為新的三維系統(tǒng),提取視頻的特征。從已有的工作經(jīng)驗看,使用三角函數(shù)作為輔助函數(shù)有很多優(yōu)勢,并繼續(xù)使用三角函數(shù)作為輔助函數(shù)。
(灰度)視頻圖像數(shù)據(jù)對應著三維數(shù)組或三元函數(shù),所以在構造三維非線性動力系統(tǒng)時,采用了余弦函數(shù)作為輔助函數(shù)。如式(2),系統(tǒng)由2個余弦組合函數(shù)與一個視頻函數(shù)構成。選擇2個余弦函數(shù)線性組合作為輔助函數(shù),其頻率、導數(shù)等選擇上具有可控的差異化,這樣便于在迭代過程中得到視頻圖像(曲面)上不同位置的特征點。
其中,,,?,?[1,],?[1,],?[1,];r與a,b,c為參數(shù)。
首先研究提取視頻圖像的迭代軌跡特征。目前研究結果表明:式(2)中的組合三角函數(shù)與(不同系數(shù)的),具有極強的“混沌化”功能,即該類函數(shù)與其他函數(shù)構成動力系統(tǒng)后混沌的概率極大[13]。例如,用這樣的三角函數(shù)與其他(收斂)函數(shù)構造系統(tǒng),隨機生成系數(shù),當與的系數(shù)平均值大于2時,混沌的概率可以達到99%。理論分析與實驗結果顯示,混沌特性強的函數(shù)作為輔助函數(shù),更有利于迭代軌跡作為圖像特征。所以本文使用該三角函數(shù)作為輔助函數(shù)。
式(2)中的函數(shù)與雖然形式上相同,但是因為參數(shù)不同,所以其周期不同,局部振幅不同,高低錯落,差異很大。隨機生成系數(shù),其周期基本均達到1 000以上,非常適合于作為輔助函數(shù)。
在自變量值域的選擇上,,與視頻的分辨率與幀數(shù)(維度)大小一致,的選擇上,要根據(jù)選取的視頻幀數(shù)來確定,這是為了保證迭代過程中不會漏掉視頻的某個區(qū)域。視頻段中每幅圖像大小為×,一共幅(幀)。為了實現(xiàn)迭代,并減少計算量,所以在迭代前,將整數(shù)點位置的三角函數(shù)值(也變成整數(shù)后),存儲在三維數(shù)組中。即計算(,,)與(,,)得到的三維矩陣元素值要調整成為[1,],[1,]之間的整數(shù),并進行系統(tǒng)迭代獲取人臉視頻的迭代特征點集合,具體步驟如下:
算法1.視頻迭代軌跡特征提取
輸入:幀圖像(視頻按照時間先后分割得到);
輸出:存儲迭代軌跡特征的三維矩陣IteratMFeature (其元素為0或者1)。
以圖2視頻為例(截取18幀),根據(jù)算法1的迭代方法提取該視頻的迭代軌跡點集合。取60幀圖像進行實驗,每幀圖像的大小是450×800。
(1)輔助函數(shù)的頻率決定迭代序列周期的大小以及遍歷的范圍,根據(jù)算法1中第5和6步的迭代方法,只用一個迭代初始值(取Num=1,串行迭代)進行試驗,從一個隨機點出發(fā),迭代600次后得到的軌跡點,如圖3所示(其參數(shù)r;a,b,c分別取表1和2中的數(shù)值),結合圖與數(shù)值可歸納得到:輔助函數(shù)頻率較大時軌跡點較多,反之較少。
圖2 一段視頻節(jié)選
圖3 迭代600次得到迭代點圖((a),(b)的參數(shù)rij 取表1中的數(shù)值,參數(shù)ai,bi,ci分別取表2中的數(shù)值)
表1 參數(shù)rij的數(shù)值
表2 參數(shù)ai,bi.ci的數(shù)值
(2) 將迭代初始值增多(并行迭代),迭代次數(shù)減少;比如=1∶20∶450,=1∶40∶800,=1∶3∶60,共計8 800個迭代初始值,迭代次數(shù)分別采用1,2,30進行迭代(算法1中取1,2,30),得到的軌跡如圖4所示。
圖4 不同迭代次數(shù)的迭代軌跡點圖
根據(jù)圖4可以看出,迭代初始值相同時,隨著迭代次數(shù)增加,得到的軌跡點數(shù)減少,但是逐漸穩(wěn)定,這是動力系統(tǒng)的迭代軌跡特性。如果迭代次數(shù)足夠多,將會得到最終的系統(tǒng)穩(wěn)定狀態(tài)即吸引子。每個吸引子都代表著這段視頻的一種本質的特征,當輔助函數(shù)頻率比較小時,曲面振蕩的比較小。當訓練的樣本數(shù)少時,對于人臉識別有一定的優(yōu)勢。
在很多場合,視頻可以看作是由圖像組成的具時序關系的特殊序列,因此基于視頻的人臉特征提取,實際上就是從多幀圖像中提取特征。該實驗將采用VidTIMIT數(shù)據(jù)集,數(shù)據(jù)集有43個人,每個人有13段視頻,共計559段視頻;在每個人的13段視頻中,有3段視頻為上下左右大幅度搖頭,其余10段均為對話視頻。人臉識別的本質是提取面部特征,然后將其與其他面部圖像特征比較。在識別之前,人臉通常會被檢測到并被切割。鑒于此,需對該數(shù)據(jù)集的556個視頻,超過十萬幀的圖像進行人臉檢測,得到每一幀的人臉圖像并將其進行保存;然后在預處理后的人臉視頻上應用算法1提取人臉視頻迭代特征,如圖5所示。
圖5 人臉視頻迭代特征提取((a)原視頻分離為每一幀圖像;(b)視頻的每一幀圖像僅有人臉;(c)經(jīng)過算法1得到的人臉視頻迭代軌跡特征,其參數(shù)為a1=0.00756; b1=0.00036; c1=0.00600; a2=0.00062; b2=0.00674; c2=0.00732; r11,r12, r13均取值0.01; r21,r22,r23均取值0.01753)
使用算法1提取人臉視頻迭代特征,不同的人提出的特征具有差異性(圖6),利用其差異性就可進行人臉識別。VidTIMIT數(shù)據(jù)集經(jīng)常被用于人臉分割、識別等[14-15],其含音頻數(shù)據(jù)和視頻數(shù)據(jù),本實驗僅使用其中的視頻數(shù)據(jù),再進行預處理后,對人臉視頻隨機抽取54幀進行特征提取,并將其儲存在矩陣中,儲存過程參見算法1;之后,利用圖6展示的迭代特征差異性,并通過算法2進行人臉視頻識別。
圖6 人臉視頻迭代特征對比((a)人臉視頻每幀圖像;(b)隨機抽取54幀得到的人臉視頻迭代特征;以上迭代特征參數(shù)取a1=0.00756; b1=0.00036; c1=0.006; a2=0.00062; b2=0.00674; c2=0.00732; r1i=0.01, r2i=0.01753, i=1,2,3,可以看出同一個人的視頻迭代特征是相似的)
算法2.人臉視頻識別
輸入:一共組視頻,以及待識別的視頻Vid;
輸出:識別結果。
在實驗中提取的迭代軌跡特征是稀疏矩陣,在使用Matlab中的corrcoef 函數(shù)計算相關系數(shù)。計算相關系數(shù)耗費的時間占據(jù)了整個識別過程的大部分時間,因此為了降低時間消耗,使用Matlab中的imresize3函數(shù)將視頻數(shù)據(jù)迭代軌跡特征調整大小為64×64×64,采用最近鄰插值法;實驗結果顯示,識別率并未降低,這可能因為特征矩陣是稀疏矩陣的原因。
實驗環(huán)境是在Windows 10操作系統(tǒng)下,處理器為Inter(R) Core(TM) i7-7700 CPU @360 GHz,RAM 8 G,使用的仿真軟件為MATLAB;實驗首先是在10、20組樣本的基礎上進行,分別選取每個組視頻中的1~5個視頻進行訓練,實驗結果見表3,結果顯示總體識別率均很好,其中訓練視頻數(shù)=2時識別率最高,因此在實驗中選取=2得到特征IteratMFeature (:,:,:)進行實驗。
表3 不同訓練視頻數(shù)q下的識別率(%)
采用每組取2個視頻作為訓練集提取對比特征的實驗結果見表4,實驗樣本為10組,20組,30組,43組,識別率分別為94.55%,93.64%,91.82%和88.16%;實驗結果表明,在訓練樣本比例不變的情況下,隨著實驗樣本增大,識別率未出現(xiàn)大的下降;說明本文給出的視頻迭代軌跡特征的魯棒性強。與其他特征相比,人臉視頻的迭代軌跡特征提取沒有復雜數(shù)學計算過程,具有采集簡單、快速的特點,實驗證明,人臉視頻迭代軌跡特征在人臉視頻的識別上是有效的。
表4 VidIMIT數(shù)據(jù)集上的實驗結果
在文獻[15]中,選取VidTIMIT數(shù)據(jù)集中30個人的視頻數(shù)據(jù)作為實驗樣本,選取10%~50%,以步長10%選擇樣本作為訓練樣本,分別使用AlexNet,GoogLeNet與ResNet-18的3個深度學習模型在30人的樣本上進行了人臉識別實驗;根據(jù)文獻[15]的實驗方法,將同樣選擇30組樣本,取300個視頻,按照相同的訓練樣本比例再次進行試驗;結合文獻[15]中的實驗結果,給出圖7的識別率對比圖。由圖7可以看出,在訓練樣本比例為10%和20%時,本文算法的識別率是高于其他3個模型的,在30%,40%,50%時,識別率高于AlexNet,GoogLeNet模型,略低于ResNet-18模型,并且訓練樣本在20%的情況下,識別率高于ResNet-18模型在30%的訓練樣本,略低于ResNet-18模型在40%和50%訓練樣本的識別率,證明了本文算法不需要很多的訓練集就可以得到有效的視頻迭代軌跡特征,這相對于深度學習模型是一個優(yōu)勢。
圖7 本文算法與AlexNet,GoogLeNet,ResNet-18識別率對比
視頻的三維迭代軌跡特征作為一種新的視頻數(shù)據(jù)特征,類似于吸引子。吸引子是動力系統(tǒng)穩(wěn)定后的一種穩(wěn)態(tài),而迭代軌跡特征并不是穩(wěn)態(tài),在前人的研究中很多都是構造動力系統(tǒng),得到吸引子,但是在實際應用中且未必需要得到系統(tǒng)最后的穩(wěn)態(tài)。在人臉識別方面,如果將吸引子作為圖像的識別特征,無疑需引入大量的計算,并耗費大量的時間,通過實驗分析結果可知,迭代次數(shù)2次和30次的迭代軌跡差別并不大,因此本次實驗采用的是迭代2次的方法,實驗結果顯示,視頻的迭代軌跡就可以達到識別效果,因此不需要大量迭代去得到吸引子特征,可以節(jié)約大量的時間。
本文考慮視頻的時間維度,將視頻作為三維函數(shù),與三角函數(shù)構造動力系統(tǒng),提取人臉視頻迭代軌跡特征,作為一種新的視頻特征進行人臉識別研究。該特征提取相較于其他的特征提取沒有復雜的數(shù)學計算,也無需深度學習的多層網(wǎng)絡結構,具有特征提取方法簡單、計算時間較少的優(yōu)點,該方法已經(jīng)超過目前一些較好的人臉識別方法[15]。本實驗證明了視頻迭代軌跡特征的實用性,對比分析其他深度學習研究成果,該算法在訓練樣本比例小的情況下可以得到與其相比較好的識別率。下一步工作是在更多的視頻集上進行實驗,驗證并改進該方法,同時進行深入的理論分析。
[1] FRIED O, TEWARI A, ZOLLH?FER M, et al. Text-based editing of talking-head video[J]. ACM Transactions on Graphics, 2019, 38(4): 1-14.
[2] TRUJILLO J P, SIMANOVA I, BEKKERING H, et al. The communicative advantage: how kinematic signaling supports semantic comprehension[J]. Psychological Research, 2019, 5: 1-15.
[3] XIE L P, TAO D C, WEI H K. Early expression detection via online multi-instance learning with nonlinear extension[J]. IEEE Transactions on Neural Networks and Learning Systems,2018, 30(5): 1486-1496.
[4] ZHAI D M, LIU X M, JI X Y, et al. Joint gaze correction and face beautification for conference video using dual sparsity prior[J]. IEEE Transactions on Industrial Electronics, 2019, 66(12): 9601-9611.
[5] LIU S, REN G H, SUN Y, et al. Fine-grained human-centric tracklet segmentation with single frame supervision[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019. [2020-05-19]. https://doi.org/10.1109/TPAMI.2019.2911936.
[6] LIU S L, GUO S, WANG W, et al. Multi-view laplacian eigenmaps based on bag-of-neighbors for RGB-D human emotion recognition[J]. Information Sciences, 2020, 509: 243-256.
[7] YU Y F, REN C X, JIANG M, et al. Sparse approximation to discriminant projection learning and application to image classification[J/OL]. Pattern Recognition, 2019, 96: 106963. [2020-05-19]. https:// doi.org/10.1016/j.patcog.2019.106963.
[8] LIANG Y, LIU B L, JI J Z, et al. Network representations of facial and bodily expressions: evidence from multivariate connectivity pattern classification[J/OL]. Frontiers in Neuroscience, 2019, 13: 1111. [2020-05-19]. https://doi.org/10.3389/fnins. 2019.01111.
[9] 于萬波. 截面的幾何形狀決定三維函數(shù)的混沌特性[J]. 物理學報, 2014, 63(12): 26-34. YU W B. Geometric shape of cross section determines chaotic properties of three-dimensional functions [J]. Acta Physica Sinice, 2014, 63(12): 26-34 (in Chinese).
[10] 于萬波, 王大慶. 曲面迭代的混沌特性及其在人臉識別中的應用[J]. 計算機輔助設計與圖形學學報, 2015, 27(12): 2264-2271. YU W B, WANG D Q. Chaotic characteristics of surface iteration and its application in face recognition[J]. Journal of Computer-Aided Design & Computer Graphics, 2015, 27(12): 2264-2271 (in Chinese).
[11] YU W B. Application of chaos in image processing and recognition[C]//2017 International Conference on Computer Systems, Electronics and Control (ICCSEC). New York: IEEE Press, 2017: 1108-1113.
[12] 于萬波, 王香香, 王大慶. 基于離散余弦變換基函數(shù)迭代的人臉圖像識別[J]. 圖學學報, 2020, 41(1): 88-92. YU W B, WANG X X, WANG D Q. Face image recognition based on iteration of discrete cosine transform basis functions[J]. Journal of Graphics, 2020, 41(1): 88-92 (in Chinese).
[13] 于萬波. 混沌的計算分析與探索[M]. 北京: 清華大學出版社, 2016: 162-186. YU W B. Computational analysis and Exploration of Chaos[M]. Beijing: Tsinghua University Press, 2016: 162-186 (in Chinese).
[14] LE T H N, SAVVIDES M. A novel shape constrained feature-based active contour model for lips/mouth segmentation in the wild[J]. Pattern Recognition, 2016, 54: 23-33.
[15] BANERJEE S, CHAKRABORTY S. Deepsub: a novel subset selection framework for training deep learning architectures[C]//2019 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2019: 1615-1619.
Feature extraction of video data based on trigonometric function iteration
YU Wan-bo, FAN Qing-tao
(College of Information, Dalian University, Dalian Liaoning 116622, China)
In the research of computer vision, the recognition of image objects based on video data is on an increasing trend. Focusing on the feature extraction of video data, a method based on trigonometric function iteration was proposed to extract 3D iterative trajectory features of the video. Considering the time and space dimensions of video data, this paper constructed a three-dimensional dynamic system by using a trigonometric function, obtained the features of video segment data as a whole in one extraction, and extracted a set of three-dimensional feature points similar to chaotic attractors. This iterative feature of video data is an iterative set of track points. Face recognition experiments using VidTIMIT datasets of face videos show that increasing the number of initial iterations and reducing the number of iterations could lead to a better effect of the extracted feature points set. After 43 groups of 559 videos of VidTIMIT were all experimented with, the recognition rate could reach 88.16%. Compared with other methods recorded in the existing literature, the method proposed in this paper is characterized by high recognition rate and short computing time. It is proved that this 3D video iterative trajectory feature is of great practical significance and requires further research, analysis and verification.
dynamic system; iteration; video; face recognition
TP 391
10.11996/JG.j.2095-302X.2020040512
A
2095-302X(2020)04-0512-08
2020-03-29;
2020-05-19
19 May,2020
29 March,2020;
于萬波(1966-),男,吉林長春人,副教授,博士,碩士生導師。主要研究方向為圖形圖像處理、人工智能。E-mail:yu_wb@126.com
YU Wan-bo (1966-), male,associate professor, Ph.D. His main research interests cover graphic image processing, artificial intelligence. E-mail:yu_wb@126.com