于梅
摘 要
與指紋相同,聲紋也是人類特有的生物特征,每個人的聲紋均是不同的。所以,聲紋可以作為區(qū)分人類個體的主要生物特征,基于這一特征,研發(fā)出了聲紋識別技術,并且得到了廣泛應用。而在聲紋識別技術中,因數(shù)據(jù)稀疏等問題,實現(xiàn)區(qū)分性訓練的難度較大。為了更好的實現(xiàn)區(qū)分性訓練,本文對聲紋識別中的區(qū)分性訓練進行了研究,希望本文能為相關人員的研究工作提供參考價值。
【關鍵詞】聲紋 聲紋識別 區(qū)分性訓練
互聯(lián)網時代的到來,加之信息技術的不斷發(fā)展,使得個人身份的確認、個人隱私保護等成為了社會關注的主要話題。相比于傳統(tǒng)的身份認證方式,生物特征識別技術不僅方便,而且結果的可靠性、準確性比較高。而聲紋識別作為現(xiàn)階段一種主要的生物特識別技術,在遠程認證等領域具有比較高的應用優(yōu)勢。就現(xiàn)階段的實際情況來看,聲紋識別技術的應用范圍比較廣泛。例如,國防安全、公安技偵、網絡支付以及聲紋鎖控等。鑒于此,本文對聲紋識別中的區(qū)分性訓練的應用進行研究,對聲紋識別技術的發(fā)展具有重要意義。
1 聲紋識別基本概念
聲紋是對說話人語音中,具有代表性的能夠標識自身的語音特征,以及在這些參數(shù)基礎上建立起的語言模型的一種總稱,屬于一種行為特征。而聲紋識別指的是一個過程,即分析語音中的聲紋特征,并以此來對這段語言對應的說話人進行識別的過程。聲紋與指紋相同,均是獨一無二的,每個人聲音中的語音特征以及發(fā)音習慣均是不同的,無論怎樣模仿,均無法改變說話人最基本的聲道特點以及發(fā)音特征。這便意味著,聲紋具有一定的穩(wěn)定性以及獨特性。基于聲紋的獨特性,開發(fā)研究了出了聲紋識別技術,對人類身份的生物特征進行識別。
2 聲紋識別中的區(qū)分性訓練方法
本文在特征矢量的基礎上,設計了聲紋密碼的區(qū)分性系統(tǒng)框架,以期更好的對聲紋識別中區(qū)分性訓練的方法進行研究,下面便對聲紋識別中的區(qū)分性訓練方法進行詳細介紹。
2.1 問題定義
盡管聲紋識別中,區(qū)分性訓練的應用比較廣泛,但受到種種客觀因素的影響,在說話人確認的短語音中,區(qū)分性訓練的價值卻無法真正體現(xiàn)出來。而聲紋密碼的最基本任務,便是確認短語音的說話人。為了有效的降低數(shù)據(jù)量過多而帶來的難題,可以將聲紋密碼的任務劃分成二類分類問題。簡單來說,即把全部的數(shù)據(jù)分成正例與反例兩種集合,同時盡可能的降低這兩種集合在規(guī)模上的差異。區(qū)分性訓練算法,提高了模型間的距離,降低了錯誤識別率。
2.2 特征定義
對新特征進行定義,是聲紋密碼區(qū)分性系統(tǒng)框架設計的難點所在。鑒于距離具有一定的對稱性與非負性,故本文采用近似策略替代距離。首先,通過DTW獲取測試語音以及注冊語音,其次,將測試語音與注冊語音在音幀上的差值思維該幀的新特征,即差值特征。需要注意的是,由于不同的注冊語音所代表的距離不具備可比性。所以,本文形成了一種新的特征,即將注冊模板的數(shù)據(jù)視作規(guī)整項。
2.3 參數(shù)優(yōu)化
本文采用EBM算法對區(qū)分性訓練模型的參數(shù)進行優(yōu)化。首先,利用正例語音與反例語音,構造出如圖1所示的函數(shù)。由于這一函數(shù)中,每一個求和項的正定均是無法保證的。簡單來說,就是求和項并不全是凹函數(shù)。所以,對該函數(shù)進行最大化時得不到有窮解,需要合理的引進平滑相,確保該式仍然屬于凹函數(shù)。
2.4 測試過程
利用正例區(qū)分性模型以及反例區(qū)分性模型,可以得到注冊語音與測試語音的總幀數(shù),再經過某些處理,獲取新的特征矢量,在此基礎上,按照葉貝斯準則,對測試語音與注冊語音進行判斷,明確其是否為同一人。
3 區(qū)分性訓練實驗結果分析
由上文中分析可以獲得規(guī)整特征以及差值特征,以此為基礎,對初始的正反例模型進行訓練;之后,基于MCE準則,借助EBW優(yōu)化算法進行兩類區(qū)分性訓練,訓練結果詳見圖2。在圖2中,橫坐標表示的是區(qū)分性訓練的迭代次數(shù),0次迭代表示的是在使用集新訓練后,獲得的最大似然GMM模型。
通過分析圖2,可以得知,利用區(qū)分性訓練,得到的正例區(qū)分性模型以及反例區(qū)分性模型,相比于初始模型,可以更好的對聲紋空間中,代表距離度量的特點分布進行擬合,進而更好的提高系統(tǒng)的安全性。與此同時,區(qū)分性訓練實驗結果也從側面證明,相應的注冊特征的引入,可以使規(guī)整特征更好、更細致的將多種密碼文本條件的特征矢量的分布情況描述出來。而且,在通過比較多次的迭代之后,差值特征與規(guī)整特征二者之間的差異會愈發(fā)明顯,規(guī)整特征的優(yōu)勢也更加明顯??偠灾?,聲紋密碼任務中,應用區(qū)分性訓練具有比較高的可行性,且可以顯著提升系統(tǒng)的性能。
4 結論
盡管聲紋識別技術的應用范圍在不斷擴大,但由于種種客觀因素的限制,相應的應用制度還未能得到完善。所以,其實際應用效果與理想狀態(tài)還存在一定差距。但是,聲紋識別技術的應用前景是十分廣闊的,而區(qū)分性訓練的應用也在很大程度上提高了聲紋識別技術的可行性,以及聲紋識別的實際效果。本文主要對聲紋識別基本概念的進行了介紹,基于聲紋識別中的區(qū)分性訓練方法,深入研究了區(qū)分性訓練實驗結果,以期進一步提高區(qū)分性訓練在聲紋識別中的應用效果。
參考文獻
[1]聶智良,張興明,楊鎮(zhèn)西等.區(qū)分性錨模型應用于語種識別的研究[J].計算機工程,2012,38(03):172-175.
[2]熱米拉·艾山江,黃浩.一種改進的GOP算法在區(qū)分性訓練的應用[J].通信技術,2014,47(05):508-511.
[3]熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關鍵詞模型的維吾爾文本情感分類[J].計算機工程,2014,40(10):132-136.
[4]王雨軒,倪訓博,姜峰.手語識別中基于HMM的區(qū)分性訓練方法[J].智能系統(tǒng)學報,2007,21(01):80-84.
作者單位
紹興文理學院 浙江省紹興市 312000endprint