甄倩倩+張庭亮
DOI:10.16661/j.cnki.1672-3791.2017.25.241
摘 要:生物識(shí)別,是通過生物信息來識(shí)別人身份的技術(shù),說話人識(shí)別是一種通過人的聲音來識(shí)別人身份的技術(shù)。說話人識(shí)別是生物識(shí)別領(lǐng)域的重要研究課題之一。本文首先介紹說話人識(shí)別的背景和研究意義;其次介紹目前在說話人特征提取方面所采用的方法;再次介紹說話人識(shí)別方面所采用的方法研究;最后分析說話人識(shí)別的研究困難和未來發(fā)展趨勢(shì)。
關(guān)鍵詞:生物識(shí)別 說話人識(shí)別 特征提取
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)09(a)-0241-03
Abstract: Speaker recognition is one of the important research topics in the field of biometrics, which is a way of recognizing human identity through the voice of the people. Firstly, it introduces the background and significance of speaker recognition. Secondly, it introduces the present research situation of feature extraction and speaker recognition. Finally, it analyzes the research difficulties and future development trend of speaker recognition.
Key Words: Biological Recognition; Speaker Recognition; Feature Extraction
生物特征識(shí)別技術(shù)是一種采用人的生理或行為進(jìn)行識(shí)別身份的技術(shù)?;谏锾卣髯R(shí)別技術(shù)的身份認(rèn)證是社會(huì)高度信息化和經(jīng)濟(jì)全球化的需求,是政府和商業(yè)領(lǐng)域必不可少的重要技術(shù)[1]。目前常見的生物識(shí)別技術(shù)有虹膜識(shí)別、指紋識(shí)別、掌紋識(shí)別、步態(tài)識(shí)別、說話人識(shí)別等。說話人識(shí)別作為生物識(shí)別中的一種,目前也引起了學(xué)者的廣泛關(guān)注。說話人識(shí)別(Speaker Recognition)又稱話者識(shí)別或聲紋識(shí)別(Voiceprint Recognition),是由計(jì)算機(jī)利用語音波形中所包含的反映特定說話人生理和行為特征的語音特征參數(shù)來自動(dòng)確定或鑒別說話人身份的技術(shù)[2]。說話人識(shí)別的根本依據(jù)是:每個(gè)人都有自己獨(dú)特的聲道和發(fā)音特征,使得自己的話聲是唯一的。對(duì)說話人識(shí)別的研究源于20世紀(jì)30、40年代,近些年該課題引起了生物識(shí)別研究者的廣泛關(guān)注。目前,隨著科學(xué)的發(fā)展,學(xué)者的青睞,已經(jīng)取得了一系列研究成果。在國(guó)內(nèi),通過中國(guó)知網(wǎng)搜索說話人識(shí)別,從2000年至今,相關(guān)文獻(xiàn)2553篇。目前說話人識(shí)別可以應(yīng)用在密碼鎖[3]、司法鑒定[4]等中。
1 說話人識(shí)別過程
通過對(duì)前人工作的總結(jié),說話人識(shí)別的過程包含語音信息的預(yù)處理、特征提取與現(xiàn)有語音庫(kù)進(jìn)行比對(duì)最終識(shí)別出說話人,具體流程見圖1所示。
2 說話人識(shí)別綜述
本文從預(yù)處理、特征提取和說話人模型3個(gè)方面對(duì)說話人識(shí)別算法進(jìn)行分析。
2.1 預(yù)處理
說話人語音預(yù)處理是說話人識(shí)別系統(tǒng)的重要環(huán)節(jié),預(yù)處理包括預(yù)加重、端點(diǎn)檢測(cè)、分幀加窗處理以及對(duì)帶有噪聲的說話人語音的語音增強(qiáng)處理[5]。除了常規(guī)的預(yù)處理之外,卷積神經(jīng)網(wǎng)絡(luò)可以應(yīng)用在說話人語音信號(hào)的預(yù)處理中,例如中,胡青等[6]采用卷積神經(jīng)網(wǎng)絡(luò)的卷積和降采樣兩種操作對(duì)語音信號(hào)進(jìn)行預(yù)處理。
2.2 特征提取
2.2.1 MFCC(Mel頻率倒譜系數(shù),Mel Frequeucy Cepstrum Coefficient)
Mel頻率倒譜系數(shù)是說話人特征提取中最長(zhǎng)用的系數(shù)。例如,文獻(xiàn)[7-9]在特征提取方面均采用MFCC提取說話人特征。但MFCC容易受噪聲的影響,噪聲環(huán)境下的識(shí)別率較低。
2.2.2 HHT(希爾波特黃變換Hilbert–Huang Transform)倒譜系數(shù)
文獻(xiàn)[10]中采用HHT倒譜系數(shù)來刻畫動(dòng)態(tài)語音特征,該方法雖然識(shí)別精度提高,但是卻以犧牲識(shí)別時(shí)間為代價(jià)。
2.2.3 DNN(深度神經(jīng)網(wǎng)絡(luò),Deep Neural Network)
文獻(xiàn)[11]中為了提取說話人語音信息,提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別方法,該方法能夠解決語音信號(hào)這種弱信息極易受噪聲等的影響的問題。通過在RSR2015數(shù)據(jù)庫(kù)數(shù)據(jù)上實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法在特征提取方面,優(yōu)于MFCC等傳統(tǒng)特征提取方法,系統(tǒng)的錯(cuò)誤率也有所降低。
2.2.4 融合特征提取
除了以上所述的單一的特征提取方法,還有一些融合特征提取方法。例如,文獻(xiàn)[12]在特征提取方面針對(duì)噪聲環(huán)境中說話人識(shí)別性能較差的不足,結(jié)合小波變換的優(yōu)點(diǎn),提出了將小波變換技術(shù)與傳統(tǒng)的特征參數(shù)提取方式相結(jié)合的方法,利用加權(quán)特征組合,能夠達(dá)到抗噪的目的。文獻(xiàn)[13]中為了提高在噪音環(huán)境下說話人識(shí)別系統(tǒng)的識(shí)別率,通過對(duì)MFCC參數(shù)提取過程進(jìn)行改進(jìn),用小波包變換代替快速傅里葉變換和Mel濾波器組,獲得了新參數(shù)new MFCC,然后將信號(hào)的頻譜重心與new MFCC結(jié)合成新的特征參數(shù)進(jìn)行提取。文獻(xiàn)[14]中,將MFCC和LPCC進(jìn)行結(jié)合作為說話人識(shí)別的特征。文獻(xiàn)[15]中提出了一種基于 Fisher準(zhǔn)則的梅爾頻率倒譜系數(shù)(MFCC)、線性預(yù)測(cè)梅爾倒譜系數(shù)(LPMFCC)、Teager能量算子倒譜參數(shù)(TEOCC)相混合的特征參數(shù)提取方法。endprint
2.3 說話人模型
2.3.1 GMM(高斯混合模型,Gaussian Mixture Model)
高斯混合模型是說話人識(shí)別中最常使用的一種模型,很多說話人相關(guān)的文獻(xiàn)中都采用該方法以及在此基礎(chǔ)上所衍生出來的自適應(yīng)高斯混合模型以及一些其他的改進(jìn)算法。例如文獻(xiàn)[5,8,9]在設(shè)計(jì)說話人識(shí)別系統(tǒng)時(shí),均采用高斯混合模型作為識(shí)別模型。文獻(xiàn)[16]中提出了一種基于高斯混合模型的自適應(yīng)說話人識(shí)別算法,該算法識(shí)別在不降低識(shí)別率的情況下,識(shí)別速度提高了4倍。文獻(xiàn)[17]提出一種混合數(shù)可變的自適應(yīng)高斯混合模型并將其應(yīng)用于說話人識(shí)別,識(shí)別率有所提高。文獻(xiàn)[18]中提出了一種基于GMM托肯配比相似度校正得分的說話人識(shí)別算法,識(shí)別性能有了大幅提高。文獻(xiàn)[19]中在傳統(tǒng)GMM的基礎(chǔ)上,對(duì)模型參數(shù)初始化進(jìn)行改動(dòng),采用分類法與K-mean聚類進(jìn)行結(jié)合。
2.3.2 VQ(矢量量化,Vector Quantization)
文獻(xiàn)[20-21]均采用VQ作為說話人識(shí)別模型。除了VQ單獨(dú)使用外,還有一些文獻(xiàn)中將其與其他的識(shí)別模型結(jié)合。例如,文獻(xiàn)[7]將VQ與DTW動(dòng)態(tài)時(shí)間調(diào)整模型結(jié)合。文獻(xiàn)[22]將其與HMM隱馬爾可夫相結(jié)合,進(jìn)行說話人識(shí)別。文獻(xiàn)[23]將其與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。
2.3.3 DTW(動(dòng)態(tài)時(shí)間調(diào)整模型,Dynamic Time Warping)
文獻(xiàn)[24]設(shè)計(jì)了一種基于DTW的說話人識(shí)別系統(tǒng)。文獻(xiàn)[25]中,宋大杰將改進(jìn)的DTW作為模式匹配的算法。文獻(xiàn)[26]研究了基于動(dòng)態(tài)時(shí)間規(guī)正(DTW)和圖論方法的語音識(shí)別和說話人識(shí)別的特征子集選擇問題,提出了基于DTW距離的有向圖方法(DTWDAG)。文獻(xiàn)[7]通過動(dòng)態(tài)時(shí)間規(guī)整模型進(jìn)行偽裝程度鑒定,再利用矢量量化模型進(jìn)行說話人識(shí)別,從而設(shè)計(jì)了DTW與VQ相結(jié)合的電子偽裝語音說話人識(shí)別系統(tǒng)。
2.3.4 SVM(支持向量機(jī),Support Vector Machine)
支持向量機(jī)一是在高維空間使用線性函數(shù)假設(shè)空間的學(xué)習(xí)系統(tǒng),它由一個(gè)來自最優(yōu)化理論的學(xué)習(xí)算法訓(xùn)練,該算法實(shí)現(xiàn)了一個(gè)由統(tǒng)計(jì)學(xué)習(xí)理論導(dǎo)出的學(xué)習(xí)偏置[27]。文獻(xiàn)[28]在支持向量機(jī)的基礎(chǔ)上,結(jié)合高斯混合模型,提出基于一類SVM-GMM的短語音說話人識(shí)別算法,提高了短語音數(shù)據(jù)條件下系統(tǒng)的識(shí)別性能;引入多核映射,提出基于多核SVM-GMM的短語音說話人識(shí)別算法。文獻(xiàn)[29]針對(duì)傳統(tǒng)支持向量機(jī)算法時(shí)空復(fù)雜度較高的不足,提出了一種基于交叉驗(yàn)證KNN的支持向量預(yù)選取算法。文獻(xiàn)[30]中,翟玉杰提出了一種基于GMM和SVM的說話人識(shí)別算法。相對(duì)于以往的算法,識(shí)別率有了大幅提高,但是通過進(jìn)一步研究發(fā)現(xiàn)其識(shí)別率進(jìn)一步提高受到信道因素影響較為嚴(yán)重。為了彌補(bǔ)GMM-SVM說話人識(shí)別的這一缺點(diǎn),在GMM-SVM的說話人識(shí)別方法的基礎(chǔ)上應(yīng)用了因子分析技術(shù)模型級(jí)信道補(bǔ)償算法,識(shí)別效率上超過了傳統(tǒng)的GMM-SVM方法,具有更好的信道魯棒性。將GMM與SVM兩者結(jié)合能夠解決GMM在語音數(shù)據(jù)較小時(shí)不能區(qū)分?jǐn)?shù)據(jù)間的差異性及SVM在處理大量數(shù)據(jù)時(shí)識(shí)別率下降的問題[31]。
2.3.5 其他
文獻(xiàn)[32]針對(duì)BP神經(jīng)網(wǎng)絡(luò)收斂速度慢、容易陷入局部極小的缺陷,將遺傳算法全局尋優(yōu)的特點(diǎn)與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,利用遺傳算法對(duì)神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值進(jìn)行優(yōu)化,構(gòu)成一個(gè)GABP神經(jīng)網(wǎng)絡(luò),有效地解決了BP神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu)的問題。文獻(xiàn)[33]將深度神經(jīng)網(wǎng)絡(luò)與隱馬爾可夫模型結(jié)合,提出了一種二者融合的自適應(yīng)方法。文獻(xiàn)[34]以及文獻(xiàn)[35]均將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在說話人識(shí)別中。
3 結(jié)論
說話人識(shí)別是語音識(shí)別的范疇,但其不關(guān)心說話的內(nèi)容,更關(guān)心的是說話人的身份。經(jīng)過幾十年的發(fā)展,說話人識(shí)別技術(shù)相對(duì)來說已比較成熟,但識(shí)別時(shí)容易受環(huán)境的干擾,造成噪聲環(huán)境中,識(shí)別錯(cuò)誤率高等問題,所以目前說話人識(shí)別在環(huán)境影響方面還有一些待解決的技術(shù)問題。
參考文獻(xiàn)
[1] 鄭方,艾斯卡爾·肉孜,王仁宇,等.生物特征識(shí)別技術(shù)綜述[J].信息安全研究,2016,2(1):12-26.
[2] 蔣曄,唐振民.GMM文本無關(guān)的說話人識(shí)別系統(tǒng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(11):179-182.
[3] 張濤濤.語音聲紋密碼驗(yàn)證技術(shù)研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2016.
[4] 楊陽.聲紋識(shí)別技術(shù)及其在司法鑒定中的應(yīng)用[D].廈門大學(xué),2007.
[5] 陳強(qiáng).基于GMM的說話人識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D].武漢理工大學(xué),2010.
[6] 胡青,劉本永.基于卷積神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別算法[J].計(jì)算機(jī)應(yīng)用,2016,36(S1):79-81.
[7] 李燕萍,陶定元,林樂.基于DTW模型補(bǔ)償?shù)膫窝b語音說話人識(shí)別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(1):93-96.
[8] 吳慧玲,杜成東,毛鶴.基于GMM的說話人識(shí)別算法的研究與應(yīng)用[J].現(xiàn)代計(jì)算機(jī):普及版,2014(14):31-35.
[9] 劉冰,滕廣超,林嘉宇.基于GMM的說話人識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].微處理機(jī),2014(3):63-65.
[10] 杜曉青,于鳳芹.基于HHT倒譜系數(shù)的說話人識(shí)別算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(3):198-202.
[11] 張濤濤,陳麗萍,蔣兵,等.采用深度神經(jīng)網(wǎng)絡(luò)的說話人特征提取方法[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(1):142-146.
[12] 檀蕊蓮,柏鵬,李哲,等.基于小波變換的說話人識(shí)別技術(shù)[J].空軍工程大學(xué)學(xué)報(bào):自然科學(xué)版,2013,14(1):85-89.endprint
[13] 胡峰松,王磊.一種基于小波包分析的說話人識(shí)別算法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(7):1610-1614.
[14] 于明,袁玉倩,董浩,等.一種基于MFCC和LPCC的文本相關(guān)說話人識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2006,26(4):883-885.
[15] 謝小娟,曾以成,熊冰峰.說話人識(shí)別中基于Fisher比的特征組合方法[J].計(jì)算機(jī)應(yīng)用,2016,36(5):1421-1425.
[16] 陳覺之,張貴榮,周宇歡.基于GMM模型的自適應(yīng)說話人識(shí)別研究[J].計(jì)算機(jī)與現(xiàn)代化,2013(7):91-93.
[17] 王韻琪.自適應(yīng)高斯混合模型及說話人識(shí)別應(yīng)用[D].蘇州大學(xué),2014.
[18] 楊瑩春,鄧立才.基于GMM托肯配比相似度校正得分的說話人識(shí)別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2017(1):28-32.
[19] 蔣曄,唐振民.GMM文本無關(guān)的說話人識(shí)別系統(tǒng)研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(11):179-182.
[20] 張玉嬌.基于矢量量化(VQ)的說話人識(shí)別的研究[D].南京理工大學(xué),2015.
[21] 涂佩佩.基于矢量量化的說話人識(shí)別的研究[D].安徽大學(xué),2016.
[22] 趙峰,于洋.基于VQ和HMM的雙層聲紋識(shí)別算法[J].桂林電子科技大學(xué)學(xué)報(bào),2017(1):83-84.
[23] 楊彥.基于矢量量化(VQ)和人工神經(jīng)網(wǎng)絡(luò)(ANN)的說話人識(shí)別的研究[D].東南大學(xué),2006.
[24] 張飛云,張鵬,高建生.噪聲環(huán)境中基于DTW的說話人識(shí)別[J].許昌學(xué)院學(xué)報(bào),2011,30(5):68-72.
[25] 宋大杰.基于DTW的說話人識(shí)別及其在DSP上的實(shí)現(xiàn)[D].東華理工大學(xué),2012.
[26] 劉敬偉,徐美芝,鄭忠國(guó),等.基于DTW的語音識(shí)別和說話人識(shí)別的特征選擇[J].模式識(shí)別與人工智能,2005, 18(1):50-54.
[27] 雷震春.支持向量機(jī)在說話人識(shí)別中的應(yīng)用研究[D].浙江大學(xué),2006.
[28] 金煥梅.基于支持向量機(jī)的短語音說話人識(shí)別[D].吉林大學(xué),2012.
[29] 陳雪芳,楊繼臣.交叉驗(yàn)證KNN支持向量預(yù)選取算法在說話人識(shí)別上的應(yīng)用[J].科學(xué)技術(shù)與工程, 2013,13(20):5839-5842.
[30] 翟玉杰.基于GMM-SVM說話人識(shí)別的信道算法研究[D].吉林大學(xué),2015.
[31] 趙立輝,毛竹,霍春寶,等.基于GMM-SVM的說話人識(shí)別系統(tǒng)研究[J].工礦自動(dòng)化,2014,40(5):49-53.
[32] 蘭勝坤.遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別系統(tǒng)[J].自然科學(xué)版,2013,27(10):91-95.
[33] 薛少飛.DNN-HMM語音識(shí)別聲學(xué)模型的說話人自適應(yīng)[D].中國(guó)科學(xué)技術(shù)大學(xué),2015.
[34] 耿國(guó)勝.基于深度學(xué)習(xí)的說話人識(shí)別技術(shù)研究[D].大連理工大學(xué),2014.
[35] HAZRAT ALI.基于深度學(xué)習(xí)模型的說話人識(shí)別算法研究[D].北京科技大學(xué),2015.endprint