魏蓮芳
摘 ?要: 對面向“互聯(lián)網(wǎng)+”的聲紋識別技術進行研究,并分析了其在刑事案件偵破中的應用?;贕MM?UBM聲紋識別確認系統(tǒng),對GMM?UBM模型構建方法進行詳細描述,研究模型參數(shù)最大后驗概率算法、估計期望最大化算法、參數(shù)訓練和識別過程。對基于GMM?UBM的聲紋識別系統(tǒng)進行設計,利用對比實驗的方法分別驗證在相同條件下GMM建模方法、GMM?UBM建模方法的識別效果。在測試隨機抽取的一組語音時,系統(tǒng)均具有較高的識別成功率,在進行不同人數(shù)測試時,隨著樣本人數(shù)的增加,系統(tǒng)識別率會有少許降低,但平均識別率較高,為89.6%;與GMM系統(tǒng)相比,GMM?UBM系統(tǒng)具有較高的識別率,隨著混合度的增加,GMM?UBM系統(tǒng)識別率隨之增大。
關鍵詞: 刑事案件偵破; 聲紋識別; 互聯(lián)網(wǎng)+; GMM?UBM; 識別率; 參數(shù)訓練
中圖分類號: TN912?34; TP311 ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)07?0034?05
Research on application of "Internet+" based voiceprint recognition
technology in criminal case investigation
WEI Lianfang
(Sichuan Police College, Luzhou 646000, China)
Abstract: The voiceprint recognition technology applied to "Internet+" is studied and its application in criminal case investigation is analyzed. On the basis of the GMM?UBM (Gaussian mixture model?universal background model) voiceprint recognition system, the construction method of GMM?UBM is elaborated, and the maximum posterior probability algorithm, estimation expectation maximization algorithm and training & recognition process of model parameters are studied. The voiceprint recognition system based on GMM?UBM is designed. The recognition effects of GMM modeling method and GMM?UBM modeling method under the same conditions are verified respectively by comparative experiments. When testing a group of randomly?extracted voices, both the systems are of high recognition rate. When testing different numbers of people, the recognition rate of the system decreases somewhat with the increase of the number of sampling people, but the average recognition rate is 89.6%, which is high. In comparison with the GMM system, the GMM?UBM system is of higher recognition rate. The recognition rate of GMM?UBM system increases with the increase of the degree of mixing.
Keywords: criminal case investigation; voiceprint recognition; Internet+; GMM?UBM; recognition rate; parameter training
0 ?引 ?言
近年來,隨著計算機技術發(fā)展越來越快,語音識別技術也隨之獲得一定的發(fā)展。在實際應用中,語音識別技術能對說話人個人身份語音特征進行獲取、表征。“互聯(lián)網(wǎng)+”時代正在飛速發(fā)展,安全保障以及身份驗證等成為醫(yī)療、共享出行以及移動支付的重要內容。
對于刑偵工作來說,開始廣泛應用數(shù)字聲紋識別技術,能夠有效彌補其他特征識別技術存在的缺陷。聲紋識別是通過聲學、語音學原理,對磁介質機載的聲語頻譜進行分析,對聲音進行語言判斷、鑒別的過程。數(shù)字聲紋識別技術可利用計算機技術、多元化通信技術轉化聲紋樣本頻譜圖,通過數(shù)字聲紋樣本的方式自動識別聲紋?;谠摷夹g能夠有效建立虛擬標準人類聲紋樣本,涉及人類發(fā)生多元化特征。聲紋樣本基于對比獲取后,可以記錄特征參數(shù)差值。
現(xiàn)階段,刑事訴訟活動當中可以廣泛應用聲紋鑒定技術實現(xiàn)聲音資料的查證等。基于此,本文對面向“互聯(lián)網(wǎng)+”的聲紋識別技術進行了研究,并分析了其在刑事案件偵破中的應用。
1 ?基于高斯混合模型的聲紋識別技術
高斯混合模型(GMM)為最近幾年使用的聲紋識別方法,該模型實際疊加了不同的高斯分布概率密度函數(shù),對特征矢量在概率空間分布情況進行表述,在聲紋識別時,每一個GMM代表一個說話的樣本。
1.1 ?高斯混合模型簡介
1.1.1 ?GMM模型參數(shù)描述
基于GMM模型聲紋識別技術是針對訓練說話者集合內每一說話人對屬于自己身份特征概率分布進行構建的模型,說話人自身特征直接影響參數(shù)值,所以可以有效描述說話人身份特征。假設說話者概率密度函數(shù)形式均相同,但在函數(shù)中設定不同參數(shù)值,說話人模型此時可看作一組參數(shù)值,且符合概率密度分布形式。實證分析表明,說話人特征分布并非是完全的特征分布,然而這些分布近似接近高斯分布混合加權值,高斯混合模型即可得到。具體情況見式(1):
[PXλ=i=1MwibiX, ?i=1Mwi=1] (1)
式中:[biX]表示單個高斯混合模型的分量,其屬于高維高斯分布函數(shù);高維隨機語音特征向量用[X]表示;[biX]對應分量加權系數(shù)用[wi]表示;在高斯混合模型中,[M]表示分量個數(shù)。[biX],[wi]滿足式(2):
[biX=expX-utTΣ-1tX-ut22πD2Σt12] (2)
高斯混合模型由協(xié)方差矩陣、混合分量均值向量、混合權重共同組成,假定[λ]為參數(shù)對模型進行描述,因此,[λ=ωi,ui,Σt,i=1,2,…,n]。
1.1.2 ?GMM模型參數(shù)估計
因每個說話者在聲紋識別系統(tǒng)中均由其自身對應的高斯混合模型進行表述。在得到某一說話者訓練語音后,通過訓練對其模型進行構建。使用高斯混合模型對說話者模型進行構建,實質上是對GMM模型參數(shù)值進行估計,常用最大似然估計算法。對于已有[T]個特征向量[t=1,2,…,T],通過極大似然估計原理對其模型參數(shù)值進行確認。參數(shù)要使[T]個平均概率獲得最大值,即對數(shù)似然函數(shù)[L]最大,見式(3):
[log pXλ=t=1Tlog pxtλ] ? (3)
基于最大似然準則,即ML估計GMM參數(shù)值,通過EM迭代算法進行計算,可獲得模型均值[u′i],權重[w′i],方差[σ][′2i]的計算公式,具體如下:
[w′i=1nj=1npixj,λ]
[u′i=j=1nxjpixj,λj=1npixj,λ] (4)
[σ][′2i=j=1nxj-u′i2pixj,λj=1npixj,λ]
式中:[pixj,λ]表示第[i]個混合分量后驗概率,參數(shù)集合及似然函數(shù)[pxλ]間包含一種比較復雜的非線性函數(shù)關系,通過常規(guī)方法不容易找到極大點。參數(shù)值[λ]可通過EM算法進行迭代求取。EM算法是從初始化模型開始,估計獲取一新模型參數(shù)[λ],且滿足[pxλ≥pxλ]。
1.1.3 ?模型參數(shù)初始化
在獲取GMM模型前,對模型參數(shù)進行初始化,在構建高斯混合模型時,初始化算法包括[K]均值算法、隨機初始化算法。[K]均值算法主要使用樣本先驗概率分布知識,效果較好,本文選擇均值算法對GMM模型參數(shù)進行初始化。對語音數(shù)據(jù)進行規(guī)整,同時得到滿足方差最小標準的[K]個聚類。
算法實現(xiàn)流程如下:
1) 對不同樣本進行劃分,形成[k]個互不相交子集,通過計算獲得每個子集均值[m1,m2,…,mk]及[Je],且第[i]個子集有[N]個樣本點,假定第[i]個子集為[Si],其中,[N=i=1kNi],[mi=1Nx∈Six],[Je=i=1kx∈Six-mi2],[Je]表示誤差準則,其表示[k]個聚類中心[m1,m2,…,mk],[k]個樣本子集[S1,S2,…,Sk]可形成總平方誤差,準則下最優(yōu)結果及誤差平方使[Je]極小聚類;
2) 隨機進行一個樣本[x]的指定,使[x∈Si];
3) 如果存在[M=1],則轉向步驟2),否則繼續(xù);
4) 計算[ρj]值:
[ρj=NjNj+1x-mj2, ? ?j≠iNjNj-1x-mj2, ? ?j=i] ? ? (5)
5) 對于每一個[j=1,2,…,k],如果有一個[tt≠i]存在,使得[ρt<ρi],則將[x]由[Si]轉換到[St]中;
6) 再次計算[mj],[mt],同時對[Je]進行修改;
7) 若[Je]在幾次迭代中無改變,則運算停止,否則轉到步驟2)。
在EM算法初始化運算時,通過[k]均值算法可將EM算法迭代速度提高,尤其是對于聚類海量數(shù)據(jù)則具有更加顯著的效果。
1.1.4 ?基于GMM的說話人確認
在進行基于GMM的聲紋確認時,進行語音前端處理,并對特征進行提取,在訓練時,使用訓練語音特征進行GMM聲紋模型的構建。測試時,讓測試語音特征參數(shù)和已知身份的聲紋模型進行匹配,并獲得一個相似度評分,由某話者模型對語音向量[O]進行測試,并將概率評分[pλO]輸出,通過此評分和閾值比較對確認結果進行獲取。[pλO]為GMM模型輸出概率,因[pλO]無法通過計算獲取,可將聲紋確認看作是一個假設檢驗問題,也就是對測試語音而言,其是目標說話人(H0)獲冒認者(H1)中的一個進行選取,說話人確認中評分算法采用似然比。似然比是在冒認者模型輸出的概率中,由目標說話者模型輸出的待識語音[O]概率所占比值。參數(shù)表征目標說話人模型為[λ],參數(shù)表征冒認者模型為[λH1];在模型[λ]中,[pOλ]表示待識語音參數(shù)向量[O]輸出概率;在[λH1]條件下,[pOλH1]表示待識語音參數(shù)向量[O]輸出概率,因此似然比為[LO=][pOλpOλH1],通常使用對數(shù)似然比方法,記為[LO=logpOλpOλH1=]
[log pOλ-log pOλH1]。
本研究將時間歸一化方法應用到對數(shù)似然比式中,這樣語音長度對似然比函數(shù)的影響可削弱,具體通過公式[LO=1Tlog pOλ-log pOλH1]實現(xiàn),其中,[T]表示測試語音長度或幀數(shù)。對數(shù)似然可使不同說話人間的可區(qū)分性增多,輸出評分分布動態(tài)范圍得到削弱,聲紋確認系統(tǒng)對閾值可依賴性減小。
1.2 ?高斯混合通用背景模型
1.2.1 ?模型提出
高斯混合模型存在不足,相對而言,高斯混合通用背景模型(GMM?UBM)使用性能比較優(yōu)良,可實現(xiàn)聲紋識別。用戶在現(xiàn)實應用中提供的訓練語料有限,通常情況下,訓練不能太充分。因而,不能將GMM模型高斯混合數(shù)目取很高,但在識別過程中,對混合度要求比較高;在訓練過程中,UBM需要的背景語音量比較大,因而可獲得充分訓練,獲得的混合量比較高。在說話人模型自適應時,可對UBM中同訓練語音特征少量的相似高斯分量部分進行修改,因UBM由大量背景語音訓練得到,通常情況下,其能很好地將冒充者的平均特征分布情況反映出來,因此,GMM?UBM能對用戶集合外的語音進行較好適應。
在聲紋識別過程中,關鍵步驟是選擇閾值。在GMM?UBM模型匹配之中,目標說話人模型和UBM得分的比值形式是輸出的結果,因而比值形式可大幅削弱最終似然函數(shù)評分對閾值選擇的影響。在一定程度上,GMM?UBM的判別性能更優(yōu)秀。
1.2.2 ?基于GMM?UBM模型的聲紋識別系統(tǒng)
目標說話人模型在基于GMM聲紋確認系統(tǒng)中通常僅由目標說話人自身訓練語料獲得,當目標說話人訓練數(shù)據(jù)較少時,說話人模型參數(shù)估計準確性則較差。在將自適應算法引入構建目標聲紋模型后,根據(jù)待測目標說話者訓練語料,通過背景模型(UBM),利用最大后驗概率算法,經過自適應訓練可得到目標說話人聲紋模型,這就是GMM?UBM聲紋識別系統(tǒng)原理。
實際上UBM屬于一個龐大的GMM模型,其訓練語料為各信道條件全部不同待辨識說話人的語音,可對與所有說話人均無關的語音特征空間分布進行訓練描述。通過最大后驗概率算法,GMM?UBM模型訓練參數(shù)由UBM自適應得到,這可節(jié)約訓練時間,將訓練效率提高。該自適應方法分兩步:第一步是在UBM中,對目標說話人及每一個混合成分訓練語音統(tǒng)計分布進行估量計算;第二步是用一個語音數(shù)據(jù)集,將與新充分估計及舊充分估計相關的混合系數(shù)進行結合。調整UBM的各不同高斯分量,使其偏向訓練向量方向,默認目標說話人的訓練數(shù)據(jù)[X=x1,x2,…,xT]和初始化GMM模型參數(shù),通過計算,獲得訓練向量概率分布狀況,即式(6)所示的第[i]個混合分量:
[Prixt=wipixtj=1Mwjpjxt] ? ?(6)
然后通過[Prixt]、平均向量值、混合加權量、方差進行統(tǒng)計:
[ni=t=1TPrixtEix=1nt=1TPrixtxtEix2=1nit=1TPrixtx2t] ?(7)
最終將全部由訓練數(shù)據(jù)獲得的新充分統(tǒng)計數(shù)據(jù)量進行UBM更新,其第[i]個混合數(shù)據(jù)充分統(tǒng)計量為:
[wi=awiniT+1-awiwiγui=amiEix+1-amiuiσi=aviEix2+1-aviσ2i+u2i-u2i] (8)
式中:自適應系數(shù)為[awi,ami,avi],用于維持舊的、新的估計值間的平衡,用來控制平均值、權重大小、方差。定義[aρi=nini+rρ,ρ∈w,m,v]為自適應系數(shù),其屬于一個參數(shù)固定不變的因子。在GMM?UBM系統(tǒng)中,[awi=ami=avi=nini+r],其中,[r]=16。
2 ?聲紋識別技術及其在刑事案件偵破中的應用
數(shù)字聲紋識別技術應用于刑事案件偵破工作需滿足一定條件,在實現(xiàn)聲紋采樣前,需排除周圍嘈雜環(huán)境,確保錄音環(huán)境的穩(wěn)定,錄音采樣方式分為兩種,分別是自由交談和聽說。前一種方式在使用過程中,要求對方不知情,否則將會大大影響發(fā)音效果;后一種方式在使用時,要引導對方所說的語句與樣本相同。
在鑒定之前,需要完成相應的案件檢材審查環(huán)節(jié),確保語音是連續(xù)穩(wěn)定的。沒有剪輯的檢材必須通過濾波處理,從而實現(xiàn)語音信號的加強,同時,要保證聲紋鑒定基礎資料質量合格,數(shù)量足夠。因此,要建立犯罪情報系統(tǒng)語音庫,完成語音信息準確資料搜集。
在偵查誣陷、綁架、敲詐案件時,需對未知說話人性別、身高、年齡、體態(tài)等信息利用語音人身識別技術進行推斷,刻畫嫌疑人特征,縮小范圍。分析未知說話人的聲學特征,對其出生地、文化水平以及長住地等進行推斷確認。
2.1 ?實驗系統(tǒng)測試環(huán)境
在本研究中,北京瑞泰創(chuàng)新公司生產的ICETEK?DM6437?B?KIT為系統(tǒng)測試硬件;美國TI公司生產的TMS320DM6437為主芯片;仿真設備為ICETEK?XDS560USB仿真器、5 V直流電源、TIXDS560連接電纜、USB連接線;顯示器為ICETEK?5100TFT;Microsoft Windows XP Professional為PC機平臺操作系統(tǒng),內存為3.25 GB,主頻為3.0 GHz。
2.2 ?實驗數(shù)據(jù)及系統(tǒng)描述
本次實驗選取某男子監(jiān)獄和女子監(jiān)獄犯罪人員各50名,分別建立GMM?UBM,GMM兩個聲紋識別系統(tǒng),特征參數(shù)提取為:預加重為1-0.95z-1,F(xiàn)FT點數(shù)為256,加窗為漢明窗,幀移為32 ms,幀長為32 ms,濾波器組及個數(shù)為梅爾三角濾波器(24個),特征向量為39維(13mfcc,13△mfcc,13△△mfcc)。在實驗中,在不同條件下選取GMM混合數(shù)兩個系統(tǒng)的識別率,實驗中所用高斯混合度分別為4,8,16,24,32,保持其他參數(shù)不變。
2.3 ?實驗結果與分析
加漢明窗處理圖如圖2所示,由圖2可知,在進行語音信號加窗后,在語音信號上,信號很長的一段語音被窗函數(shù)平滑滑動分成幀。在每次進行處理時,分析后再取下一段數(shù)據(jù)進行分析。
本文采用隨機背景下電話通道錄音對語音進行測試,如果改變訓練樣本人數(shù),使其數(shù)值分別為15人、20人、30人、35人時,通過三次隨機抽取的方式處理測試樣本,最終得到的測試結果如表1所示。
當樣本人數(shù)分別為15人、20人、30人、35人時,測試結果見表2。
表2 ?選取不同人數(shù)時的識別情況
[樣本人數(shù) 識別正確次數(shù) 識別率 /% 15 15 100 20 19 95 30 24 83.3 35 28 80 平均 89.6 ]
在測試隨機抽取的一組語音時,系統(tǒng)均具有較高的識別成功率,在進行不同人數(shù)測試時,隨著樣本人數(shù)的增加,系統(tǒng)識別率會有少許降低,但平均識別率較高,為89.6%,因此,系統(tǒng)識別率總體上比較理想。
表3為不同混合度兩個系統(tǒng)的識別率,由表3可知,在其他條件相同,高斯混合度不同時,與GMM系統(tǒng)相比,GMM?UBM系統(tǒng)具有較高的識別率。隨著混合度的增加,GMM系統(tǒng)識別率隨之減小,而GMM?UBM系統(tǒng)識別率隨之增大。
3 ?結 ?論
本文對面向“互聯(lián)網(wǎng)+”的聲紋識別技術進行研究,并分析了其在刑事案件偵破中的應用,得出如下結論:
1) 基于GMM?UBM聲紋識別確認系統(tǒng),對GMM?UBM模型構建方法進行詳細描述,研究模型參數(shù)最大后驗概率算法、估計期望最大化算法、參數(shù)訓練和識別過程。
2) 對基于GMM?UBM的聲紋識別系統(tǒng)進行設計,利用對比實驗的方法,分別驗證在相同條件下GMM建模方法、GMM?UBM建模方法的識別效果。
3) 在測試隨機抽取的一組語音時,系統(tǒng)均具有較高的識別成功率,在進行不同人數(shù)測試時,隨著樣本人數(shù)的增加,系統(tǒng)識別率會有少許降低,但平均識別率較高,為89.6%;與GMM系統(tǒng)相比,GMM?UBM系統(tǒng)具有較高的識別率,隨著混合度的增加,GMM?UBM系統(tǒng)識別率隨之增大。
參考文獻
[1] 趙成輝,楊大利.基于聲紋識別技術的移動通信監(jiān)聽方案[J].北京信息科技大學學報(自然科學版),2015,30(1):59?65.
[2] 劉弘胤.AI賦能下的聲紋識別技術在公共安全領域的深度應用[J].中國安防,2019(6):60?64.
[3] 丁冬兵.TL?CNN?GAP模型下的小樣本聲紋識別方法研究[J].電腦知識與技術,2018,14(24):177?179.
[4] 田秀麗,黃永平.關于語音個人身份優(yōu)化識別建模仿真研究[J].計算機仿真,2016,33(10):403?408.
[5] 司向軍.基于Android的聲紋識別和語音識別的設計[D].南京:東南大學,2017.
[6] ZWEIG G. Speech recognition with segmental conditional random fields [J]. Optical engineering, 2016, 5(6): 177?182.
[7] 于嫻,賀松,彭亞雄,等.基于GMM模型的聲紋識別模式匹配研究[J].通信技術,2015,48(1):97?101.
[8] NODA K, YAMAGUCHI Y, NAKADAI K, et al. Audio?visual speech recognition using deep learning [J]. Applied intelligence, 2015, 42(4): 722?737.
[9] 曹海濤.基于時頻域分析的音頻信號濾波與識別技術研究[D].廣州:廣州大學,2016.
[10] 葉勇.漢語語音識別系統(tǒng)中關鍵詞檢測技術的研究[D].北京:北京郵電大學,2015.