申小虎金 恬張長珍萬榮春
(1 江蘇警官學院 江蘇 南京 210031;2 江蘇省公安廳物證鑒定中心 江蘇 南京 210031)
咳嗽音特征在話者識別中參考價值的相關研究
申小虎1金 恬2張長珍1萬榮春1
(1 江蘇警官學院 江蘇 南京 210031;2 江蘇省公安廳物證鑒定中心 江蘇 南京 210031)
為確定聲紋鑒定中咳嗽音聲紋特征的應用價值,錄制30名條件相近、身體健康發(fā)音人的咳嗽聲各3組樣本。將樣本輸入OTExpert法庭語音分析工作站,并對各樣本的寬帶語譜、LPC頻譜、MFCC倒譜、信號能量譜圖進行分析比較。相同個體樣本的咳嗽音與不同個體的咳嗽音相比較,在共振峰頻率與過渡形態(tài)、基頻參數(shù)、音強曲線的差異性,前者明顯小于后者,但相比普通語音個體穩(wěn)定性較弱。單一咳嗽音特征在話者識別中具有參考價值,但不能作為同一認定的標準。
咳嗽音 共振峰 基頻 音強 話者識別
日常生活中我們經(jīng)常遇到僅從咳嗽音就能判斷發(fā)音個體的情形。在實際案例中也存在利用背景噪聲中潛在的咳嗽音、清喉音、清鼻音等不帶有文字信息的聲紋片段縮小偵查范圍,指明工作方向從而快速偵破案件。針對上述情況,從理論角度上判斷咳嗽音特征是話者識別中是否具有參考價值,開展此項研究。
咳嗽音是一種聲道的應激性反應,發(fā)音原理同普通語音聲紋信息相同,都是聲門氣流激勵聲道,最后通過口腔輻射。典型咳嗽語音信號從產(chǎn)生到結束持續(xù)時間一般不超過1秒,其過程大致可分為聲門打開階段與聲門關閉階段。
聲門打開階段期間,聲帶由迅速通過的氣流快速打開,聲門下的高壓空氣快速排出時帶動聲帶振動,并進入平穩(wěn)階段,此階段為稱為咳嗽音的爆發(fā)期,能量最高。如圖1(A)(B)中的區(qū)域Ⅰ所示。聲門關閉階段期間,由于收尾氣流在聲帶回位時引起聲帶周期性振動,并隨著氣流的減緩聲門最終關閉,波形能量逐漸減弱。如圖1(A)(B)中的區(qū)域Ⅱ所示。由于咳嗽發(fā)音方式不同,有的咳嗽音由于收尾氣流在聲帶回位時聲帶的周期性振動產(chǎn)生波形的突起部分,這部分也可屬于聲門關閉階段,稱為咳嗽音的第二聲[1]。如圖1(A)的區(qū)域Ⅲ所示。
圖1 咳嗽音時域波形圖的兩種形態(tài)
2.1 實驗設備
實驗硬件設備為研華科技610H工控機,CPUi7-4790 3.60G雙核,內(nèi)存16GB。采用Gnome-p錄音設備進行咳嗽音錄音采集,利用Adobe Audition CS5.5軟件對其進行剪輯,消除空白音域,并歸檔建庫。最后使用俄羅斯法庭語音分析系統(tǒng)OT-Expert 5.1對采集語音的共振峰特性、基頻參數(shù)、信號能量等指標進行測量對比。
2.2 樣本取樣
選擇30名20~22歲處于健康狀態(tài)下(非感冒期間) 的男性個體20名,女性個體10名,利用Gnome-P錄音設備在聲紋錄音室,根據(jù)司法部錄音資料鑒定規(guī)范[2]進行咳嗽音錄音,每名個體不間斷連續(xù)咳嗽3次。
2.3 實驗組織方法
對上述咳嗽音信號的共振峰的頻率、咳嗽音的共振峰過渡形態(tài)、基頻參數(shù)、短時能量等特性進行提取計算,選取幾種特征顯著的樣本,分別討論相同個體咳嗽音間的穩(wěn)定性與不同個體咳嗽音間的差異性。
從對30組個體咳嗽音的實驗對比中我們發(fā)現(xiàn),不同個體的咳嗽音在共振峰頻率與過渡形態(tài)、基頻參數(shù)、短時能量上不盡相同,有時會出現(xiàn)明顯的差異;而相同個體在上述參數(shù)的差異性則不明顯。
3.1 個體咳嗽音間共振峰的頻率
根據(jù)咳嗽信號產(chǎn)生的生理機理,對相同個體的咳嗽音和不同個體的咳嗽音,在聲帶打開階段和關閉階段分別統(tǒng)計其共振峰頻率。由于咳嗽音共振峰曲線條紋沒有普通元音共振峰曲線條紋明顯,為了區(qū)別共振峰頻率差異,我們使用LPC頻譜得到共振峰曲線。因篇幅有限,這里僅列出不同個體間咳嗽音(聲門打開階段)的基頻曲線圖,如圖2所示。其中咳嗽音1為女性,2、3均為男性。從圖2我們可以看出,由于咳嗽音1為女個體發(fā)音,與元音發(fā)音的規(guī)律類似,各共振峰頻率略高于男個體咳嗽音2、3。
圖2 不同個體咳嗽音(聲門打開階段)LPC頻譜的共振峰曲線
為了更好地說明同一個體咳嗽音的穩(wěn)定性與不同個體間的差異性,我們對男個體2、3咳嗽音與個體3的兩次咳嗽音的定量化統(tǒng)計分析結果進行整理,如表1、表2所示。可見不同個體間咳嗽音的F2、F3、F4在聲門打開階段和聲門關閉階段的頻率相對偏差大于相同個體下得到的相對偏差。這里由于篇幅的原因,沒有將30組相同個體咳嗽音的共振峰相對偏差列出,但需要指出的是相同個體的不同咳嗽音間存在共振峰相對偏差較大的情況。
表1 不同男性個體咳嗽音間共振峰統(tǒng)計
表2 相同男性個體咳嗽音間共振峰統(tǒng)計
3.2 個體咳嗽音的共振峰的過渡形態(tài)
共振峰的音節(jié)間過渡形態(tài)具有人際差異性,因而聲紋鑒定中具有一定的利用價值[3]。由于咳嗽音信號受到咳嗽爆發(fā)湍流的影響,聲紋共振峰曲線與基頻條紋沒有普通語音信號那么明顯,我們從錄取的數(shù)據(jù)庫中選取湍流影響不明顯的咳嗽音作為本次實驗的樣本,進而研究這些頻域特征保持完好咳嗽音的各項性能指標對同一性認定的價值。
圖3中(A)、(B)、(C)為同一人發(fā)出的3次咳嗽聲,可以看出從聲門打開到穩(wěn)定階段再到最后的聲門關閉,F(xiàn)1共振峰均有先升后降的趨勢,而且3個階段共振峰過渡形態(tài)平滑自然。而圖4中(B)、(C)共振峰則沒有(A)先升后降的趨勢,同時(C)出現(xiàn)了間斷過渡。間斷過渡產(chǎn)生的原因是在咳嗽發(fā)聲過程的交界處,舌位發(fā)生了突變,從而造成共振峰曲線的間斷。
3.3 個體咳嗽音間的基頻參數(shù)
利用MFCC倒譜對30組咳嗽聲音的基頻參數(shù)進行統(tǒng)計。限于篇幅原因,僅列出兩組不同個體與相同個體的咳嗽音間的基頻參數(shù)對比表,如表3、表4所示。同共振峰頻率類似,不同個體的基頻相對偏差要比相同個體下差異較大。
基頻反映聲帶振動速度,基頻最小值與基頻最大值分別是從倒譜上提取的數(shù)值中的最小及最大數(shù)值。通過對30組基頻最小值的統(tǒng)計對比發(fā)現(xiàn),基頻最小值的相對偏差在不同個體與相同個體間的差異率區(qū)別明顯并相對穩(wěn)定。這是由于基頻受音調(diào)的影響,最大值會出現(xiàn)高低變化,而基頻最小值不易于偽裝具備穩(wěn)定性。因此基頻最小值是基頻參數(shù)中最有價值的參考數(shù)據(jù)。同時實驗數(shù)據(jù)中咳嗽音的基頻頻率要比普通元音發(fā)音的基頻頻率高,這是由于咳嗽音的發(fā)音方式近似緊喉嗓音(Creaky Voice),聲帶在這種發(fā)音方式下是處于緊繃狀態(tài),只有很小一部分在振動,因此基頻要比普通元音發(fā)音的語音更高。
圖3 相同個體的咳嗽音共振峰寬帶語譜
圖4 不同個體的咳嗽音共振峰寬帶語譜
表3 不同個體(男)咳嗽音間的基頻參數(shù)對比
表4 相同個體(女)咳嗽音間的基頻參數(shù)對比
3.4 個體咳嗽音間的即時能量(音強)
音強是語音的4要素之一,也是聲紋鑒定中重要特征之一[4]??人砸舻囊魪姺植急容^復雜,本實驗僅針對咳嗽期間的即時能量按時間方向的動態(tài)分布情況進行了比較分析。圖5中的(A)、(B)、(C)是相同個體咳嗽3次所生成的音強曲線圖??梢钥闯?,從走勢上大致相同且均呈現(xiàn)兩端強中間弱的情況。這是由于聲門打開階段與聲門關閉階段所帶動的振動幅度大于穩(wěn)定期間的振動幅度所造成的。
圖5 相同個體的咳嗽音即時能量(音強)曲線
圖6 不同個體的咳嗽音即時能量(音強)曲線
圖6中(A)、(B)、(C)分別是不同個體咳嗽聲生成的音強曲線。從走勢上,(B)一直處于下降趨勢。(C)雖然也明顯具有兩端強中間弱的特征,但聲門打開階段保持時間明顯小于聲門關閉時間。
咳嗽音的共振峰頻率的發(fā)音機理與普通語音音節(jié)發(fā)音機理相同,都是通過發(fā)音器官的振動發(fā)出聲音,具有相同的數(shù)據(jù)模型,因此大部分音節(jié)前4階(F1-F4)共振峰頻率變異系數(shù)范圍不會超過12%[5]。表1、表2中的實驗數(shù)據(jù)基本滿足相同個體與不同個體間咳嗽音識別所滿足的閾值。但30組相同個體中也存在相對偏差較大,與普通語音樣本比較存在個體穩(wěn)定性不高的情況。共振峰走勢的差異形成,一方面是由于不同個體由于聲帶和聲道等發(fā)音器官的不同,另一方面是由于咳嗽習慣帶來的發(fā)音器官運動過程所造成的。后者可以通過訓練改變發(fā)音器官運動幅度從而達到偽造的目的。
本次實驗結果表明基頻平均數(shù)值男女差距并不大。因為在元音的發(fā)聲過程中,男性個體的聲帶一般較女性個體的聲帶更加粗寬,因此男性語音的基頻一般較低。根據(jù)咳嗽音的生成機理,有時咳嗽的發(fā)聲沒有經(jīng)過聲門上系統(tǒng)的聲帶發(fā)音環(huán)節(jié),僅僅是根據(jù)咳嗽的發(fā)音習慣引起的聲門上系統(tǒng)口腔、鼻腔、唇腔等的變化帶來的咳嗽音基頻的不同,因此不能僅僅通過基頻判斷咳嗽音發(fā)聲個體的性別。
音強曲線分布的不同可能是咳嗽應激反應初始時,肺部呼出氣體量而造成的。由于個體咳嗽習慣不同,肺活量大小不同,聲門打開階段與聲門關閉時間因而也存在一定的差異。
以上結果表明,相同個體的咳嗽音在共振峰頻率與過渡形態(tài)、基頻參數(shù)、即時能量上有著與其他個體相比較存在一定的人際差異性。針對聲紋特征良好的咳嗽音,可以成為話者識別的輔助個體特征,在縮小偵查范圍上也具有一定的利用價值。但由于咳嗽音相比較普通語音,語音樣本片段較短、個體間的穩(wěn)定性相對較弱,所以不能僅從咳嗽音進行同一認定。除咳嗽音外,錄音片段中時常出現(xiàn)的清嗓音、清喉音等非言語信息是否也具有同咳嗽音一樣的認定價值,這是下一步研究的內(nèi)容之一。在社會應用方面,可以拓展到針對語音障礙的殘障人士身份識別研究方向。
[1]趙青.咳嗽音特征提取及在身份識別中的應用研究[D].南京:南京郵電大學,2009:8-15.
[2]中華人民共和國司法部司法鑒定管理局.司法部錄音資料鑒定規(guī)范:SF/Z JD0301001-2010[S/OL].北京:司法部司法鑒定技術研究所,2010:2[2010-04-07]. http://www.moj.gov.cn/tongyong/download/moj/11lyz ijd.pdf.
[3]王英利.聲紋鑒定中普通話音素間過渡方式特征研究[J].證據(jù)科學,2011(1):100-105.
[4]王英利,潘自勤,常藍山.聲紋鑒定中的音強特征研究[J].中國司法鑒定,2011(5):19-22.
[5]申小虎,金恬,等.濾波降噪對語音同一認定的影響[J].警察技術,2015(6):32-35.
(責任編輯:孟凡騫)
D918.4
A
2095-7939(2016)04-0065-04
10.14060/j.issn.2095-7939.2016.04.014
2015-12-20
江蘇高校優(yōu)勢學科建設工程資助項目(PAP);江蘇警官學院科研項目(編號:2016SJYZQ01);江蘇省教育廳資助項目(編號:2014SJB246)。
申小虎(1981-),男,山東青州人,江蘇警官學院刑事科學技術系工程師,主要從事語音信號處理與視聽資料檢驗研究。