国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

音量增大時語音的長時共振峰分布特征變化及其對聲紋鑒定的影響

2017-07-31 23:58賈麗文
關(guān)鍵詞:聲紋尖峰音量

賈麗文

(山西警察學院,山西太原030012)

音量增大時語音的長時共振峰分布特征變化及其對聲紋鑒定的影響

賈麗文

(山西警察學院,山西太原030012)

長時共振峰分布特征是近年來才開始使用的研究方法。目前尚未廣泛的應用于聲紋鑒定實務。本文將采用長時共振峰分布特征來探究聲紋鑒定實務中經(jīng)常遭遇的一種情形,即檢材語音和樣本語音音量不同的情況。實驗用Lombard效應法增大語音,對30位發(fā)音人在正常和85分貝噪音兩種不同的條件下進行錄音??疾扉L時共振峰分布特征的變化,以期對聲紋鑒定實務提供幫助。

聲紋鑒定;音量增大;Lombard效應;長時共振峰分布

對語音音量增大時語音的聲學參數(shù)的研究可謂不少,但應用長時共振峰分布特征這一聲學參數(shù)的可謂鳳毛麟角。長時共振峰分布特征是近年來才開始使用的研究方法。它最早由Nolan和Grigoras提出,該方法不是分析具體的目標元音,而是提取一整段語音中的全部元音信息進行分析,得出每條共振峰的整體分布情況。因此,這種方法取名為長時共振峰分布法(Long-Term Formant Distribution,縮寫為LTF)。該分布特征不僅可以概括發(fā)音人聲道的整體共鳴特點,還能反映出發(fā)音人一定的發(fā)音習慣,可以用于區(qū)分不同發(fā)音人。具有高效省時、便捷快速以及普適性的優(yōu)點。尤其是對于不同種的語言,只要能夠獲取大量語段得到長時的元音就可以觀測其LTF。也有學者開始將這一特征應用到話者自動識別系統(tǒng)中。國外學者Jessen研究長時共振峰特征在音量增大時的變化,得到的結(jié)論是第一共振峰的長時共振峰值均有所增加,用T檢驗可見顯著性差異。第二共振峰和第三共振峰的變化均無統(tǒng)一的規(guī)律,用T檢驗不可見顯著性差異。但是該文只是比較了長時共振峰的均值,并沒有考察長時共振峰的分布特征。本文將考察音量增大時嘗試共振峰的分布特征。

1 實驗設(shè)計

1.1發(fā)音人

發(fā)音人為30名成年男性,無喉部疾病及手術(shù)歷史,說標準的普通話。發(fā)音者均來自北京大學和中國政法大學的本科生和碩士研究生,年齡在19歲~26歲之間。

1.2錄音內(nèi)容

發(fā)音內(nèi)容為短文為《北風與太陽》。

1.3錄音設(shè)備

本文實驗樣本均在北京大學語言學專業(yè)錄音室錄制。聲卡型號為創(chuàng)新(Creative)SB X-Fi Surround 5.1 Pro。使用百靈達(BEHRINGER)XENYX 502調(diào)音臺。使用SONYECM-44B領(lǐng)夾式麥克風錄音,采樣頻率為22 kHz,精度為16位。錄音軟件為Cool Edit Pro 2.1。

1.4語音增大的方法

本實驗所采用的語音增大的方法是Lombard效應法。Lombard效應是基于人類都有Lombard反射。Etienne Lombard在1909年第一個發(fā)現(xiàn)人們在環(huán)境嘈雜的時候,說話聲音會變大。因此就將這種人的反射稱為Lombard效應。Lombard效應法的通常做法是通過頭戴式耳機給發(fā)音者加噪聲,從而使話者的聲音被動增大。

本實驗采用Lombard效應法的具體做法是使發(fā)音者頭戴加有噪聲的耳機。噪音的聲壓級保持不變,為85分貝的白噪。噪音由Praat軟件生成。由電腦千千靜聽軟件播放。

1.5錄音過程

錄音時,保持麥克風與發(fā)音者之間的距離為50 cm。整個錄音過程中發(fā)音人的位置保持不變。發(fā)音詞表在發(fā)音人正對面,錄制過程中,發(fā)音人不能出現(xiàn)前探、后仰、左右搖擺等情形,發(fā)音過程中要保證發(fā)音人的嘴與麥克風之間的距離不變。在噪音條件下發(fā)音時要求發(fā)音者的發(fā)音能夠盡量使自己聽到自己的發(fā)音內(nèi)容。

1.6聲學測量

本文中,聲學分析均使用軟件Wavesurfer。

使用Wavesurfer軟件將發(fā)音者所朗讀的短文《北風與太陽》中的無聲部分、輔音、鼻音等全部切除,留下共振峰結(jié)構(gòu)明顯的元音。剪切完成后的語音保持在10 s~15 s,具體時長信息見表1。

表1 短文剪切前后時長對比

長時共振峰分布提取采用寬帶語圖,提取四條共振峰。窗口類型為哈明窗。下采樣頻率為10000 Hz。LPC階數(shù)為12。

2 實驗結(jié)果

本實驗中主要考察四個共振峰長時的均值和分布形態(tài),第一、二、三、四共振峰的長時分布分別記作LTF1、LTF2、LTF3、LTF4。

2.1長時共振峰均值

四條共振峰的長時均值見圖1,T檢驗結(jié)果見表2。

四張圖按照自上而下的順序分別為第一、二、三、四共振峰的長時均值統(tǒng)計圖。在單張圖中橫坐標表示發(fā)音者順序,依次為1號~30號發(fā)音人??v坐標表示共振峰的頻率值(單位:Hz)。圖中黑色條形表示發(fā)音者在正常條件下的共振峰值,灰色條形表示發(fā)音者在Lombard效應下,即在噪聲環(huán)境下音量增大時的共振峰值。

表2 四條共振峰的長時均值的T檢驗結(jié)果

圖1 四條共振峰長時均值統(tǒng)計圖

由統(tǒng)計圖可見:LTF1在音量增大時均有所升高,T檢驗結(jié)果為顯著性相關(guān)。LTF2、LTF4在音量增大時均有升有降,沒有統(tǒng)一的規(guī)律,但二者之間仍有顯著性差異。并且,對于LTF2均值而言,其變化的幅度非常小,大部分占正常發(fā)音時共振峰頻率值的0%~3%,只有一個人達到了8%??梢哉fLTF2均值在音量增大時基本沒有變化。LTF3在音量增大時有升有降,沒有統(tǒng)一的規(guī)律,但P值為0.799,說明音量增大時,LTF3沒有顯著性差異。

2.2共振峰長時分布形態(tài)

共振峰長時分布形態(tài)的具體做法是對所提取的四個共振峰的長時頻率值進行頻數(shù)分布,即一定頻率范圍內(nèi)出現(xiàn)的次數(shù),可以得到四條共振峰的長時分布特點。

(1)LTF1分布形態(tài)

圖2 1號發(fā)音者LTF1分布圖

以1號發(fā)音者為例,對其LTF1進行統(tǒng)計,結(jié)果如圖2所示。圖2上圖為發(fā)音者在正常條件下所得LTF1的分布特征,下圖為發(fā)音者在Lombard條件下,即音量增大時的LTF1的分布特征。每一圖中,X軸為統(tǒng)計的頻率范圍(單位:Hz),Y軸為頻數(shù),即出現(xiàn)的次數(shù)。由圖2可見LTF1在正常條件下和音量增大時的差別較大。

在正常條件下,LTF1先呈現(xiàn)緩坡上升,在575Hz~625 Hz時達到頂峰,之后極速下降,在大于925Hz的范圍內(nèi)已經(jīng)極少有分布。而在音量增大時,LTF1先呈現(xiàn)急速上升,在525 Hz~740 Hz的范圍內(nèi)均勻分布,無明顯“尖峰”,之后急速下降,在925 Hz~1025 Hz的范圍內(nèi)仍有分布。LTF1在正常和音量增大時相差較大的情形不僅僅出現(xiàn)在1號發(fā)音者身上,對于所有的發(fā)音人都出現(xiàn)了此現(xiàn)象??梢?,發(fā)音人在正常和音量增大時的LTF1截然不同。

圖3 不同話者兩種條件下LTF1的分布形態(tài)

圖3以30人中的4人為例,可見LTF1不僅人各不同,其在兩種條件下的變化也不盡相同。在圖3中X軸為統(tǒng)計的頻率范圍(單位:Hz),Y軸為頻數(shù),黑色線表示發(fā)音者在正常條件下的共振峰分布,灰色線表示發(fā)音者在噪音條件下、即音量增大時的共振峰分布。對于左上圖的發(fā)音人,其在正常和音量增大時的LTF1是相似的,整體上體現(xiàn)出噪音量增大時的LTF1比在正常環(huán)境下的LTF1要整體向右移動4個統(tǒng)計頻率范圍。對于右上圖的發(fā)音人,其在正常條件下的共振峰分布十分平穩(wěn)不見“尖峰”,但在音量增大時卻出現(xiàn)了集中的“尖峰”。同樣,左下圖的發(fā)音人,在正常條件下的共振峰分布有兩個“尖峰”,但是在音量增大時卻只有一個。而右下圖的發(fā)音人,則呈現(xiàn)出正常和音量增大時共振峰分布相似的情形??傊瑢τ谡:鸵袅吭龃髸rLTF1的變化特征并無明顯規(guī)律可循。

(2)LTF2分布形態(tài)

比較LTF1,LTF2的分布形態(tài)在音量增大時的變化則很有規(guī)律。對于30位發(fā)音人筆者得到了相同的結(jié)論。即音量增大時的LTF2較正常條件下并無明顯的變化。圖4以30人之中的兩人為例來表現(xiàn)這種規(guī)律。

圖4 不同話者的LTF2分布特征

在圖4上圖中發(fā)音者在正常和音量增大兩種狀態(tài)下的LTF2均有兩個“尖峰”,且第一“尖峰”區(qū)域均集中在1400 Hz~1600 Hz范圍內(nèi),第二“尖峰”區(qū)域均集中在1800 Hz~1900 Hz的范圍內(nèi)。整體形態(tài)相似并且均在2450 Hz~2600 Hz的范圍內(nèi)達到一個小“尖峰”。在下圖中,發(fā)音者在正常和音量增大時的LTF2十分相似。均在1250 Hz~1450 Hz的范圍內(nèi)達到“尖峰”。對于同一發(fā)音者,LTF2在正常和音量增大時的分布十分相似,但是不同的發(fā)音者的LTF2相差很大。由圖4也可證實。上圖發(fā)音者有“尖峰”較多且有兩個相對集中的“尖峰”區(qū)域,而下圖發(fā)音這只有一個“尖峰”區(qū)域,且“尖峰”所在區(qū)域的頻率值也不盡相同。上圖發(fā)音者的LTF2的頻率分布600 Hz~2925 Hz,而下圖發(fā)音者僅從650 Hz~2550 Hz。

(3)LTF3分布形態(tài)

筆者對于30位發(fā)音人LTF3的統(tǒng)計研究也得到了相同的結(jié)論。以30人中的2人為例。結(jié)果見圖5。

圖5 不同話者的LTF3分布特征

由前人的研究可得,LTF3的分布特征為有一個“尖峰”,這一特征無一例外的適用于所有的人。對于音量增大時與正常條件下LTF3的差別,我們所得出的結(jié)論是在噪音條件下的LTF3的“尖峰”均高于在正常條件下的“尖峰”,換言之,在音量增大時頻率表現(xiàn)的更為集中。由圖5可見,在音量增大和正常兩種條件下,發(fā)音者的LTF3均出現(xiàn)了一個“尖峰”,且“尖峰”的集中區(qū)域在同一區(qū)域。音量增大時的LTF3并未出現(xiàn)左移或者右移的現(xiàn)象,而是比正常條件下的“尖峰”集中范圍內(nèi)更高。僅從LTF3的分布形態(tài)而言,我們似乎很難區(qū)分不同的發(fā)音人,但事實上,區(qū)分不同發(fā)音人卻異常簡單,因為不同話者的“尖峰”所在的頻率區(qū)域是不同的。如圖5所示,上圖的發(fā)音者“尖峰”集中在2500 Hz~2750 Hz,且頻率分布在2125 Hz~3875 Hz的范圍內(nèi),而下圖發(fā)音者“尖峰”集中在2300 Hz~2500 Hz,頻率分布在1600 Hz~3400 Hz的范圍內(nèi)。因此,LTF3對于話者同一的認定也有很大的價值。

(4)LTF4分布形態(tài)

第三和第四共振峰被認為在聲紋鑒定中較有價值,因為其穩(wěn)定性較強,個體差異也比較大。但是對于音量增大時LTF4卻不像LTF3那么理想。沒有統(tǒng)一的規(guī)律,但是比起LTF1而言,仍有一些趨勢值得研究和探討。

圖6 不同話者LTF4分布形態(tài)

圖6選取了30位發(fā)音人中的4位有代表性的發(fā)音人,其余發(fā)音人的規(guī)律大體相同。四圖分別為四位發(fā)音者的LTF4。由圖6不難發(fā)現(xiàn)以下幾點。首先,對于同一發(fā)音者而言其在正常和音量增大時的LTF4具有很大的差別。在左上圖中,發(fā)音人在正常條件下的LTF4呈現(xiàn)一個較小的“尖峰”,然后在4050 Hz~4150 Hz的頻率范圍內(nèi)達到一個較高的“尖峰”;而音量增大時LTF4先達到較高的“尖峰”之后又出現(xiàn)較小的“尖峰”,兩種狀態(tài)下的LTF4呈現(xiàn)出軸對稱的關(guān)系。在右上圖中,正常狀態(tài)下,LTF4分布平緩,小峰較多并無“尖峰”;而在音量增大時3000 Hz~3200 Hz的范圍內(nèi)出現(xiàn)較為集中的“尖峰”。在下方兩圖中,也明顯可見兩狀態(tài)下LTF4的差別。其次,不同發(fā)音者無論在正常條件下還是音量增大時的LTF4分布均不相同。在正常條件下有的發(fā)音者出現(xiàn)兩個較為明顯的“尖峰”,如左上圖和下方兩圖,但是兩個“尖峰”的分布形態(tài)各不相同,有的前者較高有的后者較高;而有的發(fā)音者則未見明顯的“尖峰”,如右上圖。在音量增大時,有的發(fā)音者呈現(xiàn)出一個明顯的“尖峰”,而有的發(fā)音者則呈現(xiàn)出兩個“尖峰”。

雖然LTF4呈現(xiàn)出很多的差別,但是我們依舊從中發(fā)現(xiàn)了兩個非常有趣的規(guī)律或者趨勢。第一,發(fā)音者在正常和音量增大時的“尖峰”的集中頻率相同。只是“尖峰”的形態(tài)有所不同。例如,在左上圖中,發(fā)音者無論在在正常還是音量增大兩種狀態(tài)下,其“尖峰”均集中在3375 Hz~3475 Hz和3975 Hz~4150 Hz的范圍之內(nèi)。只是“尖峰”的形態(tài)不同,在正常條件下時兩個范圍的“尖峰”先小后大,而在音量增大時下大后小。在右下圖中,正常和音量增大時的“尖峰”均集中在3250 Hz~3450 Hz和3750 Hz~3950 Hz兩個頻率范圍之內(nèi)。在形態(tài)上,3250 Hz~3450 Hz的“尖峰”的形態(tài)相似,而3750 Hz-3950 Hz的“尖峰”則在音量增大時要比在正常條件下大。第二,發(fā)音者在正常和音量增大時的LTF4有部分是重合的。換言之,雖然從總體上看兩種狀態(tài)下的LTF4是不同的,但是卻有部分LTF4重合或者相似。例如,在左上圖中,在大于3675 Hz的頻率范圍內(nèi),LTF4的分布形態(tài)相似,均為平穩(wěn)上升然后產(chǎn)生一個“尖峰”。在右上圖中,在大于3300 Hz的頻率范圍內(nèi),LTF4的分布形態(tài)近乎重合。在左下圖中,在3050 Hz~3650 Hz的頻率范圍內(nèi),LTF4的分布形態(tài)相似。在右下圖中,在2950 Hz~3650 Hz的頻率范圍內(nèi),LTF4分布形態(tài)相似,均達到“尖峰”且“尖峰”的頻數(shù)也十分相近,均在160上下。這種趨勢,有利于我們更好的認識LTF這一特征,當然,對于我們進行話者的同一認定有一定的輔助作用。

3 實驗分析

LTF所反映的是話者共振峰分布的平均狀態(tài)。對于同一話者不同的語料所得到的LTF的形態(tài)是相同的。不同話者的LTF的形態(tài)具有明顯的差別。因此,LTF在聲紋鑒定中具有重要的鑒定價值。

在發(fā)音者音量增大的時候LTF也發(fā)生了相應的變化。這種具體的變化表現(xiàn)為:第一、共振峰的長時均值呈現(xiàn)出:在音量增大時,LTF1均值升高,LTF2、LTF3、LTF4的長時均值均有升有降。第二、在音量增大的時候,LTF1的分布未出現(xiàn)明顯的變化規(guī)律,不同的話者呈現(xiàn)出的變化不盡相同;LTF2的分布與音量增大前的長時共振峰分布相吻合;LTF3的分布與音量增大前的長時共振峰分布在同一頻率范圍出現(xiàn)“尖峰”并且音量增大時的“尖峰”要明顯高于音量未增大時的高峰;LTF4的分布與音量增大前的長時共振峰分布形態(tài)部分重合,且對于不同的話者而言其重復的部分不盡相同。

為什么會出現(xiàn)長時共振峰分布形態(tài)上的變化?筆者認為這與不同元音共振峰的結(jié)構(gòu),以及不同元音增大時共振峰的變化息息相關(guān)。大部分研究認為,對于單個元音,音量增大時,第二和第三共振峰的變化均有升有降無統(tǒng)一規(guī)律。但是當元音集中,考察長時的共振峰分布時卻出現(xiàn)統(tǒng)一的變化規(guī)律。雖然這種規(guī)律目前尚無法從生理角度進行解釋,但是,這一特征卻有助于長時共振峰分布特征應用于聲紋鑒定實務。

4 結(jié)論與討論

首先,長時共振峰分布能夠反映更多的共振峰信息,應當成為聲紋鑒定所采用的測量參數(shù)。當語音音量增大時,第二、三共振峰長時分布形態(tài)所表現(xiàn)出的明顯規(guī)律可以為聲紋鑒定得出否定結(jié)論提供相應的依據(jù),可以為認定同一結(jié)論的得出提供相應的佐證。

其次,在語音音量增大時,第二、三共振峰長時分布形態(tài)都表現(xiàn)出明顯的規(guī)律。可為聲紋鑒定進行同一認定提供新的思路和方法。但是使用長時共振峰分布這一聲學特征來進行聲紋鑒定應當滿足一定的條件。第一,被檢驗的語料時長不宜過短。這也就是說,當檢材語音或者樣本語音的時長只有幾個單詞、一句話或者幾句話時,長時共振峰分布這一參數(shù)將不能夠使用。因為我們得不到能夠用來分析的長時元音的語段。國外學者研究顯示,剪切后的語段,即只有元音所組成的語段的時長應當滿足不小于10秒的條件。這一條件的提出是針對英語這一語種。由于漢語的復雜性以及目前尚未確定究竟多長的時間能夠獲得最良好的長時共振峰分布,因此,剪切后的語段不宜過短。第二,長時共振峰分布特征的應用對于語段的質(zhì)量要求較高。共振峰分布反映的是一種共振峰的形態(tài),因此,語音要能夠清晰地反映出共振峰的結(jié)構(gòu)。質(zhì)量差的語音,共振峰結(jié)構(gòu)不清晰,得到的共振峰的分布形態(tài)也是錯誤的。對原本的共振峰分布的形態(tài)產(chǎn)生掩蔽,做出的鑒定意見也是需要質(zhì)疑的。

最后,本實驗是在較為理想的實驗室環(huán)境下進行的。語音的錄制也采用較為優(yōu)良的錄音設(shè)備。但是在鑒定實踐中,語音的錄制設(shè)備花樣繁多,常常為手機或者錄音筆等。錄制設(shè)備的不同、信道的差異也會對語音的聲學參數(shù)分析帶來影響。這些變化雖未體現(xiàn)在本文中,但是也應當引起鑒定人員的重視。

[1]Nolan F,Grigoras C.A case for formant analysis in forensic speaker identification[J].International Journal of Speech Language and the Law,2005,12(2):143-173.

[2]曹洪林,孔江平.長時共振峰分布特征在聲紋鑒定中的應用[J].中國司法鑒定,2013,66(1):62-67.

[3]Jessen M,Becker T.Long-term Formant Distribution as a forensic-phonetic feature[J].Journal of the Acoustical Society of America,2010,128(4):2378.

[4]Kirchhuebel C.The effects of Lombard speech on vowel formant measurements[J].Journal of the Acoustical Society of America,2010,128(4):283-291.

Change of Long-term Formant Distribution and Its influence of Forensic Speaker Identification When the Volume Increases

JIA Li-wen
(Shanxi Police College,Taiyuan Shanxi,030012)

Long-term formant distribution is a research method that has been used in recent years.This method has not been widely used in forensic speaker identification.This paper will use long-term formant distribution to explore a situation which is often encountered in forensic speaker identification,that is the volume of voice and sample is different.Experiment used Lombard effect method to increase voice.Sound recordings were made by 30 persons under two different conditions:normal and 85 dB noise.The experiment will examine the change of long-term formant distribution,in order to provide help to forensic speaker identification.

forensic speaker identification;volume increase,Lombard effect;long-term formant distribution

O572.25

A

〔責任編輯 高彩云〕

1674-0874(2017)01-0024-05

2016-11-16

賈麗文(1988-),女,山西太原人,助教,研究方向:證據(jù)法學,刑事技術(shù),聲紋鑒定。

猜你喜歡
聲紋尖峰音量
測測你的“音量值”
尖峰石陣
解放手機的音量鍵
屏幕即指紋識別
西澳大利亞——尖峰石陣
請放心地扭大音量看電影聽音樂吧!Mclntosh Sonus Faber家庭影院套裝
細火慢燉增加音量調(diào)節(jié)級數(shù)
基于數(shù)字水印的人臉與聲紋融合識別算法
尖峰之年:NASA地球科學探測進入高潮
每周自問讓你有尖峰表現(xiàn)
乌什县| 同江市| 崇义县| 阿鲁科尔沁旗| 大方县| 阜宁县| 平利县| 伊通| 大渡口区| 安平县| 新密市| 天门市| 普宁市| 镇远县| 张掖市| 泰来县| 仙游县| 白玉县| 镇巴县| 邻水| 崇阳县| 沛县| 泊头市| 博客| 精河县| 崇州市| 克什克腾旗| 北安市| 扎囊县| 定远县| 东城区| 常宁市| 平乡县| 宜阳县| 昭苏县| 林州市| 咸阳市| 迁西县| 博客| 仁布县| 东源县|