金蒙,于勇,孫洋,李美瑩,冉啟斌
漢語青年發(fā)音人的嗓音聲學(xué)分析
金蒙1,于勇1,孫洋1,李美瑩1,冉啟斌2
(1. 天津中德應(yīng)用技術(shù)大學(xué) 應(yīng)用外國語與國際教育學(xué)院,天津 300000; 2. 南開大學(xué) 文學(xué)院,天津 300071)
以沖浪科技開源的258名中國青年發(fā)音人的234 617個漢語語句語音文件為語料,使用Praat軟件,以整個句子為范圍提取基頻微擾(jitter)和振幅微擾(shimmer)數(shù)據(jù)進行嗓音聲學(xué)分析,可以看到,男性基頻微擾均值2.367%,振幅微擾均值11.905%;女性基頻微擾均值1.968%,振幅微擾均值9.394%,男性的基頻微擾和振幅微擾均高于女性。單因素方差分析顯示,基頻微擾和振幅微擾在性別上存在顯著差異。
基頻;微擾;振幅微擾;嗓音聲學(xué)分析;性別差異
對嗓音的聲學(xué)參數(shù)分析主要用于輔助判斷發(fā)音人聲帶及其附屬器官的生物學(xué)病理特征,為醫(yī)學(xué)診斷和治療提供依據(jù)。嗓音聲學(xué)分析也可以對發(fā)音人的音質(zhì)進行評估,為發(fā)聲訓(xùn)練等提升音質(zhì)的活動提供參考標(biāo)準(zhǔn)。目前已有不少研究對嗓音的聲學(xué)參數(shù)進行分析研究。黃昭鳴和萬萍使用自行研發(fā)的嗓音病理合成器運用基頻(0)、基頻微擾(jitter)、振幅微擾(shimmer)、聲門噪聲能量、聲門譜斜率、共振峰頻率微擾6個參數(shù)對嗓音進行評估[1]。于萍、Giovanni Antoine則通過檢測基頻、音強(intensity)、基頻微擾、信噪比(signal-to-noise ratio,SNR)、Lyapunov系數(shù)、口腔氣流量(OAF)、音域(Range)、最大發(fā)聲時間(MPT)、發(fā)/pa/音時的聲門下壓(estimated subglottic pressure,ESGP)等參數(shù),建立嗓音的有效參數(shù)評估模式[2]。在國外的研究中,測量的參數(shù)包括基頻、基頻微擾、振幅微擾、諧噪比(HNR)等以及聲門下壓力(Glottic downforce)、口腔氣流量、音域和最大發(fā)聲時間等。Eixeira分別對jitter和shimmer的參數(shù)值進行了測量,并將不同測量方式對jitter和shimmer參數(shù)值準(zhǔn)確度的影響進行了比較[3]。從總體上看,基頻微擾和振幅微擾是嗓音聲學(xué)分析的重要參數(shù)。因此對基頻微擾和振幅微擾參數(shù)進行分析研究,是對發(fā)音人進行嗓音聲學(xué)分析的重要內(nèi)容。雖然目前在嗓音聲學(xué)分析方面已有不少研究成果,但在較大樣本數(shù)量的嗓音聲學(xué)分析方面和對比分析一般自然語料中男性、女性的基頻微擾和振幅微擾數(shù)據(jù)方面,以及探討嗓音聲學(xué)分析的語言學(xué)意義方面,研究還不太多?;诖耍狙芯课覀兪褂脹_浪科技采集的出生地為全國30個地區(qū)的258名青年人的234617個普通話語句語料,利用Praat軟件對這些語料進行嗓音聲學(xué)分析,展示其基頻微擾和振幅微擾的表現(xiàn)。
本實驗基于沖浪科技500小時中文普通話數(shù)據(jù)語料開源的部分語料進行研究。該語料包含來自30個省市和自治區(qū)的258例正常成年人的嗓音樣本,其中男性111人,女性147人。所有發(fā)音人年齡在17~38歲之間,平均年齡21.9歲,具體見表1。因此本研究分析的發(fā)音對象認定為青年人是合適的。
表1 258名發(fā)音人年齡分布
沖浪科技開源的語料樣本所采用的錄音設(shè)備分別為安卓手機和蘋果手機,本研究分析的語料均為安卓手機采集。發(fā)音人在室內(nèi)安靜環(huán)境下進行錄音,采樣率16 kHz,存儲字節(jié)16位。語料主要內(nèi)容為自然話語的句子,如“你要是說實話我肯定不冤枉你啊”“我就想知道其中有沒有他而已”等。每名發(fā)音人的語句語料各不相同,語句數(shù)量為800~1000個不等。發(fā)音人均以正常語速發(fā)音。
本研究使用Praat軟件進行語料的標(biāo)注和數(shù)據(jù)提?。菏褂米孕芯帉懙腜raat腳本量生成Pitch文件,將句子中首次出現(xiàn)基頻的位置設(shè)為起點,最后一次出現(xiàn)基頻的位置設(shè)為終點;使用腳本批量出具每句話起點和終點之間的嗓音分析報告。嗓音聲學(xué)分析按照計算方法的不同,提供了jitter和shimmer若干種相關(guān)參數(shù)。本研究分析采用jitter(local)和shimmer(local)兩個參數(shù)。
基頻微擾是進行嗓音聲學(xué)分析的主要參數(shù)之一,它表現(xiàn)的是聲帶振動中不規(guī)律性變化的程度?;l微擾在聽感上反映為聲音的嘶啞及粗糙程度?;l微擾與嗓音音質(zhì)密切相關(guān),基頻微擾的數(shù)值越大表明聲帶振動越不規(guī)律,聲音也就越為嘶啞和粗糙。
按照計算方法的不同,通?;l微擾具體分為若干種相關(guān)的參數(shù),例如絕對基頻微擾(jitta)、局部或相對基頻微擾(jitt)、基頻相對平均擾動(rap)、五點周期擾動商(ppq5)等。本研究一律使用jitter(local)參數(shù)(可省寫為jitt或jitter)。jitt參數(shù)表述音高連續(xù)周期中的平均絕對差異,單位為百分比。jitt由公式
計算得出,其中T為抽取的聲門周期長度,為抽取的聲門周期數(shù)量[3]1190–1199。
我們使用Praat腳本批量提取發(fā)音語料中的基頻微擾值(jitt),每個句子提取1個基頻微擾值。所有語料共提取到j(luò)itt數(shù)據(jù)234 617個,其中男性jitt值117 465個,女性jitt值117 152個。男性和女性的數(shù)據(jù)分布都存在一些極端值,其中男性的數(shù)據(jù)更分散一些;男性的jitt值總體比女性高。
我們對所有數(shù)據(jù)進行了統(tǒng)計分析,得到的jitt均值為2.168,中位數(shù)為2.101,標(biāo)準(zhǔn)差為0.594。我們又分性別對男性和女性的數(shù)據(jù)進行了統(tǒng)計分析,結(jié)果表明男性和女性的數(shù)據(jù)樣本相差很?。浩渲心行詊itt均值為2.367,中位數(shù)為2.294,標(biāo)準(zhǔn)差為0.621;女性jitt均值為1.968,中位數(shù)為1.919,標(biāo)準(zhǔn)差為0.490。男性無論平均值、中位數(shù)還是標(biāo)準(zhǔn)差都高于女性。分析結(jié)果表明還表明:男性的四分位距為0.742,男性jitt值的四分位浮動范圍為1.426~2.91;女性的四分位距為0.633,女性jitt的四分位浮動范圍為1.335~2.601。
為檢測男、女性jitt值之間的差異是否具有顯著性,我們又分性別進行了單因素方差分析。結(jié)果顯示男、女性別對jitt值的影響差異具有統(tǒng)計學(xué)意義((1, 234 615)=29 886.820,<0.05),可見男性的jitt值顯著高于女性的jitt值。
關(guān)于jitter是否存在性別上的差異及其所確定的一般參考值,國內(nèi)外文獻結(jié)論并不一致。王雙樂利用計算機語音頻譜技術(shù)(USSA)對正常人的嗓音進行了聲學(xué)參數(shù)測量,其研究表明同一年齡組女性的jitter值要大于男性,青年人的jitter值存在性別差異[4]。雷科等使用Dr.Speech軟件采樣分析,認為jitter值在青年組有性別差異[5]。楊青應(yīng)用計算機語言分析系統(tǒng)進行測量,結(jié)果顯示發(fā)舒適音和真聲最低音的jitter值存在性別差異(<0.05)[6]。葉志騰通過Praat對成年人男女jitter值進行測量,認為jitter值男女性別無統(tǒng)計學(xué)差異[7]。Brockmann等人認為小聲發(fā)音時男性的jitter值比女性高,但聲量適中或大聲說話時男女的jitter值接近[8]。Finger等人將青年女性作為研究對象,研究結(jié)果顯示呈正態(tài)分布的樣本數(shù)據(jù)可以用來確定聲學(xué)參數(shù)的正常參考值,同時與之前國內(nèi)外研究進行對比,發(fā)現(xiàn)各聲學(xué)參數(shù)測量結(jié)果接近[9]。本研究的分析則看到j(luò)itter值存在性別差異,青年男性的jitter值高于青年女性。
我們將上述文獻研究結(jié)果進行梳理對比,整理結(jié)果見表2。我們所篩選的數(shù)據(jù)為青年人(20~40歲)在自然舒適狀態(tài)下正常語速發(fā)音所測量的jitter值。
表2 青年人發(fā)音基頻微擾值研究結(jié)果對比
由表2可以看出,在受試的發(fā)音語料一致的情況下,葉志騰與Brockmann在性別是否對jitter值產(chǎn)生影響這一觀點上結(jié)論正好相反。這里兩者所提取參數(shù)的方式不一樣,前者采用的是jitta參數(shù),而后者采用的是jitt參數(shù)。這可能反映了jitter是否存在性別差異與具體采用的計算方式有關(guān)。
本研究在與Brockmann和Finger的研究成果進行比較時,可以看到同樣使用的是Praat軟件,采用的是jitt參數(shù),而受試發(fā)音語料和樣本數(shù)量不同,最后的jitter值也存在較大差異。關(guān)于受試的發(fā)音語料,表2中數(shù)據(jù)來源的語料都是持續(xù)穩(wěn)態(tài)元音,如〔i〕〔?〕〔a〕等,尚未見到文獻研究中有成句的語料分析。本研究所分析的語料為自然話語的句子,切合人們實際的發(fā)音狀態(tài)與語音質(zhì)量。
另外,本研究所得出的jitter均值浮動范圍男性為2.367±0.621(`x±s);女性為1.968±0.490(`x±s)。本研究得到的數(shù)值往往大于以往研究的數(shù)據(jù)。除了測量軟件、提取參數(shù)的方式、樣本數(shù)量等因素以外,導(dǎo)致結(jié)果不同的最大因素應(yīng)該是被試的發(fā)音語料。以往研究采用的語料主要為單個的典型元音(/a/、/?/、/i/等),發(fā)單個的典型元音時聲帶的振動通常會更加規(guī)則。而本研究采用的語料為正常語句語料,其中有單元音、復(fù)合元音,也有不太典型的元音,例如漢語普通話中有帶有較多摩擦的所謂舌尖元音(如/?/、/?/等)、輔音中的響音(如/m/、/n/等)以及大量輔音??梢岳斫獾氖牵@些復(fù)雜多樣的語料自然會增加聲帶振動的不規(guī)則性。這應(yīng)該是本研究測量得到的jitt值與以往研究不相同并往往大于以往數(shù)據(jù)的主要原因。此外,本研究結(jié)果顯示男性jitt值總體大于女性,這反映的不是男性和女性發(fā)單一元音時的情況,而是男性和女性在正常語句發(fā)音時的情況。
振幅微擾是進行嗓音聲學(xué)分析的參數(shù)之一,它描述的是聲帶振動時相鄰周期之間振幅的微小變化,主要反映嗓音的嘶啞程度。它與基頻微擾一樣,是反映聲帶振動穩(wěn)定性的有效指標(biāo),其數(shù)值越大,說明在發(fā)音過程中聲學(xué)信號出現(xiàn)的不規(guī)則變化越多。
振幅微擾分析與基頻微擾一樣,按照不同的計算方法分為多種相關(guān)的參數(shù)。Praat中提供了shimmer(local)、shimmer(local,dB)、shimmer(apq3)、shimmer(apq5)、shimmer(apq11)、shimmer(dda)6種參數(shù),本研究分析采用shim(local)值(省寫為shim或shimmer),它計算的是連續(xù)周期振幅之間的平均絕對差異,單位為%。shim由公式
計算得出,其中A為抽取的振幅,為抽取的基頻周期數(shù)量。
我們使用Praat腳本批量提取發(fā)音語料中的振幅微擾值(shim),每個句子提取1個振幅微擾值。所有語料共提取到shim數(shù)據(jù)235 709個,其中男性shim值118 012個,女性shim值117 697個。男性和女性的數(shù)據(jù)分布都存在一些極端值,其中男性的數(shù)據(jù)相對更分散;男性的shim值總體比女性高。
我們對所有數(shù)據(jù)進行了統(tǒng)計分析,得到的shim均值為10.651,中位數(shù)為10.477,標(biāo)準(zhǔn)差為2.559。我們也分性別對男性和女性的數(shù)據(jù)進行了統(tǒng)計分析,結(jié)果表明男性和女性的數(shù)據(jù)樣本相差不太大:男性shim均值為11.905,中位數(shù)為11.772,標(biāo)準(zhǔn)差為2.367;女性shim均值為9.393,中位數(shù)為9.236,標(biāo)準(zhǔn)差為2.981。男性無論在平均值、中位數(shù)還是標(biāo)準(zhǔn)差上都比女性高。另外統(tǒng)計分析,男性的四分位距為3.214,男性shim值的四分位浮動范圍為8.691~15.119;女性的四分位距為2.813,女性shim的四分位浮動范圍為6.581~12.207。
為檢測男、女性shim值之間的差異是否具有顯著性,我們又分性別進行了單因素方差分析。結(jié)果顯示男、女性別對shim值的影響差異具有統(tǒng)計學(xué)意義((1, 235707)=74774.649,可見男性的shim值顯著高于女性的shim值。
然而,由于檢測儀器和計算方法的不同,不同研究所獲得的青年發(fā)音人的shimmer值也有所差異。王雙樂應(yīng)用計算機語音頻譜技術(shù)(USSA)對正常人的嗓音進行了聲學(xué)參數(shù)測量,其研究結(jié)果表明同一年齡組男性的shimmer值要大于女性,青年人的shimmer值存在性別差異。雷科等使用Dr.Speech軟件采樣分析,研究結(jié)果表明shimmer值在青年組有性別差異,且青年女性的shimmer 值要大于男性。楊青應(yīng)用計算機語言分析系統(tǒng)進行測量,結(jié)果顯示無論是發(fā)舒適音、真聲最低音、真聲最高音還是假聲最高音,shimmer值不存在性別差異(>0.05)。葉志騰通過Praat對青年男女shimmer值進行測量,分析shimmer參數(shù)值的性別比(=0.026<0.05),認為shimmer值男女性別存在統(tǒng)計學(xué)差異。Brockmann等人認為小聲發(fā)音或聲量適中時男性的shimmer值比女性低。Finger等人將青年女性作為研究對象,研究結(jié)果顯示呈正態(tài)分布的樣本數(shù)據(jù)可以用來確定聲學(xué)參數(shù)的正常參考值,同時與之前國內(nèi)外研究進行對比,發(fā)現(xiàn)各聲學(xué)參數(shù)測量結(jié)果接近。本研究的分析則看到shimmer值存在性別差異,青年男性的shimmer值高于青年女性。
我們將上述文獻研究結(jié)果進行梳理對比,整理結(jié)果見表3。我們所篩選的數(shù)據(jù)為青年人(20~40歲)在自然舒適狀態(tài)下正常語速發(fā)音所測量的shimmer值。
表3 青年人發(fā)音振幅微擾值(Shimmer)研究結(jié)果對比
從表3可以看到,不同數(shù)據(jù)來源所使用的測量軟件存在差異,測量的具體shimmer參數(shù)也略有差異(例如Brockmann等人采用的測量單位為dB)。這可能造成測量結(jié)果的不同。而造成本研究數(shù)據(jù)在很大程度上大于以往結(jié)果的原因,與前面我們分析jitter數(shù)據(jù)時一樣,主要應(yīng)該在于發(fā)音語料的不同。以往研究的發(fā)音語料大多為/i/、/?/、/ɑ/等單元音;而本研究的語料為普通話的實際語句。不難理解,單一/ɑ/、/i/等元音發(fā)音只占所有語音單位很小的一部分,實際語句中的發(fā)音包含有其他元音、響音甚至振幅規(guī)則性較差的輔音。這些規(guī)則性較差的語音單位顯然會增大發(fā)音時的振幅微擾。我們認為,在嗓音聲學(xué)分析中,發(fā)音語料采用實際話語中的漢語語句應(yīng)該能夠更全面地反映嗓音的實際表現(xiàn)。
本研究使用Praat軟件對沖浪科技開源的258名中國青年發(fā)音人的漢語語句聲音樣本進行了嗓音聲學(xué)分析。與以往大多數(shù)研究不同,本研究所使用的語料為漢語普通話的自然語句,得到的結(jié)果在數(shù)據(jù)上與以往研究存在一定差異。對語言實際使用中的各種單位,例如詞匯、短語、句子等,而不是單一的元音進行嗓音聲學(xué)分析,應(yīng)該能夠更全面、更準(zhǔn)確地揭示語言各方面的微觀表現(xiàn),并進而對語言學(xué)的一些重要問題提供新的認識。例如冉啟斌通過測量中國境內(nèi)8種語言各1200個詞的jitter和shimmer數(shù)據(jù),看到北方語言的jitter數(shù)據(jù)明顯高于南方語言,而shimmer數(shù)據(jù)則不存在這種差異,并判斷由jitter體現(xiàn)出來的嗓音差異應(yīng)該與北方和南方懸殊很大的濕度差別具有關(guān)聯(lián),而這一現(xiàn)象很可能揭示了漢語歷史上聲調(diào)先產(chǎn)生于南方,從而逐漸向北方過渡[10]。這使得嗓音的微觀聲學(xué)分析具有了更多語言學(xué)的意義。
應(yīng)該說明的是,本研究使用的258名漢語發(fā)音人語料是沖浪科技開源的,其語料的主要用途是應(yīng)用于語音識別的人機對話研究。人機對話研究對樣本的年齡差異要求不高,因此該語料的發(fā)音人以青年為主。從語言學(xué)研究的角度來看該語料在年齡的分布上不太均衡,中、老年等其他年齡段的嗓音表現(xiàn)需要另行研究。另外,對本研究語料的分析考察還可以更加細化,例如可以詳細考察語句中各個單元音的jitter和shimmer表現(xiàn),并以這種語流語料的結(jié)果與以往研究進行對比。這些方面將作為以后進一步研究的課題。
[1] 黃昭鳴,萬萍.嗓音聲學(xué)參數(shù)與嗓音音質(zhì)的相關(guān)研究[J].臨床耳鼻咽喉頭頸外科雜志,2008(6):251–255.
[2] 于萍,Giovanni Antoine.嗓音的客觀多參數(shù)分析與主觀聽覺分析相關(guān)性的研究[J].聽力學(xué)及言語疾病雜志,2003(3):161–164.
[3] Jo?o Paulo Teixeira,André Gon?alves.Accuracy of Jitter and Shimmer Measurements[J].Procedia Technology,2014(16):1190–1199.
[4] 王雙樂,周濤,何佳莉,等.成人嗓音計算機檢測及分析[J].臨床耳鼻咽喉科雜志,1998(10):448–450.
[5] 雷科,楊旭,沈建中,等.成人嗓音聲學(xué)參數(shù)正常參考值的研究[J].臨床耳鼻咽喉科雜志,2000(6):255–257.
[6] 楊青.嗓音的聲學(xué)檢測結(jié)果與定量分析[J].臨床工程,2008(3):104–105.
[7] 葉志騰.應(yīng)用Praat軟件分析成人嗓音聲學(xué)參數(shù)[D].福建:福建醫(yī)科大學(xué)第一臨床學(xué)院,2009:1–29.
[8] M Brockmann,C Storck,PN Carding,MJ Drinnan.Voice Loudness and Gender Effects on Jitter and Shimmer in Healthy Adults[J].Journal of Speech Language & Hearing Research,2008(5):1152–1160.
[9] leila Susana Finger,Carla Aparecida Cielo,Karine Schwarz.Acoustic vocal measures in women without voice complaints and with normal larynxes[J].Brazilian Journal of Otorhinolaryngology,2009(3):432–440.
[10] 冉啟斌.嗓音的南北差異與漢語聲調(diào)產(chǎn)生的地域先后[J].語言研究,2020(4):46–53.
H018.4
A
1006–5261(2021)03–0138–06
2021-01-25
國家社科基金重大項目(19ZDA300);南開大學(xué)中央高校基本科研業(yè)務(wù)費專項資金項目(63202924)
金蒙(1990― ),女,湖北隨州人,助教,碩士;冉啟斌(1977― ),男,重慶巫溪人,教授,博士。
〔責(zé)任編輯 楊寧〕