王紅巖,朱立剛,李笑通,Vincent J.J.P.van Heuven
(1.深圳大學(xué)外國語學(xué)院,廣東深圳,518060;2.石家莊郵電職業(yè)技術(shù)學(xué)院外語系,河北石家莊,050021;3.香港理工大學(xué)中文及雙語學(xué)系,香港;4.荷蘭萊頓大學(xué)語言學(xué)研究中心語音研究所)
語音表達(dá)在詞的層面上,音段起著傳統(tǒng)以來的核心作用。從音段的表達(dá)可以追溯拼音文字系統(tǒng)、音標(biāo)系統(tǒng)和音位理論的發(fā)展歷史。在音段之上的其它語音因素,如音高、音強(qiáng)、音質(zhì)、節(jié)奏等被概念為超音段信息。它們寓于較寬的音節(jié)及話語層面。音段信息在隨聲帶及發(fā)音器官的運(yùn)動(dòng)呈快速短時(shí)變化的同時(shí),超音段信息則隨詞義、語義的變化在音強(qiáng)、音高、音質(zhì)上呈相對(duì)穩(wěn)定的長時(shí)變化。這些變化在言語態(tài)度和表情上起著相對(duì)重要的作用。
我們知道,不同的音段組合構(gòu)成單詞的讀音。如果一種絕對(duì)的CV型語言包括10個(gè)輔音音素和5個(gè)元音音素,那么原則上它應(yīng)該具有50個(gè)不同的音節(jié)。如果這種語言允許3音節(jié)構(gòu)詞,那么音節(jié)自由排列的話可能出現(xiàn)的單詞數(shù)量大概為50×50×50=125000個(gè)。這些就足夠滿足辭典需要。世界上接近一半的語言具有重音,即其中一個(gè)音節(jié)的強(qiáng)度大于單詞內(nèi)其他音節(jié)的強(qiáng)度①The World Atlas of Linguistic Structures《世界語言結(jié)構(gòu)大全》列出世界220種聲調(diào)語言和307種非聲調(diào)語言,502種重音語言中282固定重音及 220非固定重音。。重音具有所謂的峰值性,即只有其中一個(gè)音節(jié)可以獲得最強(qiáng)讀音。因此,在上述假設(shè)的語言中使用重音能夠增加的構(gòu)詞量達(dá)375000個(gè)。理想而言,僅僅采用聲調(diào)的最簡的形式,在聲調(diào)語言中單詞內(nèi)任何一個(gè)音節(jié)都可以帶有高或低的音高。在此機(jī)制作用下,這種語言的可能性構(gòu)詞增加到了100×100×100=1000000個(gè)。結(jié)論是詞匯層面的聲調(diào)對(duì)于增加語言構(gòu)詞比重音更加高效。一種語言如果偏好單音節(jié)構(gòu)詞(如在漢藏語系中),那么最有效的增加詞匯的方法就是使用詞匯層面的聲調(diào)。
在漢語系(普通話及其它漢語方言)中聲調(diào)變化極大。普通話具有4個(gè)不同的聲調(diào),照慣例被標(biāo)注為55(高調(diào)),35(中升),214(下沉),51(高降)?;浾Z(廣東話)具有7個(gè)不同具有音位區(qū)分性的聲調(diào),被標(biāo)注為55(高調(diào)),53(高降),35(中升),33(中調(diào)),23(低升),22(低調(diào)),21(低降)。重音和聲調(diào)都屬于超音段韻律特征,它們比言語中時(shí)時(shí)變化元音和輔音具有更廣的語言學(xué)意義。聲學(xué)參數(shù)顯示超音段特征隨時(shí)間發(fā)生緩慢變化,在音高 、響度和時(shí)長上超音段信息上所起的作用尤為顯著,超過了它對(duì)頻譜分布(共振峰)中每一個(gè)元音和輔音的作用[1]。這種現(xiàn)象好比兩者在言語交際中有著不同的勞動(dòng)分工。頻譜性質(zhì)的快速變化能夠讓我們區(qū)別元音和輔音,但是很容易受到噪音和失真的影響。變化緩慢的超音段特征(音高和音長)對(duì)于音段識(shí)別作用較小,但是對(duì)于噪音和失真的魯棒性卻較為突出。因此,音段和超音段在普通話和粵語的可知性上的相對(duì)重要性取決于交際環(huán)境。如果在語言交際環(huán)境中音段質(zhì)量受到影響,例如交際通道中的噪音(噪音,電子失真,電腦語音或外語口音),超音段的重要性就會(huì)增加。先前研究表明[2],無論怎樣對(duì)其進(jìn)行低質(zhì)化或高質(zhì)化的過濾處理,普通話聲調(diào)識(shí)別均達(dá)到最好程度,而元音及輔音這些音段信息的識(shí)別則受到音質(zhì)的嚴(yán)重干擾??梢?,聲調(diào)正如同其它超音段特征一樣在語音交際中具有更高魯棒性。當(dāng)把韻律特征在例音中濾除,之后使用加入噪音和單音調(diào)化的方式重新合成語音,詞的正確識(shí)別率則分別下降到24%(噪音化)和16%(單音調(diào)化),但是句子的正確識(shí)別率仍然為24%和33%。在對(duì)韻律不做處理的條件下,單詞和句子正確識(shí)別率提高到50%和73%;進(jìn)行中度處理后正確識(shí)別率為60%和90%。
當(dāng)前研究將在具有不同聲調(diào)數(shù)量的兩種漢語變體即普通話和粵語的語音識(shí)別中比較音段和超音段(詞匯層面的聲調(diào))的相對(duì)表現(xiàn)。我們對(duì)實(shí)驗(yàn)材料進(jìn)行三種處理,即高質(zhì)音段,這樣超音段作用就是其次或者多余的;低質(zhì)音段,這樣超音段的詞匯聲調(diào)就是唯一的語音信號(hào);中質(zhì)音段,削弱音段信息,這樣聲調(diào)就必須為語音識(shí)別提供重要依據(jù)。
我們假設(shè),在聲調(diào)總藏更豐富的粵語中聲調(diào)在言語識(shí)別中表現(xiàn)出的重要作用,超過或相當(dāng)于它在聲調(diào)總藏少于粵語的普通話中的作用。
實(shí)驗(yàn)采用1977年美國語言學(xué)家Kalikow等創(chuàng)造的噪音環(huán)境語音識(shí)別測驗(yàn)(SPIN)[3]。該材料已經(jīng)在漢語背景下的英語語音識(shí)別中使用[4]。我們對(duì)語音進(jìn)行處理后來測試語音可知性。實(shí)驗(yàn)材料為60個(gè)日常短句,我們將其譯成相應(yīng)的普通話和粵語。出生在北京和廣州的女性和男性且母語分別為普通話和粵語構(gòu)成兩組發(fā)音人,材料由兩組分別朗讀;語音由美國舒爾近講傳聲機(jī)錄音。
這些材料將發(fā)展成15種漢語方言研究項(xiàng)目的一部分[5,6]。噪音環(huán)境語音識(shí)別測驗(yàn)(SPIN)句子中,句末關(guān)鍵詞具有高度可預(yù)知性。一般來講,如果前面的單詞被識(shí)別出來,對(duì)句末的關(guān)鍵詞則判斷無誤。聽音人的任務(wù)就是簡單寫下來每句句末的詞(關(guān)鍵詞)。例如:“把窗戶打開好透透風(fēng)”(下劃線處為關(guān)鍵詞)。
我們用兩種方法對(duì)句子進(jìn)行處理,即聲調(diào)和音段光譜處理。在聲調(diào)處理上,我們設(shè)定基頻f0為100Hz,采用PSOLA分析與綜合法的方法在Praat軟件上處理[7]。這種處理濾除聲調(diào)信息,與聲調(diào)次要相關(guān)的時(shí)長和音強(qiáng)曲線均不受影響。在音段光譜處理中,我們對(duì)原始的錄音采用默認(rèn)常數(shù)為100Hz,采用低通濾波截取1000Hz或300Hz的范圍。1000Hz截取后音段的可知性被嚴(yán)重削弱,盡管大部分的詞仍然可以辨知(LP-1000 Hz)。300Hz處理將所有音段信息全部濾除,因而產(chǎn)生一個(gè)不可認(rèn)知的句子(LP-300)。我們對(duì)于音調(diào)和頻譜的處理,即聲調(diào)中度低度高度處理、音段低度中度處理,生成六種輸入聲源。
由十個(gè)句子組成的六組句子組合,每組均被生成六種聲源信號(hào)條件。60個(gè)句子(每組十個(gè)句子)以拉丁方塊方式設(shè)計(jì),呈現(xiàn)給聽音人。每個(gè)聽音人每一類句子只聽到一次(不考慮信號(hào)的處理),收聽到60個(gè)句子的每一種情況均次數(shù)相同。在一組信號(hào)中一半句子由男性朗讀,另一半由女性朗讀,在第二組的聲音信號(hào)中,同樣的句子類型被另外的人朗讀,于是信號(hào)在各個(gè)句子中均勻分布。普通話句子播放給24個(gè)母語為普通話的聽音人,而粵語語音材料播放給18個(gè)母語為粵語聽音人。所有聽音人均是深圳大學(xué)學(xué)生,3個(gè)聽音人的語音材料組成一小組,采用高質(zhì)量的放音條件和語音室。對(duì)于每種語音,聽音人被分為兩部分,聽音單1和聽音單2。
圖1顯示了60個(gè)普通話句子中關(guān)鍵詞的識(shí)別。表明60個(gè)句子在六種條件下,即音段信息的不過濾、低過濾及高過濾(unfiltered,LP-1000Hz and LP-300Hz),結(jié)合于聲調(diào)呈現(xiàn)及聲調(diào)隱蔽。
當(dāng)音段信息處最優(yōu)時(shí)(不過濾),句子識(shí)別機(jī)會(huì)最高,正確率為98%,同時(shí)是否濾除聲調(diào)信息并沒有對(duì)結(jié)果產(chǎn)生影響。當(dāng)音段信息處高過濾即LP 300 Hz過濾時(shí),可知性最低,正確識(shí)別率平均值僅為17%,當(dāng)音段信息進(jìn)行中度處理,即LP1000 Hz過濾時(shí),平均識(shí)別率為為68%,但此時(shí)聲調(diào)的處理對(duì)結(jié)果影響很大。當(dāng)基頻即聲調(diào)信息出現(xiàn)在語音信號(hào)中時(shí),可知性沒有任何影響,正確率為88%。當(dāng)聲調(diào)信息在信號(hào)中被濾除時(shí),正確識(shí)別率的百分比下降到47%。通過雙因素方差分析結(jié)果可知音段信息的質(zhì)量高低與韻律的影響非常顯著(ANOVA,F(xiàn)(2,54)=176.6(p<0.001,partial η 2=0.499),F(xiàn)(1,54) =25.1(p <0.001,partialη2 = 0.066)。 所有三種音段情況各有不同(Bonferroni posthoc test with p<0.05),結(jié)果的相互作用呈顯著性,F(xiàn)(2,54)= 12.8(p<0.001,partial η2 =0.067)。
圖1 普通話 60個(gè)SPIN測試句子關(guān)鍵詞的識(shí)別正確率。音段質(zhì)量(高中低)/及基頻(聲調(diào)呈現(xiàn)與隱蔽)。
圖2 粵語60個(gè)普通話SPIN測試句子關(guān)鍵詞的識(shí)別正確率。音段質(zhì)量(高中低)/基頻(聲調(diào)呈現(xiàn)與隱蔽)。
粵語部分的實(shí)驗(yàn)結(jié)果在圖2中呈現(xiàn)?;浾Z關(guān)鍵詞識(shí)別的結(jié)果同普通話的結(jié)果大體趨勢相似,但相對(duì)較弱。當(dāng)音段信息質(zhì)量較高和聲調(diào)呈現(xiàn)時(shí),天棚效應(yīng)出現(xiàn)(平均值為95%)。
音段質(zhì)量的退化產(chǎn)生相應(yīng)弱化的語音識(shí)別值。聲調(diào)呈現(xiàn)與隱蔽時(shí),中度音段質(zhì)量為76%和54%,低度質(zhì)量為44%和23%。音段信息質(zhì)量效果非常顯著,但與普通話組結(jié)果較弱,F(xiàn)(2,54)=24.1(p<0.001,partial η2=0.472)。所有三種不同質(zhì)量的音段信息呈現(xiàn)顯著差異,(Bonferroni posthoc test with p<0.05),聲調(diào)呈現(xiàn)與隱蔽結(jié)果顯著,F(xiàn)(1,54)= 4.7(p=0.034,partial η2=0.080)。音段和聲調(diào)兩者相互影響并未有顯著表現(xiàn),F(xiàn)(1,54)<1。
我們的預(yù)測“當(dāng)音段信息減弱時(shí)詞的韻律即聲調(diào)的作用將更重要”在本實(shí)驗(yàn)中得到了證實(shí)。當(dāng)音段信息高質(zhì)情況下濾除基頻(f0)無論對(duì)于普通話或粵語都未產(chǎn)生影響。當(dāng)音段質(zhì)量經(jīng)過低通處理而下降時(shí),韻律信息保留與否則對(duì)識(shí)別結(jié)果產(chǎn)生顯著影響。當(dāng)音段信息呈中等質(zhì)量時(shí),基頻對(duì)于正確率貢獻(xiàn)率最大。無論韻律(聲調(diào))信息呈現(xiàn)與隱蔽,在音段質(zhì)量很差情況下語音識(shí)別幾乎不可能。我們的第二個(gè)預(yù)測是關(guān)于粵語中韻律信息的貢獻(xiàn)率。 由于粵語聲調(diào)信息較為豐富,我們預(yù)測詞匯層面的聲調(diào)對(duì)于詞匯識(shí)別的貢獻(xiàn)應(yīng)大于聲調(diào)在普通話中的作用。但我們的實(shí)驗(yàn)結(jié)果未支持這個(gè)預(yù)測。相反的,結(jié)果顯示,當(dāng)保留基頻,經(jīng)低通濾波(low-pass filtering)1000 Hz進(jìn)行中等質(zhì)量的音段信息語音識(shí)別仍然很好;當(dāng)濾除基頻,結(jié)果則低于可接受的50%。粵語測試結(jié)果呈現(xiàn)音段和韻律的交互影響顯著度較?。ńy(tǒng)計(jì)上可忽略)。由以上結(jié)果可知基頻對(duì)于言語識(shí)別的相對(duì)的貢獻(xiàn)程度并不取決于詞匯音調(diào)的總量。
該研究對(duì)于詞匯層面聲調(diào)對(duì)于言語可知性僅僅是一個(gè)初步的探索,對(duì)于漢語和其他有廣泛聲調(diào)的語種的實(shí)驗(yàn)檢驗(yàn)還有待進(jìn)一步深入。在所有實(shí)驗(yàn)完結(jié)前,否定我們的基本假設(shè)似乎有些為時(shí)過早。
[1] Heuven,V.J.van,Sluijter A.M.C.Notes on the phonetics of
word prosody[M]//In R.Goedemans,H.van der Hulst,E. Visch(eds.).Stress patterns of the world,Part 1:Background, HIL Publications.Holland Institute of Generative Linguistics,The Hague,1996:233-269.
[2] Zhang Jia-lu,Qi Shi-qian,Song Mei-zhen,et al.漢語聲調(diào)在言語可懂度中的重要作用[J].聲學(xué)學(xué)報(bào),1981(4):237–241.
[3] Kalikow,D.N.,K.N.Stevens,L.L.Elliott.Development of a test of speech intelligibility in noise using sentence materials with controlled word predictability[J].J.Acoust.Soc.Am,1977(61):1337-1351.
[4] Wang,H.,V.J.van Heuven.Mutual intelligibility of Chinese,Dutch and American speakers of English[J]//in P.Fikkert,L. Cornips(eds.).Linguistics in the Netherlands(AVT Publica?tions,20).Amsterdam/Philadelphia:JohnBenjamins,2003:213-224.
[5] Tang,C.,V.J.van Heuven.Mutual intelligibility of Chinese dia?lects experimentally tested[J].Lingua,2009:709–732.
[6] Tang,C.Mutual intelligibility of Chinese dialects[J].LOT dis?sertation series,228.LOT,Utrecht,2009.
[7] Boersma,P.,Weenink,D.Praat,doing Phonetics by computer[J].Report nr.136,Institute of Phonetic Sciences,University of Amsterdam,1996.