張燕
摘要:本文對普通話當(dāng)中的基本音素進(jìn)行了分析,并將元音的可變性問題單獨提出來做了研究,并根據(jù)語音識別中容易產(chǎn)生混淆的音素的聲學(xué)特征,提出了新的能準(zhǔn)確描述音素頻譜的特征,使得語音識別的效果得到很大提升。
關(guān)鍵字:普通話 語音識別 基本音素
一、普通話基本音素分析
1.音素的分類。普通話所有的發(fā)音,都可以將聲母和韻母相拼,再加入聲調(diào)而成。1958年批準(zhǔn)的《漢語拼音方案》將漢語拼音分成21個聲母與35個韻母,以及五種音調(diào)。但因56個聲、韻母中,許多都是由基本音素所構(gòu)成的復(fù)合音,計算機(jī)要識別單音特征就顯得有一定的難度,為了降低復(fù)雜性,先要對普通話的基本音素進(jìn)行分析和篩選,給從基于音素的語音識別做好鋪墊。
2.音素分析。如果從發(fā)音特征來考察,普通話的音素包括元音和輔音兩大類。元音在發(fā)音的過程當(dāng)中起到主導(dǎo)作用,輔音則輔助發(fā)音,漢語拼音的56個聲、韻母發(fā)音中,有10個漢語元音和22個漢語輔音。所以掌握好了這l0個漢語元音和22個輔音,就能將所有的漢語拼音的發(fā)音拼出。元音和輔音分別如下:
元音:a,o,e,i,u,n,侖,i(知),i(資), er;
輔音:b,P,m,f,d,t,n,l,g,k,h,j,q,x, zh,ch,sh,r,z,c,s,ng
需要說明一下的是:元音i(知)為zh、ch、sh發(fā)音的尾部部分;i(資)為z、c、s發(fā)音的尾部部分。在構(gòu)成漢語拼音的時候,元音i(知)僅在zhi,chi,shi當(dāng)中出現(xiàn),它的作用只是為了延長原有發(fā)音的尾音。也就是說,i(知)的發(fā)音, zh,ch,sh的發(fā)音當(dāng)中已經(jīng)包含了。所以,在分析基本因素時,只需做好zh,ch,sh的發(fā)音,稍微將其尾部延長便可得到zhi,chi,shi的發(fā)音。同理,元音i(資)只使用在漢語拼音zi,ci,si中,而其也包含于輔音z ,s的發(fā)音中。另外,因為er的發(fā)音可由e和r的發(fā)音相拼而成,所以它可不作為一個獨立音素。根據(jù)上述分析,漢語元音音素的數(shù)目可由10個減為7個。
二、元音音素的可變性分析
1.研究音素變化的重要性。音節(jié)是普通話語音體系當(dāng)中最基本的結(jié)構(gòu)單位,而音節(jié)又是由音素按照一定的方式組成的,所以普通話里面最小的語音結(jié)構(gòu)單位就是音素??梢赃@樣說,發(fā)音器官所產(chǎn)生的每次細(xì)微的變化,均可以發(fā)出不同的音素。因而,分析和探究這些音素在音節(jié)當(dāng)中產(chǎn)生的相互間的變化和影響,對于準(zhǔn)確把握普通話的音節(jié)或字音,起著非常重要的作用。
2.音素可變性分析。學(xué)習(xí)普通話時,準(zhǔn)確地發(fā)出單元音韻母是學(xué)習(xí)的基礎(chǔ),但是,這種韻母的發(fā)音特點是口形始終保持不變,舌位也不移動,但單元音韻母(元音音素)的變化,就是它們一旦進(jìn)入復(fù)韻母和鼻韻母,或是和聲母拼合時,所產(chǎn)生的細(xì)微變化會被忽視。對于北方人而言,這種可變性在自然語言環(huán)境當(dāng)中耳濡目染就能學(xué)會;但對南方人而言,這種變化是一大難點,所以,準(zhǔn)確把握元音音素在音節(jié)中的可變性,對于語音識別非常重要。
3.以原音i為例的分析。元音i是一個前元音兼高元音,當(dāng)i與e組合成ie音節(jié)時,i和e彼此影響的結(jié)果就是舌位會往兩者之間的中部稍有移動,因而元音i的實際舌位就已從高降到了次高;而當(dāng)i與a組成ia時,因a是一個央元音兼低元音,與i之間的差異較大,融合時的影響也就更大,導(dǎo)致i的舌位從高降到了半高;當(dāng)i與ou組成iou音節(jié)時,因o、u均為后元音,且o為半高元音,故i與ou后,其舌位不僅由前往后稍移,并且從高變成了次高并呈半高的趨向,因為只有這樣才能與半高元音o順暢地進(jìn)行銜接,于是iou音節(jié)既有由前往后的舌位趨向,又表現(xiàn)出高(i)——半高(o)——高(u)的發(fā)音曲線;當(dāng)i與n結(jié)合成in時,因為舌尖中音n的舌位也靠前偏高,二者的發(fā)音趨向一致,此時只要i的舌尖再往前伸,抵住上齒齦,n的韻尾就形成了,因此鼻輔音n幾乎不會影響到元音i;當(dāng)i與ng組合時,因為鼻輔音ng的舌位靠后并偏低,會對i元音造成一定的影響,在發(fā)音時,i元音的舌位會形成由高往低、由前往后的趨向,因此前元音兼高元音i在發(fā)音之初就已變?yōu)榇吻霸艏娲胃咴袅?;i與ong的組合中, o和ng舌位都靠后,并且o是半高元音,ng舌位偏低,受兩者的共同影響,i的舌位明顯后縮,并且表現(xiàn)出由高往低的趨向,這使其變成了次前元音兼次高元音。
三、對y、w的音素性質(zhì)分析
y、w是兩個較為特殊的因素,兼具元音和輔音的一些特點,下面將它們單獨提出來進(jìn)行因素性質(zhì)的分析。
1.從發(fā)音部位與方法上進(jìn)行分析。從語音的發(fā)聲部位和方法來看,發(fā)元音時,氣流經(jīng)聲門帶動聲帶的振動,通過咽喉、口腔、鼻腔時,沒有阻礙;輔音發(fā)聲時,呼出的氣流定會在經(jīng)過某個發(fā)聲器官時受阻礙。發(fā)元音的時候,除了聲帶,其余發(fā)音器官均保持緊張,而發(fā)輔音時,只有形成阻礙的器官才緊張。例如:輔音[k]在發(fā)音時,舌根和軟腭會緊張。并且,發(fā)元音時呼出的氣流沒有發(fā)輔音時急促。由此可見,y、w的發(fā)音既接近元音,但又具有輔音的發(fā)聲特點。這里將y[j]、w[w]兩個音素看做輔音,因為“發(fā)聲時氣流有阻礙”是輔音的重要特征,就算它們發(fā)音部位接近元音,但滿足了這一條件,就該被看做是輔音。
2.從聲帶振動特點上進(jìn)行分析。語音是由聲帶振動引起空氣振動產(chǎn)生音波而形成的,可看做是一種物理現(xiàn)象,所以語音又有樂音和噪音之分。從y、w的發(fā)聲來看,它們發(fā)音時只是引起聲帶稍微的振動,發(fā)出的聲音不如元音清晰,從這個角度看,我們可以把它們看做是樂音性的噪音。但在元音的分類中,元音被看做是非常純粹的樂音,所以,y、w也只能被看做輔音了。
3.從音節(jié)結(jié)構(gòu)上進(jìn)行分析。在原來的漢語拼音方案當(dāng)中,[w]、[j]被認(rèn)為是韻頭,是[u]、[j]的改寫,所以將其看做元音,但這樣分類顯然混淆了概念。因為從音節(jié)結(jié)構(gòu)上來看,非常明顯[wA]與[jA]是音節(jié),而[uA]、[iA]是韻母,如果進(jìn)行改換,是非常不合理的。再從音位的角度來看,[jA]當(dāng)中的[j]和[iA]當(dāng)中的[i],[wA]當(dāng)中的[w]和[uA]當(dāng)中的[u]是不同的音位,因為[j]和[A]、[w]和[A]可以組成以[j]、[w]做為聲母的音節(jié),它們與[i]與[a]、[u]與[a]組成的音節(jié)是不同的,只是作為音節(jié)的一個部分——韻母。這樣來看, [j]、[w]被看做是具有區(qū)別意義功能的語音單位,即音位是合理的,此時,y、w就該被歸到輔音當(dāng)中去。
從以上情況的分析來看,y、w應(yīng)該被看做是輔音而作為聲母來使用。
四、結(jié)語
漢語普通話當(dāng)中易混淆的音素很多,要想讓語音識別更精準(zhǔn),就要對普通話的音素進(jìn)行分析和研究,并充分了解音素的可變性,并進(jìn)行正確的分類,只有在此基礎(chǔ)之上,才能提出更先進(jìn)的識別技術(shù)。語
參考文獻(xiàn)
[1]王紅雨,廖逢釵,盧昌荊等.一種基于語音識別的普通話語音失誤判別方法[J].三明學(xué)院學(xué)報,2007(4):452-455.
[2]徐秉錚,邱偉.漢語普通話聲母的分類與識別[C].第五屆全國語音圖象通訊信號處理學(xué)術(shù)會議論文集.
[3]黃中偉,楊磊,徐明等.普通話語音識別中的基本音素分析[J].深圳大學(xué)學(xué)報(理工版),2006(4):356-357.
[4]李晨沖.漢語普通話易混淆音素的聲學(xué)區(qū)分[D].西安電子科技大學(xué),2009.
[5]鄭澤宏.普通話音節(jié)中元音音素的可變性探析[J].職大學(xué)報,2011(2):103-105、122.