亓貝爾 劉佳星 古鑫 劉博
漢語(yǔ)作為一種聲調(diào)語(yǔ)言,聲調(diào)信息對(duì)于安靜和噪聲環(huán)境下識(shí)別言語(yǔ)、理解語(yǔ)義均具有重要作用[1,2]。圍繞包絡(luò)信息(envelope,Env)和精細(xì)結(jié)構(gòu)信息(temproal fine sturcture,TFS)對(duì)言語(yǔ)識(shí)別作用的研究已證實(shí),在安靜環(huán)境下Env對(duì)非聲調(diào)語(yǔ)言識(shí)別起重要作用,TFS對(duì)音調(diào)和聲調(diào)識(shí)別起重要作用[3~5]。但是,在噪聲環(huán)境下TFS和Env對(duì)言語(yǔ)識(shí)別中所起作用以及重要程度尚無定論。本研究擬通過分析不同類型噪聲環(huán)境下聽力正常人的漢語(yǔ)普通話聲調(diào)識(shí)別能力,探討TFS和Env在噪聲下聲調(diào)識(shí)別中的作用,分析在不同類型噪聲環(huán)境下TFS和Env作用的差異。
1.1研究對(duì)象 受試者納入標(biāo)準(zhǔn):母語(yǔ)為漢語(yǔ)普通話、無耳聾家族史、無耳科疾病史,雙耳0.25~8 kHz倍頻程純音聽閾≤20 dB HL,226 Hz探測(cè)音鼓室導(dǎo)抗圖A型,1 kHz同、對(duì)側(cè)聲反射均可引出。共納入符合上述標(biāo)準(zhǔn)的受試者20例(男10例,女10例)為研究對(duì)象,年齡19~30歲,平均24.2±3.2歲,均經(jīng)本人同意并簽署知情同意書。
1.2研究方法
1.2.1編制噪聲下聲調(diào)識(shí)別能力測(cè)試材料 采用聽覺嵌合體處理方案(圖1)[6],編制本研究所需的噪聲下聲調(diào)識(shí)別能力測(cè)試材料。原始語(yǔ)音材料為男女兩位母語(yǔ)為漢語(yǔ)普通話播音者錄制的80個(gè)單音節(jié)詞(10個(gè)音節(jié)×4聲×2位播音者),背景噪聲分別為基于播音者語(yǔ)譜特性的言語(yǔ)譜噪聲(speech spectrum-shaped noise,SSN)以及兩人談話噪聲(two-talker babble,TTB),其中談話噪聲由上述兩名播音者的單軌音頻資料混合至多軌而產(chǎn)生。將原始材料與背景噪聲按照信噪比(signal-to-noise ratios,SNR)為-18、-12、-6、0、+6 dB進(jìn)行合成,最終形成包含2 000 個(gè)測(cè)試音的正式測(cè)試材料(即80個(gè)單音節(jié)詞×5 SNRTFS×5 SNREnv)以及包含80個(gè)測(cè)試音的練習(xí)材料(即20個(gè)單音節(jié)詞×2 SNRTFS×2 SNREnv),上述提取與合成過程均使用MATLAB軟件編程實(shí)現(xiàn)。語(yǔ)音平衡對(duì)聲調(diào)識(shí)別無顯著影響,即使音節(jié)之間有小差異也不影響總的聲調(diào)識(shí)別結(jié)果,因此,測(cè)試材料并未考慮語(yǔ)音平衡問題。
1.2.2噪聲下聲調(diào)識(shí)別能力測(cè)試 在基于MATLAB語(yǔ)言的GUI交互系統(tǒng)控制下以“四選一”(four alternative forced-choice,4AFC)方法完成噪聲下聲調(diào)識(shí)別能力測(cè)試(圖2)。受試者通過練習(xí)掌握測(cè)試方法后,隨機(jī)選擇一側(cè)耳以其自覺舒適的強(qiáng)度聆聽正式測(cè)試材料。正式測(cè)試時(shí)每個(gè)測(cè)試項(xiàng)只播放一次,允許受試者猜測(cè)沒把握的選項(xiàng),測(cè)試過程中不對(duì)結(jié)果做出反饋。全部測(cè)試在本底噪聲≤45 dB A的安靜房間內(nèi)由同一個(gè)聲卡在同一臺(tái)電腦的控制下完成,使用Sennheiser HD 280 pro壓耳式耳機(jī)給聲;測(cè)試成績(jī)(%)=(正確選項(xiàng)/總測(cè)試項(xiàng))×100%。
1.3統(tǒng)計(jì)學(xué)方法 采用廣義線性模型(generalized linear model,GLM)分析不同信噪比條件下TFS成分和Env成分在聲調(diào)識(shí)別中的作用,以MATLAB統(tǒng)計(jì)學(xué)工具箱完成統(tǒng)計(jì)分析,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1言語(yǔ)譜噪聲下聲調(diào)識(shí)別成績(jī)與時(shí)域信息的關(guān)系 SSN條件下,本組受試者聲調(diào)識(shí)別成績(jī)與時(shí)域信息的函數(shù)曲線關(guān)系見圖3,當(dāng)某一種信息量固定時(shí),增加另一種信息量可以改善聲調(diào)識(shí)別成績(jī),即時(shí)域包絡(luò)信息一定時(shí),增加時(shí)域精細(xì)結(jié)構(gòu)信息有利于聲調(diào)識(shí)別,反之亦然。當(dāng)SNRTFS和SNREnv信息量相等時(shí),SSN噪聲五種信噪比條件下的聲調(diào)識(shí)別平均正確率分別為27.6%、60.2%、82.1%、93.9%和94.7%,提示當(dāng)兩者信息量相等時(shí),信噪比越高聲調(diào)識(shí)別能力越好。
2.2兩人談話噪聲下聲調(diào)識(shí)別成績(jī)與時(shí)域信息的關(guān)系 兩人談話噪聲條件下,本組受試者聲調(diào)識(shí)別成績(jī)與時(shí)域信息的函數(shù)曲線關(guān)系見圖4,當(dāng)某一種信息量固定時(shí),增加另一種信息量可以改善聲調(diào)識(shí)別成績(jī),但這種相互改善的趨勢(shì)較SSN噪聲下弱。當(dāng)SNRTFS和SNREnv相等時(shí),TTB噪聲下五種信噪比時(shí)的聲調(diào)識(shí)別平均正確率分別為53.5%、 72.0%、 86.4%、92.7%和95.0%。提示當(dāng)兩者信息量相等時(shí),信噪比越高聲調(diào)識(shí)別能力越好。
2.3時(shí)域包絡(luò)與時(shí)域精細(xì)結(jié)構(gòu)在噪聲下聲調(diào)識(shí)別中的作用 采用廣義線性模型(generalized linear model,GLM)方法評(píng)估時(shí)域包絡(luò)信息和時(shí)域精細(xì)結(jié)構(gòu)信息在噪聲下聲調(diào)識(shí)別中的作用。在SSN噪聲條件下,Env、TFS以及二者協(xié)同作用與聲調(diào)識(shí)別成績(jī)的回歸系數(shù)分別為0.095(t=36.7,P<0.000 1)、0.070(t=26.0,P<0.000 1)和-0.002(t=8.8,P<0.000 1)。在TTB噪聲條件下,Env、TFS以及二者協(xié)同作用與聲調(diào)識(shí)別成績(jī)回歸系數(shù)分別為0.052(t=19.6,P<0.000 1)、0.073(t=28.8,P<0.000 1)和-0.000 3(t=1.5,P=0.13),提示兩種噪聲條件下時(shí)域包絡(luò)信息和時(shí)域精細(xì)結(jié)構(gòu)信息對(duì)聲調(diào)識(shí)別中均具有重要作用,但是兩者的協(xié)同作用更有助于提高言語(yǔ)譜噪聲條件下的聲調(diào)識(shí)別能力,在多人談話噪聲條件下聲調(diào)識(shí)別能力沒有明顯改善。
Rosen[7]指出任何一個(gè)聲信號(hào)的時(shí)域波形都可以通過Hilbert變化用數(shù)學(xué)方法描述為包絡(luò)(envelop)成分和精細(xì)結(jié)構(gòu)(fine structure)成分的組合。精細(xì)結(jié)構(gòu)信息反映的是聲音信號(hào)中快速變化的成分,其中時(shí)域精細(xì)結(jié)構(gòu)指0.5~10.0 kHz的時(shí)域信息,包含言語(yǔ)信號(hào)的瞬時(shí)相位信息[6]。包絡(luò)信息反映的是聲音信號(hào)中緩慢變化的成分,其中時(shí)域包絡(luò)是指500 Hz以下時(shí)域信息,包含信號(hào)的時(shí)長(zhǎng)、幅值輪廓及周期性信息[6]。Smith等[3]提出了基于聽覺感知二分法構(gòu)建刺激聲的“聲嵌合”(auditory chimera)技術(shù),即通過Hilbert轉(zhuǎn)換分別提取A和B兩個(gè)聲信號(hào)的Env成分和TFS成分, 然后將兩個(gè)聲信號(hào)的包絡(luò)與精細(xì)結(jié)構(gòu)成分互換形成“嫁接聲”, 受試者根據(jù)“嫁接聲”判斷其聽到的是A還是B, 從而獲得受試者依靠何種成分進(jìn)行言語(yǔ)識(shí)別。利用該技術(shù)發(fā)現(xiàn),在安靜環(huán)境下包絡(luò)信息對(duì)非聲調(diào)言語(yǔ)感知起決定性作用[3],精細(xì)結(jié)構(gòu)信息對(duì)聲調(diào)語(yǔ)言感知和音樂識(shí)別起決定性作用[4]。Füllgrabe等[8]和Moore[9]發(fā)現(xiàn)利用聲碼器方法將時(shí)域精細(xì)結(jié)構(gòu)信息替代后,受試者在噪聲環(huán)境下的言語(yǔ)(英語(yǔ))識(shí)別成績(jī)明顯下降,從而推測(cè)TFS信息在噪聲環(huán)境下的言語(yǔ)(英語(yǔ))識(shí)別中起主要作用;Apoux等[6]則發(fā)現(xiàn)無論是穩(wěn)態(tài)噪聲還是競(jìng)爭(zhēng)言語(yǔ)噪聲環(huán)境下,Env信息在語(yǔ)句(英語(yǔ))識(shí)別中占主導(dǎo)地位,TFS信息作用甚微。
Env 和TFS信息對(duì)于噪聲環(huán)境下的聲調(diào)語(yǔ)言感知所起的作用與噪聲環(huán)境下的非聲調(diào)語(yǔ)言識(shí)別中起主要作用是相同還是不同值得探討。為此,本研究選用了日常社交中最常遇到的噪聲場(chǎng)景,即多人談話噪聲(babble noise,BN),常用的有2、4、8、12人及以上人數(shù)談話的噪聲,多人談話噪聲作為一種波動(dòng)性噪聲,對(duì)言語(yǔ)信號(hào)的掩蔽作用主要體現(xiàn)在能量掩蔽和信息掩蔽。有研究顯示隨著談話者人數(shù)減少,多人談話噪聲的信息掩蔽效應(yīng)作用增大、能量掩蔽效應(yīng)作用減小[10];其中2人談話噪聲信息掩蔽作用較強(qiáng),常與言語(yǔ)譜噪聲共同用于研究能量掩蔽和信息掩蔽對(duì)聽覺信號(hào)獲取的影響機(jī)制。故本研究選用兩人談話噪聲和言語(yǔ)譜噪聲作為競(jìng)爭(zhēng)噪聲,觀察這兩種噪聲下聽力正常人的聲調(diào)識(shí)別能力及TFS和Env的作用。結(jié)果顯示噪聲環(huán)境下的聲調(diào)識(shí)別需同時(shí)依靠TFS信息和Env信息,而非獨(dú)立依靠TFS信息,該結(jié)果既不同于安靜環(huán)境下聲調(diào)識(shí)別研究結(jié)論,亦不同于噪聲下言語(yǔ)(英語(yǔ))識(shí)別研究結(jié)論。噪聲環(huán)境下TFS線索在聲調(diào)識(shí)別的主導(dǎo)地位減弱,其原因考慮與聲音信號(hào)各成分的特性相關(guān),TFS反映的是聲音信號(hào)中快速變化的成分,其中時(shí)域精細(xì)結(jié)構(gòu)指0.5~10.0 kHz的時(shí)域信息,包含言語(yǔ)信號(hào)的瞬時(shí)相位信息[5]。Env反映的是聲音信號(hào)中緩慢變化的成分,其中時(shí)域包絡(luò)是指500 Hz以下時(shí)域信息,包含信號(hào)的時(shí)長(zhǎng)、幅值輪廓及周期性信息[5]。無論是穩(wěn)態(tài)噪聲或競(jìng)爭(zhēng)性言語(yǔ)噪聲,其掩蔽作對(duì)于聆聽者獲取瞬時(shí)信息的影響較其獲得緩慢變化信息的更大。因此非目標(biāo)聲音(噪聲)對(duì)目標(biāo)聲音(漢語(yǔ)單音節(jié)詞)的掩蔽作用,限制了TFS信息在噪聲下聲調(diào)識(shí)別中的作用地位。但是,在競(jìng)爭(zhēng)性言語(yǔ)噪聲條件下,TFS對(duì)于聲調(diào)識(shí)別的作用較Env大,可能與語(yǔ)音掩蔽釋放(speech masking release)理論相關(guān)[11,12]。該理論認(rèn)為波動(dòng)背景噪聲比穩(wěn)定背景噪聲提供了更多獲取目標(biāo)語(yǔ)音TFS的機(jī)會(huì)。在波動(dòng)背景噪聲下,非目標(biāo)聲音時(shí)域和頻域的波谷區(qū)域?qū)δ繕?biāo)信號(hào)的掩蔽作用相對(duì)減弱,有助于聽覺系統(tǒng)“瞥見(glimpse)”目標(biāo)信號(hào)的生理學(xué)特點(diǎn),即聽力正常人可以從目標(biāo)信號(hào)相對(duì)不受背景影響的時(shí)頻區(qū)域中提取語(yǔ)音信息[13~15]。另外,本研究采用的是4AFC測(cè)試,機(jī)會(huì)概率為25%;測(cè)試結(jié)果顯示只有在最難的測(cè)試條件下(即SNR=-18 dB),平均正確率(28%)才會(huì)接近機(jī)會(huì)概率,因此地板效應(yīng)(floor effect)對(duì)本研究影響很小,故未予考慮。本研究結(jié)果顯示無論是TFS信噪比較好(如:SNRTFS≥0 dB)、Env信噪比較差(如:SNREnv≤-6 dB)條件下,亦或TFS信噪比較差(SNRTFS≤-6 dB)、Env信噪比較好(SNREnv≥0 dB)條件下,聽力正常者均可獲得較好的聲調(diào)識(shí)別,提示TFS和Env 信息協(xié)同作用于噪聲環(huán)境下的聲調(diào)識(shí)別,兩種信息成分互相補(bǔ)充。該結(jié)果支持隨著聽力損失程度加重、外周感受器提取和利用TFS信息的能力下降后,聽障者將更多依賴Env線索進(jìn)行聲調(diào)識(shí)別的研究結(jié)果[16,17]。
綜上所述,時(shí)域精細(xì)結(jié)構(gòu)信息和時(shí)域包絡(luò)信息對(duì)于聽力正常人噪聲下聲調(diào)識(shí)別具有同等作用,兩者協(xié)同作用更有助于提高噪聲條件下的聲調(diào)識(shí)別成績(jī)。本研究結(jié)果為進(jìn)一步了解人工耳蝸植入者進(jìn)行噪聲下言語(yǔ)識(shí)別的困難所在、改進(jìn)人工耳蝸言語(yǔ)編碼策略提供參考。