孟慶林,周華莉,余光正
(華南理工大學 物理與光電學院 聲學研究所,廣東 廣州 510641)
音高是聽覺感知的基本維度之一,在音樂欣賞、聲調和語調感知以及聽覺場景分析中具有重要作用.音高(Pitch,或譯為“音調”)可以被定義為“一種聽覺屬性,依該屬性,可以將聲音進行從高到低的排序”.在音樂中,音符之間的音高變化構成了音樂的旋律;在語音中,音節(jié)之間的音高變化會影響語調,可以用來表達比如陳述或疑問的語氣信息;在聲調語言中,單個音節(jié)之內的音高隨時間變化規(guī)律的不同,形成不同的聲調,可以用來表達不同的含義;在噪聲場景中,音高的不同可被用于分離不同的聲源,從而有助于噪聲中的言語感知.了解音高感知機制,不僅有助于開發(fā)或改進各種與音高任務相關的音頻音樂信號處理算法,也有助于改進助聽器、人工耳蝸等人工聽覺設備對聽力障礙者的助聽效果.
純音(Pure tone)只有一個頻率成分(即單獨一個正弦信號),頻率越高,產(chǎn)生的音高也越高.純音的頻率可以通過耳蝸內基底膜上興奮的峰值位置進行編碼.不同頻率的純音會引起基底膜上不同位置的興奮,可以認為純音音高由基底膜上最興奮的位置決定,即“位置理論”.但有研究者發(fā)現(xiàn),隨著純音聲級的升高,基底膜上最興奮的位置會呈現(xiàn)一定的偏移現(xiàn)象,而感受到的音高基本維持不變[1-2].另一個關于純音感知的理論是“時間理論”,與聽神經(jīng)的相位鎖定有關.在約4~5 kHz的上限頻率以下,聽神經(jīng)傾向于在刺激波形的某一特定相位進行放電,因此,聽神經(jīng)的放電時間間隔約為刺激信號周期的整數(shù)倍,這種方式也提供了對純音頻率(或音高)的編碼.
復合音(Complex tone)中包含多個正弦成分.日常生活中常見的聲音,比如樂器音和語音,包含豐富的諧波復合音(Harmonic complex tone).諧波復合音中的正弦成分的頻率都是某個頻率F0的整數(shù)倍,其中F0被稱為基頻值.樂音和語音中的諧波復合音通常包含頻率為F0,2F0,3F0,4F0,…等連續(xù)若干個諧波成分.諧波復合音雖然由多個諧波成分組成,但是通常認為在每一瞬間它只會誘發(fā)一個音高感受,而不是多個不同的音高感受,其音高通常與以F0為頻率的純音的音高非常接近.即便如此,復合音的音高并不是簡單地由頻率為F0的基頻成分(即第1次諧波)決定的.當把第1次諧波從諧波復合音中去除后,復合音的音高并沒有變化,這就是所謂的“基頻缺失”(Missing fundamental)現(xiàn)象.基頻缺失在生活中也不少見,例如如果一個小型揚聲器不能播放出150 Hz以下的聲音成分,那么F0為100 Hz的諧波復合音經(jīng)由該揚聲器播放后的聲音就不包含基頻成分,但這并不影響相應的音高感受.實際上,諧波復合音中并沒有哪個諧波成分是對音高感受起決定性作用的,當噪聲對諧波復合音產(chǎn)生污染時,殘留的諧波成分(可能是在時間和頻率維度上都是斷續(xù)的)仍可以保證聽者的音高感知不變.
聽者對諧波復合音音高的感知機理可以根據(jù)耳蝸對聲音的時頻編碼規(guī)律來分析.基底膜上不同位置對不同的頻率成分產(chǎn)生最大響應,而這種頻率-位置映射關系不是均勻地線性劃分的,如果把每個位置對輸入聲音的響應過程看作是一個聽覺濾波器,那么對更低頻率(即更靠近蝸尖)產(chǎn)生響應的聽覺濾波器的絕對頻率帶寬是更窄的.這種規(guī)律導致耳蝸對低頻區(qū)域的頻率分辨率更好.圖1(a)所示為13個諧波復合音組成的音符串,每個復合音包含前7次諧波.對于諧波復合音來說,低次諧波可能被基底膜不同位置處的聽覺濾波器分別進行處理,而高次諧波則會出現(xiàn)多次諧波進入同一個聽覺濾波器的情況.例如,圖1(c)所示為中心頻率在50~8 000 Hz之間的80個Gammatone聽覺濾波器輸出的波形,代表著相應位置處基底膜的振動情況.聽神經(jīng)對低次諧波的音高編碼就同時包含位置編碼(即不同諧波在基底膜上的不同位置產(chǎn)生最大響應)和時間編碼(聽神經(jīng)放電的相位鎖定),對高次諧波的編碼主要為時間編碼(因為多次諧波的疊加形成的波形會呈現(xiàn)出以1/F0為周期的時域包絡,聽神經(jīng)會對該包絡進行相位鎖定).其中低次諧波對音高感知的貢獻較強,高次諧波的貢獻較弱.由此可見,F(xiàn)0的相關信息廣泛分布于基底膜(或聽神經(jīng))的不同位置,尤其是聽神經(jīng)對不同位置處的單個諧波或多個混合諧波的相位鎖定會使得聽神經(jīng)的電脈沖間隔中大量分布著基頻值的信息.正因為F0的相關信息在聽神經(jīng)中不同位置的廣泛分布,諧波復合音的音高感知是強烈地與以F0為頻率的純音音高相同,且不容易受其他因素干擾.圖1(f),(g),(h)展示了F0在正常耳蝸中的處理情況.
圖1 正常耳蝸和人工耳蝸對諧波復合音的編碼示意圖Fig.1 Coding of complex tones in a normal cochlear and a cochlear implant(a)13個復合音組成的音符串,相鄰兩個音之間的音程為兩個半音,最低音和最高音的基頻分別為220 Hz和880 Hz(相差兩個倍頻程);(b)某人工耳蝸對(a)中聲音處理后的電極圖;(c)80通路Gammatone濾波器組所代表的正常耳蝸的基底膜對(a)聲音的響應圖;(d)—(g)分別為(b)和(c)中相應區(qū)域的局部放大顯示;(h)為(g)中相應區(qū)域的局部放大顯示.
諧波復合音中諧波成分的強度比例(或諧波復合音的頻譜包絡形狀)很大程度上決定了音色(Timbre)感知,但不會對音高感知產(chǎn)生明顯的影響.音色差異的典型例子是不同樂器的聲音、不同元音、不同說話人的講話等.因此,可以認為頻譜包絡影響了音色感知,頻譜精細結構(即每個諧波的具體頻率位置)影響了音高感知.然而,根據(jù)前述分析,這里頻譜的精細結構主要是通過低頻可分辨諧波(每個諧波的周期性波動)和高頻不可分辨諧波(局部多個諧波疊加形成的與F0同步的時域周期性)被相應區(qū)域的聽神經(jīng)以相位鎖定的形式進行編碼的.因此,時域周期性(Periodicity)信息在音高編碼中起到了決定性作用.
在心理聲學實驗中常用的純音是人為設計出來的;諧波復合音是在音樂、語音等聲音中普遍自然存在的.純音可以看作是諧波復合音的特例.純音在聲學研究和臨床聽力學中有大量應用,而諧波復合音對于實際生活中的音高感知問題更具有現(xiàn)實意義.
人工耳蝸是一種幫助重度以上感音神經(jīng)性聽力損失者恢復或獲得聽力的植入式聽覺輔助設備,其全球植入人數(shù)已經(jīng)超過80萬人.人工耳蝸主要由3部分組成:體外的言語處理器(通常包括一個或多個傳聲器,一個將聲音信號編碼成適當?shù)拇碳ば盘柕奶幚砥骱鸵粋€發(fā)射線圈),植入的接收器/刺激器(接收處理器發(fā)送的信號并解碼,生成相應的電信號)和插入耳蝸內的電極陣列.其基本原理為:通過體外的傳聲器撿拾聲信號,然后在信號處理器中對聲信息進行編碼,再通過植入耳蝸內的電極傳遞電流刺激聽神經(jīng),從而產(chǎn)生聽覺.人工耳蝸重建了耳蝸中毛細胞的聲電轉換功能,將外部聲環(huán)境與聽覺神經(jīng)通路重新連接.
人工耳蝸對聲信號的編碼方法通常稱為信號處理策略,目前常用的人工耳蝸信號處理策略,比如連續(xù)間隔采樣(Continuous Interleaved Sampling,CIS)[3]和高級混合編碼(Advanced Combinational Encoder,ACE)[4],主要的信號處理流程如圖2所示.聲音信號首先經(jīng)過帶通濾波器組分成若干通道(通常在24以內,依品牌而異,每個通道對應一個電極),分別提取各通道內的時域包絡,再進行非線性壓縮以匹配植入者的動態(tài)范圍,然后用壓縮過的包絡對恒定速率的雙相電脈沖串進行幅度調制,用于各個電極的刺激.總體來說,人工耳蝸中的信號處理策略主要傳遞了有限通道內的時域包絡信息.
圖2 人工耳蝸的信號處理策略流程示意圖Fig.2 Functional block diagram of the signal processing strategy in cochlear implants
在人工耳蝸中,聲音的頻譜包絡通過分布在耳蝸內的各個電極的刺激幅度及其相對大小來表達,這是基于正常聽覺系統(tǒng)的“位置編碼”設計的.然而目前的人工耳蝸電極數(shù)較少(12到24個),要將較寬的聲音頻率范圍分配到這樣少數(shù)的電極上,能實現(xiàn)的頻率分辨率是很低的.由于電極位置距離聽神經(jīng)較遠,電極之間還會有電場干擾.電極植入位置、頻率分配、聽神經(jīng)特征頻率之間的不匹配情況也會影響頻域信息的精確表達.另外,如果采用的帶通濾波器的幅頻響應不是理想的矩形,那么通道間就會存在頻譜的泄露.這些原因綜合在一起,導致人工耳蝸的位置編碼是很粗糙的.關于人工耳蝸中的核心信號處理技術可以參見文獻[5].
純音的音高(或頻率)的變化,在正常耳蝸中表現(xiàn)為基底膜最大響應位置的變化和聽神經(jīng)相位鎖定信息的變化;在人工耳蝸中則主要表現(xiàn)為放電電極位置的變化,由于人工耳蝸信號處理策略是基于時域包絡的,那么純音的時域周期性基本在人工耳蝸電刺激信號中得不到體現(xiàn)(除了在幾百赫茲以下的純音).由于人工耳蝸位置編碼的粗糙性,純音在人工耳蝸中的放電位置的調諧特性相比于正常耳蝸也粗糙許多,甚至在中低頻段通常一個純音可以誘發(fā)兩個或更多電極產(chǎn)生幅度較大的刺激(這與電聽覺電流動態(tài)范圍較窄有關).
諧波復合音的音高變化,如前1.1節(jié)所述,在正常耳蝸中通過高度的頻率選擇性和良好的時域跟蹤能力,以基頻F0信息編碼的形式得到了豐富且一致的表達;在人工耳蝸中則只有粗糙的頻率選擇性和較弱的時域跟蹤能力(詳見1.3節(jié)討論),導致F0相關信息的表達被弱化.圖1(b)所示為(a)圖對應的諧波復合音經(jīng)過一個ACE策略后的電極圖(橫坐標為時間,縱坐標為電極號,短線高度代表脈沖幅度).人工耳蝸對諧波復合音的F0編碼主要表現(xiàn)為每個電極通道中的電刺激信號包絡中包含的時域周期性信息.這種與基頻值同步的電信號的時域周期性被聽神經(jīng)以相位鎖定的方式進行編碼,進而可能提供一定的音高感受,但是只局限于較低頻率,如圖1(d)只對應于220 Hz的F0,而在高基頻時編碼很差;圖1(e)是F0=880 Hz時對應的電極圖,沒有顯示與F0相應的時域周期性表達.其中僅存的少量與基頻值同步的時域周期性是源自較寬的帶通濾波器中進入的多個諧波疊加后的波形形式.人工耳蝸利用時域周期性進行音高感知的機理與健聽者在高頻區(qū)的音高感知機理是相似的.但是,相比于健聽者的低頻區(qū)音高編碼,這種多諧波疊加后的周期性所傳遞的音高感知,無論對于健聽者的高頻區(qū)還是對于人工耳蝸的所有頻段都是較弱的.仿真研究顯示,人工耳蝸的有效通道數(shù)如果能增加2到4倍,音樂的音高變化才有可能得到較好地表達[6].
總之,基于現(xiàn)有的人工耳蝸信號處理策略的水平,人工耳蝸的音高感知會明顯弱于健聽者.從對諧波復合音的分析來看,人工耳蝸在音樂、語音等聲音的音高感知任務中都可能遇到顯著的困難.
在常用的人工耳蝸信號處理策略中,所有通道內的電脈沖刺激速率是恒定值(例如900 Hz或更高).因此,在人工耳蝸植入者日常聆聽時只能利用電脈沖的幅度起伏來獲取聲音中的信息.在人工耳蝸的研究歷史上,大量的研究采用了單電極的心理物理學實驗,通過人為地精確操控單個電極上的脈沖發(fā)放時刻、脈沖幅度、脈沖波形等來開展電聽覺編碼規(guī)律的研究.尤其是,其中發(fā)放時刻和幅度的變化都可以表達時域聽覺信息.有對動物的電生理研究發(fā)現(xiàn)單個聽神經(jīng)對頻率高達至少12 kHz的電刺激依然存在相位鎖定[7],然而,心理物理研究發(fā)現(xiàn)多數(shù)人工耳蝸植入者對單個電極上電刺激的時域信息變化感知能力在約300 Hz(少數(shù)人可以達到800 Hz左右)時會出現(xiàn)飽和,當電刺激的重復速率超過這個上限時,多數(shù)植入者不能辨別出時域信息的變化[8-10].目前多數(shù)人工耳蝸信號處理策略中,各通道提取的包絡也大致在300 Hz 以內.電聽覺的這個時域檢測能力的上限(300~800 Hz)遠低于正常耳蝸中聽神經(jīng)相位鎖定的頻率上限.人工耳蝸信號處理策略只保留時域包絡,丟棄了時域精細結構信息,有一部分原因就是來自于電聽覺的這個時域限制.語音的基頻范圍大約在50~500 Hz之間,其中一部分仍然在電聽覺時域限制范圍以內,因此時域周期性中表達的,約300 Hz以下的基頻F0相關信息,仍可能被植入者利用來對音高進行感知.
根據(jù)上述分析可知,人工耳蝸植入者利用有限的時域編碼能力,可以對約300 Hz以下的F0對應的音高進行編碼,但這種編碼能力是遠弱于健聽者的音高編碼能力.另外,單電極上的這種時域音高編碼還會受到刺激位置的影響,在靠近蝸尖的電極上進行時域編碼可能比靠近蝸底的電極上更好[11].
值得注意的是,雖然在文獻中,“位置音高”(Place pitch)的說法很常見.比如有一些實驗在不改變刺激信號的時域信息的條件下變化刺激的位置,引導受試者比較兩個或多個聲音的音高高低,即比較“位置音高”.另外,還有研究發(fā)現(xiàn),通過同時刺激兩個電極位置可以誘發(fā)出介于兩個“位置音高”之間的音高感受,這項技術被用于某些人工耳蝸系統(tǒng)中,寄希望于能提供更精細的音高(或頻率)分辨率.但是“位置音高”的研究通常不能排除音高以外的聽覺屬性的影響,比如音色.
對于諧波復合音來說,如前所述,音色受到頻譜包絡的顯著影響,而人工耳蝸中電刺激位置相關的電能量分布表達了粗略的頻譜包絡信息,因此刺激位置的分布變化在很多情況下直接影響的是音色感知變化,而不是音高感知的變化[12-13].例如,Nelson等[14]在1995年的一項關于“位置音高”和言語感知的研究中,發(fā)現(xiàn)受試者報告在變化刺激電極時,聲音會變“尖”,提出與改變刺激電極相關的感知維度可能是音色而不是音高.Marimuthu[15]在植入者的“位置音高”感知任務和健聽者對聲音的“明亮度”感知任務中觀察到了類似的趨勢,提出可能植入者在“位置音高”感知任務中感知到的實際是聲音的“明亮度”,而不是音高.有研究表明,通過感知實驗結合多維尺度分析方法,發(fā)現(xiàn)刺激位置和刺激速率呈現(xiàn)出類似于音色和音高之間的獨立關系.當兩者協(xié)同變化時,通常有助于音高感知任務的完成;當兩者產(chǎn)生沖突時,音高感知任務也會受到明顯的影響.這兩個感知屬性呈現(xiàn)正交關系[16].Reiss課題組近年來開展了一系列關于雙耳音高融合(Binaural pitch fusion)的研究,發(fā)現(xiàn)人工耳蝸的植入者非常容易把兩側耳聽到的具有不同音高的兩個聲音,融合聽為一個具有平均音高的聲音[17-18].這種現(xiàn)象也許可以用音色感知來解釋.
在語音信號中,頻譜中的共振峰分布差異可以用于區(qū)分不同的元音,這種能力也可以被認為是聽者對音色的區(qū)分和范疇化感知.共振峰與基頻是沒有必然聯(lián)系的,共振峰由聲道的共振特性決定,而基頻由聲門的開合速率決定.例如,有研究者采用雙元音進行音高感知研究[19],其背后的原因就是雙元音中包含復雜的共振峰滑動變化,在雙元音中音色和音高的升降趨勢可能出現(xiàn)沖突,這種復雜的變化會給人工耳蝸植入者的音高感知帶來挑戰(zhàn).
因此,雖然在大量的基礎心理物理實驗中,“位置音高”和“時間音高”被廣泛用于解釋人工耳蝸的音高編碼機制,但是從實際生活中常見的語音和音樂等音高感知任務中可以觀察到,“位置音高”說法的意義較小,還往往與音色感知相混淆,需要在研究中引起注意.音色與音高在人工耳蝸植入者的各項感知任務中的貢獻權重也是近期的研究熱點[20-22].
大多數(shù)人工耳蝸用戶在安靜環(huán)境中都能獲得較好的言語識別能力,但是在音高感知相關任務中的表現(xiàn)與健聽者有較大差距.最直接的證據(jù)來自音樂音高感知實驗.另外,此種差異還體現(xiàn)在語音音高信息的提取方面(下面以漢語的聲調感知為例進行介紹),更進一步會影響復雜聲場景中的語音感知.
在音樂中,兩個音符之間的最小音程為一個半音,對應的基頻差別約為6%.然而,大部分人工耳蝸植入者的基頻差別分辨閾限均大于這一值.Goldsworthy[23]采用自適應的方法測試了一組人工耳蝸植入者(9名)和一組性別年齡均與植入者組匹配的健聽受試者(9名),對經(jīng)過帶通濾波的諧波復合音(基頻為110,220和440 Hz)的基頻差別閾限進行測量,發(fā)現(xiàn)植入者的基頻差別閾限幾何均值為12.5%,顯著高于健聽者組的1.4%.Marx等[24]對比了植入者(10名)和健聽者(15名)對5個諧波組成的復合音(基頻為110,220,400,500和750 Hz)的差別閾限,發(fā)現(xiàn)植入者的基頻差別閾限均值為34.0%,遠高于健聽者的2.2%.人工耳蝸植入者的基頻分辨差別閾限高于一個半音對應的約6%,提示大部分植入者可能都無法準確感知音樂中的音高變化,即旋律.在人工耳蝸植入者的旋律感知研究[25]中,的確發(fā)現(xiàn)植入者在準確感知音樂旋律上存在很大困難.
以上例子是關于諧波復合音的基頻分辨能力的,而旋律感知所依賴的不僅僅是區(qū)別音高差別,還需要能準確地感知音高之間的音程關系(例如一個八度)[12].由于電極位置的失配和音高編碼的時域上限,這種音程關系也無法得到有效表達.因此,在很寬的音樂音高范圍內,基頻分辨和音程關系表達方面的缺陷導致人工耳蝸植入者對音樂音高的感知能力很差,不能有效地進行旋律感知.對于雙側植入者來說,如果兩側音高的感知不匹配,雙耳聆聽比單耳聆聽在旋律感知中有表現(xiàn)更差的風險[26].
在聲調語言中,音高在音節(jié)內隨時間變化的輪廓可以用來傳遞不同的語義信息.漢語普通話的典型聲調有4個,即陰平、陽平、上聲、去聲,其音高或基頻輪廓分別為高平、升、降-升、降.漢語語音的音高除了傳遞聲調信息,也可以像其他語言一樣傳遞語調、情感、說話人的特質等.語音的基頻大致在50到500 Hz之間,根據(jù)前述人工耳蝸的時域音高理論,利用時域周期性信息可以進行一定程度的語音音高編碼.已有數(shù)據(jù)表明,與健聽兒童相比,植入人工耳蝸的兒童的聲調識別要差一些[27].人工耳蝸植入者的聲調識別能力有較大的個體間差異,其中表現(xiàn)優(yōu)秀的植入者可以獲得非常好的識別率(例如大于90%)[28].
從聲調的聲學特征的角度來看,音高或F0的相關信息是主導健聽者進行聲調感知的主要特征.已有研究表明,除了F0這個主要線索外,還有一些次要線索可能在某些特殊情況下輔助聲調識別,例如響度輪廓(或稱為振幅輪廓)、音節(jié)時長、音色輪廓等.對于健聽者來說,有研究者采用人為去除部分F0相關信息來進行聲調測試,觀察到了次要線索的貢獻[29-31].而對于人工耳蝸植入者來說,他們的F0編碼本來就比較弱,因此次要線索的影響和貢獻就自然成為另一個重要的研究課題.各個聲學特征對于人工耳蝸聲調感知的貢獻大小仍需要進行詳細的實驗研究,并且對具有不同聽覺經(jīng)驗的人工耳蝸的受試者來說,聲學特征的貢獻比例也可能存在明顯不同.
健聽者可以在嘈雜的聲音場景中聽懂講者的講話,在歷史上這類現(xiàn)象被稱為“雞尾酒會現(xiàn)象”(Cock-tail party phenomenon),在心理聲學的研究體系中與“聽覺場景分析”(Auditory scene analysis)密切相關.研究發(fā)現(xiàn),音高差異有助于聽者從兩個說話人中提取其中某一說話人的語音信息,例如在一男一女同時說話的場景中聽一個男聲比在兩個男性同時講話時聽其中一個男聲的難度更低.如前所述,健聽者的音高(F0)信息廣泛分布于耳蝸基底膜上和聽神經(jīng)中,而語音信號在時間上是斷續(xù)的,在頻率上有時也是離散的線譜,因此兩個語音同時發(fā)生時它們之間不容易產(chǎn)生很強的能量掩蔽.當說話人F0范圍差距較大時,聽者可以根據(jù)傾聽需求整合具有相似F0信息的時頻區(qū)域為目標語音,同時忽略其他F0偏離較大的區(qū)域.更多相關信息可以參見文獻[32].
人工耳蝸的頻率分辨率較低、時間檢測能力也有限,這些因素導致F0只能通過通道內的時域周期性得到較弱的表達.當兩個說話人同時講話時,兩個語音流的諧波很容易在人工耳蝸通道內產(chǎn)生疊加,這既進一步破壞了諧波的可分辨性,也破壞了殘存的時域周期性信息.因此,人工耳蝸植入者在噪聲干擾條件下的語音識別能力會明顯下降.例如Chen等[33]對比了健聽者和人工耳蝸植入者在多人同時交談的語音中的語音提取能力,發(fā)現(xiàn)說話人的性別差異(即目標語音和背景干擾為不同性別說話人的語音與兩者為相同性別說話人的語音進行對比)讓健聽者可以獲得高達12 dB的優(yōu)勢,而人工耳蝸植入者獲得的優(yōu)勢則僅為2 dB.
由以上討論可見,人工耳蝸的音高感知能力與健聽者有較大差距.另外,植入者個體之間的差距也很大,通過特定的訓練可以幫助改善部分人工耳蝸用戶在一些心理物理任務中的音高感知[34-36].從技術層面看,如何改進信號處理策略以改善人工耳蝸音高感知能力是目前的一個研究熱點.具體的改進方向列舉如下:
a)幅度調制:在CIS策略中,對時域包絡進行額外的幅度調制,其中幅度調制的頻率與當前聲音中的基頻值相等,如Laneau等[37-38]提出的F0mod策略,Vandali等[39-40]提出的eTone策略(后更名為OPAL(Optimized pitch and language)策略)等.Fu等[36]采用一種長電極(MED-EL品牌,插入深度為1.5~2.0圈)探究了不同電極位置上用100~1 500 Hz的速率進行刺激,發(fā)現(xiàn)越靠近蝸底的電極在低刺激速率時更容易引起不舒適的音質感受,因此作者認為在低頻電極進行時域增強會更有利.
b)脈沖發(fā)放時刻控制:在一些低頻通道中,在過零點或峰值點發(fā)放電脈沖,用非均勻的脈沖速率來取代原來的固定脈沖速率,原始聲音信號中的部分時域精細結構通過電脈沖的發(fā)放時間顯式地表達.如奧地利MED-EL公司的FSP(Fine structure processing)策略[41],Van Hoesel等[42]提出的PDT(Peak derived timing)策略等.
c)基于抖動的聽覺重啟:在固定高速率的電脈沖串中插入少量電脈沖(以基頻為周期間隔),如Lindenbeck等[43]的研究,寄希望于通過少量不規(guī)則抖動時刻的脈沖來重啟或加強聽神經(jīng)對時域信息的靈敏度.該方法源于對雙側人工耳蝸的雙耳時間差的增強研究.研究者認為刺激速率分辨和雙耳時間差分辨在生理機制上有相似性,的確,初步實驗數(shù)據(jù)也支持了此假設.
d)隱式的時域精細結構增強:通過移頻的方法,將部分原本快變的時域精細結構隱式地轉換為慢變的時域精細結構,如Nie和Li等[44-47]提出的HSSE(Harmonic-single-side-band encoder)策略和Meng等[48-49]提出的TLE(Temporal limits encoder)策略.
這些方向都是基于現(xiàn)有的電極水平進行的時域編碼調整,從發(fā)表的文獻來看,它們都在一定程度上提升了某方面的音高感知能力,需要結合更多的臨床實驗來進行信號處理算法的優(yōu)化.
健聽者的音高編碼依賴于正常耳蝸中基底膜上或聽神經(jīng)中F0相關信息的廣泛分布,其中主要包括:1)對每個低頻可分辨諧波的位置編碼和相位鎖定的時間編碼;2)對高頻不可分辨諧波的聽覺濾波器通道內與F0同步的時域周期性的相位鎖定的時間編碼.
人工耳蝸是通過植入耳蝸內的少數(shù)電極刺激聽神經(jīng)來幫助聽力損失者恢復聽力,其中電極數(shù)目和電刺激聽覺時域能力的局限性導致F0的相關信息不能得到充分編碼,僅在通道的時域周期性信息上得到反映.電極數(shù)目和電極間電場干擾限制了對頻率的分辨率,但是電極間的分辨是否代表音高差別是有爭議的,其中還涉及到音色感知屬性的問題.人工耳蝸植入者對于音高(與基頻同步的周期性)和音色(與共振特性相關的共振峰)的感知和依賴程度與正常聽力者,甚至與其他聽力損失人群的區(qū)別是研究熱點.
人工耳蝸植入者的音高感知能力較弱,這直接影響了他們在音樂音高感知、聲調感知、干擾噪聲中的語音感知等.這方面的算法改進也是人工耳蝸領域的研究熱點,需要進一步結合臨床應用開展更多的理論和實驗研究工作.