国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于說(shuō)話人辨識(shí)的自上而下聽覺顯著性注意模型①

2017-07-19 12:27葉于林莫建華
關(guān)鍵詞:權(quán)值發(fā)音顯著性

葉于林, 楊 波, 莫建華, 劉 夏

1(中國(guó)人民解放軍78438部隊(duì), 四川 成都 610066)

2(中國(guó)人民解放軍68108部隊(duì), 甘肅 蘭州 730030)

基于說(shuō)話人辨識(shí)的自上而下聽覺顯著性注意模型①

葉于林1, 楊 波2, 莫建華1, 劉 夏1

1(中國(guó)人民解放軍78438部隊(duì), 四川 成都 610066)

2(中國(guó)人民解放軍68108部隊(duì), 甘肅 蘭州 730030)

為體現(xiàn)聽覺注意神經(jīng)信息處理計(jì)算機(jī)制對(duì)聽覺場(chǎng)景內(nèi)容的自動(dòng)分析與理解功能, 本文基于人耳對(duì)頻率變換的感知特性, 結(jié)合深度信念網(wǎng)絡(luò)的說(shuō)話人辨識(shí)與聽覺顯著模型, 提出了一種自上而下的聽覺顯著性注意提取模型.仿真結(jié)果表明: 該模型具有可行性, 同時(shí)在利用深度信念網(wǎng)絡(luò)的說(shuō)話人辨識(shí)技術(shù)中能夠有效地凸顯目標(biāo)說(shuō)話人的顯著度.

聽覺顯著性注意; 顯著性注意提取模型; 深度信念網(wǎng)絡(luò); 說(shuō)話人辨識(shí)

耳朵是人體生理結(jié)構(gòu)不可缺少的一部分, 在復(fù)雜的聲源環(huán)境中, 人類首先通過(guò)它獲取大量的聽覺信息,然后再經(jīng)過(guò)大腦神經(jīng)系統(tǒng)分析處理, 最后智能提取出我們所需的信息, 這就是人類聽覺系統(tǒng)的選擇性注意特性的具體表現(xiàn). 聽覺選擇性注意是人類對(duì)外界聲音信息進(jìn)行加工處理的一項(xiàng)心理調(diào)節(jié)機(jī)制, 它體現(xiàn)了處理過(guò)程中的效率, 即在大量的聲音信號(hào)中, 選擇提取有用信號(hào)并抑制大部分的干擾信號(hào)以確保有用信號(hào)的進(jìn)一步加工. 通過(guò)模擬人類聽覺系統(tǒng)這種選擇性注意能力, 研究探索具有一定主動(dòng)性、選擇性的聽覺選擇性注意計(jì)算模型算法, 使得計(jì)算機(jī)語(yǔ)音處理系統(tǒng)也像人類聽覺系統(tǒng)一樣具有一定的聽覺主動(dòng)性和選擇性, 對(duì)豐富和發(fā)展計(jì)算機(jī)聽覺理論及其在語(yǔ)音處理、人工智能等多個(gè)研究領(lǐng)域中都具有重要的意義, 同時(shí)對(duì)人耳聽覺系統(tǒng)的研究也有著深遠(yuǎn)的影響, 這也是近年來(lái)國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)課題.

目前國(guó)內(nèi)外對(duì)于顯著性注意的研究主要集中在視覺上, 近年來(lái)各大院校都相繼有視覺關(guān)注度相關(guān)的文獻(xiàn)報(bào)道. 對(duì)于聽覺關(guān)注度的研究尚處于起步階段, 其主要以具有突發(fā)性的自下而上顯著性聲源[1]為研究對(duì)象,即自下而上聽覺顯著性注意模型研究, 但在研究過(guò)程中未深入考慮聽覺顯著性和視覺顯著性的差異. 所以,本文在人耳聽覺系統(tǒng)對(duì)語(yǔ)音信息的研究過(guò)程中, 將語(yǔ)音信號(hào)分別進(jìn)行頻率通道和時(shí)間通道處理, 并結(jié)合頻率上的差異, 首先提出一種自下而上聽覺顯著性注意計(jì)算模型, 同時(shí)為了體現(xiàn)聽覺注意神經(jīng)信息處理計(jì)算機(jī)制對(duì)聽覺場(chǎng)景內(nèi)容有自動(dòng)分析與理解功能, 在自下而上聽覺顯著性注意計(jì)算模型的基礎(chǔ)上加入語(yǔ)音流的說(shuō)話人辨識(shí)技術(shù), 得到一種自上而下聽覺顯著性注意計(jì)算模型, 其目的是模擬人類聽覺系統(tǒng)在復(fù)雜的多聲源環(huán)境下智能提取感興趣或重要的聲音內(nèi)容, 即“雞尾酒會(huì)效應(yīng)”[2]. 仿真結(jié)果表明: 結(jié)合了說(shuō)話人辨識(shí)技術(shù)的自下而上聽覺顯著性注意計(jì)算模型, 能夠在語(yǔ)音流中有效降低非目標(biāo)說(shuō)話人的聽覺顯著性, 從而提高目標(biāo)說(shuō)話人的聽覺顯著性.

1 聽覺顯著性注意模型

1.1 自下而上聽覺顯著性注意模型

自下而上顯著性模型最早出現(xiàn)在圖像研究中[3], 以Itti和Kouch提出的計(jì)算模型(即Itti模型)[4]最受肯定.Itti模型首先從原始圖像中提取出顏色、方向、亮度三種特征圖, 并利用中心周邊差異算子提取特征的對(duì)比度, 再將三種特征顯著性注意線性合并作為最終的顯著性注意. 聽覺顯著性注意模型這一概念最早由Kayser[5]等人提出, 模型流程如圖1所示, 該模型將聲音信號(hào)的語(yǔ)譜圖作為原始圖像輸入, 利用Itti模型的原理來(lái)提取語(yǔ)音信號(hào)的聽覺顯著性注意. 之后, Kalinli在Kasyer的基礎(chǔ)上, 在特征提取時(shí)增加了方向和基音特征, 并采用了不同的歸一化方法[6]. 隨后, Durk Talsma[7]等人開始研究視、聽覺關(guān)注機(jī)制與多種感知融合的交互影響, 試圖建立一個(gè)融合機(jī)制的統(tǒng)一框架.

根據(jù)以上的模型流程圖, 將語(yǔ)音信號(hào)的語(yǔ)譜圖完全作為視覺顯著性注意模型的輸入并提取相應(yīng)的特征,這樣做并未充分考慮到聽覺信號(hào)和視覺信號(hào)的差異,視覺顯著度突出的是二維區(qū)域的顯著度, 而聲音信號(hào)顯著度的重點(diǎn)則體現(xiàn)在時(shí)間和頻率維度的變化上. 為了有利于突出語(yǔ)音信號(hào)顯著度在時(shí)間和頻率維度上的變化, 本文將語(yǔ)譜圖的各個(gè)頻帶、各幀數(shù)據(jù)看作一個(gè)時(shí)間流, 來(lái)做相應(yīng)的處理, 具體處理算法如下.

圖1 Kayser模型流程圖

首先將語(yǔ)音信號(hào)進(jìn)行預(yù)處理、分幀、求得語(yǔ)譜圖Ptf, t表示幀數(shù). 再用24個(gè)不同帶寬的帶通濾波器將Ptf在頻率和時(shí)間上分別劃分為2 4個(gè)頻率通道和時(shí)間通道, 這24個(gè)帶通濾波器都為三角濾波器, 并且在梅爾頻率下是均勻分布的, 梅爾頻率與一般頻率f的關(guān)系為:

式中i=1, 2, 3, …, 24, σ1=2, σk+1=2×σk, k={1, 2, 3, 4, 5}.將每個(gè)頻率通道和時(shí)間通道不同層次的濾波結(jié)果分別線性合并得到按時(shí)間變化的聽覺顯著性注意模型RR和按頻率變化的聽覺顯著性注意模型SS.

其后合并RR和SS, 本文引用圖像方面的全局加強(qiáng)法. 全局加強(qiáng)法的優(yōu)點(diǎn)是加強(qiáng)突出注意目標(biāo)貢獻(xiàn)大的特征而削弱貢獻(xiàn)小的特征. 具體策略是將各特征圖的特征值歸一化到同一個(gè)范圍內(nèi)后, 找出每一幅特征圖的全局極大M和除此全局極大之外的其他局部極大的平均值, 給每一幅特征圖乘以加強(qiáng)因子, 這就是每幅特征圖的權(quán). 這里的“全局”體現(xiàn)在將每幅特征圖的全局極大與其他活躍區(qū)的平均水平作比較, 差別越大, 權(quán)值就越大, 這種顯著性就更加被放大; 差別越小, 權(quán)值就越小, 該特征圖就越容易被忽略.

采用全局加強(qiáng)法合并RR和SS得到最終的自下而上聽覺顯著性注意模型REI為:

1.2 自上而下聽覺顯著性注意模型

本文的自上而下聽覺顯著性注意模型原理框圖如圖2所示.

圖2 自上而下聽覺顯著性注意模型

該模型基于時(shí)間-頻率層面, 對(duì)語(yǔ)音流前期預(yù)處理之后, 首先采用本文提出的聽覺顯著性注意模型提取算法提取語(yǔ)音流的顯著性注意模型, 即得到自下而上聽覺顯著性注意模型, 然后將語(yǔ)音流前期處理之后提取的特征參數(shù)與目標(biāo)說(shuō)話人的信息一起輸入到說(shuō)話人辨識(shí)網(wǎng)絡(luò)中進(jìn)行說(shuō)話人辨識(shí), 通過(guò)識(shí)別結(jié)果即可知道哪些時(shí)間段是目標(biāo)說(shuō)話人的發(fā)音, 將辨識(shí)結(jié)果與語(yǔ)音流的自下而上顯著性注意模型線性合并, 即可得到自上而下的顯著性注意模型. 本文的語(yǔ)音特征提取采用普遍認(rèn)為能夠體現(xiàn)人耳聽覺特性的梅爾倒譜系數(shù)(mfcc)作為特征參數(shù), 同時(shí)鑒于人體大腦結(jié)構(gòu)非常復(fù)雜以及人體耳朵特殊的生理結(jié)構(gòu), 在說(shuō)話人辨識(shí)部分采用基于疊層自動(dòng)編碼機(jī)作為基礎(chǔ)模塊的深度信念網(wǎng)絡(luò).

對(duì)上面的模型原理框圖進(jìn)行分析, 該改進(jìn)的模型對(duì)先驗(yàn)信息有一定的依賴性, 本文先驗(yàn)信息主要體現(xiàn)在聲源數(shù)量確定、噪聲為白噪聲、說(shuō)話人語(yǔ)音信號(hào)沒有重疊等, 其優(yōu)點(diǎn)是可以顯著提高識(shí)別性能, 缺點(diǎn)是識(shí)別結(jié)果明顯偏向于模型中出現(xiàn)過(guò)的語(yǔ)音信號(hào). 而現(xiàn)實(shí)聲源環(huán)境中是非常復(fù)雜的, 如聲源數(shù)量不確定、聲源信號(hào)方位信息也可能在實(shí)時(shí)發(fā)生變化、嘈雜的背景噪聲等多種可能性, 且這些先驗(yàn)信息都是無(wú)法確定的, 因此, 在實(shí)際應(yīng)用中應(yīng)考慮大規(guī)模聲源信號(hào)的分離與識(shí)別, 同時(shí)多方面考慮影響語(yǔ)音信號(hào)特性的因素, 還要考慮識(shí)別過(guò)程中噪聲消除、語(yǔ)音增強(qiáng)、如何處理回音等多個(gè)方面的問(wèn)題, 使得該模型在現(xiàn)實(shí)生活中得以應(yīng)用.

2 基于疊層自動(dòng)編碼機(jī)的深度信念網(wǎng)絡(luò)說(shuō)話人辨識(shí)

說(shuō)話人辨識(shí)是說(shuō)話人識(shí)別的一種, 即對(duì)目標(biāo)說(shuō)話人的識(shí)別過(guò)程, 識(shí)別技術(shù)目前主要有基于高斯混合模型(GMM)的說(shuō)話人辨識(shí)系統(tǒng)[8]、利用因子分析的說(shuō)話人辨識(shí)系統(tǒng)[9]、基于神經(jīng)網(wǎng)絡(luò)的說(shuō)話人辨識(shí)系統(tǒng)[10]等.GMM、因子分析等方法并不能有效模擬人腦的識(shí)別過(guò)程, 對(duì)于神經(jīng)網(wǎng)絡(luò)的辨識(shí)系統(tǒng), 雖然能夠有效模擬人腦的神經(jīng)元, 但是由于人體大腦的結(jié)構(gòu)非常復(fù)雜, 所以普通神經(jīng)網(wǎng)絡(luò)一直得不到廣大研究者的滿足, 故深度多層的神經(jīng)網(wǎng)絡(luò)研究也就開始出現(xiàn)[11]. 隨著研究深入,Hinton等首先提出的深度信念網(wǎng)絡(luò)(Deep Belief Networks)[12], 采用多層結(jié)構(gòu)的DBN(由波爾茲曼模型(RBM)作為每層訓(xùn)練的基礎(chǔ)模塊)使得深度網(wǎng)絡(luò)在學(xué)習(xí)效率上有了突破性的進(jìn)展. 之后不久, Bengio等發(fā)表文章把DBN的成功歸納為采用了逐層無(wú)監(jiān)督的預(yù)訓(xùn)練步驟(Layer-wise Unsupervised Pre-traning)[13]. 同時(shí)另外一種名叫自動(dòng)編碼機(jī)(Autoencoders)的基礎(chǔ)模塊也被提出, 同樣取得了很好的學(xué)習(xí)效果. 通過(guò)理論比較分析DBN和自動(dòng)編碼機(jī)的復(fù)雜程度和可實(shí)現(xiàn)性, 本文采用自動(dòng)編碼機(jī)作為多層DBN的基礎(chǔ)模塊.

自動(dòng)編碼機(jī)類似于一個(gè)含有單一隱含層的神經(jīng)網(wǎng)絡(luò), 共有3層, 其中隱藏層為數(shù)據(jù)的特征表達(dá), 通過(guò)最小化輸入層與輸出層之間的誤差來(lái)校準(zhǔn)網(wǎng)絡(luò)權(quán)值, 基本的結(jié)構(gòu)原理如圖3所示.

圖3 自動(dòng)編碼機(jī)結(jié)構(gòu)原理圖

一般自動(dòng)編碼機(jī)的算法: 自動(dòng)編碼機(jī)的輸入向量為x, 該向量通過(guò)映射函數(shù)f映射到隱藏層, 表達(dá)式為y,即, 其中W為權(quán)值矩陣, b為偏置向量,. 之后, 中間層y通過(guò)映射函數(shù)g到輸出層, 表達(dá)式為z, 即, 其中W′可以通過(guò)限定使得, b′為偏置向量. 最后通過(guò)交叉熵函數(shù)來(lái)度量x與z的距離:

并通過(guò)反向傳播算法來(lái)更新網(wǎng)絡(luò)參數(shù).

由于自動(dòng)編碼機(jī)只有一個(gè)隱藏層, 應(yīng)用到多層的神經(jīng)網(wǎng)絡(luò)的時(shí)候, 顯然是不合適的, 因此本文采用了疊層自動(dòng)編碼機(jī)[14], 其結(jié)構(gòu)原理圖如圖4所示. 其基本思想就是每一層都用到自動(dòng)編碼機(jī)的思想, 使其輸入經(jīng)過(guò)網(wǎng)絡(luò)后得到的輸出盡可能的逼近輸入. 與單層的自動(dòng)編碼機(jī)相比, 一是疊層自動(dòng)編碼機(jī)在自下而上的逐層訓(xùn)練過(guò)程中, 下層的特征可以作為上層的輸入繼續(xù)參加訓(xùn)練; 二是疊層自動(dòng)編碼機(jī)能進(jìn)行多層次的特征提取, 提高了網(wǎng)絡(luò)的整體表達(dá)能力. 總之, 通過(guò)疊層自動(dòng)編碼機(jī)對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行預(yù)訓(xùn)練, 能夠把網(wǎng)絡(luò)的權(quán)值限制在對(duì)后續(xù)訓(xùn)練有利的區(qū)域, 其后更有利于對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行進(jìn)一步的整體優(yōu)化調(diào)整.

圖4 疊層自動(dòng)編碼機(jī)結(jié)構(gòu)

以圖4的疊層自動(dòng)編碼機(jī)的結(jié)構(gòu)原理圖為例, x為輸入數(shù)據(jù), 輸入端有12個(gè)神經(jīng)單元, 由于本文實(shí)驗(yàn)部分的語(yǔ)音流是兩個(gè)說(shuō)話人的交替發(fā)音, 所以輸出端使用了2個(gè)神經(jīng)單元, h1和h2分別為第一個(gè)和第二個(gè)隱藏層,神經(jīng)元個(gè)數(shù)分別為10和5. 本文在自上而下的逐層預(yù)訓(xùn)練中, 隱藏層h1對(duì)輸入數(shù)據(jù)通過(guò)自動(dòng)編碼機(jī)訓(xùn)練, 得到的輸出結(jié)果作為隱藏層h2的輸入繼續(xù)訓(xùn)練, 完成預(yù)訓(xùn)練后, 網(wǎng)絡(luò)權(quán)值對(duì)所有實(shí)例抽取隱藏層的特征, 把這些特征作為上層自動(dòng)編碼機(jī)的輸入繼續(xù)訓(xùn)練, 這樣逐層迭代, 就構(gòu)成一個(gè)深度信念網(wǎng)絡(luò). 在具體的訓(xùn)練過(guò)程中,層與層之間的權(quán)值更新都是局部的, 也就是說(shuō)隱藏層h1和h2之間權(quán)值的更新相互并不產(chǎn)生任何影響, 這樣通過(guò)一層一層的訓(xùn)練, 使得每層的權(quán)值有一個(gè)初始值, 之后再根據(jù)具體需要采用方向傳播算法對(duì)權(quán)值進(jìn)行整體調(diào)優(yōu), 即可實(shí)現(xiàn)具體的功能, 這樣做好處就是有效的防范了只采用方向傳播算法所造成的局部最優(yōu)問(wèn)題.

3 實(shí)驗(yàn)仿真

為了說(shuō)明本文提出的自下而上聽覺顯著性注意模型方法具有可行性. 實(shí)驗(yàn)一: 將頻率分別為1500 Hz和2000 Hz的正弦信號(hào), 頻率從2500 Hz到7500 Hz以速率為800 hz/s變化的線性調(diào)頻信號(hào)和頻率從7500 Hz到2500 Hz以速率為-800 hz/s變化的線性調(diào)頻信號(hào)組合成一個(gè)測(cè)試信號(hào), 采用本文提出的聽覺顯著性注意模型算法得到的信號(hào)顯著性注意和語(yǔ)譜圖如圖5所示.

圖5 測(cè)試信號(hào)語(yǔ)譜圖和聽覺顯著性注意

從圖5中可以看出, 調(diào)頻信號(hào)因?yàn)轭l率在變化, 它的顯著性注意大致符合其語(yǔ)譜圖的走勢(shì); 而正弦信號(hào)由于頻率恒定, 其顯著性注意在開始和結(jié)束的時(shí)候比較明顯, 而在中間部分比較弱, 這符合人耳的聽覺特性,故說(shuō)明了本文提出的聽覺顯著性注意提取方法具有可行性.

實(shí)驗(yàn)二: 我們從語(yǔ)料庫(kù)NIST中選取了兩個(gè)說(shuō)話人(一男一女), 每人10句發(fā)音, 平均每句4 s長(zhǎng), 各自選取其中3句, 通過(guò)女-男-女的發(fā)音順序合成一個(gè)對(duì)話. 通過(guò)本文的聽覺顯著性注意模型方法, 得到其自下而上聽覺顯著性注意與頻譜圖的對(duì)比如圖6所示.

實(shí)驗(yàn)三: 用每人另外的7句發(fā)音作為訓(xùn)練語(yǔ)音, 用來(lái)訓(xùn)練深度信念網(wǎng)絡(luò), 以男性作為目標(biāo)說(shuō)話人, 女性作為干擾說(shuō)話人. 本文采用包含兩個(gè)隱含層的網(wǎng)絡(luò), 其中第一個(gè)隱藏層的節(jié)點(diǎn)數(shù)為10, 第二個(gè)隱藏層的節(jié)點(diǎn)數(shù)為5; 輸出層采用的兩個(gè)節(jié)點(diǎn), 如果發(fā)音為男性的, 則理想輸出為[1, 0], 如果發(fā)音為女性的, 則理想輸出為[0,1]. 將待識(shí)別的語(yǔ)音流分幀, 幀長(zhǎng)256, 提取特征參數(shù)送入訓(xùn)練好的網(wǎng)絡(luò)識(shí)別, 得到一個(gè)識(shí)別結(jié)果REC, 其中REC分布在是0到1之間的兩維矩陣, 因?yàn)榇颂幠行宰鳛槟繕?biāo)說(shuō)話人, 所以取REC的第一維參數(shù), 為其長(zhǎng)度為幀數(shù). 考慮到實(shí)際的語(yǔ)音環(huán)境中, 耳朵不可能完全屏蔽掉非關(guān)注的語(yǔ)音流, 所以本文設(shè)定一個(gè)閥值0.6, 對(duì)于REC, 小于0.6的結(jié)果默認(rèn)為0.01, 大于0.6的結(jié)果默認(rèn)為1. 考慮到說(shuō)話人辨識(shí)系統(tǒng)識(shí)別不可能100%成功, 且語(yǔ)音流中有靜音段, 即說(shuō)話人說(shuō)話中途的停頓, 以及說(shuō)話人在發(fā)音時(shí)發(fā)音不會(huì)太短等問(wèn)題, 將REC進(jìn)行平滑處理. 平滑處理準(zhǔn)則為: 一是如果為1的幀相連前后4幀都為0.01, 則這一幀也為0.01; 如果為0.01的幀相連前后4幀都為1, 則這幀為1; 二是如果多個(gè)連續(xù)1的長(zhǎng)度小于20幀(由于目前聽覺注意顯著性模型結(jié)合說(shuō)話人識(shí)別這方面的文獻(xiàn)較少, 對(duì)這個(gè)數(shù)值還有待研究, 所以本文通過(guò)觀察REC, 取為20幀), 則將其全部置0.01. 此時(shí)得到的REC已經(jīng)去除了語(yǔ)音流中的靜音段, 但是為了更好的刻畫某個(gè)說(shuō)話人的發(fā)音段, 再將說(shuō)話人發(fā)音中途的靜音段平滑, 最后結(jié)果如圖7所示.

圖6 語(yǔ)音流的自下而上聽覺顯著性注意與語(yǔ)譜圖

圖7中長(zhǎng)黑線包含的部分為理想的目標(biāo)說(shuō)話人的發(fā)音段. 結(jié)合圖6中語(yǔ)音流的聽覺顯著性注意和圖7對(duì)目標(biāo)說(shuō)話人的識(shí)別結(jié)果可以得到目標(biāo)說(shuō)話人自上而下聽覺顯著性注意與語(yǔ)音流聽覺顯著性注意對(duì)比如圖8所示.

圖8說(shuō)明通過(guò)深度信念網(wǎng)絡(luò)的說(shuō)話人辨識(shí)技術(shù), 可以有效屏蔽語(yǔ)音流的聽覺顯著性注意中非目標(biāo)說(shuō)話人的部分, 凸顯目標(biāo)說(shuō)話人.

圖7 語(yǔ)音流的識(shí)別結(jié)果

圖8 語(yǔ)音流的自上而下聽覺顯著性注意

4 結(jié)語(yǔ)

本文首先根據(jù)聽覺與視覺顯著性的差異性, 提出了一種基于時(shí)間變化的自下而上聽覺顯著性注意模型,該模型模擬人耳的聽覺特性, 對(duì)聲音按時(shí)間分頻率通道進(jìn)行處理, 凸顯了聲音隨時(shí)間變化的差異. 其后與說(shuō)話人辨識(shí)技術(shù)相結(jié)合設(shè)計(jì)出了自上而下聽覺顯著性注意模型, 該模型可以有效的屏蔽顯著性注意中非目標(biāo)說(shuō)話人部分. 仿真實(shí)驗(yàn)表明: 本文提出的自下而上聽覺顯著性模型, 能夠很好的模擬人耳的聽覺特性, 在頻率恒定時(shí), 關(guān)注度低; 而在頻率變化時(shí), 關(guān)注度會(huì)隨頻率變化. 通過(guò)結(jié)合基于自動(dòng)編碼機(jī)的深度信念網(wǎng)絡(luò), 能夠有效凸顯目標(biāo)說(shuō)話人的顯著度, 進(jìn)一步體現(xiàn)聽覺注意神經(jīng)信息處理計(jì)算機(jī)制對(duì)聽覺場(chǎng)景內(nèi)容的自動(dòng)分析與理解功能. 在以后的研究中, 我們希望在不知道整個(gè)語(yǔ)音流的時(shí)候, 可以實(shí)時(shí)的根據(jù)語(yǔ)音的進(jìn)展提取出顯著性注意并辨識(shí)出目標(biāo)說(shuō)話人, 屏蔽其他非目標(biāo)說(shuō)話人,進(jìn)而實(shí)時(shí)凸顯目標(biāo)說(shuō)話人的顯著性注意.

1Navalpakkam V, Itti L. Modeling the influence of task on attention. Vision Research, 2005, 45(2): 205–231. [doi:10.1016/j.visres.2004.07.042]

2Ainhoren Y, Engelberg S, Friedman S. The cocktail party problem [instrumentation notes]. IEEE Instrumentation &Measurement Magazine, 2008, 11(3): 44–48.

3王彤, 滕奇志, 唐棠. EBCOT圖像壓縮算法中若干問(wèn)題的研究. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009, 46(2): 395–400.

4Itti L, Koch C, Niebur E. A model of saliency-based visual attention for rapid scene analysis. IEEE Trans. on Pattern Analysis and Machine Intelligence, 1998, 20(11):1254–1259. [doi: 10.1109/34.730558]

5Kayser C, Petkov CI, Lippert M, et al. Mechanisms for allocating auditory attention: An auditory saliency map.Current Biology, 2005, 15(21): 1943–1947. [doi: 10.1016/j.cub.2005.09.040]

6Kalinli O, Narayanan S. A saliency-based auditory attention model with applications to unsupervised prominent syllable detection in speech. 8th Annual Conference of the International Speech Communication Association. Antwerp,Belgium. 2007.

7Talsma D, Senkowski D, Soto-Faraco S, et al. The multifaceted interplay between attention and multisensory integration. Trends in Cognitive Sciences, 2010, 14(9):400–410. [doi: 10.1016/j.tics.2010.06.008]

8Kenny P, Boulianne G, Ouellet P, et al. Speaker and session variability in GMM-based speaker verification. IEEE Trans.on Audio, Speech and Language Processing, 2007, 15(4):1448–1460. [doi: 10.1109/TASL.2007.894527]

9李軼杰, 郭武, 戴禮榮. 話者識(shí)別的信道補(bǔ)償. 小型微型計(jì)算機(jī)系統(tǒng), 2008, 29(12): 2344–2347.

10Bengio Y. Learning deep architectures for AI. Foundations and Trends?in Machine Learning, 2009, 2(1): 1–127. [doi:10.1561/2200000006]

11Bengio Y, LeCun Y. Scaling learning algorithms towards AI.Bottou L, Chapelle O, DeCoste D, et al. Large-Scale Kernel Machines. Cambridge, London. 2007. 321–359.

12Hinton GE, Osindero S, Teh YW. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7):1527–1554. [doi: 10.1162/neco.2006.18.7.1527]

13Le Roux N, Bengio Y. Representational power of restricted boltzmann machines and deep belief networks. Neural Computation, 2008, 20(6): 1631–1649. [doi: 10.1162/neco.2008.04-07-510]

14Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks. Advances in Neural Information Processing Systems, 2007, (19): 153–160.

Top-Down Auditory Saliency Attention Model Based on Speaker Identification

YE Yu-Lin1, YANG Bo2, MO Jian-Hua1, LIU Xia1

1(78438 Troops of the Chinese People’s Liberation Army, Chengdu 610066, China)
2(68108 Troops of the Chinese People’s Liberation Army, Lanzhou 730030, China)

In order to reflect the automatic analysis and understanding of the auditory scene content by the auditory attention neural information processing computational mechanism , this paper presents a top-down extraction model of the auditory saliency attention, based on the perceptual characteristics of human ear to frequency transformation, and combined with the speaker identification using the depth belief network and the auditory significant model. The simulation results show that the proposed model is feasible, and it can effectively highlight the significant degree of the target speaker in the speaker identification technology using the depth belief network.

auditory saliency attention; extraction model of saliency attention; depth belief network; speaker identification

葉于林,楊波,莫建華,劉夏.基于說(shuō)話人辨識(shí)的自上而下聽覺顯著性注意模型.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(7):252–257. http://www.c-sa.org.cn/1003-3254/5814.html

2016-10-11; 收到修改稿時(shí)間: 2016-11-14

猜你喜歡
權(quán)值發(fā)音顯著性
一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
一種結(jié)合多尺度特征融合與像素?fù)p失加權(quán)的顯著性目標(biāo)檢測(cè)方法
基于5G MR實(shí)現(xiàn)Massive MIMO權(quán)值智能尋優(yōu)的技術(shù)方案研究
一種基于互連測(cè)試的綜合優(yōu)化算法?
基于區(qū)域特征聚類的RGBD顯著性物體檢測(cè)
基于顯著性權(quán)重融合的圖像拼接算法
歐盟法院判決明確歐盟商標(biāo)通過(guò)使用獲得顯著性的地域認(rèn)定標(biāo)準(zhǔn)
計(jì)算機(jī)測(cè)量與控制(2018年3期)2018-03-27
Playing with h
Playing with /eI/