国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語(yǔ)音結(jié)構(gòu)化模型的數(shù)字語(yǔ)音識(shí)別

2012-11-30 03:18俞一彪
關(guān)鍵詞:聲道聲學(xué)識(shí)別率

姜 瑩,俞一彪

(蘇州大學(xué) 電子信息學(xué)院,江蘇 蘇州215006)

0 引 言

目前非特定人語(yǔ)音識(shí)別已經(jīng)取得了很大進(jìn)展,但與特定人的語(yǔ)音識(shí)別系統(tǒng)相比還有很大的差距。影響系統(tǒng)性能的一個(gè)重要因素是說(shuō)話(huà)人語(yǔ)音之間的聲學(xué)差異,包括不同說(shuō)話(huà)人的性別、年齡、不同的聲道長(zhǎng)度和形狀以及說(shuō)話(huà)的風(fēng)格口音等對(duì)語(yǔ)音特征參數(shù)的影響。傳統(tǒng)的消除說(shuō)話(huà)人之間的聲學(xué)差異通過(guò)對(duì)模型以及參數(shù)處理,如模型自適應(yīng)、說(shuō)話(huà)人聚類(lèi)方法等,以減少說(shuō)話(huà)人之間的聲學(xué)差異?;蛘卟杉瘮?shù)量很大的說(shuō)話(huà)人語(yǔ)音用于訓(xùn)練,讓訓(xùn)練語(yǔ)音覆蓋更為廣泛的語(yǔ)音空間,因此對(duì)語(yǔ)音訓(xùn)練量要求較高。

事實(shí)上傳統(tǒng)的語(yǔ)音識(shí)別方法都是采用聲學(xué)特征來(lái)描述模型,無(wú)論采用模型補(bǔ)償方法還是歸一化方法,都無(wú)法解決說(shuō)話(huà)人差異對(duì)識(shí)別系統(tǒng)性能的影響。最近,日本東京大學(xué)N.Minematsu教授從挖掘語(yǔ)音信號(hào)中具有相似語(yǔ)義特征的基本單元以及它們之間特征分布的內(nèi)在關(guān)系著手,通過(guò)運(yùn)用Bhattacharyya測(cè)度,提出了一種全局聲學(xué)結(jié)構(gòu)AUS,理論上可以證明這一結(jié)構(gòu)化描述對(duì)于說(shuō)話(huà)人差異具有不變性[1],即可以從語(yǔ)音中提取對(duì)說(shuō)話(huà)人差異具有魯棒性的結(jié)構(gòu)化特征AUS,它可以忽略說(shuō)話(huà)人個(gè)性特征,只包含語(yǔ)義特征信息。該理論已被成功用于基于方言的說(shuō)話(huà)人分類(lèi)[2]、音素的切分[3]、語(yǔ)音評(píng)測(cè)系統(tǒng)[4]、語(yǔ)音轉(zhuǎn)換[5]、語(yǔ)音合成[6]、計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)[7](computer aided language learning,CALL)系統(tǒng)以及日語(yǔ)元音串和詞的識(shí)別研究[8-9]。漢語(yǔ)數(shù)字發(fā)音也有其本身特點(diǎn),時(shí)長(zhǎng)較短,且含有豐富的聲學(xué)音素,因此將AUS用于數(shù)字語(yǔ)音識(shí)別具有一定的實(shí)際意義。

首先介紹語(yǔ)音結(jié)構(gòu)化模型的相關(guān)理論,并將其應(yīng)用于中文數(shù)字語(yǔ)音識(shí)別。實(shí)驗(yàn)測(cè)試了少量語(yǔ)料訓(xùn)練下,AUS方法和HMM方法在以下說(shuō)話(huà)人差異情形下的識(shí)別情況:①采用聲道彎折方法模擬不同說(shuō)話(huà)人之間的差異性;②20個(gè)實(shí)際說(shuō)話(huà)人之間的差異性。實(shí)驗(yàn)結(jié)果表明,在少量語(yǔ)料訓(xùn)練下,該方法可以取得優(yōu)于HMM的性能,語(yǔ)音結(jié)構(gòu)化模型可以有效消除說(shuō)話(huà)人之間的差異。

1 語(yǔ)音結(jié)構(gòu)化模型及數(shù)字識(shí)別

1.1 全局聲學(xué)結(jié)構(gòu)AUS

全局聲學(xué)結(jié)構(gòu)AUS描述的是語(yǔ)音內(nèi)在的聲學(xué)特征結(jié)構(gòu)關(guān)系[10],如圖1所示。其中,結(jié)構(gòu)點(diǎn)表示語(yǔ)音中最小語(yǔ)義單元的聲學(xué)特征分布,構(gòu)成語(yǔ)義的基本單元,其大小并不是固定的,從漢語(yǔ)來(lái)講語(yǔ)義單元可以是單詞、音節(jié)、聲韻母或者是更為精細(xì)的音素等;而節(jié)點(diǎn)之間的連線表示語(yǔ)義單元聲學(xué)特征分布之間的關(guān)系,所有連線形成的網(wǎng)絡(luò)被定義為全局聲學(xué)結(jié)構(gòu)。

圖1 語(yǔ)音的全局聲學(xué)結(jié)構(gòu)AUS

全局聲學(xué)結(jié)構(gòu)AUS的基本語(yǔ)義單元是用聲學(xué)特征參數(shù)的統(tǒng)計(jì)分布描述的,而聲學(xué)特征參數(shù)不可避免地會(huì)受到說(shuō)話(huà)人差異性影響而引起一定的變化。說(shuō)話(huà)人差異性包括不同說(shuō)話(huà)人具有不同的聲道形狀 (主要指聲道長(zhǎng)度)和其個(gè)性特征[11]等。不同說(shuō)話(huà)人聲道長(zhǎng)度差異通常在頻域視為雙線性變換

頻率彎折曲線如圖2所示。

圖2 對(duì)應(yīng)不同聲道彎折因子α的頻率彎折曲線

這里,ω和ω′分別表示變換前、后的角頻率,α為聲道彎折因子,α=0時(shí)變換前后的角頻率滿(mǎn)足線性關(guān)系,對(duì)應(yīng)聲道長(zhǎng)度不進(jìn)行彎折處理。一般,有:-1<α<1,α的正負(fù)分別對(duì)應(yīng)聲道長(zhǎng)度的縮短和增長(zhǎng)[12],α絕對(duì)值的大小決定了聲道彎折程度的大小。這種頻域的非線性變換在倒譜域表現(xiàn)為一種線性映射。假設(shè)一說(shuō)話(huà)人語(yǔ)音的倒譜域特征矢量為X,那么同一語(yǔ)音不同說(shuō)話(huà)人的倒譜域特征矢量為AX。高斯混合模型 (Gaussian mixture model,GMM)用于說(shuō)話(huà)人時(shí),對(duì)不同說(shuō)話(huà)人的語(yǔ)音的短時(shí)譜特征矢量所具有的概率密度函數(shù)進(jìn)行建模[13],實(shí)現(xiàn)對(duì)說(shuō)話(huà)人個(gè)性特征的建模。因此不同說(shuō)話(huà)人之間個(gè)性特征差異可視作頻域的乘性失真,在倒譜域空間可以表示為疊加性失真B,那么失真后的說(shuō)話(huà)人的倒譜特征矢量變?yōu)閄′=X+B。綜合最終的特征矢量變?yōu)閄′=AX+B。

AUS中特征分布之間的關(guān)系,用衡量統(tǒng)計(jì)分布之間的Bhattacharyya距離測(cè)度來(lái)描述,以保證在說(shuō)話(huà)人差異的干擾下倒譜特征參數(shù)分布之間的關(guān)系保持不變。Bhattacharyya距離是衡量?jī)蓚€(gè)統(tǒng)計(jì)分布之間距離的一種測(cè)度。如下所示

如果統(tǒng)計(jì)分布是高斯分布,則上式可以推導(dǎo)為

設(shè)原始倒譜域特征矢量x,服從分布P(μ,σ),相同語(yǔ)音不同說(shuō)話(huà)人的倒譜特征矢量為x′=Ax+b,服從的特征分布為P(μ′,σ′)。

由于μ=E(x),σ=E(x-μ)(x-μ)T,μ′=E(x′)=E(Ax+b)=Aμ+b,σ′=E(x′)=E(x′-μ′) (x′-μ′)T=AσAT,那么有

以上說(shuō)明,我們可以從語(yǔ)音中提取對(duì)不同說(shuō)話(huà)人和其個(gè)性特征具有魯棒性的結(jié)構(gòu)化特征,這種結(jié)構(gòu)化特征采用了語(yǔ)音內(nèi)部各個(gè)內(nèi)在特征統(tǒng)計(jì)分布的相對(duì)Bhattacharyya距離來(lái)表示,它是語(yǔ)音的一種有效的結(jié)構(gòu)性模型,這一模型不會(huì)受到不同說(shuō)話(huà)人語(yǔ)音之間差異的影響。理論上不同說(shuō)話(huà)人發(fā)相同語(yǔ)音盡管具有不同的聲學(xué)特征分布,但其AUS是保持不變的[14]。

1.2 基于語(yǔ)音結(jié)構(gòu)化模型的數(shù)字識(shí)別

AUS結(jié)構(gòu)化模型用于數(shù)字識(shí)別的整個(gè)過(guò)程如圖3所示,包括兩部分工作:①對(duì)訓(xùn)練數(shù)字語(yǔ)音建立全局聲學(xué)結(jié)構(gòu)AUS;②提取測(cè)試語(yǔ)音的AUS,與各數(shù)字的語(yǔ)音結(jié)構(gòu)模型匹配,進(jìn)行識(shí)別。

圖3 基于AUS模型的數(shù)字識(shí)別流程

對(duì)訓(xùn)練和測(cè)試語(yǔ)音建立全局聲學(xué)結(jié)構(gòu)時(shí),首先對(duì)數(shù)字語(yǔ)音提取倒譜特征參數(shù) (如MFCC參數(shù)),然后通過(guò)HMM訓(xùn)練提取內(nèi)在聲學(xué)特征分布,構(gòu)成一個(gè)自左向右的狀態(tài)序列分布。最后計(jì)算各個(gè)分布之間的Bhattacharyya距離形成AUS。數(shù)字AUS模型的描述可以采用一個(gè)M×M對(duì)角線元素值為零的二維對(duì)稱(chēng)矩陣表達(dá),其中M代表基本語(yǔ)義單元數(shù),存放各語(yǔ)義單元特征分布之間的距離值。矩陣中各語(yǔ)義單元必須按序排列,第一個(gè)語(yǔ)義單元對(duì)應(yīng)第一行,第二個(gè)語(yǔ)義單元對(duì)應(yīng)第二行,并依次類(lèi)推,表達(dá)各語(yǔ)義單元的相對(duì)時(shí)序關(guān)系。對(duì)訓(xùn)練語(yǔ)音建立AUS時(shí),訓(xùn)練語(yǔ)音可以是一遍或者多遍樣本數(shù)據(jù),而對(duì)于測(cè)試語(yǔ)音,僅由一遍測(cè)試語(yǔ)音樣本構(gòu)建其AUS。

識(shí)別實(shí)際上是求兩個(gè)AUS之間的距離,如果把各個(gè)二維矩陣元素看作是二維空間點(diǎn)的話(huà),那么兩個(gè)矩陣T和R之間的距離可以通過(guò)計(jì)算對(duì)應(yīng)點(diǎn)之間的歐幾里德距離進(jìn)行計(jì)算并匯總得到[15],即

式中:N——計(jì)算的元素個(gè)數(shù),M——基本語(yǔ)義單元數(shù),BDij——語(yǔ)義單元i和j之間的Bhattacharyya距離值。

首先,對(duì)各個(gè)數(shù)字 (假設(shè)N個(gè)數(shù)字)語(yǔ)音建立AUS,得到N個(gè)參考AUS結(jié)構(gòu)化模型,識(shí)別時(shí)提取測(cè)試語(yǔ)音的AUS,并與N個(gè)數(shù)字的AUS匹配,得到與各個(gè)數(shù)字的結(jié)構(gòu)匹配差值d1,d2,…di,dN。第i*個(gè)數(shù)字串即為最終識(shí)別結(jié)果

其中1≤i≤N。

2 實(shí)驗(yàn)分析

實(shí)驗(yàn)中訓(xùn)練語(yǔ)音數(shù)據(jù)庫(kù)為SUDA-2008數(shù)據(jù)庫(kù),均在普通實(shí)驗(yàn)室環(huán)境下用普通聲卡進(jìn)行錄音,采樣率為16KHz,量化精度為16位。參加實(shí)驗(yàn)的人數(shù)共有20人,其中10位男性說(shuō)話(huà)人,10位女性說(shuō)話(huà)人。每人錄制了3遍電話(huà)號(hào)碼中的11 個(gè) 數(shù) 字 的 發(fā) 音:0 (ling)、1 (yi)、2 (er)、3(san)、4(si)、5 (wu)、6 (1iu)、7 (qi)、8 (ba)、9(jiu)、1 (yao)。語(yǔ)音信號(hào)分幀處理,幀長(zhǎng)25ms,幀移10ms,加漢明窗,預(yù)加重系數(shù)取0.97,參數(shù)采用17階MFCC參數(shù)。語(yǔ)音模型采用6個(gè)狀態(tài),每個(gè)狀態(tài)下單高斯分布HMM。AUS方法中同樣采用6個(gè)狀態(tài)的HMM,形成6×6的數(shù)字AUS模型。

基于以上語(yǔ)音數(shù)據(jù),進(jìn)行兩組實(shí)驗(yàn),實(shí)驗(yàn)一:對(duì)訓(xùn)練集的語(yǔ)音進(jìn)行不同程度的聲道彎折以模擬更多 “不同說(shuō)話(huà)人”的語(yǔ)音,并構(gòu)成測(cè)試集。實(shí)驗(yàn)二:來(lái)自非訓(xùn)練集的實(shí)際說(shuō)話(huà)人語(yǔ)音構(gòu)成測(cè)試集。兩組實(shí)驗(yàn)均采用少量語(yǔ)料訓(xùn)練,分析AUS方法消除說(shuō)話(huà)人差異性的性能,并與傳統(tǒng)的HMM方法比較。

實(shí)驗(yàn)一:測(cè)試集作如下處理,對(duì)20個(gè)說(shuō)話(huà)人的3遍語(yǔ)音采用 (1)進(jìn)行頻率的非線性變換,實(shí)現(xiàn)不同程度的聲道彎折,以模擬具有不同聲道長(zhǎng)度的說(shuō)話(huà)人語(yǔ)音。實(shí)驗(yàn)中彎折因子α?。?.4,-0.35,…,0,…,0.35,0.4,共17個(gè)彎折系數(shù),其中α=0表示聲道不做彎折處理,并以該 “說(shuō)話(huà)人”的各個(gè)數(shù)字的1遍語(yǔ)音分別作為訓(xùn)練集,進(jìn)行Mel倒譜分析,訓(xùn)練HMM,建立AUS結(jié)構(gòu)化模型。其余16個(gè)彎折因子下,即16個(gè) “不同說(shuō)話(huà)人”的語(yǔ)音構(gòu)成測(cè)試集,同樣訓(xùn)練HMM提取其AUS與各個(gè)數(shù)字的結(jié)構(gòu)化模型進(jìn)行匹配。實(shí)驗(yàn)統(tǒng)計(jì)20個(gè)說(shuō)話(huà)人的語(yǔ)音數(shù)據(jù)的識(shí)別情況,其中每個(gè)彎折因子下660(=20×3×11)個(gè)識(shí)別數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 不同彎折因子下的識(shí)別率

由圖4可以看出:

(1)聲道彎折因子α=0時(shí),該情況下測(cè)試語(yǔ)音來(lái)自訓(xùn)練語(yǔ)料集,AUS方法和HMM方法具有一致的性能。識(shí)別率都為100%。

(2)在聲道彎折程度較小α=-0.05和α=0.05時(shí),由于說(shuō)話(huà)人聲道長(zhǎng)度差異性較小,AUS方法的識(shí)別率略高于HMM方法,AUS方法的優(yōu)越性并不明顯。

(3)當(dāng)聲道彎折程度|α|>0.05時(shí),隨著聲道彎折程度的增加,不同說(shuō)話(huà)人之間聲道長(zhǎng)度差異增大,HMM方法下的識(shí)別率迅速下降,而AUS方法的識(shí)別率在不同彎折因子下仍能都保持在70%以上。在|α|>0.2的各個(gè)彎折因子下,AUS方法的識(shí)別率效果相當(dāng),并沒(méi)有隨著說(shuō)話(huà)人差異的增加而導(dǎo)致識(shí)別率降低??梢?jiàn),語(yǔ)音結(jié)構(gòu)化模型可以有效消除說(shuō)話(huà)人之間的差異,提高系統(tǒng)的識(shí)別率。

實(shí)驗(yàn)二:以來(lái)自非訓(xùn)練集的實(shí)際說(shuō)話(huà)人語(yǔ)音構(gòu)成測(cè)試集,對(duì)20個(gè)說(shuō)話(huà)人依次標(biāo)號(hào),其中1-10為男性說(shuō)話(huà)人,11-20為女性說(shuō)話(huà)人。以說(shuō)話(huà)人1的各個(gè)數(shù)字的2遍語(yǔ)音作為訓(xùn)練集,進(jìn)行Mel倒譜分析,訓(xùn)練HMM,建立AUS結(jié)構(gòu)化模型。除說(shuō)話(huà)人1外其余19個(gè)說(shuō)話(huà)人每人3遍的語(yǔ)音,共627(=19×3×11)個(gè)測(cè)試語(yǔ)音構(gòu)成測(cè)試集做識(shí)別;同樣以說(shuō)話(huà)人2的各個(gè)數(shù)字的3遍語(yǔ)音做訓(xùn)練集,除說(shuō)話(huà)人2外其余19個(gè)說(shuō)話(huà)人的語(yǔ)音構(gòu)成測(cè)試集,依次類(lèi)推。實(shí)驗(yàn)分析以20個(gè)說(shuō)話(huà)人語(yǔ)音依次作訓(xùn)練集時(shí),AUS方法和HMM方法的識(shí)別性能,實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 20個(gè)說(shuō)話(huà)人語(yǔ)音依次作訓(xùn)練集時(shí)AUS方法和HMM方法的識(shí)別率

由圖5可以看出:

(1)AUS方法下的識(shí)別率大多高于HMM方法下的識(shí)別率,只有在說(shuō)話(huà)人13和說(shuō)話(huà)人15都為女性說(shuō)話(huà)人時(shí),HMM方法的識(shí)別率高于AUS方法。在以說(shuō)話(huà)人7作為訓(xùn)練模板時(shí),AUS方法達(dá)到最大的識(shí)別率65.12%。可見(jiàn)在較少訓(xùn)練量的情況下,AUS方法能夠消除實(shí)際說(shuō)話(huà)人之間的差異性,獲得比HMM更高的識(shí)別率。

(2)實(shí)際上從實(shí)驗(yàn)一的結(jié)果可以看出,如果實(shí)際說(shuō)話(huà)人差異不大,HMM方法和AUS方法的性能相當(dāng),所以在實(shí)驗(yàn)二中以個(gè)別說(shuō)話(huà)人作為訓(xùn)練集時(shí),HMM方法的識(shí)別率高于AUS方法。因此少量語(yǔ)料且說(shuō)話(huà)人差異較大時(shí),較HMM方法AUS方法能很好地體現(xiàn)其優(yōu)勢(shì)性。

(3)由于不同說(shuō)話(huà)人聲道長(zhǎng)度的差異不一定能很好地符合頻域的非線性變換,且實(shí)際中說(shuō)話(huà)人之間的差異性還受很多其它因素影響,如聲音的不穩(wěn)定性等。因此與實(shí)驗(yàn)一結(jié)果相比AUS在消除實(shí)際說(shuō)話(huà)人差異性方面的效果不那么明顯。

以上兩個(gè)實(shí)驗(yàn)表明,在少量語(yǔ)料訓(xùn)練下,AUS方法可以取得優(yōu)于HMM方法的性能。HMM方法在說(shuō)話(huà)人語(yǔ)音特征差異下,即訓(xùn)練和測(cè)試語(yǔ)音特征空間相差較大時(shí),其識(shí)別性能迅速下降。而AUS方法能有效消除模擬說(shuō)話(huà)人和實(shí)際說(shuō)話(huà)人之間的差異,且較少的訓(xùn)練語(yǔ)料就可以達(dá)到較好的識(shí)別效果。

3 結(jié)束語(yǔ)

本文介紹了一種新穎、不同于傳統(tǒng)聲學(xué)特征來(lái)描述模型的語(yǔ)音識(shí)別方法—語(yǔ)音結(jié)構(gòu)化模型的識(shí)別方法。引出語(yǔ)音結(jié)構(gòu)化模型的相關(guān)理論,并運(yùn)用語(yǔ)音結(jié)構(gòu)化模型方法進(jìn)行數(shù)字語(yǔ)音識(shí)別。實(shí)驗(yàn)中比較了AUS方法和HMM方法在兩種情形下的識(shí)別率:①采用聲道彎折方法模擬不同聲道長(zhǎng)度的說(shuō)話(huà)人之間差異性;②實(shí)際說(shuō)話(huà)人之間的差異性。實(shí)驗(yàn)結(jié)果表明,在少量語(yǔ)料訓(xùn)練下,AUS方法可以取得優(yōu)于HMM的性能,語(yǔ)音結(jié)構(gòu)化模型可以有效消除說(shuō)話(huà)人之間的差異。但實(shí)際說(shuō)話(huà)人之間的差異性除了聲道長(zhǎng)度和個(gè)性特征差異外,還有其它因素的影響,此時(shí)AUS方法在消除差異性方面效果相對(duì)不那么明顯。

[1]Nobuaki Minematsu.Mathematical evidence of the acoustic universal structure in speech [C].Japan:Proceedings of IEEE International Conference on Acoustics Speech and Signal Processing,2005:889-892.

[2]MA Xuebin,Nobuaki Minematsu.Dialect-based speaker classification of Chinese using structural representation of pronunciation [C].Proc of Speech and Computer,2008:350-355.

[3]YU Qiao,Shimomura N,Minematsu N.Unsupervised optimal phoneme segmentation:Objectives,algorithm and comparisons[C].IEEE International Conference on Acoustics Speech and Signal Processing,2008:3989-3992.

[4]Daisuke Saito,YU Qioa,Nobuaki Minematsu,et al.Improvement of structure to speech conversion using iterative optimization [C].Proc of Speech and Computer,2009:174-179.

[5]DAO Jianzeng,YU Yibiao.Voice conversion using structured Gaussian mixture model[C].Beijing:10th International Conference on Signal Processing,2010:541-544.

[6]Saito D,Asakawa S,Minematsu N,et al.Structure to speech conversion-speech generation based on infant-like vocal imitation[C].9th Annual Conference of the International Speech Communication Association,2008:1837-1840.

[7]Minematsu N,Asakawa S,Hirose K.Structural representation of the pronunciation and its use for CALL [C].Proc of IEEE Spoken Language Technology Workshop,2006:126-129.

[8]Takao Murakami,Kazutaka Maruyama,Nobuaki Minematsu,et al.Japanese vowel recognition using external structure of speech [C].Proceedings of Automatic Speech Recognition and Understanding,2005:203-208.

[9]YU Qiao,Nobuaki Minematsu,Keikichi Hirose.On invariant structural representation for speech recognition:theoretical validation and experimental improvement[C].10th Annual Conference of the International Speech Communication Association,2009:3055-3058.

[10]Minematsu N,Satoshi Asakawa.Implementation of robust speech recognition by simulating infants’speech perception based on the invariant sound shape embedded in utterances[C].Proc of Speech and Computer,2009:35-40.

[11]Nobuaki Minematsu.Yet another acoustic representation of speech sounds [C].Proceedings of International Conference on Acoustics Speech and Signal Processing,2004:585-588.

[12]Michael Pitz,Sirko Molau,Ralf Schluter,et al.Vocal tract normalization equals linear transformation in cepstral space [J].IEEE Trans on Speech and Audio Processing,2005,13(5):930-944.

[13]RUI Xianyi.Research on speaker identification in noisy environment[D].Suzhou:Soochow University,2005 (in Chinese).[芮賢義.噪聲環(huán)境下說(shuō)話(huà)人識(shí)別研究 [D].蘇州:蘇州大學(xué),2005.]

[14]Nobuaki Minematsu,Tazuko Nishimura,Katsuhiro Nishinari,et al.Theorem of the invariant structure and its derivation of speech gestalt[C].Proceedings of Speech Recognition and Audio Processing,2005:930-944.

[15]Nobuaki Minematsu.Mathematical evidence of the acoustic universal structure in speech [C].Japan:Proceedings IEEE International Conference on Acoustics Speech and Signal Processing,2005:889-892.

猜你喜歡
聲道聲學(xué)識(shí)別率
9.7.8聲道、造價(jià)250余萬(wàn) James極品影院賞析
為發(fā)燒需求打造的11聲道后級(jí) Orisun(傲力聲)OA-S11
愛(ài)的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
實(shí)現(xiàn)從7.2到11.2聲道的飛躍 Onkyo(安橋)TX-RZ830
提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究