国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的貴州方言辨識(shí)

2019-09-10 07:22艾虎李菲
現(xiàn)代信息科技 2019年1期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

艾虎 李菲

摘? 要:方言的辨別可為案件偵破提供重要線索,本文針對(duì)貴州方言辨別提出一種有效的方言辨識(shí)模型,從貴州省6個(gè)地區(qū)采集時(shí)長不等的語音樣本,提取梅爾頻率倒譜系數(shù)MFCC,然后利用多級(jí)二維離散小波變換提取MFCC中的低頻分量同時(shí)進(jìn)行壓縮,然后采用滑窗進(jìn)行信息重疊分塊,對(duì)每塊進(jìn)行奇異值分解并保留高貢獻(xiàn)率的特征向量,把分塊合并后轉(zhuǎn)換成一個(gè)3維矩陣作為方言辨識(shí)模型的輸入數(shù)據(jù)。先對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),然后構(gòu)建方言辨識(shí)模型,并采用交叉實(shí)驗(yàn)對(duì)該模型進(jìn)行訓(xùn)練和驗(yàn)證,從而對(duì)二維離散小波變換的級(jí)數(shù)和滑窗的寬度進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果證明該模型對(duì)貴州方言辨識(shí)是高效的。

關(guān)鍵詞:漢語方言辨識(shí);梅爾頻率倒譜系數(shù);二維離散小波變換;奇異值分解;卷積神經(jīng)網(wǎng)絡(luò)

中圖法分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A? 文章編號(hào):2096-4706(2019)01-0005-06

Identification of Guizhou Dialect Based on Improved Convolutional Neural Network

AI Hu1,LI Fei2

(1.Department of Criminal Technology,Guizhou Police College,Guiyang? 550005,China;

2.The Education University of Hong Kong,Hong Kong? 999077,China)

Abstract:Chinese dialect identification may provide an important clue for forensic investigation. This paper has proposed an effective dialect identification model for Guizhou dialect identification. The authors extracted Mel frequency cepstral coefficients (MFCC) from speech samples of different time lengths collected from six regions in Guizhou province,then extracted low-frequency components in MFCC with multi-stage two-dimensional discrete wavelet transform (2-DWT) for compression,and then used the sliding window to conduct information overlapping blocking. The singular value of each block was decomposed and high contribution rate feature vectors were retained,and the blocks were combined and converted into a 3-dimensional matrix as the input data of the dialect identification model. Firstly,the convolutional neural network (CNN) is improved,then a dialect identification model is constructed,and the model is trained and verified by adopting a cross experiment,so that the stages of the two-dimensional discrete wavelet transform and the width of the sliding window are optimized. The experimental results show that the model is efficient for Guizhou dialect identification.

Keywords:Chinese dialect identification;mel frequency cepstrum coefficients;two-dimensional discrete wavelet transform;singular value decomposition;convolutional neural network

0? 引? 言

現(xiàn)代通訊工具在案件偵破中扮演著重要角色,對(duì)所產(chǎn)生的語音信息進(jìn)行方言辨別可以判斷犯罪嫌疑人的原籍地或長期居留地,從而為案件偵破提供重要的線索。由于方言的發(fā)音差異主要體現(xiàn)在頻譜結(jié)構(gòu)的時(shí)間變化上[1],所以梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)[2]作為從語音樣本中所提取的特征參數(shù)廣泛應(yīng)用于語音識(shí)別模型中。

目前,國內(nèi)外語音識(shí)別的模型多不勝舉,為了提高語音識(shí)別的魯棒性,用于語音識(shí)別模型的方法包括區(qū)分性訓(xùn)練(Discriminative Training,DT)[3,4]、因子分析(Factor Analysis,F(xiàn)A)[5,6]和全差異空間(Total Variability,TV)[7,8]等,用于聲學(xué)分類的模型包括隱馬爾可夫模型(HMM)[9]、深度神經(jīng)網(wǎng)絡(luò)(DNN)[10]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和多層反饋網(wǎng)絡(luò)(RNN)[11]等。由于目前漢語方言的辨別離實(shí)際的應(yīng)用還有差距,所以采用新的方法構(gòu)建漢語方言辨識(shí)模型很有必要。

為了提高卷積神經(jīng)網(wǎng)絡(luò)的魯棒性,需要大量的語音訓(xùn)練樣本,但大量的語音樣本會(huì)導(dǎo)致所提取的MFCC的數(shù)據(jù)量巨大,所以需要先對(duì)MFCC進(jìn)行壓縮處理和提取更能反應(yīng)方言差異的信息,然后構(gòu)建方言辨識(shí)模型。本文從語音樣本中提取MFCC,然后采用多級(jí)二維離散小波分解壓縮和奇異分解處理數(shù)據(jù),并對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),最后建立高效的方言辨識(shí)模型。

1? 方言辨識(shí)模型描述

本文提出的方言辨識(shí)模型由兩部分組成,即樣本數(shù)據(jù)前處理和聲學(xué)分類模型。樣本數(shù)據(jù)前處理包括3級(jí)二維離散小波分解壓縮和奇異值分解,奇異值分解包括采用滑窗(寬度為100)進(jìn)行有重疊的分塊操作、對(duì)每一分塊分別進(jìn)行奇異值分解并保留10個(gè)奇異值和按順序合并分塊并轉(zhuǎn)換成1個(gè)16×16×N的3維矩陣作為聲學(xué)分類模型的輸入數(shù)據(jù)。聲學(xué)分類模型采用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò),方言辨識(shí)模型結(jié)構(gòu)如圖1所示。

2? 語音樣本的收集與MFCC的提取

本研究基于貴州省內(nèi),收集和整理了貴陽市、安順市、興義市、凱里市、都勻市和六盤水市6個(gè)地區(qū)的不同性別不同年齡的1000份方言語音樣本(年齡區(qū)間為15-60歲),收集的語音樣本時(shí)長20-300秒不等,其中800份方言語音樣本用來訓(xùn)練CNN,200份方言語音樣本用來驗(yàn)證CNN。語音采樣率為8000Hz,采樣點(diǎn)數(shù)256,幀長設(shè)為32ms,幀移10ms,所提取的特征參數(shù)據(jù)矩陣為24維,其全部組成為:12維MFCC系數(shù)和12維一階差分系數(shù)。所以一個(gè)語音樣本提取得到的MFCC是一個(gè)N×24的矩陣。

3? 樣本數(shù)據(jù)前處理

3.1? 二維離散小波變換與壓縮

小波變換(wavelet transform,WT)[12]是一種功能強(qiáng)大的時(shí)頻分析與處理方法,解決了Fourier變換的缺點(diǎn),并廣泛應(yīng)用于圖像處理、信號(hào)處理與模式辨識(shí)中。

首先對(duì)MFCC的轉(zhuǎn)置矩陣(24×N)進(jìn)二維離散小波變換(2-DWT),分解成高頻分量與低頻分量[13],高頻分量表示的是圖片的細(xì)節(jié),而低頻分量表示的是近似值,2-DWT如公式(1)所示,提取低頻分量,如公式(2)所示,公式(1)、(2)中i為假定值H、V和D的上標(biāo),M×N為圖像大小,j0為任意的開始尺度。

本文采用Matlab的雙正交小波bior3.7,其尺度函數(shù)與小波函數(shù)如圖2所示,對(duì)語音樣本“1-貴陽”的MFCC進(jìn)行偽彩色編碼得到數(shù)字灰度圖像,對(duì)該數(shù)字灰度圖像進(jìn)行4次2-DWT分解壓縮,每次只對(duì)前次的低頻分量進(jìn)行2-DWT分解壓縮,對(duì)低頻分量的列數(shù)進(jìn)行1/2降采樣,由于圖像的像素矩陣的列數(shù)遠(yuǎn)遠(yuǎn)大于行數(shù),所以對(duì)于行數(shù)每次降采樣只減少1行,過程如圖1中的二維離散小波變換所示,從而利用2-DWT分解去除高頻分量而保留低頻分量同時(shí)也進(jìn)行了壓縮,結(jié)果如圖3所示。

3.2? 奇異值分解SVD

奇異值分解[14](Singular Value Decomposition,SVD)在計(jì)算上直接、快速而且健壯。其用于從大量數(shù)據(jù)中尋找所隱含的相關(guān)性,主要應(yīng)用于模式辨識(shí)和數(shù)據(jù)壓縮等方面。先把奇異值即特征向量按照重要性排列,然后去除不重要的特征向量保留重要的特征向量以此達(dá)到降維目的。

對(duì)語音樣本的MFCC進(jìn)行2-DWT分解得到低頻分量的數(shù)據(jù)矩陣,由于該矩陣的列數(shù)依然很大,所以對(duì)低頻分量數(shù)據(jù)矩陣采用滑動(dòng)窗口進(jìn)行有重疊的分塊操作,滑動(dòng)窗口的高度為低頻分量矩陣的行數(shù),從而得到分塊矩陣A,N為被分塊矩陣的列數(shù),M為滑動(dòng)窗口的寬度(列數(shù)),t為橫向滑動(dòng)的步長,如公式3所示:

對(duì)語音樣本“1-貴陽”中的MFCC轉(zhuǎn)置矩陣進(jìn)行3級(jí)2-DWT分解提取低頻分量,對(duì)低頻分量進(jìn)行滑動(dòng)窗口分塊操作,滑動(dòng)窗口的寬度設(shè)為M=100,橫向滑動(dòng)的步長設(shè)為t=M/2,然后對(duì)每一分塊數(shù)據(jù)進(jìn)行SVD分解,如圖1中奇異值分解所示。把得到的特征向量按貢獻(xiàn)率從大到小進(jìn)行排序,并繪制貢獻(xiàn)率曲線圖,然后把所有分塊的貢獻(xiàn)率曲線圖合并在一起,如圖4所示。我們可以觀察到排列順序?yàn)?1-15的特征向量的貢獻(xiàn)率幾乎為0,所以每個(gè)分塊只保留前10個(gè)特征向量,因此每個(gè)分塊由19×100的矩陣壓縮為19×10的矩陣,然后把壓縮后的每個(gè)分塊按順序橫向拼接成一個(gè)2維矩陣,映射成灰度圖像,結(jié)果如圖3所示。

3.3? 數(shù)據(jù)標(biāo)準(zhǔn)化

由于語音樣本錄制的時(shí)間長度參差不齊,每個(gè)語音樣本的MFCC矩陣經(jīng)過轉(zhuǎn)置后通過2-DWT分解和SVD分解壓縮得到的數(shù)據(jù)矩陣的列數(shù)也不盡相同,所以必須對(duì)該數(shù)據(jù)矩陣按統(tǒng)一的長度(列數(shù))進(jìn)行無重疊分塊操作,變換成一個(gè)16×16×N的3維矩陣Pi,不同語音樣本的3維矩陣的N不盡相同。按語音樣本的輸入順序把Pi沿著第3維方向拼接成1個(gè)3維矩陣P=(P1,P2,P3,…,Pk),k為輸入的語音樣本數(shù),P作為卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣。語音樣本采集地共有6個(gè),接采集地對(duì)語音樣本的進(jìn)行編號(hào),同一個(gè)地區(qū)采集的語音樣本用同一個(gè)編號(hào),每一個(gè)輸入語音樣本的每一個(gè)16×16的2維矩陣對(duì)應(yīng)一個(gè)6維輸出列向量ti,把編號(hào)的值賦給ti中與編號(hào)順序相對(duì)應(yīng)的位置的元素,其它元素設(shè)為0,然后拼接成2維輸出矩陣Ti,然后再按語音樣本的輸入順序拼接成T=(T1,T2,T3,…,Tk),k為輸入的語音樣本數(shù),T作為卷積神經(jīng)網(wǎng)絡(luò)的輸出矩陣。

按上述的方法,把800份語音樣本轉(zhuǎn)換成訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣Px和輸出矩陣Tx,把200份樣本轉(zhuǎn)換成驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣Pt和輸出矩陣Tt。對(duì)于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò),用于驗(yàn)證的輸出矩陣Tt有所不同,每一個(gè)語音樣本的輸入矩陣Pi(3維)只對(duì)應(yīng)一個(gè)輸出值,所以其用于驗(yàn)證的輸出數(shù)據(jù)為k維行向量,k為輸入的語音樣本數(shù)。

為了使數(shù)據(jù)無量剛化并消除奇異樣本和后面數(shù)據(jù)處理的方便并加快收斂,對(duì)輸入矩陣進(jìn)行歸一化處理。

4? 卷積神經(jīng)網(wǎng)絡(luò)方言辨識(shí)模型

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[15]最早由Yann LeCun提出并應(yīng)用在手寫字體識(shí)別(MINST)上。卷積神經(jīng)網(wǎng)絡(luò)仍然是層級(jí)網(wǎng)絡(luò),是由傳統(tǒng)神經(jīng)網(wǎng)絡(luò)改進(jìn)而來。其優(yōu)點(diǎn)是共享卷積核,對(duì)多維數(shù)據(jù)的處理能力,能對(duì)特征進(jìn)行自動(dòng)選取,通過訓(xùn)練完成權(quán)重的設(shè)置,特征分類效果明顯,因此卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像識(shí)別中[16,18]。

4.1? 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)

CNN一般由輸入層、特征提取層與分類器組成,本文所構(gòu)建的CNN的特征提取層由2個(gè)卷積層與2個(gè)池化層組成,分類器采用BP神經(jīng)網(wǎng)絡(luò)。一個(gè)2維矩陣輸入就會(huì)有一個(gè)分類輸出,考慮到一個(gè)語音樣本得到的輸入數(shù)據(jù)是一個(gè)3維矩陣,所以會(huì)有N個(gè)輸出,而且這N個(gè)輸出也不會(huì)完全相同,所以本研究在原有的CNN的基礎(chǔ)上加上分類儲(chǔ)存層F8與競(jìng)爭輸出層O9,目的是在這N個(gè)輸出中選一個(gè)最合適的輸出作為該語音樣本的所屬類別,分類儲(chǔ)存層F8與競(jìng)爭輸出層O9只用于CNN的仿真而不用于訓(xùn)練。

由于語音樣本有6個(gè)采樣地區(qū)從而有6個(gè)類別,所以分類儲(chǔ)存層F8設(shè)6個(gè)結(jié)點(diǎn),即分類儲(chǔ)存層F8中結(jié)點(diǎn)數(shù)等于語音樣本的采樣地區(qū)數(shù),每一個(gè)節(jié)點(diǎn)分別對(duì)應(yīng)一個(gè)采樣地區(qū)也就是說對(duì)應(yīng)一個(gè)類別,并且與輸出層O7的6個(gè)結(jié)點(diǎn)中對(duì)應(yīng)的結(jié)點(diǎn)相連接。一個(gè)語音樣本的3維矩陣中的每一個(gè)2維矩陣的輸入就會(huì)在輸出層O7有一個(gè)相應(yīng)的6維列向量的輸出,然后把6維列向量中的數(shù)值最大的元素儲(chǔ)存在分類儲(chǔ)存層F8與之對(duì)應(yīng)的節(jié)點(diǎn)中。

當(dāng)一個(gè)語音樣本的輸入矩陣輸入完畢并把分類結(jié)果分別儲(chǔ)存于分類儲(chǔ)存層F8的結(jié)點(diǎn)中后,分類儲(chǔ)存層F8對(duì)各個(gè)節(jié)點(diǎn)中儲(chǔ)存的數(shù)據(jù)的個(gè)數(shù)進(jìn)行分別求合,如公式6所示,然后輸入競(jìng)爭輸出層O9中,在競(jìng)爭輸出層O9中對(duì)求合的值進(jìn)行比較,選出最大的求合值,如公式7所示,其對(duì)應(yīng)的分類儲(chǔ)存層F8節(jié)點(diǎn)所對(duì)應(yīng)的分類作為競(jìng)爭輸出層的輸出,輸出的分類結(jié)果就是語音樣本的辨識(shí)結(jié)果。改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)如圖5所示,參數(shù)設(shè)置如表1所示。

Ss為分類儲(chǔ)存層F8第s個(gè)結(jié)點(diǎn)所儲(chǔ)存的值的數(shù)量,m為分類儲(chǔ)存層F8的結(jié)點(diǎn)總數(shù),output為改進(jìn)的CNN的輸出,如公式(6)、(7)所示:

4.2? 概率神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

一個(gè)語音樣本的MFCC經(jīng)過PCA和壓縮處理后得到一個(gè)數(shù)據(jù)矩陣,然后對(duì)該矩陣進(jìn)行轉(zhuǎn)置,按語音樣本的輸入順序把不同樣本的數(shù)據(jù)矩陣橫向拼接,從而得到該概率神經(jīng)網(wǎng)絡(luò)模型的輸入矩陣Pn。對(duì)上述位于貴州省的6個(gè)采樣地區(qū)進(jìn)行1~6編號(hào),同一個(gè)地區(qū)的語音樣本用相同的編號(hào),每一個(gè)語音樣本中的每一個(gè)列向量對(duì)應(yīng)該語音樣本的編號(hào),從而一個(gè)語音樣本對(duì)應(yīng)一個(gè)N維行向量ti,按語音樣本的輸入順序把不同樣本的ti進(jìn)行橫向拼接,最后得到該模型的訓(xùn)練數(shù)據(jù)集的輸出矩陣Tn。把輸入向量矩陣Pn和輸出向量Tn輸入到概率神經(jīng)網(wǎng)絡(luò)PNN中,向量矩陣Pn構(gòu)成樣本層,每一列向量對(duì)映一結(jié)點(diǎn),樣本層結(jié)點(diǎn)的數(shù)目等于矩陣Pn列數(shù)。在求合層中,輸出向量Tn中值相同的元素構(gòu)成同一結(jié)點(diǎn),即求合層中結(jié)點(diǎn)數(shù)等于地區(qū)數(shù),樣本層中的結(jié)點(diǎn)連接與其所屬地區(qū)相同的求合層結(jié)點(diǎn)。完成概率神經(jīng)網(wǎng)絡(luò)模型的輸入矩陣Pn和輸出矩陣Tn的輸入,即完成概率神經(jīng)網(wǎng)絡(luò)方言辨識(shí)模型的訓(xùn)練。

平滑因子σ在概率神經(jīng)網(wǎng)絡(luò)模型中很重要,太大會(huì)導(dǎo)致每個(gè)神經(jīng)元響應(yīng)區(qū)域交叉過多,會(huì)帶來精度問題,過小會(huì)導(dǎo)致過擬合[11]。為了方便確定平滑因子σ,采用Matlab的newpnn()函數(shù)構(gòu)建另一個(gè)概率神經(jīng)網(wǎng)絡(luò),把上述的訓(xùn)練數(shù)據(jù)分成數(shù)量相等的兩部分,一部分用于訓(xùn)練,另一部分用于仿真,通過反復(fù)訓(xùn)練與仿真確定平滑因子σ為0.1。該平滑因子σ=0.1同樣適用于本研究所構(gòu)建的概率神經(jīng)網(wǎng)絡(luò)方言辨識(shí)模型。

5? 實(shí)驗(yàn)及結(jié)果與分析

電腦的配置:CPU為英特爾酷睿i7-4790@3.60GHz四核;顯卡為AMD Radeon R5 240(1GB/戴爾);內(nèi)存為8GB(三星 DDR3 1600MHz)。

5.1? 交叉優(yōu)化實(shí)驗(yàn)

本文設(shè)計(jì)交叉試驗(yàn)的目的是考察不同級(jí)數(shù)的2-DWT分解壓縮和SVD前的滑窗寬度的不同對(duì)CNN的辨識(shí)結(jié)果的影響,尋找最優(yōu)的數(shù)據(jù)前處理的方法。2-DWT分解壓縮分別選擇(1,2,3,4)級(jí),滑窗的寬度分別選擇(50,80,100,120)進(jìn)行交叉試驗(yàn),以800份語音樣本作為訓(xùn)練數(shù)據(jù),以200份語音樣本作為驗(yàn)證數(shù)據(jù),然后分別對(duì)CNN和改進(jìn)的CNN進(jìn)行訓(xùn)練和驗(yàn)證。CNN的辨識(shí)結(jié)果是針對(duì)200份語音樣本的所有2維矩陣(16×16)的辨識(shí)結(jié)果的統(tǒng)計(jì),如表2所示。

可以觀察到2-DWT分解壓縮選擇3級(jí)和滑窗寬度選擇100時(shí)模型辨識(shí)的正確率最高77.2727%,2-DWT分解壓縮級(jí)數(shù)與滑窗寬度過高或過低都會(huì)導(dǎo)致正確率的下降,如圖6所示。

而改進(jìn)的CNN辨識(shí)結(jié)果是針對(duì)200份語音樣本的辨識(shí)結(jié)果的統(tǒng)計(jì),如表3所示。

改進(jìn)的CNN相對(duì)于CNN的辨識(shí)結(jié)果有一定的提升,正確辨識(shí)率最高為90.5%,2-DWT分解壓縮級(jí)數(shù)與滑窗寬度過高或過低都會(huì)導(dǎo)致正確率的下降,如圖7所示。

對(duì)于改進(jìn)的CNN輸入一個(gè)語音樣本的3維矩陣(16×16×N),在輸出層O7得到N個(gè)辨識(shí)結(jié)果,然后把結(jié)果儲(chǔ)存在分類儲(chǔ)存層F8中。在分類儲(chǔ)存層F8中,如果正確辨識(shí)結(jié)果的數(shù)量>50%,或雖然正確辨識(shí)結(jié)果的數(shù)量≤50%,但是正確辨識(shí)的數(shù)量依然大于辨識(shí)為其它任何一個(gè)分類的數(shù)量時(shí),語音樣本在競(jìng)爭輸出層O9都能被正確辨識(shí)。改進(jìn)的CNN的辨識(shí)時(shí)間隨著2-DWT分解級(jí)數(shù)與滑窗的寬度的增加而降底如圖8所示,而正確辨識(shí)率為90.5%的200份語音樣本的所用的辨識(shí)時(shí)間(不包括數(shù)據(jù)前處理)為10.1653秒,在實(shí)際事務(wù)的應(yīng)用中屬于可接受的范圍,如果增強(qiáng)計(jì)算機(jī)的性能時(shí)間會(huì)縮短。

5.2? 時(shí)長不同的語音樣本試驗(yàn)

把用于驗(yàn)證的200份語音樣本按時(shí)長區(qū)間分成3組(時(shí)長20-100/秒50份,時(shí)長101-200秒70份,時(shí)長201-300/秒80份),每組分別用訓(xùn)練好的改進(jìn)的CNN辨識(shí)模型進(jìn)行驗(yàn)證,結(jié)果如圖9所示。可以看到語音樣本的時(shí)長越長,模型的正確辨識(shí)率越高。

6? 結(jié)? 論

本文針對(duì)貴州方言提出基于小波變換和奇異值分解的卷積神經(jīng)網(wǎng)絡(luò)方言辨識(shí)模型,首先提取語音樣本中的MFCC,然后采用3級(jí)二維離散小波變換(2-DWT)和奇異值分解(SVD)提取MFCC中的低頻分量并進(jìn)行壓縮和降維處理。根據(jù)輸入數(shù)據(jù)的特征對(duì)CNN辨識(shí)模型進(jìn)行了改進(jìn),提高了方言辨識(shí)的正確率。通過交叉實(shí)驗(yàn)對(duì)模型進(jìn)行優(yōu)化的同時(shí)也證明了方言辨識(shí)模型的有效性和實(shí)用性,而且用于辨識(shí)的語音樣本的時(shí)長越長,模型辨識(shí)的正確率越高。

參考文獻(xiàn):

[1] BAKER W,EDDINGTON D,NAY L. DIALECT IDENTIFICATION:THE EFFECTS OF REGION OF ORIGION AND AMOUNT OF EXPERIENCE [J].American Speech,2009,84(1):48-71.

[2] ALAM MJ,KINNUNEN T,KENNY P,et al. Multitaper MFCC and PLP features for speaker verification using i-vectors [J]. Speech Communication,2013,55(2):237-251.

[3] BURGET L,MATEJKA P,CERNOCKY J. Discriminative Training Techniques for Acoustic Language Identification [C]//Acoustics,Speech and Signal Processing,2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. S.l.:s.n.,2006,I:209-212.

[4] TSAI W H,CHANG W W. Discriminative training of Gaussian mixture bigram models with application to Chinese dialect identification [J]. Speech Communication,2002,36(3-4):317-326.

[5] BAHARI MH.Non-Negative Factor Analysis of Gaussian Mixture Model Weight Adaptation for Language and Dialect Recognition [J]. Audio,Speech,and Language Processing,IEEE/ACM Transactions on,2014,22(7):1117-1129.

[6] Yun Lei,HANSEN JHL. Factor analysis-based information integration for Arabic dialect identification [C]// Acoustics,Speech and Signal Processing,2009.ICASSP 2009. IEEE International Conference on Acoustics,2009:4337-4340.

[7] DEHAK N,KENNY P J,DEHAK R,et al. Front-end factor analysis for speaker verification [J]. IEEE Transactions on Audio,Speech and Language Processing,2011,19(4):788-798.

[8] Dehak N,Torres-Carrasquillo P A,Reynolds D A,et al. Language Recognition via Ivectors and Dimensionality Reduction [C]// Proceedings of Conference of the International Speech Communication Association,F(xiàn)lorence,Italy,August,2011:857-860.

[9] PUCHER M,SCHABUS D,YAMAGISHI J ,et al. Modeling and interpolation of Austrian German and Viennese dialect in HMM-based speech synthesis [J]. Speech Communication,2010,52(2):164-179.

[10] Omar F.Zaidan,Chris Callison-Burch. Arabic Dialect Identification [J]. Computational Linguistics,2013,40(1):171-202.

[11] Andrew Hunt. Recurrent neural networks for syllabification [J]. Speech Communication,1993,13(3-4):323-332.

[12] Priyanka Singh,Priti Singh,Rakesh Kumar Sharma. JPEG Image Compression based on Biorthogonal,Coiflets and Daubechies Wavelet Families [J]. International Journal of Computer Applications,2011,13(1):1-7.

[13] Rafael C. Gonzalez Richard E,Woods. Digital Image Processing(3rd Edition) [M]. Beijing:Publishing House of Electronics Industry,2007:306-312.

[14] Press W H,F(xiàn)lannery B P,Teukolsky S A,et al. Numerical recipes in C:the art of scientific computing [M]. Cambridge:Cambridge University Press,1988.

[15] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition [J]. Proceedings of the IEEE,1998,8(11):2278-2324.

[16] TURAGA C S,MURRAY F J,JAIN V,et al. Convolutional Networks Can Learn to Generate Affinity Graphs for Image Segmentation [J]. Neural Computation,2010,22(2):511-538.

[17] Yangyan Li,Hao Su,Charles Ruizhongtai Qi,et al. Joint embeddings of shapes and images via CNN image purification [J]. ACM Transactions on Graphics (TOG),2015,34(6):1-12.

[18] Li G,Yu Y. Visual Saliency Detection Based on Multiscale Deep CNN Features [J]. IEEE Transactions on Image Processing,2016,25(11):5012-5024.

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)
基于深度神經(jīng)網(wǎng)絡(luò)的微表情識(shí)別
卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時(shí)間方法研究
卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識(shí)別的算法的研究
宜都市| 陇南市| 全南县| 盐城市| 克东县| 汉阴县| 灌南县| 马山县| 丰镇市| 西畴县| 碌曲县| 安国市| 马鞍山市| 道孚县| 汶川县| 靖远县| 新乐市| 崇礼县| 湟中县| 巴中市| 宁乡县| 宁波市| 木里| 皋兰县| 河池市| 延吉市| 会东县| 盐山县| 普格县| 晋州市| 池州市| 乡宁县| 普宁市| 迁安市| 开封县| 临夏县| 安国市| 库伦旗| 洛扎县| 楚雄市| 沙洋县|