艾虎 李菲
關(guān)鍵詞:漢語方言辨識;梅爾頻率倒譜系數(shù);主成分分析;概率神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.4 ? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2019)06-0005-05
Abstract:In order to judge the location of the suspect’s dialect,it provides important clues for the detection of the case. In this study,600 phonetic samples of different ages and sexes were collected from 6 different regions of Guizhou and the Mel frequency cepstrum coefficient MFCC was extracted from the samples. The Principal Component Analysis (PCA) and the data compression method proposed in this study are used to reduce the dimensionality of the MFCC to get the data set used in the training of probabilistic neural network. Then the probabilistic neural network is improved,and then it is used to construct the identification model of Guizhou dialect. The simulation results show that the correlation coefficient R between the dialect model identification result and the actual result is 90%. This model can effectively identify the dialects in Guizhou.
Keywords:Chinese dialect identification;mel frequency cepstrum coefficients;principal component analysis;probabilistic neural network
0 ?引 ?言
現(xiàn)代通訊工具在案件偵破中扮演著重要角色,對其中的語音信息進(jìn)行方言辨識,可以判斷犯罪嫌疑人的方言歸屬地,從而為案件偵破提供重要線索。由于方言的發(fā)音差異主要體現(xiàn)在頻譜結(jié)構(gòu)的時間變化上[1],所以需要提取梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)。因?yàn)榉窖员孀R模型的訓(xùn)練需要大量的語音樣本,導(dǎo)致提取的MFCC的數(shù)據(jù)量巨大,所以有必要先對所提取的MFCC進(jìn)行降維和壓縮處理,然后構(gòu)建分類模型進(jìn)行方言辨識。
近年來,國內(nèi)在漢語方言辨識方面采用的算法有流形學(xué)習(xí)與特征融合、聯(lián)合多樣性密度和深層與深度神經(jīng)網(wǎng)絡(luò)[2-5]等。本研究提出一種基于數(shù)據(jù)壓縮和改進(jìn)的概率神經(jīng)網(wǎng)絡(luò)的方言辨識模型,該模型采用了主成分分析與本研究所提出的數(shù)據(jù)壓縮方法對MFCC進(jìn)行降維處理,得到用于概率神經(jīng)網(wǎng)絡(luò)訓(xùn)練和仿真的數(shù)據(jù)集,并對概率神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),該模型能有效地對貴州地區(qū)方言進(jìn)行辨識。
1 ?MFCC的相關(guān)知識
MFCC是基于人耳聽覺特性提出來的,先將頻譜轉(zhuǎn)化為基于Mel頻標(biāo)的非線性頻譜,然后通過轉(zhuǎn)換得到倒譜域,由于MFCC在沒有任何前提假設(shè)的條件下,充分考慮了人的聽覺特性,因此MFCC具有良好的辨識性能和抗噪性,廣泛地應(yīng)用在語音辨識領(lǐng)域[6]。
本研究收集和整理了貴陽市、安順市、遵義市、凱里市、都勻市和六盤水市6個地區(qū)不同性別和不同年齡(年齡區(qū)間為8~60歲)的600份方言語音樣本,收集到的語音樣本時長5~20秒不等,把收集到的語音樣本平分為兩份,一份用來訓(xùn)練概率神經(jīng)網(wǎng)絡(luò),另一份用來驗(yàn)證概率神經(jīng)網(wǎng)絡(luò)。
語音采樣率為8000Hz;采樣點(diǎn)數(shù)256;幀長設(shè)為32ms;幀移10ms;所提取的MFCC為24維,其全部組成為:12維MFCC系數(shù)和12維一階差分參數(shù)。所以一個語音文件提取得到的MFCC是一個N×24的矩陣。
3 ?MFCC的降維處理
3.1 ?主成分分析
PCA最初由Pearsan[7]于1901年提出,常用于減少數(shù)據(jù)集的維數(shù),保留數(shù)據(jù)中對方差貢獻(xiàn)較大的特征向量。其方法主要是通過對協(xié)方差矩陣進(jìn)行特征分解[8],從而得到數(shù)據(jù)集的主要成分和相應(yīng)的權(quán)重。本研究選取文件名為“貴陽-1”的語音樣本進(jìn)行MFCC提取,然后進(jìn)行主成分分析,得到24個特征向量的方差貢獻(xiàn)率,按方差貢獻(xiàn)率從小到大進(jìn)行排列并繪制直方圖,如圖1所示,然后取橫坐標(biāo)上的13到24,共12個特征向量組成數(shù)據(jù)集替代MFCC矩陣,這12個特征向量其方差貢獻(xiàn)率的總和為0.8509。
通過主成分分析,“貴陽-1”語音樣本的MFCC矩陣的列數(shù)由24降為12。其它語音樣本也按照上面的主成分分析進(jìn)行降維處理。
3.2 ?MFCC的數(shù)據(jù)壓縮
為了更好地發(fā)揮概率神經(jīng)網(wǎng)絡(luò)的魯棒性,需要采集大量語音樣本作為概率神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集,每個語音樣本提取的MFCC經(jīng)過主成分分析后只是減少了列數(shù),大量語音樣本的MFCC拼接在一起依然是行數(shù)巨大的矩陣,為了加快概率神經(jīng)網(wǎng)絡(luò)仿真時間,并確保仿真的準(zhǔn)確率,以及讓概率神經(jīng)網(wǎng)絡(luò)模型得到實(shí)際應(yīng)用,需要對該矩陣的列向量進(jìn)行數(shù)據(jù)壓縮。
本研究提出一種壓縮方法,首先對MFCC的數(shù)據(jù)矩陣的每一列向量按m個元素個數(shù)進(jìn)行初步分段。初步分段結(jié)束后,初步分段的第一段向前擴(kuò)展m/2個元素,得到第一段,如式(5)所示,初步分段的中間所有段分別向前后擴(kuò)展m/2個元素得到中間的每段,如式(6)所示,初步分段的最后一段向后擴(kuò)展m/2個元素得到最后一段,如式(7)所示。這樣的分段方式讓每一分段都和相鄰的分段有重疊區(qū)域,然后計(jì)算每段數(shù)據(jù)的平均數(shù)與標(biāo)準(zhǔn)差的乘積,用該乘積替代該段數(shù)據(jù)。
4 ?改進(jìn)的概率神經(jīng)網(wǎng)絡(luò)方言辨識模型
概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Network,PNN)適合用于模式分類,屬于徑向基神經(jīng)網(wǎng)絡(luò)的一種,是基于貝葉斯最小風(fēng)險(xiǎn)準(zhǔn)則發(fā)展而來的一種并行算法,由美國加州Specht博士[9,10]在1988年提出。
4.1 ?概率神經(jīng)網(wǎng)絡(luò)PNN的改進(jìn)
改進(jìn)的概率神經(jīng)網(wǎng)絡(luò)模型如圖2所示,該模型由六部分組成:輸入層、樣本層、求和層、競爭層、儲存求和層和儲存競爭層,虛線框?yàn)楦倪M(jìn)的部分,包括儲存求和層和儲存競爭層。
4.2 ?概率神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
一個語音樣本的MFCC經(jīng)過PCA和壓縮處理后得到一個數(shù)據(jù)矩陣,然后對該矩陣進(jìn)行轉(zhuǎn)置,按語音樣本的輸入順序把不同樣本的數(shù)據(jù)矩陣橫向拼接,從而得到該概率神經(jīng)網(wǎng)絡(luò)模型的輸入矩陣Pn。對上述位于貴州省的6個采樣地區(qū)進(jìn)行1~6編號,同一個地區(qū)的語音樣本使用相同的編號,每一個語音樣本中的每一個列向量對應(yīng)該語音樣本的編號,從而實(shí)現(xiàn)一個語音樣本對應(yīng)一個N維行向量ti,按語音樣本的輸入順序,把不同樣本的ti進(jìn)行橫向拼接,最后得到該模型的訓(xùn)練數(shù)據(jù)集的輸出矩陣Tn。把輸入向量矩陣Pn和輸出向量Tn輸入概率神經(jīng)網(wǎng)絡(luò)PNN中,向量矩陣Pn構(gòu)成樣本層,每一列向量對應(yīng)一個結(jié)點(diǎn),樣本層結(jié)點(diǎn)的數(shù)目等于矩陣Pn列數(shù)。在求合層中,輸出向量Tn中,值相同的元素構(gòu)成同一結(jié)點(diǎn),即求合層中結(jié)點(diǎn)數(shù)等于地區(qū)數(shù),樣本層中的結(jié)點(diǎn)連接與其所屬地區(qū)相同的求合層結(jié)點(diǎn)。完成概率神經(jīng)網(wǎng)絡(luò)模型的輸入矩陣Pn和輸出矩陣Tn的輸入,即完成概率神經(jīng)網(wǎng)絡(luò)方言辨識模型的訓(xùn)練。
平滑因子σ在概率神經(jīng)網(wǎng)絡(luò)模型中很重要,太大會導(dǎo)致每個神經(jīng)元響應(yīng)區(qū)域交叉過多,會帶來精度問題,過小會導(dǎo)致過擬合[11]。為了方便確定平滑因子σ,采用Matlab的newpnn()函數(shù)構(gòu)建另一個概率神經(jīng)網(wǎng)絡(luò),把上述的訓(xùn)練數(shù)據(jù)分成數(shù)量相等的兩部分,一部分用于訓(xùn)練,另一部分用于仿真,通過反復(fù)訓(xùn)練與仿真確定平滑因子σ為0.1。該平滑因子σ=0.1同樣適用于本研究所構(gòu)建的概率神經(jīng)網(wǎng)絡(luò)方言辨識模型。
4.3 ?概率神經(jīng)網(wǎng)絡(luò)的仿真
首先,每次仿真只選擇一個方言語音樣本,然后對該語音樣本進(jìn)行MFCC的提取,按上述的方法進(jìn)行PCA降維和數(shù)據(jù)壓縮得到輸入矩陣Px,然后把輸入矩陣Px中的列向量依次輸入訓(xùn)練好的概率神經(jīng)網(wǎng)絡(luò)模型中,列向量中的每一個元素對應(yīng)輸入層一個結(jié)點(diǎn),通過計(jì)算得到輸入向量與訓(xùn)練樣本矩陣Pn中各個向量的接近程度值yik,yik為樣本層的輸出值,其值的大小為這兩個向量之間的距離,如式(8)所示。
測試使用電腦的配置:戴爾OptiPlex 9020 Mini To-wer;英特爾酷睿i7-4790 @ 3.60GHz 四核;顯卡AMD Radeon R5 240(1GB/戴爾);內(nèi)存8GB(三星DDR3 1600MHz)。
把收集到的600份語音樣本平分為兩份,一份用來訓(xùn)練概率神經(jīng)網(wǎng)絡(luò),別一份用來仿真驗(yàn)證概率神經(jīng)網(wǎng)絡(luò)。在進(jìn)行數(shù)據(jù)壓縮時,為了選擇合適的分段大小,本研究對不同的分段大小進(jìn)行測試和比較,測試和比較的結(jié)果如表1所示,相關(guān)系數(shù)R為方言模型辨識結(jié)果與實(shí)際結(jié)果的相關(guān)系數(shù)。通過測試結(jié)果的比較得出分段大小取30最合適,分段大小取30時,仿真結(jié)果與實(shí)際結(jié)果的散點(diǎn)圖如圖3所示,相關(guān)系數(shù)R為90.903%。
本研究采用概率神經(jīng)網(wǎng)絡(luò)對貴州方言進(jìn)行辨識,由于概率神經(jīng)網(wǎng)絡(luò)的魯棒性建立在大量訓(xùn)練樣本的基礎(chǔ)之上,所以需要采集大量的方言語音樣本,由于每一個語音樣本所提取MFCC是一個矩陣,從而導(dǎo)致訓(xùn)練樣本巨大,龐大的訓(xùn)練數(shù)據(jù)集會讓概率神經(jīng)網(wǎng)絡(luò)仿真時間變長,失去實(shí)用價(jià)值。為了讓概率神經(jīng)網(wǎng)絡(luò)貴州方言辨識模型可用于處理實(shí)際事務(wù),本研究首先采用PCA對MFCC進(jìn)行降維處理,然后再對其列向量進(jìn)行分段和壓縮,并通過優(yōu)化與比較確定分段大小取30最合適。經(jīng)過降維與壓縮處理后的訓(xùn)練數(shù)據(jù)集能有效縮短概率神經(jīng)網(wǎng)絡(luò)的仿真時間,并且模型仿真結(jié)果與實(shí)際結(jié)果的相關(guān)系數(shù)R達(dá)到0.90903,如表1所示。
由于每一個語音樣本所提取MFCC經(jīng)過PCA降維和數(shù)據(jù)壓縮后仍然是一個矩陣,輸入概率神經(jīng)網(wǎng)絡(luò)后矩陣的每一列向量分別有一個輸出,所以需要在原有的基礎(chǔ)上對概率神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),把每一列向量的輸出進(jìn)行儲存,然后對同一個語音樣本的所有輸出進(jìn)行求和比較,最后得出該語音樣本的辨識結(jié)果。
7 ?結(jié) ?論
本文采用PCA和本研究所提出的數(shù)據(jù)壓縮方法對貴州方言樣本的MFCC進(jìn)行降維處理,得到用于概率神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集,然后對概率神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),并構(gòu)建貴州方言辨識模型,訓(xùn)練完成的模型能有效對貴州方言進(jìn)行辨識。
參考文獻(xiàn):
[1] BAKER W,EDDINGTON D,NAY L. Dialect identi-fication:The effects of region of origin and amount of experience [J]. American Speech,2009,84(1):48-71.
[2] 賈晶晶,顧明亮,朱恂,等.基于流形學(xué)習(xí)與特征融合的漢語方言辨識 [J].計(jì)算機(jī)工程與應(yīng)用,2015,51(7):233-237.
[3] 顧明亮,張世形,張浩,等.基于聯(lián)合多樣性密度的漢語方言辨識 [J].計(jì)算機(jī)工程與應(yīng)用,2016,52(10):161-166.
[4] 景亞鵬,鄭駿,胡文心.基于深層神經(jīng)網(wǎng)絡(luò)(DNN)的漢語方言種屬語音識別 [J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(1):60-67.
[5] 崔瑞蓮,宋彥,蔣兵,等.基于深度神經(jīng)網(wǎng)絡(luò)的語種識別 [J].模式識別與人工智能,2015,28(12):1093-1099.
[6] 張毅,黎小松,羅元,等.基于人耳聽覺特性的語音識別預(yù)處理研究 [J].計(jì)算機(jī)仿真,2015,32(12):322-326.
[7] Pearson K. On lines and planes of closest fit to systems of points in space [J]. The London,Edinburgh,and Dublin Philosophical Magazine and Journal of Science,1901,2(6):559-572.
[8] Abdi H,Williams LJ. Principal component analysis [J]. Wiley Interdisciplinary Reviews Computational Statistics,2010,2(4):433-459.
[9] SPECHT DF. Probabilistic neural networks for classification,mapping,or associative memory [C]// Neural Networks,1988.,IEEE International Conference on. S.l.:s.n.,1988:525-532.
[10] Specht DF. Probabilistic neural networks [J]. Neural Networks,1990,3(3):109-118.
[11] 董長虹.Matlab神經(jīng)網(wǎng)絡(luò)與應(yīng)用(第2版) [M].北京:國防工業(yè)出版社,2007.
通訊作者:艾虎(1974-),男,漢族,江西弋陽人,博士,副教授,研究方向:聲音與圖像。