国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MFCC 特征提取的全新節(jié)能機(jī)器人設(shè)計(jì)與實(shí)現(xiàn)

2020-11-02 07:59:54江躍龍龔儉龍鐘宇軒楊世杰黃震
現(xiàn)代計(jì)算機(jī) 2020年27期
關(guān)鍵詞:小云梅爾特征提取

江躍龍,龔儉龍,鐘宇軒,楊世杰,黃震

(1.廣州鐵路職業(yè)技術(shù)學(xué)院,廣州 510610;2.廣東交通職業(yè)技術(shù)學(xué)院,廣州 510650)

0 引言

人的自生以來的聽覺系統(tǒng)是非常特殊的一個(gè)非線性系統(tǒng),人類的耳朵能夠響應(yīng)不同頻率信號[2]。因此,在語音特征提取方面,借助人類與生俱來的聽覺系統(tǒng),它不僅能夠提取語義的信息,同時(shí)還可以提取說話人的特征,這些人類的特性在現(xiàn)有的語音識別系統(tǒng)所望洋興嘆。本文設(shè)計(jì)秉承“綠色環(huán)保、節(jié)能減排”與“深度學(xué)習(xí)人工智能”的設(shè)計(jì)理念,將以MFCC 特征提取技術(shù)與全新節(jié)能技術(shù)融入人工智能應(yīng)用領(lǐng)域中。

1 系統(tǒng)設(shè)計(jì)思路與實(shí)現(xiàn)

本文將基于MFCC 特征提取的全新節(jié)能機(jī)器人進(jìn)行了研究,并將面向服務(wù)的深度學(xué)習(xí)技術(shù)應(yīng)用,其中構(gòu)建了原始語音信號頻譜和預(yù)加重后語音信號頻譜分析和特征提取。本文實(shí)現(xiàn)的功能:基于MFCC 特征提取的智能語音識別交互控制的機(jī)器人與無線Wi-Fi 通信技術(shù)及紅外控制技術(shù)相結(jié)合,實(shí)現(xiàn)與人進(jìn)行交流對話、查詢天氣、查詢時(shí)間、語音控制等功能。硬件模塊由太陽能光伏供電模塊、ARM 處理器主控模塊、無線Wi-Fi通信模塊、LCD 顯示模塊、檢測室內(nèi)環(huán)境傳感器模塊、MIC 輸入模塊、語音處理模塊以及人工智能處理模塊等組成,其系統(tǒng)總體設(shè)計(jì)框圖如圖1所示。

2 語音信號提取預(yù)處理

全新節(jié)能機(jī)器人在復(fù)雜的應(yīng)用環(huán)境下,作為語音類應(yīng)用的前端接口,語音信號預(yù)處理顯得尤為重要,其可以細(xì)分出處理噪聲干擾的語音增強(qiáng)和處理人聲干擾的語音分離[1]。語音在實(shí)際的傳輸過程中,環(huán)境噪聲和人的聲音干擾都會對全新節(jié)能機(jī)器人語音識別產(chǎn)生一定的影響,使得語音的質(zhì)量和可懂性能大大地下降,同時(shí)也給后續(xù)全新節(jié)能機(jī)器人語音識別方面的應(yīng)用帶來挑戰(zhàn),例如語音識別、說話人的語音識別等。

圖1 系統(tǒng)總體設(shè)計(jì)框圖

2.1 語音輸入

利用麥克風(fēng)陣列的語音輸入設(shè)備進(jìn)行語音原始未經(jīng)處理信號進(jìn)行錄制。由本人錄音,在無噪音環(huán)境下錄制“小云”語音為實(shí)驗(yàn)的對象,經(jīng)過格式轉(zhuǎn)換后,實(shí)驗(yàn)語音數(shù)據(jù)分別命名為xiaoyun.wav。該關(guān)鍵詞的“小云”語音信號是在較為安靜的環(huán)境下錄制而成的。在釆集的該語音輸入信號過程當(dāng)中,將會直接消除或減少語音輸入時(shí)間序列數(shù)據(jù)受偶然性因素干擾而產(chǎn)生不規(guī)則樣本或說話人自己造成的不規(guī)則樣本。

2.2 語音預(yù)處理

預(yù)處理的常用方法有預(yù)加重、端點(diǎn)檢測、分幀、聲道轉(zhuǎn)換、去加重、加窗、重采樣等,不同的語音識別在預(yù)處理方法和處理順序上有一定差別。在進(jìn)行關(guān)鍵詞“小云”語音信號特征提取之前,都要對原始序列做一系列的預(yù)處理,目的是盡可能保證后續(xù)語音處理得到的信號更均勻、平滑,為信號參數(shù)提取提供優(yōu)質(zhì)的參數(shù),提高語音處理質(zhì)量,同時(shí),消除采集語音信號的設(shè)備所帶來的混疊、高次諧波失真、高頻等因素,以免對關(guān)鍵詞的“小云”語音信號質(zhì)量的影響。

2.3 語音信號預(yù)加重

語音信號預(yù)加重(Pre-emphasis)是一種將低頻段關(guān)鍵詞“小云”語音信號能量放大,在高頻段的信號能量變小。因此,在傳輸之前把關(guān)鍵詞“小云”語音信號的高頻部分進(jìn)行處理(如加重處理),然后接收端再去重處理,以此來提高信號的傳輸質(zhì)量,要在對關(guān)鍵詞“小云”語音信號進(jìn)行分析之前對其高頻部分加以提升,以便于關(guān)鍵詞“小云”信號的頻譜分析或者聲道參數(shù)分析。

設(shè)關(guān)鍵詞“小云”語音信號t 時(shí)刻的語音采樣為S(t),經(jīng)預(yù)加重處理后結(jié)果為 Y(t)=S(t)-μ*S(t-1),其中μ根據(jù)經(jīng)驗(yàn)值取μ取值為0.97。通常設(shè)置一階數(shù)字濾波器:

上式中,μ值=預(yù)加重系數(shù),其范圍為:0.9<μ<1.0。

圖2 原始小云語音信號頻譜及預(yù)加重后頻譜

2.4 語音分幀與加窗

語音處理過程需要我們理解語音信號各個(gè)頻率成分具體分布情況,這時(shí)就需要利用傅里葉變換分析頻率成分。傅里葉變換要求輸入語音信號是平穩(wěn)的,在宏觀上來看語音信號是不平穩(wěn)的,從微觀上來看,語音信號在非常短時(shí)間內(nèi)可以看作是具有平穩(wěn)的。由此可見,從宏觀角度來看語音信號的特性和表征,它的本質(zhì)特征和相關(guān)參數(shù)都是隨時(shí)間而變化的,所以語音信號是一個(gè)不平穩(wěn)態(tài)的信號,不能用處理數(shù)字信號處理技術(shù)(如傅里葉變換)的對其進(jìn)行平穩(wěn)信號分析處理。但是,微觀角度來看,雖然語音信號具有時(shí)變特性,但是在一個(gè)非常短的時(shí)間(在10~30ms 時(shí)間內(nèi))范圍內(nèi),語音信號特性和參數(shù)基本保持不變,即語音信號保持相對穩(wěn)定的狀態(tài),所以我們可將語音信號看作其具有短時(shí)間內(nèi)平穩(wěn)性準(zhǔn)穩(wěn)態(tài)過程。

圖3 語音分幀

圖4 漢明窗(hamming window)

將語音信號分幀處理(如圖3 所示)后,我們將每一幀代入漢明窗(hamming window)窗函數(shù)如圖4 所示,窗外的值通常設(shè)為0,是為了消除每一個(gè)幀的兩端信號可能會造成的頻譜泄露spectral leakage(即不連續(xù)性)現(xiàn)象。理論上窗函數(shù)越寬,產(chǎn)生的平滑效果就會越好,同時(shí)也會使窗函數(shù)的坡度不斷增大,導(dǎo)致頻譜泄露現(xiàn)象比較嚴(yán)重,截?cái)嘈?yīng)也會很嚴(yán)重。所以綜合分析與考慮,我們將漢明窗的主瓣設(shè)為較寬而旁瓣設(shè)為較低,對語音信號處理的平滑效果更明顯,根據(jù)窗函數(shù)的頻域特性,漢明窗的主瓣比較寬而旁瓣比較低,對處理語音信號的平滑性效果比較好。常采用漢明窗,公式如下:

2.5 語音信號的特征提取

梅爾(Mel)頻率分析是基于人類的聽覺感知系統(tǒng)實(shí)驗(yàn)的,經(jīng)實(shí)驗(yàn)觀測發(fā)現(xiàn)人的聽覺系統(tǒng)對不同的頻率是有一定地選擇性的,人耳類似一個(gè)濾波器組一樣,它只關(guān)注個(gè)別特殊頻率的分量。換句話說,它只讓某些特定的頻率信號通過,同時(shí)可以對不想感知的頻率信號過濾掉。這些濾波器在頻率的坐標(biāo)軸上不是成統(tǒng)一分布,在低頻信號區(qū)域有很多的濾波器,它們分布較為密集,而在高頻區(qū)域,濾波器的個(gè)數(shù)就變得較少,分布也較為稀疏。若我們利用語音處理技術(shù)在語音識別系統(tǒng)中能夠模擬類似人類的聽覺感知,那么就極有可能提高和改善語音識別率。

通常語音信號的特征參數(shù)MFCC 提取過程,具體如圖5 所示步驟。

圖5 MFCC提取流程圖

圖6 Mel濾波器組

由于人耳對應(yīng)外界不同頻率的敏感程度是不同的,而且成為一種非線性關(guān)系,為此將語音信號頻譜按人耳敏感程度劃分多個(gè)梅爾(Mel)濾波器組如圖6 所示,在梅爾(Mel)刻度范圍內(nèi)將各個(gè)濾波器的中心頻率f(m)等間隔的線性分布和頻率范圍形成非相等間隔,然后將線性分布的頻譜映射到類似人的聽覺感知梅爾(Mel)非線性頻譜中,最后轉(zhuǎn)換到梅爾(Mel)倒譜上。將普通頻率轉(zhuǎn)化到梅爾(Mel)頻率的公式如下:

上式中f 為頻率,Mel(f)為梅爾(Mel)頻率,單位為Hz。

將該信號的能量譜通過一組Mel 三角形濾波器組(Mel-Filter banks),定義一個(gè)用 24 個(gè)濾波器(0-4000Hz)總點(diǎn)數(shù),每個(gè)濾波在中心頻率f(m)的響應(yīng)都是1,然后左右兩邊線性下降到相鄰的三角形濾波器的中心頻率f(m)處為0,如圖6 所示。

3 語音識別實(shí)驗(yàn)與分析

本文實(shí)驗(yàn)是在基于MATLAB 2017b 軟件平臺,語音樣本由作者規(guī)定為普通話“小云”錄音組成,并在安靜環(huán)境內(nèi)完成的。選用Windows 10 自帶錄音軟件進(jìn)行錄制,CompressionMethod:'Uncompressed',NumChannels: 2,SampleRate: 48000,TotalSamples: 354304,Duration: 7.3813,BitsPerSample: 16 保存文件為 xiaoyun.wav格式。音頻數(shù)據(jù)x=xiaoyun.wav,采樣率fs=8000Hz,采用端點(diǎn)檢測,最后提取MFCC 特征參數(shù),實(shí)驗(yàn)輸出數(shù)據(jù):(N=分幀個(gè)數(shù),M=特征維度)大小的特征參數(shù)矩陣,特征參數(shù)為M=24 倒譜系數(shù)為12 維,一階差分為12維。通過實(shí)現(xiàn)分幀、加窗、快速傅里葉變換(FFT)、梅爾濾波器組(Mel-bank)、離散余弦變換(DCT)等過程來計(jì)算得到語音信號MFCC 特征提取如7 圖所示。

圖7 MFCC特征提取

4 結(jié)語

本文梅爾頻率倒譜系數(shù)(MFCC)方法應(yīng)用于全新節(jié)能機(jī)器人設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行了研究與實(shí)驗(yàn),并將面向服務(wù)的深度學(xué)習(xí)技術(shù)應(yīng)用。在梅爾濾波(Mel filter)實(shí)驗(yàn)過程中,對原始小云語音信號時(shí)域波形、語譜圖繪制,然后對該信號進(jìn)行預(yù)加重,并分析其分幀的語音信號在短時(shí)間(通常10-30ms)內(nèi)具有平穩(wěn)性。通過錄入小云語音信號進(jìn)行實(shí)驗(yàn)加入短時(shí)能量特征,并引入梅爾頻率倒譜系數(shù)(MFCC)的一階差分和二階差分,對語音數(shù)據(jù)特征提取和降低運(yùn)算維度感知敏感度,從而提高了特征提取的有效性。在此基礎(chǔ)上,能夠更好地反映全新節(jié)能機(jī)器人在復(fù)雜環(huán)境下,它能夠較好地表述語音信號特征并且能準(zhǔn)確提取語音信號特征,為后期語音匹配時(shí)對輸入語音的采集及識別做出一定積累經(jīng)驗(yàn)。

猜你喜歡
小云梅爾特征提取
基于梅爾頻譜分離和LSCNet的聲學(xué)場景分類方法
云彩大作戰(zhàn)
女詩人梅爾詩集《十二背后》三人談
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
變化的小云
Bagging RCSP腦電特征提取算法
再見,小云
基于MED和循環(huán)域解調(diào)的多故障特征提取
盲人探險(xiǎn)家觸摸世界之巔
黨員文摘(2014年10期)2014-10-14 23:50:35
凱蒂佩瑞 7個(gè)月玩完約翰梅爾
浪卡子县| 普定县| 禹州市| 巫溪县| 绥棱县| 柏乡县| 阳东县| 正镶白旗| 犍为县| 武乡县| 桦南县| 资兴市| 历史| 东光县| 余干县| 大方县| 灵台县| 杂多县| 三台县| 岳池县| 宜黄县| 扬州市| 唐海县| 新闻| 麟游县| 郯城县| 湘阴县| 朝阳区| 米脂县| 延吉市| 迁西县| 安福县| 成都市| 海淀区| 翁牛特旗| 荔浦县| 平利县| 武清区| 油尖旺区| 南京市| 斗六市|