楊 軍,周啟靖,晉宗俊,鄧 莎
(武漢龍安集團有限責任公司,湖北 武漢 430074)
語音信號檢測(Voice Acess Detect,VAD)技術(shù),目的是為正確區(qū)分語音與各種背景噪聲。在語音信號處理和通信等領(lǐng)域,它有著十分重要的意義。本套算法集成了短時能量、過零率與短時平均幅度差(AMDF)檢測等算法的組合。
短時分析將語音流分幀處理,為減小語音幀的截斷效應,需要加窗處理;窗口的形狀和長度對分析影響很大,不同的分析方法對窗函數(shù)的要求不盡一樣;可分為矩形窗、漢明窗和漢寧窗等。
通常認為一個語音幀內(nèi)含有1~7個基調(diào)周期比較理想,但人的語音的基調(diào)周期值是變化的,從女性和兒童2ms到老年男子的14ms(即基調(diào)頻率為500Hz~70Hz),所以N的選擇是比較困難的,折衷的選擇N為100~300點比較合適。
一段短語音信號的能量稱為短時能量,第n段的短時能量由En表示,它等于該短段語音取樣的平方和,設(shè)第n幀語音信號xn(m)的短時能量用En表示,則其計算公式如下:
算法中使用短時能量的主要目的是:去除背景語音對VAD效果的影響,去除幅度較小的噪聲對VAD效果的影響。
過零表示信號通過零值,過零率即每秒內(nèi)信號值通過零值的次數(shù)。對于離散時間序列,過零則是指序列取樣值改變符號,過零率則是每個樣本改變符號的次數(shù)。對于語音信號,則是指在一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù),可以用相鄰2個取樣改變符號的次數(shù)來計算。
對于完全的周期信號,則相距為周期的整數(shù)倍的采樣點上幅值相等,差值為0。實際的語音信號是一個準周期信號,差值不為0,但很小,這些極小值將出現(xiàn)在整數(shù)倍周期的位置上。定義短時平均幅度差函數(shù):
AMDF函數(shù)在濁音基音周期上出現(xiàn)極小值,在清音語音時無明顯極小值。在此基礎(chǔ)上,為避免由于信號強弱帶來的誤差,需要對AMDF函數(shù)進行歸一化處理。
語音信號是一種時變的、非平穩(wěn)的隨機過程,從整體來看其特征及表征其本質(zhì)特征的參數(shù)均是隨時間變化的。但是,語音的形成過程與發(fā)聲器官的運動密切相關(guān),這種物理運動比起聲音振動速度來要緩慢得多,因此語音信號可以認為在一個較短的時間段內(nèi)是平穩(wěn)的,即具有短時平穩(wěn)性。
根據(jù)語音信號的這一特點,結(jié)合所采用的算法的需要,語音幀的長度定為16ms,下文將詳細介紹算法的實現(xiàn)。
①短時能量檢測函數(shù):power_proc(),輸入?yún)?shù)為存放采集一幀數(shù)據(jù)的地址,算法流程圖如圖1所示。
圖1 短時能量算法流程圖
②短時過零率函數(shù):zero_proc(),輸入?yún)?shù)為存放采集一幀數(shù)據(jù)的地址,算法流程圖如圖2所示。
圖2 短時過零率算法流程圖
③短時平均幅度差函數(shù):amdf_proc(),輸入?yún)?shù)為存放采集一幀數(shù)據(jù)的地址。其中D(N)存放的是不同Z(基音周期)得到的幅度差,算法流程圖如圖3所示。
語音檢測時,為保證檢測的準確性,連續(xù)10幀檢測有效時才認為確實有語音,連續(xù)20幀檢測無效時才認為確實無語音。為了滿足多幀檢測需求,又不至于出現(xiàn)掉字情況,同時還要保證檢測信號和語音信號的同步性,設(shè)計了一個環(huán)形緩沖區(qū),模擬語音通道1和通道2各有一個對應的環(huán)形緩沖區(qū)delay1和delay2,每一個環(huán)形緩沖區(qū)都有3個指針:接收指針、處理指針和發(fā)送指針,分別供DMA通道0中斷服務程序、短時能量子函數(shù)和短時平均幅度差子函數(shù)、DMA通道1中斷服務程序使用。
圖3 短時平均幅度差算法流程圖
系統(tǒng)的硬件實現(xiàn),核心器件為TI公司的低端DSP芯片TMS320VC5402(以下簡稱C5402),片內(nèi)DARAM僅有16Kbyte,地址有效范圍0x0080H~0x3FFFH,其中配置地址有效范圍為0x0000H~0x005FH。
除算法外,在具體研制過程中遇到了雙通道A/D采樣時通道無法有效控制、擴展片外RAM后程序不能正常加載、系統(tǒng)因負荷過大不能正確啟動等難題,通過長期的探索和嘗試,這些問題都得到了妥善的解決,并掌握了實現(xiàn)2路A/D同時采樣的狀態(tài)控制字配置方法,為算法的實施打下了堅實的基礎(chǔ)。大致的配置方法如下:
①所有保留位控制字,采用缺省設(shè)置;
②接收寄存器接收幀長度設(shè)置成每幀1個字;
③接收寄存器接收字長度設(shè)置成32位;
④發(fā)送寄存器發(fā)送幀長度設(shè)置成每幀1個字;
⑤發(fā)送寄存器發(fā)送字長度設(shè)置成32位。
McBSP0引腳控制寄存器配置如下:
①DX等引腳設(shè)置為串口;
②DR等引腳設(shè)置為串口;
③幀同步發(fā)送位設(shè)置成內(nèi)部發(fā)送模式;
④幀同步接收位設(shè)置成外部發(fā)送模式;
⑤時鐘發(fā)送位設(shè)置成外部發(fā)送模式;
⑥時鐘接收位設(shè)置成內(nèi)部發(fā)送模式;
⑦幀同步發(fā)送設(shè)置高電平有效;
⑧幀同步接收設(shè)置高電平有效;
⑨發(fā)送時鐘設(shè)置成為上升沿觸發(fā);
⑩接收時鐘設(shè)置成為上升沿觸發(fā)。
McBSP1引腳控制寄存器相關(guān)配置與McBSP0相似,額外配置如下:發(fā)送時鐘設(shè)置為內(nèi)部模式;接收時鐘設(shè)置為外部模式;發(fā)送時鐘設(shè)置為下降沿觸發(fā)。
提出了采用平均幅度、過零率和短時能量等系列算法進行語音處理的原理及具體實現(xiàn)方法,并介紹了承載該算法的硬件組成,該套語音處理模塊基于低端的DSP處理芯片,綜合考慮了性能價格比,在實現(xiàn)所有功能及性能的前提下,最大程度地節(jié)省了成本,提高了產(chǎn)品的市場競爭力,核心算法的實現(xiàn),凝聚了團隊的心血,在行業(yè)內(nèi)處于領(lǐng)先地位。實踐證明該語音處理模塊硬件小巧,語音質(zhì)量好,易于實現(xiàn),性價比較高,可推廣至各類需要語音處理的通信產(chǎn)品中。
[1]蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)與應用[M].北京:清華大學出版社,2003.
[2]趙力.語音信號處理[M].北京:機械工業(yè)出版社,2003.
[3]劉慶升,徐宵鵬,黃文浩.一種語音端點檢測方法的探究[J].計算機工程,2003(2):1-10.
[4]鄭建華,黃漢明,鐘明輝,等.幾種語音信號端點檢測方法的比較研究[J].廣西師范大學物理與電子工程學院,2007(4):10-14.