卓嘎,邊巴旺堆
(西藏大學(xué)工學(xué)院電信系,西藏 拉薩 850000)
藏族是我國少數(shù)民族之一,人口分布廣,使用藏語人數(shù)多,主要有衛(wèi)藏、安多和康三大方言[1]。藏語是拼音語言,有嚴(yán)格的拼讀規(guī)則。三種方言文字一樣,但同一個字發(fā)音卻有很大的差異。近年來,藏語語音識別研究人數(shù)的逐漸增多,藏語語音識別技術(shù)取得了一定的成績,但是與其它語言的語音識別技術(shù)相比還是存在很大差距,特別是在連續(xù)語音識別研究上需要進一步加強研究深度[2]。
語音的聲學(xué)特征參數(shù)是語音識別的關(guān)鍵參數(shù)之一[3],其精確度直接影響語音識別的效率。即使是一段幾秒長的語音文件其信息量也是很大的,為了提高語音的識別質(zhì)量必須有選擇性的提取語音中的表征語音特色的有用信息,一般語音聲學(xué)參數(shù)分為語音時域特征參數(shù)和頻域特征參數(shù)。時域參數(shù)包括短時幅度、短時能量、短時過零率、短時自相關(guān)函數(shù)等。頻率參數(shù)包括語音基音頻率、共振峰、MFCC梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficents)參數(shù)等。在孤立詞語音信號中單獨的字或詞的語音信號的音強、時長、能量分布等特征比較容易觀察和分析,但是日常生活和實際的社會環(huán)境中使用的都是連續(xù)的語音句子,這些句子根據(jù)說話人的說話風(fēng)格,語速、背景,情緒有很大的差異,因而藏語孤立字和詞的聲學(xué)參數(shù)特征提取已經(jīng)不能滿足藏語語音大數(shù)據(jù)智能化的需求,本論文在Matlab環(huán)境下對藏語連續(xù)語音數(shù)據(jù)提取部分時域和頻域參數(shù),結(jié)合藏語發(fā)音特征進行參數(shù)特征分析,為藏語連續(xù)語音識別、語音合成和語音智能化的提供參考數(shù)據(jù)。
語音信號是頻率隨時間變換的一維信號,是一種非平穩(wěn)信號。為了能夠在類似穩(wěn)定狀態(tài)下對語音的特征進行分析,需要對原始的語音信號進行短時處理,一般情況下語音在10-30ms時間段內(nèi)信號相對平穩(wěn),因此,在此時段內(nèi)對原始語音進行分幀加窗處理[4][5]然后計算語音的短時平均能量、短時過零率、短時自相關(guān)函數(shù)等各種特征參數(shù)。
短時能量是經(jīng)過分幀加窗的連續(xù)語音,對各幀計算語音能量,其計算公式如下:
E(i)是語音信號分幀后第i幀的短時能量,各幀的幀長為L,分幀后的總幀數(shù)為fn。聲帶振動的語音短時能量較強[6],如濁音語音信號;聲帶不震動的語音,短時能量較弱,如清音語音信號。語音短時能量的值受前期分幀加窗時所選擇的窗的類型的影響。一般采用Hamming窗[7]。
短時過零率是連續(xù)語音采樣后的離散語音信號樣本值的改變情況或次數(shù)。在語音短時分析中,一般用一幀語音信號穿過橫州的次數(shù)來計算,其計算公式為:
L是短時分幀后各幀的幀長,Z(i)是第i幀樣本值的過零次數(shù)[8]。公式中sgn[·]是符號函數(shù),表達式如下:
聲帶振動的濁音語音信號能量較強頻率較低,因此短時過零次數(shù)少,反之,聲帶不振動的濁音語音信號能量較弱頻率較高,因此短時過零次數(shù)多。語音信號處理中,通常用短時能量和短時過零率的這個特點來設(shè)置相應(yīng)的閾值進行語音的端點檢測[9],用于清濁音的判斷和音節(jié)分割等應(yīng)用[10]。
語音離散信號的自相關(guān)函數(shù)公式為:
k是時間移位,Ri是第i幀的自相關(guān)值,xi是周期性語音信號的樣點值。如果信號周期為T,則在第一個周期及其整數(shù)倍的延時樣點上Ri(k)有最大值。
語音的短時自相關(guān)函數(shù)[9-12]就是語音信號分幀后各幀離散信號延時后的相關(guān)程度或者相似程度。對于具有周期性的語音信號其短時自相關(guān)函數(shù)也具有周期性。一般用短時自相關(guān)的周期或周期的倒數(shù)即頻率作為語音特征參數(shù)之一進行語音基音特征提取[13-14]。語音濁音信號具有周期性,而清音信號的頻率變化沒有明顯的規(guī)律,類似于隨機噪聲信號。在實際語音信號處理過程中由于存在聲道影響、頻率混合等各種干擾,降低了提取的基音參數(shù)的準(zhǔn)確性,因此會在計算短時自相關(guān)函數(shù)之前進行中心削波非線性處理[15],其計算公式如下:
式中,CL是自定義的閾值,是中心削波后的語音樣點幅值,x(n)是原始語音的樣本幅值。中心削波后,濾掉了原始語音信號中部分干擾峰值信號,提高了基音周期峰值的精確度。
實驗對藏語母語話者進行了一段拉薩語(衛(wèi)藏方言)連續(xù)語音的錄音,語音內(nèi)容為(句子意思是“你們的專業(yè)是藏語文還是漢語文?”);語音長度為2.0 s,采樣頻率44 100 Hz,進行短時分析用漢明窗,窗長為20 sm,幀交叉重疊為10 sm,語音文件保存為“a.wave”。在Matlab軟件環(huán)境下進行仿真實驗,實驗流程圖1如所示,連續(xù)語音信號進行單聲道處理以后先分幀加窗生成穩(wěn)定的短時幀,然后計算短時能量、短時過零率和短時自相關(guān)函數(shù)。計算短時自相關(guān)函數(shù)之前先進行中心削波處理,最后再繪制連續(xù)語音基音軌跡圖。
圖1 實驗流程圖
圖2 原始藏語連續(xù)語音波形
圖2是例句語音a.wave的原始時域波形,橫軸為語音持續(xù)的時間,縱軸是語音的幅度。
圖3、圖4、圖5分別是對原始連續(xù)語音信號進行分幀、加窗后計算的短時平均能量、短時過零率和用短時自相關(guān)函數(shù)法提取的基音波形。圖3中縱軸上的值代表語音短時能量強弱值,單位為dB,用虛豎線人工分割了連續(xù)句子的各個音節(jié),一共是十個音節(jié)。語音例句中的十個音節(jié)平均時長在表1中列出,第5個音節(jié)時長最短,第7個音節(jié)時長最長。在連續(xù)語音中,音節(jié)之間存在兩個或幾個音節(jié)的連讀,有時會有發(fā)音延時或者縮短的問題[16],音節(jié)之間的停頓很難確定,如圖3中的第7和第10兩個音節(jié)是同一個音節(jié)都是疑問詞,但由于表達的語氣不同,第七個音節(jié)延長了音節(jié)尾部的發(fā)音,帶有強調(diào)的語調(diào),因此其時長較長,而第10個音節(jié)是整句話最后的疑問詞,聲調(diào)短而輕長。同樣第6和第9音節(jié)在連續(xù)語音中與前面的音節(jié)連讀形成雙音節(jié)短語其時長、短時能量和短時過零率都有區(qū)別。
如圖3、圖4中虛線劃分的每個音節(jié)的平均能量和平均過零率值在表1中列出。發(fā)音過程中,清音聲帶不振動能量較小,濁音聲帶振動能量較大。圖3中短時能量值較低的片段是開頭讀清音的音節(jié),短時能量值較高的片段是開頭讀濁音的音節(jié),因此第1、2、4、7、9音節(jié)的短時能量值較大。
圖3 語音短時能量波形
圖4 語音短時過零率波形
一般清音過率高,濁音過零率低,因此在音節(jié)里,開頭發(fā)濁音的音節(jié)過零率低,開頭發(fā)清音的音節(jié)過零率高。與短時能量相反,從圖4語音的短時過零率波形中可以看出,短時能量較高的音節(jié)其對應(yīng)的過零率值反而低,短時能量較低的音節(jié)其過零率值較高。
語音清音發(fā)音時由于聲帶不振動能量較弱不具備明顯的周期性。而濁音信號具有周期性,可以通過提取基音特征參數(shù)跟蹤觀察語音的基音軌跡。圖5是例句語音文件a.wave的連續(xù)語音基音頻率的仿真波形圖。采用了自相關(guān)基音提取算法,圖中每個虛線片段內(nèi)是每個音節(jié)的基音頻率分布曲線。其中基音最高頻率在500 Hz左右,最低在100 Hz左右。一般男性聲音的基音頻率在64~523 Hz左右[17],語音文件a.wave也是男生的錄音??v坐標(biāo)上的頻率值為對應(yīng)時間該音節(jié)的基音頻率值,單位為Hz。每個音節(jié)的平均基音頻率在表1中列出。由于粗略地提取了基音參數(shù),圖5中各個音節(jié)的基音分布不是很明顯。圖6是經(jīng)過語音噪聲濾波、中心削波處理后的基音軌跡波形,除了第一共振峰[18]和靜音造成的局部噪點和野點外,圖6中連續(xù)語音基音波形中可以看出比較明顯的基音分布規(guī)律。藏語語音發(fā)音中,一個音節(jié)的發(fā)音是該音節(jié)各個音素加上元音和音調(diào)的拼讀。圖6波形可以看出本實驗語音例句中10個音節(jié)的基音頻率分布情況。連續(xù)語音發(fā)音過程中存在兩個或兩個以上的音節(jié)的連讀,因此其基音頻率也具有連續(xù)性,比如第1、2音節(jié)連讀,3、4音節(jié)連讀,5、6、7音節(jié)連讀,圖6中對應(yīng)音節(jié)的基音波形也具有連貫性,其中發(fā)清音的音節(jié)由于不具備周期性,其基音頻率分布也比較雜亂,如例句中的第8個音節(jié),該音節(jié)發(fā)清音短而輕是送氣的塞音清音。
圖5 語音短時自相關(guān)基音波形
圖6 藏語連續(xù)語音基音軌跡
實驗中提取短時平均能量、短時過零率、短時自相關(guān)函數(shù)等聲學(xué)參數(shù)基本上能夠很好的表征藏語連續(xù)語音中的聲學(xué)特征,特別是實驗中經(jīng)過濾波、中心削波處理藏語連續(xù)語音的基音軌跡波形,能夠很好地表征連續(xù)語音中各個音節(jié)的頻率變化。需要說明的是本實驗是在無噪音的環(huán)境下對語音錄音數(shù)據(jù)進行參數(shù)提取,實際情況中可能還存在各種人為噪聲和自然環(huán)境噪聲,因此在以后的研究中,還需要對不同噪聲環(huán)境下提取藏語連續(xù)語音聲學(xué)特征參數(shù)進行更深入的研究。
致謝:本文獲得西藏自治區(qū)高原通信科研創(chuàng)新團隊的支持!