王赫楠+燕燕+王甜宇+王和禹
摘 要:現(xiàn)代社會的各個領(lǐng)域?qū)φZ音識別系統(tǒng)的要求不同,使得該系統(tǒng)特性的差異性非常的大,所以該系統(tǒng)的開發(fā)需要針對一定的指標。該文就相關(guān)的語音識別系統(tǒng)進行了簡要的分析,特別分析了動態(tài)時間規(guī)整算法(DTW)在嵌入式語音識別系統(tǒng)中的應(yīng)用。
關(guān)鍵詞:語音識別系統(tǒng) 動態(tài)時間規(guī)整 嵌入式
中圖分類號:TP3 文獻標識碼:A 文章編號:1674-098X(2014)03(b)-0071-01
隨著有關(guān)于嵌入式系統(tǒng)的軟件和硬件技術(shù)的進步,語音識別系統(tǒng)得到了全面的應(yīng)用[1]。由于嵌入式系統(tǒng)受到各種軟硬件的約束,該系統(tǒng)通常運行的是特定的任務(wù)[2,3]。所以開發(fā)者可以優(yōu)化軟硬件資源、減小規(guī)模、降低成本。但這對于語音識別系統(tǒng)的效率和準確度有了更高的要求[4]。DTW算法與HMM等算法相比較而言,針對小詞匯量語音識別系統(tǒng),其準確率與HMM等復(fù)雜算法幾乎相同。
1 DTW算法
動態(tài)時間彎曲(Dynamic Time Warping,簡稱DTW)是把時間規(guī)整和距離測度結(jié)合起來的一種非線性規(guī)整技術(shù)。設(shè):
(1)參考模板特征矢量序列為:c0,c1,…,cp;
(2)輸入語音特征矢量序列為:d0,d1,...,,dq p≠q。
那么,DTW就是要計算函數(shù)D,從而使c和d之間的差別最小。
2 DTW在線并行算法
2.1 算法描述
DTW在線并行算法對于并行性的小詞匯語音識別系統(tǒng)特別適用。此方法第一步對問題分解,然后在多個運算單元中單獨的計算已知模式和未知模式之間的距離,并且對每個運算單元進行的計算分解。在DTW運算時要預(yù)先分配大小一定的內(nèi)存。最后一步是將每一個單元的運算結(jié)果輸入到?jīng)Q策模塊,得到最終結(jié)論。
算法框圖如圖1所示,按照時間順序?qū)⒂嬎愠龅奈粗Z音特征矢量輸入到各個DTW流水線。然后由決策模塊依據(jù)各個流水線的計算結(jié)果以及其他信息得出結(jié)論。但由于每個參考模式的長度不同,各條流水線的計算時間是不同的,因此每條DTW流水線會設(shè)置一個完成標志位Pi(1≤i≤N),依據(jù)這些完成標志,決策模塊對已經(jīng)完成計算的流水線結(jié)果進行處理。同時該算法還可以通過識別歷史來提前終止沒有完成的計算步驟。
2.2 算法分析
令特征矢量的維度為l,未知模式的長度為k,參考模式的個數(shù)為n,參考模式的總長度為p,局部判決函數(shù)的水平跨度為w,流水線條數(shù)為b。流水線的距離矩陣A的窗口平均大小為wn/p,令t為特征向量的數(shù)據(jù)類型所占的字節(jié)數(shù),則OP-DTW算法所需的內(nèi)存為wnt/p Byte。當b≥n時,算法所需時間為經(jīng)典DTW的1/n;當b 3 結(jié)語 該文對一種DTW在線并行算法進行了分析,該算法相對減少了由于數(shù)據(jù)引起的等待時間;提高了DTW的并行度,并充分挖掘出硬件的計算功能,減少處理的時間。由于DTW的適用性,該算法適合一維非線性數(shù)據(jù)的匹配問題。 參考文獻 [1] 林常志.基于統(tǒng)計的語音識別方法分析報告[R/OL].(2003-12-26)[2009-06-13].http://icrc.hitsz.edu.cn/data/林常志語音識技術(shù)報告.net. [2] 李昱,林志謀,黃云鷹,等.基于短時能量和短時過零率的VAD算法及其FPGA實現(xiàn)[J].電子技術(shù)應(yīng)用,2006,32(9):110-113. [3] 謝秋云,肖鐵軍.語音MFCC特征提取的FPGA實現(xiàn)[J].計算機工程與設(shè)計,2008,29(21):5474-5475,5493. [4] 高謙,張國杰,張樹才.基于FPGA的高性能MFCC特征參數(shù)提取[J].通信技術(shù),2008,41(6):153-154,157.
摘 要:現(xiàn)代社會的各個領(lǐng)域?qū)φZ音識別系統(tǒng)的要求不同,使得該系統(tǒng)特性的差異性非常的大,所以該系統(tǒng)的開發(fā)需要針對一定的指標。該文就相關(guān)的語音識別系統(tǒng)進行了簡要的分析,特別分析了動態(tài)時間規(guī)整算法(DTW)在嵌入式語音識別系統(tǒng)中的應(yīng)用。
關(guān)鍵詞:語音識別系統(tǒng) 動態(tài)時間規(guī)整 嵌入式
中圖分類號:TP3 文獻標識碼:A 文章編號:1674-098X(2014)03(b)-0071-01
隨著有關(guān)于嵌入式系統(tǒng)的軟件和硬件技術(shù)的進步,語音識別系統(tǒng)得到了全面的應(yīng)用[1]。由于嵌入式系統(tǒng)受到各種軟硬件的約束,該系統(tǒng)通常運行的是特定的任務(wù)[2,3]。所以開發(fā)者可以優(yōu)化軟硬件資源、減小規(guī)模、降低成本。但這對于語音識別系統(tǒng)的效率和準確度有了更高的要求[4]。DTW算法與HMM等算法相比較而言,針對小詞匯量語音識別系統(tǒng),其準確率與HMM等復(fù)雜算法幾乎相同。
1 DTW算法
動態(tài)時間彎曲(Dynamic Time Warping,簡稱DTW)是把時間規(guī)整和距離測度結(jié)合起來的一種非線性規(guī)整技術(shù)。設(shè):
(1)參考模板特征矢量序列為:c0,c1,…,cp;
(2)輸入語音特征矢量序列為:d0,d1,...,,dq p≠q。
那么,DTW就是要計算函數(shù)D,從而使c和d之間的差別最小。
2 DTW在線并行算法
2.1 算法描述
DTW在線并行算法對于并行性的小詞匯語音識別系統(tǒng)特別適用。此方法第一步對問題分解,然后在多個運算單元中單獨的計算已知模式和未知模式之間的距離,并且對每個運算單元進行的計算分解。在DTW運算時要預(yù)先分配大小一定的內(nèi)存。最后一步是將每一個單元的運算結(jié)果輸入到?jīng)Q策模塊,得到最終結(jié)論。
算法框圖如圖1所示,按照時間順序?qū)⒂嬎愠龅奈粗Z音特征矢量輸入到各個DTW流水線。然后由決策模塊依據(jù)各個流水線的計算結(jié)果以及其他信息得出結(jié)論。但由于每個參考模式的長度不同,各條流水線的計算時間是不同的,因此每條DTW流水線會設(shè)置一個完成標志位Pi(1≤i≤N),依據(jù)這些完成標志,決策模塊對已經(jīng)完成計算的流水線結(jié)果進行處理。同時該算法還可以通過識別歷史來提前終止沒有完成的計算步驟。
2.2 算法分析
令特征矢量的維度為l,未知模式的長度為k,參考模式的個數(shù)為n,參考模式的總長度為p,局部判決函數(shù)的水平跨度為w,流水線條數(shù)為b。流水線的距離矩陣A的窗口平均大小為wn/p,令t為特征向量的數(shù)據(jù)類型所占的字節(jié)數(shù),則OP-DTW算法所需的內(nèi)存為wnt/p Byte。當b≥n時,算法所需時間為經(jīng)典DTW的1/n;當b 3 結(jié)語 該文對一種DTW在線并行算法進行了分析,該算法相對減少了由于數(shù)據(jù)引起的等待時間;提高了DTW的并行度,并充分挖掘出硬件的計算功能,減少處理的時間。由于DTW的適用性,該算法適合一維非線性數(shù)據(jù)的匹配問題。 參考文獻 [1] 林常志.基于統(tǒng)計的語音識別方法分析報告[R/OL].(2003-12-26)[2009-06-13].http://icrc.hitsz.edu.cn/data/林常志語音識技術(shù)報告.net. [2] 李昱,林志謀,黃云鷹,等.基于短時能量和短時過零率的VAD算法及其FPGA實現(xiàn)[J].電子技術(shù)應(yīng)用,2006,32(9):110-113. [3] 謝秋云,肖鐵軍.語音MFCC特征提取的FPGA實現(xiàn)[J].計算機工程與設(shè)計,2008,29(21):5474-5475,5493. [4] 高謙,張國杰,張樹才.基于FPGA的高性能MFCC特征參數(shù)提取[J].通信技術(shù),2008,41(6):153-154,157.
摘 要:現(xiàn)代社會的各個領(lǐng)域?qū)φZ音識別系統(tǒng)的要求不同,使得該系統(tǒng)特性的差異性非常的大,所以該系統(tǒng)的開發(fā)需要針對一定的指標。該文就相關(guān)的語音識別系統(tǒng)進行了簡要的分析,特別分析了動態(tài)時間規(guī)整算法(DTW)在嵌入式語音識別系統(tǒng)中的應(yīng)用。
關(guān)鍵詞:語音識別系統(tǒng) 動態(tài)時間規(guī)整 嵌入式
中圖分類號:TP3 文獻標識碼:A 文章編號:1674-098X(2014)03(b)-0071-01
隨著有關(guān)于嵌入式系統(tǒng)的軟件和硬件技術(shù)的進步,語音識別系統(tǒng)得到了全面的應(yīng)用[1]。由于嵌入式系統(tǒng)受到各種軟硬件的約束,該系統(tǒng)通常運行的是特定的任務(wù)[2,3]。所以開發(fā)者可以優(yōu)化軟硬件資源、減小規(guī)模、降低成本。但這對于語音識別系統(tǒng)的效率和準確度有了更高的要求[4]。DTW算法與HMM等算法相比較而言,針對小詞匯量語音識別系統(tǒng),其準確率與HMM等復(fù)雜算法幾乎相同。
1 DTW算法
動態(tài)時間彎曲(Dynamic Time Warping,簡稱DTW)是把時間規(guī)整和距離測度結(jié)合起來的一種非線性規(guī)整技術(shù)。設(shè):
(1)參考模板特征矢量序列為:c0,c1,…,cp;
(2)輸入語音特征矢量序列為:d0,d1,...,,dq p≠q。
那么,DTW就是要計算函數(shù)D,從而使c和d之間的差別最小。
2 DTW在線并行算法
2.1 算法描述
DTW在線并行算法對于并行性的小詞匯語音識別系統(tǒng)特別適用。此方法第一步對問題分解,然后在多個運算單元中單獨的計算已知模式和未知模式之間的距離,并且對每個運算單元進行的計算分解。在DTW運算時要預(yù)先分配大小一定的內(nèi)存。最后一步是將每一個單元的運算結(jié)果輸入到?jīng)Q策模塊,得到最終結(jié)論。
算法框圖如圖1所示,按照時間順序?qū)⒂嬎愠龅奈粗Z音特征矢量輸入到各個DTW流水線。然后由決策模塊依據(jù)各個流水線的計算結(jié)果以及其他信息得出結(jié)論。但由于每個參考模式的長度不同,各條流水線的計算時間是不同的,因此每條DTW流水線會設(shè)置一個完成標志位Pi(1≤i≤N),依據(jù)這些完成標志,決策模塊對已經(jīng)完成計算的流水線結(jié)果進行處理。同時該算法還可以通過識別歷史來提前終止沒有完成的計算步驟。
2.2 算法分析
令特征矢量的維度為l,未知模式的長度為k,參考模式的個數(shù)為n,參考模式的總長度為p,局部判決函數(shù)的水平跨度為w,流水線條數(shù)為b。流水線的距離矩陣A的窗口平均大小為wn/p,令t為特征向量的數(shù)據(jù)類型所占的字節(jié)數(shù),則OP-DTW算法所需的內(nèi)存為wnt/p Byte。當b≥n時,算法所需時間為經(jīng)典DTW的1/n;當b 3 結(jié)語 該文對一種DTW在線并行算法進行了分析,該算法相對減少了由于數(shù)據(jù)引起的等待時間;提高了DTW的并行度,并充分挖掘出硬件的計算功能,減少處理的時間。由于DTW的適用性,該算法適合一維非線性數(shù)據(jù)的匹配問題。 參考文獻 [1] 林常志.基于統(tǒng)計的語音識別方法分析報告[R/OL].(2003-12-26)[2009-06-13].http://icrc.hitsz.edu.cn/data/林常志語音識技術(shù)報告.net. [2] 李昱,林志謀,黃云鷹,等.基于短時能量和短時過零率的VAD算法及其FPGA實現(xiàn)[J].電子技術(shù)應(yīng)用,2006,32(9):110-113. [3] 謝秋云,肖鐵軍.語音MFCC特征提取的FPGA實現(xiàn)[J].計算機工程與設(shè)計,2008,29(21):5474-5475,5493. [4] 高謙,張國杰,張樹才.基于FPGA的高性能MFCC特征參數(shù)提取[J].通信技術(shù),2008,41(6):153-154,157.