面向指控系統(tǒng)的嵌入式語音交互技術(shù)設(shè)計(jì)與實(shí)現(xiàn)
楊加平
(江蘇自動(dòng)化研究所計(jì)算機(jī)事業(yè)部,江蘇 連云港 222006)
Design and Realization of Speech Interaction Technology Face to Command and Control System
YANG Jiaping
(Computer Division,Jiangsu Automation Research Institute,Lianyungang 222006,China)
摘要:針對海軍指控系統(tǒng)的信息輸入延遲問題,提出一種新的語音交互解決方案。以DSP芯片為核心的交互系統(tǒng),并針對具體的應(yīng)用環(huán)境,給出了系統(tǒng)的初步設(shè)計(jì)思路和具體步驟,對現(xiàn)實(shí)中的一些實(shí)際問題有一定的指導(dǎo)意義。
關(guān)鍵詞:語音識別;指控;DSP
中圖分類號:TN912
文獻(xiàn)標(biāo)識碼:A
文章編號:1001-2257(2015)04-0072-03
收稿日期:2014-11-17
作者簡介:楊加平(1988-),男,江蘇鹽城人,工程師,主要從事加固計(jì)算機(jī)研制工作。
Abstract:A new kind of solution is given for speech interaction for command & control system of navy that interaction system is centered on DSP chip and in allusion to the specific use of the environment,the preliminary design ideas and the specific steps of the system are given,that solution can guide to resolve some real problem in reality.
Key words:speech recognition;command & control;DSP
0引言
對于海軍用指控系統(tǒng),反應(yīng)時(shí)間是指從雷達(dá)發(fā)現(xiàn)錄取目標(biāo)開始到系統(tǒng)給出滿足精度的目標(biāo)指示為止的時(shí)間間隔(不包括必要的人工操作時(shí)間),此指標(biāo)至關(guān)重要。實(shí)際中,此反應(yīng)時(shí)間越小,則留給本艦的生存機(jī)會(huì)越大。要縮短艦載指控系統(tǒng)的反應(yīng)時(shí)間就必須盡可能壓縮信息處理的時(shí)間。從人機(jī)交互角度來看,改善信息輸入手段,盡量減少人工操作時(shí)間,是減少信息處理時(shí)間的重要手段。
1語音交互系統(tǒng)實(shí)現(xiàn)的可行性
隨著計(jì)算機(jī)技術(shù)日新月異的發(fā)展,最近15年中語音識別技術(shù)的研究有了實(shí)質(zhì)性的突破,許多成功的語音識別系統(tǒng)相繼問世。例如,Cardin等研制的基于TIDIGIT數(shù)據(jù)庫的非特定人連續(xù)數(shù)字語音識別系統(tǒng),誤識率僅為0.5%;而Das等研制的20 000單詞的特定人孤立詞語音識別系統(tǒng),誤識率僅為1%。據(jù)統(tǒng)計(jì),現(xiàn)有的語音識別系統(tǒng)以每年2n的速度降低誤識率。目前,這些系統(tǒng)部分或全部地克服了特定說話人、孤立詞、小詞匯量和有限語法這4個(gè)約束,達(dá)到了很高的識別率。更重要的是,這些系統(tǒng)中的絕大部分已經(jīng)走出實(shí)驗(yàn)室成為商品。其中,最具代表性的當(dāng)屬IBM公司研制的ViaVoice,它屬于大詞匯量連續(xù)語音識別系統(tǒng),其誤識率,在一定的環(huán)境下可以低于5%。
本文所設(shè)計(jì)的語音識別系統(tǒng),基于特定人、孤立詞、小詞匯量和有限語法的語音識別技術(shù),該技術(shù)已經(jīng)非常成熟,系統(tǒng)完全能夠?qū)崿F(xiàn)。
2語音交互系統(tǒng)的功能組成
語音技術(shù)包括語音識別技術(shù)和語音合成技術(shù)。本交互裝置主要實(shí)現(xiàn)語音識別功能和語音播放功能,可大致分為4部分,如圖1所示。
圖1 語音交互系統(tǒng)功能原理
2.1語音特征提取
語音特征提取,是從語音波形中提取隨時(shí)間變化的語音特征序列。Mel 頻標(biāo)倒譜參數(shù)(MFCC) 特征是目前使用最廣泛的語音特征之一,具有計(jì)算簡單、區(qū)分能力好等突出的優(yōu)點(diǎn),因而常常成為許多實(shí)際識別系統(tǒng)的首選。在經(jīng)典MFCC特征提取算法中,輸入語音首先通過傅里葉變換得到其頻譜,然后再在頻域上應(yīng)用一組Mel頻率上均勻分布的濾波器,來得到類似人耳聽覺特性的非線性頻譜分辨率。
2.2聲學(xué)模型與模式匹配(識別算法)
聲學(xué)模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型通常由獲取的語音特征通過訓(xùn)練產(chǎn)生,目的是為每個(gè)發(fā)音建立發(fā)音模板。在識別時(shí)將未知的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,計(jì)算未知語音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大小(字發(fā)音模型、半音節(jié)模型或音素模型)對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率,以及靈活性有較大影響。目前,中大詞匯量的非特定人連續(xù)語音識別系統(tǒng),一般采用HMM模型,計(jì)算比較復(fù)雜;對于便攜式移動(dòng)設(shè)備(如手機(jī)、掌上電腦等)而言,多是基于使用孤立詞識別系統(tǒng),綜合考慮算法的易實(shí)現(xiàn)性和響應(yīng)的速度,一般采用動(dòng)態(tài)時(shí)間規(guī)整(DTW)識別算法。動(dòng)態(tài)時(shí)間規(guī)整采用了動(dòng)態(tài)規(guī)劃的思想,能夠?qū)崿F(xiàn)最佳意義上的待測語音與模板之間的時(shí)間對準(zhǔn),這就解決了要比較的2個(gè)語音持續(xù)時(shí)間不同的問題。
2.3語義理解
計(jì)算機(jī)對識別結(jié)果進(jìn)行語法、語義分析。明白語言的意義以便作出相應(yīng)的反應(yīng)。一般上層軟件做出相應(yīng)操作,執(zhí)行相應(yīng)命令。
2.4語音播放
計(jì)算機(jī)運(yùn)行各種應(yīng)用程序,如果此程序和語音交互裝置存有接口,則程序?qū)⒆詣?dòng)調(diào)用交互裝置中的語音播放模塊,實(shí)時(shí)把信息播放給用戶。
3硬件結(jié)構(gòu)和軟件流程設(shè)計(jì)
識別系統(tǒng)采用嵌入式系統(tǒng)。嵌入式是將語言識別軟件及模型,寫在設(shè)備的存儲(chǔ)器里,識別過程在終端完成。
3.1硬件結(jié)構(gòu)設(shè)計(jì)
一個(gè)完備的語音交互系統(tǒng),不但要具備語音信號的采集和播放功能,而且更重要的是要能完成復(fù)雜的語音信號分析和處理算法。通常這些算法運(yùn)算量大,且又要滿足實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的快速高效處理要求,因此,采用高速DSP芯片。以TMS320C6200為信號處理核心設(shè)計(jì)了該系統(tǒng),其硬件配置如圖2所示。TMS320C6200是美國Texas Instrument公司的16位定點(diǎn)DSP產(chǎn)品,它包括改進(jìn)的哈佛(Harvard)結(jié)構(gòu)、高性能CPU、片內(nèi)存儲(chǔ)器、在片外圍接口以及一套高效的匯編指令集,性價(jià)比好。語音采樣和輸出采用TLC320AD50芯片,該芯片是TI公司生產(chǎn)的16位語音編碼/解碼芯片,采用sigma-delta技術(shù)提供高精度低速信號變換,有2個(gè)串行同步變換通道和前后處理的濾波器。片外程序存儲(chǔ)器、數(shù)據(jù)存儲(chǔ)器均選用Flash芯片。
圖2 硬件結(jié)構(gòu)
系統(tǒng)中DSP控制AD/DA部件完成語音數(shù)據(jù)的采集和回放,并根據(jù)下載軟件完成相應(yīng)的信號分析,是系統(tǒng)的關(guān)鍵部件。使用時(shí),DSP程序下載到C6200的內(nèi)部程序區(qū)。采樣前,C6200通過內(nèi)部定時(shí)器Timer來設(shè)置AD/DA部件的采樣頻率。單個(gè)樣點(diǎn)采樣完成后,AD/DA部件產(chǎn)生C6200硬件中斷INT1,C6200響應(yīng)中斷INT1,將來自AD的采樣數(shù)據(jù)寫入FIFO,主機(jī)通過讀FIFO獲得采樣數(shù)據(jù);語音回放前,C6200按照回放頻率設(shè)置內(nèi)部定時(shí)器Timer,使之產(chǎn)生中斷INT1;回放時(shí),主機(jī)將數(shù)據(jù)寫入FIFO,C6200定時(shí)響應(yīng)中斷INT1,從FIFO讀取數(shù)據(jù)并將它送到DA輸出;信號處理任務(wù)在C6200內(nèi)部完成,單次處理的輸入輸出數(shù)據(jù)在片外存儲(chǔ)器與DSP部件之間交換。
3.2軟件設(shè)計(jì)
整個(gè)工作流程主要由主機(jī)控制流程和DSP中斷處理流程構(gòu)成。軟件流程如圖3所示,其中,INT1用于語音信號的采樣和回放;INT2用于主機(jī)向DSP傳送程序運(yùn)行參數(shù)、DSP向主機(jī)傳送數(shù)據(jù);INT3用于從片外程序存儲(chǔ)器下載程序,對于不同的分析處理有不同的DSP程序。
圖3 軟件流程
4語音交互裝置抗干擾設(shè)計(jì)
影響語音識別的因素很多,主要包括背景噪聲、傳輸通道變化、心理緊張及工作壓力和情緒變化所發(fā)生的發(fā)音變異。這些因素共同構(gòu)成了影響識別系統(tǒng)頑健性的諸要素。
4.1背景噪音
早在1911 年,Lombard 就發(fā)現(xiàn)了說話者在背景噪聲下會(huì)努力調(diào)整自己的發(fā)音方式,以提高說話的清晰度,即使發(fā)相同的語音,其語音的特征參數(shù)MCFF也會(huì)與安靜環(huán)境下的發(fā)音有所不同,像聲音變高,語速變慢,音調(diào)及共振峰變化等,這就是后來被研究者稱作的Lombard 效應(yīng)現(xiàn)象。Lombard 效應(yīng)影響的大小依賴于背景噪聲的強(qiáng)弱和類型。 艦載設(shè)備環(huán)境復(fù)雜,背景噪音多,艦船上主要有海浪聲、風(fēng)聲、馬達(dá)聲、人的走動(dòng)聲、飛機(jī)起飛降落盤旋聲和槍炮聲等;潛艇上主要有水流聲、馬達(dá)聲、人的走動(dòng)聲和武器發(fā)射時(shí)的巨大噪音等。在實(shí)際應(yīng)用中,通過分析可以得知,背景噪聲的特征參數(shù)MFCC的低階特征變化比較明顯,而高階特征幾乎保持不變。因此,可以通過對低階特征加較小的權(quán)值,高階特征加較大的權(quán)值,使背景噪聲的MCFF特征盡量保持平穩(wěn),來減小背景噪聲對正常語音的影響,從而減少語音的變異,使得變異語音的特征和正常語音特征接近。
4.2傳輸通道的變化
為保證傳輸通道的電氣性能,減小噪聲信號的引入,采用濾波、放大等設(shè)計(jì)手段,將傳輸通道造成的衰減影響減到最小。
4.3情緒影響
情緒影響語音信號的特性,東南大學(xué)在這方面進(jìn)行了研究,提出了一些情感語音信號識別的方法。本文不再詳述。
5結(jié)束語
對語音識別技術(shù)在艦載指控系統(tǒng)中的應(yīng)用,進(jìn)行了設(shè)計(jì)。提出了以AD/DA芯片采樣輸出語音信號,以高速DSP芯片為核心的控制系統(tǒng)對語音信號進(jìn)行處理的設(shè)計(jì)方法,并給出了軟件流程。對交互裝置中的抗干擾情況進(jìn)行了簡要描述,具有較強(qiáng)的工程實(shí)用性。
參考文獻(xiàn):
[1]董士海,王衡.人機(jī)交互.北京:北京大學(xué)出版社,2004.
[2]黃鳳崗,宋克歐.模式識別.哈爾濱:哈爾濱工程大學(xué)出版社,1998.
[3]趙訓(xùn)威.基于TMS320C6200系列DSP芯片的應(yīng)用與開發(fā).北京:人民郵電出版社,2002.
投稿郵箱更改啟事
各位作者:本刊投稿電子郵箱現(xiàn)為jxydz@vip.sina.com。由于網(wǎng)站域名更改,原投稿電子郵箱jxydzb@public.gz.cn停止使用。特此聲明。感謝各位作者和讀者一直以來對本刊的大力支持。
機(jī)械與電子雜志社