李玉華
摘 ?要: 語音同步識(shí)別系統(tǒng)的發(fā)展方向是連續(xù)性的人機(jī)交互,采用傳統(tǒng)系統(tǒng)易受到突發(fā)性噪聲影響,致使識(shí)別效果較差,提出基于隱馬爾可夫模型的連續(xù)語音同步識(shí)別系統(tǒng)。結(jié)合語音識(shí)別原理,設(shè)計(jì)系統(tǒng)硬件總體結(jié)構(gòu)。利用JFET輸入高保真運(yùn)放的OPA604低通濾波器,保證信號(hào)處理結(jié)果的有效性。通過OMAP5912ZZG型號(hào)芯片對(duì)處理后的信號(hào)進(jìn)行存儲(chǔ),使用矢量圖緩沖音頻,經(jīng)由以太網(wǎng)接口移植相關(guān)語音識(shí)別序列,由此實(shí)現(xiàn)連續(xù)語音同步識(shí)別。由實(shí)驗(yàn)對(duì)比結(jié)果可知,該系統(tǒng)比傳統(tǒng)系統(tǒng)識(shí)別效果最高值高出48%,推進(jìn)了語音識(shí)別技術(shù)研究的快速發(fā)展。
關(guān)鍵詞: 隱馬爾可夫模型; 連續(xù)語音識(shí)別; 同步識(shí)別; 信號(hào)處理; 人機(jī)交互; 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
中圖分類號(hào): TN912.34?34; TP391.42 ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)11?0064?04
Abstract: The current development direction of the speech synchronization recognition system is successive human?computer interaction. The traditional system is easily affected by the sudden noise, which may cause the poor recognition effect. Therefore, a continuous speech recognition system based on hidden Markov model is proposed. In combination with the principle of speech recognition, the overall hardware structure of the system is designed. The low?pass filter of JFET?input high?fidelity operational amplifier OPA604 is utilized to ensure the validity of signal processing results. The chip OMAP5912ZZG is used to store the processed signals after acquisition. The vector map is used to buffer the audio frequency signal, and transplant the related speech recognition sequence via the Ethernet interface, thus the continuous speech synchronization recognition is realized. The experimental results show that the recognition effect of the proposed system is 48% higher than that of the traditional system, and the system can promote the rapid development of speech recognition technology research.
Keywords: hidden Markov model; continuous speech recognition; synchronous recognition; signal processing; human?computer interaction; system structure design
0 ?引 ?言
語音是人們用于信息交換和連通的快捷方式,也是人類特有功能,更是人類經(jīng)常使用的交流工具。隨著現(xiàn)代信息化時(shí)代來臨,使用智能技術(shù)對(duì)語音進(jìn)行存儲(chǔ)、識(shí)別與合成,可使語音信息被有效利用。語音的重要性大大推動(dòng)了語音信號(hào)的處理發(fā)展。而語音識(shí)別作為信號(hào)處理研究的重要領(lǐng)域,其作用是將語音轉(zhuǎn)換為控制命令,使計(jì)算機(jī)與人類語音相融合,將語音識(shí)別應(yīng)用到多個(gè)技術(shù)領(lǐng)域之中,甚至還可擴(kuò)展到人體學(xué)[1]。
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,語音識(shí)別已經(jīng)成為科學(xué)技術(shù)應(yīng)用領(lǐng)域研究的熱點(diǎn)問題,并逐漸進(jìn)入人們的日常生活,語音識(shí)別已成功應(yīng)用到手機(jī)和電視等智能設(shè)備,給人類未來生活方式帶來深遠(yuǎn)影響[2]。語音同步識(shí)別是將語音數(shù)據(jù)全部轉(zhuǎn)換為文本形式,突破語種和腔調(diào)不同造成機(jī)器與人之間溝通的障礙,使語音交互系統(tǒng)成為人機(jī)對(duì)話的重要工具[3]。
由于語音特性與人類語音之間差異性較大,采用傳統(tǒng)系統(tǒng)不能對(duì)連續(xù)語音進(jìn)行識(shí)別,因此,在該條件下對(duì)連續(xù)語音識(shí)別進(jìn)行研究是一個(gè)緊迫任務(wù)。基于此,本文提出基于隱馬爾可夫模型的連續(xù)語音同步識(shí)別系統(tǒng),不斷改進(jìn)與完善語音識(shí)別能力,使其被廣泛應(yīng)用于語音識(shí)別的各個(gè)領(lǐng)域。
1 ?連續(xù)語音同步識(shí)別系統(tǒng)構(gòu)建
連續(xù)語音識(shí)別系統(tǒng)構(gòu)建是在一定硬件條件和實(shí)驗(yàn)平臺(tái)上完成的,語音同步識(shí)別本質(zhì)上是一種模式識(shí)別過程,主要包括語音信號(hào)預(yù)處理,其基本原理如圖1所示。
由圖1可知,連續(xù)語音同步識(shí)別系統(tǒng)除了包括核心識(shí)別程序之外,還包括語音輸入、參數(shù)分析和文法語言模型構(gòu)建等。其中語音識(shí)別系統(tǒng)主要由語音信號(hào)預(yù)處理、核心計(jì)算和識(shí)別基本數(shù)據(jù)三部分組成[4]。
1.1 ?系統(tǒng)硬件結(jié)構(gòu)設(shè)計(jì)
基于隱馬爾可夫模型的連續(xù)語音同步識(shí)別將接收到的語音信號(hào)正確轉(zhuǎn)換成文本形式,該系統(tǒng)硬件結(jié)構(gòu)設(shè)計(jì)如圖2所示。
由圖2可知,語音信號(hào)是時(shí)變信號(hào),具有平穩(wěn)性,因此對(duì)語音信號(hào)進(jìn)行處理時(shí),需使用函數(shù)對(duì)連續(xù)語音信號(hào)進(jìn)行分段處理,每一段稱之為一幀,相鄰幀之間具有一定的重疊性,可減小跳變[5]。從每一幀中提取語音信號(hào)的魯棒性特征,可完成噪聲消除和特征提取[6]。
1.1.1 ?語音信號(hào)處理模塊
語音信號(hào)會(huì)隨著時(shí)間變化而發(fā)生改變,一旦出現(xiàn)混疊失真的噪聲干擾,就會(huì)使語音信號(hào)處理失效,因此在同步識(shí)別之前,必須使用低通濾波器對(duì)其進(jìn)行防混疊失真處理[7]。語音信號(hào)處理模塊的低通濾波器設(shè)計(jì)如圖3所示。
由圖3可知,利用JFET輸入高保真運(yùn)放的OPA604低通濾波器,具有運(yùn)放高阻抗、低失真特性,可保證語音信號(hào)處理過程不會(huì)受到混疊失真噪聲的干擾影響,獲取準(zhǔn)確、有效的信號(hào)處理結(jié)果,為連續(xù)語音同步識(shí)別提供精準(zhǔn)數(shù)據(jù)[8]。
1.1.2 ?語音同步識(shí)別模塊
將上述獲取的信號(hào)處理結(jié)果利用連續(xù)語音同步識(shí)別模塊進(jìn)行大量運(yùn)算,采用DSP芯片可處理數(shù)字信號(hào),具有體積小,適合安裝的功能。DSP芯片具有強(qiáng)大的在線交互能力,選擇OMAP5912ZZG型號(hào)DSP芯片配置了多種開發(fā)工具和多媒體數(shù)據(jù)庫,使系統(tǒng)能夠免費(fèi)使用。語音同步識(shí)別模塊設(shè)計(jì)如圖4所示。
由圖4可知,選擇OMAP5912ZZG型號(hào)的芯片存儲(chǔ)處理器規(guī)格是300 KB的隨機(jī)存儲(chǔ)器,通過液晶顯示屏對(duì)連續(xù)語音數(shù)據(jù)進(jìn)行緩沖。利用內(nèi)存卡擴(kuò)展系統(tǒng)內(nèi)存,使用矢量圖緩沖音頻,經(jīng)由以太網(wǎng)接口移植相關(guān)語音識(shí)別序列[9]。
結(jié)合語音識(shí)別原理,設(shè)計(jì)系統(tǒng)硬件結(jié)構(gòu)。通過函數(shù)對(duì)連續(xù)語音信號(hào)進(jìn)行分段處理,可減小跳變。由于語音信號(hào)處理過程會(huì)受到混疊失真噪聲干擾影響,因此,設(shè)計(jì)防混疊失真的低通濾波器,保證信號(hào)處理結(jié)果的準(zhǔn)確性和有效性。根據(jù)獲取信號(hào)處理結(jié)果,利用連續(xù)語音同步識(shí)別模塊進(jìn)行大量運(yùn)算,選擇OMAP5912ZZG型號(hào)DSP芯片可大大降低系統(tǒng)設(shè)計(jì)成本,經(jīng)由以太網(wǎng)接口移植相關(guān)語音識(shí)別序列,由此完成系統(tǒng)硬件結(jié)構(gòu)設(shè)計(jì)[10]。
1.2 ?系統(tǒng)軟件功能設(shè)計(jì)
根據(jù)上述設(shè)計(jì)的語音同步識(shí)別模塊對(duì)其軟件功能進(jìn)行設(shè)計(jì)[11]。具體設(shè)計(jì)流程如圖5所示。
語音識(shí)別在音頻方面具有非線性特征,符合人類聽覺神經(jīng)信號(hào)的收發(fā),識(shí)別效率較高,語音特征處理可分為濾波、樣本采集和語音分幀。采用隱馬爾可夫模型對(duì)單元匹配進(jìn)行加窗操作處理,可使語音相鄰幀之間的信號(hào)傳輸更加平滑[12]。
基于隱馬爾可夫模型連續(xù)語音同步識(shí)別系統(tǒng)是按照用戶語音特征進(jìn)行自動(dòng)選擇窗函數(shù)形態(tài),詞性解碼與語法解析都是在隱馬爾可夫模型下進(jìn)行的,由此可獲取語音信號(hào)頻率,并利用隱馬爾可夫模型對(duì)幀序列進(jìn)行變換,解析幀序列中存在的部分失效數(shù)據(jù),對(duì)其進(jìn)行刪減。
根據(jù)上述步驟可獲取語音幀處理結(jié)果,但經(jīng)過處理后的結(jié)果受到突發(fā)性噪音影響,部分語音幀短時(shí)平均能量突然提高,使得獲取的識(shí)別結(jié)果不準(zhǔn)確,為此設(shè)計(jì)如圖6所示的處理階段流程。
具體實(shí)施步驟如下:
1) 當(dāng)語音信號(hào)處于靜音階段時(shí),令status=0,增加語音信號(hào)幀,如果某一幀短時(shí)能量出現(xiàn)過高問題,那么該幀為語音信號(hào)起始點(diǎn),此時(shí)令status=1,說明語音信號(hào)進(jìn)入了過渡期,無法確定該部分為語音段。
2) 繼續(xù)增加語音信號(hào)幀,如果某一幀短時(shí)能量出現(xiàn)過低問題,那么該幀表明過渡段恢復(fù)到靜音階段,此時(shí)status=0。
3) 如果該幀短時(shí)能量高于amp1,并且繼續(xù)增加幀號(hào),則可確定信號(hào)進(jìn)入語音階段,此時(shí)status=2,當(dāng)前語音幀幀號(hào)為語音初始點(diǎn)。
4) 如果當(dāng)前幀為語音段,則status=2,語音幀短時(shí)能量低于amp2,那么該段為噪聲。
5) 繼續(xù)增加幀號(hào),當(dāng)持續(xù)時(shí)間大于靜音階段時(shí),則說明語音信號(hào)端點(diǎn)正常,可輸出有效語音。
根據(jù)系統(tǒng)軟件設(shè)計(jì)流程,采用隱馬爾可夫模型對(duì)單元匹配進(jìn)行加窗操作處理,可使語音相鄰幀之間信號(hào)傳輸更加平滑。自動(dòng)選擇窗函數(shù)形態(tài),獲取經(jīng)過隱馬爾可夫模型變換后的幀序列。由于獲取的結(jié)果中存在部分失效數(shù)據(jù),為此,需刪減一部分?jǐn)?shù)據(jù),并設(shè)計(jì)處理階段流程,由此完成系統(tǒng)軟件部分的設(shè)計(jì)。
2 ?實(shí) ?驗(yàn)
為了對(duì)基于隱馬爾可夫模型的連續(xù)語音同步識(shí)別系統(tǒng)的有效性進(jìn)行實(shí)驗(yàn)分析,需從標(biāo)準(zhǔn)模式識(shí)別數(shù)據(jù)庫中提取部分語音訓(xùn)練集。
2.1 ?實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)參數(shù)設(shè)置情況如表1所示。
2.2 ?實(shí)驗(yàn)環(huán)境設(shè)置
為了防止安裝在電腦上的語音同步識(shí)別系統(tǒng)受到硬件性能影響而無法將全部性能發(fā)揮出來,需統(tǒng)一利用計(jì)算機(jī)上的高端系統(tǒng)性能進(jìn)行實(shí)驗(yàn)驗(yàn)證分析。實(shí)驗(yàn)環(huán)境設(shè)置如圖7所示。
2.3 ?實(shí)驗(yàn)結(jié)果與分析
根據(jù)上述實(shí)驗(yàn)參數(shù)和實(shí)驗(yàn)環(huán)境,分別將傳統(tǒng)系統(tǒng)與基于隱馬爾可夫模型系統(tǒng)在突發(fā)性噪聲影響下,對(duì)其識(shí)別效果進(jìn)行對(duì)比分析。
將這兩種系統(tǒng)的語音信號(hào)和短時(shí)能量進(jìn)行驗(yàn)證,結(jié)果如圖8所示。
由圖8可知:傳統(tǒng)系統(tǒng)在信號(hào)為1 000~2 000 Hz,6 300~6 900 Hz,8 900~9 200 Hz時(shí)出現(xiàn)中斷現(xiàn)象,導(dǎo)致短時(shí)能量失效;而基于隱馬爾可夫模型系統(tǒng)沒有出現(xiàn)中斷現(xiàn)象,可準(zhǔn)確獲取短時(shí)能量。
根據(jù)上述對(duì)比內(nèi)容,將這兩種系統(tǒng)識(shí)別效果在突發(fā)性噪聲影響下進(jìn)行對(duì)比,結(jié)果如表2所示。
由表2對(duì)比結(jié)果可知,基于隱馬爾可夫模型系統(tǒng)比傳統(tǒng)系統(tǒng)識(shí)別效果要好。
2.4 ?實(shí)驗(yàn)結(jié)論
根據(jù)上述內(nèi)容,可得出如下實(shí)驗(yàn)結(jié)論:當(dāng)噪聲分別為20 dB,40 dB,60 dB,80 dB,100 dB時(shí),基于隱馬爾可夫模型系統(tǒng)比傳統(tǒng)系統(tǒng)識(shí)別效果高15%,20%,26%,22%,48%。由此可知,基于隱馬爾可夫模型連續(xù)語音同步識(shí)別系統(tǒng)設(shè)計(jì)是有效的。
3 ?結(jié) ?語
由于語音識(shí)別系統(tǒng)設(shè)計(jì)過程較為復(fù)雜,加上時(shí)間條件限制,采用傳統(tǒng)方法容易受到突發(fā)性噪聲影響,識(shí)別效果較差,為此,本文設(shè)計(jì)基于隱馬爾可夫模型連續(xù)語音同步識(shí)別系統(tǒng)。該系統(tǒng)雖然在防御突發(fā)性噪聲影響上設(shè)計(jì)了低通濾波器,但系統(tǒng)對(duì)于環(huán)境的適應(yīng)能力還有待加強(qiáng),因此可充分考慮語音識(shí)別系統(tǒng)語音加強(qiáng)方法,增加信噪比,提高系統(tǒng)性能。
參考文獻(xiàn)
[1] 郭雷勇,李宇,林勝義,等.用于隱馬爾可夫模型語音帶寬擴(kuò)展的激勵(lì)分段擴(kuò)展方法[J].計(jì)算機(jī)應(yīng)用,2017,37(8):2416?2420.
GUO Leiyong, LI Yu, LIN Shengyi, et al. Excitation piecewise expansion method for speech bandwidth expansion based on hidden Markov model [J]. Journal of computer applications, 2017, 37(8): 2416?2420.
[2] 王蕊,李彥驍,孫輝,等.基于隱馬爾可夫模型的切換飛行控制系統(tǒng)性能分析[J].電子與信息學(xué)報(bào),2017,39(4):989?996.
WANG Rui, LI Yanxiao, SUN Hui, et al. Performance analysis of switched flight control systems based on hidden Markov model [J]. Journal of electronics & information technology, 2017, 39(4): 989?996.
[3] 李方偉,李騏,朱江.改進(jìn)的基于隱馬爾可夫模型的態(tài)勢(shì)評(píng)估方法[J].計(jì)算機(jī)應(yīng)用,2017,37(5):1331?1334.
LI Fangwei, LI Qi, ZHU Jiang. Improved method of situation assessment method based on hidden Markov model [J]. Journal of computer applications, 2017, 37(5): 1331?1334.
[4] 曹薈強(qiáng),林仲志,吳水才.基于隱馬爾可夫模型的老年人跌倒行為檢測(cè)方法研究[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2017,36(2):165?171.
CAO Huiqiang, LIN Zhongzhi, WU Shuicai. A detection method for the fall behavior of elders based on hidden Markov model [J]. Chinese journal of biomedical engineering, 2017, 36(2): 165?171.
[5] 李娟,張冰怡,馮志勇,等.基于隱馬爾可夫模型的視頻異常場(chǎng)景檢測(cè)[J].計(jì)算機(jī)工程與科學(xué),2017,39(7):1300?1308.
LI Juan, ZHANG Bingyi, FENG Zhiyong, et al. Anomaly detection based on hidden Markov model in videos [J]. Computer engineering and science, 2017, 39(7): 1300?1308.
[6] 林勇,劉湘瓊.基于隱馬爾可夫模型的拷貝數(shù)變異檢測(cè)算法研究[J].計(jì)算機(jī)應(yīng)用研究,2017,34(2):436?439.
LIN Yong, LIU Xiangqiong. Study of copy number variant detection algorithm based on hidden Markov model [J]. Application research of computers, 2017, 34(2): 436?439.
[7] 馮超,景小寧,李秋妮,等.基于隱馬爾可夫模型的空戰(zhàn)決策點(diǎn)理論研究[J].北京航空航天大學(xué)學(xué)報(bào),2017,43(3):615?626.
FENG Chao, JING Xiaoning, LI Qiuni, et al. Theoretical research of decision?making point in air combat based on hidden Markov model [J]. Journal of Beijing University of Aeronautics and Astronautics, 2017, 43(3): 615?626.
[8] 肖曉紅,張懿,劉冬生,等.基于隱馬爾可夫模型的音樂分類[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(16):138?143.
XIAO Xiaohong, ZHANG Yi, LIU Dongsheng, et al. Music classification based on hidden Markov models [J]. Computer engineering and applications, 2017, 53(16): 138?143.
[9] 王俊力,馮錫煒,孟菲.石油石化設(shè)備巡檢小車語音識(shí)別與控制系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電子設(shè)計(jì)工程,2017,25(22):74?77.
WANG Junli, FENG Xiwei, MENG Fei. Petroleum and petrochemical equipment inspection car voice recognition and control system [J]. Electronic design engineering, 2017, 25(22): 74?77.
[10] 吳震東,潘樹誠(chéng),章堅(jiān)武.基于CNN的連續(xù)語音說話人聲紋識(shí)別[J].電信科學(xué),2017,33(3):59?66.
WU Zhendong, PAN Shucheng, ZHANG Jianwu. Continuous speech speaker recognition based on CNN [J]. Telecommunications science, 2017, 33(3): 59?66.
[11] LI Changjiang, HU Yan. Research of phoneme recognition based on recurrent neural network [J]. Microelectronics & computer, 2017, 34(8): 47?51.
[12] GE Yongkan, YU Fengqin. Improved speech synthesis with adaptive postfilter parameters [J]. Computer engineering and applications, 2017, 53(1): 168?171.