国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

英文發(fā)音中錯誤語音自動識別系統(tǒng)設計

2018-05-15 06:43王興剛
現(xiàn)代電子技術 2018年10期
關鍵詞:自動識別

王興剛

摘 ?要: 傳統(tǒng)的英文發(fā)音識別系統(tǒng)對于學習者的錯誤發(fā)音不能及時進行反饋與糾正,存在誤導學習者以及學習者英文水平提高緩慢的弊端。在此設計新的英文發(fā)音錯誤語音自動識別系統(tǒng),其由語音錄制模塊、語音播放模塊、英語發(fā)音評分模塊和發(fā)音共振峰圖像顯示模塊構(gòu)成,給出評分模塊的發(fā)音評分流程,實現(xiàn)英文發(fā)音的有效評分以及評分的存儲,系統(tǒng)通過發(fā)音共振峰圖形顯示模塊,清晰地表達出學習者發(fā)音與標準發(fā)音的不同之處,糾正其錯誤讀音。通過英語音素檢錯程序使用獨立閾值的方式來提高錯誤讀音的檢測性能,對不同音素用獨立閾值進行衡量,使得英語發(fā)音中的錯誤語音自動識別結(jié)果更加科學化、精準化。實驗結(jié)果表明,所設計的系統(tǒng)具有較高的錯誤語音自動識別能力。

關鍵詞: 英語發(fā)音; 錯誤語音; 自動識別; 發(fā)音評分; 發(fā)音共振峰圖像顯示; 獨立閾值

中圖分類號: TN912.34?34 ? ? ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)10?0179?04

Abstract: The traditional English pronunciation recognition system fails to timely feed back and correct learners′ mispronunciation, which misleads learners and leads to learners′ slow improvement in English level. Therefore, a new error speech automatic recognition system for English pronunciation is designed. The system is composed of voice recording module, voice playing module, English pronunciation scoring module, and pronunciation formant image display module. The pronunciation scoring process of the scoring module is given to realize the effective scoring of English pronunciation and storage of scores. The pronunciation formant graphic display module is adopted to clearly express the differences between learners′ pronunciations and standard pronunciations, so as to correct their wrong pronunciations. The detection performance of wrong pronunciations is improved by using the independent threshold mode and the English phoneme error detection procedure. Different phonemes are measured with the independent threshold to make the wrong speech automatic recognition results of English pronunciation more scientific and accurate. The experimental results show that the designed system has a high error speech automatic recognition capability.

Keywords: English pronunciation; error speech; automatic recognition; pronunciation scoring; pronunciation formant graphic display; independent threshold

0 ?引 ?言

在經(jīng)濟全球化全面發(fā)展、我國對外開放進程不斷推進的背景下,世界各國溝通往來不斷加強,英語作為應用最頻繁的語言,發(fā)揮了不可替代的作用[1]。在學習英語的過程中,存在學習者口語較差的現(xiàn)象,口語作為英語學習中既關鍵又困難的部分,日益受到關注。因此,設計科學、高效的英文發(fā)音錯誤語音自動識別系統(tǒng)勢在必行。傳統(tǒng)的英文發(fā)音識別系統(tǒng)對于學習者的錯誤發(fā)音未能及時進行反饋與糾正,存在誤導學習者以及學習者英文水平提高緩慢的弊端。針對該問題,本文設計面向英文學習者發(fā)音錯誤及時反饋并糾正的錯誤語音自動識別系統(tǒng),為學習者提供了良好的口語學習環(huán)境。

1 ?英文發(fā)音中錯誤語音自動識別系統(tǒng)設計

1.1 ?系統(tǒng)總體構(gòu)架

隨著國際大環(huán)境發(fā)展,我國學習英文口語人數(shù)大量增長,為學習者們提供一個科學化、系統(tǒng)化語音糾錯方式至關重要,各種語音自動識別系統(tǒng)應運而生。圖1為本文設計英語發(fā)音中錯誤語音自動識別系統(tǒng)構(gòu)架圖。系統(tǒng)通過分割元音段、建立驗證體系以及檢測系統(tǒng)是否科學三方面對英語學習者發(fā)音實施語音驗證;采用HMM模型面向海量正確發(fā)音信息實施聲學模型訓練方式,保證語音段在Viterbi算法運作之下合理的分解,確保英語發(fā)音錯誤語音自動識別系統(tǒng)的發(fā)音評測模塊能夠接收到評比參數(shù)的提取、參數(shù)關聯(lián)流程及評測機制等信息。英語音素檢錯程序是整個系統(tǒng)的關鍵部分,能衡量英語發(fā)音中各參數(shù)權值[2],提取出英語發(fā)音中的錯誤音節(jié),向發(fā)音者進行反饋,以達到糾正錯誤并改進,促使英語發(fā)音者提高發(fā)音水平的目的。

1.2 ?系統(tǒng)硬件設計

1.2.1 ?系統(tǒng)的模塊組織結(jié)構(gòu)

本文設計的英文發(fā)音錯誤語音自動識別系統(tǒng)組織結(jié)構(gòu),由語音錄制模塊、語音播放模塊、英語發(fā)音評分模塊以及發(fā)音共振峰圖像顯示模塊構(gòu)成[3],詳細結(jié)構(gòu)如圖2所示。該系統(tǒng)重點是基于AP的發(fā)音評分模塊以及發(fā)音共振峰圖像顯示模塊,這兩部分是進行錯誤語音識別的關鍵性步驟。

1.2.2 ?英語發(fā)音評分模塊設計

系統(tǒng)在基于AP的發(fā)音評分技術基礎上,對英語發(fā)音評分模塊進行整合,英語發(fā)音評分及參數(shù)生成構(gòu)成模塊兩大核心部分,兩者在為英語發(fā)音者做出科學評分與評分參數(shù)自適應生成方面發(fā)揮著不可替代的作用[4]。

系統(tǒng)面向測試發(fā)音以及標準發(fā)音實施分幀加窗、端點檢測等操作,即進行預處理。接著,采取MFCC特征提取以及DTW動態(tài)歸納的方式,確保預處理后的英語發(fā)音數(shù)據(jù)得到有效的特征采集以及模式匹配計算[5],獲取測試發(fā)音及標準發(fā)音的幀平均匹配距離?;诓煌哪繕藙訖C,分為兩種情況:

1) 當需要進行參數(shù)生成時,經(jīng)過專家的經(jīng)驗評分,獲取幀平均匹配距離以及專家經(jīng)驗評分之間一定的對應關系,獲取英語評分的自適應參數(shù)x,y,確定評分函數(shù)來實施發(fā)音評分。

2) 當需要進行發(fā)音評分時,測試英語發(fā)音以及標準發(fā)音的幀平均匹配距離會被輸入到評分函數(shù)中,最終獲取英語發(fā)音評分。

準確輸出評分參數(shù)是發(fā)音評分部分及評分參數(shù)生成部分連接點[6],參數(shù)生成部分的存在,使得獲取的參數(shù)準確無誤地輸入到英語發(fā)音評分部分。系統(tǒng)采用SharePreferences組件存儲評分函數(shù)的重點參數(shù),實現(xiàn)參數(shù)的永久性保存。

1.2.3 ?發(fā)音共振峰圖形顯示模塊設計

標準英語發(fā)音以及學習者發(fā)音的共振峰變化形態(tài)會以圖形化的方式在發(fā)音共振峰的圖像顯示模塊中完整地體現(xiàn)出來,清晰地展現(xiàn)出兩者的不同之處,識別出學習者在英文發(fā)音過程中與正確發(fā)音的不同之處[7],糾正錯誤的英語發(fā)音。圖3詳細描述了共振峰的執(zhí)行流程。

發(fā)音共振峰圖形顯示模塊采用預處理、FFT變換及共振峰提取的方式對英語測試發(fā)音及標準發(fā)音實施操作[8],獲取學習者英語發(fā)音與標準發(fā)音共振峰信息。通過共振峰將兩種結(jié)果進行對比,能清晰地表達出學習者英語發(fā)音與標準發(fā)音的不同之處,糾正其錯誤讀音,為英文口語學習者提供科學、系統(tǒng)、便捷的學習環(huán)境。

1.3 ?系統(tǒng)軟件設計

1.3.1 ?英語音素檢錯程序構(gòu)建

在語音識別技術的基礎上,系統(tǒng)的英語發(fā)音自動檢錯程序?qū)崿F(xiàn)了判斷不同音素是否符合標準。英語發(fā)音自動檢錯程序的操作主要分為兩大步驟:第一,采用依據(jù)音素序列歸納學習者語句的方式,獲取不同音素相應的發(fā)音片段;第二,采用音素發(fā)音質(zhì)量GOP(Goodness of Pronunciation)的方式對得到的發(fā)音片段進行衡量[9]。觀測語音向量、當前音素以及所有音素集合分別用[O],[P]以及[Q]來描述,音素[P]的聲學模型轉(zhuǎn)換成觀測語音向量幾率用[POP]來描述。GOP具體計算過程見圖4。采用對GOP實施[FrameCountO]優(yōu)化歸納的方式,確保長短不一音素的GOP值相對可比。

檢錯識別功能是在本文系統(tǒng)判斷音素GOP值是否不超過某個閾值基礎上實現(xiàn)的。從標注數(shù)據(jù)集中可獲取到上述閾值。音素檢錯程序具體構(gòu)建如下:

1) 聲學屬性。人耳的聽覺屬性是依賴于Mel頻率倒譜系數(shù)MFCC進行體現(xiàn)的,音素檢錯模塊將人耳聽覺屬性列入聲學屬性參數(shù),采用MFCC_E_D_A D對詳細數(shù)據(jù)進行設置。

2) 聲學模型。本文程序采用的HMM模型在語音識別中應用頻率較高,詳細表現(xiàn)為MonoPhone,3狀態(tài),每狀態(tài)24高斯。該模型通過合理分析標準英文發(fā)音數(shù)據(jù)集的方式,確保聲學模型可以辨別發(fā)音是否準確,該數(shù)據(jù)集具體包含30個人15 h發(fā)音信息。

3) 音素分割網(wǎng)絡。音素分割網(wǎng)絡主要來源于學習者的朗讀音頻相應的音素序列。

4) 音素辨識表。從理論層面出發(fā),為得到科學精確的GOP值,需要對那些自動切分獲取的音素對應片段進行計算[10]。而具體應用中,僅使用頻繁出現(xiàn)的競爭子集來確保識別系統(tǒng)的使用效率。

5) 音素競爭子集的選取。詳細的例子見表1。下面對采集依據(jù)進行分析:聲學以及語音學經(jīng)驗、不同音素模型相互距離以及相似度、記錄人工標注中頻繁混淆的音素對。

1.3.2 ?使用獨立閾值提高錯讀檢測性能

1) 統(tǒng)一閾值與獨立閾值。采用統(tǒng)一衡量閾值進行判斷,然而分析表明,錯誤英語發(fā)音與標準發(fā)音GOP分布圖存在明顯差異。為實現(xiàn)英語音素檢錯程序科學化、精準化,對不同音素限定特有閾值。

2 ?實驗分析

2.1 ?語音錄入測試

實驗對本文系統(tǒng)的語音錄入性能實施測試,檢測系統(tǒng)對用戶進行發(fā)音跟讀過程中,是否可將發(fā)音正確錄入。實驗采用的數(shù)據(jù)是:元音18個、輔音22、單詞10個。將首次發(fā)音當成發(fā)音測試結(jié)果。測試成功率=成功[用例數(shù)總測試用例數(shù)]。測試用例與測試結(jié)果見表2、表3。

測試結(jié)果表明,本文系統(tǒng)能夠正確錄入元音以及單詞,受到局部輔音發(fā)音時間短以及音量低的干擾,有5.5%的輔音沒有正確錄入,總體上得出本文系統(tǒng)的成功錄入率較高。

2.2 ?反饋糾正測試

實驗對本文系統(tǒng)的反饋糾正性能進行測試,通過比較發(fā)音共振峰圖像的方式來驗證是否可以科學、精確地實施語音識別糾錯功能。實驗數(shù)據(jù)是:元音發(fā)音18個、單詞發(fā)音10個(共振峰未顯示輔音發(fā)音狀況)。通過共振峰圖像改進發(fā)音狀況,能夠確保提高發(fā)音評分,這種情況下,反饋糾正性能屬于有效,相反就是效果微弱甚至無效。有效率=[有效數(shù)總發(fā)音個數(shù)。]測試用例與測試結(jié)果用表4、表5所示。

測試結(jié)果表明,本文系統(tǒng)采取共振峰對比的措施,確保發(fā)音自動識別的糾正平均有效率在90.5%左右,對于學習者的英文發(fā)音練習起到很大作用。

3 ?結(jié) ?論

本文設計的英文發(fā)音錯誤語音自動識別系統(tǒng)對于學習者的錯誤發(fā)音能夠及時進行反饋與糾正,解決了學習者發(fā)音水平提高緩慢的問題,為英文學習者提供一個良好的學習環(huán)境。

參考文獻

[1] 張慶芳,趙鶴鳴,龔呈卉.基于因子分析和特征映射的耳語說話人識別[J].數(shù)據(jù)采集與處理,2016,31(2):362?369.

ZHANG Qingfang, ZHAO Heming, GONG Chenghui. Whispered speaker identification based on factor analysis and feature mapping [J]. Journal of data acquisition & processing, 2016, 31(2): 362?369.

[2] YOUNG S C, WANG Y H. The game embedded CALL system to facilitate English vocabulary acquisition and pronunciation [J]. Journal of educational technology & society, 2014, 17(3): 239?251.

[3] 張圣,郭武.采用通用語音屬性建模的說話人確認[J].小型微型計算機系統(tǒng),2016,37(11):2577?2581.

ZHANG Sheng, GUO Wu. Speaker verification based on universal speech attributes [J]. Journal of Chinese computer systems, 2016, 37(11): 2577?2581.

[4] 晁浩,宋成,劉志中.語音識別中基于發(fā)音特征的聲調(diào)集成算法[J].計算機工程與應用,2014,50(23):21?25.

CHAO Hao, SONG Cheng, LIU Zhizhong. Integrating tone models into speech recognition system based on articulatory feature [J]. Computer engineering and applications, 2014, 50(23): 21?25.

[5] 張少白,陳燕俐,何利文.基于DIVA模型的中文復合元音發(fā)音方法研究[J].系統(tǒng)仿真學報,2017,29(2):255?263.

ZHANG Shaobai, CHEN Yanli, HE Liwen. Research of Chinese diphthongs pronunciation based on DIVA model [J]. Journal of system simulation, 2017, 29(2): 255?263.

[6] 唐郅,侯進.基于深度神經(jīng)網(wǎng)絡的語音驅(qū)動發(fā)音器官的運動合成[J].自動化學報,2016,42(6):923?930.

TANG Zhi, HOU Jin. Speech?driven articulator motion synthesis with deep neural networks [J]. Acta automatica sinica, 2016, 42(6): 923?930.

[7] 岳源,張清芳.漢語口語產(chǎn)生中音節(jié)和音段的促進和抑制效應[J].心理學報,2015,47(3):319?328.

YUE Yuan, ZHANG Qingfang. Syllable and segments effects in mandarin Chinese spoken word production [J]. Acta psychologica sinica, 2015, 47(3): 319?328.

[8] 黃浩,徐海華,王羨慧,等.自動發(fā)音錯誤檢測中基于最大化F1值準則的區(qū)分性特征補償訓練算法[J].電子學報,2015,43(7):1294?1299.

HUANG Hao, XU Haihua, WANG Xianhui, et al. Maximum F1?score criterion based discriminative feature compensation training algorithm for automatic mispronunciation detection [J]. Acta electronica sinica, 2015, 43(7): 1294?1299.

[9] WANG X, YAMAMOTO S. Speech recognition of English by Japanese using lexicon represented by multiple reduced phoneme sets [J]. IEICE transactions on information & systems, 2015, 98(12): 2271?2279.

[10] 杜先娜,俞一彪.有效頻帶多分辨率特征提取及說話人年齡識別[J].信號處理,2016,32(9):1101?1107.

DU Xianna, YU Yibiao. Multi?resolution feature extraction of effective frequency bands for age recognition [J]. Journal of signal processing, 2016, 32(9): 1101?1107.

猜你喜歡
自動識別
中國自動識別技術協(xié)會
船舶模擬駕駛系統(tǒng)障礙物自動識別方法
基于數(shù)據(jù)挖掘的船舶航跡自動識別系統(tǒng)
太陽黑子自動識別與特征參量自動提取
基于衛(wèi)星遙感圖像的收費站位置自動識別與校核
船舶自動識別系統(tǒng)對船舶救助的影響
基于改進Canny算法的道路標線自動識別及定位
自動識別系統(tǒng)
金屬垃圾自動識別回收箱
基于IEC61850的配網(wǎng)終端自動識別技術