国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聲紋識別技術(shù)的Android設(shè)備聲音功能自動化測試系統(tǒng)*

2018-06-05 11:46:29李嘉偉胡海龍林志賢
關(guān)鍵詞:麥克風(fēng)揚聲器語音

李嘉偉,胡海龍,林志賢

(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350116)

0 引言

目前市面上的彩電等顯示器設(shè)備大部分已配備Android系統(tǒng),顯示器生產(chǎn)測試過程中需要對設(shè)備揚聲器與麥克風(fēng)等聲音功能進(jìn)行測試。聲音功能測試包括揚聲器(喇叭)、麥克風(fēng)(耳機(jī)孔)等硬件功能的測試,目的是檢驗聲音功能是否存在無聲、雜聲、失真等不良情況。當(dāng)前國內(nèi)外聲音功能自動化測試程度尚處于較低水平。文獻(xiàn)[1]提出了一種基于小波變換交叉運算的產(chǎn)線噪聲故障檢測和來源定位系統(tǒng)。文獻(xiàn)[2]提出基于高精度音頻信號分析技術(shù)與靈敏信號辨識技術(shù),可檢測發(fā)現(xiàn)20 dB以上雜音信號的次品手機(jī)。文獻(xiàn)[3]通過研究響度測試算法對電視機(jī)喇叭響度進(jìn)行測試。文獻(xiàn)[4]過語音識別技術(shù)構(gòu)建了工廠噪聲環(huán)境下玩具字母發(fā)音正確性的自動化檢測系統(tǒng)。上述方案僅能對揚聲器功能中的雜聲或響度等某一種特定不良進(jìn)行檢測,無法對麥克風(fēng)質(zhì)量以及語音失真、雜聲、無聲等多種不良同時做出全面的診斷。目前工廠產(chǎn)線中的聲音功能測試大部分依舊采用人耳聆聽測試,該方式全靠工人主觀判斷,所以成本高、效率低、錯判率高。

聲紋識別,又稱為說話人識別(Speaker Recognition,SR)。聲紋是攜帶歸屬者語音特征的聲波頻譜,聲紋識別就是通過計算機(jī)對數(shù)字語音信號提取、計算、比對信號的頻譜特征,從而辨別該語音信號的歸屬者[5]。鑒于Android設(shè)備智能化的特點以及聲紋識別技術(shù)對語音特征優(yōu)質(zhì)的辨識性能,本文提出一種基于聲紋識別技術(shù)(Voiceprint Recognition, VPR)的Android設(shè)備聲音功能自動化測試系統(tǒng)。采用梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficients,MFCC)結(jié)合梅爾倒譜差分系數(shù)(MFCC Difference,ΔMFCC)算法提取語音信號特征,通過動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)算法對麥克風(fēng)錄制語音和揚聲器播放語音的模型特征進(jìn)行比對,實現(xiàn)揚聲器與麥克風(fēng)同步對失真、無聲、雜聲等多種不良的有效檢測。本系統(tǒng)成本低、容易實現(xiàn),有助于提升企業(yè)生產(chǎn)效率。

1 特征提取與模式匹配算法

聲紋識別系統(tǒng)一般包含特征提取和模式匹配兩個關(guān)鍵的步驟。特征提取應(yīng)盡可能保留反映個性差異的特征信息,盡可能去掉與語音特征無關(guān)的信息,從而提取到聲紋特征。模式匹配則是對提取的多個特征信息進(jìn)行模式匹配,從而判別不同特征的差異[6]。

1.1 基于MFCC的特征提取算法

目前比較普及的特征提取方法有線性預(yù)測倒譜系數(shù)(Linear Predictive Cepstrum Coefficients,LPCC)和梅爾頻率倒譜系數(shù)。MFCC 特征系數(shù)是一種基于聽覺感知頻域倒譜系數(shù),本文選擇識別性能和魯棒性更好的MFCC算法作為提取特征參數(shù)的算法[7]。由式(1)求得MFCC序列參數(shù)c(n):

(1)

其中M為濾波器的階數(shù),本文中M為26,s(m)為同態(tài)處理后信號[8]。

梅爾倒譜差分特征參數(shù)ΔMFCC即在靜態(tài)MFCC特征的基礎(chǔ)上提取動態(tài)特征。為提高系統(tǒng)識別率,本系統(tǒng)在MFCC 特征中加入MFCC差分系數(shù)作為聲紋識別系統(tǒng)的特征參數(shù)。梅爾倒譜差分特征參數(shù)△MFCC的提取公式如式(2)所示,其中k為差分時間差,本文取值為2,d(n)即為所求差分系數(shù)。

(2)

1.2 基于DTW的模式匹配算法

由于故障設(shè)備可能存在某單一聲道無聲的不良,本系統(tǒng)采用基于解決長短不一語音模式匹配問題的動態(tài)時間規(guī)整算法作為模式匹配的方法,其核心思想是將時間規(guī)整和歐氏距離相結(jié)合,對時間序列進(jìn)行延伸和縮短,按照時間先后順序和當(dāng)前幀相鄰的幀進(jìn)行匹配,得到兩個時間序列距離最短最相似的映射路徑,這個最短的距離也就是這兩個時間序列的最后的距離度量[9]。

運用 DTW 算法計算出一個函數(shù)j=w(i),將測試模型的i軸非線性地映射到參考模型的j軸上, MFCC參數(shù)之間的DTW距離由式(3)計算獲得[10]:

(3)

式(3)中d[T(i),R(w(i))]表示第i幀測試矢量T(i)與第j幀參考矢量R(j)間的歐氏距離。 由式(4)計算獲得[10]:

(4)

式(4)中tk為測試矢量T第i幀的第k個數(shù)據(jù),rk為參考矢量R第j幀的第k個數(shù)據(jù),l為矢量參數(shù)各幀的數(shù)據(jù)個數(shù),本文取值24。

2 系統(tǒng)設(shè)計

本系統(tǒng)采用Java語言,基于Android 5.0.1 SDK開發(fā),開發(fā)工具為Android Studio,產(chǎn)品形式為apk格式可移植程序安裝包,具有可視化操作界面,通過Android系統(tǒng)調(diào)用設(shè)備底層揚聲器和麥克風(fēng)等硬件實現(xiàn)自動播放和錄制音頻,再通過Java語言實現(xiàn)數(shù)學(xué)計算進(jìn)行語音信號處理。通過界面文字與圖像反饋測試結(jié)果。

聲紋識別系統(tǒng)一般分為“訓(xùn)練”和“識別”兩個過程?!坝?xùn)練”階段對語音信號提取出特征參數(shù),作為參考模型存儲起來;“識別”階段利用模式匹配算法將待測特征模型與模型庫中的參考模型進(jìn)行比對,如找到符合閾值要求的匹配模型,則提示驗證通過,否則提示驗證失敗。由于本系統(tǒng)應(yīng)用領(lǐng)域的特殊性,“訓(xùn)練”階段在系統(tǒng)設(shè)計前期完成,在已確認(rèn)聲音功能完好的設(shè)備中進(jìn)行“訓(xùn)練”得到閾值和參考模型庫,再將該模型庫存入系統(tǒng),供其他待測設(shè)備進(jìn)行“識別”測試。本文設(shè)計的系統(tǒng)框架如圖1所示。

圖1 系統(tǒng)架構(gòu)圖

首先揚聲器播放左右聲道專用人聲測試音頻8 s。麥克風(fēng)錄制當(dāng)前揚聲器播放的語音。然后對信號進(jìn)行歸一化、預(yù)加重、端點檢測、加窗分幀等預(yù)處理。本系統(tǒng)采用短時能量和短時過零率雙重門限的方法進(jìn)行端點檢測,設(shè)備“無聲”故障主要通過端點檢測實現(xiàn),若有效語音段過短,即可提前判定設(shè)備“無聲不良”。最后利用MFCC算法提取特征模型?!坝?xùn)練”階段,在相同環(huán)境與條件下先后錄制并提取兩份語音特征模型,若二者特征誤差小于閾值,則作為模型庫保存?!白R別”階段利用DTW算法將預(yù)設(shè)的兩個參考模型先后與待測語音信息進(jìn)行特征模式的相似性匹配,若兩次的平均誤差小于閾值則驗證通過,表明揚聲器與麥克風(fēng)在整個連貫工作過程中沒有失真、雜音過大等不良情況,保持了語音原有的聲紋特征,即設(shè)備聲音功能完整,品質(zhì)達(dá)標(biāo)。反之則說明存在質(zhì)量問題,系統(tǒng)給出提示,操作員可進(jìn)一步驗證。如圖2所示,(a)為系統(tǒng)測試通過界面,并展示了某次測試中DTW距離、幀數(shù)、平均誤差等信息,(b)為測試不通過界面。其中平均誤差為前后兩次模式匹配的DTW距離之和除以幀數(shù)之和。

3 實驗與結(jié)果分析

3.1 閾值選定

特征參數(shù)是否滿足標(biāo)準(zhǔn),需要有一個閾值作為判定依據(jù),選定的閾值直接決定了產(chǎn)品是否合格。當(dāng)測試結(jié)果超出了閾值時即為不合格,在閾值范圍內(nèi)即為合格。閾值的選定需要針對目標(biāo)環(huán)境及需求進(jìn)行試驗確定。本文中“訓(xùn)練”獲得的兩模型DTW距離為11 265.429,平均誤差為17.030。在5種不同環(huán)境下對樣本良品設(shè)備進(jìn)行6次常規(guī)測試,再通過計算機(jī)模擬5種不同程度的失真、5種不同分貝雜音的語音分別對樣本設(shè)備進(jìn)行6次測試,部分測試數(shù)據(jù)如表1所示。由數(shù)據(jù)分析可知,良品測試語音與模型庫的平均誤差維持在17左右,與模型庫平均誤差持平,失真情形的平均誤差均在40以上,雜音情形的平均誤差均在22以上,穩(wěn)定在30左右,可見閾值可選區(qū)間在18~21之間,由此本文選取閾值為20。

圖2 系統(tǒng)檢測結(jié)果

情形測試語音與模型1的DTW距離測試語音與模型2的DTW距離測試語音與模型1的誤差測試語音與模型2的誤差平均誤差良品11 499.39611 886.28417.30517.79417.55010 831.35011 815.85116.47417.87617.1758 209.05311 528.15912.50417.46714.98612 179.45911 582.12418.46817.46917.96811 972.5799 748.30818.00414.58216.293失真不良29 142.46629 529.81344.52644.87844.70227 325.36028 755.14841.43343.37142.40230 147.71531 467.35945.33547.07246.20333 030.02932 795.21350.31249.69050.00136 685.12037 357.15955.92256.64556.284雜音不良24 390.66623 925.24137.04036.14136.59022 007.50622 477.97133.57434.10933.84122 485.23622 587.02933.06733.04633.05624 027.02523 821.79633.39432.94933.17115 518.00415 863.05122.36022.74322.551

3.2 系統(tǒng)性能分析

選定閾值20后,通過計算機(jī)模擬無聲、雜聲和失真三種語音樣本對系統(tǒng)進(jìn)行測試,每種情形測試30次。測試是在與生產(chǎn)線聲音功能測試間環(huán)境相似的安靜環(huán)境(環(huán)境噪音低于30 dB)下進(jìn)行的。測試設(shè)備為三星Galaxy S4智能手機(jī)(2 GB內(nèi)存,1.6 GHz四核CPU),Android版本為5.0.1,采樣率為22 050 Hz,音頻的采樣精度為8 bit,輸入語音流采用單聲道,錄音測試時間分別采用4 s、8 s、12 s,對失真不良情形進(jìn)行30次測試,不同時長測試數(shù)據(jù)如表2所示。由表2可看出,8 s測試時長的準(zhǔn)確率最高且平均計算時長較短。因此,在8 s測試時長下分別對不同的不良情形進(jìn)行了測試,實驗結(jié)果如表3所示??梢钥闯?,良品與無聲不良檢測準(zhǔn)確率接近100%,失真不良檢測準(zhǔn)確率高達(dá)96.67%,雜聲不良檢測準(zhǔn)確率達(dá)93.33%,基本滿足需求。

表2 不同時長實驗結(jié)果

表3 不同情形實驗結(jié)果

測試時長加上計算時長,本系統(tǒng)總工作時間約為16 s,即16 s可同時判定揚聲器與麥克風(fēng)功能的質(zhì)量。目前工廠中麥克風(fēng)測試耗時約1 min,揚聲器測試耗時約40 s,因此,本系統(tǒng)可為每臺機(jī)器省時84 s,效率提高6.25倍。工廠每生產(chǎn)1 000臺設(shè)備,可節(jié)省約23.3 h,本系統(tǒng)將極大促進(jìn)生產(chǎn)效率。保守估計工廠平均每年生產(chǎn)Android設(shè)備80萬臺,每年將節(jié)省18 000 h以上,以5 USD/h計算,顯性效益將超過90 kUSD/年。如果在人工出廠測試中發(fā)生漏檢誤檢或?qū)と寺犃υ斐蓳p害,損失將更大,初步評估隱形效益至少有180 kUSD/年。

4 結(jié)論

顯示器生產(chǎn)測試過程中需要對設(shè)備揚聲器與麥克風(fēng)等聲音功能品質(zhì)進(jìn)行測試,針對現(xiàn)有測試系統(tǒng)自動化程度低的問題,本文提出一種基于聲紋識別技術(shù)的Android設(shè)備聲音功能自動化測試系統(tǒng)。本系統(tǒng)采用MFCC+ΔMFCC算法提取語音信號特征,通過DTW算法對麥克風(fēng)錄制語音和揚聲器播放語音的模型特征進(jìn)行比對,實現(xiàn)揚聲器與麥克風(fēng)同步對失真、無聲、雜聲等多種不良進(jìn)行有效檢測。本系統(tǒng)良品與無聲不良檢測準(zhǔn)確率接近100%,失真不良檢測準(zhǔn)確率高達(dá)96.67%,雜聲不良檢測準(zhǔn)確率達(dá)93.33%,實現(xiàn)了Android 設(shè)備聲音功能的自動化測試。相比人工測試,效率提高6.25倍。本系統(tǒng)結(jié)構(gòu)簡單、容易實現(xiàn)、移植性強(qiáng)、成本低廉,對企業(yè)生產(chǎn)的“無人化”、“自動化”及“機(jī)器人化”起到了推進(jìn)作用。

[1] JI H G,KIM J H. Fault detection and localization using wavelet transform and cross-correlation of audio signal [J]. Journal of the Korean Society for Precision Engineering, 2014, 31(4): 327-334.

[2] 顏敏睿. 手機(jī)硬件檢測系統(tǒng)的設(shè)計與實現(xiàn)[D].成都:電子科技大學(xué), 2014:28-29.

[3] 陳章虹. 音頻響度測試與控制系統(tǒng)的研究與實現(xiàn)[D].長沙:中南大學(xué), 2014.

[4] 黃偉鴻. 工廠噪聲環(huán)境下聲音識別系統(tǒng)的設(shè)計與實現(xiàn)[D].廣州:中山大學(xué), 2014.

[5] CAMPBELL, J P.Speaker recognition: a tutorial[J]. Proceedings of the IEEE,1997,85 (9): 1437-1462.

[6] SAHIDULLAH M.A novel windowing technique for efficient computation of MFCC for speaker recognition[J]. IEEE Signal Processing Letters, 2013,20(2): 149 - 152.

[7] 邵明強(qiáng),徐志京. 基于改進(jìn) MFCC 特征的語音識別算法[J].微型機(jī)與應(yīng)用, 2017, 36(21): 48-50, 53..

[8] 李偉銘. 基于Android的聲紋身份驗證系統(tǒng)的研究與實現(xiàn)[D].南京:東南大學(xué), 2014.

[9] Hu Bing, Jin Hongxia, Wang Jun, et al. Generalizing DTW to the multi-dimensional case requires an adaptive approach[J]. Data Mining & Knowledge Discovery,2017,31(1):1-31.

[10] 周穎. Android 聲紋密碼鎖設(shè)計[D].武漢:武漢理工大學(xué), 2014.

猜你喜歡
麥克風(fēng)揚聲器語音
薄如紙張的揚聲器
Focal&Naim同框發(fā)布1000系列嵌入式揚聲器及全新Uniti Atmos流媒體一體機(jī)
魔力語音
大地震 正式發(fā)布Cinenova系列揚聲器
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
基于數(shù)字麥克風(fēng)的WIFI語音發(fā)射機(jī)
電子測試(2018年23期)2018-12-29 11:11:24
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
察雅县| 湖南省| 城固县| 和政县| 堆龙德庆县| 富宁县| 伊川县| 铁力市| 武山县| 弥渡县| 葫芦岛市| 印江| 涟水县| 荣成市| 开远市| 青海省| 永春县| 沾益县| 马公市| 沧州市| 朔州市| 渭南市| 景洪市| 丽江市| 邵阳市| 石楼县| 贵州省| 黑龙江省| 司法| 乃东县| 哈尔滨市| 扎囊县| 邵武市| 玉树县| 周口市| 白银市| 抚顺县| 甘泉县| 永登县| 云龙县| 泸溪县|