国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

環(huán)境背景聲自動(dòng)識(shí)別技術(shù)研究

2019-10-21 10:26申小虎王聰
科學(xué)與信息化 2019年2期
關(guān)鍵詞:鑒定分類

申小虎 王聰

摘 要 通過(guò)介紹環(huán)境背景音聲紋鑒定技術(shù)概念、產(chǎn)生、發(fā)展以及原理,來(lái)探討聲紋鑒定的步驟、理論依據(jù)、法律依據(jù)、案件適用的類型,討論聲紋鑒別在個(gè)人身份證明、刑事偵查、軍事、通信、防偽等領(lǐng)域的應(yīng)用,展望聲紋鑒別的應(yīng)用前景。

關(guān)鍵詞 環(huán)境背景音;分類;鑒定

Abstract by introducing the concept, generation, development and principle of voiceprint identification technology in environmental background, this paper discusses the steps, theoretical basis, legal basis, applicable types of cases, and discusses the identification of voiceprint in personal identification. The applications of criminal reconnaissance, military affairs, communication, security and so on, and the application prospect of voiceprint identification are prospected.

Keywords Environmental background sound; Classification; Identification

1 環(huán)境背景音研究意義

在當(dāng)前,環(huán)境背景音識(shí)別技術(shù)發(fā)展得非常迅速,在很多方面(如原理認(rèn)識(shí),識(shí)別模型的搭建,運(yùn)行效率等方面)都有迅猛的進(jìn)展。尤其是在無(wú)噪音環(huán)境下,環(huán)境背景音識(shí)別模型系統(tǒng)的識(shí)別率非常高。本論文基于語(yǔ)音信號(hào)分析的理論基礎(chǔ),考慮了語(yǔ)音識(shí)別系統(tǒng)的實(shí)際應(yīng)用要求,提出來(lái)噪聲環(huán)境下非特定人孤立語(yǔ)音識(shí)別系統(tǒng)的研究,對(duì)語(yǔ)音通信系統(tǒng)有著重要的意義。實(shí)驗(yàn)表明,這種方法不僅能夠?qū)Σ煌尘霸肼暛h(huán)境下的語(yǔ)音進(jìn)行準(zhǔn)確識(shí)別以及鑒定分析,提高語(yǔ)音識(shí)別的準(zhǔn)確率,還能夠?qū)г胝Z(yǔ)音進(jìn)行精確處理,提高語(yǔ)音的清晰度和可理解度,在人群噪聲環(huán)境、機(jī)器噪聲環(huán)境以及其他背景聲環(huán)境下都有著較高的準(zhǔn)確度以及辨識(shí)度[1]。

2 環(huán)境背景音特征提取技術(shù)

在聲紋鑒別過(guò)程中最主要的兩部分內(nèi)容是特征提取和模式匹配。所謂特征提取,就是從聲音中選取唯一表現(xiàn)環(huán)境或人聲的有效且穩(wěn)定可靠的特征,即通過(guò)聲紋技術(shù)根據(jù)語(yǔ)音波形中反映的環(huán)境背景音的語(yǔ)音參數(shù),將其識(shí)別分類出是哪種環(huán)境背景音的一項(xiàng)技術(shù),甚至可以通過(guò)環(huán)境背景音的特征提取直接定位出背景音的具體位置,這對(duì)公安工作的開(kāi)展具有巨大的意義。模式匹配就是對(duì)訓(xùn)練和鑒別時(shí)的特征模式做相似性匹配,進(jìn)而從原語(yǔ)音信號(hào)中分離出環(huán)境的背景音。

聲紋技術(shù)在環(huán)境背景音的特征提取方面有以下幾種技術(shù)可供參考:

2.1 獨(dú)立成分分析方法

不同的ICA算法可以提取聲音信號(hào)中獨(dú)立成分的特性,將聲音信號(hào)拆解成基函數(shù)與相互獨(dú)立的系數(shù)兩部分,對(duì)于常見(jiàn)的聲音信號(hào),經(jīng)過(guò)ICA算法變化都會(huì)更強(qiáng)的超高斯性。另外,利用ICA變換的基函數(shù)是利用數(shù)據(jù)自身的統(tǒng)計(jì)特性求得,可以隨著處理對(duì)象的變化而變化[2]。

2.2 碼激勵(lì)線性預(yù)測(cè)編碼方法

網(wǎng)絡(luò)中的音頻信號(hào)一般都是經(jīng)過(guò)語(yǔ)音壓縮編碼的,碼激勵(lì)線性預(yù)測(cè)編碼的技術(shù)研究正是以音頻壓縮編碼的比特信息流為對(duì)象,環(huán)境音頻信息不需要經(jīng)過(guò)解壓縮,直接從編碼比特信息流中獲取音頻特征參數(shù)。

3 實(shí)驗(yàn)與分析

3.1 聲音數(shù)據(jù)庫(kù)

本文實(shí)驗(yàn)的測(cè)試對(duì)象包括45種噪聲環(huán)境下的環(huán)境聲音事件音頻。實(shí)驗(yàn)用到的生態(tài)環(huán)境聲音大部分來(lái)自使用SONYICD-UX512F錄音棒以16kHZ的采樣頻率實(shí)地采集的聲音,錄制背景為寂靜山林、馬路附近、雨天湖邊附近。其包括:動(dòng)物叫聲,鳥(niǎo)叫聲,昆蟲叫聲,大自然聲和常見(jiàn)事物的聲音等,共45種,由于下載的聲音文件編碼格式、采樣頻率等與自己錄制的聲音并不統(tǒng)一,因此在實(shí)驗(yàn)開(kāi)始前先將所有的聲音文件統(tǒng)一轉(zhuǎn)換為采樣率16KHz(可分析8KHz以內(nèi)的環(huán)境聲音信號(hào)),單聲道,16bits的格式。考慮到MP分解速度,將聲音截?cái)酁?-6s的聲音片段,每一段對(duì)應(yīng)于一種聲音類型,經(jīng)處理后,每種聲音都至少包含4個(gè)單獨(dú)的聲音文件,且所選擇聲音的錄制環(huán)境都不相同,最后得到的聲音數(shù)據(jù)庫(kù)。且經(jīng)語(yǔ)譜圖分析,所選45種聲音頻率在8kHz以下[3]。

3.2 環(huán)境聲音事件的分類

(1)MP噪聲消除

用25個(gè)原子就能將原始信號(hào)(海浪聲)的主體結(jié)構(gòu)重構(gòu)出來(lái),說(shuō)明利用MP稀疏表示的方法可以提取出信號(hào)最主要的結(jié)構(gòu)特征信息,有效的消除噪聲的干擾。若將整段信號(hào)進(jìn)行MP稀疏表示,對(duì)MP稀疏分解重構(gòu)之后的樣本(25個(gè)原子),提取MFCCs-12特征,輸入SVM模型進(jìn)行分類,得到對(duì)信號(hào)進(jìn)行系數(shù)表示后的信號(hào)的識(shí)別結(jié)果。去噪的效果有時(shí)要取決于信號(hào)和噪聲的相似度,如果某種噪聲的特征同信號(hào)的特征相似,則MP對(duì)這種噪聲的去噪效果不會(huì)得到預(yù)期效果。

(2)特征選擇

不同物種的聲音明顯不同,同一物種的不同個(gè)體間亦有可能會(huì)發(fā)出差異明顯的聲音,甚至是同一個(gè)體在不同的季節(jié)或時(shí)向,其聲音也會(huì)存在著一定的差異,這就需要合適的魯棒的特征參數(shù)來(lái)將信號(hào)的內(nèi)在特征信息表示出來(lái)。本文將對(duì)以下頻域和時(shí)頻域特征進(jìn)行研究。

①基音頻率

基音攜帶有非常重要的聲音信息,不同種類的聲音其基頻分布可能差異很大,考慮到環(huán)境聲音信號(hào)的差異性,試驗(yàn)中設(shè)定基音頻率范圍為50-2000Hz。

②Mel頻率倒譜系數(shù)

實(shí)驗(yàn)分為三步:首先,以12維MFCCs(MFCCs-12)作為分類特征,對(duì)5類聲音的每一類分別進(jìn)行特征提取,然后用純凈的聲音樣本進(jìn)行訓(xùn)練,用得到的分類模型對(duì)測(cè)試集樣本進(jìn)行預(yù)測(cè),最后得到各類聲音事件的分類準(zhǔn)確率。下面是針對(duì)庫(kù)中的動(dòng)物叫聲中的5中聲音的訓(xùn)練結(jié)果,MFCCs-12作為特征,采用網(wǎng)格搜索、交叉驗(yàn)證方法,得到的訓(xùn)練過(guò)程的參數(shù)選擇。

①動(dòng)物叫聲:(MFCCs-12:84.27%)、(MFCCs-26:73.68%)、(MFCCs-39:73.68%);

②鳥(niǎo)叫聲:(MFCCs-12:86.89%)、(MFCCs-26:92.03%)、(MFCCs-39:97.34%);③昆蟲叫聲:(MFCCs-12:72.22%)、(MFCCs-26:86.67%)、(MFCCs-39:80%);④大自然聲:(MFCCs-12:65.18%)、(MFCCs-26:24.59%)(MFCCs-39:23.77%);⑤常見(jiàn)事物的聲音:(MFCCs-12:80%)、(MFCCs-26:33.33%)、(MFCCs-39:25%)。

由此可見(jiàn):MFCCs-12特征對(duì)于5類聲音的分類準(zhǔn)確率最穩(wěn)定。對(duì)于鳥(niǎo)叫聲和昆蟲叫聲,MFCCs-26特征和MFCCs-39特征識(shí)別率均比MFCCs-12高出10個(gè)百分點(diǎn)左右,面對(duì)動(dòng)物叫聲、大自然聲和常見(jiàn)事物的聲音,MFCCs-26和MFCCs-39特征的識(shí)別率大幅下降,尤其是對(duì)大自然聲和常見(jiàn)事物的聲音,準(zhǔn)確率降到了40%以下。綜合對(duì)5類聲音的識(shí)別率表現(xiàn),MFCCs-12對(duì)識(shí)別結(jié)果的貢獻(xiàn)更穩(wěn)定,選擇MFCCs-12作為本文實(shí)驗(yàn)的識(shí)別特征[4]。

③匹配追蹤

通過(guò)實(shí)驗(yàn)驗(yàn)證基于Gabo小波的MP特征對(duì)實(shí)際情境下的環(huán)境聲音事件的識(shí)別是否有效。

首先對(duì)樣本信號(hào)進(jìn)行分幀、加漢明窗,對(duì)每幀信號(hào)進(jìn)行MP稀疏分解,每幀信號(hào)得到4個(gè)MP特征(MP-4)。需要注意的是,雖然隨著重構(gòu)原子數(shù)的增多,識(shí)別率也隨之上升,但是原子數(shù)越多,所消耗的時(shí)間也隨之增大。因此7個(gè)原子的鳥(niǎo)叫聲識(shí)別率反倒不如5個(gè)原子的識(shí)別率。此外,對(duì)于昆蟲叫聲,識(shí)別率均在8%以下,經(jīng)分析,這是因?yàn)槔ハx叫聲的錄制環(huán)境里干擾較多且干擾噪聲與昆蟲叫聲較相似,MP稀疏分解難以區(qū)分信號(hào)空間和噪聲空間。綜合時(shí)間和識(shí)別結(jié)果穩(wěn)定性的考慮,最終選擇7個(gè)原子重構(gòu)樣本信號(hào)。然后將MP-4(7個(gè)原子)與MFCCs-12分別作為特征參數(shù)進(jìn)行識(shí)別結(jié)果對(duì)比,結(jié)果如下所示:

①動(dòng)物叫聲:(MFCCs-12:84.12%)、(MP-4:31.58%);②鳥(niǎo)叫聲:(MFCCs-12:86.89%)、(MP-4:36.14%);③昆蟲叫聲:(MFCCs-12:72.22%)、(MP-4:7.48%);④大自然聲:(MFCCs-12:65.18%)、(MP-4:30.88%);⑤常見(jiàn)事物的聲音:(MFCCs-12:80%)、(MP-4:22.12%)

MP-4(7個(gè)原子)單獨(dú)作為信號(hào)特征進(jìn)行識(shí)別,識(shí)別率在40%以下,那么將MP-4(7個(gè)原子)和MFCCs-12一起作為音頻特征,將這16維參數(shù)進(jìn)行歸一化,因?yàn)閰?shù)的取值差異較大,不在同一個(gè)數(shù)量級(jí),因此先進(jìn)行歸一化,然后再將歸一化后的特征參數(shù)輸入識(shí)別模型,利用特征集合MP-4和MFCCs-12進(jìn)行識(shí)別,準(zhǔn)確率比單獨(dú)MFCCs-12提高8%以上,與單獨(dú)用MP-4(7個(gè)原子)相比識(shí)別率大幅提高。說(shuō)明頻域特征MFCCs-12和時(shí)頻域特征MP-4(7個(gè)原子)的組合的特征集對(duì)環(huán)境聲音事件的識(shí)別是起積極作用的。

3.3 結(jié)果分析

對(duì)分析提取的特征參數(shù):基音頻率、MFCCs-12,MFCCs-26,MFCC-39和MP-4通過(guò)實(shí)驗(yàn)進(jìn)行篩選。對(duì)庫(kù)中所有聲音信號(hào)分別求出上述特征,然后分別將MFCCs-12,MFCCs-26,MFCC-39,MP-4和特征組合MFCCs-12,MFCCs-12+MP-4,MFCCs-12+MP-4+基音頻率輸入SVM分類模型進(jìn)行識(shí)別,得到對(duì)應(yīng)的識(shí)別準(zhǔn)確率。

由實(shí)驗(yàn)結(jié)果,雖然MFCCs用于語(yǔ)音/音樂(lè)識(shí)別時(shí)表現(xiàn)良好,但對(duì)于不具有諧波結(jié)構(gòu)、背景噪聲復(fù)雜的環(huán)境聲音事件來(lái)說(shuō),并不適合。分析其原因,MFCCs對(duì)所有頻帶以相同的權(quán)重模擬信號(hào)的頻譜包絡(luò),對(duì)噪聲和聲音事件一視同仁。

MP時(shí)頻特征提取是依據(jù)原子的能量高低依次選擇信號(hào)分量,提取的信號(hào)分量最終表現(xiàn)為按原子能量由高到低的線性和,而環(huán)境聲音事件與背景噪聲相比,聲音事件的能量在時(shí)頻平面上傾向于局部集中。因此MP特征對(duì)于環(huán)境聲音事件的識(shí)別,具有噪聲魯棒性,能在MFCCs失效的情況下彌補(bǔ)其噪聲敏感的缺陷。

利用不同種類聲音的基頻分布差異,將基音頻率用來(lái)作為識(shí)別的特征之一,實(shí)驗(yàn)結(jié)果表明,加入基音頻率特征后,識(shí)別準(zhǔn)確率略有上升[5]。

4 結(jié)論及展望

總之,聲紋識(shí)別技術(shù)是一種方便、快捷、安全的識(shí)別技術(shù),隨著各個(gè)研究領(lǐng)域的不斷發(fā)展,聲紋識(shí)別技術(shù)也在飛速發(fā)展,由此可見(jiàn),在不久的將來(lái),聲紋識(shí)別技術(shù)會(huì)在更多領(lǐng)域內(nèi)獲得更廣泛的應(yīng)用,使人類的生活更方便、安全。此外,隨著聲紋識(shí)別技術(shù)準(zhǔn)確性的提高,以及錄音設(shè)備(如錄音筆、MP3)的更新?lián)Q代,新型錄音設(shè)備攜帶方便、存儲(chǔ)容量大、使用簡(jiǎn)單的特點(diǎn),使人們?cè)诤芏鄨?chǎng)合下可以容易地獲取聲音樣本。通過(guò)聲紋識(shí)別技術(shù),聲音樣本在公安機(jī)關(guān)偵破案件、司法部門做出判決等方面都將起到關(guān)鍵性作用。

參考文獻(xiàn)

[1] 沈陽(yáng)麗,趙啟升.GMM-UBM聲紋識(shí)別技術(shù)研究與應(yīng)用[J].電腦編程技巧與維護(hù),2017,(16):84-86.

[2] 盧一男,單寶鈺,關(guān)超.聲紋識(shí)別技術(shù)現(xiàn)狀與發(fā)展應(yīng)用[J].信息系統(tǒng)工程,2017,(02):11.

[3] 鄭方,李藍(lán)天,張慧,等.聲紋識(shí)別技術(shù)及其應(yīng)用現(xiàn)狀[J].信息安全研究,2016,2(01):44-57.

[4] 趙成輝,楊大利.基于聲紋識(shí)別技術(shù)的移動(dòng)通信監(jiān)聽(tīng)方案[J].北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,30(01):59-65.

[5] 陳擁權(quán),張羽,胡翀豪,等.聲紋識(shí)別技術(shù)及其應(yīng)用前景分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2013,(11):24,26.

猜你喜歡
鑒定分類
垃圾分類的困惑你有嗎
我給資源分分類
按需分類
教你一招:數(shù)的分類
說(shuō)說(shuō)分類那些事
古籍版本鑒定
淺議檢察機(jī)關(guān)司法會(huì)計(jì)鑒定的主要職責(zé)
青銅器鑒定與修復(fù)初探
八種氟喹諾酮類藥物人工抗原的合成及鑒定
高職院校教學(xué)檔案的鑒定與利用
泰宁县| 邮箱| 商南县| 临漳县| 台中市| 崇左市| 固镇县| 和政县| 承德市| 进贤县| 错那县| 永宁县| 新和县| 余姚市| 崇义县| 长乐市| 新昌县| 莱州市| 黄石市| 乌苏市| 拜城县| 新乐市| 嘉禾县| 汤原县| 景宁| 海南省| 克什克腾旗| 房山区| 东方市| 日照市| 肃南| 安达市| 方城县| 安顺市| 孝义市| 东至县| 冷水江市| 兴城市| 古田县| 东阳市| 宁夏|