国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

聲紋識別技術(shù)在電力調(diào)度領(lǐng)域的應(yīng)用研究

2021-03-10 09:20:44張敏單祖植張馨介蔣迪
電子技術(shù)與軟件工程 2021年20期
關(guān)鍵詞:聲紋識別聲紋特征提取

張敏 單祖植 張馨介 蔣迪

(云南電網(wǎng)有限責(zé)任公司 云南省昆明市 650200)

電話語音通信作為所有電力調(diào)度機(jī)構(gòu)最重要的調(diào)度指揮通信方式,調(diào)度指令下發(fā)或現(xiàn)場情況報(bào)送均高度依賴于電力調(diào)度語音系統(tǒng)。應(yīng)用語音語義識別技術(shù)、聲紋識別技術(shù)完成調(diào)控人員與現(xiàn)場人員的任務(wù)自動交互,使得調(diào)度軟件系統(tǒng)也將由現(xiàn)在的被動靜止結(jié)構(gòu)轉(zhuǎn)變?yōu)榫哂兄鲃幼R別語音執(zhí)行的智慧系統(tǒng),讓調(diào)度運(yùn)行、信息檢索更加人性化、智能化。因此需要開展對聲紋識別技術(shù)在調(diào)度領(lǐng)域的研究與應(yīng)用。

1 聲紋識別的基本原理

聲紋識別,生物識別技術(shù)的一種。也稱為說話人識別,有兩類,即說話人辨認(rèn)和說話人確認(rèn)。不同的任務(wù)和應(yīng)用會使用不同的聲紋識別技術(shù),如縮小刑偵范圍時(shí)可能需要辨認(rèn)技術(shù),而銀行交易時(shí)則需要確認(rèn)技術(shù)。所謂聲紋(Voiceprint),是用電聲學(xué)儀器顯示的攜帶言語信息的聲波頻譜。人類語言的產(chǎn)生是人體語言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過程,人在講話時(shí)使用的發(fā)聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的聲紋圖譜都有差異。每個(gè)人的語音聲學(xué)特征既有相對穩(wěn)定性,又有變異性,不是絕對的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。盡管如此,由于每個(gè)人的發(fā)音器官都不盡相同,因此在一般情況下,人們?nèi)阅軈^(qū)別不同的人的聲音或判斷是否是同一人的聲音。

聲紋識別的主要任務(wù)包括:語音信號處理、聲紋特征提取、聲紋建模、聲紋比對、判別決策等。而在系統(tǒng)應(yīng)用中主要分為聲紋注冊階段和聲紋測試階段。

在聲紋注冊階段,每個(gè)可能的用戶都會錄制足夠的語音然后進(jìn)行說話人特征的提取,從而形成聲紋模型庫。這個(gè)模型庫就像字典,所有可能的字都會在該字典中被收錄。節(jié)目中的大合唱階段就是聲紋注冊階段。

在聲紋測試階段,測試者也會錄制一定的語音,然后進(jìn)行說話人特征提取,提取完成后,就會與聲紋模型庫中的所有注冊者進(jìn)行相似度計(jì)算。相似度最高的注冊者即為機(jī)器認(rèn)為的測試者身份。聲紋識別的一般步驟如圖1所示。

圖1:聲紋識別的一般步驟

1.1 聲學(xué)特征提取

語音信號可以認(rèn)為是一種短時(shí)平穩(wěn)信號和長時(shí)非平穩(wěn)信號,其長時(shí)的非平穩(wěn)特性是由于發(fā)音器官的物理運(yùn)動過程變化而產(chǎn)生的。從發(fā)音機(jī)理上來說,人在發(fā)出不同種類的聲音時(shí),聲道的情況是不一樣的,各種器官的相互作用,會形成不同的聲道模型,而這種相互作用的變化所形成的不同發(fā)聲差異是非線性的。但是,發(fā)聲器官的運(yùn)動又存在一定的慣性,所以在短時(shí)間內(nèi),我們認(rèn)為語音信號還是可以當(dāng)成平穩(wěn)信號來處理,這個(gè)短時(shí)一般范圍在10 到30 毫秒之間。

這個(gè)意思就是說語音信號的相關(guān)特征參數(shù)的分布規(guī)律在短時(shí)間(10-30ms)內(nèi)可以認(rèn)為是一致的,而在長時(shí)間來看則是有明顯變化的。在數(shù)字信號處理時(shí),一般而言我們都期望對平穩(wěn)信號進(jìn)行時(shí)頻分析,從而提取特征。因此,在對語音信號進(jìn)行特征提取的時(shí)候,我們會有一個(gè)20ms 左右的時(shí)間窗,在這個(gè)時(shí)間窗內(nèi)我們認(rèn)為語音信號是平穩(wěn)的。然后以這個(gè)窗為單位在語音信號上進(jìn)行滑動,每一個(gè)時(shí)間窗都可以提取出一個(gè)能夠表征這個(gè)時(shí)間窗內(nèi)信號的特征,從而就得到了語音信號的特征序列。這個(gè)過程,我們稱之為聲學(xué)特征提取。這個(gè)特征能夠表征出在這個(gè)時(shí)間窗內(nèi)的語音信號相關(guān)信息。如圖2所示。

圖2

這樣,我們就能夠?qū)⒁欢握Z音轉(zhuǎn)化得到一個(gè)以幀為單位的特征序列。由于人在說話時(shí)的隨機(jī)性,不可能得到兩段完全一模一樣的語音,即便是同一個(gè)人連續(xù)說同樣的內(nèi)容時(shí),其語音時(shí)長和特性都不能完全一致。因此,一般而言每段語音得到的特征序列長度是不一樣的。

在時(shí)間窗里采取的不同的信號處理方式,就會得到不同的特征,目前常用的特征有濾波器組fbank,梅爾頻率倒譜系數(shù)MFCC 以及感知線性預(yù)測系數(shù)PLP 特征等。然而這些特征所含有的信息較為冗余,我們還需要進(jìn)一步的方法將這些特征中所含有的說話人信息進(jìn)行提純。

1.2 說話人特征提取

在提取說話人特征的過程中通常采用經(jīng)典的DNN-ivector 系統(tǒng)以及基于端到端深度神經(jīng)網(wǎng)絡(luò)的說話人特征(Dvector)提取系統(tǒng)。兩套系統(tǒng)從不同的角度實(shí)現(xiàn)了對說話人特征的抓取。

1.2.1 算法1 DNN-ivector

目前被廣泛采用的聲紋識別系統(tǒng)。其主要特點(diǎn)就是將之前提取的聲學(xué)特征通過按照一定的發(fā)聲單元對齊后投影到一個(gè)較低的線性空間中,然后進(jìn)行說話人信息的挖掘。直觀上來說,可以理解成是在挖掘“不同的人在發(fā)同一個(gè)音時(shí)的區(qū)別是什么”。

首先采用大量的數(shù)據(jù)訓(xùn)練一個(gè)能夠?qū)⒙晫W(xué)特征很好的對應(yīng)到某一發(fā)聲單元的神經(jīng)網(wǎng)絡(luò),如圖3所示。

圖3

這樣,每一幀特征通過神經(jīng)網(wǎng)絡(luò)后,就會被分配到某一發(fā)聲單元上去。然后,對每一句話在所有的發(fā)聲單元進(jìn)行逐個(gè)統(tǒng)計(jì),按照每個(gè)發(fā)聲單元沒單位統(tǒng)計(jì)得到相應(yīng)的信息。這樣,對于每一句話就會得到一個(gè)高維的特征矢量。

在得到高維的特征矢量后,采用一種稱之為total variability 的建模方法對高維特征進(jìn)行建模:

M=m+Tw

其中m 是所有訓(xùn)練數(shù)據(jù)得到的均值超矢量,M 則是每一句話的超矢量,T 是奇通過大量數(shù)據(jù)訓(xùn)練得到的載荷空間矩陣,w 則是降維后得到的ivector 特征矢量,根據(jù)任務(wù)情況而言,一般取幾百維。最后,對這個(gè)ivector 采用概率線性判別分析PLDA 建模,從而挖掘出說話人的信息。

1.2.2 算法2 基于端到端深度學(xué)習(xí)的說話人信息提取

如果說上一套方法還借鑒了一些語音學(xué)的知識(采用了語音識別中的發(fā)聲單元分類網(wǎng)絡(luò)),那么基于端到端深度學(xué)習(xí)的說話人信息提取則是一個(gè)純粹的數(shù)據(jù)驅(qū)動的方式。通過海量數(shù)據(jù)樣本以及非常深的卷積神經(jīng)網(wǎng)絡(luò)來讓機(jī)器自動的去發(fā)掘聲學(xué)特征中的說話人信息差異,從而提取出聲學(xué)特征中的說話人信息表示。

首先通過海量的聲紋數(shù)據(jù)訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),其輸出的類別就是說話人的ID,從而得到了能夠有效表征說話人特性底座網(wǎng)絡(luò)。在根據(jù)特定場景的任務(wù)進(jìn)行自適應(yīng)調(diào)優(yōu)。具體過程如圖4所示。

圖4

在完成網(wǎng)絡(luò)的訓(xùn)練后,得到了一個(gè)能夠提取說話人差異信息的網(wǎng)絡(luò),每一句話通過該網(wǎng)絡(luò)就得到了說話人的特征。

2 聲紋識別的技術(shù)優(yōu)勢

2.1 先進(jìn)的聲音處理技術(shù)

領(lǐng)先業(yè)界的前后端語音處理技術(shù),包括人聲檢測VAD 算法、語音降噪、快速語音增強(qiáng)算法、語音質(zhì)量評估算法,有效保證注冊和驗(yàn)證的效果。

2.2 先進(jìn)的特征提取算法

使用學(xué)術(shù)界最先進(jìn)的深度神經(jīng)網(wǎng)絡(luò),以及端到端神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法,從大量樣本中學(xué)習(xí)到高度抽象的音素特征,在相同的聲紋數(shù)據(jù)中能提取更多的特征信息,并對噪聲有很強(qiáng)的免疫力,大大提升算法準(zhǔn)確率。

2.3 高準(zhǔn)確率

在調(diào)度領(lǐng)域中,聲紋識別一般使用長自由文本算法模型,在長自由文本模型下,EER 小于0.64%,準(zhǔn)確率達(dá)98.1%以上。在1:N比對中,TOP1 命中率超過96.1%,在此種準(zhǔn)確率前提下,可為調(diào)度應(yīng)用提供最好的落地保障。如圖5所示。

圖5

2.4 高魯棒性

調(diào)度領(lǐng)域應(yīng)用中,檢材都是五花八門,錄音文件都可能使用各種不同的設(shè)備錄制的,那么就需要考驗(yàn)聲紋識別算法在不同噪聲環(huán)境下的適應(yīng)性、各種文本類型適應(yīng)性、跨信道適應(yīng)性上的表現(xiàn),當(dāng)具備了上述的優(yōu)秀表現(xiàn)后,才保證了在不同應(yīng)用場景下算法性能的穩(wěn)定。圖6 為在不同噪音下可以通過動態(tài)分?jǐn)?shù)偏移的算法,保持了高魯棒性。

圖6

3 聲紋識別在電力調(diào)度領(lǐng)域的應(yīng)用展望

3.1 身份認(rèn)證應(yīng)用

相對于指紋、虹膜、人臉等識別技術(shù),聲紋在遠(yuǎn)程采集與識別上具備先天的優(yōu)勢,且僅需普通麥克風(fēng)或其它易于集成麥克風(fēng)的設(shè)備。聲紋技術(shù)大幅提高了遠(yuǎn)程采集的成功率及識別的準(zhǔn)確性,從技術(shù)上具備了遠(yuǎn)程采集與識別的可行性。

運(yùn)用聲紋識別技術(shù)可以在調(diào)度人員登錄時(shí)進(jìn)行身份確認(rèn),提高調(diào)度安全性。調(diào)控人員通過聲紋認(rèn)證后,調(diào)度員在語音通話中無需人工操作即可全面、快速獲取上述信息,調(diào)度員通過語音交互向現(xiàn)場人員下達(dá)指令,并對任務(wù)指令進(jìn)行閉環(huán)管理。實(shí)現(xiàn)對下令、現(xiàn)場復(fù)誦、回令內(nèi)容和其他關(guān)鍵信息上進(jìn)行安全防誤判斷和有效監(jiān)護(hù)。利用聲紋識別技術(shù)應(yīng)用在調(diào)控運(yùn)行實(shí)際業(yè)務(wù)中,保證受令、回令人員的資格能夠通過聲紋智能識別,結(jié)合持證上崗的信息,給調(diào)控運(yùn)行人員進(jìn)行提示,保證受令、回令人員具備相應(yīng)的資格。

3.2 多人語音識別

通過獨(dú)特的算法,可在多人對話場景中進(jìn)行精準(zhǔn)的聲紋識別,分離出單個(gè)說話人音頻,并識別出每個(gè)人的說話內(nèi)容。在調(diào)度語音下令時(shí),通過運(yùn)用聲紋識別技術(shù)可以辨認(rèn)下令人聲紋,提取下令內(nèi)容,規(guī)避其他人員及背景雜音干擾,提高調(diào)度語音識別的準(zhǔn)確率與可靠性。

4 結(jié)語

聲紋識別是一種高質(zhì)量的身份辨認(rèn)技術(shù),基于聲紋識別技術(shù)可以實(shí)現(xiàn)調(diào)控中心現(xiàn)有調(diào)控管理工作的智能化升級,通過建立調(diào)度人員的聲紋識別模型,并依此進(jìn)一步實(shí)現(xiàn)調(diào)度人員身份認(rèn)證及語音識別,最終實(shí)現(xiàn)通過語音的程序化成票、下令、回簽、統(tǒng)計(jì)、查找等全部工作任務(wù),可以大幅有效減輕人工壓力,提升調(diào)控工作的執(zhí)行效率。

猜你喜歡
聲紋識別聲紋特征提取
屏幕即指紋識別
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
聲紋識別中的區(qū)分性訓(xùn)練
淺談一種基于聲紋識別的教室上課點(diǎn)名系統(tǒng)
基于i—vector聲紋識別上課點(diǎn)名系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
Bagging RCSP腦電特征提取算法
面向移動終端的語音簽到系統(tǒng)
基于數(shù)字水印的人臉與聲紋融合識別算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
Walsh變換在滾動軸承早期故障特征提取中的應(yīng)用
軸承(2010年2期)2010-07-28 02:26:12
伊春市| 波密县| 桐庐县| 杭锦旗| 中宁县| 嘉祥县| 阿克陶县| 北海市| 偏关县| 永济市| 张家界市| 肇东市| 长汀县| 栾川县| 桂东县| 扶沟县| 阳新县| 连州市| 垫江县| 靖西县| 富平县| 澄城县| 旺苍县| 梅州市| 通许县| 静乐县| 达孜县| 方正县| 四子王旗| 甘谷县| 商水县| 汶川县| 新巴尔虎右旗| 新竹市| 新昌县| 广汉市| 东城区| 宿州市| 万载县| 颍上县| 海林市|