郭曉麗 程遠
摘 要:最近幾年,說話人識別技術正在不斷發(fā)展。在身份確認關聯(lián)的領域內(nèi),它凸顯了重要的作用。保障現(xiàn)場安全,防止身份不明的人員進入。夜間時段無人值守,也要配有自動辨識這樣的體系。它能通過判別聲音頻譜,辨別出說話人。自動管控特有的工廠系統(tǒng),在真實運用之中應當搭配最優(yōu)的軟硬件,慎重辨別身份。
關鍵詞:說話人識別技術;工廠自動控制系統(tǒng);具體應用
中圖分類號:TN912.34 文獻標識碼:A 文章編號:1006-8937(2015)08-0050-02
說話人識別體系采納實時端點這樣的測定算法、基于幀的可行算法。它采納MFCC特有的參數(shù),當成可辨識的參數(shù)。選取矢量量化、模板匹配這樣的識別計算。通過測試可知,說話人辨識特有的技術框架,提升了原有的識別水準,保障了自動化架構(gòu)之下的工廠安全。與此同時,也便于平日操作,提升運行效率。
1 概要的識別流程
說話人識別,是數(shù)字處理特有的語音處理。這種識別方式與語音識別很近似,都是根據(jù)接納的某一語音,予以信號辨識;在這以后,提煉出有關的特征,并建構(gòu)辨識必備模型。說話人識別、近似特性的語音識別,還是帶有差異的。具體而言,說話人識別預設的側(cè)重點,并非辨識語義內(nèi)涵,而是從原有的信號以內(nèi)提煉出個體特性。
說話人識別細分的層面,包含主體辨認、主體確認。說話人特有的辨認步驟,是把沒能標識出來的語句,設定成若干主體范疇之中的某一主體,帶有選擇的特性;主體確認依托的步驟,是根據(jù)擬定好的語句,判別是否相符。這種確認程序,只包含雙重可能:肯定及否定。
說話人識別這一體系包含初始的認知時段和后續(xù)的識別時段。在認知時段,根據(jù)發(fā)聲語句,建構(gòu)精準特性的模型、參量特有的參考集。在后續(xù)的識別時段,通過語音特有的導出參量,來比對預設的參量集,或者設定好的模板。說話人確認這樣的體系,把輸入過來的語音參量,比對特有的個體語音。若二者比對得來的差值沒能超出預設的閾值,則應能確認,否則予以否認。
2 自動控制運用
體系架構(gòu)之內(nèi)的工控機,被設定成工廠布設的上位機。它依托著PCI特有的總線,接納現(xiàn)場傳遞過來的電話語音,并輸入接納的這類信號。工控機調(diào)配著數(shù)據(jù)庫、電話報警特有的界面、控制特性的界面。它能辨識進到場地之中的操作主體,辨識語音屬性,接受遠程特性的指令。PLC及場地架構(gòu)的RS232,能夠互通信息。自動控制細分出來的現(xiàn)場控制,接納了開啟指令,可以依循設定好的邏輯,自動管控開關,并管控變頻器。
PLC接納傳感數(shù)據(jù)發(fā)給上位機,上位機辨識下位機供應過來的這些數(shù)值,然后預設反饋指令。說話人識別特性的板塊,包含擬定好的授權(quán)驗證、擬定命令輸入。在這之中,DSP是辨識模塊特有的中心部分,能夠提煉關涉的特征參數(shù)、匹配多重模板,同時辨識有關的判決。DSP凸顯的優(yōu)勢,是計算速率很快、內(nèi)存量被拓展、數(shù)值交換特有的速率也快。它能創(chuàng)設復雜架構(gòu)下的算法,搭配DSP特性的芯片,完成識別運算。
3 識別之中的端點測定
端點測定特有的方式,是識別體系架構(gòu)中的前端處理。端點檢測特有的精準性,密切關涉識別之中的精準性。例如:給出10個特有的英語數(shù)字,在識別測定之中,端點誤差若超出了50 ms,那么對應著的識別率,就會限縮20%。說話人識別特有的框架,創(chuàng)設了基于幀的、實時端點查驗依托的方式,以便測算端點。
首先,根據(jù)語音特有的能量狀態(tài)、過零率變更的總傾向,予以簡單測定。這樣做,能夠辨識語音固有的始末點范疇,提煉頻譜特性。
其次,F(xiàn)FT解析得來的頻譜結(jié)果,包含多頻段特有的布設特征。根據(jù)這一特性,可以判別元輔音。
再次,明晰了元輔音、對應著的濁音以后,采納前后拓展這樣的搜索路徑,辨識端點特有的幀。端點檢定預設的這類算法,根據(jù)語音固有的根本特性,隨時測定端點。它適應變更著的環(huán)境,排除了干擾,提升測定之中的精準層級。
4 辨識語音特性
4.1 提煉主體特性
說話人獨有的語音特性,關聯(lián)著更廣范疇的心理狀態(tài)、個體生理發(fā)音。為此,個體表征的語音特性,帶有動態(tài)變更的傾向。這種特性涵蓋了某一范疇的語音譜、多聲道凸顯的特性;與此同時,還包含帶有超音段這樣的特性、個體聲門狀態(tài)。說話人固有的語音,很難被直接顯示。為此,采納語音提煉這一方式,來辨識語音特征。
搜索得來的信號,包含語音特性、主體個體范疇的若干特性。這些交織特性,表征了復雜形式。特性提取依托的步驟,是采納明晰的語音特征,以便解析信號。這樣做,就舍掉了本源的信息內(nèi)容,存留了獨有的個體特性。從信息論看,語音辨識關涉的參數(shù)影響,是信息壓縮這一總流程。
4.2 線性預測解析
線性預測特有的解析技術,也即LP這一技術,是參數(shù)提煉這一領域以內(nèi)的廣泛技術。布設的應用系統(tǒng)也慣用這一技術提煉出明晰的倒譜參數(shù)。傳統(tǒng)框架內(nèi)的預測模型,帶有單純數(shù)學特性,沒能考量聽覺特有的處理途徑。Mel特有的感知預測,能夠判別倒譜系數(shù),它建構(gòu)在感知的根基之上。在某一層級內(nèi),它仿照了肌體特有的處理途徑,是依憑聽覺體系,推導得來的聲學特性。
聽覺機理調(diào)研表征著:若設定好的頻率近似,音調(diào)同時發(fā)聲,則耳朵只能辨識這樣的一個音調(diào)。臨界帶寬預設的邊界,是主觀特有的突變界限。具體而言,若音調(diào)潛藏著頻率差,沒能超出這樣的臨界,則耳朵會混同它們,被看成屏蔽效應。采納Mel特有的刻度,以便度量這一帶寬。
4.3 具體運算步驟
識別系統(tǒng)范疇內(nèi),MFCC特有的運用正在逐漸推廣。具體而言,它先對整合得來的語音信號,予以分幀處理,把每一幀以內(nèi)的語音,變更成FFT頻域。在這以后,它會依循設定好的刻度,采納三角架構(gòu)內(nèi)的濾波器,予以卷積運算。最后,對于濾波器布設的輸出構(gòu)成、設定好的對數(shù)能量,采納離散態(tài)勢下的余弦變換,以明晰語音特征。
5 辨識匹配模式
說話人識別包含模板匹配、隱含特性的模型、人工建構(gòu)起來的神經(jīng)元網(wǎng)絡。細化框架內(nèi)的識別計算,預設了動態(tài)特性的時間規(guī)整、對應矢量量化。動態(tài)特性的規(guī)整,也即DTW,是典型范疇的特定人算法。它規(guī)避了自然狀態(tài)之下的語速差別,采納時間規(guī)整,匹配了模板表征的特性序列、語音的這一序列。比對二者的失真,得到辨識根據(jù)。
矢量量化特有的辨識方式也被廣泛采納。這種新式技術,規(guī)避了語音分段。它被設定成數(shù)據(jù)壓縮依憑的主要途徑,縮減了存留著的總數(shù)據(jù)量。矢量量化關涉的分類特征,也能判別真實的主體,提升判別的準確概率。
6 結(jié) 語
工控特性的上位機,包含說話識別特有的細化模塊。工控機管控著建構(gòu)的數(shù)據(jù)庫、提供明晰的界面;根據(jù)精準參數(shù),設定電話報警。自動辨識說話人,可識別現(xiàn)場以內(nèi)的操作主體、電話語音特有的真實性,還能接納遠程管控范疇內(nèi)的一切指令。布設的工控機銜接著PLC及預設的通信接口。PLC架構(gòu)以內(nèi)的現(xiàn)場控制,能夠接納上位機擬定好的開啟指令。除此以外,電話語音銜接著的識別模塊,還安設了語音卡,便利電話操作。
參考文獻:
[1] 覃愛娜,韓華.說話人識別技術及其在工廠自動控制系統(tǒng)中的應用[J].長沙電力學院學報(自然科學版),2013,(2).
[2] 雷鵬.工廠自動控制系統(tǒng)的說話人識別模塊實現(xiàn)[J].電聲技術,2012,(10).
[3] 楊海燕,楊斌,景新幸.說話人識別技術在智能家居中的應用[J].電聲技術,2014,(5).