蔣宗琎
摘 要 在傳統(tǒng)的兩種依靠生物特征進行識別的技術(shù)(指紋與掌紋)之后,聲紋,作為一種新的生物特征識別技術(shù),逐漸出現(xiàn)并且應(yīng)用于許多實際領(lǐng)域。聲紋的識別與傳統(tǒng)的生物識別比起來,具有容易獲取、計算簡便、耗資低等優(yōu)勢。聲紋也正因如此,吸引著大批專家與相關(guān)的技術(shù)人員進行開發(fā)研究。文章主要結(jié)合了人工智能的方法,介紹了智能聲紋識別系統(tǒng),并對聲紋識別過程中涉及的特征提取 、模式識別進行了技術(shù)分析,并闡述了人工智能在這兩個關(guān)鍵過程中的應(yīng)用,最后指出了如何將人工智能嵌入聲紋識別技術(shù)之中。
關(guān)鍵詞 人工智能;聲紋識別;特征提取;模式識別
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2018)224-0073-03
隨著信息技術(shù)的發(fā)展和人們對生活品質(zhì)的追求,聲紋識別技術(shù)近些年得到快速發(fā)展,與其他傳統(tǒng)的認證方法相對比,基于人們自身的識別系統(tǒng)—聲紋識別系統(tǒng)具有更為優(yōu)越的安全性、穩(wěn)定性[ 1 ]。由于人們自身的各種生物特性(如指紋、聲紋、虹膜、DNA等)具有唯一性,相比容易丟失的重要識別物品(如鑰匙、身份卡等)更不容易被他人獲取并非法利用。加之聲紋識別技術(shù)所需要的設(shè)備簡單、其操作方便且實用性強,使得其在許多領(lǐng)域都有極大的發(fā)展?jié)摿 2 ]。
文章結(jié)合聲紋識別技術(shù)與智能技術(shù)的交叉,重點探究分析智能聲紋識別技術(shù),圍繞技術(shù)原理與關(guān)鍵過程分析展開論述,并就其智能特征提取與智能模式識別技術(shù)進行了深入研究分析,這將有助于人們對智能聲紋識別技術(shù)進行更加深入的了解與掌握,為其深入應(yīng)用奠定基礎(chǔ)。
1 聲紋識別系統(tǒng)
1.1 聲紋識別系統(tǒng)的原理
類似于人體的各種生物特征,聲紋也因人而異,很少存在聲紋相同的兩個人。聲紋識別便是從語音信號處理中提取聲紋的特征,并加以建模,最后便能與其他的聲紋加以比對并進行諸如身份識別的判斷,其一般原理如圖1所示[ 2 ]。
1.2 聲紋識別關(guān)鍵過程分析
1.2.1 特征參數(shù)的提取[3]
特征參數(shù),顧名思義,就是在一個人的日常語言中,能夠表達生物特別的特性和語言習慣、語音習慣等特征信息的參數(shù)。通過對這種參數(shù)進行提取,就能夠?qū)φZ音進行分析,從而能夠記錄與計算。由于這種參數(shù)是穩(wěn)定的,即使被分析者所在場合不同時間不同,這些參數(shù)也基本一致。同時這些參數(shù)是獨特的,這表現(xiàn)在它的不能模仿特性上。這使這種特征參數(shù)能夠完全區(qū)分不同的人,具有身份識別功能?,F(xiàn)在語音分析中,參數(shù)提取的方法有如下的幾種[ 3 ]。
第一種:語音頻譜。語音頻譜更多地描繪了提取對象的生理結(jié)構(gòu),主要體現(xiàn)在它的發(fā)聲器官上。每個人的發(fā)聲器官都具有獨一無二的獨特構(gòu)造。這種參數(shù)的提取主要是基于說話人的基礎(chǔ)發(fā)聲器官,這種器官以聲道和鼻腔等為主,從而獲取測量對象的語音短時頻譜特征。這種數(shù)據(jù)能夠反映被測人的發(fā)音生理結(jié)構(gòu)和發(fā)聲的激勵源,能夠體現(xiàn)其生理器官的特殊性。短時頻譜和它的基本輪廓則更加注重于反映被測人的語音上的習慣性動作。
第二種:線性預(yù)測參數(shù)的本質(zhì)是一種預(yù)測,它的預(yù)測基于一些“過去”的語音抽樣,并在數(shù)學模型的基礎(chǔ)上來運算當前的語音,這種方式獲得的參數(shù)可以用來運算語音特征。這種帶有預(yù)測性質(zhì)的運算能夠極大降低成本、提升運算的效率,它只需要很少的參數(shù)就能夠表現(xiàn)一種特殊的語音。
第三種:小波特征。小波特征參數(shù)是一種運用小波技術(shù)來提取語音特征信息的方式。這種技術(shù)的優(yōu)勢是可以接受分辨率的改變,對于語音材料的穩(wěn)定性要求交叉,可以與時頻域兼容表征。這種方式既快捷又應(yīng)用范圍廣,可以準確得到被測人的語音特征信息。
1.2.2 模式匹配識別[4]
模式匹配識別是基于已經(jīng)獲得被測者語音特征參數(shù)的基礎(chǔ)上,進行進一步的分析與判斷。這種分析與判斷是一種比對:將尚未識別處理的特征參數(shù)及其模板與已經(jīng)得到的模型庫進行對照。二者的對比結(jié)果將以相似度的形式呈現(xiàn)出來,并記錄下相似度距離。在這個距離范圍中,選取一個適合的距離就可以作為一種門限值。有了門限值就可以根據(jù)它來篩選出一種最好的結(jié)果,最終的結(jié)果將由識別系統(tǒng)輸出。現(xiàn)在較為成熟較為常見的模式匹配識別判斷,主要是兩種模型。
第一種:矢量化模型。矢量化模型是通過一種建立矢量的方法,對被測人的語音特征進行進一步的處理,也即矢量化。被測人的語音特征參數(shù)將被處理成一種能代表個人信息的矢量,當需要對個體特征進行識別的時候,這種矢量將提供一定的標準。
第二種:隨機模型。隨機模型的建立是考慮到語音的變化范圍及其概率的方式。在充分考慮到轉(zhuǎn)移概率、傳輸概率的基礎(chǔ)上,隨機模型為每個被測者都建立起了其發(fā)聲模型。在訓練的過程中,將獲取狀態(tài)轉(zhuǎn)移概率矩陣,此外還有符號輸出概率矩陣。當被測者的語音在狀態(tài)轉(zhuǎn)移時,計算機就能夠識別這種語音在轉(zhuǎn)移時所發(fā)生的最大概率,通過這種概率,對該被測人的模型進行進一步的分析。
1.3 聲紋識別的應(yīng)用
聲紋識別作為是一種新興的生物身份認證技術(shù)[ 5 ]。在智能時代的發(fā)展過程中,將占據(jù)著越來越重要的地位。隨著信息技術(shù)的進步,在信息更容易獲取的同時,人們的信息也面臨各種危險。因此,個人信息的安全需求越來越高。聲紋識別以其高度的安全特性和低成本、簡單便捷的特點,得到了越來越廣泛的應(yīng)用。聲紋識別與傳統(tǒng)的生物識別不同,它對識別設(shè)備的要求很低,從聲音的采樣到后期的建模、分析、處理,只需要帶有麥克風的電腦即可完成。并且,聲紋識別的準確性也很高,它不受到方言等因素的限制,更多地是關(guān)于一個人生理結(jié)構(gòu)、發(fā)音特征的記錄,因此,具有更高的普適性。同時,聲音的便于傳輸也使聲紋識別能夠遠程運用,得到更加廣泛的應(yīng)用。
2 聲紋識別系統(tǒng)中的智能技術(shù)分析
2.1 人工智能技術(shù)[6]
人工智能是通過模仿人的思維進行運算、判斷和分類等能力,通常借助建立人工神經(jīng)網(wǎng)絡(luò)(Artificial?Neural?Network,ANN)來實現(xiàn)目標任務(wù)。人工神經(jīng)網(wǎng)絡(luò)是由大量的相互連接的處理單元組成的具有非線性與自適應(yīng)信息處理能力的智能系統(tǒng),近些年得到了大力的研究與應(yīng)用,常見的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2表示的典型人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖是從信息處理角度對人腦神經(jīng)網(wǎng)絡(luò)進行抽象得到的,并通過建立這種簡單易懂的網(wǎng)絡(luò)模型示意,可以知道數(shù)據(jù)處理節(jié)點按不同的連接方式可以組成不同的網(wǎng)絡(luò),網(wǎng)絡(luò)中各個神經(jīng)元節(jié)點接受前一級的輸入,按照特定算法計算,并將結(jié)果輸出到下一級。典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分為3層:分別為輸入層、隱含層和輸出層。三層的主要功能如下。
1)在輸入層中,輸入層節(jié)點接受大量的外部輸入信息,通常會表示成數(shù)組或向量形式。
2)在隱含層中,由于隱含層是介于輸入層和輸出層之間的眾多神經(jīng)元節(jié)點和鏈接組成的眾多層面。隱含層可以是單層也可以是多層的,其神經(jīng)元節(jié)點數(shù)目不定,根據(jù)實際處理需要可能會十分復(fù)雜,隱含層節(jié)點數(shù)目越多人工神經(jīng)網(wǎng)絡(luò)的非線性越顯著。
3)在輸出層中,信息從輸入層輸入經(jīng)過隱含層的神經(jīng)元節(jié)點運算、分析和傳送,形成輸出結(jié)果,輸出通常也是以數(shù)組或向量的形式表達。
借助人工神經(jīng)網(wǎng)絡(luò),通過處理器模擬實現(xiàn)的人的智能,是智能信息處理技術(shù)的思想,借助人工神經(jīng)網(wǎng)絡(luò)實現(xiàn)的智能信息處理設(shè)備將給信息化技術(shù)的發(fā)展增添新動力。
2.2 智能特征提取技術(shù)分析[7]
在對被測者的語音信息處理中,這種參數(shù)的特別性與可識別度,都將決定這種技術(shù)的應(yīng)用范圍和可靠程度。在被測人聲音的參數(shù)提取中,必須排除干擾因素,使結(jié)果能夠具有充分的特別度和可區(qū)別性。通過人工神經(jīng)網(wǎng)絡(luò)智能信息處理,計算機可自主將所接受到的各種信息數(shù)字化后轉(zhuǎn)化為數(shù)據(jù)輸入,隨后在隱含層中進行復(fù)雜的信息處理,從而完成特征提取并進行分析篩選,最后輸出具有特異性的聲紋特征,減少了特征參量的維度,提高了訓練和識別的效率。
2.3 智能模式識別技術(shù)分析
這種智能模式使用了神經(jīng)網(wǎng)絡(luò)模型。這種模型是一種具有一定擬生特性的模型。它能像生物一樣進行感知,并且對數(shù)據(jù)進行分布式處理,這種模型具有很強的自學習能力。同時,這種神經(jīng)網(wǎng)絡(luò)模型能夠快速處理復(fù)雜的信息,并且能夠自我訓練,對模型中的結(jié)構(gòu)與參數(shù)進行自我修正與調(diào)整,實現(xiàn)系統(tǒng)的自動優(yōu)化與環(huán)境的高度配適。這種神經(jīng)網(wǎng)絡(luò)模型的速度很快,識別度也達到了相當?shù)某潭龋鼛啄陙?,不斷地被?yīng)用于對景象、語言與自然語言中包含模式識別問題的理解。在圖像處理過程中人工神經(jīng)網(wǎng)絡(luò)將識別對象數(shù)字化,將其轉(zhuǎn)化為可供計算機處理的數(shù)字信息。隨后通過特征提取從數(shù)字化后的輸入模式中選取一組含冗余信息的特征。在此后引入鑒別函數(shù),由特征矢量計算出各種類別的函數(shù)值,再進行比較并分類得到有實際作用的數(shù)據(jù)。
3 結(jié)論
利用人工智能對聲紋進行處理與分析,優(yōu)點一是人工智能可通過具有一定自主性的演算進行更為精準的特征提取和識別以得到更為精確的聲紋特征數(shù)據(jù),減小結(jié)果的誤差,使得到的聲紋特征具有更為強大的可靠性和利用性;優(yōu)點二是人工智能和聲紋識別技術(shù)都尚有廣闊的發(fā)展空間,出現(xiàn)的計算錯誤或步驟差錯可通過人工計算和人工智能自我演算來糾正并改進分析計算模式,這使得智能聲紋識別的出錯率得以逐步降低而容錯率逐步上升;優(yōu)點三是人工智能在進行聲紋識別的過程中也可進行其他類別的工作,這使得智能聲紋演算擁有更大的應(yīng)用領(lǐng)域及利用價值。
因此,智能聲紋識別系統(tǒng)在特定方面上具有傳統(tǒng)聲紋系統(tǒng)所無法比擬的優(yōu)點,其技術(shù)發(fā)展難度也較傳統(tǒng)方法有所降低,通過人工智能和聲紋識別系統(tǒng)的共同結(jié)合,智能聲紋識別系統(tǒng)的功能也會有進一步的增強,使得智能聲紋系統(tǒng)對科研領(lǐng)域及人類生活有著更為重大的意義和影響。
參考文獻
[1]楊陽,陳永明.聲紋識別技術(shù)及其應(yīng)用[J].電聲技術(shù),2007,31(2):45-46.
[2]鄭方,李藍天,張慧,等.聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀[J].信息安全研究,2016,2(1):44-57.
[3]朱浩冰,郭東輝.聲紋識別系統(tǒng)原理及其關(guān)鍵技術(shù)[J].計算機安全,2007(9):14-17.
[4]黃成玉,張全柱,賴斌.聲紋識別中MEL參數(shù)的提取研究[J].電源技術(shù),2011,35(4):433-435.
[5]李財蓮,趙小陽,王麗娟,等.說話人識別中關(guān)鍵技術(shù)的現(xiàn)狀與展望[J].軍事通信技術(shù),2005,26(2):62-65.
[6]王永慶.人工智能原理與方法[M].西安:西安交通大學出版社,1998.
[7]汪崢,連翰,王建軍.說話人識別中特征參數(shù)提取的一種新方法[J].復(fù)旦學報(自然科學版),2005,44(1):197-200.