朱斌
【摘 要】隨著計(jì)算機(jī)硬件技術(shù)的飛速發(fā)展,計(jì)算機(jī)性能在不斷提高的同時(shí)功耗、體積在不斷減小,通過多年的技術(shù)研究模式識(shí)別的算法也在不斷走向精準(zhǔn),從而推動(dòng)模式識(shí)別技術(shù)向?qū)嵱没粩噙M(jìn)展。語音識(shí)別技術(shù)是模式識(shí)別技術(shù)中的一個(gè)分支,而語音合成技術(shù)與語音識(shí)別技術(shù)一起會(huì)帶給我們劃時(shí)代的交互方式,本文針對(duì)智能語音技術(shù)中的語音識(shí)別和語音和成技術(shù)進(jìn)行了介紹,并從應(yīng)用角度進(jìn)行了分析。
【關(guān)鍵詞】智能語音技術(shù);語音合成;語音識(shí)別;呼叫中心
一、智能語音技術(shù)簡介
智能語音技術(shù)的研究工作大約開始于上世紀(jì)50年代。智能語音技術(shù)主要分為兩個(gè)方面,一個(gè)是語音合成技術(shù),一個(gè)是語音識(shí)別技術(shù)。目前國內(nèi)比較著名的語音識(shí)別公司有科大訊飛等公司,國際上比較知名的公司有Google、微軟、IBM、NUANCE等
(一)語音識(shí)別技術(shù)
語音識(shí)別技術(shù)從其本身來講還有多個(gè)研究方向,如自動(dòng)語音識(shí)別、聲紋識(shí)別和語種識(shí)別等多個(gè)方面,以下我們分別進(jìn)行簡要介紹。
1.自動(dòng)語音識(shí)別
自動(dòng)語音識(shí)別(AutomaticSpeechRecognition簡稱"ASR")技術(shù)是一種將人的語音轉(zhuǎn)換為文本的技術(shù),它的目標(biāo)是讓計(jì)算機(jī)能夠“聽寫”出不同人所說出的連續(xù)語音,實(shí)現(xiàn)“聲音”到“文字”的轉(zhuǎn)換。它是一個(gè)多學(xué)科交叉的領(lǐng)域,與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)等學(xué)科緊密相連。
語音識(shí)別包括了語言模型訓(xùn)練、聲學(xué)模型訓(xùn)練、特征提取和搜索等過程,特征提取的主要任務(wù)是從輸入的語音信號(hào)中提取特征,用于聲學(xué)模型的建模以及解碼搜索過程,在提取特征前也要服務(wù)則對(duì)語音信號(hào)進(jìn)行降噪處理,以提高系統(tǒng)魯棒性。在大詞匯量的連續(xù)語音識(shí)別中一般選用上下文相關(guān)的三音素聲學(xué)模型,對(duì)于語音庫難以覆蓋三音素的情況可以采用狀態(tài)聚類,綁定同類轉(zhuǎn)臺(tái)從而減少訓(xùn)練狀態(tài)的總數(shù)目。目前統(tǒng)計(jì)語言模型已成為語言處理的主流技術(shù),例如N-Gram語言模型、馬爾可夫N元模型、指數(shù)模型和決策樹模型。搜索算法中的解碼器是自動(dòng)語音識(shí)別系統(tǒng)的核心模塊,其任務(wù)是對(duì)輸入的語音信號(hào),在由語句或單詞序列構(gòu)成的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,并且根據(jù)聲學(xué)和語言模型及詞典生成一個(gè)用于搜索的狀態(tài)空間,在該狀態(tài)空間中檢索到最優(yōu)狀態(tài)序列,即尋找能夠以最大概率輸出該信號(hào)的句子或者單詞序列。搜索算法按照搜索策略分類的有幀同步Viterbi算法和幀異步堆棧算法,按空間擴(kuò)展分類有靜態(tài)擴(kuò)展和動(dòng)態(tài)擴(kuò)展算法。
另外,其他的模式識(shí)別方法如基于人工神經(jīng)網(wǎng)絡(luò)對(duì)語音進(jìn)行識(shí)別,其主要用來配合HMM以達(dá)到較高的性能。
2.聲紋識(shí)別
人類語言的產(chǎn)生是語言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過程,人在講話時(shí)使用的發(fā)聲器官:舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的發(fā)聲特征都有差異。個(gè)體的聲學(xué)特征既有相對(duì)穩(wěn)定性,又有變異性,不是絕對(duì)的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。聲紋識(shí)別是一套利用人的個(gè)性語音特征對(duì)話語者進(jìn)行區(qū)分的技術(shù),它本身與說話內(nèi)容無關(guān),同時(shí)與語種也無關(guān)。
說話人識(shí)別過程包括了預(yù)處理、特征提取、分段聚類、識(shí)別分類和得分規(guī)整。預(yù)處理模塊用于去掉音頻流中的非語音成分,采用基于能量判斷去除靜音,基于模型分類去掉彩鈴。特征提取有助于說話人分類的樣本信息,主要技術(shù)采用Mel頻率倒譜系數(shù)(MFCC)和其長時(shí)移動(dòng)差分變換。分段聚類切分話單中不同說話人段落,并將同一個(gè)人的片段聚合到一起,主要采用層次聚類技術(shù)(每次尋找最近的段落聚合。識(shí)別分類模塊通過學(xué)習(xí)注冊(cè)人樣本語音,對(duì)測(cè)試語音進(jìn)行打分,主要技術(shù)包括高斯混合模型和支持向量機(jī)模型。得分規(guī)整模塊用于縮小冒認(rèn)者的得分方差,盡量和目標(biāo)人拉開距離主要技術(shù)包括T-規(guī)整和Z-規(guī)整。
3.語種識(shí)別
語音的自動(dòng)語言辨識(shí)技術(shù)(Language Identification, LID)就是計(jì)算機(jī)能夠識(shí)別出語音段所屬的語言的過程。它是從語音信號(hào)中自動(dòng)提取信息的幾個(gè)過程之一。
自動(dòng)語言辨識(shí)同其他模式識(shí)別一樣,主要包括三個(gè)方面:特征提取、模型建立和判決規(guī)則。特征提取用到的技術(shù)有倒譜特征提取和短時(shí)和長時(shí)差分變。分類器模型包括支持向量機(jī)分類(SVM)和人工神經(jīng)網(wǎng)絡(luò)分類(NN)。另外還涉及了有效語音檢測(cè)(VAD)、譜規(guī)整和得分規(guī)整、線性鑒別分析(LDA)和信道因子分析(LFA)等魯棒技術(shù)。當(dāng)前很多系統(tǒng)都通過線性和非線性融合來提高系統(tǒng)的準(zhǔn)確率。
(二)語音合成技術(shù)
語音合成技術(shù)最為常見的就是TTS(Text to Speech,文本語音轉(zhuǎn)換)的應(yīng)用,TTS最新的語音合成引擎(連接技術(shù)和合成算法的結(jié)合),其應(yīng)用范圍非常廣,如文本的有聲校對(duì)、語音應(yīng)答系統(tǒng)、信息庫查詢系統(tǒng)、殘疾人輔助發(fā)音系統(tǒng)等。
(三)應(yīng)用分析
智能語音技術(shù)有相當(dāng)廣泛的應(yīng)用場景,不但在傳統(tǒng)呼叫中心有廣泛應(yīng)用,隨著智能設(shè)備的不斷發(fā)展,它也逐步向這些領(lǐng)域開始進(jìn)軍。
(四)人機(jī)交互
傳統(tǒng)人機(jī)交互都采用專用輸入設(shè)備,比如鍵盤、鼠標(biāo)、手寫板、顯示器等,利用這些方式雖然可以滿足信息輸入和輸出,實(shí)現(xiàn)基本人機(jī)交互,但是針對(duì)越來越多的智能設(shè)備的出現(xiàn),傳統(tǒng)的輸入方式逐漸顯得力不從心。
通過語音合成技術(shù),可以將信息通過聲音的方式與人進(jìn)行交流,通過自動(dòng)語音識(shí)別,不但可以完成文本輸入工作,還可以進(jìn)行設(shè)備控制,從而實(shí)現(xiàn)更為簡便、有效的人機(jī)交互。人機(jī)交互可以應(yīng)用于智能手機(jī)、智能家電、汽車控制、有聲校對(duì)、語音應(yīng)答系統(tǒng)、信息庫查詢系統(tǒng)、殘疾人輔助發(fā)音等多個(gè)方面。
(五)身份確認(rèn)
身份確認(rèn)主要采用聲紋識(shí)別技術(shù),其主要應(yīng)用場景是確認(rèn)說話人是否為特定人。聲紋識(shí)別技術(shù)已經(jīng)逐漸走向?qū)嶋H應(yīng)用,很多公司都根據(jù)這項(xiàng)技術(shù)應(yīng)用到業(yè)務(wù)系統(tǒng),比如AT&T應(yīng)用聲紋識(shí)別技術(shù)研制出的智慧卡(Smart Card),將其應(yīng)用于自動(dòng)提款機(jī)上;Nuance公司推出了Nuance Verifier,在電信網(wǎng)上實(shí)現(xiàn)文本激勵(lì)的說話人識(shí)別,已經(jīng)可靠應(yīng)用于金融服務(wù)等系統(tǒng)。其他一些商用系統(tǒng)還包括:ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX 公司的SpeakEZ等。
(六)身份辨認(rèn)
身份辨認(rèn)同樣也主要采用聲紋識(shí)別技術(shù),其主要應(yīng)用場景為對(duì)特定語音進(jìn)行分析,確認(rèn)其身份,這種應(yīng)用可應(yīng)用于公安司法以及軍隊(duì)和國防。如:對(duì)于各種電話勒索、綁架、電話人身攻擊等案件,身份辨認(rèn)可以在一段錄音中查找出嫌疑人或縮小偵察范圍;身份辨認(rèn)可以發(fā)現(xiàn)電話交談過程中是否有特定說話人出現(xiàn),繼而對(duì)交談的內(nèi)容進(jìn)行跟蹤,并可以對(duì)發(fā)出命令的人的身份進(jìn)行確認(rèn)(敵我指戰(zhàn)員鑒別),目前此術(shù)在國外軍事方面已有所應(yīng)用。
二、存在問題
盡管智能語音技術(shù)在技術(shù)上已經(jīng)獲得突破性進(jìn)展,然而在實(shí)際應(yīng)用過程中語音識(shí)別技術(shù)仍然面臨著一些難點(diǎn),特別是針對(duì)語音識(shí)別技術(shù):
(一)對(duì)環(huán)境依賴性較大,抗干擾能力較差
語音采集時(shí),不可避免會(huì)混入環(huán)境噪聲,同時(shí)由于采集設(shè)備的不同也會(huì)對(duì)采集結(jié)果造成影響,這些影響都會(huì)影響到最終識(shí)別結(jié)果。
(二)地方口音的差異造成影響
語音往往存在地域性,他不同于語種。比如北方與南方人同樣講普通話,差異還是非常明顯,這些都對(duì)識(shí)別工作造成一定的影響。
(三)自然語言的隨機(jī)性、多變性
針對(duì)于語音朗讀,目前的語音識(shí)別技術(shù)已經(jīng)有很好的效果,但是實(shí)際生活中,人們講話都較為隨意,同時(shí)伴隨講話時(shí)的情緒,這些都會(huì)對(duì)語音識(shí)別結(jié)果造成較大影響。
但我們相信,隨著技術(shù)的不斷發(fā)展,通過語音素材數(shù)據(jù)的不斷積累,相信這些問題將會(huì)逐步被解決。
三、結(jié)束語
人與設(shè)備如何便捷交互,信息輸入是否高效,一定程度上影響了整個(gè)工作過程的效率,智能語音技術(shù)為大家提供了一條新的道路,除去了人與設(shè)備之間的隔閡。效率和成本是每一個(gè)企業(yè)管理必須權(quán)衡的關(guān)鍵因素,雖然智能語音技術(shù)現(xiàn)在還有很多不足,但是從長遠(yuǎn)來看必將是應(yīng)用發(fā)展的方向,會(huì)對(duì)人們的工作效率產(chǎn)生深遠(yuǎn)影響。