淺析智能語音技術(shù)及其應(yīng)用

2016-01-14 06:26:40朱斌

智富時(shí)代 2015年9期

朱斌

【摘要】隨著計(jì)算機(jī)硬件技術(shù)的飛速發(fā)展，計(jì)算機(jī)性能在不斷提高的同時(shí)功耗、體積在不斷減小，通過多年的技術(shù)研究模式識(shí)別的算法也在不斷走向精準(zhǔn)，從而推動(dòng)模式識(shí)別技術(shù)向?qū)嵱没粩噙M(jìn)展。語音識(shí)別技術(shù)是模式識(shí)別技術(shù)中的一個(gè)分支，而語音合成技術(shù)與語音識(shí)別技術(shù)一起會(huì)帶給我們劃時(shí)代的交互方式，本文針對(duì)智能語音技術(shù)中的語音識(shí)別和語音和成技術(shù)進(jìn)行了介紹，并從應(yīng)用角度進(jìn)行了分析。

【關(guān)鍵詞】智能語音技術(shù)；語音合成；語音識(shí)別；呼叫中心

一、智能語音技術(shù)簡介

智能語音技術(shù)的研究工作大約開始于上世紀(jì)50年代。智能語音技術(shù)主要分為兩個(gè)方面，一個(gè)是語音合成技術(shù)，一個(gè)是語音識(shí)別技術(shù)。目前國內(nèi)比較著名的語音識(shí)別公司有科大訊飛等公司，國際上比較知名的公司有Google、微軟、IBM、NUANCE等

（一）語音識(shí)別技術(shù)

語音識(shí)別技術(shù)從其本身來講還有多個(gè)研究方向，如自動(dòng)語音識(shí)別、聲紋識(shí)別和語種識(shí)別等多個(gè)方面，以下我們分別進(jìn)行簡要介紹。

1.自動(dòng)語音識(shí)別

自動(dòng)語音識(shí)別（AutomaticSpeechRecognition簡稱"ASR"）技術(shù)是一種將人的語音轉(zhuǎn)換為文本的技術(shù)，它的目標(biāo)是讓計(jì)算機(jī)能夠“聽寫”出不同人所說出的連續(xù)語音，實(shí)現(xiàn)“聲音”到“文字”的轉(zhuǎn)換。它是一個(gè)多學(xué)科交叉的領(lǐng)域，與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)等學(xué)科緊密相連。

語音識(shí)別包括了語言模型訓(xùn)練、聲學(xué)模型訓(xùn)練、特征提取和搜索等過程，特征提取的主要任務(wù)是從輸入的語音信號(hào)中提取特征，用于聲學(xué)模型的建模以及解碼搜索過程，在提取特征前也要服務(wù)則對(duì)語音信號(hào)進(jìn)行降噪處理，以提高系統(tǒng)魯棒性。在大詞匯量的連續(xù)語音識(shí)別中一般選用上下文相關(guān)的三音素聲學(xué)模型，對(duì)于語音庫難以覆蓋三音素的情況可以采用狀態(tài)聚類，綁定同類轉(zhuǎn)臺(tái)從而減少訓(xùn)練狀態(tài)的總數(shù)目。目前統(tǒng)計(jì)語言模型已成為語言處理的主流技術(shù)，例如N-Gram語言模型、馬爾可夫N元模型、指數(shù)模型和決策樹模型。搜索算法中的解碼器是自動(dòng)語音識(shí)別系統(tǒng)的核心模塊，其任務(wù)是對(duì)輸入的語音信號(hào)，在由語句或單詞序列構(gòu)成的空間當(dāng)中，按照一定的優(yōu)化準(zhǔn)則，并且根據(jù)聲學(xué)和語言模型及詞典生成一個(gè)用于搜索的狀態(tài)空間，在該狀態(tài)空間中檢索到最優(yōu)狀態(tài)序列，即尋找能夠以最大概率輸出該信號(hào)的句子或者單詞序列。搜索算法按照搜索策略分類的有幀同步Viterbi算法和幀異步堆棧算法，按空間擴(kuò)展分類有靜態(tài)擴(kuò)展和動(dòng)態(tài)擴(kuò)展算法。

另外，其他的模式識(shí)別方法如基于人工神經(jīng)網(wǎng)絡(luò)對(duì)語音進(jìn)行識(shí)別，其主要用來配合HMM以達(dá)到較高的性能。

2.聲紋識(shí)別

人類語言的產(chǎn)生是語言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過程，人在講話時(shí)使用的發(fā)聲器官：舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大，所以任何兩個(gè)人的發(fā)聲特征都有差異。個(gè)體的聲學(xué)特征既有相對(duì)穩(wěn)定性，又有變異性，不是絕對(duì)的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝，也與環(huán)境干擾有關(guān)。聲紋識(shí)別是一套利用人的個(gè)性語音特征對(duì)話語者進(jìn)行區(qū)分的技術(shù)，它本身與說話內(nèi)容無關(guān)，同時(shí)與語種也無關(guān)。

說話人識(shí)別過程包括了預(yù)處理、特征提取、分段聚類、識(shí)別分類和得分規(guī)整。預(yù)處理模塊用于去掉音頻流中的非語音成分，采用基于能量判斷去除靜音，基于模型分類去掉彩鈴。特征提取有助于說話人分類的樣本信息，主要技術(shù)采用Mel頻率倒譜系數(shù)（MFCC）和其長時(shí)移動(dòng)差分變換。分段聚類切分話單中不同說話人段落，并將同一個(gè)人的片段聚合到一起，主要采用層次聚類技術(shù)（每次尋找最近的段落聚合。識(shí)別分類模塊通過學(xué)習(xí)注冊(cè)人樣本語音，對(duì)測(cè)試語音進(jìn)行打分，主要技術(shù)包括高斯混合模型和支持向量機(jī)模型。得分規(guī)整模塊用于縮小冒認(rèn)者的得分方差，盡量和目標(biāo)人拉開距離主要技術(shù)包括T-規(guī)整和Z-規(guī)整。

3.語種識(shí)別

語音的自動(dòng)語言辨識(shí)技術(shù)（Language Identification， LID）就是計(jì)算機(jī)能夠識(shí)別出語音段所屬的語言的過程。它是從語音信號(hào)中自動(dòng)提取信息的幾個(gè)過程之一。

自動(dòng)語言辨識(shí)同其他模式識(shí)別一樣，主要包括三個(gè)方面：特征提取、模型建立和判決規(guī)則。特征提取用到的技術(shù)有倒譜特征提取和短時(shí)和長時(shí)差分變。分類器模型包括支持向量機(jī)分類（SVM）和人工神經(jīng)網(wǎng)絡(luò)分類（NN）。另外還涉及了有效語音檢測(cè)（VAD）、譜規(guī)整和得分規(guī)整、線性鑒別分析（LDA）和信道因子分析（LFA）等魯棒技術(shù)。當(dāng)前很多系統(tǒng)都通過線性和非線性融合來提高系統(tǒng)的準(zhǔn)確率。

（二）語音合成技術(shù)

語音合成技術(shù)最為常見的就是TTS（Text to Speech，文本語音轉(zhuǎn)換）的應(yīng)用，TTS最新的語音合成引擎（連接技術(shù)和合成算法的結(jié)合），其應(yīng)用范圍非常廣，如文本的有聲校對(duì)、語音應(yīng)答系統(tǒng)、信息庫查詢系統(tǒng)、殘疾人輔助發(fā)音系統(tǒng)等。

（三）應(yīng)用分析

智能語音技術(shù)有相當(dāng)廣泛的應(yīng)用場景，不但在傳統(tǒng)呼叫中心有廣泛應(yīng)用，隨著智能設(shè)備的不斷發(fā)展，它也逐步向這些領(lǐng)域開始進(jìn)軍。

（四）人機(jī)交互

傳統(tǒng)人機(jī)交互都采用專用輸入設(shè)備，比如鍵盤、鼠標(biāo)、手寫板、顯示器等，利用這些方式雖然可以滿足信息輸入和輸出，實(shí)現(xiàn)基本人機(jī)交互，但是針對(duì)越來越多的智能設(shè)備的出現(xiàn)，傳統(tǒng)的輸入方式逐漸顯得力不從心。

通過語音合成技術(shù)，可以將信息通過聲音的方式與人進(jìn)行交流，通過自動(dòng)語音識(shí)別，不但可以完成文本輸入工作，還可以進(jìn)行設(shè)備控制，從而實(shí)現(xiàn)更為簡便、有效的人機(jī)交互。人機(jī)交互可以應(yīng)用于智能手機(jī)、智能家電、汽車控制、有聲校對(duì)、語音應(yīng)答系統(tǒng)、信息庫查詢系統(tǒng)、殘疾人輔助發(fā)音等多個(gè)方面。

（五）身份確認(rèn)

身份確認(rèn)主要采用聲紋識(shí)別技術(shù)，其主要應(yīng)用場景是確認(rèn)說話人是否為特定人。聲紋識(shí)別技術(shù)已經(jīng)逐漸走向?qū)嶋H應(yīng)用，很多公司都根據(jù)這項(xiàng)技術(shù)應(yīng)用到業(yè)務(wù)系統(tǒng)，比如AT&T應(yīng)用聲紋識(shí)別技術(shù)研制出的智慧卡（Smart Card），將其應(yīng)用于自動(dòng)提款機(jī)上；Nuance公司推出了Nuance Verifier，在電信網(wǎng)上實(shí)現(xiàn)文本激勵(lì)的說話人識(shí)別，已經(jīng)可靠應(yīng)用于金融服務(wù)等系統(tǒng)。其他一些商用系統(tǒng)還包括：ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX 公司的SpeakEZ等。

（六）身份辨認(rèn)

身份辨認(rèn)同樣也主要采用聲紋識(shí)別技術(shù)，其主要應(yīng)用場景為對(duì)特定語音進(jìn)行分析，確認(rèn)其身份，這種應(yīng)用可應(yīng)用于公安司法以及軍隊(duì)和國防。如：對(duì)于各種電話勒索、綁架、電話人身攻擊等案件，身份辨認(rèn)可以在一段錄音中查找出嫌疑人或縮小偵察范圍；身份辨認(rèn)可以發(fā)現(xiàn)電話交談過程中是否有特定說話人出現(xiàn)，繼而對(duì)交談的內(nèi)容進(jìn)行跟蹤，并可以對(duì)發(fā)出命令的人的身份進(jìn)行確認(rèn)（敵我指戰(zhàn)員鑒別），目前此術(shù)在國外軍事方面已有所應(yīng)用。

二、存在問題

盡管智能語音技術(shù)在技術(shù)上已經(jīng)獲得突破性進(jìn)展，然而在實(shí)際應(yīng)用過程中語音識(shí)別技術(shù)仍然面臨著一些難點(diǎn)，特別是針對(duì)語音識(shí)別技術(shù)：

（一）對(duì)環(huán)境依賴性較大，抗干擾能力較差

語音采集時(shí)，不可避免會(huì)混入環(huán)境噪聲，同時(shí)由于采集設(shè)備的不同也會(huì)對(duì)采集結(jié)果造成影響，這些影響都會(huì)影響到最終識(shí)別結(jié)果。

（二）地方口音的差異造成影響

語音往往存在地域性，他不同于語種。比如北方與南方人同樣講普通話，差異還是非常明顯，這些都對(duì)識(shí)別工作造成一定的影響。

（三）自然語言的隨機(jī)性、多變性

針對(duì)于語音朗讀，目前的語音識(shí)別技術(shù)已經(jīng)有很好的效果，但是實(shí)際生活中，人們講話都較為隨意，同時(shí)伴隨講話時(shí)的情緒，這些都會(huì)對(duì)語音識(shí)別結(jié)果造成較大影響。

但我們相信，隨著技術(shù)的不斷發(fā)展，通過語音素材數(shù)據(jù)的不斷積累，相信這些問題將會(huì)逐步被解決。

三、結(jié)束語

人與設(shè)備如何便捷交互，信息輸入是否高效，一定程度上影響了整個(gè)工作過程的效率，智能語音技術(shù)為大家提供了一條新的道路，除去了人與設(shè)備之間的隔閡。效率和成本是每一個(gè)企業(yè)管理必須權(quán)衡的關(guān)鍵因素，雖然智能語音技術(shù)現(xiàn)在還有很多不足，但是從長遠(yuǎn)來看必將是應(yīng)用發(fā)展的方向，會(huì)對(duì)人們的工作效率產(chǎn)生深遠(yuǎn)影響。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

淺析智能語音技術(shù)及其應(yīng)用