国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析智能語音技術(shù)及其應(yīng)用

2016-01-14 06:26:40朱斌
智富時(shí)代 2015年9期
關(guān)鍵詞:語音識(shí)別

朱斌

【摘 要】隨著計(jì)算機(jī)硬件技術(shù)的飛速發(fā)展,計(jì)算機(jī)性能在不斷提高的同時(shí)功耗、體積在不斷減小,通過多年的技術(shù)研究模式識(shí)別的算法也在不斷走向精準(zhǔn),從而推動(dòng)模式識(shí)別技術(shù)向?qū)嵱没粩噙M(jìn)展。語音識(shí)別技術(shù)是模式識(shí)別技術(shù)中的一個(gè)分支,而語音合成技術(shù)與語音識(shí)別技術(shù)一起會(huì)帶給我們劃時(shí)代的交互方式,本文針對(duì)智能語音技術(shù)中的語音識(shí)別和語音和成技術(shù)進(jìn)行了介紹,并從應(yīng)用角度進(jìn)行了分析。

【關(guān)鍵詞】智能語音技術(shù);語音合成;語音識(shí)別;呼叫中心

一、智能語音技術(shù)簡介

智能語音技術(shù)的研究工作大約開始于上世紀(jì)50年代。智能語音技術(shù)主要分為兩個(gè)方面,一個(gè)是語音合成技術(shù),一個(gè)是語音識(shí)別技術(shù)。目前國內(nèi)比較著名的語音識(shí)別公司有科大訊飛等公司,國際上比較知名的公司有Google、微軟、IBM、NUANCE等

(一)語音識(shí)別技術(shù)

語音識(shí)別技術(shù)從其本身來講還有多個(gè)研究方向,如自動(dòng)語音識(shí)別、聲紋識(shí)別和語種識(shí)別等多個(gè)方面,以下我們分別進(jìn)行簡要介紹。

1.自動(dòng)語音識(shí)別

自動(dòng)語音識(shí)別(AutomaticSpeechRecognition簡稱"ASR")技術(shù)是一種將人的語音轉(zhuǎn)換為文本的技術(shù),它的目標(biāo)是讓計(jì)算機(jī)能夠“聽寫”出不同人所說出的連續(xù)語音,實(shí)現(xiàn)“聲音”到“文字”的轉(zhuǎn)換。它是一個(gè)多學(xué)科交叉的領(lǐng)域,與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)等學(xué)科緊密相連。

語音識(shí)別包括了語言模型訓(xùn)練、聲學(xué)模型訓(xùn)練、特征提取和搜索等過程,特征提取的主要任務(wù)是從輸入的語音信號(hào)中提取特征,用于聲學(xué)模型的建模以及解碼搜索過程,在提取特征前也要服務(wù)則對(duì)語音信號(hào)進(jìn)行降噪處理,以提高系統(tǒng)魯棒性。在大詞匯量的連續(xù)語音識(shí)別中一般選用上下文相關(guān)的三音素聲學(xué)模型,對(duì)于語音庫難以覆蓋三音素的情況可以采用狀態(tài)聚類,綁定同類轉(zhuǎn)臺(tái)從而減少訓(xùn)練狀態(tài)的總數(shù)目。目前統(tǒng)計(jì)語言模型已成為語言處理的主流技術(shù),例如N-Gram語言模型、馬爾可夫N元模型、指數(shù)模型和決策樹模型。搜索算法中的解碼器是自動(dòng)語音識(shí)別系統(tǒng)的核心模塊,其任務(wù)是對(duì)輸入的語音信號(hào),在由語句或單詞序列構(gòu)成的空間當(dāng)中,按照一定的優(yōu)化準(zhǔn)則,并且根據(jù)聲學(xué)和語言模型及詞典生成一個(gè)用于搜索的狀態(tài)空間,在該狀態(tài)空間中檢索到最優(yōu)狀態(tài)序列,即尋找能夠以最大概率輸出該信號(hào)的句子或者單詞序列。搜索算法按照搜索策略分類的有幀同步Viterbi算法和幀異步堆棧算法,按空間擴(kuò)展分類有靜態(tài)擴(kuò)展和動(dòng)態(tài)擴(kuò)展算法。

另外,其他的模式識(shí)別方法如基于人工神經(jīng)網(wǎng)絡(luò)對(duì)語音進(jìn)行識(shí)別,其主要用來配合HMM以達(dá)到較高的性能。

2.聲紋識(shí)別

人類語言的產(chǎn)生是語言中樞與發(fā)音器官之間一個(gè)復(fù)雜的生理物理過程,人在講話時(shí)使用的發(fā)聲器官:舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個(gè)人的差異很大,所以任何兩個(gè)人的發(fā)聲特征都有差異。個(gè)體的聲學(xué)特征既有相對(duì)穩(wěn)定性,又有變異性,不是絕對(duì)的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關(guān)。聲紋識(shí)別是一套利用人的個(gè)性語音特征對(duì)話語者進(jìn)行區(qū)分的技術(shù),它本身與說話內(nèi)容無關(guān),同時(shí)與語種也無關(guān)。

說話人識(shí)別過程包括了預(yù)處理、特征提取、分段聚類、識(shí)別分類和得分規(guī)整。預(yù)處理模塊用于去掉音頻流中的非語音成分,采用基于能量判斷去除靜音,基于模型分類去掉彩鈴。特征提取有助于說話人分類的樣本信息,主要技術(shù)采用Mel頻率倒譜系數(shù)(MFCC)和其長時(shí)移動(dòng)差分變換。分段聚類切分話單中不同說話人段落,并將同一個(gè)人的片段聚合到一起,主要采用層次聚類技術(shù)(每次尋找最近的段落聚合。識(shí)別分類模塊通過學(xué)習(xí)注冊(cè)人樣本語音,對(duì)測(cè)試語音進(jìn)行打分,主要技術(shù)包括高斯混合模型和支持向量機(jī)模型。得分規(guī)整模塊用于縮小冒認(rèn)者的得分方差,盡量和目標(biāo)人拉開距離主要技術(shù)包括T-規(guī)整和Z-規(guī)整。

3.語種識(shí)別

語音的自動(dòng)語言辨識(shí)技術(shù)(Language Identification, LID)就是計(jì)算機(jī)能夠識(shí)別出語音段所屬的語言的過程。它是從語音信號(hào)中自動(dòng)提取信息的幾個(gè)過程之一。

自動(dòng)語言辨識(shí)同其他模式識(shí)別一樣,主要包括三個(gè)方面:特征提取、模型建立和判決規(guī)則。特征提取用到的技術(shù)有倒譜特征提取和短時(shí)和長時(shí)差分變。分類器模型包括支持向量機(jī)分類(SVM)和人工神經(jīng)網(wǎng)絡(luò)分類(NN)。另外還涉及了有效語音檢測(cè)(VAD)、譜規(guī)整和得分規(guī)整、線性鑒別分析(LDA)和信道因子分析(LFA)等魯棒技術(shù)。當(dāng)前很多系統(tǒng)都通過線性和非線性融合來提高系統(tǒng)的準(zhǔn)確率。

(二)語音合成技術(shù)

語音合成技術(shù)最為常見的就是TTS(Text to Speech,文本語音轉(zhuǎn)換)的應(yīng)用,TTS最新的語音合成引擎(連接技術(shù)和合成算法的結(jié)合),其應(yīng)用范圍非常廣,如文本的有聲校對(duì)、語音應(yīng)答系統(tǒng)、信息庫查詢系統(tǒng)、殘疾人輔助發(fā)音系統(tǒng)等。

(三)應(yīng)用分析

智能語音技術(shù)有相當(dāng)廣泛的應(yīng)用場景,不但在傳統(tǒng)呼叫中心有廣泛應(yīng)用,隨著智能設(shè)備的不斷發(fā)展,它也逐步向這些領(lǐng)域開始進(jìn)軍。

(四)人機(jī)交互

傳統(tǒng)人機(jī)交互都采用專用輸入設(shè)備,比如鍵盤、鼠標(biāo)、手寫板、顯示器等,利用這些方式雖然可以滿足信息輸入和輸出,實(shí)現(xiàn)基本人機(jī)交互,但是針對(duì)越來越多的智能設(shè)備的出現(xiàn),傳統(tǒng)的輸入方式逐漸顯得力不從心。

通過語音合成技術(shù),可以將信息通過聲音的方式與人進(jìn)行交流,通過自動(dòng)語音識(shí)別,不但可以完成文本輸入工作,還可以進(jìn)行設(shè)備控制,從而實(shí)現(xiàn)更為簡便、有效的人機(jī)交互。人機(jī)交互可以應(yīng)用于智能手機(jī)、智能家電、汽車控制、有聲校對(duì)、語音應(yīng)答系統(tǒng)、信息庫查詢系統(tǒng)、殘疾人輔助發(fā)音等多個(gè)方面。

(五)身份確認(rèn)

身份確認(rèn)主要采用聲紋識(shí)別技術(shù),其主要應(yīng)用場景是確認(rèn)說話人是否為特定人。聲紋識(shí)別技術(shù)已經(jīng)逐漸走向?qū)嶋H應(yīng)用,很多公司都根據(jù)這項(xiàng)技術(shù)應(yīng)用到業(yè)務(wù)系統(tǒng),比如AT&T應(yīng)用聲紋識(shí)別技術(shù)研制出的智慧卡(Smart Card),將其應(yīng)用于自動(dòng)提款機(jī)上;Nuance公司推出了Nuance Verifier,在電信網(wǎng)上實(shí)現(xiàn)文本激勵(lì)的說話人識(shí)別,已經(jīng)可靠應(yīng)用于金融服務(wù)等系統(tǒng)。其他一些商用系統(tǒng)還包括:ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX 公司的SpeakEZ等。

(六)身份辨認(rèn)

身份辨認(rèn)同樣也主要采用聲紋識(shí)別技術(shù),其主要應(yīng)用場景為對(duì)特定語音進(jìn)行分析,確認(rèn)其身份,這種應(yīng)用可應(yīng)用于公安司法以及軍隊(duì)和國防。如:對(duì)于各種電話勒索、綁架、電話人身攻擊等案件,身份辨認(rèn)可以在一段錄音中查找出嫌疑人或縮小偵察范圍;身份辨認(rèn)可以發(fā)現(xiàn)電話交談過程中是否有特定說話人出現(xiàn),繼而對(duì)交談的內(nèi)容進(jìn)行跟蹤,并可以對(duì)發(fā)出命令的人的身份進(jìn)行確認(rèn)(敵我指戰(zhàn)員鑒別),目前此術(shù)在國外軍事方面已有所應(yīng)用。

二、存在問題

盡管智能語音技術(shù)在技術(shù)上已經(jīng)獲得突破性進(jìn)展,然而在實(shí)際應(yīng)用過程中語音識(shí)別技術(shù)仍然面臨著一些難點(diǎn),特別是針對(duì)語音識(shí)別技術(shù):

(一)對(duì)環(huán)境依賴性較大,抗干擾能力較差

語音采集時(shí),不可避免會(huì)混入環(huán)境噪聲,同時(shí)由于采集設(shè)備的不同也會(huì)對(duì)采集結(jié)果造成影響,這些影響都會(huì)影響到最終識(shí)別結(jié)果。

(二)地方口音的差異造成影響

語音往往存在地域性,他不同于語種。比如北方與南方人同樣講普通話,差異還是非常明顯,這些都對(duì)識(shí)別工作造成一定的影響。

(三)自然語言的隨機(jī)性、多變性

針對(duì)于語音朗讀,目前的語音識(shí)別技術(shù)已經(jīng)有很好的效果,但是實(shí)際生活中,人們講話都較為隨意,同時(shí)伴隨講話時(shí)的情緒,這些都會(huì)對(duì)語音識(shí)別結(jié)果造成較大影響。

但我們相信,隨著技術(shù)的不斷發(fā)展,通過語音素材數(shù)據(jù)的不斷積累,相信這些問題將會(huì)逐步被解決。

三、結(jié)束語

人與設(shè)備如何便捷交互,信息輸入是否高效,一定程度上影響了整個(gè)工作過程的效率,智能語音技術(shù)為大家提供了一條新的道路,除去了人與設(shè)備之間的隔閡。效率和成本是每一個(gè)企業(yè)管理必須權(quán)衡的關(guān)鍵因素,雖然智能語音技術(shù)現(xiàn)在還有很多不足,但是從長遠(yuǎn)來看必將是應(yīng)用發(fā)展的方向,會(huì)對(duì)人們的工作效率產(chǎn)生深遠(yuǎn)影響。

猜你喜歡
語音識(shí)別
空管陸空通話英語發(fā)音模板設(shè)計(jì)與應(yīng)用
通話中的語音識(shí)別技術(shù)
面向移動(dòng)終端的語音簽到系統(tǒng)
語音識(shí)別的SVM模型選擇分析
農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
基于LD3320的非特定人識(shí)別聲控?zé)粝到y(tǒng)設(shè)計(jì)
語音識(shí)別在移動(dòng)電商安全防范中的運(yùn)用
航天三維可視化系統(tǒng)中語音控制技術(shù)的研究與應(yīng)用
基于語音識(shí)別的萬能遙控器的設(shè)計(jì)
基于語音技術(shù)的商務(wù)英語移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
合山市| 石景山区| 新野县| 桑日县| 临洮县| 襄樊市| 淳安县| 腾冲县| 阿拉善右旗| 厦门市| 子洲县| 阿克| 赣州市| 新源县| 延庆县| 忻州市| 濮阳市| 博白县| 潮安县| 元阳县| 夹江县| 英山县| 中方县| 望谟县| 泸州市| 中江县| 闸北区| 兴海县| 淮阳县| 柞水县| 安庆市| 涞水县| 始兴县| 宁强县| 连州市| 延边| 镇雄县| 唐山市| 靖安县| 丽水市| 南乐县|