国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

百度語音識別獲重大突破:更快、更準(zhǔn)、更平價

2015-11-27 18:12:55龐貝
科技創(chuàng)新與品牌 2015年11期
關(guān)鍵詞:解碼百度語音

龐貝

在2015年10月舉行的中國人機(jī)語音交互領(lǐng)域最權(quán)威的全國人機(jī)語音通訊學(xué)術(shù)會議上,百度語音技術(shù)部負(fù)責(zé)人賈磊介紹了百度在漢語語音識別方面取得的重大理論和產(chǎn)品突破:研發(fā)出了基于多層單向LSTM的漢語聲韻母整體建模技術(shù),并成功把連接時序分類(CTC)訓(xùn)練技術(shù)嵌入到傳統(tǒng)的語音識別建??蚣苤?,再結(jié)合語音識別領(lǐng)域的決策樹聚類、跨詞解碼和區(qū)分度訓(xùn)練等技術(shù),使機(jī)器的語音識別相對錯誤率比現(xiàn)有傳統(tǒng)技術(shù)降低15%以上,漢語安靜環(huán)境普通話語音識別的準(zhǔn)確率接近97%,進(jìn)一步接近人的識別能力。

這是繼2011年,引入深度學(xué)習(xí)技術(shù)后,語音技術(shù)領(lǐng)域又一次具有標(biāo)志性意義的重要進(jìn)展。

超強(qiáng)計算能力支撐的極致創(chuàng)新

人工智能是當(dāng)下的熱門概念,語音識別也被叫得火熱。但仍然有很多難題橫在了語音技術(shù)大規(guī)模產(chǎn)業(yè)化的面前。賈磊說:“語音識別技術(shù)的成本消耗非常高。如果語音搜索服務(wù)要想大規(guī)模普及,必須降低后臺服務(wù)器成本。否則,如果未來50%的搜索用戶都使用語音的話,所消耗的后臺服務(wù)器數(shù)目是驚人的?!?/p>

“百度此次研究的CTC模型在解碼部分的速度比傳統(tǒng)模型快5到10倍。配合專業(yè)的深度學(xué)習(xí)計算硬件,當(dāng)未來語音服務(wù)大規(guī)模普及時,可以讓后臺計算成本大大降低。”

除了成本之外,計算能力也是一個瓶頸。

賈磊告訴我們,這次百度做出的重大技術(shù)創(chuàng)新,更大程度上是百度對計算能力極限挖掘的一次嘗試。

在人工智能領(lǐng)域,LSTM(長短時記憶模型)與CTC(連接時序分類)技術(shù)都已經(jīng)存在很長時間,但是由于其容易收斂到局部點等特點,以及這兩大技術(shù)結(jié)合后計算量巨大等原因,10多年來,LSTM與CTC的結(jié)合一直沒有在語音工業(yè)領(lǐng)域成功應(yīng)用。

“LSTM和CTC建模技術(shù)結(jié)合,其核心難度之一就在于海量數(shù)據(jù)下的深度學(xué)習(xí)需要強(qiáng)大的計算能力,這兩項技術(shù)的計算量比傳統(tǒng)深度學(xué)習(xí)的計算量大一個數(shù)量級。直接按照數(shù)學(xué)公式去實現(xiàn)上述算法,LSTM和CTC訓(xùn)練就需要采用單幀遞推模式,這樣的訓(xùn)練速度在工業(yè)條件下的將近1萬小時訓(xùn)練數(shù)據(jù)下,幾乎是不可能實現(xiàn)的。”賈磊解釋到。

此次,百度依靠三大因素—大數(shù)據(jù)機(jī)器學(xué)習(xí)和語音識別傳統(tǒng)理論結(jié)合、創(chuàng)新的算法以及強(qiáng)大的計算能力,成功突破了這十多年的技術(shù)困局。

據(jù)了解,對比谷歌2015年9月份于Interspeech 發(fā)表的在英文領(lǐng)域的類似研究成果,百度的訓(xùn)練數(shù)據(jù)是谷歌的4~5倍,模型訓(xùn)練參數(shù)規(guī)模是谷歌的10~20倍。而該技術(shù)成功突破的核心要素之一就是訓(xùn)練能力的極致提升,大模型大數(shù)據(jù)下的難度要比實驗室小數(shù)據(jù)小模型的情況下難很多。百度研發(fā)出的全新訓(xùn)練算法,更接近工業(yè)大數(shù)據(jù)的產(chǎn)品實踐,是可以推廣到10萬小時訓(xùn)練的全新技術(shù)。

“對新技術(shù)的追趕,需要大數(shù)據(jù)、大平臺、極致計算等結(jié)合做支撐,因此可以預(yù)見,百度這樣的公司在未來有很大優(yōu)勢?!?/p>

傳統(tǒng)理論突破帶來的框架性創(chuàng)新

值得注意的是,這一技術(shù)創(chuàng)新并非依靠單點的突破,而是“打造基于多層單向LSTM的漢語聲韻母整體建模技術(shù)”、“引入CTC技術(shù)”、“與語音識別領(lǐng)域的傳統(tǒng)技術(shù)相結(jié)合”三大方面共同作用的結(jié)晶,是一項框架性的創(chuàng)新。

“過去,有很多機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于語音識別領(lǐng)域取得了不錯的效果,但是在解決產(chǎn)品上線的計算量和用戶等待時間方面總是差強(qiáng)人意。”賈磊認(rèn)為,“深度學(xué)習(xí)技術(shù)必須和行業(yè)專業(yè)理論結(jié)合才能以質(zhì)變的方式提升工業(yè)產(chǎn)品技術(shù)?!?/p>

自2015年6月開始,經(jīng)過短短4個月的不斷探索與試驗,百度在世界范圍內(nèi)率先克服了在漢語領(lǐng)域使用CTC技術(shù)訓(xùn)練多層單向LSTM的高精度建模難題。

此外,百度還根據(jù)自己在語音產(chǎn)品實踐中的長期積累和經(jīng)驗,經(jīng)過大量實驗詳細(xì)的比較,在嘗試了音節(jié)、聲韻母和狀態(tài)等不同長度的建模單元之后,最后探索出最適合漢語的聲韻母整體建模。最終把上述成果一起應(yīng)用到語音識別的傳統(tǒng)技術(shù)框架中,結(jié)合決策樹聚類、跨詞解碼技術(shù)和區(qū)分度訓(xùn)練等一系列傳統(tǒng)技術(shù),實現(xiàn)了漢語語音識別工業(yè)產(chǎn)品技術(shù)的實質(zhì)性提升。

這一革新不僅是學(xué)術(shù)上的成果,而且可以直接應(yīng)用在產(chǎn)品上。據(jù)悉,應(yīng)用這一新技術(shù)的百度搜索產(chǎn)品即將上線。

在解決工業(yè)難題的同時,百度還最先對工業(yè)情況下的CTC技術(shù)在語音產(chǎn)品中發(fā)揮巨大作用的本質(zhì)進(jìn)行了深入探索。

在研究過程中,賈磊和他的團(tuán)隊發(fā)現(xiàn),在大數(shù)據(jù)、大模型條件下,在固定邊界的CE訓(xùn)練之后,采用CTC訓(xùn)練,可能對多層雙向LSTM模型的性能提升很有限,但對多層單向LSTM模型的改善是顯著的。

“我們對CTC的本質(zhì)進(jìn)行了深度探究,”賈磊表示,“我們認(rèn)為,一個可能的解釋是,CTC的空白吸收機(jī)制和動態(tài)邊界尖峰學(xué)習(xí)能力,可以動態(tài)自適應(yīng)地形成‘目標(biāo)延遲,從而解決單向LSTM模型的右邊信息不完整的問題,而這個作用對雙向LSTM模型的價值就小很多。”

該理論的探索和發(fā)現(xiàn),對于CTC技術(shù)進(jìn)一步在語音識別中的創(chuàng)新研究打下了很好的基礎(chǔ)。除此之外,百度產(chǎn)品團(tuán)隊還探索了語音識別中CTC訓(xùn)練后的模型具有超快的解碼速度的本質(zhì)原因,并向業(yè)界公開其相應(yīng)的解碼器加速策略。

更深刻的變革正在來臨

如今,百度已經(jīng)開始使用上萬小時的樣本進(jìn)行模型訓(xùn)練。不難預(yù)測,不久,語音識別技術(shù)發(fā)展將很快進(jìn)入10萬小時數(shù)據(jù)樣本訓(xùn)練階段,只有這樣,才能覆蓋千差萬別的用戶口音差異,使語音識別技術(shù)不懼“南腔北調(diào)”的挑戰(zhàn)。而在可預(yù)見的未來,訓(xùn)練語料量可能會突破100萬小時。

在賈磊看來,隨著訓(xùn)練數(shù)據(jù)量的迅速增加,如何實現(xiàn)大規(guī)模LSTM建模和CTC的有效訓(xùn)練,會成為一個核心的技術(shù)難題。“以后,語音識別領(lǐng)域的深度學(xué)習(xí)將進(jìn)入數(shù)百GPU并行訓(xùn)練的狀態(tài),理論創(chuàng)新和算法技術(shù)創(chuàng)新都將圍繞大數(shù)據(jù)展開。語音識別技術(shù)的研發(fā)方法,相對于現(xiàn)在必將發(fā)生深刻的變革。”

除此之外,CTC建模技術(shù)進(jìn)一步降低了語音識別應(yīng)用的解碼成本,隨著適合深度模型計算的專業(yè)硬件的大量涌現(xiàn),語音識別云服務(wù)的成本將大量降低,從而推動語音交互技術(shù)的更大范圍普及。

猜你喜歡
解碼百度語音
《解碼萬噸站》
Robust adaptive UKF based on SVR for inertial based integrated navigation
解碼eUCP2.0
中國外匯(2019年19期)2019-11-26 00:57:32
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
NAD C368解碼/放大器一體機(jī)
Quad(國都)Vena解碼/放大器一體機(jī)
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
百度年度熱搜榜
青年與社會(2018年2期)2018-01-25 15:37:06
弥渡县| 平定县| 潼南县| 怀柔区| 内江市| 洮南市| 石河子市| 黑河市| 炎陵县| 青浦区| 明星| 宝应县| 米易县| 苗栗县| 博客| 天祝| 芮城县| 祁门县| 克东县| 蓬莱市| 东辽县| 太仓市| 鄂伦春自治旗| 郯城县| 休宁县| 通化市| 榕江县| 永定县| 柞水县| 嵊泗县| 西畴县| 清徐县| 大竹县| 太保市| 靖宇县| 台山市| 独山县| 探索| 广平县| 饶河县| 同德县|