国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語音識(shí)別:對(duì)未來人機(jī)交互的顛覆與改變

2017-01-04 19:37:07陳潤生
財(cái)經(jīng) 2016年35期
關(guān)鍵詞:語音智能

陳潤生

語音識(shí)別以其智能的接入方式改變著人們的上網(wǎng)習(xí)慣,未來,或許會(huì)全面顛覆移動(dòng)互聯(lián)網(wǎng)的形態(tài)。科技界與工業(yè)界的共同進(jìn)取,將促成科技成果不斷涌現(xiàn),讓語音識(shí)別從“聽到”變得“聽懂”

想象一下,當(dāng)你駕駛一輛奧迪A8L行駛在路上,只需說出幾個(gè)簡單的詞語,便可獲得旅途所需的一切,車載MMI 人機(jī)交互系統(tǒng)可智能識(shí)別語音指令,輕松控制導(dǎo)航,語音通話,娛樂系統(tǒng)等各項(xiàng)功能,汽車也仿佛不再是冰冷的交通工具,而變得更有智慧。電子設(shè)備從過去的智能工具,開始成為與人交互的“伙伴”。

語音識(shí)別正以磅礴之勢(shì)占據(jù)著一個(gè)時(shí)代的智能高點(diǎn)。美國谷歌公司發(fā)布的一項(xiàng)調(diào)查報(bào)告顯示,13歲到18歲之間的青少年中,每天使用語音搜索的人數(shù)比率約55%;而在成年人中,約有56%的人表示使用語音搜索會(huì)令他們感覺自己很懂技術(shù)。谷歌傳統(tǒng)搜索副總裁斯科特·霍夫曼感言:對(duì)年輕人而言,使用語音搜索猶如應(yīng)用社交媒體一樣自然,并且會(huì)出現(xiàn)更多創(chuàng)新的使用方法。

隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)、云計(jì)算、人工智能等技術(shù)的發(fā)展,語音識(shí)別在一步步解放用戶的雙手,語音輸入框也大有取代鼠標(biāo)、鍵盤之勢(shì)。伴隨著智能移動(dòng)設(shè)備的普及,語音交互作為一種新型的人機(jī)交互方式,正越來越引起整個(gè)IT業(yè)界的重視。

業(yè)內(nèi)機(jī)構(gòu)預(yù)計(jì),整個(gè)人工智能市場(chǎng)可在2018年達(dá)到1800億美元的水平,其中的語音識(shí)別市場(chǎng)將占到整個(gè)大蛋糕中極有分量的一大塊。

讓智能語音如何從“聽到”進(jìn)化到“聽懂”,實(shí)現(xiàn)語音服務(wù)的通用化,更多服務(wù)于現(xiàn)實(shí)生活場(chǎng)景,更好地普惠于移動(dòng)互聯(lián)網(wǎng)用戶,盡管仍有障礙亟待逾越,但這必將是規(guī)模工業(yè)化的重點(diǎn)突破方向。

在智能語音專家賈磊看來,剝離了服務(wù)、平臺(tái)與計(jì)算能力,僅集中于語音技術(shù)的時(shí)代已經(jīng)過去了,未來的規(guī)模工業(yè)化發(fā)展趨勢(shì)已然顯現(xiàn),下一階段的變革之旅正在開啟。

互聯(lián)網(wǎng)的“語音”入口

2016年初,美國麻省理工學(xué)院(MIT)主辦的知名科技期刊《麻省理工科技評(píng)論》,評(píng)選出了“2016年十大突破技術(shù)”,語音識(shí)別位列第三項(xiàng),與其他技術(shù)一起“到達(dá)一個(gè)里程碑式的階段或即將到達(dá)這一階段”。

語音識(shí)別技術(shù),也被稱為自動(dòng)語音識(shí)別,其目標(biāo)是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。

與計(jì)算機(jī)進(jìn)行語音交流,并讓其明白用戶在說什么,這是人們長期以來夢(mèng)寐以求的事情。深度學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等技術(shù)的發(fā)展,讓這一夢(mèng)想照進(jìn)現(xiàn)實(shí)。百度語音前首席架構(gòu)師賈磊預(yù)測(cè),語音識(shí)別技術(shù)將在語音搜索、O2O、傳媒信息等領(lǐng)域發(fā)揮巨大作用。

作為人工智能界的技術(shù)大咖,賈磊的“技術(shù)路線”著實(shí)是一條“語音路”。

1993年,賈磊被保送進(jìn)入西北工業(yè)大學(xué)教育改革班學(xué)習(xí),大學(xué)期間他就對(duì)數(shù)學(xué)、計(jì)算機(jī)和聲音信號(hào)處理技術(shù)產(chǎn)生了濃厚的興趣。此后的20多年,賈磊一路與“語音”結(jié)緣。

2003年,在中科院拿到博士學(xué)位的賈磊加入松下中國研究開發(fā)有限公司,從事語音技術(shù)相關(guān)的研究工作,成功研發(fā)出了手機(jī)上的英語、日語和漢語的人名數(shù)字撥號(hào)系統(tǒng);兩年后,賈磊離開松下,加入IBM中國研究院。在IBM期間,賈磊和IBM美國研究部門的同事一起構(gòu)建了漢語廣播識(shí)別系統(tǒng)。

2006年初,賈磊回到松下中國研究開發(fā)有限公司,擔(dān)任松下語音技術(shù)部的高級(jí)經(jīng)理,承擔(dān)整合松下內(nèi)部語音技術(shù)的工作,并領(lǐng)導(dǎo)松下中國部門,研發(fā)了日語汽車導(dǎo)航系統(tǒng)產(chǎn)品原型;四年后,賈磊回到中科院自動(dòng)化研究所,主導(dǎo)了中科院自動(dòng)化所第一版本的云計(jì)算條件下的機(jī)器翻譯系統(tǒng)構(gòu)建工作。

2011年6月,賈磊加入百度,擔(dān)任百度語音技術(shù)部負(fù)責(zé)人、首席研究員,負(fù)責(zé)百度語音技術(shù)的核心技術(shù)研發(fā)和互聯(lián)網(wǎng)產(chǎn)業(yè)化。短短的六個(gè)月內(nèi),賈磊帶領(lǐng)技術(shù)團(tuán)隊(duì),實(shí)現(xiàn)了百度完全自主研發(fā)的語音搜索系統(tǒng)上線。此后,賈磊的技術(shù)團(tuán)隊(duì)相繼完成了手機(jī)語音輸入法系統(tǒng)、智能語音手機(jī)助手等系統(tǒng)的研發(fā)。

2015年底,伴隨著“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的熱潮,賈磊離開百度,投身到與人工智能相關(guān)的創(chuàng)業(yè)領(lǐng)域中?!案呒夹g(shù)人才創(chuàng)業(yè)是為國家作貢獻(xiàn)的另一種方式,美國硅谷的很多公司都是從創(chuàng)業(yè)中誕生的,比如微軟、谷歌,都是從最初的創(chuàng)業(yè)公司最終成長為行業(yè)巨頭。”賈磊如此描述自己的創(chuàng)業(yè),“在以后的智能時(shí)代,人類的很多活動(dòng)或許會(huì)被機(jī)器替代,但置身這個(gè)行業(yè)的工作人員,一定要精準(zhǔn)掌握制造機(jī)器、提升機(jī)器的方法?!?/p>

語音識(shí)別可規(guī)模工業(yè)化的未來

過去的20多年,語音識(shí)別技術(shù)與賈磊們的“技術(shù)腦”共同進(jìn)行著自我進(jìn)化,而這種進(jìn)化,也在潛移默化地改變著互聯(lián)網(wǎng)、尤其是移動(dòng)互聯(lián)網(wǎng)的形態(tài)。

微軟研究院首席研究員俞棟認(rèn)為,在很多應(yīng)用場(chǎng)合,語音識(shí)別成為一個(gè)入口,如果沒有這個(gè)入口,大家都會(huì)覺得智能機(jī)器不夠智能,或者用戶會(huì)覺得與智能機(jī)器交互有困難。

阿里云iDST技術(shù)總監(jiān)初敏認(rèn)為,語音交互將會(huì)成為數(shù)據(jù)智能的第一個(gè)爆發(fā)點(diǎn),“下一輪的入口之爭將再次出現(xiàn)”。

從互聯(lián)網(wǎng)誕生之日起,搜索框便成為人們進(jìn)入互聯(lián)網(wǎng)的重要入口,但語音識(shí)別一經(jīng)出現(xiàn),搜索框的地位受到動(dòng)搖,在未來或?qū)⒅鸩奖蝗〈?/p>

如今,這種“取代”已經(jīng)開始萌發(fā)。11月底,搜狗、百度和科大訊飛三家公司接連召開了三場(chǎng)發(fā)布會(huì),向外界展示了自己在語音識(shí)別和機(jī)器翻譯等方面的最新進(jìn)展,三家公司均宣布旗下語音識(shí)別系統(tǒng)正確率已達(dá)到97%左右。

此前,百度研發(fā)出了基于多層單向LSTM(長短時(shí)記憶模型)的漢語聲韻母整體建模技術(shù),并成功把連接時(shí)序分類(CTC)訓(xùn)練技術(shù)嵌入到語音識(shí)別傳統(tǒng)技術(shù)建模框架中。該技術(shù)能夠使機(jī)器的語音識(shí)別相對(duì)錯(cuò)誤率降低15%,使安靜環(huán)境下的普通話語音識(shí)別的準(zhǔn)確率接近97%。

賈磊表示,上述語音識(shí)別技術(shù)特別適合于語音識(shí)別大規(guī)模工業(yè)化,“因?yàn)檫@個(gè)技術(shù)應(yīng)用點(diǎn)很多,它不但解碼速度快,而且對(duì)口音、對(duì)遠(yuǎn)場(chǎng)都有一定的作用,有口音的人識(shí)別率會(huì)改善很多,距離較遠(yuǎn)的時(shí)候識(shí)別率也會(huì)改善很多”。

業(yè)內(nèi)人士判斷,智能語音技術(shù)將在人工智能、移動(dòng)互聯(lián)網(wǎng)、可穿戴設(shè)備等領(lǐng)域日益深入運(yùn)用,并將向更多垂直行業(yè)深入發(fā)展。

語音識(shí)別技術(shù)在智能交通中的深入應(yīng)用,真正解放了用戶雙眼、雙手,提高了用戶駕駛安全等級(jí),使用戶充分享受語音科技的無窮魅力?;谠摷夹g(shù),自主式導(dǎo)航可以通過語音進(jìn)行諸多需要手動(dòng)觸摸才能完成的操作。

比如,奧迪A8L自帶的MMI人機(jī)交互系統(tǒng),可識(shí)別簡單語音口令,駕駛員可用語音操作該系統(tǒng),省去手動(dòng)操作。

駕駛者可以語音呼叫電話簿與地址簿中的電話號(hào)碼,只需發(fā)出“呼叫某某(姓名)”的指令即可;同樣,使用“導(dǎo)航到某某(地址名稱)”的指令即可導(dǎo)航前往一個(gè)已存儲(chǔ)的導(dǎo)航目的地。

一甲子打磨“語音”利劍

如今的語音識(shí)別有多聰明?百度首席科學(xué)家吳恩達(dá)認(rèn)為,目前的語音識(shí)別已經(jīng)超過了正常人的語音識(shí)別能力。以情感合成為例,基于深度學(xué)習(xí)和大數(shù)據(jù)處理技術(shù)的語音識(shí)別,在數(shù)據(jù)采集、處理、建模等環(huán)節(jié)完成了一系列創(chuàng)新,可以實(shí)現(xiàn)更富有表現(xiàn)力的自然朗讀效果。

在普通公眾的眼里,語音識(shí)別似乎是一項(xiàng)橫空出世的新技術(shù)。但在科學(xué)家與工業(yè)界人士看來,語音識(shí)別并不是一個(gè)新興的行業(yè)。

早在1952年,美國貝爾實(shí)驗(yàn)室的Davis等研制出了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年,英國的Denes等人研制出了第一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng)。發(fā)展至今,語音識(shí)別技術(shù)早已走過了一甲子的歷程。

20世紀(jì)50年代,科學(xué)家們認(rèn)為要讓計(jì)算機(jī)實(shí)現(xiàn)語音識(shí)別只有人才能做的事情,必須先讓其理解自然語言。這使得人類探索語音識(shí)別的路線,局限在用電腦模擬人腦上,即讓計(jì)算機(jī)學(xué)習(xí)人類學(xué)習(xí)語言的方式。在這一思路的指引下,此后的20年,科學(xué)界在語音識(shí)別領(lǐng)域鮮有科研成果出現(xiàn)。

直到1970年后,統(tǒng)計(jì)語言學(xué)的出現(xiàn)讓語音識(shí)別重獲新生。推動(dòng)這個(gè)技術(shù)路線轉(zhuǎn)變的關(guān)鍵人物是現(xiàn)代語音識(shí)別和自然語言處理研究的先驅(qū)、美國工程院院士德里克·賈里尼克和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室。IBM采用統(tǒng)計(jì)的方法,將當(dāng)時(shí)的語音識(shí)別率從70%提升到90%,同時(shí)語音識(shí)別的規(guī)模從幾百個(gè)單詞上升到幾萬個(gè)單詞。這使得語音識(shí)別有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。

此后,隨著研究思路的變化,大規(guī)模的語音識(shí)別研究得以實(shí)現(xiàn),科學(xué)家們?cè)谛≡~匯量、孤立詞的識(shí)別研究方面取得了實(shí)質(zhì)性的進(jìn)展。20世紀(jì)80年代以后,語音識(shí)別研究的重點(diǎn)則逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識(shí)別。

20世紀(jì)90年代以后,科學(xué)界在語音識(shí)別的系統(tǒng)框架方面并沒有什么重大突破,但在語音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。

在這個(gè)時(shí)期,英國劍橋大學(xué)的HTK系統(tǒng)對(duì)語音識(shí)別貢獻(xiàn)巨大,為很多從事語音識(shí)別的研究單位提供了結(jié)構(gòu)完整、全面的一套軟件基線系統(tǒng)。從此,語音識(shí)別研究的門檻大大降低,推動(dòng)了語音識(shí)別技術(shù)的快速發(fā)展和相互交流。

20世紀(jì)90年代以后直到現(xiàn)在,計(jì)算機(jī)界對(duì)于語音識(shí)別的研究逐漸地由朗讀式語音轉(zhuǎn)移到了現(xiàn)實(shí)生活中“真實(shí)對(duì)話語音”。進(jìn)入21世紀(jì),互聯(lián)網(wǎng)得到普及,移動(dòng)互聯(lián)網(wǎng)技術(shù)也快速發(fā)展,手機(jī)上網(wǎng)速度越來越快,這給語音識(shí)別技術(shù)的發(fā)展和應(yīng)用帶來了新的平臺(tái);硬件設(shè)備越來越廉價(jià)以及云計(jì)算技術(shù)的出現(xiàn),也大大推動(dòng)了語音識(shí)別的研究和應(yīng)用。

20世紀(jì)80年代以來,隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國逐漸普及和應(yīng)用,以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展,國內(nèi)許多單位具備了研究語音技術(shù)的基本條件,紛紛投入到這項(xiàng)研究中去。

2011年深度學(xué)習(xí)技術(shù)引入語音識(shí)別領(lǐng)域,推進(jìn)整個(gè)工業(yè)界的人工智能技術(shù)應(yīng)用進(jìn)入深度學(xué)習(xí)時(shí)代。隨后的幾年里,CNN(卷積神經(jīng)網(wǎng)絡(luò))、LSTM(長短時(shí)記憶模型)、CNN混合LSTM的建模技術(shù)在語音識(shí)別工業(yè)產(chǎn)品中不斷涌現(xiàn),并持續(xù)提升語音識(shí)別產(chǎn)品效果。

技術(shù)難關(guān)有待突破

2016年6月2日,被譽(yù)為“互聯(lián)網(wǎng)女王”的瑪麗·米克爾(Mary Meeker)發(fā)布了2016年《互聯(lián)網(wǎng)趨勢(shì)報(bào)告》。報(bào)告認(rèn)為,語音是最有效的計(jì)算輸入形式,將成為人機(jī)交互的新范式。相比打字,語音交互的優(yōu)勢(shì)明顯,既簡單又方便,一個(gè)麥克風(fēng)即可解決,尤其適合物聯(lián)網(wǎng)的場(chǎng)景。

然而,任何一項(xiàng)新技術(shù)的研發(fā),都避免不了需要逾越和突破更多的障礙。早在2008年,比爾·蓋茨就在多個(gè)場(chǎng)合預(yù)測(cè)“今后五年內(nèi),互聯(lián)網(wǎng)搜索將更多地通過語音來完成”。到如今,語音搜索方興未艾,但遠(yuǎn)沒實(shí)現(xiàn)比爾·蓋茨的猜想?,旣悺っ卓藸栴A(yù)測(cè),未來的計(jì)算界面將從鍵盤進(jìn)化成麥克風(fēng)及鍵盤,“不過現(xiàn)在才剛剛上路”。

賈磊認(rèn)為,目前語音識(shí)別技術(shù)遇到的主要難度,是對(duì)口音、噪音、遠(yuǎn)場(chǎng)的識(shí)別。其中基于深度學(xué)習(xí)的個(gè)性化識(shí)別,是未來語音識(shí)別技術(shù)全面普及與應(yīng)用的重大挑戰(zhàn)。

如今在多個(gè)大型科技會(huì)議現(xiàn)場(chǎng),主辦方都會(huì)安排嘗試各家公司研發(fā)的語音速錄系統(tǒng),這大有取代傳統(tǒng)的實(shí)時(shí)速錄員之勢(shì)。起初,這一高效、吸引眼球的技術(shù)著實(shí)讓人們眼前一亮,但一旦會(huì)場(chǎng)中的演講者帶有口音,語音速錄系統(tǒng)便頻頻犯錯(cuò)。

賈磊認(rèn)為,人的口音千差萬別,不可能有一個(gè)語音識(shí)別器識(shí)別所有的聲音,一定要實(shí)現(xiàn)個(gè)性化。而這種基于深度學(xué)習(xí)的個(gè)性化識(shí)別,一定需要海量的存儲(chǔ)空間和很大的數(shù)據(jù)吞吐傳輸能力。

語音識(shí)別歷來是人工智能和機(jī)器學(xué)習(xí)中的十大經(jīng)典難題之一,該技術(shù)面臨著說話人、環(huán)境、設(shè)備三方面的不確定性難點(diǎn)。

說話人常常來自不同的方言區(qū)、有不同的口音,說話時(shí)又有不同的方式、運(yùn)用不同的情感。此外,真實(shí)的語言環(huán)境是非常復(fù)雜的,會(huì)被各種各樣的噪聲環(huán)繞,包括汽車?yán)嚷?、飛機(jī)的噪聲、馬路上人的聲音等;而發(fā)言者使用的設(shè)備也是五花八門,除了自然發(fā)聲,人們可以配戴各式各樣的麥克風(fēng)。

在真實(shí)的應(yīng)用場(chǎng)景下,說話人、環(huán)境、設(shè)備三個(gè)因素疊加在一起,使語音識(shí)別的應(yīng)用場(chǎng)景更加復(fù)雜。如何處理這些不確定性,成為擺在研發(fā)人員面前的一項(xiàng)重大挑戰(zhàn)。

口語化的識(shí)別需要訓(xùn)練語料,口音的有利信息需要大量的口音的數(shù)據(jù)才能解決?!拔磥頃?huì)出現(xiàn)更大規(guī)模的語料庫,要訓(xùn)練更大規(guī)模的語音識(shí)別系統(tǒng)?!辟Z磊認(rèn)為,多種數(shù)據(jù)源的混合訓(xùn)練仍然是解決口音、噪音和遠(yuǎn)場(chǎng)問題的必要手段。

目前的語音識(shí)別系統(tǒng),顯然還難堪完美。盡管各家科技公司根據(jù)實(shí)驗(yàn)數(shù)據(jù)得出的語音識(shí)別準(zhǔn)確率達(dá)到95%甚至更高,但在實(shí)際使用時(shí)并沒那么高。

阿里云智能語音技術(shù)總監(jiān)鄢志杰認(rèn)為,“夸張”的準(zhǔn)確率只可能在非常受限的場(chǎng)景下獲得,“如果在一個(gè)熱烈討論的會(huì)議室,掏出手機(jī)做會(huì)議記錄,別說97%,斷斷續(xù)續(xù)勉強(qiáng)看懂就不錯(cuò)了”。

“語音識(shí)別的準(zhǔn)確率遠(yuǎn)沒有新聞標(biāo)題上宣傳的那么高,脫離現(xiàn)實(shí)場(chǎng)景去談準(zhǔn)確率統(tǒng)統(tǒng)都是耍流氓。”鄢志杰認(rèn)為。

在工業(yè)界,語音識(shí)別的準(zhǔn)確率在探索中穩(wěn)步提升。其中,奧迪A8L自帶的MMI人機(jī)交互系統(tǒng)擁有語音訓(xùn)練功能。如果車主有口音,該功能將訓(xùn)練系統(tǒng)、來識(shí)別車主的發(fā)音習(xí)慣,從而精準(zhǔn)地聽令行動(dòng)。這體現(xiàn)了系統(tǒng)擁有自主學(xué)習(xí)、自主升級(jí)的特性,也是人工智能未來發(fā)展的大方向。

從“聽到”到“聽懂”的進(jìn)化變革

語音識(shí)別、語音搜索,已然成為了移動(dòng)互聯(lián)網(wǎng)時(shí)代的“剛需”。如今,智能客服與智能助理等已經(jīng)成為互聯(lián)網(wǎng)上的典型應(yīng)用場(chǎng)景。接電話的客服人員,可能要漸次被人工智能和機(jī)器人替代,不少科技公司已經(jīng)使用了語音自動(dòng)轉(zhuǎn)接、情感識(shí)別與關(guān)鍵詞識(shí)別、語音識(shí)別和關(guān)鍵信息提取,還有自動(dòng)化的全量檢驗(yàn);而智能助理則可以采用對(duì)話的聲控方式,幫助用戶找餐館、安排行程、點(diǎn)歌、導(dǎo)航、找菜譜等。

為了利用語音交互的新穎和便利模式迅速占領(lǐng)客戶群,互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開語音識(shí)別的研究和應(yīng)用。

賈磊認(rèn)為,想解決口音、噪音的問題,語音識(shí)別系統(tǒng)的訓(xùn)練數(shù)據(jù)還會(huì)繼續(xù)加大,在不久的未來訓(xùn)練數(shù)據(jù)一定能達(dá)到十幾萬小時(shí)。如果出現(xiàn)這么大的計(jì)算量,對(duì)計(jì)算能力的需求會(huì)更加強(qiáng)烈,“大數(shù)據(jù)和高性能計(jì)算,是語音識(shí)別發(fā)展到目前最明顯和清晰的趨勢(shì)”。

“語音識(shí)別正處于產(chǎn)業(yè)化爆發(fā)的邊緣,但機(jī)器計(jì)算成本是一個(gè)很大的瓶頸。如果線上50%的搜索都由語音完成,而計(jì)算成本還和過去一樣,那么沒有公司能承擔(dān)得起?!辟Z磊表示,語音服務(wù)要想大規(guī)模普及、服務(wù)大眾,必須降低后臺(tái)服務(wù)器開銷。

在賈磊看來,作為明顯的行業(yè)趨勢(shì),語音識(shí)別技術(shù)會(huì)和語意理解、交互技術(shù)等形成一整套語音的解決方案。

讓人工智能系統(tǒng)根據(jù)自己被告知的內(nèi)容回答問題或采取行動(dòng),真正的難度在于語義識(shí)別。目前的語音識(shí)別技術(shù),只是把“聽到”的語音高正確率轉(zhuǎn)化成文字,這對(duì)于未來的需求還遠(yuǎn)遠(yuǎn)不夠。從“聽到”,到“聽懂”,盡管一字之差,卻考驗(yàn)重重。

如果讓語音識(shí)別系統(tǒng)變得更加聰慧,其突破依賴于計(jì)算機(jī)硬件的進(jìn)步。近幾年計(jì)算機(jī)飛速發(fā)展,特別是通用計(jì)算的發(fā)展,使人類有了強(qiáng)大的計(jì)算能力,使得一些過去不可能實(shí)現(xiàn)的人工智能算法成為可能,但如果要實(shí)現(xiàn)語音服務(wù)的通用化,計(jì)算能力還有提升空間。

更重要的是,人使用語音識(shí)別的目的,不只是把語音轉(zhuǎn)成文字,而是使用語音去進(jìn)行交互,并獲得其所需的服務(wù)結(jié)果。賈磊認(rèn)為,“這是未來的工業(yè)發(fā)展趨勢(shì),單純地脫離了服務(wù)、脫離了平臺(tái)、脫離了計(jì)算能力去做語音技術(shù)的時(shí)代已經(jīng)過去了?!?/p>

語音識(shí)別雖然為現(xiàn)代生活帶來了各種便捷,但距離真正實(shí)現(xiàn)精確無誤,自主思考,顯然還有很長一段路要走,只有研究者們不斷執(zhí)著進(jìn)取,突破藩籬,才能為語音識(shí)別技術(shù)的未來帶來真正的顛覆與改變。

猜你喜歡
語音智能
第二語言語音習(xí)得中的誤讀
活力(2019年19期)2020-01-06 07:37:26
魔力語音
智能制造 反思與期望
基于MATLAB的語音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
對(duì)方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
河间市| 岢岚县| 老河口市| 和田市| 吴旗县| 萨嘎县| 赤壁市| 太原市| 盐津县| 吉林省| 长泰县| 丽江市| 多伦县| 淮南市| 太湖县| 湖北省| 永顺县| 三门峡市| 甘泉县| 威信县| 凤庆县| 湖北省| 郯城县| 沁阳市| 哈尔滨市| 佳木斯市| 扎兰屯市| 留坝县| 鄢陵县| 靖州| 东莞市| 曲沃县| 汉川市| 万荣县| 邯郸县| 确山县| 马关县| 晋中市| 沧州市| 牙克石市| 常宁市|