語(yǔ)音識(shí)別64年大突破

2016-12-19 06:37:43姜姝姝

機(jī)器人產(chǎn)業(yè) 2016年6期

□文/姜姝姝

語(yǔ)音識(shí)別64年大突破

□文/姜姝姝

語(yǔ)言，之所以重要，在于人類(lèi)的思維能力是伴隨著它的產(chǎn)生而迅速發(fā)展的，這也是人類(lèi)在智能上區(qū)別于其他物種的原因。語(yǔ)音識(shí)別，作為人工智能應(yīng)用的一個(gè)場(chǎng)景，也是研究者們一直試圖解決的問(wèn)題。

今年10月底，微軟宣布語(yǔ)音識(shí)別實(shí)現(xiàn)了歷史性突破，詞錯(cuò)率僅 5.9%，英語(yǔ)的語(yǔ)音轉(zhuǎn)錄達(dá)到專(zhuān)業(yè)速錄員水平，微軟的此次突破是機(jī)器的識(shí)別能力在英語(yǔ)水平上第一次超越人類(lèi)。微軟的這條消息發(fā)布之后在業(yè)內(nèi)引起了極大的關(guān)注。語(yǔ)音識(shí)別一直是國(guó)內(nèi)外許多科技公司重點(diǎn)發(fā)展的技術(shù)之一，百度首席科學(xué)家吳恩達(dá)就發(fā)推特恭賀微軟在英語(yǔ)語(yǔ)音識(shí)別上的突破，同時(shí)也回憶起一年前百度在漢語(yǔ)語(yǔ)音識(shí)別上的突破，其Deep Speech 2 的短語(yǔ)識(shí)別的詞錯(cuò)率已經(jīng)降到了3.7%，Deep Speech 2 轉(zhuǎn)錄某些語(yǔ)音的能力基本上是超人級(jí)的，能夠比普通話母語(yǔ)者更精確地轉(zhuǎn)錄較短的查詢。

夢(mèng)想從貝爾實(shí)驗(yàn)室開(kāi)始

不久前，麻省理工學(xué)院(MIT)主辦的知名科技期刊《麻省理工科技評(píng)論》(MIT Technology Review)，評(píng)選出了“2016年十大突破技術(shù)”。《麻省理工科技評(píng)論》稱，在過(guò)去的一年里，這十項(xiàng)技術(shù)均已到達(dá)一個(gè)里程碑式的階段或即將到達(dá)這一階段。而語(yǔ)音識(shí)別的突破就是其中的第三項(xiàng)。

回顧人類(lèi)發(fā)展史，不難看出，隨著人的不斷進(jìn)化，從最初通過(guò)手掌、肢體使用簡(jiǎn)單工具、傳遞簡(jiǎn)單信息，發(fā)展到控制發(fā)聲并通過(guò)耳朵接收，形成了一個(gè)以語(yǔ)音為載體的快速信息傳遞通道和收發(fā)閉環(huán)，成為人類(lèi)間最自然、最重要的信息交互手段。聲波作為一種音頻信號(hào)，和視頻信號(hào)、無(wú)線電信號(hào)一樣是，非接觸方式的傳播，也是人類(lèi)唯一可以不借助工具就可自由掌控的一種天然“無(wú)線”資源。而且聲波對(duì)接收指向性的要求更寬松，這個(gè)非常寶貴的特性會(huì)在很多場(chǎng)景下帶來(lái)極大便利。特別是對(duì)于一些在視覺(jué)、觸覺(jué)等方面存在障礙(如老年人、弱視、殘障人士)或不適合(如兒童需要保護(hù)視力)的龐大特定人群，語(yǔ)音更是最佳的交互選擇。

1946年，現(xiàn)代電子計(jì)算機(jī)出現(xiàn)后，計(jì)算機(jī)在很多事情上做得比人還好，既然如此，機(jī)器能不能懂得自然語(yǔ)言呢？與機(jī)器進(jìn)行語(yǔ)音交流，讓它聽(tīng)明白你在說(shuō)什么，語(yǔ)音識(shí)別技術(shù)是計(jì)算機(jī)一出現(xiàn)，人類(lèi)就開(kāi)始憧憬的一大夢(mèng)想。

最早提出機(jī)器智能概念的是計(jì)算機(jī)科學(xué)之父阿蘭·圖靈，1950年他在《思想》（Mind）雜志上發(fā)表了一篇題為“計(jì)算的機(jī)器和智能”的論文。在論文中，圖靈并沒(méi)有提出什么研究方法，而是提出了一種驗(yàn)證機(jī)器是否有智能的方法：讓人和機(jī)器進(jìn)行交流，如果人無(wú)法判斷自己交流的對(duì)象是人還是機(jī)器，就說(shuō)明這個(gè)機(jī)器有智能了。這種方法被后人稱作圖靈測(cè)試。圖靈其實(shí)是留下了一個(gè)問(wèn)題，而非答案，但是一般認(rèn)為對(duì)自然語(yǔ)言的機(jī)器處理可以追溯到那個(gè)時(shí)候。

科學(xué)家認(rèn)為語(yǔ)音識(shí)別就好比“機(jī)器的聽(tīng)覺(jué)系統(tǒng)”，該技術(shù)可以讓機(jī)器通過(guò)識(shí)別和理解，把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。1952年，貝爾研究所，Davis等人研制了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。1960年，英國(guó)的Denes等人研制了第一個(gè)計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)。

事實(shí)上，語(yǔ)音識(shí)別60多年的發(fā)展過(guò)程可以分成多個(gè)階段。早期的20多年，即從20世紀(jì)50年代到70年代，是科學(xué)家們走彎路的階段，全世界的科學(xué)家對(duì)計(jì)算機(jī)完成語(yǔ)音識(shí)別這類(lèi)只有人才能做的事情，認(rèn)為必須先讓計(jì)算機(jī)理解自然語(yǔ)言，這就局限在人類(lèi)學(xué)習(xí)語(yǔ)言的方式上了，也就是用電腦模擬人腦，這20多年的研究成果近乎為零。

賈里尼克的貢獻(xiàn)

直到1970年后，統(tǒng)計(jì)語(yǔ)言學(xué)的出現(xiàn)才使語(yǔ)音識(shí)別重獲新生，并取得了今天的飛凡成就。推動(dòng)這個(gè)技術(shù)路線轉(zhuǎn)變的關(guān)鍵人物是德里克·賈里尼克（Frederick Jelinek）和他領(lǐng)導(dǎo)的IBM華生實(shí)驗(yàn)室（T.J.Watson），開(kāi)始使用統(tǒng)計(jì)方法。采用統(tǒng)計(jì)的方法，IBM將當(dāng)時(shí)的語(yǔ)音識(shí)別率從70%提升到90%，同時(shí)語(yǔ)音識(shí)別的規(guī)模從幾百單詞上升到幾萬(wàn)單詞，這樣語(yǔ)音識(shí)別就有了從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用的可能。

《從水門(mén)事件到莫妮卡·萊溫斯基》是賈里尼克在1999年ICASSP（國(guó)際聲學(xué)、語(yǔ)言和信號(hào)處理大會(huì)）做的報(bào)告題目，因?yàn)樗T(mén)事件發(fā)生的時(shí)間1972年，恰好是統(tǒng)計(jì)語(yǔ)音識(shí)別開(kāi)始的時(shí)間，而因萊溫斯基事件彈劾克林頓總統(tǒng)正好發(fā)生于當(dāng)時(shí)會(huì)議的前一年。

賈里尼克在康奈爾十年磨一劍，潛心研究信息論，終于悟出了真諦。1972年，賈里尼克到IBM華生實(shí)驗(yàn)室做學(xué)術(shù)休假，無(wú)意中領(lǐng)導(dǎo)了語(yǔ)音識(shí)別實(shí)驗(yàn)室，兩年后他在康奈爾和IBM之間選擇了留在IBM。

20世紀(jì)70年代的IBM有點(diǎn)像90年代的微軟和過(guò)去十年（施密特時(shí)代）的Google，任由杰出科學(xué)家做自己感興趣的研究。在那種寬松的環(huán)境里，賈里尼克等人提出了統(tǒng)計(jì)語(yǔ)音識(shí)別的框架結(jié)構(gòu)。

在賈里尼克之前，科學(xué)家們把語(yǔ)音識(shí)別問(wèn)題當(dāng)作人工智能和模式匹配問(wèn)題，而賈里尼克將它當(dāng)作通信問(wèn)題，并用兩個(gè)隱含馬爾可夫模型（聲學(xué)模型和語(yǔ)言模型）把語(yǔ)音識(shí)別概括得清清楚楚。這個(gè)框架結(jié)構(gòu)至今仍對(duì)語(yǔ)音識(shí)別影響深遠(yuǎn)，它不僅從根本上使得語(yǔ)音識(shí)別有使用的可能，而且奠定了今天自然語(yǔ)言處理的基礎(chǔ)。賈里尼克后來(lái)也因此當(dāng)選美國(guó)工程院院士，并被Technology雜志評(píng)為20世紀(jì)100名發(fā)明家之一。

賈里尼克的前輩們?cè)趯⒔y(tǒng)計(jì)的方法應(yīng)用于語(yǔ)音識(shí)別時(shí)，遇到了兩個(gè)不可逾越的障礙：缺乏計(jì)算能力強(qiáng)大的計(jì)算機(jī)和大量可以用于統(tǒng)計(jì)的機(jī)讀文本語(yǔ)料，最后前輩們不得不選擇放棄。20世紀(jì)的IBM，雖然計(jì)算機(jī)的計(jì)算能力不能和今天相比，但已可以做不少事了，賈里尼克和他的同事需要解決的問(wèn)題就是如何找到大量的機(jī)讀語(yǔ)料。好在當(dāng)時(shí)有一項(xiàng)全球性的業(yè)務(wù)是通過(guò)電信網(wǎng)連接在一起的，那就是電傳，IBM的科學(xué)家最初就是通過(guò)電傳業(yè)務(wù)的文本開(kāi)始進(jìn)行研究的。

肺部充血、出血、水腫，氣管內(nèi)充滿血色泡沫狀液體。肝臟淤血。腎腫脹，充血、出血，皮質(zhì)部有針尖大小出血點(diǎn)。脾臟腫大呈暗紅色，質(zhì)地柔軟。胃黏膜紅腫，充血、出血。喉頭充血、出血，扁桃體高度腫大，充血、出血。

為什么當(dāng)初是沒(méi)有什么語(yǔ)音識(shí)別基礎(chǔ)的IBM，而不是在這個(gè)領(lǐng)域里有很長(zhǎng)研究時(shí)間的貝爾實(shí)驗(yàn)室或者卡內(nèi)基-梅隆大學(xué)提出統(tǒng)計(jì)語(yǔ)音識(shí)別的處理。很多歷史的偶然性背后都有著它必然的原因，因?yàn)镮BM有著這樣的計(jì)算能力，又有物質(zhì)條件，同時(shí)聚集了一大批世界上最聰明的頭腦。

基于統(tǒng)計(jì)的語(yǔ)音識(shí)別替代基于規(guī)則的前后方法交替經(jīng)歷了15年時(shí)間。之所以歷經(jīng)許久，是因?yàn)樾碌难芯糠椒ǔ墒煨枰芏嗄辍?/p>

剩下的難題依舊

語(yǔ)音識(shí)別的獨(dú)特性不僅僅是因?yàn)槠涑删停罕M管已有成果斐然，但剩下的難題和目前已克服的一樣令人生畏。

隨著語(yǔ)音識(shí)別研究思路的變化，大規(guī)模的語(yǔ)音識(shí)別研究始于20世紀(jì)70年代以后，并在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。20世紀(jì)80年代以后，語(yǔ)音識(shí)別研究的重點(diǎn)則逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。20世紀(jì)90年代以后，在語(yǔ)音識(shí)別的系統(tǒng)框架方面并沒(méi)有什么重大突破。

但在語(yǔ)音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。比如，DARPA是在20世紀(jì)70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的一項(xiàng)計(jì)劃，旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作。進(jìn)入90年代， DARPA計(jì)劃仍在持續(xù)進(jìn)行中，其研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分，識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。根據(jù)DARPA資助的多次語(yǔ)音評(píng)測(cè)，語(yǔ)音識(shí)別詞錯(cuò)誤率已經(jīng)是評(píng)估進(jìn)步的主要指標(biāo)。

我國(guó)的語(yǔ)音識(shí)別研究起始于1958年，由中國(guó)科學(xué)院聲學(xué)研究所利用電子管電路識(shí)別10個(gè)元音。由于當(dāng)時(shí)條件的限制，中國(guó)的語(yǔ)音識(shí)別研究工作一直處于緩慢發(fā)展階段。直至1973年，中國(guó)科學(xué)院聲學(xué)研究所開(kāi)始了計(jì)算機(jī)語(yǔ)音識(shí)別。

進(jìn)入80年代以來(lái)，隨著計(jì)算機(jī)應(yīng)用技術(shù)在我國(guó)逐漸普及和應(yīng)用以及數(shù)字信號(hào)技術(shù)的進(jìn)一步發(fā)展，國(guó)內(nèi)許多單位具備了研究語(yǔ)音技術(shù)的基本條件。與此同時(shí)，國(guó)際上語(yǔ)音識(shí)別技術(shù)在經(jīng)過(guò)多年的沉寂之后重又成為研究熱點(diǎn)。在這種形式下，國(guó)內(nèi)許多單位紛紛投入到這項(xiàng)研究工作中去。

1986年，語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要組成部分，被專(zhuān)門(mén)列為研究課題。在“863”計(jì)劃的支持下，中國(guó)開(kāi)始組織語(yǔ)音識(shí)別技術(shù)的研究，并決定了每隔兩年召開(kāi)一次語(yǔ)音識(shí)別的專(zhuān)題會(huì)議。

大數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)帶來(lái)的大爆發(fā)

語(yǔ)音識(shí)別是需要經(jīng)驗(yàn)、數(shù)據(jù)和用戶反饋共同作用來(lái)提升表現(xiàn)的。需要利用用戶的反饋總結(jié)出一些特點(diǎn)。比如說(shuō)用戶在說(shuō)話時(shí)會(huì)截?cái)啵@樣你就可以通過(guò)調(diào)整一些參數(shù)來(lái)提升表現(xiàn)。因?yàn)檎Z(yǔ)音識(shí)別不僅是數(shù)據(jù)多了，識(shí)別率提高了，還有更多的因素，比如說(shuō)用戶的感覺(jué)、一些關(guān)鍵的參數(shù)點(diǎn)、經(jīng)驗(yàn)等，這些都是可以學(xué)習(xí)到的?；ヂ?lián)網(wǎng)思維所帶來(lái)的就像軟件迭代一樣，通過(guò)反饋回來(lái)的信息進(jìn)行調(diào)整，這是最核心的。

在大數(shù)據(jù)時(shí)代到來(lái)后，隱馬爾可夫模型出現(xiàn)了局限，即數(shù)據(jù)量提升時(shí)，它帶來(lái)的表現(xiàn)提升沒(méi)有深度神經(jīng)網(wǎng)絡(luò)那么大，但其實(shí)都屬于統(tǒng)計(jì)模式識(shí)別。在語(yǔ)音識(shí)別發(fā)展的過(guò)程中，深度學(xué)習(xí)是同時(shí)發(fā)生的一件事，如果沒(méi)有深度神經(jīng)網(wǎng)絡(luò)，但是有大數(shù)據(jù)和漣漪效應(yīng)，隱馬爾可夫模型也可以做到實(shí)用。深度神經(jīng)網(wǎng)絡(luò)是讓其做得最好，降低了門(mén)檻，讓更多的人可以加入進(jìn)來(lái)。在同樣具有漣漪效應(yīng)的情況下，深度神經(jīng)網(wǎng)絡(luò)比之前的算法好，數(shù)據(jù)越多，深度神經(jīng)網(wǎng)絡(luò)的效果更好。還有更加重要的一點(diǎn)，深度神經(jīng)網(wǎng)絡(luò)只是整個(gè)統(tǒng)計(jì)機(jī)器模式識(shí)別理論框架中的一個(gè)環(huán)節(jié)而已，真正重要的環(huán)節(jié)是統(tǒng)計(jì)決策系統(tǒng)。

深度神經(jīng)網(wǎng)絡(luò)由Geoffrey Hinton與微軟的鄧力研究員最先開(kāi)始做，谷歌是最早在全球范圍內(nèi)大規(guī)模使用深度神經(jīng)網(wǎng)絡(luò)的公司，谷歌的Voice Search也在最早開(kāi)創(chuàng)了用互聯(lián)網(wǎng)思維做語(yǔ)音識(shí)別。在這方面，科大訊飛受到谷歌的啟發(fā)，迅速跟進(jìn)成為國(guó)內(nèi)第一個(gè)在商用系統(tǒng)里使用深度神經(jīng)網(wǎng)絡(luò)的公司。

語(yǔ)音識(shí)別技術(shù)已經(jīng)發(fā)展了幾十年的時(shí)間，因?yàn)榇髷?shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用，這一領(lǐng)域的傳統(tǒng)強(qiáng)者成了谷歌、亞馬遜、蘋(píng)果和微軟這些美國(guó)科技巨頭，但據(jù) TechCrunch 統(tǒng)計(jì)，美國(guó)至少有 26 家公司在開(kāi)發(fā)語(yǔ)音識(shí)別技術(shù)。

不過(guò)，盡管谷歌這些巨頭在語(yǔ)音識(shí)別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢(shì)讓后來(lái)者似乎難望其項(xiàng)背，但因?yàn)橐恍┱吆褪袌?chǎng)方面的原因，這些巨頭的語(yǔ)音識(shí)別主要偏向于英語(yǔ)，這給科大訊飛、百度、搜狗等在漢語(yǔ)領(lǐng)域?qū)崿F(xiàn)突出表現(xiàn)提供了機(jī)會(huì)。在國(guó)內(nèi)，這些本土化產(chǎn)品更為用戶所熟知。

從識(shí)別到感知認(rèn)知

在語(yǔ)音識(shí)別中，訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動(dòng)系統(tǒng)性能提升的最重要因素之一，但是語(yǔ)料的標(biāo)注和分析需要長(zhǎng)期的積累和沉淀，隨著大數(shù)據(jù)時(shí)代的來(lái)臨，大規(guī)模語(yǔ)料資源的積累將提到戰(zhàn)略高度?，F(xiàn)如今，語(yǔ)音識(shí)別在移動(dòng)終端上的應(yīng)用最為火熱，語(yǔ)音對(duì)話機(jī)器人、語(yǔ)音助手、互動(dòng)工具等層出不窮，許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財(cái)力展開(kāi)此方面的研究和應(yīng)用，目的是通過(guò)語(yǔ)音交互的新穎和便利模式迅速占領(lǐng)客戶群。

盡管視覺(jué)和語(yǔ)音識(shí)別在近些年來(lái)都取得了巨大的進(jìn)步，但這些研究者仍然提醒說(shuō)，還有很多的工作要做。

展望未來(lái)，研究者正在努力工作以確保語(yǔ)音識(shí)別能在更為真實(shí)生活的環(huán)境中良好地工作。這些環(huán)境包括具有很多背景噪聲的地方，比如聚會(huì)場(chǎng)所或在高速路上駕駛的時(shí)候。他們也將關(guān)注如何更好地在多人交談環(huán)境中將不同的說(shuō)話人區(qū)分開(kāi)，并且確保其能夠在各種各樣的聲音上發(fā)揮效用，而不管說(shuō)話人的年齡、口音或說(shuō)話能力。

從更長(zhǎng)遠(yuǎn)來(lái)看，研究者將會(huì)關(guān)注如何教計(jì)算機(jī)不只是轉(zhuǎn)錄來(lái)自人類(lèi)嘴巴的聲音信號(hào)，而且還要理解他們所說(shuō)的話。這樣就能讓這項(xiàng)技術(shù)可以根據(jù)自己被告知的內(nèi)容回答問(wèn)題或采取行動(dòng)。

下一個(gè)前沿是從識(shí)別走向理解，我們正在從一個(gè)人類(lèi)必須理解計(jì)算機(jī)的世界邁向一個(gè)計(jì)算機(jī)必須理解我們的世界。

但是，我們也應(yīng)該清醒的是，真正的人工智能仍然還在遙遠(yuǎn)的地平線上。在計(jì)算機(jī)能理解其所聽(tīng)到或看到的事物的真正含義之前，還需要很長(zhǎng)時(shí)間的工作，還有很長(zhǎng)的路要走。

姜姝姝本刊副主編

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

語(yǔ)音識(shí)別64年大突破

夢(mèng)想從貝爾實(shí)驗(yàn)室開(kāi)始

賈里尼克的貢獻(xiàn)

剩下的難題依舊

大數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)帶來(lái)的大爆發(fā)

從識(shí)別到感知認(rèn)知