機器如何學會聽懂人說話

2017-07-05 14:31:00卡地亞莫斯科維奇

海外星云 2017年5期

●卡地亞·莫斯科維奇

機器如何學會聽懂人說話

●卡地亞·莫斯科維奇

一個剛學會走路的小孩搖搖晃晃穿過起居室，來到墻角的一個光滑的黑色圓柱體前停下來。他尖聲說道：“Alexa，播放兒童音樂。”雖然發(fā)音含混不清，但是這個圓柱體明白了請求，房間里響起了音樂。

Alexa是亞馬遜的云端語音識別軟件，它是黑色圓柱體音箱Echo的大腦。Alexa的面世在全球造成了轟動，除了小孩以外，因為他們覺得這是理所當然的。小孩子會伴隨著Alexa成長。在人工智能的支持下，Alexa學會了回答越來越多的問題，有朝一日可能會進化到能與人自由交談的地步。

亞馬遜Echo把語音識別帶進人們的起居室

漫長的語音識別之路

但是，任何10歲以上的人都知道，從前不是這樣的。語音識別軟件發(fā)展到今天經歷了漫長的道路。雖然Echo比啤酒杯更瘦，但是第一批語音識別機器——20世紀中葉開發(fā)的那些——幾乎可以占滿一整個房間。

人類很久以前就試圖對機器講話——或者至少讓機器對我們說話?！罢Z音能夠讓我們與機器實現(xiàn)難以置信的簡單互動，它是最自然、最方便的交互方式，也是我們每天都在使用的東西，”亞馬遜設備事業(yè)部和亞馬遜Alexa歐洲區(qū)副總裁喬利特·凡德·穆勒恩說，“語音就是未來?！?/p>

1773年，俄國科學家、在哥本哈根生活的生理學教授克里斯蒂安·克拉特齊斯坦開始思考語音技術。他制造了一個特別的設備，把共鳴管和風琴管連接起來，發(fā)出類似于人類語言中元音的聲音。就在十多年后，維也納的沃爾夫岡·馮·肯佩倫制造了一臺類似的機械聲學語音機器。在19世紀初，英國發(fā)明家查爾斯·惠斯通用皮革共鳴器改進了馮·肯佩倫的系統(tǒng)。該系統(tǒng)可以通過手動調整或控制發(fā)出像語言一樣的聲音。

到1881年，亞歷山大·格拉漢姆·貝爾和他的兄弟查爾斯·薩姆納·天特一起制造了一個蠟涂層的旋轉圓柱體，一根唱針對傳入的聲音壓力作出反應，切出垂直的凹槽。這一發(fā)明為1907年獲得專利的第一臺留聲機鋪平了道路。他們是希望用機器來聽寫秘書念的筆記和書信，這樣就不再需要速記員。隨后，這些記錄可以用打字機打出來。這一發(fā)明很快在全球流行起來，在越來越多的辦公室里，秘書會帶著笨拙的耳機，聆聽錄音并完成轉錄。

但所有這些雛形都是被動式機器——直到1952年自動數字識別機“Audrey”的問世。它由貝爾實驗室制造，體型巨大，占滿了一個六英尺高的繼電器架子，耗電量很大，連接著大量纜線。它能夠識別語音的基本單位“音素”。

那時，計算機系統(tǒng)非常昂貴、笨重，存儲空間和運算速度有限。但是Audrey仍然能夠識別數字的發(fā)音110到911準確率高達90%，至少它的開發(fā)者戴維斯發(fā)音時是這樣。當面對其他幾位指定的說話者時，它的準確率為70%～80%，但如果是不熟悉的聲音，它的準確率就會大大降低。“這在當時是一個驚人的成就，但是那個系統(tǒng)需要一整個房間的電子設備，還需要專業(yè)的電路，才能識別單個數字，”貝爾實驗室信息分析部的查理·巴哈說。

由于Audrey只能識別指定說話者的聲音，它的用途就比較有限：比如它可以為收費電話的接線員提供語音撥號的功

能，但實際上沒有這個必要，因為在大多數情況下，通過手動按鈕撥號成本更低，且更簡便。Audrey仍然是雛形——它領先于普通的計算機。雖然它并沒有用在生產系統(tǒng)中，但是“它說明了語音識別是可以實現(xiàn)的，”巴哈爾說。

但是還有另一個目標?！拔蚁嘈臕udurey開發(fā)的最初目的是要減少帶寬，即電線上傳輸的數據量，”巴哈爾的同事、諾基亞貝爾實驗室的拉里·奧戈爾曼說。語音識別所需帶寬比原始聲波要小。但是隨著20世紀70和80年代電話機開關的數字化，電話線路分配變的更快、更便宜，同時仍需要接線員來理解撥號請求。于是，20世紀70年代和80年代，貝爾實驗室語音研究投入了大量精力研究以下內容：識別數字零到十以及“是”與“否”?！半娫捪到y(tǒng)在能夠識別這12個單詞后，就能夠單純依靠機器完成電話接線，”奧戈爾曼說。

Audrey并不是唯一。20世紀60年代，日本的幾個團隊也對語音識別進行研究，最著名的包括東京無線電研究實驗室的元音識別器、京都大學的音素識別器和NEC實驗室的數字語音識別器。

在1962年的世界博覽會上，IBM展示了它的“鞋盒”機器，它能夠理解16個口頭表達的英語單詞。美國、英國和蘇聯(lián)還有其他研究。蘇聯(lián)的研究人員發(fā)明了動態(tài)規(guī)整算法，并將其用來制造一個能夠駕馭200個單詞的識別器。但這些系統(tǒng)大都基于樣本匹配，也就是把單詞與存儲在機器里的語音進行匹配。

電話的發(fā)明者亞歷山大·格拉漢姆·貝爾在語音識別方面也完成了重要的工作

手機語言識別進入生活

最大的一次飛躍發(fā)生在1971年，當時美國國防部的研究機構Darpa出資開展一個為期五年的語音理解研究項目，目標是達到1000個單詞的詞匯量。很多公司和學術機構參與了該項目，包括IBM、卡內基梅隆大學和斯坦福研究所。于是，Harpy在卡內基梅隆大學誕生。

和它的前輩不同，Harpy能夠識別整句話?！拔覀儾幌氩樵~典——所以我想要制造一個能夠翻譯話語的機器。這樣，當你在講一種語言時，它會把你說的話轉換成文本，然后進行機器翻譯，所有任務都一次完成，”卡內基梅隆大學曾經在Harpy項目和該大學的Hearsay-II項目工作的計算機科學教授亞歷山大·韋貝爾說。

從單詞轉到詞組并不容易。“句子里的單詞會交匯起來，你會弄不清楚，不知道單詞從哪里開始，到哪里結束。于是，你會得到‘euthanasia'這樣的東西，而它可能是‘youthinAsia’?！表f貝爾說，“或者，當你說‘Givemeanewdisplay’時，它可能會被理解為'‘givemeanudistplay’。”

Harpy一共能識別1011個單詞，這大概是一個普通的三歲小孩的詞匯量。它的準確率也相當不錯，所以實現(xiàn)了Darpa最初的目標?！八闪爽F(xiàn)代語音識別系統(tǒng)真正的祖先，”卡內基梅隆大學語言技術所的所長杰米·卡博內爾說，“它是第一個成功利用語言模型判斷哪些單詞放在一起會產生意義的系統(tǒng)，因此它能夠降低語音識別的錯誤?！?/p>

在之后的一些年里，語音識別系統(tǒng)進一步發(fā)展。在20世紀80年代，IBM制造了語音激活的打字機Tangora，它能夠處理二萬個單詞的詞匯量。IBM的方法是基于隱馬爾可夫模型，把統(tǒng)計學納入數字信號處理技術。這一方法讓我們有可能預測哪些音素最有可能出現(xiàn)在某一給定音素的后面。

IBM的競爭對手DragonSystems提出了自己的方法。此時，技術取得了長足的進步，語音識別終于能夠應用到實際生活中——比如可以讓兒童訓練講話的玩偶。雖然取得了很多成就，但是當時的所有程序都采用了不連續(xù)聽寫，這意味著用戶必須在每個單詞后停頓一下。1990年，DragonSystems發(fā)布了第一款消費語音識別產品DragonDictate，9000美元的售價令人咂舌。然后，在1997年，DragonNaturallySpeaking問世——這是第一款連續(xù)語音識別產品。

“在那以前，語音識別產品局限在不連續(xù)的話語，這就意味著它們一次只能識別一個單詞，”NuanceCommunications公司高級副總裁、Dragon的總經理彼得·馬奧尼說，“Dragon是連續(xù)語音識別的先鋒，它首次實現(xiàn)了實用的語音識別，可用來創(chuàng)建文件?！盌ragonNaturallySpeaking每分鐘能夠識別100個單詞的話語——時至今日，它仍在使用。比如美國和英國的很多醫(yī)生用它來歸檔醫(yī)療記錄。

在過去的10年間，大致基于人腦工作模式的機器學習技術讓計算機能夠接受大量語音的訓練，從而成功識別不同人的不同口音。

然而，直至谷歌發(fā)布了用于蘋果手機的谷歌語音搜索應用“GoogleVoiceSearch”，技術才又繼續(xù)向前發(fā)展。谷歌的方法是使用云計算處理應用收到的數據。突然間，大眾可以獲得的語音識別擁有了大規(guī)模計算的能力。谷歌能夠運行大規(guī)模的數據分析，匹配用戶的單詞和數10億個搜索詞條中積累的大量人類語音的例子。2010年，谷歌為安卓手機的語音搜索添加了“個性化識別”。2011年中期，又把語音搜索加入Chrome瀏覽器。蘋果也很快推出了它自己的版本，名為Siri，而微軟的語音識別功能名為AICortana，名字來自流行的光環(huán)系列游戲中的一個人物。

電話的到來加速了語音識別技術的發(fā)展

自由交談成為可能

微軟的個人智能助理小娜是數十年實驗的成果

所以，下一步會發(fā)生什么？“在語音處理領域，最成熟的技術就是語音合成，”奧戈爾曼說，“機器語音和人類語音現(xiàn)在已經基本上無法區(qū)分。但是在很多情況下，自動語音識別與人耳相比仍有較大差距?！彪m然在一個幾乎沒有噪音的環(huán)境下，一個人只要講話清晰就能被自動識別，但是當發(fā)生所謂的“雞尾酒會效應”（人類能夠在嘈雜的聚會中聽到某一個人說的話）時，最新技術仍束手無策。就連Alexa也是這樣，如果房間里很吵鬧，你就必須靠近黑色圓柱體，清楚大聲的對它講話。

亞馬遜在語音識別方面的嘗試是受到了《星

際迷航》中計算機的啟發(fā)，凡德·穆勒恩說。亞馬遜的目標是制造一個完全可由語音控制的云端計算機——這樣你就可以自然的與它交談。當然，好萊塢的魔法仍然領先于今日的科技。但是，凡德·穆勒恩說：“我們正處于機器學習和人工智能的黃金時代。讓機器按照人類的方式做事仍然遙不可及，但是我們每天都在解決一些難以置信的復雜問題?！薄觯ㄕ杂鴱V播公司新聞網）（編輯/ 華生）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

機器如何學會聽懂人說話

漫長的語音識別之路

手機語言識別進入生活

自由交談成為可能