語音識別開啟智能新時代

2011-11-14 12:53劉榮張娜

科技創(chuàng)新與品牌 2011年9期

文/劉榮張娜

語音識別開啟智能新時代

文/劉榮張娜

對著手機說出短信內(nèi)容，手機就能識別并譯成文字；向微波爐發(fā)出“加熱3分鐘”的指令，微波爐就能開始執(zhí)行任務(wù)；哼唱一段旋律就能查找到對應(yīng)的歌曲；輸入一個關(guān)鍵詞就能從一堆音頻資料里搜索出最匹配的內(nèi)容……這些人們曾經(jīng)幻想過，但只出現(xiàn)在科幻電影里的情景，隨著語音識別時代的到來，都將一一變?yōu)楝F(xiàn)實。

近日，本刊記者走訪了清華大學(xué)電子工程系副主任、博士生導(dǎo)師吳及副教授，他向我們詳細(xì)介紹了我國語音識別技術(shù)的發(fā)展和應(yīng)用方面的問題。

過山車似的發(fā)展

“與機器進行語音交流，讓機器明白你說什么，這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高新技術(shù)。它是一門交叉學(xué)科，涉及到信號處理、統(tǒng)計模式識別、人工智能、計算機科學(xué)、語言學(xué)和認(rèn)知科學(xué)等眾多學(xué)科?！眳羌敖忉屨f。近年來，我國語音識別技術(shù)發(fā)展突飛猛進，取得了許多顯著進步，并開始逐漸從實驗室走向市場。未來語音識別還將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)以及電子產(chǎn)品等各個領(lǐng)域，全面融入我們的生活。

目前，語音識別技術(shù)已經(jīng)取得巨大進展，一些語音識別技術(shù)開始得到廣泛應(yīng)用，具有語音識別功能的產(chǎn)品也不斷出現(xiàn)，這些都標(biāo)志著語音識別技術(shù)距離人類的日常生活越來越近。然而從20世紀(jì)50年代起步的語音識別技術(shù)研究并不是一帆風(fēng)順，用吳及的話來說，語音識別的發(fā)展，一直在峰谷之間徘徊。“起初人們意識到語音識別技術(shù)蘊含巨大的潛在價值，對它給予很高的期望。但真正開始研究之后，才發(fā)現(xiàn)難度非常大，于是很多人都放棄了；當(dāng)技術(shù)的進步讓人們看到了希望，相關(guān)研究又熱了起來，然而由于技術(shù)的發(fā)展仍然難以滿足實際應(yīng)用的需求，研究工作再次走入低谷。如此跌宕起伏好幾次，像坐過山車一樣?！奔幢闳绱?，學(xué)術(shù)界一直堅持研究，正是因為許多和吳及一樣的學(xué)者的矢志不渝，我國語音識別技術(shù)才在繼上世紀(jì)70年代和90年代之后，在最近幾年抓住了時代的機遇再次迎來了發(fā)展高峰。

吳及認(rèn)為，國家“863”計劃的長期支持、計算機性能的提高和基礎(chǔ)數(shù)據(jù)長期積累，推動了我國語音識別技術(shù)的快速發(fā)展。80年代中期以來，在國家“863”計劃的支持和國內(nèi)各科研機構(gòu)的艱苦努力下，語音識別經(jīng)歷了從特定人到非特定人、從小詞表到大詞匯量、從孤立字到連續(xù)語音的發(fā)展歷程。語音識別的對象也從實驗室環(huán)境下的朗讀數(shù)據(jù)發(fā)展到現(xiàn)在的復(fù)雜環(huán)境下的真實口語數(shù)據(jù)。目前我國語音識別技術(shù)的研究水平已基本與國外同步，而漢語語音識別技術(shù)更是體現(xiàn)了我們自身的特點和優(yōu)勢，達(dá)到國際先進水平。

快捷有效的語音搜索

語音識別系統(tǒng)除了應(yīng)用于人機交互(車載語音控制、人機對話系統(tǒng)等)之外，目前語音搜索和分析技術(shù)也得到很多關(guān)注。

“語音搜索有點類似Google、百度等搜索引擎，不一樣的是現(xiàn)有的搜索引擎只能搜索文本形式的關(guān)鍵字，并不能搜索音頻內(nèi)容，但語音搜索技術(shù)能直接對音頻內(nèi)容進行搜索?！眳羌罢f。對于音視頻文件，現(xiàn)有的搜索引擎，包括Google和百度，并不能直接對內(nèi)容進行搜索，只能依賴人工創(chuàng)建的文字信息，比如包括音、視頻網(wǎng)頁的環(huán)繞文字，或者相關(guān)的標(biāo)簽(作品名稱或者作者名字)進行搜索。但這些信息極為粗略，并不能反映音視頻文件中大部分內(nèi)容，也不能保證準(zhǔn)確性。

隨著多媒體時代的到來，音視頻資料越來越多，因此能夠面向多媒體數(shù)據(jù)，更為智能的基于內(nèi)容的搜索引擎技術(shù)顯得非常必要，其產(chǎn)業(yè)前景也有望超過當(dāng)前基于關(guān)鍵字的文本搜索技術(shù)。吳及表示，語音搜索技術(shù)是人機智能交互領(lǐng)域的重要方向，利用智能音頻檢索技術(shù)，用戶就可以根據(jù)音頻內(nèi)容對多媒體數(shù)據(jù)進行搜索和定位，大大提高了處理效率?！罢Z音搜索技術(shù)的出現(xiàn)使得我們管理和利用多媒體數(shù)據(jù)的能力得以提高，甚至它對國家的安全監(jiān)控也有幫助，因此備受政府關(guān)注?！?/p>

在語音搜索研究領(lǐng)域，吳及課題組承擔(dān)過國家“863”計劃課題“基于內(nèi)容的高性能語音搜索技術(shù)探索研究”。經(jīng)過幾年的努力，課題組研發(fā)了面向多媒體數(shù)據(jù)管理和利用的智能音頻檢索技術(shù)，實現(xiàn)了包括離線預(yù)處理和在線檢索的兩階段音頻檢索系統(tǒng)。同時，以智能語音搜索技術(shù)研究為基礎(chǔ)，課題組還開展了基于內(nèi)容的海量多媒體數(shù)據(jù)的數(shù)據(jù)處理方法的研究，涉及到機器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理、統(tǒng)計分析、并行計算等前沿課題。

語音搜索技術(shù)究竟有什么好處呢？吳及舉例說：“如果你想要在一年的新聞聯(lián)播中搜索某段音頻資料，一旦標(biāo)題中沒有你輸入的關(guān)鍵字，一般的搜索引擎就檢索不出來；但是語音搜索技術(shù)能夠?qū)⒄Z音轉(zhuǎn)化為文字，即使新聞標(biāo)題里不含你輸入的關(guān)鍵詞，只要播音員說到了這個關(guān)鍵詞，系統(tǒng)同樣也能找到你想要的音頻。同時，我們還可以進一步利用語音分析和理解技術(shù)提取新聞節(jié)目的摘要并建立重要事件的發(fā)展脈絡(luò)。語音搜索技術(shù)和語音分析技術(shù)使人們對音視頻數(shù)據(jù)的理解上升到了一個全新層面，在計算機超強計算能力的輔助下，人們能夠更加快速、有效地掌握和理解數(shù)據(jù)中包含的內(nèi)容，大大節(jié)省了查找時間，提高了用戶對音視頻數(shù)據(jù)的管理和利用能力?！?/p>

吳及在東京參加InterSpeech2010國際學(xué)術(shù)會議

創(chuàng)新助力新領(lǐng)域研究

一套擁有諸多優(yōu)點的語音識別系統(tǒng)具體包含哪些技術(shù)呢？吳及說：“首先是音頻預(yù)處理技術(shù)，初始的音頻數(shù)據(jù)中除了人說話的聲音外，可能會錄入其他干擾聲音，因此我們需要對音頻進行處理，將有用的聲音和噪聲區(qū)別開。這樣的預(yù)處理也叫做語音端點檢測或者場景分割，這對識別系統(tǒng)來說是很關(guān)鍵的一步；此外還有特征提取，建立語音模型并進行參數(shù)學(xué)習(xí)，以及在給定的網(wǎng)絡(luò)空間中進行高效率的搜索識別等。目前在這些基礎(chǔ)技術(shù)上，國內(nèi)與國外的發(fā)展水平基本持平?！?/p>

當(dāng)前語音識別技術(shù)面臨的一個重要難題是多語言混合識別。據(jù)吳及介紹，現(xiàn)在的實際漢語里有很多外來語，它們的發(fā)音習(xí)慣和漢語普通話不一樣，需要在識別系統(tǒng)中采取專門的策略，目前想要徹底解決這個問題還有很大難度。在實際生活中，語言中不斷產(chǎn)生新詞，比如“給力”、“雷人”等，如果語音識別模型里沒有收集到這些新詞，也會對識別產(chǎn)生一定影響。另外，復(fù)雜環(huán)境下的真實口語數(shù)據(jù)中會受到噪聲的干擾，會包含各種口語現(xiàn)象，這些對于識別性能的提高都是很大的挑戰(zhàn)。“這些存在的問題有些需要從技術(shù)上進行完善，而有些需要在知識積累上進行補充，比如新詞的問題，需要我們不斷更新詞典和語言模型，跟上語言的發(fā)展步伐?！?/p>

至于語音識別技術(shù)未來的發(fā)展方向，吳及表示基本不會脫離人機交互和海量數(shù)據(jù)處理的軌道。他說：“接下來我們會用語音識別、語音搜索和語音分析等智能語音技術(shù)構(gòu)建一些新的應(yīng)用，這是現(xiàn)在比較前沿的方向。這個過程需要解決許多以前從沒遇到過的問題，所以離不開自主創(chuàng)新。脫離創(chuàng)新，新領(lǐng)域的研究工作不可能順利進行，這是科學(xué)研究最基本的特點?！?/p>

吳及，清華大學(xué)電子工程系副主任、副教授、博士生導(dǎo)師；主要從事數(shù)據(jù)結(jié)構(gòu)與算法方面的教學(xué)工作，以及語音識別、信號處理、人機交互、模式識別和機器學(xué)習(xí)方面的研究工作；2001年～2003年負(fù)責(zé)“863“項目“智能化中文語音信息處理平臺”，2006年～2008年負(fù)責(zé)“863”項目“基于內(nèi)容的高性能語音搜索技術(shù)探索研究”；目前擔(dān)任清華——訊飛語音技術(shù)聯(lián)合實驗室主任、全國人機語音通信學(xué)術(shù)會議常設(shè)機構(gòu)委員；是多個國內(nèi)外學(xué)術(shù)期刊和會議的審稿人，在國內(nèi)外期刊、會議上發(fā)表論文50余篇。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

語音識別開啟智能新時代

過山車似的發(fā)展

快捷有效的語音搜索

創(chuàng)新助力新領(lǐng)域研究