駱昌芹
如今,機(jī)器人已經(jīng)走進(jìn)人們的生活。隨著科技的迅猛發(fā)展,靠手動(dòng)操控的機(jī)器人已經(jīng)無法滿足時(shí)下人們快節(jié)奏的生活。有人設(shè)想,能否運(yùn)用語音來操控機(jī)器人?答案是肯定的。然而,智能機(jī)器人的語音識(shí)別系統(tǒng)也并非盡善盡美,大部分的機(jī)器人只能識(shí)別普通話,而且只能一一回應(yīng),回應(yīng)的速度也沒有人快。要是處在嘈雜的環(huán)境里與人溝通,智能機(jī)器人往往束手無策,就不知道怎么應(yīng)付了。
處于充滿噪音的環(huán)境里,我們?nèi)绾闻c機(jī)器人溝通呢?近日,在第四屆全球智能機(jī)器人語音識(shí)別大賽中,科大訊飛的Aivi機(jī)器人研究專家利用麥克風(fēng)進(jìn)行語音分離和英文識(shí)別取得成功,備受全球矚目。
我們都知道智能機(jī)器人必須進(jìn)行語音識(shí)別才能實(shí)現(xiàn)人與機(jī)器的溝通。早在20世紀(jì)50年代,研究人員就開始開發(fā)語音識(shí)別系統(tǒng),到20世紀(jì)70年代這項(xiàng)技術(shù)已經(jīng)取得了突破。智能機(jī)器人的聲音傳感器和語音識(shí)別軟件合成才能成為機(jī)器人的“耳朵”。當(dāng)人類發(fā)出語音時(shí),傳感器收到信號(hào),立即反饋給系統(tǒng),系統(tǒng)里的信息過濾器通過搜索信息儲(chǔ)存數(shù)據(jù)以便尋求幫助,把無關(guān)的信息過濾刪除,并將每一處細(xì)節(jié)逐一解決,最終提交答案。
語音識(shí)別,在我們生活中處處可聞,小到我們使用的手機(jī),大到遙控的電腦都有所體現(xiàn)。但你發(fā)現(xiàn)沒有,除非你的普通話特別標(biāo)準(zhǔn),否則顯示出來的字符別字很多。尤其是在有噪音的環(huán)境里,更是無法識(shí)別。倘若是多個(gè)人給同一個(gè)機(jī)器人發(fā)出語音提示,它就不知道到底聽誰的了。
要弄清這個(gè)問題,我們首先必須弄清語音識(shí)別的原理了。其實(shí),它就是一個(gè)從語言到文字的轉(zhuǎn)換過程。系統(tǒng)裝置中先進(jìn)行信息收集,然后進(jìn)行信號(hào)處理,再進(jìn)入模型識(shí)別,通過這一系列處理后進(jìn)入發(fā)聲機(jī)理。當(dāng)然,它的“說話”方式跟人類不一樣。機(jī)器人先將說的話分解成詞,再把詞分解成音素,反之,它對(duì)接收到的語音信息也是如此處理的。所以如果你的發(fā)音模糊,而機(jī)器人又未設(shè)置相關(guān)軟件時(shí)就無法識(shí)別,或周圍聲音環(huán)境干擾了它的識(shí)別時(shí),就會(huì)導(dǎo)致識(shí)別效果明顯變差。
Aivi團(tuán)隊(duì)在設(shè)置過濾器的時(shí)候,運(yùn)用多通道識(shí)別語音,即用多個(gè)麥克風(fēng)采集聲源,而系統(tǒng)則通過過濾器進(jìn)行篩選,去除雜音,由此提高識(shí)別的精確度。同時(shí),添加回聲消除和置信判斷功能,將噪音完全拒之門外,它可以識(shí)別遠(yuǎn)在5米處的語音,還可對(duì)幾個(gè)人的語音進(jìn)行同時(shí)識(shí)別。此外,它還有方言識(shí)別和糾錯(cuò)功能,當(dāng)對(duì)方普通話不標(biāo)準(zhǔn)或者帶有方言時(shí)都會(huì)進(jìn)行自動(dòng)糾錯(cuò)。
解決了機(jī)器人自動(dòng)清除噪音問題還不夠,對(duì)于信息瀏覽量非常大的機(jī)器人來說,如何刪掉那些無關(guān)緊要的信息呢?首先,它需要一個(gè)信息過濾器,而過濾器具有瀏覽、識(shí)別、刪除、存儲(chǔ)等一系列功能,完全可以通過識(shí)別信息,對(duì)信息自動(dòng)進(jìn)行解釋、交換以及處理,然后轉(zhuǎn)發(fā)給傳感器,傳感器獲得這樣“基本干凈”的數(shù)據(jù)后,雜音自然就容易被迅速消除掉,而把保留著的信息儲(chǔ)存下來。
Aivi機(jī)器人已經(jīng)達(dá)到了一定的水準(zhǔn),面對(duì)從搜索歌曲到詢問天氣變化以及生活方面的問題,它都會(huì)有條不紊地接招,比如搜索一名歌手與歌名是否相符,它會(huì)完全幫你糾錯(cuò),并且讓你重新搜索。
不同于普通機(jī)器人,智能機(jī)器人的硬件和軟件需要不斷更新。系統(tǒng)更新主要表現(xiàn)為識(shí)別平臺(tái)的研發(fā)。在硬件改造上, Aivi團(tuán)隊(duì)首先從以前的4+1陣列改換成如今的6+0陣列,讓聲源定位更穩(wěn)定,回聲消除更加清晰,尤其是在消除噪音方面做到了萬無一失,無論什么樣的環(huán)境里都能應(yīng)變自如。當(dāng)然對(duì)于超出5米距離的語音如何識(shí)別,還有待Aivi團(tuán)隊(duì)的繼續(xù)努力。
目前,用于智能生活的語音技術(shù)已經(jīng)運(yùn)用在手機(jī)中了。而智能機(jī)器人因造價(jià)昂貴,暫時(shí)還沒有完全走進(jìn)家家戶戶,但已在許多領(lǐng)域開始服役了。
隨著技術(shù)的發(fā)展,智能語音技術(shù)的優(yōu)化速度在不斷加快,智能機(jī)器人將給人類帶來諸多便利,比如可以廣泛運(yùn)用在道路交通管理、偵破案件上。隨著社會(huì)的發(fā)展,智能機(jī)器人也將逐步走進(jìn)我們的生活。到時(shí)候,你在家里不僅可以操控所有電器,甚至當(dāng)你無聊的時(shí)候,機(jī)器人還會(huì)陪你聊聊天。
2013年以來,我國的機(jī)器人市場(chǎng)已經(jīng)進(jìn)入高速發(fā)展期,成為全球最大的智能機(jī)器人消費(fèi)市場(chǎng),僅我國自行研制的機(jī)器人就有30多萬個(gè)。語音識(shí)別系統(tǒng)的前景將更加廣闊。