梁海珍
(廣州市高級(jí)技工學(xué)校 廣東省廣州市 510800)
眾所周知,最近這幾年剛剛發(fā)展起來(lái)的人機(jī)溝通、指紋識(shí)別、人臉識(shí)別等技術(shù),很大程度上促進(jìn)了機(jī)器對(duì)人類的行為方式以及人類語(yǔ)言的理解。而人機(jī)交互技術(shù)給人們帶來(lái)的生活方式的改變、生活質(zhì)量的提升,使計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)逐漸被越來(lái)越多的人所接納。自從人們發(fā)明鍵盤、鼠標(biāo)以后,各種高科技技術(shù)例如:小愛同學(xué)、Siri、人臉識(shí)別、指紋識(shí)別技術(shù)等應(yīng)運(yùn)而生,使得人機(jī)交互的形式發(fā)生了極大的變化,真正使得計(jì)算機(jī)科學(xué)和互聯(lián)網(wǎng)技術(shù)進(jìn)入千家萬(wàn)戶、讓我們的生活變得更加多姿多彩。
生活中我們常見的人機(jī)交互產(chǎn)品可以在感受、思維和反應(yīng)等方面全方位無(wú)死角的模擬人類的身體語(yǔ)言,盡管他還達(dá)不到人類的那種精確的水平,可是它能夠完全行自我控制,因此從某種程度上來(lái)說(shuō)它可以被稱為真正意義上的機(jī)器人,它的控制系統(tǒng)的中樞就是中央處理器,以及各種類型的傳感器,其中語(yǔ)音識(shí)別技術(shù)在整個(gè)技術(shù)鏈條中占據(jù)了重要地位。在當(dāng)今社會(huì)的發(fā)展背景下,機(jī)器人在我們的生產(chǎn)生活中應(yīng)用已經(jīng)非常廣泛了,無(wú)論是在農(nóng)業(yè)、工業(yè)、手工業(yè)、醫(yī)學(xué)等各個(gè)領(lǐng)域都應(yīng)用廣泛,并在此基礎(chǔ)上形成了獨(dú)立的專業(yè)學(xué)科。目前機(jī)器人行業(yè)已經(jīng)成為了現(xiàn)代高科技發(fā)展的一個(gè)熱門行業(yè),它的發(fā)展水平很大程度代表了一個(gè)國(guó)家的工業(yè)競(jìng)爭(zhēng)力的大小,逐步與我們的生活接軌,進(jìn)入千家萬(wàn)戶。
在智能機(jī)器人之后,逐步映入大眾眼簾并且進(jìn)入千家萬(wàn)戶的智能交互產(chǎn)品就是智能音箱了,同那些傳統(tǒng)的播放音箱相比,智能音箱的功能令人眼花繚亂,這些功能之所以能夠?qū)崿F(xiàn),其中首要的原因就是互聯(lián)網(wǎng)技術(shù)的發(fā)展,以及后續(xù)各種人工智能技術(shù)的快速發(fā)展,智能音箱與智能機(jī)器人也有很多相似之處,其中最主要的就是它們都應(yīng)用到了人機(jī)交互中的語(yǔ)音識(shí)別技術(shù),所以當(dāng)我們對(duì)它發(fā)出指令時(shí),他會(huì)很好理解我們的指令并且很好執(zhí)行,智能音箱之所以成為智能音箱,是因?yàn)楫?dāng)我們對(duì)它發(fā)出指令它會(huì)理解指令并輸送給控制中心,控制中心控制它進(jìn)行以下幾種行為:
(1)在線音樂播放功能:這是音箱的核心功能。例如:線上播放音樂,線上收聽新聞聯(lián)播與知曉股票最近狀況等。
(2)語(yǔ)音溝通功能:例如:線上會(huì)談、智能手機(jī)短信的發(fā)送與接收、學(xué)前教育、陪伴老人等。
(3)管理個(gè)人生活的功能:例如:設(shè)鬧鈴、查找有用信息等。
(4)智能控制各種家電的功能:即通過智能音箱來(lái)控制各種家居用品。
(5)其它線上服務(wù)功能:利用智能音箱結(jié)合各種手機(jī)應(yīng)用程序進(jìn)行更多語(yǔ)音服務(wù),例如:語(yǔ)音購(gòu)物功能,手機(jī)充話費(fèi)功能,甚至可以語(yǔ)音叫外賣、滴滴打車等。
大規(guī)模的智能產(chǎn)品的生產(chǎn)有助于科研成果向市場(chǎng)轉(zhuǎn)化,帶動(dòng)經(jīng)濟(jì)發(fā)展和推動(dòng)提升人民生活水平。盡管我國(guó)目前的人工智能識(shí)別在技術(shù)方面已經(jīng)比較成熟,但是其產(chǎn)品的成本普遍較高,而且產(chǎn)品自身的功能價(jià)值與價(jià)格、成本不相匹配,如此一來(lái)就限制了人工智能識(shí)別技術(shù)的應(yīng)用。比如以智能家電為例,現(xiàn)在不少智能家電都運(yùn)用了語(yǔ)音識(shí)別系統(tǒng),方便用戶通過語(yǔ)音指令對(duì)家電進(jìn)行控制,可是價(jià)格和傳統(tǒng)家電相比普遍偏高,導(dǎo)致其難以成為家電市場(chǎng)的主流消費(fèi),尤其是在這個(gè)智能手機(jī)占據(jù)主流市場(chǎng)的時(shí)代,各種智能家電市場(chǎng)的蕭條也就可以理解。
目前人工智能識(shí)別技術(shù)的可靠性有待提高。盡管目前一些產(chǎn)品造型獨(dú)特、功能創(chuàng)新,但是在具體使用過程中的體驗(yàn)感和實(shí)用性卻不好,難以滿足用戶的真正需求,以人臉識(shí)別系統(tǒng)為例,即便這項(xiàng)技術(shù)在當(dāng)今時(shí)代的應(yīng)用已經(jīng)相當(dāng)廣泛,但是對(duì)人臉位置、光線等條件的要求依然比較高,而且識(shí)別過程往往比較麻煩,甚至常常出現(xiàn)無(wú)法識(shí)別的情況,一些功能強(qiáng)大的人臉識(shí)別系統(tǒng),體積比較大,價(jià)格比較高,也難以實(shí)現(xiàn)普及,限制了人工智能識(shí)別技術(shù)的進(jìn)一步發(fā)展。
(1)語(yǔ)音識(shí)別在環(huán)境比較嘈雜的情況下,識(shí)別效率很低,語(yǔ)音助手很難分辨和翻譯出來(lái)相應(yīng)的語(yǔ)音;
(2)在公共場(chǎng)所進(jìn)行語(yǔ)音識(shí)別的時(shí)候,涉及到的個(gè)人隱私問題很可能會(huì)暴露;
(3)語(yǔ)音指示的識(shí)別程度受很多方面因素的影響,在識(shí)別水平和正確率上不如直接打字或觸控操作快捷;
(4)語(yǔ)音識(shí)別的局限性主要在語(yǔ)音來(lái)源的廣泛性,據(jù)不完全統(tǒng)計(jì),全世界總共有1000 多種語(yǔ)言,而經(jīng)常使用的語(yǔ)言就有數(shù)十種之多,語(yǔ)言識(shí)別技術(shù)對(duì)各種語(yǔ)言的適應(yīng)是需要長(zhǎng)期發(fā)展的。類似于中文中的四川方言、廣東方言、上海方言,這幾種方言的使用頻率特別高,這些當(dāng)?shù)氐恼Z(yǔ)言在語(yǔ)言發(fā)音如詞匯和字符的發(fā)音上都與以往所接觸的語(yǔ)言有所不同,讓語(yǔ)音識(shí)別系統(tǒng)盡快適應(yīng)各種地方的語(yǔ)言是迫在眉睫的問題。
(5)連續(xù)說(shuō)話識(shí)別、停頓識(shí)別。生活中,由于一些人養(yǎng)成了某些習(xí)慣,導(dǎo)致會(huì)反復(fù)說(shuō)出某個(gè)詞匯。面對(duì)這些問題,就要加強(qiáng)端點(diǎn)檢測(cè)技術(shù)中端點(diǎn)選取準(zhǔn)確度,摒棄語(yǔ)音中的空隙,讓這些磕磕絆絆的話變成一段連續(xù)的話。我們?cè)谔幚磉@些語(yǔ)音信號(hào)時(shí),可以對(duì)一些反反復(fù)復(fù)出現(xiàn)的語(yǔ)言進(jìn)行恰當(dāng)?shù)膭h減,提升語(yǔ)音識(shí)別的速度。
最近這幾年,幾乎家家戶戶都有一個(gè)智能音箱,這使得國(guó)內(nèi)和國(guó)外掀起了一股智能音箱的使用潮流。與普通的傳統(tǒng)音箱相比,智能音箱的功能比較全面,不但可以播放音樂、連接藍(lán)牙,還可以與我們進(jìn)行語(yǔ)音交流、播放視頻等等。2015年京東推出國(guó)內(nèi)第一款智能音箱“叮咚”,這是我國(guó)最早也是應(yīng)用最廣泛的智能音箱,從那以后,智能音箱產(chǎn)品如同雨后春筍般發(fā)展起來(lái)。據(jù)不完全統(tǒng)計(jì),在2017年12月底,全國(guó)從事智能音箱生產(chǎn)的廠家就有上千家,僅僅在深圳這一個(gè)城市中,就有112 家智能音箱的供應(yīng)商。2017年,阿里巴巴的達(dá)摩院推出了第一款智能音箱產(chǎn)品-天貓精靈,他通過在自己的電商頻道進(jìn)行銷售和展示,在雙11 當(dāng)天就賣出了100 萬(wàn)臺(tái)左右。從那以后,智能音箱的銷售市場(chǎng)幾乎都被阿里巴巴的天貓精靈所壟斷,而小米公司同樣不甘落后,迅速推出“小愛同學(xué)”,并且不斷對(duì)小愛同學(xué)進(jìn)行升級(jí)改造和更新?lián)Q代,所以國(guó)內(nèi)智能音箱市場(chǎng)的三足鼎立局面初步形成。
人發(fā)出指令—音箱對(duì)聲音處理識(shí)別—傳輸服務(wù)器作出相應(yīng)回應(yīng)—傳回到其功能載體—得出結(jié)果—產(chǎn)品開始運(yùn)行。語(yǔ)音交互技術(shù)在當(dāng)今時(shí)代潮流的大背景下發(fā)展,智能音箱的誕生給人們的生活帶來(lái)了極大的便利,使得人與冰冷的機(jī)器建立了聯(lián)系,更加重要的一點(diǎn)就是智能音箱產(chǎn)品的各種功能也將物體和物體之間也聯(lián)系了起來(lái)。智能二字主要體現(xiàn)在兩個(gè)方面,第一個(gè)方面就是可以連接無(wú)線網(wǎng),然后與人類進(jìn)行語(yǔ)音交互、溝通;第二個(gè)方面就是可以隨心所欲的播放音樂、互聯(lián)網(wǎng)技術(shù)的應(yīng)用以及我們?nèi)粘I钪械目刂颇芰?,?duì)我們的家居方式進(jìn)行語(yǔ)音控制,智能音箱的靈魂就是人機(jī)語(yǔ)音交互技術(shù),這也是其中最關(guān)鍵的一項(xiàng)技術(shù),所以說(shuō)各種智能產(chǎn)品基本上都可以利用語(yǔ)音作為媒介來(lái)控制其產(chǎn)品。
當(dāng)我們說(shuō)了一段話之后,智能音箱首先要收到這種信號(hào)。其中,麥克風(fēng)列陣技術(shù)就應(yīng)運(yùn)而生了,我們常見的音箱中大概有7 到8 個(gè)麥克風(fēng),這就使得智能音箱可以從任意方向接收語(yǔ)音信息中的語(yǔ)音信號(hào),以及來(lái)消除各種噪音所帶來(lái)的影響。在這之后就需要對(duì)我們所收到的語(yǔ)音信號(hào)進(jìn)行處理,使得機(jī)器可以理解接收的信號(hào),這里就用到了自然語(yǔ)言處理技術(shù)和語(yǔ)音識(shí)別技術(shù)。然后智能音箱需要對(duì)所接受和處理的結(jié)果再一次進(jìn)行合成語(yǔ)音信號(hào),語(yǔ)音合成技術(shù)也就應(yīng)運(yùn)而生了。在這三項(xiàng)關(guān)鍵技術(shù)當(dāng)中,最關(guān)鍵的就是語(yǔ)音識(shí)別技術(shù),這里所運(yùn)用到的語(yǔ)音識(shí)別技術(shù)特別復(fù)雜,綜合了多門學(xué)科,如果我們想要搞懂語(yǔ)音識(shí)別技術(shù)的話,就需要認(rèn)真理解語(yǔ)音識(shí)別技術(shù)的各個(gè)步驟,這里主要從三個(gè)步驟來(lái)介紹。
4.3.1 預(yù)處理技術(shù)
當(dāng)說(shuō)話人發(fā)出語(yǔ)音信息時(shí),周圍環(huán)境中的雜音影響會(huì)非常大。因此,第一步任務(wù)就是需要把這些干擾音頻去掉,據(jù)我所知語(yǔ)音信號(hào)的頻率會(huì)在某個(gè)范圍內(nèi)波動(dòng),這樣的話我們可以采用抗混疊濾波的方法使語(yǔ)音信號(hào)頻域分析上的靜音區(qū)段和雜音區(qū)段與攜帶有效信息的語(yǔ)音信號(hào)區(qū)段進(jìn)行區(qū)別,模擬信號(hào)與此同時(shí)可以向數(shù)字信號(hào)進(jìn)行轉(zhuǎn)變。另外,因?yàn)橐欢握Z(yǔ)音信號(hào)中的有用信號(hào)的功率很小,無(wú)用信號(hào)的功率很大,因此無(wú)用信號(hào)占了輸入的很大比例。因此,我們需要對(duì)目標(biāo)語(yǔ)音信號(hào)來(lái)進(jìn)行預(yù)加重處理,目的是提高目標(biāo)信號(hào)的能量值,根本上就是提高振幅方便與雜音區(qū)分開來(lái)。端點(diǎn)檢測(cè)是其中的重要步驟,當(dāng)我們發(fā)出一段語(yǔ)音信息時(shí),其中必不可少會(huì)摻雜一些噪音,而真正有用的語(yǔ)音信號(hào)卻只存在一小段區(qū)間當(dāng)中。進(jìn)行端點(diǎn)檢測(cè)的目的就是為了確定語(yǔ)音信號(hào)的最初位置,避免其他干擾信號(hào)的混合進(jìn)來(lái),短時(shí)平均幅度與短時(shí)平均過零率是兩種端點(diǎn)檢測(cè)的常用算法。
4.3.2 特征提取技術(shù)
當(dāng)我們拿到一段語(yǔ)音信號(hào)之后進(jìn)行的下一個(gè)步驟就是特征提取,這項(xiàng)技術(shù)的靈魂是把所接收到的語(yǔ)音信號(hào)分成多個(gè)區(qū)段,然后把具有實(shí)際意義的特征參數(shù)提取出來(lái),之后再進(jìn)行統(tǒng)計(jì)。那么提取出來(lái)的這段有用的信號(hào)就可以代表你所發(fā)出的那段語(yǔ)音信息的信息量之和。因?yàn)樯崛チ瞬槐匾膮^(qū)段,所以說(shuō)特征提取技術(shù)往往也會(huì)被很多人稱為數(shù)據(jù)壓縮,這也簡(jiǎn)化了之后的計(jì)算量,特征提取的基礎(chǔ)是隱馬可夫模型,在隱馬而可夫模型中,含有不可見的未知參數(shù),特征提取技術(shù)中,這些未知參數(shù)就是指語(yǔ)音信號(hào)中所含有的語(yǔ)義信息,所以說(shuō)特征提取技術(shù)是語(yǔ)音識(shí)別技術(shù)中的重要環(huán)節(jié)。
4.3.3 訓(xùn)練及識(shí)別技術(shù)
目前我們所接觸到的智能音箱產(chǎn)品中,語(yǔ)音識(shí)別的精確度還是比較高的,這是建立在大量訓(xùn)練的條件下完成的。在實(shí)驗(yàn)室階段,語(yǔ)音識(shí)別網(wǎng)絡(luò)會(huì)經(jīng)歷大量的訓(xùn)練,這種訓(xùn)練就類似于對(duì)計(jì)算機(jī)的訓(xùn)練,只有反反復(fù)復(fù)不斷進(jìn)行訓(xùn)練,然后再進(jìn)行數(shù)據(jù)統(tǒng)計(jì),才會(huì)得到正確的結(jié)果,這樣做可以使計(jì)算機(jī)不需要真正深入理解自然語(yǔ)言也可以實(shí)現(xiàn)人與機(jī)器之間的交流互動(dòng)。深度學(xué)習(xí)是這種訓(xùn)練中必不可少的部分,它是人工智能的發(fā)展的重中之重,深度學(xué)習(xí)的特點(diǎn)就是,運(yùn)算次數(shù)多,處理信息的次數(shù)多,在深度學(xué)習(xí)當(dāng)中,任意一層所得到的結(jié)果將會(huì)作為下一層的輸入來(lái)使用,這樣循環(huán)下去就達(dá)到了深度的效果。但是在實(shí)際應(yīng)用當(dāng)中,深度學(xué)習(xí)的層數(shù)還要加以控制,如果層數(shù)太少的話那么深度學(xué)習(xí)的效果就會(huì)變差。層數(shù)過多也會(huì)導(dǎo)致計(jì)算繁瑣,效率低下。深度學(xué)習(xí)在語(yǔ)音識(shí)別網(wǎng)絡(luò)中,主要是學(xué)習(xí)語(yǔ)音信號(hào)的特征,之后再與互聯(lián)網(wǎng)中的數(shù)據(jù)進(jìn)行比對(duì),最后再得出計(jì)算結(jié)果。
通過以上分析我們可以清晰的了解到,人工智能語(yǔ)音識(shí)別技術(shù)作為一種剛剛崛起不久的高科技技術(shù),雖然它出現(xiàn)的時(shí)間不太長(zhǎng),但是在20 世紀(jì)50年代左右關(guān)于計(jì)算機(jī)理解人類思維和意識(shí)的想法就已經(jīng)被提出了,但是因?yàn)楫?dāng)時(shí)技術(shù)水平的發(fā)展相對(duì)落后,導(dǎo)致其研究并不順利。一直到20 世紀(jì)中后期,計(jì)算機(jī)中各種應(yīng)用技術(shù)才趨于成熟,人工智能識(shí)別技術(shù)的研究才取得了較大進(jìn)步,并逐漸滲透于人們的生活與工作。為了更好的滿足現(xiàn)代社會(huì)實(shí)際生產(chǎn)與工作的需要,最初是在語(yǔ)音識(shí)別領(lǐng)域運(yùn)用人工智能識(shí)別技術(shù),主要是借助智能化的語(yǔ)音識(shí)別來(lái)方便人們的工作與生活,比如智能手機(jī)中的語(yǔ)音助手。在智能識(shí)別技術(shù)后續(xù)的發(fā)展中,其應(yīng)用的范圍和領(lǐng)域不斷擴(kuò)大,比如在指紋識(shí)別、聲音識(shí)別、人臉識(shí)別以及條形碼識(shí)別、智能卡識(shí)別等方面,其發(fā)展日趨成熟,給人們的生活帶來(lái)了更多的便利。