国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談離線語(yǔ)音識(shí)別及其應(yīng)用

2021-12-02 09:12:03徐楷燚
電子元器件與信息技術(shù) 2021年9期
關(guān)鍵詞:離線聲學(xué)家具

徐楷燚

(南京郵電大學(xué),江蘇 南京 210017)

0 引言

當(dāng)前市場(chǎng)的數(shù)據(jù)顯示,傳統(tǒng)家具、家電的增速已經(jīng)放緩。用戶如今不僅僅要求產(chǎn)品有高顏值,富有個(gè)性,還需要家具、家電能融入當(dāng)前高科技[1]。離線語(yǔ)音識(shí)別毫無(wú)疑問(wèn)是當(dāng)前最契合智能家具、智能家電的功能。支持離線語(yǔ)音識(shí)別智能家具、智能家電使用起來(lái)也更加方便快捷,省去了諸如尋找遙控器的麻煩。而隨著語(yǔ)音識(shí)別技術(shù)的愈加成熟,市面上會(huì)出現(xiàn)越來(lái)越多的智能家具、智能家電。

1 語(yǔ)音識(shí)別概述

1.1 語(yǔ)音識(shí)別發(fā)展歷史及研究現(xiàn)狀

語(yǔ)音識(shí)別是一門交叉學(xué)科,所涉及的學(xué)科包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽(tīng)覺(jué)機(jī)理、人工智能等等。語(yǔ)音識(shí)別技術(shù)源于上個(gè)世紀(jì)50年代。1952年貝爾研究所研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文發(fā)音的識(shí)別系統(tǒng)[2]。此時(shí)的語(yǔ)音識(shí)別主要是基于模式匹配的非統(tǒng)計(jì)模型方法。此后,動(dòng)態(tài)時(shí)間規(guī)整算法,線性預(yù)測(cè)編碼算法,矢量量化及LBG聚類算法也被應(yīng)用到語(yǔ)音識(shí)別中。大規(guī)模的語(yǔ)音識(shí)別研究則是在上世紀(jì)70年代開(kāi)始的。此時(shí)的語(yǔ)音識(shí)別由于隱馬爾可夫模型的引入,開(kāi)始實(shí)現(xiàn)從非統(tǒng)計(jì)模型方法到統(tǒng)計(jì)模型方法的轉(zhuǎn)變。20世紀(jì)80年代人工神經(jīng)網(wǎng)絡(luò)也被用來(lái)搭建語(yǔ)音識(shí)別系統(tǒng)。研究的重點(diǎn)也逐漸轉(zhuǎn)向大詞匯量、非特定人連續(xù)語(yǔ)音識(shí)別。同時(shí)在研究思路上發(fā)生了重大變化,即由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM)的技術(shù)思路。而隨著硬件及其他技術(shù)的不斷提升,不同深度的神經(jīng)網(wǎng)絡(luò)模型也在語(yǔ)音識(shí)別中實(shí)現(xiàn)了應(yīng)用。2016年科大訊飛提出的全序列卷積神經(jīng)網(wǎng)絡(luò)大幅提升了訓(xùn)練速度和準(zhǔn)確性。

語(yǔ)言模型是語(yǔ)音識(shí)別框架中的另一個(gè)重要的組件。20世紀(jì)初期,淺層的前饋神經(jīng)網(wǎng)絡(luò)被用于語(yǔ)言模型的建模。但是前饋神經(jīng)網(wǎng)絡(luò)模型是基于當(dāng)前詞與前詞的關(guān)系的假設(shè),因此始終不能很好的處理任意長(zhǎng)度的信息。近年來(lái),深層伸進(jìn)模型也被用于語(yǔ)言模型的建立,使其效果進(jìn)一步提升。2017年提出的Transformer網(wǎng)絡(luò)結(jié)構(gòu)則利用注意力機(jī)制,不僅實(shí)現(xiàn)的上下文建模的效果,同時(shí)也大大降低了語(yǔ)言模型訓(xùn)練的難度,因此現(xiàn)在的很多基于深度學(xué)習(xí)的語(yǔ)音識(shí)別技術(shù)都應(yīng)用此結(jié)構(gòu)。

總的來(lái)說(shuō),隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展,硬件性能不斷提高,聲學(xué)、語(yǔ)言模型的建立越發(fā)簡(jiǎn)便,精確度和處理速度也不斷提高。

1.2 語(yǔ)音識(shí)別的基本過(guò)程及理論

搭建中文語(yǔ)音識(shí)別系統(tǒng),首先需要對(duì)語(yǔ)音進(jìn)行預(yù)加重,分頻,加窗等預(yù)操作,再建立聲學(xué)模型,接著通過(guò)訓(xùn)練文本語(yǔ)料建立語(yǔ)言模型,基于語(yǔ)料庫(kù)建立發(fā)聲詞典,最后將三者組成解碼器來(lái)輸出識(shí)別結(jié)果[3]。語(yǔ)音識(shí)別本質(zhì)上就是尋找與語(yǔ)音最相近的文字序列的過(guò)程,其工作狀態(tài)與搜索引擎類似。

1.2.1 語(yǔ)音預(yù)處理

人們?cè)谡f(shuō)話時(shí)語(yǔ)音信號(hào)會(huì)受到聲門氣流波和口唇輻射的影響不斷衰減,而且頻率越高衰減越快。因此需要對(duì)語(yǔ)音進(jìn)行預(yù)加重處理,實(shí)際情況中常常通過(guò)一階高通濾波器來(lái)實(shí)現(xiàn)。

同時(shí)還要對(duì)語(yǔ)音信號(hào)進(jìn)行分幀、加窗操作。分析信號(hào)頻譜是常用到的傅里葉變換適用于平穩(wěn)的信號(hào),而語(yǔ)音信號(hào)通常是快速變化的。但是語(yǔ)音信號(hào)還具有短時(shí)平穩(wěn)性,因此,在分析語(yǔ)音信號(hào)時(shí)要將信號(hào)劃分成幾十毫秒的小段,即分幀操作,每一小段就為一幀信號(hào)[4]。此時(shí)的語(yǔ)音信號(hào)既有符合要求的周期長(zhǎng)度,變化又不劇烈,較為適合傅里葉變換分析。

1.2.2 特征提取

在預(yù)處理結(jié)束之后,通常需要對(duì)信號(hào)進(jìn)行MFCC(Mel-scale FrequencyCepstral Coefficients梅爾倒譜系數(shù))特征提取,即在傅里葉變換后,利用多個(gè)Mel濾波器得到梅爾頻譜,再進(jìn)行倒譜分析得到每幀信號(hào)的特征。人耳對(duì)高低頻的語(yǔ)音信號(hào)的感知是不同的,而且人耳能夠接收到的信號(hào)使在一定范圍內(nèi)的,MFCC在一定程度上模仿人耳處理語(yǔ)音的過(guò)程和特點(diǎn)。

2 離線語(yǔ)音識(shí)別

離線語(yǔ)音識(shí)別是基于語(yǔ)言庫(kù)進(jìn)行的線下語(yǔ)音識(shí)別過(guò)程。常見(jiàn)的離線語(yǔ)音識(shí)別就是將有限指令燒錄在芯片中,使用者通過(guò)預(yù)設(shè)的語(yǔ)音命令來(lái)操控設(shè)備。相較于在線語(yǔ)音識(shí)別需要連接網(wǎng)絡(luò),離線語(yǔ)音識(shí)別對(duì)于使用者來(lái)說(shuō)會(huì)比較方便,安全,對(duì)于制造商來(lái)說(shuō),離線語(yǔ)音識(shí)別意味著不需要云端來(lái)儲(chǔ)存龐大的語(yǔ)音庫(kù),能夠節(jié)約一些成本,也使得產(chǎn)品的安全性有更高的保障。

2.1 離線語(yǔ)音識(shí)別應(yīng)用舉例

離線語(yǔ)音識(shí)別相比于在線語(yǔ)音識(shí)別缺少對(duì)話的能力,且長(zhǎng)語(yǔ)音的分析能力很差,而且基本只能基于預(yù)設(shè)的指令進(jìn)行工作,因此更適合于照明,風(fēng)扇,空調(diào)等一些不需要聯(lián)網(wǎng)的設(shè)備。下面對(duì)離線語(yǔ)音識(shí)別在照明設(shè)備的應(yīng)用進(jìn)行舉例說(shuō)明。(例中所使用的芯片為啟英泰倫公司生產(chǎn)的CI1122,及其對(duì)應(yīng)的開(kāi)發(fā)板)

(1)在啟英泰倫語(yǔ)音AI開(kāi)發(fā)平臺(tái)下載語(yǔ)言模型。將命令詞列表模板下載后,輸入相應(yīng)的喚醒詞,命令詞。再將此模板上傳至語(yǔ)音AI開(kāi)發(fā)平臺(tái)網(wǎng)站,網(wǎng)站會(huì)自動(dòng)生成聲學(xué)模型和語(yǔ)言模型。

(2)播報(bào)音合成。下載播音詞列表模板,對(duì)應(yīng)命令詞列表填寫此列表。再將其上傳,網(wǎng)站自動(dòng)生成語(yǔ)音合成文件,即為相對(duì)應(yīng)的播音語(yǔ)音。

(3)將下載的聲學(xué)模型文件放在SDK中,替換原來(lái)SDK中相對(duì)應(yīng)的文件。將下載的播音聲源復(fù)制到voice文件夾中替換原音源。將播報(bào)音與命令詞序號(hào)相對(duì)應(yīng)?!昂铣煞謪^(qū)bin文件”可以檢測(cè)語(yǔ)音模型文件是否都復(fù)制到SDK文件中。

(4)燒錄。將文件打包升級(jí),燒錄至開(kāi)發(fā)板中。利用CH340串口工具將開(kāi)發(fā)板連接電腦即給開(kāi)發(fā)板上電并開(kāi)始燒錄。燒錄完成后離線語(yǔ)音識(shí)別即可使用。說(shuō)出提前設(shè)置的命令詞,開(kāi)發(fā)版即會(huì)發(fā)出相應(yīng)的播音聲音。

(5)在Eclipse中打開(kāi)SDK對(duì)燈進(jìn)行初始化。在user_msg_deal中修改cmd_id為命令詞對(duì)應(yīng)的序號(hào),并修改相應(yīng)的功能。在這里需要將命令詞與相對(duì)應(yīng)的指令操作寫在一個(gè)邏輯段中。

(6)通過(guò)電路將開(kāi)發(fā)板連接至燈上即可在離線情況下進(jìn)行語(yǔ)音識(shí)別對(duì)燈進(jìn)行控制。

由于當(dāng)前離線語(yǔ)音芯片技術(shù)已經(jīng)十分成熟,因此只需要掌握一些電路知識(shí),即可設(shè)計(jì)制作簡(jiǎn)單的離線語(yǔ)音識(shí)別的智能家具。所需要的工具也只有相應(yīng)的開(kāi)發(fā)版,串口工具。離線語(yǔ)音識(shí)別除了可以應(yīng)用在燈控方面,按摩椅,風(fēng)扇,空調(diào)等家具都可以使用此技術(shù)。除此之外一些玩具也使用了離線語(yǔ)音技術(shù),比如復(fù)讀鴨等。這些家具,家電,玩具的設(shè)計(jì)難點(diǎn)都不在離線語(yǔ)音識(shí)別技術(shù)的實(shí)現(xiàn),而在于其本身電路的構(gòu)成。這些物品的離線語(yǔ)音識(shí)別都是基于已經(jīng)設(shè)計(jì)好的芯片。

2.2 離線語(yǔ)音識(shí)別的其他實(shí)現(xiàn)方式

2.2.1 基于Windows平臺(tái)的離線語(yǔ)音識(shí)別

首先需要設(shè)置相關(guān)的語(yǔ)言識(shí)別引擎。在指定了需要識(shí)別的國(guó)家,語(yǔ)言后,設(shè)置相關(guān)參數(shù),如麥克風(fēng)采樣率等。接著加載語(yǔ)音識(shí)別語(yǔ)法。由于使用者會(huì)使用不同的語(yǔ)法及其組合,因此需要建立相應(yīng)的語(yǔ)法樹(shù)與詞典,確保能夠識(shí)別含義相近的輸入信號(hào)。識(shí)別完成后即輸出結(jié)果,并卸載語(yǔ)法。

基于Windows平臺(tái)的離線語(yǔ)音識(shí)別允許相同命令詞的不同表達(dá)方式,相對(duì)靈活。但是其語(yǔ)法樹(shù)的建立十分繁瑣,需要考慮謂語(yǔ)與賓語(yǔ)的變化。

2.2.2 基于深度學(xué)習(xí)的離線語(yǔ)音識(shí)別

首先需要考慮的是建模單元大小。聲學(xué)建??梢苑譃椋阂羲?,韻母,音節(jié)和詞。建模單元小,模型更復(fù)雜,精度低。建模單元大,精度高,但是搜索會(huì)耗費(fèi)更長(zhǎng)時(shí)間,導(dǎo)致效率低??紤]到漢語(yǔ)中詞的復(fù)雜性和計(jì)算機(jī)性能,一般采用音節(jié)作為建模單元。

接著是聲學(xué)模型的搭建與訓(xùn)練。一般采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)搭建聲學(xué)模型。卷積神經(jīng)網(wǎng)絡(luò)中的卷積層和池化層的平移不變特性對(duì)于分析語(yǔ)譜圖有很大幫助。同時(shí)利用卷積網(wǎng)絡(luò)可以大大降低訓(xùn)練的時(shí)間。

最后是語(yǔ)言模型的搭建。一般采用統(tǒng)計(jì)語(yǔ)言模型,即通過(guò)每個(gè)詞在句子中出現(xiàn)的概率判斷句子是否合理,再與解碼器相結(jié)合來(lái)完成拼音到詞語(yǔ)句子的轉(zhuǎn)換。但是統(tǒng)計(jì)語(yǔ)言模型存在空間參數(shù)大,數(shù)據(jù)分散等問(wèn)題[5]。因此通常會(huì)借鑒序列到序列模型,結(jié)合自注意力機(jī)制模塊來(lái)搭建語(yǔ)言模型。

相比于傳統(tǒng)的聲學(xué)模型,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和相關(guān)算法的的聲學(xué)模型參數(shù)少,處理速度更快,準(zhǔn)確率也更高[6]?;谏疃葘W(xué)習(xí)的離線語(yǔ)音識(shí)別系統(tǒng)分析的準(zhǔn)確性特別是長(zhǎng)語(yǔ)音分析的準(zhǔn)確性較其他離線語(yǔ)音識(shí)別模式高出很多。

3 離線語(yǔ)音識(shí)別存在的問(wèn)題

離線語(yǔ)音識(shí)別不同于在線語(yǔ)音識(shí)別,前者通過(guò)離線語(yǔ)音庫(kù)進(jìn)行識(shí)別,后者通過(guò)云端進(jìn)行識(shí)別,也被稱為“語(yǔ)音云識(shí)別”,因此在線語(yǔ)音識(shí)別對(duì)長(zhǎng)語(yǔ)音的識(shí)別更加準(zhǔn)確。而傳統(tǒng)的離線語(yǔ)音識(shí)別基本只能識(shí)別短句,且準(zhǔn)確率較低[7]。每次添加新的命令詞也很麻煩。所以現(xiàn)階段的離線語(yǔ)音識(shí)別基本都應(yīng)用在一些簡(jiǎn)單的家具家電上。

基于深度學(xué)習(xí)或許能夠在一定程度上解決這個(gè)問(wèn)題。深度學(xué)習(xí)允許離線語(yǔ)音識(shí)別可以識(shí)別相近含義的詞語(yǔ),和較長(zhǎng)的語(yǔ)音。但是應(yīng)用的算法和模型仍然需要大量的時(shí)間來(lái)訓(xùn)練。而且受制于硬件處理速度,離線語(yǔ)音識(shí)別在處理速度,識(shí)別準(zhǔn)確性和長(zhǎng)語(yǔ)音的識(shí)別方面仍大幅落后在線語(yǔ)音識(shí)別。

離線語(yǔ)音識(shí)別還存在其他的問(wèn)題比如環(huán)境音對(duì)識(shí)別結(jié)果的影響。支持語(yǔ)音識(shí)別的家具,家電很難保證其使用時(shí)環(huán)境時(shí)安靜的,環(huán)境的噪聲和干擾目前很難通過(guò)優(yōu)化模型來(lái)消除,只能盡可能的優(yōu)化拾音設(shè)備。者同樣也是在線語(yǔ)音識(shí)別存在的一個(gè)很大的問(wèn)題。

4 總結(jié)

離線語(yǔ)音識(shí)別技術(shù)經(jīng)過(guò)多年的發(fā)展,已經(jīng)是較為成熟的技術(shù),有很多廠商生產(chǎn)離線語(yǔ)音識(shí)別的芯片,這大大降低了離線語(yǔ)音識(shí)別技術(shù)的使用門檻,促使離線語(yǔ)音技術(shù)與日常用品相結(jié)合。但是離線語(yǔ)音識(shí)別仍有很大發(fā)展空間。相比于在線語(yǔ)音識(shí)別技術(shù),雖然離線語(yǔ)音識(shí)別不需要網(wǎng)絡(luò),更方便,但是仍存在準(zhǔn)確率低等問(wèn)題。如果能夠提高硬件的處理能力,優(yōu)化算法憑借離線語(yǔ)音識(shí)別較為低廉的成本,離線語(yǔ)音識(shí)別技術(shù)一定會(huì)被應(yīng)用在更多的領(lǐng)域。

猜你喜歡
離線聲學(xué)家具
異步電機(jī)離線參數(shù)辨識(shí)方法
呼吸閥離線檢驗(yàn)工藝與評(píng)定探討
家具上的“神來(lái)之筆”
現(xiàn)代家具創(chuàng)新化研究
淺談ATC離線基礎(chǔ)數(shù)據(jù)的準(zhǔn)備
愛(ài)的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
向日常生活敬:2018danishdesign MAKERS家具展
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
萨嘎县| 潼南县| 抚松县| 怀远县| 嫩江县| 依兰县| 科技| 湟中县| 贵定县| 肇州县| 新乡市| 中江县| 马尔康县| 忻州市| 梓潼县| 叙永县| 沙坪坝区| 明溪县| 梧州市| 札达县| 道孚县| 鄂伦春自治旗| 滨州市| 青阳县| 珲春市| 鄂托克前旗| 沁源县| 三亚市| 突泉县| 庄浪县| 建水县| 铜山县| 连州市| 鄂温| 苍南县| 西畴县| 依兰县| 香格里拉县| 治多县| 临潭县| 林西县|