胡冬琴 王琳娜
摘 要:本設(shè)計采用高性能處理器,高速數(shù)據(jù)傳輸功能的802.11AC WiFi芯片以及語音處理DSP芯片為架構(gòu),利用智能麥克風(fēng)為輸入口,通過語音識別技術(shù)構(gòu)成整個技術(shù)平臺,收集到的語音數(shù)據(jù)會通過WiFi或者4G通訊模組被發(fā)送到云端服務(wù)器進(jìn)行處理,組成一套完整的智能家居語音控制系統(tǒng)。
關(guān)鍵詞:語音識別 智能家居 WiFi
中圖分類號:G64 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2018)12(c)-0040-02
1 智能家居的意義
在智能家居方面,總能聽到用戶對手機作為唯一入口的抱怨,客廳應(yīng)該是一個首先受益于語音識別的地方,因為傳統(tǒng)電視遙控器的眾多按鍵就讓電視的操作很不方便,新的互聯(lián)網(wǎng)電視更是讓很多人尤其是老年人不知道怎么使用,而語音識別使得你可以直接對電視說出你想看什么節(jié)目,想看什么電影則更是會方便很多。其次是燈、空調(diào)、窗簾等這種高頻次簡單操作類的家居設(shè)備,語音識別將給人帶來大大的方便。目前,從目前國內(nèi)外的研究情況來看,在智能家居應(yīng)用中,以智能音箱、智能開關(guān)等家居為載體的語音識別技術(shù)應(yīng)用越來越廣泛。利用亞馬遜的echo智能音箱、阿里巴巴的X1智能音箱等,都是行業(yè)的標(biāo)桿性產(chǎn)品。因此,我們有必要研究出相關(guān)的應(yīng)用方案,并在智能家居中推廣,利用語音識別技術(shù)去控制家里的冰箱、空調(diào)等設(shè)備。然后把這種研究成果轉(zhuǎn)化成課程改革項目并做成課程模塊進(jìn)行推廣,具有很好的現(xiàn)實意義。
本項目主要使用高性能處理器,高速數(shù)據(jù)傳輸功能的802.11AC WiFi芯片以及語音處理DSP芯片為架構(gòu),搭建整個系統(tǒng)平臺,利用智能麥克風(fēng)為輸入口,通過語音識別技術(shù)構(gòu)成整個技術(shù)平臺,收集到的語音數(shù)據(jù)會通過WiFi或者4G通訊模組被發(fā)送到云端服務(wù)器進(jìn)行處理,這樣就組成一套完整的智能家居語音控制系統(tǒng)。項目中涉及的語音處理DSP系統(tǒng),使用業(yè)內(nèi)最流行的Knowles公司的Audio DSP系統(tǒng),具有非常高的處理性能,是目前應(yīng)用最流行的語音處理芯片,非常適合應(yīng)用在智能家居語音控制系統(tǒng)中。本項目涉及的智能家居語音控制系統(tǒng)主要使用全志公司的充電芯片、高端ARM A處理器芯片,以及博通公司的802.11ac WiFi芯片,集成在一起組成一款高性能的智能化的語音控制設(shè)備。
2 系統(tǒng)硬件設(shè)計
系統(tǒng)硬件設(shè)計主要是語音控制終端,終端的主要作用為:帶有麥克風(fēng)陣列,可搜集各個方向的聲音,收集到的聲音被送到語音處理器進(jìn)行語音喚醒,并把有用的語音信息進(jìn)行語音識別,高性能處理器會根據(jù)識別的語音進(jìn)行下一步的控制動作,控制相應(yīng)的家居設(shè)備,一些設(shè)備信息和不能識別的語音信息將被傳到云端服務(wù)器。系統(tǒng)硬件主要包括ARM處理器、4G模塊、存儲器以及WiFi模塊,Audio處理器單元以及供電系統(tǒng)。
2.1 語音識別和麥克風(fēng)陣列原理
所謂麥克風(fēng)陣列就是放置在空間中不同位置的多個麥克風(fēng)。根據(jù)聲波傳播理論,利用多個麥克風(fēng)收集到的信號可以將某一方向傳來的聲音增強或抑制,利用這種方法,麥克風(fēng)陣列可以將噪聲環(huán)境中特定聲音信號有效增強。麥克風(fēng)陣列技術(shù)廣泛應(yīng)用于智能家居中,它負(fù)責(zé)對從聲源來的聲音進(jìn)行采集并進(jìn)行識別,系統(tǒng)根據(jù)識別的結(jié)果進(jìn)行動作的處理。麥克風(fēng)陣列和語音識別的原理如下:模擬語音信號經(jīng)語音處理器采樣,采樣的頻率設(shè)置為8kHz,則一秒鐘采樣8000次,一個采樣點按8bit的精度量化,那么一秒鐘就有8000×8bit=64×103bit≈8kByte(小于)。將采樣信號送入到RAM中;在系統(tǒng)RAM中,設(shè)置三段緩存區(qū),每段大小為8kB,也就是一段緩存區(qū)存滿的時間為1s,三段緩沖區(qū)循環(huán)利用,提高系統(tǒng)的實時性;當(dāng)一段緩存區(qū)數(shù)據(jù)填滿后,系統(tǒng)從緩沖區(qū)中取出數(shù)據(jù),并對數(shù)據(jù)進(jìn)行分析,首先對數(shù)字語音信號進(jìn)行加窗分幀,采用漢明窗,取每幀的長度為20ms,幀移為10ms,每幀包括160個采樣點,進(jìn)行端點檢測,若檢測到不是語音信號的起始點,則直接丟掉;若檢測到時是語音信號的起始點,則從該幀開始,對每幀數(shù)字信號提取特征參數(shù),并存放到特征參數(shù)模板庫中,也即一段內(nèi)存中,依此類推,當(dāng)檢測到數(shù)字語音信號的終點時,則停止進(jìn)行特征參數(shù)的提取和存放。循環(huán)進(jìn)行,這個循環(huán)的次數(shù)即訓(xùn)練要求的次數(shù)。
2.2 高性能ARM處理器
在本系統(tǒng)采用Rock Chip公司的高性能微處理RK3288,這是一款四核Cortex-A17,主頻為1.8GHz,被認(rèn)為是近幾年應(yīng)用最為廣泛的ARM處理器,支持MIPI、USB OTC、支持5路USB2.0 HOST等高性能數(shù)據(jù)傳輸和顯示接口,能夠滿足項目的研發(fā)需求。RK3288在整個系統(tǒng)如同人的大腦,它是整個系統(tǒng)的核心部分,它負(fù)責(zé)語音信號的收集并把這些語音信號進(jìn)行識別,它要把這些從麥克風(fēng)陣列采集到的數(shù)據(jù)進(jìn)行“翻譯”,并根據(jù)這些指令去控制相應(yīng)的控制設(shè)備。RK3288采用Linux操作系統(tǒng),可以運行802.11ac/b/g/n/c無線通訊協(xié)議,使系統(tǒng)沒有4G網(wǎng)絡(luò)時與WIFI路由器連接。
2.3 無線通訊4G模塊及Wi-Fi模組
采用SIMCOM公司的SIM7600CE模塊作為整個系統(tǒng)的蜂窩解決方案,負(fù)責(zé)把需要發(fā)送的數(shù)據(jù)發(fā)送到云端服務(wù)器,SIM7600CE模塊可支持GSM、WCDMA、TDD-LTE和FDD-LTE功能,具有很高的性價比。SIM7600CE提供一路SPI接口,兩路SDIO接口電路,很方便的與MCU進(jìn)行數(shù)據(jù)通信,也提供了一路USB2.0接口,以便于進(jìn)行程序調(diào)試。采用博通BCM4356方案,通過PCIe接口與處理器連接,信號從天線到2.4G&5.8G的雙頻天線,到Diplexer 來進(jìn)行天線頻率的選擇,進(jìn)入到芯片內(nèi)部進(jìn)行處理。系統(tǒng)采用DDR3L類型的RAM和三星存儲器KLM8G1GEND,這兩種器件具有性能穩(wěn)定,讀取速度快的特點,方便系統(tǒng)重啟時恢復(fù)。
3 系統(tǒng)軟件設(shè)計
系統(tǒng)軟件主要包括服務(wù)器軟件,以及語音控制終端軟件兩個部分組成,服務(wù)器端軟件主要存儲語音控制設(shè)備上傳得數(shù)據(jù),以及供用戶通過Web的方式登錄服務(wù)器并去查詢設(shè)備的一些信息。數(shù)據(jù)服務(wù)器可分為前端頁面導(dǎo)航部分和后端架構(gòu)模型部分,前端頁面導(dǎo)航部分負(fù)責(zé)展示系統(tǒng)的整體拓?fù)浣Y(jié)構(gòu),后端架構(gòu)中的Web Socket服務(wù),負(fù)責(zé)服務(wù)器與網(wǎng)關(guān)的實時通訊。
采集端的軟件設(shè)計過程是:首先,用戶通過特定的語音去喚醒語音控制終端,語音控制終端通過麥克風(fēng)陣列采集語音數(shù)據(jù),采集到的數(shù)據(jù)被送到RAM中進(jìn)行語音識別,由于Audio處理器內(nèi)部的RAM比較小,只能識別少數(shù)的語音指令,大部分的語音指令需要通過麥克風(fēng)陣列―――〉A(chǔ)udio 處理器―――〉高性能ARM處理器―――〉WiFI/4G模組,然后數(shù)據(jù)被發(fā)送到云端處理器進(jìn)行語音分析,分析完成后會翻譯成約定的通訊協(xié)議通過云端服務(wù)器―――〉高性能ARM處理器,再通過路由器發(fā)送給其它設(shè)備進(jìn)行相應(yīng)指令的操作。
4 總結(jié)
從這個系統(tǒng)的架構(gòu)來看,本系統(tǒng)的核心在于語音識別和云端部分的系統(tǒng)設(shè)計。本項目具有語音數(shù)據(jù)采集、識別、傳送、返回、執(zhí)行的全過程,這是一個典型的物聯(lián)網(wǎng)系統(tǒng)架構(gòu),這樣架構(gòu)的語音識別控制平臺,具有識別準(zhǔn)確、反映迅速,執(zhí)行快的特點,這樣的產(chǎn)品將會在智能家軍中會應(yīng)用越來越廣泛。本系統(tǒng)架構(gòu)簡單,開發(fā)快,成本低,產(chǎn)品化后肯定能夠快速的打開市場,為企業(yè)帶來價值。
參考文獻(xiàn)
[1] 俞棟. 語音識別實踐[m]. Kindle電子書,2016.
[2] 海登. 智能家居原理及應(yīng)用[m]. 武漢:華中科技大學(xué)出版社,2014.