国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能服務(wù)機(jī)器人語音交互的設(shè)計(jì)與實(shí)現(xiàn)

2020-05-18 02:44:46楊國慶黃銳李健呂俊濤杜修明
科技視界 2020年9期
關(guān)鍵詞:識(shí)別率指令語法

楊國慶 黃銳 李健 呂俊濤 杜修明

摘 要

隨著科技的不斷發(fā)展,在營業(yè)場(chǎng)所中智能服務(wù)機(jī)器人漸漸走進(jìn)我們的生活。同時(shí)智能服務(wù)機(jī)器人的出現(xiàn)給我們的生活也帶來了諸多便利。本文分析了智能服務(wù)機(jī)器人語音交互控制的應(yīng)用需求,基于微軟語音應(yīng)用程序接口設(shè)計(jì)開發(fā)了一套人機(jī)語音交互控制系統(tǒng)。詳細(xì)闡述了系統(tǒng)的設(shè)計(jì)思想及關(guān)鍵步驟,重點(diǎn)包括語音識(shí)別、語音合成、語法規(guī)則創(chuàng)建為維護(hù)等方面的內(nèi)容,并就如何進(jìn)一步提高識(shí)別率進(jìn)行了研究。

關(guān)鍵詞

智能服務(wù)機(jī)器人;人機(jī)交互;語音識(shí)別;語音應(yīng)用程序接口

中圖分類號(hào): TP242 ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A

DOI:10.19694/j.cnki.issn2095-2457.2020.09.052

0 引言

使用機(jī)器人進(jìn)行服務(wù),不但會(huì)讓營業(yè)場(chǎng)所添色,更能夠體現(xiàn)現(xiàn)代化、科技感。目前,智能服務(wù)機(jī)器人可以實(shí)現(xiàn)集自主引導(dǎo)、互動(dòng)交流等功能為一體的一系列“類人”活動(dòng),智能服務(wù)機(jī)器人的出現(xiàn),不僅節(jié)省了人力和時(shí)間成本,還展現(xiàn)了當(dāng)下智能時(shí)代感[1-2]。

智能服務(wù)機(jī)器人采用最前沿的技術(shù)與智能設(shè)備、人機(jī)交互等相互應(yīng)用,可提供更快更準(zhǔn)的個(gè)性化服務(wù),也為營業(yè)場(chǎng)所帶來了全新的智能體驗(yàn)[3]。

目前,由于技術(shù)的逐步發(fā)展和多地推廣應(yīng)用。現(xiàn)場(chǎng)應(yīng)用對(duì)機(jī)器人的控制方式提出了新的要求,希望能夠以語音命令控制機(jī)器人,并且實(shí)現(xiàn)與機(jī)器人的交互對(duì)話。著眼于智能服務(wù)機(jī)器人語音交互控制的功能需求,本文以語音識(shí)別和語音合成的應(yīng)用開發(fā)為手段,實(shí)現(xiàn)了可靠快捷的機(jī)器人語音控制與交互會(huì)話。

1 功能概述與性能指標(biāo)

對(duì)機(jī)器人的交互控制是讓機(jī)器人識(shí)別接收到的有效對(duì)話和語音操作指令,根據(jù)識(shí)別結(jié)果做出應(yīng)答或完成指定操作[4-5]。

利用語音識(shí)別技術(shù)正確識(shí)別操作人員發(fā)出的語音指令,再根據(jù)識(shí)別結(jié)果判斷語音指令的類型。語音指令有兩種類型,一種是控制指令,即讓機(jī)器人完成指定的操作,如“開始充電”、“停止充電”、“開啟超聲”等進(jìn)而根據(jù)識(shí)別結(jié)果做出應(yīng)答或執(zhí)行指定的操作;正確識(shí)別到控制指令需要控制機(jī)器人完成對(duì)應(yīng)操作。另外一種指令是應(yīng)答指令,如“你叫什么名字”、“你會(huì)做什么”等,識(shí)別到這類指令后機(jī)器人需要根據(jù)事先設(shè)定好的內(nèi)容應(yīng)答。

為適應(yīng)現(xiàn)場(chǎng)應(yīng)用需求,語音交互控制系統(tǒng)應(yīng)滿足以下性能指標(biāo):

(1)喚醒詞的喚醒率>95%;

(2)近場(chǎng)通用場(chǎng)景識(shí)別率>98%;

(3)遠(yuǎn)場(chǎng)通用場(chǎng)景識(shí)別率>95%;

(4)識(shí)別結(jié)果響應(yīng)時(shí)間低于200ms。

2 流程設(shè)計(jì)

分析機(jī)器人語音交互控制的功能需求,為實(shí)現(xiàn)該系統(tǒng)可將其分解為語音采集、語音識(shí)別、對(duì)話應(yīng)答和執(zhí)行操作等四個(gè)模塊。

2.1 語音采集

利用聲音傳感器采集交互語音信號(hào),提供給后續(xù)環(huán)節(jié)的進(jìn)行分析處理。

2.2 語音識(shí)別

通過對(duì)采集到的語音信號(hào)進(jìn)行分析處理、提取特征進(jìn)行比對(duì)識(shí)別出語音內(nèi)容,然后據(jù)此判定是否是合法指令及指令類型,進(jìn)而控制機(jī)器人做出相應(yīng)的響應(yīng)。

2.3 對(duì)話應(yīng)答

識(shí)別出合法的應(yīng)答指令,在應(yīng)答列表中搜索相應(yīng)的應(yīng)答內(nèi)容,然后使機(jī)器人說出應(yīng)答內(nèi)容以實(shí)現(xiàn)人機(jī)對(duì)話。

2.4 執(zhí)行操作

通過語音識(shí)別確定合法的操作指令,向機(jī)器人發(fā)送指令完成相應(yīng)的操作。

在上述諸環(huán)節(jié)中,語音信號(hào)采集技術(shù)成熟、結(jié)構(gòu)簡(jiǎn)單,完成語音傳感器(話筒)、采集卡(聲卡)的物理連接,開發(fā)語音采集配套程序即可進(jìn)行語音采集。語音識(shí)別是整個(gè)系統(tǒng)中的核心部分,對(duì)話應(yīng)答和執(zhí)行操作都依賴語音識(shí)別的結(jié)果。對(duì)話應(yīng)答要求機(jī)器人具備說話能力,通過語音合成技術(shù)將應(yīng)答內(nèi)容轉(zhuǎn)換為會(huì)話語音。執(zhí)行操作部分是向機(jī)器人發(fā)布控制命令,可直接利用機(jī)器人已有的指令控制方式。語言交互控制的處理流程如圖2所示。

3 語音交互詳細(xì)設(shè)計(jì)

由前述分析可知,實(shí)現(xiàn)機(jī)器人語音交互控制的關(guān)鍵是語音識(shí)別和用于對(duì)話應(yīng)答的語音合成。結(jié)合系統(tǒng)需求和語音技術(shù)發(fā)展?fàn)顩r,采用基于現(xiàn)有語音開發(fā)包的方式實(shí)現(xiàn)了整個(gè)語音交互控制系統(tǒng)。

3.1 選擇開發(fā)方式

語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù),技術(shù)內(nèi)容主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面[6]。客觀地講,盡管有一些公司提供了某些語音識(shí)別的商業(yè)應(yīng)用,但真正高效可靠的語音識(shí)別技術(shù)仍然是一個(gè)技術(shù)難點(diǎn),相對(duì)而言抗干擾性差、對(duì)語音輸入要求高[7]。

目前常用的語音開發(fā)工具有微軟公司的SAPI語言引擎和國內(nèi)科大訊飛提供的InterReco語音識(shí)別系統(tǒng)。對(duì)機(jī)器人語音交互這類命令式識(shí)別而言,兩者效果相當(dāng),因科大訊飛開發(fā)包成本高而采用微軟的SAPI進(jìn)行語音識(shí)別開發(fā)。

SAPI(Speech Application Programming Interface)是微軟語音開發(fā)包(Microsoft Speech SDK)提供的關(guān)于語音(Speech)處理的一套應(yīng)用程序編程接口,包含了實(shí)現(xiàn)文字-語音識(shí)別(Speech Recognition)和語音合成(Text-to-Speech)程序的基本函數(shù),大大簡(jiǎn)化了語音編程的難度,降低了語音編程的工作量[8]。

下圖所示是微軟SAPI的開發(fā)架構(gòu),語音引擎通過設(shè)備驅(qū)動(dòng)接口DDI層SAPI運(yùn)行庫通信,應(yīng)用程序則通過應(yīng)用程序接口API層和SAPI交互。通過使用這些API進(jìn)行語音識(shí)別和語音合成方面的開發(fā)。

3.2 語音識(shí)別的詳細(xì)開發(fā)

3.2.1 SAPI工作模式

用SAPI構(gòu)建語音識(shí)別系統(tǒng)可以采用兩種識(shí)別模式:語音命令控制模式和語音聽寫模式[9]。采用語音命令控制模式構(gòu)建的語音識(shí)別系統(tǒng),適合小詞匯量、孤立詞、非特定人的語音識(shí)別,但是需要?jiǎng)?chuàng)建語法規(guī)則,識(shí)別范圍只能局限于語法規(guī)則內(nèi)所設(shè)計(jì)的短語或字詞,適應(yīng)性差但限定內(nèi)容識(shí)別率高。語音聽寫模式構(gòu)建的語音識(shí)別系統(tǒng)適合于大詞匯、連續(xù)語音的識(shí)別,同時(shí)無須構(gòu)建復(fù)雜的語法規(guī)則,語音識(shí)別的適應(yīng)性強(qiáng),但識(shí)別率相對(duì)要低一些。

機(jī)器人語音交互控制的指令是有限且相對(duì)固定的,因此采用識(shí)別率更高的命令控制識(shí)別模式。按照SAPI的開發(fā)流程,完成語音識(shí)別的基本配置和識(shí)別引擎初始化即可進(jìn)行語音識(shí)別。

3.2.2 語法規(guī)則的創(chuàng)建與維護(hù)

語音命令識(shí)別模式的關(guān)鍵問題是語音規(guī)則,是對(duì)能夠識(shí)別的命令庫的標(biāo)準(zhǔn)化描述。SAPI的語法規(guī)則采用XML(eXtensible Markup Language,可擴(kuò)展標(biāo)記語言)格式。在進(jìn)行識(shí)別工作之前需要編寫一個(gè)語法規(guī)則文件,其中定義了需要識(shí)別的字和短語,SDK語音識(shí)別引擎加載該語法規(guī)則來識(shí)別用戶的語音。

在XML中每個(gè)實(shí)體或元素是由開始標(biāo)記<屬性名>和結(jié)束標(biāo)記所組成,在其中間夾的語句就是該實(shí)體或元素包含的文法內(nèi)容。文法的內(nèi)容可以是普通文字,或者是文法元素的子元素。XML規(guī)范中對(duì)于合法的文法內(nèi)容的正式定義是采用多集合表達(dá)式的形式。利用這些定義,就可以精確定義文件的語法和文法中的規(guī)則。在文法中,

中插入的是一組待識(shí)別的字或短語,而 中插入的是以

為可選擇項(xiàng)的可能匹配用戶語音的字或短語。

圖4所示是機(jī)器人語音交互控制采用的部分語法規(guī)則。其中GRAMMAR LANGID="804",指明了識(shí)別對(duì)象是中文漢字,在識(shí)別過程中將調(diào)用漢語聲學(xué)模型;位于

之間的是諸條識(shí)別命令。

XML語法文件可根據(jù)識(shí)別命令手工編輯,當(dāng)識(shí)別命令發(fā)生變化時(shí)需要同步更新并加載XML文件,語音識(shí)別引擎才能識(shí)別新的指令。因此手工編輯方式不便于更新語法,在開發(fā)過程中根據(jù)XML規(guī)則實(shí)現(xiàn)了語法文件的程序化更新,采用MSXML2::IXMLDOMDocumentPtr和MSXML2::IXMLDOMEl ementPtr對(duì)XML文件進(jìn)行編輯。

3.3 語音合成

語音合成又稱文語轉(zhuǎn)換,能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來[10]。通過計(jì)算機(jī)語音合成可以在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音,從而真正實(shí)現(xiàn)讓機(jī)器“像人一樣開口說話”。這正是機(jī)器人語音交互應(yīng)答的需求。

采用微軟SAPI實(shí)現(xiàn)語音合成的步驟與語音識(shí)別大致類似,同樣包含基本設(shè)置(音量和語速)和引擎初始化。其中的一個(gè)關(guān)鍵問題是選擇發(fā)音庫,即讓機(jī)器人以什么樣的腔調(diào)說話。微軟SAPI包含了中英文的發(fā)音庫,但在SAPI 5.4及以下版本里中文發(fā)音類型少且效果較差;可通過安裝第三方的語音庫增強(qiáng)語音合成效果,如Neospeech語音庫。

4 提高識(shí)別率的方法

按照上述流程完成了機(jī)器人語音交互控制系統(tǒng)的開發(fā),經(jīng)現(xiàn)場(chǎng)測(cè)試正確識(shí)別率超過90%。要進(jìn)一步提高語音識(shí)別率,可加入語音預(yù)處理及用戶訓(xùn)練。特別地,本文在語法規(guī)則設(shè)計(jì)上進(jìn)行了實(shí)驗(yàn)研究。

采用圖4所示的語法形式,在語音識(shí)別時(shí)對(duì)每條指令的判斷是采用整體比對(duì),最終的識(shí)別結(jié)果是與上述列表中最為接近的選項(xiàng)。實(shí)驗(yàn)證明此種形式的語法規(guī)則下正確識(shí)別率較高,但是虛警率偏高,即可能將某些干擾音輕易地識(shí)別為某條指令,特別是一些短的指令,如“打開”等。分析產(chǎn)生這種問題的原因,應(yīng)該是某些干擾中含有與這些短指令類似的語音成分。為了保證識(shí)別率,這種整體指令形式的語法規(guī)則下的比對(duì)并不是非常嚴(yán)格的比對(duì),因?yàn)樽R(shí)別系統(tǒng)要容忍一定程度的輸入偏差,如將“山東”讀成“三東”也應(yīng)能識(shí)別出來,畢竟用戶的發(fā)音可能千差萬別的。

因此,在上述語法規(guī)則下一些短的指令往往被誤識(shí)。為改善這一問題,設(shè)計(jì)了更為嚴(yán)格的比對(duì)規(guī)則,如圖5所示。在這種分段形式的語法規(guī)則下實(shí)現(xiàn)了更為嚴(yán)格的匹配識(shí)別。實(shí)驗(yàn)結(jié)果也驗(yàn)證了這種分析,采用這種比對(duì)語法能顯著地降低誤識(shí)率。

對(duì)比圖4、5所示兩種不同形式的識(shí)別語法,可以說各有所長,因此如何合理地設(shè)計(jì)語法規(guī)則是改善語音識(shí)別效果的一個(gè)途徑。

5 結(jié)論

為增強(qiáng)智能服務(wù)機(jī)器人的語音交互功能,根據(jù)應(yīng)用需求設(shè)計(jì)了完整的語音交互開發(fā)流程。在此基礎(chǔ)上基于微軟語音應(yīng)用程序接口SAPI,完成了一套人機(jī)語音交互控制系統(tǒng)。現(xiàn)場(chǎng)測(cè)試結(jié)果表明,系統(tǒng)的各項(xiàng)性能指標(biāo)滿足設(shè)計(jì)要求。限于語音識(shí)別技術(shù)的發(fā)展水平,機(jī)器人的語音識(shí)別能力與人相比還有很大差距,仍是下一步亟須解決的問題。

參考文獻(xiàn)

[1]李安琪,蘇偉,吳燕.服務(wù)機(jī)器人技術(shù)的發(fā)展[J].科教導(dǎo)刊-電子版(下旬),2018, (11):261-262.

[2]李強(qiáng),喬克,顏紅,江熙.基于人工智能技術(shù)的電力營業(yè)廳機(jī)器人設(shè)計(jì)[J].智能城市,2018,4(24):10-11.

[3]王博瑋,陸中成.基于云的餐廳服務(wù)機(jī)器人系統(tǒng)設(shè)計(jì)[J].自動(dòng)化儀表,2019,40(8):65-69.

[4]翁劍鵬,彭軍發(fā),李金林,易向東.基于語音識(shí)別的人形機(jī)器人的設(shè)計(jì)與實(shí)現(xiàn)[J]. 科技創(chuàng)新導(dǎo)報(bào),2019,16(18):138-139.

[5]黎世銀,任瑾,任家毅.基于語音控制的自主尋跡與避障智能小車設(shè)計(jì)[J].電子世界,2019(5):133-134.

[6]吳麗麗.孤立詞語音識(shí)別算法的研究與系統(tǒng)仿真[D].東北大學(xué),2012:1-77.

[7]唐美麗,胡瓊,馬廷淮.基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語音識(shí)別研究[J].現(xiàn)代電子技術(shù), 2019,42(14):152-156.

[8]羅志增,趙敬斌.機(jī)器人語音控制及其實(shí)現(xiàn)[J].杭州電子工業(yè)學(xué)院學(xué)報(bào),2004,24(1):30-34.

[9]初琦.Speech SDK在語音機(jī)器人開發(fā)中的應(yīng)用[J].北京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008,7(4) :32-36.

[10]邱澤宇,屈丹,張連海.基于WaveNet的端到端語音合成方法[J].計(jì)算機(jī)應(yīng)用, 2019,39(5):1325-1329.

猜你喜歡
識(shí)別率指令語法
聽我指令:大催眠術(shù)
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
跟蹤導(dǎo)練(二)4
KEYS
ARINC661顯控指令快速驗(yàn)證方法
LED照明產(chǎn)品歐盟ErP指令要求解讀
提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
Keys
Book 5 Unit 1~Unit 3語法鞏固練習(xí)
佛冈县| 上饶市| 闽清县| 施秉县| 五常市| 红桥区| 枣阳市| 湾仔区| 沅江市| 北川| 仙游县| 忻城县| 托克逊县| 高州市| 徐闻县| 东方市| 贵港市| 乐昌市| 镇巴县| 丹凤县| 岑巩县| 彭山县| 永新县| 鞍山市| 库尔勒市| 淅川县| 大城县| 都兰县| 屏山县| 汤原县| 琼海市| 黑龙江省| 勐海县| 车险| 罗定市| 昌宁县| 成安县| 利辛县| 延寿县| 平乡县| 若羌县|