練藝 曾曉輝
摘 要:近年來包括語(yǔ)音識(shí)別、圖像識(shí)別等在內(nèi)的人工智能技術(shù)得到了快速發(fā)展,人工智能在交通出行、醫(yī)療衛(wèi)生、政務(wù)服務(wù)等諸多領(lǐng)域發(fā)揮著越來越重要的作用。在汽車領(lǐng)域,智能語(yǔ)音作為人車交互手段具有相當(dāng)優(yōu)勢(shì),并且相應(yīng)的市場(chǎng)規(guī)模也在逐年增大。隨著汽車無人駕駛、智能座艙等新技術(shù)的發(fā)展,可以預(yù)見智能語(yǔ)音在汽車中將會(huì)得到更大的發(fā)展。文章首先分析人工智能特別是智能語(yǔ)音的發(fā)展現(xiàn)狀及其同汽車產(chǎn)業(yè)的結(jié)合,接著介紹汽車中現(xiàn)有的語(yǔ)音交互系統(tǒng),最后進(jìn)一步研究語(yǔ)音交互技術(shù)的關(guān)鍵技術(shù)及其未來的發(fā)展趨勢(shì)。
關(guān)鍵詞:人工智能;智能語(yǔ)音技術(shù);汽車語(yǔ)音交互系統(tǒng)
1 人工智能的發(fā)展及其對(duì)汽車產(chǎn)業(yè)的影響
自從1956年達(dá)特茅斯會(huì)議提出人工智能的概念,人工智能已經(jīng)得到了60余年的發(fā)展。人工智能的核心是基于迭代向量的計(jì)算方式,通過所構(gòu)建的系統(tǒng)自動(dòng)地從數(shù)據(jù)中獲取知識(shí),并應(yīng)用這些知識(shí)來解決問題。近年來,深度學(xué)習(xí)推動(dòng)了包含自然語(yǔ)言理解和圖像識(shí)別在內(nèi)的人工智能技術(shù)的發(fā)展,并獲得了許多的突破。目前來看,人工智能技術(shù)可以在智能出行、醫(yī)療衛(wèi)生、政務(wù)服務(wù)、安防、金融、營(yíng)銷等領(lǐng)域?qū)崿F(xiàn)廣泛的發(fā)展與應(yīng)用,前所未有的人工智能實(shí)用化和商業(yè)化浪潮席卷而來。
目前我國(guó)的汽車產(chǎn)業(yè)正在蓬勃發(fā)展,據(jù)中國(guó)汽車工業(yè)協(xié)會(huì)統(tǒng)計(jì),2017年我國(guó)汽車產(chǎn)銷量分別為2 901.5萬(wàn)輛和2 887.9萬(wàn)輛,2018年上半年則分別為1 405.77萬(wàn)輛和1 406.65萬(wàn)輛,同比增長(zhǎng)為4.15%和5.57%。與此同時(shí),社會(huì)對(duì)汽車產(chǎn)品的需求也進(jìn)一步多樣化。在美國(guó)拉斯維加斯舉辦的2018年國(guó)際消費(fèi)類電子產(chǎn)品展上,車企和相關(guān)的汽車供應(yīng)商都紛紛推出了大量與自動(dòng)駕駛、車聯(lián)網(wǎng)等相關(guān)的人工智能科技,這標(biāo)志著智能汽車已經(jīng)成為產(chǎn)業(yè)融合的重點(diǎn)。智能汽車是全新的汽車形態(tài),人工智能技術(shù)將在汽車的定義、設(shè)計(jì)、研發(fā)、制造、使用等全生命周期以及相關(guān)的市場(chǎng)營(yíng)銷、金融保險(xiǎn)風(fēng)控、交通管理等方面帶來深刻的變革[1]。在這樣的趨勢(shì)下,我國(guó)發(fā)改委在2018年年初發(fā)布了《智能汽車創(chuàng)新發(fā)展戰(zhàn)略(征求意見稿)》,明確我國(guó)發(fā)展智能汽車的戰(zhàn)略愿景:到2020年,中國(guó)標(biāo)準(zhǔn)智能汽車的技術(shù)創(chuàng)新、產(chǎn)業(yè)生態(tài)、路網(wǎng)設(shè)施、法規(guī)標(biāo)準(zhǔn)、產(chǎn)品監(jiān)管和信息安全體系框架基本形成;智能汽車新車占比達(dá)到50%,中高級(jí)別智能汽車實(shí)現(xiàn)市場(chǎng)化應(yīng)用,重點(diǎn)區(qū)域示范運(yùn)行取得成效;到2025年,新車基本實(shí)現(xiàn)智能化,高級(jí)別智能汽車實(shí)現(xiàn)規(guī)?;瘧?yīng)用。
在市場(chǎng)驅(qū)動(dòng)和政策引領(lǐng)的背景下,人工智能技術(shù)將在人車交互、車車交互、車網(wǎng)交互、自動(dòng)駕駛等方面為汽車駕乘人員的舒適度提升作出共享,將賦予汽車這個(gè)產(chǎn)業(yè)更加豐富的內(nèi)涵[2]。
2 智能語(yǔ)音在汽車中的應(yīng)用及其前景
智能語(yǔ)音技術(shù)包括語(yǔ)音識(shí)別(Speech Recognition,SR)和語(yǔ)音合成(Speech Synthesis,SS),圖1 智能語(yǔ)音技術(shù)發(fā)展歷程描述了智能語(yǔ)音技術(shù)發(fā)展的歷程。隨著智能語(yǔ)音技術(shù)的逐漸成熟,智能語(yǔ)音的應(yīng)用場(chǎng)景不斷擴(kuò)展、市場(chǎng)規(guī)模持續(xù)增長(zhǎng)。根據(jù)中商產(chǎn)業(yè)研究院發(fā)布的《中國(guó)智能語(yǔ)音行業(yè)市場(chǎng)發(fā)展前景研究報(bào)告(2018—2023年)》[3],預(yù)計(jì)全球和我國(guó)的智能語(yǔ)音市場(chǎng)規(guī)模在2018年將分別達(dá)到141.1億美元、159.7億元。如圖2—5所示,隨著智能語(yǔ)音市場(chǎng)規(guī)模的不斷擴(kuò)大,吸引著眾多的公司構(gòu)建自己的語(yǔ)音生態(tài)產(chǎn)業(yè)鏈,這里面既有紐昂司(Nuance)、科大訊飛這樣的傳統(tǒng)智能語(yǔ)音公司,也有谷歌、蘋果、微軟、百度、阿里巴巴等高科技公司。
在當(dāng)前智能汽車的發(fā)展中,最為激烈的競(jìng)爭(zhēng)集中在自動(dòng)駕駛和智能車載系統(tǒng)兩個(gè)領(lǐng)域。隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)和人工智能的發(fā)展,智能車載系統(tǒng)將通過融合數(shù)字顯示、多屏互動(dòng)、手勢(shì)操作、智能語(yǔ)音等多項(xiàng)技術(shù),為汽車的駕乘人員提供全新的、直接的、多元的人車交互服務(wù)。語(yǔ)音作為自然的人機(jī)接口,借助智能語(yǔ)音技術(shù)讓人與機(jī)器通過對(duì)話完成交流,通過機(jī)器的相應(yīng)形式將反饋信息自然地返回給用戶,使得機(jī)器具備“會(huì)聽”、“會(huì)說”的能力,現(xiàn)階段可以讓機(jī)器協(xié)助完成包括收聽廣播及音樂、接打電話、導(dǎo)航控制等與駕駛不相關(guān)甚至無關(guān)的駕駛次任務(wù),提高駕乘人員的舒適度并進(jìn)一步保障行車安全[4]。
在汽車產(chǎn)業(yè)領(lǐng)域,搭載基于智能語(yǔ)音的車載交互系統(tǒng)已經(jīng)成為主流。紐昂司的語(yǔ)音識(shí)別技術(shù)在智能車載領(lǐng)域,其定制的汽車級(jí)語(yǔ)音平臺(tái)聲龍駕駛(Dragon Drive),通過同汽車廠商的深度合作,如為奔馳的MBUX智能人機(jī)交互多媒體系統(tǒng)提供技術(shù)支持,讓駕乘人員獲得了全新的交互體驗(yàn);科大訊飛的汽車智能交互系統(tǒng)飛魚2.0為車主提供了操控車內(nèi)設(shè)施、整合車身各項(xiàng)功能的能力。此外,憑借著強(qiáng)大的數(shù)據(jù)基礎(chǔ)和研發(fā)實(shí)力,百度、阿里巴巴、騰訊也積極布局車載交互系統(tǒng):百度研發(fā)DuerOS系統(tǒng)是一款新對(duì)話式人工智能操作系統(tǒng),能讓內(nèi)容和服務(wù)快速地觸達(dá)用戶,開創(chuàng)人機(jī)交互的新模式;阿里巴巴的汽車智能互聯(lián)系統(tǒng)“斑馬智行系統(tǒng)”,則拉開了中國(guó)汽車車企與互聯(lián)網(wǎng)巨頭深度合作的序幕;騰訊則發(fā)布了“All in Car”生態(tài)系統(tǒng)。因此,可以預(yù)見的是智能語(yǔ)音交互系統(tǒng)將同汽車產(chǎn)品實(shí)現(xiàn)深度結(jié)合,將極大地提高用戶的駕乘體驗(yàn),為汽車的設(shè)計(jì)和營(yíng)銷帶來巨大的變革。
3 車載智能語(yǔ)音交互系統(tǒng)的關(guān)鍵技術(shù)及其挑戰(zhàn)
相較于基于圖形用戶接口(Graphical User Interface,GUI)的交互系統(tǒng),以語(yǔ)音用戶接口(Voice User Interface,VUI)的交互系統(tǒng)具備自然、便利、快捷的特點(diǎn)。對(duì)于汽車產(chǎn)品而言,最佳的交互系統(tǒng)是兩者有機(jī)結(jié)合而成的。其中,車載智能語(yǔ)音交互系統(tǒng)是融合了語(yǔ)音識(shí)別、語(yǔ)義理解、語(yǔ)音播報(bào)、對(duì)話設(shè)計(jì)以及移動(dòng)互聯(lián)等的綜合系統(tǒng),且通常為嵌入式服務(wù)和云服務(wù)相混合的工作模式,其總體架構(gòu)如圖6車載智能語(yǔ)音交互系統(tǒng)架構(gòu)所示。
車載智能語(yǔ)音交互系統(tǒng)的交互實(shí)現(xiàn)可以分為以下幾種方式。
嵌入式系統(tǒng)的語(yǔ)音信號(hào)處理模塊接收到用戶語(yǔ)音以及相關(guān)的參考信號(hào),通過信號(hào)增強(qiáng)將其分貝提供給本地和云端語(yǔ)音引擎來進(jìn)一步處理。
本地語(yǔ)音引擎和云端語(yǔ)音引擎,包括語(yǔ)音識(shí)別模塊和語(yǔ)義理解模塊,將分別處理用戶語(yǔ)音并將識(shí)別結(jié)果返回給各自的對(duì)話管理模塊。
對(duì)話管理模塊則將根據(jù)識(shí)別結(jié)果來選擇對(duì)應(yīng)的操作,這包括了通過語(yǔ)音播報(bào)接口將處理信息反饋給用戶、通過車輛控制接口或者云服務(wù)接口獲取服務(wù)資源或者進(jìn)入新的對(duì)話以獲取更多信息。由于存在本地和云端的識(shí)別結(jié)果,因此在本地對(duì)話管理中還將涉及相應(yīng)的仲裁處理。
車輛控制接口模塊主要為交互系統(tǒng)提供車輛資源,例如本地導(dǎo)航系統(tǒng)、電話系統(tǒng)、多媒體系統(tǒng)、空調(diào)系統(tǒng)、車輛控制系統(tǒng)等;云服務(wù)接口模塊則提供內(nèi)容資源(例如音樂、視頻、新聞、天氣等)、服務(wù)資源(例如飛機(jī)票、電影票、餐館預(yù)訂等),此外還可提供同其他智能系統(tǒng)的互聯(lián)互通服務(wù)。
車載智能語(yǔ)音交互系統(tǒng)中的關(guān)鍵技術(shù)及其面臨的挑戰(zhàn)可以大致分為3個(gè)方面。
首先,相較于其他的智能語(yǔ)音交互系統(tǒng),車載系統(tǒng)可用資源受到了較大的限制,這包括嵌入式軟硬件資源以及移動(dòng)互聯(lián)資源。首先,車載系統(tǒng)在計(jì)算能力、存儲(chǔ)容量等方面是有限的,因此在其上實(shí)現(xiàn)本地端的語(yǔ)音交互,或者是降低語(yǔ)音交互的性能以減少對(duì)資源的需求,或者是研發(fā)獨(dú)立的語(yǔ)音交互芯片以減少對(duì)系統(tǒng)的依賴,但是前者會(huì)影響用戶對(duì)交互系統(tǒng)的滿意度、后者則需要大量的人力和物力投入;其次,車載系統(tǒng)由于其特殊的應(yīng)用環(huán)境,即交互系統(tǒng)的使用多處于車輛移動(dòng)過程中,道路環(huán)境(例如地形變化、隧道等)、網(wǎng)絡(luò)覆蓋等網(wǎng)絡(luò)條件不斷變化,因此相比于智能音箱、智能家居等語(yǔ)音交互系統(tǒng),車載交互系統(tǒng)的移動(dòng)互聯(lián)資源在某些場(chǎng)景下是會(huì)受到影響的。
其次,車載語(yǔ)音交互系統(tǒng)涵蓋了諸多關(guān)鍵技術(shù),包括前端語(yǔ)音信號(hào)增強(qiáng)、語(yǔ)音識(shí)別、語(yǔ)義理解及語(yǔ)音合成等[5]。借助云服務(wù),語(yǔ)音識(shí)別和語(yǔ)義理解的準(zhǔn)確度都已經(jīng)能滿足當(dāng)前絕大多數(shù)的人車交互場(chǎng)景,但是當(dāng)前的交互通常是較為簡(jiǎn)單的單一需求交互,而用戶期待能完成更加廣泛、復(fù)雜得多需求語(yǔ)音交互,因此需要擴(kuò)展相關(guān)的數(shù)據(jù)資源、發(fā)展新的語(yǔ)義理解技術(shù)來滿足用戶的需求。特別由于網(wǎng)絡(luò)通信資源存在限制以及用戶隱私的原因,需要在進(jìn)一步提高本地識(shí)別性能的同時(shí)降低其對(duì)本地資源的占用,這具有極大的挑戰(zhàn)性。合成語(yǔ)音作為系統(tǒng)將處理結(jié)果反饋給用戶的方式,則要求合成的語(yǔ)音更加自然和清晰,并且定制化、個(gè)性化的合成語(yǔ)音需求也在逐漸增多,這都對(duì)語(yǔ)音合成提出了更高的要求。此外,車輛使用過程中的個(gè)性化需求也越來越多,這就需要識(shí)別說話人身份,但是當(dāng)前聲紋識(shí)別對(duì)于說話人的情感變化、語(yǔ)速變化、音量變化還比較敏感,非特定文本的身份鑒別也存在著不足,如何解決這些問題也影響著相關(guān)的應(yīng)用實(shí)現(xiàn)。
最后,車載智能語(yǔ)音交互系統(tǒng)是為完成人車交互、車車交互、車物交互的目標(biāo)而發(fā)展的,需要研究和發(fā)展新的應(yīng)用,為使用者提供更加便捷、豐富的使用方式和良好的服務(wù)體驗(yàn),這將在很大程度上促進(jìn)該系統(tǒng)的推廣和普及,也將影響到未來市場(chǎng)的發(fā)展。目前,車載智能語(yǔ)音交互系統(tǒng)還局限于為駕駛?cè)颂峁┡c車輛和行車相關(guān)的服務(wù),且服務(wù)的內(nèi)容相對(duì)貧乏。因此,如何把基于聲音的各種感知和語(yǔ)義信息通過提取、歸結(jié)、整理,然后進(jìn)行合成處理和分析,進(jìn)而開發(fā)出整合內(nèi)容和服務(wù)的應(yīng)用以加持車載智能語(yǔ)音系統(tǒng),構(gòu)建同其他相關(guān)領(lǐng)域互聯(lián)互通的完整生態(tài),這是發(fā)展的關(guān)鍵。
4 結(jié)語(yǔ)
綜上所述,車載智能語(yǔ)音交互系統(tǒng)將打破傳統(tǒng)的人車交互方式,不斷提升用戶體驗(yàn),使車載語(yǔ)音系統(tǒng)更加自然、更加貼近人的使用習(xí)慣,滿足用戶在駕乘過程中個(gè)性化的需求,使得車載智能語(yǔ)音交互系統(tǒng)真正成為想得到、用得上、離不開的產(chǎn)品,這將會(huì)影響車載終端的未來發(fā)展方向,從而為汽車行業(yè)的發(fā)展帶來全新的面貌。
[參考文獻(xiàn)]
[1]泉田良輔.智能化未來:無人駕駛將如何改變我們的生活[M].李晨,譯.杭州:浙江大學(xué)出版社,2015.
[2]郭岱喬.淺談人工智能在汽車領(lǐng)域中的應(yīng)用[J].科學(xué)技術(shù)創(chuàng)新,2017(16):120-120.
[3]中商產(chǎn)業(yè)研究院.中國(guó)智能語(yǔ)音行業(yè)市場(chǎng)發(fā)展前景研究報(bào)告(2018—2023年)[R].深圳:中商產(chǎn)業(yè)研究院,2018.
[4]任智群.智能語(yǔ)音交互在駕駛過程中的應(yīng)用[J].數(shù)碼設(shè)計(jì),2017(8):13-14.
[5]沈汭宏,嚴(yán)世榕.基于智能化車載交互的語(yǔ)音識(shí)別系統(tǒng)的建立與設(shè)計(jì)[J].軍民兩用技術(shù)與產(chǎn)品,2016(8):61.
Abstract:In recent years, artificial intelligence technology including speech recognition and image recognition has developed rapidly. Artificial intelligence plays an increasingly important role in many fields such as transportation, medical and health services. In the automotive field, intelligent voice has considerable advantages as a means of interaction between people and vehicles, and the corresponding market size is also increasing year by year. With the development of new technologies such as car drones and smart cockpits, it is foreseeable that smart voice will be more developed in the car. This paper first analyzes the development status of artificial intelligence, especially intelligent voice and its integration with the automotive industry, then introduces the existing voice interaction system in the car, and finally studies the key technologies of voice interaction technology and its future development trend.
Key words:artificial intelligence; intelligent voice technology; car voice interactive system