冉光偉,蔡吉晨,李艷明
(廣州汽車集團股份有限公司汽車工程研究院,廣東廣州 511434)
新一代智能座艙人機交互技術(shù)的發(fā)展趨勢是逐漸融入人體生物特征識別及人工智能技術(shù)[1],當前,國內(nèi)外各大汽車企業(yè)正在致力于語音識別控制[2]、交互界面?zhèn)€性化定制等技術(shù)的研發(fā),同時與智能網(wǎng)聯(lián)技術(shù)關(guān)聯(lián),開發(fā)基于云端信息的駕駛?cè)松矸葑R別技術(shù)、場景識別技術(shù),進一步實現(xiàn)了人機交互的智能化與個性化。
車載機器人是一種運用于汽車智能座艙人機交互場景的服務(wù)機器人,屬于社交類機器人范疇[3]。基于機器視覺、智能語音以及機器學(xué)習(xí)等技術(shù),車載機器人協(xié)同影音娛樂系統(tǒng)(AVNT)、駕駛員監(jiān)控系統(tǒng)(DMS)以及高級駕駛輔助系統(tǒng)(ADAS),能夠響應(yīng)語音交互、影音娛樂狀態(tài)切換以及駕駛輔助提醒等功能,通過擬人化、情感化地表達,整體提升駕駛和乘車體驗。以車載機器人作為主要人機交互接口,能夠有效擺脫車內(nèi)人機交互過程中給用戶帶來的設(shè)備感和生硬感,使交互過程更自然、友好,使得交互形式從人-機交互向人-人交互進化。
車載機器人系統(tǒng)中,通過影音娛樂系統(tǒng)完成語音交互及場景感知,由車載機器人控制器完成機器人行為決策、表情顯示及動作執(zhí)行。系統(tǒng)框圖如圖1所示,影音娛樂系統(tǒng)與機器人頭部攝像頭、麥克風及喇叭等外圍設(shè)備連接,通過各個應(yīng)用層軟件分別完成人臉識別、聲源定位、語義解析等功能;車載機器人與影音娛樂系統(tǒng)通過USB及CAN總線通信,以獲取用戶、車輛狀態(tài)及車內(nèi)外環(huán)境等感知數(shù)據(jù)[4],進而完成場景分析、機器人行為決策及行為輸出(包括機器人語速、語調(diào)、表情、動作、幅度、頻率、態(tài)度等)。機器人控制器集成增量學(xué)習(xí)算法,能夠不斷優(yōu)化場景分析,對駕駛行為進行學(xué)習(xí)及預(yù)測[5]。影音娛樂系統(tǒng)的人機交互界面能夠配合車載機器人進行擴展顯示,即部分場景的圖文顯示由車載機器人控制器控制。
圖1 車載機器人系統(tǒng)架構(gòu)
1.2 車載機器人行為決策
車載機器人行為包括頭部轉(zhuǎn)動、表情顯示及語音播報等3個維度。機器人頭部能夠完成水平旋轉(zhuǎn)和前后轉(zhuǎn)動兩個自由度的轉(zhuǎn)動,并通過電機協(xié)同控制來保證轉(zhuǎn)動過程中動作的連貫性及擬人化;機器人表情通過圖片渲染實現(xiàn)不同表情切換過程中的平滑過渡。語音播報能夠變換語速、語調(diào)和語氣,可以體現(xiàn)機器人的情緒和性格。車載機器人部分表情和姿態(tài)的交互定義見表1。
表1 車載機器人表情及動作關(guān)聯(lián)表
車載機器人在不同的細分場景下能夠做出不同的行為決策,通過同步用戶賬號信息達到用戶級的個性化交互場景設(shè)計,再結(jié)合地域信息、車型信息以及用車里程、駕駛模式等駕駛行為偏好向用戶推送符合用戶喜好的媒體類及新聞類服務(wù),從而實現(xiàn)千人千面的智能交互。比如當車內(nèi)同時有孩子和媽媽的場景下,通過增量學(xué)習(xí)預(yù)測兩人的共同愛好,并為他們推薦相對應(yīng)的媒體內(nèi)容。此外,機器人應(yīng)用考慮了安全與隱私的設(shè)計原則,將用戶隱私信息進行加密;同時用戶可清除駕駛習(xí)慣記憶等相關(guān)歷史記錄。
車載機器人應(yīng)用不局限于根據(jù)預(yù)先設(shè)定的行為決策進行條件執(zhí)行,還能夠主動學(xué)習(xí)到環(huán)境變化而做出主動適應(yīng)、反應(yīng)和行動。車載機器人控制器集成了適用于車載場景的增量學(xué)習(xí)框架,該框架是一種高性能的輕量級人工智能學(xué)習(xí)系統(tǒng),特點是消耗資源少,運算速度快,無需借助網(wǎng)絡(luò)云平臺,借助汽車前端硬件就能支撐其計算能力實現(xiàn)離線訓(xùn)練,在越來越多的復(fù)雜車載場景任務(wù)中能夠通過增量學(xué)習(xí)進行行為決策的高效重建。
增量學(xué)習(xí)框架核心是寬度學(xué)習(xí)算法[6-7]。寬度學(xué)習(xí)即將深度學(xué)習(xí)從串并聯(lián)改為并聯(lián),減少模型訓(xùn)練時間,利于模型訓(xùn)練前段化,適合嵌入式系統(tǒng)。智能座艙的人機交互場景的樣本量較小,寬度學(xué)習(xí)算法適用于基于小樣本數(shù)據(jù)進行場景識別,將寬度學(xué)習(xí)算法應(yīng)用于車載場景,能夠?qū)崿F(xiàn)車載場景中人機交互的連續(xù)性學(xué)習(xí)。寬度學(xué)習(xí)算法模型如圖2所示。
圖2 寬度學(xué)習(xí)算法模型
例如在實際的車載場景中,由于語音指令的定義不能全面地覆蓋各地習(xí)慣用語,可以通過增量學(xué)習(xí)記錄用戶習(xí)慣用語。如通過語音指令“打開空調(diào)”來控制車內(nèi)空調(diào)的開啟,由于各地習(xí)慣用語的不同,某些地區(qū)用戶的語音指令會變成“打開冷氣”或“打開冷風機”等。當“打開冷氣”指令沒有被系統(tǒng)響應(yīng)時,用戶可以通過手動打開空調(diào),在進行多次操作后,寬度學(xué)習(xí)算法能夠記錄用戶的操作習(xí)慣,建立“打開冷氣”語音指令和打開空調(diào)行為的對應(yīng)關(guān)系,進而學(xué)習(xí)到新的技能。
自然語言處理(Natural Language Processing,NLP)是理解人類語言、說話方式的應(yīng)用程序和服務(wù),是人工智能的一個子領(lǐng)域[8]。NLP目標是讓機器對語言理解像人類一樣智能,減小交流(自然語言)和理解(機器語言)之間的差距。NLP 技術(shù)基于大數(shù)據(jù)、知識圖譜、機器學(xué)習(xí)、語言學(xué)等技術(shù)和資源,形成機器翻譯、深度問答、對話系統(tǒng)等應(yīng)用系統(tǒng),進而服務(wù)于各類實際業(yè)務(wù)和產(chǎn)品。
云端的NLP引擎為平臺化方案,即由娛樂系統(tǒng)采集語音指令傳送到云端進行語義解析,特點是通用性強,適合閑聊以及豐富的生態(tài)類服務(wù)。在無網(wǎng)絡(luò)或信號弱情況下,語義需要在影音娛樂系統(tǒng)中進行解析,由于系統(tǒng)端詞庫有限,較難涵蓋并準確理解用戶的語音指令。為了在網(wǎng)絡(luò)狀況不佳情況下能夠進行語義理解并適應(yīng)用戶的說話習(xí)慣,機器人系統(tǒng)集成了輕量化的離線NLP引擎,其特點是能夠收窄認知范圍并針對特定車載場景進行個性化語義訂制,從而保證沒有網(wǎng)絡(luò)時或用戶使用自定義語義時,機器人能夠有效執(zhí)行語音指令。云端NLP引擎與機器人系統(tǒng)端NLP引擎形成互補,構(gòu)建了云+端的混合NLP引擎,具體協(xié)作流程如圖3所示。
圖3 云+端的混合NLP引擎協(xié)作流程
離線NLP引擎支持多輪對話和自動補充詞槽功能,如圖4所示,能夠根據(jù)增量學(xué)習(xí)對用戶習(xí)慣的預(yù)測結(jié)果自動補充詞槽內(nèi)容,避免用戶進行繁復(fù)操作。比如用戶發(fā)出開空調(diào)的指令,離線NLP引擎將根據(jù)空調(diào)參數(shù)歷史數(shù)據(jù)、用戶的空調(diào)溫度及風速等調(diào)節(jié)習(xí)慣預(yù)測結(jié)果,自行補充詞槽內(nèi)容,不需要再通過多輪對話補充語音指令中缺少的“溫度”及“風速”詞槽。
圖4 離線NLP引擎問答技術(shù)架構(gòu)
車載機器人交互場景是將出行場景按照人、車、環(huán)境等3個維度進行劃分及組合,完成數(shù)百個基礎(chǔ)場景、經(jīng)典場景、創(chuàng)新場景以及未來超前場景定義,其交互場景維度見表2。所有交互場景的功能需求按照安全、便捷及運營框架進行梳理,進而制定細分交互場景下對應(yīng)的機器人初始行為決策,再通過增量學(xué)習(xí)實現(xiàn)不同用戶的個性化交互策略,以協(xié)助完成千人千面的智能交互理念。
表2 車載機器人交互場景維度
車載機器人應(yīng)用通過對接豐富的互聯(lián)網(wǎng)生態(tài)類應(yīng)用,如充電、停車、資訊、餐飲、維修等便利服務(wù),為用戶構(gòu)建按需推薦、場景化智能分發(fā)的服務(wù)整合體系,以期為用戶提供出行全程以及汽車全生命周期的完整生態(tài)鏈,提高出行服務(wù)體驗。同時,借助車載機器人適時推送各類服務(wù)信息,能夠加強生態(tài)類應(yīng)用的推送深度及可接受度,從而進一步提高車載生態(tài)類應(yīng)用的運營能力。
適用于車載機器人應(yīng)用對接的互聯(lián)網(wǎng)應(yīng)用類型舉例如下:
(1)充電:提供充電樁點位查詢、充電樁導(dǎo)航等服務(wù),如充電未來;
(2)停車:停車位查詢、停車場導(dǎo)航、停車費支付,如ECTP、泊鏈等;
(3)代駕:呼叫代駕、代駕行為監(jiān)管、費用支付,如E代駕等;
(4)娛樂:電臺收聽、音樂播放、短視頻等娛樂服務(wù),如喜馬拉雅、唱吧等;
(5)閑聊:與用戶閑聊,以及提供相關(guān)客服服務(wù),如圖靈機器人;
(6)信息服務(wù):天氣、新聞、航班、股票等信息的查詢、播報;
(7)生活服務(wù):餐飲、外賣、旅游、維修保養(yǎng)服務(wù),如美團等。
通過對車載機器人系統(tǒng)的人臉識別、語音交互、車輛狀態(tài)提醒及信息推送等各項功能進行測試,分別驗證車載機器人的語音識別準確性、交互場景的判斷能力和生態(tài)服務(wù)的智能分發(fā)能力。具體測試功能項及測試結(jié)果見表3,測試結(jié)果表明車載機器人的各項功能達到了預(yù)期效果與設(shè)計目標。
表3 車載機器人的功能測試驗證結(jié)果
車載機器人以“車內(nèi)智能化、情感化、個性化的交互體驗”為概念,于座艙內(nèi)布置機器人實體,通過語音識別、人臉識別、車內(nèi)環(huán)境及車輛狀態(tài)感知,對駕駛員及乘客、車輛狀態(tài)及車內(nèi)外環(huán)境等3個感知維度進行場景分析,從而完成機器人的行為管理,包括機器人的表情、姿態(tài)、聲調(diào)、態(tài)度及行為節(jié)奏等。車載機器人能夠進一步提升車內(nèi)多模交互能力,同時擴展具有競爭力的生態(tài)類服務(wù),從而提升用戶體驗,滿足駕駛員及乘客的個性化和情感化交互需求。