国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多模態(tài)人機(jī)交互綜述

2022-07-02 12:06陶建華巫英才喻純翁冬冬李冠君韓騰王運(yùn)濤劉斌
中國圖象圖形學(xué)報(bào) 2022年6期
關(guān)鍵詞:觸覺模態(tài)可視化

陶建華,巫英才,喻純,翁冬冬,李冠君,韓騰,王運(yùn)濤,劉斌

1. 中國科學(xué)院自動(dòng)化研究所,北京 100190; 2.浙江大學(xué),杭州 310058; 3. 清華大學(xué),北京 100084;4. 北京理工大學(xué),北京 100081; 5.中國科學(xué)院軟件研究所,北京 100190

0 引 言

受益于物聯(lián)網(wǎng)的發(fā)展,人機(jī)交互設(shè)備在人們的日常生活中得到了廣泛應(yīng)用。近年來,計(jì)算機(jī)視覺、手勢(shì)識(shí)別和人工智能等技術(shù)蓬勃發(fā)展,頭戴式設(shè)備、顯示屏和傳感器等硬件技術(shù)取得了明顯的進(jìn)步,人機(jī)交互不再局限于單一感知通道(視覺、觸覺、聽覺、嗅覺和味覺)的輸入輸出模態(tài)(Bourguet,2003)。

多模態(tài)人機(jī)交互旨在利用語音、圖像、文本、眼動(dòng)和觸覺等多模態(tài)信息進(jìn)行人與計(jì)算機(jī)之間的信息交換。其中包括人到計(jì)算機(jī)的多模態(tài)信息輸入與計(jì)算機(jī)到人的多模態(tài)信息呈現(xiàn),是與認(rèn)知心理學(xué)、人機(jī)工程學(xué)、多媒體技術(shù)和虛擬現(xiàn)實(shí)技術(shù)等密切相關(guān)的綜合學(xué)科。目前,多模態(tài)人機(jī)交互與圖像圖形領(lǐng)域中的各類學(xué)術(shù)和技術(shù)聯(lián)合得越來越緊密。多模態(tài)人機(jī)交互技術(shù)作為人—機(jī)—物的技術(shù)載體,在大數(shù)據(jù)與人工智能時(shí)代,其學(xué)術(shù)和技術(shù)發(fā)展前沿與圖像圖形學(xué)、人工智能、情感計(jì)算、生理心理評(píng)估、互聯(lián)網(wǎng)大數(shù)據(jù)、辦公教育和醫(yī)療康復(fù)等領(lǐng)域發(fā)展息息相關(guān)。多模態(tài)人機(jī)交互研究最早出現(xiàn)在20世紀(jì)90年代,多項(xiàng)工作提出了將語音和手勢(shì)融合在一起的交互方法(Pavlovic 等,1997;Ando 等,1994;Cassell 等,1994)。近幾年,沉浸式可視化(Jansen 等,2014)的出現(xiàn)為人機(jī)交互提供了一個(gè)新的多模態(tài)交互界面:一個(gè)融合了視覺、聽覺和觸覺等多個(gè)感知通道的沉浸式環(huán)境。

在學(xué)術(shù)界,多模態(tài)人機(jī)交互的學(xué)術(shù)成果在 IEEE-TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)、IEEE-TIP(IEEE Transaction on Image Processing)、IEEE-TASLP(IEEE/ACM Transactions on Audio, Speech and Language Processing)、IEEE-TNNLS(IEEE Transactions on Neural Networks and Learning Systems)、ACM-TOCHI(ACM Transactions on Computer-Human Interaction)等國際期刊和CHI(Computer-Human Interaction)、UbiComp(Ubiquitous computing)、CSCW(ACM Conference on Computer-Supported Cooperative Work and Social Computing)等國際會(huì)議呈現(xiàn)穩(wěn)步增長,創(chuàng)新成果層出不窮。

在產(chǎn)業(yè)界,語音、人臉和手勢(shì)等新型交互的應(yīng)用從噱頭轉(zhuǎn)趨理性,聚焦于車載、直播等特定場景。觸屏搭配一種新模態(tài)的交互方式,是當(dāng)前多模態(tài)交互產(chǎn)品落地的主要形態(tài)。增強(qiáng)現(xiàn)實(shí)等新型輸出/顯示模態(tài)的技術(shù)逐漸成為未來多模態(tài)人機(jī)交互產(chǎn)品新的主要場景。

各國政府高度重視多模態(tài)人機(jī)交互。在“十三五”期間,我國設(shè)立多項(xiàng)重大重點(diǎn)項(xiàng)目支持多模態(tài)人機(jī)交互方向的研究。例如,國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目“基于云計(jì)算的移動(dòng)辦公智能交互技術(shù)與系統(tǒng)”、“多模態(tài)自然交互的虛實(shí)融合開放式實(shí)驗(yàn)教學(xué)環(huán)境”等。美國海軍開始構(gòu)建下一代艦艇多模態(tài)人機(jī)交互模式,采用全息化的指揮模式,通過佩戴視覺和觸覺傳感器對(duì)艦船進(jìn)行控制。英國海軍公布的T2050未來水面艦艇概念,以多模態(tài)人機(jī)交互的方式,有效提高工作效率。

本文旨在綜述多模態(tài)人機(jī)交互的最新進(jìn)展,幫助初學(xué)者快速了解和熟悉多模態(tài)人機(jī)交互領(lǐng)域;對(duì)多模態(tài)人機(jī)交互方式進(jìn)行分類整理,幫助該領(lǐng)域的研究者更好地理解多模態(tài)人機(jī)交互中的各種技術(shù);對(duì)多模態(tài)人機(jī)交互領(lǐng)域面臨的機(jī)遇和挑戰(zhàn)進(jìn)行梳理,啟發(fā)相關(guān)研究者做出更有價(jià)值的多模態(tài)人機(jī)交互工作。

本文將從多模態(tài)信息輸入與多模態(tài)信息輸出兩方面對(duì)多模態(tài)交互技術(shù)進(jìn)行綜述。其中,多模態(tài)信息輸入過程涉及可穿戴交互技術(shù)以及基于聲場感知的輸入交互技術(shù)。多模態(tài)信息呈現(xiàn)過程涉及大數(shù)據(jù)可視化交互技術(shù)、混合現(xiàn)實(shí)交互技術(shù)以及人機(jī)對(duì)話交互技術(shù)。下面分別從大數(shù)據(jù)可視化交互、基于聲場感知的交互、混合現(xiàn)實(shí)實(shí)物交互、可穿戴交互和人機(jī)對(duì)話交互5個(gè)維度介紹多模態(tài)人機(jī)交互的研究進(jìn)展。內(nèi)容框架如圖1所示。

圖1 本文內(nèi)容框架Fig.1 The architecture of this paper

1 國際研究現(xiàn)狀

1.1 大數(shù)據(jù)可視化交互

可視化是一種數(shù)據(jù)分析和探索的重要科學(xué)技術(shù)(葉帥男 等,2021),將抽象數(shù)據(jù)轉(zhuǎn)換成圖形化表征,通過交互界面促進(jìn)分析推理,在城市規(guī)劃(Deng等,2021)、醫(yī)療診斷(Park 等,2021)和運(yùn)動(dòng)訓(xùn)練(Chu 等,2022)等領(lǐng)域起著關(guān)鍵作用。在數(shù)據(jù)爆炸的今天,可視化將紛繁復(fù)雜的大數(shù)據(jù)轉(zhuǎn)換為通俗易懂的內(nèi)容,提升了人們理解數(shù)據(jù)和探索數(shù)據(jù)的能力。

傳統(tǒng)的可視化交互設(shè)備,無論加載何種可視化系統(tǒng),皆以2維顯示屏、鍵盤和鼠標(biāo)三者構(gòu)成為主,通過鍵盤鼠標(biāo)進(jìn)行點(diǎn)擊、拖拽、框選和移動(dòng)等交互對(duì)可視化內(nèi)容進(jìn)行探索。然而,此交互界面只能支持平面式的可視化設(shè)計(jì),包括數(shù)據(jù)映射通道、數(shù)據(jù)交互方式,無法滿足大數(shù)據(jù)時(shí)代背景下的分析需求。

數(shù)據(jù)可視化在大數(shù)據(jù)時(shí)代下會(huì)產(chǎn)生呈現(xiàn)空間有限、數(shù)據(jù)表達(dá)抽象和數(shù)據(jù)遮擋等問題,沉浸式可視化的出現(xiàn)為高維度的大數(shù)據(jù)可視化提供了廣闊的呈現(xiàn)空間,綜合了多感知通道的多模態(tài)交互使用戶可以利用多通道自然而并行地與數(shù)據(jù)交互。

1.1.1 大數(shù)據(jù)可視化設(shè)計(jì)

如何可視化復(fù)雜結(jié)構(gòu)的海量數(shù)據(jù)依舊是一個(gè)挑戰(zhàn),尤其是具有3維空間信息的數(shù)據(jù)。傳統(tǒng)的平面式呈現(xiàn)將視覺通道和視覺反饋局限于2維空間中(Ma 等,2014),同時(shí)也限制了設(shè)計(jì)空間。沉浸式設(shè)備的發(fā)展釋放了用戶的立體視覺,研究者們開始發(fā)掘3維交互空間在可視化中的潛力。

人們對(duì)3維的視覺感知來自于雙目視差、遮擋和相對(duì)大小等深度提示(Renner 等,2013)。一方面,用戶能夠輕易識(shí)別3維物體的形態(tài); 另一方面,3維中的視角傾斜會(huì)使2維平面圖形產(chǎn)生形變,使用戶難以識(shí)別(Munzner,2014)。因此,如何在3維環(huán)境中進(jìn)行有效的可視化設(shè)計(jì)是大數(shù)據(jù)可視化交互領(lǐng)域的研究熱點(diǎn)之一。

點(diǎn)是可視化中的重要標(biāo)記。在2維平面中,通??梢圆捎命c(diǎn)的位置、大小和顏色等視覺通道編碼數(shù)據(jù)的不同屬性。在3維環(huán)境中,Kraus等人(2020)通過用戶實(shí)驗(yàn)發(fā)現(xiàn)相比于2維平面上的散點(diǎn)圖,用戶可以在虛擬現(xiàn)實(shí)環(huán)境下更加有效地識(shí)別3維散點(diǎn)圖中的聚類。Alper等人(2011)提出了一種在3維環(huán)境中對(duì)圖數(shù)據(jù)結(jié)構(gòu)進(jìn)行可視化的方法。該技術(shù)利用立體深度,通過將用戶感興趣的區(qū)域投影到更靠近用戶視線的平面上進(jìn)行突出顯示。然而,上述可視化方法占據(jù)了3維位置的視覺通道,因此不能編碼點(diǎn)在3維環(huán)境中的位置。為了解決上述問題,Krekhov和 Krüger(2019)以及Krekhov 等人(2020)提出了Deadeye技術(shù),通過分裂呈現(xiàn)的方法對(duì)點(diǎn)進(jìn)行突出顯示。如圖2所示,分裂呈現(xiàn)技術(shù)根據(jù)對(duì)每只眼睛呈現(xiàn)不同的刺激,將需要高亮的點(diǎn)在一只眼中顯示。通過這種技術(shù),需要高亮的點(diǎn)可以立即被視覺系統(tǒng)檢測到。

圖2 分裂呈現(xiàn)技術(shù)效果圖(Krekhov 等,2020)Fig.2 Effect of split rendering technology (Krekhov et al., 2020)

線等視覺元素廣泛應(yīng)用于時(shí)空數(shù)據(jù)可視化中。然而傳統(tǒng)的2維流圖將同一區(qū)域不同時(shí)間的流動(dòng)投影至一片區(qū)域中, 造成不同時(shí)間流動(dòng)情況相互覆蓋。時(shí)空立方體是一種在3維環(huán)境下對(duì)時(shí)空數(shù)據(jù)進(jìn)行直觀可視化的方法。時(shí)空立方體采用水平方向上的兩個(gè)維度編碼位置信息,采用垂直方向上的維度編碼時(shí)間信息。Ssin等人(2019)提出了一種基于時(shí)空立方體對(duì)軌跡數(shù)據(jù)進(jìn)行可視化的技術(shù)GeoGate。GeoGate是一種增強(qiáng)現(xiàn)實(shí)環(huán)境下的可視化系統(tǒng)。該系統(tǒng)擴(kuò)展了時(shí)空立方體,并采用一個(gè)環(huán)形用戶界面來探索多個(gè)位置數(shù)據(jù)集中實(shí)物之間的相關(guān)性。Filho等人(2019)提出了一種虛擬現(xiàn)實(shí)環(huán)境下的時(shí)空數(shù)據(jù)可視化系統(tǒng)。該工作使用時(shí)空立方體構(gòu)建虛擬現(xiàn)實(shí)環(huán)境下的原型系統(tǒng),將多維數(shù)據(jù)集與用戶桌面的虛擬表示相結(jié)合。在展示地理流動(dòng)數(shù)據(jù)的場景中,Yang等人(2019)通過增加高度,將2D地圖中的流分開,通過實(shí)驗(yàn)得出將流按照不同高度展示可以提高用戶辨別地圖中流的準(zhǔn)確率。

圖可視化是信息可視化中的一個(gè)重要領(lǐng)域。傳統(tǒng)的2維圖布局會(huì)在數(shù)據(jù)量增大時(shí)出現(xiàn)嚴(yán)重的遮擋問題,為了解決此問題,Kwon等人(2016)提出了沉浸式環(huán)境下的圖可視化的布局、渲染和交互技術(shù)的設(shè)計(jì),提高了人們對(duì)大數(shù)量級(jí)圖可視化的探索分析能力,如圖3所示。

圖3 沉浸式圖可視化(Kwon 等,2016)Fig.3 Immersive graph visualization (Kwon et al.,2016)

1.1.2 非視覺感知的交互輔助

非視覺感知包括聽覺、觸覺、嗅覺與味覺。這些感知在日常生活中為人們提供了大量的信息,例如方位、聲音和溫度等,并與視覺一起幫助人們感知與理解周圍的事物。近年來,多模態(tài)硬件技術(shù)愈發(fā)成熟,用以產(chǎn)生或模擬非視覺感知的設(shè)備逐步地小型化與商業(yè)化,這促使大數(shù)據(jù)可視化交互領(lǐng)域開始研究非視覺的交互方式。這種數(shù)據(jù)交互方法將用戶沉浸在數(shù)據(jù)中,并在視覺感知外提供聽覺、觸覺等感知通道,提升用戶的參與感與沉浸感,讓用戶感知在單一視覺通道上難以被發(fā)現(xiàn)的細(xì)節(jié)和模式。

在非視覺感知中,聽覺是最容易實(shí)現(xiàn)的感知通道。通過物體發(fā)出的立體聲,用戶能夠輕易辨識(shí)其所在的方位、遠(yuǎn)近等信息(Siu 等,2020);而語音則可高效地傳遞描述數(shù)據(jù)的語義信息(Kong 等,2019)。聲音的音調(diào)、音色、音量以及聽者所在的位置都可作為數(shù)據(jù)映射的通道并用以編碼類別以及連續(xù)的數(shù)據(jù)類型,例如Franklin和Roberts(2003)將餅圖中的類別信息、占比轉(zhuǎn)化為各類型的聲音;Xi和Kelley(2015)則提出了利用聲音分析時(shí)序數(shù)據(jù)的工具。

觸覺感知能夠?yàn)橛脩籼峁┪矬w紋理、溫度和振動(dòng)幅度等類別或連續(xù)的信息。利用振幅的大小,Prouzeau 等人(2019)將3維散點(diǎn)圖中點(diǎn)云的密度映射為不同振幅的等級(jí),提升了用戶發(fā)現(xiàn)點(diǎn)云中心高或低密度的區(qū)域的感知能力。此外,數(shù)據(jù)物理化則是將抽象數(shù)據(jù)轉(zhuǎn)化為可觸摸實(shí)物的方法,通過讓用戶與實(shí)物觸摸而不僅僅是觀看來提升探索數(shù)據(jù)的效率,例如柱狀圖(Hu,2015)、節(jié)點(diǎn)鏈接圖(Dragicevic 等,2021)等。

嗅覺與味覺具有易于記憶和識(shí)別的優(yōu)勢(shì)。利用各種氣味所提供的類別信息以及氣流流速、溫度等連續(xù)信息,嗅覺與味覺同樣能夠編碼離散與連續(xù)的數(shù)據(jù)。例如viScent(Patnaik 等,2019)提出了不同氣味與數(shù)據(jù)類型的映射空間以將數(shù)據(jù)編碼為不同的氣味。

非視覺感知作為視覺感知的補(bǔ)充,能夠提升用戶分析理解數(shù)據(jù)的效率,例如在分析大量或高密度分布的數(shù)據(jù)可視化時(shí),讓用戶感知視野之外或被遮擋的數(shù)據(jù)信息。另外,對(duì)于部分無法獲取大數(shù)據(jù)可視化中視覺信息的人群而言,非視覺感知的交互能將可視化中的信息轉(zhuǎn)化成非視覺信息傳達(dá)給他們。然而,這些感知的使用往往帶來額外的疲勞感,例如長時(shí)間觸摸所導(dǎo)致的手臂疲勞,進(jìn)而降低分析的時(shí)長。同時(shí)如何將高維、多變量等復(fù)雜數(shù)據(jù)進(jìn)行非視覺感知的編碼與設(shè)計(jì)仍尚待研究。

1.1.3 多模態(tài)交互設(shè)計(jì)

在大數(shù)據(jù)可視化交互領(lǐng)域,除了可視化設(shè)計(jì),現(xiàn)有的研究重點(diǎn)還集中在探索更加自然直觀的交互方式,以提升人們?cè)?維空間對(duì)大數(shù)據(jù)可視化的操作效率。多模態(tài)交互結(jié)合單一模態(tài)的優(yōu)點(diǎn),充分發(fā)揮了人們對(duì)各個(gè)感知通道傳達(dá)信息的高度接收與處理能力,增強(qiáng)用戶對(duì)交互行為的理解,提高對(duì)大數(shù)據(jù)可視化的探索與分析效率。

1)基于接觸的交互。以智能手機(jī)、平板為主的移動(dòng)設(shè)備為可視化交互提供了高清晰度的畫面和高精度的交互?;诮佑|的交互支持用戶直接通過手部或者手持傳感器觸碰可視化標(biāo)記,傳遞對(duì)數(shù)據(jù)的交互表達(dá),這類自然的交互方式的操作精度較高,并且能夠增強(qiáng)用戶在探索大數(shù)據(jù)可視化時(shí)對(duì)信息的理解。如圖4所示,Langner等人(2021)通過平板觸控的方式準(zhǔn)確地選擇可視化圖表以更新HoloLens中所見的增強(qiáng)內(nèi)容。

圖4 通過平板觸控的交互(Langner 等,2021)Fig.4 Interaction through tablet touch(Langner et al.,2021)((a)map visualization;(b)nervous system visualization)

除了增強(qiáng)現(xiàn)實(shí)環(huán)境中基于觸屏的交互方式外,接觸式交互在虛擬現(xiàn)實(shí)中也很常見。例如,如圖5所示,Usher等人(2018)的VR(virtual reality)系統(tǒng)可以通過跟蹤用戶手部動(dòng)作來捕獲用戶勾勒出來的腦神經(jīng)路徑。與數(shù)據(jù)交互后產(chǎn)生的觸覺反饋可以提升用戶交互的直觀性和沉浸感。研究者探索了虛實(shí)物體結(jié)合的交互方式,將真實(shí)物體作為虛擬標(biāo)記在真實(shí)世界中的參照物給用戶觸碰來提升交互的精確性。例如,研究者將沉浸空間中的地圖或數(shù)據(jù)點(diǎn)投影等2維可視化平面視為如圖5所示的虛擬桌面并將其映射至真實(shí)桌面(Wagner 等,2021),用戶可以直接點(diǎn)擊桌面來操作對(duì)應(yīng)數(shù)據(jù)。此外,Cordeil等人(2020)使用3個(gè)滑塊軸將數(shù)據(jù)坐標(biāo)軸實(shí)物化,用戶可以通過操作滑塊的位置來精準(zhǔn)地選擇軸空間內(nèi)的數(shù)據(jù)。

圖5 通過手部跟蹤捕獲勾勒的路徑(Usher 等,2018)Fig.5 Capture the outlined path through hand tracking(Usher et al.,2018)

2)基于手勢(shì)的交互。動(dòng)作識(shí)別和傳感器技術(shù)的發(fā)展讓基于手勢(shì)的交互逐漸成為常用的交互方式之一?;谑謩?shì)的交互使用可跟蹤設(shè)備或捕捉用戶手指的移動(dòng)來捕捉手部動(dòng)作,幫助用戶完成對(duì)數(shù)據(jù)的操控(Büschel 等,2018)。一種常見的手勢(shì)交互技術(shù)是光線投射的目標(biāo)指向,用戶可以使用手柄等裝置射出的光線來選擇與光線相交的最近對(duì)象。為了增加這類交互方式的精確度,RayCursor(Baloup 等,2019)增加了如圖6所示的沿投射光線方向的紅色的控制光標(biāo)來避免被遮擋散點(diǎn)的選擇。此外,F(xiàn)iberClay(Hurter 等,2019)支持用戶操控手柄射出的射線來完成對(duì)軌跡的篩選,如圖7所示。

圖6 虛擬桌面示意圖(Wagner 等,2021)Fig.6 Schematic diagram of VirtualDesk(Wagner et al.,2021)

圖7 基于光線投射的交互設(shè)計(jì)(Baloup 等,2019)Fig.7 Interactive design based on ray casting(Baloup et al., 2019)

除了光線投射技術(shù)的指向隱喻,其他諸如抓取、拖動(dòng)等的隱喻也都有相關(guān)研究。如圖8(a)所示,Wagner等人(2021)采用了虛擬手的隱喻,設(shè)計(jì)抓取和拉伸等動(dòng)作完成對(duì)時(shí)空軌跡可視化的移動(dòng)、縮放和選擇等操作;Yang等人(2021a)利用雙手合攏與展開的手勢(shì)實(shí)現(xiàn)了散點(diǎn)圖的縮放操作,如圖8(b)所示;TiltMap(Yang 等,2021b)通過改變手柄的傾斜角度來實(shí)現(xiàn)如圖8(c)所示的對(duì)地圖可視化的不同視圖之間的切換。這些交互方式通過直觀的手勢(shì)隱喻,幫助用戶減輕了許多交互負(fù)擔(dān)。

圖8 3種基于手勢(shì)隱喻的交互設(shè)計(jì)(Wagner 等,2021;Yang 等,2021a,b)Fig.8 Three interaction designs based on gesture metaphor (Wagner et al.,2021;Yang et al.,2021a,b)((a) virtual hand metaphor for grasping, stretching, and other interactions; (b) scaling interaction for visualizations with pinch gesture; (c) changing views with the tilt of the controller)

3)基于注視的交互。利用用戶的視線信息進(jìn)行注視交互也是探索大數(shù)據(jù)可視化時(shí)一種常見的交互模態(tài)?;谧⒁暤慕换ネㄟ^眼動(dòng)追蹤技術(shù)捕捉用戶的視線焦點(diǎn),從而理解用戶視線中傳遞的信息,例如當(dāng)前關(guān)注的內(nèi)容,或者用戶的心理狀態(tài)等。更進(jìn)一步,系統(tǒng)可以基于這些信息完成交互,例如高亮用戶關(guān)注的內(nèi)容(Kwok 等,2019)。Sidenmark等人(2020)使用該技術(shù)輔助用戶如圖9所示在虛擬3維場景中選擇一些被遮擋的物體:用戶注視物體輪廓上的圓點(diǎn),并使用視線控制圓點(diǎn)在物體未被遮擋的輪廓線上移動(dòng),從而精準(zhǔn)地選中被部分遮擋的物體。Alghofaili等人(2019)則使用長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory, LSTM)模型對(duì)用戶眼動(dòng)數(shù)據(jù)進(jìn)行異常檢測,從而判斷用戶是否適應(yīng)當(dāng)前的虛擬環(huán)境,并在用戶迷失時(shí)給予輔助反饋。

圖9 通過眼動(dòng)追蹤技術(shù)完成目標(biāo)選擇的交互設(shè)計(jì)(Sidenmark 等,2020)Fig.9 Interaction design of target selection through eye tracking technology(Sidenmark et al.,2020)

4)基于移動(dòng)導(dǎo)航的交互。移動(dòng)導(dǎo)航也是探索呈現(xiàn)在虛擬的廣闊3維場景里的大數(shù)據(jù)可視化中一個(gè)重要的交互模態(tài)。然而虛擬空間會(huì)出現(xiàn)與物理空間不匹配的情況,影響用戶在虛擬空間中達(dá)到最佳觀察點(diǎn),降低探索能力。為此,交互式的移動(dòng)導(dǎo)航可以輔助用戶移動(dòng)到最佳的觀察點(diǎn),甚至同時(shí)規(guī)避空間感知不一致性帶來的生理不適。Abtahi等人(2019a)通過建立3個(gè)層級(jí)的真實(shí)速度到虛擬速度的映射,便于用戶在狹小的真實(shí)空間內(nèi)遍歷數(shù)據(jù)可視化呈現(xiàn)空間。此外,虛擬移動(dòng)技術(shù)更進(jìn)一步地拓寬了遍歷虛擬空間的可能性。此類技術(shù)包括指定位置進(jìn)行直接傳送(Funk 等,2019)、使用3維縮略圖進(jìn)行傳送(Yang 等,2021a)以及使用手柄控制飛行動(dòng)作(Drogemuller 等,2018)等。

1.2 基于聲場感知的交互

基于聲場感知的交互技術(shù)按照工作原理可分為以下3種:1)測量并識(shí)別特定空間、通路的聲音頻響特性或動(dòng)作導(dǎo)致的聲音頻響特性變化;2)使用麥克風(fēng)組/陣列的聲波測距 (角) 實(shí)現(xiàn)聲源的定位,可通過發(fā)聲體發(fā)出特定載波音頻提升定位精度與魯棒性;3)機(jī)器學(xué)習(xí)算法識(shí)別特定場景、環(huán)境或者人體發(fā)出的聲音。技術(shù)方案包括單一基于聲場感知的方法與傳感器融合的方案。

本節(jié)從基于聲場感知的動(dòng)作識(shí)別、基于聲源定位的交互技術(shù)、基于副語音信息的語音交互增強(qiáng)以及普適設(shè)備上的音頻感知與識(shí)別4個(gè)方面綜述國際上基于聲場感知的交互技術(shù)。

1.2.1 基于聲場感知的動(dòng)作識(shí)別

基于聲場感知實(shí)現(xiàn)不同手勢(shì)與動(dòng)作的識(shí)別是人機(jī)交互的熱點(diǎn)研究內(nèi)容,基于手勢(shì)或者姿態(tài)帶來聲場變化的基礎(chǔ),實(shí)現(xiàn)手勢(shì)或動(dòng)作的識(shí)別。比如使用耳機(jī)上的麥克風(fēng)識(shí)別摘戴耳機(jī)是最直觀的手勢(shì)識(shí)別,R?ddiger等人(2021)利用內(nèi)耳麥克風(fēng)識(shí)別出了中耳內(nèi)鼓膜張肌的收縮等用于交互。對(duì)于雙手手勢(shì)的識(shí)別,很多研究者會(huì)增加揚(yáng)聲器來構(gòu)建設(shè)備周圍的聲場,通過分析麥克風(fēng)接受到的信號(hào)變化來識(shí)別相應(yīng)的手勢(shì)。對(duì)于筆記本電腦、屏幕等固定設(shè)備,研究者使用聲場識(shí)別出了手在空中的揮動(dòng)、停留等手勢(shì)(Ruan 等,2016;Gupta 等,2012)。而手表和腕帶等可穿戴設(shè)備上的應(yīng)用則更加廣泛,Han 等人(2017)通過手表上的特殊排布的麥克風(fēng)陣列識(shí)別了手腕的轉(zhuǎn)動(dòng)、拍手臂、不同位置打響指等手勢(shì),BemBand(Iravantchi 等,2019)利用腕帶上超聲波信號(hào)完成了對(duì)于手掌姿態(tài)、豎拇指等手勢(shì)的識(shí)別。除此之外,很多研究將聲音信號(hào)與陀螺儀的運(yùn)動(dòng)信號(hào)結(jié)合以實(shí)現(xiàn)更加精細(xì)的動(dòng)作識(shí)別,早期Ward等人(2005)利用兩個(gè)腕帶上的麥克風(fēng)和陀螺儀進(jìn)行過簡單手勢(shì)識(shí)別的探索。而近幾年傳感器精度和質(zhì)量的逐步提升,更多相關(guān)研究提高了手勢(shì)識(shí)別的準(zhǔn)確度與精度,F(xiàn)ingerSound(Zhang等,2017a)與FingerPing(Zhang 等,2018)均識(shí)別拇指在其他手指上的點(diǎn)擊與捏合動(dòng)作,且FingerPing利用了不同手勢(shì)下的共振信息,減少了對(duì)于陀螺儀的依賴,TapSkin(Zhang 等,2016)識(shí)別出了手表附近皮膚上的點(diǎn)擊等更精細(xì)的手勢(shì)交互動(dòng)作。除了手勢(shì)動(dòng)作本身,部分研究探索了用戶在與其他物品交互時(shí)的行為和手勢(shì),Acustico(Gong 等,2020)利用腕帶上貼近桌面的麥克風(fēng)識(shí)別出了用戶在桌面上點(diǎn)擊的2維位置用于交互輸入,Pentelligence(Schrapel等,2018)和WritingHacker(Yu 等,2016)利用筆上麥克風(fēng)較準(zhǔn)確地還原出用戶書寫的字跡,而Ono等人(2013)利用玩具上的麥克風(fēng)識(shí)別出了用戶的觸摸位置。

1.2.2 基于聲源定位的交互技術(shù)

聲源定位通常依賴于精確的距離測量。通過不同的聲學(xué)測距方法,可以得到聲源與麥克風(fēng)的距離;再通過三角定位法,即可得到聲源的位置。聲學(xué)測距的常用方法包括基于多普勒效應(yīng)、基于相關(guān)和基于相位的測距方法,此外在雷達(dá)系統(tǒng)中廣泛應(yīng)用的調(diào)頻連續(xù)波(frequency modulated continuous wave, FMCW)也在近些年應(yīng)用于聲學(xué)測距?;谝陨下晫W(xué)測距技術(shù),可以實(shí)現(xiàn)手勢(shì)識(shí)別、設(shè)備追蹤等交互技術(shù)。

1.2.3 基于副語音信息的語音交互增強(qiáng)

近年來有許多研究者研究了利用“言語中的非言語信息”來加強(qiáng)語音互動(dòng)。Goto等人(2002)提出利用語音過程中的用戶在元音處的短暫停頓自動(dòng)顯示候選短語輔助用戶記憶,并提出了利用用戶有意控制的音高移位切換語音輸入模式(Goto 等,2003),以及利用語音中的停頓和音高區(qū)分連續(xù)對(duì)話中的人人對(duì)話和人機(jī)對(duì)話(Goto 等,2004)。Kitayama等人(2003)提出了利用自然語音交互中的口語現(xiàn)象和停頓進(jìn)行噪音魯棒的端點(diǎn)檢測和免喚醒。Kobayashi 和Fujie(2013)研究了人—機(jī)器人對(duì)話中的副語言協(xié)議。Maekawa(2004)與Fujie 等人(2003)討論了副語言產(chǎn)生和感知的原理。Fujie 等人(2004)研究了利用副語言信息改進(jìn)對(duì)話系統(tǒng)。Harada 等人(2006,2009)研究了利用元音質(zhì)量、音量和音高等屬性的光標(biāo)控制。House等人(2009)將這一思想延續(xù)到利用連續(xù)聲音特征控制3維機(jī)械臂。Igarashi和Hughes(2001)研究了利用非言語信息的連續(xù)語音控制和速率的參數(shù)。

1.2.4 普適設(shè)備上的音頻感知與識(shí)別

近年來,普適音頻設(shè)備不斷普及,產(chǎn)業(yè)界對(duì)于普適音頻設(shè)備不斷投入,眾多研究者致力于研究普適設(shè)備上的音頻感知與識(shí)別。普適音頻設(shè)備對(duì)于音頻數(shù)據(jù)的實(shí)時(shí)性采集使得其在聲音實(shí)時(shí)分類事件上具有優(yōu)勢(shì),如Rossi等人(2013)提出了利用智能手機(jī)麥克風(fēng)實(shí)時(shí)進(jìn)行環(huán)境聲音識(shí)別的系統(tǒng)AmbientSense。普適音頻設(shè)備的聲音感知還常常用在健康與生理感知領(lǐng)域,用以捕捉、推斷用戶的生理信息。如Thomaz 等人(2015)提出利用腕部音頻設(shè)備捕捉環(huán)境聲音,進(jìn)行識(shí)別后推斷用戶飲食活動(dòng)的方法,幫助用戶進(jìn)行飲食自我監(jiān)測。Amoh和 Odame(2015)提出利用可穿戴聲學(xué)傳感器結(jié)合卷積神經(jīng)網(wǎng)絡(luò)檢測咳嗽的技術(shù)。與環(huán)境的聲音檢測類似,對(duì)于更廣義上的用戶行為,Lu 等人(2009)利用手機(jī)麥克風(fēng)對(duì)人當(dāng)前活動(dòng)(開車、乘坐公交車等)的識(shí)別進(jìn)行了探索。商業(yè)產(chǎn)品或應(yīng)用也快速發(fā)展與成熟,其中最具有代表性的是蘋果手機(jī)手表上的環(huán)境音感知(咳嗽、報(bào)警等)。

1.3 混合現(xiàn)實(shí)實(shí)物交互

通過真實(shí)物體實(shí)現(xiàn)與虛擬對(duì)象進(jìn)行交互的方法稱為“實(shí)物交互界面”(Ishii和Ullmer,1997)。在實(shí)物交互系統(tǒng)中,用戶通過使用在真實(shí)環(huán)境中存在的實(shí)物對(duì)象與虛擬環(huán)境進(jìn)行交互,由于用戶對(duì)實(shí)物本身的各種特性(如形狀、重量)非常熟悉,可以使得交互的過程更為精準(zhǔn)和高效(Zhou 等,2008)。近年來,將實(shí)物交互界面技術(shù)融入虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)已成為本領(lǐng)域的一個(gè)主流方向,并逐漸形成了“實(shí)物混合現(xiàn)實(shí)”的概念,這也正是被動(dòng)力觸覺的概念基礎(chǔ)。2017年,Zhao 等人(2017)將實(shí)物交互的觸覺分為3種方式:1)靜態(tài)的被動(dòng)力觸覺;2)具有反饋的被動(dòng)力觸覺(即相遇型觸覺);3)主動(dòng)的力觸覺。由于主動(dòng)力觸覺裝置比較昂貴,目前的研究很少,主要研究方向仍是靜態(tài)的被動(dòng)力觸覺和相遇型觸覺。關(guān)于被動(dòng)力觸覺的混合現(xiàn)實(shí)交互方式,目前國際上各個(gè)國家和機(jī)構(gòu)的研究水平差別不大,但略有側(cè)重。

1.3.1 靜態(tài)的被動(dòng)力觸覺

在靜態(tài)的被動(dòng)力觸覺方面,加拿大多倫多大學(xué)和美國芝加哥大學(xué)等團(tuán)隊(duì)曾提出過Thors Hammer(Heo 等,2018)以及PHANTOM(Massie和Salisbury,1994)兩種比較具有代表性的研究。如圖10所示,通過1 ∶1制作的物理實(shí)物道具提供逼真的動(dòng)覺和觸覺反饋,提高用戶的觸摸感受以及操作能力,并且可以通過對(duì)實(shí)物的觸摸來對(duì)虛擬對(duì)象進(jìn)行操作。靜態(tài)的被動(dòng)力觸覺是在混合現(xiàn)實(shí)環(huán)境中實(shí)現(xiàn)觸覺交互的一種早期探索,但這些剛性道具在形狀上往往和虛擬道具不匹配,或者是道具數(shù)量有限,不能滿足交互的需求。因此,可變換的被動(dòng)力觸覺便應(yīng)運(yùn)而生。加拿大多倫多大學(xué)的Araujo等人(2016)提出了Snake Charmer,可以動(dòng)態(tài)地改變交互對(duì)象的紋理特征和材質(zhì)信息,在虛擬環(huán)境中渲染不同的對(duì)象時(shí)仍能夠保持觸覺和視覺的一致性(Lee等,2006)。

圖10 虛擬現(xiàn)實(shí)中的觸覺反饋(Heo 等,2018)Fig.10 Haptics feedback in virtual reality(Heo et al.,2018)

1.3.2 相遇型被動(dòng)力觸覺及3種觸覺設(shè)備

早在1993年,McNeely(1993)就提出機(jī)器人圖形(robotic graphics)的概念,他認(rèn)為觸覺輸出具有極大的價(jià)值,并建議使用機(jī)械臂或者機(jī)器人作為形狀載體,動(dòng)態(tài)地提供物理反饋。如今,這種方式已用于混合現(xiàn)實(shí)環(huán)境中,并有了深遠(yuǎn)的進(jìn)步。對(duì)于有反饋的被動(dòng)力觸覺系統(tǒng),從交互道具角度,有反饋的被動(dòng)力觸覺系統(tǒng)的交互載體主要有穿戴式、手持式和機(jī)器人式3大類(Huang 等,2020a)。與目前市場上主流的交互方式——如HTC Vive和Oculus Quest的交互手柄相比,基于被動(dòng)力觸覺的混合現(xiàn)實(shí)交互方式可以讓用戶在混合現(xiàn)實(shí)場景中更真實(shí)地操作物體,并提供力反饋。

1)可穿戴式觸覺反饋設(shè)備??纱┐魇接|覺反饋設(shè)備通過觸覺手套、觸覺服飾等方式,直接將機(jī)械系統(tǒng)產(chǎn)生的力反饋或者電反饋施加在用戶的手部或身上,直觀地進(jìn)行被動(dòng)力反饋觸覺。美國斯坦福大學(xué)的Choi等人(2016)提出的Wolverine是一個(gè)典型的例子。Wolverine通過低成本和輕量級(jí)的設(shè)備,可以直接在拇指和3根手指之間產(chǎn)生力,以模擬墊式握持式物體,比如抓握茶杯和球。在低功耗的情況下能反饋超過100 N的反饋力。但是,這些可穿戴設(shè)備的缺點(diǎn)是,用戶在混合現(xiàn)實(shí)環(huán)境中必須要時(shí)刻穿戴著反饋裝置,有一定不適感,并且難以實(shí)現(xiàn)裸手交互。

2)手持式觸覺設(shè)備。手持式觸覺設(shè)備是通過用戶單手或雙手抓握指定的物體,從而對(duì)用戶實(shí)現(xiàn)力反饋,具有代表性的研究如日本東京大學(xué)的Transcalibur(Shigeyama 等,2019)以及JetController(Wang 等,2021)。Transcalibur是一個(gè)可以手持的2維移動(dòng)VR控制器,可以在2維平面空間改變其質(zhì)量特性的硬件原型,并應(yīng)用數(shù)據(jù)驅(qū)動(dòng)方法獲取質(zhì)量特性與感知形狀之間的映射關(guān)系。通過手持控制器可以有效實(shí)現(xiàn)用戶抓握和操作物體,并且可以一定程度上降低用戶的眩暈感。但手持式的觸覺設(shè)備往往需要額外的定位裝置,否則用戶一旦在虛擬環(huán)境中放下手持式裝置,便難以再次抓起。

3)機(jī)器人式觸覺反饋設(shè)備。機(jī)器人式觸覺反饋設(shè)備是以可移動(dòng)或者可變形的機(jī)器人作為觸覺代理裝置,實(shí)現(xiàn)可移動(dòng)和可變換的觸覺方式。最早可以追溯到2015年,Cheng 等人(2015)使用TurkDeck的方法,借助工作人員將一系列通用模塊搬運(yùn)和組裝為用戶即將觸碰到的被動(dòng)實(shí)物,使用戶不僅能夠看到、聽到,還能觸摸到整個(gè)虛擬環(huán)境。Suzuki等人(2020)在此基礎(chǔ)之上提出了Roomshift方法,通過實(shí)時(shí)控制混合現(xiàn)實(shí)交互空間的小車來移動(dòng)環(huán)境中的實(shí)物物體,提供多種交互方式。Abtahi 等人(2019b)提出了Beyond the Force(P.Abtahi),通過可飛行的無人機(jī)作為觸覺代理,提供動(dòng)態(tài)的被動(dòng)力觸覺。圖11所示的4軸飛行器目前可以支持3種功能: 被動(dòng)觸覺的動(dòng)態(tài)定位、紋理映射和作為可交互的被動(dòng)道具。而且,無人機(jī)在交互環(huán)境中任意移動(dòng),顯著地拓展了交互的空間范圍。

圖11 相遇型被動(dòng)力觸覺裝置(Abtahi 等,2019b)Fig.11 Encounter-type haptic devices(Abtahi et al.,2019b)

1.3.3 產(chǎn)業(yè)界進(jìn)展

在產(chǎn)業(yè)界,F(xiàn)acebook和Microsoft是研究混合現(xiàn)實(shí)被動(dòng)力觸覺交互的中堅(jiān)力量。2019年Facebook更新了交互裝置Tasbi,一款具有震動(dòng)和擠壓兩種反饋方式的觸覺回饋腕帶。2020年,Microsoft提出了PIVOT(Kovacs 等,2020),通過可變形的交互裝置實(shí)現(xiàn)動(dòng)態(tài)的相遇型觸覺反饋。PIVOT是一個(gè)戴在手腕上的觸覺設(shè)備,可以根據(jù)需要將虛擬對(duì)象呈現(xiàn)在用戶的手上。Dexmo在2020年發(fā)布了新的觸覺手套,Dexmo外骨骼手套制作精良,該產(chǎn)品面向企業(yè)市場。Dexmo觸覺手套支持跟蹤多達(dá)11個(gè)自由度的手勢(shì),可以靈巧地捕獲用戶完整的手部動(dòng)作,從而使用戶在虛擬環(huán)境中擁有逼真的手指感。不只是手部的力反饋,英國的TeslaSui生產(chǎn)了對(duì)全身提供被動(dòng)力觸覺的設(shè)備,其產(chǎn)品可將觸覺反饋傳輸?shù)缴眢w的任何區(qū)域,從輕柔的觸摸到體力的消耗感以及溫度改變,并能輸出運(yùn)動(dòng)捕捉和生物識(shí)別信息。采用帶有性能監(jiān)控和感覺刺激的TeslaSuit可以應(yīng)用于公共安全、企業(yè)培訓(xùn)、體育和醫(yī)療康復(fù)等領(lǐng)域。

1.4 可穿戴交互

國際上可穿戴交互主要分為以手表手環(huán)形式為主的手勢(shì)交互和觸控交互的研究、皮膚電子技術(shù)與交互設(shè)計(jì)。

1.4.1 手勢(shì)交互與觸控交互

使用可伸展和貼皮式電子器件為實(shí)現(xiàn)皮膚界面提供了新的思路,可用于創(chuàng)造輕薄的電子皮膚,允許用戶在其上實(shí)現(xiàn)觸控并具有生理信號(hào)監(jiān)測、視覺顯示和觸覺顯示的功能(Withana等,2018)。實(shí)現(xiàn)觸覺反饋將在皮膚界面的交互里變得尤為重要,這取決于皮膚自身的觸覺感知能力。德國的Patric Baudisch團(tuán)隊(duì)嘗試了通過腕帶手表在皮膚上實(shí)現(xiàn)拖動(dòng)的觸感,可設(shè)計(jì)簡單且容易被用戶感知和記憶的字符和圖標(biāo)(Ion等,2015)。韓國科學(xué)技術(shù)院的人機(jī)交互團(tuán)隊(duì)探索了使用針陣列的觸覺方式在手指上提供經(jīng)過編譯的信息(Je等,2017),以及通過氣流在皮膚表皮實(shí)現(xiàn)非接觸式的壓力觸感(Lee 等,2016)。加拿大多倫多大學(xué)利用記憶金屬在手腕上實(shí)現(xiàn)擠壓的觸覺反饋(Gupta等,2017),通過控制驅(qū)動(dòng)的線寬、力和速度產(chǎn)生不同感受的反饋。美國斯坦福大學(xué)的Sean Follmer團(tuán)隊(duì)通過設(shè)計(jì)手持式觸覺設(shè)備來模擬虛擬操作物體的重力反饋(Choi 等,2017)。系統(tǒng)中兩個(gè)音圈致動(dòng)器通過不對(duì)稱的皮膚變形產(chǎn)生與每個(gè)指墊相切的虛擬力,這些力可以視為虛擬物體的重力和慣性力。

1.4.2 電子皮膚交互

皮膚作為人們與外界接觸的天然界面,已初步用于探索在信息交互中的作用并在若干方面的應(yīng)用中體現(xiàn)了其優(yōu)勢(shì)。德國薩爾州大學(xué)的Jürgen Steimle團(tuán)隊(duì)近些年通過導(dǎo)電墨水、電極制作紋身紙,作為電子皮膚實(shí)現(xiàn)在皮膚上的顯示、觸摸和手勢(shì)識(shí)別(Groeger和Steimle,2017;Olberding等,2014;Weigel和Steimle,2017)。相比于觸摸屏,人們?cè)谧约旱钠つw上移動(dòng)手指顯得更加靈活,而通過紋身紙的方式使得在皮膚表面附屬的設(shè)備輕而薄,更容易被用戶接受。來自于該團(tuán)隊(duì)的一項(xiàng)用戶研究證明,用戶在皮膚上進(jìn)行的觸摸手勢(shì)和傳統(tǒng)觸摸屏手勢(shì)較為一致,但同時(shí)也因?yàn)槠つw獨(dú)有的特點(diǎn),用戶設(shè)計(jì)出了更為豐富的觸控手勢(shì),證明了皮膚作為觸控界面的可行性和優(yōu)勢(shì)(Weigel等,2014)。同樣是對(duì)皮膚界面的探索,美國卡內(nèi)基梅隆大學(xué)的Chris Harrison團(tuán)隊(duì)采取了在皮膚上投影的方式,通過肩戴投影(Harrison等,2011)或手表微投影(Laput等,2014;Xiao等,2018),將手臂、手背變成顯示屏,并通過深度相機(jī)或紅外線等方式支持手指在皮膚表面的觸控。這種方式可以更好地支持探索人們使用皮膚界面的體驗(yàn),但缺點(diǎn)也顯而易見,即需要較為復(fù)雜的投影等附屬設(shè)備。同時(shí),該團(tuán)隊(duì)系統(tǒng)地研究了把身體的各個(gè)部位當(dāng)做觸摸界面時(shí)的可行性和用戶的喜好程度(Harrison和Faste,2014),對(duì)后續(xù)的研究具有參考價(jià)值。這些項(xiàng)目的相似之處是在皮膚上發(fā)展和拓展觸控交互的模式。

另一方面,研究者也在探索皮膚界面的獨(dú)特用途,比如嘗試把皮膚用做設(shè)計(jì)和創(chuàng)作的交互平臺(tái)。加拿大Autodesk研究院探討了如何利用人體手臂的皮膚構(gòu)建一個(gè)3D建模和制造的平臺(tái),并展示了以皮膚為中心的建模技術(shù)(Gannon等,2015,2016)。韓國科學(xué)技術(shù)院的研究者們?cè)噲D讓用戶在自己身上進(jìn)行繪制來設(shè)計(jì)服裝(Saakes等,2016)。挪威代爾夫特技術(shù)大學(xué)的Charlie C L Wang團(tuán)隊(duì)則允許用戶在自己皮膚和手臂上進(jìn)行服裝設(shè)計(jì)的同時(shí)通過熱感應(yīng)來分析舒適度(Zhang 等,2017c)。美國麻省理工學(xué)院(Massachusetts Institute of Technology,MIT)的Media Lab開展了多項(xiàng)以人體和皮膚為基礎(chǔ)的概念探索項(xiàng)目,向人們展示了可生材料、具有生物活性材料與人體皮膚結(jié)合時(shí)產(chǎn)生的設(shè)計(jì)、制造以及藝術(shù)價(jià)值(Yao 等,2015)。

1.5 人機(jī)對(duì)話交互

人機(jī)對(duì)話交互過程涉及語音識(shí)別、情感識(shí)別、對(duì)話系統(tǒng)和語音合成等多個(gè)模塊,其主要框架如圖12所示。首先,用戶輸入的語音通過語音識(shí)別和情感識(shí)別模塊轉(zhuǎn)化為相應(yīng)的文本和情感標(biāo)簽。而后,對(duì)話系統(tǒng)將其用來理解用戶所表達(dá)的內(nèi)容,并生成對(duì)話回復(fù)。最后,語音合成模塊將對(duì)話回復(fù)轉(zhuǎn)換為語音,與用戶進(jìn)行交互。人機(jī)對(duì)話交互的性能不僅僅取決于對(duì)話系統(tǒng)的質(zhì)量,高效魯棒的語音(情感)識(shí)別與語音合成技術(shù)對(duì)于提高用戶黏性發(fā)揮著至關(guān)重要的作用。

圖12 人機(jī)對(duì)話交互框架圖Fig.12 Human-computer diaglog framework

1.5.1 語音識(shí)別

目前國際與國內(nèi)對(duì)于語音識(shí)別系統(tǒng)的研究已經(jīng)不再局限于提升識(shí)別的準(zhǔn)確度,而是研究在更加復(fù)雜場景下的語音識(shí)別模型的表現(xiàn)??傮w概括來看,低延遲語音識(shí)別和低資源語音識(shí)別成為研究熱點(diǎn)。

目前國際上針對(duì)低延遲語音識(shí)別主要從兩方面進(jìn)行研究,一方面是研究流式語音識(shí)別,實(shí)現(xiàn)邊聽邊識(shí)別,以此來降低識(shí)別出每個(gè)標(biāo)記的延遲;另一方面是研究非自回歸語言識(shí)別,通過擺脫解碼時(shí)的時(shí)序依賴從而加速整個(gè)系統(tǒng)的識(shí)別速度。

針對(duì)流式語音識(shí)別的研究主要有兩種思路,一種是針對(duì)RNN-Transducer模型進(jìn)行改進(jìn),提出了表現(xiàn)更好的 Transformer-Transducer (Zhang 等,2020a;Yeh 等,2019)、Conformer-Transducer (Huang 等,2020c;Guo 等,2021)。雙通解碼方法(Sainath 等,2019)的提出,進(jìn)一步提升了基于Transducer的流式識(shí)別模型的準(zhǔn)確率。另一種是對(duì)基于注意力機(jī)制的編碼解碼模型(attention-based encoder decoder, AED)的改進(jìn), 其實(shí)現(xiàn)思路主要是改進(jìn)單調(diào)逐塊注意力機(jī)制(monotonic chunk-wise attention, MoChA)(Chiu和Raffel,2018),其解決的主要問題是MoChA模型在Transformer上的適配以及對(duì)于通過輔助手段對(duì)模型切分編碼狀態(tài)的位置以及數(shù)量進(jìn)行約束(Inaguma 等,2020a,b)。

針對(duì)非自回歸語音識(shí)別方面的研究,國際研究上也日趨火熱。非自回歸語音識(shí)別因?yàn)閿[脫了序列模型解碼階段的時(shí)序依賴,獲得了廣泛的速度提升,在自然語言處理(natural language processing,NLP)領(lǐng)域和語音領(lǐng)域均獲得了很多關(guān)注。針對(duì)非自回歸語音識(shí)別模型的提升整體上也是從兩個(gè)角度來進(jìn)行研究的,一方面是先通過編碼器預(yù)測初始標(biāo)簽,解碼器進(jìn)行糾錯(cuò)或補(bǔ)全(Chi 等,2021;Higuchi 等,2021);另一方是通過解碼器從空白序列出發(fā),基于編碼器的聲學(xué)狀態(tài),預(yù)測得到完整的輸出序列(Chen 等,2020a)。

近年來,國際上也掀起了針對(duì)低資源語音識(shí)別任務(wù)的研究高潮,普遍采用自監(jiān)督技術(shù)或預(yù)訓(xùn)練技術(shù)(Schneider 等,2019;Baevski等,2020a,b;Sadhu 等,2021;Hsu 等,2021)。其中最具代表性的就是Facebook(已改名為Meta)提出的wav2vec系列工作(Baevski等,2020a,b),其將輸入音頻波形直接編碼為聲學(xué)向量表示,并通過矢量量化技術(shù)對(duì)聲學(xué)向量表示進(jìn)行聚類,整個(gè)預(yù)訓(xùn)練階段使用對(duì)比算法進(jìn)行自監(jiān)督學(xué)習(xí),然后在少量標(biāo)注數(shù)據(jù)上進(jìn)行微調(diào)。

1.5.2 語音情感識(shí)別

語音情感識(shí)別研究的早期階段遵循傳統(tǒng)的模式識(shí)別流程,即先進(jìn)行特征提取,然后進(jìn)行分類器設(shè)計(jì)。特征提取階段大多依賴于手工設(shè)計(jì)的與情感相關(guān)的聲學(xué)特征。大體上,這些聲學(xué)特征可以分為3類,分別是韻律學(xué)特征、譜相關(guān)特征以及音質(zhì)特征(Zhuge 等,2021)。開源工具openSMILE(韓文靜等,2014)通常用于提取一些經(jīng)典的情感聲學(xué)特征集。受益于深度學(xué)習(xí)革命的到來,利用深度神經(jīng)網(wǎng)絡(luò)直接從原始數(shù)據(jù)中提取特征并進(jìn)行分類的端到端學(xué)習(xí)范式逐漸占據(jù)主導(dǎo)地位。這些研究有的從時(shí)域的原始語音信號(hào)入手(Eyben 等,2010),有的則從頻域的語譜圖入手(Tzirakis 等,2018),此外也有一些研究同時(shí)結(jié)合兩者進(jìn)行端到端的語音情感識(shí)別(Li 等,2018)。由于語音情感識(shí)別的數(shù)據(jù)庫通常都比較小,人工設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)往往容易過擬合,因此學(xué)習(xí)到的聲學(xué)情感表征可能會(huì)面臨著泛化能力不足的問題。為此,一些研究(Hershey 等,2017;Zhao 等,2018)采用在大規(guī)模音頻數(shù)據(jù)庫上預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)(如基于卷積神經(jīng)網(wǎng)絡(luò)的VGGish(Bakhshi 等,2020)、Wavegram-Logmel-CNN(Zhao 等,2018)和PLSA(pretraining, sampling, labeling, and aggregation)(Kong 等,2020),以及基于Transformer的AST(audio spectrogram Transformer)(Gong 等,2021b)等)進(jìn)行特征提取,當(dāng)然也可以繼續(xù)在語音情感識(shí)別數(shù)據(jù)庫上進(jìn)行微調(diào)。受益于最近大規(guī)模無監(jiān)督預(yù)訓(xùn)練的興起,目前已有不少研究采用自監(jiān)督學(xué)習(xí)的方式從大量未標(biāo)注的語音數(shù)據(jù)中提取有用的音頻表征并用于下游的情感識(shí)別任務(wù),如MockingJay(Liu 等,2020),Tera(Liu 等,2020),wav2vec 2.0(Liu 等,2021;Baevski 等,2020b;Pepino 等,2021)等。此外,為了挖掘語音信號(hào)中的語義信息,也有一些研究同時(shí)結(jié)合聲學(xué)信息和文本信息進(jìn)行多模態(tài)語音情感識(shí)別的研究(Li 等,2021;Yoon 等,2019,2020)。

1.5.3 語音合成

目前語音合成研究主要集中在韻律建模、聲學(xué)模型以及聲碼器等模型的建模之中,以提高合成語音的音質(zhì)和穩(wěn)定性,并提高在小樣本數(shù)據(jù)集上的泛化性。具體地,谷歌Deepmind研究團(tuán)隊(duì)提出了基于深度學(xué)習(xí)的WavetNet(van den Oord 等,2016)語音生成模型。該模型可以直接對(duì)原始語音數(shù)據(jù)進(jìn)行建模,避免了聲碼器對(duì)語音進(jìn)行參數(shù)化時(shí)導(dǎo)致的音質(zhì)損失,在語音合成和語音生成任務(wù)中效果非常好。2017年1月,Sotelo等人(2017)提出了一種端到端的用于語音合成的模型Char2 Wav,其有兩個(gè)組成部分:一個(gè)讀取器和一個(gè)神經(jīng)聲碼器。讀取器用于構(gòu)建文本(音素)到聲碼器聲學(xué)特征之間的映射;神經(jīng)聲碼器則根據(jù)聲碼器聲學(xué)特征生成原始的聲波樣本。本質(zhì)上講,Char2 Wav (Sotelo 等,2017)是真正意義上的端到端語音合成系統(tǒng)。谷歌科學(xué)家提出了一種新的端到端語音合成系統(tǒng) Tacotron(Wang 等,2017b),該模型可接收字符的輸入,輸出相應(yīng)的原始頻譜圖,然后將其提供給 Griffin-Lim 重建算法直接生成語音。此外,由于 Tacotron 是在幀層面上生成語音,所以它比樣本級(jí)自回歸方式快得多。研究人員進(jìn)一步將Tacotron和WaveNet進(jìn)行結(jié)合(Shen 等,2018),在某些數(shù)據(jù)集上能夠達(dá)到媲美人類說話的水平。為了提高合成效率,一些聲碼器加速工作也有顯著進(jìn)展(Valin和Skoglund,2019;Yamamoto 等,2020)。

1.5.4 對(duì)話系統(tǒng)

對(duì)話系統(tǒng)從應(yīng)用角度劃分,可以分為任務(wù)型對(duì)話系統(tǒng)和閑聊型對(duì)話系統(tǒng);從方法上劃分,可以分為基于管道的方法和基于端到端的方法?;诠艿赖姆椒ㄐ枰謩e實(shí)現(xiàn)自然語言理解、對(duì)話管理和自然語言生成3個(gè)模塊,最終形成一個(gè)完整的系統(tǒng)。這種模塊級(jí)聯(lián)的方式會(huì)導(dǎo)致誤差傳遞問題,因此基于端到端的方法目前成為主流的對(duì)話系統(tǒng)方案。

為克服端到端對(duì)話系統(tǒng)中存在知識(shí)難以融入學(xué)習(xí)框架的問題,Eric等人(2017)引入鍵值檢索網(wǎng)絡(luò)整合知識(shí)庫信息。Madotto等人(2018)提出了Mem2Seq(memory to sequence)模型,采用指針網(wǎng)絡(luò)實(shí)現(xiàn)將知識(shí)庫嵌入到對(duì)話系統(tǒng)中。Wu等人(2019)改進(jìn)了Mem2Seq模型,提出GLMP(global-to-local memory pointer)模型,將外部知識(shí)融入對(duì)話系統(tǒng)之前進(jìn)行過濾,并且加入了骨架循環(huán)神經(jīng)網(wǎng)絡(luò)機(jī)制生成對(duì)話模板。

除了基于文本的對(duì)話系統(tǒng),學(xué)者們?cè)诙嗄B(tài)對(duì)話系統(tǒng)方面做了許多工作。Barbieri等人(2018)根據(jù)對(duì)話上下文預(yù)測emoji表情。Haber等人(2019)設(shè)計(jì)了一種對(duì)話系統(tǒng),讓用戶使用自然語言與機(jī)器談?wù)摻o定的視覺內(nèi)容。

1.6 多模態(tài)融合

如何將不同模態(tài)的信息在人機(jī)交互系統(tǒng)中有效融合,提升人機(jī)交互的質(zhì)量,同樣值得關(guān)注。多模態(tài)融合的方法可分為3種:特征層融合方法、決策層融合方法以及混合融合方法(Debie 等,2021)。3種融合方法如圖13所示。特征層融合方法將從多個(gè)模態(tài)中抽取的特征通過某種變換映射為一個(gè)特征向量,而后送入分類模型中,獲得最終決策;決策層融合方法將不同模態(tài)信息獲得的決策合并來獲得最終決策;混合融合方法同時(shí)采用特征層融合方法和決策層融合方法,例如可以將兩種模態(tài)特征通過特征層融合獲得的決策與第3種模態(tài)特征獲得的決策進(jìn)行決策層融合來得到最終決策。

圖13 3種不同的多模態(tài)融合方法Fig.13 Three different multi-modal fusion methods((a)feature level fusion;(b)decision level fusion;(c)hybrid fusion)

2 國內(nèi)研究進(jìn)展

2.1 大數(shù)據(jù)可視化交互

2.1.1 大數(shù)據(jù)可視化設(shè)計(jì)

在大數(shù)據(jù)可視化領(lǐng)域,國內(nèi)的發(fā)展也已經(jīng)逐漸走向成熟,每年都有許多可視分析系統(tǒng)不斷涌現(xiàn)(Chen 等,2021;Wang 等,2021;Deng 等,2021)。近年,沉浸式大數(shù)據(jù)可視化得到了發(fā)展,浙江大學(xué)的Ye等人(2021)探索了如圖14所示的無縫結(jié)合羽毛球比賽數(shù)據(jù)繪制的2D和3D可視化視圖的問題,Chu等人(2022)探索了結(jié)合高度來凸顯羽毛球數(shù)據(jù)中多個(gè)戰(zhàn)術(shù)之間存在的差異性問題,如圖15所示。由此可以看出,沉浸式大數(shù)據(jù)可視化對(duì)數(shù)據(jù)分析和展示問題提出了有效的解決方法。

圖14 2D和3D可視化結(jié)合的設(shè)計(jì)(Ye 等,2021)Fig.14 Design combining 2D and 3D visualization(Ye et al.,2021)

圖15 3維羽毛球戰(zhàn)術(shù)可視化(Chu 等,2022)Fig.15 3D badminton tactic visualization(Chu et al.,2022)

但是相比國外學(xué)者在沉浸式大數(shù)據(jù)可視化上的研究,國內(nèi)仍處于起步階段,所以接下來的發(fā)展還需要各高校繼續(xù)深入研究。

2.1.2 非視覺感知的交互輔助

大數(shù)據(jù)可視化交互中,非視覺的感知交互方式以觸覺最為常見。通過反饋力的大小與方向,用戶可以使用觸覺直觀地感知到連續(xù)的高維數(shù)據(jù)信息。趙儉輝等人(2021)使用電磁力反饋設(shè)計(jì)了一種交互方法,并解決了虛擬手術(shù)中沉浸感不足的問題。如圖16所示,用戶在虛擬手術(shù)中操作的導(dǎo)絲可以獲得真實(shí)手術(shù)環(huán)境下的多種反饋力,同時(shí)用戶也獲得了更逼真的手術(shù)體驗(yàn),提高了術(shù)前虛擬訓(xùn)練的效果。在一部分沉浸式系統(tǒng)中,用戶的3維感知也在分析中發(fā)揮了重要的作用。如圖17所示,杭州師范大學(xué)的潘志庚等人(2021)通過一種數(shù)字對(duì)象和真實(shí)物體的孿生配準(zhǔn)技術(shù)將虛擬世界中的物體渲染到真實(shí)世界中,從而將多種分析對(duì)象放置于分析者身旁。該技術(shù)充分利用分析者對(duì)于分析對(duì)象的3維感知。在教學(xué)實(shí)驗(yàn)中,該技術(shù)可以輔助參與者有效地進(jìn)行磁感線的交互式學(xué)習(xí)。近幾年,國內(nèi)圍繞嗅覺、聽覺等通道的成果還較為匱乏并落后于國外。這些感知通道還需要研究者進(jìn)一步探索其交互方式以及配套硬件設(shè)施。

圖16 介入手術(shù)中導(dǎo)絲導(dǎo)管力反饋(趙儉輝 等,2021)Fig.16 Force feedback of guidewire during interventional surgery(Zhao et al.,2021)

圖17 數(shù)字對(duì)象(左)以及渲染出的真實(shí)對(duì)象(右)(潘志庚 等,2021)Fig.17 Digital object (left) and the rendered real object (right)(Pan et al.,2021)

1)基于接觸的交互。觸控式大屏的出現(xiàn)對(duì)多人協(xié)同分析大數(shù)據(jù)可視化起到了促進(jìn)的功能。仁光科技先后設(shè)計(jì)了13種自然交互對(duì)觸控式的可視化大屏進(jìn)行數(shù)據(jù)操作,例如手指觸控、筆觸觸控,通過觸控式交互可完成對(duì)數(shù)據(jù)的選擇、可視化的拖拽縮放等。

2)基于手勢(shì)的交互。西南科技大學(xué)的Wang等人(2020a)提出了一套基于手勢(shì)的“所見即所得”的交互方式,可完成對(duì)體數(shù)據(jù)進(jìn)行抓取移動(dòng)等動(dòng)作,與在真實(shí)場景里的交互動(dòng)作一樣。浙江大學(xué)的Ye等人(2021)設(shè)計(jì)了具象化的羽毛球揮拍隱喻用于飛行軌跡的篩選,羽毛球分析專家揮動(dòng)VR手柄,根據(jù)空氣動(dòng)力學(xué),系統(tǒng)會(huì)基于手柄的移動(dòng)方向和移動(dòng)速度模擬一條虛擬的羽毛球軌跡,并從已有數(shù)據(jù)中查詢到與之相似的軌跡并進(jìn)行分析。

3)基于注視的交互。視線追蹤技術(shù)捕捉人們的視線焦點(diǎn),可以代替手部對(duì)數(shù)據(jù)進(jìn)行選擇的操作行為,減少手部交互帶來的疲勞。Hu等人(2021)提出的FixationNet可以根據(jù)人們的歷史凝視位置、探索任務(wù)的對(duì)象以及用戶的頭部移動(dòng)速度,預(yù)測其在VR中近期的注視情況,F(xiàn)ixationNet提高了任務(wù)為導(dǎo)向的可視分析系統(tǒng)中用戶的探索能力。

4)基于移動(dòng)導(dǎo)航的交互。移動(dòng)是沉浸式大數(shù)據(jù)可視化中最常用的交互之一,山東大學(xué)的Li等人(2020)提出了一種重定向行走方法,支持用戶在物理空間中行走較小的距離,同時(shí)在虛擬環(huán)境里完成遠(yuǎn)距離的行走,解決了物理空間有限的問題。他們提出了一種基于Voronoi的方法來生成行走路徑,并且采用重定位和曲率調(diào)整的靜態(tài)圖映射方法將虛擬空間的行走路徑與物理空間進(jìn)行映射,由此實(shí)現(xiàn)在物理空間中的連續(xù)移動(dòng),拓展了人們?cè)诔两江h(huán)境中的探索空間。

2.2 基于聲場感知的交互

2.2.1 基于聲場感知的動(dòng)作識(shí)別

國內(nèi)對(duì)于聲場識(shí)別手勢(shì)的研究相對(duì)較少。其中,國內(nèi)學(xué)者提出的 PrivateTalk(Yan 等,2019)利用雙耳耳機(jī)上的麥克風(fēng)識(shí)別出了用戶捂嘴時(shí)的語音,實(shí)現(xiàn)了語音交互喚醒的優(yōu)化。魏文釗和何清波(2018)設(shè)計(jì)出了一套基于超聲波識(shí)別手勢(shì)交互的系統(tǒng)。

2.2.2 基于聲源定位的交互技術(shù)

ReflecTrack(Zhuang 等,2021)利用工作生活中的反射面,使用智能手機(jī)上的雙麥克風(fēng)實(shí)現(xiàn)了22.1 mm精度的3維聲學(xué)定位。該工作使用頻率超出人耳聽覺范圍的FMCW聲音信號(hào),同時(shí)識(shí)別直接路徑的聲音信號(hào)和反射得到的聲音信號(hào),實(shí)現(xiàn)了只需要兩個(gè)麥克風(fēng)的聲學(xué)定位技術(shù)。由于反射面在生活中很常見,基于該技術(shù)可以實(shí)現(xiàn)運(yùn)動(dòng)追蹤和精細(xì)的手勢(shì)識(shí)別等多種交互技術(shù)。FaceOri(Wang 等,2022b)利用任意智能設(shè)備的揚(yáng)聲器發(fā)出頻率超出人耳聽覺范圍的FMCW聲音信號(hào),通過使用用戶雙耳佩戴的主動(dòng)降噪耳機(jī)上的麥克風(fēng),利用超聲波測距方法,創(chuàng)新頭部相對(duì)智能設(shè)備的頭部空間位置與角度的精準(zhǔn)連續(xù)追蹤技術(shù),支持包括交互對(duì)象感知與健身動(dòng)作識(shí)別等更加智能高效的人機(jī)交互技術(shù)。

2.2.3 基于副語音信息的語音交互增強(qiáng)

Qin 等人(2021)提出了基于單麥克風(fēng)近距離風(fēng)噪特征的湊近免喚醒語音交互技術(shù)ProxiMic,可用于手機(jī)手表耳機(jī)的手持或穿戴設(shè)備的湊近即說,該工作利用人距離麥克風(fēng)近距離狀態(tài)下說話的自然吐氣特征,設(shè)計(jì)了基于風(fēng)噪一致性的兩步算法,用戶輕聲或氣聲亦可激活系統(tǒng),具有私密性強(qiáng)、魯棒性高和準(zhǔn)確率高等特點(diǎn)。

2.2.4 普適設(shè)備上的音頻感知與識(shí)別

國內(nèi)在智能手機(jī)上的音頻感知與識(shí)別研究較多,典型的如李凡等人(2021a,b)提出的兩種在駕駛環(huán)境下進(jìn)行音頻感知與識(shí)別的工作:1)利用智能手機(jī)揚(yáng)聲器收集并基于自適應(yīng)子帶譜熵方法和神經(jīng)網(wǎng)絡(luò)進(jìn)行駕駛環(huán)境下的呼吸道癥狀檢測技術(shù)(李凡 等,2021a);2)利用智能手機(jī)揚(yáng)聲器與麥克風(fēng)組成的聲吶系統(tǒng),基于物理原理實(shí)現(xiàn)車輛行駛速度的檢測方法(李凡 等,2021b)。此外,陳超(2021)提出一種利用智能手機(jī)內(nèi)置揚(yáng)聲器與麥克風(fēng)實(shí)現(xiàn)對(duì)疲勞駕駛行為感知的檢測技術(shù)。

2.3 混合現(xiàn)實(shí)實(shí)物交互

國內(nèi)在被動(dòng)力混合現(xiàn)實(shí)交互方面跟進(jìn)較為迅速,與國際上的前沿水平相差不大。目前,虛擬現(xiàn)實(shí)用戶主要通過視覺、聽覺感知環(huán)境,而具有雙向信息傳遞能力的觸覺通道往往得不到支持。觸覺呈現(xiàn)的功能缺失或位置精準(zhǔn)度低下會(huì)造成用戶對(duì)虛擬物體的感知失真,降低用戶使用沉浸感。同時(shí),觸覺引導(dǎo)的欠缺也會(huì)導(dǎo)致用戶交互效率大幅降低。北京理工大學(xué)、北京航空航天大學(xué)、中國科學(xué)院軟件研究所和中國科學(xué)院大學(xué)等項(xiàng)目組,針對(duì)長時(shí)虛擬沉浸中的顯觸失配問題,提出了一系列基于被動(dòng)觸覺的虛實(shí)融合技術(shù)。

2.3.1 靜態(tài)的被動(dòng)力觸覺

在靜態(tài)的被動(dòng)力觸覺方面,Zhao 等人(2021)提出基于紋理感知特征的觸覺信號(hào)采集方法,基于靜電振動(dòng)觸覺顯示技術(shù)及最小可覺差估計(jì)法的觸覺感知信號(hào)量化、采集多通道紋理信息,并在此基礎(chǔ)之上進(jìn)一步提出基于靜電力反饋的觸覺渲染方法,提高虛擬紋理真實(shí)感。Guo 等人(2020)提出基于實(shí)例分割的被動(dòng)觸覺對(duì)象選擇性渲染及特征化表達(dá)方法,平衡虛實(shí)融合系統(tǒng)中環(huán)境沉浸感與系統(tǒng)交互效能沖突,擴(kuò)展虛實(shí)融合場景渲染自由度,實(shí)現(xiàn)虛實(shí)空間智能化融合。

2.3.2 相遇型被動(dòng)力觸覺及3種觸覺設(shè)備

在相遇型被動(dòng)力觸覺方面,如圖18所示,Jiang等人(2019b)提出了HiFinger方法。HiFinger是一種單手可穿戴的文本輸入技術(shù),可通過拇指對(duì)手指的觸摸實(shí)現(xiàn)輸入時(shí)的觸覺反饋以及快速、準(zhǔn)確、舒適地輸入文本,適用于用戶需要在虛擬環(huán)境中移動(dòng)(如行走)的移動(dòng)場景,有效地提供了一種混合現(xiàn)實(shí)環(huán)境中的輸入解決方案。Zhang等人(2019)也開發(fā)了一種輕量的多指力反饋手套,通過一種在每個(gè)手指關(guān)節(jié)上使用分層干擾片的解決方案,在增強(qiáng)虛擬現(xiàn)實(shí)和遠(yuǎn)程操作系統(tǒng)的保真度方面具有巨大應(yīng)用潛力。Li等人(2020)針對(duì)難以在虛擬環(huán)境中添加真實(shí)物體的問題,提出了一種基于連桿機(jī)構(gòu)的原型框架HapLinkage。該框架提供了典型的運(yùn)動(dòng)模板和觸覺渲染器,便于虛擬手動(dòng)工具的代理設(shè)計(jì)。機(jī)械結(jié)構(gòu)可以很容易地修改,能夠輕松快速地為各種混合現(xiàn)實(shí)場景創(chuàng)建手動(dòng)工具的原型,并賦予它們動(dòng)力學(xué)和觸覺特性。Xue 等人(2019)提出了MMRPet(modular mixed reality pet),一種可通過磁力組裝的虛擬寵物交互裝置,模擬逼真的被動(dòng)力觸覺。通過將虛擬寵物疊加在被跟蹤的寵物實(shí)物上,兼具豐富的視覺信息和實(shí)物交互,同時(shí)寵物實(shí)物采用模塊化的結(jié)構(gòu)設(shè)計(jì),各模塊能夠以不同方式相連接,構(gòu)成不同形態(tài)結(jié)構(gòu)的寵物實(shí)物,避免不同的虛擬寵物均需要一個(gè)單獨(dú)的寵物實(shí)物作為被動(dòng)力觸覺反饋的提供者,使被動(dòng)力觸覺反饋方案更加靈活,同時(shí)賦予用戶更多的交互自由。

2.3.3 產(chǎn)業(yè)界進(jìn)展

在產(chǎn)業(yè)界,國內(nèi)目前的發(fā)展較為遲緩,目前還沒有非常完善的混合現(xiàn)實(shí)觸覺解決方案。國內(nèi)主要提供混合現(xiàn)實(shí)設(shè)備的公司,目前在觸覺外設(shè)方面仍處于探索階段。除HTC Vive的控制手柄之外,研究人員曾經(jīng)提出過一種沉浸式地板。地板上安置有大量電動(dòng)微型模塊,它們會(huì)根據(jù)用戶在混合現(xiàn)實(shí)中的內(nèi)容改變地板的表面形狀,提供一定的被動(dòng)力反饋。此外,PPGun VR曾推出過一款槍型控制器,便于優(yōu)化用戶在虛擬環(huán)境中的射擊體驗(yàn)。通過與主機(jī)相連的仿真步槍,用戶可以真實(shí)地完成射擊、填裝子彈等一系列操作。但由于觸覺代理對(duì)象種類繁多而且形狀復(fù)雜,目前混合現(xiàn)實(shí)中的觸覺并沒有一套產(chǎn)業(yè)化的解決方案。

2.4 可穿戴交互

國內(nèi)對(duì)可穿戴設(shè)備交互的研究主要集中在新型的傳感技術(shù)來支撐手勢(shì)、語音等交互行為,以及對(duì)交互意圖理解和交互界面的優(yōu)化等方向。中國科學(xué)院計(jì)算技術(shù)研究所陳益強(qiáng)團(tuán)隊(duì)從事普適計(jì)算的研究,包括用手表內(nèi)置傳感器進(jìn)行用戶手臂動(dòng)作的捕捉,并依次進(jìn)行用戶動(dòng)作建模及拓展其在空間環(huán)境里的交互場景(Wang 等,2019;Chen 等,2020b)。北京大學(xué)張大慶團(tuán)隊(duì)利用可穿戴設(shè)備和WiFi信號(hào)解析,對(duì)用戶在空間中的動(dòng)作和其自身的生理指標(biāo)進(jìn)行監(jiān)測(Yang 等,2015;Wang 等,2016)。如提出一種基于轉(zhuǎn)換的分割方法,利用一對(duì)接收器天線上的相位差方差作為顯著特征,自動(dòng)分割連續(xù)捕獲的 WiFi 無線信號(hào)流中的所有跌倒和類似跌倒的活動(dòng)。南京大學(xué)謝磊團(tuán)隊(duì)等對(duì)以可穿戴RFID(radio frequency identification)標(biāo)簽為基礎(chǔ)的無線信號(hào)傳感進(jìn)行建模和解析,支持用戶動(dòng)作和行為的檢測(Xie等,2010;Wang 等,2018)。系統(tǒng)中只在標(biāo)簽陣列后面部署一根RFID天線,持續(xù)測量標(biāo)簽陣列發(fā)出的信號(hào),根據(jù)相應(yīng)的信號(hào)變化識(shí)別手勢(shì),并將多根手指作為一個(gè)整體進(jìn)行識(shí)別,然后提取多根手指的反射特征作為圖像。

同時(shí),國內(nèi)的研究重視對(duì)人因元素的考慮和對(duì)用戶行為的建模。清華大學(xué)史元春團(tuán)隊(duì)研究手表等小型觸摸屏上的文字輸入問題,通過新型的表盤界面設(shè)計(jì)與用戶意圖推理等技術(shù)的結(jié)合,創(chuàng)造出高效的文字輸入技術(shù)(Yi等,2017;Han 等,2018)。要輸入文本,用戶可以轉(zhuǎn)動(dòng)表圈,用光標(biāo)敲擊圓形鍵盤上的鍵,為了最小化旋轉(zhuǎn)距離,每個(gè)光標(biāo)的位置在每次按鍵選擇后根據(jù)需要下一個(gè)按鍵的概率進(jìn)行動(dòng)態(tài)優(yōu)化。中國科學(xué)院軟件研究所田豐團(tuán)隊(duì)在設(shè)備周圍的手勢(shì)交互技術(shù)實(shí)現(xiàn)和高效的適用于小屏幕的手表命令界面的設(shè)計(jì)等方面進(jìn)行了創(chuàng)新(Han 等,2017,2018)。如一種新的手勢(shì)是通過將屏幕上的一個(gè)角拖動(dòng)到不同的方向和距離來執(zhí)行的,每個(gè)角都映射到某個(gè)命令,并且可以卷曲/剝離以瀏覽命令下可用的值。Robin Bing-Yu Chen團(tuán)隊(duì)研究了用手掌和指間作為觸摸界面在手勢(shì)輸入和文字輸入等方面的應(yīng)用(Huang 等,2016;Wang 等,2015)。該工作解決了兩個(gè)人體工程學(xué)因素:手部解剖結(jié)構(gòu)和觸摸精度。手部解剖結(jié)構(gòu)限制了拇指的可能運(yùn)動(dòng),這進(jìn)一步影響了交互過程中的身體舒適度。觸摸精度是一個(gè)人為因素,它決定了用戶可以如何精確地操作設(shè)置在手指上的觸摸小部件,以及小部件的有效布局。清華大學(xué)史元春團(tuán)隊(duì)同時(shí)在觸控、手勢(shì)和語音等多模態(tài)輸入通道下交互行為優(yōu)化和自然等方面做出創(chuàng)新(Qin等,2021)。如用戶可以將嵌入麥克風(fēng)的設(shè)備放在嘴邊,并直接對(duì)著設(shè)備說話,而無需使用喚醒詞或按下按鈕,為了檢測靠近麥克風(fēng)的語音,系統(tǒng)使用了用戶說話并向麥克風(fēng)吹氣時(shí)觀察到的爆音的特征。

2.5 人機(jī)對(duì)話交互

2.5.1 語音識(shí)別

國內(nèi)與國外針對(duì)語音識(shí)別的研究整體趨勢(shì)是趨同的,但是在聚焦的技術(shù)方面還是存在一定的差異。國內(nèi)的實(shí)驗(yàn)研究也緊跟低延遲語音識(shí)別和低資源語音識(shí)別兩個(gè)方向。

針對(duì)低延遲語音識(shí)別方面,國內(nèi)以中科院、清華大學(xué)和西北工業(yè)大學(xué)為代表,圍繞非自回歸語音識(shí)別模型做了不少探索性的工作;在流式語音識(shí)別方面,國內(nèi)劃分成3種思路:1)字節(jié)跳動(dòng)公司、騰訊公司和中國科學(xué)院自動(dòng)化研究所對(duì)Transducer模型進(jìn)行了實(shí)用化的改進(jìn),提升識(shí)別速度和準(zhǔn)確率(Huang 等,2020b;Tian 等,2019,2021b;Tian等,2021a);2)百度公司聚焦于使用CTC(connectionist temporal classification)模型對(duì)連續(xù)編碼狀態(tài)進(jìn)行切分,然后使用注意力模型進(jìn)行解碼,先后提出了SMLTA(streaming multi-layer truncated attention model)和SMLTA2(http://research.baidu.com/Blog/index-view?id=109);3)中國科學(xué)院自動(dòng)化研究所、出門問問公司和阿里巴巴公司嘗試實(shí)現(xiàn)將流式模型和非流式模型統(tǒng)一到一個(gè)框架中(Tian 等,2020;Zhang 等,2020b)。

受限于計(jì)算資源和數(shù)據(jù)規(guī)模,國內(nèi)高校科研單位對(duì)于自監(jiān)督與無監(jiān)督語音識(shí)別的研究偏少,這部分研究主要集中于企業(yè),有京東公司、字節(jié)跳動(dòng)公司、猿輔導(dǎo)和滴滴,其工作偏向跟隨和擴(kuò)展性質(zhì),其代表工作包括SCALA(supervised contrastive learning)和BERT(bidirectional encoder representations from Transformers)的變體(Jiang 等,2019a,2021;Fu 等,2021)。

2.5.2 語音情感識(shí)別

國內(nèi)語音情感識(shí)別的研究早期階段也集中在區(qū)分性語音情感特征的提取以及分類器的設(shè)計(jì)(Sun 等,2021;趙力 等,2004;金學(xué)成,2007)。如,東南大學(xué)的趙力團(tuán)隊(duì)(Sun 等,2021)在2004年提出了一種利用全局和時(shí)序結(jié)構(gòu)的組合特征以及MMD(modified Mahalanobis distance discriminant)進(jìn)行語音情感特征識(shí)別的方法。而后受益于深度學(xué)習(xí)的發(fā)展,一些新型的深度神經(jīng)網(wǎng)絡(luò)逐漸用于語音情感識(shí)別并取得了不錯(cuò)的效果,包括深度信念網(wǎng)絡(luò)(韓文靜 等,2008)、基于高效通道注意力的CRNN(convolutional recurrent neural network)(韓文靜 等,2014)和Sinc-Transformer (戴研研 等,2021)等。在數(shù)據(jù)庫建設(shè)方面,中國科學(xué)院自動(dòng)化研究所錄制了CASIA(Institute of Automation, Chinese Academy of Sciences)漢語情感語料庫,該數(shù)據(jù)庫涵蓋了4位錄音人在純凈錄音環(huán)境下以5類不同情感演繹的9 600句語音。

2.5.3 語音合成

在語音合成領(lǐng)域,國內(nèi)研究與國際基本保持一致。為了提高模型的魯棒性,百度公司提出了 Deep Voice和支持多說話人的Deep Voice 2(Ark 等,2017),它通過相應(yīng)的神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)參數(shù)語音合成流程中的每一個(gè)組件。為了提高模型在小數(shù)據(jù)上的泛化性(Jia 等,2018),中國科學(xué)院自動(dòng)化研究所等科研機(jī)構(gòu)通過將目標(biāo)說話人的韻律與音色進(jìn)行解耦(Wang 等,2020b),提高模型的泛化性,在小數(shù)據(jù)集的目標(biāo)說話人上表現(xiàn)良好。國內(nèi)各大互聯(lián)網(wǎng)廠商也陸續(xù)推出基于個(gè)性化語音合成的算法服務(wù),有助于語音合成推廣到更加廣泛的領(lǐng)域。

2.5.4 對(duì)話系統(tǒng)

針對(duì)融合知識(shí)的端到端對(duì)話系統(tǒng),哈爾濱工業(yè)大學(xué)的研究人員改進(jìn)了Mem2Seq(Madotto 等,2018)模型中存在的實(shí)物生成不一致的問題(Qin 等,2019),并且提出動(dòng)態(tài)融合網(wǎng)絡(luò)(Qin 等,2020)以提高對(duì)話系統(tǒng)的集外遷移能力。中國科學(xué)院自動(dòng)化研究所的研究人員(Chen 等,2019)提出采用一種心理學(xué)模型將外部知識(shí)與端到端對(duì)話模型進(jìn)行有機(jī)融合。

針對(duì)多模態(tài)對(duì)話系統(tǒng),山東大學(xué)的研究人員(Cui 等,2019)提出UMD(user attention guided multimodal dialog system)模型,利用多模態(tài)編碼器和解碼器分別編碼多模態(tài)話語和生成多模態(tài)響應(yīng)。中國科學(xué)院計(jì)算技術(shù)研究所的研究人員(Debie 等,2021)建立一種開放域多模態(tài)對(duì)話數(shù)據(jù)集,推動(dòng)了多模態(tài)對(duì)話系統(tǒng)的發(fā)展。

3 國內(nèi)外研究進(jìn)展比較

3.1 大數(shù)據(jù)可視化交互

在大數(shù)據(jù)可視化交互中,由于是在傳統(tǒng)可視化的基礎(chǔ)上發(fā)展起來,面向可視化設(shè)計(jì)、交互設(shè)計(jì)的研究比較早,研究成果相對(duì)成熟,但受限于平面化的展示空間與交互空間。沉浸式技術(shù)的發(fā)展拓展了數(shù)據(jù)的呈現(xiàn),支持?jǐn)?shù)據(jù)的3維可視化,由此釋放了人們的立體視覺。受益于硬件技術(shù)的進(jìn)步,非視覺的交互技術(shù)陸續(xù)提出并用于輔助視覺交互。頭戴式設(shè)備、觸摸式大屏和傳感器的發(fā)展,為多模態(tài)可視化交互創(chuàng)造了可能性。國內(nèi)外研究進(jìn)展對(duì)比見表1。

表1 大數(shù)據(jù)可視化交互國內(nèi)外研究進(jìn)展對(duì)比Table 1 Comparison of domestic and foreign research progress on big data visualization interaction

最早沉浸式可視化是在IEEE VIS(Visualization conference) 2014年的研討會(huì)上提出,自此,國外有大量學(xué)者開始探索沉浸式可視化,并提出了系列的可視化設(shè)計(jì)、基于不同感知通道的交互設(shè)計(jì)(Siu 等,2020;Prouzeau 等,2019;Patnaik 等,2019)以及多模態(tài)融合的交互設(shè)計(jì),例如澳大利亞莫納什大學(xué)的Tim Dwyer教授帶領(lǐng)的團(tuán)隊(duì)對(duì)沉浸式地圖可視化交互提出了系列工作,包括利用高度編碼起訖點(diǎn)流圖(Yang 等,2019)、對(duì)地圖視圖進(jìn)行操作的基于接觸的交互設(shè)計(jì)(Yang 等,2021b)等,巴西南大河聯(lián)邦大學(xué)的Jorge Wagner為時(shí)空軌跡可視化的探索提出了虛擬桌面的隱喻(Filho等,2019)、對(duì)軌跡移動(dòng)旋轉(zhuǎn)篩選的一整套手勢(shì)交互設(shè)計(jì)(Wagner 等,2021)。

然而,國內(nèi)的大數(shù)據(jù)可視化交互研究主要集中在傳統(tǒng)的平面式可視分析中,沉浸式交互集中在工業(yè)場景應(yīng)用中,沉浸式可視化的發(fā)展帶動(dòng)了國內(nèi)學(xué)者對(duì)可視化交互的研究。浙江大學(xué)巫英才團(tuán)隊(duì)開展了羽毛球軌跡分析(Ye 等,2021)與戰(zhàn)術(shù)分析(Chu 等,2022)的工作,將羽毛球軌跡還原在3維空間中,利用揮拍隱喻對(duì)軌跡進(jìn)行篩選,通過小倍數(shù)圖布局對(duì)包含時(shí)序信息的戰(zhàn)術(shù)數(shù)據(jù)進(jìn)行展現(xiàn),提高了專家數(shù)據(jù)探索的能力。相較于國外,國內(nèi)基于不同感知通道的交互設(shè)計(jì)研究較為滯后,其中圍繞聽覺、嗅覺等通道的成果尤為匱乏。

總體而言,國內(nèi)外在傳統(tǒng)的大數(shù)據(jù)可視化交互的研究上較成熟,在基于多模態(tài)交互的沉浸式可視化的研究中,國外學(xué)者的工作較為多樣,國內(nèi)學(xué)者的研究較為單一,但是考慮到沉浸式可視化仍處于發(fā)展階段,國內(nèi)和國外的學(xué)者應(yīng)該相互學(xué)習(xí),推動(dòng)該領(lǐng)域共同發(fā)展。

3.2 基于聲場感知的交互

國內(nèi)外研究進(jìn)展見表2。

表2 基于聲場感知的交互國內(nèi)外研究進(jìn)展對(duì)比Table 2 Comparison of domestic and foreign research progress on interaction based on sound field

在基于聲場感知的動(dòng)作識(shí)別方面,國內(nèi)的研究相對(duì)較少,而國外對(duì)于利用耳機(jī)、腕帶和手表等可穿戴設(shè)備進(jìn)行動(dòng)作識(shí)別有更加充分的探索。應(yīng)用麥克風(fēng)和陀螺儀等傳感器,既實(shí)現(xiàn)了精細(xì)的手勢(shì)交互動(dòng)作,也對(duì)用戶與其他物品的交互方式進(jìn)行了研究。關(guān)于基于聲源定位的交互技術(shù),國內(nèi)近期的相關(guān)工作減少了定位所需的麥克風(fēng)數(shù)量,使日常場景下基于耳機(jī)和智能手機(jī)的定位成為可能。國外研究則對(duì)利用不同聲學(xué)測距方法實(shí)現(xiàn)交互技術(shù)進(jìn)行了更廣泛的探討,在被追蹤設(shè)備主動(dòng)和被動(dòng)發(fā)聲兩個(gè)方向都進(jìn)行了探索。在基于副語音信息的語音交互增強(qiáng)方向,國內(nèi)近期工作實(shí)現(xiàn)了智能設(shè)備的湊近即說;國外研究則以多種方式利用語言中的非語言信息,加強(qiáng)了人機(jī)間的語音互動(dòng)。對(duì)于普適設(shè)備上的音頻感知與識(shí)別技術(shù),國內(nèi)工作主要集中于利用智能手機(jī)上的揚(yáng)聲器和麥克風(fēng)來進(jìn)行識(shí)別,但基于其他設(shè)備的研究較少;國外工作在利用手機(jī)、腕部設(shè)備等實(shí)現(xiàn)生理感知和環(huán)境識(shí)別等方面都有涉及。整體而言,國內(nèi)在基于聲場感知的交互技術(shù)方面雖然近些年發(fā)展較快,但是整體在技術(shù)深度與應(yīng)用廣度上仍然落后于國際先進(jìn)水平。

3.3 混合現(xiàn)實(shí)實(shí)物交互

國內(nèi)外進(jìn)展見表3??傮w而言,國內(nèi)外在混合現(xiàn)實(shí)中的被動(dòng)力觸覺方向,研究進(jìn)展較為類似,但研究重點(diǎn)略有不同。在科學(xué)研究中,國際上在相遇型觸覺方面,通過使用一個(gè)或多個(gè)機(jī)器人協(xié)同控制,實(shí)現(xiàn)動(dòng)態(tài)模擬交互空間的變化方面有著明顯的優(yōu)勢(shì)。國外的機(jī)器人產(chǎn)業(yè)比較發(fā)達(dá),可用的觸覺代理往往多種多樣,比如各種大小的機(jī)器人、小車和無人機(jī)等。此外,由于更高精度的定位設(shè)備的研究比較成熟,國際上對(duì)于大范圍空間的交互進(jìn)行了更多研究,而國內(nèi)的研究往往是在用戶面前的較小范圍。國內(nèi)的研究更關(guān)注于交互裝置,以及如何通過單一、簡單的交互裝置來實(shí)現(xiàn)多種形式的觸覺。通過少量或者簡單的觸覺代理,實(shí)現(xiàn)更為復(fù)雜的功能。除此之外,國內(nèi)已經(jīng)完成了相當(dāng)一部分交互的測試工作,具有一定的參考價(jià)值。在產(chǎn)業(yè)界,國際上已經(jīng)有了手部可穿戴式、全身可穿戴式和腕部攜帶式3種比較主流的產(chǎn)品,可提供力反饋甚至熱反饋,有豐富的觸覺交互內(nèi)容。然而國內(nèi)產(chǎn)業(yè)幾乎沒有混合現(xiàn)實(shí)觸覺的解決方案,因此在觸覺方面的設(shè)備比較少。伴隨著虛擬現(xiàn)實(shí)中觸覺技術(shù)的不斷發(fā)展,相信國內(nèi)產(chǎn)業(yè)界將在此方面有一定進(jìn)展。

表3 混合現(xiàn)實(shí)實(shí)物交互國內(nèi)外進(jìn)展比較Table 3 Comparison of domestic and foreign research progress on mixed reality physical interaction

3.4 可穿戴交互

國內(nèi)外研究進(jìn)展見表4。

表4 可穿戴交互國內(nèi)外研究現(xiàn)狀Table 4 Comparison of domestic and foreign research progress on wearable interaction

3.5 人機(jī)對(duì)話交互

國內(nèi)外研究進(jìn)展見表5。

表5 人機(jī)對(duì)話交互國內(nèi)外研究進(jìn)展對(duì)比Table 5 Comparison of domestic and foreign research progress on human-machine dialogue interaction

4 結(jié) 語

本文系統(tǒng)綜述了多模態(tài)人機(jī)交互的發(fā)展現(xiàn)狀和新興方向,深入梳理了大數(shù)據(jù)可視化交互、基于聲場感知的交互、混合現(xiàn)實(shí)實(shí)物交互、可穿戴交互和人機(jī)對(duì)話交互的研究進(jìn)展和國內(nèi)外研究進(jìn)展比較。針對(duì)每項(xiàng)研究內(nèi)容的發(fā)展趨勢(shì)與展望如下:

4.1 大數(shù)據(jù)可視化交互

在大數(shù)據(jù)可視化交互中,可視化設(shè)計(jì)的研究發(fā)展較早,成果比較成熟,然而如何利用人們的多感知通道提出交互設(shè)計(jì),以增加對(duì)數(shù)據(jù)可視化的理解促進(jìn)研究,是目前的研究熱點(diǎn)之一。觸覺、聽覺等感知輔助可以減輕數(shù)據(jù)遮擋帶來的觀察不便,但是這又可能帶來用戶移動(dòng)交互上產(chǎn)生的空間范圍小、易發(fā)生碰撞等問題。因此,各模態(tài)的交互組合、適用的分析任務(wù)以及效率問題仍有待探索。

另外,由于目前設(shè)備的固有限制,人們?cè)谧龀鼋换バ袨闀r(shí),低精度的識(shí)別算法會(huì)影響分析效率,同時(shí)當(dāng)人們長時(shí)間佩戴頭戴式設(shè)備時(shí),會(huì)出現(xiàn)疲憊與不適感。識(shí)別算法的提高、無形的交互動(dòng)作和有形用戶界面的合理結(jié)合以及設(shè)計(jì)可以減輕用戶疲勞的手勢(shì)組合,也是未來需要攻克的問題。

4.2 基于聲場感知的交互

智能手機(jī)、手表和耳機(jī)等普適設(shè)備持有量持續(xù)快速增長,利用這些設(shè)備進(jìn)行聲場感知來提升用戶的交互體驗(yàn)將成為一種趨勢(shì)。現(xiàn)有工作主要面向單一設(shè)備開展研究,對(duì)跨設(shè)備的聯(lián)合感知研究相對(duì)匱乏。然而,跨設(shè)備感知可以有效地?cái)U(kuò)展感知通道,實(shí)現(xiàn)對(duì)交互意圖在感知能力上的提升,因此,基于跨設(shè)備分布式聲場感知的交互技術(shù)將會(huì)是一個(gè)新的發(fā)展趨勢(shì)。此外,類似智能耳機(jī)、智能音箱等設(shè)備的大規(guī)模使用,空間中麥克風(fēng)具有常開特性,如何實(shí)現(xiàn)隱私保留的全域感知(全屋感知等)將成為另一個(gè)發(fā)展方向。利用房間中的聲音信號(hào),既可以實(shí)現(xiàn)實(shí)時(shí)的手勢(shì)識(shí)別、運(yùn)動(dòng)追蹤,也可以對(duì)人的生理信號(hào)、健康狀況進(jìn)行監(jiān)測。使多種設(shè)備連結(jié)起來共同感知人和環(huán)境、實(shí)現(xiàn)跨設(shè)備的交互技術(shù),將減少交互路徑、使交互體驗(yàn)更加自然高效。

4.3 混合現(xiàn)實(shí)實(shí)物交互

基于被動(dòng)力觸覺的混合現(xiàn)實(shí)交互,就交互對(duì)象而言,是從單一的靜態(tài)交互物體,逐漸向多個(gè)物體、多樣化物體、可移動(dòng)的交互對(duì)象、可變形的交互裝置以及可提供動(dòng)態(tài)力反饋的方向發(fā)展。

受益于科技的發(fā)展,多模態(tài)同步混合現(xiàn)實(shí)很有可能發(fā)展為混合現(xiàn)實(shí)中人機(jī)交互的主要模式。多模態(tài)同步混合現(xiàn)實(shí)是虛擬世界與現(xiàn)實(shí)世界相結(jié)合的統(tǒng)一概念,為理解和設(shè)計(jì)連接虛擬世界和現(xiàn)實(shí)世界的各種系統(tǒng)提供了一些思路。系統(tǒng)將被動(dòng)力觸覺和主動(dòng)力觸覺相結(jié)合,可以給用戶更好的交互體驗(yàn)。交互的觸覺代理會(huì)更小型化、更易獲得、甚至就是日常生活中常用的物品。綜上所述,觸覺反饋在混合現(xiàn)實(shí)中有著重要的地位,并在未來有著很大的應(yīng)用前景。

4.4 可穿戴交互

智能穿戴設(shè)備正逐步成為普適計(jì)算的載體和方式之一,朝著微型化、集成化、依賴無所不在的實(shí)時(shí)網(wǎng)絡(luò)和傳感器獲取數(shù)據(jù)、通過大量數(shù)據(jù)的實(shí)時(shí)采集和計(jì)算分析、通過增強(qiáng)的視覺和觸覺感官及認(rèn)知體驗(yàn)來實(shí)現(xiàn)設(shè)備與用戶、設(shè)備與環(huán)境、以及用戶與環(huán)境之間的自然交互發(fā)展。面對(duì)智能穿戴技術(shù)迅猛發(fā)展和用戶需求增加,必須提升已有的智能穿戴人機(jī)交互技術(shù),拓展新的交互通道和交互方式,拓寬人機(jī)數(shù)據(jù)溝通渠道,增強(qiáng)設(shè)備采集和處理生物信號(hào)能力,探索高效自然的關(guān)鍵交互原則和交互技術(shù)。

4.5 人機(jī)對(duì)話交互

語音識(shí)別方面,自回歸語音識(shí)別模型能夠極大地降低系統(tǒng)的延遲,在非流式識(shí)別場景具有重要的應(yīng)用價(jià)值,但是性能還有待提升;噪聲、多說話人和說話人重合等復(fù)雜場景下的語音識(shí)別準(zhǔn)確率需要進(jìn)一步提高。語音合成方面,現(xiàn)有語音合成技術(shù)主要存在兩方面的挑戰(zhàn):一是自然口語聲音的偽造很難接近真人;二是資源受限條件下偽造聲音的自然度和可懂度下降明顯。進(jìn)一步提高自然口語聲音的合成自然度和提升資源受限條件下合成聲音的音質(zhì)是語音合成的未來發(fā)展趨勢(shì)。在語音情感識(shí)別方面,學(xué)習(xí)范式上從監(jiān)督學(xué)習(xí)逐漸過渡到基于大規(guī)模無標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的無監(jiān)督學(xué)習(xí)。對(duì)話系統(tǒng)方面,多模態(tài)預(yù)訓(xùn)練模型(Fei 等,2021)蓬勃發(fā)展,將多模態(tài)預(yù)訓(xùn)練模型的強(qiáng)大表征能力與對(duì)話系統(tǒng)結(jié)合,來提高多模態(tài)對(duì)話系統(tǒng)的性能將是未來值得探索的方向。

致 謝本文由中國圖象圖形學(xué)學(xué)會(huì)人機(jī)交互專業(yè)委員會(huì)組織撰寫,該專委會(huì)更多詳情請(qǐng)見鏈接:http://www.csig.org.cn/detail/2490。

猜你喜歡
觸覺模態(tài)可視化
聯(lián)合仿真在某車型LGF/PP尾門模態(tài)仿真上的應(yīng)用
EASY-EV通用底盤模態(tài)試驗(yàn)
數(shù)據(jù)可視化設(shè)計(jì)在美妝類APP中的應(yīng)用
思維可視化
喚起人工觸覺 實(shí)現(xiàn)“意念控制”的假肢
觸覺“空降”虛擬世界
復(fù)變函數(shù)級(jí)數(shù)展開的可視化實(shí)驗(yàn)教學(xué)
復(fù)變函數(shù)級(jí)數(shù)展開的可視化實(shí)驗(yàn)教學(xué)
復(fù)變函數(shù)共形映射的可視化實(shí)驗(yàn)教學(xué)
復(fù)變函數(shù)共形映射的可視化實(shí)驗(yàn)教學(xué)