倪亞楠
關(guān)鍵詞:老年人;語(yǔ)音交互;設(shè)計(jì)
過(guò)去四十年,人與機(jī)器的交互方式在不斷朝著智能化、自然化的方向發(fā)展。隨著人工智能研究在理論和應(yīng)用層面的不斷突破,語(yǔ)音交互逐漸成為人們與設(shè)備進(jìn)行交流和傳遞意圖的優(yōu)先選擇。與傳統(tǒng)交互相比,語(yǔ)音交互更貼近自然語(yǔ)言的表達(dá),學(xué)習(xí)成本極低,可以很好地解放雙手和雙眼。語(yǔ)言是多維的,它在傳遞信息的同時(shí)也蘊(yùn)含著豐富情感,允許人與設(shè)備之間進(jìn)行更充分地互動(dòng)。結(jié)合當(dāng)下智能語(yǔ)音的技術(shù)能力,在一些具體的互聯(lián)網(wǎng)使用場(chǎng)景中,它已經(jīng)能夠很好地適應(yīng)老年群體在生理能力與認(rèn)知特性方面的不足。
1老年人認(rèn)知特性及互聯(lián)網(wǎng)介入分析
老年人感知覺(jué)能力的退化,記憶、思維能力的老化,導(dǎo)致了他們對(duì)自我能力的評(píng)價(jià)與結(jié)果預(yù)期降低,從而對(duì)融入互聯(lián)網(wǎng)產(chǎn)生消極情緒和抗拒心理。另外,信息的爆發(fā)性增長(zhǎng)使得界面變得臃腫不堪,不友好的界面加劇了兩者之間的疏離。
1.1感知覺(jué)退化與信息可達(dá)性
從界面交互所需的能力來(lái)看,老年人視覺(jué)感受性、靈敏度與色彩辨識(shí)力均逐漸下降,聽覺(jué)開始變得遲鈍,觸覺(jué)的敏感性與定位精準(zhǔn)性也降低,這無(wú)疑加劇了老年人在對(duì)界面信息進(jìn)行的輸入輸出環(huán)節(jié)的負(fù)擔(dān)。手機(jī)屏幕大小的局限性使得信息以更加密集的單位進(jìn)行輸出,對(duì)人的感知覺(jué)能力提出了越來(lái)越高的要求。
1.2記憶、思維老化與感知易用性
隨著老年人記憶衰退與思維老化,同時(shí)缺乏互聯(lián)網(wǎng)使用經(jīng)驗(yàn),他們?cè)诮尤牖ヂ?lián)網(wǎng)的過(guò)程中常常伴隨著很高的學(xué)習(xí)成本和記憶負(fù)擔(dān),因而很容易在界面層級(jí)和交互動(dòng)作中感到不知所措。目前,主流的交互設(shè)計(jì)規(guī)范定義了頁(yè)面交互的對(duì)象和方式、層級(jí)之間的關(guān)系和跳轉(zhuǎn)邏輯、功能模塊的聚合和指引等等。這些規(guī)范在易用性和美學(xué)上頗具說(shuō)服力,但卻很少以老年群體作為測(cè)試標(biāo)準(zhǔn)(如圖1),老人不僅要熟記各類密碼,并且各種APP的名稱都相對(duì)圖標(biāo)縮小化,對(duì)于視力惡化、記憶力衰退的老年人而言簡(jiǎn)直是噩夢(mèng)。
1.3消極情緒與自我效能
自我效能是社會(huì)認(rèn)知理論中一個(gè)重要的認(rèn)知?jiǎng)右?,在互?lián)網(wǎng)環(huán)境中即是指?jìng)€(gè)體完成特定界面交互任務(wù)的信心。由于老年人物理機(jī)能的退化,使得他們的自我效能降低,往往會(huì)高估互聯(lián)網(wǎng)的使用難度,從而產(chǎn)生十分消極的情緒。由此可見(jiàn),提升老年人使用互聯(lián)網(wǎng)的信心,使其在交互過(guò)程中保持積極樂(lè)觀的情緒,都能很好地提升他們使用互聯(lián)網(wǎng)的意愿。
2語(yǔ)音交互技術(shù)現(xiàn)狀與應(yīng)用趨勢(shì)
從計(jì)算機(jī)語(yǔ)言交互到圖形用戶界面交互,再到語(yǔ)音自然交互,人機(jī)交互一直朝著簡(jiǎn)單、豐富、高效、自然的方向發(fā)展。
2.1語(yǔ)音交互技術(shù)現(xiàn)狀
伴隨著計(jì)算機(jī)技術(shù)和人工智能技術(shù)的進(jìn)步,語(yǔ)音交互技術(shù)也經(jīng)歷了從規(guī)則技術(shù)向統(tǒng)計(jì)學(xué)習(xí)再到深度學(xué)習(xí)技術(shù)的升級(jí)進(jìn)化。深度對(duì)話技術(shù)借助大規(guī)模的深度神經(jīng)網(wǎng)絡(luò),顯著增強(qiáng)了對(duì)話系統(tǒng)的知識(shí)學(xué)習(xí)和應(yīng)用能力,從而極大提升了語(yǔ)音交互的用戶體驗(yàn)。
從功能實(shí)現(xiàn)角度,一套通用的語(yǔ)音交互系統(tǒng)包含如下環(huán)節(jié)(如圖2):(1)語(yǔ)音識(shí)別:將用戶的語(yǔ)音表達(dá)經(jīng)過(guò)自動(dòng)化的識(shí)別,轉(zhuǎn)化成文字;(2)自然語(yǔ)言處理:分析用戶表達(dá)中的意圖,對(duì)任務(wù)型對(duì)話而言即提煉關(guān)鍵詞填進(jìn)“詞槽”;(3)語(yǔ)音合成:將處理后的最佳結(jié)果轉(zhuǎn)化成自然語(yǔ)言,并合成語(yǔ)音,與用戶進(jìn)行交互。
2.2語(yǔ)音交互技術(shù)的應(yīng)用趨勢(shì)
2.2.1智能音箱興起
自2014年11月亞馬遜率先推出智能音箱Echo,引發(fā)全球智能音箱浪潮,隨后谷歌、蘋果、facebook等巨頭紛紛入場(chǎng)布局。在已成為僅次于美國(guó)的智能音箱第二大市場(chǎng)的中國(guó),阿里巴巴的天貓精靈、百度的小度音箱、小米的小愛(ài)音箱占據(jù)了近九成市場(chǎng)份額。
值得注意的是,2017年谷歌推出了自己的帶屏智能音箱Echo show,之后天貓精靈和百度也相繼發(fā)布帶屏智能音箱產(chǎn)品(如圖3)。從語(yǔ)音向視覺(jué)延伸,在語(yǔ)音交互中融入可視化信息,已經(jīng)是業(yè)界探索下一代語(yǔ)音交互范式的重要趨勢(shì)。
2.2.2語(yǔ)音交互與界面交互的融合趨勢(shì)
正如人工智能專家吳恩達(dá)指出的:人與機(jī)器交流最高效的方式是語(yǔ)言,而機(jī)器與人最高效的交流方式是語(yǔ)言加上視覺(jué),即需要在聽覺(jué)基礎(chǔ)上融入視覺(jué)信息彌補(bǔ)語(yǔ)音交互的不足。
目前針對(duì)語(yǔ)音交互,并沒(méi)有統(tǒng)一的設(shè)計(jì)原則。因此,參照國(guó)內(nèi)界面交互的設(shè)計(jì)原則,可總結(jié)為如下原則:(1)一致性:符合用戶心理,降低學(xué)習(xí)成本;(2)通用性:兼容多場(chǎng)景、多需求;(3)高效性:即時(shí)響應(yīng)、有效提示;(4)清晰性:信息傳達(dá)準(zhǔn)確無(wú)歧義;(5)角色為本:人文關(guān)懷與情感化。
結(jié)合語(yǔ)音交互的特征,其主要在高效性、一致性、角色為本上具備顯著優(yōu)勢(shì),具體包含:(1)釋放雙手,速度更快;(2)更貼近自然交互,學(xué)習(xí)成本極低;(3)情感關(guān)懷豐富;(4)突破界面限制。其劣勢(shì)主要有:(1)在現(xiàn)有技術(shù)條件下,信息的輸入輸出以及處理仍然具備不確定性;(2)缺乏實(shí)體支撐的語(yǔ)音,引導(dǎo)性與信息反饋均較弱,同時(shí)聽覺(jué)記憶性也更差。
3老年人語(yǔ)音交互產(chǎn)品的設(shè)計(jì)分析
語(yǔ)音和視覺(jué)結(jié)合的多通道交互形式,無(wú)法再用經(jīng)典的界面交互范式(窗口、圖標(biāo)、菜單、點(diǎn)擊設(shè)備)進(jìn)行定義。對(duì)于語(yǔ)音交互系統(tǒng)而言,更加需要明確的是:語(yǔ)音交互對(duì)象的角色設(shè)定,交互過(guò)程中存在的交互模態(tài)、采用的交互命令,以及如何利用界面和語(yǔ)音對(duì)信息內(nèi)容進(jìn)行呈現(xiàn)。
3.1角色
角色是一個(gè)擬人化的形象,它的作用是提供智能交互的界面隱喻,清晰地訴說(shuō)智能系統(tǒng)所能實(shí)現(xiàn)的功能,以及其能力的邊界,從而避免用戶不切實(shí)際的期待。此處我們可以將其定義為“網(wǎng)上沖浪助理”,所以它的功能便是引導(dǎo)并協(xié)助老年人完成一系列的上網(wǎng)任務(wù),如網(wǎng)購(gòu)、打車、社交聊天、收聽節(jié)目等。
角色另一個(gè)很重要的作用是人文關(guān)懷與情感化。目前,每一個(gè)開發(fā)智能音箱的公司都會(huì)根據(jù)其任務(wù)性質(zhì)賦予該角色一個(gè)專屬的喚醒詞,以及特定的音色、音調(diào)和語(yǔ)速。這樣做的目的就是建立情感化的形象,占領(lǐng)用戶心智。如前所述,老年人接入互聯(lián)網(wǎng)的障礙中自我效能低是重要原因之一,因此該系統(tǒng)的語(yǔ)音形象應(yīng)當(dāng)語(yǔ)速較慢、聲音清晰洪亮。
3.2交互模態(tài)
當(dāng)智能系統(tǒng)的交互形式不止一種時(shí),就需要明確其所支持的交互模態(tài),以及各個(gè)交互模態(tài)適用的場(chǎng)景。該智能助理目前支持語(yǔ)音輸入和觸摸輸入,兩者之間有時(shí)是獨(dú)立的,比如任務(wù)的開始往往是通過(guò)語(yǔ)音喚醒并用語(yǔ)音輸入任務(wù);而有時(shí)又是兼容的,比如在多個(gè)搜索結(jié)果中進(jìn)行確認(rèn)的環(huán)節(jié),既可以用觸摸確認(rèn)也可以語(yǔ)音確認(rèn)選擇“第幾個(gè)”。
3.3交互命令
對(duì)于語(yǔ)音交互模態(tài),交互命令包括特定的喚醒詞,任務(wù)輸入環(huán)節(jié)中能被識(shí)別的關(guān)鍵詞,以及信息確認(rèn)環(huán)節(jié)的瀏覽和選中指令。在學(xué)習(xí)階段,要多主動(dòng)告知用戶智能助理支持的交互指令和相應(yīng)的功能。對(duì)于觸摸交互模態(tài),交互命令則是一系列點(diǎn)擊、滑動(dòng)的動(dòng)作。
3.4信息呈現(xiàn)方式
結(jié)合上文對(duì)語(yǔ)音交互與界面交互的優(yōu)劣勢(shì)對(duì)比,在具體設(shè)計(jì)中,信息呈現(xiàn)方式需要有針對(duì)老年群體的適應(yīng)性變化:(1)老年人的視力、聽力退化,信息獲取能力下降,而且不同老年人退化的程度不一。因此,界面的圖片、字體大小應(yīng)當(dāng)支持語(yǔ)音調(diào)節(jié),并且調(diào)節(jié)后的排版依然適應(yīng)畫面大小。同時(shí),也需要有信息篩選的策略,比如在網(wǎng)購(gòu)場(chǎng)景下,引導(dǎo)用戶提出更精確的指令,盡量只展示強(qiáng)相關(guān)的搜索結(jié)果,減少信息的冗余度。(2)老年人認(rèn)知反應(yīng)速度較慢,信息確認(rèn)耗時(shí)較長(zhǎng)。因此,信息輸入與展示上應(yīng)當(dāng)留有比普通智能系統(tǒng)更長(zhǎng)的輸入等待時(shí)間,更長(zhǎng)的信息確認(rèn)時(shí)間;(3)老年人的普通話標(biāo)準(zhǔn)程度低,意圖表達(dá)過(guò)于口語(yǔ)化。這首先對(duì)語(yǔ)音識(shí)別的技術(shù)提出了比較大的考驗(yàn),此外語(yǔ)言本身就有歧義性和多樣性的特點(diǎn),所以在產(chǎn)品設(shè)計(jì)層面需要更加主動(dòng)的信息反饋機(jī)制來(lái)降低這種不確定性。例如,以排序的方式提供可能的任務(wù)結(jié)果供用戶選擇,并以圖文結(jié)合的方式呈現(xiàn)出來(lái)。對(duì)于過(guò)于模糊的任務(wù),則可以請(qǐng)求用戶組織語(yǔ)言重新輸入。
4結(jié)語(yǔ)
語(yǔ)音交互與界面交互的“視聽融合”,不僅是下一代智能音箱產(chǎn)品的發(fā)展趨勢(shì),同時(shí)也將大大拓寬語(yǔ)音交互的使用人群和使用場(chǎng)景。在語(yǔ)音技術(shù)的能力范圍內(nèi),設(shè)計(jì)者采取主動(dòng)的設(shè)計(jì)策略幫助老年人接入互聯(lián)網(wǎng),不僅可以提高老年人的生活水平和便捷程度,從社會(huì)和經(jīng)濟(jì)層面也能挖掘老年群體的消費(fèi)潛力,并大大提高他們的生活自理能力。