毛艷梅
摘要: 基于Kinect的體感控制技術(shù),文章研究了一種語音障礙人群發(fā)音訓(xùn)練系統(tǒng),并通過臨床運(yùn)用測試了系統(tǒng)的可用性。該系統(tǒng)由障礙數(shù)據(jù)采集、發(fā)音康復(fù)訓(xùn)練及發(fā)音康復(fù)評估三大模塊構(gòu)成。每一模塊又由文字、圖像、聲音、視頻等多模態(tài)內(nèi)容組建。共有10名語言治療師、30例語音障礙人群參加了本項(xiàng)研究。研究結(jié)果發(fā)現(xiàn)基于人工智能深度學(xué)習(xí)融合技術(shù)開發(fā)的這套語音康復(fù)訓(xùn)練系統(tǒng)可顯著提升語音障礙人群的發(fā)音質(zhì)量,具有較好的應(yīng)用前景。
關(guān)鍵詞:體感控制;發(fā)音訓(xùn)練系統(tǒng);語音障礙;可用性
中圖分類號:R494? 文獻(xiàn)標(biāo)志碼:A
0 引言
語音障礙是指因構(gòu)音器官結(jié)構(gòu)缺陷、神經(jīng)、聽力障礙和肌肉運(yùn)動異常等原因造成語音清晰度低于正常水平而無法正確發(fā)音和建立有效溝通的言語障礙[1]。研究證明,通過發(fā)音訓(xùn)練,可以有效地發(fā)掘和激活語音障礙人群的聽說器官的功能代償,開發(fā)其語言能力和顯著提高其語音康復(fù)水平[2]。當(dāng)前語音障礙人群的發(fā)音訓(xùn)練以人工訓(xùn)練或計(jì)算機(jī)輔助訓(xùn)練模式為主,人工訓(xùn)練模式不僅易受時間、地點(diǎn)、人員等諸多因素的限制,其訓(xùn)練過程也費(fèi)時費(fèi)力,訓(xùn)練效率低、達(dá)不到預(yù)期訓(xùn)練效果;市場上所使用的發(fā)音訓(xùn)練系統(tǒng)的訓(xùn)練內(nèi)容雖然多種多樣,但是智能化程度不高,訓(xùn)練內(nèi)容往往固定且無法更改,單一重復(fù)的訓(xùn)練很容易使訓(xùn)練者產(chǎn)生倦怠乃至抵觸心理。因此,尋找有效、規(guī)范的新技術(shù)、新方法促進(jìn)語音障礙人群積極主動進(jìn)行發(fā)音訓(xùn)練具有極其重要的現(xiàn)實(shí)意義。
體感控制技術(shù)是利用肢體動作與周邊裝置或環(huán)境互動,再由機(jī)器對用戶的動作進(jìn)行識別、解析,并做出相應(yīng)反饋的計(jì)算機(jī)人機(jī)交互技術(shù)[3]。基于體感控制技術(shù)的Kinect是一款主要用于運(yùn)動感知的體感設(shè)備,可以捕獲音頻信息流、彩色視頻流和深度信息流等三種不同表現(xiàn)形式的數(shù)據(jù)流。其自帶的SDK能很好地跟蹤到人臉,并使用121個3D坐標(biāo)點(diǎn)定義臉部,同時能提供一體化的音視頻信息輸入與處理,以此來提高語音識別和人機(jī)交互能力[3]。
在參考諸多相關(guān)研究的基礎(chǔ)上[4],本研究基于運(yùn)用Kinect的體感交互技術(shù),設(shè)計(jì)了一個針對語音障礙人群的人工智能發(fā)音訓(xùn)練系統(tǒng),并將其命名為體感交互語音康復(fù)訓(xùn)練系統(tǒng)(KAPTS 1.0)。在分析了該套系統(tǒng)的設(shè)計(jì)框架的基礎(chǔ)上,通過實(shí)證研究,探討了KAPTS 1.0用于進(jìn)行語音障礙患者發(fā)音訓(xùn)練的可用性。
1 研究方法
1.1 國內(nèi)外計(jì)算機(jī)輔助發(fā)音訓(xùn)練系統(tǒng)研究現(xiàn)狀
20世紀(jì)70—80年代計(jì)算機(jī)輔助發(fā)音訓(xùn)練系統(tǒng)開始出現(xiàn)在以美國、日本為主要代表的發(fā)達(dá)國家。這些輔助發(fā)音系統(tǒng)大多比較簡單。近年來隨著多模態(tài)交互技術(shù)的飛速發(fā)展,語音障礙人群的康復(fù)訓(xùn)練需求大幅提升,因此,通過人機(jī)交互技術(shù)輔助語音障礙人群進(jìn)行康復(fù)訓(xùn)練的研究顯著增加。這些研究在早期主要針對語音障礙人群的面部表情識別等單項(xiàng)交際技能[5],近10 年的相關(guān)研究逐步轉(zhuǎn)向綜合訓(xùn)練,如基于Kinect人機(jī)交互技術(shù)的ECHOES項(xiàng)目[6]。此外,融合了人工智能的虛擬現(xiàn)實(shí)技術(shù)也逐漸應(yīng)用到語音障礙人群的發(fā)音技能康復(fù)訓(xùn)練中,如BPS數(shù)字行為輔助系統(tǒng)和3D虛擬發(fā)音導(dǎo)師系統(tǒng)[7];嘗試應(yīng)用機(jī)器人干預(yù)進(jìn)行語音障礙人群的康復(fù)訓(xùn)練,如使用機(jī)器人Nao來訓(xùn)練語音障礙人群的發(fā)音,結(jié)合LEGO治療法和人形機(jī)器人的康復(fù)訓(xùn)練模式以及研發(fā)的能根據(jù)不同個體需求自動適應(yīng)并做出反饋的機(jī)器人協(xié)同技術(shù)[8-9]。
在計(jì)算機(jī)輔助發(fā)音訓(xùn)練方面,我國的研究起步較晚, 直到2004年才有學(xué)者基于語音特征視覺反饋的訓(xùn)練方式,提出根據(jù)目標(biāo)訓(xùn)練法和對比訓(xùn)練法設(shè)計(jì)的計(jì)算機(jī)輔助訓(xùn)練方法能夠有效地解決發(fā)音異常和構(gòu)音異常[2]。
國內(nèi)發(fā)音訓(xùn)練康復(fù)系統(tǒng)的研究和開發(fā)還不完善,缺乏對訓(xùn)練者發(fā)音成效進(jìn)行測評、量化。Kinect體感控制技術(shù)在該領(lǐng)域的研究多為語音識別領(lǐng)域[10],對應(yīng)用體感控制技術(shù)進(jìn)行語音障礙人群的發(fā)音訓(xùn)練研究鮮有報(bào)道[11]。課題組近期研究發(fā)現(xiàn):將體感控制技術(shù)應(yīng)用在語音康復(fù)領(lǐng)域,可有效突破目前訓(xùn)練的局限,為人機(jī)交互技術(shù)提供全新的研究視角和應(yīng)用模式。
1.2 系統(tǒng)設(shè)計(jì)框架
體感交互語音康復(fù)訓(xùn)練系統(tǒng)(KAPTS 1.0)于2021年完成。該系統(tǒng)包含3個模塊:(1)障礙數(shù)據(jù)采集。該模塊通過應(yīng)用Kinect體感控制工具采集語音障礙人群的音頻信息、視頻彩色圖像序列、深度圖像序列及深度數(shù)據(jù)點(diǎn)序列、三維人臉模型序列,構(gòu)建多模態(tài)數(shù)據(jù)集。(2)發(fā)音康復(fù)訓(xùn)練。該模塊在對照患者和參照正常人群多模態(tài)發(fā)音數(shù)據(jù)庫的基礎(chǔ)上,按患者發(fā)音特點(diǎn)對錯誤方式進(jìn)行歸類,根據(jù)構(gòu)音錯誤產(chǎn)生的機(jī)制制訂體感交互個性化發(fā)音訓(xùn)練方案,為患者個性化的發(fā)音康復(fù)訓(xùn)練方案和任務(wù)。(3)發(fā)音康復(fù)評估。該模塊通過應(yīng)用人工智能深度學(xué)習(xí)算法從訓(xùn)練者的語音流利度、清晰度、準(zhǔn)確度、音位構(gòu)音能力等方面進(jìn)行智能評估,驗(yàn)證發(fā)音訓(xùn)練的有效性。
1.3 基于體感互動的訓(xùn)練設(shè)計(jì)實(shí)現(xiàn)
在借鑒已有研究所構(gòu)建的發(fā)音語料庫的基礎(chǔ)上[12],研究者通過公開社區(qū)招募的方式招募了30名正常發(fā)音人群和30名發(fā)音障礙患者。按照精準(zhǔn)預(yù)測-精準(zhǔn)干預(yù)訓(xùn)練-智能評估的原理和方法,課題研究者著手設(shè)計(jì)并開發(fā)KAPTS 1.0。首先,研究者建立了面向語音障礙人群的多模態(tài)數(shù)據(jù)集。(1)發(fā)音測試語料庫設(shè)計(jì)。根據(jù)語音障礙人群的發(fā)音特性設(shè)計(jì)語料庫。按照從簡單到復(fù)雜的發(fā)音原則,該語料庫包含了韻母、聲母、音節(jié)和句子。其中韻母有6個,聲母有3個;音節(jié)有固定音節(jié)和隨機(jī)音節(jié);句子有8句,取自人教版一年級的一個朗讀段落。(2)多模態(tài)數(shù)據(jù)采集。選擇成人語音障礙30人(男性、女性各15人)和正常人30人(男性、女性各15人),應(yīng)用kinect體感控制器,通過面部定位、特征提取、多流信息融合等技術(shù)同時獲取語音障礙人群的音頻信息數(shù)據(jù)、視頻信息數(shù)據(jù)和深度信息數(shù)據(jù)。通過音頻和深度數(shù)據(jù)融合,音頻和視頻信息融合以及深度數(shù)據(jù)和音視頻融合,將時間同步的各個流的特征拼接,然后通過隱馬爾可夫模型(HMM)進(jìn)行分類識別。(3)多模態(tài)數(shù)據(jù)特征比較:比較語音障礙人群與正常人群的多模態(tài)數(shù)據(jù)特征,為訓(xùn)練者個體生成數(shù)字化構(gòu)音錯誤方式提供數(shù)據(jù)源。
其次,設(shè)計(jì)基于體感控制技術(shù)的個性化發(fā)音訓(xùn)練方案。(1)訓(xùn)練模塊設(shè)計(jì):根據(jù)語音障礙人群的構(gòu)音錯誤方式,設(shè)計(jì)舌前音化、非送氣化、側(cè)化構(gòu)音、舌后音化、輔音脫落、唇齒音化、舌面音化及混合型等訓(xùn)練模塊。(2)個性化發(fā)音訓(xùn)練路徑規(guī)劃:在個體語音障礙數(shù)據(jù)集基礎(chǔ)上,結(jié)合構(gòu)音錯誤方式,系統(tǒng)地生成訓(xùn)練者個性化發(fā)音訓(xùn)練路徑,并設(shè)定有效的訓(xùn)練頻率與訓(xùn)練時間周期。
最后,開發(fā)體感交互個性化發(fā)音訓(xùn)練系統(tǒng)并進(jìn)行訓(xùn)練效果評估。(1)三維人物面部頭像與場景建模。通過3DS Max三維圖形繪制軟件、Direct 3D圖形繪制技術(shù)建立訓(xùn)練者三維人物面部頭像模型、面部動作模型建模和紋理渲染、三維模型加載,并創(chuàng)建和渲染相關(guān)場景和人機(jī)交互界面。(2)訓(xùn)練者三維人物面部頭像原始模型:基于Kinect采集的多模態(tài)數(shù)據(jù)集,利用視頻驅(qū)動方式與面部三維模型相融合生成面部三維模型動畫,實(shí)現(xiàn)能夠?qū)崟r顯示訓(xùn)練者面部動畫的面部表情、唇部動作、舌頭運(yùn)動狀態(tài)的面部三維動畫效果。(3)訓(xùn)練者三維人物面部頭像目標(biāo)模型:根據(jù)個性化訓(xùn)練方案,按照訓(xùn)練者三維人物面部頭像原始模型生成基于訓(xùn)練者個體的目標(biāo)訓(xùn)練模型。(4)發(fā)音智能評估和矯正。通過Kinect實(shí)時捕捉訓(xùn)練者面部運(yùn)動數(shù)據(jù),結(jié)合語音識別數(shù)據(jù)反饋,通過人工智能深度學(xué)習(xí)算法,將訓(xùn)練者發(fā)音與標(biāo)準(zhǔn)發(fā)音進(jìn)行匹配,實(shí)現(xiàn)發(fā)音效果評估和矯正。
1.4 系統(tǒng)操作流程
KAPTS 1.0包括訓(xùn)練者(患者)和診療師(醫(yī)生)兩個角色界面。在系統(tǒng)操作流程上,診療師(醫(yī)生)首先為訓(xùn)練者(患者)創(chuàng)建一個賬戶。根據(jù)訓(xùn)練者(患者)的病理資料,創(chuàng)建訓(xùn)練者基本資料,評估發(fā)音障礙類型和嚴(yán)重程度,設(shè)定康復(fù)初步目標(biāo)。然后,訓(xùn)練者注冊并登錄創(chuàng)建的賬戶(訓(xùn)練者也可自己創(chuàng)建賬務(wù)并錄入基本資料),錄入發(fā)音障礙數(shù)據(jù)。接下來,一方面,系統(tǒng)通過比照先前導(dǎo)入的正常人群的發(fā)音數(shù)據(jù)庫和患者錄入的障礙數(shù)據(jù),分析患者的發(fā)音障礙特性和類型,給出自適應(yīng)性地個性化康復(fù)訓(xùn)練方案和任務(wù)。另一方面,醫(yī)生根據(jù)患者錄入的發(fā)音障礙數(shù)據(jù),再次分析患者發(fā)音障礙特性和類型,結(jié)合系統(tǒng)給出的自適應(yīng)康復(fù)訓(xùn)練方案和任務(wù),設(shè)置并生成患者的康復(fù)訓(xùn)練方案和任務(wù),下傳給患者?;颊呦螺d康復(fù)訓(xùn)練方案和任務(wù)后,開始執(zhí)行康復(fù)訓(xùn)練。在訓(xùn)練期間,訓(xùn)練者的訓(xùn)練數(shù)據(jù)會同時發(fā)送到在線數(shù)據(jù)庫中。訓(xùn)練期間,醫(yī)生和系統(tǒng)均可以實(shí)時評估患者的康復(fù)訓(xùn)練效果,給出實(shí)時的修改建議。訓(xùn)練結(jié)束后,醫(yī)生和系統(tǒng)均會給出訓(xùn)練報(bào)告,報(bào)告包含了每次訓(xùn)練的評價意見和建議。在所有訓(xùn)練完成后,系統(tǒng)和醫(yī)生會給予訓(xùn)練者總體發(fā)音康復(fù)訓(xùn)練結(jié)果評價以及后續(xù)的訓(xùn)練建議。
1.5 系統(tǒng)評價
為了評價KAPTS 1.0的臨床可用性,研究組于 2021 年 7 月—2021年 9 月以方便抽樣和公開招募的方式邀請了10名語言治療師、30名發(fā)音障礙者對本套系統(tǒng)進(jìn)行了測試體驗(yàn)。在正式開始系統(tǒng)測試前,研究者向30名發(fā)音障礙者詳細(xì)解釋了本次研究的目的和所要進(jìn)行的程序,并取得了參與的30位發(fā)音障礙患者的書面知情同意書。參與此次實(shí)驗(yàn)的患者年齡均大于18周歲,有醫(yī)院出具的發(fā)音障礙診斷證明。然后,研究者通過一對一教授的方式,確保參與的治療師和患者都能準(zhǔn)確使用該系統(tǒng)。對于治療師,設(shè)定的標(biāo)準(zhǔn)是必須是正規(guī)醫(yī)院的在職醫(yī)生。
訓(xùn)練結(jié)束后,課題研究者對治療師和患者均進(jìn)行了問卷調(diào)查??紤]到問卷的信效度,問卷通過問卷星App發(fā)放。問卷內(nèi)容包括對KAPTS 1.0系統(tǒng)的界面設(shè)計(jì)的友好性、Kinect數(shù)據(jù)采集的準(zhǔn)確性、訓(xùn)練方案的可行性和趣味性、訓(xùn)練效果的有用性、用戶使用黏度5個維度共計(jì)10個項(xiàng)目的評分。評分采用了5分量表制,即5分表示非常同意、4分表示同意、3分表示中立、2分表示不同意、1分表示非常不同意 。
1.6 統(tǒng)計(jì)學(xué)分析
采用問卷星自帶的SPSS軟件對問卷調(diào)查數(shù)據(jù)資料進(jìn)行統(tǒng)計(jì)分析和人工核查后,研究者發(fā)現(xiàn)參與測試的10名治療師和30名發(fā)音障礙患者對KAPTS 1.0系統(tǒng)的評判比較一致,均為良好,為了確定問卷統(tǒng)計(jì)結(jié)果的信效度,采用Wilcoxon檢驗(yàn)對其進(jìn)行了非參數(shù)檢驗(yàn),發(fā)現(xiàn)P<0.05,即統(tǒng)計(jì)結(jié)果具有顯著性意義。
2 結(jié)果
2.1 一般資料
在本研究中,30例語音障礙患者在10名語音治療師的指導(dǎo)下,使用研究者研發(fā)的KAPTS 1.0系統(tǒng)進(jìn)行了語音康復(fù)訓(xùn)練。10名語音治療師中,男性 6例,女性 4例,平均年齡30歲左右,工作年限均大于3年,且經(jīng)過了4個學(xué)時的KAPTS 1.0系統(tǒng)的使用培訓(xùn)。30例語音患者中,男性 19例,女性 11例,平均年齡53歲左右,病程5個月左右,病因不盡相同,其中腦梗死 11 例,運(yùn)動性失語 9 例,腦出血 10 例,均有正規(guī)醫(yī)院的診斷證明。每名患者在下載KAPTS 1.0后,均在家人的陪伴下,在其主管語音治療師的遠(yuǎn)程指導(dǎo)下,順利完成了為期4周的個性化語音康復(fù)訓(xùn)練。在這4周中,每位患者的語音康復(fù)訓(xùn)練每天不少于 20分鐘,每周為期5天。此外,每位患者在通過研究者研發(fā)的KAPTS 1.0應(yīng)用程序進(jìn)行語音康復(fù)訓(xùn)練時,需要配合使用研究者分發(fā)的Kinect傳感器??祻?fù)訓(xùn)練的全過程中需要使用速度穩(wěn)定的互聯(lián)網(wǎng),否則訓(xùn)練的流暢性和精準(zhǔn)性會受影響。
2.2 調(diào)查結(jié)果
整體來看,參與本次研究的語音治療師和語音障礙患者對于研究者研發(fā)的 KAPTS 1.0應(yīng)用程序在可用性維度方面的評分均比較高,其中來自治療師的平均分為81.6分,來自患者的平均分為78.2分。來自治療師的問卷結(jié)果顯示,在系統(tǒng)界面設(shè)計(jì)的友好性、Kinect數(shù)據(jù)采集的準(zhǔn)確性以及訓(xùn)練效果的有用性這三個維度的正向得分也很高;但是用戶使用黏度這一維度的得分明顯偏低,導(dǎo)致這一問題的主要原因可能是大部分發(fā)音障礙患者為老年群體,治療師對于其能否承擔(dān)購買Kinect成本的考量。來自患者的問卷調(diào)查結(jié)果顯示,其在系統(tǒng)界面設(shè)計(jì)的友好性、訓(xùn)練方案的可行性和有用性維度的得分較高,訓(xùn)練方案的趣味性維度的得分偏低。導(dǎo)致這一現(xiàn)象的原因可能是大部分患者在執(zhí)行康復(fù)訓(xùn)練時壓力較大,自我要求較高,因此對于康復(fù)訓(xùn)練任務(wù)有超預(yù)期的期望。在后續(xù)的系統(tǒng)優(yōu)化中,研究者會進(jìn)一步進(jìn)行相關(guān)優(yōu)化。
3 討論
2017年10月18日,習(xí)近平同志在十九大報(bào)告中提出了“健康中國”的發(fā)展戰(zhàn)略。他指出,人民健康是一個國家富強(qiáng)、民族昌盛的重要標(biāo)志。我國要不斷完善國民健康政策,為億萬人民群眾提供全方位全生命周期的健康服務(wù)。然而目前我國語音障礙、構(gòu)音異常的總?cè)藬?shù)超過700萬,語音障礙的存在不僅影響人們正常的語言能力,同時也會引起心理、行為上的障礙,降低言語清晰度和社會交流能力,嚴(yán)重影響生活和工作。因此,尋找有效、規(guī)范的新技術(shù)、新方法促進(jìn)語音障礙人群積極主動進(jìn)行發(fā)音訓(xùn)練具有重要的現(xiàn)實(shí)意義。
本課題組基于Kinect的體感控制技術(shù)設(shè)計(jì)研發(fā)的 KAPTS 1.0的功能特征主要體現(xiàn)在以下幾方面:(1)精準(zhǔn)化。KAPTS 1.0系統(tǒng)在采集了正常人群的多模態(tài)發(fā)音數(shù)據(jù)的基礎(chǔ)上,建立多模態(tài)常模發(fā)音數(shù)據(jù)庫,然后根據(jù)Kinect的體感控制技術(shù)采集的個性化的語音障礙患者發(fā)音數(shù)據(jù),研究其發(fā)音特性,分析其錯誤特征,為每位語音障礙患者提供個性化的發(fā)音訓(xùn)練方案和任務(wù),然后根據(jù)發(fā)音訓(xùn)練數(shù)據(jù),智能評估發(fā)音康復(fù)效果,做到精準(zhǔn)預(yù)測-精準(zhǔn)干預(yù)訓(xùn)練-智能評估。(2)交互化。Kinect是一款主要用于運(yùn)動感知的體感設(shè)備,可以捕獲音頻信息流、彩色視頻流和深度信息流等三種不同表現(xiàn)形式的數(shù)據(jù)流。其自帶的SDK能很好地跟蹤到人臉,并使用121個3D坐標(biāo)點(diǎn)定義臉部,提供一體化的音視頻信息輸入與處理服務(wù),從而顯著提高人體語音識別能力和人機(jī)交互能力。因此,在訓(xùn)練中,該系統(tǒng)可以實(shí)時捕捉訓(xùn)練者的發(fā)音數(shù)據(jù),評估其發(fā)音效果,提出實(shí)時發(fā)音訓(xùn)練指令,提升發(fā)音訓(xùn)練效果。(3)遠(yuǎn)程化。發(fā)音障礙患者一般處于居家休養(yǎng)狀態(tài),相當(dāng)一部分人為行動不便者,因此,對于居家進(jìn)行康復(fù)訓(xùn)練有著非常大的需求。KAPTS 1.0系統(tǒng)的遠(yuǎn)程在線康復(fù)治療極大地滿足了患者此方面的需求。此外,也為異地就醫(yī)的患者提供了遠(yuǎn)程診療的便利,大大節(jié)省了患者家庭的就醫(yī)開支,提升了患者居家進(jìn)行康復(fù)訓(xùn)練的幸福指數(shù)。
為了驗(yàn)證KAPTS 1.0系統(tǒng)的可用性,研究者邀請了10名語言治療師、30例語音障礙人群參加了本項(xiàng)研究。患者在可用性(等級0—100)方面將應(yīng)用程序評為良好(評分>80;P=0.03),治療師將應(yīng)用程序評為良好(評分>80;P=0.04)。
綜上所述,基于Kinect的體感控制技術(shù)設(shè)計(jì)研發(fā)的語音障礙人群發(fā)音訓(xùn)練系統(tǒng)KAPTS 1.0是一種人工智能深度學(xué)習(xí)融合的康復(fù)系統(tǒng),可顯著提升語音障礙人群的發(fā)音質(zhì)量。該系統(tǒng)的完成,不僅將改善語音障礙人群的發(fā)音訓(xùn)練效果,為體感交互發(fā)音訓(xùn)練提供嶄新思路;打破傳統(tǒng)發(fā)音訓(xùn)練的空間和時間限制,緩解語音康復(fù)服務(wù)資源匱乏的局面,實(shí)現(xiàn)社會資源配置的優(yōu)化。該系統(tǒng)還可運(yùn)用到正常人群的語言學(xué)習(xí)中,具有廣闊的市場前景。
參考文獻(xiàn)
[1]李思奇,張玉梅.構(gòu)音障礙的評定與康復(fù)治療進(jìn)展[J].中國醫(yī)師進(jìn)修雜志,2021(1):88-92.
[2]薛珮蕓.構(gòu)音障礙患者病理語音特性分析與識別研究[D].太原:太原理工大學(xué),2019.
[3]車娜,趙劍,史麗娟,等.基于Kinect和Faceshift的語言康復(fù)訓(xùn)練方法[J].無線互聯(lián)科技,2018(21):108-110.
[4]史艷莉,明鈺,孫莉,等.基于平板電腦的漢語失語癥治療輔助系統(tǒng)的設(shè)計(jì)及可用性探討[J].中國康復(fù)醫(yī)學(xué)雜志,2021(7):822-826.
[5]朱虹.基于Kinect的特定說話人跟蹤系統(tǒng)的研究與實(shí)現(xiàn)[D].延邊:延邊大學(xué),2017.
[6]MENG FANBO, WU ZHIYONG, JIA JIA, etal. Synthesizing English emphatic speech for multimodal corrective feedback in computer-aided pronunciation training[J]. Multimedia Tools and Applications,2013(1): 463-489.
[7]SU PEIHAO, WU CHUANHSUN, LEE LINSHAN. A recursive dialogue game for personalized computer-aided pronunciation training[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP),2015(1): 127-141.
[8]CHEN FEI, WANG LAN, PENG GANG,etal. Development and evaluation of a 3-D virtual pronunciation tutor for children with autism spectrum disorders.[J]. PloS One,2019(1): e0210858.
[9]ARORA VIPUL, LAHIRI ADITI, REETZ HENNING. Phonological feature-based speech recognition system for pronunciation training in non-native language learning[J]. The Journal of the Acoustical Society of America,2018(1):98-108.
[10]QIAN XIAOJUN, MENG HELEN, FRANK SOONG. A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training[J]. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP),2016(6): 1020-1028.
[11]歐熊,陳兵.計(jì)算機(jī)輔助聽覺言語評估及康復(fù)系統(tǒng)的研究與進(jìn)展[J].聽力學(xué)及言語疾病雜志,2015(6):665-668.
[12]王濤,徐麗娜,李峰.功能性構(gòu)音障礙患者側(cè)化構(gòu)音特點(diǎn)分析及語音訓(xùn)練療效觀察[J].中華物理醫(yī)學(xué)與康復(fù)雜志,2020(1):40-43.
(編輯 傅金睿)
Design and usability of voice training system for people with speech impairment based on somatosensory control
Mao Yanmei1,2
(1.Zhejiang University, Hangzhou 310058, China; 2.Zhejiang Business College, Hangzhou 310053, China)
Abstract:? Based on Kinects somatosensory control technology, this paper studies a voice training system for people with speech disorders, and tests its usability through clinical application. The system consists of three modules: obstacle data acquisition, pronunciation rehabilitation training and pronunciation rehabilitation evaluation. Each module is composed of text, image, sound, video and other multimodal content. A total of 10 language therapists and 30 people with speech disorders participated in this study. The research results show that the speech rehabilitation training system developed based on AI deep learning fusion technology can significantly improve the voice quality of people with speech disorders, and has a good application prospect.
Key words: somatosensory control; pronunciation training system; speech disorders; usability