江西財經(jīng)大學(xué)
劉英子,方嘉俊,溫 昕,李玫潔,謝有發(fā)指導(dǎo)老師:謝 亮
據(jù)最新資料統(tǒng)計,我國聽力、語言殘疾群體人數(shù)居各類殘疾之首,達(dá)到2 057萬人,占中國人口總數(shù)的1.67%,其中7歲以下兒童約80萬人。身體的殘疾為他們帶來了生活的不便,內(nèi)心的自卑,他人異樣的眼光等與外界交流的障礙嚴(yán)重影響了他們的生活質(zhì)量,大多數(shù)聾啞人僅能與家人和同群體互動交流,與正常人群體往來甚少。聾啞人士與不懂手語的正常人士溝通存在極大的障礙,而當(dāng)前現(xiàn)今僅有非常小比例的正常人群體掌握了手語。
隨著國內(nèi)《中國制造2025》和“互聯(lián)網(wǎng)+”以及國外由德國提出的工業(yè)4.0熱潮的涌起,未來將以可穿戴智能產(chǎn)品、智能家電、智能汽車等智能終端產(chǎn)品為主要發(fā)展方向。雙向交流手語翻譯器是一款可穿戴智能產(chǎn)品,能夠與手機(jī)等設(shè)備構(gòu)成無線通信網(wǎng),符合《中國制造2025》和“互聯(lián)網(wǎng)+”高科技戰(zhàn)略。
設(shè)計本作品的目的在于人性化地為語言障礙、聽力障礙者與正常人以及不同地域、民族的聾啞人群體之間交流困難這一問題提供一個簡單有效的解決方案。
本作品設(shè)計了一個聾啞人與正常人雙向交流的翻譯系統(tǒng),可實(shí)現(xiàn)如下功能:
(1)手語轉(zhuǎn)語音和文字;
(2)語音轉(zhuǎn)手語動畫和文字;
(3)文字轉(zhuǎn)手語動畫;
(4)采用機(jī)器學(xué)習(xí)的方法進(jìn)行手勢識別,并自定義手勢;
(5)遠(yuǎn)距離多人交流。
2.1.1 作品系統(tǒng)框架設(shè)計
作品系統(tǒng)框架如圖1所示。
圖1 作品系統(tǒng)框架設(shè)計
2.1.2 作品功能
(1)手勢實(shí)時翻譯為語音和文字
聾啞人將手套戴在手上并通過手語交流時,手語翻譯器將自動翻譯并播放語音,告訴其他人手語的含義,同時,將信息由無線網(wǎng)絡(luò)傳送至手機(jī)移動終端,在手機(jī)移動終端上顯示文字、播放語音或者播放手語視頻。比如聾啞人比出“你好”,手機(jī)接收信息后將顯示文字“你好”,播放語音或視頻。手語轉(zhuǎn)語音、文字功能如圖2所示。
圖2 手語轉(zhuǎn)語音、文字功能圖
(2)語音翻譯為手勢動畫
使用者對著語音模塊說話時,信息將通過無線模塊傳送至手機(jī)移動終端,在APP中進(jìn)行識別語分析,之后找尋相對應(yīng)的手語動畫,通過視頻形式播放,使聽障人士“聽見”聲音。語音轉(zhuǎn)手語功能如圖3所示,語音轉(zhuǎn)手語功能實(shí)拍如圖4所示。
(3)采用人工智能技術(shù)通過機(jī)器學(xué)習(xí)識別手勢,并可自定義手勢和方言
利用手機(jī)設(shè)計了一款基于機(jī)器學(xué)習(xí)的APP,用以解決以下問題:
①為受教育程度不高的聾啞人提供“傻瓜式”操作;
②機(jī)器學(xué)習(xí)訓(xùn)練,自適應(yīng)聾啞人手的大小差異;
③機(jī)器學(xué)習(xí)訓(xùn)練,適應(yīng)各國、各地區(qū)、個體的聾啞人手語差異;
④機(jī)器學(xué)習(xí)訓(xùn)練,適應(yīng)各國、各地區(qū)方言差異;
⑤機(jī)器學(xué)習(xí)訓(xùn)練,避免需要專業(yè)人士為聾啞人量身定做等繁瑣步驟。
圖3 語音轉(zhuǎn)手語功能圖
圖4 語音轉(zhuǎn)手語功能實(shí)拍圖
用戶只需在APP中的自定義界面輸入想要加入或修改的詞匯,并帶上傳感手套做出對應(yīng)的手語動作,APP即會采集并分析此手勢的關(guān)鍵信息并保存。所有自定義的手勢都可立即使用。通過機(jī)器學(xué)習(xí)自定義手勢功能如圖5所示。
圖5 通過機(jī)器學(xué)習(xí)自定義手勢功能圖
2.1.3 作品設(shè)計基本思路
本作品主體包括傳感手套、語音手表和手機(jī)APP。
(1)傳感手套
通過傳感手套上的彎曲傳感器、陀螺儀傳感器和加速度傳感器采集數(shù)據(jù),進(jìn)行分析和識別翻譯,之后將處理翻譯后的結(jié)果發(fā)送至手機(jī)端。
(2)語音手表
通過識別用戶的語音輸入,將語音信息發(fā)送至手機(jī)端,并播放對應(yīng)手勢動畫。
(3)手機(jī)APP
手機(jī)APP可將接收的翻譯信息轉(zhuǎn)化為文字或語音,同時也可用于識別正常人的語音信息,并將其轉(zhuǎn)化為文字和手語動畫。
本作品設(shè)計了兩種不同的交流模式,以真正實(shí)現(xiàn)聾啞人和普通人之間的雙向交流。
(1)聾啞人與正常人溝通
傳感手套可識別并將聾啞人的手語翻譯為普通人可以理解的語音或文字,如圖6所示。
圖6 翻譯模式
(2)正常人與聾啞人溝通
語音手表可將普通人輸入的語音信息轉(zhuǎn)化為文字或手語動畫在手機(jī)上顯示,使聽力障礙者能快速理解普通人的語意。溝通模式如圖7所示。
圖7 溝通模式
(3)機(jī)器學(xué)習(xí)
為了適應(yīng)不同人不同手勢的差別,采用機(jī)器學(xué)習(xí)的相應(yīng)算法進(jìn)行手勢識別,極大地提高了作品的實(shí)用性以及識別準(zhǔn)確率,同時作品還支持手勢自定義功能,用戶可在手機(jī)APP上進(jìn)行手勢訓(xùn)練,設(shè)置手勢以及對應(yīng)翻譯,且訓(xùn)練結(jié)果可立即使用。用戶還可通過掃描二維碼了解一些手語,方便用戶學(xué)習(xí)。機(jī)器學(xué)習(xí)模式如圖8所示,手語學(xué)習(xí)二維碼設(shè)計如圖9所示。
圖8 機(jī)器學(xué)習(xí)
圖9 手語學(xué)習(xí)二維碼設(shè)計
2.1.4 功能測試結(jié)果
這款手語翻譯器不僅能夠通過手指彎曲度和手的朝向完成大多數(shù)靜態(tài)手語手勢的識別,如手語詞數(shù)字“5”“ok”等,還能通過處理、提取所采集數(shù)據(jù)的特征完成動態(tài)手勢識別。
靜態(tài)手語數(shù)字“5”手勢示意如圖10所示,測試結(jié)果如圖11所示,由手機(jī)APP顯示識別結(jié)果。
圖10 數(shù)字“5”手勢語示意圖
圖11 數(shù)字“5”的手機(jī)APP結(jié)果顯示
圖12 “ok”手勢語示意圖
圖13 “ok”手勢手機(jī)APP結(jié)果顯示
動態(tài)手語數(shù)字“20”手勢示意如圖14所示,測試結(jié)果如圖15所示,手機(jī)APP顯示識別結(jié)果。
圖14 “20”手勢語示意圖
圖15 “20”手勢手機(jī)APP結(jié)果顯示
動態(tài)手語“謝謝”手勢示意如圖16所示,測試結(jié)果如圖17所示,手機(jī)APP顯示識別結(jié)果。
此外,本產(chǎn)品在測試時,分別對其中六種靜態(tài)手語和六種動態(tài)手語各測試了1 000組數(shù)據(jù)。對于靜態(tài)手語來說,只要給定足夠長的時間,都能夠被正確識別,識別率高達(dá)99%;動態(tài)手語識別率相比較低,但均高于92%。手語識別率見表1所列。
圖16 “謝謝”手勢語示意圖
圖17 “謝謝”手勢手機(jī)APP結(jié)果顯示
表1 手語識別率
2.1.5 適用范圍
該產(chǎn)品的使用場合較為廣闊,沒有大的空間限制條件,為健聽人與聾啞人之間的交流搭建了一個高效快捷的平臺,不僅能夠改善如今市面上語言障礙患者輔助用品匱乏的現(xiàn)象,更是改善聾啞人士生活的語言輔助器具。
(1)服務(wù)于聾啞人群及其相關(guān)群體
(4)樹立實(shí)時創(chuàng)新意識。創(chuàng)新是企業(yè)永恒的話題,對企業(yè)財務(wù)管理同樣如此。新時期需要積極引進(jìn)風(fēng)險投資等科學(xué)理念,認(rèn)真學(xué)習(xí)各項新的財務(wù)工具,盡可能多的在傳統(tǒng)的財務(wù)工作方法上有所突破,提高財務(wù)效率的同時,也能夠更好的降低企業(yè)財務(wù)成本,防范企業(yè)可能面臨的眾多財務(wù)風(fēng)險。
手語翻譯器主要針對聾啞人群及其相關(guān)群體設(shè)計。在日常生活中,一個高效的手語翻譯工具是聾啞人和周圍人群溝通的橋梁,利用手語翻譯工具與聾啞人進(jìn)行交流溝通必不可少。聾啞人及其相關(guān)群體是本產(chǎn)品的主要消費(fèi)人群。
(2)服務(wù)于聾啞人群集中區(qū)域
手語翻譯器主要服務(wù)于聾啞人群集中區(qū)域。在聾啞學(xué)校、福利院等聾啞人群集中區(qū)域,利用手語翻譯工具與聾啞人進(jìn)行交流溝通十分便利。因此,對于聾啞人群集中的區(qū)域而言,本產(chǎn)品將更受歡迎。
(3)可用于手語相關(guān)培訓(xùn)、學(xué)習(xí)
手語翻譯器不僅可被聾啞人群及其相關(guān)群體、各類公益機(jī)構(gòu)所使用,還可適用于廣大人群進(jìn)行手語學(xué)習(xí)及相關(guān)機(jī)構(gòu)的培訓(xùn)。
2.2.1 基于機(jī)器學(xué)習(xí)的手勢識別技術(shù)
作品采用機(jī)器學(xué)習(xí)相應(yīng)算法對手勢進(jìn)行識別,使得作品實(shí)用性以及準(zhǔn)確率都有較大提升,能夠適應(yīng)不同人不同手勢的差異,使靜態(tài)手勢識別率接近100%,復(fù)雜動態(tài)手勢識別率最低為92%,準(zhǔn)確率和穩(wěn)定性極佳。同時,用戶還能夠訓(xùn)練自定義手語手勢,方便快捷。
2.2.2 基于多傳感器融合系統(tǒng)的數(shù)據(jù)采集技術(shù)
利用運(yùn)動傳感器和形態(tài)傳感器對手指的空間姿態(tài)以及彎曲狀況進(jìn)行高精度捕捉,使得采集特征全面且準(zhǔn)確。
2.2.3 處理技術(shù)
數(shù)據(jù)抽取時以0.1 s為時間間隔,并在保證有效性的前提下進(jìn)行壓縮。在已提取的數(shù)據(jù)基礎(chǔ)上,提取和計算出方差、均值、最值數(shù)據(jù),為最終的識別做準(zhǔn)備。
2.3.1 功能優(yōu)勢
(1)真正的雙向交流
系統(tǒng)搭建了聾啞人和正常人雙向溝通的橋梁,既可以將手語實(shí)時翻譯,并在硬件設(shè)備端顯示文字和播放語音,還可以在APP中直接將文字和語音信息轉(zhuǎn)化為對應(yīng)的手語動畫,實(shí)現(xiàn)雙向轉(zhuǎn)譯功能,即使在昏暗的壞境中也可實(shí)現(xiàn)無障礙交流。
(2)智能的機(jī)器學(xué)習(xí)技術(shù)
本系統(tǒng)采用BP神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)機(jī)器學(xué)習(xí),方便用戶進(jìn)行自定義操作。在用戶開啟系統(tǒng)的學(xué)習(xí)功能時,本系統(tǒng)會根據(jù)用戶的手勢不斷提取特征數(shù)據(jù),當(dāng)用戶重復(fù)的數(shù)量達(dá)到一定值,且系統(tǒng)提取到滿足訓(xùn)練要求的特征數(shù)據(jù)時,則代表學(xué)習(xí)成功,系統(tǒng)會將此手語信息儲存并為用戶自定義手勢對應(yīng)翻譯內(nèi)容。當(dāng)用戶下次做出此手語動作時,系統(tǒng)會識別并翻譯該自定義手勢。
(3)精準(zhǔn)的手語數(shù)據(jù)識別技術(shù)
本產(chǎn)品采用雙手設(shè)計模式,信息采集精度更高,不僅能夠準(zhǔn)確識別多種手勢,還可以方便用戶自定義相關(guān)手勢含義。通過手部的多傳感器數(shù)據(jù)融合來識別手部及手指運(yùn)動信息從而確定手勢信息,避免因其他部位運(yùn)動引起手勢識別誤差。
(4)攜帶便利
如上所述,本產(chǎn)品采用雙手設(shè)計模式,產(chǎn)品外形為手套,攜帶輕便,使用可靠,且不易損壞。
(5)人性化產(chǎn)品體驗
與其他手語翻譯結(jié)果表示方式相比,大多采用文字來表現(xiàn)所要傳達(dá)的意思,而本產(chǎn)品將數(shù)據(jù)處理后在進(jìn)行文字表現(xiàn)的同時帶有語音播報和視頻播放功能,兼顧視覺與聽覺,使溝通方式更為生動。
(6)便捷的人機(jī)交互技術(shù)
與現(xiàn)有的人機(jī)交互技術(shù)相比,傳統(tǒng)技術(shù)大多選擇將數(shù)據(jù)傳輸至計算機(jī)進(jìn)行處理,且表現(xiàn)方式只選用文字或揚(yáng)聲器,而本產(chǎn)品的系統(tǒng)經(jīng)無線模塊將數(shù)據(jù)實(shí)時傳輸至移動終端,將翻譯器與APP相結(jié)合,使用更為便捷。
2.3.2 技術(shù)優(yōu)勢
(1)作品采用機(jī)器學(xué)習(xí)相應(yīng)算法進(jìn)行手勢識別,極大地提高了作品的實(shí)用性以及識別準(zhǔn)確率;
(2)由分布在五指關(guān)節(jié)的形態(tài)傳感器與運(yùn)動傳感器采集數(shù)據(jù),捕捉的動作精確度高;
(3)個性化設(shè)定:用戶可以自己為手語翻譯器輸入新的手勢信息并使用;
(4)佩戴舒適,操作方式簡單便捷;
(5)具有顯示功能和語音功能,同時設(shè)計有配套APP;
(6)慣性記錄、機(jī)器學(xué)習(xí):數(shù)據(jù)手套會儲存用戶的使用記錄,方便產(chǎn)品了解用戶;
(7)電池節(jié)能環(huán)保。
2.3.3 同類對比
針對聾啞人的交流問題,國內(nèi)外均由研究團(tuán)隊給出了解決方案。目前,言語障礙人士主要通過三種途徑“發(fā)聲”,分別為使用助講器(電子喉);依靠食道的震動發(fā)出聲音;手語交流。目前市場上的手語翻譯產(chǎn)品主要包括UNI平板,手語手環(huán),數(shù)據(jù)手套。
(1)UNI 平板
Motion Savvy公司在2014年設(shè)計的UNI平板外殼利用Leap Motion技術(shù)記錄、識別手勢動作,具有使用不便,識別距離有限等缺陷,此類基于圖像處理的動作采集方式具有明顯的識別盲區(qū),并且只能將手勢翻譯為文字進(jìn)行單向交流。
(2)手語手環(huán)
手環(huán)利用肌電信號等傳感器對手指動作進(jìn)行解碼。這款概念產(chǎn)品只能單向轉(zhuǎn)譯,并且可識別手勢少,精確度不高,實(shí)用性存在較大缺陷。
(3)數(shù)據(jù)手套
烏克蘭enable talk團(tuán)隊研發(fā)出一種可翻譯手勢的手套,同時配備操作系統(tǒng),能將手語翻譯成文本,但它也只能進(jìn)行單向轉(zhuǎn)譯,且參數(shù)調(diào)整不便,價格昂貴。
雙向交流手語翻譯器與市場現(xiàn)有產(chǎn)品的對比見表2所列。
表2 雙向交流手語翻譯器與市場現(xiàn)有產(chǎn)品的對比
3.1.1 真正的雙向交流
系統(tǒng)搭建了聾啞人和正常人之間雙向溝通的橋梁,既可以將手語實(shí)時翻譯為文字信息和語音信息,還可以通過手機(jī)和語音手表兩種方式識別語音輸入,然后播放對應(yīng)的手語動畫,實(shí)現(xiàn)雙向轉(zhuǎn)譯功能。即使在昏暗的壞境中也可實(shí)現(xiàn)無障礙交流。
3.1.2 機(jī)器學(xué)習(xí)
作品利用手機(jī)設(shè)計了一款基于機(jī)器學(xué)習(xí)的APP,可解決自適應(yīng)聾啞人手掌大小等問題。
3.1.3 遠(yuǎn)距離多人交流
可多用戶組建交流無線局域網(wǎng)絡(luò),實(shí)現(xiàn)多點(diǎn)無障礙互通交流??稍诨璋?、嘈雜喧鬧的環(huán)境中實(shí)現(xiàn)多用戶遠(yuǎn)距離無障礙交流。
3.1.4 多傳感數(shù)據(jù)融合技術(shù)
目前世界上主流的兩種手語識別技術(shù)分別為現(xiàn)代圖像識別技術(shù)和多傳感數(shù)據(jù)融合技術(shù)?,F(xiàn)代圖像識別技術(shù)自適應(yīng)性差,一旦目標(biāo)圖像被噪聲污染或是目標(biāo)圖像有殘缺往往無法得到理想的結(jié)果。而本作品所采用的多傳感數(shù)據(jù)融合技術(shù),能夠提高整個作品的可靠性和健壯性,增強(qiáng)數(shù)據(jù)的可信度與精度,保障作品的實(shí)時性。
3.1.5 加入生物電仲裁判斷手勢
通過對手部生物電信息的采集和分析,可以進(jìn)一步提高精度,消除外部干擾對手勢數(shù)據(jù)采集和分析的影響。
3.2.1 機(jī)器學(xué)習(xí)技術(shù)
在用戶定義翻譯時,本系統(tǒng)采用機(jī)器學(xué)習(xí)相應(yīng)算法實(shí)現(xiàn)手勢識別。在用戶開啟系統(tǒng)的學(xué)習(xí)功能時,本系統(tǒng)會根據(jù)用戶的手勢不斷提取特征數(shù)據(jù),當(dāng)用戶重復(fù)的數(shù)量達(dá)到一定值,且系統(tǒng)提取到滿足訓(xùn)練要求的特征數(shù)據(jù)時,則代表學(xué)習(xí)成功,系統(tǒng)會將此手語信息儲存并且由用戶自定義手勢對應(yīng)翻譯內(nèi)容。這樣在下次使用并做出此手語動作時,系統(tǒng)會識別并翻譯此自定義的手勢。
3.2.2 手勢數(shù)據(jù)處理技術(shù)
在處理數(shù)據(jù)時,本作品根據(jù)自主研究設(shè)計的一種手勢識別專用多維數(shù)組算法實(shí)現(xiàn)了對手勢的定時采樣和特征值提取。
定時采樣:在實(shí)驗過程中,發(fā)現(xiàn)對于大多數(shù)簡單的手語手勢假設(shè)1 s時間內(nèi)可以表達(dá)結(jié)束。于是在處理時先抽取數(shù)據(jù),以每0.1 s為抽取時間間隔,之后將抽取的數(shù)據(jù)保存到一個18×14的數(shù)組中,其中每一行的數(shù)據(jù)為不同時刻手的姿態(tài)信息(比如第一行為初始時刻的手的各種傳感數(shù)據(jù)),每一列的數(shù)據(jù)為傳感數(shù)據(jù)個數(shù),通過定時采樣,在保證有效性的前提下將數(shù)據(jù)壓縮,降低下一步算法的復(fù)雜度。
3.2.3 手勢數(shù)據(jù)采集技術(shù)
對于大部分手語而言,只需采集各手指的彎曲情況、手的朝向和手部運(yùn)動軌跡就能推導(dǎo)出整只手的動作所包含的信息。因此,本團(tuán)隊基于對各信號的采集設(shè)計了一款傳感手套,該傳感手套內(nèi)嵌有形態(tài)傳感器且手背上固定了運(yùn)動傳感器。
形態(tài)傳感器用以獲取手指形態(tài),判斷手指的彎曲程度,運(yùn)動傳感器用于獲取手部姿態(tài)信息。采集數(shù)據(jù)時,在上述兩種傳感器的基礎(chǔ)上還增加了生物電傳感器,用于采集做手語動作時的肌肉電信息,并通過分析此肌肉電信息獲取手部動作和姿勢信息。通過融合以上三種傳感器的數(shù)據(jù),系統(tǒng)的精準(zhǔn)度和穩(wěn)定性得到了良好保證。