5月中旬,搜狗CEO王小川在“搜狐科技5G&AI峰會(huì)”期間的主題演講上正式發(fā)布了最新一代搜狗AI合成主播—全球首個(gè)手語AI合成主播“小聰”?!靶÷敗被谒压返腁I分身技術(shù),如果得到普遍的應(yīng)用,將能夠幫助聽障人士更好融入社會(huì),更好享受數(shù)字化生活。
“搜狗AI開放平臺(tái)”援引世界衛(wèi)生組織發(fā)布的數(shù)據(jù)表示,全球聽力障礙人群高達(dá)4 66億,在我國則有2700萬人;因無法常態(tài)化、高質(zhì)量地接受資訊信息,很多聽障人士難以融入社會(huì),最終成為被遺忘和邊緣化群體。
目前,在以電腦、手機(jī)為載體的各類新聞資訊、文化娛樂節(jié)目中引入手語的少之又少,引入真人來進(jìn)行手語解說從人力、財(cái)力、效率和精力多個(gè)角度來看都很難實(shí)現(xiàn)。通過技術(shù)手段實(shí)現(xiàn)聽障人士真正可懂的手語播報(bào)能力,對(duì)于幫助聽障者克服溝通障礙、更好融入社會(huì)非常有價(jià)值。“小聰”發(fā)布后,未來更多電視節(jié)目、網(wǎng)絡(luò)綜藝等即可低成本、普遍化地方便聽障人士收看。
據(jù)介紹,“小聰”以打造聽障人士真正可懂的通用手語播報(bào)為目標(biāo),立足于搜狗領(lǐng)先的數(shù)字人技術(shù)體系——搜狗分身,集成了超寫實(shí)3D數(shù)字人建模、機(jī)器翻譯、多模態(tài)數(shù)字人生成、遷移學(xué)習(xí)、宴時(shí)面部動(dòng)作生成及驅(qū)動(dòng)等多項(xiàng)領(lǐng)先AI技術(shù),實(shí)現(xiàn)了超寫實(shí)3D數(shù)字人自然可懂的手語主播能力,使機(jī)器可以基于輸入口語文本生成逼真度高、手語表達(dá)準(zhǔn)確的3D數(shù)字人視頻內(nèi)容,從而具備“超寫實(shí)的逼真數(shù)字人效果”“高可懂度的手語表達(dá)能力”“高接受度的手語展現(xiàn)效果”三大特點(diǎn)。
在手語表達(dá)方面,“小聰”基于《國家通用手語詞典》,能夠?qū)崿F(xiàn)健聽人語言與聽障者手語語言的機(jī)器翻譯能力,基于輸入的健聽人語言能夠低延遲生成高準(zhǔn)確率的手語語言表征,通過搜狗分身的多模態(tài)生成技術(shù),實(shí)時(shí)預(yù)測生成對(duì)應(yīng)的超寫實(shí)3D數(shù)字人驅(qū)動(dòng)參數(shù),進(jìn)而快速生成數(shù)字人手語播報(bào)視頻,在測評(píng)中可懂度可以達(dá)到85%以上,能有效幫助聽障者克服理解障礙,達(dá)成信息有效傳遞。