近日,搜狗推出一種人機(jī)交互新技術(shù)——唇語(yǔ)識(shí)別,這也是業(yè)內(nèi)首個(gè)公開演示的唇語(yǔ)識(shí)別系統(tǒng)。通過機(jī)器視覺識(shí)別,不用聽聲音,僅靠識(shí)別說話人唇部動(dòng)作,就能解讀說話者所說的內(nèi)容。
唇語(yǔ)識(shí)別是一項(xiàng)基于機(jī)器視覺與自然語(yǔ)言處理于一體的技術(shù),因此在研發(fā)難度上比語(yǔ)音識(shí)別大得多。搜狗首創(chuàng)了復(fù)雜端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行中文唇語(yǔ)序列建模,通過數(shù)千小時(shí)的真實(shí)唇語(yǔ)數(shù)據(jù)訓(xùn)練而成。在非特定人開放口語(yǔ)測(cè)試集上,搜狗唇語(yǔ)識(shí)別系統(tǒng)已經(jīng)達(dá)到60%以上的準(zhǔn)確率,超過Google發(fā)布的英文唇語(yǔ)系統(tǒng)50%以上的準(zhǔn)確率。在垂直場(chǎng)景如車載、智能家居等場(chǎng)景下,搜狗唇語(yǔ)識(shí)別系統(tǒng)甚至已經(jīng)達(dá)到90%的準(zhǔn)確率。
當(dāng)國(guó)內(nèi)大部分企業(yè)都扎堆聚集在智能語(yǔ)音、圖像識(shí)別等領(lǐng)域時(shí),搜狗唇語(yǔ)識(shí)別技術(shù)的推出將引領(lǐng)整個(gè)行業(yè)進(jìn)入一個(gè)全新的發(fā)展方向。作為人機(jī)交互的形式之一,未來唇語(yǔ)識(shí)別技術(shù)可以輔助語(yǔ)音交互及圖像識(shí)別,在日常生活、安防、公益等各個(gè)領(lǐng)域?qū)崿F(xiàn)廣泛應(yīng)用。(陳曲)endprint