楊鴻珍 陳是同 董媛媛 浦正國(guó)
摘要:隨著通信視頻會(huì)議的推廣應(yīng)用,會(huì)議記錄整理需求涌現(xiàn),而傳統(tǒng)的視頻會(huì)議系統(tǒng)無法解決會(huì)議記錄編輯耗時(shí)長(zhǎng),強(qiáng)度大,重復(fù)性強(qiáng)等問題。本文設(shè)計(jì)了基于智能語(yǔ)音技術(shù)的通信視頻會(huì)議方案,在傳統(tǒng)的通信視頻會(huì)議引入語(yǔ)音識(shí)別技術(shù)方案,實(shí)現(xiàn)會(huì)議發(fā)言實(shí)時(shí)上墻和會(huì)議記錄自動(dòng)整理,提高了浙江電力信通分公司視頻會(huì)議的智能化水平。
關(guān)鍵詞:語(yǔ)音識(shí)別;會(huì)議;通信
中圖分類號(hào):TN912.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)11-0019-02
0 引言
隨著信息時(shí)代的到來,包括視頻電話會(huì)議、專題辦公會(huì)、匯報(bào)演講會(huì)在內(nèi)的會(huì)議頻次多達(dá)數(shù)千場(chǎng)次,這蘊(yùn)含了大量的會(huì)議紀(jì)要整理與輸出的需求。當(dāng)前根據(jù)會(huì)議錄音整理的方式,存在編輯耗時(shí)長(zhǎng)、強(qiáng)度大、重復(fù)性強(qiáng)的缺陷。然而很多重要會(huì)議具備時(shí)間長(zhǎng)、信息量大、紀(jì)要輸出嚴(yán)等特點(diǎn),對(duì)會(huì)議記錄人員提出更高要求,且仍可能存在信息遺漏或會(huì)議思想理解偏差等問題,亟需得到解決。針對(duì)上述問題,本文在傳統(tǒng)通信視頻會(huì)議引入智能語(yǔ)音技術(shù),設(shè)計(jì)出智能會(huì)議方案,實(shí)現(xiàn)會(huì)議記錄的實(shí)時(shí)記錄和上墻,提高會(huì)議人員的工作效率。
1 關(guān)鍵技術(shù)
1.1 基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)構(gòu)建聲學(xué)模型
DFCNN使用大量的卷積層直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模。首先,類似圖像處理的方式,在輸入端以語(yǔ)譜圖作為代替語(yǔ)音輸入,相比其他以傳統(tǒng)語(yǔ)音特征作為輸入的語(yǔ)音識(shí)別框架相比具有天然的優(yōu)勢(shì)。其次,在模型結(jié)構(gòu)上,也借鑒了圖像識(shí)別的網(wǎng)絡(luò)架構(gòu),充分利用語(yǔ)音數(shù)據(jù)的歷史和未來信息,從而保障了語(yǔ)音處理的長(zhǎng)時(shí)相關(guān)性,相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色,同時(shí)可以實(shí)現(xiàn)短延時(shí)的準(zhǔn)在線解碼,從而可用于會(huì)議系統(tǒng)中。
1.2 口語(yǔ)化和篇章級(jí)語(yǔ)言模型處理技術(shù)
首先,收集部分口語(yǔ)文本和書面文本語(yǔ)料對(duì);其次,使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò)框架建模書面語(yǔ)文本與口語(yǔ)文本之間的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)了口語(yǔ)文本的自動(dòng)生成。另外,上下文信息可以較大程度幫助人類對(duì)語(yǔ)言的理解,對(duì)于機(jī)器轉(zhuǎn)錄也是同樣的道理?;谏鲜龅乃悸诽岢銎录?jí)語(yǔ)言模型的方案,該方案根據(jù)語(yǔ)音識(shí)別的解碼結(jié)果自動(dòng)進(jìn)行關(guān)鍵信息抽取,實(shí)時(shí)進(jìn)行語(yǔ)料搜索和后處理,用解碼結(jié)果和搜索到的語(yǔ)料形成特定語(yǔ)音相關(guān)的語(yǔ)言模型,從而進(jìn)一步提高語(yǔ)音轉(zhuǎn)寫的準(zhǔn)確率。
1.3 噪聲和遠(yuǎn)場(chǎng)識(shí)別技術(shù)
單麥克降噪、解混響。對(duì)采集到的有損失語(yǔ)音,使用混合訓(xùn)練和基于深度回歸神經(jīng)網(wǎng)絡(luò)降噪解混響結(jié)合的方法。使用基于深度回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪和解混響,進(jìn)一步提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。
麥克風(fēng)陣列降噪、解混響。使用多個(gè)麥克風(fēng)采集多路時(shí)頻信號(hào),利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)波束形成,從而在目標(biāo)信號(hào)的方向形成一個(gè)拾音波束,并衰減來自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結(jié)合,可以進(jìn)一步顯著的提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。
2 方案設(shè)計(jì)
系統(tǒng)采用分層的方式設(shè)計(jì),總體架構(gòu)上共分為三層:基礎(chǔ)設(shè)施層、平臺(tái)層、應(yīng)用層?;A(chǔ)設(shè)施層提供基礎(chǔ)計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)支撐能力,保障整個(gè)系統(tǒng)安全、穩(wěn)定、高效運(yùn)行。平臺(tái)層提供中文語(yǔ)音轉(zhuǎn)寫、全文檢索等智能語(yǔ)音與基礎(chǔ)業(yè)務(wù)能力。應(yīng)用層針對(duì)中文語(yǔ)音轉(zhuǎn)寫提供控制管理終端實(shí)現(xiàn)對(duì)系統(tǒng)以及業(yè)務(wù)的管理,屏幕顯示終端實(shí)現(xiàn)會(huì)議過程中結(jié)果展現(xiàn)給參會(huì)人員的功能;音頻采集服務(wù)通過聲卡、麥克風(fēng)等硬件設(shè)備完成音頻的實(shí)時(shí)采集。
2.1 技術(shù)架構(gòu)
本文設(shè)計(jì)方案的技術(shù)架構(gòu)按照音頻數(shù)據(jù)分析的技術(shù)流程,從前端處理到后臺(tái)識(shí)別,在都按內(nèi)容展示,主要包括:前端語(yǔ)音處理、后端識(shí)別處理和語(yǔ)法功能。其中語(yǔ)法功能包括語(yǔ)法識(shí)別系統(tǒng)、編譯系統(tǒng)、動(dòng)態(tài)加載系統(tǒng)、激活系統(tǒng)和緩存系統(tǒng)等等。
2.2 功能架構(gòu)
智能語(yǔ)音識(shí)別技術(shù)可以實(shí)現(xiàn)在會(huì)議、教學(xué)、演講等場(chǎng)景下的實(shí)時(shí)音頻或錄音采集,并通過語(yǔ)音識(shí)別技術(shù)實(shí)時(shí)轉(zhuǎn)化為文字。具體功能設(shè)計(jì)如下:
(1)用戶管理:對(duì)不同用戶進(jìn)行管理和維護(hù)。(2)音頻采集處理:對(duì)音頻信號(hào)從獲取到內(nèi)容展示進(jìn)行全過程展示,供后續(xù)的轉(zhuǎn)寫文字等功能使用,同時(shí)保存到內(nèi)容管理模塊中。(3)實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫:對(duì)進(jìn)入系統(tǒng)的實(shí)時(shí)語(yǔ)音流進(jìn)行語(yǔ)音識(shí)別操作,并持續(xù)進(jìn)行轉(zhuǎn)寫結(jié)果文本內(nèi)容的輸出。(4)歷史語(yǔ)音轉(zhuǎn)寫:主要支持離線語(yǔ)音上傳與識(shí)別結(jié)果的下載與編輯。(5)角色分離:支持對(duì)多角色語(yǔ)音的識(shí)別與說話人識(shí)別。(6)內(nèi)容編輯:對(duì)轉(zhuǎn)寫后的文本進(jìn)行編輯。(7)效果優(yōu)化:自動(dòng)或者手動(dòng)的對(duì)轉(zhuǎn)寫的文本進(jìn)行優(yōu)化。(8)內(nèi)容展示:系統(tǒng)通過提供展板上屏等形式進(jìn)行實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫結(jié)果的展示。(9)內(nèi)容管理:對(duì)轉(zhuǎn)寫后的文本進(jìn)行內(nèi)容管理,支持用戶的全文檢索、快速導(dǎo)出等方便快捷。(10)全文檢索:支持對(duì)海量語(yǔ)音數(shù)據(jù)的檢索。
2.3 物理架構(gòu)
由多個(gè)服務(wù)端集群和部署在不同場(chǎng)所的終端設(shè)備構(gòu)成。中文轉(zhuǎn)寫引擎服務(wù)集群用于部署中文轉(zhuǎn)寫引擎,提供中文語(yǔ)音轉(zhuǎn)寫能力;分布式文件存儲(chǔ)集群主要用于音頻文件的存儲(chǔ);全文檢索服務(wù)集群用于部署全文檢索服務(wù),提供全文檢索的能力。
3 效益分析
(1)提升會(huì)議效果:本技術(shù)方案的實(shí)現(xiàn)將會(huì)議中每個(gè)人的發(fā)言都實(shí)時(shí)、完整、有序的轉(zhuǎn)成文字,并且在會(huì)場(chǎng)實(shí)時(shí)上屏,提升了會(huì)議效果。(2)降低人工成本:本文設(shè)計(jì)的智能會(huì)議系統(tǒng),可提高會(huì)議記錄的準(zhǔn)確性和會(huì)議紀(jì)要的生成速度,并減少記錄員的工作量,降低人工成本。(3)提高公司智能化水平,打造公司品牌效應(yīng):將人工智能、語(yǔ)音識(shí)別等先進(jìn)的技術(shù)引入公司進(jìn)行研究及應(yīng)用,提高了公司的智能化水平。
4 結(jié)語(yǔ)
本文探究了智能語(yǔ)音識(shí)別技術(shù)在會(huì)議、演講等場(chǎng)景的應(yīng)用技術(shù)方案,從技術(shù)研究出發(fā)給出了技術(shù)方案,最后制定了切實(shí)可行的智能語(yǔ)音識(shí)別技術(shù)在會(huì)議中的應(yīng)用方案,實(shí)現(xiàn)智能語(yǔ)音技術(shù)與視頻會(huì)議系統(tǒng)結(jié)合使用,通過語(yǔ)音識(shí)別可以將會(huì)議發(fā)言實(shí)時(shí)轉(zhuǎn)寫成結(jié)構(gòu)化數(shù)據(jù),讓會(huì)議發(fā)言實(shí)時(shí)上墻,實(shí)現(xiàn)會(huì)議記錄自動(dòng)整理,輔助整理會(huì)議紀(jì)要和會(huì)議討論重點(diǎn)問題,降低會(huì)議記錄人員的工作強(qiáng)度,提高會(huì)議的智能會(huì)水平。
參考文獻(xiàn)
[1] 周志平.基于深度學(xué)習(xí)的小尺度單元拼接語(yǔ)音合成方法研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2017.
[2] 顧亞平.基于智能語(yǔ)音交互技術(shù)的智慧語(yǔ)音助理系統(tǒng)實(shí)現(xiàn)[D].南京郵電大學(xué),2015.
[3] 薛少飛.DNN-HMM語(yǔ)音識(shí)別聲學(xué)模型的說話人自適應(yīng)[D].中國(guó)科學(xué)技術(shù)大學(xué),2015.
[4] 王山海,景新幸,楊海燕.基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語(yǔ)音識(shí)別的研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(08):2289-2291+2298.
[5] 陳偉.語(yǔ)音識(shí)別聲學(xué)建模中的主動(dòng)學(xué)習(xí)研究[D].北京郵電大學(xué),2011.