基于智能語(yǔ)音的通信視頻會(huì)議設(shè)計(jì)

2019-02-02 03:58楊鴻珍陳是同董媛媛浦正國(guó)

數(shù)字技術(shù)與應(yīng)用 2019年11期

楊鴻珍陳是同董媛媛浦正國(guó)

摘要：隨著通信視頻會(huì)議的推廣應(yīng)用，會(huì)議記錄整理需求涌現(xiàn)，而傳統(tǒng)的視頻會(huì)議系統(tǒng)無法解決會(huì)議記錄編輯耗時(shí)長(zhǎng)，強(qiáng)度大，重復(fù)性強(qiáng)等問題。本文設(shè)計(jì)了基于智能語(yǔ)音技術(shù)的通信視頻會(huì)議方案，在傳統(tǒng)的通信視頻會(huì)議引入語(yǔ)音識(shí)別技術(shù)方案，實(shí)現(xiàn)會(huì)議發(fā)言實(shí)時(shí)上墻和會(huì)議記錄自動(dòng)整理，提高了浙江電力信通分公司視頻會(huì)議的智能化水平。

關(guān)鍵詞：語(yǔ)音識(shí)別;會(huì)議;通信

中圖分類號(hào)：TN912.3 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1007-9416（2019）11-0019-02

0 引言

隨著信息時(shí)代的到來，包括視頻電話會(huì)議、專題辦公會(huì)、匯報(bào)演講會(huì)在內(nèi)的會(huì)議頻次多達(dá)數(shù)千場(chǎng)次，這蘊(yùn)含了大量的會(huì)議紀(jì)要整理與輸出的需求。當(dāng)前根據(jù)會(huì)議錄音整理的方式，存在編輯耗時(shí)長(zhǎng)、強(qiáng)度大、重復(fù)性強(qiáng)的缺陷。然而很多重要會(huì)議具備時(shí)間長(zhǎng)、信息量大、紀(jì)要輸出嚴(yán)等特點(diǎn)，對(duì)會(huì)議記錄人員提出更高要求，且仍可能存在信息遺漏或會(huì)議思想理解偏差等問題，亟需得到解決。針對(duì)上述問題，本文在傳統(tǒng)通信視頻會(huì)議引入智能語(yǔ)音技術(shù)，設(shè)計(jì)出智能會(huì)議方案，實(shí)現(xiàn)會(huì)議記錄的實(shí)時(shí)記錄和上墻，提高會(huì)議人員的工作效率。

1 關(guān)鍵技術(shù)

1.1 基于深度全序列卷積神經(jīng)網(wǎng)絡(luò)（DFCNN）構(gòu)建聲學(xué)模型

DFCNN使用大量的卷積層直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模。首先，類似圖像處理的方式，在輸入端以語(yǔ)譜圖作為代替語(yǔ)音輸入，相比其他以傳統(tǒng)語(yǔ)音特征作為輸入的語(yǔ)音識(shí)別框架相比具有天然的優(yōu)勢(shì)。其次，在模型結(jié)構(gòu)上，也借鑒了圖像識(shí)別的網(wǎng)絡(luò)架構(gòu)，充分利用語(yǔ)音數(shù)據(jù)的歷史和未來信息，從而保障了語(yǔ)音處理的長(zhǎng)時(shí)相關(guān)性，相比RNN網(wǎng)絡(luò)結(jié)構(gòu)在魯棒性上更加出色，同時(shí)可以實(shí)現(xiàn)短延時(shí)的準(zhǔn)在線解碼，從而可用于會(huì)議系統(tǒng)中。

1.2 口語(yǔ)化和篇章級(jí)語(yǔ)言模型處理技術(shù)

首先，收集部分口語(yǔ)文本和書面文本語(yǔ)料對(duì);其次，使用基于Encoder-Decoder的神經(jīng)網(wǎng)絡(luò)框架建模書面語(yǔ)文本與口語(yǔ)文本之間的對(duì)應(yīng)關(guān)系，從而實(shí)現(xiàn)了口語(yǔ)文本的自動(dòng)生成。另外，上下文信息可以較大程度幫助人類對(duì)語(yǔ)言的理解，對(duì)于機(jī)器轉(zhuǎn)錄也是同樣的道理?；谏鲜龅乃悸诽岢銎录?jí)語(yǔ)言模型的方案，該方案根據(jù)語(yǔ)音識(shí)別的解碼結(jié)果自動(dòng)進(jìn)行關(guān)鍵信息抽取，實(shí)時(shí)進(jìn)行語(yǔ)料搜索和后處理，用解碼結(jié)果和搜索到的語(yǔ)料形成特定語(yǔ)音相關(guān)的語(yǔ)言模型，從而進(jìn)一步提高語(yǔ)音轉(zhuǎn)寫的準(zhǔn)確率。

1.3 噪聲和遠(yuǎn)場(chǎng)識(shí)別技術(shù)

單麥克降噪、解混響。對(duì)采集到的有損失語(yǔ)音，使用混合訓(xùn)練和基于深度回歸神經(jīng)網(wǎng)絡(luò)降噪解混響結(jié)合的方法。使用基于深度回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪和解混響，進(jìn)一步提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。

麥克風(fēng)陣列降噪、解混響。使用多個(gè)麥克風(fēng)采集多路時(shí)頻信號(hào)，利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)波束形成，從而在目標(biāo)信號(hào)的方向形成一個(gè)拾音波束，并衰減來自其他方向的反射聲。該方法與上述單麥克降噪和解混響的結(jié)合，可以進(jìn)一步顯著的提高帶噪、遠(yuǎn)場(chǎng)語(yǔ)音的識(shí)別正確率。

2 方案設(shè)計(jì)

系統(tǒng)采用分層的方式設(shè)計(jì)，總體架構(gòu)上共分為三層：基礎(chǔ)設(shè)施層、平臺(tái)層、應(yīng)用層?；A(chǔ)設(shè)施層提供基礎(chǔ)計(jì)算能力、存儲(chǔ)能力、網(wǎng)絡(luò)支撐能力，保障整個(gè)系統(tǒng)安全、穩(wěn)定、高效運(yùn)行。平臺(tái)層提供中文語(yǔ)音轉(zhuǎn)寫、全文檢索等智能語(yǔ)音與基礎(chǔ)業(yè)務(wù)能力。應(yīng)用層針對(duì)中文語(yǔ)音轉(zhuǎn)寫提供控制管理終端實(shí)現(xiàn)對(duì)系統(tǒng)以及業(yè)務(wù)的管理，屏幕顯示終端實(shí)現(xiàn)會(huì)議過程中結(jié)果展現(xiàn)給參會(huì)人員的功能;音頻采集服務(wù)通過聲卡、麥克風(fēng)等硬件設(shè)備完成音頻的實(shí)時(shí)采集。

2.1 技術(shù)架構(gòu)

本文設(shè)計(jì)方案的技術(shù)架構(gòu)按照音頻數(shù)據(jù)分析的技術(shù)流程，從前端處理到后臺(tái)識(shí)別，在都按內(nèi)容展示，主要包括：前端語(yǔ)音處理、后端識(shí)別處理和語(yǔ)法功能。其中語(yǔ)法功能包括語(yǔ)法識(shí)別系統(tǒng)、編譯系統(tǒng)、動(dòng)態(tài)加載系統(tǒng)、激活系統(tǒng)和緩存系統(tǒng)等等。

2.2 功能架構(gòu)

智能語(yǔ)音識(shí)別技術(shù)可以實(shí)現(xiàn)在會(huì)議、教學(xué)、演講等場(chǎng)景下的實(shí)時(shí)音頻或錄音采集，并通過語(yǔ)音識(shí)別技術(shù)實(shí)時(shí)轉(zhuǎn)化為文字。具體功能設(shè)計(jì)如下：

（1）用戶管理：對(duì)不同用戶進(jìn)行管理和維護(hù)。（2）音頻采集處理：對(duì)音頻信號(hào)從獲取到內(nèi)容展示進(jìn)行全過程展示，供后續(xù)的轉(zhuǎn)寫文字等功能使用，同時(shí)保存到內(nèi)容管理模塊中。（3）實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫：對(duì)進(jìn)入系統(tǒng)的實(shí)時(shí)語(yǔ)音流進(jìn)行語(yǔ)音識(shí)別操作，并持續(xù)進(jìn)行轉(zhuǎn)寫結(jié)果文本內(nèi)容的輸出。（4）歷史語(yǔ)音轉(zhuǎn)寫：主要支持離線語(yǔ)音上傳與識(shí)別結(jié)果的下載與編輯。（5）角色分離：支持對(duì)多角色語(yǔ)音的識(shí)別與說話人識(shí)別。（6）內(nèi)容編輯：對(duì)轉(zhuǎn)寫后的文本進(jìn)行編輯。（7）效果優(yōu)化：自動(dòng)或者手動(dòng)的對(duì)轉(zhuǎn)寫的文本進(jìn)行優(yōu)化。（8）內(nèi)容展示：系統(tǒng)通過提供展板上屏等形式進(jìn)行實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫結(jié)果的展示。（9）內(nèi)容管理：對(duì)轉(zhuǎn)寫后的文本進(jìn)行內(nèi)容管理，支持用戶的全文檢索、快速導(dǎo)出等方便快捷。（10）全文檢索：支持對(duì)海量語(yǔ)音數(shù)據(jù)的檢索。

2.3 物理架構(gòu)

由多個(gè)服務(wù)端集群和部署在不同場(chǎng)所的終端設(shè)備構(gòu)成。中文轉(zhuǎn)寫引擎服務(wù)集群用于部署中文轉(zhuǎn)寫引擎，提供中文語(yǔ)音轉(zhuǎn)寫能力;分布式文件存儲(chǔ)集群主要用于音頻文件的存儲(chǔ);全文檢索服務(wù)集群用于部署全文檢索服務(wù)，提供全文檢索的能力。

3 效益分析

（1）提升會(huì)議效果：本技術(shù)方案的實(shí)現(xiàn)將會(huì)議中每個(gè)人的發(fā)言都實(shí)時(shí)、完整、有序的轉(zhuǎn)成文字，并且在會(huì)場(chǎng)實(shí)時(shí)上屏，提升了會(huì)議效果。（2）降低人工成本：本文設(shè)計(jì)的智能會(huì)議系統(tǒng)，可提高會(huì)議記錄的準(zhǔn)確性和會(huì)議紀(jì)要的生成速度，并減少記錄員的工作量，降低人工成本。（3）提高公司智能化水平，打造公司品牌效應(yīng)：將人工智能、語(yǔ)音識(shí)別等先進(jìn)的技術(shù)引入公司進(jìn)行研究及應(yīng)用，提高了公司的智能化水平。

4 結(jié)語(yǔ)

本文探究了智能語(yǔ)音識(shí)別技術(shù)在會(huì)議、演講等場(chǎng)景的應(yīng)用技術(shù)方案，從技術(shù)研究出發(fā)給出了技術(shù)方案，最后制定了切實(shí)可行的智能語(yǔ)音識(shí)別技術(shù)在會(huì)議中的應(yīng)用方案，實(shí)現(xiàn)智能語(yǔ)音技術(shù)與視頻會(huì)議系統(tǒng)結(jié)合使用，通過語(yǔ)音識(shí)別可以將會(huì)議發(fā)言實(shí)時(shí)轉(zhuǎn)寫成結(jié)構(gòu)化數(shù)據(jù)，讓會(huì)議發(fā)言實(shí)時(shí)上墻，實(shí)現(xiàn)會(huì)議記錄自動(dòng)整理，輔助整理會(huì)議紀(jì)要和會(huì)議討論重點(diǎn)問題，降低會(huì)議記錄人員的工作強(qiáng)度，提高會(huì)議的智能會(huì)水平。

參考文獻(xiàn)

[1] 周志平.基于深度學(xué)習(xí)的小尺度單元拼接語(yǔ)音合成方法研究[D].中國(guó)科學(xué)技術(shù)大學(xué)，2017.

[2] 顧亞平.基于智能語(yǔ)音交互技術(shù)的智慧語(yǔ)音助理系統(tǒng)實(shí)現(xiàn)[D].南京郵電大學(xué)，2015.

[3] 薛少飛.DNN-HMM語(yǔ)音識(shí)別聲學(xué)模型的說話人自適應(yīng)[D].中國(guó)科學(xué)技術(shù)大學(xué)，2015.

[4] 王山海，景新幸，楊海燕.基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語(yǔ)音識(shí)別的研究[J].計(jì)算機(jī)應(yīng)用研究，2015，32（08）：2289-2291+2298.

[5] 陳偉.語(yǔ)音識(shí)別聲學(xué)建模中的主動(dòng)學(xué)習(xí)研究[D].北京郵電大學(xué)，2011.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于智能語(yǔ)音的通信視頻會(huì)議設(shè)計(jì)