国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自適應(yīng)語控智能會議系統(tǒng)中的技術(shù)及設(shè)備解析

2017-11-27 12:54顧克明顧锃
演藝科技 2017年10期
關(guān)鍵詞:自適應(yīng)性

顧克明 顧锃

【摘 要】 介紹全新的數(shù)字會議系統(tǒng)即自適應(yīng)語控智能會議系統(tǒng),并實現(xiàn)“一線通、一聲控、一云端”理念。

【關(guān)鍵詞】 智能會議系統(tǒng);自適應(yīng)性;抗噪聲傳聲器;語音文字化;語控系統(tǒng)

文章編號: 10.3969/j.issn.1674-8239.2017.10.010

【Abstract】The author introduces a new digital conference system, namely adaptive speech control intelligent conference system, and implements the concept of "one line connection, one voice control, one cloud".

【Key Words】intelligent conference system; adaptive; anti noise microphone; voice and text; speech control system

會議的擴聲效果千差萬別,甚至有時會出現(xiàn)聽不見、聽不清的窘?jīng)r。因此,對于會議系統(tǒng),通常在前期需要對系統(tǒng)設(shè)備及會場環(huán)境進(jìn)行專門的設(shè)計調(diào)試;開會發(fā)言時需要現(xiàn)場操作擴聲系統(tǒng),隨時調(diào)節(jié)音量等參數(shù);會上還要指定專人進(jìn)行會議記錄;會后還要加班加點整理會議紀(jì)要……

以上繁雜的工作能否化繁為簡,形成一個高度智能化的自適應(yīng)系統(tǒng),這是筆者想討論的內(nèi)容。

1 自適應(yīng)語控智能會議系統(tǒng)及功能

自適應(yīng)語控智能會議系統(tǒng)能夠按照設(shè)定的標(biāo)準(zhǔn)工作,并根據(jù)會場的各種條件,自動適應(yīng)地選擇各種會議功能,同時對自身工作特性進(jìn)行智能調(diào)節(jié),從而獲得語言清晰、音樂豐滿、聲像一致的會場效果。其可以將繁瑣、復(fù)雜的會議步驟高度簡化,為與會人員提供自然舒適、高效順暢的會議體驗。

自適應(yīng)語控智能會議系統(tǒng)包含會議拾聲自適應(yīng)、會議設(shè)備智能語控、會議發(fā)言實時轉(zhuǎn)寫三大模塊,為各類會議提供系統(tǒng)解決方案。 其具體的三項功能如下。

(1)會議拾聲自適應(yīng)。會議系統(tǒng)能夠根據(jù)說話人的聲音大小、環(huán)境噪聲強弱來自動調(diào)節(jié)自身特性、自動匹配聲音處理策略,使系統(tǒng)處于適配的工作狀態(tài),盡可能地提高拾取音源的聲音質(zhì)量,從而獲得高語言清晰度的聽音效果,擺脫由操作人員調(diào)整控制傳聲器等設(shè)備的傳統(tǒng)會議模式。

(2)會議設(shè)備智能操控。系統(tǒng)通過人機語音交互完成投影儀、幕布、窗簾、燈光、音響、空調(diào)等會場設(shè)備的應(yīng)用操作,為與會人員提供便捷、智能、個性化的會議體驗。

(3)會議發(fā)言實時轉(zhuǎn)寫?;谡Z音轉(zhuǎn)寫技術(shù),能夠?qū)h發(fā)言實時轉(zhuǎn)換成文字,還具有實時編輯修改、關(guān)鍵詞優(yōu)化、敏感詞屏蔽等實用功能,會議結(jié)束即可同步提供會議紀(jì)要。

2 系統(tǒng)設(shè)備

2.1 抗噪聲傳聲器

抗噪聲指向性傳聲器(專利第55 32871號)如圖1所示,其抗噪性能可在各類會場條件下提供自適應(yīng)的解決辦法。

2.1.1 主要性能

(1)抗噪聲傳聲器配備了具有聲干涉管的¢14 mm專業(yè)數(shù)字音頭,采用指向性結(jié)構(gòu)與DSP(數(shù)字信號處理)技術(shù)相結(jié)合的原理,在增加指向性與降低環(huán)境噪聲的基礎(chǔ)上達(dá)到遠(yuǎn)距離拾音的目的。

(2)為了減少干擾和噪聲,內(nèi)置聲學(xué)DSP芯片,通過短音節(jié)收斂算法達(dá)到穩(wěn)態(tài)噪聲抑制效果,在每次開機時,可針對傳聲器當(dāng)時所處環(huán)境的情況自動校準(zhǔn)以實現(xiàn)消噪功能;支持廣泛的采樣率范圍,從8 kHz、16 kHz(寬帶語音)到48 kHz。

(3)采用AGC(自動增益控制)與高低頻帶寬抑制技術(shù),實現(xiàn)較高的拾音信噪比指標(biāo),獲得清晰的音質(zhì)。只要人在5 m范圍內(nèi)說話,不論遠(yuǎn)近,聲音能一直維持相同的輸出音量。

2.1.2 主要指標(biāo)

(1)強指向性。接收角度小于30°,定向拾音有效地排除周圍噪聲拾取量,保證會議質(zhì)量。

(2)AGC自動增益。做到0.2 m~5 m范圍內(nèi)拾音輸出保持相同音量,為多種場合使用提供方便。

(3)語言清晰度。通過STIPA測試對比,抗噪聲指向性傳聲器比普遍傳聲器提高0.05以上,語言清晰度得到提高。

(4)傳聲器配備PDM數(shù)字輸入,針對環(huán)境自動校準(zhǔn),對穩(wěn)態(tài)噪聲具有降噪功能,經(jīng)實測降噪值達(dá)14 dB以上,如圖2所示,圖中淺紅色為噪聲原信號,深紅色為降噪后信號。

經(jīng)降噪處理后的會議擴聲系統(tǒng),其會場環(huán)境噪聲相對降低14 dB以上,信噪比得到很大改善,會議發(fā)言的語言清晰度得到顯著提高,特別是應(yīng)用于聲場環(huán)境不太好的會議室會更為有效。

2.1.3 主要用途

抗噪聲傳聲器廣泛適用于會議采訪、電化教學(xué)、安防系統(tǒng)等場合??乖肼晜髀暺饔绕溥m用于教學(xué)系統(tǒng),滿足了“要把師生的手解放出來”的學(xué)校需求,解決了有些老師不愿配帶無線傳聲器或手持傳聲器的問題。只要將傳聲器吊裝于教室頂棚之上,充分發(fā)揮抗噪聲傳聲器遠(yuǎn)距離拾音的特性,即可方便自如地進(jìn)行互動教學(xué),如圖3。

2.2 數(shù)字自動混音臺

數(shù)字自動混音器是近年會議系統(tǒng)中使用的常規(guī)設(shè)備,其特點是連接容易、使用簡便、防嘯叫效果好。數(shù)字自動混音器不同于調(diào)音臺,其在抑制聲反饋方面完成了“人+調(diào)音臺”的自適應(yīng)工作。

新近的數(shù)字自動混音器,采用 “自動傳聲器開關(guān)管理”控制技術(shù),在標(biāo)準(zhǔn)工作模式下,雖然有多支傳聲器同時收到同一個人的講話聲,但只有音量最大的傳聲器的通道才能被自動打開。由于其他傳聲器不被打開,從而避免了反射聲、背景噪聲等激勵信號的迭加,拾音質(zhì)量得到保障。另外一項技術(shù)是“自動傳聲增益控制”,傳聲器切換速度達(dá)到毫秒級,開/關(guān)無轉(zhuǎn)換痕跡,達(dá)到信號平滑過渡,不會發(fā)生講話時第一音節(jié)丟失的現(xiàn)象。endprint

2.3 強指向性揚聲器

強指向性揚聲器能夠以窄的波束向指定方向傳播聲音,波束內(nèi)的聲音較強,波束外的聲音較弱,如圖4。目前,市場上出現(xiàn)了多種會議系統(tǒng)專用揚聲器,大部分為條狀揚聲器系統(tǒng),即音柱。音柱即強指向性揚聲器系統(tǒng),但僅指垂直方向,其水平方向仍是較寬的,指向性圖呈扇形?,F(xiàn)有一款磁磚揚聲器系統(tǒng),在垂直方向與水平方向兩個方向上,指向性都很窄,指向性圖呈銳形,能將聲音更集中地傳輸?shù)铰牨妳^(qū),更大程度地減弱反射聲對會場的影響。如果能很好地控制揚聲器垂直/水平指向性,使波束區(qū)內(nèi)聽眾得到更多的直達(dá)聲,就能獲得比普通揚聲器系統(tǒng)更高的語言清晰度。

選用強指向性揚聲器系統(tǒng)相當(dāng)于起到縮短混響時間的效果,這是“有效混響時間”的概念,對于混響時間較長的會議室更有選擇的必要??乖肼晱娭赶騻髀暺鹘Y(jié)合強指向性揚聲器,是對抗長混響環(huán)境行之有效的方法。

2.4 功率放大器的擴聲電平控制

從圖5中可以清晰地看到語言傳輸指數(shù)(選自IEC 60268-16(4.0版.2011.6)規(guī)范)與聲壓級的關(guān)系,見表1。

經(jīng)過反復(fù)驗證,在工程實際中多次證實了以下規(guī)律:同等條件下,聲壓級50 dB~80 dB 時語言傳輸指數(shù)(STI)的一種簡化形式STIPA(擴聲系統(tǒng)語言傳輸指數(shù))基本不變,而聲壓級升高到80 dB后,STIPA急劇下降。由此可見,為了使會議系統(tǒng)獲得較高的語言傳輸指數(shù),保證較好的語言清晰度,建議擴聲的聲壓級控制在75 dB±3 dB,大型會場控制在85 dB±3 dB為宜。

例如,昆明滇池國際會展中心萬人會場的擴聲系統(tǒng)設(shè)計[3]中,如圖6,在實測混響時間高達(dá)10.58 s的嚴(yán)峻現(xiàn)實下,運用以上原理展開設(shè)計施工,最終語言清晰度仍達(dá)到GB/T 28049-2011《廳堂、體育場館擴聲系統(tǒng)設(shè)計標(biāo)準(zhǔn)》會議類擴聲系統(tǒng)聲學(xué)特性指標(biāo)一級標(biāo)準(zhǔn)(STIPA≥0.5)。

由此想到,倘若在數(shù)字功率放大器輸入端設(shè)有三段壓限器,設(shè)定75 dB前為線性增益、75 dB~78 dB為斜率增益、78 dB以上為0增益,這將自動適應(yīng)講話人聲音大小,為會議系統(tǒng)管理帶來極大便利。

3 語音控制技術(shù)

引入人機交互理念,集成了包括雙全工技術(shù)、傳聲器技術(shù)、聲紋識別技術(shù)、方言識別、語義理解技術(shù)和內(nèi)容服務(wù)等技術(shù),通過繼電器、遠(yuǎn)紅外等控制音頻、視頻、燈光、小型機械、窗簾、空調(diào)等會議室相關(guān)設(shè)備,可根據(jù)邏輯關(guān)系進(jìn)行聯(lián)動編程,達(dá)到智能控制、一鍵聯(lián)動等。操作設(shè)備采用有線或無線觸摸屏、電腦、墻裝按鍵面板等。

通過AIUI(科大訊飛人工智能交互界面)前端語音交互入口,進(jìn)行高保真拾音及語音轉(zhuǎn)寫,轉(zhuǎn)寫的結(jié)果是利用其語義理解平臺所提供的語音交互、上下文理解能力,快速關(guān)聯(lián)相應(yīng)的設(shè)備應(yīng)用場景,快速抽取語義、提取意圖和關(guān)鍵信息,形成結(jié)構(gòu)化的語義理解結(jié)果指令,經(jīng)中央控制器輸出到已連接的相應(yīng)設(shè)備,從而達(dá)到控制設(shè)備的效果。還可預(yù)設(shè)多個設(shè)備的組合控制模式,達(dá)到一句話控制所有設(shè)備的便捷效果。

語義理解平臺是一種實現(xiàn)人機間自然語言通信的軟件系統(tǒng)。從形式上看,中文文本是由漢字(包括標(biāo)點符號等)組成的一個字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。但在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。一般情況下,它們中的大多數(shù)都是可以根據(jù)相應(yīng)的語境和場景的規(guī)定而得到解決的。但是,為了消解歧義,是需要大量的知識并進(jìn)行推理。語義理解平臺就是將這些知識較完整地加以收集和整理,以合適的形式將它們存入計算機系統(tǒng)中,有效地利用它們來消除歧義,實現(xiàn)準(zhǔn)確識別、理解自然語言含義的功能。

4 語音文字化功能

在會議系統(tǒng)中整合語音文字化產(chǎn)品,以符合安全要求的離線方式,將會議場景下的發(fā)言語音內(nèi)容實時轉(zhuǎn)換成文字,方便有效地解決了語言與文字的互換關(guān)系,從而有效提高會議系統(tǒng)的智能化程度。

如果要真正實現(xiàn)語音轉(zhuǎn)寫在會議場景下的應(yīng)用能力,需要提升語音轉(zhuǎn)寫結(jié)果的可讀性,提高智能語音轉(zhuǎn)寫系統(tǒng)的易用性,就需要開展轉(zhuǎn)寫結(jié)果可讀性提升、段落劃分、摘要及意圖檢測方面的研究工作。

(1)語音轉(zhuǎn)寫結(jié)果的可讀性提升:使用基于多信息融合及基于聲學(xué)屬性識別的聲學(xué)置信度技術(shù),并結(jié)合語義信息,進(jìn)一步提升異常語音的檢測能力;基于CRF(Conditional Random Field)模型的標(biāo)點技術(shù)、基于CRF模型的句子順滑及基于最大熵模型的關(guān)鍵信息抽取等技術(shù),通過這些技術(shù)的組合,進(jìn)一步改善轉(zhuǎn)寫內(nèi)容的可閱讀性。

(2)語義段落的自動劃分:基于句子級別語義聚類和關(guān)聯(lián)邏輯關(guān)系的分析以及一些特殊的提示型詞匯、停頓長度等額外信息,自動將較長的內(nèi)容轉(zhuǎn)寫結(jié)果切分為語義相對獨立的若干個段落,為關(guān)鍵信息和摘要做準(zhǔn)備。

(3)語義摘要:借鑒傳統(tǒng)的文本自動摘要,并根據(jù)語音中說話人、語氣強調(diào)重復(fù)等信息,自動對每一段語音進(jìn)行關(guān)鍵信息的抽取和自動摘要,以便快速地從長時語音中找到所需轉(zhuǎn)寫的內(nèi)容,進(jìn)一步提升人機結(jié)合方式的語音轉(zhuǎn)寫的投入產(chǎn)出比。

會議語音轉(zhuǎn)寫的核心價值在于語音轉(zhuǎn)寫的實時性和準(zhǔn)確率,采用的智能會議系統(tǒng)可達(dá)到實時語音轉(zhuǎn)寫效率≤500 ms,基本達(dá)到零延遲的出材效果感知。而基于“即聽即所見”的核心技術(shù),其對標(biāo)準(zhǔn)普通話的轉(zhuǎn)寫準(zhǔn)確率超過95%,達(dá)到無紙化記錄水平。

目前,國內(nèi)相關(guān)的前沿技術(shù)主要為采用13 000小時以上連續(xù)語流數(shù)據(jù)訓(xùn)練而成的聲學(xué)模型及二遍解碼技術(shù),其獨有的文本順滑、標(biāo)點識別、英文數(shù)字后處理等自然語言處理能力,使識別結(jié)果更加準(zhǔn)確、規(guī)范。

5 工程案例

某會議室尺寸為長9.5 m、寬4.5 m、高3.4 m,如圖7所示。經(jīng)建聲專業(yè)裝修后混響時間T60=0.4 s;系統(tǒng)配置包括降噪傳聲器系統(tǒng)、會議音響系統(tǒng)、視頻顯示系統(tǒng)、智能照明系統(tǒng)、語音控制系統(tǒng)、語言轉(zhuǎn)寫系統(tǒng),視頻會議系統(tǒng)、電動窗簾系統(tǒng)、中央空調(diào)系統(tǒng)、集中控制系統(tǒng),系統(tǒng)原理圖如圖8所示。

6 結(jié)束語

綜上所述,自適應(yīng)語控智能會議系統(tǒng)以數(shù)字處理為核心技術(shù),形成由數(shù)字傳聲器-數(shù)字處理器-數(shù)字有源揚聲器組成的智能會議系統(tǒng),有利于提高會場系統(tǒng)工程質(zhì)量;以降噪技術(shù)為手段,體現(xiàn)在會場語言清晰度的提高從聲源上解決問題; “即聽即所見”技術(shù)實現(xiàn)了語音文字化,對會議紀(jì)要整理、資料保存以及無紙化辦公具有實際應(yīng)用價值。

參考文獻(xiàn):

[1] 顧克明,彭妙顏,周錫韜等. 會場系統(tǒng)工程[M]. 北京:中國電力出版社,2013.

[2] 高玉龍. 小房間聲學(xué)設(shè)計及建筑聲學(xué)處理[M]. 北京:國防工業(yè)出版社, 2014.

[3] 顧克明,陳敏,顧 锃. 昆明滇池國際會展中心萬人會場的擴聲系統(tǒng)設(shè)計[J]. 電聲技術(shù),2015(8).endprint

猜你喜歡
自適應(yīng)性
圖像灰度投影的聚焦窗口選擇方法
鄉(xiāng)村社會轉(zhuǎn)型背景下農(nóng)民合作社自適應(yīng)性分析
淺談自適應(yīng)多向變位梳齒伸縮縫裝置技術(shù)施工技術(shù)的應(yīng)用
自適應(yīng)機器人系統(tǒng)優(yōu)化設(shè)計與分析
高校外籍教師自適應(yīng)性調(diào)整探索——基于四川文理學(xué)院8名外教非結(jié)構(gòu)式訪談的定性研究
基于教育理論和教育技術(shù)教學(xué)輔助系統(tǒng)的設(shè)計
智能屬性融合算法在教學(xué)系統(tǒng)當(dāng)中的應(yīng)用
一種具有自適應(yīng)功能的栗子切殼裝置
基于非線性多輸入多輸出近似動態(tài)規(guī)劃的發(fā)動機缸平衡智能調(diào)節(jié)算法
水下大壩裂縫圖像分割方法研究 
吴忠市| 富源县| 新宁县| 东乡| 稻城县| 巫山县| 营口市| 南江县| 建宁县| 德令哈市| 峡江县| 玛曲县| 滨海县| 宣汉县| 萍乡市| 新蔡县| 昭通市| 海淀区| 基隆市| 浙江省| 四平市| 突泉县| 调兵山市| 璧山县| 昌邑市| 衡山县| 诸城市| 洪湖市| 偏关县| 师宗县| 嘉荫县| 辽源市| 泾源县| 虞城县| 荆州市| 英吉沙县| 台中市| 乌拉特后旗| 海口市| 定兴县| 大庆市|