智能語音技術(shù)在廣播領(lǐng)域的應(yīng)用探索

2023-01-17 02:08:54管海建

電視技術(shù) 2022年6期

管海建

（湖北廣播電視臺，湖北武漢 430022）

0 引言

智能語音技術(shù)包括語音識別、語音合成、口語評測、語義理解、自然語言處理等內(nèi)容。其中語音識別和語音合成技術(shù)使得各種終端具備了聽說能力，在機器人、智能家居、移動終端等設(shè)備中實現(xiàn)廣泛應(yīng)用。隨著5G 移動網(wǎng)絡(luò)的普及和人工智能技術(shù)的飛速發(fā)展，語音識別和播報技術(shù)極大提升了應(yīng)用程序中的交互效率和體驗，在移動終端的人機交互中得到廣泛應(yīng)用，

1952 年，貝爾研究所成功發(fā)布第一個能識別簡單英文和數(shù)字發(fā)音的試驗系統(tǒng)。經(jīng)過幾十年的發(fā)展和進步，從字母、孤立詞的識別逐漸發(fā)展到大詞匯量語音連續(xù)識別。隨著語音識別技術(shù)的不斷進步，語音識別在優(yōu)化模型的算法、語音特征提取和優(yōu)化、提高系統(tǒng)的準確率等方面取得較大進展，相關(guān)產(chǎn)品也逐漸走向市場，端點檢測、噪音消除、智能打斷、大詞匯量識別、特征提取、多操識別以及熱詞識別等相關(guān)課題紛紛取得突破。在全球范圍內(nèi)，智能語音技術(shù)商業(yè)化已經(jīng)取得了很大的成果。國外的谷歌、微軟、蘋果等公司推出了智能語音商用產(chǎn)品，國內(nèi)的科大訊飛、捷通華聲、中科信利、云知聲等語音企業(yè)以及百度、騰訊、阿里等互聯(lián)網(wǎng)巨頭也紛紛推出集成智能語音技術(shù)的產(chǎn)品和配套解決方案。此外，隨著語音識別準確率的逐步提高，各類軟硬件都開始集成語音識別功能，語音識別技術(shù)逐漸融入了有交互需求的各類產(chǎn)品。

語音合成指將以文字為主的媒體內(nèi)容轉(zhuǎn)化為人類語音輸出，語音合成的產(chǎn)品用途十分廣泛。和語音識別一樣，語音合成也是智能語音技術(shù)的重要組成部分。語音合成可以將文字等媒體內(nèi)容轉(zhuǎn)譯成自然清晰、標準流暢的語音輸出，包括且不限于中文、外文或者方言等，可以實現(xiàn)不同音色的高度模擬。通過語音合成技術(shù)的應(yīng)用，可以極大程度地提高媒體工作效率，例如路況、氣象預(yù)報等都可以通過語音合成來自動實現(xiàn)。

1 語音識別系統(tǒng)工作原理

語音識別系統(tǒng)相對復(fù)雜，技術(shù)原理涉及多個學(xué)科，包括信號處理、模式識別、統(tǒng)計分析以及人工智能等。語音識別主要采用模式匹配的方法，通過提取輸入信號的聲學(xué)特征作為模板存入數(shù)據(jù)庫，在識別信號時與數(shù)據(jù)庫中模板進行比較后輸出相似度最高的結(jié)果。語音信號經(jīng)過話筒輸入采集轉(zhuǎn)變成電信號，在輸入端經(jīng)過信號處理消除噪聲，切除前后端的靜音段，然后利用移動窗函數(shù)進行分幀，分幀后的波形再進行轉(zhuǎn)換，每一幀波形變成一個多維向量，這個過程稱為聲學(xué)特征提取。目前，聲學(xué)特征提取有多種不同的復(fù)雜算法。

系統(tǒng)模型的建立包括聲學(xué)和語言兩部分，其中隱馬爾可夫模型是應(yīng)用最廣泛的建模方法。此外，人工神經(jīng)網(wǎng)絡(luò)也是語音識別技術(shù)發(fā)展的一個熱點。雖然模型匹配的方法很多，但是受發(fā)音習(xí)慣、方言等的影響，很多語音還需要結(jié)合上下文的含義判斷，準確識別相對存在一定的的難度。隨著技術(shù)的不斷進步，整個系統(tǒng)模型識別匹配的準確率一般都達到了90%以上，可以滿足日常應(yīng)用的需要。

近年來，深度學(xué)習(xí)理論被廣泛研究與應(yīng)用，智能語音技術(shù)在語音識別方面也取得了一定突破。通過各種帶有語音功能的場景和應(yīng)用程序，網(wǎng)絡(luò)中大量的用戶數(shù)據(jù)被不斷收集和匯總到后臺，有的語音產(chǎn)品僅針對喚醒識別一項功能就錄制了超過8 萬條語音來建立狀態(tài)模型，這些海量數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)的分析和學(xué)習(xí)不斷完善數(shù)據(jù)模型和匹配算法。

2 智能語音技術(shù)與電臺節(jié)目生產(chǎn)流程的融合

在廣播電視等媒體的節(jié)目編輯中，經(jīng)常需要將采訪中獲得的大量語音素材整理成文字或者將播出稿件轉(zhuǎn)換成文字稿、將語音信號轉(zhuǎn)換成視頻字幕等，這些剛性需求為智能語音技術(shù)在電臺的融合與應(yīng)用提供了契機。無論是廣播、電視、報紙等傳統(tǒng)媒體，還是以微博、微信、視頻平臺等為代表的新媒體，時效性一直是行業(yè)聚焦的競爭點。在采訪（錄音）、聽音打字、整理寫稿的過程中，整理錄音和打字都耗費了大量時間成本，而利用語音識別技術(shù)能夠顯著降低成本并提高時效性。

根據(jù)廣播電臺的節(jié)目生產(chǎn)流程，廣播節(jié)目件的生成通常需要經(jīng)過音頻節(jié)目的采編制作和新聞稿件的采編，包括采訪寫稿、審稿、存儲、發(fā)播等環(huán)節(jié)。新聞稿件的采訪會使用便攜式錄音設(shè)備，傳統(tǒng)采訪錄音設(shè)備目前還不具備語音識別功能，需要將錄音文件導(dǎo)出后進行識別。節(jié)目審聽階段，可以應(yīng)用語音識別技術(shù)來進行關(guān)鍵字查找、定位。目前語音合成技術(shù)也逐漸成熟，合成效果已經(jīng)很接近自然發(fā)音。在移動終端的應(yīng)用中，合成語音播報天氣、路況、講故事等已經(jīng)十分普遍。在電臺節(jié)目播出過程中，可以嘗試將主持人聲音制作成語音庫，輸入文字后轉(zhuǎn)換成音頻稿件用于播出。

3 智能語音技術(shù)的應(yīng)用

結(jié)合湖北臺節(jié)目采編流程，筆者研發(fā)設(shè)計了一款基于Windows 操作系統(tǒng)的應(yīng)用，即智能語音識別采編器，融合了語音識別、語音合成、字幕轉(zhuǎn)寫以及語音分析等多種常用功能。

3.1 語音識別

語音音頻支持內(nèi)錄、線路輸入、文件導(dǎo)入等多種采集和導(dǎo)入方式，適合不同場合的語音采集工作。

內(nèi)錄是指錄制本地計算機的音頻，即計算機聲卡所播放的聲音，將聲卡播放的內(nèi)容識別成文字。這項功能多用于截取錄制的采訪錄音或音頻中的一段轉(zhuǎn)換為文字，可直接利用操作系統(tǒng)自帶播放器進行播放，同時打開采編器內(nèi)錄開關(guān)進行語音識別和轉(zhuǎn)換。

線路輸入指通過計算機聲卡外接話筒輸入音頻信號，將話筒音頻信號實時轉(zhuǎn)換識別為漢字，可用于記者編輯采用語音寫稿、會議記錄、實時采訪等場景。文件導(dǎo)入可將計算機內(nèi)音頻文件導(dǎo)入到采編器進行文字轉(zhuǎn)換，適合轉(zhuǎn)換已錄制好的語音文件。

語音識別引擎安裝在本地計算機，使用過程中不需要聯(lián)網(wǎng)，語音識別過程不會受到網(wǎng)速的影響。在外接話筒進行語音識別時，轉(zhuǎn)換的文字會在屏幕上實時顯示，而且識別過程中可以隨時進行文字修正。系統(tǒng)能夠?qū)ψR別出的同音詞語結(jié)合整句話語義進行自動糾正和匹配，利用關(guān)鍵詞也可以預(yù)置人名、地名等專用名詞，大大提高了識別正確率。

3.2 字幕轉(zhuǎn)寫

傳統(tǒng)的字幕整理耗時費力，利用端點檢測、分段、語義理解等技術(shù)可以自動生成字幕，再由人工進行簡單修正審核即可直接應(yīng)用。語音轉(zhuǎn)換后的文字生成字幕可直接拖放在擴展屏上顯示，通過視頻編輯軟件豐富字幕場景。字幕轉(zhuǎn)寫功能可以為電臺大型活動現(xiàn)場視頻、會議大屏等提供字幕。

3.3 語音分析

隨著廣播事業(yè)的發(fā)展，節(jié)目審聽的工作也越來越多。作為媒體管理的重要組成部分，對音視頻等的監(jiān)管比對文字的監(jiān)管要困難得多。傳統(tǒng)的節(jié)目審聽采用純?nèi)斯し绞剑蓪Ｈ诉M行大量煩瑣枯燥的機械性工作。而應(yīng)用語音識別技術(shù)將關(guān)鍵詞預(yù)置進審聽系統(tǒng)，導(dǎo)入審聽節(jié)目后可進行自動審核，系統(tǒng)檢測到關(guān)鍵詞則警報提示，大大提高了審聽效率。此外，在語音識別轉(zhuǎn)文字的過程中，可以將預(yù)置的關(guān)鍵詞高亮顯示或直接替換。

3.4 語音合成

智能語音播報是基于語音合成業(yè)務(wù)提供服務(wù)，語音合成由底層服務(wù)來完成。通過語音合成服務(wù)的應(yīng)用接入和調(diào)用，由系統(tǒng)軟件實現(xiàn)對新聞稿件的自動播報。在實際應(yīng)用過程中，只需要將文稿導(dǎo)入系統(tǒng)，由系統(tǒng)實現(xiàn)對新聞稿件的自動播報。

語音合成功能的實現(xiàn)分為文字和聲學(xué)兩部分。文字部分主要是輸入文稿的語言學(xué)分析，生成發(fā)音規(guī)則。聲學(xué)部分則根據(jù)發(fā)音規(guī)則來合成音頻輸出，實現(xiàn)發(fā)音的功能。對于輸入的文本進行語種判斷，然后根據(jù)文本含義進行字詞斷句拆分，根據(jù)詞義結(jié)合上下文區(qū)分多音字歧義字等將文本標準化并轉(zhuǎn)成語素標記。與此同時，還要分析標注字詞連句的韻律、高低曲折以及抑揚頓挫等發(fā)音技巧。將標注的文本轉(zhuǎn)化為聲音輸出有多種方法可以實現(xiàn)，比較普遍的是波形拼接法。波形拼接需要較長時間的人聲錄音采集，要能盡可能多地覆蓋到所有的語音音節(jié)和音素。通過發(fā)音語料庫來拼接對應(yīng)的文本，錄音時間越長，拼接發(fā)音就越純正。波形拼接法輸出音質(zhì)較好，可以很好地模擬錄制的人聲來發(fā)音。此外還有參數(shù)合成法，通過錄音文件的頻譜參數(shù)來建模，建立文本序列和語音特征參數(shù)的映射關(guān)系，再將音頻特征轉(zhuǎn)化成音頻輸出。語音合成支持將錄入的文字或者文本文件直接轉(zhuǎn)換成語音，有標準普通話、地方方言等。轉(zhuǎn)換的語音保存為音頻文件，可以通過快捷方式上傳到FTP 服務(wù)器，也可以直接通過本地聲卡輸出用于播放。

為了使合成語音后的文件迅速進入制播網(wǎng)絡(luò)，臺內(nèi)制播網(wǎng)絡(luò)也開發(fā)了一個文件掃描功能，播出系統(tǒng)掃描文字轉(zhuǎn)換的語音并轉(zhuǎn)碼實現(xiàn)自動上單，用于節(jié)目制作和播出。湖北廣播電視臺廣播智能語音識別采編器經(jīng)過試用，語音識別速度和正確率都取得了令人滿意的效果。將該系統(tǒng)與各地同行進行了共享交流，展示了其語音寫稿、語音識別、字幕轉(zhuǎn)寫、智能語音播報等功能，系統(tǒng)實用性獲得了大家的一致好評。

4 結(jié)語

語音識別技術(shù)經(jīng)過多年的發(fā)展己經(jīng)相對成熟，其對標準普通話的識別能夠滿足人們?nèi)粘９ぷ髦械男枰?，但是在方言和嘈雜環(huán)境下的識別正確率還有待提高。從目前的發(fā)展來看，語音合成播報已經(jīng)開始逐步應(yīng)用于實踐，特別是在手機應(yīng)用程序中取得了較多應(yīng)用成效。人工智能合成的語音可以流暢地對文本播報，但是播報顯得生硬，聲音相對呆板，是否適用于實際廣播播出還需要進一步論證和測試。在電臺等傳統(tǒng)媒體中，采訪機、新聞采編系統(tǒng)、制播系統(tǒng)等軟硬件系統(tǒng)都有著相對完善的體系。在不會大幅提升成本的條件下，如何將語音識別融入到媒體現(xiàn)有的采編和制播系統(tǒng)也是其在傳媒領(lǐng)域進一步推廣應(yīng)用面臨的一個難題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡