国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能語音技術(shù)在廣播領(lǐng)域的應(yīng)用探索

2023-01-17 02:08:54管海建
電視技術(shù) 2022年6期
關(guān)鍵詞:字幕錄音音頻

管海建

(湖北廣播電視臺,湖北 武漢 430022)

0 引言

智能語音技術(shù)包括語音識別、語音合成、口語評測、語義理解、自然語言處理等內(nèi)容。其中語音識別和語音合成技術(shù)使得各種終端具備了聽說能力,在機器人、智能家居、移動終端等設(shè)備中實現(xiàn)廣泛應(yīng)用。隨著5G 移動網(wǎng)絡(luò)的普及和人工智能技術(shù)的飛速發(fā)展,語音識別和播報技術(shù)極大提升了應(yīng)用程序中的交互效率和體驗,在移動終端的人機交互中得到廣泛應(yīng)用,

1952 年,貝爾研究所成功發(fā)布第一個能識別簡單英文和數(shù)字發(fā)音的試驗系統(tǒng)。經(jīng)過幾十年的發(fā)展和進步,從字母、孤立詞的識別逐漸發(fā)展到大詞匯量語音連續(xù)識別。隨著語音識別技術(shù)的不斷進步,語音識別在優(yōu)化模型的算法、語音特征提取和優(yōu)化、提高系統(tǒng)的準確率等方面取得較大進展,相關(guān)產(chǎn)品也逐漸走向市場,端點檢測、噪音消除、智能打斷、大詞匯量識別、特征提取、多操識別以及熱詞識別等相關(guān)課題紛紛取得突破。在全球范圍內(nèi),智能語音技術(shù)商業(yè)化已經(jīng)取得了很大的成果。國外的谷歌、微軟、蘋果等公司推出了智能語音商用產(chǎn)品,國內(nèi)的科大訊飛、捷通華聲、中科信利、云知聲等語音企業(yè)以及百度、騰訊、阿里等互聯(lián)網(wǎng)巨頭也紛紛推出集成智能語音技術(shù)的產(chǎn)品和配套解決方案。此外,隨著語音識別準確率的逐步提高,各類軟硬件都開始集成語音識別功能,語音識別技術(shù)逐漸融入了有交互需求的各類產(chǎn)品。

語音合成指將以文字為主的媒體內(nèi)容轉(zhuǎn)化為人類語音輸出,語音合成的產(chǎn)品用途十分廣泛。和語音識別一樣,語音合成也是智能語音技術(shù)的重要組成部分。語音合成可以將文字等媒體內(nèi)容轉(zhuǎn)譯成自然清晰、標準流暢的語音輸出,包括且不限于中文、外文或者方言等,可以實現(xiàn)不同音色的高度模擬。通過語音合成技術(shù)的應(yīng)用,可以極大程度地提高媒體工作效率,例如路況、氣象預(yù)報等都可以通過語音合成來自動實現(xiàn)。

1 語音識別系統(tǒng)工作原理

語音識別系統(tǒng)相對復(fù)雜,技術(shù)原理涉及多個學(xué)科,包括信號處理、模式識別、統(tǒng)計分析以及人工智能等。語音識別主要采用模式匹配的方法,通過提取輸入信號的聲學(xué)特征作為模板存入數(shù)據(jù)庫,在識別信號時與數(shù)據(jù)庫中模板進行比較后輸出相似度最高的結(jié)果。語音信號經(jīng)過話筒輸入采集轉(zhuǎn)變成電信號,在輸入端經(jīng)過信號處理消除噪聲,切除前后端的靜音段,然后利用移動窗函數(shù)進行分幀,分幀后的波形再進行轉(zhuǎn)換,每一幀波形變成一個多維向量,這個過程稱為聲學(xué)特征提取。目前,聲學(xué)特征提取有多種不同的復(fù)雜算法。

系統(tǒng)模型的建立包括聲學(xué)和語言兩部分,其中隱馬爾可夫模型是應(yīng)用最廣泛的建模方法。此外,人工神經(jīng)網(wǎng)絡(luò)也是語音識別技術(shù)發(fā)展的一個熱點。雖然模型匹配的方法很多,但是受發(fā)音習(xí)慣、方言等的影響,很多語音還需要結(jié)合上下文的含義判斷,準確識別相對存在一定的的難度。隨著技術(shù)的不斷進步,整個系統(tǒng)模型識別匹配的準確率一般都達到了90%以上,可以滿足日常應(yīng)用的需要。

近年來,深度學(xué)習(xí)理論被廣泛研究與應(yīng)用,智能語音技術(shù)在語音識別方面也取得了一定突破。通過各種帶有語音功能的場景和應(yīng)用程序,網(wǎng)絡(luò)中大量的用戶數(shù)據(jù)被不斷收集和匯總到后臺,有的語音產(chǎn)品僅針對喚醒識別一項功能就錄制了超過8 萬條語音來建立狀態(tài)模型,這些海量數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)的分析和學(xué)習(xí)不斷完善數(shù)據(jù)模型和匹配算法。

2 智能語音技術(shù)與電臺節(jié)目生產(chǎn)流程的融合

在廣播電視等媒體的節(jié)目編輯中,經(jīng)常需要將采訪中獲得的大量語音素材整理成文字或者將播出稿件轉(zhuǎn)換成文字稿、將語音信號轉(zhuǎn)換成視頻字幕等,這些剛性需求為智能語音技術(shù)在電臺的融合與應(yīng)用提供了契機。無論是廣播、電視、報紙等傳統(tǒng)媒體,還是以微博、微信、視頻平臺等為代表的新媒體,時效性一直是行業(yè)聚焦的競爭點。在采訪(錄音)、聽音打字、整理寫稿的過程中,整理錄音和打字都耗費了大量時間成本,而利用語音識別技術(shù)能夠顯著降低成本并提高時效性。

根據(jù)廣播電臺的節(jié)目生產(chǎn)流程,廣播節(jié)目件的生成通常需要經(jīng)過音頻節(jié)目的采編制作和新聞稿件的采編,包括采訪寫稿、審稿、存儲、發(fā)播等環(huán)節(jié)。新聞稿件的采訪會使用便攜式錄音設(shè)備,傳統(tǒng)采訪錄音設(shè)備目前還不具備語音識別功能,需要將錄音文件導(dǎo)出后進行識別。節(jié)目審聽階段,可以應(yīng)用語音識別技術(shù)來進行關(guān)鍵字查找、定位。目前語音合成技術(shù)也逐漸成熟,合成效果已經(jīng)很接近自然發(fā)音。在移動終端的應(yīng)用中,合成語音播報天氣、路況、講故事等已經(jīng)十分普遍。在電臺節(jié)目播出過程中,可以嘗試將主持人聲音制作成語音庫,輸入文字后轉(zhuǎn)換成音頻稿件用于播出。

3 智能語音技術(shù)的應(yīng)用

結(jié)合湖北臺節(jié)目采編流程,筆者研發(fā)設(shè)計了一款基于Windows 操作系統(tǒng)的應(yīng)用,即智能語音識別采編器,融合了語音識別、語音合成、字幕轉(zhuǎn)寫以及語音分析等多種常用功能。

3.1 語音識別

語音音頻支持內(nèi)錄、線路輸入、文件導(dǎo)入等多種采集和導(dǎo)入方式,適合不同場合的語音采集工作。

內(nèi)錄是指錄制本地計算機的音頻,即計算機聲卡所播放的聲音,將聲卡播放的內(nèi)容識別成文字。這項功能多用于截取錄制的采訪錄音或音頻中的一段轉(zhuǎn)換為文字,可直接利用操作系統(tǒng)自帶播放器進行播放,同時打開采編器內(nèi)錄開關(guān)進行語音識別和轉(zhuǎn)換。

線路輸入指通過計算機聲卡外接話筒輸入音頻信號,將話筒音頻信號實時轉(zhuǎn)換識別為漢字,可用于記者編輯采用語音寫稿、會議記錄、實時采訪等場景。文件導(dǎo)入可將計算機內(nèi)音頻文件導(dǎo)入到采編器進行文字轉(zhuǎn)換,適合轉(zhuǎn)換已錄制好的語音文件。

語音識別引擎安裝在本地計算機,使用過程中不需要聯(lián)網(wǎng),語音識別過程不會受到網(wǎng)速的影響。在外接話筒進行語音識別時,轉(zhuǎn)換的文字會在屏幕上實時顯示,而且識別過程中可以隨時進行文字修正。系統(tǒng)能夠?qū)ψR別出的同音詞語結(jié)合整句話語義進行自動糾正和匹配,利用關(guān)鍵詞也可以預(yù)置人名、地名等專用名詞,大大提高了識別正確率。

3.2 字幕轉(zhuǎn)寫

傳統(tǒng)的字幕整理耗時費力,利用端點檢測、分段、語義理解等技術(shù)可以自動生成字幕,再由人工進行簡單修正審核即可直接應(yīng)用。語音轉(zhuǎn)換后的文字生成字幕可直接拖放在擴展屏上顯示,通過視頻編輯軟件豐富字幕場景。字幕轉(zhuǎn)寫功能可以為電臺大型活動現(xiàn)場視頻、會議大屏等提供字幕。

3.3 語音分析

隨著廣播事業(yè)的發(fā)展,節(jié)目審聽的工作也越來越多。作為媒體管理的重要組成部分,對音視頻等的監(jiān)管比對文字的監(jiān)管要困難得多。傳統(tǒng)的節(jié)目審聽采用純?nèi)斯し绞剑蓪H诉M行大量煩瑣枯燥的機械性工作。而應(yīng)用語音識別技術(shù)將關(guān)鍵詞預(yù)置進審聽系統(tǒng),導(dǎo)入審聽節(jié)目后可進行自動審核,系統(tǒng)檢測到關(guān)鍵詞則警報提示,大大提高了審聽效率。此外,在語音識別轉(zhuǎn)文字的過程中,可以將預(yù)置的關(guān)鍵詞高亮顯示或直接替換。

3.4 語音合成

智能語音播報是基于語音合成業(yè)務(wù)提供服務(wù),語音合成由底層服務(wù)來完成。通過語音合成服務(wù)的應(yīng)用接入和調(diào)用,由系統(tǒng)軟件實現(xiàn)對新聞稿件的自動播報。在實際應(yīng)用過程中,只需要將文稿導(dǎo)入系統(tǒng),由系統(tǒng)實現(xiàn)對新聞稿件的自動播報。

語音合成功能的實現(xiàn)分為文字和聲學(xué)兩部分。文字部分主要是輸入文稿的語言學(xué)分析,生成發(fā)音規(guī)則。聲學(xué)部分則根據(jù)發(fā)音規(guī)則來合成音頻輸出,實現(xiàn)發(fā)音的功能。對于輸入的文本進行語種判斷,然后根據(jù)文本含義進行字詞斷句拆分,根據(jù)詞義結(jié)合上下文區(qū)分多音字歧義字等將文本標準化并轉(zhuǎn)成語素標記。與此同時,還要分析標注字詞連句的韻律、高低曲折以及抑揚頓挫等發(fā)音技巧。將標注的文本轉(zhuǎn)化為聲音輸出有多種方法可以實現(xiàn),比較普遍的是波形拼接法。波形拼接需要較長時間的人聲錄音采集,要能盡可能多地覆蓋到所有的語音音節(jié)和音素。通過發(fā)音語料庫來拼接對應(yīng)的文本,錄音時間越長,拼接發(fā)音就越純正。波形拼接法輸出音質(zhì)較好,可以很好地模擬錄制的人聲來發(fā)音。此外還有參數(shù)合成法,通過錄音文件的頻譜參數(shù)來建模,建立文本序列和語音特征參數(shù)的映射關(guān)系,再將音頻特征轉(zhuǎn)化成音頻輸出。語音合成支持將錄入的文字或者文本文件直接轉(zhuǎn)換成語音,有標準普通話、地方方言等。轉(zhuǎn)換的語音保存為音頻文件,可以通過快捷方式上傳到FTP 服務(wù)器,也可以直接通過本地聲卡輸出用于播放。

為了使合成語音后的文件迅速進入制播網(wǎng)絡(luò),臺內(nèi)制播網(wǎng)絡(luò)也開發(fā)了一個文件掃描功能,播出系統(tǒng)掃描文字轉(zhuǎn)換的語音并轉(zhuǎn)碼實現(xiàn)自動上單,用于節(jié)目制作和播出。湖北廣播電視臺廣播智能語音識別采編器經(jīng)過試用,語音識別速度和正確率都取得了令人滿意的效果。將該系統(tǒng)與各地同行進行了共享交流,展示了其語音寫稿、語音識別、字幕轉(zhuǎn)寫、智能語音播報等功能,系統(tǒng)實用性獲得了大家的一致好評。

4 結(jié)語

語音識別技術(shù)經(jīng)過多年的發(fā)展己經(jīng)相對成熟,其對標準普通話的識別能夠滿足人們?nèi)粘9ぷ髦械男枰?,但是在方言和嘈雜環(huán)境下的識別正確率還有待提高。從目前的發(fā)展來看,語音合成播報已經(jīng)開始逐步應(yīng)用于實踐,特別是在手機應(yīng)用程序中取得了較多應(yīng)用成效。人工智能合成的語音可以流暢地對文本播報,但是播報顯得生硬,聲音相對呆板,是否適用于實際廣播播出還需要進一步論證和測試。在電臺等傳統(tǒng)媒體中,采訪機、新聞采編系統(tǒng)、制播系統(tǒng)等軟硬件系統(tǒng)都有著相對完善的體系。在不會大幅提升成本的條件下,如何將語音識別融入到媒體現(xiàn)有的采編和制播系統(tǒng)也是其在傳媒領(lǐng)域進一步推廣應(yīng)用面臨的一個難題。

猜你喜歡
字幕錄音音頻
Word和Excel聯(lián)手字幕添加更高效
Funny Phonics
funny phonics
必須了解的音頻基礎(chǔ)知識 家庭影院入門攻略:音頻認證與推薦標準篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Colorful Seasons多彩四季
A New Term
音頻分析儀中低失真音頻信號的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
整合適應(yīng)選擇度下的動畫電影字幕翻譯——以《冰河世紀》的字幕漢譯為例
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
鄯善县| 凤阳县| 沙湾县| 河曲县| 永吉县| 嘉义市| 师宗县| 临清市| 乌兰浩特市| 宜兴市| 绥江县| 游戏| 自治县| 榆中县| 伊金霍洛旗| 会东县| 维西| 长治市| 巴林右旗| 台前县| 梅州市| 类乌齐县| 平山县| 桓仁| 乡城县| 乐山市| 上虞市| 河曲县| 合江县| 惠安县| 阜新| 金阳县| 偃师市| 平泉县| 屏东县| 开封县| 略阳县| 金平| 时尚| 陵水| 柯坪县|