摘要:目的:文章全面系統(tǒng)地研究智能語音技術(shù)在新聞播報、廣播主持和電影配音等典型播音場景中的技術(shù)實現(xiàn)路徑,評估其對傳統(tǒng)播音模式產(chǎn)生的革新效應(yīng),并基于技術(shù)演進(jìn)規(guī)律,預(yù)判智能語音技術(shù)在推動未來播音模式變革中的潛力和前景。方法:主要采用文獻(xiàn)分析法,梳理近五年來智能語音技術(shù)在新聞自動播報、虛擬主持人生成、智能電影配音等場景中的應(yīng)用案例,細(xì)致考察語音識別、語音合成、語音轉(zhuǎn)換等智能語音技術(shù)模塊的算法架構(gòu)、實現(xiàn)原理、應(yīng)用效果等,全面了解技術(shù)實現(xiàn)流程。同時,調(diào)查主流商業(yè)化智能播音系統(tǒng)和產(chǎn)品,評估技術(shù)應(yīng)用的實際成效。結(jié)果:研究發(fā)現(xiàn),集成深度神經(jīng)網(wǎng)絡(luò)的語音分析生成技術(shù)可以端到端地自動完成播音文本建設(shè)、語音處理、效果控制等任務(wù),已在多個企業(yè)的自動新聞播報、虛擬主持人生成、智能電影配音等場景中落地。這些智能語音驅(qū)動的播音應(yīng)用在商業(yè)系統(tǒng)中展現(xiàn)出較高的自動化生成效率和高質(zhì)量輸出能力,達(dá)到或超越人工播音的水平。結(jié)論:在微觀上,智能語音技術(shù)正重構(gòu)和革新新聞編播、節(jié)目主持、影視配音等傳統(tǒng)播音模式,并驅(qū)動這一領(lǐng)域朝著智能化和內(nèi)容個性化演化;在宏觀上,智能語音播音技術(shù)保證了自身應(yīng)用空間和潛力的持續(xù)擴(kuò)大,將推動互聯(lián)網(wǎng)時代新型智能化、專業(yè)化和泛在化的播音產(chǎn)業(yè)加速形成。
關(guān)鍵詞:智能語音技術(shù);播音;應(yīng)用;前景
中圖分類號:G222.2;TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1004-9436(2024)09-0-03
0 引言
近年來,語音識別和語音合成等智能語音核心技術(shù)取得重大突破,其轉(zhuǎn)化能力、生成質(zhì)量和執(zhí)行效率大幅提升。智能語音技術(shù)得以在新聞播報、廣播主持和電影配音等傳統(tǒng)播音領(lǐng)域中廣泛運用,以實現(xiàn)更高水平的自動化和智能化。這些技術(shù)通過自動化分析語音內(nèi)容、生成語音輸出,實現(xiàn)對各類播音模式的重構(gòu)和升級。隨著支持智能播音的核心語音算法和技術(shù)的持續(xù)發(fā)展,智能語音技術(shù)在推動播音模式實現(xiàn)更高水平的智能化、個性化和人機(jī)交互方面,還蘊藏著巨大的潛力。
1 智能語音技術(shù)概述
智能語音技術(shù)是人工智能與語音技術(shù)的融合,主要包括語音識別技術(shù)和語音合成技術(shù)。語音識別技術(shù)是通過計算機(jī)將語音信號轉(zhuǎn)化為相應(yīng)文字或指令的技術(shù);語音合成技術(shù)則是通過計算機(jī)將文字信號轉(zhuǎn)化成人類可聽懂的語音信號。
1.1 語音識別技術(shù)概述及發(fā)展現(xiàn)狀
語音識別技術(shù)的主要方法有聲學(xué)匹配法、模式識別法和語音理解法。其中,基于深度學(xué)習(xí)的端到端語音識別模型近年來發(fā)展最為迅速。這類模型可以直接輸入語音進(jìn)行識別,無須明確的音素提取、音節(jié)切分等中間處理環(huán)節(jié)[1]。典型的端到端模型包括連接主義長短時記憶序列轉(zhuǎn)錄網(wǎng)絡(luò)(CLDNN)、注意力編碼器解碼器(AED)模型等。語音合成技術(shù)主要包括連接主義語音合成和統(tǒng)計參數(shù)語音合成。連接主義方法根據(jù)人工設(shè)計的語音生成規(guī)則直接進(jìn)行語音合成;統(tǒng)計參數(shù)語音合成則是通過機(jī)器學(xué)習(xí)方法從大量真實語音中學(xué)習(xí)語音的參數(shù)統(tǒng)計模型,根據(jù)這些模型合成語音信號。
1.2 語音轉(zhuǎn)換技術(shù)概述及應(yīng)用
智能語音技術(shù)中還包含語音轉(zhuǎn)換技術(shù)。語音轉(zhuǎn)換技術(shù)可以在不改變語音含義的前提下,轉(zhuǎn)換語音的語調(diào)、語速、音高、音色等語音特征。這是通過語音編碼、參數(shù)提取和語音解碼完成的[2]。這種轉(zhuǎn)換功能在播音領(lǐng)域得到廣泛應(yīng)用。一些新聞播報系統(tǒng)提供多種可切換的播音語氣;智能配音系統(tǒng)也可以通過語音轉(zhuǎn)換技術(shù),快速調(diào)整電影人物的語音效果,無須重新配音。
語音轉(zhuǎn)換技術(shù)通過分離語音中的內(nèi)容信息和風(fēng)格信息,實現(xiàn)語音內(nèi)容與語音表現(xiàn)的分離與重組,這也是語音識別、語音合成和語音轉(zhuǎn)換技術(shù)有機(jī)結(jié)合的體現(xiàn)。隨著相關(guān)技術(shù)不斷成熟,語音轉(zhuǎn)換技術(shù)將在豐富播音內(nèi)容生產(chǎn)方面發(fā)揮更大作用。
未來隨著算法和算力的持續(xù)進(jìn)步,智能語音技術(shù)將獲得更廣闊的應(yīng)用前景。
2 智能語音技術(shù)在播音領(lǐng)域中的應(yīng)用
2.1 新聞播報
新聞播報是播音領(lǐng)域的重要組成部分。傳統(tǒng)的新聞播報需要記者編寫新聞稿,然后由播音員朗讀和錄音。而智能語音技術(shù)的應(yīng)用實現(xiàn)了新聞播報的自動化生成。具體來說,新聞智能播報系統(tǒng)首先需要自動文本生成模塊,可以實時從網(wǎng)絡(luò)新聞、社交媒體等抓取相關(guān)數(shù)據(jù),利用自然語言生成算法自動生成適合播報的新聞文本[3]。系統(tǒng)中還需要集成語音合成模塊,其包含新聞播報所需要的專業(yè)播音語音數(shù)據(jù)庫,可以對自動生成的文本進(jìn)行情感豐富的播報語音的合成。
當(dāng)前,智能語音新聞播報技術(shù)已經(jīng)得到商業(yè)化應(yīng)用,如字節(jié)跳動的智能語音播報器、螞蟻科技的智能新聞播音機(jī)器人等。隨著支持新聞播報的語音合成和文本生成算法不斷優(yōu)化,可以預(yù)見,智能化新聞播報將進(jìn)一步發(fā)展,為用戶提供更加高質(zhì)量和個性化的新聞播報服務(wù)。
2.2 廣播節(jié)目主持
虛擬主持人系統(tǒng)的語音合成技術(shù)核心在于建立個性化的語音模型。具體做法是,首先收集專業(yè)播音主持人的語音錄音樣本,樣本中包含豐富的語調(diào)語氣特征[4]。然后,利用深度神經(jīng)網(wǎng)絡(luò)中的語音克隆技術(shù),將主持人的語音特征提取編碼,建立特征參數(shù)矩陣,并在此基礎(chǔ)上結(jié)合文本情感分析算法,識別輸入文本所包含的情感成分。最后綜合語音特征矩陣和文本情感參數(shù),使用聲碼器合成涵蓋主持人風(fēng)格的語音。
合成語音在語言風(fēng)格和表達(dá)方式上能夠高度仿真真人播音。目前,這種個性化虛擬主持人技術(shù)已經(jīng)服務(wù)于多家音樂電臺,承擔(dān)部分音樂節(jié)目和曲目解說的主持工作。與預(yù)設(shè)音庫的語音合成相比,其語音更豐富、更有感染力,節(jié)目效果顯著增強(qiáng)。未來,該項技術(shù)將推動更多類型的虛擬主持人問世,實現(xiàn)人機(jī)混搭播音,全面推進(jìn)廣播節(jié)目的智能化升級。
2.3 語音配音
智能語音配音系統(tǒng)通過建立神經(jīng)網(wǎng)絡(luò)語音合成模型,可以學(xué)習(xí)和模擬專業(yè)人類配音演員的語音特征,包括音調(diào)、音色、語速、語氣等。在接收影視作品的視頻圖像幀后,系統(tǒng)利用計算機(jī)視覺算法捕捉和分析畫面中人物的唇形動作變化、面部微表情等視覺信息,然后綜合語音模型與視頻圖像內(nèi)容,動態(tài)生成與人物唇形動作同步、情感表達(dá)貼合自然的配音音頻序列。
相比傳統(tǒng)配音流程,智能語音配音實現(xiàn)了過程的全自動化,無須開展人工詞條切分、時間軸預(yù)標(biāo)注等煩瑣工作[5]。此外,系統(tǒng)合成的配音可精確匹配人物的語言內(nèi)容、語氣語調(diào)乃至最細(xì)微的表情變化,最終獲得更加逼真流暢的配音效果。隨著相關(guān)核心技術(shù)持續(xù)升級,智能語音配音有望被應(yīng)用到更多類型的影視制作中,真正實現(xiàn)配音過程自動化,極大地提升制作效率。
3 智能語音技術(shù)對播音領(lǐng)域的影響
3.1 提高播音質(zhì)量
智能語音技術(shù)可以實現(xiàn)更加逼真、豐富的語音合成效果。通過深度學(xué)習(xí)算法,智能語音系統(tǒng)可以分析大量人類語音數(shù)據(jù),建立包含聲音特質(zhì)的數(shù)字化語音模型。這些模型可以高度還原人聲的音質(zhì)音色,并動態(tài)調(diào)整音高語調(diào),合成富有情感表現(xiàn)力的語音輸出,極大地增強(qiáng)播音的感染力。
智能語音技術(shù)具有更強(qiáng)的內(nèi)容創(chuàng)作能力。通過自然語言生成和語義分析技術(shù),智能播音系統(tǒng)可以自動組織結(jié)構(gòu)合理的播音語言內(nèi)容。同時還可以根據(jù)場景需要,輸出不同語域風(fēng)格的語音,進(jìn)一步豐富播音內(nèi)容的表達(dá)手段。
智能語音技術(shù)實現(xiàn)了內(nèi)容與表現(xiàn)的深度融合。語音內(nèi)容生成和語音合成技術(shù)的有機(jī)結(jié)合,使最終播音的語調(diào)語氣等可根據(jù)文本內(nèi)容實時調(diào)整,實現(xiàn)更加精確、通透的內(nèi)容傳達(dá),顯著提升播音質(zhì)量和體驗。
3.2 提升播音效率
智能語音技術(shù)的應(yīng)用推動了播音生產(chǎn)全流程的智能化升級和優(yōu)化,極大地提升播音效率。在內(nèi)容生成層面,智能文本構(gòu)建算法通過深度學(xué)習(xí)分析海量數(shù)據(jù),實時生成格式規(guī)范、條理清晰的播音文本,降低了對效率低下的人工編纂的依賴度。在語音轉(zhuǎn)換層面,智能語音合成系統(tǒng)集成大規(guī)模人聲數(shù)據(jù)庫和先進(jìn)的聲學(xué)模型算法,直接輸入文本即可在幾秒內(nèi)輸出標(biāo)準(zhǔn)播音式的語音朗讀版本,無須播音員逐字錄音。此外,該系統(tǒng)還可以根據(jù)文本語義,自動添加豐富的語調(diào)語氣元素,實現(xiàn)精確的語義傳達(dá)。在服務(wù)體驗層面,系統(tǒng)通過分析歷史數(shù)據(jù),構(gòu)建用戶口味模型,實現(xiàn)個性化推薦,以滿足不同用戶的偏好需求。
3.3 用戶個性化推薦
分析用戶的歷史數(shù)據(jù),包括其點播收聽的新聞類別、偏好的音頻內(nèi)容風(fēng)格、常設(shè)的語音播放速度等,從而建立用戶的個性化興趣模型。當(dāng)用戶再次使用該播音系統(tǒng)時,后臺可以匹配用戶模型與所有候選內(nèi)容,按相似度排序,為用戶推薦可能感興趣的新聞或音頻信息。同時,在語音合成輸出層面,也可以根據(jù)用戶的語速語調(diào)參數(shù)設(shè)定,制作個性化的播音語音版本。
這種針對個體差異的精準(zhǔn)推薦和個性化表達(dá),極大地提升了播音內(nèi)容的契合度,大幅提升用戶的滿意度。這也使商業(yè)化的智能播音平臺可以持續(xù)吸引用戶群體,提高內(nèi)容消費流量??傮w上,用戶個性化推薦是智能技術(shù)賦能下的播音系統(tǒng)實現(xiàn)差異化演進(jìn)、滿足群體碎片化需求的重要體現(xiàn)。
4 智能語音技術(shù)在播音領(lǐng)域的發(fā)展前景
4.1 智能新聞播報繼續(xù)發(fā)展
智能新聞播報已經(jīng)成為新聞生產(chǎn)的重要組成部分,未來其將持續(xù)升級,更加自動化和智能化,具體應(yīng)用潛力體現(xiàn)在以下幾方面。
第一,文本生成能力不斷增強(qiáng)。系統(tǒng)通過深入分析海量、多樣化的文本、音頻數(shù)據(jù),訓(xùn)練出更強(qiáng)大的語言模型,可以高質(zhì)量生成豐富多樣的新聞文本,涵蓋更多題材、更寬領(lǐng)域,同時滿足用戶對新聞題材、表達(dá)方式的差異化偏好需求。
第二,語音合成質(zhì)量持續(xù)提升。隨著更高效的神經(jīng)聲碼器和更龐大的人聲數(shù)據(jù)庫建設(shè),新聞播報的語音表現(xiàn)力將不斷增強(qiáng),可以合成更豐富真實的人音,精確傳遞細(xì)微語氣和情感。不同播音風(fēng)格也可快速切換,為個性化新聞提供高質(zhì)量語音支持。統(tǒng)計參數(shù)語音合成可以更好地模擬人聲的細(xì)微變化與情感表達(dá),生成更加豐富、逼真的語音效果,其是當(dāng)前發(fā)展較快的主流語音合成方法。
第三,進(jìn)行實時交互式新聞播報。未來新聞播報系統(tǒng)不僅可以主動推送新聞,還將啟用交互功能,根據(jù)用戶實時提問或指令,通過自然語言理解和生成技術(shù),進(jìn)行準(zhǔn)確回答或繼續(xù)播報,從而大幅提升用戶體驗。
4.2 虛擬主持人應(yīng)用場景擴(kuò)大
隨著語音合成技術(shù)的飛速進(jìn)步,智能虛擬主持人生成的語音將更加豐富逼真,這必將推動其跨越更多應(yīng)用場景和領(lǐng)域。
虛擬主持人有望承擔(dān)起實時個性化的新聞解說任務(wù)[6]。系統(tǒng)可根據(jù)用戶指定的新聞話題、播報語速、語調(diào)等參數(shù)實時調(diào)整,輸出符合個性化要求的語音新聞。這超越了固定模式的新聞播報,實現(xiàn)差異化需求的精準(zhǔn)滿足。
依托更大規(guī)模的語音樣本數(shù)據(jù)集和持續(xù)升級的聲學(xué)建模算法,虛擬主持人生成的語音效果的穩(wěn)定性將大幅提升。這有利于其承接音樂電臺等廣播頻道中時長較長的節(jié)目主持工作,全時段地替代真人主持播音。
綜上所述,智能語音技術(shù)的推動力與海量數(shù)據(jù)的縱深培育,將助力虛擬主持人實現(xiàn)跨場景、大規(guī)模的商業(yè)化應(yīng)用。有理由期待虛擬主持人快速成長為超越真人主持的新型內(nèi)容生產(chǎn)主力。
4.3 語音配音逼真度提高
智能語音配音技術(shù)快速發(fā)展,其生成的語音效果愈發(fā)逼真。支撐這一進(jìn)程的,是多項核心技術(shù)的深化提升。
通過引入卷積神經(jīng)網(wǎng)絡(luò)等前沿模型架構(gòu),構(gòu)建生成能力更強(qiáng)的聲碼器,配合海量多樣人聲數(shù)據(jù)的訓(xùn)練,可以合成非常豐富和細(xì)微的人聲效果,配音質(zhì)量大幅提升。此外,在視頻圖像處理方面,計算機(jī)視覺算法的識別精度也在快速提高,這使系統(tǒng)可以捕捉和學(xué)習(xí)到人物更微小的面部表情變化和唇形特征點,以精確驅(qū)動語音表現(xiàn)力。
綜合處理視頻圖像和語音模型的核心跨模態(tài)算法持續(xù)優(yōu)化,將顯著增強(qiáng)最終語音輸出與人物面部表情之間的協(xié)調(diào)性。相信在不遠(yuǎn)的將來,智能語音配音必將做到對人類配音效果的完美模擬,并在更多領(lǐng)域?qū)崿F(xiàn)應(yīng)用。
5 結(jié)語
智能語音技術(shù)已經(jīng)深刻改變和重構(gòu)新聞播報、廣播主持、電影配音等傳統(tǒng)播音領(lǐng)域。從新聞自動播報、虛擬主持人應(yīng)用到智能電影配音,智能語音技術(shù)實現(xiàn)對播音工作的自動化、效率化、智能化、個性化升級。未來隨著語音識別、語音合成等核心技術(shù)的進(jìn)一步發(fā)展,以及算法和算力的持續(xù)提升,智能語音技術(shù)在繼續(xù)推動播音模式變革的同時,也將迎來更加廣闊的應(yīng)用前景。有理由期待,智能語音技術(shù)與播音領(lǐng)域的深度融合,必將推動更多革命性的產(chǎn)業(yè)變革。
參考文獻(xiàn):
[1] 張博遠(yuǎn).淺議新媒體環(huán)境下人工智能技術(shù)對播音主持行業(yè)的影響:以AI主播為例[J].明日風(fēng)尚,2023(9):73-75.
[2] 韓志浦.智能語音技術(shù)下播音主持的探索與思考:以微軟AI配音為例[J].文學(xué)藝術(shù)周刊,2023(16):80-82.
[3] 余明桄.人工智能語音時代播音員主持人面臨的挑戰(zhàn)與發(fā)展路徑探索[J].中國傳媒科技,2022(1):80-82.
[4] 張彧睿.智能語音技術(shù)在播音主持領(lǐng)域中的應(yīng)用研究[J].信息記錄材料,2020,21(3):88-89.
[5] 翁佳.智能語音技術(shù)對播音主持專業(yè)與行業(yè)影響探究[J].電視研究,2017(12):57-59.
[6] 張佩佩.智能技術(shù)為新聞播音帶來的影響[J].記者搖籃,2023(3):147-149.
作者簡介:范晴 (2000—),女,研究方向:播音與主持藝術(shù)。