智能語音技術(shù)下播音主持的探索與思考

2023-10-18 06:31:58韓志浦

文學(xué)藝術(shù)周刊 2023年16期

人工智能是當(dāng)下科技發(fā)展的熱門領(lǐng)域，智能語音技術(shù)在人工智能領(lǐng)域中也占據(jù)著重要地位，隨著人工智能技術(shù)的不斷發(fā)展，智能語音技術(shù)也日趨成熟。微軟公司AI（人工智能）語音合成技術(shù)是目前市面上應(yīng)用很廣泛、十分接近人聲的AI配音，不僅可以自由選擇語速、音調(diào)、音色，甚至可以按照不同的情感朗讀播報，幾乎與真人配音無異。因此，對于以聲音為主的播音主持專業(yè)來說，無疑帶來了巨大的機(jī)遇與挑戰(zhàn)。

一、智能語音技術(shù)的發(fā)展現(xiàn)狀

智能語音技術(shù)并不是近幾年才誕生的，其實(shí)它早已出現(xiàn)在我們的生活中，只是起初的人工智能配音大多出現(xiàn)在機(jī)場車站的客運(yùn)信息播報、駕駛證科目考試語音播報、餐廳或醫(yī)院的排號播報等場景，且語氣較為刻板僵硬、缺乏情感，與人聲差別較大。2017年，國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》，顯現(xiàn)出國家對人工智能技術(shù)發(fā)展的重視。人工智能技術(shù)的不斷進(jìn)步，也帶來了AI語音合成技術(shù)的迅猛發(fā)展，在大數(shù)據(jù)算法的精密計算下，AI語音合成技術(shù)合成的聲音越來越接近人聲。直至今天，以微軟AI配音為代表的AI語音合成技術(shù)已經(jīng)廣泛應(yīng)用于人們的生活中。例如許多短視頻的配音解說，皆由AI語音合成技術(shù)完成。尤其是當(dāng)下最熱門的微軟AI配音中云希的聲音，更是火遍全網(wǎng)。它的聲音不僅音色干凈，而且可以自由調(diào)控語速、音調(diào)、情緒，甚至說話時具備正常人說話時的喘氣聲，十分逼真，配音效果幾乎與真人無異。當(dāng)然在情感的把控、聲音細(xì)節(jié)的處理上，AI語音合成技術(shù)尚且不能達(dá)到真人的水準(zhǔn)，尤其對于情感變化比較大、需要夸張藝術(shù)化處理的聲音表達(dá)時，人工智能合成的語音缺陷明顯。

二、智能語音技術(shù)的優(yōu)勢與不足

（一）配音效率高，制作成本低

傳統(tǒng)配音一直存在很多弊端，比如配音效率低、配音費(fèi)用高、容易口誤出錯、錄制聲音環(huán)境要求高等。但是，利用AI語音合成技術(shù)，便可以很輕松地解決以上問題。例如使用微軟AI配音，只需要把想要配的文字輸入文本框中，然后還可以自由調(diào)節(jié)想要的音色、語速、音調(diào)、說話風(fēng)格等，之后直接點(diǎn)擊導(dǎo)出即可，配音效率極高。AI語音合成技術(shù)合成的聲音，只要文本設(shè)置沒有問題，便不會出現(xiàn)錯字、漏字、加字等問題。智能語音技術(shù)合成的配音相比于真人配音，價格成本優(yōu)勢十分明顯。在2020年，全球首位3D版AI合成主播亮相新華社演播室，不僅能隨時變換發(fā)型、更改服裝，而且能穿梭于演播室的不同虛擬場景中，和前一代AI合成主播相比，它實(shí)現(xiàn)了從單一景深機(jī)位到多機(jī)位多景深、從微笑播報到多樣化精微表情播報等進(jìn)步，播報形態(tài)可通過不同角度全方位呈現(xiàn)，立體感和層次感明顯增強(qiáng)。只需要在機(jī)器上輸入相應(yīng)文本內(nèi)容，AI合成主播就能播報新聞，并根據(jù)語義生成相對應(yīng)的面部表情和肢體語言，能夠不知疲倦地工作24小時，只要將文本輸入系統(tǒng)，它們就能隨時工作，并且一直工作下去。

（二）配音種類豐富，滿足各種需求

配音員的年齡、性別、音色等的不同，導(dǎo)致每位配音員能配音的類型相對比較局限，加上不同場景、人物下，甲方需要各種不同聲線甚至不同語言表達(dá)形式的配音員。因此，一部音頻視頻作品往往需要多人配音共同完成。而對于智能語音技術(shù)來說，只要語音資料足夠完整豐富，便可通過AI語音合成技術(shù)，復(fù)刻出與其音色極其相似的聲音，甚至其表達(dá)時的重音、停連、節(jié)奏等都十分相似。同時AI語音合成技術(shù)也可以做到多國語言配音播報，不僅可以中文朗讀，而且可以錄制英語、法語、日語等語言。[1]以微軟AI配音為例，上面有云希、云楊、曉曉、曉辰等超二十位不同音色的配音員，他們都是經(jīng)過大量聲音數(shù)據(jù)資料訓(xùn)練出的聲音，與真人聲音高度相似，并且可以自由改變其說話風(fēng)格。微軟AI配音可以使用跨140種語言和變體的400種神經(jīng)網(wǎng)絡(luò)語音。極具表現(xiàn)力和類似人類的聲音，神經(jīng)網(wǎng)絡(luò)文本轉(zhuǎn)語音支持多種朗讀風(fēng)格，包括新聞廣播、客戶服務(wù)、呼喊、耳語以及高興、悲傷等情感。相比于傳統(tǒng)配音方式，不同年齡、性別、音色的角色，可以由一個智能語音系統(tǒng)來完成，優(yōu)勢十分明顯。

（三）難以理解語境，缺乏真情實(shí)感

語境即使用語言的環(huán)境，同一句話，在不同的語境下，所表達(dá)的語氣、情感、停連、重音都是不同的，說話時不同的停頓重音有時表達(dá)出的意思也不盡相同，而AI語音合成技術(shù)目前并不能很好的識別語境。因此，在影視劇配音、廣播劇配音、文藝作品演播等情景中，智能語音技術(shù)與真人配音尚且有較大差距。機(jī)器與人類最大的差別在于情感，人類天生擁有情感，而機(jī)器即使賦予它情感，目前也只能在發(fā)出情感指令的情況下，被動地做出情感態(tài)度，機(jī)器并不能自由根據(jù)情景語境表達(dá)出正確且富有感染力的情感色彩。有聲語言表達(dá)也并不是簡單的見字發(fā)聲，是需要提前做大量備稿工作，利用語言表達(dá)技巧結(jié)合當(dāng)下語境、環(huán)境，并結(jié)合真情實(shí)感，由情感帶動聲音的表達(dá)，這是目前智能語音技術(shù)所欠缺的。比如由AI配音的紀(jì)錄片《創(chuàng)新中國》中，在介紹“天眼之父”南仁東去世時，智能語音技術(shù)合成的配音對于感情的表達(dá)很生硬，難以讓觀眾體會到緬懷之情，這和李易老師本人所配音的其他紀(jì)錄片作品有很大的差距。[2]當(dāng)下如何讓人工智能配音更富有情感，同時在不同的語境下用對情感，是它未來能否走得更遠(yuǎn)的關(guān)鍵。

（四）版權(quán)倫理問題有待解決

人工智能技術(shù)發(fā)展到一定階段，便會帶來一些倫理問題。智能語音技術(shù)的發(fā)展應(yīng)當(dāng)止步于倫理紅線。在目前的智能語音合成技術(shù)下，只要采集到個人音頻數(shù)據(jù)，便可復(fù)制出相似度較高的聲音。比如科大訊飛公司只需要花5分鐘的時間對真人語音進(jìn)行采樣復(fù)刻，便可復(fù)刻出相似度極高的聲音，而用戶復(fù)刻聲音后，便可以在訊飛客戶端中收聽由用戶自己的聲音播報的新聞、早報、公眾號文章等。但在智能語音技術(shù)發(fā)展的同時，便不可避免地帶來一系列問題。比如私自使用他人聲音是否涉及侵權(quán)問題，并且此前便有利用人工智能合成聲音進(jìn)行詐騙勒索的案件發(fā)生，如若此項(xiàng)技術(shù)被不法分子所利用，勢必會產(chǎn)生一定的安全隱患。同時假音頻內(nèi)容可能大量出現(xiàn)，如同AI換臉引發(fā)的假視頻、假新聞一樣，AI語音引發(fā)的版權(quán)爭端和倫理問題也為監(jiān)管帶來新的挑戰(zhàn)。

三、對播音主持未來發(fā)展的建議

（一）提高綜合素養(yǎng)，發(fā)揮情感優(yōu)勢

在人工智能時代下，播音員主持人必須具備一定的思想水平和政治理論水平，具有較高的政治敏銳性和清晰的思辨能力；同時要具備扎實(shí)的專業(yè)素養(yǎng)和文化素養(yǎng)，無論人工智能技術(shù)如何發(fā)展，扎實(shí)的專業(yè)素養(yǎng)和文化素養(yǎng)都是未來發(fā)展的基石。人類與機(jī)器最大的不同在于情感。當(dāng)下，智能語音技術(shù)短期內(nèi)很難擁有識別情感的能力，無法自行對文本進(jìn)行情感分析，無法表達(dá)出有感情、有溫度的話語。那么對于以聲音表達(dá)為主的播音主持工作者來說，表達(dá)出有感情、有溫度、有深度的話語是人類相比于人工智能的優(yōu)勢所在。播音主持是以人的形象和身份來和受眾進(jìn)行信息的傳遞和交流，而AI主持人沒有思想、沒有靈魂、沒有情感，受眾更希望面對一個人來交流，而不是一個機(jī)器人。近些年來，盡管播音主持要被人工智能取代的說法引發(fā)熱議，但筆者認(rèn)為，只會見字發(fā)聲的播音主持工作者可能會被取代，但優(yōu)秀的播音主持工作者無法取代。一名優(yōu)秀的播音主持工作者需要有溫度、深厚的文化素養(yǎng)、強(qiáng)大的共情能力，并且在需要創(chuàng)新和思考的能力上，人工智能和人還是有很大差距的。

（二）形成自身獨(dú)特風(fēng)格，打造個性化表達(dá)

在互聯(lián)網(wǎng)時代，隨著人們生活節(jié)奏的加快和思想觀念的轉(zhuǎn)變，人們逐漸厭倦刻板說教式的表達(dá)，更傾向于富有個人特色的、極具個人魅力的表達(dá)方式。雖然當(dāng)前的人工智能技術(shù)不斷發(fā)展，AI語音合成技術(shù)合成的聲音已經(jīng)與真人配音有很高的相似度，但畢竟是機(jī)器合成的聲音，即使擁有與真人高度相似的音色和語調(diào)，但仍缺乏真人獨(dú)有的個性化聲音特征，無法與真人相媲美。無論是AI語音合成技術(shù)合成的聲音，還是具有外在形象的AI主持人，其本質(zhì)上都是模仿學(xué)習(xí)人類的聲音和動作。盡管它可以模仿播音主持工作者的聲音、外形和動作，但是它無法形成自身的個性化表達(dá)，更無法形成具有自身特點(diǎn)的播音主持風(fēng)格。在新時代下，我們培養(yǎng)的不是千篇一律的播音主持工作者，而應(yīng)該是具有自身獨(dú)特風(fēng)格、富有個人魅力的、優(yōu)秀的播音主持工作者。比如風(fēng)趣幽默的朱廣權(quán)、沉穩(wěn)大氣的任魯豫、親切端莊的海霞等，他們每個人身上都有自身獨(dú)特的個人魅力，因此被受眾所喜愛，這是人工智能所永遠(yuǎn)無法取代的。[1]

四、結(jié)語

智能語音技術(shù)的發(fā)展，確實(shí)大大提高了播音主持工作的效率，不僅給播音主持工作者提供了許多工作上的便利，而且滿足了許多普通人對于配音的要求，使得更多的人可以更加方便、快捷地接觸到高質(zhì)量配音。當(dāng)然在人工智能技術(shù)發(fā)展尚未完全成熟之前，仍有難以理解語境、版權(quán)倫理等許多問題有待解決。在這樣的契機(jī)下，作為播音主持工作者，不應(yīng)一味地抗拒和抵制，應(yīng)該以一種開放包容的心態(tài)去對待智能語音技術(shù)的發(fā)展，不斷提高自身的各方面能力，發(fā)揮自身獨(dú)特的情感優(yōu)勢，著重提升自身的專業(yè)技能和文化素養(yǎng)，才能在人工智能飛速發(fā)展的浪潮下立于不敗之地。

[作者簡介]韓志浦，男，漢族，河南葉縣人，哈爾濱師范大學(xué)碩士研究生在讀，研究方向?yàn)椴ヒ糁鞒帧?/p>

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

智能語音技術(shù)下播音主持的探索與思考