論虛擬數(shù)字人能否取代播音員和主持人

2023-02-06 20:19張亮

中國傳媒科技 2023年12期

關鍵詞：主播語音人類

張亮

（吉林廣播電視臺，吉林長春 130000）

隨著數(shù)字技術(shù)的迅猛發(fā)展，虛擬數(shù)字人這一全新的傳播形式也日益成熟。它是否能取代人類在傳媒領域的地位，成為一個備受關注的話題。

虛擬與真實的關系是一個值得思考的哲學命題?，F(xiàn)實中，技術(shù)與人性并不對立，而是可以實現(xiàn)優(yōu)勢互補。當下我們需要的是用開闊的視野，來審視技術(shù)帶來的種種新的可能。

1.虛擬數(shù)字人概述

1.1 定義及發(fā)展簡史

虛擬數(shù)字人是指利用計算機圖形學和人工智能技術(shù)，打造具有自然語言交互、情緒表達能力的虛擬形象。它可以完成預設的語音、動作甚至氣質(zhì)表現(xiàn)。虛擬數(shù)字人技術(shù)起源于20 世紀70 年代，當時主要依靠傳統(tǒng)計算機圖形學技術(shù)進行圖像生成。到90 年代，這一技術(shù)得以提升，能實現(xiàn)高保真的數(shù)字人模型。最近幾年，虛擬數(shù)字人技術(shù)進入快速發(fā)展期。隨著深度學習在語音合成和行為控制方面的應用，虛擬數(shù)字人的逼真度和交互性都取得重大突破。

目前的虛擬數(shù)字人技術(shù)已經(jīng)能夠?qū)崿F(xiàn)精細的外形塑造、逼真的語音合成、面部與身體微表情生成，并能進行簡單對話。未來這一技術(shù)還擁有很大的發(fā)展?jié)摿涂臻g。

1.2 主要功能和應用

1.2.1 語音合成和嘴型同步

語音合成是虛擬數(shù)字人的核心功能之一，通過語音合成技術(shù)，可以使虛擬數(shù)字人擁有自然的語音。語音合成系統(tǒng)可以將輸入的文本轉(zhuǎn)化為流暢的語音。嘴型同步是使虛擬數(shù)字人語音更加逼真的關鍵。通過嘴型同步技術(shù)，可以精確控制虛擬人物的嘴部運動，與合成語音保持同步，增強真實感。

1.2.2 面部表情生成和身體、手勢動作

基于面部捕捉、模擬肌肉變化等技術(shù)，虛擬數(shù)字人可以展現(xiàn)豐富的面部表情，如喜悅、憤怒、驚訝等，以此來傳達情緒。虛擬數(shù)字人還可以有自然的身體和手勢動作。這些動作同樣基于數(shù)據(jù)驅(qū)動，使虛擬角色更生動。

1.2.3 對話交互

通過自然語言理解和生成技術(shù)，虛擬數(shù)字人可以進行簡單的問答對話，具有一定的交互能力。主要應用領域有虛擬主播、虛擬客服、虛擬偶像、虛擬教師等，這些都需要語音合成、交互等功能支持。

1.3 代表性案例

代表性的虛擬數(shù)字人案例包括央視網(wǎng)的數(shù)字虛擬主播“小C”、中國日報的“元曦”、中國青年網(wǎng)的“青小霞”、大河網(wǎng)的“河寶”等。

1.3.1 中國虛擬主播“新小微”

2023 年兩會主播“新小微”，基于真人原型采集海量數(shù)據(jù)。她的原型新華社記者趙琬微戴著數(shù)據(jù)采集頭盔，幾百個攝像頭對其身體各個部位360 度全方位打點掃描，并對她的形態(tài)、表情動作捕捉記錄，再生成3D 數(shù)字人模型。最后，通過多模態(tài)數(shù)字內(nèi)容生成算法，對3D 數(shù)字人模型進行實時驅(qū)動和渲染。

1.3.2 全國省級廣播電臺中首位數(shù)字虛擬主播“長小姣”

2022年7月，全國省級廣播電臺中首位“虛擬員工”上崗，開始了她在上海人民廣播電臺長三角之聲的主播工作?！伴L小姣”于2022 年5 月5 日開啟實習主播生涯。她的第一次“出鏡”，給網(wǎng)友們帶來了有關“奧密克戎新變種或能逃避免疫保護”的最新研究動態(tài)，之后便活躍在長三角之聲節(jié)目《思創(chuàng)空間》的短視頻專欄中。相關視頻的播放量、話題閱讀量已破300 萬。類似“長小姣”的AI 主播在廣播媒介也越來越受歡迎，可實現(xiàn)天氣預報、路況、音樂、資訊等節(jié)目的智能播報。

1.3.3 中央廣播電視總臺首個AI 超仿真主播上線

中央廣播電視總臺視聽新媒體中心以財經(jīng)評論員王冠為原型，基于“央視頻”平臺推出的總臺首個擁有超自然語音、超自然表情的超仿真主播“AI 王冠”。在2022年的全國兩會報道中，“AI王冠”正式投入使用。央視頻也推出了全新AI 節(jié)目《“冠”察兩會》，為兩會報道注入科技“創(chuàng)新力”，充分彰顯AI 技術(shù)在新聞領域應用的前沿成果。

1.3.4 韓國AI 新聞主播“艾莉”

韓聯(lián)社開發(fā)的AI 新聞主播能自動同步新聞稿生成嘴型，并配以語音播報新聞。艾莉新聞主播已在YouTube 等平臺上線。

這些數(shù)字人角色運用智能語音和圖像生成技術(shù)，實現(xiàn)交互性和逼真度的大幅提升。

2.虛擬數(shù)字人的優(yōu)勢分析

2.1 減少人力成本

虛擬數(shù)字主播在成本控制和應用效率上優(yōu)于人類主播，是減少人力成本的重要手段。

虛擬主播只需要一次性的設計、開發(fā)和訓練成本，不需支付常規(guī)工資、保險等費用。虛擬主播可以24 小時持續(xù)工作，大大減少了人力配置。同時可以快速復制生成多個實例，可滿足多平臺、大規(guī)模應用的需求，人力成本大規(guī)模降低。虛擬主播的外形和聲音可完全統(tǒng)一控制，而人類主播的狀態(tài)會波動，需要更多備用人選。制作流程的標準化也降低了人力成本。虛擬主播可自動完成固定流程任務。虛擬主播還可以大規(guī)模應用于智能設備，實現(xiàn)個性化定制，適應不同場景，降低用人成本。

2.2 提高時間效能，提供全時服務

虛擬數(shù)字主播的高效時間利用是其核心優(yōu)勢之一，這對實現(xiàn)全時候服務具有重要意義。

虛擬數(shù)字主播不會產(chǎn)生疲勞，可以24 小時持續(xù)不間斷工作，不需要輪換。同時可以適應任何時間段的工作，完全無須調(diào)度，不受工作時長的限制。虛擬主播可以在不同時區(qū)和地區(qū)同步提供服務，覆蓋全天候的時間段。即使在非高峰期與節(jié)假日期間，也可以讓虛擬主播正常工作，不用擔心人員調(diào)配難題。

在遇到突發(fā)事件時，虛擬主播可以快速響應，及時到崗，不必像人類主播需要召集。虛擬主播還可以在一些對人體有潛在危險或不適宜的環(huán)境下工作，比如惡劣天氣。在某些需要保持高度一致性的長時間工作中，虛擬主播也更能勝任。

2.3 形象統(tǒng)一，品牌效應良好

虛擬數(shù)字人的形象、音色、語速語調(diào)等都可精確設定和控制，不會產(chǎn)生主觀性偏差。人類主持的狀態(tài)會受健康、情緒影響，很難保證每次完全一致的效果。虛擬數(shù)字人可高度統(tǒng)一地控制外形和風格。

虛擬數(shù)字人可以制定統(tǒng)一的外觀形象標準，如臉型、發(fā)型、衣著等細節(jié)可以完全一致。在聲音方面也可以通過調(diào)節(jié)語速、語調(diào)、音色的參數(shù)來實現(xiàn)高度的統(tǒng)一。這種外在形象和聲音的完全統(tǒng)一，有利于品牌識別和加深用戶印象。當用戶多次接觸到同一虛擬形象時，會逐漸與該品牌形成清晰的聯(lián)想。相比人類主持可能出現(xiàn)的各種外在差異，虛擬數(shù)字人更易塑造品牌形象。當然，過度統(tǒng)一也會產(chǎn)生審美疲勞，需要適當保留個性化元素。綜合來看，在保證核心識別點統(tǒng)一的前提下，適當靈活多變可以達到最佳品牌效應。

2.4 更好避免錯誤，穩(wěn)定性強

與人類相比，虛擬數(shù)字人具有更高的工作穩(wěn)定性和更少的錯誤率，這主要歸功于其技術(shù)本質(zhì)所決定的特點。首先，虛擬數(shù)字人可以通過持續(xù)訓練不斷優(yōu)化其知識圖譜，大大減少因知識欠缺而產(chǎn)生的錯誤。其次，依靠強大的自然語言處理技術(shù)，虛擬數(shù)字人可以準確理解用戶的問題，避免因言語歧義造成回答偏差。另外，虛擬數(shù)字人不會出現(xiàn)工作疲勞導致的失誤，可以持續(xù)穩(wěn)定地工作，這對某些要求高精度的應用尤為關鍵。最后，所有虛擬數(shù)字人嚴格遵循相同的應對邏輯，不會出現(xiàn)個體之間明顯的工作質(zhì)量差異。虛擬數(shù)字人在穩(wěn)定性與減少錯誤方面客觀上具有先天優(yōu)勢。

虛擬數(shù)字人可利用語音識別和自然語言處理技術(shù)識別復雜問題，實時匹配數(shù)據(jù)庫產(chǎn)生回答，可大幅減少錯誤。人類主持可能會由于反應速度慢或臨場發(fā)揮失誤導致錯誤。數(shù)字人可大幅降低視聽信息傳遞錯誤率。

3.虛擬數(shù)字人的劣勢分析

3.1 交互性較差，難以深度交流

盡管虛擬數(shù)字人在語音合成和語義解析方面已達很高水平，但由于其本質(zhì)仍是基于算法而非真正智能，所以在與用戶的語言交互和深層次交流方面仍顯得較為被動和呆板。目前的虛擬數(shù)字人系統(tǒng)大多只能對特定領域的問題進行有限的應對，而無法像人類主持人那樣進行廣泛而深入的對話。其次，虛擬數(shù)字人在處理語用上的細微差異時也較為笨拙，難以領會語言的深層語境含義。再者，缺乏復雜情感作為支持，虛擬數(shù)字人的語言交互過程顯得較為單調(diào)和機械化，不如人類語言生動流暢。綜上所述，受制于自身技術(shù)極限，虛擬數(shù)字人的交互性目前還比較弱，難以與用戶進行深度的交流。這一短板需要持續(xù)技術(shù)突破才能得到根本性改善。

3.2 情感表達有限

虛擬數(shù)字人難以富有變化地表達豐富的人類情感，如調(diào)侃、幽默等。它的語調(diào)和表情是程序化預設的，無法傳遞真實情感，親和力不足。

3.2.1 虛擬數(shù)字人難以取代人類主持人的獨特魅力

虛擬數(shù)字人在外形、聲音等方面已趨近高度仿真，但情感表達仍有短板。算法難以捕捉人類豐富內(nèi)心世界中復雜的情感波動。喜怒哀樂的微妙轉(zhuǎn)換，正是人類主持人的獨門絕技。此外，虛擬數(shù)字人現(xiàn)階段對話交互仍較被動，難以主導聊天或做靈活應對。而人類主持人往往能富有感染力地帶動氣氛，與來賓暢聊無阻。最后，虛擬數(shù)字人處理全新問題時也顯得更加笨拙，難以展現(xiàn)人類智慧的靈活運用。總體來說，虛擬數(shù)字人要全面取代人類主持人還有很大差距，目前僅局限于某些固定場景的替代。

3.2.2 個性化虛擬數(shù)字人更能吸引用戶

高度統(tǒng)一的虛擬數(shù)字人外形和聲音忽視了個性魅力的重要性。標準化的著裝、發(fā)型、聲線久而久之會給用戶帶來審美疲勞感。相比之下，人格鮮明的品牌代言人往往更受歡迎。因此，適當進行個性化設計與打造也應是虛擬數(shù)字人的發(fā)展方向。保留統(tǒng)一的核心標識點，同時加入適量的個性化元素，將是虛擬數(shù)字人取得最佳品牌效應的方式。未來可能會出現(xiàn)針對不同用戶群體進行個性化定制的虛擬數(shù)字主持人。

3.2.3 實現(xiàn)人虛協(xié)作才能發(fā)揮各自優(yōu)勢

人類主持人的獨特優(yōu)勢在于其豐富的言談舉止和幽默機智，而虛擬數(shù)字人擅長承擔工作強度大、精度要求高的任務。充分發(fā)揮兩者優(yōu)勢，實現(xiàn)人虛協(xié)同，才是最佳策略。具體來說，可以探索混合模式下人類主持與虛擬助手的合作，建立虛擬數(shù)字人語料數(shù)據(jù)庫來輔助人類主持提效。只有做到良性互補，才能取得指數(shù)效應，這也是技術(shù)進步的正確方向。

3.3 群眾認知度不高

盡管虛擬數(shù)字人技術(shù)在某些領域已經(jīng)取得很大進步，但對廣大公眾來說，虛擬數(shù)字人還是一個較新的概念，大多數(shù)人還不太了解虛擬數(shù)字人的具體定義、主要技術(shù)原理、應用場景以及與人類的區(qū)別。這主要是由于虛擬數(shù)字人技術(shù)剛剛起步，還未完全成熟和廣泛應用，相關的媒體報道和公眾科普也不夠。虛擬數(shù)字人給普通大眾帶來的更多是新鮮感和疑惑，而不是真正的理解和認知。要提高公眾對虛擬數(shù)字人的認知度，需要從娛樂、新聞等渠道加大宣傳力度，使人們進一步認識虛擬數(shù)字人的本質(zhì)，消除疑慮，理性看待這一新興技術(shù)的應用。只有這樣，才能打造廣泛的社會認可度。

3.4 制作門檻較高

虛擬數(shù)字人的制作過程復雜，需要多學科緊密配合，涉及3D 建模、渲染、動畫、語音合成、對話系統(tǒng)等多個環(huán)節(jié)。要實現(xiàn)精細逼真的人物形象與動作，需要專業(yè)的3D 數(shù)字化團隊進行長時間打磨。高質(zhì)量自然語音合成也需要大量語音樣本及專業(yè)錄音設備。除此之外，還需要有AI 算法團隊構(gòu)建知識庫與對話系統(tǒng)，賦予虛擬形象智能交互能力。可以預見，要達到商業(yè)化應用的標準，需要專業(yè)工作室進行系統(tǒng)化打造，門檻較高。這也是當前阻礙虛擬數(shù)字人大規(guī)模普及的重要因素之一。簡化流程、降低門檻是該領域亟待解決的問題，這需要更加友好的設計工具和自動化技術(shù)的支持。

4.虛擬數(shù)字人發(fā)展前景預測

4.1 發(fā)展?jié)摿涂臻g廣闊

虛擬數(shù)字人技術(shù)作為數(shù)字世界的化身，其應用前景和發(fā)展空間可謂廣闊無限。首先，伴隨算法的不斷升級，虛擬數(shù)字人在外觀、聲音、動作上的還原能力將越來越高，交互體驗也會更加自然流暢。虛擬數(shù)字人未來可深入各行各業(yè)，承擔更多工作職位，如虛擬播報員、在線客服、個人助理等。虛擬偶像也可實現(xiàn)全天候不間斷的創(chuàng)作互動。其次，虛擬數(shù)字人技術(shù)與其他前沿技術(shù)的融合拓寬了其應用范圍，如與AR/VR的結(jié)合可實現(xiàn)虛擬數(shù)字人進入現(xiàn)實世界，與用戶進行混合交互。移動網(wǎng)絡技術(shù)的發(fā)展也為虛擬數(shù)字人的使用提供了基礎設施支持。最后，隨著元宇宙概念的出現(xiàn)，虛擬數(shù)字人定位為我們在虛擬空間的代表，其應用前景更加廣闊。總體來看，虛擬數(shù)字人的發(fā)展處于上升期，市場空間巨大，其將以數(shù)字化身的身份影響我們的生產(chǎn)、生活、娛樂等各個方面。

4.2 將逐步取代播音和主持部分崗位

隨著虛擬數(shù)字人技術(shù)的不斷發(fā)展，其在播音和主持領域的應用前景廣闊。虛擬數(shù)字人在這些工作上具有成本低，可大規(guī)模應用等優(yōu)勢，將逐步取代人類在某些場景中的位置。具體來看，虛擬數(shù)字人在新聞播報方面已可實現(xiàn)較高質(zhì)量的語音合成和語義表達，可滿足大部分新聞播報的需求。與人類播音相比，虛擬數(shù)字人可實現(xiàn)7×24 小時不間斷工作，并可快速應對突發(fā)事件，大幅提升了工作效率。在機場通知等場景，虛擬數(shù)字人也可根據(jù)具體需要進行快速調(diào)配，實現(xiàn)大規(guī)模應用。與此同時，基于深度學習的技術(shù)進步使虛擬數(shù)字人的外形、聲音不斷趨于逼真，為其在更多領域的應用奠定基礎。但是，由于當前虛擬數(shù)字人在語言表達能力、交互水平等方面仍有局限，真正能夠取代人類主持進行綜藝訪談、活動主持等工作還需一定時間。綜合來看，虛擬數(shù)字人在既定模式的播音和主持工作中具備顯著優(yōu)勢，將逐步取代人類這些崗位，但對需要靈活應變的主持工作，目前仍有短板。隨著AI 技術(shù)的進一步發(fā)展，虛擬數(shù)字人在主持領域的適用范圍還將不斷擴大。

4.3 難以完全取代真人的位置

盡管虛擬數(shù)字人技術(shù)發(fā)展迅速，但要完全取代人類在各領域的位置還面臨諸多困難。首先，虛擬數(shù)字人在語言交互和情感表達方面仍較為簡單單一，難以模擬人類豐富的語用能力和內(nèi)心世界，這將制約其在需要高度語言交流的崗位中的應用。其次，虛擬數(shù)字人處理新任務和創(chuàng)新性問題的能力較弱，大多只能應對預設模式，無法像人類那樣快速適應新環(huán)境，這也是其普遍應用的障礙。再者，虛擬數(shù)字人缺乏獨特個性和自我意識，難以打造鮮明的個人品牌以贏得用戶忠誠度，這對其取代真人網(wǎng)紅主播或名人代言具有難度。最后，普通大眾對虛擬數(shù)字人還持有疑慮，認為其冰冷機械，不像真人能帶來情感互動，這也是需要通過長期熟悉來改變的。虛擬數(shù)字人在某些高度固定化的場景中具備明顯優(yōu)勢，但要實現(xiàn)對復雜工作環(huán)境和交互環(huán)節(jié)的適應，其技術(shù)還需不斷突破自身局限，才能真正取代人類在更多崗位中的地位。這需要技術(shù)創(chuàng)新與社會認知的共同推進。

5.結(jié)論

5.1 虛擬數(shù)字人將在某些領域取代人類

隨著技術(shù)的不斷進步，虛擬數(shù)字人在新聞播報、泛娛樂對話、客服等領域逐漸顯現(xiàn)出取代人類的趨勢。具體來看，在新聞播報領域，虛擬數(shù)字人24 小時不間斷的工作能力、報道事實的客觀性已經(jīng)明顯優(yōu)于人類新聞播音員。虛擬新聞播音員可以快速配置，實現(xiàn)大規(guī)模應用，未來可能會成為新聞臺的標準配置。在泛娛樂類的視頻、音頻對話中，虛擬數(shù)字人也有著成本低且可無限創(chuàng)作輸出的優(yōu)勢，適合承擔此類內(nèi)容創(chuàng)作的主要負擔。另外，在線客服領域，具備語音交互能力的虛擬數(shù)字人可以處理大規(guī)模用戶咨詢，并進行7×24 小時不間斷的工作，大幅提升工作效率。可以預見，在這些高重復性、復雜度較低的工作中，虛擬數(shù)字人定會獲得優(yōu)勢并逐步取代人類。但是，對于需要復雜語用理解和靈活處置的工作，如脫口秀主持、個性采訪等，目前虛擬數(shù)字人的語言及情緒能力仍存短板，仍需要人類的融入，所以在短時間內(nèi)不太可能被完全替代。虛擬數(shù)字人正在以其獨特優(yōu)勢在部分領域迅速崛起并取代人類，但要實現(xiàn)對人類工作的全面替代，其技術(shù)還需不斷深化。

5.2 需要高度交互和情感共鳴的崗位不會被完全替代

虛擬數(shù)字人目前在處理需要高度交互和情感共鳴的播音主持工作時仍存在短板。諸如脫口秀、談話類節(jié)目等，需要根據(jù)現(xiàn)場氣氛即興發(fā)揮的主持工作，虛擬數(shù)字人的語言生成能力還無法做到人類主持人那樣的流暢和機智。同時，在需要與來賓產(chǎn)生情感共鳴的節(jié)目中，虛擬主持人也難以掌握話題節(jié)奏，帶動氛圍。這主要是由于虛擬數(shù)字人無法模擬出人類豐富的情感世界和臨場應變能力。總體來看，針對復雜語境的交互和情感反饋，目前虛擬數(shù)字人的技術(shù)仍不成熟。所以，在可預見的未來，需要高度交互和情感共鳴的播音主持工作仍需要人類主持人來完成。技術(shù)進步可以讓虛擬數(shù)字人在這方面越來越逼真，但要完全取代人類任重道遠。

5.3 數(shù)字人和真人主持會長期并存

從目前技術(shù)發(fā)展來看，虛擬數(shù)字人和真人主持都有各自的優(yōu)勢，兩者會長時間并存而不是完全取代。具體來說，虛擬數(shù)字人的優(yōu)勢在于成本低，可以24 小時持續(xù)工作，適合處理高重復性、勞動強度大的主持任務，真人主持則擅長利用語言和表情進行情感交流，更能帶來精神共鳴，這是虛擬主持所不及的。因此，預計數(shù)字主持會廣泛應用于新聞播報、數(shù)據(jù)報告等對話內(nèi)容固定的場景，而真人主持會繼續(xù)擔當脫口秀、訪談類等需要現(xiàn)場互動的節(jié)目。兩者優(yōu)勢互補，共同推動行業(yè)發(fā)展。隨著技術(shù)進步，虛擬數(shù)字人的交互能力會不斷提升，但要完全取代真人主持，尚需很長時間。所以，真人主持仍會存在并發(fā)揮其獨特魅力?？傮w來看，數(shù)字人和真人主持會長期并存、融合發(fā)展。

綜上所述，虛擬數(shù)字人的出現(xiàn)使傳播領域的生態(tài)發(fā)生變化。優(yōu)勢與劣勢的比較分析表明，雖然數(shù)字人在成本、穩(wěn)定性等方面具備優(yōu)勢，但其交互和情感表達的局限又使其難以完全取代人類。

技術(shù)與應用是輪流推動的。虛擬數(shù)字人技術(shù)還需不斷進步，以突破局限。同時，公眾的認知和接受需要一個過程。虛擬與真實將長期互動、共生，最終達到融合。

內(nèi)容產(chǎn)業(yè)必將在合理應用數(shù)字人的同時，繼續(xù)發(fā)揮人類創(chuàng)造力的優(yōu)勢。我們不應片面看待技術(shù)對就業(yè)的沖擊，而要洞察人機協(xié)作的新機遇。

當下，我們需要的是積極的心態(tài)，與時俱進；前瞻的視野，把握大勢；開闊的胸襟，與新生事物和諧共處。我們將與科技一道共同描繪出多元融合的美好藍圖。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡