伊峻宇 金麗娜
(作者單位:長春師范大學(xué)傳媒學(xué)院)
隨著智能手機(jī)的普及和移動互聯(lián)網(wǎng)的快速發(fā)展,短視頻以“短、平、快”的特點(diǎn)迅速風(fēng)靡網(wǎng)絡(luò),成為人們?nèi)粘I钪兄匾膴蕵沸问胶托畔碓矗S著人工智能技術(shù)的不斷發(fā)展,AI配音作為人工智能技術(shù)中的一種應(yīng)用,越來越多地被應(yīng)用到短視頻的創(chuàng)作中。
抖音短視頻平臺作為全球用戶量最大的短視頻平臺之一,在改變?nèi)藗冇^看習(xí)慣的同時,也影響著短視頻的創(chuàng)作方式。為了方便用戶創(chuàng)作、滿足用戶多樣化的需求,抖音App引入AI配音技術(shù)。該技術(shù)通過人工智能算法分析文本和視頻內(nèi)容,并自動生成相應(yīng)的配音,使得用戶無須花費(fèi)額外的時間和精力來錄制音頻。這不僅提高了用戶的創(chuàng)作效率,還增加了視頻的多樣性,使得用戶可以更加靈活地表達(dá)自己的創(chuàng)意和想法。
配音,主要指“畫外之音”,即配合畫面的有聲語言,無論是新聞、專題、廣告,還是人物、事件、景觀,一切以畫面為基礎(chǔ),通過有聲語言加以詮釋展現(xiàn)的都可以稱其為配音[1]。而AI配音是指通過人工智能技術(shù)對文本進(jìn)行語音合成,實(shí)現(xiàn)文字轉(zhuǎn)化為聲音的過程。它采用了語音合成技術(shù),在保留語音自然度的同時,能夠?yàn)橛脩籼峁└哔|(zhì)量、個性化的語音服務(wù)。
AI配音的基本原理包括文本處理、語音合成和音色調(diào)整三個環(huán)節(jié)。首先,系統(tǒng)需要對輸入的文本進(jìn)行處理,將其分析成語義信息,并進(jìn)行模型訓(xùn)練和優(yōu)化。其次,利用文本處理后得到的語義信息,采用生成模型進(jìn)行語音合成,生成符合語法規(guī)則和習(xí)慣的語音內(nèi)容。再次,根據(jù)用戶需求和個性化設(shè)置,通過音色調(diào)整技術(shù)對合成的語音進(jìn)行音色調(diào)整以滿足用戶的要求。
AI配音技術(shù)依賴于強(qiáng)大的人工智能技術(shù)支持。其中,深度學(xué)習(xí)是重要的技術(shù)手段。它使用神經(jīng)網(wǎng)絡(luò)將輸入的文本轉(zhuǎn)化為符合特定語言規(guī)則和習(xí)慣的聲音信號。同時,語料庫作為訓(xùn)練數(shù)據(jù)源,也起到了非常重要的作用。通過大量的訓(xùn)練樣本,系統(tǒng)可以學(xué)習(xí)到不同語種、不同口音和發(fā)音習(xí)慣的特點(diǎn),提高語音合成的質(zhì)量和自然度。
目前,AI配音技術(shù)在教育、娛樂、無障礙服務(wù)、智能客服、語音廣播等多個領(lǐng)域均有廣泛的應(yīng)用。而在短視頻領(lǐng)域,AI配音也為用戶的創(chuàng)作提供了更多的便捷性、可能性和多樣性。
從廣義上來看,抖音App中的AI配音功能包括智能音樂和文本朗讀兩部分。
智能音樂又稱為歌曲配音,是通過智能技術(shù)自動識別和分析短視頻的畫面內(nèi)容,抓取畫面特征,并根據(jù)畫面風(fēng)格為其搭配合適的音樂和歌曲。用戶只需要錄制或上傳視頻,AI算法就能夠自動識別畫面內(nèi)容,并根據(jù)畫面呈現(xiàn)的場景、情感等要素與音樂庫中的曲目進(jìn)行智能匹配。這為用戶創(chuàng)作帶來了更多的可能性,讓他們能夠更加輕松地制作出高質(zhì)量的音樂短視頻。
文本朗讀具有將文字轉(zhuǎn)化為音頻的功能,在短視頻制作過程中制作者只需要輸入文字,再在文本朗讀功能區(qū)選擇合適的語言風(fēng)格和音色,人工智能便可以快速完成配音。該功能使得制作配音更加高效,還能夠滿足用戶對不同語言風(fēng)格的需求,因此深受用戶喜愛。
本文所提到的AI配音主要指后者,即文本朗讀。借助先進(jìn)的語音合成技術(shù)和深度學(xué)習(xí)算法,抖音App的AI配音能夠?qū)⑽淖洲D(zhuǎn)化為自然流暢的音頻,用戶只需輸入所需的文字,并選擇適合的語言風(fēng)格和音色,即可快速完成配音過程。
目前,抖音App的文本朗讀功能區(qū)主要分為特色方言、萌趣動漫、女生音色、男生音色、趣味歌唱五個版塊,可供用戶選擇的聲音風(fēng)格和音色多達(dá)上百種。在用戶使用過程中,不同的風(fēng)格與音色也被應(yīng)用于不同的短視頻類型之中。當(dāng)然,何種風(fēng)格和音色應(yīng)用于何種短視頻之中并沒有一定之規(guī),用戶可以根據(jù)自己的需求自由選擇,不同聲音形式的特點(diǎn)不同,要根據(jù)需要選擇合適的聲音表達(dá)形式,以達(dá)到最佳效果[2]。
AI配音可以自動將文字轉(zhuǎn)化為語音,節(jié)省了創(chuàng)作者錄制聲音的時間和精力,加快了短視頻制作的速度。傳統(tǒng)的短視頻制作中,創(chuàng)作者需要花費(fèi)大量的時間和精力來錄制聲音。采用AI配音技術(shù),創(chuàng)作者只需將配音文本編寫完成,即可一鍵聽取配音效果,快速生成短視頻,大大提高了短視頻的生產(chǎn)制作效率,提升了視頻的整體呈現(xiàn)效果[3]。同時,創(chuàng)作者可以更專注于其他重要的創(chuàng)作環(huán)節(jié),提高整體創(chuàng)作效率。
AI配音可以根據(jù)用戶的喜好和短視頻內(nèi)容的特點(diǎn),選擇合適的聲音風(fēng)格和語氣,讓觀眾更好地理解內(nèi)容,提升觀看體驗(yàn)。人工智能配音可以應(yīng)對多語言環(huán)境下的不同要求,AI合成語音技術(shù)支持多語言混讀,只要聲音樣本庫的儲量夠大就可以滿足這樣的需求。在合成效果方面,良好的人工智能配音可以媲美真人的聲音,仿真度極高,能夠?yàn)槭鼙娞峁偠鸟雎狊w驗(yàn)[4]。
AI配音使得沒有配音基礎(chǔ)的創(chuàng)作者也能夠參與到短視頻創(chuàng)作中,擴(kuò)大了創(chuàng)作者群體的規(guī)模。傳統(tǒng)的音頻制作需要創(chuàng)作者具備一定的聲音基礎(chǔ)和技巧,才能錄制出高質(zhì)量的聲音。然而,借助AI配音技術(shù),沒有配音基礎(chǔ)的創(chuàng)作者也能夠參與到短視頻創(chuàng)作中。他們只需將文字輸入系統(tǒng),就能夠得到高質(zhì)量的語音輸出。基于此,短視頻創(chuàng)作的創(chuàng)作者群體得到了擴(kuò)大,進(jìn)一步推動了短視頻創(chuàng)作的發(fā)展。
眾所周知,聲音在短視頻中具有很強(qiáng)的表達(dá)能力和情感傳遞作用。AI配音技術(shù)能夠根據(jù)視頻的內(nèi)容和情感,生成適合的聲音,進(jìn)一步提升短視頻的觀賞性和沉浸感。創(chuàng)作者可以通過調(diào)整配音的語氣、節(jié)奏和音調(diào)來強(qiáng)調(diào)視頻的重點(diǎn),增加戲劇性或幽默感。同時,AI還可以模擬各種聲音,如動物叫聲、車輛噪聲等,為短視頻創(chuàng)作提供更多元化的可能性。這些豐富多樣的聲音選擇激發(fā)了創(chuàng)作者的創(chuàng)意,增加了短視頻作品的吸引力。
AI配音可以根據(jù)短視頻的內(nèi)容選擇合適的配音風(fēng)格,提高觀眾對短視頻的喜愛度。首先,AI配音可以實(shí)現(xiàn)批量處理,大大提高短視頻的生產(chǎn)效率。傳統(tǒng)配音需要耗費(fèi)大量時間和人力資源進(jìn)行錄制與剪輯,而AI配音可以自動完成這些任務(wù),減少了工作量和成本。其次,AI配音可以消除人為的主觀因素。傳統(tǒng)配音的效果受限于配音演員的個人理解和表達(dá),可能會存在差異和主觀偏差。而AI配音完全基于算法,不受主觀因素的影響,能夠更加準(zhǔn)確地把握角色的聲音特點(diǎn)和情感表達(dá)。通過選擇合適的配音風(fēng)格,配音聲音與視頻內(nèi)容更好地融合在一起,使得觀眾能夠更好地沉浸在故事情節(jié)中,大大提升了用戶的觀感。
AI配音技術(shù)的出現(xiàn),極大地改變了傳統(tǒng)錄音的制作方式,使創(chuàng)作者能夠更加專注于視頻素材和剪輯。傳統(tǒng)的音頻制作過程通常會涉及尋找配音演員、錄制配音以及后期剪輯等煩瑣的步驟。這不僅耗費(fèi)了大量時間和精力,還需要花費(fèi)額外的預(yù)算。而隨著AI配音技術(shù)的廣泛應(yīng)用,創(chuàng)作者可以將更多精力投入視頻素材的選擇和剪輯上,從而提高創(chuàng)作效率和品質(zhì)。在傳統(tǒng)的音頻制作中,為每個場景和角色尋找合適的配音演員是一項(xiàng)艱巨的任務(wù)。尋找合適的演員不僅需要花費(fèi)時間和精力,還需要保證他們的聲音與角色的特點(diǎn)和氣質(zhì)相匹配。然而,有了AI配音技術(shù),這一問題迎刃而解。創(chuàng)作者只需通過AI系統(tǒng)選擇適合的配音風(fēng)格,便能輕松實(shí)現(xiàn)音頻內(nèi)容的創(chuàng)作。這樣,AI配音技術(shù)就能夠大幅縮短整個音頻制作的周期,使得創(chuàng)作者將更多的時間用于構(gòu)思和制作視頻內(nèi)容本身。
由于目前語音識別技術(shù)尚未完全成熟,AI配音有時會出現(xiàn)漏譯或誤傳的情況,可能導(dǎo)致傳遞錯誤的信息給受眾。世界各國文字與讀音都十分復(fù)雜,如面對一字多音時,AI配音目前并不能準(zhǔn)確地在不同語境中準(zhǔn)確判斷字詞的讀音;語音識別系統(tǒng)在處理特定領(lǐng)域的專業(yè)術(shù)語時可能存在漏譯的問題。盡管一些通用領(lǐng)域的詞匯和短語可以被準(zhǔn)確地識別與轉(zhuǎn)化成聲音,但是在特定領(lǐng)域,例如醫(yī)學(xué)或法律,由于術(shù)語的復(fù)雜性和多義性,語音識別系統(tǒng)可能無法準(zhǔn)確地轉(zhuǎn)譯這些術(shù)語,從而導(dǎo)致內(nèi)容錯誤。
為了克服這個問題,我們建議開發(fā)者要不斷改進(jìn)語音識別技術(shù),提高準(zhǔn)確性和可靠性,這意味著需要進(jìn)行更多的研究和開發(fā),以改進(jìn)算法和模型,使其能夠具備更多語音數(shù)據(jù),更好地適應(yīng)不同的特殊場景。同時,收集和標(biāo)注更多的訓(xùn)練數(shù)據(jù)也是提高準(zhǔn)確性的重要步驟。通過引入更多的方言、口音和語速等數(shù)據(jù),系統(tǒng)可以更好地適應(yīng)各種情況,并減少錯誤識別的情況。同時,對于重要信息的傳遞,可以考慮使用人工審核和校對的方式,雖然這可能會增加一些成本和時間,但可以從根本上改善AI配音的質(zhì)量。
由于AI配音可以自動生成語音,可能導(dǎo)致很多視頻的語音部分都非常相似,缺乏個性和差異化。為了解決這個問題,我們建議在AI配音的應(yīng)用中加入更多的個性化選項(xiàng)。
首先,可以增加不同的語速選擇。語速是人們表達(dá)個性和情感的重要元素。因此,為AI配音提供不同的語速選項(xiàng),可以使得聲音更加生動、靈活,改善機(jī)器聲音的單調(diào)感。
其次,可以增加不同的音調(diào)選擇。音調(diào)可以影響人們對話語的理解和感受,不同的音調(diào)可以傳達(dá)不同的情緒和態(tài)度。因此,為AI配音提供不同的音調(diào)選項(xiàng),將為短視頻制作帶來更多可能性,使得配音更加個性化和生動。
此外,還可以增加不同的語氣選擇。不同的語氣可以傳達(dá)不同的人格特點(diǎn)和情感表達(dá)。給AI配音提供不同的語氣選項(xiàng),可以為短視頻制作帶來更加豐富、多樣化的配音效果,使得每個短視頻都能夠呈現(xiàn)出獨(dú)特的個性。
通過增加這些個性化選項(xiàng),AI配音技術(shù)能夠提供更加豐富和多樣化的配音效果,使得每個視頻都能夠呈現(xiàn)出個性和差異化。這不僅可以提高觀眾的審美體驗(yàn),也可以提升視頻制作的創(chuàng)意和表現(xiàn)力。
音頻資源的版權(quán)問題是一個嚴(yán)峻的挑戰(zhàn)?!癆I配音技術(shù)簡單,成本低廉,吸引了大量制作者入場使用,而這其中,極少有人對聲音版權(quán)有所意識?!盵5]因此,開發(fā)者和平臺必須對音頻資源進(jìn)行嚴(yán)格審核和甄別,確保其符合版權(quán)法律的要求。這意味著需要投入更多的人力和技術(shù)資源,建立起高效可靠的審核機(jī)制,避免不法分子利用這一技術(shù)進(jìn)行盜版或侵權(quán)行為。
同時,為了避免版權(quán)問題,平臺要鼓勵創(chuàng)作者使用自己原創(chuàng)的音頻素材,以降低版權(quán)糾紛的風(fēng)險。原創(chuàng)作品具有獨(dú)特性,創(chuàng)作者擁有完全的版權(quán)。通過鼓勵原創(chuàng)音頻素材的使用,可以減少對他人作品的依賴,從而減少侵權(quán)的可能性。
此外,平臺和開發(fā)者還應(yīng)加強(qiáng)同版權(quán)機(jī)構(gòu)與相關(guān)法律部門的合作。通過與版權(quán)監(jiān)管機(jī)構(gòu)建立密切的聯(lián)系,及時了解最新的版權(quán)法律和規(guī)定,以確保用戶生成的內(nèi)容不會侵犯他人版權(quán)。此舉可以提高用戶對AI配音技術(shù)的信任度和依賴度。
通過對抖音App中AI配音的研究,我們可以看到AI配音在短視頻創(chuàng)作中發(fā)揮了積極的作用,提高了創(chuàng)作效率和用戶觀感。未來,短視頻內(nèi)容創(chuàng)作仍是AI配音的主要應(yīng)用領(lǐng)域之一。然而,我們也要注意AI配音帶來的負(fù)面影響,并就其挑戰(zhàn)提出相應(yīng)的解決方案,保障用戶的權(quán)益,優(yōu)化創(chuàng)作者的創(chuàng)作環(huán)境。未來應(yīng)深化AI技術(shù)與短視頻的融合發(fā)展,同時規(guī)范AI配音應(yīng)用,使其成為推動短視頻發(fā)展的重要力量??傊?,AI配音正逐步成為短視頻創(chuàng)作中不可或缺的手段,其對短視頻內(nèi)容的創(chuàng)作產(chǎn)生著深遠(yuǎn)的影響。