□ 文/張 帥
內(nèi)容提要 在技術(shù)發(fā)展、觀念更新及大眾需求的多重作用下,新華社“AI合成主播”以虛擬性與具身性的結(jié)合、技術(shù)性與藝術(shù)性的交融及主體性與客體性的互位等特質(zhì)應(yīng)運而生。人工智能主播將朝著定制化生產(chǎn)、交互化溝通、情感化發(fā)展、智慧化升級及多域化打造的方向進步,并進一步對真人主播、產(chǎn)業(yè)格局及大眾視野產(chǎn)生影響。
關(guān)于人工智能主播,筆者以為,它是一種以虛擬數(shù)字技術(shù)為支撐,在廣播、電視、互聯(lián)網(wǎng)等媒介中擔(dān)負著主持與播報任務(wù)的智能產(chǎn)品,除去“AI合成主播”這一分支外,亦包括多樣內(nèi)涵的媒介角色,從形式載體上說,既有媒體屏幕內(nèi)的虛擬形象,也有實體的機器主持人;從表達內(nèi)容上分類,既有服務(wù)于信息傳遞的新聞播報員,又有把控節(jié)目節(jié)奏與氛圍的綜藝從業(yè)者,凡此種種,不盡相同。
毋庸置疑,技術(shù)是媒介進步的直接前提,也是虛擬現(xiàn)實的核心支撐,這決定著一項新興產(chǎn)品“能不能”問世。關(guān)于“AI合成主播”的布局既是精心策劃之果,亦是水到渠成之事,正如其出品方新華社新媒體中心的何強所述:“一次偶然的機會,我們看到搜狗公司的相關(guān)人工智能產(chǎn)品,突然一個想法應(yīng)運而生:能否讓這種AI (人工智能)合成技術(shù)和新聞的應(yīng)用場景結(jié)合,在新華社落地,打造一款高逼真度的AI合成主播?!笨梢韵胍姡@是媒體與企業(yè)在各自優(yōu)勢基礎(chǔ)上打造技術(shù)與內(nèi)容升級的一次合作。
在“A I合成主播”備受矚目之前,已有多項數(shù)字虛擬技術(shù)為其奠基。例如,在語音層面,有智能語音識別和輸入技術(shù),利用波形建模技術(shù)生成音頻,提升了合成音頻的表現(xiàn)力和真實度,使聲音更具情感;在形象層面,有擬人化的全息影像技術(shù)模態(tài),通過模型優(yōu)化及多風(fēng)格數(shù)據(jù)的使用,實現(xiàn)更加逼真的表情合成、肢體動作與語義的恰當(dāng)匹配以及更加自然的唇動效果。與此同時,此項技術(shù)的核心在于搜狗公司的“搜狗分身”,這項技術(shù)可基于少量真實音視頻數(shù)據(jù),快速遷移生成虛擬的分身模型。通俗來講,用戶使用時輸入一段文本,即可生成與真人無異的同步音視頻。
“讓機器更像機器”是研發(fā)者在過往所秉持的一貫準(zhǔn)則,為的是讓機器為人服務(wù)的意識與本領(lǐng)日益強化,以此保持人之為人的尊嚴(yán)不受侵犯。顯然,機器試水主播領(lǐng)域的行為本身已在“該不該”的倫理問題上增進了討論的可能。在新技術(shù)沖擊下,讓機器人進行自我運作與深度學(xué)習(xí)的能力開始得到更多研發(fā)者的呼應(yīng)。
與此同時,機器能否擁有人性、如何擁有人性、擁有人性的何種側(cè)面目前仍然難以定論,但人所共識的是,機器擁有形似人的外部特征會容易得到用戶的親近,擁有類似人的運算方式會更貼心地為人類服務(wù),這可從人工智能主播的發(fā)展歷程中窺見一斑。英國報業(yè)聯(lián)合會媒體公司的“安娜諾娃”、我國《科技新聞周刊》的“比爾鄧”、《光影周刊》的“小龍”同屬較早時期的人工智能,類似特點是動作遲滯、語言機械,一看、一聽便知是機器人,與人性化的表達間尚存一條鴻溝,也正因此,這些主播后來紛紛退出了歷史舞臺。及至后來,我國智能機器人“微軟小冰”被賦予了女性化的聲音,在東方衛(wèi)視開啟了主持生涯;央視羊年春晚的“陽陽”擁有了卡通化的形象,應(yīng)時應(yīng)景地向觀眾道賀新年好。此外,人工智能主播朝著人格化方向有所邁進,形成了從理解到生成再到表現(xiàn)的一套內(nèi)在運作體系,例如CCTV財經(jīng)頻道《交易時間》的“小白”和綜合頻道《生活圈》的“三寶”不再只是可有可無的擺設(shè),均以其海量的大數(shù)據(jù)優(yōu)勢和真人主持人之間實現(xiàn)了問答互動?;蚴琴x予人工智能主播以人的容貌,或是植入人工智能主播中人的品格,都已證明“讓機器更像人”是革新研發(fā)的趨勢所在,“AI合成主播”亦是在這類層面上表達了設(shè)計者們較之以往的理念突破。
歷史證明,先是人們在潛意識中對創(chuàng)新之物產(chǎn)生了某種需求,社會上后來才會出現(xiàn)了相應(yīng)的技術(shù)借以滿足,即便人們渾然不覺,這歸屬于“要不要”之討論。縱觀人類進步史,也是科學(xué)技術(shù)革命史。三次工業(yè)革命對于行業(yè)生產(chǎn)力的解放有目共睹,以人工智能為代表的科技革命如今方興未艾。數(shù)字化時代的生存境況下,人類亦渴望新鮮事物的嬗變。
社會學(xué)表明,社會成員對創(chuàng)新特征的認(rèn)知直接影響創(chuàng)新被采用的程度,“AI合成主播”的出現(xiàn)一石激起千層浪,也反之印證了在對于智能主播的傳播認(rèn)知上,用戶內(nèi)心深處潛藏的價值觀與對于新聞傳播學(xué)界的過往經(jīng)驗判斷達成了一致。從價值觀來看,“AI合成主播”不只是對于新聞主播群體的挑戰(zhàn),更是在更廣闊的傳播意義上解除了人類對于聲音權(quán)力的壟斷,這符合當(dāng)前社會所倡導(dǎo)的非單一而多元的價值取向。從過往經(jīng)驗來講,真人主播在新聞傳遞中所表現(xiàn)出的形態(tài)固化難激起受眾興趣,“AI合成主播”在數(shù)據(jù)的準(zhǔn)確性與及時性、功能的完善性、信息的批量生產(chǎn)方面有著真人主播不可媲美的優(yōu)勢,它進一步擴充了人們對于信息傳播的選擇,滿足了人們深層次的心理需求。
2017年,新華網(wǎng)簽約的虛擬主播琥珀·虛顏通過3D全息投影打造,成為虛擬生命主機入駐的第一個虛擬生命形象。不同于此,新華社“AI合成主播”盡管仍需采取虛擬技術(shù)進行建模,但在現(xiàn)實生活中有了原本的依照。新華社最早的全仿真智能合成主持人與男性站立式合成主播“新小浩”,皆采于真人主播邱浩的聲音與外形,首個AI合成女主播“新小萌”的語料來源于主播屈萌,而英文主播的素材來源于主播張朝,這些都是真人痕跡盡顯的數(shù)字產(chǎn)物,體現(xiàn)出分明的“合成”特質(zhì)。從這個意義上看,“合成”的兩端相牽著真人與數(shù)字,營造出看似身體在場、實則始終缺席的主持傳播局面,此等分身借由技術(shù)實現(xiàn)了虛擬性與具身性的直觀彌 合。
從構(gòu)造方式來看,“AI合成主播”的誕生離不開技術(shù)性。一是表現(xiàn)在輸入層面,機器要采集人的面部表情和語音特征并標(biāo)簽化;二是輸出層面,機器通過學(xué)習(xí)自動生成仿真語音與合成表情,通過模型優(yōu)化及多風(fēng)格數(shù)據(jù)的使用,實現(xiàn)肢體動作與語義的恰當(dāng)匹配以及更加自然的表達效果,逼近真人播報形態(tài)。從表現(xiàn)理念來看,“AI合成主播”在追求藝術(shù)性的進步。它不再局限于單純的見字發(fā)聲,而是以真人為依托,以自然交互與知識計算為手段,開始學(xué)習(xí)重音、停連等規(guī)律,開始進軍音色、韻律、情感等多維度領(lǐng)域,以期不斷貼近人類口語傳播時表情達意的藝術(shù)特質(zhì)。
主播的功能是為了傳遞信息,播音主持藝術(shù)學(xué)中對于主播播報新聞的一致要求是力圖讓觀眾記住新聞內(nèi)容而忘卻主播本身的存在,此時的“AI合成主播”目標(biāo)應(yīng)是如此,常情卻并不盡然。盡可能將觀眾注意力聚焦于闡述內(nèi)容是退而求其次的客體性體現(xiàn),但AI主播播報本身成了趣談,也是由于其目前難以避免的主體性特質(zhì),即當(dāng)今“AI合成主播”播報新聞這一行為本身比所播報新聞的內(nèi)容更具看點,但這一智能產(chǎn)品的使用目的又確實是為了新聞的高效率傳播,正說明此間含有主體性與客體性的不斷交替。
“AI合成主播”是一面鏡子,照出了真人主播的優(yōu)勢與不足。在它出現(xiàn)之前,真人主播的傳播格局大抵無甚變化;在它問世以后,人們不免拿真人主播與智能主播兩相比對,真人主播被遮蔽的缺點得以顯露,譬如流利地說廢話和無意義地串聯(lián),這類缺乏思考的播報現(xiàn)象將及早退出市場。不過,目之所及的是,“AI合成主播”尚且缺乏對新聞細節(jié)敏感的捕捉力以及對于新聞現(xiàn)場即興的反應(yīng)力,工作范圍僅停留在有稿播讀的層面,難以取代優(yōu)秀的真人新聞主播。機器鞭長莫及之地正是人類亟待開發(fā)之所,這也間接消除了真人主播僅做見字發(fā)聲“肉喇叭”來謀得工作的可能性,外在壓力反會倒逼真人主播內(nèi)向提升。從這個角度出發(fā),技術(shù)提供給真人主播的是有益的發(fā)展契機。
之于媒介產(chǎn)業(yè),優(yōu)勝劣汰的準(zhǔn)則始終存在。顯而易見的是,新華社“AI合成主播”可以降低內(nèi)容生產(chǎn)成本,有效提升新聞視頻生產(chǎn)效率,滿足用戶多元的新聞需求,進一步提升權(quán)威聲音的影響力,但這并非新華社對于人工智能技術(shù)在新聞媒體領(lǐng)域的首次引入。2015年,新華社推出寫作機器人“快筆小新”,用于體育、財經(jīng)領(lǐng)域的新聞編寫;組建了國內(nèi)首個新聞無人機編隊,用于新聞航拍;2017年又推出媒體大腦,即智能媒體生產(chǎn)平臺,并持續(xù)更新版本。這些智能技術(shù)與“AI合成主播”將配合成為一套“組合拳”,拓展媒介采編與播發(fā)流程的多樣化傳播方式。播音員是傳媒場域中的一員,人工智能帶來的影響將不僅作用于播音專業(yè)的上下游,部門與行業(yè)間的部分架構(gòu)、人才隊伍、資源匹配等都有可能會順勢變化。此時的“AI合成主播”更有著“催化劑”一般的作用,催進學(xué)界專業(yè)建設(shè)的調(diào)整、催進業(yè)界產(chǎn)業(yè)資源的成熟。
無論身處何時何地,一代人認(rèn)知的視野終將局限于所處的時代與社會背景,而新一代受眾獲取的信息必將隨著歷史漸進而不斷演化。今日持有人工智能永遠無法趕超人類的觀點者,或是因為早已習(xí)慣了廣播電視等傳統(tǒng)媒體中的傳播范式,而對新技術(shù)所帶來的突變與隔閡感到不適,卻并不一定是技術(shù)本體的問題。試想,在AI主播不斷成熟、不斷推開的未來,新一代的受眾成長于此,其審美標(biāo)準(zhǔn)、美學(xué)眼光或許已經(jīng)截然不同??紤]代際差異,上一代觀眾所接收到的媒介信息與所生存的成長環(huán)境中隨處是人,故習(xí)慣了人的表達方式,而本能地排斥機器人的發(fā)聲,但假如在未來,被智能網(wǎng)絡(luò)包圍的下一代觀眾早已對AI表達見怪不怪,自幼對于虛擬形象有認(rèn)知和寄托,如同收音機伴隨上一代人長大一般,或許會豁然開朗地明白:時代不同,場景不同,人工智能主播的發(fā)展將開拓出新的天地。
不難覺察的是,現(xiàn)今“AI合成主播”以模擬為最基本的系統(tǒng)行為,其聲其形來源于真人主播,其言其語依托于指定稿件,其播其報則模擬于原型規(guī)律。人工智能主播若要有所作為,勢必先要突破模擬論的局限,向著進化論的方向邁進。
“人人都有麥克風(fēng)”是指人人都有發(fā)聲的渠道與技術(shù)支撐,而在工業(yè)邏輯的不斷推進下,“AI合成主播”也有可能走向定制化的商業(yè)生產(chǎn)道路,進而實現(xiàn)“人人都有AI合成主播”的使用格局?!癆I合成主播”的核心技術(shù)“分身術(shù)”,不僅有助媒體主播實現(xiàn)分身播報新聞,更能幫助數(shù)以萬計的用戶進行分身成為主播。如同便攜的智能音箱,如同綜合測算用戶偏好來推送相關(guān)內(nèi)容的網(wǎng)頁瀏覽器和客戶端,“AI合成主播”的開發(fā)也將基于多維度的用戶標(biāo)簽畫像,參考用戶的不同特質(zhì),生成內(nèi)容、發(fā)布信息,為固定使用者播報天氣與新聞,梳理熱點與資訊,更加準(zhǔn)確地滿足不同用戶間個性化的需求。
事實上,智能主播的定制化趨勢已在當(dāng)前初見端倪,譬如2019年1月31日,央視新聞聯(lián)合微軟推出了互動融媒體產(chǎn)品《你的生活A(yù)I為你唱作》,其中央視主播康輝和微軟AI智能女生曉曉聯(lián)合為用戶唱作專屬歌曲。系統(tǒng)先是采樣了康輝提前錄制的多首音樂,再根據(jù)用戶上傳的不同類別照片,分析其主題、環(huán)境、人物、顏色、表情等諸多元素,進而生成寫意性的歌詞,最后通過定制聲音技術(shù)經(jīng)由智能主播之口進行演繹,最終使得每個用戶得到了專屬于自己的作品。
主播所表現(xiàn)的信息,受眾是否愿意相信并接受,能否維持或提升媒體的傳播力、引導(dǎo)力、影響力、公信力,是新聞輿論的關(guān)鍵命題,搭建起人工智能主播與受眾之間的互信關(guān)系是一個嶄新的命題。回溯以往,傳統(tǒng)的電視新聞主播由于缺少實時互動的技術(shù)渠道,始終無法實現(xiàn)對于電視機前觀眾信息的即時反應(yīng),這也被視為電視較于網(wǎng)絡(luò)媒體的一大不足。同樣,目前的“AI合成主播”是文字變成聲音的優(yōu)化,這樣的一套系統(tǒng)操作從傳播效果的角度來看并不高明,因為缺失了回饋的一環(huán),仍像是自上而下的宣告。
人類需要交往,需要在交往當(dāng)中印證自己的主體性存在,在某種程度上,人和機器之間也存在著所謂的人與人之間的精神交流狀態(tài)。人工智能在交互化溝通上擁有天然的技術(shù)優(yōu)勢,只要有規(guī)律可循,訓(xùn)練對話便有路徑。人的各種愿望在心理學(xué)有解釋,高興時希望一同分享,失落時渴望得到安慰,無助時又想獲取力量,將類似于此的數(shù)據(jù)輸入人工智能的智庫之中,即便它不能盡善盡美地回應(yīng)對方需求,卻也能調(diào)動受眾的參與心理。例如東方衛(wèi)視的新聞直播節(jié)目《小冰搖搖吧》,其中的人工智能微軟“小冰”任主持人,不僅與真人搭檔彼此互動,還對網(wǎng)友開展了采訪。你來我往、你問我答,機器與人基于交互作用形成了傳播效果的不斷深化。
如科大訊飛副總裁章繼東所言,“我們一直想做一個溫暖的A I,把十一個明星的聲音還原出來,然后做到他的抖音賬號里去,明星就能直接呼喊抖音用戶的名字。粉絲們很奇怪,明星竟然喊我的名字了,這是一種溫暖的聲音。”盡管新近出現(xiàn)的“AI合成主播”在情感控制與表達上并不盡如人意,但“情感機器人的情感模型研究已成為目前的研究熱點和發(fā)展方向”[1]。只要有充足的數(shù)據(jù)樣本,人工智能主播可從人的語言、面部表情與肢體動作等各種反應(yīng)中推測出人當(dāng)下的情緒,進而給出回應(yīng)。研發(fā)者可以依托于心理學(xué)、語言學(xué)、社會學(xué)等人文背景進行設(shè)計,更能使智能主播體察與感知播報內(nèi)容的具體感情色彩,做出沉痛與欣然、鼓勵與憧憬等不同情緒的反應(yīng),人文關(guān)懷便灌注其中。
不過,即便人工智能主播做到了有感情地表達層面,或興奮,或悲傷,或復(fù)雜的醞釀,在本質(zhì)上仍是算法之下的一場邏輯游戲,目前機器自身不擁有七情六欲,只是在假模假樣地表現(xiàn)而已。表達情感并非高級,困難的是生成情感,人類的腦神經(jīng)是如何運作方能生成不同的情感,后又準(zhǔn)確生動地表達,這將是人工智能在語言領(lǐng)域著力攻克的難點。
智慧是比智能更高的層次,它通常指“人們對事物與問題能迅速、機靈并正確地理解、處理與解決好的能力”[2]。未來的人工智能主播不能局限于做現(xiàn)實主播的仿生物,而應(yīng)創(chuàng)造性地發(fā)揮其優(yōu)勢;不能只是淺層信息的傳遞者,也應(yīng)擁有思辨意義的哲學(xué)意味。在技術(shù)成熟的情況下,人工智能主播不只是主播,更將集教師、朋友等多種角色于一身,傳達給用戶高級的哲學(xué)觀和方法論,使得人類更好地認(rèn)識和改造世界,這并不是沒有可能,例如,將某一領(lǐng)域內(nèi)頂尖專家的學(xué)識化為可量化、可執(zhí)行的算法,讓智能主播向其學(xué)習(xí),它將超越行業(yè)半數(shù)從業(yè)者的水平,不難具備對相應(yīng)問題答疑解惑的能力。
人類對于知識的記憶和對于智識的創(chuàng)造往往需要多年積累與訓(xùn)練才能日臻成熟,而主播崗位的特性更是有著并非誰人皆可的考驗。與之相比,人工智能主播與大數(shù)據(jù)的無縫連接,使其十分有潛力發(fā)展成為一個背景知識極其豐富并能隨時調(diào)用的角色,它的標(biāo)簽背后是各種信息的聚合。此時,人工智能主播便不單單是真人的附庸,更兼導(dǎo)播、編輯等角色于一身,它對于信息整合后所進行的選擇取舍和表達,像任何一位真人主播一樣,代表了一家媒體所追求的思想意識高度。
2019年的智能主播“新小浩”較之以往版本,一大進步是它不僅能坐著報消息,還能輔以手勢與姿態(tài)等多種肢體動作站起來,聲情并茂地播新聞。按照此等規(guī)律繼續(xù)推理,未來的智能主播行走播報、表現(xiàn)舞蹈也不是難題,除去新聞領(lǐng)域,文藝、娛樂、民生等多節(jié)目類別與訪談、企業(yè)發(fā)布等多現(xiàn)場場景都會存在人工智能主播的身影。
以娛樂領(lǐng)域為例,互聯(lián)網(wǎng)市場主體的一極是年輕的00后,娛樂產(chǎn)品成為其消除焦慮、享受生活的重要載體,而他們也比上一代更加易于接受新技術(shù)的存在。比如日本的虛擬歌手“初音未來”,它在全球的粉絲群體數(shù)以億計,足見其影響力,若把智能主播投放在娛樂領(lǐng)域,也可能會占據(jù)廣闊的市場份額。再以文藝領(lǐng)域為例,一般來講,藝術(shù)家被認(rèn)為是最不可能被機器替代的職業(yè)之一,這源于“人尚未研究透徹藝術(shù),機器怎會領(lǐng)先一步”的疑惑。然而,近年來藝術(shù)與科技的結(jié)合得到了越來越充分的探討和運用。在人為的監(jiān)督狀態(tài)下,人工智能如何通過深層學(xué)習(xí)技術(shù)不斷延展獨立的想象力成為一道時代的命題。以藝術(shù)的眼光來打造人工智能主播,使其潤澤發(fā)現(xiàn)美、創(chuàng)作美、品評美等多重意蘊,是更具挑戰(zhàn)卻也更有意義的歷程,否則,其精神價值空間的開發(fā)將難以為繼。
【注釋】
[1] 李穎.人工智能技術(shù)在播音主持領(lǐng)域的應(yīng)用[J].中國廣播電視學(xué)刊,2018(11):80-82.
[2] 陳如明.智能、智慧及人工智能發(fā)展問題與向超級人工智能邁進的務(wù)實發(fā)展策略[J].數(shù)字通信世界,2016(02):33-42.