文| 馬 迪
在更完善的監(jiān)管和鑒別技術誕生之前,千萬記?。貉垡姴灰欢閷?,時刻保持警惕。
自2022年年底至今,由ChatGPT打開的“AI寶盒”仍在不斷涌出新的魔法。最近,“郭德綱用英語說相聲”“泰勒斯威夫特說流利中文”等視頻在社交平臺瘋傳,在這些視頻中,這些公眾人物的外語不僅發(fā)音準確、語法地道、口型貼合,連音色都跟其本人高度相似,幾乎可以以假亂真。
這就是AIGC帶來的“新玩法”,一鍵翻譯視頻AI工具—HeyGen,來自一家名為詩云科技的中國公司。登錄其網(wǎng)站,免費用戶可以上傳5分鐘以內(nèi)的視頻文件,只需選擇語言,就能在數(shù)十秒到數(shù)分鐘內(nèi)生成高質(zhì)量的外語配音視頻。在郭德綱視頻的破圈影響下,最火爆時,網(wǎng)站上排隊的生成任務有數(shù)萬個之多,AI語音合成的魅力再次得到充分驗證。
語言的誕生曾經(jīng)是人類社會最重要的轉(zhuǎn)折點之一。人的聲音本身就具有驚人的多樣性,沒有兩個人的聲音是完全一樣的,再加上各種語言、口音、習慣和情感表達,決定了機器合成人類的語音絕非易事。
語音合成有三個不同層次,可懂、自然、有情感(抑揚頓挫)。最早的嘗試可以追溯到18、19世紀,當時的科學家主要是用機械裝置來模擬人的聲音,比如1791年維也納發(fā)明家沃爾夫?qū)ゑT·肯柏林,就用機器模仿了人類說話所需要的各種器官—用一對風箱來模擬肺部,一根振動的簧片充當聲帶,還用動物的皮分別仿制了喉嚨、舌頭和嘴唇。通過控制皮管的形狀和舌頭、嘴唇的位置,這部機器能夠發(fā)出一些輔音和元音,但還說不出完整的單詞。
很顯然,人的發(fā)聲系統(tǒng)精巧復雜,用機械的方式是很難模仿的。1939年,貝爾實驗室推出了第一臺電子語音合成器(命名為VODER),利用電子設備模擬聲音的共振。這是一臺相當復雜的機器,有14個類似鋼琴的按鍵,一根由手腕控制的操縱桿,還有一個腳踏板。使用者需要經(jīng)過長時間的訓練才能掌握這復雜的操作,比如要發(fā)出“專注”(concentration)這兩個字,必須連續(xù)按出13種不同的聲音,加上手腕上的操縱桿上下運動5次、腳踩踏板3到5次。
到了20世紀80年代,隨著集成電路技術的發(fā)展,出現(xiàn)了比較復雜的組合型電子發(fā)聲器,有代表性的是美國科學家丹尼斯·克拉特在1980年發(fā)布的串/并聯(lián)混合共振峰合成器。它的原理是分別用不同的數(shù)學公式來模擬人的三個發(fā)聲環(huán)節(jié),即振動源、聲帶和聲道,再串接起來模擬人的發(fā)聲。
90年代,大家發(fā)現(xiàn)參數(shù)合成的方法無論怎么改進都無法提高性能,于是開始用更直接的方式—波形拼接法。以中文為例,帶聲調(diào)的拼音音節(jié)有1400多個,干脆每個音節(jié)都錄幾十個樣本,使用時把最合適的樣本調(diào)出來拼接,形成語音。這種方式雖然粗暴,但頗為有效。
從2014年開始,深度神經(jīng)網(wǎng)絡也開始參與到語音合成技術中,大大提高了合成的質(zhì)量—這一階段開始,AI語音不但好聽易懂,機械味也逐漸淡去,變得越來越自然了。語音合成開始像真正的語言一樣,向更真實、更交互的方向發(fā)展,成為人與AI溝通的重要方式。
前不久,ChatGPT上線了語音功能,其擬真程度令人驚訝。比如它會結(jié)合語境進行語氣處理,加入情感語氣,也會在段落中間加上一些組織語言的詞比如“emmm”。它會找重點,會調(diào)節(jié)字詞之間的語速,你甚至能聽到它輕微的呼吸聲、口齒音,一些平卷舌和鼻音的小瑕疵。
比如為了防范詐騙,很多人會在收到文字轉(zhuǎn)賬或借款消息時,打一個電話確定對方是不是本人,現(xiàn)在這個方法顯然不可行了。隨著算力和算法的進步,騙子只需要從某個人的社交媒體上提取數(shù)秒鐘的視頻音頻片段,就能模擬出他的聲音,加上諸如deepfake這樣的實時換臉工具,即使視頻通話也不一定保真了。
人工智能可以成為向善的力量,但也有變壞的可能性。在更完善的監(jiān)管和鑒別技術誕生之前,千萬記?。貉垡姴灰欢閷?,時刻保持警惕。