當AI開口說話

2023-02-01 05:49文|馬迪

今日中國·中文版 2023年12期

文| 馬迪

在更完善的監(jiān)管和鑒別技術誕生之前，千萬記?。貉垡姴灰欢閷?，時刻保持警惕。

自2022年年底至今，由ChatGPT打開的“AI寶盒”仍在不斷涌出新的魔法。最近，“郭德綱用英語說相聲”“泰勒斯威夫特說流利中文”等視頻在社交平臺瘋傳，在這些視頻中，這些公眾人物的外語不僅發(fā)音準確、語法地道、口型貼合，連音色都跟其本人高度相似，幾乎可以以假亂真。

這就是AIGC帶來的“新玩法”，一鍵翻譯視頻AI工具—HeyGen，來自一家名為詩云科技的中國公司。登錄其網(wǎng)站，免費用戶可以上傳5分鐘以內(nèi)的視頻文件，只需選擇語言，就能在數(shù)十秒到數(shù)分鐘內(nèi)生成高質(zhì)量的外語配音視頻。在郭德綱視頻的破圈影響下，最火爆時，網(wǎng)站上排隊的生成任務有數(shù)萬個之多，AI語音合成的魅力再次得到充分驗證。

語言的誕生曾經(jīng)是人類社會最重要的轉(zhuǎn)折點之一。人的聲音本身就具有驚人的多樣性，沒有兩個人的聲音是完全一樣的，再加上各種語言、口音、習慣和情感表達，決定了機器合成人類的語音絕非易事。

語音合成有三個不同層次，可懂、自然、有情感（抑揚頓挫）。最早的嘗試可以追溯到18、19世紀，當時的科學家主要是用機械裝置來模擬人的聲音，比如1791年維也納發(fā)明家沃爾夫?qū)ゑT·肯柏林，就用機器模仿了人類說話所需要的各種器官—用一對風箱來模擬肺部，一根振動的簧片充當聲帶，還用動物的皮分別仿制了喉嚨、舌頭和嘴唇。通過控制皮管的形狀和舌頭、嘴唇的位置，這部機器能夠發(fā)出一些輔音和元音，但還說不出完整的單詞。

很顯然，人的發(fā)聲系統(tǒng)精巧復雜，用機械的方式是很難模仿的。1939年，貝爾實驗室推出了第一臺電子語音合成器（命名為VODER），利用電子設備模擬聲音的共振。這是一臺相當復雜的機器，有14個類似鋼琴的按鍵，一根由手腕控制的操縱桿，還有一個腳踏板。使用者需要經(jīng)過長時間的訓練才能掌握這復雜的操作，比如要發(fā)出“專注”（concentration）這兩個字，必須連續(xù)按出13種不同的聲音，加上手腕上的操縱桿上下運動5次、腳踩踏板3到5次。

到了20世紀80年代，隨著集成電路技術的發(fā)展，出現(xiàn)了比較復雜的組合型電子發(fā)聲器，有代表性的是美國科學家丹尼斯·克拉特在1980年發(fā)布的串/并聯(lián)混合共振峰合成器。它的原理是分別用不同的數(shù)學公式來模擬人的三個發(fā)聲環(huán)節(jié)，即振動源、聲帶和聲道，再串接起來模擬人的發(fā)聲。

90年代，大家發(fā)現(xiàn)參數(shù)合成的方法無論怎么改進都無法提高性能，于是開始用更直接的方式—波形拼接法。以中文為例，帶聲調(diào)的拼音音節(jié)有1400多個，干脆每個音節(jié)都錄幾十個樣本，使用時把最合適的樣本調(diào)出來拼接，形成語音。這種方式雖然粗暴，但頗為有效。

從2014年開始，深度神經(jīng)網(wǎng)絡也開始參與到語音合成技術中，大大提高了合成的質(zhì)量—這一階段開始，AI語音不但好聽易懂，機械味也逐漸淡去，變得越來越自然了。語音合成開始像真正的語言一樣，向更真實、更交互的方向發(fā)展，成為人與AI溝通的重要方式。

前不久，ChatGPT上線了語音功能，其擬真程度令人驚訝。比如它會結(jié)合語境進行語氣處理，加入情感語氣，也會在段落中間加上一些組織語言的詞比如“emmm”。它會找重點，會調(diào)節(jié)字詞之間的語速，你甚至能聽到它輕微的呼吸聲、口齒音，一些平卷舌和鼻音的小瑕疵。

比如為了防范詐騙，很多人會在收到文字轉(zhuǎn)賬或借款消息時，打一個電話確定對方是不是本人，現(xiàn)在這個方法顯然不可行了。隨著算力和算法的進步，騙子只需要從某個人的社交媒體上提取數(shù)秒鐘的視頻音頻片段，就能模擬出他的聲音，加上諸如deepfake這樣的實時換臉工具，即使視頻通話也不一定保真了。

人工智能可以成為向善的力量，但也有變壞的可能性。在更完善的監(jiān)管和鑒別技術誕生之前，千萬記?。貉垡姴灰欢閷?，時刻保持警惕。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

當AI開口說話