你的聲音是什么樣的呢?甜甜的,沙啞的,尖細的,還是低沉的?
你能靠聲音分辨說話的人是誰嗎?家人,同學,還是老師?
你有沒有這樣的經(jīng)歷:沒有看見某個人的臉,只靠聲音就認出了他?
比如《紅樓夢》里王熙鳳的出場是“未見其人先聞其聲”,賈府里的姐姐妹妹們只聽一句話,便知道是她了。
歸有光在《項脊軒志》中也提到“余扃牖而居,久之,能以足音辨人?!边@樣厲害的聽覺,是爛熟于心的結(jié)果吧。
你在放學時分,校門口吵吵嚷嚷,也仍然能準確地聽到家人的聲音。
你能“聽聲辨人”,是因為每個人的聲音都有特別之處。如果聲音被“偷了”,就相當于聲音的特點被偷了,大家只認聲音就會產(chǎn)生誤會呢!
不過,人與人之間相互“偷”聲音已經(jīng)司空見慣,比如很多人會模仿明星的聲音說話、唱歌。那機器能“偷”人聲嗎?而且要“偷”得像真人一樣,而不是帶著機器味道的聲音!
加拿大的Adobe公司在2016年的MAX大會上展示的語音編輯工具Project VoCo做到了!和目前市場上的語音編輯工具不同,除了可以實現(xiàn)一些基礎的剪輯拼接、消除噪音之外,它還能用機器合成新的語音,生成新詞,堪稱“聲音版的Photoshop”。
只需要給VoCo一段20分鐘的人聲,它就能分析出人聲中的特征,然后用戶只需要打字輸入內(nèi)容,它就能根據(jù)這段人聲中的特征進行還原。
簡單地說,VoCo就是可以在理解和分析某個人的聲音之后,用同樣的聲音說出其他不同的內(nèi)容。VoCo能夠生成原本這個聲音沒有的內(nèi)容,就像一個“聲音神偷”!
既然聲音是有特征的,那么只要擁有了這些特征,就能“偷”到別人的聲音。VoCo這么厲害,就是準確地“偷”了聲音的特征并且能夠任意還原。
那么聲音的特征是什么呢?
要想知道聲音的特征,得先知道聲音是怎樣發(fā)出的。我們的聲帶震動,然后發(fā)出了聲音。說話的時候把手放在脖子上,就可以感受到聲帶的震動。就像鼓一樣,鼓面震動了,才能發(fā)出鼓聲。
這種震動就像石子丟進湖里,湖面會蕩漾出一圈圈的漣漪,這個漣漪也叫“波紋”。聲帶震動出的“波”也在空氣中一波又一波地傳出,只是這樣的“波”我們看不到,叫“聲波”。
我們細細回想聲音的特征,有大有小,有高有低,還有動聽或難聽。這些感受,就是聲音的特征啊:聲音的大小是響度,聲音的高低是音調(diào),聲音的波形是音色。人們就是根據(jù)這三個特征來區(qū)分聲音。
聲音看不見、摸不著,但利用儀器可以繪制出反應聲音特征的聲波圖。如果聲波起伏很大,那么聲音就大;聲波很密集,聲音就很高;聲波形狀有規(guī)律,就是好聽的樂音,雜亂無章就是噪音。
知道了聲音的秘密,VoCo通過20分鐘的語音,分析并還原出聲音的響度、音調(diào)和音色,達到了模仿修改人聲“以假亂真”的程度。
能夠模仿人聲的VoCo確實很神奇,但是仔細一想,也有讓大家擔憂的地方:如果有人利用VoCo模仿人聲做壞事,比如模仿出爸爸媽媽的聲音騙取小朋友的信任,那就有危險了。
目前VoCo還在研發(fā)階段,沒有面世。大約技術(shù)人員考慮到安全和信任的問題后,大家和VoCo見面的那一天,“偷”聲音的危機已經(jīng)解決,所有人都能愉快地享受新科技帶來的新境界!