保羅·馬克斯
在位于英國(guó)劍橋北部的英國(guó)空軍基地的一個(gè)隔音機(jī)庫(kù)中,克里斯·米切爾和他的同事正在忙著揮舞大錘給計(jì)算機(jī)“上課”。
米切爾的該團(tuán)隊(duì)收集了數(shù)以千計(jì)的不同形狀和尺寸的玻璃窗和門,然后一個(gè)接一個(gè)的敲碎,并錄下每種類型玻璃破碎時(shí)的獨(dú)特聲音。使用的工具也不盡相同,有時(shí)他們用大錘或花園鐵鍬,有時(shí)他們?nèi)哟u?!拔覀兺耆凸懒诉@件事有多麻煩,”米切爾說(shuō),“而且沒想到會(huì)這么累?!?/p>
歡迎來(lái)到人工智能的最新前沿。米切爾是位于劍橋的創(chuàng)業(yè)公司音頻分析的首席執(zhí)行官和創(chuàng)始人,這家公司正在訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)識(shí)別玻璃破碎的聲音。
不只是玻璃而已:該公司還在教計(jì)算機(jī)識(shí)別對(duì)人類重要的其他聲音,如煙霧報(bào)警器的聲音、嬰兒嚎啕大哭的聲音、狗叫聲。他們的想法是把計(jì)算機(jī)識(shí)別聲音的這種能力融入智能家居系統(tǒng)中,這種系統(tǒng)不會(huì)把玻璃杯摔碎的聲音與窗戶被砸碎的聲音混淆起來(lái),這樣,當(dāng)有人闖入你家或你的孩子開始哭泣時(shí)系統(tǒng)就會(huì)向你發(fā)出警報(bào)。
? ? ? ? 米切爾的團(tuán)隊(duì)與獸醫(yī)一起追蹤和記錄盡可能多的包括從京巴到大丹犬等不同品種在內(nèi)的狗的吠聲
在過(guò)去幾年中,計(jì)算機(jī)已經(jīng)非常擅長(zhǎng)通過(guò)視覺了解世界。人工智能在識(shí)別某些物體,特別在面部識(shí)別領(lǐng)域,已經(jīng)比人類做的更好。但語(yǔ)音識(shí)別領(lǐng)域進(jìn)展緩慢。語(yǔ)音識(shí)別能力是蘋果的Siri、谷歌Home和亞馬遜的Alexa系統(tǒng)的核心能力。不過(guò)到目前為止高精度聲音識(shí)別沒有得到過(guò)多的關(guān)注。對(duì)大多數(shù)機(jī)器來(lái)說(shuō),日常噪音只是背景雜音。
聽音識(shí)別 讓生活變得易懂
米切爾想改變這一點(diǎn)。 “我們正在研究的是一個(gè)新的人工智能領(lǐng)域,我們稱之為人工音頻智能,”米切爾說(shuō),“這一領(lǐng)域尚未做出任何有意義的突破?!?/p>
音頻分析屬于新的一批專門訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)來(lái)識(shí)別聲音模式的初創(chuàng)公司??偛课挥诎亓值腢berchord公司正在開發(fā)一個(gè)人工智能系統(tǒng),它可以幫助人們學(xué)習(xí)彈吉他。它會(huì)聽你的彈奏,然后告訴你在什么時(shí)候你的指法錯(cuò)了。除了Uberchord以外,還有幾家聲音領(lǐng)域的人工智能公司獲得了阿比路錄音室的投資,披頭士樂隊(duì)曾經(jīng)在這家錄音室錄制專輯。
另一家創(chuàng)業(yè)公司劍橋顧問則教人工智能識(shí)別不同類型的鋼琴音樂,如拉格泰姆音樂或巴洛克。公司名為Aficionado的系統(tǒng)接受了幾百小時(shí)鋼琴樂曲的訓(xùn)練,包括專業(yè)唱片和來(lái)自YouTube的業(yè)余練習(xí)視頻。劍橋顧問公司的蒙提·巴洛說(shuō),我們故意使用雜亂無(wú)章的訓(xùn)練數(shù)據(jù),“我們就是想看看人工智能系統(tǒng)是否能處理無(wú)比復(fù)雜的現(xiàn)場(chǎng)音樂?!?/p>
然而,Aficionado系統(tǒng)的音樂才華不只是為了表演。結(jié)果證明,讓系統(tǒng)接受音樂訓(xùn)練,并讓它忽略不相關(guān)的因素如速度、音量或音調(diào),是讓它學(xué)習(xí)在復(fù)雜的數(shù)據(jù)中找到規(guī)律的很好的方式,無(wú)論音樂表現(xiàn)的內(nèi)容是什么。 Aficionado系統(tǒng)的第一個(gè)任務(wù)是確定電信網(wǎng)絡(luò)中的故障。
但是音頻分析有更大的野心?!拔覀兿胍?jiǎng)?chuàng)造一個(gè)對(duì)所有聲音的分類法,這是一個(gè)巨大的工程,”米切爾說(shuō)。到目前為止,該公司的軟件可以識(shí)別窗戶被打破的聲音,嬰兒的哭泣聲和煙霧報(bào)警器的聲音。前不久,在拉斯維加斯的國(guó)際消費(fèi)電子展(CES)上,他們還把狗的叫聲添加到他們的聲音庫(kù)中。
他們還在制造一個(gè)異常檢測(cè)器,它會(huì)識(shí)別不正常的聲音,比如正常的嘈雜的背景音發(fā)生了變化,有人摔倒的咔嗒聲,或者水管泄漏的嘶嘶聲。最終,他們想要加入汽車警笛,還有為美國(guó)市場(chǎng)準(zhǔn)備的槍聲。音頻分析計(jì)劃之后將把這些聲音識(shí)別系統(tǒng)的使用許可提供給智能家居家電的制造商。
英國(guó)智能恒溫器和照明公司Hive的總經(jīng)理尼娜·芭提雅說(shuō),識(shí)別不同聲音的能力很重要?!巴ㄟ^(guò)智能家居技術(shù)檢測(cè)和解讀各種各樣的環(huán)境聲音的重要性日益加強(qiáng),這樣當(dāng)人們不在家時(shí),他們就可以輕松快速地應(yīng)對(duì)發(fā)生的事情,” 她說(shuō),“如果你在開會(huì)時(shí),家里的煙霧報(bào)警器響了,你就會(huì)接到警報(bào)。而不是只有當(dāng)你在沙發(fā)上時(shí),你才會(huì)獲得警報(bào)?!?/p>
除了向您的手機(jī)發(fā)送警報(bào)之外,這些系統(tǒng)也可以自己采取行動(dòng)。窗戶被砸碎后,系統(tǒng)可以開燈。嬰兒的哭泣聲也會(huì)打開夜燈,然后附近的揚(yáng)聲器就會(huì)播放搖籃曲。
事實(shí)上,中國(guó)電子公司生迪智慧正在把音頻分析公司的技術(shù)應(yīng)用到內(nèi)置揚(yáng)聲器的智能燈具的底座里。其他智能家居公司也正在將它安裝到它們的設(shè)備中,包括恒溫器。恒溫器通常安裝在家中的中心位置,是監(jiān)聽的好地方。
智能辨聲還處于收集基礎(chǔ)數(shù)據(jù)階段
難點(diǎn)在于要確保人工智能正確識(shí)別它聽到的聲音,因?yàn)殄e(cuò)誤的警報(bào)可能會(huì)造成混亂。然而機(jī)器學(xué)習(xí)系統(tǒng)無(wú)法超越訓(xùn)練時(shí)聽過(guò)的例子。正如米切爾所說(shuō):“除非你有數(shù)據(jù),否則人工智能一點(diǎn)用都沒有。”
獲取這些數(shù)據(jù)是件難事。"我們連續(xù)幾周不停的砸玻璃,“米切爾說(shuō)?!逼渲幸恍┐皯羰峭暾穆涞貦淮?。敲碎那些玻璃時(shí),當(dāng)玻璃摔下來(lái)時(shí)可能會(huì)砍斷你的腳或腿。
為了獲得足夠多的嬰兒哭泣聲的錄音,該公司與劍橋的父母團(tuán)體合作。為了編目他們錄制的內(nèi)容,他們當(dāng)時(shí)不得不造出一些詞匯來(lái)描述不同類型的哭泣聲。米切爾說(shuō):“例如,有一種非常聲嘶力竭的哭喊,似乎是用喉嚨的后面發(fā)音,我們稱之為‘聲樂哭?!?/p>
狗叫聲比較容易。他們與獸醫(yī)合作,跟蹤了盡可能多的不同品種,從小型京巴狗的叫聲,到和沙發(fā)一樣大的大丹犬的叫聲。
為了讓他們的系統(tǒng)知道煙霧報(bào)警器的聲音,音頻分析公司直接在網(wǎng)上買了幾乎所有型號(hào)的報(bào)警器?,F(xiàn)在辦公室的貨架上堆放著數(shù)百臺(tái)報(bào)警器。最初,他們的人工智能很難區(qū)分自煙霧報(bào)警器的聲音和其他家電發(fā)出的嗶嗶聲,如電話鈴聲、鬧鐘和烤箱計(jì)時(shí)器。于是,他們讓人工智能不僅關(guān)注警報(bào)的音高和持續(xù)時(shí)間,還要關(guān)注嗶嗶聲之間的獨(dú)特的間隙。
但無(wú)論你打碎多少玻璃,拉響多少個(gè)煙霧報(bào)警器,總會(huì)有新的驚喜。有一種鸚鵡,竟然能模仿煙霧報(bào)警器嗶嗶叫的聲音。于是,音頻分析不得不讓系統(tǒng)忽略鳥類的假警報(bào)。
他們想教系統(tǒng)的另一個(gè)聲音是當(dāng)人類發(fā)出激奮聲音時(shí)的音調(diào)和語(yǔ)調(diào)變化,比如有人威脅要采取暴力。這不會(huì)因?yàn)檎Z(yǔ)言或文化的不同而發(fā)生很大變化,米切爾說(shuō)。當(dāng)腎上腺素大量分泌并影響發(fā)聲系統(tǒng)時(shí),人的聲音會(huì)發(fā)生特殊的變化。
然而音頻分析公司已經(jīng)被迫將其擱置,因?yàn)樗麄儼l(fā)現(xiàn)小區(qū)里雞的叫聲和鏈鋸的聲音也會(huì)觸發(fā)他們的警報(bào)器。
這是一個(gè)嘈雜的世界——但是人工智能才剛剛開始聆聽。?笏(摘自英國(guó)廣播公司新聞網(wǎng))(編輯/萊西)