技術(shù)宅
人類可以輕松地通過耳朵辨別出男女聲,是因?yàn)槟信曇粲斜容^顯著的不同。比如我們到了12歲~13歲以后,男孩的喉結(jié)增大,聲帶變得比較長,聲音就逐漸變粗了;女孩的聲帶仍然又短又窄,所以發(fā)出的聲音高而尖。
當(dāng)然這只是我們的主觀感覺,如果要讓Al機(jī)器人也能對男女聲進(jìn)行識別,就必須將男女聲的不同點(diǎn)作數(shù)字化處理,這就需要從本質(zhì)上對聲音進(jìn)行分析。男女聲音的不同大致有以下幾點(diǎn):
音高不同,一般女生的音高比男生高4度—6度,這樣在聽覺上女生的聲音聽起來就更高亢。
亮度不同,女聲普遍更“亮”、“尖”,穿透力更強(qiáng),這是由于女生高頻泛音豐富而形成的。
糙度不同,一般來說男聲天生低,泛音之間的間距更小,所以聽起來顯得更“糙”(圖1)。
因?yàn)锳l機(jī)器人只能分辨出數(shù)字化的區(qū)別,所以科學(xué)家們在為人工智能建立聲音感知模型時(shí),需要提取出聲音中具備數(shù)字化特征的元素。首先聲音的頻率是可以數(shù)字化表示的,通過頻率來辨別聲音效果就很不錯。我們可以為男女聲音制定一個分辨標(biāo)準(zhǔn),一般男性的聲音頻率在50Hz—250Hz之間,女性聲音則在100Hz—500Hz之間(圖2)。
接著科學(xué)家們會準(zhǔn)備大量的語音數(shù)據(jù)讓這個感知模型進(jìn)行學(xué)習(xí),再借助其他科學(xué)家已經(jīng)開發(fā)好的算法函數(shù)進(jìn)行數(shù)據(jù)特征的提?。ㄒ粋€開源的R語言函數(shù)包,就可以提取出聲音的20個特征)。通過大數(shù)據(jù)學(xué)習(xí)后,這個模型就可以對大部分的男女聲進(jìn)行識別了(圖3)。
為了提高學(xué)習(xí)和處理的效率,Al機(jī)器人還會根據(jù)人耳結(jié)構(gòu)通過仿生的神經(jīng)元進(jìn)行音頻處理。人的耳蝸核可以對聽覺神經(jīng)收集到的神經(jīng)信號進(jìn)行編碼,它包含許多有著不同特性、能夠完成聲音特征初步處理的神經(jīng)元,從而對獲取的音頻進(jìn)行高級的處理。Al機(jī)器人配備類似的神經(jīng)元后,就可以更精準(zhǔn)地實(shí)現(xiàn)對音頻的識別和處理。
當(dāng)然因?yàn)槟信曨l率會有重復(fù)的部分,比如生活中有些女人的聲音可能偏男性,為了提高識別率,在實(shí)際的訓(xùn)練中,人工智能還會結(jié)合人類男女對話的不同來進(jìn)行性別的識別,很多男孩喜歡使用“酷、棒、帥”的口頭禪,女孩則愛用“比心、很好哦、難怪”之類的口語,人工智能通過這些大數(shù)據(jù)的學(xué)習(xí),再結(jié)合上述男女聲的不同點(diǎn)進(jìn)行識別,最終生成一種算法部署在服務(wù)器中。以后只要我們在數(shù)據(jù)模型中輸入人類的音頻,Al機(jī)器人就可以很精準(zhǔn)地識別出男女聲了(圖4)。
Al機(jī)器人能夠精準(zhǔn)地識別男女聲,這個應(yīng)用可以給我們的生活帶來什么影響呢?
若由Al機(jī)器人充當(dāng)客服,可以給我們提供更加人性化的體驗(yàn)。首先Al客服根據(jù)用戶來電或者語音輸入精準(zhǔn)識別出男女客戶,如果是男生來電,Al客服就切換到溫柔的女聲輸出,反之則切換到男聲輸出,這樣就能夠和客戶進(jìn)行相對有效的溝通了(圖5)。
聲音識別還可以解決當(dāng)前智能產(chǎn)品只能識別用戶所說的內(nèi)容,而不能區(qū)分說話人身份的問題。隨著人工智能語音識別技術(shù)的提高,Al機(jī)器人不僅可以識別男女聲,還可以識別同一性別不同身份的人們,比如識別出是家里的奶奶還是小孫女。在區(qū)分出不同的角色后,讓系統(tǒng)有針對性地對每個人提供不同的內(nèi)容與服務(wù),從而使得人機(jī)交互更加簡單(圖6)。