近日,谷歌宣布推出Google Duplex,一個能在電話中用自然語言完成“現(xiàn)實世界”任務(wù)的對話AI。它目前已經(jīng)能完成一些特定任務(wù),如安排某些類型的預(yù)約。這類工作要求系統(tǒng)能像人與人正常溝通一樣,而無須強(qiáng)制對方適應(yīng)機(jī)器。
據(jù)悉,Google Duplex的研發(fā)核心是一個專用于解決自然對話問題的遞歸神經(jīng)網(wǎng)絡(luò)(RNN),在TensorFlow Extended (TFX)平臺上完成構(gòu)建,使用的訓(xùn)練數(shù)據(jù)來自匿名電話會話數(shù)據(jù)語料庫。該網(wǎng)絡(luò)有多個輸入,包括原音頻特征、把原音頻輸入Google自動語音識別(ASR)技術(shù)后的輸出、上下文、對話的參數(shù)(例如預(yù)約的所需服務(wù)或當(dāng)前時間)等,研究人員為每種任務(wù)分別訓(xùn)練了一些模型,但語料庫是跨任務(wù)共享的。最后,他們又用TFX中的超參數(shù)優(yōu)化進(jìn)一步改進(jìn)了模型。
Google Duplex組合使用文本到語音(TTS)引擎和綜合TTS引擎(使用Tacotron和WaveNet)控制語調(diào)。
由于在對話中加入了“嗯”“呃”等字,系統(tǒng)的回應(yīng)聽起來更自然。但這其實是TTS連接兩個音調(diào)不同的聲音或正在等待合成時使用的小障眼法,是一種自然的表示問題正在受理中的狀態(tài)(人們也經(jīng)常這么做)。經(jīng)過用戶研究,研究人員發(fā)現(xiàn)這種反應(yīng)能在不利的對話情景下給對方帶來熟悉、自然的感覺。
此外,Google Duplex在回應(yīng)速度方面也比較符合用戶期望。當(dāng)人們說完一件簡單的事后,比如“hello”他們希望得到及時的回復(fù),對回復(fù)延遲也比較敏感。如果系統(tǒng)檢測到這種情況,它會馬上切換成更快、精度更低的模型來工作。在極端情況下,Google Duplex甚至都不會調(diào)用RNN,而直接使用最快的近似值(通常會帶各種表示猶豫的詞匯,人類面對這種事情也會有類似的反應(yīng))。這種做法使系統(tǒng)的響應(yīng)延遲能小于100毫秒。
Google Duplex系統(tǒng)能夠應(yīng)對復(fù)雜對話,并且能完全自主地完成絕大部分任務(wù),無須人工干預(yù)。該系統(tǒng)具有自我監(jiān)控功能,可以識別無法自動完成的任務(wù)(例如安排異常復(fù)雜的預(yù)約),面對這種情況時,它會主動向施令者發(fā)出信號。