月貝凡
盡管識別率已不再是問題,但無論是大名鼎鼎的Siri和Google Now,還是《訊飛語音》和Cortana等語音助手們,在被用戶調(diào)戲幾天之后紛紛被打入冷宮。而谷歌助理(Google Assistant)的出現(xiàn),似乎為身陷困境的小伙伴們帶來了轉(zhuǎn)機。
語音助手這四年
2012年6月27日,一句“OK,Google.”將Google Now帶入了公眾的視野。而在4年之后,2016年5月19日,當(dāng)谷歌在Google I/O大會上再次喊起“OK,Google.”時,Google Now終于脫胎換骨,成了谷歌助理。
不得不說,Google Now這四年發(fā)展并不如預(yù)期中的那么美好。在初次亮相的發(fā)布會上,它便被“黑科技”產(chǎn)品Google Glass奪去了風(fēng)頭,更何況還有蘋果的Siri珠玉在前。起初,Google Now只是谷歌地圖團隊的一個創(chuàng)意,讓用戶不需要點擊屏幕即可完成對智能手機的操控。而在Siri出現(xiàn)后,Google Now才搭上了語音助手的東風(fēng)。
在Siri和Google Now之后,微軟、訊飛、搜狗和奇虎360等廠商,紛紛推出了自己的手機語音助手APP。不久后,語音助手甚至開始成為智能手機的標(biāo)配。然而,好景不長。即便是名聲如Siri,如今也只有在用戶無聊時,才有機會登臺“講個笑話”。
語音助手們的落寞,最核心的問題還是在于自己的“智商不高”。有網(wǎng)友戲稱,你原以為語音助手會是鋼鐵俠的Jarvis,然而事實上它只是一個高配版的金立語音王。
如果你有深入使用過各類語音助手APP就會發(fā)現(xiàn),這些機械的一問一答破綻百出。盡管表面上交互方式是語音,但其本質(zhì)上與鼠標(biāo)點擊和手指觸控別無二致,死板的語音反而讓人感到膈應(yīng)。不僅如此,語音助手們能夠獨立完成的手機操作也十分有限,僅限于部分常用的系統(tǒng)操作,完全不能深入到第三方APP當(dāng)中。
谷歌助理帶來了哪些啟示?
同樣是一句“OK,Google.”,同樣的機器人“嗓”,但此次出現(xiàn)的谷歌助理似乎要靠譜了不少。從谷歌I/O大會的現(xiàn)場演示中可以看出,谷歌助理可以聽懂更多口語化的表達(dá),它甚至可以和用戶進行日常聊天。谷歌表示,谷歌助理并非只是執(zhí)行簡單的一問一答,而是會聯(lián)系上下文,給出更精準(zhǔn)的答案,用戶還可以進行追問。
比如,當(dāng)你“招呼”谷歌助理幫你搜索完熱門電影之后,它會因為聽到你剛說了這次會帶小孩一起去,而篩選出那些適合孩童的電影。更強的是,谷歌助理要比此前的語音助手們更“主動”—它會順勢問你是否需要四張票,并幫你搞定訂票和付費。如今,谷歌正在為谷歌助理接入更多的第三方服務(wù),打車出行的Uber、在線聽曲的Spotify以及線上訂座的OpenTable都可以通過谷歌助理搞定。
可以說,谷歌助理將語音助手提升到了一個新的段位。而這一切,都源自人工智能的功勞。事實上,人工智能也正是今年的谷歌I/O大會的一大主題。在發(fā)布會一開始,公司CEO Sundar Pichai便開始強調(diào)機器學(xué)習(xí)在生活中扮演的重要角色。在本次谷歌I/O大會上發(fā)布的Allo和Google Home中,都有谷歌助理的身影。在Allo中,谷歌助理甚至?xí)鶕?jù)對方發(fā)來的圖片信息,給出回復(fù)建議。
語音助手,接下來怎么走
而在國內(nèi),以訊飛為代表的企業(yè)已經(jīng)將中文的語音識別率提升到了很高的水準(zhǔn)??墒牵澳苈犌濉钡膯栴}解決了,“能聽懂”又成了新挑戰(zhàn)。百度的人工智能研究目標(biāo)之一便是要攻克這一難題,但目前進展緩慢。要知道,谷歌助理的背后,其實是谷歌在這一領(lǐng)域近十年的耕耘。除了谷歌,微軟、亞馬遜和Facebook等公司也在語音助手領(lǐng)域試水人工智能。更有傳言稱,蘋果的Siri也將迎來重要升級。種種跡象表明,由人工智能引發(fā)的語音助手變革,已是山雨欲來風(fēng)滿樓。
短期內(nèi),國內(nèi)同行要“借鑒”谷歌助理并不容易。不過,由于一些眾所周知的原因,留給國內(nèi)語音助手們的追趕時間應(yīng)該還十分充裕。我們認(rèn)為,在語義理解方面還沒有取得突破之前,國內(nèi)的語音助手們或許可以從以下三個方面進行突破。
其一是變得更“主動”。使用語音助手時,最讓人費解的是,語音助手們每次回答完問題之后,并不會主動接收下一條語音命令,我們還得自己動手按下話筒圖標(biāo)。所謂“主動”,就是要從這些細(xì)節(jié)入手。
其二是擴展第三方服務(wù)。目前,當(dāng)我們打開手機上的XX語音助手,說一句最常見的“附近有什么吃的”時,得到的答案往往都是一個簡單的列表。為什么不能進一步,提供餐館和產(chǎn)品推薦并幫助用戶完成點餐呢?也只有待這類第三方服務(wù)豐富起來之后,才能增強用戶打開語音助手的意愿。
其三是利用好手機傳感器。如今,手機上提供了多種傳感器,結(jié)合傳感器手機其實可以實時感知到我們的狀態(tài)。同樣的,這些傳感器可以部分彌補語音助手們“聽不懂”的尷尬。比如,可以轉(zhuǎn)述家里領(lǐng)導(dǎo)分派的任務(wù):到小區(qū)時買瓶醋。或者,在用戶出門時會主動問一句“帶傘了沒”。