李蓉慧+王杰夫
一臺Amazon Echo智能音箱的定價是179美元,對于搬到西雅圖、想為家里添置些新東西的李軼來說,這個價格可以接受。
她曾是住在硅谷的創(chuàng)業(yè)者,對各類新潮的電子消費品一點也不陌生,無論是在拉斯維加斯的電子消費展(CES),還是在硅谷遇到的不少做電子消費品的同行,有太多設(shè)計感很不錯的可穿戴設(shè)備,卻也從未激發(fā)起她的購買欲。直到李軼去了亞馬遜的西雅圖總部工作,她的想法才有所改變。
李軼并不算是音樂發(fā)燒友,所以不需要過于專業(yè)的播放設(shè)備,作為亞馬遜Prime會員,她首先想到的是,Echo可以用來為她播放免費在線音樂。另外,黑色的音箱外觀,擺在家里看著也毫無違和感。
令李軼沒有想到的是,自從這個小音箱走進她的新家,一段時間以后自己的生活變得和從前有些不一樣了。
取代了使用多年的手機鬧鐘功能,現(xiàn)在李軼會直接告訴Amazon Echo內(nèi)置的人工智能助手Alexa來設(shè)定一個每天叫醒自己的時間;起床后,她已經(jīng)習(xí)慣沖著Echo音箱說:“Alexa,play some morning music.”(Alexa,放一些早晨聽的音樂吧。)于是,音樂就會在屋內(nèi)響起;或者問:“Alexa,whats the news today?”(Alexa,今天有什么新聞?)每次出門前,她都會問一下Alexa當(dāng)天的天氣情況。此外,李軼發(fā)現(xiàn),這臺音箱還在不斷“學(xué)習(xí)”各種新本領(lǐng)—預(yù)約Uber、叫外賣、查看銀行賬戶……
發(fā)生在李軼身上的使用經(jīng)歷,代表的正是亞馬遜在數(shù)年前就已經(jīng)看到的一個相當(dāng)大的新用戶需求。根據(jù)美國市場調(diào)研機構(gòu)CIRP今年1月末發(fā)布的監(jiān)測數(shù)據(jù),已有至少820萬用戶購買了亞馬遜Echo音箱。這意味著亞馬遜已經(jīng)由一臺小小的音箱掌握了超過500萬個家庭端口,它開始一點一滴學(xué)習(xí)你的各種生活習(xí)慣和消費場景。
市場調(diào)研公司eMarketer在2017年4月發(fā)布的報告指出,2017年有3560萬美國人至少每個月會使用一次人工智能語音助手設(shè)備,比2016年增長128.9%。這份報告還指出,在智能語音外設(shè)硬件產(chǎn)品中,Amazon Echo以70.6%的市場份額,占據(jù)絕對優(yōu)勢;其次是Google在2016年推出的同類產(chǎn)品Google Home,目前在美國市場占有率為23.8%;其余的5.6%被包括LG、聯(lián)想等其他硬件廠商瓜分。
盡管早在若干年前,技術(shù)公司們都已經(jīng)意識到,智能語音互動將會是下一代技術(shù)產(chǎn)品最核心的用戶入口,但是從手機到手表,再到其他各種加載語音交互功能的可穿戴設(shè)備或者影音硬件,似乎都沒有真正打中用戶的需求要害,顯得不得其法。
現(xiàn)在,數(shù)百萬級的銷量和每月千萬次的使用證明了亞馬遜的這款智能音箱并非是一個類似Google Glass那樣天馬行空的概念產(chǎn)品,以它為入口,可能是一片有待開發(fā)匹配更多用戶需求的藍海。
于是,不愿意錯過機會的大公司們開始紛紛尋找自己的“音箱入口”—Google有了Google Home,微軟將Cortana放在了與哈曼卡頓合作推出的Invoke內(nèi),在6月閉幕的WWDC大會上,蘋果也帶來了內(nèi)置Siri的Apple HomePod。
雖然Amazon Echo看起來簡單得就像是給音箱加上了一個麥克風(fēng)而已,但這款現(xiàn)象級產(chǎn)品的誕生過程并非一帆風(fēng)順。
2014年7月,亞馬遜發(fā)布由CEO杰夫·貝索斯曾親自介入產(chǎn)品設(shè)計的智能手機Fire Phone,但銷量慘淡,從最早199美元的上市價格一路下跌仍無法說服消費者購買,這場圍繞智能手機入口與iPhone的競爭因此草草收 場。
但貝索斯是一個不甘于失敗的人,他擅長學(xué)習(xí)和從錯誤中重新找到方向。Echo音箱與Fire Phone其實淵源頗深。據(jù)《第一財經(jīng)周刊》了解,Echo是一個幾乎與Fire Phone同時開啟的項目。Fire Phone的失敗不僅沒有磨滅亞馬遜繼續(xù)打開硬件市場的決心,反而讓亞馬遜變得更加謙虛。Fire Phone的部分成員后來轉(zhuǎn)入亞馬遜其他硬件團隊,其中也包括Echo團隊,這些人的經(jīng)驗為早期Echo的產(chǎn)品研究來了幫助。
亞馬遜的語音技術(shù)研發(fā)開始于2011年。那一年,亞馬遜收購了語音識別技術(shù)創(chuàng)業(yè)公司Yap,從此開始研發(fā)自己的智能語音助手。與Fire Phone的高調(diào)不同,第一代的Echo音箱選擇在2014年11月悄悄上線,亞馬遜甚至沒有為它舉辦一場產(chǎn)品發(fā)布會。受到Fire Phone慘敗的影響,當(dāng)時市場上正彌漫著關(guān)于“亞馬遜根本沒能力做出顛覆性的硬件產(chǎn)品”的悲觀論調(diào)。
科技媒體Business Insider在一篇報道中稱,在研發(fā)Echo期間,亞馬遜對這款產(chǎn)品的定位是智能家居的一部分,讓用戶通過發(fā)出聲音下達指令。這種新的交互場景對語音識別技術(shù)和數(shù)據(jù)儲備提出了更高的要求。
如果從蘋果公司在2011秋天發(fā)布iPhone 4s時首次引入Siri智能語音助手算起,Alexa并非是最早的語音識別助手產(chǎn)品。無論是微軟的Cortana、蘋果的Siri,還是Google Assistant,美國技術(shù)大公司們在智能語音助手領(lǐng)域較勁已久,例如蘋果的Siri除了應(yīng)用于智能手機,如今也接入了Mac電腦和無線耳機等硬件設(shè)備,而智能音箱不過是這些虛擬助手的又一個硬件實體。但是,考慮把一個語音識別助手放在用戶的客廳里,這還是第一 次。
很快,人們發(fā)現(xiàn)“家庭”其實是使用智能語音助手非常有利的場景。至今我們?nèi)匀缓苌僖姷接腥嗽诠矆龊吓e著一部iPhone手機大聲地對Siri發(fā)號施令,因為那場面實在有些尷尬。市場調(diào)研機構(gòu)Strategie在2016年發(fā)布的一份報告中指出,只有3%的iPhone用戶表示愿意在大庭廣眾下使用Siri。
Echo開辟的家庭場景相對私密,雖然以音箱形式出現(xiàn)會犧牲一定的產(chǎn)品便攜性,但這款智能語音助手最大的野心,是要充當(dāng)用戶的“家庭智能管家”。
可是,想當(dāng)好這個管家,讓人機交互的體驗?zāi)軌蚺c真人溝通相媲美,亞馬遜的研發(fā)團隊還是下了一番苦功。
“這里面一個是語音識別的精度問題—你說一句話,它要能準(zhǔn)確翻譯成文本;另一部分是語義分析,當(dāng)你說了一句話之后,它從里面能理解你說這句話是想做什么?!币晃辉趤嗰R遜Alexa部門工作的內(nèi)部人士對《第一財經(jīng)周刊》這樣描述Echo在識別出用戶說了什么并給出反饋這一環(huán)所面臨的挑戰(zhàn)。
貝索斯要求技術(shù)人員將Alexa對用戶指令的反應(yīng)時間,從當(dāng)時相關(guān)技術(shù)普遍可以實現(xiàn)的2.5到3秒,直接縮短到1秒以內(nèi)。他所定下的這個“不可能的任務(wù)”最終推動團隊將反應(yīng)時間縮短在1.5秒內(nèi)。
此外Echo團隊的工作人員開發(fā)了一項測試,用來獲知Alexa做出什么樣的反應(yīng),會是用戶最喜歡的。
解決掉智能語音助手的體驗問題,接下來就得解決產(chǎn)品商業(yè)化的核心問題—要給用戶一個購買的理 由。
Echo團隊在悄悄發(fā)布產(chǎn)品后,持續(xù)收集用戶的反饋,他們發(fā)現(xiàn),有超過40%的用戶反饋說購買Echo是用來聽音樂的。于是亞馬遜開始訓(xùn)練Alexa如何更好理解用戶聽音樂的需求。Echo可以免費播放的在線音樂庫包括亞馬遜自己的音樂服務(wù)以及流媒體播放器Spotify。但能享受這項服務(wù)的用戶,必須是亞馬遜或者Spotify的付費會員。
技術(shù)與產(chǎn)品化是兩件事情。如果說在圍棋界打遍天下無敵手的AlphaGo證明了人工智能技術(shù)在一個垂直領(lǐng)域里的巨大能量,但AlphaGo的技術(shù)至少在目前與普通人的生活基本無關(guān)。而Alexa卻正好相反?!坝脩羰紫纫I一個有用的東西?!崩钶W認為,“Echo以一個音箱做入口,用戶會對智能語音助手降低心理門檻。而且家里這個環(huán)境很特別,相對安靜,用戶的指令也會相對集中在幾個領(lǐng)域里。”
亞馬遜從來沒有對外透露過Echo音箱的具體銷量。但Echo的一炮走紅,據(jù)說最初也超出了亞馬遜自己的預(yù)期。上市早期有員工曾對美國當(dāng)?shù)孛襟w透露,Echo在剛推出的兩周內(nèi)接受了超過100萬份預(yù)訂訂單。
中國的技術(shù)公司試水智能音箱領(lǐng)域,則大約是從2015年開始的。
2015年,京東與科大訊飛合資成立靈隆科技,第一款產(chǎn)品—叮咚音箱于當(dāng)年5月推出。同年年底,阿里巴巴與飛利浦聯(lián)合發(fā)布了小飛智能音箱。2016年冬天,小米則發(fā)布了一款互聯(lián)網(wǎng)音箱。這些產(chǎn)品的目標(biāo)一致,都想搶占“中國版Echo”的角色。
畢竟Amazon Echo那時也才剛剛推出不久,所以國內(nèi)的觀望者居多。但是經(jīng)過整個2016年的進一步孵化,特別是在亞馬遜在去年6月發(fā)布了Alexa軟件開發(fā)工具包之后,在2017春天的CES展上,雖然亞馬遜并沒有布設(shè)展臺,但是在很多智能交互的硬件設(shè)備中,都出現(xiàn)了Alexa的身影,反令亞馬遜成為最耀眼的技術(shù)公司。
展會主辦方美國消費技術(shù)協(xié)會(CTA)首席經(jīng)濟學(xué)家Shawn DuBravac表示:“配備了亞馬遜的Alexa語音助手的產(chǎn)品現(xiàn)在大約有1500種。未來4天內(nèi)如果有700多種(支持Alexa的)產(chǎn)品推出,我不會感到驚訝?!?/p>
看到Echo和Alexa所引發(fā)的這輪智能語音產(chǎn)品的繁榮,更多的中國的技術(shù)公司們在2017年迅速為智能音箱瘋狂起來。
2月,百度將對話式人工智能秘書—“度秘”的產(chǎn)品團隊升級為事業(yè)部,并且與家庭智能陪伴機器人—小魚在家合作推出視頻機器人。
有了Alexa的示范效應(yīng),“開放平臺”幾乎成了最近半年來智能音箱熱潮中最頻繁聽到的一個詞匯。
4月,主打語音識別的AI創(chuàng)業(yè)公司出門問問,發(fā)布了功能與Alexa相似的虛擬語音助理—“問問”,并向開發(fā)者和第三方硬件廠商全面開放。同時這家公司也宣布將在幾個月內(nèi)對外推出針對家居場景的智能音箱Tichome。
同月,騰訊推出名為“叮當(dāng)”的語音助手產(chǎn)品,其項目開發(fā)團隊隸屬于MIG(移動互聯(lián)網(wǎng)事業(yè)群)。有趣的是,僅僅一個月之后,隸屬于騰訊SNG(社交網(wǎng)絡(luò)事業(yè)群)的騰訊云團隊發(fā)布了智能語音解決方案—“小微”。
騰訊云表示,已經(jīng)與30余家合作伙伴接入了騰訊云小微。家庭智能服務(wù)型機器人公司優(yōu)必選基于其解決方案,發(fā)布了一款帶有智能語音交互功能的家庭人形機器人Qrobot Alpha。半年前,優(yōu)必選曾使用亞馬遜Alexa解決方案,發(fā)布過名為Lynx的人形機器人。這次與騰訊合作,則是看中了后者數(shù)億級的海量用戶資源。
6月,喜馬拉雅FM發(fā)布小雅智能音箱,語音技術(shù)方面與AI創(chuàng)業(yè)公司獵戶星空合作。7月初,據(jù)外媒報道稱,阿里巴巴也將在近期發(fā)布“會講中文的智能音箱”產(chǎn) 品。
一個公司不可能完成所有的事情,亞馬遜也需要借助平臺的力量來幫自己橫向擴展語音識別的領(lǐng)域。
亞馬遜人工智能服務(wù)部門在2016年發(fā)布智能助手開發(fā)工具Polly、Lex和Rekognition。前兩個工具的任務(wù)分別是負責(zé)語音轉(zhuǎn)換為文字和語義分析,它們正是Alexa的技術(shù)核心。
2015年開始,亞馬遜還為Alexa投入了1億美元成立Alexa Fund,至今共投資了23個公司,業(yè)務(wù)與Alexa相關(guān)或互補。換一個角度來看,很多創(chuàng)業(yè)公司也正是借助Alexa找到了創(chuàng)業(yè)靈感。隨著智能音箱的出現(xiàn),一部分原本賦予智能手機的重要功能會被剝離出來。相比于已經(jīng)非常擁擠的移動智能設(shè)備市場,這可能會是一個彎道超車的機會。
曾經(jīng)在蘋果地圖部門工作的華人工程師劉宿莽,2015年第一次使用Echo音箱時,馬上就感受到它的特別之處。此后他把當(dāng)時所能找到的所有關(guān)于Echo的用戶評論逐一閱讀了一遍。
“iPad之后,這么好的消費電子產(chǎn)品已經(jīng)很久沒有出現(xiàn)過了。雖然當(dāng)時用的人很少,網(wǎng)上的評論不到1萬條,很多人也會說有些地方不好用。但是出人意料的是,人們對一個語音助手不是抱著一種嘲笑的態(tài)度?!眲⑺廾дf,他相信Alexa會變成一個平臺級別的產(chǎn)品。
離開蘋果后,劉宿莽想去做一些項目,針對蘋果和Siri都還沒解決的問題,Alexa幫他鎖定了創(chuàng)業(yè)的具體方向。他和朋友在舊金山做了一家叫Mosaic的公司,獲得了來自真格的種子基金并入選了硅谷有名的創(chuàng)業(yè)孵化器Y Combinator的2016年夏季項目。后來,他們做了一件很有名的事情—用Alexa控制了一輛特斯拉。
最早,投資人并不太看好劉宿莽選擇亞馬遜的智能語音解決方案,認為它并不屬于這個領(lǐng)域的“大玩家”。2016年夏天,正是利用Alexa的軟件開發(fā)工具包,Mosaic通過Alexa發(fā)布指令,成功發(fā)動了一輛特斯拉,成為Alexa實現(xiàn)的“前20個技能之一”。此后,這家創(chuàng)業(yè)公司開始嘗試更多可以利用Alexa的使用場景,比如車載信息服務(wù)。
人工智能公司KITT,也是獲得Alexa Fund投資的公司之一。在Alexa之外,如果人們想用更有個性的喚醒詞來叫醒一個智能語音交互設(shè)備,對普通廠商來說技術(shù)難度大,亞馬遜更愿意做底層基礎(chǔ)通用技術(shù)。KITT聯(lián)合創(chuàng)始人姚旭晨對《第一財經(jīng)周刊》解釋說,KITT的業(yè)務(wù)就是幫助廠商來定制喚醒詞。
換句說話,現(xiàn)在用戶手里的這臺“智能語音管家”的名字可以不必叫“Alexa”,他們可以更換成任何自己喜歡的個性化名字。
KITT接待的廠商既有來自歐美的企業(yè),也有國內(nèi)企業(yè)。其中有些缺乏技術(shù)背景的廠商會問姚旭晨:“語音交互是不是給設(shè)備上增加一個麥克風(fēng)?”但他更多感受到的是前來談合作的廠商所懷有的一種“害怕”心態(tài)—他們害怕錯過下一個技術(shù)浪潮。
“以后麥克風(fēng)會無處不在,不管是在家里、車里還是手機上。這說明語音是一個很好的交互方式。眼下智能交互體驗的提升,還需要一些時間。做到那一天的時候,很多傳統(tǒng)的設(shè)計和交互方式會消失?!币π癯空f。
喜馬拉雅FM副總裁兼硬件事業(yè)部總經(jīng)理李海波對《第一財經(jīng)周刊》回憶說,兩年多以前,接入喜馬拉雅INSIDE開放平臺的音響產(chǎn)品只有幾家,一年后這個數(shù)字增長到50多家,到今年則已經(jīng)接近300家。
不少公司在研發(fā)自己的智能音箱產(chǎn)品之初,會想到去尋找亞馬遜Echo留下的技術(shù)或體驗空當(dāng)?;蛘?,通過結(jié)合之前已有的產(chǎn)品背景條件,盡量形成差異化、有自身特色的音箱功能。
比如從內(nèi)容起家的喜馬拉雅FM,據(jù)李海波表示,小雅智能音箱在公司內(nèi)部更多地是被定性為一個“實體播放器App”。它的智能化,首先是體現(xiàn)在“App上有多好玩多順暢,在音箱上的體驗也應(yīng)該一樣”。
這款音箱解決了用戶的斷點在家續(xù)播的需求,其次才是“全鏈接能力”—把端口開放,接入第三方服務(wù),就像Alexa可實現(xiàn)的那樣。
用李海波的話來講,這款智能音箱只不過“順便還是一個聰明可成長的系統(tǒng)”,但它并非主要能力。
國內(nèi)另一個家庭機器人Rokid的創(chuàng)始人祝明銘在不久前的一次小型發(fā)布會上對媒體記者們說了這樣一番話:“接下來的半年,找你們尋求報道的智能音箱、智能語音助手公司會非常多。但我確定,它們中的絕大部分人并沒有想清楚自己要做什么?!?/p>
創(chuàng)業(yè)之前,祝明銘曾是阿里巴巴負責(zé)人工智能技術(shù)應(yīng)用的部門—M工作室的創(chuàng)建者。Rokid于2014年成立,是中國最早做智能語音助手的創(chuàng)業(yè)公司之一,目前對外推出的幾款機器人產(chǎn)品,也都是以“家”作為應(yīng)用場景。
為一個普通音箱裝上一支麥克風(fēng),增加很簡單的幾項語音控制功能—這是祝明銘對目前很多沿襲Echo產(chǎn)品思路的智能音箱的評價。此外,他覺得中國的技術(shù)公司有點過于高估了Amazon Echo的表現(xiàn),因此才會盲目地選擇了類似亞馬遜的路線,一股腦地全都在做智能音箱。
“Amazon Echo近千萬的銷量很大程度是靠亞馬遜平臺流量的推動,”祝明銘對《第一財經(jīng)周刊》指出,“這幾年打開亞馬遜,首頁頭條常常被Echo占據(jù),這樣的推廣力度,沒有幾家公司可以做到?!?/p>
Rokid目前也在做智能音箱,但Rokid產(chǎn)品項目負責(zé)人向文杰解釋說,“我們更想做的是一個智能助手,而音箱是我們現(xiàn)在最好的落地點?!?/p>
亞馬遜的平臺雖然有超過1.2萬項技能,但是用戶目前最常用的功能,只集中在前10項左右。祝明銘認為,Echo這個入口還不具備像智能手機應(yīng)用商店那樣的能力,可以最終帶活整條長尾需求的能力。
祝明銘表示,Rokid的智能化方向是與Google Home劃在同一陣線。
2016的Google I/O開發(fā)者大會上曾播放了一段有關(guān)Google Home的宣傳視頻,其中演繹了一個四口之家從早上起床到出門的場景,家庭的每個成員都各自獨立地與Google Home對話、安排日程,而這個智能音箱也能夠識別不同人的聲音,并作出相應(yīng)的決策。
能服務(wù)于不同的家庭成員,對他們分別做數(shù)據(jù)分析,更精準(zhǔn)地迎合專屬于每個人的個性化需要—這里面應(yīng)用的,是一種在人工智能領(lǐng)域里被稱為“聲紋識別”的技術(shù),它使得機器能夠區(qū)分不同人下達的指令。此外,祝明銘認為Echo產(chǎn)品表現(xiàn)的“完成任務(wù)”的工具感較強,但是看不到與用戶“主動交流”的聊天能力。
但事實上,智能音箱界并不存在“向左走、向右走”的技術(shù)流派選擇問題。雖然Siri和Alexa目前看更像是“任務(wù)型”,而微軟小冰則屬于是“陪聊型”,但未來,這些語音入口會殊途同歸,綜合多種能力,讓它實現(xiàn)更聰明、更人性化的交互體驗。
前述受訪的那位Alexa的內(nèi)部人士也對《第一財經(jīng)周刊》證實,現(xiàn)在Alexa雖然做不到定制化服務(wù),只有用戶的Amazon賬號信息,無法做到多人語音識別,而設(shè)備與設(shè)備之間沒有對話或者實現(xiàn)信息同步,但“這些功能的確是我們正在努力的一個方向”。
“因為一開始我們是假設(shè)Alexa就存在一個Echo音箱里,現(xiàn)在銷量上去了之后,就會出現(xiàn)打通多個設(shè)備的需求。比如在辦公室里讓Alexa播放了一段視頻,回家想接著看,這種應(yīng)用場景?!边@位內(nèi)部人士透露,同步互聯(lián)功能正是亞馬遜Alexa想下一步盡快解決的問題。
今年5月,亞馬遜推出了一款帶7寸觸摸屏和一個500萬像素攝像頭的智能音箱—Echo Show,增加了視頻通話功能。當(dāng)然,它也馬上陷入到新的爭議—一款音箱增加觸屏是否屬于剛需。所以總體上,智能音箱類的產(chǎn)品在全球都還處在一個很早期的階段,眼下競爭才剛剛開始,亞馬遜的先發(fā)優(yōu)勢可能并沒那么強,現(xiàn)在入場的新公司也沒那么晚。
任何新產(chǎn)品或者新功能的出現(xiàn)都未必是定型之作,而只是長期進化歷程中的階段性成果,當(dāng)然,也可能是階段性走了彎路。
而回到中國市場,應(yīng)該看到,與美國人的家庭文化不同,絕大多數(shù)中國家庭并沒有高頻使用音箱播放音樂的習(xí)慣,大家更喜歡帶耳機聽歌,哪怕是一個人在家里也很少有人選擇打開喇叭聽音樂。這個市場可能需要更長的教育期。因此當(dāng)中國公司們將這個領(lǐng)域看作另一個風(fēng)口蜂擁而入時,市場飽和的速度肉眼可見。所以在祝明銘看來,國內(nèi)的智能音箱市場空間可能最多也就幾百萬臺。
“5萬臺是一個門檻?!弊C縻懺诮衲?月的記者會上講出這個數(shù)字。如果一款智能音箱能賣出5萬臺,就證明“在若干個產(chǎn)品里面至少有一臺是你的了”。