伊珊
云知聲的創(chuàng)始人都是語音識別領(lǐng)域江湖元老級的人物,他們見證了這個行業(yè)的起起伏伏。2012年,幾位“老江湖”放棄了大公司的高薪厚職,走上了充滿不確定性的創(chuàng)業(yè)之路。
強大的技術(shù)背景加上先發(fā)優(yōu)勢,云知聲自成立起就備受關(guān)注,目前已累積融資近億美元,去年已實現(xiàn)營收數(shù)千萬元人民幣。創(chuàng)業(yè)四年,云知聲進行了哪些探索?在人工智能越來越火爆的今天,語音識別這一領(lǐng)域究竟有多大的想象力?
被Siri攪動的寂寞江湖
要了解云知聲的故事,先要從語音識別二十年來的發(fā)展歷程講起。在很長的一段時間里,語音識別都是一個寂寞的領(lǐng)域,人們認為那是只存在于實驗室的高精尖技術(shù),與現(xiàn)實生活聯(lián)系不多。
這個行業(yè)也曾在上世紀90年代末期迎來短暫的繁榮:
1997年,藍色巨人IBM推出可安裝在PC機上的語音識別軟件via voice;
同年,美國公司Nuance發(fā)布了連續(xù)聽寫產(chǎn)品Dragon NaturallySpeaking,奠定了Nuance公司在此領(lǐng)域的巨頭地位;
2000年前后,摩托羅拉等知名手機廠商發(fā)布了帶有語音撥號功能的高端機。
然而,語音識別技術(shù)一直作為一個附加功能出現(xiàn),應(yīng)用場景和應(yīng)用領(lǐng)域都非常有限,產(chǎn)業(yè)化更是遙遙無期。
2008年前后,云技術(shù)和大數(shù)據(jù)的出現(xiàn)攪動了沉寂許久的語音識別江湖。云的存在,使得技術(shù)人員可以用幾乎無限的計算資源,從而服務(wù)器端可以用很大的集群、最牛的算法、最復(fù)雜的手段來把性能提上去。當(dāng)數(shù)據(jù)不斷地訓(xùn)練引擎的時候,系統(tǒng)可以被訓(xùn)練得很好。“以前做語音識別產(chǎn)品,每個語言版本的容量只有100個小時,而現(xiàn)在我們云知聲的平臺上每天的日調(diào)用量在1.5億~2億次,這在過去是不可想象的?!崩钕龊f道。
2007年,蘋果推出siri,識別率可以達到99%。技術(shù)的提高使語音識別的功能迅速普及,谷歌當(dāng)時做了一個統(tǒng)計,有25%的用戶習(xí)慣用語音功能進行搜索,在中國,這個數(shù)字是10%。
技術(shù)的突破使得識別率大大提高,而智能手機的興起又催生出更多的需求場景。無論從需求端還是技術(shù)端來看,都為語音識別的爆發(fā)做好了準(zhǔn)備。置身語音識別領(lǐng)域多年,云知聲創(chuàng)始人們都敏銳地察覺到,語音識別的時代來了。2012年6月29日,云知聲科技公司正式成立。他們并沒有一個龐大的商業(yè)計劃,盈利方式也并不清晰,只是堅信自己的兩點判斷:
第一,語音是未來人機交互的基礎(chǔ),在互聯(lián)網(wǎng)領(lǐng)域、移動互聯(lián)網(wǎng)領(lǐng)域,以及此后的物聯(lián)網(wǎng)領(lǐng)域至關(guān)重要。
第二,“云”技術(shù)會產(chǎn)生巨大的價值。因此他們沒有像以前的語音公司那樣先做語音技術(shù),而是從一開始就致力于語音云的研發(fā)。
2012年10月,云知聲拿到了千萬元的天使輪融資。
公司成立前兩年,一直以技術(shù)研發(fā)為主。他們選擇從語音交互和云入手,并在2012年9月,推出了語音公共云,這是第一家永久免費的語音云。
同年11月,云知聲與搜狗語音助手合作,這一項目為云知聲的公共云帶來了巨大的用戶量,技術(shù)團隊基于這些數(shù)據(jù)進行迭代,很快使語音云識別的性能有了一個巨大的飛躍。
不斷探索,確定四個垂直領(lǐng)域
云知聲成立之初,市場上做語音識別的創(chuàng)業(yè)公司并不多,基于云端的語音識別只有科大訊飛和云知聲兩家,是明顯的賣方市場。對于云知聲來說,這卻是一個喜憂參半的事情,他們可以在市場上爭取到不錯的議價權(quán),同時也要面對一個困惑:面對來自各行各業(yè)的需求方,他們分不清哪些需求是剛需,哪些是偽需求。公司成立前兩年,云知聲開始不斷探索和嘗試。
字幕轉(zhuǎn)寫、手機App應(yīng)用、輸入法應(yīng)用、智能電視應(yīng)用、車載、音箱、手表……他們幾乎嘗試了可以接觸到的每一個行業(yè)。經(jīng)過一段時間的摸索,最終確定了四個適合語音識別技術(shù)的垂直領(lǐng)域:
第一,教育市場。最典型的應(yīng)用場景是口語評測,未來的口語考試中,或許為你打分的是一個人工智能機器人。
第二,車載后裝市場。從公司成立之初,云知聲一直看好車載市場,并堅持認為安卓系統(tǒng)將是更大的市場。2014年,安卓系統(tǒng)在車載后裝市場的占有率約為5%,云知聲開發(fā)了“車載Siri”。到今年,安卓設(shè)備比例已經(jīng)達到了90%。
第三,醫(yī)療市場。這一領(lǐng)域在國外已經(jīng)有成熟的業(yè)務(wù)模式及產(chǎn)品。語音江湖老大Nuance有接近一半的收入來自醫(yī)療產(chǎn)業(yè)。語音識別技術(shù)可以幫助醫(yī)生做病歷錄入,大大節(jié)省了人力。今年,云知聲與協(xié)和醫(yī)院展開合作,協(xié)和成為國內(nèi)第一家全院語音識別病歷的醫(yī)院。
第四,智能家居。家電智能化已成必然趨勢,超級電視,空調(diào)等的智能化改造都需要語音識別技術(shù)。在這一領(lǐng)域,云知聲第一個落地的項目是華帝油煙機,用戶在做飯時,不需要騰出雙手,可以用語音對油煙機進行操控。這一項目的難點在于如何降噪,云知聲使用了降噪芯片加上特有的語音算法,完美地解決了這個問題。
云、端、芯產(chǎn)品體系
2014年,云知聲提出AI芯、AIUI(智能交互)、AIService(智能云服務(wù))的概念。云、端、芯三者結(jié)合,打造成為一個完整的產(chǎn)業(yè)閉環(huán)。
第一個層次是芯片側(cè),叫作AI芯。李霄寒解釋道:“今后人們的生活中,芯片將無處不在,包括燈、插座等很多東西都是自帶芯片,可以聯(lián)網(wǎng)的。而每個家電廠商的平臺、操作系統(tǒng)、硬件的核都是不一樣的。我們現(xiàn)在做一個AI芯,直接把芯片嵌進去,通過芯片來將我們的技術(shù)應(yīng)用在服務(wù)中。
李霄寒所說的AI芯片,可以理解為一個硬件Siri,它像一個翻譯,把人們的指令傳達給硬件。假設(shè)我們對空調(diào)發(fā)出“氣溫調(diào)到26度”的指令,AI芯就會給空調(diào)發(fā)指令。如今,云知聲已經(jīng)與一線芯片廠商高通等達成合作。
第二層次是軟件側(cè),叫作AIUI,這是指一整套的交互、對話、SDK邏輯。
第三個層次是端口,叫作AIService。語音識別是把語音變成了文字本身,把人們說的話變成了打印體。人工智能還要根據(jù)數(shù)據(jù)場景分析真實的意思,即語用計算。談到這里,李霄寒舉了一個生動的例子:比如“我的信用卡被貓吃了”這句話,如果語境是移動營業(yè)廳,營業(yè)員會告訴你換張卡;如果語境是寵物店,寵物醫(yī)生會告訴你如何讓貓把卡吐出來。根據(jù)不同的數(shù)據(jù)場景,人工智能會分析出話語不同的含義。
AI芯、AIUI和AIService三大解決方案構(gòu)成了一個完整的生態(tài)閉環(huán)。
強大的技術(shù)背景加上先發(fā)優(yōu)勢,云知聲自成立起就是資本追逐的寵兒。2013年,他們完成了億元級A輪融資,2014年12月啟動了5000萬美元B輪融資,不到一個月后又啟動了B+輪數(shù)千萬美元的融 資。
目前云知聲的合作伙伴超過兩萬家,其中不乏樂視 TV、小米、聯(lián)想、華為等一線企業(yè)。據(jù)悉,云知聲去年已實現(xiàn)營收數(shù)千萬人民幣,而繼續(xù)融資是想要在物聯(lián)網(wǎng)布更大的局。
談到公司的核心優(yōu)勢,李霄寒認為,技術(shù)的門檻永遠不會很高,真正的門檻在于行業(yè)經(jīng)驗。“只有在市場上積累了足夠的經(jīng)驗,才能迅速判斷出哪些領(lǐng)域可以做,哪些領(lǐng)域不能做,哪些地方是需要花力氣去攻克的?!?/p>
語音江湖群雄紛爭,云知聲將如何在人工智能的浪潮中大展拳腳,我們拭目以待。