張曉潔
大公司爭奪入口,小公司找準(zhǔn)位置。從蘋果發(fā)布人機(jī)交互語音助手Siri開始,國內(nèi)創(chuàng)業(yè)者就已經(jīng)意識到,在語音這條產(chǎn)業(yè)鏈中找準(zhǔn)位置,完全有機(jī)會基于中國語音語言在Siri概念上面分得一杯羹。
要打通語音與應(yīng)用之間的聯(lián)系,首先要準(zhǔn)確地聽懂用戶的語言,了解他要表達(dá)的意思;其次,要在后臺調(diào)出相應(yīng)的生活類資源或者娛樂應(yīng)用,準(zhǔn)確給出應(yīng)用及數(shù)據(jù)結(jié)果,甚至是用戶相關(guān)的評價、評測和推薦等;在這兩方面都深入理解后,才能將其聚合起來,產(chǎn)生一種超智能的回答結(jié)果。另外,語音在不同的終端設(shè)備中呈現(xiàn)出的不同體驗(yàn),語音與圖像、體感等技術(shù)配合也讓硬件的升級變得更加精彩紛呈。
從這個角度看,語音能力提供商、語音應(yīng)用開發(fā)商、垂直應(yīng)用提供商和設(shè)備提供商,都可以圍繞語音逐漸形成一條清晰的產(chǎn)業(yè)鏈。而在這四個領(lǐng)域中,語音能力提供商將與微軟、谷歌和蘋果等大公司直接競爭,對于技術(shù)、人工智能、大數(shù)據(jù)處理和資源整合的能力要求都很高,對創(chuàng)業(yè)公司挑戰(zhàn)巨大,而另外三個領(lǐng)域則幾乎可以涵蓋移動互聯(lián)網(wǎng)的所有應(yīng)用。
科大訊飛:中文語音深度服務(wù)
今年3月,科大訊飛發(fā)布了新一代語音云平臺,其推出的官方示范應(yīng)用,就是類似于Siri中文版的訊飛語點(diǎn)。在沒有大規(guī)模的推廣下,訊飛語點(diǎn)依然取得了不錯的效果,“現(xiàn)在基于訊飛語音云的賬戶已經(jīng)有6000多個,上線的有幾百個應(yīng)用,覆蓋了娛樂、虛擬形象搜索等等各個領(lǐng)域都有一些很典型的應(yīng)用?!?科大副總經(jīng)理江濤解釋說。
與“蘋谷微”等國際巨頭在語音基礎(chǔ)技術(shù)上直接競爭,科大訊飛還是有些底氣的,而當(dāng)移動互聯(lián)網(wǎng)和人機(jī)交互概念風(fēng)靡,如何立足中文尋找與蘋果Siri競合的路線將是公司未來立足的根本。
“我們將致力于中文語音的深度服務(wù)”,江濤說,科大訊飛中文語音技術(shù)上面有著多年的沉淀,而中國的語言博大精深,在語音的識別率和語音處理上面,提高用戶體驗(yàn),永遠(yuǎn)有提升的空間。比如,同樣的普通話不同人的發(fā)音習(xí)慣不同也會發(fā)出不同的聲調(diào),如何建立語音模型掌握用戶的發(fā)音習(xí)慣,更準(zhǔn)確地理解用戶的話?更復(fù)雜的是中國幅員遼闊,不同地區(qū)都有自己的方言,建立四川、廣東、上海等不同地區(qū)方言的語言模型是科大訊飛未來的課題。如此復(fù)雜的語音基礎(chǔ)數(shù)據(jù)和模型都并不是一個創(chuàng)業(yè)公司能夠輕易完成的,因此科大訊飛的目標(biāo)也是對開發(fā)者開放語料和數(shù)據(jù),使其能在此基礎(chǔ)上進(jìn)行各種應(yīng)用開發(fā)。目前,包括盤古搜索、騰訊等國內(nèi)知名公司都在基于科大訊飛的語音平臺做開發(fā)。
江濤認(rèn)為,當(dāng)語音平臺整合了越來越多的資源,后面的商業(yè)模式也就順理成章。目前,語點(diǎn)的用戶輸入語音需求以后,語點(diǎn)將自動轉(zhuǎn)向最適合的應(yīng)用。雖然目前用戶活躍度還不夠,但是未來語音平臺完全可以通過導(dǎo)航獲得收入。
而語音更大的商業(yè)價值來自于開發(fā)者,科大訊飛提供的語音平臺為創(chuàng)業(yè)者開發(fā)語音特色的應(yīng)用提供了基礎(chǔ)。江濤非??春谜Z音游戲的開發(fā),比如人們喜歡在打牌時“一個王兩個二”的叫牌,完全可以通過IT技術(shù)在游戲打牌中表現(xiàn)出來。事實(shí)上,微信、唱吧等走紅應(yīng)用也是很好的語音應(yīng)用開發(fā)的例子。
中微通:語音的下一站是語義
中微通嚴(yán)格地說并不是語音技術(shù)提供商,其所經(jīng)營的“語義云”卻正好在語音的下一站,幫助機(jī)器準(zhǔn)確理解用戶語音的意思。具體而言,不管用戶以任何方式提問,中微通都努力通過“自然語言處理及語義云解析引擎”轉(zhuǎn)化成數(shù)據(jù)進(jìn)行解釋,幫助機(jī)器配對精準(zhǔn)的答案。不過,語音業(yè)內(nèi)已經(jīng)達(dá)成這樣共識,“未來語音遠(yuǎn)遠(yuǎn)不是識別的問題,而是語音的理解,識別不是目的,需要更多創(chuàng)新”,因此,語義與語音掛鉤來說絕非偶然而是必然。
“我們是語義內(nèi)容服務(wù)的提供商,不僅提供語義內(nèi)容,還有對內(nèi)容進(jìn)行語義處理和改造服務(wù),以及語音語義產(chǎn)業(yè)鏈上面延伸出來的應(yīng)用化服務(wù)?!?北京中微通信息技術(shù)有限公司創(chuàng)始人兼總裁苑雪山告訴記者,他所理解的Siri有三個層次,最基礎(chǔ)的層次是語音處理,把語音轉(zhuǎn)化為文字,第二個層次是語義的操作和控制,即把用轉(zhuǎn)化后的文字去調(diào)用相應(yīng)的應(yīng)用,第三個層面是語義數(shù)據(jù)業(yè)務(wù)的融合,后面兩個層面都是與中微通現(xiàn)在的業(yè)務(wù)直接相關(guān)的。
與語音行業(yè)掛鉤,并非是苑雪山最初的計劃。2006年,苑雪山就利用北航學(xué)生會的資源組織了一些碩士博士共同籌建科研項(xiàng)目,當(dāng)時設(shè)定方向時,只是覺得未來的移動互聯(lián)網(wǎng)應(yīng)該是具有更高的智能,用戶應(yīng)該更容易地解決自己的問題。于是,幾個伙伴用業(yè)余時間進(jìn)行攻關(guān),經(jīng)過五六年的時間進(jìn)行梳理,技術(shù)開始成熟后在2010年成立了創(chuàng)業(yè)公司。此時,語音語義改造已經(jīng)成為IBM、蘋果、微軟等大公司關(guān)注的熱點(diǎn),中微通在這個產(chǎn)業(yè)鏈上找到自己的位置,并獲得了風(fēng)險投資的認(rèn)可。
在苑雪山的設(shè)計中,用戶可以通過文本、語音、體感動作輸入信息,中微通的引擎對字符串進(jìn)行解釋,變成數(shù)據(jù)之間的交換,之后通過規(guī)則與引擎中的本體進(jìn)行關(guān)聯(lián),理解出用戶所表達(dá)的意思。以語音為例,用戶用語音提問“我想在附近吃飯?”引擎對聲波進(jìn)行切分,在后臺與不同類別的的詞進(jìn)行聚合關(guān)系結(jié)構(gòu),分析出用戶的表達(dá)在附件找餐館的意思,調(diào)出相應(yīng)的應(yīng)用或者直接給出答案。理想的狀態(tài)下,未來人類與機(jī)器進(jìn)行對話,不再是生硬的而是和人對話一樣,表達(dá)自然而豐富。
苑雪山與中微通在Siri產(chǎn)業(yè)鏈上的定位和嘗試頗具典型性?,F(xiàn)在對于大多數(shù)用戶來說語音助理只是一個供“調(diào)戲”的大玩具。Siri之所以給人的印象“趣味”遠(yuǎn)遠(yuǎn)多于“實(shí)用”。探究其主要原因,除了語音識別率和無線網(wǎng)絡(luò)環(huán)境的不成熟,語音和應(yīng)用整合的不夠多,語義理解相差甚遠(yuǎn)都大大降低了用戶體驗(yàn)。而目前中文自然語音分詞是業(yè)內(nèi)最前沿的技術(shù),與國內(nèi)少數(shù)同類企業(yè)相比,苑雪山果斷地加強(qiáng)在應(yīng)用層面的優(yōu)勢,對企業(yè)進(jìn)行語義化改造的項(xiàng)目,以及面對個人用戶應(yīng)用服務(wù)。
目前,中微通承接了電信天翼空間的應(yīng)用下載的語義化改造項(xiàng)目,用戶只要輸入游戲的描述而不是游戲的名稱就可以查找到相關(guān)的游戲。比如,用戶只要輸入小鳥或者小豬類的游戲,就可以找到《憤怒的小鳥》或者《壞豬的逆襲》這樣的游戲,而輸入最近女生喜歡玩的泡泡類游戲,系統(tǒng)就會自動把排名相應(yīng)高的相關(guān)游戲列出來。不僅如此,中微通還為個人用戶提供交易信息的撮合服務(wù),比如,用戶對著手機(jī)輸入“我要找某某附近的小時工”,系統(tǒng)就會自動篩選出3條信息發(fā)送到用戶手機(jī)上。
中微通現(xiàn)在的服務(wù)仍然以文本為主,這也是語音輸入的準(zhǔn)確度不成熟和用戶習(xí)慣并未養(yǎng)成所致,但未來語音語義的理解體驗(yàn)一定會成為用戶選擇服務(wù)的標(biāo)準(zhǔn)。事實(shí)上,如果語音的抗噪性和語義理解足夠令人滿意,那么龐大的呼叫中心將會被自動語音系統(tǒng)所取代,這對于金融、航空、電信等行業(yè)絕對是巨大的需求。