田亮
2015年12月21日下午,《環(huán)球人物》記者一走進北京國家會議中心,就聽到林志玲的聲音:“AI(人工智能)復(fù)始,萬物更新,科大訊飛發(fā)布會馬上就要開始,請將手機調(diào)至靜音……”記者心想:“難道林志玲也來參加發(fā)布會了?不對呀,她來了也不會干這個活啊!”再仔細一聽,聲音原來是由科大訊飛公司合成的,幾乎真假難辨。
好戲還在后頭。此次發(fā)布會的重頭產(chǎn)品——“訊飛DingDong音箱”當(dāng)天的表現(xiàn)堪稱驚艷。一位工作人員通過它預(yù)訂了一張北京到合肥最便宜的機票,跟它進行了10余輪對話,“訊飛DingDong音箱”都從容應(yīng)對,還能識別“剛才”等語境語詞。訂完機票,工作人員還通過直接與“訊飛DingDong音箱”說話,就打開了加濕器和空調(diào)。經(jīng)過幾分鐘的交流,它記住了工作人員的聲音,兩個陌生人成了“朋友”。
在這次發(fā)布會上,科大訊飛董事長劉慶峰以人工智能60周年切入,興奮地說:“中國人在人工智能上缺席了60年,從今往后,中國的人工智能水平將引領(lǐng)世界!”他告訴《環(huán)球人物》記者說:“2015年7月10日,我在向李克強總理做匯報時說,未來的創(chuàng)新創(chuàng)業(yè),中國如果不能抓住人工智能的產(chǎn)業(yè)主導(dǎo)權(quán),又將像原來一樣給全世界打工,處于價值鏈的低端。掌握了人工智能產(chǎn)業(yè)的主導(dǎo)權(quán),我們就有全球話語權(quán)?!眲c峰接受《環(huán)球人物》記者采訪時說。
機器的普通話水平可比一般人高
科大訊飛是亞太地區(qū)最大的語音與人工智能上市公司,在語音合成、語音識別和自然語言理解技術(shù)等方面居于全球領(lǐng)先位置,人臉識別技術(shù)更是超過美國聯(lián)邦調(diào)查局。可這家企業(yè)從創(chuàng)辦到成為上市公司,不過16年時間。
1990年,劉慶峰在中國科技大學(xué)(以下稱科大)讀書時,就一心想出國深造,但老師王仁華改變了他的想法。“王仁華是科大第一個讓本科生在實驗室搞研究的,我就是其中之一?!眲c峰說,“我一看,實驗室里太有意思了,機器居然能說話!我就在實驗室里搞起科研?!?/p>
大四時,王老師拿來一款日本人設(shè)計的軟件,運算能力很低。他想讓劉慶峰把它的效率提高一倍。劉慶峰用一個月時間把它的運算速度提高了10倍。王老師說:“你干脆用它做一個語音合成器?!眲c峰本來準備跟師兄們做一套語音合成系統(tǒng),參加國家的比賽。王老師看到劉慶峰的實力后,又讓他自己做了一套系統(tǒng),這樣科大以兩套系統(tǒng)參賽。賽后,評委們對劉慶峰的作品感到很驚訝。
當(dāng)時,語音合成有兩種方法:一是把每個音節(jié)拼到一起,音質(zhì)好,但計算機讀出來顯得很頓、很不自然;二是模擬人發(fā)音的生理過程,把氣流、聲帶等設(shè)計成各種參數(shù),聽起來就很流暢,但音質(zhì)不高,吐字不清。劉慶峰把這兩種方法結(jié)合起來,引起很大的轟動。1998年,他在業(yè)界率先讓計算機語音合成水平達到3分,在國際上拿了不少獎?!安ヒ魡T水平是5分,普通人說話水平是4分?!蹦壳埃炎寵C器的英語口語水平達到4.2分,“美國的MIT能拿3.6分,我們是全世界唯一超過4分、比普通人念得好的”。
1999年,劉慶峰讀博士時創(chuàng)辦了科大訊飛,“當(dāng)時就有信心做到世界第一”。但他很快發(fā)現(xiàn),在市場上取得突破要比技術(shù)上更難。最早,他率領(lǐng)團隊開發(fā)了一套面向大眾的桌面語音軟件,但“當(dāng)時盜版太嚴重,肯花幾百塊錢買軟件的都是領(lǐng)導(dǎo)干部,他們又不會用電腦,甚至沒開顯示屏就打來電話說軟件有問題”。再加上沒有更好的銷售渠道,又不敢做廣告,這款產(chǎn)品“完全失敗”了。
后來,劉慶峰轉(zhuǎn)為做行業(yè)產(chǎn)品。那時,168電話查詢平臺全靠播放錄音,解決不了海量和動態(tài)信息,劉慶峰就通過使用語音合成打動了對方,但要掏錢時對方就不買了。對方說:“你們幾個小屁孩在一起搞了個小公司,我們怎么敢花幾百萬買你們的產(chǎn)品?我們情愿買華為、中興的,即使他們的產(chǎn)品沒有語音合成功能也無所謂。”
最后,劉慶峰通過把技術(shù)賣給華為這樣的公司才總算開始贏利?!跋瘛甶ntel inside那樣,我們強調(diào)‘iFLYTEK inside(內(nèi)置訊飛科技)理念,逐漸有一批行業(yè)內(nèi)的伙伴認識到我們的價值。2000年年底,我們發(fā)展了50多個客戶?!?008年,科大訊飛上市。就像在技術(shù)上的創(chuàng)新一樣,劉慶峰在市場上的創(chuàng)新還有很多。近年來,科大訊飛的營業(yè)收入仍然保持著40%—60%的高增長率。
從能聽會說到能理解會思考
《環(huán)球人物》:語音識別與人工智能是怎樣的關(guān)系?
劉慶峰:語音是人工智能最重要的切入點,它是人機交互的入口,不是一個簡單的錄入、合成,而是遠場識別、噪音識別、多輪交互、Always On(隨時都在聽候指令)。今天手機中的軟件,必須點一下,它才能工作。而像“叮咚音箱”這樣的設(shè)備,無需點擊按鈕,直接告訴它干什么即可。
比如,我說“給老爸打個電話”,設(shè)備會問“老爸電話是多少”,我告訴它老爸的電話,它就能記住,下次就不用再問了。再比如,你說“我想聽劉德華的歌”,設(shè)備第一次可能會問你喜歡什么類型的,你告訴它,它就能自動幫你選出來,聽過多次劉德華的歌之后,它就可以根據(jù)你說話的語氣、語境自行判斷出你想聽哪首歌,會慢慢變得比你更懂你。
《環(huán)球人物》:以語音為入口,需要一個安靜的環(huán)境,但這個環(huán)境并不容易獲得。
劉慶峰:我們可以進行噪音識別,比如在汽車環(huán)境下,在高噪音環(huán)境下,讓語音識別達到實用門檻,我們在業(yè)界已率先獲得突破。2015年4月,寶馬汽車做了車載語音識別水平測試,我們是86%的準確率,美國Nuance取得第二名,準確率只有74%,而實用門檻是85%。
位于安徽合肥的科大訊飛公司總部。
《環(huán)球人物》:移動互聯(lián)網(wǎng)之后,人工智能是否將挑起下一個時代的大梁?
劉慶峰:人工智能的時代已經(jīng)到來。IT產(chǎn)業(yè)發(fā)展過程中經(jīng)歷了5次浪潮,計算機面市是第一次,小型機是第二次,PC是第三次,互聯(lián)網(wǎng)是第四次,移動互聯(lián)網(wǎng)是第五次。下一個風(fēng)口就是萬物互聯(lián),以智能家居、穿戴式設(shè)備、車載電子等為代表。如果設(shè)備離你比較遠,你沒辦法用手、鍵盤操控,或者在走路或開車等移動情況下使用設(shè)備,就必須要用語音來操控。所以,我覺得語音為主、觸摸與鍵盤為輔的人機交互時代正在向我們走來。
我們現(xiàn)在正努力使人工智能設(shè)備從能聽會說向能理解會思考轉(zhuǎn)變。如果機器設(shè)備不能理解、思考是沒法交互的。我們平時用百度搜索,結(jié)果可能有千百條,那是因為有屏幕。在萬物互聯(lián)時代,如果用語音交互的話,一條一條報給你聽,你可能聽到第八個就崩潰了,所以設(shè)備必須能準確理解,多輪交互。
人工智能的三個階段
《環(huán)球人物》:很多人了解人工智能是從美國大片開始,像“鋼鐵俠”這樣的能力,現(xiàn)在能否實現(xiàn)?
劉慶峰:現(xiàn)在我們把人工智能發(fā)展分為3個階段,第一階段是計算智能,就像IBM的“深藍”電腦能贏國際象棋大師,那是因為它的計算能力強,把所有可能性都算一篇,所以計算智能階段,機器已經(jīng)超過人了。第二階段是感知智能,像人有視覺系統(tǒng),機器可以有紅外、紫外系統(tǒng);人有聽覺系統(tǒng),機器有超聲和次聲系統(tǒng),人的正常聽覺范圍是50到3400赫茲,而這個范圍以外的聲音機器也能聽見?,F(xiàn)在的很多領(lǐng)域,機器的感知智能已經(jīng)超過人了。第三階段是認知智能,現(xiàn)在還面臨巨大的挑戰(zhàn)。像“鋼鐵俠”這樣的機器人,現(xiàn)實中其軀體部分已經(jīng)做得越來越接近人了,關(guān)鍵是大腦,還面臨挑戰(zhàn)。
《環(huán)球人物》:怎么判斷、比較機器的智能化水平?
劉慶峰:現(xiàn)在有兩種測試。一種是圖靈測試:人和機器都躺在你后面,你們聊天,你的問題有的機器回答,有的人回答,你判斷回答你問題的是機器還是人,如果機器的回答讓你認為它是個人,它就通過圖靈測試了。
隨著人工智能的發(fā)展,現(xiàn)在人們提得更多的評價方法是機器能否通過高考。美國華盛頓大學(xué)圖靈中心提出讓機器人通過美國的生物學(xué)科入學(xué)考試。日本的目標(biāo)是由國立情報研究所提出來的,準備讓機器人在2021年考上亞洲排名第一的東京大學(xué)。在我們中國,2014年啟動了人工智能的一個標(biāo)志性項目——科技部首個人工智能重大切入項目,科大訊飛為總牽頭單位,目標(biāo)是三到五年內(nèi),機器人能考上一本。機器考及格很容易,因為它可能只憑借記憶就能實現(xiàn);考上三本就很難了,需要比一般的學(xué)生強;要考上一本,意味著要超過80%的考生,這就要靠很強的邏輯推理。
《環(huán)球人物》:現(xiàn)實生活中,人工智能有哪些較為成熟的應(yīng)用?
劉慶峰:2015年7月,我們在安徽的合肥和安慶做初三學(xué)生學(xué)業(yè)水平測試,英語和語文作文,先是老師打分,然后機器打分,把有差距的挑出來,由人工專家組來評,到底哪個打得準。結(jié)果80%以上的情況是機器比人準,引起業(yè)界非常大的轟動。日本高考機器人項目組長2015年7月20日到科大訊飛參觀,感到很震驚,回去就寫文章說,中國的人工智能水平已經(jīng)超過了日本。
下一步在醫(yī)療領(lǐng)域,人工智能可以解決全科醫(yī)生奇缺的問題,它可以像幫助學(xué)生學(xué)習(xí)一樣,學(xué)習(xí)過各種病歷,然后幫助醫(yī)生進行分析。我們正在合肥做驗證,國家衛(wèi)計委也非常關(guān)心。人工智能可以在非常多的領(lǐng)域代替或輔助人工,將來會深刻改變整個社會。
人物簡介:
劉慶峰,1973年生,安徽涇縣人,畢業(yè)于中國科技大學(xué)。1999年創(chuàng)辦科大訊飛公司,現(xiàn)任董事長,2013年當(dāng)選CCTV中國經(jīng)濟年度人物。