李芳
也許首個(gè)可以在計(jì)算機(jī)視覺領(lǐng)域與國際巨頭全面抗衡的本土企業(yè)正在崛起
谷歌的AlphaGo又一次成功將人們的目光吸引到人工智能處。若干年之后,它的名字將會(huì)和深藍(lán)、Watson、Siri、小冰一同出現(xiàn)在人與機(jī)器“相愛相殺”的紀(jì)念冊上。
有意思的是,在人工智能與人類的數(shù)次“過招”中,你方唱罷我登場的都是Google、IBM、微軟、Facebook等這樣的大公司,卻鮮見創(chuàng)業(yè)者的身影。其中一個(gè)重要的原因就是,巨頭們將尚未成熟的人工智能市場看作是下一個(gè)風(fēng)口而爭相搶奪,順勢也將不少創(chuàng)業(yè)公司收入囊中。AlphaGo的研發(fā)團(tuán)隊(duì)DeepMind即是這樣被谷歌收購的。
但這并不意味著壟斷,因?yàn)槟徊紕倓偫_。當(dāng)我們談?wù)撊斯ぶ悄艿臅r(shí)候,我們其實(shí)是在談?wù)撘粋€(gè)無比龐大且復(fù)雜的技術(shù)體系,和一種亞文化形態(tài)。其中的每一個(gè)分支領(lǐng)域,都有可能再度孕育出可與科技巨頭們媲美的后起之秀。SenseTime(商湯科技)就是這樣一家專注于計(jì)算機(jī)視覺和深度學(xué)習(xí)原創(chuàng)技術(shù)的挑戰(zhàn)者。通過賦予計(jì)算機(jī)視覺感知和認(rèn)知的能力,SenseTime能夠讓計(jì)算機(jī)能像人一樣獲取、分析、理解各種視覺信息,并與自然界進(jìn)行交互。
這家剛剛成立兩年左右的創(chuàng)業(yè)公司,不僅在多個(gè)國際級競賽中成績斐然,還超越谷歌突破互聯(lián)網(wǎng)物體檢測的世界紀(jì)錄,躍居世界第一。作為公司的CEO,徐立并不掩飾SenseTime未來發(fā)展的雄心,“在人工智能領(lǐng)域要做就做第一”。
知人識(shí)物“黑科技”
顧名思義,“計(jì)算機(jī)視覺”就是研究計(jì)算機(jī)如何才能像人眼一樣看見東西。從廣義上講,它從屬于人工智能的技術(shù)體系之下。我們通常說到的“人工智能”,其終極目標(biāo)就是要讓計(jì)算機(jī)在各方面都像人一樣,如聽覺、視覺、觸覺、甚至思維方式等等。
如果計(jì)算機(jī)擁有和人類一樣、甚至超越人類的視覺能力,對于人工智能的發(fā)展而言意義非凡。基于此,SenseTime的團(tuán)隊(duì)希望教會(huì)計(jì)算機(jī)看懂這個(gè)世界。有意思的是,他們首先把這項(xiàng)“黑科技”應(yīng)用在了自己人身上。
和所有低調(diào)的科技創(chuàng)業(yè)公司一樣,SenseTime的辦公室座落在清華科技園一座非常普通的大廈里。但是一進(jìn)門,你立刻就會(huì)感受到與眾不同之處,因?yàn)槌洚?dāng)watch dog并記錄考勤的是一個(gè)裝有攝像頭的大屏幕。當(dāng)有人走進(jìn)這臺(tái)“神器”的“視線”里,他的臉就會(huì)顯示在屏幕上,并被機(jī)器識(shí)別到這個(gè)人是否為公司員工。當(dāng)大家還在憂心于“不帶工卡影響考勤”時(shí),SenseTime的員工已經(jīng)過上了如今流行的靠“刷臉”生活的日子。
這只是剛剛開始。在辦公室的休息區(qū),還佇立著另一臺(tái)“神器”。一旦有人站到它面前,它就會(huì)以迅雷不及掩耳之勢識(shí)別到人臉(目測不到1秒的時(shí)間),并計(jì)算出對方的“顏值”,還包括性別、情緒指數(shù)、年齡以及是否戴眼鏡等面部特征。最后,頑皮的它還會(huì)根據(jù)這些指數(shù)計(jì)算一個(gè)“今日魅力排名”,并給出一個(gè)給與此人最相似的明星人臉。
例如,當(dāng)《時(shí)間線》記者站在這臺(tái)神器面前時(shí),它給出了“魅力值77”“歡樂值91”“(情緒)開心”“(戴)眼鏡”“(年齡)27”等基本準(zhǔn)確的指數(shù)。最終,記者得到“今日魅力排名No.6”,“帥過78%的用戶”的數(shù)據(jù),同時(shí)最相似的明星人臉是霍建華。此刻我的內(nèi)心OS是“Hmmm……not bad”。
作為一臺(tái)機(jī)器,它似乎“知道”如何引起人們的關(guān)注,也喜歡人們對它進(jìn)行“挑逗”—這大概就是SenseTime教給計(jì)算機(jī)的“知人”技能。
人工智能與人類之間最理想的關(guān)系莫過于積極互動(dòng),這種互動(dòng)要么給人帶來情緒上的波動(dòng),要么就切實(shí)幫助人完成某項(xiàng)工作。當(dāng)它發(fā)揮前者的作用時(shí),其角色應(yīng)該是陪伴型機(jī)器人,盡管偶有失誤,也會(huì)因此顯得更加“人性化”,而不是拒人于千里之外的精確和冷淡。
如果說“刷臉上班”和“顏值比拼”的意義更多地是給人帶來樂趣和便利之外,那么SenseTime辦公區(qū)的第三臺(tái)“神器”真正是為幫助人類而設(shè)計(jì)的。這臺(tái)神器的主要構(gòu)成是計(jì)算機(jī)和特制的外接攝像頭,后者負(fù)責(zé)精準(zhǔn)捕捉并識(shí)別多種姿勢的人臉,然后進(jìn)行連續(xù)拍照,前者負(fù)責(zé)負(fù)責(zé)對這些照片進(jìn)行大數(shù)據(jù)分析,二者配合可以在安防領(lǐng)域大有作為。
當(dāng)記者看到自己不同姿態(tài)下的面部特征被它敏銳地捕捉到并顯示在大屏幕上時(shí),瞬間有種穿越到美劇《疑犯追蹤》劇中的緊張感。人只有一雙眼睛,無法360度看到自己的全部外表,此時(shí)計(jì)算機(jī)就像“上帝之眼”一樣,它以自己無所不見的“超能力”啟發(fā)著人類,它能看到人眼無法觸及之處。
再次環(huán)顧四周,整個(gè)辦公區(qū)里平靜如常,但對于體驗(yàn)了三臺(tái)可以知人識(shí)物的神器之后的記者而言,計(jì)算機(jī)之眼無處不在,平靜之下有人工智能的洶涌暗流。
最強(qiáng)算法 強(qiáng)強(qiáng)聯(lián)手
計(jì)算機(jī)怎樣才算看懂世界?目前在人工智能領(lǐng)域,計(jì)算機(jī)視覺是一個(gè)公認(rèn)的亟待解決的難題。由于在公共安全、移動(dòng)互聯(lián)網(wǎng)和娛樂領(lǐng)域等領(lǐng)域擁有巨大的潛力,因而該技術(shù)的發(fā)展水平也成為檢驗(yàn)人工智能是否成熟的重要標(biāo)準(zhǔn)。
去年,谷歌曬出一組詭異的圖片引起了人們的好奇。這組圖片上的圖像看起來好像來自外星球,實(shí)際上這就是人工智能眼里看到的人類世界。人們在覺得不可思議的同時(shí),也很好地科普了一個(gè)真相:教計(jì)算機(jī)看懂人類世界并不是一件容易的事。如果計(jì)算機(jī)能看懂人類世界,就好比盲人的雙眼復(fù)明,會(huì)整個(gè)提升人工智能技術(shù)的水平的等級。
正是由于這個(gè)原因,如今致力于人工智能的公司們都在手把手地教計(jì)算機(jī)“睜眼”。在這個(gè)領(lǐng)域,谷歌、Facebook這樣的巨頭也并不會(huì)天然就能勝出。身為創(chuàng)業(yè)公司的SenseTime卻勢如破竹,在2014年和2015年間頻繁與巨頭們同臺(tái)競技,在技術(shù)上獲得多次世界性的突破,留下堪比牧羊人大衛(wèi)打敗巨人歌利亞的英雄事跡。
2014年9月,SenseTime的現(xiàn)任科學(xué)家首次出征 ImageNet 競賽,在大規(guī)模物體檢測比賽中以40.7% 的成績獲得世界亞軍,僅次于谷歌的43.9%;2015年3月,該團(tuán)隊(duì)將此成績提高到50.3%,超越谷歌,達(dá)到世界第一的水平,并將這一成果以論文的形式發(fā)表在2015年國際計(jì)算機(jī)視覺與模式識(shí)別大會(huì)(CVPR)上。
ImageNet是一個(gè)什么級別的競賽呢?有業(yè)內(nèi)人稱之為計(jì)算機(jī)視覺領(lǐng)域的“奧賽”,其每年的競賽結(jié)果都對業(yè)界和學(xué)界起到風(fēng)向標(biāo)一樣的作用。ImageNet每隔一段時(shí)間就會(huì)增加一項(xiàng)學(xué)術(shù)和工業(yè)界公認(rèn)的最難的任務(wù),圖像中的物體檢測是2013年新增任務(wù),當(dāng)年最好的算法準(zhǔn)確率只有22.6%。
2015年,ImageNet新增了一項(xiàng)視頻物體檢測的任務(wù),比靜態(tài)圖像中的物體檢測的難度更高。SenseTime聯(lián)合香港中文大學(xué)媒體實(shí)驗(yàn)室組成CUimage和CUvideo團(tuán)隊(duì)再次出征。
SenseTime的原創(chuàng)圖像物體檢測技術(shù)能夠以毫秒級的速度識(shí)別出圖片中的人類、動(dòng)物、家具、食物、車輛等物體。這一技術(shù)在此次競賽中大顯身手。
最終,CUvideo在ImageNet視頻物體檢測競賽中檢測一舉奪得數(shù)量、檢測準(zhǔn)確率兩項(xiàng)世界第一的成績,以壓倒性的優(yōu)勢擊敗了來自伊利諾伊香檳大學(xué)、香港科技大學(xué)、中國人民大學(xué)、東京大學(xué)、韓國國家科學(xué)院等團(tuán)隊(duì)。在其他ImageNet的競賽類別中,CUimage和CUvideo共取得了四個(gè)世界第二和四個(gè)世界第三的成績,在多個(gè)任務(wù)中力壓谷歌、英特爾、高通、騰訊等工業(yè)界巨頭的研究團(tuán)隊(duì)。
作為一個(gè)年輕的創(chuàng)業(yè)公司,不僅能夠與世界一流的高校團(tuán)隊(duì)和業(yè)界大佬同臺(tái)競技,還能夠取得如此優(yōu)異的成績,SenseTime的確令人側(cè)目。其表現(xiàn)也獲得了“隊(duì)友”香港中文大學(xué)媒體實(shí)驗(yàn)室的高度肯定。
如同所有高歌猛進(jìn)的創(chuàng)業(yè)公司,規(guī)模上的穩(wěn)步擴(kuò)張與技術(shù)上的一貫領(lǐng)先同樣重要。據(jù)《時(shí)間線》記者獨(dú)家得知,SenseTime在2015年年底剛剛并購了另外一家人臉識(shí)別技術(shù)領(lǐng)域的創(chuàng)業(yè)公司Linkface。后者也是一匹創(chuàng)業(yè)黑馬,同樣擁有諸多超越業(yè)界大佬的出色成績單。
例如,在Linkface創(chuàng)業(yè)之初,基于深度學(xué)習(xí)的人臉識(shí)別算法,就在全世界最權(quán)威的人臉數(shù)據(jù)庫LFW(Labeled Faces in the Wild)平臺(tái)上達(dá)到99.55%的人臉識(shí)別準(zhǔn)確率,打敗了Facebook,也遠(yuǎn)超人眼識(shí)別能力;另外,其基于深度學(xué)習(xí)的人臉檢測創(chuàng)新算法,也在全球最具權(quán)威的人臉檢測平臺(tái)FDDB的公開測試中,92.5%的準(zhǔn)確率被FDDB評為世界第一,隨后迅速收獲了中國銀聯(lián)、科大訊飛、華為、京東金融、英偉達(dá)、美圖秀秀等一眾長線合作伙伴,在業(yè)內(nèi)掀起了不少輿論波瀾。有一位在計(jì)算機(jī)視覺領(lǐng)域的資深人士告訴記者:“在2015年業(yè)內(nèi)的大小峰會(huì)上,除了常設(shè)議題之外,又多了一個(gè)最熱話題—Linkface?!?/p>
看得出,Linkface也如SenseTime一般擁有“大衛(wèi)挑戰(zhàn)歌利亞”的精神。它們能夠走到一起,堪稱圖像識(shí)別和人臉識(shí)別兩大領(lǐng)域內(nèi)最強(qiáng)算法的強(qiáng)強(qiáng)聯(lián)手。
人才黑洞 致命引力
羅馬不是一天建成的,也絕不可憑一己之力建成。同樣,SenseTime要想打造一個(gè)強(qiáng)大的計(jì)算機(jī)視覺帝國,也需要匯聚業(yè)內(nèi)最頂尖的人才。
假如再仔細(xì)探究的話,SenseTime從骨子里的基因就與國內(nèi)其他創(chuàng)業(yè)公司不同。當(dāng)一眾面目模糊的孵化器們流水線般制造創(chuàng)業(yè)公司時(shí),當(dāng)別的創(chuàng)業(yè)者們亦步亦趨地向硅谷人學(xué)習(xí)輟學(xué)創(chuàng)業(yè)時(shí),SenseTime反其道而行之,把高校及其實(shí)驗(yàn)室看作是一座取之不盡用之不竭的金礦。其人才也大多來源于這座金礦。
目前,SenseTime的團(tuán)隊(duì)里有來自MIT、斯坦福、香港大學(xué)、香港中文大學(xué)、清華大學(xué)等數(shù)十名深度學(xué)習(xí)科學(xué)家,以及谷歌、百度、微軟、聯(lián)想等產(chǎn)業(yè)界領(lǐng)軍人物。可以說是聚集了華人中最出色的一批深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域的專家。其中,公司的研發(fā)團(tuán)隊(duì)有超過50名博士全職任職,上層智囊團(tuán)有18名名校教授加盟。該團(tuán)隊(duì)在三大國際頂級機(jī)器視覺會(huì)議CVPR、ICCV、ECCV上共發(fā)表論文超過150篇,在亞洲企業(yè)中排名第一。
光羅列這些名稱和數(shù)字也許說服力還不夠,我們來具體看看SenseTime聚集的到底是些什么樣的學(xué)術(shù)大拿:
例如,最新加入的戴宇榮教授—他是計(jì)算機(jī)視覺底層技術(shù)領(lǐng)域的一位專家,曾多次擔(dān)任國際計(jì)算機(jī)視覺大會(huì)(ICCV)的主席,加入SenseTime之后放棄了韓國國家科學(xué)院(KAIST)終身教授的職位,因?yàn)樗粗蠸enseTime比高校更能將技術(shù)轉(zhuǎn)化為業(yè)界實(shí)際成果的優(yōu)勢,以及在人才和資源方面對于科研的助力;
再如,SenseTime的研發(fā)總監(jiān)張偉博士—他曾獲安徽省高考狀元,本科就讀于清華大學(xué),并于香港中文大學(xué)完成博士學(xué)位,在Kaggle數(shù)據(jù)科學(xué)家(現(xiàn)參賽科學(xué)家總數(shù)近六萬人)排行榜上排名第六,還在CVPR等國際頂級計(jì)算機(jī)視覺會(huì)議和期刊上發(fā)表論文達(dá)10余篇;
還有,SenseTime的深度學(xué)習(xí)科學(xué)家周斌博士—他是中國首位HPC(高性能計(jì)算)和GPU(圖形處理器)跨領(lǐng)域研發(fā)高級工程師,也是全球第12個(gè)獲得CUDA Fellow稱號獲得者,還是目前中國唯一一位獲得此稱號的學(xué)者。
一個(gè)創(chuàng)業(yè)公司卻對學(xué)術(shù)大拿擁有不可抵抗的吸引力,這令SenseTime像一個(gè)“人才黑洞”。究其原因,之前深藏于實(shí)驗(yàn)室的計(jì)算機(jī)視覺技術(shù)已經(jīng)足夠成熟,到了將科技成果轉(zhuǎn)化為實(shí)際應(yīng)用的時(shí)候了。正是由于這樣強(qiáng)烈的學(xué)術(shù)氣質(zhì)及其與業(yè)界的緊密結(jié)合,決定了SenseTime在與谷歌、Facebook等巨頭同臺(tái)競技時(shí)毫不遜色。
當(dāng)然,SenseTime的學(xué)術(shù)氣質(zhì)也與其核心技術(shù)是基于機(jī)器學(xué)習(xí)的人工智能算法有關(guān)。它并不研發(fā)具體的軟件或者硬件,而是專注于核心算法,再通過與應(yīng)用層級的公司合作的方式將自己的技術(shù)部署到各種各樣的產(chǎn)品上。目前,這種模式在SenseTime身上運(yùn)轉(zhuǎn)良好,計(jì)算機(jī)視覺領(lǐng)域的下一個(gè)殺手級應(yīng)用大概就會(huì)從這里誕生。
SenseTime的崛起好比海底沉睡的巨獸正浮出水面。更重要的是,對于中國科技界,這也許是中國本土首個(gè)能在計(jì)算機(jī)視覺領(lǐng)域與國際巨頭全面抗衡的企業(yè)。風(fēng)口已至,Time to make sense。