8月底,在北京一家餐廳,《21CBR》記者見到跨維智能創(chuàng)始人賈奎??蒲?、教學(xué)、創(chuàng)業(yè)……他的日程表排得滿滿當(dāng)當(dāng)。
“晚上10點(diǎn)前,我都有事情做?!彼寡?,創(chuàng)業(yè)后,工作量大增。
賈奎是學(xué)者型創(chuàng)業(yè)者。他畢業(yè)于倫敦大學(xué),獲得計(jì)算機(jī)科學(xué)博士學(xué)位,曾在多家高校執(zhí)教,是人工智能、計(jì)算機(jī)視覺等領(lǐng)域?qū)<?,發(fā)表論文百余篇,在TIP、TMLR等學(xué)術(shù)期刊擔(dān)任副主編。
2021年6月,賈奎創(chuàng)立跨維智能。從學(xué)者到創(chuàng)業(yè)者,從技術(shù)到產(chǎn)業(yè),賈奎稱,轉(zhuǎn)型有兩個(gè)原因:
一是,近年AI“大廠”以充沛的算力、數(shù)據(jù)資本發(fā)力,學(xué)界有滯后于產(chǎn)業(yè)界的趨勢(shì)。
二是,自己也想嘗試新方法?!皩W(xué)術(shù)上,只要論證長(zhǎng)期有用就行了,而企業(yè)的創(chuàng)新,要產(chǎn)生真正的社會(huì)價(jià)值,要考慮針對(duì)的人群,滿足的需求,產(chǎn)品的功能、性價(jià)比等因素?!?/p>
賈奎帶領(lǐng)的跨維智能團(tuán)隊(duì),研發(fā)人員占比達(dá)70%以上,核心團(tuán)隊(duì)成員多擁有頂尖高校人工智能專業(yè)博士、碩士學(xué)位。
以自研的DexVerse?具身智能引擎為技術(shù)底座,跨維智能已形成包括純視覺空間與具身智能傳感器、新一代機(jī)器人控制器、PickWiz軟件、高精度通用移動(dòng)操作機(jī)器人等在內(nèi)的產(chǎn)品矩陣,并實(shí)現(xiàn)商業(yè)落地。
賈奎坦言,每天都在思考,產(chǎn)品如何卡準(zhǔn)位置,實(shí)現(xiàn)商業(yè)化。
2016年,我啟程回國(guó),進(jìn)入華南理工大學(xué),做計(jì)算機(jī)視覺方面的研究。彼時(shí),在人臉識(shí)別、圖像理解領(lǐng)域,國(guó)內(nèi)“AI四小龍”做得很好。
我選擇了一條小眾賽道,將人工智能技術(shù)應(yīng)用于三維空間。圖像是一個(gè)二維平面,三維就像一個(gè)杯子,是曲面、不規(guī)則圖像。如何處理這樣的信號(hào)?
這需要運(yùn)用機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、圖形學(xué)、機(jī)器人等交叉學(xué)科的知識(shí)。直至2015年,學(xué)術(shù)界才開始研究此類問題。
早期,團(tuán)隊(duì)成立了“幾何感知與智能實(shí)驗(yàn)室”。當(dāng)時(shí),大廠尚未涉足這一領(lǐng)域,我們是國(guó)內(nèi)最早將AI應(yīng)用到三維空間的團(tuán)隊(duì)。
文本、圖像,是二維的,互聯(lián)網(wǎng)上有現(xiàn)成的海量數(shù)據(jù)。三維空間,是立體的,包含位置、角度、尺寸等信息,需要精準(zhǔn)標(biāo)定,不能采用之前的方式獲取數(shù)據(jù)。
舉個(gè)例子,如果目標(biāo)是讓機(jī)器人抓取世界上任何一個(gè)鼠標(biāo),團(tuán)隊(duì)就需要集合成千上萬(wàn)甚至世界上所有鼠標(biāo)的數(shù)據(jù)。這意味著,實(shí)驗(yàn)室需要從早到晚,去不同的環(huán)境里采集數(shù)據(jù)。
Sim2Real(simulation to reality,從仿真到現(xiàn)實(shí))是適合空間智能、具身智能、機(jī)器人的范式,借助物理引擎、物理仿真,它能夠自動(dòng)計(jì)算、自動(dòng)生成數(shù)據(jù),來訓(xùn)練大模型。
就是說,鼠標(biāo)上面的顏色、紋理、材質(zhì),全部是解耦的。在引擎空間,你只用改變材質(zhì)空間參數(shù),就可以把一個(gè)木頭鼠標(biāo)變成金屬的。
到了2020年,我發(fā)現(xiàn),做AI研究,需要足夠多的算力、數(shù)據(jù)以及場(chǎng)景,高校能做的事情有限,不如大廠。
隨著技術(shù)逐步成熟,我于2021年開啟創(chuàng)業(yè)之路。
團(tuán)隊(duì)研究的技術(shù)方向,跟具身智能、空間智能有關(guān)。
我們一開始就是按照Sim2Real的方式,希望通過智能的“眼睛”,感知空間,實(shí)現(xiàn)通用的技能。
一家公司的CEO,需要具備技術(shù)洞察力,選擇恰當(dāng)?shù)募夹g(shù)路徑,針對(duì)某個(gè)場(chǎng)景或痛點(diǎn),拿出解決方案。在走訪一系列應(yīng)用領(lǐng)域后,我選擇從智能制造開始。
辦公司、在大廠上班與教書,是三種完全不同的生活。我既要找準(zhǔn)商業(yè)化場(chǎng)景,也要找到合伙人。
跨維智能聯(lián)合創(chuàng)始人吳迪,是相機(jī)硬件專家,曾在華為、騰訊等公司工作,擁有十余件發(fā)明專利。依托原有經(jīng)驗(yàn)及技術(shù)積淀,跨維推出了一系列3D成像和感知設(shè)備。
做銷售業(yè)務(wù),需要找有經(jīng)驗(yàn)的。聯(lián)合創(chuàng)始人解銳,是一名連續(xù)創(chuàng)業(yè)者,動(dòng)視云科技聯(lián)合創(chuàng)始人,通信、云計(jì)算與人工智能領(lǐng)域?qū)<摇?/p>
幾人組團(tuán)創(chuàng)業(yè),致力于給機(jī)器人安裝智能“眼睛”,提升空間感知能力,錘煉智慧的“大腦”,習(xí)得“具身智能”技能。
沿著這條路徑走,我們逐步實(shí)現(xiàn)了規(guī)?;虡I(yè)落地。
目前,在多個(gè)商業(yè)場(chǎng)景中,跨維智能已經(jīng)實(shí)現(xiàn)了利用100%合成數(shù)據(jù),在毫米/亞毫米級(jí)的操作精度要求下,達(dá)到99.9%以上的任務(wù)成功率。
在虛擬空間層面,我們不斷錘煉“大腦”——底層自研的DexVerse?具身智能引擎。這是公司的技術(shù)底座。
在工業(yè)和一些商業(yè)場(chǎng)景中,我們已實(shí)現(xiàn)了無須研發(fā)人員介入的自動(dòng)化操作。只需輸入一個(gè)操作對(duì)象,系統(tǒng)就能自動(dòng)生成數(shù)據(jù)、標(biāo)注計(jì)算,并在線傳遞給相應(yīng)的AI模型進(jìn)行訓(xùn)練。整個(gè)過程無須存儲(chǔ)數(shù)據(jù),高效且精準(zhǔn),是當(dāng)前實(shí)現(xiàn)具身智能通用化技能的最佳路徑之一。
我們還持續(xù)升級(jí)“眼睛”——純視覺空間智能傳感器。
傳統(tǒng)的3D相機(jī),需要光線投射,才能獲得3D信號(hào),作用距離有限,且容易受環(huán)境光的影響。跨維自研的純視覺空間智能傳感器,利用兩個(gè)相機(jī)從不同角度捕捉圖像,可以在復(fù)雜或半室外強(qiáng)光條件下成像,提升視覺系統(tǒng)的穩(wěn)定性。其最快可以實(shí)現(xiàn)每秒30幀頻率,接近人眼感知世界的方式。
這套3D成像和感知設(shè)備,可以安裝在機(jī)器人身上,適配主流機(jī)械臂與機(jī)器人,指揮其在工業(yè)和商業(yè)場(chǎng)景里運(yùn)作。
上一代的控制器,做一個(gè)從A點(diǎn)到B點(diǎn)的簡(jiǎn)單動(dòng)作,都需要機(jī)器人工程師單獨(dú)寫個(gè)程序。它沒有眼睛,通過特定程序,精確地做動(dòng)作。
新一代機(jī)器人控制器,像人一樣有大腦、眼睛,可以指揮胳膊和手的動(dòng)作。
我們?cè)谘械男乱淮鷻C(jī)器人控制器RoPilot,有眼睛,還能通過自然語(yǔ)言的方式溝通,自動(dòng)理解任務(wù),并將其轉(zhuǎn)換成機(jī)器人可以執(zhí)行的代碼。
其將會(huì)落地于兩個(gè)場(chǎng)景:工業(yè)柔性裝配和室內(nèi)清潔操作。
在工業(yè)柔性裝配領(lǐng)域,即使要抓取的東西是無序的,RoPilot也可以指揮機(jī)械臂去完成動(dòng)作。
如果機(jī)器人需要做好幾個(gè)動(dòng)作,比如把內(nèi)存條插入電腦,中間有幾根線擋著,其也能靈巧地?fù)荛_線,完成任務(wù)。
舉個(gè)例子,室內(nèi)掃地機(jī)器人沒有胳膊,只能在地上操作?;赗oPilot產(chǎn)品,其在酒店場(chǎng)景下,可以完成清掃馬桶、更換牙刷等復(fù)雜動(dòng)作。
市場(chǎng)上存在著大量人不愿意干或者不能干的場(chǎng)景。現(xiàn)在,年輕人寧愿送外賣,也不去工廠干活。這種情況下,客戶有強(qiáng)烈的需求,將機(jī)器人變得自動(dòng)化、智能化、無人化。這是一個(gè)不可逆轉(zhuǎn)的趨勢(shì)。
商業(yè)變現(xiàn)上,跨維智能出售成像感知套件,供應(yīng)給集成商,安裝到機(jī)械臂、靈巧手上,再應(yīng)用到家電、汽車零部件等行業(yè)。
隨著能力的增強(qiáng),公司未來能夠支撐更多機(jī)器人的技能,這個(gè)市場(chǎng)會(huì)越來越大,工業(yè)、農(nóng)業(yè)、商業(yè)……人類總是希望智能體在生活中輔助我們。
為什么用具身智能的范式做傳統(tǒng)的事?因?yàn)樗莿傂?,是痛點(diǎn)。
公司預(yù)計(jì),今年?duì)I收可達(dá)數(shù)千萬(wàn)元人民幣,下一年有望過億。
創(chuàng)業(yè)三年多,我逐漸適應(yīng)了企業(yè)家身份。初期,我像一個(gè)學(xué)者;現(xiàn)在,更看重商業(yè)化場(chǎng)景,解決客戶痛點(diǎn)才是最重要的。
創(chuàng)業(yè)艱難,我每天都在踩坑。經(jīng)過多年歷練,我的能力變得更綜合、全面,臉皮厚了。有些性格弱點(diǎn),克服不了的,可以通過其他人彌補(bǔ),認(rèn)清自己,有所不為,有所不能。
對(duì)一個(gè)CEO來說,最重要的是具備洞察力,選擇合適的技術(shù)路徑,找到志同道合的人,把產(chǎn)品做出來。
21世紀(jì)商業(yè)評(píng)論2024年10期