方方 張靜怡
“我們生活在一個三維世界里,對世界的觀察是三維的,與世界的交互也是三維的。我們的生產(chǎn)生活對數(shù)字化三維世界的表達與交互需求正不斷升級,未來一定是三維數(shù)據(jù)的天下?!眹揽萍即髮W計算機學院徐凱教授肯定地說。作為一位計算機圖形領域的科技從業(yè)者,他對這樣的趨勢很興奮。
“計算機圖形學研究已經(jīng)接近飽和”——自20世紀90年代起,這樣的論調(diào)就一直存在。徐凱卻不這么想,他認為,圖形學當前的一個主要瓶頸就是“三維內(nèi)容生成”,一旦突破,就有望令三維數(shù)據(jù)真正實現(xiàn)爆炸式增長,而三維大數(shù)據(jù)反過來也會對三維內(nèi)容的生成與創(chuàng)作產(chǎn)生變革式影響。如今,三維數(shù)據(jù)的生產(chǎn)-消費生態(tài)正在逐漸建立,圍繞三維內(nèi)容的產(chǎn)業(yè)鏈也正在形成。數(shù)據(jù)驅(qū)動下的三維幾何建模乃至近年來熱門的人工智能的出現(xiàn),不斷拓展著各行業(yè)的應用邊界,伴生出層層疊疊的新問題。“這是計算機圖形學的生機”,徐凱說。在這份生機里,他看到了計算機圖形學更廣袤的天地,任憑馳騁。
做手持兩把利劍的奔跑者
第一次參與與圖形學相關的科研項目時,徐凱還在國防科技大學讀大三。這項名為“膝關節(jié)鏡手術(shù)仿真模擬系統(tǒng)”的工作,在幾年后獲得全軍科技進步獎二等獎,其成果也被北京301醫(yī)院應用于手術(shù)醫(yī)生的教學培訓和術(shù)前演練。但對大三學生徐凱來說,他無法預估這項工作的結(jié)局,只當是在科研大道上邁出了“一小步”。
“一大步”要怎么邁出去?徐凱也在思考。博士期間,他有個階段甚至困惑于如何從研究過程中找到合適的切入點。為了找到答案,他去加拿大西蒙弗雷澤大學待了兩年。那兩年,實驗室成了他最熟悉的地方。討論問題、鉆研難點、撰寫論文……他和導師張皓教授經(jīng)常工作到凌晨三四點,有時不知不覺就通宵了。而在張皓教授的推薦下,他得以與國際領域內(nèi)的大師們密切交流,學術(shù)視野也越來越開闊。
辛苦,但成長也是迅速的。徐凱成功解決了三維幾何形體局部內(nèi)蘊對稱檢測這一國際同行公認的難題,論文被當年的圖形學頂級會議SIGGRAPH高分錄用。崢嶸漸露,但思考卻沒有停下,因為他發(fā)現(xiàn)視野放開之后,圖形世界明顯有了更多可能性,尤其遇到陳寶權(quán)教授后。
那時,他在中國科學院深圳先進技術(shù)研究院做博士后研究,陳寶權(quán)教授是其導師?!八岢?,傳統(tǒng)的機器人視覺是基于普通相機拍出來的RGB圖像去做導航和抓取,但真實世界是通過三維視覺表示出來的。這意味著計算機圖形學可以和機器人方向結(jié)合在一起?!眲偮牭竭@種設想,徐凱覺得似乎也太跳躍了,但很快就感受到這的確是大勢所趨,并堅決地投身進來,成為國際較早、國內(nèi)最早走上相關方向的研究者之一。“在面向電影、游戲等有限應用上,計算機圖形學很成熟,但當科學家解決了三維重建、形狀分析等基本問題后,在與機器人結(jié)合過程中要求在線建模、實時分析,就是一種顛覆。所以說,不應該被固化思維束縛住,要以變化的眼光看待學科及其周邊應用的發(fā)展,研究才能被盤活。”
對徐凱而言,“結(jié)合機器人方向=為圖形學界打開研究思路”這件事真的很酷。近年來,每年的SIGGRAPH等頂級會議上都會涌現(xiàn)出數(shù)篇相關論文,“機器人”逐漸成了國內(nèi)外圖形學界的時髦元素。他本人每年在該方向都有頂級會議文章發(fā)表,經(jīng)過深入的積累,他在2016年獲得國家自然科學基金優(yōu)秀青年科學基金的支持。
“這個年輕人成功了!”外人眼中的徐凱光環(huán)罩身,他卻在獲得一系列榮譽后,決定讓自己沉靜下來。2017年,他前往美國普林斯頓大學做訪問學者,跟隨SIGGRAPH杰出成就獎(計算機圖形領域最權(quán)威的獎項)獲得者Thomas Funkhouser教授做研究。“我們討論問題,他提到一個好點子,我覺得確實不錯,散會后還跟學生交代能如何實現(xiàn)這個設想。結(jié)果第二天再討論時,他自己已經(jīng)把代碼編程寫好了。”徐凱忍不住自省起來,無論何時何地,都不能和一線工作脫節(jié),而親力親為的好處是,不僅能夠在思路上給學生指導,還能夠及時發(fā)現(xiàn)可能會被錯過的細節(jié)問題。
這一年,徐凱徹底穩(wěn)了下來。用他的話說這是一場“內(nèi)功的修煉”,在前沿研究上,天馬行空的思維腦洞和扎實穩(wěn)固的基礎步調(diào)缺一不可,這將是他潛心鍛造的兩把“利劍”,在充滿未知的科學探尋中,助他披荊斬棘,無畏無懼。
用數(shù)據(jù)驅(qū)動數(shù)據(jù)生成
數(shù)據(jù)驅(qū)動,就是要讓數(shù)據(jù)說話。徐凱認為歸根結(jié)蒂就是要“讓數(shù)據(jù)幫助數(shù)據(jù)理解,用數(shù)據(jù)驅(qū)動數(shù)據(jù)生成”,即將數(shù)據(jù)驅(qū)動方法引入到三維幾何分析和建模中。
在SIGGRAPH Asia 2010的一篇論文中,他與合作者提出了三維模型集“聯(lián)合分析”概念,打破了以往三維幾何模型分析只針對單個模型的模式,被認為是數(shù)據(jù)驅(qū)動幾何處理與分析的核心概念之一,引發(fā)了數(shù)據(jù)驅(qū)動三維形狀分析的研究熱潮。而以此為起點,徐凱圍繞數(shù)據(jù)驅(qū)動的三維模型結(jié)構(gòu)分析和語義理解,以及數(shù)據(jù)驅(qū)動的三維建模,開展了大量研究工作。經(jīng)過近十年的積累,發(fā)表了30余篇頂級會議論文,相關成果獲得2014年湖南省自然科學獎一等獎。
“有了數(shù)據(jù)驅(qū)動方法,我們在三維幾何建模上就有了更大的發(fā)揮空間。”徐凱表示。目前,三維幾何建模的主要途徑仍是交互式建模,對專業(yè)技能要求很高。如何讓普通用戶方便、快速地構(gòu)建想要的三維模型,是幾何建模領域長期追求的目標,也是徐凱提出一系列數(shù)據(jù)驅(qū)動三維建模方法的宗旨。
比如在基于演化的三維模型自動生成方法中,徐凱大膽地融入了生物遺傳演化的思想?!靶氯S模型脫胎于舊模型、舊數(shù)據(jù)衍生出新數(shù)據(jù),這與種群后代繁衍異曲同工?!蓖ㄋ椎卣f,他將維模型看作生物個體,讓一組模型像生物種群一樣繁殖和演變,并在一定的用戶交互引導下,生成符合用戶要求、多種多樣且結(jié)構(gòu)合理的三維模型,大幅度提高了建模效率?!暗屵@個想法變成一個能夠?qū)嵅俚臇|西,我們花了很長時間去定義?!毙靹P說。該方法一出,得到了大量關注和引用,收獲了同行的高度評價。
不過,在2014年以前,徐凱團隊的許多“腦洞”受限于實際性能,還無法落實到應用上。深度學習時代的到來,讓徐凱看到了一種可能——讓圖形學與深度學習相結(jié)合,三維數(shù)據(jù)的表達能不能更加高效、實用?
“我們嘗試了一個跨學科交叉創(chuàng)新,把自然語言處理中的一種特殊的、能夠處理層次結(jié)構(gòu)的所謂遞歸神經(jīng)網(wǎng)絡,引入到三維模型結(jié)構(gòu)的編、解碼中?!彼忉尩溃骸耙酝姆椒ㄊ侵饌€體素地生成三維模型,而我們的方法是逐個部件地生成,且在生成中很好地保持了部件間的結(jié)構(gòu)關系?!?/p>
因此,他們提出了首個基于深度學習的結(jié)構(gòu)化三維模型生成方法GRASS,結(jié)合深度對抗學習實現(xiàn)了三維模型的多樣化、保結(jié)構(gòu)生成。該方法在SIGGRAPH 2017上發(fā)表后,被大會方選送國際多家媒體報道。
得到學術(shù)界的認可值得自豪,但徐凱在數(shù)據(jù)驅(qū)動分析和建模上研究多年,終極目標還是希望讓技術(shù)可以落地,他沒想到契機竟然源自幫父親選家具的一次經(jīng)歷。
“父親喜歡中式風格,這種家具的紋路特別精細,比如椅子扶手上雕刻的線條等,尤其能體現(xiàn)風格?!笔艽藛l(fā),徐凱想如果提取三維模型在不同視角下的特征線,是不是更容易區(qū)分家具風格了呢?最終,這個靈感在他帶領國防科技大學和南京大學聯(lián)合研發(fā)組開展的“數(shù)據(jù)驅(qū)動的三維家具風格分析和推薦方法與系統(tǒng)”研究中被“用活”了。他們提出了一種基于多視點投影輪廓中層特征的多視圖學習方法,能夠有效地解決三維家具風格的精確、高效分析,以及基于風格的家具推薦。然而,基于這項成果的論文投到圖形學頂會卻遭到5次退稿?!拔覀冞€真沒遇到過這么多次退稿”,徐凱說。
短暫迷惑后,他和團隊迅速找回了狀態(tài),開始對方法與系統(tǒng)不斷打磨,終于找到了更為可靠的解決方案。這項研究成果最終得以在SIGGRAPH 2018成功發(fā)表。由于實用性很強,他們的成果一經(jīng)發(fā)表,很快被阿里巴巴盯上了。正因為前期投稿屢屢挫敗,他們做了大量細致的打磨,使得該方法性能出色、穩(wěn)定,僅僅經(jīng)過半年多的產(chǎn)品化工作,這項成果就被應用于2019年阿里巴巴淘寶研發(fā)的Homestyler家居風格處理系統(tǒng)。這套系統(tǒng)能夠?qū)崿F(xiàn)基于風格的自動搭配功能,不僅很好地提高了設計師的工作效率、節(jié)約了工作時間,還大大提升了用戶的體驗和直觀感受,引發(fā)家居愛好者、設計師和消費者的極大興趣。系統(tǒng)上線至今,中國注冊用戶人數(shù)20萬,全球用戶1000萬。
做機器人的最強“三維視力”
“三維視覺是圖形學,特別是幾何建模與處理的用武之地。2015年之后,我們考慮的就是如何把圖形學和機器人感知與交互創(chuàng)新性地結(jié)合在一起?!毙靹P說。
相比傳統(tǒng)工業(yè)機器人僅能執(zhí)行既定動作,現(xiàn)代機器人往往需要面對未知、復雜、變化的環(huán)境,通過與環(huán)境、甚至與人之間的交互以完成各種復雜任務,這對機器人的柔性和智能化程度提出了極高要求。此時,3D視覺對于精確引導和精準交互尤為重要。
徐凱團隊提出了一種基于主動交互的機器人環(huán)境感知——機器人在環(huán)境感知過程中不應只是通過不同角度去“看”,還應“動手”去“探”。例如,一件物品放在桌子上,機器人可以通過不同角度的觀察獲取其三維幾何形狀,但這件物品究竟是一個獨立的整體還是由多個部分構(gòu)成,僅用幾何數(shù)據(jù)分析很難得到100%正確的結(jié)論。可如果機器人能用“手”去觸碰它,通過檢測觸碰前后的三維幾何形狀的變化(是否分離),便立即可以得到正確結(jié)論。
“對于場景分割來說,機器人上手推,對分割結(jié)果的交互式的物理確認,是以往任何基于靜態(tài)視覺數(shù)據(jù)的分析理解都無法比擬的。物理上確認分割結(jié)果,可以為基于學習的分割方法提供訓練數(shù)據(jù)?!毙靹P解釋道:“我們這樣一個簡單的思想,隨后在一個實際工業(yè)應用場景中得到了很好的運用?!?/p>
2018年,徐凱帶領團隊研發(fā)了世界上第一個多品類無序拆垛機器人ZeroPick,并于同年在國內(nèi)某知名電商的物流水飲倉落地應用,成功經(jīng)受住了“雙十一”的高強度壓力測試,得到用戶高度認可。ZeroPick融合了當前最先進的三維視覺、三維深度學習和機器人規(guī)劃控制技術(shù),具備識別精度高、抓取速度快、對復雜場景適應性強等優(yōu)勢。其強大的三維視覺檢測技術(shù)能勝任尺寸、紋理差異極大且隨意、混合堆放的上千種紙箱的快速準確識別和分割。特別是,他們將主動交互的思想巧妙地運用于紙箱分割中:“對于分割不確定的箱子,讓機器人上手試抓,根據(jù)觀察交互結(jié)果即可判斷分割正確與否?!睆睦碚撨~入實踐,ZeroPick讓徐凱的夢想距離現(xiàn)實更近了一步。
有拆垛機器人,就有碼垛機器人。ZeroPick的“兄弟”——ZeroPlace也緊隨其后誕生?!叭嗽诖a放箱子的時候是基于直覺和經(jīng)驗的,他不需要了解未來每一只箱子的形狀,而只需看到眼前兩三只箱子就可以立刻做出規(guī)劃反應。對于機器人,要在碼垛過程中進行動態(tài)、在線規(guī)劃就非常難了?!毙靹P團隊為ZeroPlace做的一個重要能力加持就是3D空間在線智能規(guī)劃。他們將最先進的3D視覺感知與機器人規(guī)劃深度融合,基于深度強化學習,使ZeroPlace具備強大的三維空間動態(tài)規(guī)劃能力,能夠在保持垛體穩(wěn)定的情況下,使托盤利用率達到80%以上,碼垛效率最高能達到600件/小時,單件節(jié)拍最快能達到6秒/件?!按罅繉崪y結(jié)果顯示,ZeroPlace比人工擺放的空間利用率還要高”,徐凱說。
“我們選擇研究問題的原則就是不隨波逐流”,徐凱再次強調(diào)。這幾年,打通了機器人與圖形學之間的路徑,他的研究如魚得水。最近,他又惦記起了“三維數(shù)字孿生”——以真實世界為藍本,借助圖形學和人工智能構(gòu)建一個三維的、動態(tài)的虛擬鏡像世界,令很多智能學習和推演等都能在這個虛擬世界里進行?!暗玫骄珳士煽康膶W習和推演結(jié)果后,再用它驅(qū)動真實世界的機器人去執(zhí)行。反過來,真實世界發(fā)生的改變也可以通過三維感知實時反饋到虛擬仿真環(huán)境中?!?/p>
這是徐凱關于未來的更大愿景:“借助虛擬與現(xiàn)實之間的平行與互動來更好地改造真實世界”。