Echo
2013年剛從清華大學物理系畢業(yè)的李誠,如今在清華大學東門外創(chuàng)辦了一家公司,從事計算機視覺領域的研究。出于對人工智能的興趣,學物理的李誠很早就開始研究機器學習(人工智能中改善計算機算法的學科)的相關內(nèi)容,還參加過學校機器人足球隊的研究團隊。不過要說起計算機視覺研究領域的研究,還要從他大三的時候說起。
第一人稱手部識別
大三的暑假,李誠參加了學校的對外交流學習項目,前往卡內(nèi)基梅隆大學(CMU)進行交流學習。在導師的介紹下,李誠認識了一位美籍日裔博士后Kris,當時Kris正在研究第一人稱的物體識別。
第一人稱物體識別也是“可穿戴設備”的一個重要的技術支持。一般情況下,“可穿戴設備”都會配備一個第一人稱攝像頭,也就是讓用戶在頭部佩戴一個與其視線一致的攝像頭,它不僅有攝像攝影的功能,還能承擔動作指令的作用。
“第一人稱手部識別!”聽說這個課題,李誠馬上就來勁兒了,“我在大一參加Robocup(機器人世界杯足球錦標賽)的時候就是負責視覺的,比如讓機器人認知對方機器人、球門等物體,再完成踢球的動作?!崩钫\興奮地向Kris講述著自己的研究經(jīng)歷。由于第一人稱手部識別是Kris研究中相對比較初級的內(nèi)容,Kris本就有意找一位本科生來接手,他立刻相中了李誠。
興致勃勃地研究起第一人稱手部識別的李誠,很快就發(fā)現(xiàn)了問題。“傳統(tǒng)的手部識別主要依靠顏色信息,只能在光線較好或者環(huán)境與手部顏色區(qū)別較大的情況下比較準確?!比绻饩€太亮或太暗,手部反射的光顏色就不一樣,攝像頭就會無法識別;而當背景顏色與手部顏色非常接近時,攝像頭就會將畫面中的相同顏色都識別在內(nèi),同樣不能準確地進行識別。因此,如何解決在多變的外部環(huán)境下,使攝像頭準確且高效地進行手部識別,就成了最大的技術難點。要在如今的基礎上實現(xiàn)突破,就必須要改變原來的計算機運算方法,可是什么樣的算法才最合適呢?
一天,資料中的一句話讓李誠眼前一亮:“可穿戴設備的立足點,應該是大數(shù)據(jù)與云計算的普及,設備本身只是個呈現(xiàn)終端?!薄按髷?shù)據(jù)和云計算!”李誠來了靈感。他想到之前在星火班和同學討論過的“模型推薦”的概念?!霸谑植孔R別的范疇內(nèi),就是指建立一個擁有各種環(huán)境下手部圖片的模型庫,讓系統(tǒng)根據(jù)當前使用環(huán)境選出對應的模型,來識別出這是手?!边@樣,機器的手部識別準確度就能大大提升。
“僵尸”數(shù)據(jù)庫
選定了方向,接下來的任務,就是建立一個龐大的“模型數(shù)據(jù)庫”。李誠決定從建立不同光線和環(huán)境下的各種模型做起。李誠的數(shù)據(jù)采集方式讓人覺得特別“神經(jīng)病”。“那個時候我就把攝像頭戴在頭上,然后把兩手放在身前,繞著實驗室里里外外地走來走去,目的就是為了收集不同的光照和環(huán)境下的手部模型信息?!彪m然這樣的舉動在同樣研究計算機視覺的同學們看來已經(jīng)司空見慣,但李誠的一位印度的同學Kumur還是覺得不可思議,“他說我走起來很像僵尸?!崩钫\覺得這個聽起來有點嚇人的形容很有意思,決定干脆將這個數(shù)據(jù)集叫做“僵尸”。就這樣,李誠用第一視覺攝像頭拍下了自己手部的視頻,然后再將視頻導出,對每段視頻每隔幾幀就用Grabcut(圖像分割算法)將圖片上的手部范圍內(nèi)的像素標志出來,作為模型數(shù)據(jù)庫的數(shù)據(jù)。最終,李誠對將近2,000張圖片進行了標志,全部像素相加有200,000,000多個,覆蓋了幾乎所有室內(nèi)室外的光照環(huán)境下的手部識別數(shù)據(jù)。
與其他手部識別模型不同的是,李誠放棄使用傳統(tǒng)的用白布做背景來拍攝手部視頻,而是選用了木板、紙箱等與膚色顏色相近的物品作為背景?!半m然用白布作為背景,手部的顏色比較突出,容易被機器識別,但第一視覺手部識別應用的范圍絕不僅僅在白色背景下。雖然在標識的時候會比較麻煩,但是在機器學習的時候會更加全面、準確,應用范圍也會更廣?!?/p>
建立模型數(shù)據(jù)庫的最終目的是讓機器準確地辨認,所以對機器進行“培訓”也必不可少。拍攝視頻收集數(shù)據(jù)的時間只有幾天,但是“培訓”的時間卻花了很長。李誠開始馬不停蹄地將這些收集到的數(shù)據(jù)編寫成代碼,在計算機上進行調試,從而讓機器進行學會認手?!皺C器通過訓練后的效果就是讓攝像頭在拍攝到一個畫面之后,能夠自動從數(shù)據(jù)庫里找出最匹配最合適的模型,認出在各種環(huán)境下的手?!?/p>
龐大的工作量需要耗費大量的時間和精力,大三暑假的兩個半月是遠遠不夠的。于是李誠在大四的寒假又一次來到了卡內(nèi)基梅隆大學(CMU)繼續(xù)他的數(shù)據(jù)庫建立工作,前后總共歷時6個月,終于完成了他“僵尸”數(shù)據(jù)庫的籌建工作。
濾波算法精益求精
“第一人稱攝像機是戴在頭上的,所以在使用過程中,必然會存在移動過快的情況,攝像機進行識別時就會有困難?!痹缭诶钫\在拍攝自己的手部視頻時,就發(fā)現(xiàn)了這個問題。由于行走過程中手部會發(fā)生移動,這時拍攝到的畫面就會出現(xiàn)閃爍或模糊。
在提高手部識別的準確度的過程中,李誠并沒有忽視這個細節(jié)。“手在圖像上是個大塊的連通的物體,于是我想到了用時空馬爾科夫場的濾波算法,將不太連續(xù)的輸出結果過濾成比較平滑的輸出結果?!崩眠@個算法,李誠將圖片中的像素之間的關系進行了設定,推算出了相鄰的像素之間的關系?!皩⒁粡垐D片想象成一幅巨大的拼圖,每個像素都是一個小方塊,手部范圍內(nèi)的小方塊占據(jù)了拼圖很大的比例,那么當一個小方塊是屬于手部范圍的時候,與它相鄰的另一個小方塊屬于手部范圍的可能性就很大!”李誠用一個形象的方法,解釋了馬爾科夫場在他的研究中的原理。
李誠的研究中不乏對行業(yè)既有研究的借鑒和引用,時空馬爾科夫場的概念,就是專業(yè)研究中常用的一種計算機算法?!拔抑徊贿^是站在了巨人的肩膀上,但最重要的是要找到巨人在哪兒。”這就需要平時的不斷積累和對研究內(nèi)容的興趣和熱忱。
雖然這個簡單的優(yōu)化并不是整個項目中最大的亮點,但時空馬爾科夫場濾波算法在實際應用中的效果卻不容小覷。畫面閃爍程度降低了,也變得更加平滑清晰,這更保證了第一人稱手部識別的準確度。最終,李誠開發(fā)的第一人稱手部檢測準確度比傳統(tǒng)方法提高了10%~15%?!邦I先于喬治亞理工、加州大學歐文分校在內(nèi)的美國其他大學提出的幾種主流模型!”
李誠的成果很快得到了同行專家的認可。很快,李誠以第一作者的身份分別在兩個計算機視覺領域的頂尖學術會議CVPR2013(IEEE Conference on Computer Vision and Pattern Recognition即IEEE計算機視覺與模式識別會議)和ICCV2013(IEEE International Conference on Computer Vision即IEEE計算機視覺國際會議)上發(fā)表論文2篇,同時還捧回了2013年全國挑戰(zhàn)杯的特等獎獎杯。目前,這項目的相關代碼、數(shù)據(jù)集已加到谷歌公司的手部檢測項目,并且即將加入目前應用最廣泛的機器視覺開源庫中。
從愛好者到專家,李誠不僅在研究中獲得了突破,更用自己的實際行動推動了機器視覺研究的進程。