暗號(hào)大老爺
這幅圖讓我很好奇,你們機(jī)器人是如何確定一個(gè)物體的呢?換句話說(shuō),你們有視覺(jué)這種東西存在嗎?
當(dāng)然有!機(jī)器可以實(shí)現(xiàn)多譜段拍攝,能同時(shí)從紅外光譜和可見(jiàn)光譜里獲取信息,你們?nèi)祟?lèi)行嗎?
那如果這個(gè)機(jī)器人要炸掉房子,但是不想傷到少年和貓?jiān)趺崔k?
這個(gè)操作難度……還是從圖像識(shí)別說(shuō)起吧,大概分這么幾步,跟把大象裝進(jìn)冰箱差不多:
首先是目標(biāo)分割,按照攝像頭拍到的像素,把貓、人、背景的圖層分出來(lái);第二是目標(biāo)檢測(cè),確定貓和人的那堆像素是我們要的目標(biāo);第三是目標(biāo)識(shí)別,確定那堆像素在我們的定義里叫做貓和人;最后就可以進(jìn)行目標(biāo)追蹤了,畢竟貓很容易跑……
完美!那如果我需要把貓和人攥在手里救出來(lái)呢?
這就涉及對(duì)空間位置的標(biāo)定了。因?yàn)樯厦嫠f(shuō)的只是貓和人在成像中的位置而已,如果需要機(jī)器人去干涉,還需要確定攝像頭、機(jī)械臂跟目標(biāo)的相對(duì)位置、姿態(tài)等等。
那豈不是要無(wú)數(shù)程序員來(lái)加班修正手眼齊到的過(guò)程?
現(xiàn)在是機(jī)器自主學(xué)習(xí)的時(shí)代了。我來(lái)打個(gè)比方,告訴你那些工業(yè)機(jī)械臂是怎么熟悉自己的工作的:你晚上把一堆花生米和一個(gè)碗放在它面前,然后給它一雙筷子,第二天早上起來(lái)就會(huì)發(fā)現(xiàn)它們已經(jīng)學(xué)會(huì)了把花生米夾進(jìn)碗里。晚上發(fā)生了什么呢?它們每練習(xí)一次“手到眼到”的夾花生米過(guò)程,無(wú)論成功與否都會(huì)記下自己的動(dòng)作策略,修正自我控制的策略,最后得出一個(gè)夾花生米的學(xué)習(xí)模型。這個(gè)過(guò)程叫作深度學(xué)習(xí),可以說(shuō)是一種深度人工神經(jīng)網(wǎng)絡(luò)。
據(jù)說(shuō)目前實(shí)用的深度學(xué)習(xí)領(lǐng)域,在語(yǔ)音和圖像方面進(jìn)步最大。
因?yàn)樵谏钪薪邮苄畔?,人們最依?lài)的就是視覺(jué)和聽(tīng)覺(jué)。說(shuō)起來(lái)碳基生命的視覺(jué)經(jīng)過(guò)幾億年的進(jìn)化,已經(jīng)形成了一套自己的體系,不光精確度值得我們AI學(xué)習(xí),連一些bug我們也得捎帶著學(xué)了。
哪有什么bug呀……
就是“視錯(cuò)覺(jué)”。人和機(jī)器會(huì)“看”到相同的東西,但對(duì)它的“解釋”可能完全不同。比如經(jīng)典的“兩個(gè)瓶子之間的空間就像一張人臉”的圖,那是只有你們?nèi)祟?lèi)才能get的點(diǎn)!因?yàn)槿祟?lèi)有一個(gè)思維習(xí)慣是從具體的圖像里面提取出抽象的意義,這種不確定性是我們AI目前尚不能理解的。所以,暫時(shí)只能分析下貓貓狗狗了。