從《終結(jié)者》到《變形金剛》,理想中的機(jī)器人擁有強(qiáng)大的視覺系統(tǒng)。它們可以在“看”到物體時(shí)獲取其3D簡圖,并進(jìn)行一系列的備注,夜視和紅外線掃描之類的技術(shù),更是不在話下。不要覺得這只是科幻電影里的濫俗橋段,通過攝像頭來獲取外界信息,是它們的第一命門。如果發(fā)展到了今天,一臺(tái)AI只能根據(jù)人類操作者輸入的信息來進(jìn)行下一步動(dòng)作,那它就是個(gè)徹頭徹尾的失敗作品。
把人眼的工作交給攝像頭?這聽起來就是一個(gè)不可能的任務(wù)。除了5.76億像素和1600萬像素的硬件差異外,人眼對環(huán)境的感知能力也絕非機(jī)器能比。舉個(gè)最簡單的例子,當(dāng)你看到一條哈士奇時(shí),可以在一瞬間判斷出它的品種,這并不僅僅是視網(wǎng)膜成像的功勞。而機(jī)器人要想擁有視覺成像系統(tǒng),還需要傳導(dǎo)神經(jīng)和記憶皮層。但這也只解決了“看”的問題,如何把看到的圖像轉(zhuǎn)換成有用的信息,并完成之后的判斷,才是難點(diǎn)所在。
一套完整的計(jì)算機(jī)視覺系統(tǒng),關(guān)鍵技術(shù)點(diǎn)在于圖像處理系統(tǒng)。它會(huì)根據(jù)拍攝物的像素點(diǎn)分布、色調(diào)等信息,轉(zhuǎn)化成具體的數(shù)字化信息。Facebook就植入了一種全新的技術(shù),可以將朋友圈中的照片“讀”出來。最初它只會(huì)告訴你照片發(fā)布者是誰,現(xiàn)在則會(huì)把圖片上的內(nèi)容描述出來,“有樹,有河流,有霞光,看上去是一張旅途風(fēng)景照”。這個(gè)功能的當(dāng)下意義,在于幫助有視障問題的人刷朋友圈。而微軟方面則將其和“視覺”進(jìn)行了深入整合。他們研發(fā)了一個(gè)名為Seeing AI的組件,將之放置到太陽鏡上時(shí),可以在掃描完畢周圍環(huán)境后,提取出各種特征,對具體事物作出判斷,然后用語音播報(bào)的形式,把環(huán)境描述給盲人。
如果把AI視覺看作一個(gè)單獨(dú)的功能,那目前對其需求最為迫切的,當(dāng)屬無人駕駛領(lǐng)域。通用集團(tuán)和特斯拉兩大美國汽車公司,分別投入重金收購了初創(chuàng)公司Cruise和Mobileye。以Cruise為例,他們所提供的無人駕駛系統(tǒng)包括兩個(gè)攝像頭、一套GPS系統(tǒng)、慣性計(jì)算器、行車電腦,這就相當(dāng)于一個(gè)閉環(huán)的人工視覺系統(tǒng)了。而為了讓信息采集變得更為豐富,它們還配備了測距雷達(dá)裝置。
把畫面即時(shí)呈現(xiàn)給我們并不困難,難的是人工智能親自看懂畫面中的一切。目前來看,它們在這一方向上已經(jīng)起步了,但成本控制仍然是最大的難題。