人類和部分動物都具有一種數(shù)量感知能力,不需要刻意數(shù)數(shù),就能憑借視覺對數(shù)量多少得出一個基本判斷,甚至直接抽象出具體數(shù)量。比如一張圖片中有四個蘋果和四只狗,人類在觀察圖片并識別蘋果和狗的過程中,大腦自然而然就能形成 “兩類物體都有四個” 這樣的抽象概念。
雖然這種數(shù)感能力的準確率會隨著數(shù)量級的上升而下降——我們很難憑感覺判斷圖片中有100只狗,還是98只——但是在一張有98只狗和50個蘋果的圖片中,我們依然可以對誰多誰少有一個大致準確的概念。
更重要的是,這種能力似乎源自于大腦中的視覺感知區(qū)域,其中的神經(jīng)元在受到視覺刺激的情況下,也可以同時激活一部分數(shù)感機制。
那么問題來了,我們發(fā)明的人工智能(AI),尤其是所謂的模擬大腦工作機制的神經(jīng)網(wǎng)絡,是否也具備這種能力呢?換言之,一個受到視覺訓練的神經(jīng)網(wǎng)絡,是否可以形成類似的數(shù)感機制?
近日,來自德國和美國的科學家就這一問題展開了研究,得出的結(jié)論是肯定的。他們在訓練圖像分類AI系統(tǒng)時發(fā)現(xiàn),一些神經(jīng)元的激活模式與猴腦神經(jīng)元處理數(shù)量信息時的激活模式非常相似,而且它們甚至還發(fā)展出了對特定數(shù)字的偏好,足以說明神經(jīng)網(wǎng)絡可以從圖像中抽象出數(shù)量信息。
也就是說,在沒有進行專門數(shù)數(shù)訓練的情況下,神經(jīng)網(wǎng)絡僅憑視覺信息,就在一定程度上“發(fā)展出”了如何從中獲得數(shù)量信息,產(chǎn)生了類似于人類和動物的數(shù)量感知能力。
證實數(shù)感能力的存在,或許可以證明我們對生物智能的復制在某些方面是富有成效的。該研究成果發(fā)表于期刊《Science Advances》上。
看一眼就知道有幾十只狗
剛剛提到,現(xiàn)有神經(jīng)網(wǎng)絡結(jié)構是嘗試模擬人腦運作機制的產(chǎn)物,但計算機和人類的“腦回路”截然不同。
我們都知道,相比買菜找零都要算上幾秒鐘的人類,計算機的計算能力可以說是碾壓般的存在,每秒鐘可以完成上億次的運算,還能保證相當高的精確度。當然,這也是我們發(fā)明它的目的。
不過,人類的強大之處在于,可以通過直覺感知場景中物體的數(shù)量,還具有很強的抗干擾和類比能力,計算機卻必須收到確切的計算指令,比如給出圖片中狗的數(shù)量,才能開始執(zhí)行任務。
這種對于數(shù)量的感知能力也被稱為“數(shù)量感”,指的是快速理解、估計和產(chǎn)生數(shù)量,并對數(shù)量進行表征以及理解數(shù)量間關系的能力。
研究顯示,人類和動物的大腦中存在特殊神經(jīng)元,能夠?qū)?shù)量和數(shù)值產(chǎn)生反應。因此通過視覺刺激,我們可以對物體特征進行抽象并表征其數(shù)量信息,甚至不受物體大小、顏色和形狀的影響。
遵循這一思路,德國和美國的研究人員將目光轉(zhuǎn)換到神經(jīng)網(wǎng)絡上,看看是否可以從中挖掘出類似的神經(jīng)元觸發(fā)機制。
訓練識別物體的HCNN 模型(英文圖示)
他們選擇了受生物特性啟發(fā)而成的分層卷積神經(jīng)網(wǎng)絡(HCNN)作為實驗對象。該模型廣泛使用于計算機視覺應用中,由多個前饋層和視網(wǎng)膜拓撲結(jié)構層組成,層中的每個網(wǎng)絡單元都可以模擬不同類型的視覺神經(jīng)元。
整個模型包含兩套網(wǎng)絡:一個是特征提取網(wǎng)絡,可以將自然圖像轉(zhuǎn)化成(特征的)高級表示;另一個是圖像分類網(wǎng)絡,負責歸納和總結(jié)特征,將圖像按可能性分成不同類別。這兩個網(wǎng)絡包含了卷積層和池化層。
模型構建完成后,研究人員使用了知名的ImageNet數(shù)據(jù)集進行圖像分類訓練,其中約有120萬張圖像。訓練過程與數(shù)量感知毫無關系,HCNN只是學習普通的圖像分類任務,其分類準確率約為49.9%。
隨后,為了搞清楚神經(jīng)元的激活方式,并且判斷是否存在數(shù)感機制,他們移除了圖像分類網(wǎng)絡,僅保留了特征提取網(wǎng)絡,而且模型的輸入圖片也從 ImageNet 變成了特制圖片。
研究團隊開發(fā)了三組用來刺激神經(jīng)元的圖像集,每一組都包含30張黑色圖片,上面分別有1-30個白點。第一組的每張圖片由大小不一的圓點組成。第二組每張圖片上所有圓點的總面積相同,因此隨著白點數(shù)量的增加,每個點的大小都會縮小。而第三組則包含了多種形狀,比如圓形,方形和三角形等。
數(shù)字不同神經(jīng)元有自己“喜歡”和“不感興趣”的數(shù)字
之所以選擇這些圖片,是因為它們幾乎沒有類別可言,不適合進行圖像分類??墒侨绻麑⑺鼈兎湃氲紿CNN分類模型中,得到反饋結(jié)果,研究人員就可以更好地查看神經(jīng)元的激活方式是否與數(shù)感機制相關。
通過雙向方差分析(ANOVA),他們可以篩選出那些對數(shù)量敏感的網(wǎng)絡單元,同時避免對神經(jīng)元的刺激和交互過程造成較大影響。最終,在超過3.7萬個神經(jīng)元中,有3601個神經(jīng)元(約 9.6%)出現(xiàn)了數(shù)字選擇性,即出現(xiàn)了對某個數(shù)字的偏好,對相應的視覺刺激(圖片)產(chǎn)生了反應。
具體來說,一個神經(jīng)元只會對一個數(shù)字的刺激展現(xiàn)出最大的“反應”,就好像是它“最喜歡的數(shù)字”一樣。它的“反應”還會隨著數(shù)字的不斷變化而逐漸衰退,兩個數(shù)字相差越大,“反應”的衰減就越明顯。
舉個例子,一個“最喜歡”數(shù)字四的神經(jīng)元,就會對一張包含四個白點的圖像展現(xiàn)出最激烈的“反應”。如果給它看包含12個白點的圖片,它就會展現(xiàn)出不那么激烈的“反應”。如果再增加到30個白點,它甚至都不會有什么“反應”。
將所有數(shù)據(jù)以曲線的形式表達出來后,研究人員發(fā)現(xiàn),神經(jīng)網(wǎng)絡中神經(jīng)元的激活模式與猴腦神經(jīng)元的激活模式高度相似,就連兩種神經(jīng)元的喜好分布規(guī)律都非常相近:更多的神經(jīng)元偏好小數(shù)字,其次是最大的數(shù)字,最后才是中間的數(shù)字,其中對0~5之間數(shù)字產(chǎn)生“反應”的神經(jīng)元甚至超過六成。
這意味著,一套經(jīng)過視覺訓練的圖像分類神經(jīng)網(wǎng)絡,在沒有接受任何計數(shù)訓練和計算指令的情況下無師自通,其中的神經(jīng)元對不同數(shù)字發(fā)展出了不同的敏感度,運作機制跟人類和動物大腦的數(shù)感機制十分相似。
該實驗結(jié)果證明,數(shù)感能力天然存在于視覺系統(tǒng)的運作機制當中,伴隨著獲取視覺信息和視覺刺激,數(shù)量感就會以副產(chǎn)品的形式自然而然地出現(xiàn)。這或許也可以解釋為什么在未經(jīng)訓練的情況下,嬰幼兒和野生動物都會展現(xiàn)出數(shù)感。不過雖然數(shù)感能力可能是天生的,但它也是可以通過后天訓練不斷加強的,兩者并不沖突。
另一方面,這項研究也證明了我們對神經(jīng)網(wǎng)絡的運作機制并非完全了解,仍然有尚未發(fā)現(xiàn)的特征提取模式,比如提取不存在于圖像分類訓練中的高級數(shù)字特征,卻與人腦的數(shù)感機制類似,說明我們創(chuàng)造的神經(jīng)網(wǎng)絡可能比我們想象的更像人腦。
下一步,研究團隊打算嘗試更多類似的研究,試圖挖掘出更多未知的神經(jīng)網(wǎng)絡運作機制,比如它會如何對待按數(shù)量多少順序排列的物體,能否建立起與人腦類似的時間感知機制。這也是人類在計數(shù)過程中所使用的能力:理解 “每個數(shù)字都是前面數(shù)字+1”這樣的抽象概念,而不是單純地將每個數(shù)字視為獨立個體。(摘自美《深科技》)(編輯/華生)