杜長(zhǎng)德,周瓊怡,劉澈,何暉光, 3*
1. 中國(guó)科學(xué)院自動(dòng)化研究所腦圖譜與類腦智能研究中心, 北京 100190; 2. 中國(guó)科學(xué)院自動(dòng)化研究所多模態(tài)人工智能系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室, 北京 100190; 3. 中國(guó)科學(xué)院大學(xué)人工智能學(xué)院, 北京 100049
視覺是人類感知和理解外部世界的最重要途徑之一。視覺系統(tǒng)作為人類和外部世界進(jìn)行交互的橋梁,能夠穩(wěn)定、高效、魯棒地處理復(fù)雜的視覺刺激信息,具有當(dāng)前計(jì)算機(jī)視覺所無法比擬的優(yōu)越性?;诠δ艽殴舱癯上?(functional magnetic resonance imaging, fMRI) 等神經(jīng)影像的視覺神經(jīng)信息編解碼是理解、破譯和模擬大腦視覺系統(tǒng)運(yùn)作機(jī)制的重要研究途徑,對(duì)于類腦智能技術(shù)的發(fā)展具有重要意義。
視覺神經(jīng)信息編碼以大腦視覺感知機(jī)制為基礎(chǔ),通過建立大腦視覺信息處理的計(jì)算模型來描述大腦對(duì)外界刺激的響應(yīng)過程,以實(shí)現(xiàn)對(duì)大腦活動(dòng)的預(yù)測(cè)。其中計(jì)算模型的輸入是圖像刺激,輸出為大腦對(duì)圖像刺激的響應(yīng)。研究視覺神經(jīng)信息編碼,對(duì)于探索大腦視覺信息加工機(jī)制,提高人工視覺模型的感知和認(rèn)知能力具有重要意義。與此相反,視覺神經(jīng)信息解碼則主要通過分析腦信號(hào)數(shù)據(jù),從中找到其與外界視覺刺激的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)利用腦信號(hào)對(duì)外界視覺刺激進(jìn)行分類、辨識(shí)或重建(參見圖1)。
圖1 視覺神經(jīng)信息編碼與解碼
視覺神經(jīng)信息編解碼模型是建立在統(tǒng)計(jì)機(jī)器學(xué)習(xí)框架上的(參見圖2)?;?fMRI 數(shù)據(jù)的視覺神經(jīng)信息編解碼通過測(cè)量被試大腦的血氧水平依賴性 (blood-oxygen-level-dependent, BOLD) 信號(hào),得到一系列3維腦圖像,每個(gè)3維腦圖像都包含上萬個(gè)體素(對(duì)應(yīng)于2維圖像中的像素),每個(gè)體素的信號(hào)對(duì)應(yīng)于該區(qū)域內(nèi)神經(jīng)元活動(dòng)所引起的 BOLD 信號(hào)。在視覺神經(jīng)信息解碼研究中,多體素模式分析 (multi-voxel pattern analysis, MVPA) 方法將大腦中的多體素激活模式看做高維空間(不同體素的響應(yīng)代表不同的維度)中的一個(gè)樣本點(diǎn),利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法解碼多體素激活模式中所蘊(yùn)含的信息。在統(tǒng)計(jì)機(jī)器學(xué)習(xí)中,估計(jì)條件概率P(y|x)的模型是判別式模型,而估計(jì)聯(lián)合分布P(x,y)的模型是生成式模型。被訓(xùn)練用來從一個(gè)變量x預(yù)測(cè)另一個(gè)變量y的模型是有監(jiān)督模型,而估計(jì)單個(gè)變量分布的模型是無監(jiān)督模型?,F(xiàn)有的視覺神經(jīng)信息編解碼研究工作大都可以歸納到上述范疇中的一種。
圖2 視覺神經(jīng)信息編解碼與統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法間的關(guān)系
無論是視覺神經(jīng)信息編碼還是解碼研究都依賴于“視覺刺激—大腦響應(yīng)”成對(duì)數(shù)據(jù)?,F(xiàn)有方法大都是基于數(shù)據(jù)驅(qū)動(dòng)的原理,通過訓(xùn)練數(shù)學(xué)模型來擬合成對(duì)數(shù)據(jù)的輸入和輸出之間的關(guān)系來確定的。下面從視覺神經(jīng)信息編碼、視覺神經(jīng)信息解碼、公開數(shù)據(jù)集、度量指標(biāo)、挑戰(zhàn)以及未來展望等角度對(duì)該領(lǐng)域進(jìn)行綜述。
隨著對(duì)神經(jīng)元信息編碼機(jī)制研究的不斷深入,以視覺感知為目的、信息處理為過程的計(jì)算模型,推動(dòng)了人們對(duì)大腦視覺系統(tǒng)的探索與認(rèn)知。一方面,研究視覺系統(tǒng)結(jié)構(gòu)特性以及視覺皮層編碼特性,探索神經(jīng)機(jī)制在不同層次上的運(yùn)作規(guī)律,將有助于揭示大腦的運(yùn)作機(jī)理,特別是大腦感知、學(xué)習(xí)和記憶等高級(jí)功能;另一方面,視覺系統(tǒng)高效、魯棒地處理外界信息的能力,啟發(fā)了信息科學(xué)的研究。模擬視覺系統(tǒng)結(jié)構(gòu)和視覺皮層編碼特性,開發(fā)新一代類腦計(jì)算模型,將大幅度提高機(jī)器智能處理視覺信息的能力。因此,視覺信息編碼機(jī)制的研究不僅是腦科學(xué)、神經(jīng)科學(xué)的研究熱點(diǎn),也逐漸成為信息科學(xué)領(lǐng)域的一個(gè)重要研究方向。
近年來,圖像物體識(shí)別方面的突破進(jìn)展,進(jìn)一步激發(fā)了人們研究深度學(xué)習(xí)的熱情。神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的特征提取能力和非線性函數(shù)刻畫能力,已經(jīng)在計(jì)算機(jī)視覺、自然語(yǔ)言處理等領(lǐng)域取得了飛躍性的進(jìn)展。尤其在視覺信息處理領(lǐng)域,神經(jīng)網(wǎng)絡(luò)層次化的網(wǎng)絡(luò)結(jié)構(gòu)、神經(jīng)元感受野的逐層增加機(jī)制,都與視覺系統(tǒng)編碼特性有很強(qiáng)的相似性。深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于視覺信息編碼模型中,有望更加精細(xì)地刻畫大腦視覺皮層的信息處理過程,進(jìn)一步促進(jìn)現(xiàn)階段視覺信息編碼模型的研究和揭示大腦視覺系統(tǒng)的運(yùn)作規(guī)律。同時(shí),隨著腦成像技術(shù)的不斷進(jìn)步,fMRI憑借著極高的空間分辨率和良好的時(shí)間分辨率,成為觀測(cè)大腦活動(dòng)的主要工具,推動(dòng)了視皮層信息處理研究的發(fā)展。
基于fMRI的視覺信息編碼模型是描述大腦對(duì)于外界視覺刺激如何響應(yīng)的計(jì)算模型(如圖3所示)。視覺神經(jīng)編碼研究主要由4個(gè)部分構(gòu)成 (Naselaris等,2011)。第1部分是視覺刺激。這些刺激或是離散的不同類別的刺激圖像,或是連續(xù)的自然圖像,亦可為其他形式的刺激。第2部分是刺激的特征提取。不同的特征反映不同的圖像所包含的視覺信息,可以通過卷積神經(jīng)網(wǎng)絡(luò)、Gabor濾波器等方法提取。第3部分是大腦中的感興趣區(qū)域。這些區(qū)域中包含參與建立模型的體素,能夠產(chǎn)生對(duì)刺激圖像的響應(yīng)。第4部分是估計(jì)模型參數(shù)的算法,通常是采用線性回歸。完整的視覺信息編碼模型的計(jì)算過程主要由兩個(gè)映射構(gòu)成:第1個(gè)映射是從刺激空間到特征空間的映射,是非線性映射;第2個(gè)映射是特征空間到體素空間的映射,通常是線性映射。
圖3 基于fMRI的視覺神經(jīng)信息編碼模型
視覺信息編碼模型研究方式主要有兩種:體素感受野模型 (receptive field, RF) (Kay等,2008)和表征相似性分析方法(representational similarity analysis, RSA) (Kriegeskorte等,2008)。體素感受野模型基于體素構(gòu)建視覺信息編碼模型,代表性工作是Kay等人(2008)的工作,利用金字塔結(jié)構(gòu)的Gabor基函數(shù)來模擬視覺區(qū)域簡(jiǎn)單細(xì)胞的感受野, 再經(jīng)過投影計(jì)算得到Gabor感受野編碼模型。該模型成功模擬了從圖像到腦激活模式的構(gòu)建過程,實(shí)現(xiàn)了對(duì)視覺刺激圖像的預(yù)測(cè)。表征相似性分析方法是一種高階數(shù)據(jù)分析方法,能夠?qū)崿F(xiàn)不同模態(tài)數(shù)據(jù)之間的比較分析 (Kriegeskorte等,2008)。其核心為表征差異性矩陣(representational dissimilarity matrix, RDM)。利用表征差異性矩陣作為某個(gè)腦區(qū)對(duì)視覺刺激響應(yīng)的標(biāo)簽,通過計(jì)算不同矩陣之間的關(guān)系可以分析大腦的不同腦區(qū)對(duì)于相同視覺刺激的不同激活模型,亦可分析某個(gè)腦區(qū)的不同計(jì)算模型之間的差異性。
由于fMRI的體素信號(hào)測(cè)量的是許多神經(jīng)元的匯集響應(yīng),因此這些模型通常又稱為群體感受野(population receptive field,pRF) 模型。如圖4所示,我們重點(diǎn)關(guān)注這個(gè)特別活躍的研究領(lǐng)域,即使用pRF建立視覺神經(jīng)信息編碼模型,來描述人類視覺皮層在各種任務(wù)中對(duì)一系列刺激的響應(yīng)過程。下面主要介紹幾個(gè)經(jīng)典建模方法。
圖4 基于fMRI的視覺神經(jīng)信息編碼發(fā)展歷程
1) OG模型。2008年,Dumoulin和Wandell(2008)提出了單高斯 (one Gaussian, OG) pRF估計(jì)方法,這種方法第一次利用fMRI來構(gòu)建視皮層群體感受野模型,定量地測(cè)量了人類視覺皮層群體感受野的屬性。實(shí)驗(yàn)者測(cè)量了一系列視野位置處由顯式對(duì)比度定義的環(huán)和楔的響應(yīng),用來估計(jì)每個(gè)體素產(chǎn)生最大fMRI響應(yīng)的視野位置。該模型將感受野形狀在視野中建模為圓對(duì)稱(各向同性)高斯模型,組合刺激位置進(jìn)而預(yù)測(cè)fMRI響應(yīng)。這種pRF估計(jì)方法將毫米級(jí)的fMRI測(cè)量與微米尺度的神經(jīng)元特性聯(lián)系起來,減少了功能磁共振成像和電生理學(xué)之間的差距。
2) DOG模型。2012年,Zuiderbaan等人(2012)在pRF結(jié)構(gòu)上做出了進(jìn)一步的拓展,將原先的二元單高斯模型拓展成二元雙高斯模型。由于經(jīng)典感受野區(qū)域的刺激響應(yīng)能夠被在其他感受野區(qū)域的刺激所抑制,會(huì)降低功能磁共振幅度(通常稱降低到基線以下的幅度為“負(fù)面”響應(yīng)或抑制)。因此,Zuiderbaan等人(2012)設(shè)計(jì)出了雙高斯模型,使用圓對(duì)稱高斯差 (difference-of-Gaussians, DOG) 函數(shù),即通過在OG模型上增加一個(gè)負(fù)高斯函數(shù),可以允許pRF分析捕獲低于基線和環(huán)繞抑制的fMRI信號(hào)。考慮了環(huán)繞抑制的DOG模型顯示出了fMRI數(shù)據(jù)擬合上的進(jìn)步,在生物學(xué)上更合理地表征了pRF結(jié)構(gòu),進(jìn)一步提高了視覺信息編碼的性能。
3) Topography模型。2013年,Lee等人(2013)提出了一種新的數(shù)據(jù)驅(qū)動(dòng)方法來估計(jì)pRF的結(jié)構(gòu)。pRF結(jié)構(gòu)建模為結(jié)構(gòu)向量,對(duì)于每個(gè)體素,可以通過求解一系列線性模型從fMRI時(shí)間序列中來估計(jì)結(jié)構(gòu)向量。估計(jì)完整的pRF拓?fù)浣Y(jié)構(gòu)后,通過設(shè)計(jì)閾值,模型選擇了中心區(qū)域內(nèi)的結(jié)構(gòu)向量,然后再用二元高斯函數(shù)去擬合,得出最佳中心位置。這種方法沒有對(duì)具體的pRF形狀做出先驗(yàn)假設(shè),因此是揭示不同空間位置的潛在pRF結(jié)構(gòu)的有用工具。由于該模型先估計(jì)pRF的拓?fù)浣Y(jié)構(gòu),所以它可以更好地優(yōu)化模型中pRF中心落在刺激空間之外的體素。
4) 貝葉斯pRF模型。2018年,Zeidman等人(2018)提出了貝葉斯群體感受野估計(jì)模型,提供了一個(gè)處理任意維度刺激的通用框架。這個(gè)框架將感受野模型建為一個(gè)多元正態(tài)分布,對(duì)于分布中的參數(shù)進(jìn)行約束是通過給每個(gè)參數(shù)引入給定先驗(yàn)分布的潛在變量。僅對(duì)參數(shù)空間的采樣,就可以估計(jì)出先驗(yàn)條件下的pRF。隨著觀測(cè)數(shù)據(jù)的進(jìn)入,參數(shù)先驗(yàn)概率密度的估計(jì)轉(zhuǎn)化為后驗(yàn)概率,樣本信息逐漸修正了參數(shù)的初始估計(jì)值。貝葉斯方法的關(guān)鍵優(yōu)點(diǎn)是估計(jì)每個(gè)參數(shù)的不確定性(方差)以及參數(shù)之間的協(xié)方差。貝葉斯群體感受野模型不會(huì)對(duì)pRF參數(shù)施加強(qiáng)烈的先驗(yàn),而是將它們保持在合理的范圍內(nèi)。這種合理的約束使其能夠調(diào)整參數(shù)和演變來驗(yàn)證兩個(gè)重要問題:1)體素的反應(yīng)是用單一多元正態(tài)分布 (OG) 還是具有興奮中心和抑制環(huán)繞的高斯差模型 (DOG);2)感受野的形狀是圓形、橢圓形還是旋轉(zhuǎn)的橢圓形。
5) fwRF模型。2018年,St-Yves和Naselaris(2018)提出了特征加權(quán)感受野模型 (feature-weighted receptive field, fwRF),這個(gè)模型有3個(gè)成分:特征圖、權(quán)重向量和特征采樣區(qū)域。關(guān)鍵假設(shè)是每個(gè)體素的活躍都跨越多個(gè)特征圖來在空間局部區(qū)域編碼差異,對(duì)所有特征層而言這個(gè)區(qū)域是固定的。這個(gè)模型構(gòu)建各向同性2維高斯的特征采樣區(qū)域,在自然圖像形成的每個(gè)特征圖中采樣整合,通過采用最小誤差平方和函數(shù),對(duì)每個(gè)體素最優(yōu)化特征圖層權(quán)重和高斯采樣區(qū)域的參數(shù),形成最合適的編碼模型。該模型利用pRF的大小和特征采樣區(qū)域的大小之間的關(guān)系,刻畫了初級(jí)視覺皮層中群體感受野分布。當(dāng)這種方法應(yīng)用于具有數(shù)千個(gè)特征圖層的深度神經(jīng)網(wǎng)絡(luò)時(shí),所得到的編碼模型在視覺系統(tǒng)中大多數(shù)體素的預(yù)測(cè)精度高于相比的編碼模型。
6) “What”&“Where”模型。2020年,基于層次化深度特征的感受野模型研究深度學(xué)習(xí)和大腦視覺通路之間的關(guān)系,Wang等人(2021)開發(fā)了可解釋性強(qiáng)的“What”和“Where”編碼模型,從兩個(gè)角度對(duì)大腦視覺通路進(jìn)行解釋。“What”指的是研究大腦視覺處理通道會(huì)產(chǎn)生什么類型的特征,“Where”指的是研究大腦神經(jīng)元的群體感受野位置在哪。為了自動(dòng)學(xué)習(xí)到每個(gè)體素的感受野位置及形狀,作者使用了帶有拉普拉斯正則化約束的稀疏線性回歸模型。模型的輸入是多層次深度特征的加權(quán)組合,擬合目標(biāo)是各個(gè)體素的響應(yīng)信號(hào)。層次化特征的組合系數(shù)即可反映體素編碼過程中的“What”信息。最終,編碼訓(xùn)練使得各個(gè)腦區(qū)的每個(gè)體素會(huì)對(duì)層次化的深度特征產(chǎn)生選擇效應(yīng),根據(jù)此體素對(duì)深度特征所在層的選擇傾向和體素所屬的感興趣區(qū)域 (regions of interest,ROI),可以定量分析深度神經(jīng)網(wǎng)絡(luò)和大腦視覺通路之間的對(duì)應(yīng)關(guān)系。該模型不僅有效利用了深度神經(jīng)網(wǎng)絡(luò)的層次化表征而且符合神經(jīng)科學(xué)對(duì)大腦視覺通路研究的基本結(jié)論,具有較好的編碼效果和可解釋性。
近年來,隨著人工智能技術(shù)的不斷進(jìn)步,基于fMRI的神經(jīng)信息解碼研究也得到了快速發(fā)展。如圖5所示,目前國(guó)內(nèi)外已經(jīng)有很多視覺神經(jīng)信息解碼方面的研究,涵蓋了對(duì)初級(jí)視覺特征(方向、對(duì)比度)、中級(jí)視覺特征(輪廓)以及高級(jí)視覺特征(語(yǔ)義)的分類、辨識(shí)和重建。
圖5 基于fMRI的視覺神經(jīng)信息解碼發(fā)展歷程
基于功能磁共振成像的多標(biāo)簽語(yǔ)義解碼是一項(xiàng)有挑戰(zhàn)性的任務(wù),具有重要的科學(xué)意義和應(yīng)用價(jià)值。從機(jī)器學(xué)習(xí)方法角度來講,語(yǔ)義解碼是一個(gè)單標(biāo)簽或者多標(biāo)簽 (multi-label learning, MLL) 的分類問題。簡(jiǎn)單的圖像刺激只包含單個(gè)物體,復(fù)雜的圖像刺激中往往含有多個(gè)語(yǔ)義標(biāo)簽,如一幅圖像中可能同時(shí)含有花、水、樹木和汽車等。根據(jù)大腦信號(hào),預(yù)測(cè)出圖像刺激的一個(gè)或多個(gè)標(biāo)簽即為語(yǔ)義解碼。早在2001年,Haxby等人(2001)利用MVPA方法成功實(shí)現(xiàn)了根據(jù) fMRI 信號(hào)對(duì)呈現(xiàn)給被試者的8個(gè)不同類別的圖像進(jìn)行分類。Kamitani和Tong(2005)將不同方向的條紋作為視覺刺激,根據(jù) fMRI 信號(hào)實(shí)現(xiàn)了對(duì)不同條紋刺激的分類,也證明了在初級(jí)視覺區(qū)域含有外界圖像刺激的信息。Norman等人(2006)通過給被試者觀看不同種類物品,采集相應(yīng)的任務(wù)態(tài) fMRI 數(shù)據(jù),并使用其訓(xùn)練支持向量機(jī) (support vector machine, SVM) 模型,用于最終的分類任務(wù)。SVM 在解決小樣本、非線性和高維模式識(shí)別問題方面有明顯的優(yōu)勢(shì)。Schmah等人(2008)基于 fMRI 數(shù)據(jù)首次使用受限玻爾茲曼機(jī) (restricted Boltzmann machine, RBM) 實(shí)現(xiàn)了大腦狀態(tài)的解碼。Huth等人(2012)研究了大腦對(duì)于動(dòng)態(tài)視覺刺激中的1 000多種物體和行為類別的語(yǔ)義表征空間,探索了語(yǔ)義在大腦皮層上的分布地圖。Stansbury 等人(2013)使用基于隱含狄利克雷分配 (latent Dirichlet allocation, LDA) 的神經(jīng)編解碼方法研究人腦如何聚合有關(guān)對(duì)象的信息來表示場(chǎng)景類別。Huth等人(2016)利用層次邏輯回歸模型以及 WordNet 數(shù)據(jù)庫(kù)成功地從大腦信號(hào)中解碼出了動(dòng)態(tài)視覺刺激中包含的多種語(yǔ)義及語(yǔ)義之間的關(guān)聯(lián)信息。
上述語(yǔ)義解碼工作大多是基于單標(biāo)簽的,語(yǔ)義信息單一,而現(xiàn)實(shí)世界的視覺刺激往往包含多個(gè)物體的信息。研究人腦對(duì)于復(fù)雜視覺刺激的感知和解碼,尤其是考察大腦如何對(duì)多個(gè)物體進(jìn)行同時(shí)表征對(duì)于研究人腦視覺加工機(jī)制具有重要意義。Li等人(2018)提出了多標(biāo)簽語(yǔ)義解碼方法,用于從大腦信號(hào)中解讀多種共生的語(yǔ)義。此外,針對(duì)單被試小樣本的問題,Li等人(2021)還提出了基于多模態(tài)對(duì)抗學(xué)習(xí)的多被試數(shù)據(jù)增廣方法。該方法基于子空間和多個(gè)生成對(duì)抗網(wǎng)絡(luò)將目標(biāo)被試少量數(shù)據(jù)與其他被試數(shù)據(jù)相結(jié)合,有效地克服了單被試樣本數(shù)目少和多被試差異大的問題,提高了單被試的解碼精度。在多標(biāo)簽語(yǔ)義解碼研究中,現(xiàn)有方法主要集中在標(biāo)簽學(xué)習(xí)上,忽略了樣本本身所包含的信息量,尤其是腦數(shù)據(jù),從而限制了方法的性能。另外,大腦信號(hào)的多標(biāo)簽標(biāo)注也是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作。針對(duì)這些問題,Li等人(2022)提出了一種基于模態(tài)輔助和協(xié)同訓(xùn)練的半監(jiān)督多標(biāo)簽神經(jīng)解碼方法。該方法利用成對(duì)有標(biāo)簽的圖像模態(tài)和腦信號(hào)模態(tài)(非圖像模態(tài))以及大量的非成對(duì)無標(biāo)簽的互聯(lián)網(wǎng)圖像數(shù)據(jù)進(jìn)行多標(biāo)簽識(shí)別,從而利用圖像模態(tài)來輔助腦信號(hào)模態(tài)進(jìn)行多標(biāo)簽學(xué)習(xí)。
基于腦信號(hào)解碼的圖像檢索也是一類常見的視覺解碼任務(wù)。簡(jiǎn)單地說,就是利用創(chuàng)建的模型和fMRI,通過解碼模型,檢索出一個(gè)人剛剛所看到的圖片。主要有兩種思路解決這一問題。
2.2.1 基于編碼模型的圖像檢索
Kay等人(2008)首先建立神經(jīng)編碼模型,然后將大量候選圖像依次輸入到神經(jīng)編碼模型,根據(jù)編碼模型的預(yù)測(cè)結(jié)果和待解碼腦信號(hào)之間的相關(guān)性來確定哪幅圖像更有可能是激發(fā)該腦信號(hào)的刺激。首先給被試者看一千余幅圖像,記錄他們每一次的磁共振功能成像,然后從這一千余次圖像和腦信號(hào)的成對(duì)數(shù)據(jù)中估計(jì)出一套比較普適的規(guī)律,這一步叫做模型估計(jì)。接下來就要將這套規(guī)律運(yùn)用于全新的一套圖像上,預(yù)測(cè)出被試者看到這其中每幅新圖像的大腦反應(yīng)是什么樣子。當(dāng)被試者看到一幅新圖像,測(cè)試者并不知道是哪一幅,但是可以把受試者腦信號(hào)的記錄與之前的預(yù)測(cè)相比較,選取預(yù)測(cè)值與本次實(shí)測(cè)值最相近的一幅圖像,也就是“推測(cè)”被試者所看到的究竟是哪一幅圖像。
2.2.2 基于解碼模型的圖像檢索
Horikawa和Kamitani(2017)首先根據(jù)圖像特征—大腦信號(hào)成對(duì)數(shù)據(jù)集訓(xùn)練一個(gè)特征解碼器,這可以將腦信號(hào)轉(zhuǎn)換為圖像特征,如采用卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征,然后根據(jù)解碼得到的特征與候選圖像的特征做一一匹配,根據(jù)相關(guān)性大小返回最匹配的圖像。
基于腦信號(hào)解碼的圖像重建,也就是像素級(jí)神經(jīng)解碼問題,是解碼研究中最難的一種。目前的研究在簡(jiǎn)單的字母或數(shù)字圖像上的重建效果較好,在復(fù)雜的自然場(chǎng)景圖像的精確重建方面仍然非常困難,重建效果還有很大提升空間。解決視覺重建問題的思路有兩個(gè)關(guān)鍵步驟:首先利用BOLD信號(hào)變換得到一個(gè)特征表示,然后利用該特征表示通過圖像生成網(wǎng)絡(luò)進(jìn)行圖像像素的預(yù)測(cè),可以分兩階段完成,也可以端到端的方式完成。視覺刺激重建算法在技術(shù)上涉及機(jī)器學(xué)習(xí)中的自編碼器(auto-encoder)架構(gòu)(基于MLP (multilayer perceptron)、CNN(convolutional neural network)或VAE(variational auto-encoder)等)以及利用對(duì)抗學(xué)習(xí)進(jìn)行圖像生成方面的研究(如GAN等)。由于視覺重建問題本質(zhì)上是建立兩個(gè)空間的映射關(guān)系,所以也可以利用CCA(canonical correlation analysis)、多視圖學(xué)習(xí) (multi-view learning, MVL) 等方法??傊@里要建立大腦體素和圖像像素之間的映射關(guān)系,如何建模這個(gè)映射才更好更有效,是研究人員要探索的核心問題。
對(duì)于圖像重建任務(wù),Haynes和Rees(2006)的研究表明可以利用大腦視覺區(qū)域的信號(hào)重建出被試實(shí)際觀察到的刺激圖像。Miyawaki等人(2008)采用了多尺度的思想與多變量重構(gòu)方法,實(shí)現(xiàn)了對(duì)二值幾何圖像視覺刺激的重構(gòu)。Naselaris 等人(2009)利用貝葉斯模型,將語(yǔ)義信息與結(jié)構(gòu)信息作為模型的先驗(yàn)信息,較好地重構(gòu)了自然視覺刺激圖像。Nishimoto等人 (2011)利用運(yùn)動(dòng)能量編碼模型以及貝葉斯模型成功實(shí)現(xiàn)了對(duì)動(dòng)態(tài)影片的粗略重構(gòu)。這項(xiàng)研究的難點(diǎn)在于相對(duì)于緩慢變化的血氧依賴水平而言,動(dòng)態(tài)影片的變化速度很快,大量細(xì)節(jié)信息很難通過血氧依賴水平信號(hào)來恢復(fù)。Fujiwara等人(2013)利用貝葉斯典型相關(guān)分析(Bayesian canonical correlation analysis, BCCA) 建立了從視覺圖像預(yù)測(cè)大腦響應(yīng)及從大腦響應(yīng)預(yù)測(cè)視覺圖像的雙向生成式編解碼模型。Schoenmakers 等人(2013)使用線性模型對(duì)手寫字母進(jìn)行了重建。Cowen等人(2014) 利用主成分分析 (principal component analysis, PCA) 和偏最小二乘回歸方法從 fMRI 腦活動(dòng)中重建出了被試看到的人臉圖像。Wen等人(2018)基于深度神經(jīng)網(wǎng)絡(luò)層次化中間特征實(shí)現(xiàn)了動(dòng)態(tài)自然刺激的編解碼。Gü?lütürk等人(2017)利用回歸方法和生成對(duì)抗網(wǎng)絡(luò)從fMRI 信號(hào)重建出了人看到的人臉圖像。Du等人(2019)首次提出了基于多視圖變分自編碼生成式模型的視覺信息編解碼的研究框架,即假定大腦信號(hào)和外部刺激是由同一隱含變量生成。通過學(xué)習(xí)一個(gè)多視圖變分自編碼器可以建立外部刺激到腦信號(hào)的雙向映射關(guān)系。將視覺信息編解碼問題看做多視圖學(xué)習(xí)中缺失視圖的推斷問題。該方法較好地重建出了人看到的字母圖像信息。Shen等人(2019)首先將大腦信號(hào)解碼到深度神經(jīng)網(wǎng)絡(luò)中層次化的視覺特征,然后利用梯度下降和自然圖像先驗(yàn)成功重建出了選自于 ImageNet 數(shù)據(jù)集的自然圖像。但是這些重建結(jié)果還是較為模糊,且不含語(yǔ)義信息。VanRullen和Reddy(2019)基于VAE和GAN的混合模型也實(shí)現(xiàn)了人臉圖像重建。Fang等人(2020)提出了一個(gè)基于形狀和語(yǔ)義的刺激圖像重建方法,該方法分別從低級(jí)視覺皮層和高級(jí)視覺皮層解碼出形狀和語(yǔ)義表征,然后將形狀和語(yǔ)義信息輸入到圖像生成網(wǎng)絡(luò)中進(jìn)行圖像生成。Du等人(2022)提出了一種新的結(jié)構(gòu)化神經(jīng)信息解碼方法。新研究通過多任務(wù)特征解碼的方式揭示了多個(gè)典型計(jì)算機(jī)視覺模型(如VGG(Visual Geometry Group)、ResNet(residual neural network))與人腦腹側(cè)視覺通路在層次化特征表達(dá)方面的聯(lián)系。通過高效結(jié)構(gòu)化地利用這種層次化特征與人腦視覺皮層信號(hào)表達(dá)之間的關(guān)系,該方法能夠根據(jù)采集到的少量人腦fMRI數(shù)據(jù)清晰地重建出被試所感知到的復(fù)雜自然圖像和人臉刺激內(nèi)容。該方法由兩個(gè)階段組成,即Voxel2Unit和Unit2Pixel。在Voxel2Unit階段,Du等人(2022)首先使用矩陣變量高斯先驗(yàn)來建立結(jié)構(gòu)化多輸出回歸模型,將高維fMRI數(shù)據(jù)解碼到卷積神經(jīng)網(wǎng)絡(luò)的層次化中間單元特征。在Unit2Pixel階段,作者進(jìn)一步建立了自省條件生成模型,將預(yù)測(cè)到的CNN中間特征作為條件反演回對(duì)應(yīng)的視覺圖像。最近,Wang等人(2022)進(jìn)一步利用條件視頻生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)動(dòng)態(tài)自然刺激的重構(gòu),但重建結(jié)果仍面臨輪廓模糊、語(yǔ)義不清晰等問題。為了改善基于VAE模型的圖像重建模糊的問題,Zhou等人(2022a)提出基于可逆歸一化流(normalizing flow, NF)的神經(jīng)編解碼框架,在fMRI信號(hào)上實(shí)現(xiàn)了手寫數(shù)字刺激的重建。
上述fMRI解碼研究表明,深度神經(jīng)網(wǎng)絡(luò)在視覺信息處理方面與人類大腦的視覺處理過程在一定程度上具有類似的表現(xiàn)。因此,深度神經(jīng)網(wǎng)絡(luò)是研究神經(jīng)信息解碼的強(qiáng)有力工具。盡管上述神經(jīng)信息解碼工作已經(jīng)在語(yǔ)義分類、圖像辨識(shí)與重建方面取得了一定的效果,但是該領(lǐng)域仍然處于發(fā)展過程中,尚有很大的提升空間。此外,現(xiàn)有的視覺神經(jīng)信息解碼研究依賴于大量的“視覺刺激—大腦響應(yīng)”成對(duì)數(shù)據(jù),神經(jīng)解碼模型能否取得成功很大程度上取決于數(shù)據(jù)集的大小和質(zhì)量。
視覺神經(jīng)信息編解碼研究中常用的公開數(shù)據(jù)集如表1所示,這些數(shù)據(jù)集為該領(lǐng)域的發(fā)展做出了重要的貢獻(xiàn)。
表1 視覺神經(jīng)信息編解碼研究中常用的公開數(shù)據(jù)集
1) 69 (van Gerven等,2010)。該數(shù)據(jù)集包含一名被試在100幅灰度手寫數(shù)字圖像刺激下的BOLD信號(hào)。每幅圖像以6 Hz的頻率閃爍12.5 s。刺激圖像從MNIST手寫數(shù)字?jǐn)?shù)據(jù)集中挑選,包含50幅手寫數(shù)字6和50幅手寫數(shù)字9,分辨率為28×28 像素。采集設(shè)備為3T MRI采集系統(tǒng),掃描間隔TR=2.5 s,體素尺寸為2 mm×2 mm×2 mm。包含了初級(jí)視覺皮層V1、V2、V3腦區(qū)的體素。
2) BRAINS (Schoenmakers等,2013)。該數(shù)據(jù)集以360幅灰度手寫字母圖像做刺激,包含B、R、A、I、N和S共6種字母,每類字母有60個(gè)樣本,分辨率為56×56 像素。用3T MRI采集系統(tǒng)記錄了共3名被試的BOLD信號(hào),掃描間隔TR=1.74 s,體素尺寸為2 mm×2 mm×2 mm。為了更準(zhǔn)確地估計(jì)被試的BOLD響應(yīng),每個(gè)刺激重復(fù)呈現(xiàn)兩次。包含了初級(jí)視覺皮層V1和V2腦區(qū)的體素。
3) Binary Contrast Patterns (Miyawaki等,2008)。該數(shù)據(jù)集有兩種刺激,一種是440幅隨機(jī)圖像,用于模型訓(xùn)練,每個(gè)刺激重復(fù)呈現(xiàn)20次;一種是包含5種幾何形狀和5種字母的人工圖像,每個(gè)刺激重復(fù)呈現(xiàn)兩次,用于模型測(cè)試。圖像分辨率為10×10 像素。實(shí)驗(yàn)用3T MRI采集設(shè)備記錄了共2名被試的BOLD信號(hào),掃描間隔TR=2 s,體素尺寸為3 mm×3 mm×3 mm。體素來自初級(jí)視覺皮層V1、V2、V3和V4。
4) Vim-1 (Kay等,2008)。該數(shù)據(jù)集的視覺刺激為1 870幅灰度自然圖像,其中訓(xùn)練集的1 750幅圖像重復(fù)呈現(xiàn)2次,測(cè)試集的120幅圖像重復(fù)呈現(xiàn)13次。刺激圖像的分辨率為500×500 像素。采集設(shè)備為4T MRI掃描儀,掃描間隔TR=1 s,體素尺寸為2 mm×2 mm×2 mm。共記錄了兩名被試的V1、V2、V3、V4、V3a、V3b和LO視覺區(qū)的體素。
6) BOLD5000 (Chang等,2019)。該數(shù)據(jù)集是大規(guī)模的人類fMRI數(shù)據(jù)集,包含從主流計(jì)算機(jī)視覺數(shù)據(jù)集,如SUN (Xiao等,2010)、微軟COCO(common objects context) (Lin等,2014)和ImageNet(Deng等,2009)中挑選出的4 916幅自然圖像刺激,囊括了豐富的語(yǔ)義類別。刺激大小為375×375像素,采集設(shè)備為3T核磁共振成像系統(tǒng),TR=2 s,體素尺寸為2 mm×2 mm×2 mm,記錄了4名被試LO、OPA、PPA和RSC腦區(qū)的體素活動(dòng)。
7) Generic Object Decoding (Horikawa和Kamitani,2017)。該數(shù)據(jù)集包括圖像刺激實(shí)驗(yàn)和想象實(shí)驗(yàn)。從ImageNet數(shù)據(jù)集中挑選圖像刺激實(shí)驗(yàn)中的刺激,在12×12°的視角范圍內(nèi)呈現(xiàn)刺激。訓(xùn)練集包含150類的1 200幅圖像,每幅僅呈現(xiàn)一次,測(cè)試集包含50類的50幅圖像,每類一幅圖像,每幅重復(fù)呈現(xiàn)35次。訓(xùn)練集和測(cè)試集的圖像類別不同。想象實(shí)驗(yàn)中被試被要求根據(jù)提示想象測(cè)試集中的某一類圖像。共采集了5名被試的BOLD信號(hào),采集設(shè)備為3T核磁共振成像系統(tǒng),TR=3 s,體素尺寸為3 mm×3 mm×3 mm。體素來自初級(jí)視覺區(qū)V1—V4和高級(jí)視覺區(qū)LOC、FFA和PPA。
8) Deep Image Reconstruction (Shen等,2019)。該數(shù)據(jù)集包括圖像刺激實(shí)驗(yàn)和想象實(shí)驗(yàn)。圖像刺激包括Generic Object Decoding中的刺激 (Horikawa和Kamitani,2017),Miyawaki等人(2008)所用的5種人工形狀與8種顏色構(gòu)成的40種組合,以及10種字母。訓(xùn)練集的1 200幅自然圖像刺激被重復(fù)呈現(xiàn)5次,測(cè)試集的50幅自然圖像刺激、40幅人工形狀刺激和10幅字母刺激分別重復(fù)呈現(xiàn)了24、20和12次。在想象環(huán)節(jié),被試需要根據(jù)提示想象測(cè)試集中的自然刺激或人工形狀刺激。共采集了3名被試的BOLD信號(hào),采集設(shè)備為3T核磁共振成像系統(tǒng),TR=2 s,體素尺寸為2 mm×2 mm×2 mm。記錄了初級(jí)視覺區(qū)V1—V4和高級(jí)視覺區(qū)LOC、FFA、PPA的體素響應(yīng)。
9) Faces (VanRullen和Reddy,2019)。該數(shù)據(jù)集以人臉作為圖像刺激,人臉圖像來自CelebA數(shù)據(jù)集 (Liu等,2015)。為了使被試關(guān)注面孔的信息或者模型易于重建的背景信息,呈現(xiàn)的刺激圖像是原始圖像經(jīng)過VAE-GAN自編碼器后的重建圖像。在每次運(yùn)行中,圖像呈現(xiàn)環(huán)節(jié),每名被試在8×8°的視角內(nèi)被呈現(xiàn)88張訓(xùn)練集人臉和20張測(cè)試集人臉,不同被試的訓(xùn)練集和測(cè)試集都不相交;在想象環(huán)節(jié),被試需要從20張測(cè)試刺激中選出一張人臉進(jìn)行想象。在整個(gè)數(shù)據(jù)采集過程中,平均每名被試觀看8 000多張人臉刺激。采集設(shè)備為3T核磁共振成像系統(tǒng),TR=2 s,體素尺寸為3 mm×3 mm×3 mm,共有4名被試的BOLD信號(hào)。
10) NSD (Allen等,2022)。該數(shù)據(jù)集是大規(guī)模的自然場(chǎng)景刺激fMRI數(shù)據(jù)集,包含73 000幅刺激圖像,這些圖像來自COCO數(shù)據(jù)集(Lin等,2014)。刺激在8.4×8.4°的視角范圍內(nèi)被呈現(xiàn)。在7T磁共振成像系統(tǒng)下,TR=1.6 s,體素尺寸為1.8 mm×1.8 mm×1.8 mm,記錄了8名被試的高空間分辨率、高信噪比的BOLD響應(yīng)。每名被試在40次掃描的過程中總共被呈現(xiàn)10 000幅圖像,每幅重復(fù)呈現(xiàn)3次,其中1 000幅是所有被試共有的刺激,剩余9 000幅刺激在被試間沒有交集。
對(duì)模型編碼表現(xiàn)的度量通常通過逐體素地計(jì)算預(yù)測(cè)誤差或精度,并在全部體素上求平均。常用的評(píng)估單個(gè)體素?cái)M合精度的指標(biāo)有均方誤差 (mean square error, MSE),皮爾遜相關(guān)系數(shù) (Pearson correlation coefficient, PCC),可決系數(shù) (coefficient of determination,R2) 等。
在評(píng)估模型的解碼性能時(shí),主要通過評(píng)估原始刺激圖像和重建圖像的相似度,并在所有樣本上取均值。常用的評(píng)估圖像重建質(zhì)量的指標(biāo)有均方誤差MSE,峰值信噪比 (peak signal to noise ratio, PSNR),皮爾遜相關(guān)系數(shù)PCC以及結(jié)構(gòu)相似性指數(shù)(structural similarity index, SSIM) 等。相比MSE和PCC,SSIM在更高的層面上對(duì)圖像的相似性進(jìn)行了衡量(Wang等,2004)。該指標(biāo)綜合對(duì)比一個(gè)圖像對(duì)的亮度、對(duì)比度和結(jié)構(gòu)。
在神經(jīng)編碼方面,現(xiàn)有研究往往是基于預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的中間層特征建立體素回歸模型。盡管相較傳統(tǒng)的基于Gabor小波特征的編碼方法具有更多的解釋性和更好的效果,但是和真實(shí)的腦響應(yīng)數(shù)據(jù)之間還有很大的擬合誤差,且如何進(jìn)一步減少這種擬合誤差目前仍沒有解決?,F(xiàn)有的視覺神經(jīng)編碼方法還存在以下缺陷:1)計(jì)算模型多基于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)架構(gòu),不能反映真實(shí)的生物視覺加工過程;2)由于每個(gè)人在視覺加工過程的選擇性注意以及fMRI數(shù)據(jù)采集過程中不可避免的噪聲導(dǎo)致個(gè)體差異大;3)fMRI數(shù)據(jù)采集昂貴,對(duì)被試的要求較高,不適合長(zhǎng)時(shí)間采集,因此現(xiàn)有的數(shù)據(jù)集樣本量不足;4)研究者大多基于固定類型的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)(例如AlexNet)來構(gòu)建神經(jīng)編碼模型的特征空間,造成了視覺特征多樣性不足等問題。
在神經(jīng)解碼方面,傳統(tǒng)的基于多體素模式分析的方法直接在高維的 fMRI 體素空間和視覺圖像像素空間建立映射關(guān)系,這種解碼方法很容易造成對(duì)冗余或噪聲體素的過擬合。盡管現(xiàn)有的視覺信息編解碼模型在對(duì)大腦信號(hào)的分類、辨識(shí)任務(wù)上表現(xiàn)良好,但是試圖建立視覺刺激和大腦視覺皮層信號(hào)之間的精確映射關(guān)系仍然非常困難,圖像重建結(jié)果往往不清晰且缺乏明確語(yǔ)義。此外,現(xiàn)有的視覺信息解碼方法大多數(shù)基于對(duì)視覺圖像的線性變換或者深度網(wǎng)絡(luò)變換特征,缺乏對(duì)新型特征的探索。阻礙人們有效地進(jìn)行視覺信息解碼、重建圖像或視頻的因素主要包括 fMRI 數(shù)據(jù)維度高、樣本量小以及噪聲嚴(yán)重等。
隨著功能磁共振成像和人工智能技術(shù)的進(jìn)步(葉慧慧 等,2022),現(xiàn)有研究已經(jīng)可以較為有效地建模被試在觀看數(shù)字、人臉和自然場(chǎng)景等視覺刺激時(shí)的大腦神經(jīng)活動(dòng),并實(shí)現(xiàn)了相應(yīng)的視覺刺激重建和語(yǔ)義解碼。未來要通過采用更加先進(jìn)的人工智能技術(shù)研發(fā)更為有效的大腦視覺神經(jīng)信息編解碼方法,并嘗試將大腦信號(hào)翻譯成圖像、視頻、語(yǔ)音和文字等多媒體內(nèi)容,實(shí)現(xiàn)更多的腦—機(jī)接口功能。有意義的研究方向包括:1)基于圖像和文本聯(lián)合的多模態(tài)神經(jīng)信息編解碼;2)大腦神經(jīng)信號(hào)指導(dǎo)的計(jì)算機(jī)視覺模型訓(xùn)練與提升;3)基于大規(guī)模預(yù)訓(xùn)練模型高效特征的視覺神經(jīng)編解碼 (張浩宇 等,2022);4)基于神經(jīng)編解碼方法評(píng)估現(xiàn)有人工神經(jīng)網(wǎng)絡(luò)模型的類腦特性(Zhou等,2022b)等。此外,由于大腦信號(hào)具有復(fù)雜性、高維度、個(gè)體差異性大、高度動(dòng)態(tài)性和樣本量小等特點(diǎn),因此未來的研究還需要更多結(jié)合計(jì)算神經(jīng)科學(xué)和人工智能理論研發(fā)高魯棒性、適應(yīng)性、準(zhǔn)確性和解釋性的視覺神經(jīng)信息編解碼方法。
基于fMRI的視覺神經(jīng)信息編解碼方法的研究,有利于理解視覺系統(tǒng)感知機(jī)制和探索人腦視覺皮層高效的信息處理過程。事實(shí)上,機(jī)器智能和人腦的研究可以相互促進(jìn)、相輔相成,先進(jìn)的機(jī)器智能有助于探索大腦信息處理的內(nèi)在神經(jīng)機(jī)制,而大腦的運(yùn)行機(jī)理也將啟發(fā)新一代類腦計(jì)算模型,提高機(jī)器智能感知和處理外部信息的能力。因此,基于深度學(xué)習(xí)和fMRI的視覺神經(jīng)信息編解碼方法研究,不僅對(duì)腦科學(xué)、神經(jīng)科學(xué)有重要意義,更對(duì)人工智能領(lǐng)域有深遠(yuǎn)影響。
本文總結(jié)了基于fMRI的視覺神經(jīng)信息編解碼方法的研究進(jìn)展,從視覺神經(jīng)信息編解碼的定義、與統(tǒng)計(jì)機(jī)器學(xué)習(xí)之間的關(guān)系、研究方法和進(jìn)展、公開數(shù)據(jù)集和度量指標(biāo)等方面進(jìn)行深入闡述。首先,詳細(xì)介紹了基于群體感受野估計(jì)的視覺神經(jīng)信息編碼方法的發(fā)展過程。其次,將視覺神經(jīng)信息解碼分為語(yǔ)義分類、圖像辨識(shí)/檢索和圖像重建3個(gè)部分,并詳細(xì)介紹了每種解碼任務(wù)類型的差異。之后,列舉了該領(lǐng)域常用的公開數(shù)據(jù)集以及視覺神經(jīng)信息編解碼算法的度量指標(biāo)。最后,提出視覺神經(jīng)信息編解碼研究方法的不足,并對(duì)未來的研究方向進(jìn)行了展望。結(jié)合更多計(jì)算神經(jīng)科學(xué)和人工智能理論研究高魯棒性、適應(yīng)性、準(zhǔn)確性和解釋性的視覺神經(jīng)信息編解碼方法是未來的發(fā)展方向。