紀(jì)守領(lǐng) 李進(jìn)鋒 杜天宇 李 博
1(浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院網(wǎng)絡(luò)空間安全研究中心 杭州 310027) 2(伊利諾伊大學(xué)香檳分校計(jì)算機(jī)科學(xué)學(xué)院 美國(guó)伊利諸伊州厄巴納香檳 61822)
近年來(lái),機(jī)器學(xué)習(xí)相關(guān)技術(shù)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等多個(gè)領(lǐng)域取得了巨大的成功,機(jī)器學(xué)習(xí)模型也被廣泛地應(yīng)用到一些重要的現(xiàn)實(shí)任務(wù)中,如人臉識(shí)別[1-3]、自動(dòng)駕駛[4]、惡意軟件檢測(cè)[5]和智慧醫(yī)療分析[6]等.在某些場(chǎng)景中,機(jī)器學(xué)習(xí)模型的表現(xiàn)甚至超過(guò)了人類.
盡管機(jī)器學(xué)習(xí)在許多有意義的任務(wù)中勝過(guò)人類,但由于缺乏可解釋性,其表現(xiàn)和應(yīng)用也飽受質(zhì)疑[7].對(duì)于普通用戶而言機(jī)器學(xué)習(xí)模型尤其是深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)模型如同黑盒一般,給它一個(gè)輸入,其反饋一個(gè)決策結(jié)果,沒(méi)人能確切地知道它背后的決策依據(jù)以及它做出的決策是否可靠.而缺乏可解釋性將有可能給實(shí)際任務(wù)中尤其是安全敏感任務(wù)中的許多基于DNN的現(xiàn)實(shí)應(yīng)用帶來(lái)嚴(yán)重的威脅.比如說(shuō),缺乏可解釋性的自動(dòng)醫(yī)療診斷模型可能給患者帶來(lái)錯(cuò)誤的治療方案,甚至嚴(yán)重威脅患者的生命安全.此外,最近的研究表明,DNN本身也面臨著多種安全威脅——惡意構(gòu)造的對(duì)抗性樣本可以輕易讓DNN模型分類出錯(cuò)[8-10],而他們針對(duì)對(duì)抗樣本的脆弱性同樣也缺乏可解釋性.因此,缺乏可解釋性已經(jīng)成為機(jī)器學(xué)習(xí)在現(xiàn)實(shí)任務(wù)中的進(jìn)一步發(fā)展和應(yīng)用的主要障礙之一.
為了提高機(jī)器學(xué)習(xí)模型的可解釋性和透明性,建立用戶與決策模型之間的信任關(guān)系,消除模型在實(shí)際部署應(yīng)用中的潛在威脅,近年來(lái)學(xué)術(shù)界和工業(yè)界進(jìn)行了廣泛和深入的研究并且提出了一系列的機(jī)器學(xué)習(xí)模型可解釋性方法.然而,由于不同的研究者解決問(wèn)題的角度不同,因而給“可解釋性”賦予的含義也不同,所提出的可解釋性方法也各有側(cè)重.因此,亟需對(duì)現(xiàn)有工作進(jìn)行系統(tǒng)的整理和科學(xué)的總結(jié)、歸類,以促進(jìn)該領(lǐng)域的研究.
在本文中,我們首先詳細(xì)地闡述可解釋性的定義和所解決的問(wèn)題.然后,我們對(duì)現(xiàn)有的可解釋性方法進(jìn)行系統(tǒng)的總結(jié)和歸類,并討論相關(guān)方法的局限性.接著,我們簡(jiǎn)單地介紹模型可解釋性相關(guān)技術(shù)的實(shí)際應(yīng)用場(chǎng)景,同時(shí)詳細(xì)地分析可解釋性中的安全問(wèn)題.最后,我們討論模型可解釋性相關(guān)研究所面臨的挑戰(zhàn)以及未來(lái)可行的研究方向.
在介紹具體的可解釋問(wèn)題與相應(yīng)的解決方法之前,我們先簡(jiǎn)單地介紹什么是可解釋性以及為什么需要可解釋性.在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)場(chǎng)景中,可解釋性被定義為向人類解釋或以呈現(xiàn)可理解的術(shù)語(yǔ)的能力[11].從本質(zhì)上講,可解釋性是人類與決策模型之間的接口,它既是決策模型的準(zhǔn)確代理,又是人類所可以理解的[12].在自上而下的機(jī)器學(xué)習(xí)任務(wù)中,模型通常建立在一組統(tǒng)計(jì)規(guī)則和假設(shè)之上,因而可解釋性至關(guān)重要,因?yàn)樗撬x的規(guī)則和假設(shè)的基石.此外,模型可解釋性是驗(yàn)證假設(shè)是否穩(wěn)健,以及所定義的規(guī)則是否完全適合任務(wù)的重要手段.與自上而下的任務(wù)不同,自下而上的機(jī)器學(xué)習(xí)通常對(duì)應(yīng)于手動(dòng)和繁重任務(wù)的自動(dòng)化,即給定一批訓(xùn)練數(shù)據(jù),通過(guò)最小化學(xué)習(xí)誤差,讓模型自動(dòng)地學(xué)習(xí)輸入數(shù)據(jù)與輸出類別之間的映射關(guān)系.在自下而上的學(xué)習(xí)任務(wù)中,由于模型是自動(dòng)構(gòu)建的,我們不清楚其學(xué)習(xí)過(guò)程,也不清楚其工作機(jī)制,因此,可解釋性旨在幫助人們理解機(jī)器學(xué)習(xí)模型是如何學(xué)習(xí)的,它從數(shù)據(jù)中學(xué)到了什么,針對(duì)每一個(gè)輸入它為什么會(huì)做出如此決策以及它所做的決策是否可靠.
在機(jī)器學(xué)習(xí)任務(wù)中,除了可解釋性,常常會(huì)提到另外2個(gè)概念:模型準(zhǔn)確性(accuracy)和模型復(fù)雜度(model complexity).準(zhǔn)確性反映了模型的擬合能力以及在某種程度上準(zhǔn)確預(yù)測(cè)未知樣本的能力.模型復(fù)雜度反映了模型結(jié)構(gòu)上的復(fù)雜性,只與模型本身有關(guān),與模型訓(xùn)練數(shù)據(jù)無(wú)關(guān).在線性模型中,模型的復(fù)雜度由非零權(quán)重的個(gè)數(shù)來(lái)體現(xiàn);在決策樹模型中,模型的復(fù)雜度由樹的深度體現(xiàn);在神經(jīng)網(wǎng)絡(luò)模型中,模型復(fù)雜度則由神經(jīng)網(wǎng)絡(luò)的深度、寬度、模型的參數(shù)量以及模型的計(jì)算量來(lái)體現(xiàn)[13].模型的復(fù)雜度與模型準(zhǔn)確性相關(guān)聯(lián),又與模型的可解釋性相對(duì)立.通常情況下,結(jié)構(gòu)簡(jiǎn)單的模型可解釋性好,但擬合能力差,往往準(zhǔn)確率不高.結(jié)構(gòu)復(fù)雜的模型,擬合能力強(qiáng),準(zhǔn)確性高,但由于模型參數(shù)量大、工作機(jī)制復(fù)雜、透明性低,因而可解釋性又相對(duì)較差.
那么,在實(shí)際的學(xué)習(xí)任務(wù)中,我們是選擇結(jié)構(gòu)簡(jiǎn)單易于解釋的模型然后訓(xùn)練它,還是訓(xùn)練復(fù)雜的最優(yōu)模型然后開發(fā)可解釋性技術(shù)解釋它呢?基于這2種不同的選擇,機(jī)器學(xué)習(xí)模型可解釋性總體上可分為2類:事前(ante -hoc)可解釋性和事后(post-hoc)可解釋性.其中,ante -hoc可解釋性指通過(guò)訓(xùn)練結(jié)構(gòu)簡(jiǎn)單、可解釋性好的模型或?qū)⒖山忉屝越Y(jié)合到具體的模型結(jié)構(gòu)中的自解釋模型使模型本身具備可解釋能力.post-hoc可解釋性指通過(guò)開發(fā)可解釋性技術(shù)解釋已訓(xùn)練好的機(jī)器學(xué)習(xí)模型.根據(jù)解釋目標(biāo)和解釋對(duì)象的不同,post-hoc可解釋性又可分為全局可解釋性(global interpretability)和局部可解釋性(local interpreta-bility).全局可解釋性旨在幫助人們理解復(fù)雜模型背后的整體邏輯以及內(nèi)部的工作機(jī)制[12],局部可解釋性旨在幫助人們理解機(jī)器學(xué)習(xí)模型針對(duì)每一個(gè)輸入樣本的決策過(guò)程和決策依據(jù)[14].
ante -hoc可解釋性指模型本身內(nèi)置可解釋性,即對(duì)于一個(gè)已訓(xùn)練好的學(xué)習(xí)模型,無(wú)需額外的信息就可以理解模型的決策過(guò)程或決策依據(jù).模型的ante -hoc可解釋性發(fā)生在模型訓(xùn)練之前,因而也稱為事前可解釋性.在學(xué)習(xí)任務(wù)中,我們通常采用結(jié)構(gòu)簡(jiǎn)單、易于理解的自解釋模型來(lái)實(shí)現(xiàn)ante -hoc可解釋性,如樸素貝葉斯、線性回歸、決策樹、基于規(guī)則的模型.此外,我們也可以通過(guò)構(gòu)建將可解釋性直接結(jié)合到具體的模型結(jié)構(gòu)中的學(xué)習(xí)模型來(lái)實(shí)現(xiàn)模型的內(nèi)置可解釋性[15].
對(duì)于自解釋模型,我們從2個(gè)角度考慮模型的可解釋性和透明性,即模型整體的可模擬性(simulatabi-lity)和模型單個(gè)組件的可分解性(decomposability).
嚴(yán)格意義上來(lái)講,如果我們認(rèn)為某個(gè)模型是透明的,那么我們一定能從整體上完全理解一個(gè)模型,也應(yīng)該能夠?qū)⑤斎霐?shù)據(jù)連同模型的參數(shù)一起,在合理的時(shí)間步驟內(nèi)完成產(chǎn)生預(yù)測(cè)所需的每一個(gè)計(jì)算(即整體上的可模擬性).比如在樸素貝葉斯模型中,由于條件獨(dú)立性的假設(shè),我們可以將模型的決策過(guò)程轉(zhuǎn)化為概率運(yùn)算[16-17].在線性模型中,我們可以基于模型權(quán)重,通過(guò)矩陣運(yùn)算線性組合樣本的特征值,復(fù)現(xiàn)線性模型的決策過(guò)程,其中模型權(quán)重體現(xiàn)了特征之間的相關(guān)關(guān)系[13,17-18].而在決策樹模型中,每一棵決策樹都由表示特征或者屬性的內(nèi)部節(jié)點(diǎn)和表示類別的葉子節(jié)點(diǎn)組成,樹的每一個(gè)分支代表一種可能的決策結(jié)果[19-20].決策樹中每一條從根節(jié)點(diǎn)到不同葉子節(jié)點(diǎn)的路徑都代表著一條不同的決策規(guī)則,因而每一棵決策樹都可以被線性化為一系列由if-then形式組成的決策規(guī)則[20-23].因此,對(duì)于新的觀測(cè)樣本,我們可以通過(guò)從上到下遍歷決策樹,結(jié)合內(nèi)部節(jié)點(diǎn)中的條件測(cè)試,基于if-then決策規(guī)則判定樣本是否必須遵循左或右分支來(lái)模擬決策樹的決策過(guò)程.
自解釋模型的可分解性要求模型的每個(gè)部分,包括模型結(jié)構(gòu)、模型參數(shù),模型的每一個(gè)輸入以及每一維特征都允許直觀的解釋[24].在樸素貝葉斯模型中,由于條件獨(dú)立性的假設(shè),模型的預(yù)測(cè)可以很容易地轉(zhuǎn)化為單個(gè)特征值的貢獻(xiàn)——特征向量,特征向量的每一維表示每個(gè)特征值對(duì)最終分類結(jié)果的貢獻(xiàn)程度[17].在線性模型中,模型的權(quán)重直接反映了樣本特征重要性,既包括重要性大小也包括相關(guān)性方向[25].權(quán)重絕對(duì)值越大,則該特征對(duì)最終預(yù)測(cè)結(jié)果的貢獻(xiàn)越大,反之則越小.如果權(quán)重值為正,則該特征與最終的預(yù)測(cè)類別正相關(guān),反之則負(fù)相關(guān).在決策樹模型中,每個(gè)節(jié)點(diǎn)包含了特征值的條件測(cè)試,判定樣本屬于哪一分支以及使用哪一條規(guī)則,同時(shí),每一條規(guī)則也為最終的分類結(jié)果提供了解釋.此外,決策樹模型自帶的基于信息理論的篩選變量標(biāo)準(zhǔn)也有助于理解在模型決策過(guò)程中哪些變量起到了顯著的作用.
然而,由于人類認(rèn)知的局限性,自解釋模型的內(nèi)置可解釋性受模型的復(fù)雜度制約,這要求自解釋模型結(jié)構(gòu)一定不能過(guò)于復(fù)雜.因此,上述模型只有具有合理的規(guī)模才能具有有效的可解釋性.例如對(duì)于高維的線性模型,其內(nèi)置可解釋性未必優(yōu)于DNN.此外,對(duì)于決策樹模型和基于規(guī)則的模型,如果樹深度太深或者模型的規(guī)則太復(fù)雜,人類也未必能理解[12,20].但如果模型結(jié)構(gòu)太簡(jiǎn)單,模型的擬合能力必然受限,因此模型可能會(huì)學(xué)習(xí)錯(cuò)誤的特征來(lái)最小化在訓(xùn)練集上的經(jīng)驗(yàn)誤差,而這些特征可能與人類認(rèn)知相違背,對(duì)于人類而言同樣也很難解釋.因此,自解釋模型的內(nèi)置可解釋性與模型準(zhǔn)確性之間始終存在一個(gè)平衡[13].
在實(shí)際學(xué)習(xí)任務(wù)中,簡(jiǎn)單模型(如線性模型)因?yàn)闇?zhǔn)確率低而無(wú)法滿足需要,而復(fù)雜模型的高準(zhǔn)確率又通常是犧牲自身可解釋性為代價(jià)的.作為一種折中,廣義加性模型既能提高簡(jiǎn)單線性模型的準(zhǔn)確率,又能保留線性模型良好的內(nèi)置可解釋性[24,26-27].廣義加性模型一般形式為
g(y)=f1(x1)+f2(x2)+…+fn(xn),
其中,fi(·)為單特征(single-feature)模型,也稱為特征xi對(duì)應(yīng)的形函數(shù)(shape function).廣義加性模型通過(guò)線性函數(shù)組合每一單特征模型得到最終的決策形式.在廣義加性模型中,形函數(shù)本身可能是非線性的,每一個(gè)單特征模型可能采用一個(gè)非常復(fù)雜的形函數(shù)fi(xi)來(lái)量化每一個(gè)特征xi與最終決策目標(biāo)之間的關(guān)系,因而可以捕獲到每一個(gè)特征與最終決策目標(biāo)之間的非線性關(guān)系,因此廣義加性模型準(zhǔn)確率高于簡(jiǎn)單線性模型.又因?yàn)閺V義加性模型通過(guò)簡(jiǎn)單的線性函數(shù)組合每一個(gè)單特征模型得到最終的決策形式,消除了特征之間的相互作用,因此可以保留簡(jiǎn)單線性模型良好的可解釋性,從而解決了復(fù)雜模型因?yàn)樘卣髦g復(fù)雜的相關(guān)關(guān)系而削弱自身可解釋性的問(wèn)題.
Lou等人[24]提出了一種基于有限大小的梯度提升樹加性模型方法,該方法在回歸和分類問(wèn)題上精度顯著優(yōu)于傳統(tǒng)方法,同時(shí)還保持了GAM模型的可解釋性.Ravikumar等人[28]結(jié)合稀疏線性建模和加性非參數(shù)回歸的思想,提出了一種稱之為稀疏加性模型的高維非參數(shù)回歸分類方法,解決了高維空間中加性模型的擬合問(wèn)題,同時(shí)基于1正則的稀疏性,可實(shí)現(xiàn)特征的有效選擇. Poulin等人[16]開發(fā)了一個(gè)圖形化解釋框架,提供了對(duì)加性模型的圖形化解釋,包括對(duì)模型整體的理解以及決策特征的可視化,以幫助建立用戶與決策系統(tǒng)之間的信任關(guān)系.
神經(jīng)網(wǎng)絡(luò)模型由于模型結(jié)構(gòu)復(fù)雜,算法透明性低,因而模型本身的可解釋性差.因此,神經(jīng)網(wǎng)絡(luò)模型的自身可解釋性只能通過(guò)額外引入可解釋性模塊來(lái)實(shí)現(xiàn),一種有效的方法就是引入注意力機(jī)制(atten-tion mechanism)[29-31].
注意力機(jī)制源于對(duì)人類認(rèn)知神經(jīng)學(xué)的研究.在認(rèn)知科學(xué)中,由于信息處理的瓶頸,人腦可以有意或無(wú)意地從大量輸入信息中選擇小部分有用信息來(lái)重點(diǎn)處理,同時(shí)忽略其他可見(jiàn)的信息,這就是人腦的注意力機(jī)制[32].在計(jì)算能力有限的情況下,注意力機(jī)制是解決信息超載問(wèn)題的一種有效手段,通過(guò)決定需要關(guān)注的輸入部分,將有限的信息處理資源分配給更重要的任務(wù).此外,注意力機(jī)制具有良好的可解釋性,注意力權(quán)重矩陣直接體現(xiàn)了模型在決策過(guò)程中感興趣的區(qū)域.
近年來(lái),基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)已成為神經(jīng)網(wǎng)絡(luò)研究的一大熱點(diǎn),并在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、推薦系統(tǒng)等領(lǐng)域有著大量的應(yīng)用[33].在自然語(yǔ)言處理領(lǐng)域,Bahdanau等人[29]將注意力機(jī)制引入到基于編碼器-解碼器架構(gòu)的機(jī)器翻譯中,有效地提高了“英語(yǔ)-法語(yǔ)”翻譯的性能.在編碼階段,機(jī)器翻譯模型采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN)將源語(yǔ)言編碼到向量空間中;在解碼階段,注意力機(jī)制為解碼器的隱藏狀態(tài)分配不同的權(quán)重,從而允許解碼器在生成法語(yǔ)翻譯的每個(gè)步驟選擇性地處理輸入句子的不同部分.最后通過(guò)可視化注意力權(quán)重(如圖1(a)所示),用戶可以清楚地理解一種語(yǔ)言中的單詞是如何依賴另一種語(yǔ)言中的單詞進(jìn)行正確翻譯的.Yang等人[34]將分層注意力機(jī)制引入到文本分類任務(wù)中,顯著提高了情感分析任務(wù)的性能,同時(shí)注意力權(quán)重量化了每一個(gè)詞的重要性,可幫助人們清晰地理解每一個(gè)詞對(duì)最終情感分類結(jié)果的貢獻(xiàn)(如圖1(b)所示).在計(jì)算機(jī)視覺(jué)領(lǐng)域,Xu等人[32]將注意力機(jī)制應(yīng)用于看圖說(shuō)話(image caption)任務(wù)中以產(chǎn)生對(duì)圖片的描述.首先利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取圖片特征,然后基于提取的特征,利用帶注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)生成描述.在這個(gè)過(guò)程中,注意力實(shí)現(xiàn)了單詞與圖片之間的對(duì)齊,因此,通過(guò)可視化注意力權(quán)重矩陣,人們可以清楚地了解到模型在生成每一個(gè)單詞時(shí)所對(duì)應(yīng)的感興趣的圖片區(qū)域(如圖2所示).此外,注意力機(jī)制還被廣泛地應(yīng)用于推薦系統(tǒng)中,以研究可解釋的推薦系統(tǒng)[35-39].具體地,這些方法首先基于歷史記錄,利用注意力機(jī)制計(jì)算針對(duì)每一條記錄的注意力分值,從而給不同的偏好設(shè)置不同的權(quán)重,或者通過(guò)注意力機(jī)制對(duì)用戶行為、用戶表征進(jìn)行建模來(lái)學(xué)習(xí)用戶的長(zhǎng)期偏好,以推薦用戶可能感興趣的下一個(gè)項(xiàng)目;最后,通過(guò)可視化用戶歷史記錄列表中每一條記錄的注意力分值來(lái)提供對(duì)推薦結(jié)果的解釋,以增強(qiáng)推薦系統(tǒng)自身的可解釋性.
Fig. 1 Visualization of attention weight in natural language processing applications圖1 自然語(yǔ)言處理應(yīng)用中的注意力權(quán)重可視化
Fig. 2 Alignment of words and images by attention in image caption task圖2 看圖說(shuō)話任務(wù)中注意力實(shí)現(xiàn)單詞與圖片的對(duì)齊[32]
post-hoc可解釋性也稱事后可解釋性,發(fā)生在模型訓(xùn)練之后.對(duì)于一個(gè)給定的訓(xùn)練好的學(xué)習(xí)模型,post-hoc可解釋性旨在利用解釋方法或構(gòu)建解釋模型,解釋學(xué)習(xí)模型的工作機(jī)制、決策行為和決策依據(jù).因此,post-hoc可解釋性的重點(diǎn)在于設(shè)計(jì)高保真的解釋方法或構(gòu)建高精度的解釋模型.
根據(jù)解釋目的和解釋對(duì)象的不同,post-hoc可解釋性又分為全局可解釋性和局部可解釋性,所對(duì)應(yīng)的方法分別稱為全局解釋方法和局部解釋方法.經(jīng)典的post-hoc解釋方法及其滿足的屬性如表1所示:
Table 1 Summary of Classic post-hoc Interpretation Methods
Continued (Table 1)
Note: G=global, L=local, MA=model-agnostic, MS=model-specific, TML=traditional machine learning, √=secure, ×=not secure,○=low,=middle, ●=high, CV=computer vision, NLP=natural language processing.
機(jī)器學(xué)習(xí)模型的全局可解釋性旨在幫助人們從整體上理解模型背后的復(fù)雜邏輯以及內(nèi)部的工作機(jī)制,例如模型是如何學(xué)習(xí)的、模型從訓(xùn)練數(shù)據(jù)中學(xué)到了什么、模型是如何進(jìn)行決策的等,這要求我們能以人類可理解的方式來(lái)表示一個(gè)訓(xùn)練好的復(fù)雜學(xué)習(xí)模型.典型的全局解釋方法包括解釋模型規(guī)則提取、模型蒸餾、激活最大化解釋等.
3.1.1 規(guī)則提取
早期針對(duì)模型可解釋性的研究主要集中于解釋規(guī)則或解釋模型提取,即通過(guò)從受訓(xùn)模型中提取解釋規(guī)則的方式,提供對(duì)復(fù)雜模型尤其是黑盒模型整體決策邏輯的理解[64-67].規(guī)則提取技術(shù)以難以理解的復(fù)雜模型或黑盒模型作為入手點(diǎn),利用可理解的規(guī)則集合生成可解釋的符號(hào)描述,或從中提取可解釋模型(如決策樹、基于規(guī)則的模型等)[68-70],使之具有與原模型相當(dāng)?shù)臎Q策能力.解釋模型或規(guī)則提取是一種有效的開箱技術(shù),有效地提供了對(duì)復(fù)雜模型或黑盒模型內(nèi)部工作機(jī)制的深入理解.根據(jù)解釋對(duì)象不同,規(guī)則提取方法可分為針對(duì)樹融合(tree ensemble)模型的規(guī)則提取[23,40,71-73]和針對(duì)神經(jīng)網(wǎng)絡(luò)的規(guī)則提取.
針對(duì)復(fù)雜的樹融合模型(例如隨機(jī)森林、提升樹等)的規(guī)則提取方法通常包含4個(gè)部分:1)從樹融合模型中提取規(guī)則,一個(gè)集成的樹模型通常由多個(gè)決策樹構(gòu)成,每棵樹的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的每一條路徑都表示一條決策規(guī)則,將從每一棵決策樹中提取的規(guī)則進(jìn)行組合即可得到從樹融合模型中提取的規(guī)則;2)基于規(guī)則長(zhǎng)度、規(guī)則頻率、誤差等指標(biāo)對(duì)提取的規(guī)則進(jìn)行排序,其中規(guī)則長(zhǎng)度反映了規(guī)則的復(fù)雜度,規(guī)則頻率反映滿足規(guī)則的數(shù)據(jù)實(shí)例的比例,誤差則反映了規(guī)則的決策能力;3)基于排序結(jié)果,對(duì)規(guī)則中的無(wú)關(guān)項(xiàng)和冗余項(xiàng)進(jìn)行剪枝并選擇一組相關(guān)的非冗余規(guī)則;4)基于挑選的規(guī)則構(gòu)建一個(gè)可解釋的規(guī)則學(xué)習(xí)器,用于決策和解釋.
針對(duì)神經(jīng)網(wǎng)絡(luò)的規(guī)則提取方法可以分為2類:分解法(decompositional method)[41,74-75]和教學(xué)法(pedagogical method)[76-78].分解法的顯著特點(diǎn)是注重從受訓(xùn)神經(jīng)網(wǎng)絡(luò)中提取單個(gè)單元(如隱含單元、輸出單元)層次上規(guī)則,這要求神經(jīng)網(wǎng)絡(luò)是“透明”的,即我們可以接觸到模型的具體架構(gòu)和參數(shù).分解法要求受訓(xùn)神經(jīng)網(wǎng)絡(luò)中的每一個(gè)隱含單元和輸出單元的計(jì)算結(jié)果都能映射成一個(gè)對(duì)應(yīng)于一條規(guī)則的二進(jìn)制結(jié)果.因此,每一個(gè)隱含單元或輸出單元都可以被解釋為一個(gè)階躍函數(shù)或一條布爾規(guī)則.分解法通過(guò)聚合在單個(gè)單元級(jí)別提取的規(guī)則,形成整個(gè)受訓(xùn)神經(jīng)網(wǎng)絡(luò)的復(fù)合規(guī)則庫(kù),最后基于復(fù)合規(guī)則庫(kù)提供對(duì)神經(jīng)網(wǎng)絡(luò)的整體解釋.與分解法不同,教學(xué)法將受訓(xùn)神經(jīng)網(wǎng)絡(luò)模型當(dāng)作是一個(gè)黑盒,即神經(jīng)網(wǎng)絡(luò)是“不透明”的,我們無(wú)法利用其結(jié)構(gòu)和參數(shù)信息,只能操縱模型的輸入和輸出[42,79].因此,教學(xué)法旨在提取將輸入直接映射到輸出的規(guī)則,基本思想是結(jié)合符號(hào)學(xué)習(xí)算法,利用受訓(xùn)神經(jīng)網(wǎng)絡(luò)來(lái)為學(xué)習(xí)算法生成樣本,最后從生成的樣例中提取規(guī)則[77].
然而,規(guī)則提取方法提取的規(guī)則往往不夠精確,因而只能提供近似解釋,不一定能反映待解釋模型的真實(shí)行為.此外,規(guī)則提取方法提供的可解釋性的質(zhì)量受規(guī)則本身復(fù)雜度的制約,如果從待解釋模型中提取的規(guī)則很復(fù)雜或者提取的決策樹模型深度很深,那么提取的規(guī)則本身就不具備良好的可解釋性,因而無(wú)法為待解釋模型提供有效的解釋.
3.1.2 模型蒸餾
當(dāng)模型的結(jié)構(gòu)過(guò)于復(fù)雜時(shí),要想從整體上理解受訓(xùn)模型的決策邏輯通常是很困難的.解決該問(wèn)題的一個(gè)有效途徑是降低待解釋模型的復(fù)雜度,而模型蒸餾(model distillation)則是降低模型復(fù)雜度的一個(gè)最典型的方法[80].
模型蒸餾,也稱知識(shí)蒸餾或模型模擬學(xué)習(xí),是一種經(jīng)典的模型壓縮方法,其目的在于將復(fù)雜模型學(xué)習(xí)的函數(shù)壓縮為具有可比性能更小、更快的模型[81].模型蒸餾的核心思想是利用結(jié)構(gòu)緊湊的學(xué)生模型(student model)來(lái)模擬結(jié)構(gòu)復(fù)雜的教師模型(teacher model),從而完成從教師模型到學(xué)生模型的知識(shí)遷移過(guò)程,實(shí)現(xiàn)對(duì)復(fù)雜教師模型的知識(shí)“蒸餾”.蒸餾的難點(diǎn)在于壓縮模型結(jié)構(gòu)的同時(shí)如何保留教師模型從海量數(shù)據(jù)中學(xué)習(xí)到的知識(shí)和模型的泛化能力.一種有效的解決辦法是利用軟目標(biāo)來(lái)輔助硬目標(biāo)一起訓(xùn)練學(xué)生模型,其中硬目標(biāo)為原始數(shù)據(jù)的類別信息,軟目標(biāo)為教師模型的分類概率值,包含的信息量大,體現(xiàn)了不同類別之間相關(guān)關(guān)系的信息[82].給定一個(gè)復(fù)雜的教師模型和一批訓(xùn)練數(shù)據(jù),模型蒸餾方法首先利用教師模型生成軟目標(biāo),然后通過(guò)最小化軟目標(biāo)和硬目標(biāo)的聯(lián)合損失函數(shù)來(lái)訓(xùn)練學(xué)生模型,損失函數(shù)定義為
Lstdudent=αL(soft)+(1-α)L(hard),
其中,L(soft)為軟目標(biāo)損失,要求學(xué)生模型生成的軟目標(biāo)與教師模型生成的軟目標(biāo)要盡可能的接近,保證學(xué)生模型能有效地學(xué)習(xí)教師模型中的暗知識(shí)(dark knowledge);L(hard)為硬目標(biāo)損失,要求學(xué)生模型能夠保留教師模型良好的決策性能.
由于模型蒸餾可以完成從教師模型到學(xué)生模型的知識(shí)遷移,因而學(xué)生模型可以看作是教師模型的全局近似,在一定程度上反映了教師模型的整體邏輯,因此我們可以基于學(xué)生模型,提供對(duì)教師模型的全局解釋.在利用模型蒸餾作為全局解釋方法時(shí),學(xué)生模型通常采用可解釋性好的模型來(lái)實(shí)現(xiàn),如線性模型、決策樹、廣義加性模型以及淺層神經(jīng)網(wǎng)絡(luò)等[83-85].Hinton等人[82]提出了一種知識(shí)蒸餾方法,通過(guò)訓(xùn)練單一的相對(duì)較小的網(wǎng)絡(luò)來(lái)模擬原始復(fù)雜網(wǎng)絡(luò)或集成網(wǎng)絡(luò)模型的預(yù)測(cè)概率來(lái)提煉復(fù)雜網(wǎng)絡(luò)的知識(shí),以模擬原始復(fù)雜網(wǎng)絡(luò)的決策過(guò)程,并且證明單一網(wǎng)絡(luò)能達(dá)到復(fù)雜網(wǎng)絡(luò)幾乎同樣的性能.為了進(jìn)一步提升蒸餾知識(shí)的可解釋性,F(xiàn)rosst等人[84]擴(kuò)展了Hinton提出的知識(shí)蒸餾方法,提出利用決策樹來(lái)模擬復(fù)雜深度神經(jīng)網(wǎng)絡(luò)模型的決策.Tan等人[85]基于廣義加性模型的良好可解釋性,提出利用模型蒸餾的方法來(lái)學(xué)習(xí)描述輸入特征與復(fù)雜模型的預(yù)測(cè)之間關(guān)系的全局加性模型,并基于加性模型對(duì)復(fù)雜模型進(jìn)行全局解釋.Che等人[86]將基于模型蒸餾的可解釋方法應(yīng)用于醫(yī)療診斷模型的可解釋性研究中,提出利用梯度提升樹進(jìn)行知識(shí)蒸餾的方式來(lái)學(xué)習(xí)可解釋模型,不僅在急性肺損傷病人無(wú)呼吸機(jī)天數(shù)預(yù)測(cè)任務(wù)中取得了優(yōu)異的性能,而且還可以為臨床醫(yī)生提供良好的可解釋性.Ding等人[87]利用知識(shí)蒸餾解釋基于社交媒體的物質(zhì)使用預(yù)測(cè)模型,通過(guò)運(yùn)用知識(shí)蒸餾框架來(lái)構(gòu)建解釋模型,取得了與最先進(jìn)的預(yù)測(cè)模型相當(dāng)?shù)男阅?,而且還可以提供對(duì)用戶的社交媒體行為與物質(zhì)使用之間的關(guān)系深入理解.Xu等人[88]開發(fā)了DarkSight可解釋方法,通過(guò)利用模型蒸餾的方式從黑盒模型中提取暗知識(shí),并以可視化的形式對(duì)提取的暗知識(shí)進(jìn)行呈現(xiàn),以幫助分析師直觀地了解模型決策邏輯.
此外,基于模型蒸餾的解釋方法還被廣泛地應(yīng)用于模型診斷與驗(yàn)證[43,89-90].Tan等人[89]提出了一種針對(duì)黑盒風(fēng)險(xiǎn)評(píng)分模型的2階段模型審計(jì)方法,對(duì)于一個(gè)給定的黑盒風(fēng)險(xiǎn)評(píng)分模型和一批審計(jì)數(shù)據(jù),該方法首先利用模型蒸餾的方法得到一個(gè)解釋模型,同時(shí)基于審計(jì)數(shù)據(jù)和其真實(shí)標(biāo)簽訓(xùn)練一個(gè)透明的結(jié)果預(yù)測(cè)模型,并通過(guò)比較解釋模型和結(jié)果預(yù)測(cè)模型來(lái)理解特征與風(fēng)險(xiǎn)評(píng)分之間的相關(guān)關(guān)系;最后,通過(guò)使用統(tǒng)計(jì)測(cè)試的方式來(lái)確定黑盒模型是否使用了審計(jì)數(shù)據(jù)中不存在的其他特征.同時(shí),通過(guò)評(píng)估受保護(hù)特征對(duì)風(fēng)險(xiǎn)評(píng)分的貢獻(xiàn)與其對(duì)實(shí)際結(jié)果的貢獻(xiàn)的差異,可以檢測(cè)黑盒風(fēng)險(xiǎn)評(píng)分模型中是否存在偏差[90].
模型蒸餾解釋方法實(shí)現(xiàn)簡(jiǎn)單,易于理解,且不依賴待解釋模型的具體結(jié)構(gòu)信息,因而作為一種模型無(wú)關(guān)的解釋方法,常被用于解釋黑盒機(jī)器學(xué)習(xí)模型.然而,蒸餾模型只是對(duì)原始復(fù)雜模型的一種全局近似,它們之間始終存在差距.因此,基于蒸餾模型所做出的解釋不一定能反映待解釋模型的真實(shí)行為.此外,知識(shí)蒸餾過(guò)程通常不可控,無(wú)法保障待解釋模型從海量數(shù)據(jù)中學(xué)到的知識(shí)有效地遷移到蒸餾模型中,因而導(dǎo)致解釋結(jié)果質(zhì)量較低無(wú)法滿足精確解釋的需要.
3.1.3 激活最大化
在自下而上的深度學(xué)習(xí)任務(wù)中,給定一批訓(xùn)練數(shù)據(jù),DNN不僅可以自動(dòng)地學(xué)習(xí)輸入數(shù)據(jù)與輸出類別之間的映射關(guān)系,同時(shí)也可以從數(shù)據(jù)中學(xué)到特定的特征表示(feature representation).然而,考慮到數(shù)據(jù)集中存在偏差,我們無(wú)法通過(guò)模型精度來(lái)保證模型表征的可靠性,也無(wú)法確定DNN用于預(yù)測(cè)的內(nèi)部工作模式[91].因此,深入理解并呈現(xiàn)DNN中每一個(gè)隱含層的神經(jīng)元所捕獲的表征,有助于從語(yǔ)義上、視覺(jué)上幫助人們理解DNN內(nèi)部的工作邏輯[92].為此,許多研究者探索如何在輸入空間實(shí)現(xiàn)對(duì)DNN任意層神經(jīng)單元計(jì)算內(nèi)容的可視化,并使其盡可能通用,以便能夠深入了解神經(jīng)網(wǎng)絡(luò)不同單元代表的特定含義.其中,最有效和使用最廣泛的一種方法是通過(guò)在特定的層上找到神經(jīng)元的首選輸入最大化神經(jīng)元激活,因此該方法也稱為激活最大化(activation maximization, AM)方法[52].
激活最大化方法思想較為簡(jiǎn)單,即通過(guò)尋找有界范數(shù)的輸入模式,最大限度地激活給定的隱藏單元,而一個(gè)單元最大限度地響應(yīng)的輸入模式可能是一個(gè)單元正在做什么的良好的一階表示[44,93-94].給定一個(gè)DNN模型,尋找最大化神經(jīng)元激活的原型樣本x*的問(wèn)題可以被定義成一個(gè)優(yōu)化問(wèn)題,其形式化定義為
其中,優(yōu)化目標(biāo)第一項(xiàng)fl(x)為DNN第l層某一個(gè)神經(jīng)元在當(dāng)前輸入x下的激活值;第2項(xiàng)為2正則,用于保證優(yōu)化得到的原型樣本(prototype)與原樣本盡可能地接近.整個(gè)優(yōu)化過(guò)程可以通過(guò)梯度上升來(lái)求解.最后,通過(guò)可視化生成的原型樣本x*,可以幫助我們理解該神經(jīng)元在其感受野中所捕獲到的內(nèi)容.當(dāng)然,我們可以分析任意層的神經(jīng)元,以理解DNN不同層所編碼的不同表示內(nèi)容.當(dāng)我們分析輸出層神經(jīng)元的最大激活時(shí),可以找到某一類別所對(duì)應(yīng)的最具代表性的原型樣本.
激活最大化方法雖然原理簡(jiǎn)單,但如何使其正常工作同樣面臨著一些挑戰(zhàn).由于樣本搜索空間很大,優(yōu)化過(guò)程可能產(chǎn)生含有噪聲和高頻模式的不現(xiàn)實(shí)圖像,導(dǎo)致原型樣本雖能最大化神經(jīng)元激活卻難以理解.為了獲取更有意義、更自然的原型樣本,優(yōu)化過(guò)程必須采用自然圖像先驗(yàn)約束,為此,一些研究者創(chuàng)造性地提出了人工構(gòu)造先驗(yàn),包括α范數(shù)、高斯模糊等[95-96].此外,一些研究者將激活最大化框架與生成模型相結(jié)合,利用生成模型產(chǎn)生的更強(qiáng)的自然圖像先驗(yàn)正則化優(yōu)化過(guò)程.Nguyen等人[45]提出利用生成對(duì)抗網(wǎng)絡(luò)與激活最大化優(yōu)化相結(jié)合的方法來(lái)生成原型樣本,優(yōu)化問(wèn)題被重定義為
其中,第1項(xiàng)為解碼器與原神經(jīng)元激活值的結(jié)合,第2項(xiàng)為代碼空間中的2正則.該方法不直接優(yōu)化圖像,轉(zhuǎn)而優(yōu)化代碼空間以找到可以最大化神經(jīng)元激活的解z*,一旦最優(yōu)解z*找到,則可以通過(guò)解碼得到原型樣本z*,即x*=g(z*).實(shí)驗(yàn)結(jié)果表明(如圖3所示),將激活最大化與生成模型相結(jié)合的方法可以產(chǎn)生更真實(shí)、更具有可解釋性的原型樣本.從圖3可以看出:模型成功捕獲了與類別相對(duì)應(yīng)的特征表示.
對(duì)不同層生成的原型樣本的可視化結(jié)果表明,DNN在若干抽象層次上進(jìn)行表示學(xué)習(xí),從模型的第一層到最后一層,模型學(xué)習(xí)到的特征表征由局部過(guò)渡到整體,由一般任務(wù)過(guò)渡到特定任務(wù).以圖像分類任務(wù)中的CNN為例,低層神經(jīng)元通??梢圆东@到圖片中的顏色、邊緣等信息;中間層神經(jīng)元有更復(fù)雜的不變性,可以捕獲相似的紋理;中高層神經(jīng)元可以捕獲圖片中的顯著變化,并可以聚焦到特定類別對(duì)應(yīng)的局部特征,如狗的臉部、鳥的腳部等;最后,高層神經(jīng)元?jiǎng)t通過(guò)組合局部特征表征,從而學(xué)習(xí)到整個(gè)分類目標(biāo)的整體表征[53].此外,神經(jīng)元具有多面性,可以對(duì)與同一語(yǔ)義概念相關(guān)的不同圖像做出反應(yīng),例如,人臉檢測(cè)神經(jīng)元可以同時(shí)對(duì)人臉和動(dòng)物面孔做出反應(yīng)[97].
Fig. 3 Class-discriminative prototypes generated by combining generative model with activation maximization圖3 利用生成模型與激活最大化相結(jié)合生成的類別對(duì)應(yīng)原型樣本[45]
激活最大化解釋方法是一種模型相關(guān)的解釋方法,相比規(guī)則提取解釋和模型蒸餾解釋,其解釋結(jié)果更準(zhǔn)確,更能反映待解釋模型的真實(shí)行為.同時(shí),利用激活最大化解釋方法,可從語(yǔ)義上、視覺(jué)上幫助人們理解模型是如何從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的以及模型從數(shù)據(jù)中學(xué)到了什么.然而,激活最大化本身是一個(gè)優(yōu)化問(wèn)題,在通過(guò)激活最大化尋找原型樣本的過(guò)程中,優(yōu)化過(guò)程中的噪音和不確定性可能導(dǎo)致產(chǎn)生的原型樣本難以解釋.盡管可以通過(guò)構(gòu)造自然圖像先驗(yàn)約束優(yōu)化過(guò)程來(lái)解決這一問(wèn)題,但如何構(gòu)造更好的自然圖像先驗(yàn)本身就是一大難題.此外,激活最大化方法只能用于優(yōu)化連續(xù)性數(shù)據(jù),無(wú)法直接應(yīng)用于諸如文本、圖數(shù)據(jù)等離散型數(shù)據(jù)[46],因而該方法難以直接用于解釋自然語(yǔ)言處理模型和圖神經(jīng)網(wǎng)絡(luò)模型.
機(jī)器學(xué)習(xí)模型的局部可解釋性旨在幫助人們理解學(xué)習(xí)模型針對(duì)每一個(gè)特定輸入樣本的決策過(guò)程和決策依據(jù).與全局可解釋性不同,模型的局部可解釋性以輸入樣本為導(dǎo)向,通??梢酝ㄟ^(guò)分析輸入樣本的每一維特征對(duì)模型最終決策結(jié)果的貢獻(xiàn)來(lái)實(shí)現(xiàn).在實(shí)際應(yīng)用中,由于模型算法的不透明性、模型結(jié)構(gòu)的復(fù)雜性以及應(yīng)用場(chǎng)景的多元性,提供對(duì)機(jī)器學(xué)習(xí)模型的全局解釋通常比提供局部解釋更困難,因而針對(duì)模型局部可解釋性的研究更加廣泛,局部解釋方法相對(duì)于全局解釋方法也更常見(jiàn).經(jīng)典的局部解釋方法包括敏感性分析解釋、局部近似解釋、梯度反向傳播解釋、特征反演解釋以及類激活映射解釋等.
3.2.1 敏感性分析
敏感性分析(sensitivity analysis)是指在給定的一組假設(shè)下,從定量分析的角度研究相關(guān)自變量發(fā)生某種變化對(duì)某一特定的因變量影響程度的一種不確定分析技術(shù)[98],其核心思想是通過(guò)逐一改變自變量的值來(lái)解釋因變量受自變量變化影響大小的規(guī)律.敏感性分析被廣泛地應(yīng)用于機(jī)器學(xué)習(xí)及其應(yīng)用中,如機(jī)器學(xué)習(xí)模型分析[99-101]、生態(tài)建模[102]等.近年來(lái),敏感性分析作為一種模型局部解釋方法,被用于分析待解釋樣本的每一維特征對(duì)模型最終分類結(jié)果的影響[103-105],以提供對(duì)某一個(gè)特定決策結(jié)果的解釋.根據(jù)是否需要利用模型的梯度信息,敏感性分析方法可分為模型相關(guān)方法和模型無(wú)關(guān)方法.
模型相關(guān)方法利用模型的局部梯度信息評(píng)估特征與決策結(jié)果的相關(guān)性,常見(jiàn)的相關(guān)性定義為
其中,f(x)為模型的決策函數(shù),xi為待解釋樣本x的第i維特征.直觀地,相關(guān)性分?jǐn)?shù)Ri(x)可以看作是模型梯度的2范數(shù)的分解,即在模型相關(guān)方法中,相關(guān)性分?jǐn)?shù)Ri(x)可通過(guò)梯度反向傳播來(lái)求解.最后,通過(guò)以熱力圖的形式可視化相關(guān)性分?jǐn)?shù)可以直觀地理解輸入的每一維特征對(duì)決策結(jié)果的影響程度.
在模型無(wú)關(guān)敏感性分析方法中,待解釋模型可以看作是黑盒,我們無(wú)需利用模型的梯度信息,只關(guān)注待解釋樣本特征值變化對(duì)模型最終決策結(jié)果的影響.Robnik-ikonja等人[106]提出通過(guò)對(duì)輸入樣本單個(gè)屬性值的預(yù)測(cè)進(jìn)行分解的方式來(lái)觀察屬性值對(duì)該樣本預(yù)測(cè)結(jié)果的影響.具體地,該方法通過(guò)觀察去掉某一特定屬性前后模型預(yù)測(cè)結(jié)果的變化來(lái)確定該屬性對(duì)預(yù)測(cè)結(jié)果的重要性,即:
Ri(x)=f(x)-f(xxi).
類似地,Liu等人[48]提出了“限制支持域集”的概念,它被定義為一組受大小限制且不重疊的區(qū)域,并且滿足如下屬性:刪除任何一個(gè)區(qū)域?qū)?huì)導(dǎo)致模型分類出錯(cuò).其本質(zhì)思想是,如果某個(gè)特定區(qū)域的缺失導(dǎo)致模型分類結(jié)果發(fā)生反轉(zhuǎn),則該區(qū)域必定為模型正確決策提供支持.因此,最終可通過(guò)分析特定圖像區(qū)域是否存在與模型決策結(jié)果之間的依賴關(guān)系來(lái)可視化模型決策規(guī)則.Fong等人[47]提出了一種基于有意義擾動(dòng)的敏感性分析方法,通過(guò)添加擾動(dòng)或刪除待解釋圖片的不同區(qū)域來(lái)最小化模型目標(biāo)類別分類概率的方式學(xué)習(xí)一個(gè)顯著性掩碼,以識(shí)別對(duì)模型決策結(jié)果影響最大的圖像部分,并可視化顯著性掩碼作為對(duì)該決策結(jié)果的解釋,如圖4所示.Li等人[107]則提出通過(guò)觀察修改或刪除特征子集前后模型決策結(jié)果的相應(yīng)變化的方式來(lái)推斷待解釋樣本的決策特征.
Fig. 4 Learn a saliency mask by blurring an image to minimize the probability of its target class圖4 通過(guò)圖像模糊的方式最小化分類概率來(lái)學(xué)習(xí)顯著性掩碼[47]
然而,敏感性分析方法解釋的是決策函數(shù)f(x)局部變化對(duì)決策結(jié)果的影響,而不是解釋決策函數(shù)本身,只能捕獲到單個(gè)特征對(duì)最終決策結(jié)果的影響程度,而不一定關(guān)注實(shí)際的決策相關(guān)特征,因而相關(guān)性分值Ri(x)對(duì)應(yīng)的熱力圖在空間上是分散而不連續(xù)的.因此,敏感性分析方法提供的解釋結(jié)果通常相對(duì)粗糙且難以理解.此外,敏感性分析方法無(wú)法解釋特征之間的相關(guān)關(guān)系對(duì)最終決策結(jié)果的影響.
3.2.2 局部近似
局部近似解釋方法的核心思想是利用結(jié)構(gòu)簡(jiǎn)單的可解釋模型擬合待解釋模型針對(duì)某一輸入實(shí)例的決策結(jié)果,然后基于解釋模型對(duì)該決策結(jié)果進(jìn)行解釋.該方法通?;谌缦录僭O(shè):給定一個(gè)輸入實(shí)例,模型針對(duì)該實(shí)例以及該實(shí)例鄰域內(nèi)樣本的決策邊界可以通過(guò)可解釋的白盒模型來(lái)近似.在整個(gè)數(shù)據(jù)空間中,待解釋模型的決策邊界可以任意的復(fù)雜,但模型針對(duì)某一特定實(shí)例的決策邊界通常是簡(jiǎn)單的,甚至是近線性的[13].我們通常很難也不需要對(duì)待解釋模型的整體決策邊界進(jìn)行全局近似,但可在給定的實(shí)例及其鄰域內(nèi)利用可解釋模型對(duì)待解釋模型的局部決策邊界進(jìn)行近似,然后基于可解釋模型提供對(duì)待解釋模型的決策依據(jù)的解釋.
Ribeiro等人[13]基于神經(jīng)網(wǎng)絡(luò)的局部線性假設(shè),提出了一種模型無(wú)關(guān)局部可解釋方法(LIME).具體地,對(duì)于每一個(gè)輸入實(shí)例,LIME首先利用該實(shí)例以及該實(shí)例的一組近鄰訓(xùn)練一個(gè)易于解釋的線性回歸模型來(lái)擬合待解釋模型的局部邊界,然后基于該線性模型解釋待解釋模型針對(duì)該實(shí)例的決策依據(jù),其中,線性模型的權(quán)重系數(shù)直接體現(xiàn)了當(dāng)前決策中該實(shí)例的每一維特征重要性.Guidotti等人[49]提出了一種適用于關(guān)系表數(shù)據(jù)的基于局部規(guī)則的黑盒模型決策結(jié)果解釋方法(LORE).給定一個(gè)二分類模型f及一個(gè)由f標(biāo)記的特定實(shí)例x,LORE首先利用ad-hoc遺傳算法生成給定實(shí)例x的一組平衡鄰居實(shí)例來(lái)構(gòu)建一個(gè)簡(jiǎn)單的、可解釋的預(yù)測(cè)模型,以逼近二分類模型f針對(duì)實(shí)例x的決策邊界;然后,基于該解釋模型,從生成的實(shí)例集合中提取一個(gè)決策樹模型;最后,從決策樹模型中提取決策規(guī)則作為對(duì)實(shí)例x的分類結(jié)果的局部解釋.Ribeiro等人[50,108]提出了一種稱之為錨點(diǎn)解釋(anchor)的局部解釋方法,針對(duì)每一個(gè)輸入實(shí)例,該方法利用被稱之為“錨點(diǎn)”的if-then規(guī)則來(lái)逼近待解釋模型的局部邊界.Anchor方法充分地結(jié)合了模型無(wú)關(guān)局部解釋方法的優(yōu)點(diǎn)和規(guī)則的良好可解釋性,在Anchor方法中用于解釋的“錨點(diǎn)”通常是直觀、易于理解的,而且解釋覆蓋范圍非常清晰.通過(guò)構(gòu)造,“錨點(diǎn)”不僅可以與待解釋模型保持一致,而且還可以以確保正確理解和高保真的方式將待解釋模型的決策行為傳達(dá)給用戶.
然而,LIME,LORE以及Anchor等解釋方法均假設(shè)輸入樣本的特征相互獨(dú)立,因而無(wú)法準(zhǔn)確地解釋諸如RNN等專門對(duì)序列數(shù)據(jù)中的依賴關(guān)系進(jìn)行建模的模型.為此,Guo等人[51]提出了LEMNA,一種專用于安全應(yīng)用場(chǎng)景中的RNN模型的高保真解釋方法,其核心思想與LIME等方法相似,即利用可解釋模型來(lái)近似RNN的局部決策邊界,并針對(duì)每一個(gè)輸入實(shí)例,產(chǎn)生一組可解釋的特征以解釋針對(duì)該實(shí)例的決策依據(jù).與LIME不同的是,LEMNA假設(shè)待解釋模型的局部邊界是非線性的,為了保證解釋的保真度,LEMNA通過(guò)訓(xùn)練混合回歸模型來(lái)近似RNN針對(duì)每個(gè)輸入實(shí)例的局部決策邊界.此外,LEMNA引入了融合Lasso正則來(lái)處理RNN模型中的特征依賴問(wèn)題,有效地彌補(bǔ)了LIME等方法的不足.
基于局部近似的解釋方法實(shí)現(xiàn)簡(jiǎn)單,易于理解且不依賴待解釋模型的具體結(jié)構(gòu),適于解釋黑盒機(jī)器學(xué)習(xí)模型.但解釋模型只是待解釋模型的局部近似,因而只能捕獲模型的局部特征,無(wú)法解釋模型的整體決策行為.針對(duì)每一個(gè)輸入實(shí)例,局部近似解釋方法均需要重新訓(xùn)練一個(gè)解釋模型來(lái)擬合待解釋模型針對(duì)該實(shí)例的決策結(jié)果,因而此類方法的解釋效率通常不高.此外,大多數(shù)的局部近似解釋方法假設(shè)待解釋實(shí)例的特征相互獨(dú)立,因此無(wú)法解釋特征之間的相關(guān)關(guān)系對(duì)決策結(jié)果的影響.
3.2.3 反向傳播
基于反向傳播(back propagation)的解釋方法的核心思想是利用DNN的反向傳播機(jī)制將模型的決策重要性信號(hào)從模型的輸出層神經(jīng)元逐層傳播到模型的輸入以推導(dǎo)輸入樣本的特征重要性.
Simonyan等人[52]最先提出了利用反向傳播推斷特征重要性的解釋方法(Grad),通過(guò)利用反向傳播算法計(jì)算模型的輸出相對(duì)于輸入圖片的梯度來(lái)求解該輸入圖片所對(duì)應(yīng)的分類顯著圖(Saliency Map).與Grad方法類似,Zeiler等人[53]提出了反卷積網(wǎng)絡(luò)(DeconvNet),通過(guò)將DNN的高層激活反向傳播到模型的輸入以識(shí)別輸入圖片中負(fù)責(zé)激活的重要部分.不同的是,在處理線性整流單元(ReLU)過(guò)程中,當(dāng)使用Grad方法反向傳播重要性時(shí),如果正向傳播過(guò)程中ReLU的輸入為負(fù),則反向傳播過(guò)程中傳入ReLU的梯度值為零.而在反卷積網(wǎng)絡(luò)中反向傳播一個(gè)重要信號(hào)時(shí),當(dāng)且僅當(dāng)信號(hào)值為負(fù),進(jìn)入ReLU的重要信號(hào)被置零,而不考慮前向傳播過(guò)程中輸入到ReLU的信號(hào)的符號(hào).Springenberg等人[54]將Grad方法與反卷積網(wǎng)絡(luò)相結(jié)合提出了導(dǎo)向反向傳播方法(GuidedBP),通過(guò)在反向傳播過(guò)程中丟棄負(fù)值來(lái)修改ReLU函數(shù)的梯度.與只計(jì)算輸出針對(duì)當(dāng)前輸入的梯度不同,Sundararajan等人[55]提出了一種集成梯度方法(Integrated),該方法通過(guò)計(jì)算輸入從某些起始值按比例放大到當(dāng)前值的梯度的積分代替單一梯度,有效地解決了DNN中神經(jīng)元飽和問(wèn)題導(dǎo)致無(wú)法利用梯度信息反映特征重要性的問(wèn)題.
然而,Grad,GuidedBP以及Integrated等方法通過(guò)反向傳播所得到的顯著圖通常包含很多視覺(jué)可見(jiàn)的噪音,如圖5所示,而我們無(wú)法確定這種噪音是否真實(shí)地反映了模型在分類過(guò)程中的決策依據(jù).為此,Smilkov等人[56]提出了一種平滑梯度的反向傳播解釋方法(SmoothGrad),該方法通過(guò)向輸入樣本中引入噪聲解決了Grad等方法中存在的視覺(jué)噪音問(wèn)題.SmoothGrad方法的核心思想是通過(guò)向待解釋樣本中添加噪聲對(duì)相似的樣本進(jìn)行采樣,然后利用反向傳播方法求解每個(gè)采樣樣本的決策顯著圖,最后將所有求解得到的顯著圖進(jìn)行平均并將其作為對(duì)模型針對(duì)該樣本的決策結(jié)果的解釋.
Fig.5 Comparison of interpretation quality of four gradient back-propagation based interpretation methods圖5 4種梯度反向傳播解釋方法解釋效果對(duì)比[59]
盡管上述基于梯度反向傳播的方法可以定位輸入樣本中決策特征,但卻無(wú)法量化每個(gè)特征對(duì)模型決策結(jié)果的貢獻(xiàn)程度.因此,Landecker等人[109]提出一種貢獻(xiàn)傳播方法,該方法首先利用加性模型計(jì)算DNN高層特征對(duì)模型分類結(jié)果的貢獻(xiàn),然后通過(guò)反向傳播將高層特征的貢獻(xiàn)逐層傳遞到模型的輸入,以確定每一層的每一個(gè)神經(jīng)元節(jié)點(diǎn)對(duì)其下一層神經(jīng)元節(jié)點(diǎn)的相對(duì)貢獻(xiàn).給定一個(gè)待解釋樣本,該方法不僅可以定位樣本中的重要特征,而且還能量化每一個(gè)特征對(duì)于分類結(jié)果的重要性.Bach等人[57]則提出了一種分層相關(guān)性傳播方法(LRP),用于計(jì)算單個(gè)像素對(duì)圖像分類器預(yù)測(cè)結(jié)果的貢獻(xiàn).一般形式的LRP方法假設(shè)分類器可以被分解為多個(gè)計(jì)算層,每一層都可以被建模為一個(gè)多維向量并且該多維向量的每一維都對(duì)應(yīng)一個(gè)相關(guān)性分值,LRP的核心則是利用反向傳播將高層的相關(guān)性分值遞歸地傳播到低層直至傳播到輸入層.Shrikumar等人[58]對(duì)LRP方法進(jìn)行了改進(jìn)(DeepLIFT),通過(guò)在輸入空間中定義參考點(diǎn)并參考神經(jīng)元激活的變化按比例傳播相關(guān)分?jǐn)?shù).其研究結(jié)果表明,在不進(jìn)行數(shù)值穩(wěn)定性修正的情況下,原始LRP方法的輸出結(jié)果等價(jià)于Grad方法所求顯著圖與輸入之間的乘積.與梯度反向傳播方法不同的是,LRP方法不要求DNN神經(jīng)元的激活是可微的或平滑的.基于此優(yōu)點(diǎn),Ding等人[110]首次將LRP方法應(yīng)用于基于注意力機(jī)制的編碼器-解碼器框架,以度量神經(jīng)網(wǎng)絡(luò)中任意2個(gè)神經(jīng)元之間關(guān)聯(lián)程度的相關(guān)性.在漢英翻譯案例中的研究表明,該方法有助于解釋神經(jīng)機(jī)器翻譯系統(tǒng)的內(nèi)部工作機(jī)制并分析翻譯錯(cuò)誤.類似地,Arras等人[111]將LRP方法引入到自然語(yǔ)言處理任務(wù)中,并且從定性和定量的角度證明LRP方法既可以用于文檔級(jí)別的細(xì)粒度分析,也可以作為跨文檔的數(shù)據(jù)集級(jí)別的分析,以識(shí)別對(duì)分類器決策很重要的單詞.
基于反向傳播的解釋方法通常實(shí)現(xiàn)簡(jiǎn)單、計(jì)算效率高且充分利用了模型的結(jié)構(gòu)特性.然而,從理論上易知,如果預(yù)測(cè)函數(shù)在輸入附近變得平坦,那么預(yù)測(cè)函數(shù)相對(duì)于輸入的梯度在該輸入附近將變得很小,進(jìn)而導(dǎo)致無(wú)法利用梯度信息定位樣本的決策特征.盡管Integrated方法在一定程度上解決了該問(wèn)題,但同時(shí)也增加了計(jì)算開銷,并且Integrated方法的解釋結(jié)果中依然存在許多人類無(wú)法理解的噪音.此外,梯度信息只能用于定位重要特征,而無(wú)法量化特征對(duì)決策結(jié)果的重要程度,利用基于重要性或相關(guān)性反向傳播的解釋方法則可以解決該問(wèn)題.
3.2.4 特征反演
盡管敏感性分析、局部近似以及梯度反向傳播等方法在一定程度上可以提供對(duì)待解釋模型決策結(jié)果的局部解釋,但它們通常忽略了待解釋模型的中間層,因而遺漏了大量的中間信息.而利用模型的中間層信息,我們能更容易地表征模型在正常工作條件下的決策行為,進(jìn)而可提供更準(zhǔn)確的解釋結(jié)果.特征反演(feature inversion)作為一種可視化和理解DNN中間特征表征的技術(shù),可以充分利用模型的中間層信息,以提供對(duì)模型整體行為及模型決策結(jié)果的解釋.
特征反演解釋方法可分為模型級(jí)(model-level)解釋方法和實(shí)例級(jí)(instance-level)解釋方法.模型級(jí)解釋方法旨在從輸入空間中尋找可以表示DNN神經(jīng)元所學(xué)到的抽象概念的解釋原型(如激活最大化方法),并通過(guò)可視化和理解DNN每一層特征表示的方式,提供對(duì)DNN每一層所提取信息的理解[52,95,112-113].然而,模型級(jí)解釋方法的反演結(jié)果通常相對(duì)粗糙且難以理解,此外,如何從輸入樣本中自動(dòng)化提取用于模型決策的重要特征仍然面臨著巨大的挑戰(zhàn).針對(duì)模型級(jí)方法的不足,實(shí)例級(jí)特征反演方法試圖回答輸入樣本的哪些特征被用于激活DNN的神經(jīng)元以做出特定的決策.其中,最具代表性的是Du等人[59]提出的一個(gè)實(shí)例級(jí)特征反演解釋框架,該框架通過(guò)在執(zhí)行導(dǎo)向特征反演過(guò)程中加入類別依賴約束,不僅可以準(zhǔn)確地定位待輸入實(shí)例中的用于模型決策的重要特征(如圖6所示),還可以提供對(duì)DNN模型決策過(guò)程的深入理解.
Fig. 6 Interpretation example of guided feature inversion method圖6 導(dǎo)向特征反演方法解釋示例[59]
3.2.5 類激活映射
最新研究表明:CNN不同層次的卷積單元包含大量的位置信息,使其具有良好的定位能力[114].基于卷積單元的定位能力,我們可以定位出輸入樣本中用于CNN決策的核心區(qū)域,如分類任務(wù)中的決策特征、目標(biāo)檢測(cè)任務(wù)中的物體位置等.然而,傳統(tǒng)CNN模型通常在卷積和池化之后采用全連接層對(duì)卷積層提取的特征圖進(jìn)行組合用于最終決策,因而導(dǎo)致網(wǎng)絡(luò)的定位能力喪失.
Fig. 7 Visualization of interpretation results of Grad-CAM and Guided Grad-CAM methods圖7 Grad-CAM與Guided Grad-CAM方法解釋結(jié)果可視化[61]
為解決這一問(wèn)題,Zhou等人[60]提出了類激活映射(class activation mapping, CAM)解釋方法,該方法利用全局平均池化(global average pooling)層來(lái)替代傳統(tǒng)CNN模型中除softmax層以外的所有全連接層,并通過(guò)將輸出層的權(quán)重投影到卷積特征圖來(lái)識(shí)別圖像中的重要區(qū)域.具體地,CAM首先利用全局平均池化操作輸出CNN最后一個(gè)卷積層每個(gè)單元的特征圖的空間平均值,并通過(guò)對(duì)空間平均值進(jìn)行加權(quán)求和得到CNN的最終決策結(jié)果.同時(shí),CAM通過(guò)計(jì)算最后一個(gè)卷積層的特征圖的加權(quán)和,得到CNN模型的類激活圖,而一個(gè)特定類別所對(duì)應(yīng)的類激活圖則反映了CNN用來(lái)識(shí)別該類別的核心圖像區(qū)域.最后,通過(guò)以熱力圖的形式可視化類激活圖得到最終的解釋結(jié)果.研究結(jié)果表明,全局平均池化層的優(yōu)勢(shì)遠(yuǎn)不止于作為一個(gè)正則器來(lái)防止網(wǎng)絡(luò)過(guò)擬合,事實(shí)上,通過(guò)稍加調(diào)整,全局平均池化還可以將CNN良好的定位能力保留到網(wǎng)絡(luò)的最后一層[60].
然而,CAM方法需要修改網(wǎng)絡(luò)結(jié)構(gòu)并重訓(xùn)練模型,因而在實(shí)際應(yīng)用中并不實(shí)用.因此,Selvaraju等人[61]對(duì)CAM方法進(jìn)行了改進(jìn),提出了一種將梯度信息與特征映射相結(jié)合的梯度加權(quán)類激活映射方法(Grad-CAM).給定一個(gè)輸入樣本,Grad-CAM首先計(jì)算目標(biāo)類別相對(duì)于最后一個(gè)卷積層中每一個(gè)特征圖的梯度并對(duì)梯度進(jìn)行全局平均池化,以獲得每個(gè)特征圖的重要性權(quán)重;然后,基于重要性權(quán)重計(jì)算特征圖的加權(quán)激活,以獲得一個(gè)粗粒度的梯度加權(quán)類激活圖,用于定位輸入樣本中具有類判別性的重要區(qū)域,如圖7(c)所示.與CAM相比,Grad-CAM無(wú)需修改網(wǎng)絡(luò)架構(gòu)或重訓(xùn)練模型,避免了模型的可解釋性與準(zhǔn)確性之間的權(quán)衡,因而可適用于多種任務(wù)以及任何基于CNN結(jié)構(gòu)的模型,對(duì)于全卷積神經(jīng)網(wǎng)絡(luò),Grad-CAM退化為CAM方法.盡管Grad-CAM具有良好的類別判別能力并能很好地定位相關(guān)圖像區(qū)域,但缺乏諸如DeconvNet[53]和GuidedBP[54]等像素級(jí)別梯度可視化解釋方法顯示細(xì)粒度特征重要性的能力[61].為獲得更細(xì)粒度的特征重要性,作者將Grad-CAM與GuidedBP方法相結(jié)合提出了導(dǎo)向梯度加權(quán)類激活映射方法(Guided Grad-CAM),該方法首先利用雙線性插值將梯度加權(quán)類激活圖上采樣到輸入圖片分辨率大小,然后點(diǎn)乘GuidedBP方法的輸出結(jié)果,得到細(xì)粒度的類判別性特征定位圖,如圖7(d)所示.研究結(jié)果表明,Guided Grad-CAM方法解釋效果優(yōu)于GuidedBP和Grad-CAM.
類激活映射解釋方法實(shí)現(xiàn)簡(jiǎn)單、計(jì)算效率高,解釋結(jié)果視覺(jué)效果好且易于理解,但這類方法只適用于解釋CNN模型,很難擴(kuò)展到全連接神經(jīng)網(wǎng)絡(luò)(FCN)以及RNN等模型.此外,CAM方法需要修改網(wǎng)絡(luò)結(jié)構(gòu)并重訓(xùn)練模型,模型的準(zhǔn)確性與可解釋性之間始終存在一個(gè)權(quán)衡,且針對(duì)重訓(xùn)練模型做出的解釋結(jié)果與原待解釋模型的真實(shí)行為之間存在一定的不一致性,因而在真實(shí)應(yīng)用場(chǎng)景中很難適用.Grad-CAM雖然解決了CAM需要進(jìn)行網(wǎng)絡(luò)修改和模型重訓(xùn)練的問(wèn)題,但仍然與CAM方法一樣只能提供粗粒度的解釋結(jié)果,無(wú)法滿足安全敏感應(yīng)用場(chǎng)景(如自動(dòng)駕駛、醫(yī)療診斷等)中對(duì)精細(xì)化解釋的需要.Guided Grad-CAM方法作為CAM和Grad-CAM的加強(qiáng)版,既不需要修改網(wǎng)絡(luò)結(jié)構(gòu)或重訓(xùn)練模型,又能提供更細(xì)粒度的解釋結(jié)果,但由于引入了導(dǎo)向反向傳播方法,因而該方法同樣存在由于負(fù)梯度歸零導(dǎo)致無(wú)法定位與模型決策結(jié)果呈負(fù)相關(guān)的樣本特征的局限性[115].
3.2.6 其他方法
除了上述5種典型的局部可解釋方法外,其他研究者從不同的角度對(duì)模型可解釋性進(jìn)行了深入研究,并提出了一些新的局部解釋方法,包括抽象解釋[62]和準(zhǔn)確一致解釋[63]等.
針對(duì)DNN系統(tǒng)的可靠分析技術(shù)所面臨的主要挑戰(zhàn)是如何在解釋神經(jīng)網(wǎng)絡(luò)某些特性的同時(shí)將其擴(kuò)展到大規(guī)模的DNN分類器,因此,分析方法必須考慮到任何經(jīng)過(guò)大量中間神經(jīng)元處理的大規(guī)模輸入集上所有可能的模型輸出結(jié)果.由于模型的輸入空間通常是巨大的,因而通過(guò)在所有可能的輸入樣本上運(yùn)行模型來(lái)檢查它們是否滿足某一特性是不可行的.為解決這一挑戰(zhàn),避免狀態(tài)空間爆炸,Gehr等人[62]將程序分析中的經(jīng)典抽象解釋框架應(yīng)用于DNN分析,首次提出了可擴(kuò)展的、可用于驗(yàn)證和分析DNN安全性和魯棒性的抽象解釋系統(tǒng)(AI2).具體地,AI2首先構(gòu)造一個(gè)包含一系列邏輯約束和抽象元素的數(shù)值抽象域;由于DNN的每一層處理的是具體的數(shù)值,因而抽象元素?zé)o法在網(wǎng)絡(luò)中傳播.為解決此問(wèn)題,AI2通過(guò)定義一個(gè)被稱之為抽象轉(zhuǎn)換器(abstract transformer)的函數(shù)將DNN的每一層轉(zhuǎn)換為對(duì)應(yīng)的抽象層,并基于抽象元素過(guò)近似(over-approximation)原神經(jīng)網(wǎng)絡(luò)每一層的處理函數(shù)以捕獲其真實(shí)行為;最后,AI2基于抽象轉(zhuǎn)換器返回的抽象結(jié)果,分析并驗(yàn)證神經(jīng)網(wǎng)絡(luò)的魯棒性和安全性.AI2不用真正運(yùn)行DNN模型即可驗(yàn)證DNN的某些特定屬性,因而計(jì)算效率高,可擴(kuò)展到大規(guī)模、更復(fù)雜的DNN網(wǎng)絡(luò).但由于采用了過(guò)近似處理,盡管AI2能提供可靠的解釋但無(wú)法保證解釋的準(zhǔn)確性.
現(xiàn)有局部解釋方法包括抽象解釋都很難保證解釋結(jié)果的準(zhǔn)確性和一致性,為此,許多學(xué)者開始研究針對(duì)DNN模型的精確解釋方法.Chu等人[63]提出了一種準(zhǔn)確一致的解釋方法(OpenBox),可為分段線性神經(jīng)網(wǎng)絡(luò)(PLNN)家族模型提供精確一致的解釋.作者研究證明,PLNN在數(shù)學(xué)上等價(jià)于一系列的局部線性分類器,其中每一個(gè)線性分類器負(fù)責(zé)分類輸入空間中的一組樣本.因此,給定一個(gè)待解釋PLNN模型,OpenBox首先利用神經(jīng)網(wǎng)絡(luò)的前向傳播機(jī)制和矩陣運(yùn)算將給定的PLNN模型表示成數(shù)學(xué)上與之等價(jià)的、由一系列數(shù)據(jù)依賴的局部線性分類器組成的線性解釋模型;然后,針對(duì)每一個(gè)待解釋樣本,OpenBox基于該樣本所對(duì)應(yīng)的局部線性分類器提供對(duì)PLNN分類結(jié)果的解釋.研究結(jié)果表明,由于線性解釋模型數(shù)學(xué)上與待解釋PLNN等價(jià),因此基于線性解釋模型給出的解釋結(jié)果能精確地反映PLNN的真實(shí)決策行為,并且線性解釋模型針對(duì)每一個(gè)輸入的決策結(jié)果與待解釋PLNN的決策結(jié)果完全一致,從而解決了模型的可解釋性與準(zhǔn)確性之間的權(quán)衡難題.此外,針對(duì)近似的樣本,OpenBox可以給出一致的解釋,保證了解釋結(jié)果的一致性.然而,OpenBox作為針對(duì)PLNN家族的特定解釋方法,只能解釋線性神經(jīng)網(wǎng)絡(luò)模型,無(wú)法用于解釋非線性神經(jīng)網(wǎng)絡(luò)模型.此外,如何將其擴(kuò)展到CNN,RNN等更復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型同樣面臨著巨大的挑戰(zhàn).
機(jī)器學(xué)習(xí)模型可解釋性相關(guān)技術(shù)潛在應(yīng)用非常廣泛,具體包括模型驗(yàn)證、模型診斷、輔助分析以及知識(shí)發(fā)現(xiàn)等.
傳統(tǒng)的模型驗(yàn)證方法通常是通過(guò)構(gòu)造一個(gè)與訓(xùn)練集不相交的驗(yàn)證集,然后基于模型在驗(yàn)證集上的誤差來(lái)評(píng)估模型的泛化性能,從而提供對(duì)模型好壞的一個(gè)粗粒度的驗(yàn)證.然而,由于數(shù)據(jù)集中可能存在偏差,并且驗(yàn)證集也可能與訓(xùn)練集同分布,我們很難簡(jiǎn)單地通過(guò)評(píng)估模型在驗(yàn)證集上的泛化能力來(lái)驗(yàn)證模型的可靠性,也很難驗(yàn)證模型是否從訓(xùn)練數(shù)據(jù)中學(xué)到了真正的決策知識(shí).以冰原狼與哈士奇的分類為例,由于訓(xùn)練集中所有冰原狼樣本圖片的背景均為雪地,導(dǎo)致分類模型可能從訓(xùn)練集中學(xué)到數(shù)據(jù)偏差從而將雪作為冰原狼的分類特征,又由于驗(yàn)證集與訓(xùn)練集同分布,模型在驗(yàn)證集上的分類性能與在訓(xùn)練集上的性能同樣優(yōu)異,因而導(dǎo)致傳統(tǒng)的模型驗(yàn)證方法將該模型識(shí)別為一個(gè)好的分類模型[13].很顯然,這樣的模型通常是不可靠的,一旦模型在推理階段遇到背景為雪地的哈士奇樣本圖片,分類模型會(huì)做出錯(cuò)誤的決策,而模型的這種行為將會(huì)給實(shí)際場(chǎng)景尤其是風(fēng)險(xiǎn)敏感場(chǎng)景中的真實(shí)應(yīng)用帶來(lái)潛在的威脅.
針對(duì)傳統(tǒng)模型驗(yàn)證方法的不足,我們可以利用模型的可解釋性及相關(guān)解釋方法對(duì)模型可靠性進(jìn)行更細(xì)粒度的評(píng)估和驗(yàn)證,從而消除模型在實(shí)際部署應(yīng)用中的潛在風(fēng)險(xiǎn).基于可解釋性的模型驗(yàn)證方法一般思路如下:首先構(gòu)造一個(gè)可信驗(yàn)證集,消除驗(yàn)證集中可能存在的數(shù)據(jù)偏差,保證驗(yàn)證數(shù)據(jù)的可靠性;然后,基于可信驗(yàn)證集,利用相關(guān)解釋方法提供對(duì)模型整體決策行為(全局解釋)或模型決策結(jié)果(局部解釋)的解釋;最后,基于解釋方法給出的解釋結(jié)果并結(jié)合人類認(rèn)知,對(duì)模型決策行為和決策結(jié)果的可靠性進(jìn)行驗(yàn)證,以檢查模型是否在以符合人類認(rèn)知的形式正常工作.
在冰原狼與哈士奇分類的例子中,Ribeiro等人[13]利用局部解釋方法LIME解釋分類模型針對(duì)一個(gè)背景為雪的哈士奇圖片的分類結(jié)果,發(fā)現(xiàn)分類模型將該圖片錯(cuò)誤地分類為冰原狼,而解釋方法給出的解釋結(jié)果表明模型做出決策的依據(jù)是圖片背景中的雪,如圖8(a)所示.很顯然,該解釋結(jié)果與人類的認(rèn)知相違背,表明模型在學(xué)習(xí)的過(guò)程中錯(cuò)誤地將雪作為冰原狼的決策特征,從而證明該模型是不可靠的.類似地,Lapuschkin等人[116]利用LRP解釋方法定性地分析一個(gè)從ImageNet中遷移訓(xùn)練得到的CNN模型和一個(gè)在PASCAL VOC 2007數(shù)據(jù)集上訓(xùn)練得到的Fisher向量(FV)分類器的決策結(jié)果,以檢測(cè)訓(xùn)練數(shù)據(jù)中的潛在缺陷和偏差.研究結(jié)果表明,盡管2個(gè)模型具有相似的分類精度,但在對(duì)輸入樣本進(jìn)行分類時(shí)卻采用了完全不同的分類策略.從LRP解釋方法給出的解釋結(jié)果可以看出,如圖8(b)所示,在對(duì)輪船圖片進(jìn)行分類時(shí),F(xiàn)V分類器依據(jù)的是海水特征,而CNN模型則能正確地捕獲到輪船的輪廓信息.與此同時(shí),如果將位于水外的輪船作為測(cè)試樣本,F(xiàn)V分類器的分類性能將大幅下降,而CNN模型則幾乎不受影響.這一驗(yàn)證結(jié)果表明,F(xiàn)V分類器的決策行為存在偏差而CNN模型表現(xiàn)正常.因此,我們認(rèn)為CNN模型比FV分類器更可靠,在進(jìn)行模型選擇時(shí),我們將會(huì)選擇CNN模型作為最終的分類模型.
Fig. 8 Examples of interpretation-based model validation圖8 基于可解釋性的模型驗(yàn)證示例
而對(duì)于可解釋方法所識(shí)別出的不可靠的模型,我們可以采取相應(yīng)的對(duì)策來(lái)進(jìn)行改進(jìn).比如說(shuō),我們可以通過(guò)在訓(xùn)練模型時(shí)引入歸納偏置,提高模型在預(yù)測(cè)階段的泛化能力,從而使其能對(duì)未知樣本做出正確的決策.我們也可以通過(guò)修正訓(xùn)練集分布,消除數(shù)據(jù)中存在的偏差,并利用修正后的數(shù)據(jù)集重訓(xùn)練模型達(dá)到消除模型決策偏差的目的.
由于機(jī)器學(xué)習(xí)模型內(nèi)部工作機(jī)制復(fù)雜、透明性低,模型開發(fā)人員往往缺乏可靠的推理或依據(jù)來(lái)輔助他們進(jìn)行模型開發(fā)和調(diào)試,因而使得模型開發(fā)迭代過(guò)程變得更加耗時(shí)且容易出錯(cuò).而模型可解釋性相關(guān)技術(shù)作為一種細(xì)粒度分析和解釋模型的有效手段,可用于分析和調(diào)試模型的錯(cuò)誤決策行為,以“診斷”模型中存在的缺陷,并為修復(fù)模型中的缺陷提供有力的支撐.近年來(lái),隨著模型可解釋性研究不斷取得新的突破,基于可解釋性的機(jī)器學(xué)習(xí)模型診斷相關(guān)研究也吸引了越來(lái)越多的關(guān)注[117-120].
研究表明:基于模型特征表示可視化以及中間層分析的解釋方法(如激活最大化、特征反演等)可以有效地用于解釋和診斷復(fù)雜模型.典型的解決方案包括可視化模型的中間激活狀態(tài)或內(nèi)部特征表示以及可視化模型中的數(shù)據(jù)流圖[121-123],以增強(qiáng)對(duì)復(fù)雜模型的解釋和理解,同時(shí)分析和評(píng)估模型或算法的性能,為在模型開發(fā)的不同階段(如前期特征工程、中期超參調(diào)整以及后期模型微調(diào)等)交互式改進(jìn)模型提供有效的指導(dǎo)[124].此外,一些其他的研究方法則通過(guò)識(shí)別與模型“漏洞”相關(guān)的重要特征或?qū)嵗齺?lái)進(jìn)行模型診斷和調(diào)試.Krause等人[125]基于敏感性分析解釋方法的思想,設(shè)計(jì)了一個(gè)名為Prospector的系統(tǒng),通過(guò)修改特征值并檢查預(yù)測(cè)結(jié)果的相應(yīng)變化來(lái)確定敏感性特征.Cadamuro等人[117]提出了一種概念分析和診斷循環(huán)的模型診斷方法,允許終端用戶迭代地檢測(cè)模型“漏洞”,以找到對(duì)模型“漏洞”貢獻(xiàn)最大的訓(xùn)練實(shí)例,從而確定模型出錯(cuò)的根本原因.Krause等人[126]提出了一個(gè)可視化模型診斷工作流,通過(guò)利用局部解釋方法度量輸入實(shí)例中的局部特征相關(guān)性,以幫助數(shù)據(jù)科學(xué)家和領(lǐng)域?qū)<依斫夂驮\斷模型所做出的決策.具體地,該工作流首先利用聚合統(tǒng)計(jì)查看數(shù)據(jù)在正確決策和錯(cuò)誤決策之間的分布;然后,基于解釋方法理解用于做出這些決策的特征;最后基于原始數(shù)據(jù),對(duì)影響模型決策的潛在根本原因進(jìn)行深入分析.
針對(duì)已發(fā)現(xiàn)的模型“漏洞”,我們可以基于模型診斷方法給出的推理結(jié)果,采取相應(yīng)的措施對(duì)模型進(jìn)行“治療”,如提高訓(xùn)練數(shù)據(jù)的質(zhì)量、選擇可靠特征以及調(diào)整模型超參等.Paiva等人[127]提出了一種可視化數(shù)據(jù)分類方法,該方法通過(guò)點(diǎn)布局策略實(shí)現(xiàn)數(shù)據(jù)集的可視化,允許用戶選擇并指定用于模型學(xué)習(xí)過(guò)程的訓(xùn)練數(shù)據(jù),從而提高訓(xùn)練集的整體質(zhì)量.Brooks等人[128]提出了一個(gè)用于改進(jìn)特征工程的交互式可視化分析系統(tǒng),該系統(tǒng)支持錯(cuò)誤驅(qū)動(dòng)的特征構(gòu)思過(guò)程并為誤分類樣本提供交互式可視化摘要,允許在誤分類樣本和正確分類樣本之間進(jìn)行特征級(jí)別的比較,以選擇能減小模型預(yù)測(cè)錯(cuò)誤率的特征,從而提高模型性能并修復(fù)模型中的“漏洞”.
除了用于模型驗(yàn)證與模型診斷之外,可解釋性相關(guān)技術(shù)還可用于輔助分析與決策,以提高人工分析和決策的效率.相關(guān)研究表明,基于可解釋性的輔助分析技術(shù)在醫(yī)療數(shù)據(jù)分析、分子模擬以及基因分析等多個(gè)領(lǐng)域取得了巨大的成功,有效地解決了人工分析耗時(shí)費(fèi)力的難題.
在智慧醫(yī)療領(lǐng)域,許多學(xué)者嘗試將深度學(xué)習(xí)及可解釋性技術(shù)應(yīng)用于構(gòu)建自動(dòng)化智能診斷系統(tǒng),以輔助醫(yī)護(hù)人員分析病人的醫(yī)療診斷數(shù)據(jù),從而提高人工診斷的效率[6,129].Rajpurkar等人[6]基于大規(guī)模病人胸片數(shù)據(jù)開發(fā)了基于深度學(xué)習(xí)的肺炎檢測(cè)系統(tǒng)(CheXNet),其檢測(cè)性能甚至超過(guò)了放射科醫(yī)師的診斷水平,該系統(tǒng)通過(guò)將可解釋方法CAM應(yīng)用于解釋檢測(cè)系統(tǒng)的決策依據(jù)并可視化對(duì)應(yīng)的解釋結(jié)果(如圖9所示),可以為醫(yī)師分析病人醫(yī)療影像數(shù)據(jù)以快速定位病人的病灶提供大量的輔助信息.Arvaniti等人[129]研究結(jié)果表明,在給定一個(gè)良好標(biāo)注的數(shù)據(jù)集的前提下,可以利用CNN模型成功地實(shí)現(xiàn)對(duì)前列腺癌組織微陣列的自動(dòng)格里森分級(jí).同時(shí),利用解釋方法給出自動(dòng)分級(jí)系統(tǒng)的分級(jí)依據(jù),可實(shí)現(xiàn)病理專家級(jí)的分級(jí)效果,從而為簡(jiǎn)化相對(duì)繁瑣的分級(jí)任務(wù)提供了支撐.
Fig. 9 Application of interpretation in medical diagnosis圖9 可解釋方法在醫(yī)療診斷中的應(yīng)用[6]
在量子化學(xué)領(lǐng)域,分子動(dòng)力學(xué)模擬是理解化學(xué)反應(yīng)機(jī)理、速率和產(chǎn)率的關(guān)鍵,然而由于分子的完整波函數(shù)相對(duì)復(fù)雜,且難以計(jì)算和近似,導(dǎo)致人們通常難以理解,因而如何創(chuàng)建人類可解釋的分子表示成為21世紀(jì)物質(zhì)模擬的一大挑戰(zhàn)[130].為解決這一難題,許多學(xué)者將機(jī)器學(xué)習(xí)及可解釋性技術(shù)引入到分子模擬任務(wù)中,用于輔助分析分子結(jié)構(gòu)與分子性質(zhì)之間的關(guān)系[131-133].其中,Schütt等人[133]提出一種通過(guò)結(jié)合強(qiáng)大的結(jié)構(gòu)和表示能力以實(shí)現(xiàn)較高預(yù)測(cè)性能和良好可解釋性的深度張量神經(jīng)網(wǎng)絡(luò)(DTNN),用于預(yù)測(cè)分子結(jié)構(gòu)與電子性質(zhì)之間的關(guān)系.同時(shí),作者利用基于測(cè)試電荷擾動(dòng)的敏感性分析方法測(cè)量在給定的位置插入電荷對(duì)DTNN輸出結(jié)果的影響,從而找到與解釋分子結(jié)構(gòu)與性質(zhì)關(guān)系最相關(guān)的每個(gè)單獨(dú)的分子空間結(jié)構(gòu).H?se等人[132]提出一種利用機(jī)器學(xué)習(xí)來(lái)輔助分子動(dòng)力學(xué)模擬的方法,該方法利用模擬產(chǎn)生的大量數(shù)據(jù)訓(xùn)練貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)來(lái)預(yù)測(cè)1,2-二氧雜環(huán)丁烷從初始核位置的離解時(shí)間.為了構(gòu)建一個(gè)可解釋的BNN模型,作者將模型的權(quán)重和偏置分布參數(shù)化為拉普拉斯分布,以確定與準(zhǔn)確預(yù)測(cè)離解時(shí)間以及實(shí)際的物理過(guò)程相關(guān)的輸入特征.研究結(jié)果表明,該方法不僅可以準(zhǔn)確地再現(xiàn)化合物的離解過(guò)程,而且能自動(dòng)地從模擬數(shù)據(jù)中提取相關(guān)信息,而不需要預(yù)先了解相關(guān)化學(xué)反應(yīng).同時(shí),通過(guò)解釋BNN所捕獲的特征與實(shí)際物理過(guò)程之間的相關(guān)關(guān)系,可以在不了解電子結(jié)構(gòu)的情況下,確定核坐標(biāo)與離解時(shí)間之間的物理相關(guān)性,從而為人們?cè)诨瘜W(xué)領(lǐng)域取得概念性的突破提供靈感.
在基因組分析領(lǐng)域,由基因組學(xué)研究不斷進(jìn)步而產(chǎn)生的數(shù)據(jù)爆炸,給傳統(tǒng)的基因組分析方法帶來(lái)了巨大的挑戰(zhàn),同時(shí)也給數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)技術(shù)在基因組分析研究中的發(fā)展和應(yīng)用帶來(lái)了機(jī)遇[134].相關(guān)研究表明,深度學(xué)習(xí)在基因組分析中的應(yīng)用已突顯出了其強(qiáng)大的優(yōu)勢(shì)[135-138].然而,人們期望深度學(xué)習(xí)模型不僅能成功地預(yù)測(cè)結(jié)果,還能識(shí)別有意義的基因序列,并對(duì)所研究的科學(xué)問(wèn)題(如基因與疾病、藥物之間的關(guān)系)提供進(jìn)一步的見(jiàn)解,因而模型的可解釋性在應(yīng)用中顯得至關(guān)重要.Lanchantin等人[137]將3種DNN模型(即CNN,RNN以及CNN-RNN)應(yīng)用于預(yù)測(cè)給定的DNA序列中某一特定的轉(zhuǎn)錄因子是否有結(jié)合位點(diǎn),并且提出了一套基于解釋方法的可視化策略,用于解釋對(duì)應(yīng)的預(yù)測(cè)模型并從中提取隱含的序列模式.其中,作者基于反向傳播解釋方法,通過(guò)計(jì)算預(yù)測(cè)概率相對(duì)于輸入DNA序列的梯度來(lái)構(gòu)建顯著圖[52],用于度量并顯示核苷酸的重要性.同時(shí),作者利用時(shí)間域輸出分值來(lái)識(shí)別DNN序列中與特定轉(zhuǎn)錄因子結(jié)合位點(diǎn)相關(guān)的關(guān)鍵序列位置,并利用類激活最大化方法生成與特定預(yù)測(cè)結(jié)果相關(guān)的Motif模式.實(shí)驗(yàn)結(jié)果證明,這一系列的可視化策略可為研究人員分析DNA序列結(jié)構(gòu)、組成成分與特定轉(zhuǎn)錄因子結(jié)合位點(diǎn)之間的關(guān)系提供大量的輔助信息.類似地,Alipanahi等人[138]構(gòu)建了一個(gè)名為DeepBind的系統(tǒng),通過(guò)訓(xùn)練一個(gè)CNN模型將DNA和RNA序列映射到蛋白質(zhì)結(jié)合位點(diǎn)上,以了解DNA和RNA結(jié)合蛋白的序列特異性.為了進(jìn)一步探索遺傳變異對(duì)蛋白質(zhì)結(jié)合位點(diǎn)的影響,作者采用了基于擾動(dòng)的敏感性分析方法,通過(guò)計(jì)算突變對(duì)DeepBind預(yù)測(cè)結(jié)果的影響生成“突變圖”,以解釋序列中每個(gè)可能的點(diǎn)突破對(duì)結(jié)合親和力的影響.作者表明,DeepBind可用于揭示RNA結(jié)合蛋白質(zhì)在選擇性剪接中的調(diào)節(jié)作用,并輔助研究人員分析、識(shí)別、分組及可視化可影響轉(zhuǎn)錄因子結(jié)合和基因表達(dá)的疾病相關(guān)遺傳變異,從而有望實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué).
近年來(lái),隨著人工智能相關(guān)技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)的自動(dòng)決策系統(tǒng)被廣泛地應(yīng)用到各個(gè)領(lǐng)域,如惡意程序分析、自動(dòng)化醫(yī)療診斷以及量化交易等.然而,由于實(shí)際任務(wù)的復(fù)雜性以及人類認(rèn)知和領(lǐng)域知識(shí)的局限性,人們可能無(wú)法理解決策系統(tǒng)給出的結(jié)果,因而缺乏對(duì)相關(guān)領(lǐng)域問(wèn)題更深入的理解,進(jìn)而導(dǎo)致許多科學(xué)問(wèn)題難以得到有效的解決.最新研究成果表明,通過(guò)將可解釋性相關(guān)技術(shù)與基于機(jī)器學(xué)習(xí)的自動(dòng)決策系統(tǒng)相結(jié)合,可有效地挖掘出自動(dòng)決策系統(tǒng)從數(shù)據(jù)中學(xué)到的新知識(shí),以提供對(duì)所研究科學(xué)問(wèn)題的深入理解,從而彌補(bǔ)人類認(rèn)知與領(lǐng)域知識(shí)的局限性.
在二進(jìn)制分析領(lǐng)域,許多潛在的啟發(fā)式方法都是針對(duì)某一個(gè)特定的函數(shù)的,而挖掘這些潛在的方法通常需要豐富的領(lǐng)域知識(shí),因而很難通過(guò)人工的方式對(duì)所有的啟發(fā)式方法進(jìn)行匯總.Guo等人[51]將可解釋方法LEMNA應(yīng)用于一個(gè)基于LSTM的二進(jìn)制函數(shù)入口檢測(cè)器,以提供對(duì)LSTM檢測(cè)結(jié)果的解釋.通過(guò)分析解釋結(jié)果,作者發(fā)現(xiàn)檢測(cè)模型確實(shí)從訓(xùn)練數(shù)據(jù)中學(xué)到了用于識(shí)別函數(shù)入口的潛在特征,這表明利用LEMNA解釋方法可以挖掘出檢測(cè)模型從數(shù)據(jù)中學(xué)到的新知識(shí),從而對(duì)總結(jié)針對(duì)某個(gè)特殊函數(shù)的所有潛在的啟發(fā)式方法提供幫助.
在醫(yī)療保健領(lǐng)域,由于病人病理錯(cuò)綜復(fù)雜且因人而異,醫(yī)護(hù)人員往往無(wú)法通過(guò)有限的醫(yī)療診斷知識(shí)挖掘潛在的致病因素及其之間的相互作用,而對(duì)潛在因素的忽視極其可能帶來(lái)致命的威脅.Yang等人[41]基于重癥監(jiān)護(hù)室(ICU)治療記錄數(shù)據(jù)構(gòu)建了一個(gè)帶注意力機(jī)制的RNN模型,用于分析醫(yī)療條件與ICU死亡率之間的關(guān)系,而這些關(guān)系在以往的醫(yī)療實(shí)踐中往往沒(méi)有得到很好的研究.作者研究結(jié)果表明,利用可解釋性技術(shù)有助于發(fā)現(xiàn)與醫(yī)療保健中某些結(jié)果相關(guān)的潛在影響因素或相互作用,從而使得從自動(dòng)化醫(yī)療診斷模型中學(xué)習(xí)新的診斷知識(shí)成為可能.
此外,作為知識(shí)發(fā)現(xiàn)的重要手段,模型可解釋性及其相關(guān)解釋方法還被廣泛地應(yīng)用到了數(shù)據(jù)挖掘領(lǐng)域,以從海量數(shù)據(jù)中自動(dòng)地挖掘隱含的新知識(shí)[139-142].這類研究核心思想是基于所研究的領(lǐng)域及科學(xué)目標(biāo)構(gòu)建海量數(shù)據(jù)集,然后對(duì)構(gòu)建的數(shù)據(jù)集進(jìn)行清洗并利用機(jī)器學(xué)習(xí)模型從清洗后的數(shù)據(jù)中提取數(shù)據(jù)映射模式,最后利用解釋方法從挖掘到的數(shù)據(jù)模式識(shí)別代表新知識(shí)的模式并利用可視化技術(shù)將新知識(shí)呈現(xiàn)給用戶.
模型可解釋性研究的初衷是通過(guò)構(gòu)建可解釋的模型或設(shè)計(jì)解釋方法提高模型的透明性,同時(shí)驗(yàn)證和評(píng)估模型決策行為和決策結(jié)果的可靠性和安全性,消除模型在實(shí)際部署應(yīng)用中的安全隱患.然而,模型可解釋性相關(guān)技術(shù)同樣可以被攻擊者利用以探測(cè)機(jī)器學(xué)習(xí)模型中的“漏洞”,因而會(huì)給機(jī)器學(xué)習(xí)模型以及真實(shí)應(yīng)用場(chǎng)景中尤其是風(fēng)險(xiǎn)敏感場(chǎng)景中的機(jī)器學(xué)習(xí)應(yīng)用帶來(lái)威脅.此外,由于解釋方法與待解釋模型之間可能存在不一致性,因而可解釋系統(tǒng)或可解釋方法本身就存在一定的安全風(fēng)險(xiǎn).
如第4節(jié)中所述,模型可解釋性及相關(guān)解釋方法不僅可以用于評(píng)估和驗(yàn)證機(jī)器學(xué)習(xí)模型,以彌補(bǔ)傳統(tǒng)模型驗(yàn)證方法的不足,保證模型決策行為和決策結(jié)果的可靠性和安全性,還可用于輔助模型開發(fā)人員和安全分析師診斷和調(diào)試模型以檢測(cè)模型中的缺陷,并為安全分析師修復(fù)模型“漏洞”提供指導(dǎo),從而消除模型在實(shí)際部署應(yīng)用中的安全隱患.并且,通過(guò)同時(shí)向終端用戶提供模型的預(yù)測(cè)結(jié)果及對(duì)應(yīng)的解釋結(jié)果,可提高模型決策的透明性,進(jìn)而有助于建立終端用戶與決策系統(tǒng)之間的信任關(guān)系.
除了用于消除上述內(nèi)在安全隱患之外,模型可解釋性相關(guān)技術(shù)還可以幫助抵御外在安全風(fēng)險(xiǎn).人工智能安全領(lǐng)域相關(guān)研究表明即使決策“可靠”的機(jī)器學(xué)習(xí)模型也同樣容易受到對(duì)抗樣本攻擊,只需要在輸入樣本中添加精心構(gòu)造的、人眼不可察覺(jué)的擾動(dòng)就可以輕松地讓模型決策出錯(cuò)[8,143-144].這種攻擊危害性大、隱蔽性強(qiáng)、變種多且難以防御,嚴(yán)重地威脅著人工智能系統(tǒng)的安全.而現(xiàn)存防御方法大多數(shù)是針對(duì)某一個(gè)特定的對(duì)抗樣本攻擊設(shè)計(jì)的靜態(tài)的經(jīng)驗(yàn)性防御,因而防御能力極其有限.然而,不管是哪種攻擊方法,其本質(zhì)思想都是通過(guò)向輸入中添加擾動(dòng)以轉(zhuǎn)移模型的決策注意力,最終使模型決策出錯(cuò).由于這種攻擊使得模型決策依據(jù)發(fā)生變化,因而解釋方法針對(duì)對(duì)抗樣本的解釋結(jié)果必然與其針對(duì)對(duì)應(yīng)的正常樣本的解釋結(jié)果不同.因此,我們可以通過(guò)對(duì)比并利用這種解釋結(jié)果的反差來(lái)檢測(cè)對(duì)抗樣本,而這種方法并不特定于某一種對(duì)抗攻擊,因而可以彌補(bǔ)傳統(tǒng)經(jīng)驗(yàn)性防御的不足.
除上述防御方法外,很多學(xué)者從不同的角度提出了一些新的基于可解釋性技術(shù)的對(duì)抗防御方法.其中,Tao等人[145]認(rèn)為對(duì)抗攻擊與模型的可解釋性密切相關(guān),即對(duì)于正常樣本的決策結(jié)果,可以基于人類可感知的特征或?qū)傩詠?lái)進(jìn)行推理,而對(duì)于對(duì)抗樣本的決策結(jié)果我們則通常無(wú)法解釋.基于這一認(rèn)知,作者提出一種針對(duì)人臉識(shí)別模型的對(duì)抗樣本檢測(cè)方法,該方法首先利用敏感性分析解釋方法識(shí)別與人類可感知屬性相對(duì)應(yīng)的神經(jīng)元,稱之為“屬性見(jiàn)證”神經(jīng)元;然后,通過(guò)加強(qiáng)見(jiàn)證神經(jīng)元同時(shí)削弱其他神經(jīng)元將原始模型轉(zhuǎn)換為屬性導(dǎo)向模型,對(duì)于正常樣本,屬性導(dǎo)向模型的預(yù)測(cè)結(jié)果與原始模型一致,對(duì)于對(duì)抗樣本二者預(yù)測(cè)結(jié)果則不一致;最后,利用2個(gè)模型預(yù)測(cè)結(jié)果的不一致性來(lái)檢測(cè)對(duì)抗樣本,實(shí)現(xiàn)對(duì)對(duì)抗攻擊的防御.Liu等人[146]則基于對(duì)分類模型的解釋,提出了一種新的對(duì)抗樣本檢測(cè)框架.給定一個(gè)惡意樣本檢測(cè)器,該框架首先選擇一個(gè)以確定為惡意樣本的樣本子集作為種子樣本,然后構(gòu)建一個(gè)局部解釋器解釋種子樣本被分類器視為惡意樣本的原因,并通過(guò)朝著解釋器確定的規(guī)避方向來(lái)擾動(dòng)每一個(gè)種子樣本的方式產(chǎn)生對(duì)抗樣本.最后,通過(guò)利用原始數(shù)據(jù)和生成的對(duì)抗樣本對(duì)檢測(cè)器進(jìn)行對(duì)抗訓(xùn)練,以提高檢測(cè)器對(duì)對(duì)抗樣本的魯棒性,從而降低模型的外在安全風(fēng)險(xiǎn).
盡管可解釋性技術(shù)是為保證模型可靠性和安全性而設(shè)計(jì)的,但其同樣可以被惡意用戶濫用而給實(shí)際部署應(yīng)用的機(jī)器學(xué)習(xí)系統(tǒng)帶來(lái)安全威脅.比如說(shuō),攻擊者可以利用解釋方法探測(cè)能觸發(fā)模型崩潰的模型漏洞,在對(duì)抗攻擊中,攻擊者還可以利用可解釋方法探測(cè)模型的決策弱點(diǎn)或決策邏輯,從而為設(shè)計(jì)更強(qiáng)大的攻擊提供詳細(xì)的信息.在本文中,我們將以對(duì)抗攻擊為例,闡述可解釋性技術(shù)可能帶來(lái)的安全風(fēng)險(xiǎn).
在白盒對(duì)抗攻擊中,攻擊者可以獲取目標(biāo)模型的結(jié)構(gòu)、參數(shù)信息,因而可以利用反向傳播解釋方法的思想來(lái)探測(cè)模型的弱點(diǎn)[147].其中,Goodfellow等人[143]提出了快速梯度符號(hào)攻擊方法(FGSM),通過(guò)計(jì)算模型輸出相對(duì)于輸入樣本的梯度信息來(lái)探測(cè)模型的敏感性,并通過(guò)朝著敏感方向添加一個(gè)固定規(guī)模的噪音來(lái)生成對(duì)抗樣本.Papernot等人[148]基于Grad[52]解釋方法提出了雅可比顯著圖攻擊(JSMA),該攻擊方法首先利用Grad解釋方法生成顯著圖,然后基于選擇圖來(lái)選擇最重要的特征進(jìn)行攻擊.利用Grad方法提供的特征重要性信息,JMSA攻擊只需要擾動(dòng)少量的特征就能達(dá)到很高的攻擊成功率,因而攻擊的隱蔽性更強(qiáng).對(duì)于黑盒對(duì)抗攻擊,由于無(wú)法獲取模型的結(jié)構(gòu)信息,只能操縱模型的輸入和輸出[149],因而攻擊者可以利用模型無(wú)關(guān)解釋方法的思想來(lái)設(shè)計(jì)攻擊方法.其中,Papernot等人[150]提出了一種針對(duì)黑盒機(jī)器學(xué)習(xí)模型的替代模型攻擊方法.該方法首先利用模型蒸餾解釋方法的思想訓(xùn)練一個(gè)替代模型來(lái)擬合目標(biāo)黑盒模型的決策結(jié)果,以完成從黑盒模型到替代模型的知識(shí)遷移過(guò)程;然后,利用已有的攻擊方法針對(duì)替代模型生成對(duì)抗樣本;最后,利用生成的對(duì)抗樣本對(duì)黑盒模型進(jìn)行遷移攻擊.Li等人[9]提出了一種基于敏感性分析解釋方法的文本對(duì)抗攻擊方法(TextBugger),用于攻擊真實(shí)場(chǎng)景中的情感分析模型和垃圾文本檢測(cè)器.該方法首先通過(guò)觀察去掉某個(gè)詞前后模型決策結(jié)果的變化來(lái)定位文本中的重要單詞,然后通過(guò)利用符合人類感知的噪音逐個(gè)擾動(dòng)重要的單詞直到達(dá)到攻擊目標(biāo).該研究表明,利用TextBugger攻擊方法可以輕松的攻破Google Cloud,Microsoft Azure,Amazon AWS,IBM Watson,Facebook fastText等平臺(tái)提供的商業(yè)自然語(yǔ)言處理機(jī)器學(xué)習(xí)服務(wù),并且攻擊成功率高、隱蔽性強(qiáng).
由于采用了近似處理或是基于優(yōu)化手段,大多數(shù)解釋方法只能提供近似的解釋,因而解釋結(jié)果與模型的真實(shí)行為之間存在一定的不一致性.而最新研究表明,攻擊者可以利用解釋方法與待解釋模型之間的這種不一致性設(shè)計(jì)針對(duì)可解釋系統(tǒng)的新型對(duì)抗樣本攻擊,因而嚴(yán)重的威脅著可解釋系統(tǒng)的自身安全.
根據(jù)攻擊目的不同,現(xiàn)存針對(duì)可解釋系統(tǒng)的新型對(duì)抗樣本攻擊可以分為2類:1)在不改變模型的決策結(jié)果的前提下,使解釋方法解釋出錯(cuò)[151];2)使模型決策出錯(cuò)而不改變解釋方法的解釋結(jié)果[152].其中,Ghorbani等人[151]首次將對(duì)抗攻擊的概念引入到了神經(jīng)網(wǎng)絡(luò)的可解釋性中并且提出了模型解釋脆弱性的概念.具體地,他們將針對(duì)解釋方法的對(duì)抗攻擊定義為優(yōu)化問(wèn)題:
其中,I(xt;N)為解釋系統(tǒng)對(duì)神經(jīng)網(wǎng)絡(luò)N針對(duì)樣本xt決策結(jié)果f(xt)的解釋,δ為樣本中所需添加的擾動(dòng),D(·)用于度量擾動(dòng)前后解釋結(jié)果的變化.通過(guò)優(yōu)化上述目標(biāo)函數(shù),可以在不改變模型決策結(jié)果的前提下,生成能讓解釋方法產(chǎn)生截然不同的解釋結(jié)果的對(duì)抗樣本.針對(duì)Grad[52],Integrated[55]以及DeepLIFT[58]等反向傳播解釋方法的對(duì)抗攻擊實(shí)驗(yàn)證明,上述解釋方法均容易受到對(duì)抗樣本攻擊,因而只能提供脆弱的模型解釋.與Ghorbani等人研究相反,Zhang等人[152]提出了Acid攻擊,旨在生成能讓模型分類出錯(cuò)而不改變解釋方法解釋結(jié)果的對(duì)抗樣本.通過(guò)對(duì)表示導(dǎo)向的(如激活最大化、特征反演等)、模型導(dǎo)向的(如基于掩碼模型的顯著性檢測(cè)等[153])以及擾動(dòng)導(dǎo)向的(如敏感性分析等)三大類解釋方法進(jìn)行Acid攻擊和經(jīng)驗(yàn)性評(píng)估,作者發(fā)現(xiàn)生成欺騙分類器及其解釋方法的對(duì)抗樣本實(shí)際上并不比生成僅能欺騙分類器的對(duì)抗樣本更困難.因此,這幾類解釋方法同樣是脆弱的,在對(duì)抗的環(huán)境下,其提供的解釋結(jié)果未必可靠.此外,這種攻擊還會(huì)使基于對(duì)比攻擊前后解釋結(jié)果的防御方法失效,導(dǎo)致對(duì)抗攻擊更難防御.
上述研究表明:現(xiàn)存解釋方法大多數(shù)是脆弱的,因此只能提供有限的安全保證.但由于可解釋性技術(shù)潛在應(yīng)用廣泛,因而其自身安全問(wèn)題不容忽視.以醫(yī)療診斷中的可解釋系統(tǒng)為例,在臨床治療中,醫(yī)生會(huì)根據(jù)可解釋系統(tǒng)提供的解釋結(jié)果對(duì)病人進(jìn)行相應(yīng)的診斷和治療,一旦解釋系統(tǒng)被新型對(duì)抗攻擊方法攻擊,那么提供的解釋結(jié)果必然會(huì)影響醫(yī)生的診斷過(guò)程,甚至是誤導(dǎo)醫(yī)生的診斷而給病人帶來(lái)致命的威脅.因此,僅有解釋是不夠的,為保證機(jī)器學(xué)習(xí)及可解釋性技術(shù)在實(shí)際部署應(yīng)用中的安全,解釋方法本身必須是安全的,而設(shè)計(jì)更精確的解釋方法以消除解釋方法與決策系統(tǒng)之間的不一致性則是提高解釋方法魯棒性進(jìn)而消除其外在安全隱患的重要途徑.
盡管模型可解釋性研究已取得一系列矚目的研究成果,但其研究還處于初級(jí)階段,依然面臨著許多的挑戰(zhàn)且存在許多的關(guān)鍵問(wèn)題尚待解決.其中,可解釋性研究當(dāng)前面臨的一個(gè)挑戰(zhàn)是如何設(shè)計(jì)更精確、更友好的解釋方法,消除解釋結(jié)果與模型真實(shí)行為之間的不一致;第2個(gè)挑戰(zhàn)是如何設(shè)計(jì)更科學(xué)、更統(tǒng)一的可解釋性評(píng)估指標(biāo),以評(píng)估可解釋方法解釋性能和安全性.
精確地理解機(jī)器學(xué)習(xí)的工作原理,研究透明的、可解釋且可證明機(jī)器學(xué)習(xí)技術(shù),有助于推動(dòng)機(jī)器學(xué)習(xí)研究的進(jìn)一步發(fā)展,同時(shí)有助于促進(jìn)人工智能相關(guān)技術(shù)的落地應(yīng)用.這要求機(jī)器學(xué)習(xí)可解釋性研究必須具備能精確地揭示模型內(nèi)部工作邏輯同時(shí)向人類提供可以足夠準(zhǔn)確理解模型決策的信息的能力.因此,無(wú)論是ante -hoc可解釋性還是post-hoc可解釋性,我們所設(shè)計(jì)的解釋方法都必須是精確的,我們的解釋方法提供的解釋結(jié)果都必須忠實(shí)于模型的真實(shí)決策行為.
由于模型的決策準(zhǔn)確性與模型自身可解釋性之間存在一個(gè)權(quán)衡,現(xiàn)有關(guān)于ante -hoc可解釋性的研究多局限于諸如線性回歸、決策樹等算法透明、結(jié)構(gòu)簡(jiǎn)單的模型,對(duì)于復(fù)雜的DNN模型則只能依賴于注意力機(jī)制提供一個(gè)粗粒度的解釋.因此,如何設(shè)計(jì)可解釋的機(jī)器學(xué)習(xí)模型以消除模型準(zhǔn)確性與可解釋性之間的制約是ante -hoc可解釋性研究所面臨的一大挑戰(zhàn),也是未來(lái)可解釋性研究發(fā)展的一個(gè)重要趨勢(shì).其中,一種直觀的方法是將機(jī)器學(xué)習(xí)與因果模型相結(jié)合,讓機(jī)器學(xué)習(xí)系統(tǒng)具備從觀察數(shù)據(jù)中發(fā)現(xiàn)事物間的因果結(jié)構(gòu)和定量推斷的能力.同時(shí),我們還可以將機(jī)器學(xué)習(xí)與常識(shí)推理和類比計(jì)算等技術(shù)相結(jié)合,形成可解釋的、能自動(dòng)推理的學(xué)習(xí)系統(tǒng).未來(lái)我們還可以考慮利用仿生學(xué)知識(shí)并結(jié)合更先進(jìn)的認(rèn)知理論對(duì)人類認(rèn)知建模,以設(shè)計(jì)具備人類自我解釋能力的機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)具有一定思維能力并且能自我推理自我解釋的強(qiáng)人工智能系統(tǒng).
對(duì)于post-hoc可解釋性而言,大多數(shù)的研究都在嘗試采用近似的方法來(lái)模擬模型的決策行為,以從全局的角度解釋模型的整體決策邏輯或者從局部的角度解釋模型的單個(gè)決策結(jié)果.然而,由于近似過(guò)程往往不夠精確,解釋方法給出的解釋結(jié)果無(wú)法正確地反映待解釋模型的實(shí)際運(yùn)行狀態(tài)和真實(shí)決策行為,而解釋方法與決策模型之間的這種不一致性甚至嚴(yán)重地威脅著可解釋系統(tǒng)自身的安全.因此,當(dāng)前post-hoc可解釋性相關(guān)研究面臨的巨大挑戰(zhàn)是如何設(shè)計(jì)忠實(shí)于決策模型的安全可保障的精確解釋方法,以消除解釋結(jié)果與模型真實(shí)行為之間的不一致性,從而保證解釋結(jié)果的可靠性和安全性.未來(lái)一個(gè)有前景的潛在研究方向是設(shè)計(jì)數(shù)學(xué)上與待解釋模型等價(jià)的解釋方法或解釋模型.對(duì)于全連接神經(jīng)網(wǎng)絡(luò),Chu等人[63]已經(jīng)給出了相應(yīng)的研究方法并取得了一定的研究成果,我們則可以基于具體模型的內(nèi)部機(jī)理和神經(jīng)網(wǎng)絡(luò)的前向傳播機(jī)制,將Chu等人提出的研究方法擴(kuò)展到CNN,RNN等更復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,從而實(shí)現(xiàn)對(duì)復(fù)雜模型的精確解釋.
目前,可解釋性研究領(lǐng)域缺乏一個(gè)用于評(píng)估解釋方法的科學(xué)評(píng)估體系,尤其是在計(jì)算機(jī)視覺(jué)領(lǐng)域,許多解釋方法的評(píng)估還依賴于人類的認(rèn)知,因而只能定性評(píng)估,無(wú)法對(duì)解釋方法的性能進(jìn)行量化,也無(wú)法對(duì)同類型的研究工作進(jìn)行精確地比較.并且,由于人類認(rèn)知的局限性,人們只能理解解釋結(jié)果中揭示的顯性知識(shí),而通常無(wú)法理解其隱性知識(shí),因而無(wú)法保證基于認(rèn)知的評(píng)估方法的可靠性.
對(duì)于ante -hoc可解釋性而言,其評(píng)估挑戰(zhàn)在于如何量化模型的內(nèi)在解釋能力.對(duì)于同一應(yīng)用場(chǎng)景,我們可能會(huì)采用不同的模型,同一模型也可能會(huì)應(yīng)用到不同的場(chǎng)景中,而對(duì)于如何衡量和比較這些模型的可解釋性目前仍沒(méi)有達(dá)成共識(shí).由于模型自身可解釋性受實(shí)際應(yīng)用場(chǎng)景、模型算法本身以及人類理解能力的制約,未來(lái)我們可以從應(yīng)用場(chǎng)景、算法功能、人類認(rèn)知這3個(gè)角度來(lái)設(shè)計(jì)評(píng)估指標(biāo).這些指標(biāo)雖各有利弊但相互補(bǔ)充,可以實(shí)現(xiàn)多層次、細(xì)粒度的可解釋性評(píng)估,以彌補(bǔ)單一評(píng)估指標(biāo)的不足.
對(duì)于post-hoc可解釋性而言,其評(píng)估挑戰(zhàn)在于如何量化解釋結(jié)果的保真度和一致性.如前所述,由于人類認(rèn)知的局限性,解釋方法針對(duì)機(jī)器學(xué)習(xí)模型給出的解釋結(jié)果并不總是“合理”的,而我們很難判斷這種與人類認(rèn)知相違背的解釋結(jié)果到底是由于模型自身的錯(cuò)誤行為還是解釋方法的局限性,抑或是人類認(rèn)知的局限性造成的.因此,我們需要設(shè)計(jì)可靠的評(píng)估指標(biāo)對(duì)解釋方法進(jìn)行定量的評(píng)估.Guo等人[51]提出利用解釋方法給出的預(yù)測(cè)結(jié)果與待解釋模型預(yù)測(cè)結(jié)果之間的均方根誤差(RMSE)來(lái)評(píng)估解釋方法的保真度,然而這種評(píng)估指標(biāo)無(wú)法用于評(píng)估激活最大化、敏感性分析、反向傳播以及特征反演等不提供預(yù)測(cè)結(jié)果的解釋方法.Chu等人[63]提出利用輸入樣本及其鄰近樣本的解釋結(jié)果的余弦相似性來(lái)評(píng)估解釋方法,然而這種方法無(wú)法用于評(píng)估解釋結(jié)果的保真度.此外,目前還缺乏用于評(píng)估針對(duì)同一模型的不同解釋方法的評(píng)估指標(biāo).因此,未來(lái)我們需要從解釋結(jié)果的保真度、一致性以及不同解釋方法的差異性等角度設(shè)計(jì)評(píng)價(jià)指標(biāo),對(duì)解釋方法進(jìn)行綜合評(píng)估.
機(jī)器學(xué)習(xí)可解釋性是一個(gè)非常有前景的研究領(lǐng)域,該領(lǐng)域已經(jīng)成為了國(guó)內(nèi)外學(xué)者的研究熱點(diǎn),并且取得了許多矚目的研究成果.但到目前為止,機(jī)器學(xué)習(xí)可解釋性研究還處于初級(jí)階段,依然存在許多關(guān)鍵問(wèn)題尚待解決.為了總結(jié)現(xiàn)有研究成果的優(yōu)勢(shì)與不足,探討未來(lái)研究方向,本文從可解釋性相關(guān)技術(shù)、潛在應(yīng)用、安全性分析等方面對(duì)現(xiàn)有研究成果進(jìn)行了歸類、總結(jié)和分析,同時(shí)討論了當(dāng)前研究面臨的挑戰(zhàn)和未來(lái)潛在的研究方向,旨在為推動(dòng)模型可解釋性研究的進(jìn)一步發(fā)展和應(yīng)用提供一定幫助.