于芝枝
(國家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作廣東中心,廣州 510535)
深度學(xué)習(xí)作為人工智能任務(wù)的引領(lǐng)技術(shù),在自然語言處理、智能問答、計(jì)算機(jī)視覺等領(lǐng)域取得了顯著成果。雖然深度學(xué)習(xí)具有數(shù)學(xué)統(tǒng)計(jì)原理推導(dǎo),但是對(duì)于任務(wù)知識(shí)表征學(xué)習(xí)尚缺乏明確解釋。相關(guān)研究者[1]認(rèn)為神經(jīng)網(wǎng)絡(luò)模型和神經(jīng)元權(quán)重不能直接理解為知識(shí),不能解釋模型為什么這么做、為何有效等問題。在醫(yī)療診斷、司法仲裁、軍事決策等任務(wù)場(chǎng)景中,都要求模型系統(tǒng)必須被人類理解和信任,以實(shí)現(xiàn)模型系統(tǒng)滿足安全性、非歧視性等輔助指標(biāo)要求。因此深度學(xué)習(xí)的可解釋性勢(shì)必成為人工智能進(jìn)一步推廣的催化劑。
自2006年誕生以來,深度學(xué)習(xí)以不依賴人工設(shè)計(jì)的特征和專家知識(shí)特征逐漸成為特征提取常用方法,其可解釋性的研究逐漸受到更多關(guān)注。
通常認(rèn)為,模型的可解釋性表示模型使用者可以對(duì)模型輸出進(jìn)行理解和推理。Lipton[2]認(rèn)為深度學(xué)習(xí)模型中與人類思維過程相呼應(yīng)的內(nèi)容稱為可解釋性,缺乏明確解釋的模型或者存在不同解讀的研究是非嚴(yán)謹(jǐn)?shù)臏?zhǔn)科學(xué)。Lou等[3]認(rèn)為可解釋性體現(xiàn)在人類對(duì)模型工作方式的充分理解和清晰認(rèn)識(shí)程度,揭示數(shù)據(jù)因果關(guān)系的結(jié)構(gòu)關(guān)系。從不同視角、領(lǐng)域,對(duì)深度學(xué)習(xí)可解釋性的闡述不盡相同,但都試圖將黑盒深度學(xué)習(xí)決策轉(zhuǎn)化為可解釋性的決策推斷,讓使用者能夠理解和相信決策。
根據(jù)深度學(xué)習(xí)在現(xiàn)實(shí)生活中應(yīng)用場(chǎng)景,大致可分為兩種:①模型用來輔助人類產(chǎn)生影響生活的重大決策,如醫(yī)療診斷、商業(yè)貸款、自動(dòng)駕駛等;②模型用來輔助人類產(chǎn)生非重要、低后果的決策,如商品推薦、目標(biāo)識(shí)別、信息搜索等。對(duì)于第一種應(yīng)用場(chǎng)景,深度學(xué)習(xí)更需要一個(gè)決策的解釋,對(duì)其運(yùn)行原理優(yōu)缺點(diǎn)進(jìn)行分析,理解系統(tǒng)機(jī)理。
對(duì)可解釋性需求的利益相關(guān)者大致可分為四類:學(xué)術(shù)研究者、開發(fā)工程師、社會(huì)管理者和終端用戶[4]。學(xué)術(shù)研究者包括醫(yī)學(xué)專家、生物專家、人工智能研究者等,提出可解釋性方法,促進(jìn)人工智能技術(shù)發(fā)展,擴(kuò)展人類知識(shí)邊界。開發(fā)工程師需要利用可解釋性方法輔助深度學(xué)習(xí)系統(tǒng)的調(diào)試、改進(jìn)、安全審查等,對(duì)接終端用戶。社會(huì)管理者包括公共安全、法律道德等與人類生活息息相關(guān)的不同領(lǐng)域管理者,主要從道德法律、規(guī)章制度等視角,審核深度學(xué)習(xí)技術(shù)是否存在不公平、歧視偏見等社會(huì)問題。終端用戶包括醫(yī)生、銀行、法官等各行業(yè)使用者實(shí)體,可解釋性需要使終端用戶可以理解信任系統(tǒng)進(jìn)行有效使用。
不同利益相關(guān)者對(duì)可解釋性的需求不同,從7個(gè)不同視角對(duì)深度學(xué)習(xí)可解釋性多樣性需求進(jìn)行總結(jié):①安全、可信任:從終端用戶視角,需要確認(rèn)深度學(xué)習(xí)模型可能做出合理決策,能夠建立對(duì)深度學(xué)習(xí)技術(shù)的信任;②可靠、魯棒性:從研究者視角,需要可解釋性輔助尋找在對(duì)抗攻擊條件下魯棒的算法,增強(qiáng)模型的魯棒性;③調(diào)試:從開發(fā)者、部署者視角,理解系統(tǒng)工作機(jī)理,以便調(diào)試、改進(jìn)系統(tǒng);④道德法律:深度學(xué)習(xí)可解釋性輔助人類防范某些種族歧視、隱私泄露等問題,解決系統(tǒng)中存在的先驗(yàn)偏見、保護(hù)個(gè)人信息;⑤科學(xué):深度學(xué)習(xí)可解釋性,幫助人類去尋求對(duì)事物的解釋并將其轉(zhuǎn)化為知識(shí)。
深度學(xué)習(xí)可解釋性方法從不同視角,可分為不同類別,方法之間存在重疊、非排他性。
全局方法試圖從宏觀角度解釋模型機(jī)理,利用模型結(jié)構(gòu)、訓(xùn)練過程、相關(guān)數(shù)據(jù)集的整體知識(shí)去闡述模型本身,解釋模型行為。局部可解釋性方法聚焦解釋特定的單個(gè)預(yù)測(cè)結(jié)果或輸出。
模型訓(xùn)練前方法是一種不依賴深度學(xué)習(xí)模型的獨(dú)立可解釋性方法,如主成分分析法、流形學(xué)習(xí)算法等。模型訓(xùn)練后方法則是聚焦探索模型訓(xùn)練過程中學(xué)到的知識(shí)。
替代法用于分析其他深度學(xué)習(xí)模型,來解釋其決策原由,從而輔助理解深度學(xué)習(xí)模型。可視化方法通過可視化模型特征、特征間關(guān)系、神經(jīng)元間關(guān)系以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練信息,有助理解模型內(nèi)在工作機(jī)制和輸出知識(shí)。
深度學(xué)習(xí)模型的可解釋性是模型優(yōu)化的有效途徑、模型實(shí)際應(yīng)用推廣的催化劑。深度學(xué)習(xí)可解釋性研究的進(jìn)步不僅可以輔助人們理解現(xiàn)有系統(tǒng),更為揭開深度學(xué)習(xí)黑盒奠定了基礎(chǔ)。本文闡述了深度學(xué)習(xí)可解釋性研究的意義,同時(shí)對(duì)深度學(xué)習(xí)可解釋性方法分類進(jìn)行了總結(jié),以期為其他研究者提供借鑒。