從文本情感分析到人臉圖像識(shí)別,深度學(xué)習(xí)模型已經(jīng)成為許多任務(wù)采用的最新技術(shù)。然而,理解為什么某些模型比其他模型表現(xiàn)得更好,或者一種模型的學(xué)習(xí)如何不同于另一種模型通常很難做到,但是這對(duì)于提高模型的有效性、預(yù)測(cè)準(zhǔn)確性和實(shí)現(xiàn)公平性又至關(guān)重要。比較模型功效的傳統(tǒng)方法,如準(zhǔn)確性、精確性和召回率,可以定量地展示這些模型的性能,但是一種模型為什么比另一種模型表現(xiàn)得更好的定性復(fù)雜性依舊是隱藏看不到的。
Sugeerth Murugesan等人2019年5月在《IEEE Computer Graphics and Applications》發(fā)表文章,研究采訪了機(jī)器學(xué)習(xí)從業(yè)者,通過了解他們的評(píng)估和比較工作流程,從中迭代設(shè)計(jì)了一種視覺分析方法——“深度比較”,系統(tǒng)地比較深度學(xué)習(xí)模型的結(jié)果,以洞察模型行為,并交互地評(píng)估2個(gè)模型之間的優(yōu)缺點(diǎn)。該工具允許用戶評(píng)估模型結(jié)果,識(shí)別并比較錯(cuò)誤分類的激活模式,將測(cè)試結(jié)果鏈接回特定的神經(jīng)元。作者通過對(duì)2個(gè)實(shí)際案例研究進(jìn)行初步評(píng)估,表明了專家可以依據(jù)此結(jié)果,對(duì)不同類型模型的有效性做出更有根據(jù)的判斷,更詳細(xì)地了解模型的優(yōu)缺點(diǎn),并全面評(píng)估模型的行為。