錢(qián)亞冠 何念念 郭艷凱 王 濱 李 暉 顧釗銓 張旭鴻 吳春明
1(浙江科技學(xué)院大數(shù)據(jù)學(xué)院 杭州 310023) 2(??低?浙江科技學(xué)院邊緣智能安全聯(lián)合實(shí)驗(yàn)室 杭州 310023) 3(西安電子科技大學(xué)網(wǎng)絡(luò)與信息安全學(xué)院 西安 710071) 4(廣州大學(xué)網(wǎng)絡(luò)空間先進(jìn)技術(shù)研究院 廣州 510006) 5(浙江大學(xué)控制科學(xué)與工程學(xué)院 杭州 310058) 6(浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 杭州 310058)
深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)目前已被成功地應(yīng)用于圖像分類(lèi)[1]、語(yǔ)音識(shí)別[2-3]、自然語(yǔ)言處理[4-5]等領(lǐng)域.由于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)需要大量的計(jì)算資源,很多使用者沒(méi)有條件訓(xùn)練自己的模型.在這種情況下,攻擊者開(kāi)發(fā)出模型竊取技術(shù),非法獲取已訓(xùn)練好的目標(biāo)模型的相關(guān)信息[6].例如,攻擊者通過(guò)向目標(biāo)模型發(fā)起大量樣本的迭代查詢(xún),利用目標(biāo)模型反饋的預(yù)測(cè)結(jié)果來(lái)推斷模型參數(shù)[6]、超參數(shù)[7-8]、架構(gòu)[7]、訓(xùn)練數(shù)據(jù)[9]、決策邊界等[10],最后仿制出替代模型[11-12].攻擊者把仿制出的替代模型部署為自己的云服務(wù)或者客戶(hù)端軟件,讓客戶(hù)付費(fèi)使用預(yù)測(cè)應(yīng)用程序接口(application programming interface, API),獲得不當(dāng)收益.
目前針對(duì)模型知識(shí)產(chǎn)權(quán)的保護(hù)主要有水印和模型指紋這2種策略.水印技術(shù)[13]是在訓(xùn)練或微調(diào)目標(biāo)模型的過(guò)程中,將水印嵌入到目標(biāo)模型的參數(shù)或訓(xùn)練樣本的標(biāo)簽中,但這類(lèi)方法會(huì)影響模型的預(yù)測(cè)準(zhǔn)確率.最近提出的指紋比對(duì)方法[13-14],利用目標(biāo)模型決策邊界附近的指紋樣本及其指紋(標(biāo)簽),對(duì)模型竊取攻擊得到的替代模型進(jìn)行比對(duì).該方法的優(yōu)點(diǎn)是不會(huì)影響目標(biāo)模型的預(yù)測(cè)準(zhǔn)確率.
本文針對(duì)模型指紋的保護(hù)策略,提出了一種基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)[15]的逃避算法.該算法的基本思路是設(shè)計(jì)一種可以檢測(cè)指紋樣本的網(wǎng)絡(luò),本文將其命名為Fingerprint-GAN,利用生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)正常樣本在隱空間的特征表示及其分布,依據(jù)隱空間特征表示的差異性來(lái)檢測(cè)指紋樣本.當(dāng)目標(biāo)模型所有者向替代模型發(fā)送指紋樣本,用以查驗(yàn)?zāi)P褪欠癖桓`取,替代模型為了不被發(fā)現(xiàn),故意返回與預(yù)測(cè)結(jié)果不一致的標(biāo)簽,混淆目標(biāo)模型的比對(duì)算法.
本文的實(shí)驗(yàn)結(jié)果表明:目前保護(hù)DNN知識(shí)產(chǎn)權(quán)的模型指紋比對(duì)方法是不可靠的,仍然可以被模型竊取者所逃避;在CIFAR-10,CIFAR-100數(shù)據(jù)集上,逃避算法對(duì)指紋樣本的檢測(cè)率分別可達(dá)95%和94%,而模型所有者的指紋比對(duì)成功率最高僅為19%,證明了本文提出的逃避算法的有效性.
Fig. 1 Attacker and defender interact scenarios圖1 攻擊者和防御者交互場(chǎng)景
模型竊取[6,10-11,16-18],也稱(chēng)為模型提取或者逆向工程.在黑箱環(huán)境下,攻擊者首先通過(guò)API不斷查詢(xún)目標(biāo)模型,得到一系列的預(yù)測(cè)輸出,利用獲得的輸入-輸出對(duì)來(lái)訓(xùn)練重構(gòu)本地模型,稱(chēng)之為替代模型.攻擊者的目的主要包括推斷超參數(shù)[7-8]、恢復(fù)精確參數(shù)[6,19-20]、竊取黑盒模型的功能[11-12].文獻(xiàn)[19]通過(guò)竊取簡(jiǎn)單線性模型,用于過(guò)濾垃圾郵件.文獻(xiàn)[6]是竊取復(fù)雜深度神經(jīng)網(wǎng)絡(luò)模型,特別是基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的圖像分類(lèi)器.文獻(xiàn)[11-12]通過(guò)提取黑盒模型信息構(gòu)建訓(xùn)練集,訓(xùn)練替代模型來(lái)模仿目標(biāo)黑盒模型的功能.
水印技術(shù)被廣泛應(yīng)用于保護(hù)DNN模型的知識(shí)產(chǎn)權(quán)[21-27],包括基于參數(shù)的水印和基于標(biāo)簽的水印.基于參數(shù)的水印[22,26],是在目標(biāo)模型訓(xùn)練時(shí)向損失函數(shù)添加正則化項(xiàng),將水印嵌入到模型的參數(shù)中,要求模型所有者能夠訪問(wèn)其他模型的模型參數(shù),才能驗(yàn)證水印.基于標(biāo)簽的水印[21,23-25,27],是將水印嵌入到某些數(shù)據(jù)樣本的預(yù)測(cè)標(biāo)簽或神經(jīng)元激活層中,帶有水印的樣本和其他樣本一同訓(xùn)練,通過(guò)查詢(xún)替代模型進(jìn)行水印驗(yàn)證.
由于水印會(huì)帶來(lái)模型精度的損失,最近提出利用對(duì)抗樣本標(biāo)識(shí)模型的唯一性[13,28].文獻(xiàn)[13]在目標(biāo)模型的決策邊界附近尋找對(duì)抗樣本,利用這些對(duì)抗樣本的標(biāo)簽對(duì)模型的唯一性,區(qū)分目標(biāo)模型和盜版的替代模型.文獻(xiàn)[28]通過(guò)構(gòu)造目標(biāo)性的對(duì)抗樣本,并利用對(duì)抗樣本的可轉(zhuǎn)移性,生成可協(xié)商性對(duì)抗樣本,用其標(biāo)簽來(lái)唯一標(biāo)識(shí)目標(biāo)模型,從而區(qū)分目標(biāo)模型和替代模型.
雖然水印技術(shù)一定程度上保護(hù)了模型的知識(shí)產(chǎn)權(quán),但仍存在缺陷[29-32].文獻(xiàn)[29]表明基于參數(shù)的水印技術(shù)改變了模型的統(tǒng)計(jì)分布,攻擊者可以導(dǎo)出嵌入的水印長(zhǎng)度并去除水印.文獻(xiàn)[31]通過(guò)構(gòu)建一個(gè)檢測(cè)器判斷查詢(xún)樣本是否帶有水印.當(dāng)判定為帶有水印時(shí),替代模型返回隨機(jī)標(biāo)簽,從而避免模型所有者的驗(yàn)證.文獻(xiàn)[32]利用正則化和微調(diào)技術(shù)去除水印,從而逃避驗(yàn)證.與這些針對(duì)水印保護(hù)的逃避算法不同,本文主要逃避利用對(duì)抗樣本進(jìn)行比對(duì)的保護(hù)技術(shù),在算法中我們采用GAN檢測(cè)模型指紋.
定義1.目標(biāo)模型(target model).目標(biāo)模型是指部署在現(xiàn)實(shí)應(yīng)用中的商業(yè)DNN,需要大量的時(shí)間、金錢(qián)和人工來(lái)開(kāi)發(fā),是攻擊者竊取的對(duì)象,記為MT.
定義2.替代模型(substitute model).替代模型是攻擊者通過(guò)API查詢(xún)目標(biāo)模型,利用獲得的信息在本地構(gòu)建與目標(biāo)模型相似功能的DNN,記為MS.
攻擊者把替代模型部署為自己的云服務(wù)或者客戶(hù)端軟件,讓客戶(hù)付費(fèi)使用預(yù)測(cè)API,剝奪了目標(biāo)模型所有者的商業(yè)優(yōu)勢(shì).替代模型后續(xù)可以進(jìn)一步使用查詢(xún)來(lái)改進(jìn)模型;也可以構(gòu)建可轉(zhuǎn)移的對(duì)抗樣本[33]來(lái)欺騙目標(biāo)模型,使其做出錯(cuò)誤的預(yù)測(cè).
受生物指紋唯一性的啟發(fā),模型所有者可以通過(guò)某種算法提取模型的指紋,從而判斷一個(gè)模型是否為目標(biāo)模型或盜版的替代模型.本文借鑒文獻(xiàn)[13,28]的方法,采用指紋樣本對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽來(lái)表示目標(biāo)模型的指紋.此處指紋樣本是指模型決策邊界附近一些樣本,可利用對(duì)抗樣本來(lái)實(shí)現(xiàn)[13].
定義3.對(duì)抗樣本[33].對(duì)于每一個(gè)x,存在一個(gè)小的擾動(dòng)η,使得第i個(gè)輸出Fi(x)滿(mǎn)足:
arg maxFi(x)=ytrue∧ arg maxFi(x+η)≠ytrue,
(1)
其中,ytrue表示輸入x的真實(shí)標(biāo)簽,稱(chēng)η為對(duì)抗擾動(dòng),x+η為對(duì)抗樣本.
若使模型產(chǎn)生特定的錯(cuò)誤標(biāo)簽,則稱(chēng)其為目標(biāo)性對(duì)抗樣本,即:
arg maxFi(x+η)=ytarget.
(2)
定義4.指紋樣本.指紋樣本是指目標(biāo)模型決策邊界附近的一些樣本,由目標(biāo)性對(duì)抗樣本構(gòu)成.模型決策邊界的集合BM為
(3)
(4)
其中,i和j是隨機(jī)采樣的標(biāo)簽,x′是被初始化預(yù)測(cè)標(biāo)簽為i的指紋樣本,φ是調(diào)節(jié)指紋樣本對(duì)目標(biāo)模型的唯一性以及對(duì)替代模型魯棒性的參數(shù).
獲得目標(biāo)模型的指紋樣本和指紋后,利用指紋樣本查詢(xún)替代模型,將替代模型返回的預(yù)測(cè)標(biāo)簽和目標(biāo)模型的指紋進(jìn)行比對(duì),從而確定替代模型是否竊取了目標(biāo)模型.具體地,目標(biāo)模型指紋比對(duì)過(guò)程通過(guò)提取函數(shù)和比對(duì)函數(shù)來(lái)實(shí)現(xiàn):
定義7.比對(duì)函數(shù).假設(shè)替代模型n個(gè)指紋樣本
(5)
針對(duì)第2節(jié)給出的基于模型指紋的保護(hù)策略,本文提出一種逃避算法,目的是使保護(hù)方的指紋匹配率盡可能低,從而實(shí)現(xiàn)竊取模型同時(shí)不被發(fā)現(xiàn)的目的.逃避算法對(duì)查詢(xún)替代模型的樣本(包含正常樣本和指紋樣本)先進(jìn)行檢測(cè),辨別該樣本是否為指紋樣本.如果判斷為指紋樣本,則意味著該樣本具有取證功能,因此逃避算法返回不同于替代模型預(yù)測(cè)的標(biāo)簽,從而混淆保護(hù)方的指紋比對(duì)算法.
我們提出基于GAN的逃避算法,設(shè)計(jì)了稱(chēng)為Fingerprint-GAN的指紋樣本檢測(cè)器,它利用GAN的策略來(lái)檢測(cè)指紋樣本.Fingerprint-GAN僅在正常樣本上訓(xùn)練,重構(gòu)正常樣本的分布特征,訓(xùn)練階段的參數(shù)不適用于指紋樣本.正常樣本與其重構(gòu)樣本在隱空間(latent space)中的特征表示不會(huì)相差很大,理想情況下是相同的;而當(dāng)輸入的樣本是指紋樣本時(shí),解碼器不能很好地在隱空間中對(duì)其重構(gòu),重構(gòu)后的樣本丟失了特征信息,導(dǎo)致隱空間中的特征表示相差很大[35].因此Fingerprint-GAN依據(jù)隱空間中特征表示的差異來(lái)判斷當(dāng)前查詢(xún)樣本是否為指紋樣本.
具體而言,當(dāng)模型合法所有者利用指紋樣本查詢(xún)替代模型進(jìn)行指紋比對(duì)時(shí),指紋樣本首先經(jīng)過(guò)替代模型的附加網(wǎng)絡(luò)Fingerprint-GAN,由Fingerprint-GAN檢測(cè)當(dāng)前查詢(xún)樣本是否為指紋樣本.替代模型根據(jù)檢測(cè)結(jié)果故意返回不同于預(yù)測(cè)的標(biāo)簽.模型所有者在比對(duì)替代模型返回的預(yù)測(cè)標(biāo)簽和目標(biāo)模型指紋后得到不匹配的結(jié)果,從而使模型指紋比對(duì)失敗.基于Fingerprint-GAN的逃避算法如圖2所示:
Fig. 2 Evasion algorithm flowchart based on Fingerprint-GAN圖2 基于Fingerprint-GAN的逃避算法流程圖
Fig. 3 GAN structure圖3 GAN結(jié)構(gòu)圖
生成對(duì)抗網(wǎng)絡(luò)GAN是Goodfellow等人[15]提出的一種由生成器和判別器共同構(gòu)成的動(dòng)態(tài)博弈模型.如圖3所示,生成器G接收隨機(jī)噪聲t,生成樣本數(shù)據(jù)G(t),生成器的目的是盡可能使得生成的樣本和真實(shí)樣本一樣.判別器D的輸入是真實(shí)數(shù)據(jù)x和生成器生成的數(shù)據(jù)G(t),輸出真或假.
生成器和判別器可以看成是博弈中的2個(gè)對(duì)手.在模型訓(xùn)練的過(guò)程中,生成器和判別器會(huì)各自更新自身的參數(shù)使得損失最小,通過(guò)不斷迭代優(yōu)化,最終達(dá)到一個(gè)納什均衡狀態(tài),此時(shí)模型達(dá)到最優(yōu).博弈過(guò)程可用優(yōu)化問(wèn)題描述:
(6)
受文獻(xiàn)[35-36]在異常檢測(cè)問(wèn)題中應(yīng)用GAN的啟發(fā),本文提出的Fingerprint-GAN將指紋樣本看作異常樣本,其余樣本看作正常樣本.Fingerprint-GAN本質(zhì)上是一個(gè)特征提取器或重構(gòu)器,進(jìn)行3次映射,將輸入樣本空間映射到隱空間;再映射到樣本空間,這個(gè)過(guò)程稱(chēng)為重構(gòu);重構(gòu)后的樣本空間再映射到隱空間.在訓(xùn)練階段僅使用正常樣本,這樣能更好地提取正常樣本在隱空間中的特征,以此辨別指紋樣本,逃避目標(biāo)模型指紋比對(duì).
如圖4所示,F(xiàn)ingerprint-GAN結(jié)構(gòu)由生成器G和判別器D組成.生成器G由2個(gè)結(jié)構(gòu)相同的編碼器GE1,GE2和一個(gè)解碼器GD組成.編碼器和解碼器都有一個(gè)自動(dòng)編碼器結(jié)構(gòu),用于學(xué)習(xí)訓(xùn)練樣本的真實(shí)分布以及在隱空間中的分布.這樣的設(shè)置可以更好地重構(gòu)訓(xùn)練樣本并且控制隱空間.
編碼器GE1由卷積層、批歸一化層、Leaky-ReLU激活層構(gòu)成.假設(shè)輸入樣本為x∈Rw×h×c,經(jīng)編碼器GE1編碼后輸出t1,即:
t1=GE1(x),
(7)
其中,t1∈Rd,是GE1壓縮x后的低維向量,并具有x的最佳特征表示,也稱(chēng)為瓶頸特征(bottleneck feature).
(8)
(9)
式(9)中的t2和式(7)中的t1維數(shù)相同.
為了使Fingerprint-GAN更好地學(xué)習(xí)樣本特征,我們定義生成器和判別器的損失函數(shù),用于訓(xùn)練Fingerprint-GAN.借鑒文獻(xiàn)[35],將欺詐損失、上下文損失和潛在損失加權(quán)求和定義為生成器的損失,利用文獻(xiàn)[37]的特征匹配損失作為判別器的損失.
定義8.欺詐損失.為了欺騙判別器D,向D輸入
(10)
其中,σ為二分類(lèi)交叉熵?fù)p失函數(shù),h是D中間層的函數(shù),用于提取輸入樣本的特征表示,取權(quán)重參數(shù)α=1.
(11)
定義10.潛在損失.通過(guò)引入潛在損失L3,使得G更好地對(duì)正常樣本進(jìn)行編碼,最小化隱空間特征表示損失.使用隱空間中t1和t2之間的距離(2范數(shù))定義L3為
(12)
基于損失函數(shù)的定義,我們將生成器G的損失函數(shù)LG定義為它們的加權(quán)之和:
LG=λ1L1+λ2L2+λ3L3,
(13)
其中,λ1,λ2,λ3是3種損失的權(quán)重.
定義判別器損失LD為
(14)
算法1.訓(xùn)練Fingerprint-GAN模型.
輸入:epoch、α=1、batchsize=32;
輸出:經(jīng)過(guò)訓(xùn)練的Fingerprint-GAN.
① 初始化Fingerprint-GAN的超參數(shù)λ1=1,λ2=50,λ3=1;
② fori=1,2,…,epochdo
③t1←GE1(x);
⑧ 使用Adam更新生成器G、判別器D的網(wǎng)絡(luò)參數(shù);
⑨ end for
對(duì)于模型保護(hù)方發(fā)來(lái)的查詢(xún)樣本x,我們定義指紋樣本異常分?jǐn)?shù)為
C(x)=λL2(x)+(1-λ)L3(x),
(15)
L2衡量輸入樣本和重構(gòu)樣本之間的相似性,見(jiàn)式(11);L3衡量隱空間特征表示之間的差異性,見(jiàn)式(12).λ是控制異常分?jǐn)?shù)相關(guān)重要性的參數(shù),本文采用λ2和λ3比率作為λ.
算法2.Fingerprint-GAN檢測(cè)算法.
輸出:異常分?jǐn)?shù).
① fori=1,2,…,Bdo
②t1←GE1(xi);
⑥C(xi)←λL2(xi)+(1-λ)L3(xi);
/*計(jì)算異常分?jǐn)?shù)*/
A={ai|ai=C(xi)};
/*異常分?jǐn)?shù)歸一化*/
⑨xi為指紋樣本;
⑩ end if
其中,B取值取決于實(shí)驗(yàn)數(shù)據(jù)集的樣本量.
本文采用數(shù)據(jù)集CIFAR-10,CIFAR-100評(píng)估Fingerprint-GAN的有效性.
CIFAR-10.CIFAR-10共有10個(gè)類(lèi)別,包含60 000張大小為32×32的圖像.其中,50 000張正常圖像用于訓(xùn)練Fingerprint-GAN;10 000張正常圖像以及生成的7 925張指紋樣本圖像用于測(cè)試.
CIFAR-100.CIFAR-100共有100個(gè)類(lèi)別,包含60 000張大小為32×32圖像.其中,50 000張正常圖像用于訓(xùn)練Fingerprint-GAN;10 000張正常圖像以及生成的8 173張指紋樣本圖像用于測(cè)試.
我們以廣泛使用的ResNet[38]作為目標(biāo)模型,分別訓(xùn)練了2個(gè)目標(biāo)模型:ResNet20和ResNet50.表1展示了目標(biāo)模型的參數(shù).由于CIFAR-10類(lèi)別較少,我們使用ResNet20;而CIFAR-100數(shù)據(jù)集類(lèi)別較多,為了提高模型在CIFAR-100上的預(yù)測(cè)精度,我們修改原始的ResNet50,將第1層卷積由7×7改為3×3,并去掉最大池化層.修改后的卷積結(jié)構(gòu)在CIFAR-100上性能表現(xiàn)更好,測(cè)試精度更高.
Table 1 ResNet20, ResNet50 Model Parameters表1 ResNet20,ResNet50模型參數(shù)
本實(shí)驗(yàn)選擇的替代模型網(wǎng)絡(luò)架構(gòu)與目標(biāo)模型相同,但網(wǎng)絡(luò)權(quán)重和其他超參數(shù)采用隨機(jī)方式初始化.采用Knockoff[11]模型竊取方法,使用CIFAR-10,CIFAR-100數(shù)據(jù)集訓(xùn)練替代模型,得到4個(gè)替代模型,記為ResNet20-TF,ResNet20-TW,ResNet50-TF,ResNet50-TW.其中,TF表示微調(diào)模型的最后一層全連接層,其他層保持不變;TW表示重新初始化模型最后一層的權(quán)重,其他層保持不變,如ResNet20-TF表示微調(diào)ResNet20網(wǎng)絡(luò)最后一層全連接層,其他層保持不變,以此類(lèi)推ResNet20-TW,ResNet50-TF,ResNet50-TW.
Fingerprint-GAN由生成器和判別器構(gòu)成,如圖4所示.生成器中的編碼器是一個(gè)CNN,輸入32×32的圖像,卷積層由LeakyReLU激活層、Batch-Norm層構(gòu)成,卷積核大小為4×4、步長(zhǎng)為2.解碼器是反卷積神經(jīng)網(wǎng)絡(luò),由BatchNorm層、ReLU激活層、tanh激活層構(gòu)成,卷積核大小為4×4、步長(zhǎng)為1.
判別器也是一個(gè)卷積神經(jīng)網(wǎng)絡(luò),允許輸入32×32的圖像,卷積層的卷積核大小為4×4、步長(zhǎng)為2,使用LeakyReLU激活層、BatchNorm層,最后一層為Sigmoid激活層.
Fingerprint-GAN的訓(xùn)練采用PyTorch深度學(xué)習(xí)框架,Adam優(yōu)化器.初始學(xué)習(xí)率r=2exp(-4),動(dòng)量β1=0.5,β2=0.999,生成器的權(quán)重參數(shù)初始化為λ1=1,λ2=50,λ3=1,分別在CIFAR-10,CIFAR-100數(shù)據(jù)集上取epoch=15進(jìn)行訓(xùn)練.實(shí)驗(yàn)環(huán)境為Ubuntu20. 04.1LTS,運(yùn)行在4個(gè)Geforce RTX 2080Ti GPU上.
ROC曲線通常被用于評(píng)估二分類(lèi)器的性能,而本文提出的Fingerprint-GAN本質(zhì)上是檢測(cè)正常樣本和指紋樣本的二分類(lèi)器.因此,我們使用ROC曲線下的區(qū)域面積AUC[39]從整體上評(píng)估Fingerprint-GAN檢測(cè)的性能.AUC值越大,表明Fingerprint-GAN的性能越好.由于AUC值不是針對(duì)單個(gè)類(lèi)別的評(píng)估指標(biāo),為進(jìn)一步評(píng)估指紋樣本的檢測(cè)率,本文又使用精確率(Precision)和召回率(Recall)的調(diào)和平均F1分?jǐn)?shù).F1分?jǐn)?shù)越接近1,表明Fingerprint-GAN區(qū)分正常樣本和指紋樣本的能力越強(qiáng).
ROC曲線中的每一對(duì)(TPR,FPR)對(duì)應(yīng)一個(gè)閾值.給定多種不同的閾值,ROC曲線描繪出所有(TPR,FPR)對(duì).AUC取值范圍是[0,1],AUC值越接近1,模型的性能越好.TPR,FPR定義為
(16)
(17)
其中,TP為正確地預(yù)測(cè)的正例數(shù),TN為正確地預(yù)測(cè)的負(fù)例數(shù),F(xiàn)N為錯(cuò)誤地預(yù)測(cè)的負(fù)例數(shù),F(xiàn)P為錯(cuò)誤地預(yù)測(cè)的正例數(shù).
F1分?jǐn)?shù)定義為
(18)
我們首先在CIFAR-10,CIFAR-100上評(píng)估目標(biāo)模型的準(zhǔn)確率.如圖5所示,目標(biāo)模型ResNet20在CIFAR-10上取epoch=200進(jìn)行訓(xùn)練,其TOP-1準(zhǔn)確率穩(wěn)定在91%;相比ResNet20,ResNet50層數(shù)更多,網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜,在類(lèi)別數(shù)較多的CIFAR-100上同樣取epoch=200訓(xùn)練,得到ResNet50的TOP-1準(zhǔn)確率穩(wěn)定在78%.使用CIFAR-10,CIFAR-100測(cè)試集中10 000張圖像分別對(duì)ResNet20,ResNet50進(jìn)行測(cè)試,準(zhǔn)確率分別達(dá)到92%,79%,這也保證了后文生成的模型指紋對(duì)目標(biāo)模型的唯一性,更好地驗(yàn)證替代模型是否為目標(biāo)模型的盜版.
Fig. 5 The TOP-1 accuracy of ResNet20 and ResNet50 on CIFAR-10 and CIFAR-100 respectively圖5 ResNet20,ResNet50模型分別在CIFAR-10, CIFAR-100上的TOP-1準(zhǔn)確率
目標(biāo)模型ResNet20和ResNet50分別在CIFAR-10和CIFAR-100數(shù)據(jù)集上生成指紋樣本及對(duì)應(yīng)的模型指紋.生成模型指紋樣本的參數(shù):超參數(shù)c=1,迭代步長(zhǎng)steps=1000,學(xué)習(xí)率r=0.01.CIFAR-10上部分正常樣本和指紋樣本、指紋如圖6所示:
Fig. 6 Visualization of partial normal examples and fingerprint examples on CIFAR-10圖6 CIFAR-10上部分正常樣本和指紋樣本可視化圖
表2是4個(gè)替代模型分別在CIFAR-10,CIFAR-100測(cè)試集上的準(zhǔn)確率.在CIFAR-10測(cè)試集上,ResNet20-TF準(zhǔn)確率達(dá)到93%,ResNet20-TW略低1個(gè)百分點(diǎn);在CIFAR-100測(cè)試集上,ResNet50-TF和ResNet50-TW準(zhǔn)確率分別為78%和75%.4個(gè)替代模型在測(cè)試集上的準(zhǔn)確率和目標(biāo)模型ResNet20,ResNet50的準(zhǔn)確率基本一致,表明替代模型成功地仿制了目標(biāo)模型.
Table 2 The Test Accuracy of Alternative Models onCIFAR-10 and CIFAR-100
圖7表示Fingerprint-GAN檢測(cè)得到的ROC曲線,中間的虛線表示純隨機(jī)分類(lèi)的ROC曲線.在CIFAR-10上,由ROC曲線可以看出,AUC值達(dá)到0.96(最大值為1),表明Fingerprint-GAN在CIFAR-10上能夠很好地檢測(cè)指紋樣本.CIFAR-100上的AUC值略小于CIFAR-10,為0.93,表明Fingerprint-GAN的檢測(cè)性能有所下降.這是由于CIFAR-100數(shù)據(jù)集類(lèi)別更多、更復(fù)雜.比如海豚和海豹比較相似,對(duì)應(yīng)的指紋樣本差異性也較小,在隱空間的特征表示差異性也較小,檢測(cè)時(shí)可能把對(duì)應(yīng)的正常樣本和指紋樣本歸為一類(lèi),導(dǎo)致AUC值降低.
Fig. 7 ROC curves of normal examples and fingerprint examples on CIFAR-10 and CIFAR-100圖7 CIFAR-10,CIFAR-100上正常樣本和指紋樣本的 ROC曲線圖
AUC值從整體上說(shuō)明了Fingerprint-GAN的有效性,表明其在訓(xùn)練階段充分學(xué)到了輸入的正常樣本分布特征以及隱空間中的特征表示.
取epoch=15訓(xùn)練Fingerprint-GAN,將指紋樣本視為正例,正常樣本視為負(fù)例,在CIFAR-10,CIFAR-100測(cè)試集上得到的Precision,Recall,F(xiàn)1分?jǐn)?shù)如表3所示:
Table 3 Precision,Recall, and F1 Scores of Normal and Fingerprint Examples
由表3可以看出,F(xiàn)ingerprint-GAN在測(cè)試時(shí),無(wú)論是對(duì)正常樣本還是指紋樣本,分類(lèi)精確率達(dá)到93%以上,召回率達(dá)到92%以上,F(xiàn)1分?jǐn)?shù)最高達(dá)到了96%,表明Fingerprint-GAN能很好的區(qū)分正常樣本和指紋樣本,具有良好的檢測(cè)性能.
本節(jié)從指紋樣本的檢測(cè)精確率、替代模型逃避的成功率以及目標(biāo)模型的指紋比對(duì)成功率這3個(gè)方面進(jìn)行評(píng)估,結(jié)果如表4所示:
Table 4 Performance Evaluation of Evasion Algorithm Based on Fingerprint-GAN表4 基于Fingerprint-GAN的逃避算法性能評(píng)估
將CIFAR-10測(cè)試集中10 000個(gè)正常樣本以及生成的7 925個(gè)指紋樣本輸入Fingerprint-GAN進(jìn)行測(cè)試,得到圖8(a)所示的正常樣本和指紋樣本在隱空間上的異常分?jǐn)?shù)分布圖;同樣將CIFAR-100測(cè)試集中10 000個(gè)正常樣本以及生成的8 173個(gè)指紋樣本輸入Fingerprint-GAN進(jìn)行測(cè)試,得到圖8(b)所示的正常樣本和指紋樣本在隱空間上的異常分?jǐn)?shù)分布圖.分布圖中相交部分表示未被正確分類(lèi)的樣本.
Fig. 8 Histogram of abnormal score of normal examples and fingerprint examples圖8 正常樣本和指紋樣本的異常分?jǐn)?shù)直方圖
由圖8(a)可以看到,CIFAR-10測(cè)試集上正常樣本和指紋樣本的分布近似呈高斯分布,兩者分布的橫軸交點(diǎn)為0.2,表明異常分?jǐn)?shù)為0.2.因此,取閾值θ=0.2.保護(hù)方共發(fā)送7 925個(gè)指紋樣本,以替代模型ResNet20-TF為例,F(xiàn)ingerprint-GAN檢測(cè)到7 512個(gè)指紋樣本,替代模型對(duì)這7 512個(gè)指紋樣本返回不同于預(yù)測(cè)的標(biāo)簽.由于指紋樣本本質(zhì)是對(duì)抗樣本,替代模型仿制目標(biāo)模型的功能無(wú)法達(dá)到百分百,因此對(duì)于目標(biāo)模型生成的指紋樣本,統(tǒng)計(jì)得到替代模型返回的標(biāo)簽中有6 577個(gè)與指紋不同,最終的替代模型逃避成功率為6 577/7 925≈83%,模型所有者進(jìn)行指紋比對(duì)的成功率約為17%.同樣,圖8(b)表示CIFAR-100上正常樣本和指紋樣本的分布,橫軸交點(diǎn)為0.27,因此,取閾值θ=0.27.其他替代模型的結(jié)果見(jiàn)表4.
本文提出的逃避算法在CIFAR-10,CIFAR-100上對(duì)指紋樣本的檢測(cè)精度分別達(dá)到95%,94%,4個(gè)替代模型的逃避成功率在81%~83%之間,而模型所有者的指紋比對(duì)成功率最高僅為19%,證明了該算法的有效性.
本節(jié)討論損失函數(shù)式(13)的權(quán)重超參數(shù).實(shí)驗(yàn)最初使用文獻(xiàn)[35]中的權(quán)重值λ1=1,λ2=50,λ3=1,是由經(jīng)驗(yàn)取得的參考值.圖9展示了式(13)損失函數(shù)中不同的權(quán)重取值對(duì)AUC值產(chǎn)生的影響.以數(shù)據(jù)集CIFAR-10上的正常樣本和指紋樣本為例,目標(biāo)模型為ResNet20,替代模型為ResNet20-TF,可以看到,當(dāng)取λ1=1,λ2=20,λ3=1時(shí),AUC值取得最高,F(xiàn)ingerprint-GAN檢測(cè)正常樣本和指紋樣本效果最佳,逃避模型指紋比對(duì)成功率最高.
Fig. 9 Influence of weight parameters of Fingerprint-GAN on CIFAR-10圖9 權(quán)重參數(shù)對(duì)Fingerprint-GAN的影響- CIFAR-10為例
本文提出基于Fingerprint-GAN的逃避算法,在CIFAR-10,CIFAR-100上對(duì)模型指紋樣本的檢測(cè)率分別達(dá)到95%,94%,逃避的成功率為81%~83%,證明了逃避算法的有效性,同時(shí)也揭示了當(dāng)前基于模型指紋保護(hù)策略的脆弱性.后續(xù)工作我們將繼續(xù)研究針對(duì)圖神經(jīng)網(wǎng)絡(luò)的模型竊取技術(shù),以及如何保護(hù)圖神經(jīng)網(wǎng)絡(luò)的知識(shí)產(chǎn)權(quán).
貢獻(xiàn)說(shuō)明:錢(qián)亞冠提出論文理論方法和思路及論文撰寫(xiě);何念念、郭艷凱進(jìn)行論文實(shí)驗(yàn)和實(shí)驗(yàn)部分撰寫(xiě);王濱指導(dǎo)論文思路與撰寫(xiě);李暉、顧釗銓、張旭鴻、吳春明對(duì)論文提出修改建議.