国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向聯(lián)邦學(xué)習(xí)的本地差分隱私設(shè)計

2022-05-27 06:55:12
智能計算機(jī)與應(yīng)用 2022年5期
關(guān)鍵詞:損失率聯(lián)邦方差

張 昊

(東華大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620)

0 引 言

聯(lián)邦學(xué)習(xí)(F-L)作為一種分布式部署的深度學(xué)習(xí)的框架,不僅讓多方共同完成一個訓(xùn)練目標(biāo)模型,而且摒棄傳統(tǒng)的深度學(xué)習(xí)中數(shù)據(jù)集都需要統(tǒng)一部署在服務(wù)端的特性。每個分布式的客戶端(分布式的節(jié)點(diǎn))僅需各自在本地儲存自己私有的數(shù)據(jù)集,并且無需上傳私有數(shù)據(jù)集給服務(wù)器。因此理論上聯(lián)邦學(xué)習(xí)相比傳統(tǒng)的集中式訓(xùn)練的方法更有效地保證客戶端的隱私。但是現(xiàn)在仍有可能泄露客戶端私有隱私。攻擊者可以通過觀察客戶端的上傳的信息,并且通過某些手段,例如成員推理攻擊推斷出客戶端的隱私信息,從而泄露了客戶端的隱私。因此違背了聯(lián)邦學(xué)習(xí)滿足隱私保護(hù)的特性。

在聯(lián)邦學(xué)習(xí)的環(huán)境下,常用的隱私保護(hù)手段有同態(tài)加密和本地差分隱私。其中,同態(tài)加密由于是密碼學(xué)的方法,優(yōu)點(diǎn)是不降低數(shù)據(jù)的準(zhǔn)確性,可以有效地還原隱私數(shù)據(jù),缺點(diǎn)是同態(tài)加密的加解密和通信代價很高。本地差分隱私本質(zhì)是擾動數(shù)據(jù),因此優(yōu)點(diǎn)是適合計算性能較差的設(shè)備,例如移動設(shè)備,缺點(diǎn)是會犧牲一定的效用性,因?yàn)樘砑拥脑肼暿请S機(jī)的,而且估計值會有一定的方差。

基于此研究時立足于聯(lián)邦學(xué)習(xí)情況下,本地差分隱私更加適用于保護(hù)客戶端的隱私。但是少有人研究本地差分隱私與模型精度之間的影響。因此本文考慮隨機(jī)響應(yīng)以及優(yōu)化一元編碼機(jī)制下,探討的個數(shù)、、客戶端數(shù)量、擾動機(jī)制和數(shù)據(jù)分配方式對模型精度的影響。本文還設(shè)計了自適應(yīng)隱私預(yù)算策略,可以根據(jù)相鄰輪模型相似度來提升模型的收斂速度。

1 隱私保護(hù)聯(lián)邦學(xué)習(xí)實(shí)現(xiàn)

在權(quán)重聚合的框架中,客戶端在每輪訓(xùn)練結(jié)束后上傳的是模型權(quán)重,并且聚合的過程是Federated Averaging算法。在此基礎(chǔ)上,本文設(shè)計權(quán)重聚合的隱私保護(hù)系統(tǒng)實(shí)現(xiàn),具體如算法1所示。

:聯(lián)邦學(xué)習(xí)中參與客戶端總數(shù),每個客戶端記作p(1≤≤)

:每輪參與訓(xùn)練客戶端數(shù)的比例

DBp的訓(xùn)練數(shù)據(jù)集

:本地訓(xùn)練最小批量尺寸

:訓(xùn)練迭代總輪數(shù)

E:本地總迭代輪數(shù)

:學(xué)習(xí)率

1:Parameter Server Executes:

2:←服務(wù)器初始化全局模型

3://客戶端分配數(shù)據(jù)集

4:()

5:for epochin()do

6:for client∈Sdo

7://更新模型

9: //上傳前擾動模型權(quán)重

11:end for

12://聚合估計擾動模型

14:end for

16://權(quán)重聚合下訓(xùn)練模型

19:←DB隨機(jī)分成大小為的批量

20:for local epochin range E( )do

21: for batch∈do

22: //小批量梯度下降

24: end for

25:end for

1.1 隨機(jī)響應(yīng)機(jī)制實(shí)現(xiàn)與分析

此章節(jié)主要描述常用2種本地差分隱私機(jī)制隨機(jī)響應(yīng),優(yōu)化的一元編碼在聯(lián)邦學(xué)習(xí)的裁剪、編碼、估計的具體實(shí)現(xiàn),并且優(yōu)化本地差分隱私在服務(wù)器端聚合速度。

1.2 擾動機(jī)制實(shí)現(xiàn)步驟

(2)編碼:客戶端中第個數(shù)據(jù)記作p,映射后所有狀態(tài)數(shù)為,這里的數(shù)學(xué)公式可寫為:

(3)擾動:對于隨機(jī)響應(yīng)機(jī)制,經(jīng)過RR編碼后的數(shù)據(jù)需要擾動后才能上傳給中心服務(wù)器:

其中,E[Feq ]是一個維的變量矩陣。

然后模型參數(shù)的估計狀態(tài)數(shù)頻率的矩陣需要轉(zhuǎn)化為真實(shí)估計值E[],具體如下:

其中,E[]是一個維向量,是聚合后的全局模型參數(shù)。

聚合的過程利用到矩陣的乘法,因此時間復(fù)雜度從()減少至(1),大大提升服務(wù)器端聚合時間的速度,減輕中心服務(wù)器的運(yùn)算壓力。而且當(dāng)模型規(guī)模越大,節(jié)省的時間越多。

(5)估計方差:為簡化討論,這里只考慮聚合時全局模型的一個模型參數(shù)的方差變化,由于每個模型參數(shù)是不相關(guān)的。所以在Wang等人基礎(chǔ)上計算方差,對應(yīng)的公式可推得為:

顯然,估計模型參數(shù)的方差是與正相關(guān),即,更多的參與者會帶來更多的方差。

2 自適應(yīng)隱私預(yù)算分配

本文在實(shí)驗(yàn)基礎(chǔ)上觀察同精度不同隱私預(yù)算下的收斂速度,提出自適應(yīng)隱私預(yù)算分配的保護(hù)策略。該策略能夠讓聯(lián)邦學(xué)習(xí)在訓(xùn)練過程中,保證總隱私預(yù)算不變的情況下,動態(tài)分配客戶端的隱私預(yù)算。好處是能夠提升模型的收斂速度。

2.1 同精度不同隱私預(yù)算的收斂速度

不同擾動機(jī)制的收斂速度比較如圖1所示。觀察圖1就會發(fā)現(xiàn),隨著隱私預(yù)算增加,模型的收斂速度整體是上升的。

圖1 不同擾動機(jī)制的收斂速度比較Fig.1 Comparison of convergence rate with different perturbation mechanism

2.2 自適應(yīng)隱私預(yù)算策略實(shí)現(xiàn)

因此本文考慮到模型最初開始訓(xùn)練時,由于模型沒能有效地記住訓(xùn)練集的數(shù)據(jù),所以模型能夠泄露的訓(xùn)練集數(shù)據(jù)較少,導(dǎo)致隱私泄露率很低,因此可以用較大的隱私預(yù)算來提升模型的收斂速度。當(dāng)模型逐漸接近于收斂時,模型本身記住有關(guān)訓(xùn)練集的信息會逐漸變多,因此需要逐漸減小隱私預(yù)算來保護(hù)模型,詳見算法2。

6:()

8:end for

10:()

12:end for

14:returnε

15:

17://cosine similarity

19://Angular distance and similarity

22:return

綜合前述可知,對于相關(guān)的步驟可給出闡釋論述如下。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

本文在pytorch1.8進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)硬件設(shè)置見表1。

表1 隱私保護(hù)聯(lián)邦學(xué)習(xí)實(shí)驗(yàn)硬件配置Tab.1 Privacy-preserving F-L hardware configuration

本文實(shí)驗(yàn)中聯(lián)邦學(xué)習(xí)的客戶端數(shù)目為1 000個,默認(rèn)參與訓(xùn)練比例為0.5。和分別訓(xùn)練500,1 000輪。實(shí)驗(yàn)的模型-數(shù)據(jù)集為LeNet-MNIST和DNN-Purchase-100。MNIST和Purchase-100分別作為常用的數(shù)字識別數(shù)據(jù)集與成員推理攻擊的數(shù)據(jù)集。LeNet和DNN模型的學(xué)習(xí)率在非擾動情況下,分別為0.1和0.001;擾動情況下,分別為0.1和0.01。LeNet使用SGD優(yōu)化器,DNN使用Adam優(yōu)化器。下LeNet和DNN的基準(zhǔn)模型精度分別為0.988 5、0.909 8;非下LeNet基準(zhǔn)模型精度為0.986 6。

隱私預(yù)算的值設(shè)為0075*2的冪指數(shù)為單位,取值范圍為0~7(2代表隱私預(yù)算值為0075*2),精度損失率的范圍設(shè)為0~1,以0.1間隔遞增,隱私泄露率為0.45~0.75,以0.1間隔遞增。

經(jīng)過本地差分隱私保護(hù)的模型,擾動后模型收斂的精度相較于擾動前模型收斂的精度損失的百分比(%),其值可由如下數(shù)學(xué)公式計算得出:

當(dāng)精度損失率接近0時,代表擾動后的模型精度相較于原模型精度幾乎無損失。當(dāng)精度損失率接近于1時,代表擾動后的模型精度損失很高,即擾動后模型幾乎不可用。

3.2 隱私保護(hù)聯(lián)邦學(xué)習(xí)分析

3.2.1個數(shù)對精度損失率影響

在擾動模型權(quán)重的框架下,無論數(shù)據(jù)集是還是,精度損失率都會隨著數(shù)量的增加而減小。對精度損失率影響如圖2所示。因此為了此后的研究考慮,在模型盡可能滿足收斂的情況下,這里選擇最小的(在圖2中以紅色星號表示)并繼續(xù)后文的實(shí)驗(yàn)。

圖2 cells對精度損失率影響Fig.2 Impact of cells on accuracy loss

3.2.2 隱私預(yù)算對精度損失率影響

隱私預(yù)算對精度損失率影響如圖3所示。實(shí)驗(yàn)結(jié)果表明,對于模型的精度損失率來說,精度損失率會隨著隱私預(yù)算的增加而減小。原因是當(dāng)隱私預(yù)算變大,擾動機(jī)制所添加的噪聲也會變少,擾動模型權(quán)重的變化較小,從而提升模型的精確度。當(dāng)隱私預(yù)算足夠大的時候,擾動模型權(quán)重的變化幾乎可以忽略不計,那么模型收斂后的精度幾乎等于不擾動模型收斂后的精度,即精度損失率接近于0。當(dāng)隱私預(yù)算足夠小的時候,由于擾動模型權(quán)重的變化太大,會導(dǎo)致模型無法收斂,因此模型的精度損失率很高。

圖3 隱私預(yù)算對精度損失率影響Fig.3 Impact of privacy budget on accuracy loss

3.2.3 客戶端數(shù)量對精度損失率影響

客戶端數(shù)量對精度損失率影響如圖4所示。由圖4可知,觀察到當(dāng)客戶端數(shù)量增加,精度損失率會逐漸下降。本文認(rèn)為原因是當(dāng)客戶端數(shù)量比較少的時候,本地差分隱私添加噪聲后,雖然估計方差小了,但是估計均值到真實(shí)均值附近的概率較小,因此獲得的估計值與原先的均值的方差區(qū)別較大,導(dǎo)致模型不容易收斂。當(dāng)客戶端數(shù)量比較多的時候,縱使算法和算法的方差變大,但是估計值到真實(shí)均值附近的概率較大,因此訓(xùn)練擾動模型中間值和正常訓(xùn)練模型中間值近似,所以模型的收斂后精度損失率較小。

圖4 客戶端數(shù)量對精度損失率影響Fig.4 Impact of number of clients on accuracy loss

3.2.4 自適應(yīng)隱私預(yù)算策略結(jié)果

自適應(yīng)隱私預(yù)算策略實(shí)現(xiàn)對比如圖5所示。在圖5中,自適應(yīng)隱私預(yù)算可以提升模型的收斂速度。實(shí)驗(yàn)發(fā)現(xiàn)LeNet相較于DNN模型能夠顯著地提升模型的收斂速度,原因是LeNet模型能在初始10個輪次提升精度至0.6~0.8,但是DNN模型卻需要100~300輪才大致提升精度至0.5~0.7。因此如果只看2個模型的相鄰2輪的近似度,LeNet的相鄰輪變化明顯,所以提升收斂速度明顯。

圖5 自適應(yīng)隱私預(yù)算策略實(shí)現(xiàn)對比Fig.5 Comparison of adaptive privacy budget strategy implementation

4 結(jié)束語

本文研究本地差分隱私機(jī)制和在權(quán)重聚合的聯(lián)邦學(xué)習(xí)上實(shí)現(xiàn)隱私保護(hù)并優(yōu)化服務(wù)端聚合速度近似從()減少為(1),同時評估的個數(shù)、、客戶端數(shù)量、擾動機(jī)制和數(shù)據(jù)分配方式對模型精度影響,精度損失會隨著數(shù)量、、客戶端數(shù)量的增加而減小。同等下,會比的精度損失高,和的精度損失類似;同時實(shí)現(xiàn)自適應(yīng)隱私預(yù)算策略提升模型訓(xùn)練速度,近似提升一個等級的收斂速度。

在此基礎(chǔ)上,本文仍存在需要改進(jìn)之處。本文并未評估梯度聚合框架下的效果。同時還未評估聯(lián)邦學(xué)習(xí)下本地差分隱私對隱私泄露的影響。另外,本文現(xiàn)有的數(shù)據(jù)集不夠全面,只有2類典型數(shù)據(jù)集,有待進(jìn)一步研究解決。

猜你喜歡
損失率聯(lián)邦方差
方差怎么算
農(nóng)業(yè)農(nóng)村部印發(fā)《意見》提出到2025年農(nóng)產(chǎn)品加工環(huán)節(jié)損失率降到5%以下
概率與統(tǒng)計(2)——離散型隨機(jī)變量的期望與方差
一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會完滿舉行
帶有治療函數(shù)及免疫損失率的SIRS流行病模型的動力學(xué)分析
303A深圳市音聯(lián)邦電氣有限公司
計算方差用哪個公式
方差生活秀
12部使用一年后最廉價轉(zhuǎn)售車
海外星云(2016年19期)2016-10-24 11:53:42
2014~2015年冬季美國蜂群損失調(diào)查
新建县| 邳州市| 留坝县| 绥德县| 固始县| 阜城县| 花莲市| 嘉祥县| 胶州市| 沙雅县| 兰溪市| 德州市| 边坝县| 馆陶县| 康平县| 弋阳县| 云安县| 罗定市| 兴宁市| 夏邑县| 南平市| 德清县| 搜索| 竹山县| 农安县| 交口县| 元谋县| 葫芦岛市| 布尔津县| 嵩明县| 菏泽市| 通辽市| 莲花县| 盐亭县| 安泽县| 简阳市| 岳普湖县| 德惠市| 固镇县| 文成县| 嵊泗县|