国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

聯(lián)邦學習的隱私保護技術研究

2021-06-28 00:42石進周穎鄧家磊
現(xiàn)代信息科技 2021年1期
關鍵詞:數(shù)據(jù)安全

石進 周穎 鄧家磊

摘? 要:聯(lián)邦學習作為一種新興的人工智能計算框架,旨在解決分布式環(huán)境下數(shù)據(jù)安全交換與隱私保護,然而聯(lián)邦學習在應用時仍然存在安全問題。鑒于此,文章從多個層面分析聯(lián)邦學習的隱私安全問題,并針對性地提出了防御措施;面向聯(lián)邦學習安全高速數(shù)據(jù)交換,提出了一種基于改進同態(tài)加密算法的聯(lián)邦學習模型,為聯(lián)邦學習落地實施提供借鑒和參考。

關鍵詞:聯(lián)邦學習;用戶隱私;數(shù)據(jù)安全;同態(tài)加密

中圖分類號:TP309;TP181? ? ? 文獻標識碼:A 文章編號:2096-4706(2021)01-0138-05

Study on Privacy Protection Techniques of Federated Learning

SHI Jin,ZHOU Ying,DENG Jialei

(Diankeyun(Beijing)Technology Co.,Ltd.,Beijing? 100041,China)

Abstract:As a new artificial intelligent computing framework,federated learning aims to solve the problem of data safety exchange and privacy protection in distributed environment. However,federated learning still has security problems in application. In view of this,the paper analyzes the privacy security issues of federated learning from multiple levels and contrapuntally puts forward defensive measures. A federated learning model based on improved homomorphism encryption algorithm is proposed for high-speed data exchange of federated learning security,which provides reference for the implementation of federated learning.

Keywords:federated learning;user privacy;data security;homomorphism encryption

0? 引? 言

聯(lián)邦學習順應了移動互聯(lián)網(wǎng)時代對安全隱私問題的需求,一經(jīng)出現(xiàn)即受到廣泛關注,在科技金融、醫(yī)療衛(wèi)生等行業(yè)的應用也在逐步推廣。微眾銀行推出了開源聯(lián)邦學習框架FATE,谷歌公司推出了TensorFlow Federated(TFF),Uber公司也推出了開源框架Horovod,上述框架可幫助開發(fā)者快速實現(xiàn)聯(lián)邦學習在行業(yè)領域的落地實施。然而聯(lián)邦學習在數(shù)據(jù)采集、模型訓練的過程中可能面臨隱私泄露和數(shù)據(jù)安全問題,本文通過分析聯(lián)邦學習存在的問題及應對策略,推動聯(lián)邦學習應用安全落地。

1? 聯(lián)邦學習中的特性和問題

1.1? 聯(lián)邦學習的特性

面向分布式環(huán)境下數(shù)據(jù)資源共享交換,谷歌在2016年最先提出聯(lián)邦學習模型,并且能夠保證數(shù)據(jù)提供方的隱私和數(shù)據(jù)安全[1]。與傳統(tǒng)集中式的數(shù)據(jù)訓練方式不同,聯(lián)邦學習的訓練過程發(fā)生在終端側,即訓練數(shù)據(jù)保存在終端本地,無需上傳至云端,這種方式極大地降低了原始數(shù)據(jù)泄露的風險。

與傳統(tǒng)的數(shù)據(jù)擁有者提供數(shù)據(jù)且以集中式的方式完成訓練過程不同,聯(lián)邦學習在數(shù)據(jù)擁有者本地完成訓練過程。聯(lián)邦學習通常具有以下特性:

(1)大規(guī)模分布性(Massively distributed):參與數(shù)據(jù)訓練的終端呈現(xiàn)分散分布的特點,終端多,規(guī)模大,多終端聯(lián)合訓練共同構成訓練模型。Mcmahan等[2]研究顯示,F(xiàn)acebook、微信等熱門移動應用的月活躍用戶規(guī)模達10億量級,傳統(tǒng)的分布式機器學習難以適應如此巨大規(guī)模的數(shù)據(jù)分布。

(2)獨立性(Non-IID):終端側的訓練數(shù)據(jù)通常與終端用戶的使用習慣、行為愛好等個性化行為密切相關,因而終端數(shù)據(jù)獨立,且各終端的數(shù)據(jù)分布通常不一致。因而,數(shù)據(jù)的總體分布不會由某個特定終端側的數(shù)據(jù)分布決定。

(3)不平均性(Unbalance):由于個體差異性,終端側的數(shù)據(jù)量差別較大,訓練集的數(shù)量沒有明顯的規(guī)律。

(4)通信受限(Limited Communication):聯(lián)邦學習在數(shù)據(jù)訓練時會受到終端在線時間、網(wǎng)絡環(huán)境等因素的影響,很難保證終端保持固定且全程參與訓練過程。

1.2? 聯(lián)邦學習的過程步驟

聯(lián)邦學習的參與方分為服務器和終端,其中終端負責本地訓練,服務器負責對終端訓練的模型進行聯(lián)合構建后獲得共享模型。聯(lián)邦學習訓練過程步驟如下所示:

(1)終端從服務器下載最新的共享數(shù)據(jù)模型。

(2)終端利用保存在本地的數(shù)據(jù)集訓練該共享模型,并將本地的模型上傳至服務器。

(3)在服務器上,依據(jù)權重通過加權平均的方式對各終端側上傳的模型進行計算,得到更新后的共享模型。

(4)終端從服務器下載更新后的共享數(shù)據(jù)模型。依據(jù)各方數(shù)據(jù)源的分布情況不同[3],聯(lián)邦學習分為3類:橫向聯(lián)邦學習(Horizontal Federated Learning)、縱向聯(lián)邦學習(Vertical Federated Learning)和聯(lián)邦遷移學習(Federated Transfer Learning)。橫向聯(lián)邦學習是指各數(shù)據(jù)源之間的參與用戶重疊少而數(shù)據(jù)特征重疊多的情況,通過從用戶維度對數(shù)據(jù)集進行切分,利用數(shù)據(jù)特征相同但用戶不完全相同的數(shù)據(jù)進行訓練。縱向聯(lián)邦學習是指各數(shù)據(jù)源之間的參與用戶重疊多而數(shù)據(jù)特征重疊少的情況,從數(shù)據(jù)特征維度對數(shù)據(jù)集進行切分,利用相同用戶但數(shù)據(jù)特征不完全相同的數(shù)據(jù)進行訓練。聯(lián)邦遷移學習是指數(shù)據(jù)特征和參與用戶重疊都較少的情況,無須對數(shù)據(jù)集進行切分,而是采用遷移學習的方式來解決數(shù)據(jù)來源少或者標簽數(shù)據(jù)量少的問題。

1.3? 聯(lián)邦學習產(chǎn)生的隱私和安全問題

聯(lián)邦學習雖然能夠保證數(shù)據(jù)在本地完成訓練過程,無須將數(shù)據(jù)直接提供給第三方,但是其仍然存在一些隱私和安全問題,主要體現(xiàn)在以下幾個方面:

(1)在數(shù)據(jù)采集階段的直接數(shù)據(jù)泄露。主要表現(xiàn)在數(shù)據(jù)收集者在未經(jīng)允許的情況下私自收集用戶數(shù)據(jù),或者將數(shù)據(jù)直接交換共享等。

(2)由于模型泛化能力不足而出現(xiàn)的間接隱私泄露。主要表現(xiàn)在有經(jīng)驗的數(shù)據(jù)分析者通過模型逆向推理手段從共享模型中發(fā)掘若干與用戶相關的數(shù)據(jù),究其原因是復雜的模型在數(shù)據(jù)訓練時對數(shù)據(jù)有一定的“記憶”效果。

(3)由于安全防御手段不足導致的模型污染。主要表現(xiàn)在一些攻擊者假冒數(shù)據(jù)提供者提供一些偽造的數(shù)據(jù),進而導致模型不能反映實際的數(shù)據(jù)分布特征。

本文重點討論間接的隱私問題和安全問題,隱私問題通常發(fā)生在模型訓練階段,用戶可能對數(shù)據(jù)一無所知,也有可能具有一定的專業(yè)背景知識,通過對模型進行分析提取出敏感的個人信息,但是模型本身不受影響;與隱私問題不同的是,安全問題可以發(fā)生在模型訓練或者模型應用階段,模型被惡意誘導或者毀壞,但是數(shù)據(jù)本身不受影響。

2? 聯(lián)邦學習中的隱私和安全問題

2.1? 隱私攻擊

2.1.1? 成員推斷攻擊

成員推斷攻擊是指非法攻擊者推測某個用戶是否是模型的訓練者之一,即成員數(shù)據(jù)是否被應用于訓練。成員推斷攻擊可能會泄露數(shù)據(jù)成員信息,比如,在金融或者醫(yī)療等領域應用時,用戶身份非常敏感,成員推斷攻擊可能會造成嚴重的后果。

成員推斷攻擊首次出現(xiàn)在Shokri等[4]的論述中,假設成員推斷是在“黑盒模式”下進行,通過模擬數(shù)據(jù)構造一個影子模型,根據(jù)影子模型和目標模型的訓練結果來判斷目標是否是模型訓練的實際參與者。Salem等[5]提出了一種更為寬松約束條件下的推斷攻擊方法。Yeom等[6]提出了一種“白盒模式”下的推斷方法,即攻擊者已知模型訓練方法,通過評估某條數(shù)據(jù)在模型訓練時的損失是否超過平均訓練損失來判定該數(shù)據(jù)是否是訓練數(shù)據(jù)。

目前,成員推斷攻擊在實際應用時有較大的局限性,通常在滿足特定的假設條件下進行,但是隨著研究的深入,成員推斷攻擊可能帶來的損失很難估量。需要通過優(yōu)化模型和訓練算法,結合加密手段、干擾措施來增強聯(lián)邦學習的隱私保護能力。

2.1.2? 模型逆向攻擊

通過動態(tài)解析或者計算數(shù)據(jù)間的相似度的方法,可以從結構簡單的算法模型中推斷出用戶隱私信息。Fredrikson等[7]在已知患者的基本信息和預測結果的條件下,針對用藥線性模型成功推斷出患者的敏感基因型。在一些復雜的算法模型中,在已知樣本標簽的條件下,利用預置信度對模型不斷修正,成功獲得用戶的真實信息[8],但這種方法僅適用于訓練樣本量很小的情況。

2.1.3? 模型提取攻擊

早期的模型提取攻擊方法簡單,應用范圍小[9]。Tramèr等[10]在等式求解的基礎上,結合預置信度極大地提高了攻擊效果,模型提取攻擊的范圍進一步加大。Shokri等的研究結果表明,訓練模型對訓練數(shù)據(jù)有一定的“記憶”效果,在提取的替代模型的基礎上再次進行模型逆向攻擊將會更大提升其危害性。

2.2? 安全攻擊

2.2.1? 對抗攻擊

對抗攻擊通過在模型訓練中添加偽造樣本(即對抗樣本),改變模型訓練結果,進而使得模型輸出效果與真實數(shù)據(jù)分布不一致。研究發(fā)現(xiàn),通過在數(shù)據(jù)中添加一個微小的改變即可改變訓練輸出結果[11]。對抗攻擊出現(xiàn)了多種不同的形式,如Least-Likely-Class Iterative Methods[12]、Jacobian-based Saliency Map Attack(JSMA)[13]、DeepFool[14]等等。對抗攻擊由于其使用約束條件簡單,偽造成本低,已被攻擊者廣泛應用于圖像、語音、文本等多個領域,成為數(shù)據(jù)模型的一個重要威脅。

2.2.2? 數(shù)據(jù)投毒攻擊

數(shù)據(jù)投毒攻擊是指攻擊者通過添加錯誤樣本或者偽造標簽,降低訓練數(shù)據(jù)的質量,進而影響訓練模型的過程。文獻[15]通過多種混合注入方式,在少量注入偽造數(shù)據(jù)的情況下即可獲得九成以上的攻擊成功率。文獻[16]和[17]針對某些算法的優(yōu)化梯度,通過梯度上升策略改變模型訓練結果。數(shù)據(jù)投毒攻擊也是一種被廣泛研究的攻擊手段。

2.2.3? 模型投毒攻擊

不同于數(shù)據(jù)投毒攻擊直接對數(shù)據(jù)進行操作來影響模型訓練,模型投毒攻擊利用錯誤的參數(shù)或者無關的模型,在共享模型聚合的過程中延長模型的收斂時間或者形成非預期的模型,嚴重影響模型的準確性。文獻[18]通過偽造代理的方式參與模型訓練,攻擊方式隱蔽而且效果很明顯。

3? 聯(lián)邦學習中的隱私保護技術

3.1? 隱私泄露防御

3.1.1? 差分隱私

聯(lián)邦學習中任何一個數(shù)據(jù)提供方都可以從服務器中獲得總體參數(shù),惡意的數(shù)據(jù)提供方通過分析共享模型,導致其他數(shù)據(jù)提供方的隱私信息可能會存在泄露風險,考慮采用差分隱私保護的方法來規(guī)避隱私泄露風險。

對于任意的鄰近數(shù)據(jù)集D和D′,都能滿足Pr[M(D)∈S]≤eε·Pr[M(D′)∈S],其中M、R為所有輸出的集合,S為R的任意子集,則稱算法M滿足ε-差分隱私。當ε越大時,算法M的模型準確性更高,但是隱私保護等級越低。

通過差分隱私技術能夠保證共享模型不會泄露數(shù)據(jù)提供方的信息,即能夠在一定程度上防御成員推理攻擊。研究結果表明,在數(shù)據(jù)提供方數(shù)量較大時,通過隱私差分技術能夠以較小的性能損失來保護數(shù)據(jù)提供方的隱私[19]。差分隱私也存在一定的局限性,它只能對單一記錄提供隱私保護,如果不同的記錄之間存在一定的關聯(lián)關系,攻擊者仍然可以對滿足差分隱私保護的算法進行成員推理攻擊[20]。

3.1.2? 同態(tài)加密

采用同態(tài)加密的方式來保護用戶隱私是一種常用的防御手段。對使用同態(tài)加密的數(shù)據(jù)進行處理得到一個輸出,對輸出進行解密得到一個結果,與用同一方法處理未加密的原始數(shù)據(jù)得到的輸出結果是一樣的。利用同態(tài)加密,對加密后的參數(shù)進行聚合后就無法獲得原始用戶參數(shù)。

加性同態(tài)加密的定義為:

Encpk(m1)=c1,Encpk(m2)=c2

Decsk(c1?c2)=m1+m2

其中,加密方案公鑰加法同態(tài)加密,pk是公鑰,sk是私鑰,密文c1是對明文m1的加密結果,密文c2是對明文m2的加密結果,而?是某種乘法或者加法運算。利用同態(tài)加密結合聯(lián)邦學習,通過同態(tài)加密對模型訓練的中間結果進行加密,能有效保證聯(lián)邦學習模型訓練過程中用戶隱私。

3.1.3? 秘密共享

秘密共享機制適用于解決惡意服務器參與聯(lián)邦學習的訓練時敏感信息泄露的情形。服務器作為共享模型的聚合方,能夠輕易獲得各個數(shù)據(jù)提供方的模型參數(shù)信息,這對數(shù)據(jù)提供方的隱私帶來巨大的威脅。

(n,t)秘密共享是一種常用的秘密信息共享手段,其中n是秘密被劃分的數(shù)量(秘密被劃分為n份后,分別有n個參與方保管,每個參與方保管1份),t為參與恢復秘密的用戶數(shù)量。該算法將秘密信息s劃分為n份,分別由n個不同的參與方保管。任意t個參與者合作都可以恢復秘密信息s,少于t個參與者則無法恢復秘密信息s。通過秘密共享的方式,將秘密的所有權分散至各個參與方,而非某個特定的管理方或參與方,避免由于單個管理方或者參與方被攻擊導致的秘密泄露,在很大程度上提高了秘密信息的安全性。

3.2? 安全防御

3.2.1? 對抗攻擊防御

在模型構建的全生命周期,有多種防御手段應對對抗攻擊,主要包括以下三種:

(1)對抗訓練。在模型訓練階段,將真實樣本和對抗樣本一起作為訓練樣本來生成結果模型。對抗訓練能夠在訓練階段就發(fā)現(xiàn)對抗樣本的特征,具有較強的健壯性。但該方法僅適用于訓練樣本中的對抗集,不能很好地適應未知對抗樣本的情況。

(2)數(shù)據(jù)處理。針對對抗攻擊的數(shù)據(jù)處理方法主要分為三類。一類是向樣本中加入白噪聲,通過對樣本進行隨機化處理增強模型的泛化能力,比如對圖像數(shù)據(jù)進行裁剪、翻轉、縮放等方式,能在一定程度上防御對抗攻擊;第二類是對樣本進行過濾降噪,減輕對抗樣本帶來的干擾,比如通過平滑空間濾波、標量量化等處理手段來降低噪聲的影響,能夠有效發(fā)現(xiàn)對抗樣本;第三類是對樣本進行壓縮,該方式僅適用于圖像,即對壓縮后的圖像進行訓練,該方法在降低噪聲比例的同時也會降低圖像分類的準確率。

(3)防御蒸餾。利用訓練集獲得一個原始模型,通過模型提取的方式從原始模型中“蒸餾”出一個新的模型,該方法能降低模型的復雜度。對防御蒸餾技術的研究表明,該方法能顯著降低對抗攻擊的成功率,且在沒有明顯干擾的情況下保證模型訓練的準確度和效率。

3.2.2? 數(shù)據(jù)投毒防御

從數(shù)據(jù)訓練流程分,數(shù)據(jù)投毒防御分為兩種。一種是在訓練數(shù)據(jù)之前采用技術手段保證數(shù)據(jù)提供方的合法用戶身份;另一種是在模型訓練中,對于無法保證數(shù)據(jù)安全性時,采用檢測手段來保證數(shù)據(jù)不被非法篡改。

為保證數(shù)據(jù)源不受污染,在數(shù)據(jù)訓練之前應采用健壯的身份認證機制來驗證用戶身份,避免由于惡意用戶參與導致的數(shù)據(jù)不可信。

在模型訓練過程中,通過將數(shù)據(jù)集分為若干個子集合,分別對子集合進行訓練并比較模型訓練的結果來找出表現(xiàn)異常的數(shù)據(jù)子集,該方法具有較高的識別準確率。

3.2.3? 模型投毒防御

對于模型參數(shù)更新異常問題,防御方法主要分為兩種。一種是統(tǒng)計方法,即將各個數(shù)據(jù)提供方提交的模型參數(shù)進行統(tǒng)計學分析(如直方圖統(tǒng)計),若某個參數(shù)的統(tǒng)計規(guī)律明顯跟其他參數(shù)存在差異,則認為該參數(shù)的提供方不可信。另一種是準確度比較,即對比各個模型在驗證集上的準確度,對于明顯低于平均準確度的模型,則認為其提供方存在異常。

4? 一種基于改進同態(tài)加密的聯(lián)邦學習模型

4.1? 同態(tài)加密改進算法

同態(tài)加密是一種無須訪問原始明文數(shù)據(jù)的密碼技術,通過對加密后的數(shù)據(jù)進行運算并解密,與直接在原始明文數(shù)據(jù)上運算得到的結果一致。將同態(tài)加密與聯(lián)邦學習結合,對訓練方向參數(shù)服務器傳遞的中間訓練結果進行加密,保證訓練方的數(shù)據(jù)不被第三方獲知。2009年,Gentry提出第一個具有可證明安全性的全同態(tài)加密方案,后來出現(xiàn)了多種全同態(tài)加密方案,但是全同態(tài)加密方案的效率很難滿足實際應用需要。Dijk提出了全同態(tài)加密方案DGHV,該方案是部分同態(tài)加密經(jīng)典方案。DGHV采用對稱加密算法c←m+2r+pq,其中m是原始明文,m∈{0,1},r是加密用的隨機整數(shù),p是私鑰,q是密鑰生成階段的整數(shù),c是密文。解密過程為(c mod p)mod 2=Lsb(c)xor Lsb(c/p)。在該算法中,由于隨機數(shù)r的存在,無法還原m的實際數(shù)值。m+2r是算法中的噪聲,當m+2r≥p/2時無法完成正確解密。

在上述DGHV算法中,每次只能加密1 bit的原始明文,通過提高每次加密的明文大小來提高同態(tài)加密算法的實現(xiàn)效率,具體步驟為:

第一步:在密鑰生成階段,基于安全參數(shù)λ來生成私鑰p和大整數(shù)q;

第二步:對明文加密,c←m+2nr+pq,其中c是密文,m是原始明文,n是每次加密的比特數(shù),r是加密用的隨機整數(shù),其中m+2nr

第三步:對密文解密,m←(c mod P)mod 2n。

4.2? 同態(tài)加密改進算法在聯(lián)邦學習中的應用

基于同態(tài)加密改進算法的聯(lián)邦學習的參與方包括多個數(shù)據(jù)訓練方和一個參數(shù)服務器,聯(lián)邦學習的過程包括模型訓練階段和模型應用階段?;谕瑧B(tài)加密改進算法的聯(lián)邦學習訓練階段過程如圖1所示。

4.2.1? 模型訓練階段

模型訓練階段的流程圖如圖2所示。

第一步:參數(shù)初始化。參數(shù)服務器利用隨機數(shù)算法生成深度神經(jīng)網(wǎng)絡模型參數(shù),包括權重、偏置項;各個數(shù)據(jù)訓練方根據(jù)4.1節(jié)中改進的同態(tài)加密算法確定同態(tài)加密參數(shù),包括公鑰pk和秘鑰sk,迭代次數(shù)、優(yōu)化算法、mini-batch值和學習率;

第二步:參數(shù)下載。各數(shù)據(jù)訓練方從參數(shù)服務器下載權重參數(shù)密文,利用秘鑰sk解密權重,并將權重加載應用于本地模型;

第三步:訓練學習。根據(jù)訓練參數(shù)對本地數(shù)據(jù)進行訓練,利用公鑰pk對訓練更新后的模型參數(shù)同態(tài)加密后發(fā)送至參數(shù)服務器。

第四步:參數(shù)更新。參數(shù)服務器對各個訓練方上傳的參數(shù)進行平均運算,并更新全局權重參數(shù)值。

第五步:迭代訓練。重復步驟二至步驟四,直至滿足迭代次數(shù)。

4.2.2? 模型應用階段

在模型訓練完成后應用模型。在模型完成訓練后,參數(shù)服務器將訓練好的全局模型權重分發(fā)至各個訓練方,各個訓練方在本地利用私鑰sk解密后部署在本地模型中。參數(shù)服務器斷開與數(shù)據(jù)訓練方的通信連接。

模型能夠應用在交通領域的用戶出行規(guī)律預測方面,通過引入商業(yè)公司數(shù)據(jù)(如一些移動應用產(chǎn)生的用戶數(shù)據(jù))能夠極大地提升用戶出行行為選擇預測的準確度,而且由于聯(lián)邦學習的引入,各模型在數(shù)據(jù)所有者控制范圍內訓練,解決了跨領域、跨業(yè)務的數(shù)據(jù)安全共享問題。

首先,通過橫向聯(lián)邦學習來訓練形成航空交通出行模型M1。選擇兩家航空交通出行公司A和B,以用戶在本公司的航班搜索記錄、用戶搜索時間、用戶航班訂單、用戶出行時間、用戶同行人員數(shù)量等信息作為訓練數(shù)據(jù),基于橫向聯(lián)邦學習來對這些交通出行參數(shù)數(shù)據(jù)進行訓練,最終得到航空交通出行模型M1。

其次,鐵路集團公司對相同用戶數(shù)據(jù)訓練獲得鐵路交通出行模型M2。具體過程為,鐵路集團公司以用戶在鐵路交通出行的訂單記錄、出行時間等信息作為參數(shù)訓練,得到鐵路交通出行模型M2。

再次,通過縱向聯(lián)邦學習結合航空交通出行模型M1和鐵路交通出行模型M2,得到聯(lián)合后的訓練模型M。結合縱向聯(lián)邦學習的特點,以相同用戶的多種維度的航空交通和鐵路交通出行參數(shù)作為訓練參數(shù)指標,在保證數(shù)據(jù)不出局的情況下,得到綜合訓練模型M。

接著,通過聯(lián)邦遷移學習結合綜合交通出行訓練模型M和用戶消費訓練模型C(該模型由第三方旅行類APP提供),得到最終的用戶出行規(guī)律預測模型D。由于交通出行和用戶消費特征、樣本重疊較少,故適合采用聯(lián)邦遷移學習來對交通出行訓練模型M和消費訓練模型C融合計算,形成出行規(guī)律預測模型。

最后,重復聯(lián)邦遷移學習過程并迭代更新模型參數(shù),直至模型訓練收斂。

在模型訓練和應用過程中,同樣需要考慮模型參數(shù)的安全問題。結合場景特點,運用改進同態(tài)加密手段來保證模型參數(shù)不被第三方竊取,具體為:

(1)在航空交通出行模型M1和鐵路交通出行模型M2在向綜合交通出行訓練模型M傳遞參數(shù)時,必須采用私鑰加密。

(2)綜合交通出行訓練模型M在收到加密參數(shù)后,利用事先約定的公鑰進行解密。如果能夠解密,則表明訓練方身份驗證成功,更新參數(shù),否則丟棄參數(shù)。

5? 結? 論

聯(lián)邦學習旨在解決數(shù)據(jù)隱私保護與多數(shù)據(jù)源聯(lián)合建模之間的矛盾。本文對聯(lián)邦學習面臨的隱私安全問題和對應的防御手段,為聯(lián)邦學習在實際場景中落地提供參考。將同態(tài)加密與聯(lián)邦學習結合,解決參數(shù)傳遞過程中數(shù)據(jù)安全問題,通過改進全同態(tài)加密算法,提高了加密傳輸效率。

參考文獻:

[1] MCMAHAN H B,MOORE E,RAMAGE D,et al. Federated Learning of Deep Networks using Model Averaging [J/OL].arXiv:1602.05629 [cs.LG].(2016-02-17).https://arxiv.org/abs/1602.05629v1.

[2] MCMAHAN H B,MOORE E,RAMAGE D,et al. Communication-Efficient Learning of Deep Networks from Decentralized Data [J/OL].arXiv:1602.05629 [cs.LG].(2017-02-28).https://arxiv.org/abs/1602.05629.

[3] 王健宗,孔令煒,黃章成,等.聯(lián)邦學習算法綜述 [J].大數(shù)據(jù),2020,6(6):64-82.

[4] SHOKRI R,STRONATI M,SONG C Z,et al. Membership Inference Attacks Against Machine Learning Models [C]//2017 IEEE Symposium on Security and Privacy(SP).San Jose:IEEE,2017:3-18.

[5] SALEM A,ZHANG Y,HUMBERT M,et al. ML-Leaks:Model and Data Independent Membership Inference Attacks and Defenses on Machine Learning Models [J/OL].arXiv:1806.01246 [cs.CR].(2018-12-14).https://arxiv.org/abs/1806.01246.

[6] YEOM S,GIACOMELLI I,F(xiàn)REDRIKSON M,et al. Privacy Risk in Machine Learning:Analyzing the Connection to Overfitting [C]//2018 IEEE 31st Computer Security Foundations Symposium(CSF).Oxford:IEEE,2018:268-282.

[7] FREDRIKSON M,LANTZ E,JHA S,et a1. Privacy in pharmacogenetics:an end-to-end case study of personalized warfarin dosing [C]//Proceedings of the 23rd USENIX conference on Security Symposium.Berkeley:USENIX Association,2014:17-32.

[8] FREDRIKSON M,JHA S,RISTENPART T.Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures [C]//Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security.New York:Association for Computing Machinery,2015:1322-1333.

[9] LOWD D,MEEK C.Adversarial learning [C]//Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining.New York:Association for Computing Machinery,2005:641-647.

[10] TRAM?R F,ZHANG F,JUEIS A,et al. Stealing machine learning models via prediction APIs [C]// Proceedings of the 25th USENIX Conference on Security Symposium.Berkeley:USENIX Association,2016:601-618.

[11] GOODFELLOW I J,SHLENS J,SZEGEDY C. Explaining and harnessing adversarial examples [J/OL].arXiv:1412.6572 [stat.ML].(2014-12-20).https://arxiv.org/abs/1412.6572.

[12] KURAKIN A,GOODFELLOW I,BENGIO S. Adversarial examples in the physical world [J/OL].arXiv:1607.02533 [cs.CV].(2017-02-11).https://arxiv.org/abs/1607.02533v4.

[13] PAPERNOT N,MCDANIEL P,JHA S,et al. The Limitations of Deep Learning in Adversarial Settings [C]//2016 IEEE European Symposium on Security and Privacy(EuroS & P).Saarbruecken:IEEE,2016:372-387.

[14] MOOSAVI-DEZFOOLI S M,F(xiàn)AWZI A,F(xiàn)ROSSARD P. DeepFool:A Simple and Accurate Method to Fool Deep Neural Networks [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Las Vegas:IEEE,2016:2574-2582.

[15] CHEN X Y,LIU C,LI B,et al. Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning [J/OL].arXiv:1712.05526 [cs.CR].(2017-12-15).https://arxiv.org/abs/1712.05526v1.

[16] BIGGIO B,NELSON B,LASKOV P. Poisoning Attacks against Support Vector Machines [J/OL].arXiv:1206.6389 [cs.LG].(2013-03-15).https://arxiv.org/abs/1206.6389?context=cs.

[17] MU?OZ-GONZ?LEZ L,BIGGIO B,DEMONTIS A,et al. Towards Poisoning of Deep Learning Algorithms with Back-gradient Optimization [C]//Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security.New York:Association for Computing Machinery,2017:27-38.

[18] BHAGOJI A N,CHAKRABORTY S,MITTAL P,et al. Analyzing Federated Learning through an Adversarial Lens [J/OL].arXiv:1811.12470 [cs.LG].(2019-11-25).https://arxiv.org/abs/1811.12470.

[19] JAYARAMAN B,EVANS D. Evaluating Differentially Private Machine Learning in Practice [J/OL].arXiv:1902.08874 [cs.LG].(2019-02-24).https://arxiv.org/abs/1902.08874.

[20] KIFER D,MACHANAVAJJHAIA A.No free lunch in data privacy [C]//Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data.New York:ACM,2011:193-204.

作者簡介:石進(1989—),男,漢族,河南駐馬店人,助理工程師,碩士,研究方向:網(wǎng)絡安全。

猜你喜歡
數(shù)據(jù)安全
數(shù)據(jù)安全治理的參考框架
工信部:未來三年,建立并完善電信和互聯(lián)網(wǎng)行業(yè)數(shù)據(jù)安全標準體系
工信部部署推進2020年電信和互聯(lián)網(wǎng)行業(yè)網(wǎng)絡數(shù)據(jù)安全管理工作
部署推進2020年電信和互聯(lián)網(wǎng) 行業(yè)網(wǎng)絡數(shù)據(jù)安全管理工作
工信部:2021年初步建立網(wǎng)絡數(shù)據(jù)安全標準體系
大數(shù)據(jù)時代的數(shù)字化轉型如何實現(xiàn)數(shù)據(jù)的安全使用
直面熱點問題提升網(wǎng)絡數(shù)據(jù)安全保護能力
直面熱點問題 保障數(shù)據(jù)安全
如何進一步做好網(wǎng)絡與數(shù)據(jù)安全工作
數(shù)據(jù)安全政策與相關標準分享
富宁县| 门源| 安徽省| 永川市| 闽清县| 恭城| 肥西县| 密云县| 渝北区| 邮箱| 云和县| 遂溪县| 三穗县| 永宁县| 响水县| 虞城县| 桃江县| 通山县| 始兴县| 岳阳市| 娄底市| 常熟市| 商南县| 钟祥市| 卢龙县| 文昌市| 伊金霍洛旗| 葵青区| 南康市| 瑞丽市| 石景山区| 开阳县| 中卫市| 新闻| 蚌埠市| 长沙县| 石棉县| 自贡市| 榕江县| 偃师市| 敖汉旗|