王文鑫 趙奕涵 張健毅
北京電子科技學(xué)院,北京市 100070
近年來(lái),深度學(xué)習(xí)受到社會(huì)各界的廣泛關(guān)注,然而此種技術(shù)通過(guò)用戶端數(shù)據(jù)直接傳輸,可能存在信息泄漏和被篡改的風(fēng)險(xiǎn)。 隨著歐盟《通用數(shù)據(jù)保護(hù)條例》[1]和我國(guó)《個(gè)人信息保護(hù)法》[2]的相繼頒布,越來(lái)越多企業(yè)對(duì)于個(gè)人敏感信息提起高度重視。 為解決數(shù)據(jù)安全問(wèn)題和實(shí)現(xiàn)信息孤島的共享,谷歌2016 年提出聯(lián)邦學(xué)習(xí)(FL)的概念,其主要是將用戶數(shù)據(jù)存儲(chǔ)階段和模型訓(xùn)練階段轉(zhuǎn)移至本地用戶,客戶端僅與中心服務(wù)器交互更新模型,從而有效保障用戶隱私安全。
隨著共享理念近些年的不斷興起,聯(lián)邦學(xué)習(xí)技術(shù)在越來(lái)越多領(lǐng)域中得到應(yīng)用,比如反洗錢、保險(xiǎn)規(guī)劃和累犯風(fēng)險(xiǎn)預(yù)測(cè)(COMPAS)等。 2019年微眾銀行正式開(kāi)源全球首個(gè)工業(yè)級(jí)聯(lián)邦學(xué)習(xí)框架FATE,并嘗試將聯(lián)邦學(xué)習(xí)應(yīng)用于金融業(yè)務(wù)。 盡管聯(lián)邦技術(shù)現(xiàn)階段在通信路由與后門防御研究日趨深入和成熟,然而激勵(lì)機(jī)制卻可能成為一個(gè)制約其未來(lái)發(fā)展的短板。 如在聯(lián)邦學(xué)習(xí)商業(yè)化場(chǎng)景中,中心同盟對(duì)參與方上傳的本地模型多次迭代后形成全局模型,聯(lián)邦系統(tǒng)通過(guò)全局模型和外界交易獲取收益,此部分收益可作為激勵(lì)分配給各個(gè)參與方。 由于聯(lián)邦系統(tǒng)中數(shù)據(jù)所有者是具有獨(dú)立性的利益共同體,所以各數(shù)據(jù)所有方具有利己性。 當(dāng)參與方得到報(bào)酬與其付出貢獻(xiàn)不匹配(激勵(lì)機(jī)制不公平),相互獨(dú)立的聯(lián)邦成員可能會(huì)選擇背叛整體利益,追求自身短期利益最大化,最終導(dǎo)致聯(lián)邦系統(tǒng)存在合作的風(fēng)險(xiǎn)。
現(xiàn)階段,聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的獎(jiǎng)勵(lì)方式主要分為收益獎(jiǎng)勵(lì)和梯度獎(jiǎng)勵(lì)兩種類別。 前者包括偏見(jiàn)信息和經(jīng)濟(jì)報(bào)酬,例如文獻(xiàn)[3]通過(guò)帶有偏見(jiàn)的信息作為獎(jiǎng)勵(lì)給予各個(gè)參與方,不過(guò)此種方式引入帶有偏見(jiàn)的信息,可能使得聯(lián)邦系統(tǒng)存在歧視,從而影響整體系統(tǒng)的公平性。 文獻(xiàn)[4]從經(jīng)濟(jì)學(xué)和博弈論角度入手,通過(guò)經(jīng)濟(jì)報(bào)酬解決激勵(lì)機(jī)制的分配問(wèn)題,不過(guò)此方法引入其他變量,會(huì)加重系統(tǒng)的通信負(fù)擔(dān),同時(shí)通信損耗也會(huì)隨之增大。 后者研究主要依賴當(dāng)前輪次數(shù)據(jù)所有者貢獻(xiàn)程度獲得不同全局模型的思想,從而使得次輪迭代的局部模型得到更好優(yōu)化。 然而依靠此種激勵(lì)的部分文獻(xiàn)沒(méi)有探討聯(lián)邦學(xué)習(xí)Non-IID問(wèn)題[5],即給聯(lián)邦系統(tǒng)分配不同的全局模型,各個(gè)同盟的數(shù)據(jù)項(xiàng)和特征屬性可能均不相同,所以中心服務(wù)器在整體迭代時(shí)不能簡(jiǎn)單采取FedAvg聚合模式。 此外,大多數(shù)文獻(xiàn)沒(méi)有考慮梯度獎(jiǎng)勵(lì)的弊端,比如貢獻(xiàn)度較低參與方分配得到較小相似度的權(quán)重使得次輪訓(xùn)練的全局模型結(jié)果變差[6]。
此外由于沒(méi)有任何保障機(jī)制,聯(lián)邦系統(tǒng)在多方合作時(shí),傳統(tǒng)FL 框架存在被敵手攻擊的風(fēng)險(xiǎn)。 機(jī)會(huì)主義者可采用上傳無(wú)關(guān)梯度或者貢獻(xiàn)度較低梯度來(lái)影響中心同盟的全局模型。 所以聯(lián)邦系統(tǒng)需要引入懲罰措施,通過(guò)對(duì)聯(lián)邦系統(tǒng)中實(shí)用主義者的獎(jiǎng)勵(lì)機(jī)制和機(jī)會(huì)主義者的懲罰機(jī)制,對(duì)系統(tǒng)中的各參與方形成警示作用,從而保證聯(lián)邦系統(tǒng)有效幫助企業(yè)中個(gè)體實(shí)現(xiàn)資源共享、降低系統(tǒng)經(jīng)營(yíng)風(fēng)險(xiǎn)[7]。
目前在激勵(lì)機(jī)制公平性文獻(xiàn)中,傳統(tǒng)的激勵(lì)機(jī)制[8]沒(méi)有考慮企業(yè)加入聯(lián)邦系統(tǒng)時(shí)需要提供成本。 當(dāng)聯(lián)邦系統(tǒng)分配各個(gè)參與方獎(jiǎng)勵(lì)時(shí),沒(méi)有引入聯(lián)邦系統(tǒng)的成本問(wèn)題,這樣會(huì)導(dǎo)致激勵(lì)機(jī)制過(guò)程不夠完善。 如果成本和成本利息比系統(tǒng)收益更大,參與方可能不會(huì)加入到系統(tǒng)中,而會(huì)選擇加入其它聯(lián)邦系統(tǒng)或單獨(dú)訓(xùn)練,此時(shí)參與者的實(shí)際收益應(yīng)為利潤(rùn)-收益組成。
總之,本文的貢獻(xiàn)包括:
1. 本文提出一個(gè)聲譽(yù)獎(jiǎng)懲成本利息機(jī)制(Reputation, Reward-punishment system, and Cost-interest Mechanism,RRCM)框架來(lái)實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的公平性,使得聯(lián)邦系統(tǒng)中參與者分配的激勵(lì)與其貢獻(xiàn)度程度呈正相關(guān)趨勢(shì)。
2. 通過(guò)引入聲譽(yù)系統(tǒng)和獎(jiǎng)懲措施,實(shí)現(xiàn)降低敵手攻擊的風(fēng)險(xiǎn)和減少低貢獻(xiàn)者存在的可能,提高聯(lián)邦系統(tǒng)的保護(hù)機(jī)制。
3. 在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的RRCM 框架能夠?qū)崿F(xiàn)較高的公平性,并且系統(tǒng)引入利潤(rùn)-收益機(jī)制,使聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制更加完善。
本文其余章節(jié)內(nèi)容如下:“相關(guān)工作”回顧現(xiàn)有文獻(xiàn)中的公平性標(biāo)準(zhǔn)和激勵(lì)機(jī)制方式,為本文的研究提供實(shí)行基礎(chǔ);“RRCM 框架”介紹本文方法各模塊的設(shè)計(jì),以及模塊間的關(guān)聯(lián);“實(shí)驗(yàn)”包括數(shù)據(jù)集的設(shè)置和實(shí)驗(yàn)的比較,從而證明本文提出的RRCM 框架更加合理。 最后,本文在“總結(jié)和未來(lái)發(fā)展”展開(kāi)總結(jié),并討論聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制未來(lái)的研究發(fā)展。
本節(jié)回顧有關(guān)聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的文獻(xiàn),以便將以前的研究與現(xiàn)有研究相聯(lián)系。
國(guó)內(nèi)外聯(lián)邦學(xué)習(xí)的同盟激勵(lì)普遍分為Stackelberg 博弈、拍賣、契約理論、Shapley 價(jià)值和聲譽(yù)信任五種類別[9]。 Stackelberg 博弈[10]主要用于制定不同參與者在銷售或采購(gòu)共同產(chǎn)品的互動(dòng)。 文獻(xiàn)[11]中Sarikaya 使用Stackelberg游戲模型來(lái)激勵(lì)多個(gè)工人的CPU 供應(yīng),以減少FL 中心同盟的預(yù)算和SGD 本地培訓(xùn)時(shí)間;拍賣[12]是一種用于定價(jià)、任務(wù)分配和節(jié)點(diǎn)選擇的數(shù)學(xué)工具。 文獻(xiàn)[13]在移動(dòng)邊緣計(jì)算場(chǎng)景中提出了一種基于采購(gòu)拍賣的FL 輕量化多維激勵(lì)方案[14];契約理論[15]是在利益沖突和信息水平不對(duì)等情況下,參與者如何構(gòu)建和發(fā)展最優(yōu)協(xié)議。 在公共采購(gòu)合同時(shí),服務(wù)器向參與者提供一個(gè)合同菜單,在編寫(xiě)合同時(shí)不告知參與者的私人成本,每個(gè)參與者主動(dòng)選擇系統(tǒng)類型設(shè)計(jì)的選項(xiàng);源于合作博弈論的Shapley 值[16]被聯(lián)邦學(xué)習(xí)的貢獻(xiàn)評(píng)估和利潤(rùn)分配廣泛采用,基于Shapley值進(jìn)行聯(lián)盟成員的利益分配體現(xiàn)各盟員對(duì)聯(lián)盟總目標(biāo)的貢獻(xiàn)程度,避免分配上的平均主義。 在文獻(xiàn)[17]采用一種Shapley 組值的變體版本來(lái)衡量一個(gè)特征子集的效用,文中將一些私有特性合并為聯(lián)合特性,并計(jì)算聯(lián)合特性的Shapley 組值;聲譽(yù)系統(tǒng)[18]是聯(lián)邦學(xué)習(xí)激勵(lì)的常用方式,楊強(qiáng)團(tuán)隊(duì)主要通過(guò)此種方式進(jìn)行激勵(lì)公平性的研究,文獻(xiàn)[19]中引入聲譽(yù)動(dòng)態(tài)模型和聲譽(yù)遺憾模型形成更具公平性的激勵(lì)方式。
合理的聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制需對(duì)各個(gè)參與方公平[20]。 早期公平性機(jī)制主要代表是平均主義[21],不同同盟方在系統(tǒng)中訓(xùn)練迭代得到相同激勵(lì)。 現(xiàn)在公平性標(biāo)準(zhǔn)主要將公平性分為貢獻(xiàn)公平性、遺憾分布公平和期望公平[22]。 貢獻(xiàn)公平性指數(shù)據(jù)所有者的收益須與其貢獻(xiàn)呈正相關(guān),遺憾分布公平指盡量減少數(shù)據(jù)所有者間遺憾和暫時(shí)遺憾的差異,期望公平指最小化數(shù)據(jù)所有者遺憾值和時(shí)間遺憾值的波動(dòng)。
綜上,聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制可以將聲譽(yù)系統(tǒng)機(jī)制和貢獻(xiàn)公平性相結(jié)合,通過(guò)聲譽(yù)信任判斷同盟方貢獻(xiàn)度的高低,從而分配不同的獎(jiǎng)勵(lì)收益。 此外,還可以引入歧視率、獎(jiǎng)勵(lì)率和懲罰閾值等因素來(lái)深度討論聯(lián)邦學(xué)習(xí)的激勵(lì)分配問(wèn)題。
本節(jié)介紹在聯(lián)邦學(xué)習(xí)系統(tǒng)中引入聲譽(yù)系統(tǒng)、獎(jiǎng)懲措施和成本-收益三種機(jī)制,從而形成基于聲譽(yù)獎(jiǎng)懲(RRCM)框架的聯(lián)邦學(xué)習(xí)激勵(lì)優(yōu)化。本方案遵循的核心原理是:各參與方獲取中心同盟激勵(lì)與其貢獻(xiàn)程度呈正關(guān)系。
本文采用聯(lián)邦學(xué)習(xí)多個(gè)客戶端通過(guò)本地?cái)?shù)據(jù)集訓(xùn)練全局模型的標(biāo)準(zhǔn)優(yōu)化模型:min{F(w)?ψiFi(w)}。 其中F(w) 表示全局模型的梯度,Fi(w) 表示本地模型的訓(xùn)練模型,N表示聯(lián)邦系統(tǒng)中參與方數(shù)量,ψi表示第i個(gè)參與方的權(quán)重,并且ψi≥0 和= 1。 在第t輪更新 時(shí),: = ▽Fi(w(t-1)) 和Δw(t)=。
在傳統(tǒng)聯(lián)邦學(xué)習(xí)系統(tǒng)中,不同參與方參與聯(lián)合訓(xùn)練需要提前向中心同盟上繳入盟費(fèi)用,這些費(fèi)用主要用于聯(lián)邦系統(tǒng)的持續(xù)再生產(chǎn)過(guò)程。 例如,數(shù)據(jù)所有者構(gòu)建本地模型上傳給中心同盟,聯(lián)合訓(xùn)練后的全局模型又可以與外部企業(yè)鏈交易得到收益。 然而模型聚合和商業(yè)化形成需要時(shí)間,從而導(dǎo)致中心同盟需積累足夠的預(yù)算償還同盟方的加盟成本。 現(xiàn)有聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制,如文獻(xiàn)[23]中提出聯(lián)邦學(xué)習(xí)激勵(lì)器報(bào)酬共享方案,用以解決合伙費(fèi)用償還與激勵(lì)暫時(shí)不匹配問(wèn)題,不過(guò)此方法忽視成本的利息效用。 企業(yè)從初次加入同盟上繳入盟費(fèi)用到聯(lián)邦系統(tǒng)商業(yè)化形成分配激勵(lì),整個(gè)過(guò)程中心同盟不能僅僅償還各參與方成本,還應(yīng)考慮補(bǔ)償成本產(chǎn)生的利息。
在聯(lián)邦學(xué)習(xí)商業(yè)化過(guò)程中,中心同盟需事先要求參與方支付加入聯(lián)邦系統(tǒng)的成本。 在激勵(lì)補(bǔ)償時(shí),同盟系統(tǒng)先償還參與方的成本-利息,然后在支付真正的獎(jiǎng)勵(lì)。 假設(shè)Ci為第i個(gè)參與方向聯(lián)邦系統(tǒng)貢獻(xiàn)的成本,第i個(gè)參與方償還過(guò)程如下:
聲譽(yù)系統(tǒng)是一種重定向自反饋機(jī)制,其可通過(guò)相關(guān)方協(xié)作認(rèn)可來(lái)反映自身信用的狀態(tài),旨在表明聲譽(yù)對(duì)于聯(lián)邦決策的影響。 本文采取的聲譽(yù)系統(tǒng)是根據(jù)各個(gè)參與方每輪的貢獻(xiàn)程度,從而決定給予各同盟方激勵(lì)的程度。 根據(jù)余弦相似度表示梯度質(zhì)量的研究: cos(u,v) = 〈u,v〉/(‖u‖× ‖v‖),本文各參與方貢獻(xiàn)度由局部權(quán)值和中心權(quán)值余弦相似度表示為=cos(,Δw(t))。 聯(lián)邦系統(tǒng)初始階段,各參與方初始聲譽(yù)設(shè)置相同初始值(聲譽(yù)閾值A(chǔ))。 假設(shè)本輪暫時(shí)聲譽(yù)和貢獻(xiàn)度α存在一定正向關(guān)系?α, 則(t)i可表示為cov(,Δw(t)), 本輪實(shí)際聲譽(yù)可由歷史聲譽(yù)和本輪暫時(shí)聲譽(yù)求得,公式如下:
其中β是可設(shè)置的權(quán)重系數(shù),表示前一輪的聲譽(yù)數(shù)值,表示本輪的暫時(shí)聲譽(yù)。 由此,本框架通過(guò)聲譽(yù)和貢獻(xiàn)度之間的聯(lián)系,從而分配不同數(shù)據(jù)所有者不同的激勵(lì)。
本文激勵(lì)機(jī)制主要包括根據(jù)參與方每輪的貢獻(xiàn)程度決定給予收益的大小。 除這種定性關(guān)系外,本文還考慮通過(guò)Pearson 相關(guān)系數(shù)描述數(shù)據(jù)所有者的貢獻(xiàn)和獎(jiǎng)勵(lì)之間的關(guān)系,定量表示聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制的合作公平性。
定義1 合作公平性
假設(shè)參與方的實(shí)際貢獻(xiàn)度為一組α,而其獲得的獎(jiǎng)勵(lì)分配為一組σ, 則其合作公平性可表示為ρp(α,σ)。ρp(·,·) 表示Pearson 系數(shù),且ρp(·,·) 越大,表示所提出的RRCM 框架更具有合作公平性。
本文框架除以上獎(jiǎng)勵(lì)措施外,還通過(guò)設(shè)置聲譽(yù)閾值A(chǔ)方式制定相應(yīng)懲罰措施,每一輪低于聲譽(yù)閾值的數(shù)據(jù)所有者,將剔除出聯(lián)邦系統(tǒng),從而防止貢獻(xiàn)度較低的參與方(如搭便車或充滿敵意的參與方)破壞系統(tǒng)聯(lián)合訓(xùn)練的結(jié)果。
如圖1 所示,參與方先將本地?cái)?shù)據(jù)訓(xùn)練成模型上傳時(shí)需通過(guò)信譽(yù)系統(tǒng)的閾值檢測(cè),如果聲譽(yù)數(shù)值小于聲譽(yù)閾值,則RRCM 系統(tǒng)消除具有異常聲譽(yù)的參與方,如果聲譽(yù)良好則通過(guò)檢測(cè)。 良好的本地模型到達(dá)中心服務(wù)器經(jīng)多次訓(xùn)練迭代后形成全局模型。 聯(lián)邦系統(tǒng)可通過(guò)商業(yè)活動(dòng)將全局模型與外部交互產(chǎn)生商業(yè)化利潤(rùn)。 其中一部分利潤(rùn)用于補(bǔ)償給信譽(yù)良好的數(shù)據(jù)所有者,另一部分利潤(rùn)在中心服務(wù)器臨時(shí)存儲(chǔ)。 當(dāng)聯(lián)邦系統(tǒng)訓(xùn)練結(jié)束時(shí),中心服務(wù)器會(huì)將暫時(shí)存儲(chǔ)的收益返還給信譽(yù)良好的參與方,而聲譽(yù)異常的參與方將不獲得利潤(rùn)償還。
圖1 聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制RRCM 框架
整體聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制RRCM 框架包括聲譽(yù)系統(tǒng)、獎(jiǎng)懲措施和成本-利息機(jī)制三部分,它們相互獨(dú)立卻又相互關(guān)聯(lián)。 比如,成本-利息機(jī)制通過(guò)獎(jiǎng)懲措施幫助聯(lián)邦系統(tǒng)商業(yè)化收益更合理的補(bǔ)償數(shù)據(jù)所有方的成本和利息,分配激勵(lì)時(shí)又可通過(guò)聲譽(yù)系統(tǒng)完成相應(yīng)的獎(jiǎng)懲措施,從而既使聯(lián)邦學(xué)習(xí)整體系統(tǒng)更加公平合理,又能吸引更優(yōu)質(zhì)的參與者加入到系統(tǒng)中。 本文涉及的懲罰措施不僅為剔除出聯(lián)邦系統(tǒng),還包括中心同盟和參與方事先建立契約,數(shù)據(jù)所有者一定比例的成本保留在中心服務(wù)器不給予分配,當(dāng)數(shù)據(jù)所有者的聲譽(yù)低于一定比例時(shí),中心服務(wù)器不再償還貢獻(xiàn)程度較低的參與方成本,且將其直接剔除系統(tǒng)。 由于各參與方尋求加入聯(lián)邦系統(tǒng)獲取更多的利益,所以它們會(huì)選擇提供較高相似度的貢獻(xiàn),由于貢獻(xiàn)程度低而剔除聯(lián)邦系統(tǒng)的方法不將影響各參與方合作的積極性。
RFFL 的具體實(shí)現(xiàn)在算法1 如下:
算法1 RRCM輸入:每個(gè)參與方加入同盟投資成本Ci,聯(lián)邦系統(tǒng)回報(bào)的激勵(lì)和利息率分別為ut i、γ,聲譽(yù)閾值A(chǔ)。符號(hào):r(t)i 、αti、σt i 和Tt 表示第i 個(gè)參與方第t 輪的聲譽(yù)、貢獻(xiàn)度、分配收益和中心同盟總收益,R = {i rti ≥A } 是一個(gè)良好的聲譽(yù)集合,Δw(t)i 和Δw(t) 分別表示第t 輪i 的局部模型和全局模型,且中心同盟最初收益應(yīng)為各個(gè)參與方的加盟成本Tt = ∑i=Ni=1 Si。參與方i:下載梯度▽w(t-1)i 、分配激勵(lì)σti ( σt i ∈Tt )if ∑tt=1σti < ∑t t=1uti(1 + γ)此階段是償還成本if ∑tt=1σti > ∑t t=1uti(1 + γ)此階段是實(shí)際收益本地訓(xùn)練得到本地模型Δw(t)i 并上傳服務(wù)器:聚合:Δw(t) = ∑N i=1ψiΔw(t)i αt = cov(Δw(t)i ,Δw(t))for i ∈R do r~ti = ρρ(αti,σti)r(t)i = βr(t-1)i + (1 - β) r~ ti if r(t)i A then R = R{i} 剔除聲譽(yù)過(guò)低的參與方Tt+1 = Tt -∑i=N i=1∑t t=1σt i + Si end if end for下載:分配梯度▽w(t+1)i 、分配激勵(lì)σt i
算法1 中RRCM 框架懲罰措施有兩種,其一是將聲譽(yù)低于聲譽(yù)閾值的參與方剔除出聯(lián)邦系統(tǒng),從而保障聯(lián)邦系統(tǒng)訓(xùn)練梯度聚合的準(zhǔn)確性。 其二是成本-利息中的補(bǔ)償機(jī)制,聯(lián)邦系統(tǒng)會(huì)將部分成本臨時(shí)儲(chǔ)存于中心服務(wù)器。 若參與方聲譽(yù)從始至終大于聲譽(yù)閾值,當(dāng)訓(xùn)練結(jié)束時(shí),中心服務(wù)器會(huì)歸還臨時(shí)存儲(chǔ)的成本。 若參與方的聲譽(yù)小于聲譽(yù)閾值,則中心服務(wù)器不將此參與方臨時(shí)存儲(chǔ)的剩余成本退換給數(shù)據(jù)所有方。 此部分資金一方面可以用于更多商業(yè)化的投入,另一方面可以更多補(bǔ)償給其他高貢獻(xiàn)度參與方。表示中心同盟總收益過(guò)程。
本文通過(guò)三個(gè)指標(biāo)作為本實(shí)驗(yàn)的評(píng)估標(biāo)準(zhǔn):公平性、準(zhǔn)確度和補(bǔ)償趨勢(shì)。 公平性通過(guò)定義1中的合作公平性定量表示,貢獻(xiàn)度和激勵(lì)間的皮爾遜系數(shù)(ρp(α,σ)) 越大,表示聯(lián)邦學(xué)習(xí)的框架更具有公平性。 除了FedAvg[24]框架,本實(shí)驗(yàn)提出的RRCM 還和q-FFL[25]、CFFL[26]兩種公平性標(biāo)準(zhǔn)框架相比較。 而準(zhǔn)確度通過(guò)聯(lián)邦系統(tǒng)輸出結(jié)果和測(cè)試集相比較得出,本文提出的RRCM框架使用FedAvg 算法和聲譽(yù)系統(tǒng)、獎(jiǎng)懲措施、成本-收益三種機(jī)制結(jié)合,所以就準(zhǔn)確性而言本實(shí)驗(yàn)框架只和FedAvg 相比較。 補(bǔ)償趨勢(shì)主要比較激勵(lì)機(jī)制沒(méi)有成本、考慮成本和成本-利息三種方案下激勵(lì)機(jī)制的獎(jiǎng)勵(lì)趨勢(shì),從而確定本文提出的框架具有優(yōu)越性。
本文選取MNIST[27]和CIFAR-10[28]兩種數(shù)據(jù)集完成本次實(shí)驗(yàn)的對(duì)照。 就標(biāo)準(zhǔn)IID 方面,本文選擇數(shù)據(jù)集的統(tǒng)一切割,將其記做UNI;就Non-IID 方面,考慮數(shù)據(jù)的異質(zhì)性,本研究根據(jù)冪率分布將樣本在參與者中隨機(jī)切分, 將其記做POW[29]。
參照聯(lián)邦學(xué)習(xí)聲譽(yù)激勵(lì)相關(guān)文獻(xiàn),本文將信譽(yù)閾值設(shè)置為A= 1/(3N), 即每個(gè)聯(lián)邦系統(tǒng)應(yīng)貢獻(xiàn)超過(guò)1/3 參與方的貢獻(xiàn)比。 又根據(jù)工資分配原則,本文將中心同盟存儲(chǔ)成本設(shè)置為S=1/(10T),聯(lián)邦系統(tǒng)將此成本臨時(shí)存儲(chǔ)以防止數(shù)據(jù)所有方貢獻(xiàn)較低相似度的模型。
公平性比較:表1 列出不同數(shù)量參與方在MNIST 和CIFAR-10 兩種數(shù)據(jù)集下不同合作公平性的數(shù)值,合作公平性數(shù)值可以通過(guò)皮爾遜系數(shù)計(jì)算。 根據(jù)表中內(nèi)容,RRCM 性能明顯優(yōu)于FedAvg[24]、q-FFL[25]和CFFL[26]三種框架,所以本文提出的方案能使貢獻(xiàn)度更高的數(shù)據(jù)所有方得到更好的準(zhǔn)確度:表2 列出不同參與方通過(guò)RRCM、FedAvg 兩種方式在UNI 和POW 情況下的準(zhǔn)確度。 根據(jù)實(shí)驗(yàn)數(shù)據(jù)大體一致表明。 其中RRCM和FedAvg 的準(zhǔn)確度相似,這是因?yàn)镽RCM 框架中參與方的分配方式是借助FedAvg 算法。 不過(guò)在準(zhǔn)確度一致的情況下,此方法比FedAvg 更具有公平性,所以RRCM 框架更具有優(yōu)越性。
表1 常用框架的公平性比較
表2 FedAvg 和RRCM 的準(zhǔn)確性比較
補(bǔ)償趨勢(shì):如圖2 所示,是聯(lián)邦學(xué)習(xí)激勵(lì)機(jī)制在三種情況下的補(bǔ)償趨勢(shì)仿真圖。 左邊表示不同補(bǔ)償,右邊表示不同激勵(lì)。 根據(jù)圖示,“沒(méi)有成本”方案的參與者不需要中心服務(wù)器補(bǔ)償成本,而是直接從聯(lián)邦系統(tǒng)中獲得激勵(lì)。 在“成本”方案中,聯(lián)邦系統(tǒng)應(yīng)先補(bǔ)償參與者的入盟成本,然后再分配參與方相應(yīng)的激勵(lì)報(bào)酬。 在“成本利息”方案中,聯(lián)邦系統(tǒng)在分配激勵(lì)前需先補(bǔ)償參與方成本和成本附帶的利息。 因此,在訓(xùn)練開(kāi)始時(shí)“成本利息”方案并不直接獎(jiǎng)勵(lì)每個(gè)參與者,而是首先補(bǔ)償每個(gè)參與者的部分成本和利息之和。 此外,“成本利益”方案通過(guò)暫時(shí)存儲(chǔ)參與方的部分激勵(lì)來(lái)保護(hù)整體系統(tǒng)的安全運(yùn)行,所以此方案并不會(huì)在系統(tǒng)訓(xùn)練中提供與“成本”方案一致的激勵(lì)。 但在系統(tǒng)整體迭代訓(xùn)練結(jié)束后,中心服務(wù)器會(huì)補(bǔ)償聲譽(yù)良好的參與者剩余的激勵(lì)。
圖2 補(bǔ)償趨勢(shì)仿真圖
總之,根據(jù)準(zhǔn)確性和公平性,RRCM 在公平性相似的情況下能提高框架的準(zhǔn)確性。 根據(jù)補(bǔ)償趨勢(shì),本方案引入成本-利息機(jī)制可以使得聯(lián)邦系統(tǒng)更符合實(shí)際生活。 相比于傳統(tǒng)框架,本文提出的RRCM 激勵(lì)機(jī)制更具有優(yōu)越性和合理性。
本文提出聲譽(yù)系統(tǒng)、獎(jiǎng)懲措施和成本-利息三種機(jī)制相結(jié)合(RRCM)的聯(lián)邦學(xué)習(xí)激勵(lì)優(yōu)化,它對(duì)聯(lián)合學(xué)習(xí)協(xié)作公平性優(yōu)化改進(jìn)。 在使得考慮參與方加入聯(lián)邦系統(tǒng)產(chǎn)生成本-利息時(shí),還能使參與方獲得與其貢獻(xiàn)度程度成正相關(guān)的激勵(lì)。根據(jù)實(shí)驗(yàn)得出,本文提出的方案不僅能保證準(zhǔn)確度無(wú)損,還能使公平性得到提升,由此本文提出的激勵(lì)優(yōu)化更具有優(yōu)越性。 就獎(jiǎng)懲措施方面,本文只是簡(jiǎn)單提出可將懲罰的參與方成本作為系統(tǒng)激勵(lì)的措施,后續(xù)實(shí)驗(yàn)可以進(jìn)一步改進(jìn)獎(jiǎng)懲方式,如引入閾值判定的容錯(cuò)機(jī)制或設(shè)置聲譽(yù)異常次數(shù)的超參數(shù)等,希望此框架后續(xù)能夠優(yōu)化完善。