禹 發(fā) 趙瀟楚 谷 牧 張?jiān)?/p>
(1.中國(guó)石油大學(xué)(華東)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 青島 266580)(2.中德智能技術(shù)研究院 青島 266071)(3.航天云網(wǎng)科技發(fā)展有限責(zé)任公司 北京 100039)(4.青島文達(dá)通科技股份有限公司 青島 266555)
AlphaGo[1]在圍棋上接連戰(zhàn)勝人類(lèi)頂尖選手李世石與柯潔,讓人們逐漸意識(shí)到了人工智能(AI)所擁有的巨大能量,期待將其應(yīng)用到各行各業(yè)中來(lái)。當(dāng)AI 真正要落地到各個(gè)行業(yè)之中時(shí),效果往往差強(qiáng)人意,究其原因,最重要的問(wèn)題在于數(shù)據(jù),大多數(shù)行業(yè)數(shù)據(jù)的數(shù)量和質(zhì)量都無(wú)法滿(mǎn)足AI 技術(shù)的需求,大多數(shù)行業(yè)中,數(shù)據(jù)都是以孤島的形式存在,行業(yè)中各個(gè)企業(yè)集團(tuán)之間存在競(jìng)爭(zhēng)壁壘,同時(shí)涉及到安全和隱私以及其他問(wèn)題,幾乎不可能形成一個(gè)統(tǒng)一的完備的行業(yè)數(shù)據(jù)集。隨著整個(gè)互聯(lián)網(wǎng)世界對(duì)于數(shù)據(jù)安全性和用戶(hù)的數(shù)據(jù)隱私意識(shí)的增強(qiáng),加劇了數(shù)據(jù)獲取的困難性。
數(shù)據(jù)的隔離和對(duì)數(shù)據(jù)隱私的重視正成為人工智能的下一個(gè)挑戰(zhàn),但聯(lián)邦學(xué)習(xí)為我們帶來(lái)了新的希望。
它可以在保護(hù)本地?cái)?shù)據(jù)的同時(shí)為多個(gè)企業(yè)建立統(tǒng)一的模型,從而使企業(yè)可以在以數(shù)據(jù)安全為前提的情況下共同取勝。
聯(lián)邦學(xué)習(xí)[2~5]的概念起初由谷歌提出,他們的主要想法是建立基于分布在多個(gè)設(shè)備上的數(shù)據(jù)集的機(jī)器學(xué)習(xí)模型,同時(shí)防止數(shù)據(jù)泄漏。最近的改進(jìn)集中在克服統(tǒng)計(jì)挑戰(zhàn)[6~7]和提高聯(lián)邦學(xué)習(xí)的安全性[8~9]。還有一些研究努力使聯(lián)邦學(xué)習(xí)更具個(gè)性化[10]。聯(lián)邦學(xué)習(xí)的出現(xiàn)使在數(shù)據(jù)保持不交換的情況下,進(jìn)行大規(guī)模的協(xié)同模型訓(xùn)練。
文獻(xiàn)[11]中使用聯(lián)邦學(xué)習(xí)來(lái)幫助訓(xùn)練入侵檢測(cè)的模型,解決了單個(gè)機(jī)構(gòu)數(shù)據(jù)集有限性而導(dǎo)致的模型泛化性不強(qiáng)的問(wèn)題;文獻(xiàn)[12]基于聯(lián)邦學(xué)習(xí)設(shè)計(jì)了FRL 框架,提高分部學(xué)習(xí)模型質(zhì)量,同時(shí)在應(yīng)用于北京PM2.5 監(jiān)控的實(shí)驗(yàn)中表現(xiàn)出了高于中心化訓(xùn)練三到五倍的效率。在邊緣計(jì)算方面,文獻(xiàn)[13]將聯(lián)邦學(xué)習(xí)應(yīng)用于邊緣設(shè)備的輕量級(jí)模型訓(xùn)練上,并在提高準(zhǔn)確率的情況下,縮減了模型訓(xùn)練時(shí)間。Kwon[14]等將聯(lián)邦學(xué)習(xí)應(yīng)用于水下物聯(lián)網(wǎng)設(shè)備的訓(xùn)練中,并加入了強(qiáng)化學(xué)習(xí)來(lái)對(duì)聯(lián)邦學(xué)習(xí)中的通信傳輸進(jìn)行優(yōu)化,提高了通信鏈路的效率。但是,以上對(duì)于聯(lián)邦學(xué)習(xí)的應(yīng)用仍存在在需要解決的問(wèn)題。
由于客戶(hù)端設(shè)備硬件條件(CPU、內(nèi)存)、網(wǎng)絡(luò)連接(3G、4G、5G、WiFi)和電源(電池電量)的變化,聯(lián)邦學(xué)習(xí)網(wǎng)絡(luò)中每個(gè)設(shè)備的存儲(chǔ)、計(jì)算能力和通信能力都有可能不同,加上聯(lián)邦網(wǎng)絡(luò)中設(shè)備上數(shù)據(jù)集數(shù)量與質(zhì)量上的非對(duì)稱(chēng)性以及設(shè)備算力的差異,各節(jié)點(diǎn)訓(xùn)練的模型有好有壞同時(shí)聯(lián)邦這些異構(gòu)特征給聯(lián)邦學(xué)習(xí)的建模、分析和評(píng)估都帶來(lái)了很大挑戰(zhàn)。傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法,會(huì)將各個(gè)節(jié)點(diǎn)上傳的模型按照等權(quán)重進(jìn)行平均融合,如果某個(gè)節(jié)點(diǎn)模型質(zhì)量差或者存在錯(cuò)誤,會(huì)影響聯(lián)邦學(xué)習(xí)全局的模型準(zhǔn)確率,降低效率。
本文提出一種基于異構(gòu)特征的強(qiáng)化聯(lián)邦學(xué)習(xí)模型融合方法,針對(duì)于聯(lián)邦學(xué)習(xí)中異構(gòu)特征問(wèn)題,提高容錯(cuò)能力,保證學(xué)習(xí)效果,加入強(qiáng)化學(xué)習(xí),能夠動(dòng)態(tài)地通過(guò)聯(lián)邦網(wǎng)絡(luò)中個(gè)設(shè)備的狀態(tài)信息,調(diào)整模型融合時(shí)的權(quán)值,代替?zhèn)鹘y(tǒng)的平均融合方法,更好地對(duì)全局模型進(jìn)行更新。
為了解決聯(lián)邦學(xué)習(xí)中的異構(gòu)特征問(wèn)題,需要針對(duì)不同的節(jié)點(diǎn)情況,在融合時(shí)自適應(yīng)地調(diào)整各節(jié)點(diǎn)的權(quán)值,得到最優(yōu)的權(quán)值進(jìn)行融合。我們希望這個(gè)過(guò)程可以自主地進(jìn)行,并能通過(guò)訓(xùn)練次數(shù)增加,不斷學(xué)習(xí),更準(zhǔn)確地得到最優(yōu)權(quán)值。而強(qiáng)化學(xué)習(xí)可以通過(guò)代理(Agent)與環(huán)境(Environment)不斷交互,去學(xué)習(xí)得到最優(yōu)結(jié)果,這恰恰可以應(yīng)用于聯(lián)邦學(xué)習(xí)的模型融合時(shí),權(quán)值的選擇。
聯(lián)邦學(xué)習(xí)(Federated Learning)從本質(zhì)上講,是一種分布式的機(jī)器學(xué)習(xí)技術(shù),或者稱(chēng)作一個(gè)機(jī)器學(xué)習(xí)框架。推動(dòng)其產(chǎn)生的背景主要分為三個(gè)方面:
1)在人工智能紛紛落地于應(yīng)用后,逐漸暴露出來(lái)的問(wèn)題是數(shù)據(jù)量的不足,一個(gè)高可用的人工智能應(yīng)用通常需要依賴(lài)于大量高質(zhì)量的數(shù)據(jù)集訓(xùn)練,現(xiàn)實(shí)生活中,極少有企業(yè)能滿(mǎn)足這一點(diǎn)。
2)全世界各個(gè)機(jī)構(gòu)逐步加強(qiáng)了對(duì)數(shù)據(jù)的保護(hù)與監(jiān)管,例如歐盟的《通用數(shù)據(jù)保護(hù)條例》(GDPR)以及我國(guó)的《數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)》,都對(duì)數(shù)據(jù)的流動(dòng)做了限制。
3)企業(yè)數(shù)據(jù)通常隱藏著企業(yè)機(jī)密且存在巨大潛在價(jià)值,不允許對(duì)外開(kāi)放,這會(huì)導(dǎo)致數(shù)據(jù)孤島問(wèn)題。
為了能夠在合乎法律規(guī)范的情況下,使企業(yè)間在不泄露自己數(shù)據(jù)的情況下,共用數(shù)據(jù)集,共同訓(xùn)練模型,以達(dá)到提高模型準(zhǔn)確率與泛化性的目的,聯(lián)邦學(xué)習(xí)應(yīng)運(yùn)而生。
強(qiáng)化學(xué)習(xí)[15~16]是機(jī)器學(xué)習(xí)算法的一個(gè)分支,它受行為主義心理學(xué)啟發(fā)而產(chǎn)生,同時(shí)與早期的控制論、心理學(xué)、神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)都有關(guān)系。強(qiáng)化學(xué)習(xí)指的是仿照人類(lèi)的學(xué)習(xí)方法而設(shè)計(jì)出的智能體,在動(dòng)態(tài)環(huán)境中不斷重復(fù)“動(dòng)作-反饋-學(xué)習(xí)”的方式來(lái)進(jìn)行學(xué)習(xí),智能體是強(qiáng)化學(xué)習(xí)的動(dòng)作實(shí)體。對(duì)于自動(dòng)駕駛的汽車(chē),環(huán)境是當(dāng)前的路況;對(duì)于圍棋,狀態(tài)是當(dāng)前的棋局。在每個(gè)時(shí)刻,智能體和環(huán)境有自己的狀態(tài),如汽車(chē)當(dāng)前位置和速度,路面上的車(chē)輛和行人情況。智能體根據(jù)當(dāng)前狀態(tài)確定一個(gè)動(dòng)作,并執(zhí)行該動(dòng)作。之后它和環(huán)境進(jìn)入下一個(gè)狀態(tài),同時(shí)系統(tǒng)給它一個(gè)反饋值,對(duì)動(dòng)作進(jìn)行獎(jiǎng)勵(lì)或懲罰,以迫使智能體執(zhí)行期望的動(dòng)作。
在傳統(tǒng)聯(lián)邦學(xué)習(xí)中,各節(jié)點(diǎn)上傳模型,會(huì)在中心節(jié)點(diǎn)進(jìn)行融合,生成全局模型,融合時(shí)采用平均融合的方法,即
然而由于各節(jié)點(diǎn)數(shù)據(jù)質(zhì)量,算力和能量等異構(gòu)性問(wèn)題,各節(jié)點(diǎn)上傳的模型質(zhì)量參差不齊,如果某個(gè)節(jié)點(diǎn)數(shù)據(jù)集質(zhì)量有錯(cuò)、質(zhì)量差或者機(jī)器算力差會(huì)導(dǎo)致此節(jié)點(diǎn)上傳模型對(duì)于全局模型的準(zhǔn)確率提升沒(méi)有幫助,甚至?xí)泻?,基于此,我們希望在?lián)邦學(xué)習(xí)的過(guò)程中加入一種可以自適應(yīng)的模型融合方法,能夠根據(jù)歷史的各節(jié)點(diǎn)模型信息,動(dòng)態(tài)調(diào)節(jié)各節(jié)點(diǎn)模型的權(quán)重,提高有益節(jié)點(diǎn)的權(quán)重,降低權(quán)重甚至舍棄有害節(jié)點(diǎn)。強(qiáng)化學(xué)習(xí)能通過(guò)智能體不斷與環(huán)境交互,通過(guò)獎(jiǎng)勵(lì)機(jī)制不斷學(xué)習(xí),達(dá)到最大化獎(jiǎng)勵(lì)或者特定目標(biāo)。于是,我們將強(qiáng)化學(xué)習(xí)加入到聯(lián)邦學(xué)習(xí)的模型融合過(guò)程中來(lái),使用強(qiáng)化學(xué)習(xí)來(lái)代替平均融合算法。
本文以強(qiáng)化學(xué)習(xí)算法DQN(Deep Q-learning Network)為基礎(chǔ),將聯(lián)邦學(xué)習(xí)模型融合過(guò)程形式化為一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題,進(jìn)行求解。在一個(gè)聯(lián)邦網(wǎng)絡(luò)中有N個(gè)節(jié)點(diǎn):
狀態(tài)(State):s?S={s1,s2,s3,s4…sN},表示N節(jié)點(diǎn)在模型融合時(shí)的準(zhǔn)確率以及上一次的權(quán)值。
動(dòng)作(Action):a?A={A1,A2,A3,A4…AN},表示為第i個(gè)節(jié)點(diǎn)分配的權(quán)值。
獎(jiǎng)勵(lì)(Reward):R 表示在狀態(tài)s 下執(zhí)行動(dòng)作a,得到的獎(jiǎng)勵(lì)值,在本實(shí)驗(yàn)中為融合后模型準(zhǔn)確率與上一次準(zhǔn)確率的差值。
策略(Policy):π表示在狀態(tài)s 下選擇一個(gè)動(dòng)作,表示為a=π(s)。
價(jià)值函數(shù)(Value function):獎(jiǎng)勵(lì)只代表某一次動(dòng)作的獎(jiǎng)勵(lì)值,而價(jià)值函數(shù)是從長(zhǎng)期的角度看待動(dòng)作的好壞,Qπ(s,a)是策略π在狀態(tài)s下,采取動(dòng)作a 的長(zhǎng)期期望收益,按照策略執(zhí)行動(dòng)作后的回報(bào)定義為
其中γ?[0,1]稱(chēng)為折扣因子,表示對(duì)未來(lái)獎(jiǎng)勵(lì)的看重性,當(dāng)其為0時(shí)只看重現(xiàn)在。狀態(tài)s的價(jià)值為
狀態(tài)s下采取動(dòng)作a的動(dòng)作價(jià)值函數(shù)Q為
要得使得在狀態(tài)s 下動(dòng)作a 得到最好的效果,則應(yīng)使最大的價(jià)值函數(shù)取最大值,根據(jù)貝爾曼方程(Bellman equation)可得:
a′表示下一步執(zhí)行的動(dòng)作,使用深度學(xué)習(xí)對(duì)此進(jìn)行求解,我們把一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)作為策略π,稱(chēng)之為Q-network,其輸入為狀態(tài)s,輸出為下一步動(dòng)作a 的q 值,取在接下來(lái)狀態(tài)′下,執(zhí)行動(dòng)作a′后最大q值y=r+γmaxa′Q*(s′,a′)為目標(biāo)解,即可使用均方誤差(Mean Square Error),對(duì)其進(jìn)行梯度下降求解,損失函數(shù)為
這樣,只需要對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)θ進(jìn)行訓(xùn)練,即可得到策略π的最優(yōu)解。
整個(gè)算法流程如算法1所示。
一般傳統(tǒng)機(jī)器學(xué)習(xí)使用的是獨(dú)立同分布的數(shù)據(jù)集,也稱(chēng)IID(Independent and Identically Distributed)數(shù)據(jù)集,而在實(shí)際聯(lián)邦學(xué)習(xí)過(guò)程中,基于用戶(hù)設(shè)備、地區(qū)、習(xí)慣等的不同,數(shù)據(jù)通常是非獨(dú)立同分布 的Non-IID(None-Independent and Identically Distributed)數(shù)據(jù)集。為了與實(shí)際聯(lián)邦學(xué)習(xí)環(huán)境相對(duì)應(yīng),我們?cè)赾ifar-100 數(shù)據(jù)集的基礎(chǔ)上,進(jìn)行了重新劃分,將其轉(zhuǎn)換為Non-IID 數(shù)據(jù)集,如圖1 所示,左邊為原始cifar-100 數(shù)據(jù)集,右邊為劃分以后Non-IID的cifar-100數(shù)據(jù)集。
圖1 正常數(shù)據(jù)分布圖
圖2 Non-IID數(shù)據(jù)集
為了模擬聯(lián)邦學(xué)習(xí)中異構(gòu)性的特點(diǎn),實(shí)驗(yàn)中用了多臺(tái)性能不同的機(jī)器當(dāng)作聯(lián)邦節(jié)點(diǎn),以此來(lái)保證各節(jié)點(diǎn)訓(xùn)練出來(lái)的模型質(zhì)量不同,模擬異構(gòu)性特征,所使用節(jié)點(diǎn)信息如表1所示。
表1 實(shí)驗(yàn)節(jié)點(diǎn)信息
實(shí)驗(yàn)在預(yù)設(shè)的八個(gè)節(jié)點(diǎn)上進(jìn)行,使用No-IID數(shù)據(jù)集進(jìn)行模型訓(xùn)練,使用網(wǎng)絡(luò)結(jié)構(gòu)為resnet34,分別使用強(qiáng)化聯(lián)邦學(xué)習(xí)模型融合算法與使用傳統(tǒng)平均融合算法進(jìn)行聯(lián)邦學(xué)習(xí)過(guò)程,比較其結(jié)果。
圖3 為訓(xùn)練過(guò)程中各節(jié)點(diǎn)上傳模型的準(zhǔn)確率,從中可以看出,在Non-IID的情況下,節(jié)點(diǎn)8因?yàn)閿?shù)據(jù)分布以及機(jī)器算力問(wèn)題,在訓(xùn)練過(guò)程中導(dǎo)致了模型準(zhǔn)確率一直不高,同時(shí)也體現(xiàn)了聯(lián)邦學(xué)習(xí)中的異構(gòu)性問(wèn)題。
圖3 各節(jié)點(diǎn)模型準(zhǔn)確率
實(shí)驗(yàn)結(jié)果如圖4 所示,在不使用任何訓(xùn)練trick的情況下,傳統(tǒng)平均融合算法最后達(dá)到38.2%的準(zhǔn)確率,使用強(qiáng)化聯(lián)邦融合算法,弱化了節(jié)點(diǎn)8 在融合時(shí)的權(quán)值,提高了聯(lián)邦學(xué)習(xí)魯棒性,最終到了41.49%的準(zhǔn)確率,提高了3.29%。
圖4 平均融合與強(qiáng)化聯(lián)邦融合準(zhǔn)確率
通過(guò)實(shí)驗(yàn)證明了異構(gòu)性在聯(lián)邦學(xué)習(xí)中的影響作用,同時(shí)在聯(lián)邦學(xué)習(xí)模型融合過(guò)程中,使用強(qiáng)化學(xué)習(xí)代替?zhèn)鹘y(tǒng)平均融合,提高了聯(lián)邦學(xué)習(xí)的魯棒性與模型訓(xùn)練的效果。
但是研究仍存在不足,聯(lián)邦學(xué)習(xí)除了異構(gòu)性問(wèn)題外,聯(lián)邦學(xué)習(xí)中更關(guān)鍵的一點(diǎn)是如何抵抗聯(lián)邦學(xué)習(xí)中的惡意攻擊。在聯(lián)邦學(xué)習(xí)中會(huì)存在惡意節(jié)點(diǎn),向中心節(jié)點(diǎn)發(fā)送有毒模型或梯度信息,導(dǎo)致聯(lián)邦學(xué)習(xí)無(wú)法擬合,實(shí)驗(yàn)的下一步研究應(yīng)放在如何使用強(qiáng)化學(xué)習(xí)來(lái)控制節(jié)點(diǎn)權(quán)值,以達(dá)到免受攻擊影響。