基于異構(gòu)特征的強(qiáng)化聯(lián)邦學(xué)習(xí)模型融合方法?

2024-01-23 13:37:48趙瀟楚張?jiān)?/span>

計(jì)算機(jī)與數(shù)字工程 2023年10期

禹發(fā) 趙瀟楚谷牧張?jiān)?/p>

（1.中國(guó)石油大學(xué)（華東）計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院青島 266580）（2.中德智能技術(shù)研究院青島 266071）（3.航天云網(wǎng)科技發(fā)展有限責(zé)任公司北京 100039）（4.青島文達(dá)通科技股份有限公司青島 266555）

1 引言

AlphaGo［1］在圍棋上接連戰(zhàn)勝人類(lèi)頂尖選手李世石與柯潔，讓人們逐漸意識(shí)到了人工智能（AI）所擁有的巨大能量，期待將其應(yīng)用到各行各業(yè)中來(lái)。當(dāng)AI 真正要落地到各個(gè)行業(yè)之中時(shí)，效果往往差強(qiáng)人意，究其原因，最重要的問(wèn)題在于數(shù)據(jù)，大多數(shù)行業(yè)數(shù)據(jù)的數(shù)量和質(zhì)量都無(wú)法滿(mǎn)足AI 技術(shù)的需求，大多數(shù)行業(yè)中，數(shù)據(jù)都是以孤島的形式存在，行業(yè)中各個(gè)企業(yè)集團(tuán)之間存在競(jìng)爭(zhēng)壁壘，同時(shí)涉及到安全和隱私以及其他問(wèn)題，幾乎不可能形成一個(gè)統(tǒng)一的完備的行業(yè)數(shù)據(jù)集。隨著整個(gè)互聯(lián)網(wǎng)世界對(duì)于數(shù)據(jù)安全性和用戶(hù)的數(shù)據(jù)隱私意識(shí)的增強(qiáng)，加劇了數(shù)據(jù)獲取的困難性。

數(shù)據(jù)的隔離和對(duì)數(shù)據(jù)隱私的重視正成為人工智能的下一個(gè)挑戰(zhàn)，但聯(lián)邦學(xué)習(xí)為我們帶來(lái)了新的希望。

它可以在保護(hù)本地?cái)?shù)據(jù)的同時(shí)為多個(gè)企業(yè)建立統(tǒng)一的模型，從而使企業(yè)可以在以數(shù)據(jù)安全為前提的情況下共同取勝。

聯(lián)邦學(xué)習(xí)［2～5］的概念起初由谷歌提出，他們的主要想法是建立基于分布在多個(gè)設(shè)備上的數(shù)據(jù)集的機(jī)器學(xué)習(xí)模型，同時(shí)防止數(shù)據(jù)泄漏。最近的改進(jìn)集中在克服統(tǒng)計(jì)挑戰(zhàn)［6～7］和提高聯(lián)邦學(xué)習(xí)的安全性［8～9］。還有一些研究努力使聯(lián)邦學(xué)習(xí)更具個(gè)性化［10］。聯(lián)邦學(xué)習(xí)的出現(xiàn)使在數(shù)據(jù)保持不交換的情況下，進(jìn)行大規(guī)模的協(xié)同模型訓(xùn)練。

文獻(xiàn)［11］中使用聯(lián)邦學(xué)習(xí)來(lái)幫助訓(xùn)練入侵檢測(cè)的模型，解決了單個(gè)機(jī)構(gòu)數(shù)據(jù)集有限性而導(dǎo)致的模型泛化性不強(qiáng)的問(wèn)題；文獻(xiàn)［12］基于聯(lián)邦學(xué)習(xí)設(shè)計(jì)了FRL 框架，提高分部學(xué)習(xí)模型質(zhì)量，同時(shí)在應(yīng)用于北京PM2.5 監(jiān)控的實(shí)驗(yàn)中表現(xiàn)出了高于中心化訓(xùn)練三到五倍的效率。在邊緣計(jì)算方面，文獻(xiàn)［13］將聯(lián)邦學(xué)習(xí)應(yīng)用于邊緣設(shè)備的輕量級(jí)模型訓(xùn)練上，并在提高準(zhǔn)確率的情況下，縮減了模型訓(xùn)練時(shí)間。Kwon［14］等將聯(lián)邦學(xué)習(xí)應(yīng)用于水下物聯(lián)網(wǎng)設(shè)備的訓(xùn)練中，并加入了強(qiáng)化學(xué)習(xí)來(lái)對(duì)聯(lián)邦學(xué)習(xí)中的通信傳輸進(jìn)行優(yōu)化，提高了通信鏈路的效率。但是，以上對(duì)于聯(lián)邦學(xué)習(xí)的應(yīng)用仍存在在需要解決的問(wèn)題。

由于客戶(hù)端設(shè)備硬件條件（CPU、內(nèi)存）、網(wǎng)絡(luò)連接（3G、4G、5G、WiFi）和電源（電池電量）的變化，聯(lián)邦學(xué)習(xí)網(wǎng)絡(luò)中每個(gè)設(shè)備的存儲(chǔ)、計(jì)算能力和通信能力都有可能不同，加上聯(lián)邦網(wǎng)絡(luò)中設(shè)備上數(shù)據(jù)集數(shù)量與質(zhì)量上的非對(duì)稱(chēng)性以及設(shè)備算力的差異，各節(jié)點(diǎn)訓(xùn)練的模型有好有壞同時(shí)聯(lián)邦這些異構(gòu)特征給聯(lián)邦學(xué)習(xí)的建模、分析和評(píng)估都帶來(lái)了很大挑戰(zhàn)。傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法，會(huì)將各個(gè)節(jié)點(diǎn)上傳的模型按照等權(quán)重進(jìn)行平均融合，如果某個(gè)節(jié)點(diǎn)模型質(zhì)量差或者存在錯(cuò)誤，會(huì)影響聯(lián)邦學(xué)習(xí)全局的模型準(zhǔn)確率，降低效率。

本文提出一種基于異構(gòu)特征的強(qiáng)化聯(lián)邦學(xué)習(xí)模型融合方法，針對(duì)于聯(lián)邦學(xué)習(xí)中異構(gòu)特征問(wèn)題，提高容錯(cuò)能力，保證學(xué)習(xí)效果，加入強(qiáng)化學(xué)習(xí)，能夠動(dòng)態(tài)地通過(guò)聯(lián)邦網(wǎng)絡(luò)中個(gè)設(shè)備的狀態(tài)信息，調(diào)整模型融合時(shí)的權(quán)值，代替?zhèn)鹘y(tǒng)的平均融合方法，更好地對(duì)全局模型進(jìn)行更新。

2 基于異構(gòu)特征的強(qiáng)化聯(lián)邦學(xué)習(xí)模型融合方法

為了解決聯(lián)邦學(xué)習(xí)中的異構(gòu)特征問(wèn)題，需要針對(duì)不同的節(jié)點(diǎn)情況，在融合時(shí)自適應(yīng)地調(diào)整各節(jié)點(diǎn)的權(quán)值，得到最優(yōu)的權(quán)值進(jìn)行融合。我們希望這個(gè)過(guò)程可以自主地進(jìn)行，并能通過(guò)訓(xùn)練次數(shù)增加，不斷學(xué)習(xí)，更準(zhǔn)確地得到最優(yōu)權(quán)值。而強(qiáng)化學(xué)習(xí)可以通過(guò)代理（Agent）與環(huán)境（Environment）不斷交互，去學(xué)習(xí)得到最優(yōu)結(jié)果，這恰恰可以應(yīng)用于聯(lián)邦學(xué)習(xí)的模型融合時(shí)，權(quán)值的選擇。

2.1 聯(lián)邦學(xué)習(xí)

聯(lián)邦學(xué)習(xí)（Federated Learning）從本質(zhì)上講，是一種分布式的機(jī)器學(xué)習(xí)技術(shù)，或者稱(chēng)作一個(gè)機(jī)器學(xué)習(xí)框架。推動(dòng)其產(chǎn)生的背景主要分為三個(gè)方面：

1）在人工智能紛紛落地于應(yīng)用后，逐漸暴露出來(lái)的問(wèn)題是數(shù)據(jù)量的不足，一個(gè)高可用的人工智能應(yīng)用通常需要依賴(lài)于大量高質(zhì)量的數(shù)據(jù)集訓(xùn)練，現(xiàn)實(shí)生活中，極少有企業(yè)能滿(mǎn)足這一點(diǎn)。

2）全世界各個(gè)機(jī)構(gòu)逐步加強(qiáng)了對(duì)數(shù)據(jù)的保護(hù)與監(jiān)管，例如歐盟的《通用數(shù)據(jù)保護(hù)條例》（GDPR）以及我國(guó)的《數(shù)據(jù)安全管理辦法（征求意見(jiàn)稿）》，都對(duì)數(shù)據(jù)的流動(dòng)做了限制。

3）企業(yè)數(shù)據(jù)通常隱藏著企業(yè)機(jī)密且存在巨大潛在價(jià)值，不允許對(duì)外開(kāi)放，這會(huì)導(dǎo)致數(shù)據(jù)孤島問(wèn)題。

為了能夠在合乎法律規(guī)范的情況下，使企業(yè)間在不泄露自己數(shù)據(jù)的情況下，共用數(shù)據(jù)集，共同訓(xùn)練模型，以達(dá)到提高模型準(zhǔn)確率與泛化性的目的，聯(lián)邦學(xué)習(xí)應(yīng)運(yùn)而生。

2.2 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)［15～16］是機(jī)器學(xué)習(xí)算法的一個(gè)分支，它受行為主義心理學(xué)啟發(fā)而產(chǎn)生，同時(shí)與早期的控制論、心理學(xué)、神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)都有關(guān)系。強(qiáng)化學(xué)習(xí)指的是仿照人類(lèi)的學(xué)習(xí)方法而設(shè)計(jì)出的智能體，在動(dòng)態(tài)環(huán)境中不斷重復(fù)“動(dòng)作-反饋-學(xué)習(xí)”的方式來(lái)進(jìn)行學(xué)習(xí)，智能體是強(qiáng)化學(xué)習(xí)的動(dòng)作實(shí)體。對(duì)于自動(dòng)駕駛的汽車(chē)，環(huán)境是當(dāng)前的路況；對(duì)于圍棋，狀態(tài)是當(dāng)前的棋局。在每個(gè)時(shí)刻，智能體和環(huán)境有自己的狀態(tài)，如汽車(chē)當(dāng)前位置和速度，路面上的車(chē)輛和行人情況。智能體根據(jù)當(dāng)前狀態(tài)確定一個(gè)動(dòng)作，并執(zhí)行該動(dòng)作。之后它和環(huán)境進(jìn)入下一個(gè)狀態(tài)，同時(shí)系統(tǒng)給它一個(gè)反饋值，對(duì)動(dòng)作進(jìn)行獎(jiǎng)勵(lì)或懲罰，以迫使智能體執(zhí)行期望的動(dòng)作。

2.3 強(qiáng)化聯(lián)邦學(xué)習(xí)模型融合方法

在傳統(tǒng)聯(lián)邦學(xué)習(xí)中，各節(jié)點(diǎn)上傳模型，會(huì)在中心節(jié)點(diǎn)進(jìn)行融合，生成全局模型，融合時(shí)采用平均融合的方法，即

然而由于各節(jié)點(diǎn)數(shù)據(jù)質(zhì)量，算力和能量等異構(gòu)性問(wèn)題，各節(jié)點(diǎn)上傳的模型質(zhì)量參差不齊，如果某個(gè)節(jié)點(diǎn)數(shù)據(jù)集質(zhì)量有錯(cuò)、質(zhì)量差或者機(jī)器算力差會(huì)導(dǎo)致此節(jié)點(diǎn)上傳模型對(duì)于全局模型的準(zhǔn)確率提升沒(méi)有幫助，甚至?xí)泻?，基于此，我們希望在?lián)邦學(xué)習(xí)的過(guò)程中加入一種可以自適應(yīng)的模型融合方法，能夠根據(jù)歷史的各節(jié)點(diǎn)模型信息，動(dòng)態(tài)調(diào)節(jié)各節(jié)點(diǎn)模型的權(quán)重，提高有益節(jié)點(diǎn)的權(quán)重，降低權(quán)重甚至舍棄有害節(jié)點(diǎn)。強(qiáng)化學(xué)習(xí)能通過(guò)智能體不斷與環(huán)境交互，通過(guò)獎(jiǎng)勵(lì)機(jī)制不斷學(xué)習(xí)，達(dá)到最大化獎(jiǎng)勵(lì)或者特定目標(biāo)。于是，我們將強(qiáng)化學(xué)習(xí)加入到聯(lián)邦學(xué)習(xí)的模型融合過(guò)程中來(lái)，使用強(qiáng)化學(xué)習(xí)來(lái)代替平均融合算法。

本文以強(qiáng)化學(xué)習(xí)算法DQN（Deep Q-learning Network）為基礎(chǔ)，將聯(lián)邦學(xué)習(xí)模型融合過(guò)程形式化為一個(gè)強(qiáng)化學(xué)習(xí)問(wèn)題，進(jìn)行求解。在一個(gè)聯(lián)邦網(wǎng)絡(luò)中有N個(gè)節(jié)點(diǎn)：

狀態(tài)（State）：s?S={s1,s2,s3,s4…sN}，表示N節(jié)點(diǎn)在模型融合時(shí)的準(zhǔn)確率以及上一次的權(quán)值。

動(dòng)作（Action）：a?A={A1,A2,A3,A4…AN}，表示為第i個(gè)節(jié)點(diǎn)分配的權(quán)值。

獎(jiǎng)勵(lì)（Reward）：R 表示在狀態(tài)s 下執(zhí)行動(dòng)作a，得到的獎(jiǎng)勵(lì)值，在本實(shí)驗(yàn)中為融合后模型準(zhǔn)確率與上一次準(zhǔn)確率的差值。

策略（Policy）：π表示在狀態(tài)s 下選擇一個(gè)動(dòng)作，表示為a=π(s)。

價(jià)值函數(shù)（Value function）：獎(jiǎng)勵(lì)只代表某一次動(dòng)作的獎(jiǎng)勵(lì)值，而價(jià)值函數(shù)是從長(zhǎng)期的角度看待動(dòng)作的好壞，Qπ(s,a)是策略π在狀態(tài)s下，采取動(dòng)作a 的長(zhǎng)期期望收益，按照策略執(zhí)行動(dòng)作后的回報(bào)定義為

其中γ?[0,1]稱(chēng)為折扣因子，表示對(duì)未來(lái)獎(jiǎng)勵(lì)的看重性，當(dāng)其為0時(shí)只看重現(xiàn)在。狀態(tài)s的價(jià)值為

狀態(tài)s下采取動(dòng)作a的動(dòng)作價(jià)值函數(shù)Q為

要得使得在狀態(tài)s 下動(dòng)作a 得到最好的效果，則應(yīng)使最大的價(jià)值函數(shù)取最大值，根據(jù)貝爾曼方程（Bellman equation）可得：

a′表示下一步執(zhí)行的動(dòng)作，使用深度學(xué)習(xí)對(duì)此進(jìn)行求解，我們把一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)作為策略π，稱(chēng)之為Q-network，其輸入為狀態(tài)s，輸出為下一步動(dòng)作a 的q 值，取在接下來(lái)狀態(tài)′下，執(zhí)行動(dòng)作a′后最大q值y=r+γmaxa′Q*(s′,a′)為目標(biāo)解，即可使用均方誤差（Mean Square Error），對(duì)其進(jìn)行梯度下降求解，損失函數(shù)為

這樣，只需要對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)θ進(jìn)行訓(xùn)練，即可得到策略π的最優(yōu)解。

整個(gè)算法流程如算法1所示。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

一般傳統(tǒng)機(jī)器學(xué)習(xí)使用的是獨(dú)立同分布的數(shù)據(jù)集，也稱(chēng)IID（Independent and Identically Distributed）數(shù)據(jù)集，而在實(shí)際聯(lián)邦學(xué)習(xí)過(guò)程中，基于用戶(hù)設(shè)備、地區(qū)、習(xí)慣等的不同，數(shù)據(jù)通常是非獨(dú)立同分布的Non-IID（None-Independent and Identically Distributed）數(shù)據(jù)集。為了與實(shí)際聯(lián)邦學(xué)習(xí)環(huán)境相對(duì)應(yīng)，我們?cè)赾ifar-100 數(shù)據(jù)集的基礎(chǔ)上，進(jìn)行了重新劃分，將其轉(zhuǎn)換為Non-IID 數(shù)據(jù)集，如圖1 所示，左邊為原始cifar-100 數(shù)據(jù)集，右邊為劃分以后Non-IID的cifar-100數(shù)據(jù)集。

圖1 正常數(shù)據(jù)分布圖

圖2 Non-IID數(shù)據(jù)集

3.2 實(shí)驗(yàn)環(huán)境

為了模擬聯(lián)邦學(xué)習(xí)中異構(gòu)性的特點(diǎn)，實(shí)驗(yàn)中用了多臺(tái)性能不同的機(jī)器當(dāng)作聯(lián)邦節(jié)點(diǎn)，以此來(lái)保證各節(jié)點(diǎn)訓(xùn)練出來(lái)的模型質(zhì)量不同，模擬異構(gòu)性特征，所使用節(jié)點(diǎn)信息如表1所示。

表1 實(shí)驗(yàn)節(jié)點(diǎn)信息

3.3 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)在預(yù)設(shè)的八個(gè)節(jié)點(diǎn)上進(jìn)行，使用No-IID數(shù)據(jù)集進(jìn)行模型訓(xùn)練，使用網(wǎng)絡(luò)結(jié)構(gòu)為resnet34，分別使用強(qiáng)化聯(lián)邦學(xué)習(xí)模型融合算法與使用傳統(tǒng)平均融合算法進(jìn)行聯(lián)邦學(xué)習(xí)過(guò)程，比較其結(jié)果。

3.4 實(shí)驗(yàn)結(jié)果

圖3 為訓(xùn)練過(guò)程中各節(jié)點(diǎn)上傳模型的準(zhǔn)確率，從中可以看出，在Non-IID的情況下，節(jié)點(diǎn)8因?yàn)閿?shù)據(jù)分布以及機(jī)器算力問(wèn)題，在訓(xùn)練過(guò)程中導(dǎo)致了模型準(zhǔn)確率一直不高，同時(shí)也體現(xiàn)了聯(lián)邦學(xué)習(xí)中的異構(gòu)性問(wèn)題。

圖3 各節(jié)點(diǎn)模型準(zhǔn)確率

實(shí)驗(yàn)結(jié)果如圖4 所示，在不使用任何訓(xùn)練trick的情況下，傳統(tǒng)平均融合算法最后達(dá)到38.2%的準(zhǔn)確率，使用強(qiáng)化聯(lián)邦融合算法，弱化了節(jié)點(diǎn)8 在融合時(shí)的權(quán)值，提高了聯(lián)邦學(xué)習(xí)魯棒性，最終到了41.49%的準(zhǔn)確率，提高了3.29%。

圖4 平均融合與強(qiáng)化聯(lián)邦融合準(zhǔn)確率

4 結(jié)語(yǔ)

通過(guò)實(shí)驗(yàn)證明了異構(gòu)性在聯(lián)邦學(xué)習(xí)中的影響作用，同時(shí)在聯(lián)邦學(xué)習(xí)模型融合過(guò)程中，使用強(qiáng)化學(xué)習(xí)代替?zhèn)鹘y(tǒng)平均融合，提高了聯(lián)邦學(xué)習(xí)的魯棒性與模型訓(xùn)練的效果。

但是研究仍存在不足，聯(lián)邦學(xué)習(xí)除了異構(gòu)性問(wèn)題外，聯(lián)邦學(xué)習(xí)中更關(guān)鍵的一點(diǎn)是如何抵抗聯(lián)邦學(xué)習(xí)中的惡意攻擊。在聯(lián)邦學(xué)習(xí)中會(huì)存在惡意節(jié)點(diǎn)，向中心節(jié)點(diǎn)發(fā)送有毒模型或梯度信息，導(dǎo)致聯(lián)邦學(xué)習(xí)無(wú)法擬合，實(shí)驗(yàn)的下一步研究應(yīng)放在如何使用強(qiáng)化學(xué)習(xí)來(lái)控制節(jié)點(diǎn)權(quán)值，以達(dá)到免受攻擊影響。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡