摘 要:
聯(lián)邦學(xué)習(xí)是一種新興的分布式機器學(xué)習(xí)范式,在保護數(shù)據(jù)隱私的同時協(xié)作訓(xùn)練全局模型,但也面臨著在數(shù)據(jù)異構(gòu)情況下全局模型收斂慢、精度低的問題。針對上述問題,提出一種面向異構(gòu)數(shù)據(jù)的個性化聯(lián)邦多任務(wù)學(xué)習(xí)優(yōu)化(federated multi-task learning optimization,F(xiàn)edMTO)算法。在包含全局任務(wù)和本地任務(wù)的多任務(wù)學(xué)習(xí)框架下,考慮個性化聯(lián)邦優(yōu)化問題。首先,F(xiàn)edMTO采用參數(shù)分解的思想,通過學(xué)習(xí)自適應(yīng)分類器組合權(quán)重來協(xié)調(diào)全局分類器和局部分類器,提取全局分類器知識,實現(xiàn)對本地任務(wù)的個性化建模;其次,由于本地任務(wù)的數(shù)據(jù)分布不同,F(xiàn)edMTO在本地更新時結(jié)合正則化多任務(wù)學(xué)習(xí)策略,關(guān)注任務(wù)之間的相關(guān)性,減小不同本地任務(wù)間的差異,從而保證聯(lián)邦學(xué)習(xí)過程的公平性;最后,模擬不同的數(shù)據(jù)異構(gòu)場景,在MNIST和CIFAR-10數(shù)據(jù)集上進行實驗。實驗結(jié)果表明,與現(xiàn)有算法相比,F(xiàn)edMTO實現(xiàn)了更高的準確率和更好的公平性,驗證了該方法針對聯(lián)邦學(xué)習(xí)中的異構(gòu)數(shù)據(jù)問題有著良好的效果。
關(guān)鍵詞:聯(lián)邦學(xué)習(xí);異構(gòu)數(shù)據(jù);個性化;多任務(wù)學(xué)習(xí);參數(shù)分解;公平性
中圖分類號:TP181 文獻標志碼:A 文章編號:1001-3695(2024)09-011-2641-08
doi:10.19734/j.issn.1001-3695.2024.01.0006
Personalized federated multi-task learning optimization method for heterogeneous data
Li Kea, Wang Xiaofenga, b, Wang Hua
(a.School of Computer Science & Engineering, b. The Key Laboratory of Images & Graphics Intelligent Processing of State Ethnic Affairs Commission, North Minzu University, Yinchuan 750021, China)
Abstract:
Federated learning, a novel distributed machine learning paradigm, collaboratively trains a global model while preserving data privacy. It faces challenges of slow convergence and low accuracy in the global model under data heterogeneity. Aiming at the problem, the paper proposed a personalized federated multi-task learning optimization (FedMTO) algorithm tailored for heterogeneous data. In a multi-task learning framework that included global and local tasks, it considered the personalized federated optimization problem. Initially, FedMTO adopted the idea of parameter decomposition, coordinating global and local classifiers through the learning of adaptive classifier combination weights. This process extracted knowledge from global classifiers to achieve personalized modeling for local tasks. Furthermore, due to the varying data distributions of local tasks, FedMTO incorporated a regularization multi-task learning strategy during local updates. This approach focused on the relevance between tasks to reduce the differences among various local tasks, thus ensuring fairness in the federated learning process. Finally, experiments were conducted on the MNIST and CIFAR-10 datasets under different data heterogeneity scenarios. The results demonstrate that compared with existing algorithms, FedMTO achieves higher accuracy and better fairness, verifying the effectiveness of this method in addressing heterogeneous data problems in federated learning.
Key words:federated learning(FL); heterogeneous data; personalization; multi-task learning; parameter decomposition; fairness
0 引言
在大數(shù)據(jù)時代,物聯(lián)網(wǎng)和網(wǎng)絡(luò)應(yīng)用的快速發(fā)展導(dǎo)致網(wǎng)絡(luò)邊緣生成了呈現(xiàn)指數(shù)級增長的數(shù)據(jù)[1]。傳統(tǒng)的機器學(xué)習(xí)模型建立在集中式訓(xùn)練大量數(shù)據(jù)之上,由深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)實現(xiàn)。然而,現(xiàn)實中的數(shù)據(jù)往往由于隱私保護、行業(yè)競爭等限制[2],導(dǎo)致數(shù)據(jù)匯合于一處,面臨著巨大的挑戰(zhàn),使得集中式的模型訓(xùn)練方式在現(xiàn)實場景中越發(fā)不可行。
在上述背景下,具備數(shù)據(jù)隱私保護特點的機器學(xué)習(xí)方法受到了更多的關(guān)注。聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)[3]應(yīng)運而生,作為一種新興的人工智能基礎(chǔ)技術(shù),F(xiàn)L在2016年由谷歌(Google)首次提出,即一種客戶端(包含設(shè)備、節(jié)點、組織、傳感器)在中央服務(wù)器的協(xié)調(diào)下,在確保不會交換泄露客戶端的本地私有數(shù)據(jù)的前提下,由多個參與方合作訓(xùn)練機器學(xué)習(xí)模型的范式。聯(lián)邦學(xué)習(xí)有效地打破了隱私安全限制帶來的數(shù)據(jù)壁壘,充分地利用了數(shù)量龐大的網(wǎng)絡(luò)邊緣設(shè)備。
然而,F(xiàn)L存在著局限性,客戶端上的數(shù)據(jù)通常是以非獨立同分布(Non-Independent Identically Distributed,Non-IID)的異構(gòu)形式呈現(xiàn)的[4]。異構(gòu)數(shù)據(jù)場景包括特征分布傾斜、標簽分布傾斜、數(shù)量分布傾斜等[5]。在上述FL場景中聚合出的全局模型表現(xiàn)不佳,極大地影響了FL算法的收斂性。一種有效的應(yīng)對方案是針對本地任務(wù),訓(xùn)練局部個性化模型,即個性化聯(lián)邦學(xué)習(xí)(Personalized Federated Learning,pFL)。pFL算法要能夠解決數(shù)據(jù)的異構(gòu)問題,并在模型的訓(xùn)練過程中靈活地滿足客戶端本地上特定的任務(wù)[6]。
基于DNNs的模型通常由提取低維度特征嵌入的特征提取器和作出分類決策的分類器組成。DNNs模型在集中式場景和多任務(wù)學(xué)習(xí)(Multi-Task Learning,MTL)中的成功表明:特征提取器通常發(fā)揮著通用結(jié)構(gòu)的作用,而分類器則往往與特定任務(wù)相關(guān)[7,8],一般作為多任務(wù)學(xué)習(xí)模型的特定層。實際FL場景中客戶端需要處理不同任務(wù),可以從每個客戶端作為一個特定任務(wù)的角度出發(fā)優(yōu)化FL過程[9]。故使用適合本地的特征提取器來學(xué)習(xí)特征表示,同時關(guān)注全局任務(wù)和局部任務(wù)之間分類器的相關(guān)性,對訓(xùn)練個性化模型具有重要意義。
本文面向FL中的標簽分布傾斜和數(shù)量分布傾斜的異構(gòu)數(shù)據(jù)問題,提出個性化聯(lián)邦多任務(wù)優(yōu)化算法FedMTO。將FL過程表述為一個兩階段的優(yōu)化問題:首先,在本地初始化階段,完成本地個性化模型與全局模型之間的分類器協(xié)作;其次,在本地更新階段,分別對個性化模型和全局模型進行更新。對于前者,將模型參數(shù)分解,提出一種自適應(yīng)分類器組合權(quán)重學(xué)習(xí)方法,在局部提取全局模型分類器的知識。后者則從多任務(wù)學(xué)習(xí)和任務(wù)之間的公平性角度出發(fā),使用參數(shù)正則化技術(shù),約束個性化模型的本地更新過程。本文的主要貢獻如下:
a)將多客戶端參與的聯(lián)邦學(xué)習(xí)場景構(gòu)建為多任務(wù)學(xué)習(xí)過程。通過學(xué)習(xí)訓(xùn)練自適應(yīng)分類器權(quán)重,發(fā)現(xiàn)局部分類器和全局分類器之間的最優(yōu)協(xié)作關(guān)系,以實現(xiàn)算法的快速收斂和達到良好的模型性能。
b)在本地更新中加入正則化項,捕獲本地任務(wù)和全局任務(wù)之間的相關(guān)性,防止個性化模型在本地過度擬合。有效降低多任務(wù)之間的標準偏差,維護了聯(lián)邦多任務(wù)學(xué)習(xí)的公平性。
c)在不同異構(gòu)程度的數(shù)據(jù)場景上進行評估,驗證本文算法的有效性。CIFAR-10數(shù)據(jù)集上的實驗結(jié)果表明,與pFL中的六種先進算法相比,F(xiàn)edMTO不僅優(yōu)化了個性化模型之間的性能標準偏差,并且在最佳情況下將測試準確率平均提高了6.36%。
1 相關(guān)研究
1.1 面向異構(gòu)數(shù)據(jù)的聯(lián)邦學(xué)習(xí)
在真實場景中,不同客戶端由于特定的數(shù)據(jù)場景、數(shù)據(jù)偏好、數(shù)據(jù)生成和數(shù)據(jù)采樣方式存在明顯差異,使得彼此之間的數(shù)據(jù)存在異構(gòu)形式,數(shù)據(jù)分布彼此不同。例如,某地區(qū)的醫(yī)院準備聯(lián)合訓(xùn)練疾病預(yù)測模型,但是這些醫(yī)院可能專攻于不同領(lǐng)域,這將導(dǎo)致疾病類別和數(shù)量的分布不一致。顯然,專科醫(yī)院在其專業(yè)領(lǐng)域疾病上的數(shù)據(jù)更加豐富,但與綜合醫(yī)院相比,對于其他疾病的相關(guān)數(shù)據(jù)較為匱乏。上述異構(gòu)數(shù)據(jù)場景正是體現(xiàn)了FL中標簽分布傾斜、數(shù)量分布傾斜的現(xiàn)象。
FedAvg[3]作為首個FL算法,提供一種通用方案:訓(xùn)練模型的數(shù)據(jù)分散在各邊緣設(shè)備上,客戶端與服務(wù)器通信。在不共享本地數(shù)據(jù)的前提下,客戶端使用隨機梯度下降(Stochastic Gradient Descent,SGD)進行本地更新,服務(wù)器將參與通信的模型參數(shù)加權(quán)平均作為全局模型。然而,F(xiàn)edAvg對所有客戶端“一視同仁”,忽視了數(shù)據(jù)異構(gòu)問題,已經(jīng)被證明在Non-IID的異構(gòu)數(shù)據(jù)場景下無法收斂[10]。
已有的研究工作中相繼提出了多種改進方法,大致可分為限制局部更新、改良數(shù)據(jù)分布和采用個性化策略等。一方面,限制局部更新的方法通過設(shè)計目標函數(shù)的正則化形式或局部偏差校正來優(yōu)化本地學(xué)習(xí)。具有代表性的是Li等人[11]提出的FedProx算法,通過在FedAvg上添加一個限制局部更新偏差量的近端項,限制了本地更新的大小,從而避免局部模型的發(fā)散。Karimireddy 等人[12]提出了SCAFFOLD算法,通過引入服務(wù)器和客戶端的更新控制變量來糾正本地訓(xùn)練目標中的參數(shù)偏移現(xiàn)象。由于加入了額外的控制變量,SCAFFOLD將每輪的通信規(guī)模增加了一倍。上述的一類方法在收斂速度方面沒有明顯的突破,相較于FedAvg的提升較為有限。
另一方面,改良數(shù)據(jù)分布通常通過共享小部分數(shù)據(jù),或者使用其他方法構(gòu)造出更平衡的數(shù)據(jù)分布。Zhao等人[13]的研究表明,在CIFAR-10數(shù)據(jù)集上共享5%的全局數(shù)據(jù)就可以將模型測試精度提高約30%。Zhang等人[14]提出將聚類和數(shù)據(jù)共享同時應(yīng)用到FL過程,有效地減少了數(shù)據(jù)異構(gòu)的影響,加快了本地模型訓(xùn)練的收斂速度。Jeong E等人[15]使用生成對抗式網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)模型來實現(xiàn)數(shù)據(jù)增強,緩解本地數(shù)據(jù)的異構(gòu)程度。類似地,Change等人[16]通過基于數(shù)據(jù)分布的聚類方法來提升模型準確率。
與上述兩大類方法不同,個性化策略在本地維護一個私有的個性化模型,專注于提高個性化模型在本地的性能表現(xiàn)。本文所提FedMTO算法正是基于個性化策略實現(xiàn)的。
1.2 個性化聯(lián)邦學(xué)習(xí)
現(xiàn)有的pFL方法包括:模型插值方法,通過維護一個全局模型序列和本地模型序列,對兩者進行線性混合,找到模型參數(shù)的最佳插值。例如APFL[17]和L2CD[18],它們?yōu)榭蛻舳艘肓艘粋€模型插值參數(shù),該參數(shù)在FL訓(xùn)練過程中通過控制全局和局部模型的權(quán)重,能夠了解每個客戶端的個性化程度。
對模型差異進行正則化的多任務(wù)學(xué)習(xí),目標是訓(xùn)練聯(lián)合執(zhí)行多個相關(guān)任務(wù)的模型,在過程中利用特定領(lǐng)域的知識來提高模型泛化能力[19]。代表方法有FedMTL[20]和pFedMe[21],通過將客戶端上的模型訓(xùn)練視為MTL中的一項任務(wù),試圖捕獲客戶端間的關(guān)系,來應(yīng)對異構(gòu)數(shù)據(jù)問題。
基于元學(xué)習(xí)(Meta-Learning)的局部適應(yīng)策略,元學(xué)習(xí)通常被稱為“學(xué)會學(xué)習(xí)”,旨在接觸不同的數(shù)據(jù)分布來改進學(xué)習(xí)算法[22]。模型無關(guān)元學(xué)習(xí)(MAML)[23]算法以其良好的泛化性和對新任務(wù)的快速適應(yīng)而聞名,并應(yīng)用于基于梯度下降的各種方法。Per-FedAvg[24]就是建立在MAML公式上的FedAvg算法的變體,在客戶端下載到全局模型后,根據(jù)本地數(shù)據(jù)分布進行額外的微調(diào),提升模型在本地的性能。
參數(shù)解耦方法,將模型參數(shù)分解為局部私有參數(shù)和全局參數(shù),私有參數(shù)在客戶端本地訓(xùn)練,不參與全局聚合、不與服務(wù)器共享,通過學(xué)習(xí)特定于任務(wù)的表示以增強個性化。例如,F(xiàn)edRep[8]將模型分解為特征提取器、分類器,然后在本地固定分類器,服務(wù)器聚合特征提取器的參數(shù),共享訓(xùn)練特征提取器。類似思想的工作還有LG-FedAvg[25]和FedPer[26]。
針對特定于客戶端關(guān)系的細粒度模型聚合,F(xiàn)edAMP[27]在具有相似數(shù)據(jù)分布的客戶端之間學(xué)習(xí)成對的協(xié)作關(guān)系,找到相關(guān)任務(wù)的相似模型,通過細粒度的加權(quán)聚合得到每個客戶端的個性化云模型。FedFomo[9]算法采用了類似的方法。這類方法通常是基于啟發(fā)式評估模型相似性或驗證準確性實現(xiàn)的,需要在通信計算開銷和個性化之間找到平衡。
與原型學(xué)習(xí)[28](Prototype-Based Learning)策略結(jié)合是一個新興的研究方向,其核心思想是通過存儲一組代表性的樣本(原型),然后使用原型來進行分類、回歸或聚類等任務(wù)。Tan等人提出FedProto[29],參與通信過程的不再是梯度,而是原型。對每個客戶端進行訓(xùn)練的目的是局部數(shù)據(jù)的分類誤差最小化,同時使得到的局部原型與相應(yīng)的全局原型足夠接近。
本文與FedRep[8]有著相似的參數(shù)分解思想,但不同之處在于,F(xiàn)edMTO結(jié)合了多任務(wù)學(xué)習(xí),將異構(gòu)數(shù)據(jù)視為每個本地任務(wù)上的不同數(shù)據(jù)分布的問題。同時運用了知識遷移策略,通過學(xué)習(xí)分類器組合權(quán)重來泛化知識,在任務(wù)之間相互傳遞知識,提高目標任務(wù)上的模型性能。此外,F(xiàn)edMTO還考慮了全局和局部任務(wù)之間的關(guān)聯(lián),關(guān)注了FL過程的公平性。
2 本文方法
2.1 問題設(shè)置
在經(jīng)典的聯(lián)邦學(xué)習(xí)場景中,存在N個客戶端節(jié)點和一個中央服務(wù)器,客戶端i上的私有數(shù)據(jù)分布為Di。目標是從客戶端間分散的數(shù)據(jù)集中學(xué)習(xí)一個全局模型W,優(yōu)化的全局目標函數(shù)可以定義為
3.2 結(jié)果分析
1)準確率比較
表4展示了FedMTO和其他算法在不同異構(gòu)數(shù)據(jù)場景下,分別在兩個基準數(shù)據(jù)集上達到的最佳平均測試準確率。從實驗結(jié)果來看,個性化聯(lián)邦學(xué)習(xí)算法在不同的數(shù)據(jù)集上的不同數(shù)據(jù)異構(gòu)情況下,都普遍優(yōu)于傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法。這說明個性化聯(lián)邦學(xué)習(xí)算法在數(shù)據(jù)異構(gòu)場景下的有效性。本文算法更是在絕大部分情況下,都取得了最佳平均測試準確率。
由表4可知,在狄利克雷分布仿真下的異構(gòu)數(shù)據(jù)場景下:隨著客戶端數(shù)據(jù)異構(gòu)程度的增大,即分布參數(shù)β減小時,兩種傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法(FedAvg,F(xiàn)edProx)在MNIST和CIFAR-10數(shù)據(jù)集上的準確率顯著下降。然而,其他的六種個性化算法的表現(xiàn)卻保持上升。這驗證了客戶端上數(shù)據(jù)異構(gòu)情況對聯(lián)邦學(xué)習(xí)模型性能的影響極大,以及個性化聯(lián)邦學(xué)習(xí)算法的可行性、有效性和針對性。
圖4和圖5所示為在默認參數(shù)設(shè)置下,F(xiàn)edMTO和其他六種個性化算法在訓(xùn)練過程中隨著通信輪次增加,個性化模型的平均測試準確率的學(xué)習(xí)曲線。需要注意的是,由于以FedAvg和FedProx為代表的傳統(tǒng)全局模型算法在面對異構(gòu)場景時平均測試準確率的表現(xiàn)不佳,與個性化算法差距較大,所以不再繪制其學(xué)習(xí)曲線。
對構(gòu)成比較簡單的MNIST數(shù)據(jù)集,由表4和圖4可以觀察出,F(xiàn)edMTO算法與其他算法相比,可以在不同程度下的Non-IID場景取得良好的表現(xiàn)。首先,在數(shù)據(jù)病態(tài)異構(gòu)分布的場景下,F(xiàn)edMTO的最高平均準確率相對于兩種傳統(tǒng)的聯(lián)邦學(xué)習(xí)算法平均提升了11.9%。同時隨著通信輪次增加而變化,最終優(yōu)于其余的六種個性化算法。
另外在實際異構(gòu)場景下,F(xiàn)edMTO算法在參數(shù)β為0.1、0.5的異構(gòu)程度下表現(xiàn)依然優(yōu)秀,相對傳統(tǒng)算法將精度平均提高5.17%和1.42%,并會隨著通信輪次增大而優(yōu)于其他的個性化算法;雖然在參數(shù)β為0.3時,F(xiàn)edMTO相對于APFL有極其細微的精度差距,但相對傳統(tǒng)算法將最佳平均準確率提高了2.05%,并且也優(yōu)于其余五種個性化算法,這說明FedMTO算法依然保持了高水平的競爭力。
對于CIFAR-10數(shù)據(jù)集,其樣本是現(xiàn)實世界中真實的物體,不僅噪聲很大,而且物體的特征、大小都不盡相同,所以數(shù)據(jù)集更復(fù)雜,識別難度更大。由表4和圖5可知,在數(shù)據(jù)病態(tài)異構(gòu)分布的場景下,F(xiàn)edMTO在CIFAR-10上的表現(xiàn)優(yōu)于其他所有算法,將個性化精度平均提升了8.84%。對于狄利克雷分布下的三種不同程度的數(shù)據(jù)異構(gòu)場景,相較于其他算法,本文算法將平均個性化準確率分別提高了8.98%,7.46%,7.65%。另外,隨著β的取值增大(數(shù)據(jù)的異構(gòu)程度減?。N個性化算法與FedMTO算法的性能差距就越大。在β=0.5時,差距最為明顯,此時只與個性化算法對比,F(xiàn)edMTO也能將測試準確率平均提高6.36%。這體現(xiàn)出該算法的泛化性更好,在不同程度的異構(gòu)數(shù)據(jù)場景下都更好地滿足了本地個性化任務(wù)。
值得注意的是,以CIFAR-10數(shù)據(jù)集為例,在集中式學(xué)習(xí)下已有先進的模型在該數(shù)據(jù)集上實現(xiàn)了99%以上的測試準確率。然而,本研究使用的標準模型足以滿足聯(lián)邦學(xué)習(xí)算法的實驗需求。因為本文的目標不是在集中式學(xué)習(xí)的場景下,對該數(shù)據(jù)集的圖像分類任務(wù)達到最高精度,而是在聯(lián)邦學(xué)習(xí)場景下評估本文的優(yōu)化算法,并與其他經(jīng)典的優(yōu)秀算法進行包括但不僅限于準確率等指標的對比。
2)公平性比較
依據(jù)Li等人[32]對聯(lián)邦學(xué)習(xí)中公平性的定義和評價參考指標。表5報告了各算法在達到最佳平均測試準確率時,客戶端之間個性化模型測試準確率的標準差(以百分比準確率計算),來評價不同算法下的公平性。
可知FedMTO在不同程度的數(shù)據(jù)異構(gòu)場景下,均保持了最低測試準確率的標準差。與六種個性化算法相比,綜合考慮四種異構(gòu)場景,在MNIST、CIFAR-10數(shù)據(jù)集上分別將客戶端之間的準確率偏差至少縮小了6.25%、12.98%。這表明以往的pFL算法在保證本地模型個性化性能之外,沒有充分考慮到不同客戶端設(shè)備之間的公平性。在追求提高個性化模型性能時,導(dǎo)致不同客戶端之間訓(xùn)練得到的模型準確率偏差較大。FedMTO在達到近似或者更高測試精度的同時又保持了更低的測試標準差,高效又公平地完成了本地個性化任務(wù)。
3)消融實驗
FedMTO算法整體分為兩個部分:(a)自適應(yīng)分類器組合權(quán)重的學(xué)習(xí)。(b)結(jié)合正則化項的本地多任務(wù)學(xué)習(xí)。為了驗證本文所提的優(yōu)化方法的有效性,在較為復(fù)雜的CIFAR-10數(shù)據(jù)集上,對上述兩部分進行了消融實驗。相關(guān)的參數(shù)設(shè)置與對比實驗保持一致,分別以Base算法(均不采用)、BaseMTO1算法(引入正則化項)、BaseMTO2算法(學(xué)習(xí)分類器組合權(quán)重)和FedMTO進行實驗,結(jié)果如圖6所示。
BaseMTO1算法相對于Base算法的改動較小,僅加入了正則化項,但是在四種異構(gòu)數(shù)據(jù)的情況下,準確率仍有提高,說明正則化項對聯(lián)邦多任務(wù)學(xué)習(xí)可以帶來積極影響。BaseMTO1算法和Base算法往往更早地達到收斂,但是與BaseMTO2、FedMTO相比,平均最佳準確率較低,這表明學(xué)習(xí)分類器組合權(quán)重對模型個性化性能的意義更大。在β=0.5的情況下,平均準確率的差距將達到最大,對比下降了約10%。
BaseMTO2與FedMTO的最佳平均準確率總是十分接近的,說明學(xué)習(xí)自適應(yīng)分類器組合權(quán)重所帶來的模型性能提升較大。對本地模型分類器和全局模型分類器的權(quán)重自適應(yīng)聚合,可以學(xué)習(xí)到全局模型的豐富知識,更好地完成每個本地任務(wù)。然而,就公平性而言,如表6所示,F(xiàn)edMTO至少將模型測試準確率之間的標準差平均減小了近4%。這表明結(jié)合了正則化多任務(wù)學(xué)習(xí)的FedMTO算法減少了不同客戶端上異構(gòu)數(shù)據(jù)現(xiàn)象的干擾。在提高個性化性能的同時,又取得了更均衡的分類效果,更充分地解決了FL中的數(shù)據(jù)異構(gòu)問題。
4 結(jié)束語
本文面向聯(lián)邦學(xué)習(xí)中的異構(gòu)數(shù)據(jù)場景,提出一種個性化聯(lián)邦多任務(wù)學(xué)習(xí)優(yōu)化算法FedMTO。FedMTO采用基于參數(shù)分解方法抽象出全局分類器參數(shù)和局部分類器參數(shù),通過學(xué)習(xí)自適應(yīng)分類器組合權(quán)重,優(yōu)化模型之間的協(xié)作關(guān)系,并進一步基于正則化多任務(wù)學(xué)習(xí)方法對本地更新進行約束,捕獲本地任務(wù)和全局任務(wù)之間的相關(guān)性,優(yōu)化聯(lián)邦多任務(wù)學(xué)習(xí)過程。
通過在不同數(shù)據(jù)集上與其他算法的全面實驗,證明了本文算法在個性化模型精度、聯(lián)邦多任務(wù)學(xué)習(xí)優(yōu)化和多任務(wù)之間的公平性等方面都有著顯著的提升。考慮到真實的聯(lián)邦學(xué)習(xí)場景中客戶端設(shè)備異構(gòu)和通信資源往往是受限制的,下一步研究準備以多任務(wù)學(xué)習(xí)思想設(shè)計高效的異步聯(lián)邦學(xué)習(xí)機制,設(shè)計性能更好的聯(lián)邦學(xué)習(xí)優(yōu)化算法。
參考文獻:
[1]Wang Shiqiang,Tuor T,Salonidis T,et al. Adaptive federated learning in resource constrained edge computing systems[J]. IEEE Journal on Selected Areas in Communications,2019,37(6): 1205-1221.
[2]Gaff B M,Sussman H E,Geetter J. Privay and big data[J]. Computer,2014,47(6): 7-9.
[3]McMahan B,Moore E,Ramage D,et al. Communication-efficient learning of deep networks from decentralized data[C]// Proc of the 20th International Conference on Artificial Intelligence and Statistics. [S.l.]: PMLR,2017: 1273-1282.
[4]Li Zengpeng,Sharma V,Mohanty S P. Preserving data privacy via fede-rated learning: Challenges and solutions[J]. IEEE Consumer Electronics Magazine,2020,9(3): 8-16.
[5]Li Qinbin,Diao Yiqun,Chen Quan,et al. Federated learning on Non-IID data silos: an experimental study[C]// Proc of the 38th International Conference on Data Engineering. Piscataway,NJ: IEEE Press,2022: 965-978.
[6]Xu Jian,Tong Xinyi,Huang S L. Personalized federated learning with feature alignment and classifier collaboration[EB/OL]. (2023-06-20). https://arxiv.org/abs/2306.11867.
[7]Bengio Y,Courville A,Vincent P. Representation learning: a review and new perspectives[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(8): 1798-1828.
[8]Collins L,Hassani H,Mokhtari A,et al. Exploiting shared representations for personalized federated learning[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR,2021: 2089-2099.
[9]Marfoq O,Neglia G,Bellet A,et al. Federated multi-task learning under a mixture of distributions[C]// Advances in Neural Information Processing Systems. 2021: 15434-15447.
[10]Li Xiang,Huang Kaixuan,Yang Wenhao,et al. On the convergence of FedAVG on Non-IID data[EB/OL]. (2020-06-25). https://arxiv.org/abs/1907.02189.
[11]Li Tian,Sahu A K,Zaheer M,et al. Federated optimization in heterogeneous networks[C]// Proc of Machine Learning and Systems. 2020: 429-450.
[12]Karimireddy S P,Kale S,Mohri M,et al. SCAFFOLD: stochastic controlled averaging for federated learning[C]// Proc of the 37th International Conference on Machine Learning. [S.l.]: JMLR.org,2020: 5132-5143.
[13]Zhao Yue,Li Meng,Lai Liangzhen,et al. Federated learning with Non-IID data[EB/OL]. (2022-07-21). https://arxiv.org/abs/1806.00582.
[14]張紅艷,張玉,曹燦明. 一種解決數(shù)據(jù)異構(gòu)問題的聯(lián)邦學(xué)習(xí)方法[J]. 計算機應(yīng)用研究,2024,41(3): 713-720. (Zhang Hongyan,Zhang Yu,Cao Canming. Effective method to solve problem of data heterogeneity in federated learning[J]. Application Research of Computers,2024,41(3): 713-720.)
[15]Jeong E,Oh S,Kim H,et al. Communication-efficient on-device machine learning: federated distillation and augmentation under Non-IID private data[EB/OL]. (2023-10-19). https://arxiv.org/abs/1811.11479.
[16]常黎明,劉顏紅,徐恕貞. 基于數(shù)據(jù)分布的聚類聯(lián)邦學(xué)習(xí)[J]. 計算機應(yīng)用研究,2023,40(6): 1697-1701. (Chang Liming,Liu Yanhong,Xu Shuzhen. Clustering federated learning based on data distribution[J]. Application Research of Computers,2023,40(6): 1697-1701.)
[17]Deng Yuyang,Kamani M M,Mahdavi M. Adaptive personalized fede-rated learning[EB/OL]. (2020-11-06). https://arxiv.org/abs/2003.13461.
[18]Hanzely F,Richtárik P. Federated learning of a mixture of global and local models[EB/OL]. (2021-02-12). https://arxiv.org/abs/2002.05516.
[19]Tan A Z,Yu Han,Cui Lizhen,et al. Towards personalized federated learning[J]. IEEE Trans on Neural Networks and Learning Systems,2023,34(12): 9587-9603.
[20]Smith V,Chiang C K,Sanjabi M,et al. Federated multi-task learning[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 4427-4437.
[21]Dinh T C,Tran N,Nguyen J. Personalized federated learning with moreau envelopes[C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2020: 21394-21405.
[22]Hospedales T,Antoniou A,Micaelli P,et al. Meta-learning in neural networks: a survey[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2021,44(9): 5149-5169.
[23]Finn C,Abbeel P,Levine S. Model-agnostic meta-learning for fast adap-tation of deep networks[C]// Proc of the 34th International Conference on Machine Learning. [S.l.]: JMLR.org,2017: 1126-1135.
[24]Fallah A,Mokhtari A,Ozdaglar A. Personalized federated learning with theoretical guarantees: a model-agnostic meta-learning approach[C]// Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2020: 3557-3568.
[25]Liang P P,Liu T,Ziyin Liu,et al. Think locally,act globally: federated learning with local and global representations [EB/OL]. (2020-07-14). https://arxiv.org/abs/2001.01523.
[26]Arivazhagan M G,Aggarwal V,Singh A K,et al. Federated learning with personalization layers [EB/OL]. (2019-12-02). https://arxiv.org/abs/1912.00818.
[27]Huang Yutao,Chu Lingyang,Zhou Zirui,et al. Personalized cross-silo federated learning on Non-IID data[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2021: 7865-7873.
[28]Finn C,Abbeel P,Levine S. Model-agnostic meta-learning for fast ada-ptation of deep networks[C]// Proc of the 34th International Conference on Machine Learning. [S.l.]: JMLR.org,2017: 1126-1135.
[29]Tan Y,Long G,Liu L,et al. FedProto: federated prototype learning across heterogeneous clients [C]// Proc of the AAAI Conference on Artificial Intelligence. 2022: 8432-8440.
[30]Arjovsky M,Chintala S,Bottou L. Wasserstein generative adversarial networks[C]// Proc of the 34th International Conference on Machine Learning.[S.l.]: JMLR.org,2017: 214-223.
[31]Wojke N,Bewley A. Deep cosine metric learning for person re-identification [C]// Proc of IEEE Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2018: 748-756.
[32]Li Tian,Hu Shengyuan,Beirami A,et al. Ditto: fair and robust fede-rated learning through personalization[C]// Proc of the 38th International Conference on Machine Learning. [S.l.]: PMLR,2021: 6357-6368.
收稿日期:2024-01-02;修回日期:2024-03-04 基金項目:國家自然科學(xué)基金資助項目(62062001);寧夏青年拔尖人才項目(2021)
作者簡介:李可(2000—),男,河南開封人,碩士研究生,CCF會員,主要研究方向為聯(lián)邦學(xué)習(xí)、多任務(wù)學(xué)習(xí);王曉峰(1980—),男(回族)(通信作者),甘肅會寧人,副教授,碩導(dǎo),博士,CCF會員,主要研究方向為算法分析與設(shè)計、人工智能(xfwang@nmu.edu.cn);王虎(1998—),男,江蘇南京人,碩士研究生,主要研究方向為聯(lián)邦學(xué)習(xí)、機器學(xué)習(xí).