使用多分類器的分布式模型重用技術(shù)

2022-10-16 05:50:58李新春詹德川

計(jì)算機(jī)與生活 2022年10期

李新春，詹德川

1.南京大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系，南京210023

2.南京大學(xué) 人工智能學(xué)院，南京210023

3.南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室，南京210023

雖然機(jī)器學(xué)習(xí)技術(shù)，尤其是深度學(xué)習(xí)技術(shù)，在很多實(shí)際應(yīng)用中得到了廣泛的運(yùn)用，例如計(jì)算機(jī)視覺中的圖像識別任務(wù)。但是，這些技術(shù)通常假設(shè)不同用戶、不同任務(wù)或者不同場景的數(shù)據(jù)可以集中到同一批設(shè)備上進(jìn)行訓(xùn)練，即數(shù)據(jù)中心化訓(xùn)練，但是實(shí)際應(yīng)用場景中有很多因素限制了數(shù)據(jù)的集中存儲和集中訓(xùn)練。一方面，隨著數(shù)據(jù)量的不斷增加，將分散化的數(shù)據(jù)傳輸?shù)酵慌O(shè)備需要巨額的傳輸開銷，然而某些場景下，例如通過無線網(wǎng)絡(luò)連接的便攜式設(shè)備，本身就不具備足夠的傳輸帶寬。另一方面，政府、企業(yè)和醫(yī)療等機(jī)密單位對數(shù)據(jù)隱私保護(hù)的要求非常高，并且相關(guān)法律條規(guī)，例如我國出臺的《個人信息保護(hù)法》，明確規(guī)定不能在未獲法律授權(quán)、未經(jīng)本人許可或者超出必要限度的條件下披露他人個人信息。無論是因?yàn)閭鬏攷捪拗七€是隱私保護(hù)要求，數(shù)據(jù)越來越呈現(xiàn)分散化、隔離化的特性，繼而形成了“數(shù)據(jù)孤島”現(xiàn)象。

分布式學(xué)習(xí)（distributed learning）技術(shù)主要為大數(shù)據(jù)和巨容量模型的訓(xùn)練提供解決方案。具體地，分布式學(xué)習(xí)將數(shù)據(jù)或者模型切分并分散到多個設(shè)備，然后通過一個服務(wù)器協(xié)調(diào)這些設(shè)備，采用分布式優(yōu)化（distributed optimization）算法進(jìn)行訓(xùn)練。雖然分布式學(xué)習(xí)為大數(shù)據(jù)和巨容量模型的訓(xùn)練提供了可行性方案，其初衷并非是為了解決“數(shù)據(jù)孤島”問題，并且直接將其應(yīng)用到“數(shù)據(jù)孤島”問題中難以解決傳輸開銷和隱私保護(hù)問題。

在分布式學(xué)習(xí)和分布式優(yōu)化算法的基礎(chǔ)之上，多方學(xué)習(xí)（multi-party learning）和聯(lián)邦學(xué)習(xí)（federated learning）技術(shù)被提出，用來解決“數(shù)據(jù)孤島”問題。作為聯(lián)邦學(xué)習(xí)領(lǐng)域的經(jīng)典技術(shù)，聯(lián)邦平均（federated averaging，F(xiàn)edAvg）由McMahan 等人提出，使用傳統(tǒng)的參數(shù)服務(wù)器架構(gòu)，將分布式訓(xùn)練過程拆分為多輪迭代的客戶端局部訓(xùn)練過程和服務(wù)器參數(shù)聚合過程。具體地，在客戶端局部訓(xùn)練過程中，每個客戶端從服務(wù)器下載模型，然后在本地?cái)?shù)據(jù)集上訓(xùn)練多輪；在服務(wù)器參數(shù)聚合過程中，服務(wù)器接收來自客戶端更新后的模型，使用參數(shù)平均的方式進(jìn)行聚合。一方面，由于在本地引入了更多的迭代輪次，F(xiàn)edAvg 能顯著降低分布式訓(xùn)練中的傳輸開銷；另一方面，由于整個訓(xùn)練過程避免了直接傳輸數(shù)據(jù)，只在服務(wù)器和客戶端之間傳輸模型和模型的梯度，因此符合基本的隱私保護(hù)要求。可以說，聯(lián)邦學(xué)習(xí)為數(shù)據(jù)同分布下的分布式訓(xùn)練提供了更有效的解決方案，并且做到了基本的隱私保護(hù)。為了達(dá)到更高的隱私保護(hù)需要，可以結(jié)合差分隱私技術(shù)或者同態(tài)加密技術(shù)。

然而，分散化數(shù)據(jù)具有天然異構(gòu)性，這給分布式訓(xùn)練帶來了巨大的挑戰(zhàn)。例如，在分布式推薦系統(tǒng)應(yīng)用中，不同用戶具有不同的喜好，其行為數(shù)據(jù)自然差異很大；在分布式醫(yī)療圖像分割任務(wù)中，由于不同的醫(yī)療機(jī)構(gòu)從事不同的疾病診斷，并且面向的患者群體也各不相同，收集到的圖像數(shù)據(jù)分布差異自然很大。這種數(shù)據(jù)的天然異質(zhì)性使得分布式訓(xùn)練面臨的數(shù)據(jù)是非獨(dú)立同分布的（not independently and identically distributed，Non-IID），給分布式訓(xùn)練帶來了巨大的挑戰(zhàn)。

模型重用（model reuse）技術(shù)基于Zhou 提出的學(xué)件（learnware）框架，可以為數(shù)據(jù)異構(gòu)問題提供有效的解決方案。本文將模型重用技術(shù)融入分布式訓(xùn)練過程，從宏觀愿景層面上提出了分布式模型重用（distributed model reuse，DMR）框架。分布式模型重用和傳統(tǒng)的分布式訓(xùn)練有兩點(diǎn)主要區(qū)別：其一，分布式模型重用強(qiáng)調(diào)為分布式訓(xùn)練過程中的數(shù)據(jù)異構(gòu)尋求解決方案；其二，分布式模型重用的具體實(shí)施主要依賴于學(xué)件中的模型規(guī)約表征。

在分布式模型重用框架的基礎(chǔ)之上，本文首先基于布雷格曼散度（Bregman divergence）和學(xué)件規(guī)約表征對分布式訓(xùn)練進(jìn)行理論分析，指出面對數(shù)據(jù)異構(gòu)問題，分布式訓(xùn)練的最優(yōu)解是一批模型的集成（ensemble）。在此理論分析的基礎(chǔ)上，本文在分布式模型重用框架中引入了多分類器（multiple classifiers，Mc），從而解決了單一模型難以適用于所有異構(gòu)客戶端的難題。本文稱這種框架為使用多分類器的分布式模型重用（distributed model reuse with multiple classifiers，McDMR）。然而在實(shí)際應(yīng)用中，引入多分類器會帶來額外的存儲、計(jì)算和傳輸開銷，因此為了得到更加切實(shí)可行的技術(shù)方案，本文提出了兩種優(yōu)化策略：其一，利用多頭分類器（multi-head classifier，MH），在多個分類器之間共享數(shù)據(jù)的特征表示，只在最后分類器層引入多支；其二，利用隨機(jī)分類器（stochastic classifier，SC），假設(shè)分類器服從某一個先驗(yàn)分布，然后從中采樣分類器。這兩種使用多分類器的分布式模型重用算法分別記為McDMR-MH 和McDMR-SC。

本文在Mnist、Cifar10 和Cifar100 上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。首先，利用這些公開數(shù)據(jù)集構(gòu)造相應(yīng)的分布式訓(xùn)練場景，通過性能收斂曲線驗(yàn)證了引入多分類器為分布式模型重用帶來的性能提升。

總結(jié)一下，本文的貢獻(xiàn)主要包括三點(diǎn):

（1）從宏觀層面上，提出分布式模型重用框架，為分布式訓(xùn)練中數(shù)據(jù)異構(gòu)問題提供統(tǒng)一解決方案；

（2）從理論層面上，提出基于多分類器的分布式模型重用技術(shù)，為數(shù)據(jù)異構(gòu)問題提供了具體方案；

（3）從效率層面上，提出基于多頭分類器和隨機(jī)分類器采樣的分布式模型重用優(yōu)化方案，解決了實(shí)際應(yīng)用場景中的存儲、計(jì)算和傳輸開銷問題。

1 相關(guān)工作

針對分布式訓(xùn)練中的數(shù)據(jù)異構(gòu)問題，現(xiàn)有技術(shù)主要包括基于公開數(shù)據(jù)、基于附加約束和基于私有模型的方法?；诠_數(shù)據(jù)的方法假設(shè)服務(wù)器上存在一個全局共享的數(shù)據(jù)集，通常假設(shè)這個數(shù)據(jù)集包含了大多數(shù)客戶端上的數(shù)據(jù)分布情況。例如，文獻(xiàn)[10]假設(shè)服務(wù)器上原本就存在部分標(biāo)記數(shù)據(jù)；文獻(xiàn)[11]假設(shè)客戶端上少量數(shù)據(jù)可以傳輸?shù)椒?wù)器?；诟郊蛹s束的方法一般會在客戶端進(jìn)行本地訓(xùn)練的時候?qū)δＰ透路较蚣右约s束，防止更新結(jié)果和全局模型差異太大。例如，文獻(xiàn)[12]提出了基于參數(shù)歐氏距離的二階正則項(xiàng)；文獻(xiàn)[13]提出了基于特征最大均值差異（maximum mean discrepancy）的正則項(xiàng)。基于私有模型的方法主要是在本地客戶端引入私有模型來刻畫本地?cái)?shù)據(jù)分布。例如，文獻(xiàn)[14]將分類器層私有化，文獻(xiàn)[15]則私有整個模型。其余的方法包括使用控制變量和動量的方法，借助多任務(wù)學(xué)習(xí)（multitask learning）的方法，借助元學(xué)習(xí)（meta learning）的方法等。

集成學(xué)習(xí)作為一種提升模型性能和增強(qiáng)模型魯棒性的方法，在很多應(yīng)用中發(fā)揮了巨大的作用。傳統(tǒng)的集成學(xué)習(xí)假設(shè)基分類器不能太差且基分類器之間必須有足夠差異（diversity）。在深度學(xué)習(xí)發(fā)展起來之后，神經(jīng)網(wǎng)絡(luò)本身就具有較多的參數(shù)量，訓(xùn)練多個網(wǎng)絡(luò)給實(shí)際應(yīng)用帶來了額外的存儲、計(jì)算開銷。為了縮減開銷，文獻(xiàn)[21]提出了知識蒸餾（knowledge distillation）技術(shù)，將一批模型的能力融合到一個模型；文獻(xiàn)[22]提出了快照集成（snapshot ensemble），只需要訓(xùn)練一次就可以獲得多個異質(zhì)模型；文獻(xiàn)[23]提出了多支結(jié)構(gòu)，在多個模型之間共享部分參數(shù)。

模型重用技術(shù)是學(xué)件框架中最為核心的技術(shù)之一，其目的是快速地為新用戶推薦合適的模型。學(xué)件框架為模型提供了統(tǒng)一的平臺，學(xué)件商場包含了各種任務(wù)下的模型，并且賦予了模型可重用（reusable）、可演進(jìn)（evolvable）和可理解（comprehensible）等性質(zhì)。新用戶根據(jù)當(dāng)前面臨的數(shù)據(jù)和任務(wù)進(jìn)入學(xué)件商場挑選合適的模型，并將其應(yīng)用到當(dāng)前任務(wù)，從而避免了重新訓(xùn)練模型，減少了很多不必要的開銷?，F(xiàn)有研究將模型重用技術(shù)應(yīng)用到了很多具體問題中，例如文獻(xiàn)[24]提出了一種重用已有特征的深度模型重用技術(shù)；文獻(xiàn)[25]提出了一種解決特征變動情況的模型重用技術(shù)；文獻(xiàn)[26]提出了一種基于決策樹模型重用來應(yīng)對分布變化的解決方案；文獻(xiàn)[27]將模型重用技術(shù)應(yīng)用到自然語言處理領(lǐng)域，提出了一種快速重用詞向量的方法。

本文主要是利用模型重用技術(shù)來解決分布式訓(xùn)練過程中的數(shù)據(jù)異構(gòu)問題，提出了分布式模型重用框架。在此基礎(chǔ)之上，引入了多分類器作為一種具體的解決方案。為了解決存儲、計(jì)算和傳輸開銷，又提出了基于多頭分類器和隨機(jī)分類器采樣的優(yōu)化方案。

2 分布式模型重用框架

本章首先介紹以聯(lián)邦學(xué)習(xí)為代表的分布式訓(xùn)練的具體做法和缺陷，然后從宏觀層面上基于學(xué)件提出分布式模型重用框架并分析其優(yōu)勢。

2.1 分布式訓(xùn)練

某些現(xiàn)實(shí)場景中，數(shù)據(jù)是分散化、隔離化的。假設(shè)有個客戶端，每個客戶端上的數(shù)據(jù)采樣自數(shù)據(jù)分布D=P(,)，其中代表輸入，代表輸出，下標(biāo)表示客戶端索引。由于隱私保護(hù)的要求，客戶端上的數(shù)據(jù)不能傳輸?shù)狡渌O(shè)備，只能在本地進(jìn)行訓(xùn)練。以聯(lián)邦學(xué)習(xí)為代表的分布式訓(xùn)練技術(shù)，例如FedAvg，采取了參數(shù)服務(wù)器架構(gòu)，由服務(wù)器來協(xié)調(diào)客戶端之間的訓(xùn)練，并且只在服務(wù)器和客戶端之間傳輸模型和梯度。具體地，F(xiàn)edAvg 將訓(xùn)練過程劃分為客戶端局部訓(xùn)練過程和服務(wù)器參數(shù)聚合過程。記服務(wù)器上的模型為，其參數(shù)為。記θ為第個迭代輪次開始時服務(wù)器上的模型參數(shù)。

這兩個子過程會重復(fù)輪，直到最終的模型收斂。在數(shù)據(jù)異構(gòu)的場景中，大部分客戶端之間的數(shù)據(jù)分布差異都很大，即客戶端和客戶端的分布距離(D,D)＞0 的情況普遍存在，此時局部訓(xùn)練過程會偏移全局目標(biāo)，造成最終參數(shù)匯聚得到的模型和理想的模型偏差過大。其中(·,·)是衡量分布之間距離的函數(shù)。本文引入模型重用技術(shù)來解決這個問題。

2.2 學(xué)件和模型重用

從宏觀愿景上來說，學(xué)件為模型的互通互用提供了一整套合理的技術(shù)方案。在機(jī)器學(xué)習(xí)具體任務(wù)中，給定一個數(shù)據(jù)集，在假設(shè)空間H 里尋找合適的假設(shè):X ?Y，訓(xùn)練得到的模型記為。X 為輸入空間，Y 為輸出空間。學(xué)件假設(shè)存在映射:D ?R以及:M ?R可以分別將數(shù)據(jù)集∈D 和模型∈M映射到一個維向量空間，從而分別得到數(shù)據(jù)集和模型的規(guī)約表征()和()。學(xué)件假設(shè)這個維向量空間滿足某些特性：（1）功能相似的模型映射之后距離較近；（2）任一模型在該空間內(nèi)近鄰點(diǎn)所對應(yīng)數(shù)據(jù)集上的性能不會太差。這些特性本質(zhì)上說明可以利用規(guī)約表征來評估模型和數(shù)據(jù)集的適配程度，從而可以為新用戶快速尋求合適的模型。

基于學(xué)件的框架，每個客戶端可以將本地?cái)?shù)據(jù)D通過映射得到相應(yīng)的數(shù)據(jù)集表示(D)。在分布式訓(xùn)練第個迭代輪次開始時，將全局模型M通過映射獲得其相應(yīng)的模型表示(M)。通過合適的距離度量，可以選擇M預(yù)期適配的客戶端進(jìn)行訓(xùn)練。該過程避免了分布式訓(xùn)練過程中因當(dāng)前全局模型并不適配所選擇客戶端而造成的誤差累計(jì)。相反地，通過在每個訓(xùn)練周期動態(tài)地選擇當(dāng)前模型適配的客戶端進(jìn)行訓(xùn)練，一方面避免了訓(xùn)練目標(biāo)的偏移，另一方面可以隱式地對客戶端進(jìn)行聚類從而挖掘潛在的用戶相似性。將這個框架稱為分布式模型重用，過程示意圖如圖1 所示，和傳統(tǒng)的分布式訓(xùn)練主要有兩點(diǎn)區(qū)別：其一，分布式模型重用強(qiáng)調(diào)為分布式訓(xùn)練過程中的數(shù)據(jù)異構(gòu)尋求解決方案；其二，分布式模型重用的具體技術(shù)路線主要依賴于學(xué)件提供的規(guī)約表征。本文著重關(guān)注利用分布式模型重用技術(shù)解決分布式訓(xùn)練過程中的數(shù)據(jù)異構(gòu)問題。

圖1 分布式模型重用示意圖Fig.1 Illustration of distributed model reuse

3 基于多分類器的分布式模型重用技術(shù)

本章通過理論分析提出了一種基于多分類器的分布式模型重用技術(shù)，并且結(jié)合具體應(yīng)用中的效率問題分別提出了基于多頭分類器和隨機(jī)分類器的兩種優(yōu)化方案。

3.1 理論分析

3.2 基于多分類器的分布式模型重用

分布式模型重用框架依賴于學(xué)件中對數(shù)據(jù)和模型的規(guī)約表征，然而尋求合適的映射和并非一件容易的事情。但是，上述基于布雷格曼散度和學(xué)件規(guī)約表征的理論分析表明數(shù)據(jù)異構(gòu)情況下，分布式訓(xùn)練的最優(yōu)解是一批分類器的集成。因此，在分布式模型重用框架下引入多分類器來捕獲客戶端數(shù)據(jù)異構(gòu)的成分是一種合理的解決方案。本文稱提出的基于多分類器的分布式模型重用為McDMR，示意圖如圖2。

圖2 使用多分類器的分布式模型重用示意圖Fig.2 Illustration of multiple classifiers based distributed model reuse

3.3 基于多頭分類器和隨機(jī)分類器采樣的優(yōu)化方案

上述基于多分類器的分布式模型重用將一個模型變成了多個模型的集成，因此會帶來額外的存儲、計(jì)算和傳輸開銷。這里提出兩種優(yōu)化方案來節(jié)省存儲、計(jì)算和傳輸開銷。

另一方面，可以將最后的分類器層看作從某個分類器分布中進(jìn)行采樣的過程。具體地，假設(shè)某一個分類器的參數(shù)θ～P(θ)，在客戶端本地訓(xùn)練時只需要從該分布中采樣進(jìn)行訓(xùn)練即可。本文采用最簡單的高斯分布將分類器參數(shù)的采樣過程表示為～N(μ,Σ)，其中是分類器中所有參數(shù)組成的向量，μ和Σ是這些參數(shù)服從的多維高斯分布的均值向量和協(xié)方差矩陣。這里簡化Σ為對角矩陣，并且記其對角矩陣組成的向量為σ。其中，為了端到端地學(xué)習(xí)參數(shù)μ和σ，引入重參數(shù)（reparametrization）技巧。為了從高斯分布里面采樣數(shù)據(jù)，生成一個隨機(jī)向量?，其維度和μ一致，這個隨機(jī)向量的每一個元素都服從標(biāo)準(zhǔn)高斯分布N(0,1.0)，從而可以直接對分類器參數(shù)進(jìn)行采樣，即=μ+?σ。采樣分類器參數(shù)之后，使用神經(jīng)網(wǎng)絡(luò)的前向過程計(jì)算損失，然后使用梯度回傳過程即可獲得參數(shù)μ和σ的梯度。在客戶端本地訓(xùn)練過程中采樣次分別計(jì)算損失，最后使用損失的平均值進(jìn)行優(yōu)化。參數(shù)服務(wù)器聚合過程會對特征提取器的參數(shù)、分類器服從高斯分布的均值和方差分別進(jìn)行參數(shù)平均。由于采用了隨機(jī)分類器采樣，將這種方法稱為McDMR-SC。

本文將McDMR 特別指代3.2 節(jié)中使用多個完整模型的分布式模型重用；McDMR-MH 和McDMR-SC則分別是本節(jié)中提出的兩種基于多頭分類器和隨機(jī)分類器采樣的優(yōu)化方案，這里的分類器相對于完整神經(jīng)網(wǎng)絡(luò)而言只代表最后一層或者最后幾層。圖3展示了所提方法使用的網(wǎng)絡(luò)結(jié)構(gòu)的示意圖，很直觀地可以看出McDMR 使用了多個完整的模型，McDMRMH 使用了共享的特征提取器和多個分類器層，McDMR-SC 則利用重參數(shù)技巧采樣分類器。

圖3 所提算法使用的網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Illustration of networks in proposed methods

4 實(shí)驗(yàn)與結(jié)果

本文在Mnist、Cifar10 和Cifar100 上進(jìn)行實(shí)驗(yàn)驗(yàn)證。主要回答以下兩個問題：（1）使用基于多分類器的分布式模型重用，即McDMR，相較于現(xiàn)有的分布式訓(xùn)練方法，能否帶來更好的性能？（2）使用基于多頭分類器和隨機(jī)分類器采樣的分布式模型重用，即McDMR-MH 和McDMR-SC，相較于McDMR 能否縮減開銷的同時保持較好的性能？

4.1 數(shù)據(jù)集構(gòu)造和參數(shù)設(shè)置

本文使用Mnist、Cifar10 和Cifar100 數(shù)據(jù)集，在這些數(shù)據(jù)集上構(gòu)造不同分布式訓(xùn)練場景進(jìn)行實(shí)驗(yàn)驗(yàn)證。具體地，本文將每個數(shù)據(jù)集根據(jù)數(shù)據(jù)是否獨(dú)立同分布各自構(gòu)造了兩個場景。對于Mnist 數(shù)據(jù)集，其包括55 000 個訓(xùn)練樣本，10 000 個測試樣本。首先，將所有測試樣本放在服務(wù)器端，用來評測分布式訓(xùn)練得到的模型。其次，將訓(xùn)練樣本分散到100 個客戶端，對于數(shù)據(jù)同分布的場景，每個客戶端上約有10×55 個樣本，包括10 個類別，每個類別約55 個樣本；對于數(shù)據(jù)異構(gòu)的場景，本文主要按照類別進(jìn)行劃分，每個客戶端上約有2×275 個樣本，每個客戶端上僅有2 個類別的數(shù)據(jù)，每個類別約275 個樣本，客戶端上類別的選取是均勻隨機(jī)從10 個類中采樣的。對于Cifar10 數(shù)據(jù)集，同樣地，將10 000 個測試樣本用來評測，將50 000 個訓(xùn)練樣本劃分到100 個客戶端，對于數(shù)據(jù)同分布場景，每個客戶端10 個類，每個類約50個樣本；對于數(shù)據(jù)異構(gòu)場景，每個客戶端2 個類，每個類約250 個樣本。對于Cifar100 數(shù)據(jù)集，同樣地，將10 000 個測試樣本用來評測，將50 000 個訓(xùn)練樣本劃分到100 個客戶端，對于數(shù)據(jù)同分布場景，每個客戶端100個類，每個類約5個樣本；對于數(shù)據(jù)異構(gòu)場景，每個客戶端20個類，每個類約25個樣本。本文記這6種場景分別為M-IID、M-NonIID、C10-IID、C10-NonIID、C100-IID、C100-NonIID。例如，C100-NonIID 情況下每個客戶端上的類別分布示意圖如圖4，顏色越深代表某個類別的樣本數(shù)目越多，可以看出每個客戶端上平均分配有20 個類，且客戶端之間的類別分布差異很大。

圖4 C100-NonIID 場景下客戶端數(shù)據(jù)類別分布圖Fig.4 Illustration of clients'class distributions in C100-NonIID

對于Mnist，本文采用簡單的卷積神經(jīng)網(wǎng)絡(luò)，特征提取器包含兩層卷積層，卷積核數(shù)目分別為6 和16，卷積核大小均為5×5，步長為1，填充長度為1，每個卷積層后面使用ReLU 激活函數(shù)和步長為2 的最大池化層。分類器包括三層全連接層，輸入維度為256，中間層維度分別為120 和84，最后一層輸出為10 分類結(jié)果。對于Cifar10 和Cifar100，本文使用卷積神經(jīng)網(wǎng)絡(luò)，特征提取器包括三層卷積層，卷積核數(shù)目分別為32、64、64，卷積核大小都是3×3，步長為1，填充長度為1，每個卷積層后面使用ReLU 激活函數(shù)和步長為2 的最大池化層。分類器包括兩層全連接層，輸入大小為1 024，中間層為128，輸出層為類別數(shù)目10或者100。訓(xùn)練時使用交叉熵?fù)p失，采用的深度學(xué)習(xí)軟件庫為PyTorch。

在所有的實(shí)驗(yàn)中，采用隨機(jī)梯度下降（stochastic gradient descent，SGD）進(jìn)行優(yōu)化，使用的動量大小為0.9，使用恒定的學(xué)習(xí)率0.03，批大小為64。對于Mnist的兩個場景，采用最大迭代輪次=200，每隔2輪在服務(wù)器上的測試集測試一次；對于Cifar10 和Cifar100 的場景，采用最大迭代輪次=1 000，每隔10 輪在服務(wù)器上的測試集測試一次。在所有的場景中，每次客戶端局部訓(xùn)練過程隨機(jī)選取10%的客戶端進(jìn)行訓(xùn)練，每個客戶端在本地?cái)?shù)據(jù)集上迭代2輪。

在本文提出的方法中，主要的超參數(shù)是集成模型的數(shù)量，即前文提及的。對于McDMR 來說，代表的是神經(jīng)網(wǎng)絡(luò)的數(shù)量；對于McDMR-MH 來說，代表的是分類器的數(shù)量；對于McDMR-SC 來說，代表的是分類器采樣的次數(shù)。

4.2 性能比較

本節(jié)主要通過實(shí)驗(yàn)結(jié)果說明提出的基于多分類器的分布式模型重用相較于現(xiàn)有算法可以提升模型性能。這里的性能指的是每個迭代輪次之后服務(wù)器得到的模型在全局測試集上的準(zhǔn)確率。具體地，對比的算法包括：經(jīng)典聯(lián)邦學(xué)習(xí)算法FedAvg，基于正則約束的聯(lián)邦學(xué)習(xí)算法FedProx，基于私有-共享模型的聯(lián)邦學(xué)習(xí)算法FLDA（federated learning for domain adaptation）。本文的方法包括McDMR、McDMRMH 和McDMR-SC。在本文的方法中采用=4。

這些方法在構(gòu)造的分布式訓(xùn)練場景下的收斂曲線分別在圖5～圖7 中展示，分別展示了基于數(shù)據(jù)集Mnist、Cifar10 和Cifar100 的收斂曲線，圖中左右分別展示了IID 和NonIID 場景下的收斂趨勢。首先，McDMR 基本上可以取得最好的性能，尤其是在Cifar10 和Cifar100 數(shù)據(jù)集上。一方面，McDMR 引入了多個模型，使用多分類器進(jìn)行綜合預(yù)測可以提高預(yù)測的準(zhǔn)確率是非常合理的；另一方面，這也在一定程度上驗(yàn)證了使用基于多分類器的分布式模型重用技術(shù)的合理性。另外，在M-NonIID 情形下，McDMR表現(xiàn)略微差一些，且在M-IID 場景下相較于現(xiàn)有算法并沒有明顯的優(yōu)勢。一方面，這主要是因?yàn)镸nist 數(shù)據(jù)集過于簡單，不同算法之間的性能差異本來就很小，在圖中表現(xiàn)為不同算法曲線收斂后基本重合；另一方面，在M-NonIID 情形下，如果只看前半段曲線，可以發(fā)現(xiàn)本文的方法具有更快的收斂速度。從McDMRMH 和McDMR-SC 的角度來觀察，McDMR-MH 的性能會低于McDMR，McDMR-SC 會更低，但是二者都會優(yōu)于FedAvg。這在一定程度上驗(yàn)證了這兩種優(yōu)化方案的有效性，但是受限于優(yōu)化方式過程中采用的一些近似求解，例如McDMR-SC 中引入的重參數(shù)技巧，其性能提升空間尚有待提高。未來的工作是通過更高效的優(yōu)化方式將McDMR-MH 和McDMR-SC的性能盡可能地逼近McDMR。

圖5 基于Mnist數(shù)據(jù)集的性能對比Fig.5 Performance comparison on Mnist

圖6 基于Cifar10 數(shù)據(jù)集的性能對比Fig.6 Performance comparison on Cifar10

圖7 基于Cifar100 數(shù)據(jù)集的性能對比Fig.7 Performance comparison on Cifar100

最后，從數(shù)據(jù)IID 和NonIID 的對比來看，NonIID情形下曲線波動更加明顯，尤其是Cifar10 上的結(jié)果，這說明了數(shù)據(jù)異構(gòu)的確會給分布式訓(xùn)練的穩(wěn)定性帶來巨大的挑戰(zhàn)。但是基于多分類器的分布式模型重用為數(shù)據(jù)異構(gòu)提供了有效的解決方案，因而提出的方法在數(shù)據(jù)異構(gòu)的情形下也會表現(xiàn)出較好的效果。

此外，對于超參數(shù)，本文也進(jìn)行了深入的研究。具體地，在M-IID 和C10-NonIID 兩個場景下分別針對McDMR-MH 和McDMR 中的超參數(shù)進(jìn)行了實(shí)驗(yàn)。設(shè)置超參數(shù)的取值為1、2、4、8、12、16。每種設(shè)置下對應(yīng)的收斂曲線展示在圖8 中，可以看出設(shè)置大于1 的情況基本上都會比單一的模型性能要好，但是并沒有隨著的增大而呈現(xiàn)性能遞增的趨勢。的增大會導(dǎo)致模型容量變大，會帶來兩方面的問題：其一，容易發(fā)生過擬合現(xiàn)象，尤其是在Mnist 這種簡單數(shù)據(jù)集上；其二，模型容量增大會給優(yōu)化過程帶來困難，導(dǎo)致假設(shè)空間變大之后在相同時間下搜索到一個合適解的過程更加困難。一般地，建議設(shè)置為4 或者8。

圖8 對S 具體設(shè)置的擾動實(shí)驗(yàn)Fig.8 Ablation studies on settings of S

4.3 開銷分析

由于McDMR-MH 在多個分類器之間共享了特征提取器，在模型傳輸和具體運(yùn)算時可以節(jié)省開銷。對于McDMR-SC，其參數(shù)量相較于一個單獨(dú)的模型只多出了分類器部分的σ，因而也具有較小的存儲和傳輸開銷。為了進(jìn)一步比較算法運(yùn)行效率，本文在相同硬件設(shè)置下比較C10-NonIID上執(zhí)行5 000次通信迭代所需的運(yùn)行時間，運(yùn)行時間單位為分鐘（min）。實(shí)驗(yàn)所使用CPU 為8 核的Intel Xeon Silver 4110，GPU 為1 塊GeForce RTX 2080。運(yùn)行效率對比如表1，可以發(fā)現(xiàn)FedAvg 所用訓(xùn)練時間最短；由于FedProx 和FLDA 分別引入了額外的正則項(xiàng)以及私有模型，具有更長的訓(xùn)練時間；McDMR 引入了多個模型，需要的訓(xùn)練時間更多，是FedAvg 訓(xùn)練時間的1.51倍；而McDMR-MH 和McDMR-SC 則可以大幅度減少M(fèi)cDMR 的運(yùn)行時長，提高了基于多分類器分布式模型重用技術(shù)的運(yùn)行效率。

表1 C10-NonIID 上算法運(yùn)行效率比較Table 1 Running time comparison on C10-NonIID

5 結(jié)束語

本文針對分布式訓(xùn)練過程中的數(shù)據(jù)異構(gòu)問題提出了分布式模型重用框架，然后基于布雷格曼散度和學(xué)件中的規(guī)約表征進(jìn)行理論分析，并提出了一種基于多分類器的分布式模型重用技術(shù)McDMR。為了提高M(jìn)cDMR 的實(shí)用性，本文提出了基于多頭分類器和隨機(jī)分類器采樣的優(yōu)化方案McDMR-MH 和McDMR-SC 來解決存儲、計(jì)算和傳輸開銷問題。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性?；诜植际侥Ｐ椭赜每蚣芴岢龈行У乃惴ㄊ俏磥碇饕难芯績?nèi)容。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡