何韻詩(shī)
(華南理工大學(xué),廣東 廣州 510641)
聯(lián)邦學(xué)習(xí)本質(zhì)上是1種分布式機(jī)器學(xué)習(xí)框架。聯(lián)邦學(xué)習(xí)中的參與實(shí)體掌握著一部分訓(xùn)練數(shù)據(jù)和計(jì)算資源,能夠保護(hù)自身數(shù)據(jù)的隱私安全,通過(guò)合作訓(xùn)練得出反映全局?jǐn)?shù)據(jù)特征的模型[1-3]。聯(lián)邦學(xué)習(xí)與傳統(tǒng)學(xué)習(xí)的本質(zhì)差異在于實(shí)體間的互相信任問(wèn)題。在聯(lián)邦學(xué)習(xí)過(guò)程中,基于對(duì)自身利益的保護(hù),各實(shí)體方的信任度不同。聯(lián)邦學(xué)習(xí)提供的共享學(xué)習(xí)模式能夠使數(shù)據(jù)保持原有的狀態(tài),使系統(tǒng)具有高效性、隱私性以及可用性[4]。
邊緣計(jì)算是目前主流的1種分布式計(jì)算技術(shù),能夠彌補(bǔ)云計(jì)算運(yùn)行中造成的能耗大和隱私泄露問(wèn)題。隨著邊緣計(jì)算的不斷發(fā)展,它能夠?yàn)樵朴?jì)算模式中敏感隱私數(shù)據(jù)提供保護(hù)機(jī)制。相關(guān)研究表明,基于聯(lián)邦學(xué)習(xí)的邊緣計(jì)算能夠利用數(shù)據(jù)建模解決數(shù)據(jù)隱私方面存在的安全問(wèn)題[5]。
聯(lián)邦學(xué)習(xí)是一種機(jī)器學(xué)習(xí)框架,在保障數(shù)據(jù)信息安全的狀態(tài)下,可以實(shí)現(xiàn)數(shù)據(jù)共享和數(shù)據(jù)參與方之間的協(xié)作訓(xùn)練。參與方能夠通過(guò)互聯(lián)網(wǎng)技術(shù)與邊緣服務(wù)器建模,構(gòu)建出全局模型[6]。因此,聯(lián)邦學(xué)習(xí)能夠使邊緣計(jì)算應(yīng)用于安全級(jí)別更高的場(chǎng)景?;诼?lián)邦學(xué)習(xí)的邊緣計(jì)算構(gòu)建的模型能夠?qū)崿F(xiàn)數(shù)據(jù)信息的傳輸[7]。
聯(lián)邦學(xué)習(xí)的概念最初是由谷歌的McMahan于2017年提出的,我國(guó)在2018年人工智能大會(huì)上詳細(xì)地介紹了聯(lián)邦學(xué)習(xí)的具體研究方向。1年后,我國(guó)成為了世界上第1個(gè)聯(lián)邦學(xué)習(xí)框架的開(kāi)創(chuàng)者,至今已為國(guó)內(nèi)外多家企業(yè)提供了相關(guān)服務(wù),實(shí)現(xiàn)了聯(lián)邦學(xué)習(xí)的廣泛應(yīng)用[8]。
聯(lián)邦學(xué)習(xí)能夠?yàn)閰⑴c方提供協(xié)同合作和安全學(xué)習(xí)的協(xié)議。作為新型的學(xué)習(xí)機(jī)制,聯(lián)邦學(xué)習(xí)能夠在保障數(shù)據(jù)隱私不被侵害的情況下,統(tǒng)一建模多個(gè)參與方的數(shù)據(jù),使多個(gè)客戶(hù)端能夠在同一中央服務(wù)器中進(jìn)行協(xié)同訓(xùn)練,同時(shí)保證各參與方的數(shù)據(jù)隱私不被公開(kāi)[9]。聯(lián)邦學(xué)習(xí)在未來(lái)的發(fā)展中具有十分廣闊的應(yīng)用前景,其模型如圖1所示。
圖1 聯(lián)邦學(xué)習(xí)模型
聯(lián)邦學(xué)習(xí)中,將海量數(shù)據(jù)的參與方設(shè)為N,其中各參與方擁有的數(shù)據(jù)用{D1,D2,…,DN}表示,以構(gòu)建1個(gè)模型MFED。傳統(tǒng)的學(xué)習(xí)方法是將所有參與方擁有的海量數(shù)據(jù)集中在一起,用D={D1∪D2…DN}來(lái)表示,以構(gòu)建出1個(gè)模型MSUM。聯(lián)邦學(xué)習(xí)的過(guò)程可以表述如下。第一,系統(tǒng)初始化。系統(tǒng)服務(wù)器明確學(xué)習(xí)目標(biāo)和學(xué)習(xí)模型后,能夠發(fā)布到全局模型中,并指定參數(shù)效率。第二,模型訓(xùn)練。聯(lián)邦學(xué)習(xí)參與方能夠使用本身的數(shù)據(jù)在全局模型中進(jìn)行模擬訓(xùn)練,通過(guò)最小化損失函數(shù)推算本地模型,將梯度參數(shù)上傳至服務(wù)器。第三,服務(wù)器聚合。服務(wù)器接收到各參與方上傳的模型參數(shù),進(jìn)行聯(lián)邦學(xué)習(xí)得到1個(gè)全新的全局模型,然后更新全局模型參數(shù)。第四,全局模型。當(dāng)參與方使用全新的全局模型參數(shù)更新本地模型后,再上傳本地模型的梯度參數(shù)。重復(fù)操作上述步驟,將獲得全局模型。相關(guān)研究表明,上述聯(lián)邦學(xué)習(xí)過(guò)程能夠使參與方達(dá)到理想模型場(chǎng)景。
保護(hù)參與方的隱私安全是聯(lián)邦學(xué)習(xí)的重要目的。在聯(lián)邦學(xué)習(xí)過(guò)程中,所有參與方共享1個(gè)參數(shù)模型,因此參與方實(shí)際的數(shù)據(jù)處于隱藏不被公開(kāi)的狀態(tài)。然而,因?yàn)閰⑴c方加入或退出時(shí)的數(shù)據(jù)信息處于公開(kāi)狀態(tài),所以存在隱私被竊取或被泄露的風(fēng)險(xiǎn)。相關(guān)研究人員證實(shí),根據(jù)參與方的加入與退出信息能夠檢測(cè)相關(guān)的隱私信息。由于服務(wù)器沒(méi)有權(quán)限訪問(wèn)參與方,會(huì)使惡意扮演參與方的不法之人偽裝進(jìn)入開(kāi)展聯(lián)邦學(xué)習(xí),進(jìn)而竊取其他參與方的隱私。此外,聯(lián)邦學(xué)習(xí)的服務(wù)器存在一定的安全風(fēng)險(xiǎn)[10]。例如,當(dāng)聯(lián)邦學(xué)習(xí)的服務(wù)器出現(xiàn)故障時(shí),惡意參與方往往有機(jī)可乘,利用故障服務(wù)器竊取或泄露其他參與方的相關(guān)隱私。參與聯(lián)邦學(xué)習(xí)的參與方擁有的數(shù)據(jù)和價(jià)值存在一定差異,如果參與方掌握大量的數(shù)據(jù)且數(shù)據(jù)價(jià)值較高,那么應(yīng)該做好隱私保護(hù)工作。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,產(chǎn)生的數(shù)據(jù)量成倍增長(zhǎng),網(wǎng)絡(luò)存儲(chǔ)空間面臨著巨大壓力,而互聯(lián)網(wǎng)技術(shù)對(duì)網(wǎng)絡(luò)服務(wù)的響應(yīng)速度和數(shù)據(jù)隱私性有著極高的要求。云計(jì)算技術(shù)快速高效地分析大量網(wǎng)絡(luò)數(shù)據(jù),而將數(shù)據(jù)安全有效地傳輸至云計(jì)算中心卻有一定難度。在傳輸海量數(shù)據(jù)的過(guò)程中,云計(jì)算通常會(huì)因?yàn)閿?shù)據(jù)處理耗費(fèi)大量的時(shí)間,降低了用戶(hù)的體驗(yàn)感。
移動(dòng)終端設(shè)備連接互聯(lián)網(wǎng)會(huì)產(chǎn)生海量的數(shù)據(jù)信息?;趥鹘y(tǒng)的云計(jì)算技術(shù)無(wú)法及時(shí)有效地處理海量的數(shù)據(jù)信息,因此邊緣計(jì)算的概念首次被提出。邊緣計(jì)算是1種在接近智能手機(jī)或移動(dòng)終端的地方提供云計(jì)算能力的新型技術(shù)。邊緣計(jì)算能夠?qū)⒂?jì)算能力下沉到無(wú)線側(cè),是1種給用戶(hù)提供數(shù)據(jù)計(jì)算和數(shù)據(jù)儲(chǔ)存的新型計(jì)算模型,能夠極大程度上提高云計(jì)算技術(shù)的數(shù)據(jù)存儲(chǔ)處理能力和用戶(hù)請(qǐng)求的響應(yīng)速度,減少網(wǎng)絡(luò)帶寬的損耗,進(jìn)而保證數(shù)據(jù)信息的隱私與安全。邊緣算法模型如圖2所示。
圖2 邊緣算法模型
參與聯(lián)邦學(xué)習(xí)的參與方和服務(wù)器的可信度不同,因此數(shù)據(jù)信息面臨的安全隱私風(fēng)險(xiǎn)也不相同。按照參與方的可信任程度,將信息安全的領(lǐng)域劃分為理想模型和惡意模型。理想模型是指各參與方都能夠嚴(yán)格按照聯(lián)邦學(xué)習(xí)的相關(guān)協(xié)議進(jìn)行計(jì)算,不違反規(guī)則做過(guò)多的運(yùn)算,并且不使用隱私保護(hù)技術(shù)隱藏敏感信息。但是,理想模型是不存在的。要通過(guò)隱私保護(hù)技術(shù)解決惡意參與方帶來(lái)的敏感信息,需要加大聯(lián)邦學(xué)習(xí)的力度,完善聯(lián)邦學(xué)習(xí)的相關(guān)制度。聯(lián)邦學(xué)習(xí)是目前及未來(lái)互聯(lián)網(wǎng)數(shù)據(jù)信息隱私安全的主要研究方向。
針對(duì)單一個(gè)體參與方的隱私保護(hù)來(lái)說(shuō),聯(lián)邦學(xué)習(xí)采用的是最理想且先進(jìn)的差分隱私法。差分隱私最初是由DWORK于2006年提出的,是聯(lián)邦學(xué)習(xí)隱私保護(hù)模型的1種,用于保障參與方信息安全。差分隱私不會(huì)只針對(duì)某1個(gè)惡意的攻擊者,即便攻擊者事先掌握了系統(tǒng)中的某1條數(shù)據(jù)信息,也不能推斷出其余未知的信息內(nèi)容。差分隱私有著強(qiáng)大的數(shù)學(xué)計(jì)算方法,能抵擋入侵者的攻擊,從而保護(hù)單個(gè)參與者的隱私安全。
ROBINC于2007年提出了關(guān)于差分隱私的用戶(hù)級(jí)算法,能夠隱藏參與方在聯(lián)邦學(xué)習(xí)過(guò)程中產(chǎn)生的數(shù)據(jù)信息。為有效保護(hù)參與方的隱私安全,設(shè)計(jì)1種差分隱私的協(xié)議機(jī)制,只需在參與方聯(lián)邦學(xué)習(xí)的數(shù)據(jù)信息上添加1個(gè)噪聲即可。
RYU于2008年提出了關(guān)于差分隱私應(yīng)用于聯(lián)邦學(xué)習(xí)模型的方法,利用差分隱私的交替方向乘子法(Alternating Direction Method of Multipliers,ADMM),解決參與方之間通信受到的外來(lái)惡意攻擊。有學(xué)者提出利用差分隱私方法構(gòu)建新型的聯(lián)邦學(xué)習(xí)框架,能夠給參與聯(lián)邦學(xué)習(xí)用戶(hù)方的數(shù)據(jù)信息提供更高級(jí)別的隱私保護(hù)。結(jié)合聯(lián)邦學(xué)習(xí)技術(shù)與差分隱私算法,不僅能使單獨(dú)的參與方隱私安全受到更好的保護(hù),還能夠有效防止惡意參與方的攻擊。
聯(lián)邦學(xué)習(xí)過(guò)程中,服務(wù)器沒(méi)有權(quán)限直接訪問(wèn)參與方,因此無(wú)法保證每1個(gè)參與方的可信度,其中難免會(huì)有惡意的參與方潛入聯(lián)邦學(xué)習(xí)中盜取或泄露相關(guān)隱私。聯(lián)邦學(xué)習(xí)通過(guò)差分隱私添加噪聲干擾的方式,保護(hù)單一參與方的隱私。但是,經(jīng)過(guò)噪聲干擾的數(shù)據(jù),二次傳輸時(shí)會(huì)存在一段空白,因此存在一定的隱私風(fēng)險(xiǎn)。
傳統(tǒng)的加密技術(shù)十分復(fù)雜且計(jì)算量較大,無(wú)法應(yīng)用于存儲(chǔ)空間小或者計(jì)算能力差的設(shè)備。為防止有惡意參與方盜取隱私行為,需采用更加精密的加密技術(shù)。同態(tài)加密是1種能夠?qū)崿F(xiàn)多方計(jì)算的技術(shù),不需要解密密文,只需通過(guò)代數(shù)運(yùn)算便能夠加密。同態(tài)加密經(jīng)過(guò)一系列運(yùn)算加密后的結(jié)果與經(jīng)過(guò)破譯后的效果相同。
差分隱私算法與同態(tài)加密技術(shù)能夠極大程度上提高隱私保護(hù)效率。針對(duì)單一的參與方使用差分隱私方法中的噪聲干擾,結(jié)合同態(tài)加密技術(shù)能夠在聯(lián)邦學(xué)習(xí)過(guò)程中消除部分噪聲的干擾,從而更好地保護(hù)隱私,防范惡意參與方與不可信的服務(wù)器聯(lián)合竊取隱私,保護(hù)參與方在聯(lián)邦學(xué)習(xí)的過(guò)程中加入或退出相關(guān)信息。
聯(lián)邦學(xué)習(xí)僅通過(guò)傳輸模型的參數(shù),不需要共享實(shí)際的數(shù)據(jù),能夠解決各參與方的數(shù)據(jù)孤島問(wèn)題。大數(shù)據(jù)環(huán)境下,海量的數(shù)據(jù)信息出現(xiàn)在互聯(lián)網(wǎng)中,需要保護(hù)參與方的隱私,提高聯(lián)邦學(xué)習(xí)的效率。目前,許多專(zhuān)家及學(xué)者結(jié)合先進(jìn)的區(qū)塊鏈技術(shù)與聯(lián)邦學(xué)習(xí),通過(guò)適當(dāng)?shù)募?lì)機(jī)制,大大提高了參與方聯(lián)邦學(xué)習(xí)的主動(dòng)性與積極性。
此前,聯(lián)邦學(xué)習(xí)中的激勵(lì)機(jī)制和公平研究多以區(qū)塊鏈技術(shù)開(kāi)展。激勵(lì)機(jī)制是為了吸引更多掌握著有價(jià)值數(shù)據(jù)的參與方加入聯(lián)邦學(xué)習(xí),提高聯(lián)邦學(xué)習(xí)的模型的完整性。區(qū)塊鏈技術(shù)作為目前先進(jìn)的信息技術(shù),能夠給聯(lián)邦學(xué)習(xí)的激勵(lì)機(jī)制提供安全保障。目前,這方面的研究尚未成熟,需要不斷探索和研究區(qū)塊鏈技術(shù)與聯(lián)邦學(xué)習(xí)。
邊緣計(jì)算成為代替云計(jì)算的1種新型計(jì)算技術(shù),能夠精確計(jì)算海量數(shù)據(jù),經(jīng)過(guò)存儲(chǔ)、傳輸、共享以及隱私保護(hù)等方式嚴(yán)格保密數(shù)據(jù)。聯(lián)邦學(xué)習(xí)是1種新型分布式機(jī)器學(xué)習(xí)方式,將其應(yīng)用在邊緣計(jì)算中能夠讓邊緣設(shè)備的數(shù)據(jù)信息保持原有的狀態(tài),并協(xié)同相關(guān)的機(jī)器模型共同訓(xùn)練。聯(lián)邦學(xué)習(xí)技術(shù)能夠?yàn)檫吘売?jì)算的數(shù)據(jù)信息提供隱私保護(hù),而邊緣計(jì)算能夠基于聯(lián)邦學(xué)習(xí)實(shí)現(xiàn)互聯(lián)網(wǎng)技術(shù)的新跨越。因此,基于聯(lián)邦學(xué)習(xí)的邊緣計(jì)算是目前及未來(lái)科學(xué)技術(shù)領(lǐng)域中的重要研究方向。