沈林江,仇樹卿,崔超,許俊東,李兆濱, 耿曉巧
浪潮通信信息系統(tǒng)有限公司,算力網(wǎng)絡(luò)研究院,山東 濟(jì)南 250100
互聯(lián)網(wǎng)、邊緣計(jì)算等技術(shù)的快速發(fā)展,使得數(shù)據(jù)成為促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展的重要因素?;谖谋尽D片、視頻等海量數(shù)據(jù),人工智能、大數(shù)據(jù)、大模型等技術(shù)得以蓬勃發(fā)展,并在金融、安防、娛樂等眾多領(lǐng)域發(fā)揮重要作用。
海量數(shù)據(jù)處理需要以云數(shù)據(jù)中心、智算中心、超算中心等提供的巨大的存儲(chǔ)和計(jì)算能力為基礎(chǔ)。從區(qū)域位置上,我國(guó)當(dāng)前面臨著東西部數(shù)字經(jīng)濟(jì)、算力資源、綠能供給等不平衡問題。相比于西部地區(qū),東部地區(qū)數(shù)字經(jīng)濟(jì)存在一定優(yōu)勢(shì),與此同時(shí),東部地區(qū)數(shù)字經(jīng)濟(jì)的發(fā)展與有限的算力供給和較高的能耗水平矛盾日益凸顯?;诖?,國(guó)家正式提出東數(shù)西算工程,充分發(fā)揮東部經(jīng)濟(jì)優(yōu)勢(shì)和西部能源優(yōu)勢(shì)等,以促進(jìn)東西部協(xié)調(diào)發(fā)展,提升區(qū)域算力調(diào)度水平,加快推進(jìn)數(shù)字基礎(chǔ)設(shè)施建設(shè)[1]。
東數(shù)西算工程需要將東部省份部分調(diào)用頻率較低的冷數(shù)據(jù)流通到西部省份提供的存儲(chǔ)資源池內(nèi),將調(diào)用頻率較高的熱數(shù)據(jù)存儲(chǔ)在本地資源池內(nèi),并在業(yè)務(wù)發(fā)生時(shí)實(shí)時(shí)調(diào)用相關(guān)數(shù)據(jù)進(jìn)行服務(wù)[2]。當(dāng)前,產(chǎn)業(yè)界和學(xué)術(shù)界在智慧交通[3]、視頻渲染[4]、跨資源池存儲(chǔ)[4]、氣象行業(yè)[5]等展開了廣泛分析和驗(yàn)證。
從數(shù)據(jù)流通的角度,推進(jìn)東數(shù)西算工程有利于推動(dòng)實(shí)現(xiàn)數(shù)據(jù)要素的跨區(qū)域融通,解決東西部數(shù)據(jù)要素市場(chǎng)發(fā)展不均衡問題[6]。東數(shù)西算需要解決的關(guān)鍵問題主要包括:(1)東數(shù)西算場(chǎng)景下,盡管大多數(shù)情況下不涉及數(shù)據(jù)主體的變更,但存儲(chǔ)位置和維護(hù)權(quán)限會(huì)發(fā)生變化。東部省份需要保證流通數(shù)據(jù)符合相關(guān)數(shù)據(jù)安全要求,并進(jìn)行數(shù)據(jù)加解密等操作保證傳輸安全[7]。西部省份一方面需要保證存儲(chǔ)、銷毀等數(shù)據(jù)管理的安全性,另一方面需要保證數(shù)據(jù)服務(wù)過程中的安全性。(2)相比于本地化的數(shù)據(jù)處理,東數(shù)西算下的數(shù)據(jù)搬遷、安全保障、異地處理等,會(huì)導(dǎo)致時(shí)延、能耗、成本等變化,并且數(shù)據(jù)的冷熱分級(jí)標(biāo)準(zhǔn)和安全標(biāo)準(zhǔn)會(huì)隨著業(yè)務(wù)的動(dòng)態(tài)調(diào)整而變化[7]。相關(guān)數(shù)據(jù)遷移的策略需要均衡多個(gè)系統(tǒng)指標(biāo)進(jìn)行實(shí)時(shí)優(yōu)化,否則會(huì)導(dǎo)致業(yè)務(wù)服務(wù)質(zhì)量的下降或能耗與成本的上升,與東數(shù)西算工程目標(biāo)背道而馳。
在安全性方面,當(dāng)前研究方向主要包括存儲(chǔ)安全、傳輸安全以及流通安全等[8]。結(jié)合數(shù)據(jù)管理的分類分級(jí)策略[7],存儲(chǔ)安全相關(guān)研究主要集中于訪問控制、數(shù)據(jù)加密、數(shù)據(jù)校驗(yàn)以及備份策略等[9],傳輸安全主要集中于數(shù)據(jù)加密、身份認(rèn)證、密鑰管理等方面[10];在流通安全方面,隱私計(jì)算由于所具備的“數(shù)據(jù)可用不可見”的特性,成為解決數(shù)據(jù)流通安全問題的主流方法,在金融、政務(wù)等場(chǎng)景中有廣泛應(yīng)用。隱私計(jì)算主要包括聯(lián)邦學(xué)習(xí)、可信計(jì)算(TEE)等,其中可信計(jì)算當(dāng)前依賴于硬件支持[11],聯(lián)邦學(xué)習(xí)以密碼學(xué)為基礎(chǔ)[12]。當(dāng)前隱私計(jì)算相關(guān)技術(shù)存在數(shù)據(jù)治理困難、計(jì)算效率低下、部署復(fù)雜等問題[12-13],在聯(lián)邦學(xué)習(xí)方面,相關(guān)研究重點(diǎn)聚焦于模型壓縮、計(jì)算策略優(yōu)化等方面[14-15];在TEE方面,學(xué)術(shù)界主要聚焦于對(duì)其計(jì)算效率的性能分析以及為應(yīng)用開發(fā)提供容器化環(huán)境支撐等[16-17]。論文[16]和論文[17]詳細(xì)討論了TEE 環(huán)境下對(duì)應(yīng)用的時(shí)延影響,結(jié)果表明,相比于REE 環(huán)境,TEE 下的計(jì)算時(shí)延損耗較小,而在內(nèi)存訪問方面可能導(dǎo)致較大的時(shí)延差異,在應(yīng)用訪問總數(shù)據(jù)量相同的情況下,內(nèi)存訪問與訪問的數(shù)據(jù)范圍、緩存空間等密切相關(guān)。
在數(shù)據(jù)流通策略方面,相關(guān)學(xué)者對(duì)邊緣計(jì)算場(chǎng)景下的增強(qiáng)現(xiàn)實(shí)、元宇宙等數(shù)據(jù)密集型應(yīng)用的數(shù)據(jù)分級(jí)、數(shù)據(jù)傳輸和數(shù)據(jù)緩存策略進(jìn)行了廣泛的研究[18-20]。其中,論文[18]基于用戶訪問頻次等行為實(shí)現(xiàn)邊緣計(jì)算環(huán)境下的熱點(diǎn)數(shù)據(jù)緩存策略優(yōu)化,論文[19]通過對(duì)邊緣計(jì)算中的數(shù)據(jù)緩存、路由策略、計(jì)算卸載等的控制,實(shí)現(xiàn)了系統(tǒng)時(shí)延、吞吐率和資源利用率的最優(yōu)化,論文[20]通過在線強(qiáng)化學(xué)習(xí),對(duì)邊緣節(jié)點(diǎn)的緩存分配策略進(jìn)行動(dòng)態(tài)優(yōu)化以實(shí)現(xiàn)系統(tǒng)效能最優(yōu)。相比之下,當(dāng)前東數(shù)西算相關(guān)應(yīng)用主要基于訪問頻次、存儲(chǔ)時(shí)間等單一業(yè)務(wù)規(guī)則制定相關(guān)策略,需要進(jìn)一步分析能耗、成本、時(shí)延、安全性等相關(guān)因子,進(jìn)行靈活、綜合的策略生成[21]。
基于此,本文從數(shù)據(jù)的冷熱標(biāo)準(zhǔn)定義角度分析東數(shù)西算下的數(shù)據(jù)流通策略控制問題。其主要挑戰(zhàn)在于建立東數(shù)西算的系統(tǒng)模型以及構(gòu)建綜合時(shí)延、能耗、成本等多個(gè)維度的系統(tǒng)優(yōu)化策略。本文主要貢獻(xiàn)在于:基于東數(shù)西算的關(guān)鍵流程,系統(tǒng)分析其中涉及的能耗、成本、時(shí)延等關(guān)鍵業(yè)務(wù)指標(biāo);引入深度強(qiáng)化學(xué)習(xí),對(duì)東數(shù)西算中的數(shù)據(jù)流通策略進(jìn)行求解,實(shí)現(xiàn)對(duì)系統(tǒng)綜合業(yè)務(wù)指標(biāo)的最優(yōu)化;基于仿真數(shù)據(jù)驗(yàn)證了本文方法的有效性,并對(duì)本文中方法展開總結(jié)和研究展望。
如圖1所示,本文將東數(shù)西算的關(guān)鍵流程劃分為數(shù)據(jù)分類分級(jí)、數(shù)據(jù)傳輸以及數(shù)據(jù)服務(wù)三部分。
圖1 東數(shù)西算數(shù)據(jù)要素流通關(guān)鍵流程Fig.1 Architecture of data element circulation under the “East-West Computing Resource Transfer” project
數(shù)據(jù)分類分級(jí):如圖中藍(lán)色框圖所示,東部省份需要根據(jù)數(shù)據(jù)安全標(biāo)準(zhǔn)體系確定能夠傳輸?shù)轿鞑渴》莸臄?shù)據(jù),并且根據(jù)業(yè)務(wù)需求,定義冷熱數(shù)據(jù)標(biāo)準(zhǔn)[2]。業(yè)務(wù)調(diào)用次數(shù)通常與數(shù)據(jù)存儲(chǔ)時(shí)間有關(guān),在數(shù)據(jù)存儲(chǔ)周期一定的情況下,可以通過確定百分比閾值的形式,將存儲(chǔ)時(shí)間較長(zhǎng)的數(shù)據(jù)定義為冷數(shù)據(jù),其余數(shù)據(jù)定義為熱數(shù)據(jù)。
數(shù)據(jù)傳輸:如圖中橙色框圖所示,數(shù)據(jù)的冷熱標(biāo)準(zhǔn)會(huì)隨著業(yè)務(wù)的動(dòng)態(tài)調(diào)整而變化,本文將數(shù)據(jù)傳輸看作雙向流程,在數(shù)據(jù)分類分級(jí)標(biāo)準(zhǔn)調(diào)整使得冷數(shù)據(jù)體量變大時(shí),東部省份首先需要進(jìn)行數(shù)據(jù)加密,然后傳輸?shù)轿鞑?,在西部進(jìn)行加密存儲(chǔ),如圖中藍(lán)色流程;反之需要將部分?jǐn)?shù)據(jù)回傳到東部,將數(shù)據(jù)進(jìn)行解密后進(jìn)行存儲(chǔ),如圖中橙色流程。
數(shù)據(jù)服務(wù):如圖中綠色框圖所示,數(shù)據(jù)服務(wù)請(qǐng)求需要根據(jù)業(yè)務(wù)訪問的數(shù)據(jù)位置實(shí)時(shí)下發(fā)到東部省份和西部省份,為了簡(jiǎn)化分析過程,本文將數(shù)據(jù)存儲(chǔ)和銷毀等數(shù)據(jù)管理和應(yīng)用調(diào)用統(tǒng)一為數(shù)據(jù)服務(wù)過程。為了保證數(shù)據(jù)服務(wù)的安全性,西部省份通常采用加密形式進(jìn)行數(shù)據(jù)處理,如可信執(zhí)行[11]等,一般而言,對(duì)于安全性的要求會(huì)導(dǎo)致時(shí)延增大,因此導(dǎo)致西部省份的處理時(shí)延相對(duì)較大[12]。
由于加解密、網(wǎng)絡(luò)傳輸?shù)葧?huì)導(dǎo)致時(shí)延、能耗、成本的增加,數(shù)據(jù)分類分級(jí)、數(shù)據(jù)傳輸與數(shù)據(jù)服務(wù)通常為異步執(zhí)行,即在多次數(shù)據(jù)服務(wù)后,根據(jù)訪問的數(shù)據(jù)位置以及服務(wù)質(zhì)量,調(diào)整數(shù)據(jù)分類分級(jí)標(biāo)準(zhǔn),并進(jìn)行數(shù)據(jù)傳輸。
由上述流程可見,東數(shù)西算過程中的時(shí)延主要包括數(shù)據(jù)傳輸時(shí)延和數(shù)據(jù)處理時(shí)延。能耗方面,盡管西部省份的處理能耗、存儲(chǔ)能耗要小于東部,但系統(tǒng)能耗還需要考慮數(shù)據(jù)傳輸能耗,如果頻繁地進(jìn)行大量的東西部數(shù)據(jù)傳輸,數(shù)據(jù)應(yīng)用能耗難以彌合數(shù)據(jù)傳輸能耗,導(dǎo)致系統(tǒng)整體能耗增高。成本方面與能耗相似,需要從傳輸和存儲(chǔ)、調(diào)用的整體進(jìn)行分析。由于數(shù)據(jù)服務(wù)過程中傳輸?shù)闹噶詈突貍鹘Y(jié)果數(shù)據(jù)量相對(duì)較少,本文忽略該部分導(dǎo)致的時(shí)延、能耗、成本等因素。
作為東數(shù)西算任務(wù)發(fā)起方的東部省份,為了實(shí)現(xiàn)系統(tǒng)整體能耗、成本和服務(wù)時(shí)延的最優(yōu)化,需要?jiǎng)討B(tài)調(diào)整冷熱數(shù)據(jù)的劃分標(biāo)準(zhǔn),以平衡數(shù)據(jù)傳輸和數(shù)據(jù)服務(wù)在能耗和成本中的矛盾。因此,本文將東數(shù)西算下數(shù)據(jù)流通策略定義為冷熱數(shù)據(jù)的數(shù)據(jù)分類問題。
東數(shù)西算場(chǎng)景下,設(shè)數(shù)據(jù)總量為T,大多數(shù)業(yè)務(wù)場(chǎng)景下要求數(shù)據(jù)存儲(chǔ)周期固定,因此可以近似地認(rèn)為數(shù)據(jù)總量T不變。首先按照存儲(chǔ)時(shí)間由短至長(zhǎng)對(duì)數(shù)據(jù)進(jìn)行排序,并將數(shù)據(jù)按照百分比等分為N段,即T={Tp1,Tp2…TpN} ,設(shè)當(dāng)前冷熱數(shù)據(jù)分類閾值為ps(ps∈{p1,p2…pN} ),則將數(shù)據(jù){Tp1,Tp2…,Tpi} (pi=ps)定義為熱數(shù)據(jù),保存在東部省份,將數(shù)據(jù){Tpi+1,Tpi+2…,TpN} ,(當(dāng)ps=pN時(shí),為空)為冷數(shù)據(jù),將其發(fā)送至西部省份。
當(dāng)分類閾值ps發(fā)生變化時(shí),設(shè)上一個(gè)分類周期的分類閾值為pold,當(dāng)前分類周期的閾值為pnew(pnew≠pold)。則如果pnew>pold,冷數(shù)據(jù)減少,熱數(shù)據(jù)增多,則將{Tpold+1,Tpold+2…,Tpnew}回傳到東部省份,反之需要將{Tpnew+1,Tpnew+2…,Tpold}發(fā)送到西部省份。
定義數(shù)據(jù)服務(wù)任務(wù)為S,S主要由服務(wù)需要訪問的數(shù)據(jù)范圍ds、需要訪問的最大數(shù)據(jù)位置as以及服務(wù)時(shí)延要求ts組成,即S={ds,as,ts} 。對(duì)于給定數(shù)據(jù)服務(wù),首先對(duì)比最大數(shù)據(jù)位置as與當(dāng)前數(shù)據(jù)分類策略ps,如果as≤ps,則只需將數(shù)據(jù)任務(wù)下發(fā)至東部省份,否則將數(shù)據(jù)任務(wù)同時(shí)下發(fā)至西部省份。需要注意的是,數(shù)據(jù)范圍ds不等同于應(yīng)用處理的數(shù)據(jù)量,例如,某個(gè)應(yīng)用可能多次訪問同一個(gè)內(nèi)存空間的數(shù)據(jù)提供服務(wù),盡管其數(shù)據(jù)處理數(shù)據(jù)量較大,由于其訪問范圍小,能夠充分利用芯片緩存技術(shù),有效降低系統(tǒng)IO負(fù)擔(dān)[16-17],在涉及數(shù)據(jù)加解密等處理流程中對(duì)系統(tǒng)性能有較大影響。實(shí)際系統(tǒng)中,M個(gè)數(shù)據(jù)服務(wù)任務(wù)組成系統(tǒng)待處理的任務(wù)隊(duì)列Q,即Q={S1,S2,…SM} 。
一般而言,數(shù)據(jù)分類與數(shù)據(jù)服務(wù)可以異步進(jìn)行,例如在進(jìn)行多次數(shù)據(jù)服務(wù)后調(diào)整數(shù)據(jù)分類策略。本文主要分析數(shù)據(jù)分類策略對(duì)系統(tǒng)時(shí)延、能耗等的影響,為簡(jiǎn)化系統(tǒng),認(rèn)為數(shù)據(jù)分類與數(shù)據(jù)服務(wù)同步進(jìn)行。僅需調(diào)整系統(tǒng)優(yōu)化目標(biāo)計(jì)算方法和分類策略的執(zhí)行頻次,即能夠進(jìn)一步推廣到異步情況。
從時(shí)延、能耗、成本評(píng)估當(dāng)前分類分級(jí)策略下的整體性能,系統(tǒng)時(shí)延主要由數(shù)據(jù)傳輸時(shí)延和數(shù)據(jù)處理時(shí)延組成,設(shè)分類閾值ps發(fā)生變化時(shí)需要傳輸?shù)臄?shù)據(jù)量為T′,單位數(shù)據(jù)傳輸時(shí)延為t0,則數(shù)據(jù)傳輸時(shí)延為t0T′,設(shè)數(shù)據(jù)處理時(shí)延為t1,則系統(tǒng)時(shí)延可以表示為:
設(shè)單位數(shù)據(jù)傳輸能耗為e0,數(shù)據(jù)處理能耗為e1,則系統(tǒng)整體能耗可以表示為:
設(shè)單位數(shù)據(jù)傳輸成本為c0,數(shù)據(jù)處理成本為c1,則系統(tǒng)整體成本可以表示為:
則對(duì)于某次數(shù)據(jù)服務(wù),評(píng)估系統(tǒng)整體性能的回報(bào)函數(shù)可以定義為:
回報(bào)函數(shù)第一項(xiàng)衡量實(shí)際數(shù)據(jù)服務(wù)時(shí)延是否能夠滿足任務(wù)要求,第二項(xiàng)和第三項(xiàng)分別衡量系統(tǒng)的能耗和成本性能。其中α,β,γ分別為時(shí)延、能耗、成本的權(quán)重系數(shù),在實(shí)際應(yīng)用中,需要根據(jù)不同目標(biāo)的數(shù)據(jù)量級(jí)、東西部差異性以及業(yè)務(wù)場(chǎng)景對(duì)目標(biāo)的偏好程度定義。
公式(4)所示的回報(bào)函數(shù)綜合了系統(tǒng)時(shí)延、能耗、成本等多個(gè)業(yè)務(wù)指標(biāo),本文采用深度強(qiáng)化學(xué)習(xí)(DRL)對(duì)上述策略進(jìn)行求解。基于當(dāng)前生產(chǎn)實(shí)踐中采用訪問頻次、存儲(chǔ)時(shí)間等分類標(biāo)準(zhǔn)[2],分別采用隨機(jī)算法、貪心算法作為基線模型,以驗(yàn)證深度強(qiáng)化學(xué)習(xí)算法優(yōu)化系統(tǒng)回報(bào)函數(shù)的優(yōu)勢(shì)。
對(duì)于每次數(shù)據(jù)分類周期,隨機(jī)算法(Random)隨機(jī)生成一個(gè)分類閾值ps。隨機(jī)算法不需要任何系統(tǒng)自身和外部任務(wù)信息,相比于其他算法,盡管其可能表現(xiàn)效果較差,但隨機(jī)探索能力能夠在一定程度上反映系統(tǒng)性質(zhì),可以作為其他算法的基線模型。
在新的數(shù)據(jù)服務(wù)請(qǐng)求到達(dá)時(shí),系統(tǒng)存在兩種貪心選擇,選擇1:保持pnew=pold,該策略能夠盡可能避免數(shù)據(jù)搬遷導(dǎo)致的額外成本、時(shí)延和能耗負(fù)擔(dān),但其可能導(dǎo)致時(shí)延服務(wù)質(zhì)量的降低;選擇2:令pnew=as,即總是保持將應(yīng)用訪問的數(shù)據(jù)搬遷到東部,以減少西部采用加密形式進(jìn)行數(shù)據(jù)處理導(dǎo)致的處理過程中時(shí)延負(fù)擔(dān),但由于其不考慮傳輸因素,可能導(dǎo)致系統(tǒng)整體成本和能耗增大。除此之外,考慮到數(shù)據(jù)傳輸需要一定時(shí)延,從長(zhǎng)期收益的角度,該策略也難以保證整體時(shí)延最優(yōu)。
本文定義兩種貪心算法,貪心算法1(Greedy-1):新的數(shù)據(jù)服務(wù)請(qǐng)求到達(dá)時(shí),分別評(píng)估選擇1和選擇2 的系統(tǒng)整體性能(公式4),取兩種選擇中的最優(yōu)。貪心算法2(Greedy-2):令pnew=as。兩種算法的對(duì)比能夠體現(xiàn)由數(shù)據(jù)搬遷導(dǎo)致的能耗、成本、時(shí)延負(fù)擔(dān)對(duì)于系統(tǒng)整體性能的影響。
深度強(qiáng)化學(xué)習(xí)基于神經(jīng)網(wǎng)絡(luò)模型,通過定義模型的動(dòng)作空間、環(huán)境空間、回報(bào)函數(shù)等,在不依賴于系統(tǒng)模型的情況下進(jìn)行策略優(yōu)化,當(dāng)前在邊緣計(jì)算[22]、聯(lián)邦學(xué)習(xí)[23]等場(chǎng)景中有廣泛的應(yīng)用。本文選擇DQN[22]構(gòu)建由神經(jīng)網(wǎng)絡(luò)Q組成的智能體,將東數(shù)西算系統(tǒng)作為外部環(huán)境,從而根據(jù)外部環(huán)境狀態(tài)動(dòng)態(tài)生成最優(yōu)策略。
智能體的環(huán)境空間由當(dāng)前待處理的任務(wù)隊(duì)列以及當(dāng)前的分類策略組成,即:
設(shè)系統(tǒng)隊(duì)列長(zhǎng)度為M,則DQN 的輸入層大小為3M+1。公式(5)中環(huán)境僅取決于當(dāng)前數(shù)據(jù)分類策略和隊(duì)列中的任務(wù)情況,因此滿足馬爾可夫性要求。
定義動(dòng)作空間為分類閾值的可選區(qū)間,即:
相比于隨機(jī)算法和貪心算法,強(qiáng)化學(xué)習(xí)需要首先進(jìn)行模型訓(xùn)練,然后將獲得的模型部署到相關(guān)系統(tǒng)中進(jìn)行策略生成。
智能體與外部環(huán)境的交互流程為:智能體感知系統(tǒng)當(dāng)前狀態(tài)sold,包括任務(wù)隊(duì)列Q和當(dāng)前數(shù)據(jù)分類策略pold等;將系統(tǒng)狀態(tài)輸入神經(jīng)網(wǎng)絡(luò)Q,生成最優(yōu)分類閾值a,并將策略下發(fā)到系統(tǒng)中;系統(tǒng)根據(jù)分類閾值進(jìn)行數(shù)據(jù)搬遷和任務(wù)處理,并根據(jù)公式(4)返回當(dāng)前回報(bào)r以及新狀態(tài)snew;將狀態(tài)、行為、回報(bào)<sold,a,r,snew>組合輸入到回放池中;從回放池中批量選擇狀態(tài)、行為、回報(bào)組合進(jìn)行神經(jīng)網(wǎng)絡(luò)Q參數(shù)更新,其系統(tǒng)架構(gòu)如圖2所示,算法流程如表1所示。
圖2 智能體與系統(tǒng)環(huán)境架構(gòu)圖Fig.2 Architecture of the agent and the environment
表1 DQN算法流程Table 1 The Algorithm of DQN
通過系統(tǒng)仿真模型對(duì)四類數(shù)據(jù)分類策略求解方法進(jìn)行驗(yàn)證。假定每次應(yīng)用類型和處理數(shù)據(jù)類型相同,而其處理的數(shù)據(jù)范圍不同。由于應(yīng)用消耗能耗和成本主要與其處理的數(shù)據(jù)量和當(dāng)前算力情況相關(guān)[24],因此可以假定同一部署環(huán)境下,各個(gè)應(yīng)用之間消耗的能耗和成本相對(duì)穩(wěn)定,僅受部分外部環(huán)境因素影響,如動(dòng)力環(huán)境、單位電價(jià)、服務(wù)器差異、利用率波動(dòng)等。東部算力中心存在大量老舊數(shù)據(jù)中心,西部算力中心以新型數(shù)據(jù)中心為主,數(shù)據(jù)存儲(chǔ)和處理能耗更低,且西部省份電力資源豐富,電價(jià)相對(duì)較低,因此單位能耗下成本更低。對(duì)仿真系統(tǒng)單次數(shù)據(jù)服務(wù)的能耗和成本仿真參數(shù)設(shè)定如表2所示,其中傳輸表示單個(gè)數(shù)據(jù)段傳輸能耗和成本。
表2 仿真系統(tǒng)能耗和成本參數(shù)Table 2 Energy and cost parameters of the simulate system
動(dòng)作空間為11%~100%之間按照1%的等間隔分布,即最少保持11%的數(shù)據(jù)位于東部省份;任務(wù)設(shè)置方面,假設(shè)任務(wù)處理的數(shù)據(jù)總量相同,任務(wù)訪問的數(shù)據(jù)范圍在(0,100]MB 之間均勻分布,任務(wù)對(duì)于處理時(shí)延的要求在[0,0.15]間均勻分布;目標(biāo)權(quán)重方面,令α=2,β=1,γ=1。
在計(jì)算時(shí)延方面,假設(shè)西部省份基于通用k8s 平臺(tái),采用基于TEE 的可信容器提供數(shù)據(jù)服務(wù)[13]。將西部省份提供數(shù)據(jù)服務(wù)相比于東部本地化處理的相對(duì)時(shí)延關(guān)系設(shè)定如表3所示。
表3 仿真系統(tǒng)時(shí)延參數(shù)Table 3 Time delay parameters of the simulate system
圖3 為強(qiáng)化學(xué)習(xí)方法訓(xùn)練過程中單次數(shù)據(jù)服務(wù)的系統(tǒng)整體回報(bào)變化(公式4),訓(xùn)練次數(shù)為10,000次。由于基線模型(包括貪心算法和隨機(jī)算法)沒有模型訓(xùn)練過程,因此將強(qiáng)化學(xué)習(xí)方法訓(xùn)練過程與基線算法實(shí)際部署后的策略表現(xiàn)作對(duì)比。可見,由于貪心算法2(紅色曲線)僅僅基于數(shù)據(jù)處理導(dǎo)致的時(shí)延負(fù)擔(dān)進(jìn)行策略生成,沒有綜合考慮能耗、成本以及數(shù)據(jù)傳輸過程的時(shí)延損耗,因此其系統(tǒng)整體性能表現(xiàn)相比于隨機(jī)算法(黑色曲線)幾乎沒有改善。貪心算法1(綠色曲線)在一定程度上考慮了數(shù)據(jù)搬遷導(dǎo)致的能耗、成本、時(shí)延負(fù)擔(dān),因此其系統(tǒng)整體性能相比于貪心算法2 和隨機(jī)算法的系統(tǒng)性能有較為明顯的提升。強(qiáng)化學(xué)習(xí)算法(藍(lán)色曲線)在訓(xùn)練初期接近于貪心算法和隨機(jī)算法(<1,000次),隨著訓(xùn)練次數(shù)增加(1,000~2,000次),深度強(qiáng)化學(xué)習(xí)的系統(tǒng)性能迅速提升,并在后續(xù)的訓(xùn)練過程中(>2,000次)趨于收斂,系統(tǒng)整體性能穩(wěn)定,且明顯優(yōu)于其他基線算法,證明本文中方法具有較高的收斂性和穩(wěn)定性。
圖3 訓(xùn)練過程的系統(tǒng)回報(bào)Fig.3 System Rewards of the training process
對(duì)深度強(qiáng)化學(xué)習(xí)模型與基線算法生成的策略進(jìn)行1,000次測(cè)試,其累計(jì)收益[∑r,公式(4)]對(duì)比如圖4 所示,可見,深度強(qiáng)化學(xué)習(xí)的累計(jì)收益明顯優(yōu)于其他基線模型,其長(zhǎng)期回報(bào)在其他基線算法的兩倍以上。貪心算法1 表現(xiàn)優(yōu)于貪心算法2 和隨機(jī)算法,后兩種算法的表現(xiàn)基本相似。
圖4 系統(tǒng)累計(jì)回報(bào)Fig.4 System cumulative rewardst
相比于基線模型,深度強(qiáng)化學(xué)習(xí)性能優(yōu)勢(shì)的主要原因可以歸結(jié)為:(1)通過整體系統(tǒng)指標(biāo)定義回報(bào)函數(shù)(公式4),深度強(qiáng)化學(xué)習(xí)有效平衡了數(shù)據(jù)處理和數(shù)據(jù)搬遷過程中的能耗、時(shí)延、成本等性能指標(biāo);(2)在環(huán)境空間設(shè)計(jì)中(公式5)不僅考慮了當(dāng)前的數(shù)據(jù)服務(wù)任務(wù),還綜合考慮了隊(duì)列中其他待處理任務(wù)的性質(zhì),因此更加傾向于長(zhǎng)期回報(bào)優(yōu)化;(3)通過神經(jīng)網(wǎng)絡(luò)算法,深度強(qiáng)化學(xué)習(xí)技術(shù)能夠挖掘到數(shù)據(jù)、時(shí)延等對(duì)于數(shù)據(jù)分類的隱含關(guān)系。
圖5 為某次測(cè)試的系統(tǒng)累計(jì)時(shí)延回報(bào),可見,深度強(qiáng)化學(xué)習(xí)算法(藍(lán)色曲線)在時(shí)延方面要略優(yōu)于貪心算法2(紅色曲線),主要原因?yàn)樨澬乃惴?僅考慮數(shù)據(jù)處理時(shí)延,未考慮數(shù)據(jù)傳輸時(shí)延,而深度強(qiáng)化學(xué)習(xí)算法通過綜合處理、傳輸時(shí)延以及隊(duì)列中的長(zhǎng)期任務(wù)情況,獲得較高長(zhǎng)期回報(bào)。由于綜合考慮能耗和成本指標(biāo),貪心算法1(綠色曲線)和隨機(jī)算法(黑色曲線)在時(shí)延維度上表現(xiàn)略差于貪心算法2。
圖5 系統(tǒng)累計(jì)時(shí)延回報(bào)Fig.5 System cumulative time delay rewards
圖6和圖7分別為某次測(cè)試的系統(tǒng)累計(jì)能耗和成本回報(bào)??梢?,深度強(qiáng)化學(xué)習(xí)算法(藍(lán)色曲線)在能耗和成本方面要明顯優(yōu)于其他基線算法。由于綜合考慮能耗和成本指標(biāo),貪心算法1(綠色曲線)要略優(yōu)于其他兩種基線算法。而貪心算法2(紅色曲線)僅考慮時(shí)延因素,其整體能耗和成本在4 種算法中表現(xiàn)最差。綜合系統(tǒng)時(shí)延、能耗、成本指標(biāo),可見深度強(qiáng)化學(xué)習(xí)能夠?qū)崿F(xiàn)對(duì)多目標(biāo)的均衡,從而達(dá)到系統(tǒng)整體性能最優(yōu)。
圖7 系統(tǒng)累計(jì)成本回報(bào)Fig.7 System cumulative cost rewards
發(fā)展東數(shù)西算工程,有利于落實(shí)碳達(dá)峰碳中和要求,促進(jìn)東西部算力資源合理布局和數(shù)字經(jīng)濟(jì)的協(xié)同發(fā)展。數(shù)據(jù)流通作為東數(shù)西算下的關(guān)鍵要素,在傳統(tǒng)的安全維度基礎(chǔ)上,需要進(jìn)一步綜合考慮能耗、成本、時(shí)延等因素,實(shí)現(xiàn)系統(tǒng)整體最優(yōu)。
本文通過對(duì)東數(shù)西算下數(shù)據(jù)流通的關(guān)鍵流程進(jìn)行分析,并定義數(shù)據(jù)流通的主要控制因子,在此基礎(chǔ)上對(duì)數(shù)據(jù)流通的系統(tǒng)優(yōu)化問題進(jìn)行建模,構(gòu)建融合能耗、成本、時(shí)延多因素的回報(bào)函數(shù),最后通過深度強(qiáng)化學(xué)習(xí)進(jìn)行策略求解,系統(tǒng)仿真驗(yàn)證了本文方法在收斂性、系統(tǒng)長(zhǎng)期收益和目標(biāo)均衡上的優(yōu)勢(shì)。
基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)流通策略具有較高的通用性,在不同業(yè)務(wù)場(chǎng)景下,通過對(duì)環(huán)境空間和動(dòng)作空間以及系統(tǒng)性能指標(biāo)進(jìn)行定義與優(yōu)化,可以進(jìn)一步推廣到跨境數(shù)據(jù)流轉(zhuǎn)[25]等相關(guān)應(yīng)用場(chǎng)景中。
在算法選擇上,本文選擇通用性較高的基礎(chǔ)算法。在東數(shù)西算等新型業(yè)務(wù)初期,使用通用性較高的基礎(chǔ)算法即能在系統(tǒng)整體性能和收益等方面能夠較傳統(tǒng)方法有明顯提升,并且能夠有效平衡開發(fā)、設(shè)計(jì)、推廣應(yīng)用等開銷,快速獲得業(yè)務(wù)紅利。在業(yè)務(wù)發(fā)展后期,隨著環(huán)境復(fù)雜性和業(yè)務(wù)需求等提高,為了提升策略質(zhì)量,保證業(yè)務(wù)服務(wù)水平,可以進(jìn)一步采用復(fù)雜度更高的DDPG[26]、TRPO[27]等算法。
由于缺少生產(chǎn)系統(tǒng)數(shù)據(jù),本文主要對(duì)相關(guān)理論方法進(jìn)行了討論,并采用仿真數(shù)據(jù)進(jìn)行驗(yàn)證,同時(shí)為了便于分析,本文中方法對(duì)相關(guān)系統(tǒng)進(jìn)行了合理的簡(jiǎn)化建模。在實(shí)際生產(chǎn)中,數(shù)據(jù)總量、類型、時(shí)延、能耗、成本等因素等可能受外部環(huán)境影響而實(shí)時(shí)變化,并且面臨著多樣化的業(yè)務(wù)需求。對(duì)本文中方法進(jìn)一步推廣優(yōu)化,并與生產(chǎn)系統(tǒng)進(jìn)行對(duì)接應(yīng)用,是本文作者的下一步研究?jī)?nèi)容。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。