楊昕,沈文海
國家氣象信息中心,北京 100081
全國一體化大數(shù)據(jù)中心體系總體布局設(shè)計(jì)的完成,對于信息系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)及其所支撐的業(yè)務(wù)都具有重要意義。通過這種體系結(jié)構(gòu),社會(huì)經(jīng)濟(jì)、人力、基礎(chǔ)設(shè)施等資源進(jìn)一步整合與集約化,為充分發(fā)揮資源利用效率奠定了理論基礎(chǔ),而“東數(shù)西算”的策略,把效率提升和綠色節(jié)能有機(jī)結(jié)合,將資源利用水平推向了新的高度。[1]
氣象業(yè)務(wù)是高度信息化和特性化的業(yè)務(wù)。在氣象業(yè)務(wù)體系中存在一部分和其他行業(yè)類似的業(yè)務(wù)模式,但也具有非常鮮明的個(gè)性化的業(yè)務(wù)特性,與其他行業(yè)相比有明顯的差異。例如處于核心地位的數(shù)值預(yù)報(bào)業(yè)務(wù),需要極強(qiáng)的高性能算力支持,屬于典型的“極限計(jì)算”應(yīng)用[2],在常規(guī)行業(yè)中很難找到可復(fù)用的需求和解決方案;而氣象數(shù)據(jù)在種類、使用方式的高度復(fù)雜性、應(yīng)用時(shí)效等方面的個(gè)性化特征,以及其體積的巨大,使得氣象大數(shù)據(jù)與氣象高性能計(jì)算資源之間至今無法實(shí)現(xiàn)物理空間上的遠(yuǎn)距離分離。“東數(shù)西算”的資源布局趨勢,對氣象業(yè)務(wù)信息系統(tǒng)在設(shè)計(jì)實(shí)現(xiàn)和發(fā)展演進(jìn)中提出了巨大的挑戰(zhàn),而氣象行業(yè)及其業(yè)務(wù)自身的特殊性,使得氣象部門對其業(yè)務(wù)及科研強(qiáng)烈依賴的算力、存儲、通信等基礎(chǔ)資源及其個(gè)性化的服務(wù)有著特殊的需求。
“算力體系結(jié)構(gòu)”是指“算力網(wǎng)絡(luò)和服務(wù)”的體系結(jié)構(gòu),并簡稱為“算力架構(gòu)”。而這里所說的“算力網(wǎng)絡(luò)和服務(wù)”也可簡稱為算力資源,它至少包含運(yùn)算、存儲、網(wǎng)絡(luò)傳輸以及向用戶提供前三者優(yōu)質(zhì)服務(wù)等四部分能力,是目前云計(jì)算、大數(shù)據(jù)時(shí)代信息系統(tǒng)的基礎(chǔ)資源能力。
“算力體系結(jié)構(gòu)”的核心組件包括基礎(chǔ)設(shè)施、管理和業(yè)務(wù)應(yīng)用三個(gè)層面。基礎(chǔ)設(shè)施層面包括數(shù)據(jù)中心(包括計(jì)算中心)、高性能寬帶網(wǎng)(跨城市、跨區(qū)域)等;管理層面主要是基礎(chǔ)設(shè)施及IT 資源控制與調(diào)度;業(yè)務(wù)應(yīng)用層面包含應(yīng)用研發(fā)、部署、運(yùn)行、優(yōu)化改進(jìn)與迭代等全生命周期管理。
依筆者觀點(diǎn),“算力體系結(jié)構(gòu)”可包含以下關(guān)鍵特性。
1.2.1 服務(wù)驅(qū)動(dòng)
數(shù)據(jù)中心內(nèi)部除硬件設(shè)施外,其它各層次組件均應(yīng)以服務(wù)的形式提供和使用,包括基礎(chǔ)資源的使用、分配和管理。被廣泛應(yīng)用的服務(wù)模型框架有“IaaS”(Infrastructure as a service)、“PaaS”(Platform as a Service)、“SaaS”(Software as a Service)等[3],然而在當(dāng)今的云生態(tài)中,“Service”的層次類型眾多,它們一起構(gòu)成了應(yīng)用運(yùn)行生存的軟件環(huán)境。充分利用這些服務(wù)應(yīng)該是業(yè)務(wù)應(yīng)用及管理過程中獲取并使用算力資源的主要方式。
1.2.2 異構(gòu)化
任何數(shù)據(jù)中心節(jié)點(diǎn)中都會(huì)運(yùn)行數(shù)量龐大且類型各異的應(yīng)用服務(wù),同構(gòu)化的平臺雖然在管理上相對簡單,但面對業(yè)務(wù)應(yīng)用的復(fù)雜性和差異性,其總體效率通常很難達(dá)到應(yīng)有水平。因此,針對性地構(gòu)建異構(gòu)資源及平臺服務(wù)是數(shù)據(jù)中心建設(shè)的一個(gè)基本原則。異構(gòu)化管理的核心任務(wù)是根據(jù)需求恰當(dāng)匹配支撐技術(shù)、精準(zhǔn)構(gòu)建對應(yīng)的資源和服務(wù)、平衡控制利用資源,促進(jìn)總體效率達(dá)到最優(yōu)。
1.2.3 自動(dòng)化和流水線式機(jī)制
新型算力架構(gòu)在“服務(wù)生態(tài)”的支持下可以在更低的成本條件下實(shí)現(xiàn)高水平的自動(dòng)化。無論是資源管控還是應(yīng)用流程,各業(yè)務(wù)環(huán)節(jié)均可根據(jù)既定的配置策略自動(dòng)編排,以流水線的方式緊密銜接,最大程度避免因不必要的人工手動(dòng)處理而引起的實(shí)效延遲。
1.2.4 控制調(diào)度智能化
從“一體化大數(shù)據(jù)中心”到各數(shù)據(jù)中心節(jié)點(diǎn),以至于深入到各資源管控或業(yè)務(wù)流程,都將是在智能化調(diào)度的控制范圍之內(nèi)。智能化的控制調(diào)度是在人的掌控之下,系統(tǒng)能夠根據(jù)歷史積累狀態(tài)信息形成特定的認(rèn)知,然后結(jié)合當(dāng)前情況做出最新判斷,動(dòng)態(tài)調(diào)整必要的策略,從而在后續(xù)控制調(diào)度中能夠達(dá)到全局最優(yōu)化的效果。
1.2.5 全局一體化
東部數(shù)據(jù)到西部進(jìn)行計(jì)算和處理將必然涉及到數(shù)據(jù)在不同數(shù)據(jù)中心節(jié)點(diǎn)之間的通信傳輸以及計(jì)算和儲存資源的分配調(diào)度。從全局一體化的視角出發(fā),各節(jié)點(diǎn)間統(tǒng)一協(xié)調(diào)的資源調(diào)度有利于在多數(shù)據(jù)中心節(jié)點(diǎn)之間總體資源的優(yōu)化,避免數(shù)據(jù)中心之間的資源失衡和浪費(fèi)。
要實(shí)現(xiàn)全局一體化,必須把“控制調(diào)度”提升到各數(shù)據(jù)中心節(jié)點(diǎn)之上的高度。
1.2.6 先進(jìn)通信能力
數(shù)據(jù)在不同數(shù)據(jù)中心節(jié)點(diǎn)間的流動(dòng),以及業(yè)務(wù)在數(shù)據(jù)中心節(jié)點(diǎn)間切換導(dǎo)致的信息遷移,都需要穩(wěn)定高效和高速的網(wǎng)絡(luò)支持。東數(shù)西算的運(yùn)行模式對網(wǎng)絡(luò),尤其是數(shù)據(jù)中心節(jié)點(diǎn)間的網(wǎng)絡(luò)通信能力提出更高的要求,包括網(wǎng)絡(luò)帶寬、網(wǎng)絡(luò)延遲等物理特性。但更為重要的是對網(wǎng)絡(luò)配置的動(dòng)態(tài)靈活的管控能力,應(yīng)能夠根據(jù)全網(wǎng)實(shí)際運(yùn)行狀態(tài)和業(yè)務(wù)需求快速響應(yīng)和變更,結(jié)合并融入“智能化控制調(diào)度”能力,從網(wǎng)絡(luò)層面賦能全局效率最優(yōu)。
1.2.7 深度安全可控
信息安全是數(shù)據(jù)中心和系統(tǒng)的正常運(yùn)行的最基本保障。在傳統(tǒng)信息網(wǎng)絡(luò)安全防護(hù)能力的基礎(chǔ)上,“算力架構(gòu)”需要進(jìn)一步提升安全相關(guān)的監(jiān)督能力和自主的、自動(dòng)化的防范能力,對潛在的安全風(fēng)險(xiǎn)主動(dòng)預(yù)判和示警。
1.2.8 動(dòng)態(tài)可持續(xù)發(fā)展能力
業(yè)務(wù)需求和IT 技術(shù)的革新、資源和設(shè)備的老舊和更替,以及它們所引發(fā)的應(yīng)用層加速更新的要求,均為系統(tǒng)演進(jìn)過程中的常態(tài)化現(xiàn)象。因此,項(xiàng)目模式下的相對靜態(tài)的建設(shè)和維護(hù)方式越來越不能適應(yīng)當(dāng)前相對動(dòng)態(tài)變更的常態(tài)需求?!八懔軜?gòu)”中的系統(tǒng)必然應(yīng)不斷加強(qiáng)自身的“動(dòng)態(tài)可持續(xù)發(fā)展能力”,在人為控制范圍內(nèi),自主地或自動(dòng)化地執(zhí)行資源及應(yīng)用的更替。
從上世紀(jì)70 年代至今,氣象行業(yè)應(yīng)用電子計(jì)算機(jī)系統(tǒng)已有50 多年歷史,氣象業(yè)務(wù)長期應(yīng)用并嚴(yán)重依賴信息技術(shù),可以說氣象業(yè)務(wù)主體上就是信息業(yè)務(wù)。但信息系統(tǒng)體系結(jié)構(gòu)對業(yè)務(wù)系統(tǒng)的主導(dǎo)和支持作用只是在近20 年左右的時(shí)間才逐步體現(xiàn)和發(fā)展的。
2004 年“國家級氣象資料存儲檢索系統(tǒng)”的建立[4],初步確立了一個(gè)以數(shù)據(jù)存儲為核心的氣象數(shù)據(jù)綜合管理的業(yè)務(wù)架構(gòu),把數(shù)據(jù)的收集、存儲、服務(wù)等關(guān)鍵功能在國家級層面整合到一起。
從2008 年至2014 年期間中國氣象局建立了“全國綜合氣象信息共享系統(tǒng)”(CIMISS)[5]。CIMISS不但在氣象行業(yè)內(nèi)構(gòu)建了一個(gè)相對完備的業(yè)務(wù)架構(gòu),包括數(shù)據(jù)收集分發(fā)、加工處理、存儲管理、共享服務(wù)、業(yè)務(wù)監(jiān)控等功能,涵蓋了除HPC 之外的全部核心業(yè)務(wù)流程,而且利用當(dāng)時(shí)最為成熟的SOA 等理念建立了與業(yè)務(wù)匹配的多層次信息系統(tǒng)體系結(jié)構(gòu),形成了一個(gè)面向服務(wù)的大型分布式數(shù)據(jù)管理系統(tǒng),并且在全國范圍內(nèi)從國家級到所有省級單位實(shí)現(xiàn)了核心業(yè)務(wù)系統(tǒng)架構(gòu)的統(tǒng)一布局和業(yè)務(wù)應(yīng)用的統(tǒng)一部署。目前氣象業(yè)務(wù)的算力架構(gòu)在CIMISS 基礎(chǔ)上繼續(xù)發(fā)展,但架構(gòu)范圍仍主要局限于單個(gè)數(shù)據(jù)中心內(nèi)部。從發(fā)展的視角來看,全國氣象系統(tǒng)也必然會(huì)形成從國家級到各省級多數(shù)據(jù)中心一體化的格局,這與“東數(shù)西算”的全國一體化大數(shù)據(jù)中心體系的思路是一致的。
“算力體系結(jié)構(gòu)”在氣象行業(yè)的應(yīng)用中具備一定的特殊性。首先,數(shù)值預(yù)報(bào)對算力資源有著特殊的需求,主要體現(xiàn)在大規(guī)模高密度浮點(diǎn)運(yùn)算能力和計(jì)算節(jié)點(diǎn)間高性能緊耦合通信能力等方面,因此高性能計(jì)算支撐能力必不可少。第二,氣象數(shù)據(jù)資料類型復(fù)雜、種類多樣、數(shù)據(jù)收集、處理、存儲和應(yīng)用等各個(gè)環(huán)節(jié)的數(shù)據(jù)量巨大、時(shí)效要求高,從而導(dǎo)致氣象數(shù)據(jù)資源與高性能計(jì)算資源之間的高速、高效、高可靠性等的個(gè)性化需求。第三,各類氣象業(yè)務(wù)應(yīng)用,主體上具有高強(qiáng)度數(shù)據(jù)IO 密集型的特性,對存儲和通信資源及其支撐能力要求較為苛刻。
高性能計(jì)算、常規(guī)計(jì)算和數(shù)據(jù)分析處理在資源和應(yīng)用方式等層面雖然存在較大差異,但業(yè)務(wù)應(yīng)用的流程是需要總體貫通的,在控制調(diào)度上必須以“一體化”的視角將三者緊密銜接。
因此,“東數(shù)西算”背景下氣象部門的“算力體系結(jié)構(gòu)”,主要包含“超級計(jì)算能力”、“常規(guī)通用計(jì)算能力”、“超級數(shù)據(jù)處理能力”、“超級通信傳輸能力”和“全局控制調(diào)度能力”這五個(gè)部分,可簡稱之為“超常算數(shù)通”。其核心思想是以“超級計(jì)算能力”支撐數(shù)值預(yù)報(bào)等核心氣象業(yè)務(wù);以“常規(guī)通用計(jì)算能力”支撐氣象各單位常規(guī)型業(yè)務(wù)應(yīng)用;以“超級數(shù)據(jù)處理能力”支撐大規(guī)模數(shù)據(jù)處理和存儲以及數(shù)值預(yù)報(bào)周邊的所有輔助型業(yè)務(wù);以“超級通信傳輸能力”實(shí)現(xiàn)“東數(shù)西算”中數(shù)據(jù)在東西數(shù)據(jù)中心節(jié)點(diǎn)間以及數(shù)據(jù)中心內(nèi)部穩(wěn)定高速流動(dòng)傳輸;以“全局控制調(diào)度能力”驅(qū)動(dòng)各類應(yīng)用在一體化資源體系中高效運(yùn)轉(zhuǎn)。
這一體系結(jié)構(gòu)縱向可分為3 層,如圖1 所示。“異構(gòu)基礎(chǔ)資源”層由“計(jì)算”、“存儲”、“網(wǎng)絡(luò)”三類物理資源構(gòu)成,各類型資源分別包括多種不同形式和特性的物理設(shè)備??刂普{(diào)度負(fù)責(zé)對它們在硬件層面進(jìn)行分類分組管理。設(shè)備的新老更替等資源變更信息需要在本層體現(xiàn)和維護(hù)。
圖1 氣象算力體系結(jié)構(gòu)Fig.1 Meteorological computing power architecture
“異構(gòu)基礎(chǔ)資源”層之上是“資源管理分配”層,它對底層的異構(gòu)基礎(chǔ)資源進(jìn)行抽取和組合,構(gòu)建形成應(yīng)用可以使用的“物理資源池”或“虛擬化資源池”。當(dāng)資源使用完畢,調(diào)度控制可根據(jù)策略回收閑置資源以備其他應(yīng)用使用。容器類的計(jì)算資源通常生命周期相對最短,其回收再分配的頻度較高。
最上層的“應(yīng)用和服務(wù)”層涵蓋氣象行業(yè)內(nèi)各類應(yīng)用?!叭终{(diào)度控制”功能將根據(jù)不同應(yīng)用的類型與特性在“異構(gòu)基礎(chǔ)資源”層選擇恰當(dāng)?shù)奈锢碣Y源,做到剛好滿足應(yīng)用要求,然后組合封裝,形成一個(gè)完全滿足應(yīng)用需求且資源最小化的“資源套件”,提供給應(yīng)用。資源選擇、獲取和構(gòu)建過程以自動(dòng)化的調(diào)度分配方式為主。例如圖1 中的“HPC 集群-1”運(yùn)行的應(yīng)用為數(shù)值預(yù)報(bào)(NWP)并行模式,需要“CPU+GPU”的計(jì)算能力、Infiniband 通信網(wǎng)絡(luò)以及高吞吐能力的大容量存儲資源;而“數(shù)據(jù)-業(yè)務(wù)-2”的任務(wù)是快速處理大規(guī)模小文件,然后合并歸檔到磁帶庫中,需要高速網(wǎng)絡(luò)、高IOPS 的存儲和磁帶庫等設(shè)備共同支撐。
在“全國一體化大數(shù)據(jù)中心體系”中,多數(shù)據(jù)中心之間的通信和調(diào)度控制都需要通過各數(shù)據(jù)中心節(jié)點(diǎn)內(nèi)部的“全局控制調(diào)度”功能實(shí)現(xiàn)。為了做到全局一致性,還需要選擇并確定其中的一個(gè)“全局控制調(diào)度”作為總控。總控角色可以根據(jù)運(yùn)行狀態(tài)的變化而在不同數(shù)據(jù)中心之間切換。
實(shí)現(xiàn)氣象“算力體系結(jié)構(gòu)”構(gòu)想既要充分利用和挖掘成熟技術(shù),又要順應(yīng)和兼顧前沿發(fā)展趨勢。在構(gòu)建“超常算數(shù)通”這一架構(gòu)的過程中,需要重點(diǎn)關(guān)注以下關(guān)鍵技術(shù)領(lǐng)域:
計(jì)算、存儲和網(wǎng)絡(luò)是3 個(gè)相對永恒存在的核心基礎(chǔ)IT 資源。對于性能需求高的應(yīng)用,通常為他們直接分配物理資源,以避免虛擬化產(chǎn)生的性能損耗;對于常規(guī)型業(yè)務(wù),通常為其分配虛擬化之后的資源,以最大化應(yīng)用系統(tǒng)效率。這都需要利用“IaaS”以及“PaaS”等云計(jì)算模型。
資源的分配必須是精準(zhǔn)的且靈活可控的。對于已分配資源實(shí)際狀態(tài)的誤判將導(dǎo)致系統(tǒng)內(nèi)總體存在大量被占用的閑置的或“虛假繁忙”的資源,這將嚴(yán)重拉低系統(tǒng)資源總體利用效率。因此,系統(tǒng)必須具備對已分配資源全方位掌控,以及快速回收和再分配的能力。
在氣象算力體系結(jié)構(gòu)中,超級計(jì)算,即高性能計(jì)算(HPC)部分,由于其支撐的主體業(yè)務(wù)仍為耦合度較高的并行數(shù)值預(yù)報(bào)模式,屬于典型的高性能科學(xué)計(jì)算需求的業(yè)務(wù),因此,這部分計(jì)算資源將仍以傳統(tǒng)物理計(jì)算節(jié)點(diǎn)方式為主進(jìn)行管理和分配(如圖1 中“HPC 集群-1”),針對此類型業(yè)務(wù)的時(shí)效性、持續(xù)性和穩(wěn)定性等需求的特殊性,系統(tǒng)通常在較長時(shí)間內(nèi)保持這一資源可用狀態(tài),不進(jìn)行回收;而對于常規(guī)通用計(jì)算(如圖1 中“HPC 集群-2”)以及數(shù)據(jù)處理(如圖1 中“數(shù)據(jù)處理集群-2”)等其他業(yè)務(wù),則可采用虛擬化資源的提供方式。但在應(yīng)用對資源有特殊需求的情況下,還需要支持物理資源和虛擬資源相結(jié)合的方式提供資源供給。由于氣象業(yè)務(wù)環(huán)境需要物理資源和虛擬化資源同時(shí)存在,因此,基礎(chǔ)資源管理需要具備更為精細(xì)化和智能化的控制調(diào)度能力。
資源分配技術(shù)將會(huì)把HPC 和常規(guī)計(jì)算這兩大類需求的應(yīng)用模式作為一個(gè)整體統(tǒng)籌調(diào)度,采用自動(dòng)化的方式,根據(jù)策略對計(jì)算、存儲和網(wǎng)絡(luò)等IT 資源進(jìn)行動(dòng)態(tài)創(chuàng)建、擴(kuò)展或回收,其實(shí)現(xiàn)方式可參考“Infrastructure as Code”(IaC)等相關(guān)技術(shù)。計(jì)算資源的分配粒度應(yīng)支持物理機(jī)、虛擬機(jī)(VM)和容器(Container);存儲資源支持至少應(yīng)包括“Block”、“Object”和“File”等類型;而對于網(wǎng)絡(luò)資源,應(yīng)能夠結(jié)合利用“Software Defined Networking”(SDN)等技術(shù),根據(jù)不同應(yīng)用或服務(wù)對網(wǎng)絡(luò)資源的具體需求,快速、靈活、動(dòng)態(tài)地分配對應(yīng)的實(shí)體或虛擬的網(wǎng)絡(luò)資源。
對于多種氣象核心業(yè)務(wù),存儲資源的應(yīng)用配置方式是一個(gè)決定運(yùn)行效率的關(guān)鍵因素。一方面,氣象數(shù)據(jù)總量巨大,無論是單位時(shí)間采集量,數(shù)據(jù)收集處理的量,還是存儲和服務(wù)量都已到達(dá)PB 至EB 量級;另一方面,由于氣象自身業(yè)務(wù)特性等原因,例如文件數(shù)量巨大、存儲形式復(fù)雜多樣等,都導(dǎo)致數(shù)據(jù)處理速度和數(shù)據(jù)服務(wù)質(zhì)量面臨嚴(yán)峻挑戰(zhàn)。這些因素要求存儲資源具備“海量高性能存儲”和“高IO 服務(wù)能力”。存儲資源的分配除了在基本的“Infrastructure”層面提供必要支持服務(wù)外,還必須在其上的“Platform”層進(jìn)一步提供“PaaS”的優(yōu)化服務(wù),例如:數(shù)據(jù)庫、文件系統(tǒng)、中間件等,其中文件系統(tǒng)的能力尤為關(guān)鍵。對于IOPS 密集型業(yè)務(wù),需要能實(shí)現(xiàn)為其分配的基礎(chǔ)物理資源和平臺服務(wù)兩方面都能達(dá)到高可用、高性能、低延遲的要求。
原則上,各數(shù)據(jù)中心節(jié)點(diǎn)內(nèi)外相關(guān)的物理資源和設(shè)備均在“IaaS”管控范圍內(nèi),這為資源的智能化、自動(dòng)化管控和分配奠定基礎(chǔ)。雖然HPC 需求決定了其對資源使用的特殊性,不易實(shí)現(xiàn)完全的自動(dòng)化管理,但其對物理資源的這類特有需求仍然可以借助于“IaaS”和“IaC”等技術(shù)而獲得更為優(yōu)化且高效率的滿足。
數(shù)值預(yù)報(bào)的業(yè)務(wù)與科研的高性能計(jì)算應(yīng)用對算力資源的“饑渴”狀態(tài)是一種出現(xiàn)頻率較高的常態(tài)現(xiàn)象。由于HPC 系統(tǒng)從采購到退役下線的生命周期較長(一般從5 年至10 年不等),在此周期的中期階段,算力資源不足的情況通常開始顯現(xiàn),而傳統(tǒng)的項(xiàng)目建設(shè)速度很難在短期內(nèi)解決業(yè)務(wù)應(yīng)用對資源需求的問題。但通過現(xiàn)代資源分配技術(shù),一方面可以實(shí)現(xiàn)對現(xiàn)有系統(tǒng)的持續(xù)擴(kuò)展,另一方面也可以利用數(shù)據(jù)中心其他算力資源臨時(shí)構(gòu)建“準(zhǔn)HPC”系統(tǒng),以滿足緊急業(yè)務(wù)需求。
控制調(diào)度技術(shù)廣泛應(yīng)用于HPC 以及常規(guī)業(yè)務(wù)應(yīng)用環(huán)境中,其目的是充分發(fā)揮和利用有限資源,最大化提高應(yīng)用效率。在當(dāng)前的云計(jì)算時(shí)代,涌現(xiàn)出相當(dāng)數(shù)量的細(xì)粒度控制調(diào)度技術(shù)框架,進(jìn)一步提升了資源利用率以及應(yīng)用效率。
然而“東數(shù)西算”概念下算力與數(shù)據(jù)在物理空間上的分離,給氣象業(yè)務(wù)提出了新的挑戰(zhàn)。為此,需要在常規(guī)控制調(diào)度技術(shù)的基礎(chǔ)上進(jìn)一步發(fā)展出一套有能力跨越多數(shù)據(jù)中心的“云際”(Inter-Cloud)控制調(diào)度框架,從而在東西數(shù)據(jù)中心節(jié)點(diǎn)間實(shí)現(xiàn)必要的協(xié)調(diào)和監(jiān)管,最終在“混合云”的一體化大數(shù)據(jù)中心體系中實(shí)現(xiàn)全局資源利用最優(yōu)的效果。
控制調(diào)度借助于監(jiān)控技術(shù),對各數(shù)據(jù)中心節(jié)點(diǎn)的物理資源、應(yīng)用狀態(tài)、系統(tǒng)負(fù)載等擁有一個(gè)動(dòng)態(tài)的全局視圖,能夠針對業(yè)務(wù)策略和目標(biāo)智能選擇優(yōu)化算法,對資源或應(yīng)用在多數(shù)據(jù)中心節(jié)點(diǎn)間進(jìn)行編排和調(diào)度,從而達(dá)到全局最優(yōu)的目的。
在全局統(tǒng)一視圖、服務(wù)生態(tài)和應(yīng)用自身的配合之下,傳統(tǒng)的高可用、災(zāi)難備份、異地切換等業(yè)務(wù)功能演變?yōu)橐惶兹碌膶?shí)現(xiàn)方式,且都將變得更為便捷和高效??刂普{(diào)度能夠區(qū)分出應(yīng)用實(shí)例的屬性為業(yè)務(wù)或科研、主業(yè)務(wù)(Master)或是從業(yè)務(wù)(Slave),并以此為基礎(chǔ)按照既定的業(yè)務(wù)邏輯策略執(zhí)行調(diào)度。
“流”在云環(huán)境中普遍存在,主要包括事件流和數(shù)據(jù)流這兩種形式,流式技術(shù)目前是自動(dòng)化調(diào)度和業(yè)務(wù)高效運(yùn)轉(zhuǎn)的核心支撐組件。“東數(shù)西算”下的氣象業(yè)務(wù),將原始數(shù)據(jù)從東部數(shù)據(jù)中心推送至西部算力中心,并將數(shù)據(jù)計(jì)算和處理結(jié)果從西部返回到東部。流式技術(shù)能以高效的方式實(shí)現(xiàn)數(shù)據(jù)信息往來傳輸,在應(yīng)用層面降低組件之間銜接或相互調(diào)用產(chǎn)生的延遲,保障數(shù)據(jù)通信的時(shí)效性和傳輸效率。在計(jì)算中心內(nèi)部,流式技術(shù)同樣可用于支持?jǐn)?shù)值預(yù)報(bào)的HPC 系統(tǒng)和周邊數(shù)據(jù)處理系統(tǒng)之間的高效通信與平滑銜接。
和流式技術(shù)相對的是“批處理”(Batch Processing),即某項(xiàng)任務(wù)必須等待一定條件或等待數(shù)據(jù)積累到一定程度或數(shù)量才開始對這一批數(shù)據(jù)整體集中處理。這種方式雖然通常可以獲得較高的吞吐率,但也可能會(huì)產(chǎn)生不同程度的延遲,從而降低時(shí)效性。多項(xiàng)任務(wù)往往通過隊(duì)列調(diào)度機(jī)制進(jìn)行管理。
目前氣象數(shù)值預(yù)報(bào)的高性能計(jì)算業(yè)務(wù)采用的是典型的批處理為主的工作方式,但這是其業(yè)務(wù)自身內(nèi)在機(jī)制導(dǎo)致的結(jié)果。恰當(dāng)利用流式技術(shù)的配合,可以在HPC 應(yīng)用中減少數(shù)據(jù)前、后處理的延遲時(shí)間,減少或消除不必要的等待,提高業(yè)務(wù)全流程的總體運(yùn)行效率。尤其對于像“精細(xì)化天氣預(yù)報(bào)”這類對時(shí)效性要求較高的業(yè)務(wù)來說,流式技術(shù)將比常規(guī)傳統(tǒng)方法更具優(yōu)勢。例如:0-4h 時(shí)效的臨近預(yù)報(bào),需要快速融入最新觀測資料進(jìn)行分鐘級滾動(dòng)更新[6],通過流式數(shù)據(jù)傳輸,可實(shí)現(xiàn)幾乎完全實(shí)時(shí)的持續(xù)觀測數(shù)據(jù)供給,而不再有定時(shí)傳輸方式必然會(huì)產(chǎn)生的傳輸間斷。
云時(shí)代對業(yè)務(wù)應(yīng)用研發(fā)、運(yùn)維、更新等全生命周期運(yùn)作機(jī)制的影響是深遠(yuǎn)的。新興技術(shù)方法對傳統(tǒng)軟件工程思想造成了直接的沖擊,但同時(shí)也把軟件工程推向了一個(gè)全新的視野,使我們可以采用“Cloud Native”[7-8]、“DevOps”[9]等新理念重新考慮應(yīng)用研發(fā)及系統(tǒng)全生命周期管理的新方式?!皷|數(shù)西算”意味著應(yīng)用和數(shù)據(jù)都從以往的相對靜態(tài)變得更為趨于流動(dòng),這也迫使氣象部門必須考慮轉(zhuǎn)換到新型的應(yīng)用研發(fā)和部署模式,以適應(yīng)在多數(shù)據(jù)中心一體化體系中業(yè)務(wù)應(yīng)用的新型運(yùn)作方式。
傳統(tǒng)的應(yīng)用總體相對靜態(tài),即它們的應(yīng)用體量大、生命周期長、更新速度慢、依賴關(guān)系復(fù)雜、部署遷移難度大;而在“Cloud Native”技術(shù)及理念的驅(qū)動(dòng)下,利用“Microservices”[10]等技術(shù)框架產(chǎn)出的應(yīng)用其體量大幅減小、生命周期靈活、更新速度動(dòng)態(tài)可調(diào)、依賴關(guān)系少而簡單、部署遷移按需而動(dòng)。不僅如此,通過在云生態(tài)中存在的多層次“XaaS”[11]服務(wù)的支持,應(yīng)用全生命周期的運(yùn)行將是一個(gè)“流水線”的方式,從需求分析、設(shè)計(jì)、編碼、測試、集成、部署、上線運(yùn)行直至退出、消亡或改進(jìn)重生,都應(yīng)是一個(gè)根據(jù)既定策略而被控制調(diào)度執(zhí)行的自動(dòng)化過程。目前國家氣象中心、中國氣象局公共氣象服務(wù)中心等單位已先后嘗試引進(jìn)這種研發(fā)模式,效果是令人振奮的。
相對特殊的一類應(yīng)用是氣象數(shù)值模式的并行優(yōu)化,這是數(shù)值預(yù)報(bào)業(yè)務(wù)特有的高性能計(jì)算類應(yīng)用。由于氣象數(shù)值模式并行多任務(wù)及緊耦合的特性,對比其他類型的應(yīng)用,其并行優(yōu)化改進(jìn)的難度相對較大。然而并行優(yōu)化對數(shù)值預(yù)報(bào)應(yīng)用來說是一項(xiàng)關(guān)鍵工作,對提升預(yù)報(bào)能力和質(zhì)量意義重大。現(xiàn)代“氣象算力架構(gòu)”中應(yīng)提供“Performance Tuning as a Service”(PTaaS)的服務(wù),把并行應(yīng)用的優(yōu)化工作融入到“Continuous Integration/Continuous Delivery”(CI/CD)流水線中,支持研發(fā)人員以更為高效的方式改進(jìn)并行模式。
監(jiān)控是針對目標(biāo)系統(tǒng)進(jìn)行全方位的監(jiān)視,全面了解系統(tǒng)資源分配、壓力負(fù)載、健康狀態(tài)等信息,最終為維護(hù)系統(tǒng)安全穩(wěn)定運(yùn)行、定位故障和解決問題、系統(tǒng)改進(jìn)、決策支持等提供基礎(chǔ)的可量化依據(jù)。在此基礎(chǔ)上,還提供必要的系統(tǒng)調(diào)控接口和機(jī)制。監(jiān)控內(nèi)容主要分為基礎(chǔ)資源和業(yè)務(wù)應(yīng)用兩大類型。監(jiān)控流程及關(guān)鍵環(huán)節(jié)主要包括:目標(biāo)系統(tǒng)的指標(biāo)信息獲取、指標(biāo)信息匯聚處理、展現(xiàn)、統(tǒng)計(jì)報(bào)表生成等。為了實(shí)現(xiàn)較好的實(shí)時(shí)性,通常會(huì)采用“事件流”技術(shù)驅(qū)動(dòng)監(jiān)控信息在其全流程內(nèi)傳遞。
和以往相比,新型“氣象算力架構(gòu)”中的監(jiān)控能做到粒度更細(xì)、層次維度更豐富、實(shí)時(shí)性更強(qiáng)、統(tǒng)計(jì)分析和決策支持更為量化和精準(zhǔn)。
在“東數(shù)西算”+“一體化大數(shù)據(jù)中心體系”中,全局基礎(chǔ)資源(含設(shè)備)的支撐能力、健康狀況和實(shí)時(shí)負(fù)載等信息變得比以往更為關(guān)鍵,它將直接決定和影響“東數(shù)西算”的調(diào)度策略和最終的業(yè)務(wù)應(yīng)用效率。資源監(jiān)視的關(guān)鍵是必須能夠做到全面、細(xì)粒度(可配置)、有針對性、有指導(dǎo)性(智能化)。
應(yīng)用層面的監(jiān)控也會(huì)發(fā)生較大的變化,主要原因在于以云生態(tài)為主支撐的新型“算力架構(gòu)”中更多的業(yè)務(wù)應(yīng)用將會(huì)以“Microservices”的形態(tài)出現(xiàn),其應(yīng)用個(gè)體雖然有不同程度縮減,但應(yīng)用運(yùn)行實(shí)例的種類和數(shù)量卻大幅增長,以至于利用傳統(tǒng)的系統(tǒng)運(yùn)維方式已很難掌控。以一個(gè)擁有1 萬臺服務(wù)器節(jié)點(diǎn)的數(shù)據(jù)中心為例,如果平均每節(jié)點(diǎn)運(yùn)行100 個(gè)應(yīng)用實(shí)例,就意味著總體運(yùn)行實(shí)例數(shù)量為100 萬,面對如此數(shù)量級的業(yè)務(wù)進(jìn)程,僅靠人工手動(dòng)方式進(jìn)行管理是難以想象的。因此必須借助于自動(dòng)化的“應(yīng)用監(jiān)控能力”,才可能對應(yīng)用進(jìn)行基本監(jiān)視和維護(hù)。新型“算力架構(gòu)”還需要實(shí)現(xiàn)應(yīng)用的多版本多實(shí)例運(yùn)行管理,并需要配合系統(tǒng)調(diào)度實(shí)現(xiàn)多數(shù)據(jù)中心節(jié)點(diǎn)中的遷移、切換、并發(fā)控制等。
此外,監(jiān)控必須實(shí)現(xiàn)全局資源和應(yīng)用的動(dòng)態(tài)一致性,以及信息獲取、分析、決斷和展現(xiàn)的實(shí)時(shí)性,為控制調(diào)度和管理維護(hù)人員提供精準(zhǔn)支持,確保資源和業(yè)務(wù)調(diào)度不出現(xiàn)偏差。
可持續(xù)性,寬泛地說,是指在相當(dāng)長的時(shí)間范圍保持某種穩(wěn)定狀態(tài)的能力。而發(fā)展意味著變化,即狀態(tài)的不穩(wěn)定性,以此而言,“可持續(xù)發(fā)展”本身就是一個(gè)帶有內(nèi)部矛盾性的統(tǒng)一體的概念。它存在的意義主要在于面對持續(xù)的變化如何在特定時(shí)間范圍內(nèi)保持我們所需要的穩(wěn)定狀態(tài)。
一個(gè)系統(tǒng)的可持續(xù)性主要體現(xiàn)在其內(nèi)部各組成要素之間能否在較長時(shí)間共存并達(dá)到一種平衡,如果其中部分要素的異常發(fā)展打破了平衡,其結(jié)果可能導(dǎo)致整個(gè)系統(tǒng)的惡化或消亡。
架構(gòu)需要較好的穩(wěn)定性,變更不能過于頻繁。對于氣象業(yè)務(wù)來說,“氣象算力架構(gòu)”包含并影響著業(yè)務(wù)運(yùn)轉(zhuǎn)所需的全部生態(tài)環(huán)境和支撐服務(wù),架構(gòu)的變化對業(yè)務(wù)將產(chǎn)生直接的、全方位的和根本的影響。因此,保持架構(gòu)的穩(wěn)定性對整體業(yè)務(wù)系統(tǒng)的高效穩(wěn)定運(yùn)行至關(guān)重要。
架構(gòu)也需要改變,以應(yīng)對外部變化和適應(yīng)內(nèi)部發(fā)展的需要。外部因素涉及范圍較廣,例如國家政策、技術(shù)的發(fā)展與革新等,都會(huì)直接或間接影響系統(tǒng)架構(gòu)的調(diào)整。“東數(shù)西算”策略正是這樣一個(gè)現(xiàn)實(shí)的外部因素,促進(jìn)“氣象算力架構(gòu)”的發(fā)展。內(nèi)部因素主要來自于業(yè)務(wù)需求的變化、算力等基礎(chǔ)資源的變更、業(yè)務(wù)應(yīng)用發(fā)展等層面,這些都構(gòu)成了架構(gòu)發(fā)展的內(nèi)部驅(qū)動(dòng)力。
要實(shí)現(xiàn)“氣象算力架構(gòu)”的可持續(xù)發(fā)展,就是要努力做到一方面保持架構(gòu)的相對穩(wěn)定,另一方面還要在必要的情況下對其改進(jìn)和發(fā)展,但不能因此導(dǎo)致系統(tǒng)的倒退或衰亡。本文對于“氣象算力架構(gòu)”的可持續(xù)發(fā)展相對側(cè)重于應(yīng)對架構(gòu)的變化,即“穩(wěn)中求變”。
近年來,隨著云計(jì)算的迅猛發(fā)展,信息技術(shù)領(lǐng)域涌現(xiàn)出了大量新思路和新方法,它們都為建立“氣象算力架構(gòu)”并實(shí)現(xiàn)其可持續(xù)發(fā)展提供了比以往更豐富的資源,在技術(shù)上給予了比以往更為強(qiáng)有力的支持。
可持續(xù)發(fā)展能力的核心思想之一是系統(tǒng)能夠?yàn)閷淼陌l(fā)展和變更預(yù)留恰當(dāng)?shù)目臻g,這也是一個(gè)實(shí)現(xiàn)可持續(xù)發(fā)展的有效手段,無論是在資源層、管理服務(wù)層還是應(yīng)用層面,氣象算力體系架構(gòu)也是如此。
計(jì)算、存儲和網(wǎng)絡(luò)等基礎(chǔ)信息資源是整體架構(gòu)和應(yīng)用系統(tǒng)的基礎(chǔ),在資源層恰當(dāng)?shù)仡A(yù)留足夠的發(fā)展空間意味著基礎(chǔ)資源具備良好的彈性,能夠較好適應(yīng)上層業(yè)務(wù)負(fù)載的波動(dòng),也是系統(tǒng)擴(kuò)展和變更過程中必要的緩沖區(qū)。在此基礎(chǔ)上的系統(tǒng)資源的發(fā)展將更為平滑,能夠最小化地影響和沖擊其所支撐的各層次服務(wù)和業(yè)務(wù)應(yīng)用。
基礎(chǔ)資源層之上的管理服務(wù)層,即云生態(tài)環(huán)境,對可持續(xù)發(fā)展更為關(guān)鍵。在構(gòu)建各生態(tài)服務(wù)時(shí)須重點(diǎn)關(guān)注相關(guān)服務(wù)組件對基礎(chǔ)資源的兼容性、管理控制能力,同時(shí)還須關(guān)注它們對業(yè)務(wù)應(yīng)用的支持協(xié)調(diào)能力。這意味著無論是底層的基礎(chǔ)資源還是其上層的應(yīng)用出現(xiàn)了變更和發(fā)展,管理服務(wù)層都需要有足夠的應(yīng)對能力去適應(yīng)并給予支持。由于服務(wù)層本身也是在迭代和變更的過程中,因此,服務(wù)自身必須具有較為完備的可持續(xù)發(fā)展和不間斷運(yùn)行的能力。這一能力來源于整體架構(gòu)對管理服務(wù)層所賦予的邏輯預(yù)留空間及其產(chǎn)生的彈性和靈活性。
架構(gòu)的可持續(xù)發(fā)展能力最終體現(xiàn)在應(yīng)用層。在彈性資源和云生態(tài)服務(wù)環(huán)境中,應(yīng)用已具備了良好的持續(xù)發(fā)展的基礎(chǔ)條件,但其自身的軟件架構(gòu)和技術(shù)實(shí)現(xiàn)方式才是能否可持續(xù)發(fā)展的決定性因素。
對于常規(guī)通用型的業(yè)務(wù)應(yīng)用,利用“Microservices”等技術(shù)進(jìn)行改造之后,應(yīng)用組件的獨(dú)立性和部署靈活性都有所增強(qiáng),迭代成本逐步降低;此外,應(yīng)用的總體可靠性和運(yùn)行的連續(xù)性也將得到提升。
對于氣象行業(yè)特殊類型的應(yīng)用,例如并行數(shù)值預(yù)報(bào)模式,其可持續(xù)發(fā)展能力更多的是體現(xiàn)在其軟件系統(tǒng)框架的彈性以及代碼的可復(fù)用性等方面。在云計(jì)算等主流技術(shù)趨勢推動(dòng)下,并行應(yīng)用與云生態(tài)環(huán)境的融合有著值得期待的前景,這種融合與演進(jìn)將使并行應(yīng)用從批處理方式轉(zhuǎn)變?yōu)椴婚g斷運(yùn)行的服務(wù)成為可能。
新型“算力體系結(jié)構(gòu)”比傳統(tǒng)的信息系統(tǒng)架構(gòu)在覆蓋范圍、動(dòng)態(tài)性、自動(dòng)化水平、自我持續(xù)發(fā)展能力等諸多方面有著大幅改進(jìn),以云生態(tài)服務(wù)為主的支撐環(huán)境將成為新型架構(gòu)的核心主體?!皷|數(shù)西算”戰(zhàn)略和“一體化大數(shù)據(jù)中心體系”把算力架構(gòu)擴(kuò)展至多數(shù)據(jù)中心的全局范圍。這些都為氣象行業(yè)的信息系統(tǒng)體系結(jié)構(gòu)的改進(jìn)和發(fā)展提供了引領(lǐng)方向。對于氣象業(yè)務(wù)中并行計(jì)算等特殊應(yīng)用,在構(gòu)建新一代“氣象算力架構(gòu)”的過程中,我們應(yīng)給予重點(diǎn)關(guān)注,著力建立“并行云服務(wù)”等行業(yè)專有的算力服務(wù),為豐富云生態(tài)總體服務(wù)能力做出貢獻(xiàn)。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。