周永吉 ,黃 博,孟祥龍
(1.黑龍江省氣象數(shù)據(jù)中心,黑龍江 哈爾濱150030;2.呼蘭區(qū)氣象局,黑龍江 哈爾濱 150000)
CTS(China Telecommunication System)是全國(guó)綜合氣象信息共享平臺(tái)中數(shù)據(jù)收集與分發(fā)系統(tǒng)的簡(jiǎn)稱[1],平臺(tái)運(yùn)行承載了全國(guó)各類氣象數(shù)據(jù)的通信傳輸業(yè)務(wù),同時(shí)兼顧各類氣象產(chǎn)品的共享發(fā)布等任務(wù),其數(shù)據(jù)量巨大且內(nèi)容全面,是覆蓋從國(guó)家氣象中心到各省氣象中心再至所有基層觀測(cè)站的龐大三級(jí)網(wǎng)絡(luò)體系??紤]到整個(gè)系統(tǒng)中所涉及數(shù)據(jù)存儲(chǔ)類型的特殊性,其數(shù)據(jù)庫設(shè)計(jì)必須具備針對(duì)性,以文件存儲(chǔ)為例,其存儲(chǔ)容量的分析、庫結(jié)構(gòu)的設(shè)計(jì)必須適應(yīng)氣象數(shù)據(jù)業(yè)務(wù)系統(tǒng)的獨(dú)立要求并具備較好的可擴(kuò)展行,以滿足飛速發(fā)展的氣象現(xiàn)代化業(yè)務(wù)需求。
本文通過梳理新時(shí)代下氣象數(shù)據(jù)業(yè)務(wù)的通信流程,結(jié)合CTS平臺(tái)的數(shù)據(jù)邏輯,從整體角度對(duì)CTS平臺(tái)系統(tǒng)的核心數(shù)據(jù)庫在存儲(chǔ)設(shè)計(jì)和容量評(píng)估兩方面做出較為細(xì)致的分析,面向氣象數(shù)據(jù)系統(tǒng)工程師進(jìn)行較詳盡的底層解讀,從而滿足CTS系統(tǒng)平臺(tái)的部署、運(yùn)行以及維護(hù)需求,保障新通信業(yè)務(wù)體系的順利建設(shè)。
數(shù)據(jù)庫的設(shè)計(jì)需要綜合考量,尤其對(duì)于CTS這種覆蓋全國(guó)的大型系統(tǒng)而言,通信業(yè)務(wù)的穩(wěn)定性和連續(xù)性是首要因素,同時(shí)由于表單數(shù)量較多,調(diào)度過程中的延時(shí)也需要得到有效控制,這就對(duì)結(jié)構(gòu)設(shè)計(jì)提出了較高要求,另外還要兼顧到擴(kuò)展性和實(shí)現(xiàn)難度等多方面因素,從而盡最大可能排除隱患,保證長(zhǎng)期穩(wěn)定運(yùn)行??傮w來說,數(shù)據(jù)庫的設(shè)計(jì)需要充分考量以下幾點(diǎn):
(1)綜合評(píng)估平臺(tái)整體需求。作為后臺(tái),數(shù)據(jù)庫的意義就是為前臺(tái)的數(shù)據(jù)傳輸應(yīng)用來服務(wù),因此氣象數(shù)據(jù)的通信業(yè)務(wù)需求是平臺(tái)整體的基礎(chǔ)需求,除了主體報(bào)文數(shù)據(jù)以外的各類協(xié)調(diào)型數(shù)據(jù)如傳輸時(shí)效、臺(tái)站元數(shù)據(jù)等表單信息也應(yīng)得到良好的維護(hù),從而使數(shù)據(jù)間呈現(xiàn)完整統(tǒng)一的互通關(guān)系[2]。
(2)建立嚴(yán)謹(jǐn)且邏輯性強(qiáng)的索引關(guān)系。在保證數(shù)據(jù)信息準(zhǔn)確性的設(shè)計(jì)上,需要對(duì)復(fù)雜數(shù)據(jù)建立高效嚴(yán)謹(jǐn)?shù)呐挪闄C(jī)制,避免在多環(huán)節(jié)的索引、調(diào)度、調(diào)用過程中出現(xiàn)訛誤。同時(shí)在數(shù)據(jù)源方面要有一致性控制[3]。
(3)優(yōu)化查詢過程。查詢過程的控制本質(zhì)上就是保證系統(tǒng)效率,在這方面的優(yōu)化方法有很多,如優(yōu)化查詢算法、優(yōu)化表結(jié)構(gòu)、優(yōu)化存儲(chǔ)等,而本文中重點(diǎn)分析的存儲(chǔ)設(shè)計(jì)和容量估算其根本目的也是優(yōu)化查詢過程提高數(shù)據(jù)業(yè)務(wù)效率。
(4)充分考慮擴(kuò)展性問題。隨著氣象現(xiàn)代化建設(shè)的穩(wěn)步推進(jìn),氣象通信業(yè)務(wù)的升級(jí)步伐加快,因此CTS的現(xiàn)有模式在不久的將來必然面臨升級(jí)改革環(huán)節(jié),數(shù)據(jù)庫作為后臺(tái)基礎(chǔ),必須在數(shù)據(jù)結(jié)構(gòu)層面建立完善的可擴(kuò)展性,以滿足業(yè)務(wù)高速發(fā)展的需求。
(5)完善的字段設(shè)計(jì)。數(shù)據(jù)庫中字段的設(shè)計(jì)牽扯到數(shù)據(jù)在業(yè)務(wù)應(yīng)用過程中的一系列流程,如數(shù)據(jù)跟蹤、數(shù)據(jù)加工、質(zhì)量檢測(cè)、產(chǎn)品評(píng)估等等,在傳統(tǒng)設(shè)計(jì)中為避免查詢算法過于復(fù)雜常常采用簡(jiǎn)潔字段的方式,但這不利于龐大數(shù)據(jù)源的調(diào)用,因此在個(gè)別具有代表性的字段中合理增加冗余,是有利于氣象數(shù)據(jù)統(tǒng)籌發(fā)展的。
除上述所列舉的幾點(diǎn)需求以外,氣象數(shù)據(jù)業(yè)務(wù)是一項(xiàng)全國(guó)各級(jí)聯(lián)動(dòng),呈網(wǎng)狀結(jié)構(gòu)的龐大體系,尤其對(duì)于氣象數(shù)據(jù)產(chǎn)品的共建共享上還有非常大的發(fā)展空間,因此作為整個(gè)平臺(tái)的最前端設(shè)計(jì),在CTS數(shù)據(jù)庫中適當(dāng)合理的預(yù)留冗余信息和可擴(kuò)展表單是非常有必要的。
在CTS系統(tǒng)中,涉及到各種氣象數(shù)據(jù)、系統(tǒng)和業(yè)務(wù)運(yùn)行日志、CTS運(yùn)行所需的配置信息、用戶信息以及各種數(shù)據(jù)字典等,對(duì)文件存儲(chǔ)區(qū)的設(shè)計(jì),遵循《氣象數(shù)據(jù)庫系統(tǒng)存儲(chǔ)及命名規(guī)范》、《服務(wù)器目錄及存儲(chǔ)資源規(guī)劃》和《工作目錄命名規(guī)范》,并方便文件的存儲(chǔ)、查詢和清除[3]。
平臺(tái)中文件存儲(chǔ)區(qū)涉及到的目錄是“/space/cimiss_CCCC/run/azone/”和“/app/conf”。 前者是 CTS系統(tǒng)的主要目錄,它包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)是指CTS系統(tǒng)內(nèi)部的處理數(shù)據(jù)以及臨時(shí)數(shù)據(jù),外部數(shù)據(jù)不僅包括CTS系統(tǒng)從CIMISS系統(tǒng)外部得到的數(shù)據(jù),還包括與CIMISS系統(tǒng)內(nèi)部交互的數(shù)據(jù)。所有這些數(shù)據(jù)都要在這個(gè)根目錄下重新劃分自己的子目錄。后者放置的是CTS系統(tǒng)所需的配置文件以及升級(jí)文件。
根據(jù)數(shù)據(jù)收集與分發(fā)系統(tǒng)的業(yè)務(wù)特點(diǎn),基于數(shù)據(jù)管理的安全性考慮,先將文件存儲(chǔ)區(qū)劃分為兩大區(qū)域,一個(gè)是用于與外界交換數(shù)據(jù)的通信區(qū),另一個(gè)是用于CTS內(nèi)部數(shù)據(jù)處理的工作區(qū)。在通信區(qū),其根目錄是“/entry/”,它主要包括五個(gè)目錄:入口目錄、遠(yuǎn)程下載目錄、CMACast補(bǔ)調(diào)目錄、本地補(bǔ)調(diào)目錄、數(shù)據(jù)流目錄;在工作區(qū),主要包括九個(gè)目錄:收集目錄、分發(fā)組織目錄、數(shù)據(jù)編輯目錄、數(shù)據(jù)定制目錄、原始存檔目錄、數(shù)據(jù)存檔目錄、分發(fā)后存檔目錄、升級(jí)文件目錄、配置文件目錄。其中收集目錄、分發(fā)組織目錄、數(shù)據(jù)編輯目錄、數(shù)據(jù)定制目錄、原始存檔目錄、數(shù)據(jù)存檔目錄和分發(fā)后存檔目錄這七個(gè)目錄的根目錄都是“/wrk_c/”,升級(jí)文件目錄和配置文件目錄這兩個(gè)目錄的根目錄是“/app/conf”。涉及到與CIMISS內(nèi)部系統(tǒng)的交互的目錄有三個(gè):推送數(shù)據(jù)加工處理系統(tǒng)(DPC)的目錄是“/input1”和“/input2”;從 DPC 接收的目錄是“/ouput”;推送歸檔系統(tǒng)(SOD)的目錄是“/ach_c”,目錄結(jié)構(gòu)參考數(shù)據(jù)來源的目錄結(jié)構(gòu)。
在國(guó)家級(jí)節(jié)點(diǎn),CTS同時(shí)部署在雙向DMZ區(qū)和核心業(yè)務(wù)區(qū)。在國(guó)家級(jí)的雙向DMZ區(qū)CTS中,通信區(qū)有入口目錄、遠(yuǎn)程下載目錄、本地補(bǔ)調(diào)目錄和數(shù)據(jù)流目錄共四個(gè)目錄;工作區(qū)有原始存檔目錄、收集目錄、分發(fā)組織目錄、數(shù)據(jù)編輯目錄、數(shù)據(jù)定制目錄、分發(fā)后存檔目錄、數(shù)據(jù)存檔目錄、配置文件目錄和升級(jí)文件目錄共九個(gè)目錄。在國(guó)家級(jí)的核心區(qū)CTS中,通信區(qū)有入口目錄、遠(yuǎn)程下載目錄和數(shù)據(jù)流目錄共三個(gè)目錄;工作區(qū)有原始存檔目錄、收集目錄、分發(fā)組織目錄、分發(fā)后存檔目錄、數(shù)據(jù)存檔目錄、配置文件目錄和升級(jí)文件目錄共七個(gè)目錄。在省級(jí)節(jié)點(diǎn),CTS只部署在雙向區(qū),通信區(qū)有入口目錄、遠(yuǎn)程下載目錄、CMACast補(bǔ)調(diào)目錄、本地補(bǔ)調(diào)目錄和數(shù)據(jù)流目錄共五個(gè)目錄,工作區(qū)有原始存檔目錄、收集目錄、分發(fā)組織目錄、數(shù)據(jù)編輯目錄、數(shù)據(jù)定制目錄、分發(fā)后存檔目錄、數(shù)據(jù)存檔目錄、配置文件目錄和升級(jí)文件目錄共九個(gè)目錄[4]。
通過《CTS-數(shù)據(jù)規(guī)格說明書(V3.1).doc》中關(guān)于數(shù)據(jù)量的分析,目前已知的在國(guó)家級(jí)CTS的收集與分發(fā)資料每天的數(shù)據(jù)量約為2 TB,再加上未來幾年將要發(fā)射的FY3、FY4系列衛(wèi)星的數(shù)據(jù),每天通過CTS系統(tǒng)的數(shù)據(jù)可達(dá)4 TB。這些資料全部要進(jìn)入通信區(qū)的入口目錄。由于入口目錄是個(gè)??漳夸?,在進(jìn)行數(shù)據(jù)收集時(shí)實(shí)時(shí)將數(shù)據(jù)移盤到工作區(qū)的原始存檔目錄,因此在容量估算時(shí)這兩個(gè)目錄合并估算[5]。
根據(jù)以上分析,以國(guó)家級(jí)CTS入口目錄為例,每天2 TB的容量應(yīng)擴(kuò)展一倍,在存儲(chǔ)策略上作為24 h周期存儲(chǔ),同理分析下,遠(yuǎn)程下載目錄為10 G容量,存儲(chǔ)周期24 h,以此類推,其中分發(fā)組織目錄的存儲(chǔ)策略定為10 d,數(shù)據(jù)存檔目錄為3 d,升級(jí)文件和策略文件目錄為永久存儲(chǔ)。按照百分之三十的冗余量合計(jì)估算,國(guó)家級(jí)存儲(chǔ)容量估算值約為27.2 TB。
綜上所述,CTS系統(tǒng)的文件級(jí)存儲(chǔ)區(qū)在內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)的基礎(chǔ)上劃分出存儲(chǔ)區(qū)目錄,而在功能區(qū)域的劃分上分為對(duì)外通信區(qū)和內(nèi)部工作區(qū),并按功能組織出相應(yīng)路徑結(jié)構(gòu)。在存儲(chǔ)容量方面通過估算可以得出冗余百分之三十的容量約為27.2 TB。這樣的冗余設(shè)計(jì)可以有效滿足CTS系統(tǒng)平臺(tái)的運(yùn)行需求,保障數(shù)據(jù)通信業(yè)務(wù)的穩(wěn)定高效。