趙保珠 李楠 張家慧 魏正榮 陳大衛(wèi)
(國網(wǎng)上海信通公司 上海市 200072)
傳統(tǒng)的分組網(wǎng)絡運維,由于配置、拓撲、鏈路狀態(tài)等網(wǎng)絡性能指標不可視化,無論是處理網(wǎng)絡故障,還是變更調整業(yè)務,嚴重依賴運維人員的經驗能力以及從業(yè)人員的責任心,配置記錄缺失錯漏、人為失誤等都極易造成網(wǎng)絡中斷的事故,這為網(wǎng)絡留下了大量隱患。加上業(yè)務、網(wǎng)絡、IT等系統(tǒng)互相獨立,需要分別維護,部門間互相協(xié)調配合,效率低。隨著業(yè)務的增加,網(wǎng)絡規(guī)模不斷擴大,業(yè)務系統(tǒng)變得復雜,維護效率越來越低,運維人員身累心也累,業(yè)務部門由于業(yè)務受影響,抱怨也難以避免。于是SDN,大數(shù)據(jù)運維,運維AI等技術不斷涌現(xiàn),大大提高了網(wǎng)絡的運維效率。但是SDN等技術的部署和應用,離不開對于網(wǎng)絡實際狀態(tài)的感知,實時性越高、精度越高,控制器對網(wǎng)絡的分析控制、變更調整也就越準確。由此,Telemetry技術應運而生,它可以實時、準確、快速地采集到有關網(wǎng)絡運行的各類數(shù)據(jù),并加以分析處理,同時,將數(shù)據(jù)傳遞給網(wǎng)絡控制器,實現(xiàn)網(wǎng)絡的精確調優(yōu)等。
2021年5月至2021年6月,國網(wǎng)上海市電力公司信息通信公司聯(lián)合深圳市特發(fā)泰科通信科技有限公司組織開展了“基于切片分組網(wǎng)SPN技術的虛擬電廠多業(yè)務智慧融合承載平臺”科技創(chuàng)新項目實施。通過實驗網(wǎng)絡,從業(yè)務的角度研究驗證了SPN網(wǎng)絡技術承載虛擬電廠業(yè)務的可行性。SPN作為電力融合通信的承載網(wǎng)絡,其網(wǎng)絡的運維管理能力必須高效可靠。SPN的運維管理,將融合大數(shù)據(jù)運維、運維AI等新技術,采用SDN為架構,由此需要一種能夠實時、準確、快速地采集到有關網(wǎng)絡運行的各類數(shù)據(jù)的技術,為上層的SDN應用、控制提供數(shù)據(jù)支撐。就目前來看,telemetry是最值得關注的技術。
Telemetry技術到底是一個什么樣的技術呢?簡單來說,Telemetry技術是一項遠程的從物理設備或虛擬設備上高速采集數(shù)據(jù)的技術,且采集顆粒度精細,采集數(shù)據(jù)種類多而全面,同時設備通過推模式(Push Mode)周期性滴主動向采集器上送設備的狀態(tài)數(shù)據(jù)和統(tǒng)計數(shù)據(jù),相對傳統(tǒng)拉模式(Pull Mode)的一問一答式交互,TELEMETRY提供了更高效、實時、精確的數(shù)據(jù)采集功能。
TELEMETRY技術作為一個網(wǎng)絡監(jiān)測技術,分為網(wǎng)絡設備側和網(wǎng)管系統(tǒng)側兩大部分,對于網(wǎng)絡設備側,TELEMETRY負責采集設備狀態(tài)和統(tǒng)計數(shù)據(jù),推送給網(wǎng)管系統(tǒng)側。TELEMETRTY按照YANG模型組織數(shù)據(jù),利用GPB格式編碼,并通過GRPC協(xié)議傳輸數(shù)據(jù),數(shù)據(jù)獲取更高效,對接更便捷;對于網(wǎng)管系統(tǒng)側,telemetry技術負責接收和存貯網(wǎng)絡設備側上報的數(shù)據(jù),經過分析器分析后為網(wǎng)絡配置調整和流量優(yōu)化提供依據(jù)。telemetry技術原理框圖如圖1所示。
圖1:telemetry技術原理框圖
相比較傳統(tǒng)的網(wǎng)絡監(jiān)控技術,telemetry具備幾大優(yōu)勢:
(1)Telemetry的實時性更好。SNMP通常的監(jiān)控數(shù)據(jù)的采集周期為5分鐘(分鐘級),采集的數(shù)據(jù)通過網(wǎng)絡傳輸后,還會受到網(wǎng)絡傳輸時延影響,導致實時性差,不能反映網(wǎng)絡的微沖突。而telemetry為亞秒級,推送的采集報文內含時間戳,所以不受網(wǎng)絡傳輸時延影響,能反映出具體時間點的可觀數(shù)據(jù)、事件,亞秒級的推送周期,也能更好、更真實地診斷出網(wǎng)絡的微沖突。另外,拉模式很難支持超大規(guī)模網(wǎng)絡,而telemetry則能夠支持大規(guī)模網(wǎng)絡的實時監(jiān)控。
(2)Telemetry的采集數(shù)據(jù)更全面。Telemetry可以采集網(wǎng)絡流量數(shù)據(jù)、控制平面數(shù)據(jù)、管理平面數(shù)據(jù),涵蓋了網(wǎng)絡運營過程的全部數(shù)據(jù)。而傳統(tǒng)的運維管理技術,需要多種工具協(xié)同,還存在監(jiān)控的數(shù)據(jù)死角。比如NetStream、sFlow只能監(jiān)控網(wǎng)絡流量數(shù)據(jù),對控制平面數(shù)據(jù)就無能為力,syslog則是監(jiān)控網(wǎng)絡事件,做不了其它。Telemetry支持采集和分析的數(shù)據(jù)包括:設備、單板、芯片、接口、隊列、光鏈路等等。
(3)Telemetry的效率更高。傳統(tǒng)廣泛使用的SNMP和CLI,是采用“拉模式”,需要網(wǎng)管設備發(fā)出查詢申請,網(wǎng)絡設備進行報文解析,然后再依據(jù)網(wǎng)管申請作出應答,對網(wǎng)絡和網(wǎng)絡設備的資源消耗大,性能要求高。而telemetry則采用“推模式”,網(wǎng)管設備向網(wǎng)絡端訂閱需要采集上報的數(shù)據(jù)類型、頻度等,網(wǎng)絡設備主動上報。且一次訂閱,長期運行,簡化了查詢申請和報文解析的過程,因此效率更高,也減少了對網(wǎng)絡設備資源的消耗。如圖2所示。
圖2:SNMP與telemetry信息采集模式對比
(4)Telemetry的數(shù)據(jù)更加標準。Telemetry采用GPB對采集的數(shù)據(jù)進行編碼,采用YANG模型對采集到的數(shù)據(jù)進行建模處理,并通過GRPC(Google Procedure Call Protocol)協(xié)議傳輸數(shù)據(jù),使得數(shù)據(jù)的獲取更高效,智能對接更便捷。且標準化的數(shù)據(jù)模型,也有利于網(wǎng)絡的擴展。而傳統(tǒng)的CLI,Syslog等都無明確的數(shù)據(jù)模型要求,擴展性差。如圖3所示。
圖3:telemetry的數(shù)據(jù)標準化
狹義的telemetry僅指網(wǎng)絡設備支持telemetry數(shù)據(jù)采集的功能,但是,廣義的telemetry還包含了對采集的數(shù)據(jù)進行存儲、分析以及以及控制等應用。由telemetry快速精準地掌握網(wǎng)絡實時狀況,為上層的管理、控制、應用服務賦能,實現(xiàn)智能的管理運維、流量調優(yōu)、端到端的性能實時監(jiān)控等應用。采用telemetry技術后的網(wǎng)絡架構后,網(wǎng)絡模型將如圖4所示。
圖4:基于telemetry技術的網(wǎng)絡新架構后
Telemetry技術為智能運維賦能,有一個重要應用,就是網(wǎng)絡流量的自動調優(yōu),這也能大大提升網(wǎng)絡的運維配置效率和網(wǎng)絡的健壯性。智能運維系統(tǒng)包括分析器、采集器和控制器等,采集器利用TELEMETRY技術采集IP網(wǎng)絡設備的帶寬利用等數(shù)據(jù),然后發(fā)給分析器進行分析決策,分析器將決策結果發(fā)送給控制器,進而由控制器調整流量轉發(fā)路徑。得益于Telemetry技術高效、精確、實時數(shù)據(jù)采集功能,用戶對流量路徑的變化真正做到無感知,大幅提升用戶體驗!如圖5所示。
圖5:基于telemetry實現(xiàn)網(wǎng)絡調優(yōu)
Telemetry的另一大應用就是實現(xiàn)Inband-OAM,即帶內業(yè)務質量檢測。由于Inband-OAM是基于真實業(yè)務流做出網(wǎng)絡業(yè)務質量檢測,相比傳統(tǒng)的方式更加準確高效。而端到端的業(yè)務質量實時監(jiān)控能力,則是其帶來的又一大提升。如圖6所示。
圖6:Inband OAM(帶內業(yè)務質量檢測)
國網(wǎng)上海市電力公司信息通信公司在進行SPN電力通信承載網(wǎng)試點驗證業(yè)務承載能力的同時,也對網(wǎng)絡的telemetry技術和OAM進行了能力測試。重點測試了網(wǎng)管對網(wǎng)絡性能監(jiān)控的準確性、監(jiān)控參數(shù)、以及流量調優(yōu)應用能力等。
測試項目1:驗證設備是否支持telemetry功能,網(wǎng)管可以通過訂閱的方式獲取網(wǎng)絡性能參數(shù),報文符合規(guī)范:
如圖7所示搭建測試組網(wǎng),完成相關配置,被測設備與服務器之間建立Telemetry會話,以CPU和內存為例來進行驗證(期待結果:設備可以通過Telemetry協(xié)議接口主動將CPU利用率、內存利用率推送到服務器)。
圖7:telemetry驗證測試組網(wǎng)圖
驗證結論:設備支持性能上報接口telemetry功能,抓包分析設備上報的telemetry報文符合規(guī)范。
測試項目2:驗證測試基于telemetry的In-band OAM的端到端和逐跳性能監(jiān)控能力:
在上海電力實驗室配置5臺SPN設備,部署端到端HOVPN業(yè) 務,NE26/NE39/NE63為UPE,NE61為SPE,NE62為NPE,依次部署NE26-NE62端到端和逐跳IOAM實例64個,通過儀表測試(思博倫)結果和網(wǎng)管上報結果,對比驗證IOAM的性能。
驗證結論:試驗設備支持端到端監(jiān)測實例為64個。在測試結果上,制造的丟包書、IOAM實例的總丟包數(shù)和儀表每條的總丟包數(shù)一致,差值為0個;丟包流結果絕對偏差不超過+/-3%,串入10km和20km光纖,IOAM實例的平均時延和儀表平均時延偏差不超過+/-10%。
測試項目3:驗證基于流量擁塞的自動路徑優(yōu)化功能,在各種流量分析數(shù)據(jù)中優(yōu)選,近似于業(yè)務真實流量,隧道可以基于流量信息自動進行優(yōu)化路徑。
部署源深和靈石路之間的SR-TP隧道1和SR-TP隧道2,隧道均為無保護隧道,配置帶寬CIR為0,采用負載均衡算路策略;儀表分別為隧道1和隧道2 加載3G流量;控制器開啟基于流量的調優(yōu)功能,流量采集時間周期配置為15min,全局擁塞閾值配置為10%。等待至少2個流量采集周期后,查看控制器自動調優(yōu)結果(期待結果:隧道1和隧道2的路徑相同,預期均走的橙色實線路徑)。
驗證結論:經過數(shù)次測試驗證,隧道1和隧道2均能完成路徑切換,測試網(wǎng)絡具備基于流量調優(yōu)的功能。
Telemetry技術可以滿足用戶要求,支持智能運維系統(tǒng)管理更多的設備、監(jiān)控數(shù)據(jù)擁有更高精度和更加實時、監(jiān)控過程對設備自身功能和性能影響小,為網(wǎng)絡問題的快速定位、網(wǎng)絡質量優(yōu)化調整提供了最重要的大數(shù)據(jù)基礎,將網(wǎng)絡質量分析轉換為大數(shù)據(jù)分析,不僅能提升分組網(wǎng)絡的可運維能力,還有力地支撐了分組網(wǎng)絡智能運維的實現(xiàn)。telemetry的數(shù)據(jù)采集能力、性能監(jiān)測能力、流量調優(yōu)能力等,在本次項目中已經得到了初步的測試驗證,有助于提升分組網(wǎng)絡運維能力和網(wǎng)絡性能。
Telemetry技術,其精準的數(shù)據(jù)采集能力,可以幫助SDN實現(xiàn)無感的擁塞流量調優(yōu);其實時數(shù)據(jù)采集能力,能夠實現(xiàn)網(wǎng)絡流量的微突發(fā)檢測,避免微突發(fā)流量帶來的丟包與重傳,提升網(wǎng)絡性能;全面的數(shù)據(jù)采集則可以打開網(wǎng)絡黑盒,提升分組網(wǎng)絡的可運維能力和性能。Telemetry技術帶來的網(wǎng)絡數(shù)據(jù)“可觀測性”,在網(wǎng)絡安全方面也有很大的應用空間。未來,Telemetry技術必將得到更多的具體應用。