羅2 解 決亮方案
中國聯(lián)通寧夏分公司物資采購與管理部,寧夏銀川 750010
構(gòu)建BOSS多層次多角度的網(wǎng)絡(luò)與應用性能分析系統(tǒng)
羅2 解 決亮方案
中國聯(lián)通寧夏分公司物資采購與管理部,寧夏銀川 750010
寧夏聯(lián)通BOSS系統(tǒng)以銀川為中心,覆蓋寧夏全省,其業(yè)務(wù)涵蓋了計費、結(jié)算、賬務(wù)、業(yè)務(wù)管理、客服等方面。如何從整體上保障BOSS業(yè)務(wù)系統(tǒng)高效運行,對于提高全省聯(lián)通服務(wù)水平、管理水平和經(jīng)營決策水平意義深遠。
BOSS;網(wǎng)絡(luò) ;應用性能
寧夏聯(lián)通BOSS系統(tǒng)以銀川為中心,覆蓋寧夏全省,其業(yè)務(wù)涵蓋了計費、結(jié)算、賬務(wù)、業(yè)務(wù)管理、客服等方面。如何從整體上保障BOSS業(yè)務(wù)系統(tǒng)高效運行,對于提高全省聯(lián)通服務(wù)水平、管理水平和經(jīng)營決策水平意義深遠。
寧夏全省BOSS系統(tǒng)運行在負載均衡層面、WEB層面、中間件層面和數(shù)據(jù)庫層面的四層系統(tǒng)架構(gòu)下,由各個設(shè)備廠商維護自己的設(shè)備;過去當聯(lián)通管理層接收到BOSS系統(tǒng)訪問“慢”的反饋時,各層面的維護人員都可以證明自己的設(shè)備沒有問題,比如CPU、內(nèi)存利用率都正常等的信息,這樣各層面獨立分析的情況必將導致問題的排查進入到迂回的僵局中;
為了能站在網(wǎng)絡(luò)的角度,從整體上對BOSS系統(tǒng)各個層面的性能進行監(jiān)控分析,從技術(shù)手段上保證網(wǎng)絡(luò)和應用的可視性、預防問題的出現(xiàn),提高IT工作人員的生產(chǎn)率,具體來說,包括以下幾個方面:
1)對網(wǎng)絡(luò)與應用性能提供全面深入的可視性,快速排障
(1)從多個角度監(jiān)控BOSS系統(tǒng)架構(gòu)中每一層面的應用服務(wù)響應水平,呈現(xiàn)關(guān)鍵性能指標,客觀評估用戶體驗在各個層面的反映;
(2)從宏觀整體到微觀個體區(qū)分網(wǎng)絡(luò)響應與應用響應的時延,快速判斷故障根因;系統(tǒng)提供易用快捷的操作方式,能夠直接在視圖上進行關(guān)聯(lián)分析,不需要管理員多次輸入查詢條件就得到分析結(jié)果。
2)通過歷史基準與周期對比實現(xiàn)故障預防
(1)為BOSS系統(tǒng)各個層面建立歷史基準模型,為實現(xiàn)故障預防提供可靠依據(jù);
(2)提供每一層面網(wǎng)絡(luò)流量水平與應用響應時延的周期對比,隨時監(jiān)控系統(tǒng)調(diào)優(yōu)前后的KPI變化,客觀評估網(wǎng)絡(luò)與應用改造成效。
3)智能告警并提供證據(jù),對影響性能指標的相關(guān)因素進行關(guān)聯(lián)分析,提高工作效率
系統(tǒng)提供流量水平與響應時延水平的智能告警并提供導致告警的證據(jù),對影響性能指標的相關(guān)因素進行關(guān)聯(lián)分析,體現(xiàn)客戶數(shù)、連接數(shù)與服務(wù)器響應時延的關(guān)系。獲得網(wǎng)絡(luò)與應用的實時視圖和報紙格式的歷史報表。
在項目第一期,BOSS營帳系統(tǒng)在寧夏全省數(shù)據(jù)中心部署了一套網(wǎng)絡(luò)與應用性能分析系統(tǒng),包括一臺內(nèi)置存儲的硬件探針與一套管理軟件。如圖所示,在省數(shù)據(jù)中心的思科網(wǎng)絡(luò)交換機同多個不同的應用服務(wù)器相連接。通過交換機端口鏡像,探針采集應用服務(wù)器流量,在混合的流量當中可以把負載均衡、WEB、中間件與數(shù)據(jù)庫各個層面的流量進行區(qū)分并單獨進行分析;探針定時將各種性能參數(shù)傳送給管理軟件,管理軟件將這些分析數(shù)據(jù)綜合整理并加以分析。網(wǎng)絡(luò)管理人員可以隨時隨地地通過WEB瀏覽器
傳統(tǒng)的儀器儀表型工具,其特點是緊急式的反應工具,通常是等有故障發(fā)后才接入網(wǎng)絡(luò)進行分析,由于缺乏歷史數(shù)據(jù),無法重現(xiàn)偶發(fā)的故障現(xiàn)象,更不能建立歷史基準,通過周期對比實現(xiàn)故障預防,另外,在分析數(shù)據(jù)呈現(xiàn)方面,也很難真正做到客戶化、層次化。
在項目第一期部署的網(wǎng)絡(luò)與應用性能分析系統(tǒng),雖然僅包括了一臺硬件探針與一套管理軟件,但基本上滿足了本文需求分析提到的多項具體功能,由于一套管理軟件可支持多臺硬件探針,因此可以按實際需要增加部署硬件探針的數(shù)量。
接下來,結(jié)合實際的工作需要,介紹我們對BOSS營帳系統(tǒng)進行網(wǎng)絡(luò)與應用性能分析的經(jīng)驗案例:
1)從多層面分析網(wǎng)絡(luò)與應用性能表現(xiàn),提供全面的可視化
(1)同時在每一層面中區(qū)分網(wǎng)絡(luò)響應時延與應用響應時延,快速判斷故障根因;
(2)從多個角度監(jiān)控應用服務(wù)響應水平,呈現(xiàn)關(guān)鍵性能指標,客觀評估用戶體驗;
我們先說明如何區(qū)分網(wǎng)絡(luò)響應時延與應用響應時延,以及歷史性、多角度報表所能夠體現(xiàn)的作用;
09年底某天寧夏銀川BOSS運維部門接到營業(yè)廳用戶反映,說感覺訪問業(yè)務(wù)系統(tǒng)慢,寧夏
網(wǎng)盟的工程師通過網(wǎng)絡(luò)與應用性能分析系統(tǒng),快速定位至在WEB與中間件交互過程中出現(xiàn)了異常,通過報表,得出這樣的一個結(jié)論:在“只有10.243.xxx.3這臺WEB服務(wù)器訪問中間件層面的網(wǎng)絡(luò)交互過程出現(xiàn)問題”;因為所有的WEB服務(wù)器放置于同一網(wǎng)絡(luò)架構(gòu)中,各臺WEB服務(wù)器性能表現(xiàn)跟歷史同期比較完全正常,只有這臺服務(wù)器訪問中間件層面的服務(wù)器過程出現(xiàn)異常,因此毫無疑問的是這臺WEB服務(wù)器自身的問題導致網(wǎng)絡(luò)交互的異常出現(xiàn),進而導致該WEB服務(wù)器負載區(qū)域的用戶感覺到“慢”;得出結(jié)論后告知這個設(shè)備的廠商,提供以證據(jù),廠商針對證據(jù)的表現(xiàn),快速給出方案解決問題;從①接收問題;到②定位至WEB層面;再到③定位至某臺WEB服務(wù)器;這個過程不超過5min,因為所有層面的信息都在一個系統(tǒng)中反映,比起從前“接收問題后,通知各個層面的廠商讓其各自找問題,各層面的廠商通常強調(diào)自己沒有問題,需要聯(lián)通公司經(jīng)過反復討論驗證,才能定位問題的根源”這一模式,大大地提高了解決問題的效益與運維管理水平;
2)從多角度分析每一層面的應用服務(wù)水平,提供深入的可視化
接下來,我們再闡述如何從多個角度監(jiān)控應用服務(wù)響應水平,呈現(xiàn)關(guān)鍵性能指標,客觀評估用戶體驗:
BOSS業(yè)務(wù)每一層面的交互中包括有多種應用服務(wù),每種應用服務(wù)又包括多臺服務(wù)器,因此,我們首先在各個層面需要獲得一個能夠體現(xiàn)全局的所有應用服務(wù)性能的概貌(同時還要了解該應用影響用戶體驗的關(guān)鍵性能指標),然后從這個概貌關(guān)聯(lián)展開分析每個應用的每臺服務(wù)器性能,再從特定服務(wù)器展開分析每臺客戶端的響應時延。
這些視圖即可以通過自定義的方式自動呈現(xiàn)在工作臺上,也可以通過應用服務(wù)的超時告警,以提供告警證據(jù)的方式呈現(xiàn)出來。
(1)應用角度
圖2 WEB層面的業(yè)務(wù)應用性能參數(shù)
上圖的報表中是針對WEB層面的所有應用服務(wù)的監(jiān)控,包括所有應用服務(wù)的平均時延、峰值時延、響應次數(shù)、響應成功次數(shù),每一種應用的關(guān)鍵性能指標(以HTTP舉例),以及每一種應用服務(wù)在一天中不同時段,響應次數(shù)與響應時延隨時間變化情況(以HTTP舉例)。
(2)應用服務(wù)器角度
圖3 WEB層面的應用服務(wù)器性能參數(shù)
上圖的報表中是針對WEB層面的所有應用服務(wù)器的監(jiān)控,包括所有應用服務(wù)的平均時延、峰值時延、響應次數(shù)、響應成功次數(shù),各個地市訪問每一臺應用服務(wù)器的網(wǎng)絡(luò)延遲和應用延遲(以10.243.210.113的HTTP應用舉例),以及每一種應用服務(wù)在一天中不同時段,響應次數(shù)與響應時延隨時間變化情況。
(3)客戶端角度
圖4 WEB層面的應用服務(wù)器性能參數(shù)
上圖針對HTTP服務(wù)器10.243.210.113對每一臺客戶端的響應性能進行監(jiān)控,包括每臺客戶端訪問服務(wù)器的平均時延、峰值時延、響應次數(shù)、響應成功次數(shù)與響應失敗次數(shù);選取指定的客戶端,可快速獲得該客戶端訪問服務(wù)器長時間的性能曲線圖,包括網(wǎng)絡(luò)響應時延,應用響應時延,并從有問題的時間段直接提取數(shù)據(jù)包進行解碼驗證。
需要說明的是,這些視圖即可以通過自定義的方式自動呈現(xiàn)在工作臺上,也可以通過應用服務(wù)的超時告警,以提供告警證據(jù)的方式呈現(xiàn)出來。
該解決方案為寧夏銀川BOSS營帳系統(tǒng)所提供的集中和易用的平臺使用我們整個網(wǎng)絡(luò)和應用的性能管理手段發(fā)生的質(zhì)的變化,網(wǎng)絡(luò)管理人員現(xiàn)在不僅在任何時候和地點都能獲得豐富細微的實時與歷史性能信息、擺脫了手工操作事倍功半的工作方式,而且可以定期發(fā)布各種客戶化的報表報告,滿足不同讀者的工作需要,總而言之,提高了BOSS營帳系統(tǒng)IT工作人員的效率和生產(chǎn)率。
TP393
A
1674-6708(2010)23-0205-02