曹輝標(biāo)
摘 要:文章從公司實(shí)際情況出發(fā),以現(xiàn)有運(yùn)營系統(tǒng)及運(yùn)營保障機(jī)制為例,介紹了如何進(jìn)行穩(wěn)定可靠運(yùn)營系統(tǒng)的日常運(yùn)行保障,同時(shí)通過對運(yùn)營維護(hù)中關(guān)鍵技術(shù)的描述,闡述了在未來一段時(shí)間內(nèi)運(yùn)營維護(hù)工作的發(fā)展方向。
關(guān)鍵詞:運(yùn)營系統(tǒng);運(yùn)維;穩(wěn)定;可靠
引言
隨著公司業(yè)務(wù)的發(fā)展壯大,企業(yè)的日常運(yùn)營維護(hù)工作已經(jīng)越來越被重視,運(yùn)營系統(tǒng)的可靠穩(wěn)定關(guān)系著客戶使用滿意的高低。因此,打造一個(gè)穩(wěn)定、可靠的運(yùn)營系統(tǒng)是所有運(yùn)營企業(yè)的核心工作,由此孕育而生的關(guān)鍵技術(shù)也越來越多,也更好的為運(yùn)營系統(tǒng)的維護(hù)提供了技術(shù)保障。
1 定義
運(yùn)營維護(hù)簡稱運(yùn)維,一般是指對企業(yè)已經(jīng)建立好的網(wǎng)絡(luò)系統(tǒng)軟硬件的維護(hù)以及對信息系統(tǒng)的維護(hù)。例如,電腦硬件、軟件維修,電話問題處理等基礎(chǔ)維護(hù)工作。同時(shí)也包含了對外的運(yùn)營系統(tǒng)的維護(hù),要保證運(yùn)營系統(tǒng)是在正常運(yùn)作的,通過各種手段,有人工的也有自動(dòng)的,進(jìn)行監(jiān)控,出現(xiàn)問題及時(shí)處理解決等等。
2 運(yùn)營維護(hù)
運(yùn)營系統(tǒng)的穩(wěn)定可靠是運(yùn)營維護(hù)的重點(diǎn)工作,要對公司內(nèi)部、外部使用的所有自運(yùn)營系統(tǒng)的正常運(yùn)作進(jìn)行保證,保證服務(wù)器能夠正常運(yùn)行,保證系統(tǒng)資源足夠使用,在必要時(shí)進(jìn)行硬件升級,保證出問題時(shí)能夠第一時(shí)間分析解決問題,主要可以從以下幾個(gè)方面采取保證措施。
2.1 巡檢保障
運(yùn)營系統(tǒng)由兩大部分組成,一部分是運(yùn)行環(huán)境,包括網(wǎng)絡(luò)、硬件等資源,一部分是系統(tǒng)程序,包括各種應(yīng)用程序以及網(wǎng)站等。要保證系統(tǒng)的穩(wěn)定,就必須保證運(yùn)行環(huán)境和系統(tǒng)程序是穩(wěn)定正常的,為此可以通過日常巡檢來進(jìn)行檢查保證。
每天至少對運(yùn)行環(huán)境進(jìn)行兩次巡檢,包括應(yīng)用程序開啟、系統(tǒng)資源、系統(tǒng)事件日志、系統(tǒng)監(jiān)控情況等等,確保運(yùn)行環(huán)境是正常的。
只有環(huán)境的正常也是不夠的,還必須保證程序開啟后能夠正常提供工作,因此需要安排人員通過一些自動(dòng)化程序驗(yàn)證以及人工的巡檢驗(yàn)證來保證應(yīng)用程序能正常提供業(yè)務(wù)功能。
2.2 監(jiān)控保障
為了保證系統(tǒng)的穩(wěn)定可靠,如果僅僅是通過人為的巡檢保障是不夠的,還需要配置完備的運(yùn)營監(jiān)控機(jī)制,進(jìn)行主動(dòng)監(jiān)控以及主動(dòng)報(bào)警。
一般的監(jiān)控系統(tǒng)能做到的是進(jìn)行郵件和短信報(bào)警,但是如果在夜間出現(xiàn)問題,就很容易被忽略,因此需要一套能提供電話報(bào)警的監(jiān)控系統(tǒng),同時(shí)對于運(yùn)營系統(tǒng)的各種參數(shù)需要定期進(jìn)行分析,也需要一套對各種運(yùn)營參數(shù)能提供詳細(xì)報(bào)表的監(jiān)控系統(tǒng)。
監(jiān)控系統(tǒng)一:
一套自主開發(fā)的監(jiān)控系統(tǒng),主要是對系統(tǒng)資源的使用情況以及應(yīng)用程序啟用情況進(jìn)行監(jiān)控。
運(yùn)營系統(tǒng)每臺服務(wù)器安裝客戶端,同時(shí)安裝一臺服務(wù)器端,客戶端將報(bào)警信息提交到服務(wù)器端,服務(wù)器端連接到報(bào)警終端,報(bào)警終端連接公司語音網(wǎng)關(guān)系統(tǒng)和短信平臺,一旦報(bào)警終端收到報(bào)警信息,將向系統(tǒng)負(fù)責(zé)人員發(fā)送一條報(bào)警信息,告知某某系統(tǒng)出現(xiàn)問題,同時(shí)向報(bào)警手機(jī)撥打報(bào)警電話,語音提示系統(tǒng)負(fù)責(zé)人查看報(bào)警信息。雙管齊下進(jìn)行報(bào)警提醒,避免只有短信晚間容易讓負(fù)責(zé)人遺漏報(bào)警信息的問題。
監(jiān)控系統(tǒng)二:
一套比較成熟的監(jiān)控軟件,對系統(tǒng)、網(wǎng)絡(luò)、資源以及整體的可用性進(jìn)行比較全面的監(jiān)控,并產(chǎn)生詳細(xì)的日志,這套系統(tǒng)主要是通過日志用來對系統(tǒng)的可用性進(jìn)行分析,并為系統(tǒng)是否需要進(jìn)行優(yōu)化升級等操作提供可靠的參考依據(jù)。
通過這兩套監(jiān)控系統(tǒng)配合人為的日常巡檢,對運(yùn)營系統(tǒng)的正常穩(wěn)定運(yùn)行提供了有效的保障。
2.3 可靠性、可用性保障
系統(tǒng)穩(wěn)定可靠的運(yùn)行,要考慮到各種可能出現(xiàn)的意外情況,例如服務(wù)器出現(xiàn)故障、網(wǎng)絡(luò)中斷或是機(jī)房無法正常工作等等,針對這些情況,必須要采取相應(yīng)的措施來保證運(yùn)營系統(tǒng)的可靠性和可用性。
目前通常都是采取如下措施:
1)數(shù)據(jù)庫本地做鏡像,在主服務(wù)器出現(xiàn)故障時(shí)立即切換。
2)程序本地做負(fù)載均衡,避免出現(xiàn)單點(diǎn)故障。
3)數(shù)據(jù)庫異地做日志傳送,在機(jī)房或網(wǎng)絡(luò)出問題時(shí),切換到異地服務(wù)器。
4)程序異地做備份,在機(jī)房或網(wǎng)絡(luò)出問題時(shí),異地啟用。
3 運(yùn)營系統(tǒng)要求
運(yùn)營系統(tǒng)的穩(wěn)定可靠必須建立在一定的要求之上,只有滿足這些要求,才能建設(shè)一個(gè)穩(wěn)定、可靠并且高效的運(yùn)營系統(tǒng)。
3.1 性能要求
運(yùn)營系統(tǒng)的用戶群體是企業(yè)用戶,較為集中使用時(shí)間為6:30-20:00,在高度集中使用時(shí)對于性能要求較高,內(nèi)存、CPU、磁盤IO都要能滿足使用,支持高并發(fā),保證使用速度較快,不會有過多的延遲。
3.2 擴(kuò)展要求
隨著用戶量的增加,服務(wù)器、數(shù)據(jù)庫性能以及容量方面都要能夠通過較為簡單的方式實(shí)現(xiàn)擴(kuò)容,最好是能夠在線擴(kuò)容,保證服務(wù)不會中斷。同時(shí)服務(wù)要能夠支持負(fù)載均衡,以提高系統(tǒng)速度及可用性。
3.3 本地災(zāi)備
數(shù)據(jù)實(shí)現(xiàn)本地鏡像,當(dāng)服務(wù)器或是數(shù)據(jù)庫無法正常工作時(shí),能夠?qū)崿F(xiàn)本地服務(wù)的快速切換(最好是能夠做到秒級切換)。
3.4 異地災(zāi)備
數(shù)據(jù)實(shí)現(xiàn)異地備份,當(dāng)機(jī)房遇到不可抗力的自然災(zāi)難導(dǎo)致機(jī)房整體不可用時(shí),能夠快速的啟動(dòng)異地的備用系統(tǒng)提供正常服務(wù)。
3.5 網(wǎng)絡(luò)要求
運(yùn)營系統(tǒng)網(wǎng)絡(luò)必須保持7*24小時(shí)通暢,提供電信、網(wǎng)通、移動(dòng)、教育網(wǎng)等主流運(yùn)營商的多線接入,保證網(wǎng)間互聯(lián)的順暢,當(dāng)出現(xiàn)移動(dòng)終端無法登陸系統(tǒng)時(shí),能夠迅速的定位并解決問題。保證運(yùn)營網(wǎng)絡(luò)的資源使用不會被同機(jī)房其它系統(tǒng)影響。
3.6 安全要求
系統(tǒng)用戶數(shù)據(jù)保密性要求極高,絕對不容許泄密事件的發(fā)生。同時(shí)要求運(yùn)營系統(tǒng)能夠主動(dòng)的防御外部的攻擊以及抵御病毒的破壞。
3.7 響應(yīng)要求
運(yùn)營系統(tǒng)要能提供7*24小時(shí)的服務(wù),當(dāng)出現(xiàn)問題需要調(diào)整溝通時(shí)能夠立即進(jìn)行響應(yīng)。
3.8 團(tuán)隊(duì)要求
一套成功的系統(tǒng),除了必須具備上述強(qiáng)大可靠的服務(wù)器、網(wǎng)絡(luò)安全等硬件支撐能力、完善的系統(tǒng)和數(shù)據(jù)安全保障能力、完善的系統(tǒng)監(jiān)控和保障機(jī)制之外,更重要的是能夠有一支強(qiáng)大的技術(shù)管理團(tuán)隊(duì)。公司在開始規(guī)劃運(yùn)營系統(tǒng)的同時(shí),即開始著手運(yùn)維團(tuán)隊(duì)的建設(shè)和規(guī)劃,并一直給予很高的重視。目前所有運(yùn)營系統(tǒng)都交付公司的運(yùn)維團(tuán)隊(duì)負(fù)責(zé),運(yùn)維團(tuán)隊(duì)成員都具備多年的工作經(jīng)驗(yàn),每個(gè)技術(shù)人員都有自已專長。運(yùn)維團(tuán)隊(duì)創(chuàng)建初始就按ITIL流程進(jìn)行規(guī)范化日常維護(hù)和管理。通過近幾年的實(shí)踐和摸索,目前已經(jīng)有較為完備的服務(wù)臺、事件管理、變更管理、問題管理等流程。通過ITIL最佳化實(shí)踐經(jīng)驗(yàn),所有故障都將通過服務(wù)臺進(jìn)行工單記錄、流程化故障處理。針對所有變更按流程進(jìn)行白盒、黑盒等測試,只有測試通過后才提交運(yùn)維部進(jìn)行發(fā)布升級,針對每個(gè)流程都有完備的記錄和日志跟蹤,做到所有操作都有跡可循。
4 運(yùn)維關(guān)鍵技術(shù)
運(yùn)維是一項(xiàng)綜合性的工作,運(yùn)維工程師在運(yùn)維過程中會遇見形形色色的各種問題需要參與解決并從運(yùn)維角度給出參考意見,包括架構(gòu)設(shè)計(jì)、系統(tǒng)使用資源的評估、應(yīng)用軟件設(shè)計(jì)的缺陷評估、系統(tǒng)資源調(diào)優(yōu)、托管機(jī)房選擇、安全調(diào)優(yōu)等等,并參與整個(gè)項(xiàng)目的實(shí)施過程。隨著時(shí)間的推移,越來越多的新技術(shù)會出現(xiàn)在運(yùn)維過程中,例如集群技術(shù)應(yīng)用、動(dòng)態(tài)擴(kuò)展的架構(gòu)、安全運(yùn)營中心(SOC)構(gòu)建、網(wǎng)站加速(CDN)、大數(shù)據(jù)存儲等等,所以運(yùn)維人員要與時(shí)俱進(jìn),需要不斷地通過這些新技術(shù)新的應(yīng)用來完善運(yùn)營系統(tǒng),使得系統(tǒng)更加穩(wěn)定可靠。這里主要介紹一下集群技術(shù)的應(yīng)用。
集群技術(shù)應(yīng)用:集群是由兩臺或多臺節(jié)點(diǎn)機(jī)(服務(wù)器)構(gòu)成的一種松散耦合的計(jì)算節(jié)點(diǎn)集合,為用戶提供網(wǎng)絡(luò)服務(wù)或應(yīng)用程序(包括數(shù)據(jù)庫、Web服務(wù)和文件服務(wù)等)的單一客戶視圖,同時(shí)提供接近容錯(cuò)機(jī)的故障恢復(fù)能力。例如高性能計(jì)算科學(xué)集群,高可用性集群,負(fù)載均衡集群,分布式儲、計(jì)算存儲集群,數(shù)據(jù)庫集群,郵件集群等。集群由于機(jī)器較多,管理起來比較復(fù)雜,需要綜合考慮到以下幾點(diǎn)因素:
1)智能監(jiān)控
包括對集群系統(tǒng)故障的監(jiān)控以及資源、負(fù)載、網(wǎng)絡(luò)流量等使用情況的實(shí)時(shí)監(jiān)控,從而保證集群系統(tǒng)穩(wěn)定可靠的運(yùn)行,并且對可能出現(xiàn)的問題及時(shí)處理。
2)故障維護(hù)
集群服務(wù)器數(shù)量較多,出現(xiàn)服務(wù)器宕機(jī)以及硬件故障的概率也隨之增大,因此,從系統(tǒng)穩(wěn)定性可靠性角度出發(fā),要充分考慮到故障問題,更多的通過應(yīng)用程序的冗余負(fù)載部署來解決此類問題。同時(shí)要針對可能出現(xiàn)的問題,建立較為完備的應(yīng)急響應(yīng)機(jī)制,從而快速有效的采取解決措施。
3)運(yùn)維自動(dòng)化
集群服務(wù)器多,一些日常的工作,例如修改密碼,系統(tǒng)升級,系統(tǒng)發(fā)布等工作量比較大,需要借助一些自動(dòng)化工具來批量完成這些日常工作,提高工作效率。
5 構(gòu)建穩(wěn)定可靠運(yùn)營系統(tǒng)
構(gòu)建穩(wěn)定可靠的運(yùn)營系統(tǒng)是所有對外運(yùn)營公司的核心工作,需要通過一支穩(wěn)定高效的團(tuán)隊(duì)來進(jìn)行建設(shè)。綜合前文所述,穩(wěn)定可靠運(yùn)營系統(tǒng)的構(gòu)建影響因素很多,需要根據(jù)經(jīng)驗(yàn)不斷的進(jìn)行運(yùn)維策略的制定,并不斷進(jìn)行調(diào)整,確保人工和自動(dòng)巡檢的有效性,保證監(jiān)控保障機(jī)制使用到位,避免出現(xiàn)監(jiān)控不到位的情況,同時(shí)通過各種運(yùn)維高新技術(shù)的學(xué)習(xí)和使用,確保運(yùn)營系統(tǒng)的穩(wěn)定、可靠。
參考文獻(xiàn)
[1] (美)阿爾斯帕瓦,(美)羅賓斯.網(wǎng)站運(yùn)維:保持?jǐn)?shù)據(jù)實(shí)時(shí)的秘技[M].楊建華譯.北京:電子工業(yè)出版社.
[2]劉宇熹,陳尹立.計(jì)算機(jī)系統(tǒng)服務(wù)外包及運(yùn)行維護(hù)管理[M].北京:清華大學(xué)出版社.
[3]楊威.網(wǎng)站組建、管理與維護(hù)[M].北京:電子工業(yè)出版社。
[4]葛世倫,尹雋.信息系統(tǒng)運(yùn)行與維護(hù)[M].北京:電子工業(yè)出版社.