朱華樑
如今,分布式云架構(gòu)應(yīng)用越來越廣,但隨著IT應(yīng)用的擴(kuò)展后,資源共享才能促進(jìn)共同進(jìn)步。
運維管理的挑戰(zhàn)
江西省農(nóng)村信用社(簡稱“江西農(nóng)信”)目前共有2400多個網(wǎng)點,是江西聯(lián)系廣大農(nóng)戶、服務(wù)農(nóng)村社區(qū)的金融主力軍,今年1月份其貸款總額達(dá)到1萬億元,日均交易在千萬元左右。如今IT人員總共有60余名,具體負(fù)責(zé)基礎(chǔ)架構(gòu)運維的只有3位,服務(wù)器設(shè)備多達(dá)700多臺。3位IT運維人員支持如此龐大的基礎(chǔ)架構(gòu),工作量非常大,隨之而來的問題也很明顯:
資源使用效率低:在上云之前、未曾虛擬化時,硬件資源幾乎都是每個系統(tǒng)單獨購買、單獨使用的,因此經(jīng)常存在冷熱不均的現(xiàn)象,部分系統(tǒng)可能資源不夠用,有些系統(tǒng)可能資源利用率非常低,這也是無奈之舉;
上線速度慢:互聯(lián)網(wǎng)金融需求增多后,上線速率沖突變得愈加嚴(yán)重;
運維工作量非常繁重:由于操作基本是手工的,無論是上線之前還是上線之后的運維,都是難以承受的;
規(guī)范和標(biāo)準(zhǔn)落實難到位:出于架構(gòu)管理的職責(zé)要求,江西農(nóng)信制定了很多技術(shù)規(guī)范、文檔,要求從開發(fā)、測試到生產(chǎn)一一落實,但是如果沒有工具、沒有抓手落實,經(jīng)常會有一些遺漏。
牽手IBM 漫步云端
江西農(nóng)信的痛點包括了節(jié)能減排,主要是指PUE,國有企業(yè)原則上機(jī)房的PUE要低于1.5;利用率方面,機(jī)房設(shè)備資源利用率如果可以提高,設(shè)備的數(shù)量就可以下降,利于節(jié)能;可用性與云計算的關(guān)聯(lián),云計算一般都是分布式應(yīng)用,分布式之后在應(yīng)用的層次上高可用性提高了很多;自動化更不在言下。
2015年在IBM的幫助下,江西農(nóng)信制定了整體的工作思路和初步的規(guī)劃。
基礎(chǔ)是在IaaS層對基礎(chǔ)設(shè)施環(huán)境的管理,首先解決了資源利用不高的問題。換而言之,不僅可以交付基礎(chǔ)設(shè)施部署,也可在上面盡可能做一些自動化的運維工作、部署、配置、變更等;在此之上做總體的云管理平臺的管理和調(diào)度;再往上做一些編排,可以形成數(shù)據(jù)庫、中間件,完整的PaaS環(huán)境。
江西農(nóng)信總架構(gòu)師王志堅介紹道:“我們的云平臺不是一個獨立的系統(tǒng),而是云平臺和企業(yè)整體的互聯(lián)互通,整個企業(yè)內(nèi)部IT不是一個孤立的系統(tǒng),云平臺亦然。按照這一思路我們開發(fā)測試和云平臺進(jìn)行對接,云平臺留給IT運維人員,外部的流程留在原系統(tǒng)里,體驗更好?!?/p>
云平臺邏輯架構(gòu)設(shè)計以O(shè)penStack為基礎(chǔ)。云平臺根本概念是平臺+服務(wù),最上面一層關(guān)鍵在于服務(wù),主要是服務(wù)的編排、交付,包括服務(wù)的流程。而在服務(wù)之下需要很多支撐,云計算里最重要的是存儲、計算和網(wǎng)絡(luò),即軟件定義存儲、軟件定義計算、軟件定義網(wǎng)絡(luò)。
IBM擁有基于OpenStack的發(fā)行版本ICO,江西農(nóng)信早在兩三年前已開始使用ICO,其架構(gòu)特點很明顯:跨平臺融合,兼容Power和X86;開放對接,包括對不同廠商的硬件設(shè)備、對公有云和私有云的對接;以及運維。
云管理核心的組件主要是負(fù)責(zé)編排、BPM流程設(shè)計,可通過KVM預(yù)控制器管理KVM虛擬化環(huán)境,也可通過VMware管理其數(shù)據(jù)化;Power預(yù)控制器對接PowerVC,實現(xiàn)Power數(shù)據(jù)化資源管理;還有網(wǎng)絡(luò)管理。
王志堅認(rèn)為云平臺最關(guān)鍵的因素是OpenStack和HEAT。上云前江西農(nóng)信曾考慮過走何種技術(shù)路線,而王志堅的直覺是選擇OpenStack。為何如此信任OpenStack?OpenStack由于開源,已形成一個龐大的生態(tài)系統(tǒng),里面任何一個模塊都有非常多的開發(fā)者和公司在參與。在2015年,OpenStack已成為市場上絕對的主流之選,江西農(nóng)信選擇其商用版本,省時省力。
另外一個選擇是HEAT。當(dāng)用戶想實現(xiàn)比較復(fù)雜的環(huán)境,數(shù)據(jù)庫、中間件,甚至中間件集群、數(shù)據(jù)庫集群,則需要一個強(qiáng)大的編排組件來實現(xiàn),在OpenStack里就是HEAT模塊。江西農(nóng)信通過它實現(xiàn)了開發(fā)測試環(huán)境95%的應(yīng)用場景資源交付,95%的資源申請?zhí)峤缓?,無需任何人為的手工操作即可完成。同時其開源能力很強(qiáng),適用場景多。
高質(zhì)量 高效率
江西農(nóng)信上云后,最直接的效果是資源和成本的下降,包括生產(chǎn)。使用云平臺后,機(jī)器設(shè)備的購買減少了68%,運維工作量也得到大幅精簡。其次是上線效率,節(jié)約了90%的時間,僅需原來10%的時間就可完成全部的工作量。最后是運維壓力減輕,3個IT運維人員5年來數(shù)量未曾改變,但如今運維質(zhì)量卻是有保證的。
王志堅認(rèn)為,2013年可謂是江西農(nóng)信的二次創(chuàng)業(yè)。雖于2004年成立,但在2005年江西農(nóng)信就完成了數(shù)據(jù)大集中,實現(xiàn)新業(yè)務(wù)系統(tǒng)的上線。2013年,啟動江西農(nóng)信后援中心建設(shè)后,引入IBM PureApplication集成了專家的云平臺,來滿足后援中心項目的開發(fā)測試和投產(chǎn)需求?!爱?dāng)時令我們震撼的是,為了滿足后援中心項目的開發(fā)測試和投產(chǎn)的需求,用了IBM PureApplication,從機(jī)房到上線2天就可完成。里面包括虛擬機(jī)、引擎等軟件,最多一兩個小時就可以完成部署。據(jù)我了解,相同的工作量,如果由人來工作,一周都不可能做完,還有可能出錯?!痹谕踔緢钥磥恚咝?,不言而喻。
“我們當(dāng)時還做了SVC。當(dāng)時引入SVC最開始考慮的是高可用,引入之前經(jīng)常是一個項目買一個存儲,管理不便,維護(hù)存儲時提心吊膽,萬一出問題怎么解決。因此,2013年我們引入了SVC,把關(guān)鍵應(yīng)用存儲集中在一起,實現(xiàn)了雙備份。當(dāng)初引入SVC是為了實現(xiàn)高可用、存儲的集中管理,但是沒想到第二年引入了PowerVC,才知道PowerVC最佳搭檔就是SVC。因為存儲如果是各種品牌的,PowerVC對接起來相對復(fù)雜一些,由于我們SVC已落地,PowerVC只需要跟SVC對接,可直接對存儲進(jìn)行管理和分配?!彼f。
如今PowerVC和PureApplication并存。王志堅希望用相對開放的技術(shù)路線去擴(kuò)展、升級,PureApplication相對來說比較封閉,用于特定的場景。如果真是構(gòu)建一個整體的統(tǒng)一的云平臺,還是OpenStack這樣的產(chǎn)品更適合,PowerVC的核心也是基于OpenStack。2015年江西農(nóng)信引入了KVM環(huán)境,利用ICO實現(xiàn)了生產(chǎn)虛擬化環(huán)境管理,測試環(huán)境的優(yōu)化更進(jìn)一步,不僅管理KVM虛擬化,還實現(xiàn)了與PowerVC的對接。2016年主要是編排和流程的對接。
江西農(nóng)信始終堅持以加快發(fā)展為第一要務(wù),以極大的精力去開拓業(yè)務(wù),提高效益。
革命尚未成功,同志仍需努力。王志堅認(rèn)為還要進(jìn)一步提升:在SDN層面,IaaS網(wǎng)絡(luò)未來將考慮三層設(shè)置;在各管理平臺的對接上,基于現(xiàn)有的程度再度提升;對于應(yīng)用架構(gòu)的云化,江西農(nóng)信雖然是朝著分布式方向而設(shè)計,但在互聯(lián)網(wǎng)彈性的需求上仍有一定的上升空間。
相關(guān)鏈接
關(guān)于IBM PureApplication
IBM PureApplication是一種混合云應(yīng)用平臺,用于快速和重復(fù)地為內(nèi)部和外部云模式部署應(yīng)用環(huán)境。應(yīng)用部署通常需要編制腳本和配置任務(wù),以便部署和管理應(yīng)用、應(yīng)用環(huán)境以及底層基礎(chǔ)架構(gòu)。IBM PureApplication有助于簡化和自動執(zhí)行這些任務(wù)和流程,從而加快應(yīng)用交付,降低成本,減少錯誤。