文/張乃帥 杜曉峰
高校教學科研的發(fā)展離不開圖書館的支撐。在信息技術(shù)高度發(fā)展的今天,圖書館已經(jīng)不再是一個簡單借還書的地方,更是一個基于信息技術(shù)的資源中心。從入館身份識別到圖書的借還流通、再到數(shù)字文獻資源的發(fā)現(xiàn)獲取,無不依賴信息技術(shù)。圖書館數(shù)據(jù)中心作為承載信息的基礎(chǔ)設(shè)施,支撐圖書館正常運行、穩(wěn)定運行已成為必然要求。然而,在特定條件下如數(shù)據(jù)中心擴建、樓宇修繕等,數(shù)據(jù)中心不得不遷移至其他空間。如何確保數(shù)據(jù)中心遷移期間圖書館各項業(yè)務(wù)和文獻服務(wù)正常開展,是數(shù)據(jù)中心運行維護人員不得不面對和解決的問題。本文以北京大學圖書館東樓修繕期間數(shù)據(jù)中心的遷移實踐為例進行分析,鑒于數(shù)據(jù)中心遷移的復(fù)雜性和操作難度,其經(jīng)驗分享彌足珍貴。
北京大學圖書館(以下簡稱北大圖書館)東館建成20余年,館內(nèi)基礎(chǔ)設(shè)施、館舍布局已無法滿足當前讀者服務(wù)的需求。為此,北大圖書館于2017年正式啟動東館大修。位于圖書館東館的數(shù)據(jù)中心(以下稱為舊數(shù)據(jù)中心)必須在正式啟動前遷移至西館過渡數(shù)據(jù)中心。
為確保數(shù)據(jù)中心遷移順利進行,盡量降低對圖書館正常服務(wù)的影響,北京大學圖書館從2016年開始著手準備數(shù)據(jù)中心遷移的前期工作,討論制定了遷移三步走戰(zhàn)略。首先梳理了當前數(shù)據(jù)中心的現(xiàn)狀,并基于梳理結(jié)果制定遷移方案及準備過渡數(shù)據(jù)中心環(huán)境,一切就緒后實施數(shù)據(jù)中心遷移,確保服務(wù)不間斷。
數(shù)據(jù)中心不僅僅是服務(wù)器合集,還包括一整套復(fù)雜的設(shè)施。根據(jù)各類設(shè)施的作用不同,可將其分為以下四類。
環(huán)境控制設(shè)備用于滿足數(shù)據(jù)中心對溫濕度、電力、監(jiān)控設(shè)施等的需求。包括機房精密空調(diào)、不間斷電源(UPS,Uninterruptible Power System)、溫濕度報警設(shè)備、自動滅火設(shè)施等。北大圖書館已有的2臺UPS、3組機房精密空調(diào)中,有1臺UPS、2組空調(diào)已在線運行超過10年,穩(wěn)定性已大幅降低,特別是機房精密空調(diào),夏季高溫時頻發(fā)停機故障。這部分設(shè)備已不適合繼續(xù)用于數(shù)據(jù)中心。
網(wǎng)絡(luò)設(shè)備用于提供數(shù)據(jù)中心網(wǎng)絡(luò)接入和網(wǎng)絡(luò)安全防護,包括各級網(wǎng)絡(luò)交換機、光纖交換機及防火墻。其中核心交換機用于將圖書館網(wǎng)絡(luò)接入校園網(wǎng),如果直接停機遷移,將會中斷圖書館內(nèi)所有網(wǎng)絡(luò)服務(wù)。
服務(wù)器提供所有網(wǎng)絡(luò)服務(wù)所需的計算資源,既包括運行圖書館自動化管理系統(tǒng)的小型機,也包括獨立提供服務(wù)的物理服務(wù)器以及虛擬化服務(wù)器。北大圖書館共有各類物理服務(wù)器100余臺,虛擬服務(wù)器160余臺。
存儲系統(tǒng)提供數(shù)據(jù)集中存儲與管理功能。北大圖書館使用的存儲系統(tǒng)共3套,其中2套已在線運行接近或超過10年,在性能、穩(wěn)定性及容量上均已無法滿足館內(nèi)數(shù)據(jù)日益增長的需求。
為確保遷移有序平穩(wěn)且對外服務(wù)穩(wěn)定,首先需確保過渡數(shù)據(jù)中心與舊數(shù)據(jù)中心并行運行,同時滿足數(shù)據(jù)中心環(huán)境需求及網(wǎng)絡(luò)需求。本著“綠色發(fā)展”的理念,過渡數(shù)據(jù)中心還應(yīng)充分復(fù)用已有環(huán)境控制設(shè)備和存儲設(shè)備。結(jié)合已有設(shè)備的使用壽命,北大圖書館制定了環(huán)境遷移、網(wǎng)絡(luò)遷移、存儲系統(tǒng)與服務(wù)器遷移的順序遷移方案。
購置2套精密空調(diào)及1套UPS,先行部署于過渡數(shù)據(jù)中心,用于滿足基本的溫濕度及電力需求,也用于替換老化的舊設(shè)備。大部分設(shè)備遷移至過渡數(shù)據(jù)中心后,再將可繼續(xù)使用的精密空調(diào)和UPS遷移至過渡數(shù)據(jù)中心,并機運行。尚未遷移的數(shù)據(jù)中心設(shè)備暫時由待淘汰的精密空調(diào)和UPS保障,直至遷移全部完成。
“兵馬未動,糧草先行”。對數(shù)據(jù)中心及圖書館而言,網(wǎng)絡(luò)的重要性堪比“糧草”。新購一臺交換機部署于過渡數(shù)據(jù)中心,升級為核心交換機,原核心交換機降級為匯聚交換機,完成網(wǎng)絡(luò)平滑遷移。
服務(wù)器和存儲系統(tǒng)密不可分,共同構(gòu)成了數(shù)據(jù)中心對外服務(wù)的主體。新購高性能和大容量存儲系統(tǒng)各一套,部署于過渡數(shù)據(jù)中心,用于替換2套超期服役的舊存儲系統(tǒng),滿足未來對存儲系統(tǒng)的性能和容量要求。整理所有服務(wù)器連接存儲系統(tǒng)的鏈路方式,分類遷移:
獨立運行、不連接存儲系統(tǒng)的服務(wù)器夜間在逐臺遷移;虛擬化服務(wù)器工作時間在線遷移;其他服務(wù)器與存儲系統(tǒng)周末集中打包遷移。確保將中斷服務(wù)的時間降到最小。
環(huán)境遷移過程中,精密空調(diào)和UPS的遷移時間點都可通過計算得出。隨著遷移工作的不斷進行,根據(jù)剩余設(shè)備的耗電量計算所需的制冷量,再根據(jù)待淘汰精密空調(diào)的功率計算出其能提供的制冷量,簡單對比即可確定遷移時機。通過對比兩路UPS的總負載與待淘汰UPS的輸出功率,即可確定UPS遷移時機。由于數(shù)據(jù)中心內(nèi)所有設(shè)備都使用冗余電源,分別使用兩路UPS供電,遷移前還需將所有電源接入到待淘汰UPS。
過渡數(shù)據(jù)中心內(nèi)的新購交換機配置相應(yīng)路由策略,上聯(lián)至校園網(wǎng)核心交換機節(jié)點,作為獨立的核心交換機運行。連接過渡數(shù)據(jù)中心核心交換機與舊數(shù)據(jù)中心核心交換機但保持端口關(guān)閉狀態(tài)。在線關(guān)閉舊數(shù)據(jù)中心核心交換機原有上聯(lián)鏈路,打開新舊數(shù)據(jù)中心互聯(lián)鏈路。舊數(shù)據(jù)中心核心交換機作為過渡數(shù)據(jù)中心核心交換機的下聯(lián)交換機(也就是邏輯上的匯聚交換機)繼續(xù)提供網(wǎng)絡(luò)接入功能,完成網(wǎng)絡(luò)的在線遷移。整個過程僅有短暫的鏈路調(diào)整和路由調(diào)整時的網(wǎng)絡(luò)中斷,基本不影響數(shù)據(jù)中心對外提供的各類服務(wù)的網(wǎng)絡(luò)訪問。
根據(jù)遷移方案,分類別遷移不同類別的服務(wù)器及存儲系統(tǒng)。
虛擬化服務(wù)器遷移
虛擬化平臺的VMotion功能非常適合用于數(shù)據(jù)遷移。過渡數(shù)據(jù)中心部署虛擬化計算節(jié)點服務(wù)器并加入已有集群,通過光纖直連新存儲系統(tǒng)。舊數(shù)據(jù)中心虛擬化節(jié)點通過iSCSI協(xié)議連接新存儲系統(tǒng),實現(xiàn)數(shù)據(jù)存儲共享。利用Storage VMotion功能將所有虛擬機遷移至新存儲系統(tǒng),再利用VMotion功能將計算資源遷移至過渡數(shù)據(jù)中心計算節(jié)點,即可完成所有虛擬服務(wù)器的平滑在線遷移。整個遷移過程用戶無感知,服務(wù)無中斷。
獨立服務(wù)器遷移
獨立運行、不連接存儲系統(tǒng)的服務(wù)器利用夜間逐臺遷移,遷移一臺上線一臺,盡量減少停機時間。從舊數(shù)據(jù)中心關(guān)機下架,遷移至過渡數(shù)據(jù)中心上架開機,全程控制在10分鐘以內(nèi),盡最大努力減小停機時間,降低對讀者服務(wù)的影響。
存儲服務(wù)器遷移
存儲系統(tǒng)及使用存儲系統(tǒng)的服務(wù)器作為有機整體,分開遷移的意義不大,利用周末時間整體停機遷移。備份所有服務(wù)器及數(shù)據(jù),用以應(yīng)對關(guān)機遷移后可能出現(xiàn)的硬件故障。關(guān)閉所有服務(wù)器并進行下架遷移,同步進行關(guān)閉存儲系統(tǒng)及遷移過程。存儲系統(tǒng)遷移至過渡數(shù)據(jù)中心后,開機進行軟硬件檢查,確保一切正常后,根據(jù)各服務(wù)器的優(yōu)先順序逐臺開機恢復(fù)服務(wù)。
得益于前期周密的規(guī)劃及遷移過程謹慎、細致、密切的配合,整個數(shù)據(jù)中心遷移過程進展順利、成果顯著。所有設(shè)備順利遷移至過渡數(shù)據(jù)中心,同時完成了新舊設(shè)備更替,既保證了東館大修工程的按期推進,又為未來幾年圖書館對數(shù)據(jù)中心的設(shè)備需求奠定了基礎(chǔ),還為不遠的將來,數(shù)據(jù)中心遷回東館提供了豐富的經(jīng)驗儲備。
數(shù)據(jù)中心順利遷移的背后,也暴露出了一些問題,這些問題不僅影響到了遷移的進度及遷移時的讀者服務(wù),也為后續(xù)提供穩(wěn)定的讀者服務(wù)帶來了一定的隱患。
圖1 網(wǎng)狀網(wǎng)絡(luò)拓撲
當前的網(wǎng)絡(luò)拓撲存在單點故障,一旦圖書館數(shù)據(jù)中心核心交換機故障或者核心交換機到校園網(wǎng)的鏈路故障,都將導致圖書館網(wǎng)絡(luò)中斷,影響圖書館的各類網(wǎng)絡(luò)服務(wù)。東館改造完成后,新建數(shù)據(jù)中心應(yīng)著重提高網(wǎng)絡(luò)拓撲的健壯性,構(gòu)建雙核心、雙上聯(lián)的網(wǎng)狀網(wǎng)絡(luò)拓撲(如圖1所示)。從結(jié)構(gòu)上避免單點故障,確保網(wǎng)絡(luò)滿足未來服務(wù)的需求。
在數(shù)據(jù)中心遷移過程中,虛擬化技術(shù)優(yōu)勢表現(xiàn)得非常明顯,遷移過程服務(wù)無中斷、用戶無感知。服務(wù)器獨立運行提供服務(wù)的傳統(tǒng)使用模式則不得不面臨停機停服務(wù)的局面。經(jīng)過近幾年的不斷努力,北大圖書館已將半數(shù)服務(wù)器遷移至虛擬化環(huán)境,但仍有大量網(wǎng)絡(luò)服務(wù)運行于獨立的服務(wù)器上。這也為不遠的將來,東館數(shù)據(jù)中心啟用及數(shù)據(jù)中心遷移帶來挑戰(zhàn)。
北大圖書館通過將數(shù)據(jù)中心遷移至西館過渡數(shù)據(jù)中心,不但保障了東館大修期間圖書館各項網(wǎng)絡(luò)服務(wù)的穩(wěn)定,也發(fā)現(xiàn)了已有數(shù)據(jù)中心存在的問題、明確了未來的建設(shè)方向。北大圖書館將繼續(xù)完善數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)、調(diào)整數(shù)據(jù)中心架構(gòu),不斷提高信息服務(wù)保障能力,為北京大學創(chuàng)建世界一流大學提供更加有力的文獻資源保障。