聶晶
【摘要】 廣播數(shù)字化和計(jì)算機(jī)科學(xué)技術(shù)發(fā)展的相結(jié)合,使得廣播電臺(tái)越來越依賴于計(jì)算機(jī)和網(wǎng)絡(luò)。隨著廣播電臺(tái)事業(yè)的不斷發(fā)展,安全播出對數(shù)字化音頻網(wǎng)絡(luò)系統(tǒng)的可用性提出了越來越高的要求。鄭州人民廣播電臺(tái)音頻網(wǎng)絡(luò)系統(tǒng)以音頻服務(wù)器為中心,由服務(wù)器為播出站、編輯站、管理站提供服務(wù)。為了提高整個(gè)系統(tǒng)的可用性,首先要提高音頻服務(wù)器的可用性,所以我臺(tái)采用了音頻服務(wù)器高可用性集群的解決方案,滿足了當(dāng)前的業(yè)務(wù)需求,提高了工作效率。
【關(guān)鍵詞】 集群 高可用性 音頻服務(wù)器
一.廣播電臺(tái)音頻播出技術(shù)現(xiàn)狀
隨著數(shù)字技術(shù)的迅速發(fā)展,采用數(shù)字技術(shù)處理音頻信號(hào)已成為廣播電臺(tái)音頻處理的必然趨勢,容制作、播出、儲(chǔ)存、管理于一體的數(shù)字音頻網(wǎng)絡(luò)已經(jīng)被許多廣播電臺(tái)所采用。鄭州人民廣播電臺(tái)也于2003年初建立起了一套數(shù)字音頻網(wǎng)絡(luò)。該音頻網(wǎng)絡(luò)以音頻服務(wù)器為中心,為音頻編輯工作站、音頻管理工作站和音頻播出工作站提供查詢、播出、儲(chǔ)存等服務(wù)。該網(wǎng)絡(luò)系統(tǒng)使節(jié)目播出、節(jié)目制作、節(jié)目管理在不同功能的工作站上完成,充分發(fā)揮計(jì)算機(jī)基于RAID的磁盤陣列存儲(chǔ)系統(tǒng)的優(yōu)勢,實(shí)現(xiàn)多通道資源共享和各欄目之間的串編播出和各種插播、定時(shí)播出之間的控制管理,成倍的提高了工作效率。
二.音頻服務(wù)器集群技術(shù)的必要性
在給我們帶來方便和效率的同時(shí),也使得安全播出對于音頻服務(wù)器的依賴程度越來越高。隨著各套節(jié)目都要求24小時(shí)不間斷播出,安全播出就對音頻服務(wù)器的正常工作時(shí)間提出了更高的要求:保證服務(wù)器24小時(shí)都能夠提供每個(gè)音頻工作站的播出、查詢、傳輸、儲(chǔ)存等請求。盡管計(jì)算機(jī)技術(shù)以日新月異的速度發(fā)展,單臺(tái)計(jì)算機(jī)的性能和可靠性越來越好,但還是有許多現(xiàn)實(shí)的要求是單臺(tái)計(jì)算機(jī)難以達(dá)到的。所以隨著時(shí)間的不斷推移,頻率數(shù)量的不斷增加,起初的系統(tǒng)架構(gòu)已不能滿足業(yè)務(wù)需求。在這種情況下,往往需要將多臺(tái)計(jì)算機(jī)組織起來進(jìn)行協(xié)同工作來模擬出一臺(tái)功能更強(qiáng)大的計(jì)算機(jī),從而提高系統(tǒng)的可用性。為滿足系統(tǒng)要求,一般情況下都會(huì)采用計(jì)算機(jī)集群技術(shù)。
可靠性用平均無故障時(shí)間(MTTF)來度量,即系統(tǒng)平均能夠正常運(yùn)行多長時(shí)間,才發(fā)生一次故障。系統(tǒng)的可靠性越高,平均無故障時(shí)間越長??删S護(hù)性用平均維修時(shí)間(MTTR)來度量,即系統(tǒng)發(fā)生故障后維修和重新恢復(fù)正常運(yùn)行平均花費(fèi)的時(shí)間。系統(tǒng)的可維護(hù)性越好,平均維修時(shí)間越短。
計(jì)算機(jī)系統(tǒng)的可用性定義為:MTTF/(MTTF+MTTR) * 100%。由此可見,計(jì)算機(jī)系統(tǒng)的可用性定義為系統(tǒng)保持正常運(yùn)行時(shí)間的百分比。計(jì)算機(jī)系統(tǒng)可用性的分類如下:
有很多因素會(huì)造成系統(tǒng)宕機(jī),包括為了維護(hù)而有計(jì)劃的宕機(jī)以及意外故障等。高可用性方案的目標(biāo)就是使宕機(jī)時(shí)間以及故障恢復(fù)時(shí)間最小化,因此為了提高整個(gè)系統(tǒng)的可用性,除了提高計(jì)算機(jī)各個(gè)部件的可靠性以外,我們所采用的是高可用性集群技術(shù)的解決方案。這個(gè)方案是目前比較經(jīng)濟(jì)適用的解決方案。
三.服務(wù)器集群技術(shù)簡介
所謂集群,就是共同為客戶端提供網(wǎng)絡(luò)服務(wù)的一組計(jì)算機(jī)系統(tǒng)。而其中的每一臺(tái)提供服務(wù)的計(jì)算機(jī),我們稱之為節(jié)點(diǎn)。當(dāng)一個(gè)節(jié)點(diǎn)不可用或者不能處理客戶機(jī)的請求時(shí),該請求將會(huì)轉(zhuǎn)到另外的可用節(jié)點(diǎn)來處理,而這些對于客戶端來說,根本不必關(guān)心這些要使用的資源的具體位置,集群系統(tǒng)會(huì)自動(dòng)完成。
集群中節(jié)點(diǎn)可以以不同的方式來運(yùn)行,這要看它們是如何設(shè)置的。在一個(gè)理想的兩個(gè)節(jié)點(diǎn)的集群中,兩個(gè)服務(wù)器都同時(shí)處于活動(dòng)狀態(tài),也就是在兩個(gè)節(jié)點(diǎn)上同時(shí)運(yùn)行應(yīng)用程序,當(dāng)一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),運(yùn)行在出故障的節(jié)點(diǎn)上的應(yīng)用程序就會(huì)轉(zhuǎn)移到另外的沒有出現(xiàn)故障的服務(wù)器上,這樣一來,由于兩個(gè)節(jié)點(diǎn)的工作現(xiàn)在由一個(gè)服務(wù)器來承擔(dān),自然會(huì)影響服務(wù)器的性能。
針對這種情況的解決方案是,在正常操作時(shí),另一個(gè)節(jié)點(diǎn)處于備用狀態(tài),只有當(dāng)活動(dòng)的節(jié)點(diǎn)出現(xiàn)故障時(shí)該備用節(jié)點(diǎn)才會(huì)接管工作,但這并不是一個(gè)很經(jīng)濟(jì)的方案,因?yàn)槟阈枰獌蓚€(gè)服務(wù)器來做一個(gè)服務(wù)器的工作。雖然當(dāng)出現(xiàn)故障時(shí)不會(huì)對性能產(chǎn)生任何影響,但是在正常運(yùn)行時(shí)的性能價(jià)格比并不太好。
四.我臺(tái)音頻服務(wù)器集群的搭建
服務(wù)器集群的最低要求是:(a)兩臺(tái)服務(wù)器通過網(wǎng)絡(luò)互連;(b)允許每臺(tái)服務(wù)器訪問對方的磁盤數(shù)據(jù);(c)專用的集群軟件,如Microsoft Cluster Server(MSCS)。我臺(tái)采用的高可用性系統(tǒng)的核心是微軟Windows Server 2003企業(yè)版的集群服務(wù)和惠普的光纖通道存儲(chǔ)技術(shù),提供99.99%的高可用性。
Windows Server 2003企業(yè)版,已成為一個(gè)主流的多用途網(wǎng)絡(luò)操作系統(tǒng)。融合了最佳應(yīng)用程序服務(wù)器、文件和打印服務(wù)器、通信服務(wù)器及Internet/intranet服務(wù)器,能夠方便地管理、使用和擴(kuò)展,可以滿足關(guān)鍵的業(yè)務(wù)需求。Windows Server 2003企業(yè)版集成了專用的集群軟件,Microsoft Cluster Server(MSCS)能出色地完成企業(yè)級(jí)運(yùn)行要求。
隨著企業(yè)業(yè)務(wù)的迅速增長, 企業(yè)的各種信息與數(shù)據(jù)已呈爆炸性增長,已有的SCSI標(biāo)準(zhǔn)已經(jīng)不能滿足企業(yè)在數(shù)據(jù)存儲(chǔ)方面的需求,光纖通道存儲(chǔ)技術(shù)作為新一代的工業(yè)標(biāo)準(zhǔn)存儲(chǔ)規(guī)范,以其10公里的傳輸距離,100兆字節(jié)的傳輸速率, 兆兆字節(jié)以上的單槽容量,突破了傳統(tǒng)的SCSI規(guī)范的瓶頸。所以我們采用了惠普Proliant Cluster HA/F200解決方案。
如上圖所示,主節(jié)點(diǎn)為Node 1備用節(jié)點(diǎn)為Node 2,共享存儲(chǔ)設(shè)備是一個(gè)磁盤陣列柜MSA1000,用兩臺(tái)Storage Hub來實(shí)現(xiàn)主備節(jié)點(diǎn)對MSA1000的讀寫控制。而兩臺(tái)Storage Hub分別跟主備節(jié)點(diǎn)和MSA1000互連,實(shí)現(xiàn)了冗余控制。如果Node 1出現(xiàn)了問題不能提供客戶端所需的服務(wù),就由Node 2接管客戶端所需的服務(wù)。如果Storage Hub有一臺(tái)出了問題,另一臺(tái)隨時(shí)接管磁盤陣列柜MSA 1000。這樣就進(jìn)一步提高了系統(tǒng)的可用性。
在微軟的MSCS(Microsoft Cluster Server)術(shù)語中,所有的應(yīng)用程序、數(shù)據(jù)文件、磁盤、網(wǎng)絡(luò)IP地址等都被稱為資源,這些資源可以組成一個(gè)資源組,一個(gè)資源組存在于一個(gè)節(jié)點(diǎn)上,但同時(shí)只能在一個(gè)節(jié)點(diǎn)上,它是MSCS可以進(jìn)行故障切換的最小單元。
在MSCS中,所有的資源都處于資源監(jiān)視器的監(jiān)視之下,資源監(jiān)視器通過資源動(dòng)態(tài)鏈接庫文件與資源進(jìn)行通信,這些資源動(dòng)態(tài)鏈接庫會(huì)偵測對應(yīng)資源的狀態(tài),并通知資源監(jiān)視器,之后,監(jiān)視器再把信息提供給集群服務(wù),缺省情況下,集群服務(wù)會(huì)啟動(dòng)一個(gè)資源監(jiān)視器來監(jiān)視節(jié)點(diǎn)中的全部資源。
在MSCS的資源中,有一個(gè)非常重要的資源,仲裁盤,它是一個(gè)可以被兩個(gè)節(jié)點(diǎn)訪問的物理硬盤,用來保存集群的信息。這些信息是用來維護(hù)集群的完整性以及使節(jié)點(diǎn)保持同步,特別是當(dāng)節(jié)點(diǎn)不能與另一個(gè)節(jié)點(diǎn)通信的時(shí)候。仲裁盤在某一時(shí)刻只能被一個(gè)節(jié)點(diǎn)所擁有,并用來決定由哪個(gè)節(jié)點(diǎn)來擁有集群的所有資源。仲裁一般都是使用獨(dú)立的磁盤柜劃分一個(gè)單獨(dú)的空間。
故障切換是指把出現(xiàn)故障的節(jié)點(diǎn)上的資源重新定位到另一個(gè)可用的節(jié)點(diǎn)上。負(fù)責(zé)監(jiān)視資源的資源監(jiān)視器一旦發(fā)現(xiàn)資源出現(xiàn)故障,它就會(huì)通知集群服務(wù),集群服務(wù)會(huì)根據(jù)事前定義好的策略觸發(fā)對應(yīng)的事件。雖然發(fā)現(xiàn)的是個(gè)別資源的故障,但是,集群還是會(huì)把整個(gè)資源組進(jìn)行故障切換。
故障切換會(huì)在兩種不同的情況下發(fā)生:人工控制(一般是管理員主動(dòng)操作),自動(dòng)控制。自動(dòng)控制包含了三個(gè)階段:1.發(fā)現(xiàn)故障;2.重新定位資源;3.重新啟動(dòng)應(yīng)用程序。當(dāng)達(dá)到資源組的故障超過切換閥值時(shí),自動(dòng)的故障切換才會(huì)發(fā)生,閥值由管理員來設(shè)定。
五.總結(jié)
目前我們音頻工作站系統(tǒng)是以音頻服務(wù)器為中心,這就決定了只有保證了服務(wù)器的高可用性,才能保證整個(gè)網(wǎng)絡(luò)的正常運(yùn)行。雖然現(xiàn)在音頻服務(wù)器采用高可用性集群解決方案,滿足了當(dāng)前業(yè)務(wù)增長的要求,但展望未來廣播電臺(tái)事業(yè)的不斷發(fā)展,肯定要采用更先進(jìn)的技術(shù)以滿足需求。例如SAN(System Area Network)架構(gòu):它是為滿足集群的可靠性和性能要求而進(jìn)行優(yōu)化的一種專用網(wǎng)絡(luò),實(shí)現(xiàn)從以服務(wù)器為中心的架構(gòu)到以網(wǎng)絡(luò)為中心的架構(gòu),進(jìn)一步提高存儲(chǔ)管理效率。技術(shù)的發(fā)展永無止境,我們只有不斷的前進(jìn),采用新技術(shù)新設(shè)備,才能做到解放生產(chǎn)力,發(fā)展生產(chǎn)力,為廣電事業(yè)的不斷發(fā)展做貢獻(xiàn)。