国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)可用性提高的機(jī)制、分析與量化評(píng)估①

2011-11-02 02:10:13李冬艷陳建峽田立勤
關(guān)鍵詞:網(wǎng)絡(luò)故障可用性網(wǎng)絡(luò)系統(tǒng)

李冬艷陳建峽田立勤

(1.湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,湖北武漢 430068;2.華北科技學(xué)院計(jì)算機(jī)系,北京東燕郊 101601)

網(wǎng)絡(luò)可用性提高的機(jī)制、分析與量化評(píng)估①

李冬艷1,2②陳建峽1田立勤3

(1.湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,湖北武漢 430068;2.華北科技學(xué)院計(jì)算機(jī)系,北京東燕郊 101601)

隨著網(wǎng)絡(luò)應(yīng)用的不斷普及,網(wǎng)絡(luò)系統(tǒng)的中斷所造成的代價(jià)和影響與日俱增,網(wǎng)絡(luò)的可用性被認(rèn)為是網(wǎng)絡(luò)安全的一個(gè)重要方面,因此人們對(duì)作為業(yè)務(wù)支撐平臺(tái)的網(wǎng)絡(luò)可用性要求也越來(lái)越高。目前拒絕服務(wù)比較猖獗,可用性并不能阻止拒絕服務(wù)攻擊,但可用性服務(wù)可用來(lái)減少這類(lèi)攻擊的影響,并使系統(tǒng)得以正常運(yùn)行。本文主要論述網(wǎng)絡(luò)可用性概念,網(wǎng)絡(luò)可用性機(jī)制的評(píng)價(jià)標(biāo)準(zhǔn),提高網(wǎng)絡(luò)可用性的四種機(jī)制,并對(duì)這四種的機(jī)制進(jìn)行了比較,最后給出了如何量化評(píng)估網(wǎng)絡(luò)可用性的公式和例子,為提高網(wǎng)絡(luò)可用性奠定理論和實(shí)踐基礎(chǔ)。

網(wǎng)絡(luò)可用性;實(shí)現(xiàn)機(jī)制;評(píng)價(jià)標(biāo)準(zhǔn);量化評(píng)估

0 引言

隨著網(wǎng)絡(luò)應(yīng)用的不斷普及,網(wǎng)絡(luò)系統(tǒng)的中斷所造成的代價(jià)和影響與日俱增,網(wǎng)絡(luò)的可用性被認(rèn)為是網(wǎng)絡(luò)安全的一個(gè)重要方面,因此人們對(duì)作為業(yè)務(wù)支撐平臺(tái)的網(wǎng)絡(luò)可用性要求也越來(lái)越高。例如,當(dāng)我們正在參加美國(guó)計(jì)算機(jī)學(xué)會(huì)ACM在線程序設(shè)計(jì)大賽的時(shí)候,如果在提交競(jìng)賽程序代碼期間網(wǎng)絡(luò)不可用,那么我們?yōu)榇硕冻龅木臏?zhǔn)備和自己完成的成果就會(huì)隨著網(wǎng)絡(luò)的中斷而付之東流。目前拒絕服務(wù)比較猖獗,可用性并不能阻止拒絕服務(wù)攻擊,但可用性服務(wù)可用來(lái)減少這類(lèi)攻擊的影響,并使系統(tǒng)得以正常運(yùn)行。造成網(wǎng)絡(luò)系統(tǒng)不可用的因素較多,主要包括硬件故障、軟件故障、數(shù)據(jù)故障、人為引起的配置不當(dāng)故障、網(wǎng)絡(luò)攻擊引起的拒絕服務(wù)故障和環(huán)境引起的設(shè)備故障等。

網(wǎng)絡(luò)可用性是指網(wǎng)絡(luò)可以提供正確服務(wù)的能力,它是為可修復(fù)系統(tǒng)提出的,是對(duì)系統(tǒng)服務(wù)正常和異常狀態(tài)交互變化過(guò)程的一種量化,是網(wǎng)絡(luò)可以被使用的概率。它是可靠性和可維護(hù)性的綜合描述,網(wǎng)絡(luò)可靠性越高,可維護(hù)性越好則可用性越高。

網(wǎng)絡(luò)系統(tǒng)可用性并不是單純的網(wǎng)絡(luò)設(shè)備、服務(wù)器或節(jié)點(diǎn)的通斷,而是一種綜合管理信息,以反映支持業(yè)務(wù)的網(wǎng)絡(luò)是否具有業(yè)務(wù)所要求的可用性。網(wǎng)絡(luò)系統(tǒng)的可用性包括:鏈路的可用性,交換節(jié)點(diǎn)的可用性(如交換機(jī)和路由器),主機(jī)系統(tǒng)的可用性,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的可用性,電源的可用性以及配置的可用性等。系統(tǒng)整體的可用性要考慮木桶原理,可用性最低的網(wǎng)絡(luò)設(shè)備、服務(wù)器或節(jié)點(diǎn)是整個(gè)系統(tǒng)可用性的關(guān)鍵點(diǎn)。

網(wǎng)絡(luò)可用性A用下列公式計(jì)算:

其中MTBF(Mean Time Between Failure)為平均故障間隔時(shí)間,它反映了網(wǎng)絡(luò)系統(tǒng)的可靠性,取決于網(wǎng)絡(luò)設(shè)備硬件和軟件本身的質(zhì)量,在MTTR一定的情況下,它越大網(wǎng)絡(luò)的可用性越大。MTTR(Mean Time To Repair)為平均修復(fù)時(shí)間,它反映了網(wǎng)絡(luò)系統(tǒng)的可維護(hù)性,在MTBF一定的情況下,它越小網(wǎng)絡(luò)的可用性越大。

高可用性的網(wǎng)絡(luò)首先確保不能頻繁出現(xiàn)故障,即使出現(xiàn)很短時(shí)間的網(wǎng)絡(luò)中斷,都會(huì)影響業(yè)務(wù)運(yùn)營(yíng),特別是實(shí)時(shí)性強(qiáng)、對(duì)丟包和時(shí)延敏感的業(yè)務(wù),如語(yǔ)音、視頻和在線游戲等。其次,高可用性的網(wǎng)絡(luò)即使出現(xiàn)故障,也應(yīng)該能很快恢復(fù)。如果一個(gè)網(wǎng)絡(luò)一年僅出一次故障,但故障需要幾小時(shí),甚至幾天才能恢復(fù),那么這個(gè)網(wǎng)絡(luò)也算不上一個(gè)高可用性的網(wǎng)絡(luò)。

通常,廠家用“9”表示法來(lái)表示網(wǎng)絡(luò)的可用性??捎眯缘摹?”表示法及其故障時(shí)間對(duì)比情況如表1所示。注意:多少個(gè)9的可用性與實(shí)現(xiàn)代價(jià)緊密相關(guān),因此,要在可用性和費(fèi)用之間做好折中選擇。

表1 可用性的表示法及其故障時(shí)間對(duì)比

1 網(wǎng)絡(luò)可用性機(jī)制的評(píng)價(jià)標(biāo)準(zhǔn)

網(wǎng)絡(luò)可用性機(jī)制的評(píng)價(jià)標(biāo)準(zhǔn)包括所采取的機(jī)制對(duì)網(wǎng)絡(luò)可靠性和可維護(hù)性的提高程度,在提高可用性時(shí)所付出的代價(jià)和對(duì)系統(tǒng)性能的影響,以及對(duì)可用性的提高是否可以進(jìn)行量化評(píng)估與分析。評(píng)價(jià)標(biāo)準(zhǔn)可以分以下幾部分:

1)對(duì)可靠性的提高

這個(gè)評(píng)價(jià)標(biāo)準(zhǔn)是看所采取的措施是否有利于提高平均故障間隔時(shí)間(MTBF),即保證網(wǎng)絡(luò)在規(guī)定時(shí)間內(nèi)不出故障或少出故障,主要的措施避錯(cuò)和容錯(cuò)機(jī)制。

2)對(duì)可維護(hù)性的提高

這個(gè)評(píng)價(jià)標(biāo)準(zhǔn)是看所采取的措施是否有利于降低平均修復(fù)時(shí)間(MTTR),即網(wǎng)絡(luò)出了故障要能迅速修復(fù),主要的措施是快速檢錯(cuò)和快速排錯(cuò)(恢復(fù))。

3)考慮機(jī)制的復(fù)雜性對(duì)系統(tǒng)性能的影響

為了提高網(wǎng)絡(luò)系統(tǒng)的可用性,需要在網(wǎng)絡(luò)設(shè)備,軟件開(kāi)發(fā)和管理上要做更復(fù)雜的設(shè)計(jì)、制造工藝和容錯(cuò)措施等,這些措施直接影響到網(wǎng)絡(luò)的性能,因此要考慮提高可用性機(jī)制的復(fù)雜性與對(duì)系統(tǒng)性能的影響,找到合理的折中方案。

4)可用性的量化評(píng)估

對(duì)于給定的各個(gè)部件的可用性,要能定量計(jì)算出整個(gè)系統(tǒng)的可用性,并給出改進(jìn)的建議。通常要考慮兩種情況:一種是設(shè)計(jì)時(shí)的考慮:對(duì)關(guān)鍵路徑可用性值的理論估算;另一種是網(wǎng)絡(luò)維護(hù)時(shí)的考慮:從用戶(hù)的角度出發(fā)對(duì)實(shí)際服務(wù)可用性的測(cè)量。關(guān)鍵路徑可用性值的理論估算采用:從元件的可靠性到由元件組成的設(shè)備的可靠性,再到由設(shè)備組成的網(wǎng)絡(luò)系統(tǒng)的可用性的估算遞進(jìn)過(guò)程。其中元件可靠性包括元件的平均故障間隔時(shí)間MTBF和平均修復(fù)時(shí)間MTTR。

2 網(wǎng)絡(luò)可用性提高的機(jī)制與評(píng)價(jià)

從公式1可知,提高系統(tǒng)可用性主要從兩個(gè)方面著手解決,一是增加MTBF,二是減少M(fèi)TTR。增加MTBF的主要措施包括避錯(cuò)和容錯(cuò)兩種方法,減少M(fèi)TTR的主要措施包括檢錯(cuò)和排錯(cuò)(恢復(fù))兩種方法。因此提高系統(tǒng)可用性的主要措施有避錯(cuò)、容錯(cuò)、檢錯(cuò)和排錯(cuò)四個(gè)方面:避錯(cuò)和容錯(cuò)可以提高系統(tǒng)的可靠性,檢錯(cuò)和排錯(cuò)可以提高系統(tǒng)的可維護(hù)性。

2.1 基于避錯(cuò)方法提高網(wǎng)絡(luò)的可用性與評(píng)價(jià)

2.1.1 避錯(cuò)機(jī)制

避錯(cuò)就是通過(guò)改進(jìn)硬件的制造工藝和設(shè)計(jì),選擇技術(shù)成熟可靠的軟硬件等策略來(lái)防止網(wǎng)絡(luò)系統(tǒng)的錯(cuò)誤產(chǎn)生,從而提高網(wǎng)絡(luò)的可靠性,并通過(guò)可靠性來(lái)提高網(wǎng)絡(luò)的可用性,追求網(wǎng)絡(luò)系統(tǒng)的完美性。通俗講就是讓網(wǎng)絡(luò)不出現(xiàn)故障或者使出現(xiàn)故障的概率達(dá)到最低。避錯(cuò)方法包括各種硬件、軟件和管理措施。硬件避錯(cuò)方法是通過(guò)改進(jìn)硬件的制造工藝和設(shè)計(jì),防止錯(cuò)誤的產(chǎn)生,包括網(wǎng)絡(luò)中電氣系統(tǒng)的避錯(cuò)、網(wǎng)絡(luò)設(shè)備的避錯(cuò)、服務(wù)器的避錯(cuò)和網(wǎng)絡(luò)中傳輸媒體的避錯(cuò)等。軟件避錯(cuò)方法包括形式說(shuō)明、過(guò)程管理、軟件測(cè)試和程序設(shè)計(jì)技術(shù)選擇等,例如網(wǎng)絡(luò)應(yīng)用系統(tǒng)的避錯(cuò)和成熟可靠的網(wǎng)絡(luò)操作系統(tǒng)的使用等。管理避錯(cuò)方法要求網(wǎng)絡(luò)運(yùn)行管理要嚴(yán)格按照規(guī)范進(jìn)行,包括制度建設(shè)、任務(wù)分配、設(shè)備標(biāo)識(shí)、規(guī)范文檔記錄、各種軟硬件日常維護(hù)和網(wǎng)絡(luò)安全管理標(biāo)準(zhǔn)等,例如管理信息存儲(chǔ)的避錯(cuò)、網(wǎng)絡(luò)中網(wǎng)絡(luò)結(jié)構(gòu)選擇的避錯(cuò)和日常網(wǎng)絡(luò)管理的避錯(cuò)等。

2.1.2 避錯(cuò)機(jī)制的評(píng)價(jià)

避錯(cuò)是提高網(wǎng)絡(luò)可用性的方法之一,有其自身優(yōu)點(diǎn)和不足,在實(shí)際應(yīng)用中要注意下列問(wèn)題:

●網(wǎng)絡(luò)是一個(gè)綜合系統(tǒng),在研究避錯(cuò)方法時(shí)要將木桶原理應(yīng)用到整個(gè)避錯(cuò)措施中,要重點(diǎn)考慮單點(diǎn)失效以及最容易失效的部分。

●不同的避錯(cuò)要求付出的代價(jià)可能差別很大,因此也要考慮實(shí)用性,以獲得較高的性?xún)r(jià)比。

●各種避錯(cuò)功能的設(shè)計(jì)工具為避錯(cuò)技術(shù)的應(yīng)用提供了有力保證。

●隨著高性能計(jì)算機(jī)規(guī)模的擴(kuò)大,功耗也越來(lái)越大,在避錯(cuò)設(shè)計(jì)中系統(tǒng)的熱設(shè)計(jì)越來(lái)越受到重視。

●網(wǎng)絡(luò)是由硬件、軟件組成的一個(gè)有機(jī)整體,硬件與軟件之間相互依賴(lài)、相互作用,因此為了提高網(wǎng)絡(luò)系統(tǒng)的可靠性,必須從軟硬件綜合系統(tǒng)的角度來(lái)認(rèn)識(shí)問(wèn)題。

●在軟件設(shè)計(jì)中,從開(kāi)始調(diào)研到最終的系統(tǒng)形成,錯(cuò)誤的影響是發(fā)散的,所以要盡量把錯(cuò)誤消除在開(kāi)發(fā)前期階段。

●按照網(wǎng)絡(luò)結(jié)構(gòu)的不同層次進(jìn)行避錯(cuò)的設(shè)計(jì),比如對(duì)同一個(gè)企業(yè)網(wǎng)來(lái)說(shuō),核心層要求較高的避錯(cuò)措施,匯聚層次之,而接入層基本上不需要考慮。

●在選擇網(wǎng)絡(luò)設(shè)備時(shí)要盡可能選擇技術(shù)成熟

的設(shè)備、成熟的軟件、利用成熟的技術(shù)、采

用先進(jìn)的設(shè)計(jì)思想和先進(jìn)的開(kāi)發(fā)工具。

2.2 基于容錯(cuò)方法提高網(wǎng)絡(luò)的可用性與評(píng)價(jià)

避錯(cuò)方法可以提高網(wǎng)絡(luò)的可靠性,但無(wú)論多么可靠的系統(tǒng)都會(huì)出現(xiàn)系統(tǒng)失效,光靠避錯(cuò)方法是不能完全解決系統(tǒng)的可靠性的。因此容錯(cuò)技術(shù)成為了提高系統(tǒng)可靠性的另一個(gè)設(shè)計(jì)重點(diǎn)。

2.2.1 容錯(cuò)機(jī)制

容錯(cuò)就是如何保證在網(wǎng)絡(luò)系統(tǒng)出現(xiàn)錯(cuò)誤的情況下,通過(guò)外加冗余資源消除單點(diǎn)故障的措施使系統(tǒng)仍然能夠正常工作。容錯(cuò)技術(shù)主要是為了提高整個(gè)網(wǎng)絡(luò)系統(tǒng)的可靠性,即提高網(wǎng)絡(luò)可用性中的MTBF,進(jìn)而提高網(wǎng)絡(luò)系統(tǒng)的可用性。容錯(cuò)方法主要是通過(guò)冗余手段來(lái)實(shí)現(xiàn)的,冗余就是采用多個(gè)設(shè)備同時(shí)工作,當(dāng)其中一個(gè)設(shè)備失效時(shí),其它設(shè)備能夠接替失效設(shè)備繼續(xù)工作的體系。基于容錯(cuò)方法提高網(wǎng)絡(luò)的可用性包括各種硬件、軟件和管理方面的容錯(cuò)措施來(lái)提高網(wǎng)絡(luò)的可用性。硬件容錯(cuò)方法部件的冗余、鏈路的冗余和網(wǎng)絡(luò)關(guān)鍵節(jié)點(diǎn)的冗余等;軟件方面的容錯(cuò)包括網(wǎng)絡(luò)系統(tǒng)軟件和應(yīng)用軟件的冗余、網(wǎng)絡(luò)信息的冗余和關(guān)鍵服務(wù)的冗余等。管理方面的容錯(cuò)包括拓?fù)浣Y(jié)構(gòu)的冗余、容錯(cuò)性服務(wù)器集群技術(shù)和信息存儲(chǔ)的冗余等。

各種冗余網(wǎng)絡(luò)設(shè)計(jì)允許通過(guò)重復(fù)設(shè)置網(wǎng)絡(luò)鏈路和互連設(shè)備來(lái)滿(mǎn)足網(wǎng)絡(luò)的可用性需求。冗余減少了網(wǎng)絡(luò)上由于單點(diǎn)失敗而導(dǎo)致整個(gè)網(wǎng)絡(luò)失敗的可能性。它的目標(biāo)是重復(fù)設(shè)置一個(gè)必需的組件,使得它的失敗不會(huì)導(dǎo)致關(guān)鍵應(yīng)用程序的失敗。這個(gè)組件可以是一個(gè)核心路由器(交換機(jī))、一個(gè)電源、一個(gè)廣域網(wǎng)主干等等。在選擇冗余設(shè)計(jì)解決方案之前,首先應(yīng)該分析用戶(hù)目標(biāo),以確定關(guān)鍵應(yīng)用程序、系統(tǒng)、網(wǎng)絡(luò)互連設(shè)備和鏈路的可用性。通過(guò)分析用戶(hù)對(duì)風(fēng)險(xiǎn)的容忍程度和不實(shí)現(xiàn)冗余的后果,需要在冗余與低成本、簡(jiǎn)單與復(fù)雜之間作取舍。另一方面,冗余增加了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和網(wǎng)絡(luò)尋址與路由選擇的復(fù)雜性,因此需要認(rèn)真斟酌。

2.2.2 容錯(cuò)機(jī)制的評(píng)價(jià)

容錯(cuò)是提高網(wǎng)絡(luò)可用性的方法之一,有其自身優(yōu)點(diǎn)和不足,在實(shí)際應(yīng)用中要注意下列問(wèn)題:

●容錯(cuò)方法多用在容易單點(diǎn)失效的關(guān)鍵部件、關(guān)鍵鏈路、關(guān)鍵設(shè)備和關(guān)鍵的服務(wù)上,例如在匯聚層和核心層的設(shè)計(jì)中,關(guān)鍵設(shè)備、關(guān)鍵鏈路和關(guān)鍵服務(wù)上采用冗余技術(shù)。

●如果在網(wǎng)絡(luò)系統(tǒng)中沒(méi)有備用部件,可以設(shè)計(jì)成隔離開(kāi)故障部件,但系統(tǒng)能繼續(xù)使用的模式,從而實(shí)現(xiàn)系統(tǒng)降級(jí)使用,稱(chēng)為緩慢降級(jí),通過(guò)降低系統(tǒng)性能來(lái)保證系統(tǒng)的可用性。

●按照網(wǎng)絡(luò)結(jié)構(gòu)的不同層次進(jìn)行容錯(cuò)的設(shè)計(jì),通常對(duì)同一個(gè)企業(yè)網(wǎng)來(lái)說(shuō),核心層要求較高的容錯(cuò)措施,匯聚層次之,而接入層基本上不需要考慮。

●在實(shí)際的網(wǎng)絡(luò)設(shè)計(jì)中并不是冗余越多越好,過(guò)多的冗余會(huì)增加網(wǎng)絡(luò)配置和協(xié)議計(jì)算的復(fù)雜度,反而延長(zhǎng)網(wǎng)絡(luò)故障的收斂時(shí)間,適得其反。另外容錯(cuò)系統(tǒng)比傳統(tǒng)系統(tǒng)更容易出現(xiàn)軟件問(wèn)題,也缺乏傳統(tǒng)系統(tǒng)的靈活性和方便性。

●避錯(cuò)和容錯(cuò)在網(wǎng)絡(luò)系統(tǒng)集成中的規(guī)劃設(shè)計(jì)階段和設(shè)備選型階段體現(xiàn)最為突出。

●具體的協(xié)議、配置優(yōu)劣對(duì)可用性有顯著的影響。快速收斂,協(xié)議參數(shù)調(diào)優(yōu)等有助于提高冗余部件間的切換時(shí)間,對(duì)提高可用性有較大意義。因此需要建立統(tǒng)一的配置模板,并針對(duì)路由收斂、冗余協(xié)議等進(jìn)行優(yōu)化。

2.3 基于快速檢錯(cuò)方法提高網(wǎng)絡(luò)可用性

由于MTBF取決于網(wǎng)絡(luò)設(shè)備硬件和軟件本身的質(zhì)量,而這一手段的作用對(duì)于在正在運(yùn)行的網(wǎng)絡(luò)是有極限的,無(wú)法一味的通過(guò)提高M(jìn)TBF數(shù)值來(lái)獲得網(wǎng)絡(luò)的高可用性,因此通過(guò)減小MTTR來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)高可用性成為必然的選擇。從MTTR的構(gòu)成來(lái)看,要想減小其數(shù)值需要從兩方面入手,一是快速發(fā)現(xiàn)故障(檢錯(cuò)),二是快速?gòu)墓收蠣顟B(tài)中恢復(fù)出來(lái)(排錯(cuò))。因此構(gòu)建高可用性網(wǎng)絡(luò)的基礎(chǔ)就是要實(shí)現(xiàn)快速故障發(fā)現(xiàn)和快速故障恢復(fù)。檢錯(cuò)就是在網(wǎng)絡(luò)出現(xiàn)故障時(shí),故障管理系統(tǒng)能及時(shí)發(fā)現(xiàn)故障部位和原因。

2.3.1 快速檢錯(cuò)機(jī)制

實(shí)現(xiàn)快速故障發(fā)現(xiàn)包括故障檢測(cè)和故障診斷兩個(gè)方面,故障檢測(cè)的的作用是確定故障是否存在,故障診斷的作用是確定故障的位置。檢測(cè)和診斷可以聯(lián)機(jī)運(yùn)行,也可以脫機(jī)運(yùn)行,其中聯(lián)機(jī)檢測(cè)和診斷是提高系統(tǒng)可用性的重要手段。通常網(wǎng)絡(luò)故障產(chǎn)生的原因都比較復(fù)雜,特別是故障的產(chǎn)生是由多個(gè)網(wǎng)絡(luò)共同引起時(shí)。因此,要求網(wǎng)絡(luò)管理員必須具備較高的技術(shù)水平及業(yè)務(wù)素質(zhì),同時(shí)還應(yīng)該積累豐富的實(shí)踐經(jīng)驗(yàn)。

快速檢錯(cuò)是從故障現(xiàn)象出發(fā),以網(wǎng)絡(luò)診斷工具為手段獲取診斷信息,確定網(wǎng)絡(luò)故障點(diǎn),查找問(wèn)題的根源具體包括:①自動(dòng)檢錯(cuò)而不是人工可以更快提高檢錯(cuò)的速度;②借助線路檢測(cè)工具(如線纜測(cè)試儀、時(shí)間域反射計(jì))可以加快線路故障的檢錯(cuò)速度;③利用網(wǎng)絡(luò)管理系統(tǒng)專(zhuān)門(mén)的管理進(jìn)程不斷地監(jiān)測(cè)路由器的關(guān)鍵數(shù)據(jù)并及時(shí)給出報(bào)警可以加快路由器故障的檢測(cè)速度;④通過(guò)工具自動(dòng)監(jiān)視主機(jī)流量、掃描主機(jī)端口和服務(wù)來(lái)檢測(cè)主機(jī)的異常,可以加快主機(jī)故障的檢測(cè)速度;⑤利用網(wǎng)絡(luò)測(cè)試儀可以自動(dòng)定位網(wǎng)絡(luò)故障源,找出故障點(diǎn)并顯示其網(wǎng)絡(luò)相關(guān)信息,從而加快邏輯故障的檢測(cè)速度;⑥利用網(wǎng)絡(luò)分析工具進(jìn)行快速檢錯(cuò),如協(xié)議分析程序Snifer,操作系統(tǒng)中內(nèi)置的一些非常有用的軟件網(wǎng)絡(luò)測(cè)試工具等。

2.3.2 快速檢錯(cuò)機(jī)制的評(píng)價(jià)

快速檢錯(cuò)是提高網(wǎng)絡(luò)可用性的方法之一,有其自身優(yōu)點(diǎn)和不足,在實(shí)際應(yīng)用中要注意下列問(wèn)題:

●當(dāng)分析網(wǎng)絡(luò)故障時(shí),首先要清楚故障現(xiàn)象,應(yīng)該詳細(xì)說(shuō)明故障的癥侯和潛在的原因。為此,要確定故障的具體現(xiàn)象,然后確定造成這種故障現(xiàn)象的原因與類(lèi)型。例如,主機(jī)不響應(yīng)客戶(hù)請(qǐng)求服務(wù),可能的故障原因是主機(jī)配置問(wèn)題、接口卡故障或路由器配置命令丟失等。

●規(guī)范故障檢錯(cuò)流程,提高檢錯(cuò)效率:網(wǎng)絡(luò)中可能出現(xiàn)的故障多種多樣,往往解決一個(gè)復(fù)雜的網(wǎng)絡(luò)故障需要廣泛的網(wǎng)絡(luò)知識(shí)與豐富的工作經(jīng)驗(yàn)。因此要使檢錯(cuò)速度加快,要求制訂一整套完備的故障檢測(cè)流程。

●把專(zhuān)家系統(tǒng)和人工智能技術(shù)引進(jìn)到網(wǎng)絡(luò)故障管理中來(lái),可以加快網(wǎng)絡(luò)故障的檢錯(cuò)速度。

●平時(shí)定期收集故障診斷的現(xiàn)象、原因和解決的方法,做好故障管理日志的記錄,在故障出現(xiàn)時(shí),對(duì)網(wǎng)絡(luò)的快速診斷有很大參考價(jià)值。

●要多借助網(wǎng)絡(luò)故障診斷工具來(lái)加快網(wǎng)絡(luò)診斷的速度。

2.4 基于快速排錯(cuò)方法提高網(wǎng)絡(luò)可用性與評(píng)價(jià)

可用性是相對(duì)的,它是通過(guò)提高系統(tǒng)的可靠性和可維護(hù)性來(lái)度量的。因此當(dāng)系統(tǒng)出現(xiàn)故障不可用時(shí),需要盡快修復(fù)系統(tǒng)(排錯(cuò)),提高網(wǎng)絡(luò)系統(tǒng)的可用性。

2.4.1 快速排錯(cuò)機(jī)制

排錯(cuò)就是在網(wǎng)絡(luò)出現(xiàn)故障時(shí),逐一排除故障,恢復(fù)系統(tǒng)的可用性。網(wǎng)絡(luò)故障排錯(cuò)的方法分為:①分層故障排錯(cuò)法,它主要根據(jù)網(wǎng)絡(luò)分層的概念進(jìn)行逐步分析的方法;②分塊故障排錯(cuò)法,此方法從設(shè)備的配置文件入手,將配置文件分為管理部分、端口部分、路由協(xié)議部分、策略部分和接入部分,并對(duì)其逐一進(jìn)行檢查排錯(cuò);③分段故障排錯(cuò)法,此方法是把網(wǎng)絡(luò)分段,逐段排除故障以及④替換法,替換法是檢查硬件問(wèn)題最常用的方法。當(dāng)懷疑是網(wǎng)線問(wèn)題時(shí),更換一根確定是好的網(wǎng)線試一試;當(dāng)懷疑是接口模塊有問(wèn)題時(shí),更換一個(gè)其它接口模塊試一試。在實(shí)際網(wǎng)絡(luò)故障排錯(cuò)時(shí),可以先采用分段法確定故障點(diǎn),再通過(guò)分層或其它方法排除故障。

網(wǎng)絡(luò)故障的排錯(cuò)一般從故障現(xiàn)象觀察入手,對(duì)故障相關(guān)信息收集,并對(duì)此進(jìn)行分析,找出可能的原因后得出相應(yīng)的排錯(cuò)方案,然后逐一排除。一般故障的排錯(cuò)步驟如圖1所示。

在提高網(wǎng)絡(luò)可用性的機(jī)制中,重點(diǎn)強(qiáng)調(diào)的是快速排錯(cuò),基于快速排錯(cuò)方法提高網(wǎng)絡(luò)可用性主要包括:冗余鏈路的自動(dòng)切換、使用具有熱交換功能的冗余部件、利用備用部件替換故障部件、無(wú)備用部件時(shí)要進(jìn)行隔離與降級(jí)處理、服務(wù)器集群服務(wù)的快速恢復(fù)、服務(wù)器的故障轉(zhuǎn)移以及使用復(fù)制技術(shù)等。

圖1 一般網(wǎng)絡(luò)故障排錯(cuò)步驟

2.4.2 快速排錯(cuò)機(jī)制的評(píng)價(jià)

快速排錯(cuò)是提高網(wǎng)絡(luò)可用性的方法之一,有其自身優(yōu)點(diǎn)和不足,在實(shí)際應(yīng)用中要注意下列問(wèn)題:

●有時(shí)網(wǎng)絡(luò)系統(tǒng)的可用性破壞不是系統(tǒng)隨機(jī)產(chǎn)生的,而是由入侵者故意破壞的,對(duì)于這種攻擊的防范,應(yīng)采用類(lèi)似提高可用性的容錯(cuò)方法,但新的名稱(chēng)是“容侵”,是容忍入侵(Intrusion Tolerance)的意思,也就是說(shuō),當(dāng)一個(gè)網(wǎng)絡(luò)系統(tǒng)遭受入侵,而一些安全技術(shù)都失效或者不能完全排除入侵所造成的影響時(shí),容侵可以作為系統(tǒng)的最后一道防線,即使系統(tǒng)的某些組件遭受攻擊者的破壞,但整個(gè)系統(tǒng)仍能提供全部或者降級(jí)服務(wù)。

●故障轉(zhuǎn)移過(guò)程應(yīng)該對(duì)用戶(hù)透明,應(yīng)該僅是一次重新啟動(dòng),不應(yīng)該讓用戶(hù)感覺(jué)到發(fā)生了停機(jī)事件,或者用戶(hù)也僅需要重新刷新一次,再次進(jìn)入服務(wù)器即可。

●故障排除后必須認(rèn)真分析網(wǎng)絡(luò)故障產(chǎn)生的原因,它是防止類(lèi)似故障的再次發(fā)生的基本環(huán)節(jié)。

3 網(wǎng)絡(luò)可用性的量化評(píng)估

3.1 設(shè)備串聯(lián)形成的系統(tǒng)可用性評(píng)估方法

若網(wǎng)絡(luò)系統(tǒng)是由n個(gè)網(wǎng)絡(luò)設(shè)備串聯(lián)而成的,每個(gè)設(shè)備的可用性都已知道,設(shè)為Ai,則整個(gè)系統(tǒng)的

由上面的計(jì)算公式可知,n個(gè)設(shè)備串聯(lián)的可用性會(huì)隨著設(shè)備串聯(lián)結(jié)構(gòu)的增多越來(lái)越低,例如,假設(shè)每個(gè)設(shè)備可用性值是0.9,5個(gè)設(shè)備串聯(lián)后的可用性就低于0.6,10個(gè)設(shè)備串聯(lián)后的可用性就已經(jīng)接近0.3。

例3.1三個(gè)網(wǎng)絡(luò)元素進(jìn)行串聯(lián),如圖2所示,各個(gè)設(shè)備的可用性均為0.99,則串聯(lián)后所形成的系統(tǒng)的可用性為:A=0.99×0.99×0.99= 0.97??梢?jiàn)串聯(lián)后整體的可用性降低了。可用性A就是n個(gè)可用性的累乘,其計(jì)算公式為:

圖2 網(wǎng)絡(luò)元素串聯(lián)形成的網(wǎng)絡(luò)系統(tǒng)

3.2 設(shè)備并聯(lián)形成的系統(tǒng)可用性評(píng)估方法

n個(gè)網(wǎng)絡(luò)設(shè)備并聯(lián)(冗余)的可用性是用1減去n個(gè)設(shè)備不可用性的累乘,整體系統(tǒng)的可用性是隨著并聯(lián)設(shè)備的增加而增加的,其計(jì)算公式為:

例3.2路由器B和路由器D按圖6-5所示進(jìn)行并聯(lián),其可用性分別為0.97和0.95,則并聯(lián)所形成的系統(tǒng)的可用性為:ABD=1-(1-0.97)×(1-0.95)=0.9985。可見(jiàn)并聯(lián)后整體的可用性增加了。

例3.3四個(gè)路由器進(jìn)行混合連接,如圖3所示,每個(gè)路由器的可用性分別為0.99,0.98,0.97和0.95,則所形成的系統(tǒng)的可用性可用下列公式計(jì)算:

圖3 四個(gè)路由器冗余連接形成的網(wǎng)絡(luò)系統(tǒng)

先計(jì)算兩個(gè)并聯(lián)形成的可用性:ABD=1-(1-0.97)×(1-0.95)=0.9985。

然后計(jì)算三個(gè)串聯(lián)形成的可用性:A=AA× ABD×AC=99%×99.85%×98%=96.9

對(duì)于傳輸網(wǎng)絡(luò)來(lái)說(shuō),更多的保護(hù)方式是1+1的保護(hù),即平時(shí)只用其中的一個(gè)主用路徑,當(dāng)主用路徑不可用的時(shí)候再切換到備用路徑,此時(shí)可用性的計(jì)算公式為:

其中:Aa是主用(active)路徑的可用性,As是備用(standby)路徑的可用性,c是網(wǎng)絡(luò)切換成功率。很明顯,有保護(hù)系統(tǒng)的可用性A1+1要高于無(wú)保護(hù)系統(tǒng)的可用性Aa。

對(duì)于復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),可通過(guò)化簡(jiǎn)、合并等手段形成串并聯(lián)結(jié)構(gòu),然后按上述方法計(jì)算。

3.3 可用性與可靠性的區(qū)別

可用性常常容易跟可靠性混淆,要注意它們的區(qū)別。可靠性是提供正確服務(wù)的連續(xù)性,它可以描述為系統(tǒng)在一個(gè)特定時(shí)間內(nèi)能夠持續(xù)執(zhí)行特定任務(wù)的概率。它側(cè)重分析服務(wù)正常運(yùn)行的連續(xù)性。而可用性是為可修復(fù)系統(tǒng)提出的,是對(duì)系統(tǒng)服務(wù)正常和異常狀態(tài)交互變化過(guò)程的一種量化,是可靠性和可維護(hù)性的綜合描述。例如系統(tǒng)發(fā)生了故障,需要維修,對(duì)于可用性來(lái)說(shuō),這個(gè)維修處理需要的時(shí)間越短越好。但不能說(shuō)這個(gè)維修處理時(shí)間越短,可靠性越高,因?yàn)榧偃缒阍诤芏痰?分鐘就讓系統(tǒng)恢復(fù)正常了,但是系統(tǒng)出問(wèn)題的頻率很高,十天半月就出一次故障,那系統(tǒng)的可用性可能很高,但可靠性仍然很低。相反,如果你系統(tǒng)出問(wèn)題的頻率很低,一年才出一次故障,即使維修時(shí)間較長(zhǎng),可靠性還是比較高的。

假設(shè)某一網(wǎng)絡(luò)的MTBF為45,000小時(shí)(約5.1年),發(fā)生故障后的平均修復(fù)時(shí)間MTTR為4小時(shí)。這樣,該網(wǎng)絡(luò)的停運(yùn)時(shí)間就是每隔45,000小時(shí)發(fā)生故障4小時(shí)。可用性A的計(jì)算方法為:MTBF/(MTBF+MTTR),即45000/45004 =99.9911%。

從上述公式可以看出可用性和可靠性是不同的:如果平均失效間隔時(shí)間(MTBF)遠(yuǎn)大于平均修復(fù)時(shí)間(MTTR),那么系統(tǒng)的可用性將很高。同樣的,如果平均修復(fù)時(shí)間很小,那么可用性也將很高。如果可靠性下降(MTBF變小),那么就需要減小MTTR(提高可維護(hù)性)才能達(dá)到同樣的可用性。當(dāng)然對(duì)于一定的可用性,可靠性增長(zhǎng)了,可維護(hù)性就不那么重要了。所以我們可以在可靠性和可維護(hù)性之間做出平衡,來(lái)達(dá)到同樣的可用性目的。

4 結(jié)論

本文主要論述了網(wǎng)絡(luò)可用的含義、評(píng)價(jià)標(biāo)準(zhǔn)、具體機(jī)制,并對(duì)每種機(jī)制的利弊進(jìn)行了評(píng)價(jià),最后給出如何計(jì)算網(wǎng)絡(luò)的可用性公式和示例。由于各種方法的內(nèi)涵和形式隨著計(jì)算機(jī)學(xué)科的長(zhǎng)足發(fā)展而日益豐富,沒(méi)有一成不變的方法,要不斷改進(jìn),因此要結(jié)合實(shí)際項(xiàng)目,運(yùn)用標(biāo)準(zhǔn)化的方法,逐步形成完整的提高網(wǎng)絡(luò)可用性的方法。

[1]黃永勤,金利峰,劉耀.高性能計(jì)算機(jī)的可靠性技術(shù)現(xiàn)狀與趨勢(shì)[J].計(jì)算機(jī)研究與發(fā)展,2010,47(4):589-594

[2]林闖,蔣屹新,尹浩箸.網(wǎng)絡(luò)安全控制機(jī)制[M].北京:清華大學(xué)出版社,2008

[3]田立勤,張巧紅,等.網(wǎng)絡(luò)工程技術(shù)教程[M].江蘇:中國(guó)礦業(yè)大學(xué)出版社,2007

[4]席振元,田立勤,等.數(shù)據(jù)通信與計(jì)算機(jī)網(wǎng)絡(luò)[M].北京:煤炭工業(yè)出版社,2010

Mechanism Analysis and Quantitative Evaluation to Improve Network Availability

LI Dongyan1,2,CHENG Jianxia1,TIAN Liqin2
(1.Computer College of Hubei Industry university,Wuhan Hubei430068;
2.North China Institute of Science and Technology,Yanjiao Beijing-East101601)

With the growing popularity of network applications,increasing costs and effects caused by the interruption of network system is very clear.DoS(Denial of service)is very rampant now,although availability can't prevent denial of service attacks,availability is available to reduce the impact of such attacks and it allows the system to normal operation.This paper discusses the concept of network availability,evaluation criteria of Network availability mechanism,and four mechanisms to improve network availability and compared between four mechanisms.Finally,the formula and examples of quantitative assessment network availability is given,which lay to enhance network availability based on the theory and practice.

Network Availability;Mechanism;Evaluation Criteria;Quantitative Evaluation

TP393.02

A

1672-7169(2011)01-0076-06

2011-01-10

李冬艷(1967-),女,吉林榆樹(shù)人,大學(xué)畢業(yè),湖北工業(yè)大學(xué)在讀碩士研究生,華北科技學(xué)院計(jì)算機(jī)系副教授,研究方向:計(jì)算機(jī)網(wǎng)絡(luò)。

猜你喜歡
網(wǎng)絡(luò)故障可用性網(wǎng)絡(luò)系統(tǒng)
基于文獻(xiàn)計(jì)量學(xué)的界面設(shè)計(jì)可用性中外對(duì)比研究
包裝工程(2023年24期)2023-12-27 09:18:26
基于輻射傳輸模型的GOCI晨昏時(shí)段數(shù)據(jù)的可用性分析
VxWorks網(wǎng)絡(luò)存儲(chǔ)池分析在網(wǎng)絡(luò)故障排查中的應(yīng)用
基于信息流的RBC系統(tǒng)外部通信網(wǎng)絡(luò)故障分析
基于DEMATEL-ISM的軍事通信網(wǎng)絡(luò)系統(tǒng)結(jié)構(gòu)分析
高速公路網(wǎng)絡(luò)系統(tǒng)配置淺析
Wireshark協(xié)議解析在網(wǎng)絡(luò)故障排查中的應(yīng)用
時(shí)滯復(fù)雜網(wǎng)絡(luò)系統(tǒng)的保性能控制
空客A320模擬機(jī)FD1+2可用性的討論
河南科技(2015年7期)2015-03-11 16:23:13
通訊網(wǎng)絡(luò)故障類(lèi)型研究
平阳县| 和龙市| 恩施市| 绩溪县| 区。| 高州市| 明溪县| 丁青县| 蕉岭县| 科尔| 讷河市| 新邵县| 巴东县| 许昌市| 云阳县| 揭东县| 淅川县| 东港市| 曲阜市| 洪泽县| 农安县| 红桥区| 类乌齐县| 崇仁县| 巴彦县| 龙里县| 阜阳市| 沙田区| 八宿县| 扎赉特旗| 丘北县| 缙云县| 乐业县| 罗平县| 棋牌| 溆浦县| 石家庄市| 武宁县| 常山县| 鹿邑县| 巢湖市|