張家芳
摘 要:現(xiàn)在,高性能的計(jì)算機(jī)系統(tǒng)的性能在不斷地改善,而且其硬件的功能越來越完善,所以,提高系統(tǒng)運(yùn)行可靠性是十分重要的。本文通過分析高性能計(jì)算機(jī)的可靠性技術(shù),分析高性能計(jì)算機(jī)在進(jìn)行硬件設(shè)計(jì)的過程中的可靠性的現(xiàn)狀,并結(jié)合避錯(cuò)技術(shù)、靜態(tài)冗余等技術(shù),分析不同的可靠性技術(shù)在計(jì)算機(jī)中的實(shí)際應(yīng)用,提高高性能計(jì)算機(jī)在使用過程中的可靠性。
關(guān)鍵詞:高性能計(jì)算機(jī);可靠性;避錯(cuò);冗余
現(xiàn)在,高性能計(jì)算機(jī)的運(yùn)行效率越來越高,而且,其處理器的數(shù)量也是越來越多,現(xiàn)在硬件系統(tǒng)的功能越來越強(qiáng)大,但是,隨之而來的是計(jì)算機(jī)的可靠性下降,系統(tǒng)在使用時(shí)會(huì)發(fā)生各類故障。尤其是在大規(guī)模的高性能計(jì)算機(jī)中,由于硬件的功能多,所以,導(dǎo)致的故障也是多種多樣的,而且,故障一旦發(fā)生后,就會(huì)導(dǎo)致整個(gè)系統(tǒng)都不能繼續(xù)運(yùn)行。所以,為了能夠確保計(jì)算機(jī)的性能,并提高其使用的可靠性,有必要對(duì)計(jì)算機(jī)的可靠性技術(shù)進(jìn)行研究。
1 高性能計(jì)算機(jī)的可靠性需求
可靠性指的是系統(tǒng)能夠平穩(wěn)運(yùn)行的基礎(chǔ),一般是確保系統(tǒng)在長時(shí)間內(nèi)部出現(xiàn)故障,而且,現(xiàn)在,計(jì)算機(jī)的功能越來越完善,這就導(dǎo)致了計(jì)算機(jī)的可靠性下降。高性能的計(jì)算機(jī),其處理器的數(shù)量也是比較多的,處理數(shù)據(jù)的效率非常高。通過對(duì)高性能計(jì)算機(jī)使用情況的分析,可以看出,其在每個(gè)小時(shí)內(nèi)都會(huì)出現(xiàn)不同的故障,所以,計(jì)算機(jī)在運(yùn)行中都是通過重啟的方式使計(jì)算機(jī)的運(yùn)行恢復(fù)正常的。從計(jì)算機(jī)的芯片性能進(jìn)行分析,計(jì)算機(jī)的芯片規(guī)模越來越大,導(dǎo)致了處理器內(nèi)會(huì)發(fā)生各類故障。
2 高性能計(jì)算機(jī)可靠性技術(shù)的現(xiàn)狀分析
在提高高性能計(jì)算機(jī)可靠性的時(shí)候,一般是使用避錯(cuò)技術(shù)和容錯(cuò)技術(shù)。避錯(cuò)技術(shù)能夠通過完善計(jì)算機(jī)的硬件系統(tǒng),防止硬件在運(yùn)行過程中產(chǎn)生錯(cuò)誤。容錯(cuò)技術(shù)是保障計(jì)算機(jī)在發(fā)生局部的故障時(shí)不影響整體的運(yùn)行。容錯(cuò)技術(shù)還包括靜態(tài)冗余和動(dòng)態(tài)冗余兩種,在對(duì)高性能計(jì)算機(jī)進(jìn)行容錯(cuò)時(shí),一般采用的是靜態(tài)冗余的方式。
2.1 避錯(cuò)技術(shù)
避錯(cuò)技術(shù)主要指的是在對(duì)計(jì)算機(jī)設(shè)計(jì)的過程中,盡量能夠?qū)τ?jì)算機(jī)的故障進(jìn)行控制,防止故障在系統(tǒng)中蔓延,防止其他的零部件不能運(yùn)行。按照相關(guān)的體系,計(jì)算機(jī)中的零部件的失效與其使用的環(huán)境、工作的溫度等因素密切相關(guān),所以,避錯(cuò)技術(shù)重點(diǎn)是對(duì)零部件的設(shè)計(jì),控制好零部件運(yùn)行時(shí)的溫度,使零部件運(yùn)行能夠在良好的環(huán)境下。在實(shí)現(xiàn)高性能計(jì)算機(jī)穩(wěn)定運(yùn)行中,一般在選擇零部件時(shí)都選擇那些可靠性比較高的,將零部件集成使用,這樣就能夠減少零部件的數(shù)量,在故障處理中也是比較方便的。例如,在CEC單元中,其零部件主要包括處理器、存儲(chǔ)器、I/O幾口等,這些零部件通過集成的方式形成一個(gè)整體,就能夠減少故障發(fā)生時(shí)的影響區(qū)域。
現(xiàn)在,高性能計(jì)算機(jī)的功能在不斷地完善,所以,其會(huì)產(chǎn)生更大的能耗量,所以,在系統(tǒng)產(chǎn)生能耗時(shí)會(huì)產(chǎn)生很多熱量,會(huì)導(dǎo)致系統(tǒng)發(fā)生故障,在提高計(jì)算機(jī)可靠性時(shí),應(yīng)該充分考慮到零部件使用的熱環(huán)境。各類零部件在使用時(shí),如果長時(shí)間處于運(yùn)行的狀態(tài),那么,其結(jié)溫就會(huì)一直增加,導(dǎo)致零部件的故障頻發(fā)。為了能夠降低零部件在使用中溫度的升高,就要選擇那些低熱阻的裝備,并且采用高效的冷卻方法。例如,在數(shù)據(jù)的傳輸過程中,當(dāng)指令也完成了發(fā)布后,這時(shí)不能夠改變串行口的設(shè)計(jì)狀態(tài),由于硬件反應(yīng)速度比較慢,如果強(qiáng)制性的改變串行口的設(shè)置狀態(tài),那么就會(huì)使一些信息丟失。所以,在實(shí)際的應(yīng)用中,應(yīng)該等到發(fā)送完成后,再改變串行口的狀態(tài),或者運(yùn)用查詢的方式分析其狀態(tài)是否是可以改變的。
2.2 靜態(tài)冗余
靜態(tài)冗余技術(shù)能夠?qū)植康墓收线M(jìn)行屏蔽,使局部的故障不影響整個(gè)系統(tǒng)的運(yùn)行。在系統(tǒng)發(fā)生故障的時(shí)候,運(yùn)用信息冗余的方式,使故障能夠在最短的時(shí)間內(nèi)輸出,通過對(duì)故障的補(bǔ)救,從而能夠消除其帶給系統(tǒng)的不良的影響。CRC校驗(yàn)又稱為循環(huán)冗余校驗(yàn),是數(shù)據(jù)通訊中常用的一種校驗(yàn)算法。它可以有效的判別出數(shù)據(jù)在傳輸過程中是否發(fā)生了錯(cuò)誤,從而保障了傳輸?shù)臄?shù)據(jù)可靠性。 CRC校驗(yàn)有多種方式,如:CRC8、CRC16、CRC32等等。在實(shí)際使用中,我們經(jīng)常使用CRC16校驗(yàn)。CRC16校驗(yàn)也有多種,如:1005多項(xiàng)式、1021多項(xiàng)式(CRC-ITU)等。在這里我們不討論CRC算法是怎樣產(chǎn)生的,而是重點(diǎn)落在幾種算法的C51程序的優(yōu)化上。 計(jì)算CRC校驗(yàn)時(shí),最常用的計(jì)算方式有三種:查表、計(jì)算、查表+計(jì)算。一般來說,查表法最快,但是需要較大的空間存放表格;計(jì)算法最慢,但是代碼最簡潔、占用空間最小。
2.3 部件的冗余
部件的冗余指的是在系統(tǒng)的關(guān)鍵零部件上出現(xiàn)的故障,如在系統(tǒng)的電源和監(jiān)控器上出現(xiàn)的故障。在使用高性能計(jì)算機(jī)時(shí),經(jīng)常出現(xiàn)的故障就是電源故障,這類故障會(huì)產(chǎn)生比較嚴(yán)重的后果,所以,應(yīng)該采用電源冗余的方法,可以進(jìn)行電源的冗余備份處理,應(yīng)該從不同的電源上接收輸入信號(hào),然后在運(yùn)行的情況下實(shí)現(xiàn)電源的轉(zhuǎn)換。在對(duì)冗余時(shí)鐘進(jìn)行設(shè)計(jì)時(shí),要分析中心面板上的振蕩器,分為兩個(gè)振蕩器,一個(gè)處于工作狀態(tài),一個(gè)處于備份的狀態(tài),當(dāng)一個(gè)振蕩器發(fā)生故障后,時(shí)鐘源就可以進(jìn)行切換,使備用的振蕩器派上用場。
2.4 數(shù)據(jù)通路的冗余
數(shù)據(jù)通路的冗余能夠理解成對(duì)零部件的冗余,在高性能計(jì)算機(jī)使用的過程中,一般都采取了這種提高可靠性的措施,在對(duì)磁盤的路徑進(jìn)行設(shè)計(jì)時(shí)一般都設(shè)計(jì)了冗余路徑。軟件會(huì)實(shí)現(xiàn)很多特定的功能,為了方便程序員,引入了“模塊化程序設(shè)計(jì)”,引入動(dòng)態(tài)鏈接庫(DLL),由主執(zhí)行文件調(diào)用來執(zhí)行某一項(xiàng)或幾項(xiàng)特定功能。但在卸載時(shí),可能會(huì)出現(xiàn)不能將所有DLL文件刪除干凈的情況,這些剩余的DLL文件就是冗余動(dòng)態(tài)連接庫,可以通過刪除來節(jié)省硬盤空間。
2.5 信息冗余
信息冗余指的是對(duì)數(shù)據(jù)的糾錯(cuò)的技術(shù),其能夠在數(shù)據(jù)中增加冗余,從而減少信息在傳遞的過程中發(fā)生的故障,而且能夠?qū)π畔⒌墓收掀鸬搅己玫钠帘蔚男ЧT诟咝阅苡?jì)算機(jī)的使用中,中央處理器、I/O接口等一般都采用了信息冗余的方法。
2.6 動(dòng)態(tài)冗余
動(dòng)態(tài)冗余指的是在計(jì)算機(jī)系統(tǒng)中按照功能的不同分成不同的模塊,在對(duì)故障進(jìn)行檢查時(shí),只需要檢查每個(gè)模塊的運(yùn)行狀況就可以直接找到故障的所在,系統(tǒng)能夠進(jìn)行及時(shí)地恢復(fù)。
3 故障的診斷與檢測(cè)
故障的檢測(cè)技術(shù)能夠分析計(jì)算機(jī)中是否是存在故障的,而且能夠?qū)收系奈恢枚ㄎ?。在?duì)故障進(jìn)行診斷和檢測(cè)時(shí),可以采取聯(lián)機(jī)的方式,也可以在脫機(jī)的形式下進(jìn)行。一般在高性能的計(jì)算機(jī)中,是采用聯(lián)機(jī)檢測(cè)的方法,能夠?qū)收线M(jìn)行跟蹤處理。在對(duì)檢錯(cuò)碼進(jìn)行分析時(shí),能夠針對(duì)循環(huán)冗余中提供的校驗(yàn)碼進(jìn)行分析,從而能夠自動(dòng)的識(shí)別系統(tǒng)的故障。但是,其與糾錯(cuò)碼還是存在一定的差異的,檢錯(cuò)碼不能夠自動(dòng)的將錯(cuò)誤糾正,而且,在監(jiān)視定時(shí)器使用時(shí)需要有網(wǎng)絡(luò)連接。在對(duì)總線的故障進(jìn)行分析時(shí),需要考慮到總線控制器在交互環(huán)節(jié)中的問題。在對(duì)故障進(jìn)行檢測(cè)的過程中,應(yīng)該先對(duì)硬件進(jìn)行檢測(cè),然后分析系統(tǒng)的故障。
3.1 重組技術(shù)
充足時(shí)實(shí)現(xiàn)動(dòng)態(tài)冗余的關(guān)鍵,是防止局部的系統(tǒng)故障對(duì)整個(gè)系統(tǒng)帶來的不利影響。系統(tǒng)的故障分為可恢復(fù)的和不可恢復(fù),如果檢測(cè)的故障是不可恢復(fù)的,那么,系統(tǒng)中就會(huì)將故障的部件切換掉,運(yùn)用備用的部件。而且如果發(fā)現(xiàn)備用的部件不足,系統(tǒng)就能夠自動(dòng)的將故障隔離,確保整個(gè)計(jì)算機(jī)系統(tǒng)還是可以運(yùn)行的。
3.2 恢復(fù)技術(shù)
重組技術(shù)能夠?qū)δ切┎荒芑謴?fù)的故障進(jìn)行處理,但是,在高性能計(jì)算機(jī)運(yùn)行的過程中,還是存在一些瞬間產(chǎn)生的故障,這些故障能夠很快解決,可以通過對(duì)系統(tǒng)的恢復(fù)完成。恢復(fù)能夠?qū)崿F(xiàn)對(duì)瞬間故障的診斷,瞬間故障一般都是可恢復(fù)的故障,所以這些故障能夠及時(shí)地消除。在恢復(fù)技術(shù)中最常見的是重試,在對(duì)相關(guān)的步驟操作但是沒有反應(yīng)時(shí),可以采用重試的方式,服務(wù)器就會(huì)采用重試的方式,對(duì)系統(tǒng)重新運(yùn)行,重新對(duì)數(shù)據(jù)進(jìn)行傳輸。
3.3 在線替換
這項(xiàng)技術(shù)能夠?qū)ο到y(tǒng)出現(xiàn)的故障替換,將故障置換出來,從而能夠使系統(tǒng)恢復(fù)到之前的功能。在高性能計(jì)算機(jī)中,在線替換功能主要是英語到磁盤、電源等設(shè)備中,在單元板能夠正常運(yùn)行的情況下,實(shí)現(xiàn)服務(wù)器的一環(huán),從而也能夠使那些較為落后的功能替換,實(shí)現(xiàn)系統(tǒng)的在線升級(jí)。
4 結(jié)語
現(xiàn)在,高性能計(jì)算機(jī)的應(yīng)用還是比較廣泛的,在各類生產(chǎn)中得到了廣泛地應(yīng)用,其功能逐漸完善,但是,在多元化功能的背景下,其運(yùn)行的可靠性也在下降,所以,要提高計(jì)算機(jī)的可靠性,就需要借助一些可靠性技術(shù),促進(jìn)高性能計(jì)算機(jī)的穩(wěn)定運(yùn)行。
參考文獻(xiàn):
[1] 黃永勤,金利峰,劉耀.高性能計(jì)算機(jī)的可靠性技術(shù)現(xiàn)狀與趨勢(shì)[J].計(jì)算機(jī)研究與發(fā)展.2010(04):589-594.
[2] 王俊超,彭濤,馮光柳.曙光高性能計(jì)算機(jī)在數(shù)值預(yù)報(bào)模式中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展.2014(10):178-181.
[3] 蔣句平,龐征斌,周興銘.高性能計(jì)算機(jī)RAS技術(shù)現(xiàn)狀與趨勢(shì)[J].計(jì)算機(jī)工程與科學(xué).2005(01):80-82.
[4] 劉曉婷,賈志淳.高性能計(jì)算機(jī)中互連網(wǎng)絡(luò)的可靠性研究[J].電子制作.2015(04):151-152.
[5]華凌.高性能計(jì)算機(jī)是一個(gè)國家綜合科技實(shí)力的體現(xiàn) 我國超級(jí)計(jì)算機(jī)顯神威[J].電子展望與決策.2000(06):29-30.
[6]王穎.李國杰和他的曙光高性能計(jì)算機(jī)[J].中國信息導(dǎo)報(bào).2000(06):
42-43.
[7]夏培肅.高性能計(jì)算機(jī)中的若干關(guān)鍵技術(shù)問題的基礎(chǔ)性研究[J].中國基礎(chǔ)科學(xué).2000(04).
[8]胡永生.加快發(fā)展高性能窮人計(jì)算機(jī)——記者胡永生對(duì)工程院院士李國杰的專訪[J].計(jì)算機(jī)與農(nóng)業(yè).2002(01):4-6.
[9]胡敏.走向高性能運(yùn)算[J].中國計(jì)算機(jī)用戶.2003(34):60.
[10]丁曄,袁斌,陳曉軍.未必永遠(yuǎn)跟隨——中國高性能計(jì)算機(jī)發(fā)展趨勢(shì)[J].每周電腦報(bào).2003(24):34-35.
[11]祝明發(fā).未必永遠(yuǎn)跟隨——中國高性能計(jì)算機(jī)發(fā)展趨勢(shì)[J].每周電腦報(bào).2003(40):96.
[12]朱瑩.淺談高性能計(jì)算機(jī)的發(fā)展現(xiàn)狀和瓶頸[J].科技情報(bào)開發(fā)與經(jīng)濟(jì).2008(18):123-125.
[13]樊建平.高性能計(jì)算機(jī)的發(fā)展現(xiàn)狀與趨勢(shì)[J].計(jì)算機(jī)教育.2004
(05):3-5.
[14]洪文董.高性能計(jì)算機(jī)的發(fā)展與氣象應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用.
2004(05):32-35.
[15]段樹云.高性能計(jì)算機(jī)的發(fā)展[J].瀘天化科技.2003(04):335-336.
[16]王志華.高性能計(jì)算機(jī)及其相關(guān)技術(shù)研究[J].忻州師范學(xué)院學(xué)報(bào).
2004(05):117-119.
[17]陳亮.高性能計(jì)算機(jī)標(biāo)準(zhǔn)開放圖存[J].互聯(lián)網(wǎng)周刊.2006(32):16.
[18]曾宇,王潔.中國高性能計(jì)算機(jī)技術(shù)及標(biāo)準(zhǔn)現(xiàn)狀分析[J].信息技術(shù)與標(biāo)準(zhǔn)化.2006(10):9-12.
[19]華凌.高性能計(jì)算機(jī)是一個(gè)國家綜合科技實(shí)力的體現(xiàn) 我國超級(jí)計(jì)算機(jī)顯神威[J].電子展望與決策.2000(06):29-30.