謝建洲
摘要:計算機技術(shù)作為目前發(fā)展最為迅速的科學(xué)技術(shù)領(lǐng)域,為生產(chǎn)生活提供了大量的便利。隨著全球信息一體化進程的深入,能夠快速處理信息,是各行業(yè)能夠得以發(fā)展的必要保證。計算機系統(tǒng)的快速運算能力,是各行業(yè)生產(chǎn)的必要因素,為保證計算計算機系統(tǒng)運行的穩(wěn)定,計算機系統(tǒng)容錯技術(shù)需要受到重視。本文通過對計算機系統(tǒng)容錯技術(shù)進行分析,研究合理進行計算機系統(tǒng)容錯技術(shù)升級方法,為計算機系統(tǒng)的合理化提出行之有效的建議。
關(guān)鍵詞:計算機系統(tǒng);信息冗余;軟件錯誤;硬件錯誤;故障排除技術(shù)
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)06-0250-03
計算機系統(tǒng)的容錯技術(shù)是計算機出現(xiàn)軟件錯誤或者硬件錯誤的緊急情況時,仍能保證各部分的運行功能良好,計算機系統(tǒng)計算能力不下降的應(yīng)急保護措施。計算機容錯技術(shù)廣泛應(yīng)用在航天國防、電力化工、醫(yī)療衛(wèi)生等應(yīng)用計算機系統(tǒng)進行數(shù)據(jù)測算容錯率低的專業(yè)部門之中。在關(guān)鍵性工作中,輕微的錯誤或計算機設(shè)備的不合理設(shè)置都會引發(fā)不可逆轉(zhuǎn)的嚴重后果,所以針對容錯率低生產(chǎn)環(huán)節(jié)中的計算機設(shè)置需采用大量系統(tǒng)應(yīng)急設(shè)計,以求保證計算機系統(tǒng)在突發(fā)情況時,仍能穩(wěn)定運行。
1 計算機系統(tǒng)常見錯誤
計算機系統(tǒng)錯誤既有軟件層面上的軟件運行故障,又有硬件層面上的某個組成計算系統(tǒng)的硬件失靈。近年來電路主板工藝技術(shù)的提高,使得出現(xiàn)硬件層面上主要的錯誤集中于計算機處理器(cpu)的瞬間故障。出現(xiàn)計算機處理器(cpu)故障的主因可能是計算機晶體管無法正常工作,因為電壓值超過計算機處理器(cpu)能夠承載極限,導(dǎo)致計算處理器(cpu)瞬間故障。計算處理器(cpu)出現(xiàn)故障的原因還可能是計算處理器(cpu)的主頻設(shè)置過高,目前眾多部門應(yīng)用計算機系統(tǒng)為節(jié)省更新?lián)Q代,對計算處理器(cpu)進行超頻處理,增加計算處理器(cpu)的負荷,導(dǎo)致故障出現(xiàn)。計算處理器(cpu)出現(xiàn)故障的原因還可能是因為,近年來計算機制造技術(shù)的發(fā)展,處理器中晶體管數(shù)量龐大,當一個晶體管出現(xiàn)故障時,就導(dǎo)致計算處理器(cpu)出現(xiàn)運行錯誤的情況。
針對計算機系統(tǒng)出現(xiàn)的諸多故障問題,設(shè)計可靠的計算機容錯系統(tǒng),顯得十分必要,通過使用計算機硬件容錯模塊能夠極大降低計算機故障幾率,為生產(chǎn)工作提供安全與保障。
2 計算機系統(tǒng)容錯技術(shù)分析
1)計算機硬件容錯方法
計算機硬件錯誤出現(xiàn)概率較高,一旦出現(xiàn)計算機硬件層面問題,比計算機軟件層面問題更難恢復(fù)。計算機硬件錯誤可能是因為個別系統(tǒng)部件短時間內(nèi)停止運行產(chǎn)生的瞬間故障,也可能是計算機個別系統(tǒng)部件損壞產(chǎn)生的永久性故障。計算機系統(tǒng)的永久性故障,是因零部件超出使用年限,計算機主板元器件斷路短路等原因產(chǎn)生的。發(fā)生計算機永久性故障時,維修只能通過更換受損或已經(jīng)報廢的部件來進行。短時間內(nèi)的計算機部件故障,可能是瞬間錯誤頻繁發(fā)生,導(dǎo)致系統(tǒng)不能承受,瞬間錯誤由于計算機制造技術(shù)的發(fā)展,大量計算機部件整合至一個計算機部件之中,這種故障形式頻繁發(fā)生。增加了計算機系統(tǒng)工作工程的不穩(wěn)定性,為生產(chǎn)帶來許多多不便。
計算機系統(tǒng)的容錯設(shè)計方法一般采用冗余的設(shè)計思路,這種冗余的模式,不僅可以探測故障原因,第一時間對計算機錯誤進行修補,恢復(fù)計算機部件的正常運行,更是保證計算機系統(tǒng)穩(wěn)定,功能完整的唯一手段。
計算機系統(tǒng)在設(shè)計過程中經(jīng)常在硬件安裝環(huán)采用硬件冗余的設(shè)計思路,通過對降溫設(shè)備、溫度管理設(shè)備、計算機操作系統(tǒng)、等計算機運行必要設(shè)備安裝備用設(shè)備的方式,完成冗余設(shè)計。計算機主系統(tǒng)部件出現(xiàn)故障時,備用設(shè)備立即啟動接管主設(shè)備的工作,同時反饋計算機停止運行工作的故障信息,以便工作人員對故障部件進行檢修,檢修完畢后,出現(xiàn)故障的機器成為備用冗余機器,隨時準備投入運行。
一臺工作處理計算機輔助一臺工作備用計算的冗余模式,是按雙系統(tǒng)設(shè)計模式來進行的,在現(xiàn)代計算機系統(tǒng)設(shè)計之中,三系統(tǒng)設(shè)備等多系統(tǒng)設(shè)備的計算機系統(tǒng)設(shè)計方案也很常見。多系統(tǒng)冗余設(shè)計方案存在自身的固有缺陷,使用的多個獨立系統(tǒng)架構(gòu)是相同的,每個決策發(fā)現(xiàn)的錯誤都需要單獨的修復(fù)策略,允許出現(xiàn)的故障率為n-1,也就是說至少需要保證一臺備用設(shè)備能處于工作,否則整個計算機系統(tǒng)還會停止運行[1]。
多備用系統(tǒng)的計算機容錯設(shè)計,可能導(dǎo)致故障信息反饋延遲的出現(xiàn),需要統(tǒng)一的管理設(shè)備對各個計算機部件進行管理,查找計算故障速率緩慢。
計算機系統(tǒng)的信息冗余設(shè)計是指在正常需要傳輸?shù)男畔⒅?,增加一定量的重?fù)信息,以便出現(xiàn)故障時,保證信息傳輸?shù)耐暾?,為計算機系統(tǒng)的故障恢復(fù)提供了有效的輔助。計算機系統(tǒng)信息冗余容錯技術(shù),包括計算機錯誤信息監(jiān)測和計算機錯誤信息糾正兩種方法。計算機編碼編碼技術(shù),常用運用于計算機信號的傳遞過程中、計算機數(shù)據(jù)的存儲過程中和計算機硬件處理信號的工作中。具有代表性的計算機信息冗余編碼方法,不僅有常用的奇數(shù)偶數(shù)校驗碼Parity、循環(huán)冗余校驗碼CRC、海明碼及它們的擴展改進版本,還有較近期的RED-FEC、Mechanism、ABFTcheck-sum、EDAC等[2]。
計算機信息冗余技術(shù)相比計算其他的設(shè)備故障檢測方式的優(yōu)勢在于:成本低廉,應(yīng)用內(nèi)容簡單,通過使用少量附加的計算機存儲信息,輔助以額外少量的信息處理設(shè)備就可能完成,不需要額外的成套的備用計算機設(shè)備;故障檢測迅速,信息處理及時,冗余信息與正常的數(shù)據(jù)是在相同工作時間內(nèi),與正常信息同時被計算機信號處器器進行監(jiān)測和運算處理,所以是沒有延時性的,能夠在最短時間內(nèi)糾正計算機系統(tǒng)出現(xiàn)的錯誤[3]。
通過計算機時間冗余技術(shù)來達到,來增加計系統(tǒng)容錯率的設(shè)計思想是通過在統(tǒng)一硬件設(shè)施上,于不同的時間段對相應(yīng)的計算機指令進行操作。計算機時間冗余需要將信息數(shù)據(jù)流延遲發(fā)送至處理器,這需要表決電路的協(xié)同陪同,通過將單詞的數(shù)據(jù)流距離結(jié)果,依據(jù)處理時間差延遲并復(fù)制多個附件,推送至表決器進行分型,找出錯誤原因。
計算機實踐容錯技術(shù)的關(guān)鍵點是延遲推送數(shù)據(jù)流的設(shè)置,如果延時推送時間設(shè)計過長,容易錯過最佳計算機系統(tǒng)檢修時間,造成鏈式反應(yīng),增加計算機系統(tǒng)出現(xiàn)問題的概率。計算機時間容錯技術(shù)設(shè)置的延遲推送數(shù)據(jù)流時間過短,容易產(chǎn)生書劍數(shù)據(jù)量過大,造成的錯誤信息冗余,反而增加了計算系統(tǒng)出現(xiàn)的故障[4]。
計算機硬件線程冗余技術(shù),這種技術(shù)的容錯設(shè)計思路是通過多線程,或者多個核心的計算機中央處理器在真正的線程上降級出現(xiàn)錯誤,從而減少計算系統(tǒng)整體出現(xiàn)故障概率的方法。通過在多條并列運行的計算機中央處理器線程上進行數(shù)據(jù)運算,對比對象運算數(shù)據(jù)糾正錯誤信息。多線程冗余容錯方法是啟用多個主引導(dǎo)線程controlor與多個備用線程incontrolor分開,各自進行數(shù)據(jù)流的運算,最終使用頂層數(shù)據(jù)分析器(top data coarse grained superme scalar architecture)進行對比,通過對比最終運算結(jié)果發(fā)現(xiàn)錯誤。這種容錯方式的缺陷在于,效率十分低下,多個信息計算設(shè)備處理同樣的信息流,很多數(shù)據(jù)緩沖區(qū)使用沖通,榮引發(fā)設(shè)備部件鎖死,或帶來不可接受的的錯誤信息監(jiān)測延遲[6]。
2)計算機軟件容錯方法
為提升計算機軟件的容錯率,加強計算系統(tǒng)整體的穩(wěn)定性,需要針對軟件運行過程中,可能出現(xiàn)的錯誤進行提前控制。計算軟件形式各異,沒有固定的設(shè)計標準和要求,所以在故障控制方面比較困難。計算機軟即使按照人為編程的誰即模式進行工作的,出現(xiàn)運行報錯時,往往是由于編程設(shè)計人員的編寫錯誤。為提高計算機軟件的恢復(fù)能力,降低軟件報錯幾率,提高計算技術(shù)使用效率。因通過使用高級計算機軟件編程語言來進行,C++作為高容錯率的計算機編程語言,能夠有效降低計算機軟件報錯幾率。
計算機軟件故障應(yīng)對策略有回滾恢復(fù)法與后向深入發(fā)法,回滾恢復(fù)法是指計算機通過貴恢復(fù)到之前最后一次正確運行的狀態(tài),使計算機重新投入正常運轉(zhuǎn)之中。后向深入法是指計算機通過自我檢查軟件錯誤內(nèi)容,對報錯軟件的故障編碼予以排除,從而使計算機重新正常運轉(zhuǎn)。
計算機多版本軟件容錯方法是常見的,軟件故障排除法,其主要的設(shè)計思路是通過使用多種計算機編程語言和開發(fā)工具,制造多版本軟件,從而提升計算機使用軟件的兼容性,達到計算機容錯率提高的辦法[7]。
設(shè)計多版本軟件需要注意,軟件總體設(shè)計架構(gòu)應(yīng)該保持一致。保證能夠進行錯誤下的,整個軟件的回滾。不同版本的計算機軟件之間應(yīng)該統(tǒng)一計算機軟件接口,保證軟件的兼容性滿足不同的操作系統(tǒng)。計算機軟件模塊封裝方式,應(yīng)該盡量使用不同的方式,保證同樣的錯誤不會發(fā)眾生在不同版本軟件中。計算機軟件設(shè)計應(yīng)該具備各自版本特征,控制計算機軟件的運行機制,能夠第一時間針對軟件錯誤查找應(yīng)對方法[8]。
3 計算機系統(tǒng)錯誤回卷恢復(fù)機制
計算機硬件錯誤、軟件錯誤的故障排除方法都是在計算系統(tǒng)運行過程中,方向錯誤是,以反饋的故障信息,針對故障進行定點排除。這樣做的目的是,盡量排除虛假報錯信息,不干擾計算機系統(tǒng)正常運營的同時,以最短的時間,保證計算機系統(tǒng)重新投入運行之中。但計算機運行過程中無論采用何種故障排出機制,對錯誤的檢測與恢復(fù)能力都是有限的。通過合理設(shè)計計算機系統(tǒng)錯誤回卷恢復(fù)機制,才能保證計算機系統(tǒng)發(fā)生不可逆的故障時,在短時間內(nèi)恢復(fù)到最后一次正常運轉(zhuǎn)時的穩(wěn)定狀態(tài)[9]。
計算機系統(tǒng)錯誤回卷恢復(fù)機制可以劃分為:基于之前計算機操作系統(tǒng)檢查點或者備份點,進行的計算機系統(tǒng)錯誤回卷恢復(fù);基于計算機操作系統(tǒng)錯誤日志統(tǒng)計信息,進行的計算機系統(tǒng)錯誤回卷恢復(fù)。
基于之前計算機操作系統(tǒng)檢查點或者備份點的恢復(fù)機制,源自于計算機操作系統(tǒng)的自我保護機制,檢查電視提高操作系統(tǒng)容錯率的有效方式之一,計算在正常運行中,通過定期將所有信息備份至穩(wěn)定存儲介質(zhì)之中,通常是計算機的備份磁盤,形成故障恢復(fù)檢查點。當計算機出現(xiàn)操作故障時,利用在計算機的備份磁盤存儲的備份文件,將計算機操作系統(tǒng)恢復(fù)到最后一次備份的正常運行狀態(tài),以保證在計算機出現(xiàn)錯誤的過程中損失最低[10]。
基于計算機操作系統(tǒng)錯誤日志統(tǒng)計信息,進行的錯誤回滾回復(fù)方式,是基于計算機操作系統(tǒng)判斷錯誤發(fā)生之后使用的計算機故障排除方式。計算機操作系統(tǒng)錯誤日志恢復(fù)模式,作為記錄性恢復(fù)手段適用于銀行自動提款機或打印設(shè)備,特殊設(shè)備的信息量很大,信息具有重要的實用價值,操作不可逆轉(zhuǎn)的計算機設(shè)備,需保證混滾回復(fù)前后記錄信息一致[11]。
4 常見計算機故障排除策略
常見的計算機錯誤排除策略的設(shè)計,應(yīng)針對不同計算機系統(tǒng)的安裝環(huán)境、運行方式、從事的信息處理工作不同,采用相應(yīng)的故障排除策略。計算機故障容錯方案的涉及私立,主要還是從廣泛而普遍應(yīng)用的合理方法上進行創(chuàng)新,通過設(shè)計非定制的COTS的計算機容錯架構(gòu),針對出可能出現(xiàn)的計算機系統(tǒng)故障,進行預(yù)防式的處理[12]。
CTOS容錯架構(gòu)采用常見的計算機系統(tǒng)故障排除軟件設(shè)計-凱美列儂架構(gòu),保證計算機軟件的在修復(fù)錯誤時的可靠性,CTOS軟件容錯設(shè)計通過使用不同的針對性反應(yīng)程序組成。針對性反應(yīng)程序分為三個等級,位于最頂層的中央控制管理模塊,其作用是根據(jù)預(yù)先編程的錯誤應(yīng)對策略,進行的計算機系統(tǒng)的管理。針對性反應(yīng)程序的中間層是新型傳輸模塊,負責鋪設(shè)控制層與底層性信息傳輸渠道。針對性反應(yīng)程序的底層是錯誤檢測程序,更具計算機系統(tǒng)的要求,實施不同的解決方案[13]。
計算系統(tǒng)容錯方案中仍存在一些,有待計算機設(shè)計人員攻克的問題。目前的硬件冗余容錯方法,雖然能夠在一定程度上提高計算機系統(tǒng)的可靠性,但耗費成本高,對整體系統(tǒng)硬件一致化的要求很高,需要使用大量的人力物力,目前是計算機硬件容錯設(shè)計方向上,難以攻克的問題。
計算機信息流榮譽容錯方法,比如:ECC算法難以在短時間內(nèi)處理大批量的錯誤信息,當錯誤信息量過大時,占用計算機系統(tǒng)計算能力,ECC信息流冗余算法就顯得捉襟見肘,所以這一計算機容錯方案需要繼續(xù)深化發(fā)展[14]。
計算機時間冗余容錯方案中,通過延長計算機信息轉(zhuǎn)換時間,得以對固站信息進行甄別,這種容錯方案的局限性在于延遲過大,難以在第一時間發(fā)現(xiàn)計算機系統(tǒng)故障,對計算機出現(xiàn)的硬件損壞問題反應(yīng)速度慢。
計算機多線程故障排除方法,目前難以解決的問題有:不同計算機的中央處理的線程之間,有時會出現(xiàn)通信連接丟失,無法步進一致的問題。如何分配計算機中央處理器的運算能力,是目前計算機專業(yè)技術(shù)人員應(yīng)考慮的問題。
計算機多版本軟件故障排除技術(shù)。目前只能應(yīng)用在,設(shè)備規(guī)模較小,處理簡單任務(wù)量的小型機上面,同時計算機多版本軟件故障排除技術(shù)的程序制作費用高昂,投入產(chǎn)出比不平衡,目前應(yīng)用于計算機故障排除技術(shù)上較少。
當下的計算機硬件故障排除與探測技術(shù)是比較完善的,軟件層面上的計算機故障排除技術(shù)有待發(fā)展,通過繼續(xù)深入研究與探索計算機軟件故障排除方案,能有效提升計算機系統(tǒng)的容錯率,同時降低軟件層面上的計算機故障排除方法的應(yīng)用成本[15]。
計算機操作系統(tǒng)使管理計算機的運算設(shè)備、儲存設(shè)備的關(guān)鍵,為提升計算機操作系統(tǒng)的安全性,需要計算機從業(yè)人員進行深入研究。在高精尖技術(shù)領(lǐng)域中,國外的操作系統(tǒng)顯現(xiàn)出其局限性,不利于我國國防事業(yè)的展開。國內(nèi)的國產(chǎn)操作系統(tǒng)制作進度緩慢,應(yīng)用率低。提高國產(chǎn)操作系統(tǒng)的應(yīng)用能力,是我國計算機應(yīng)努力的方向。
5 結(jié)論
計算機技術(shù)在生產(chǎn)生活中的應(yīng)用越來越廣泛,是提升企業(yè)生產(chǎn)效率與人們生活質(zhì)量的重要科技資源。為了滿足對計算機系統(tǒng)的使用需求,需要進一步提高計算機系統(tǒng)的穩(wěn)定性與容錯率。計算機系統(tǒng)容錯率的提升有效方案,應(yīng)該是集較高穩(wěn)定性、計算機故障檢測、計算機回滾恢復(fù)能力于一體的故障排除方案,同時應(yīng)該兼顧故障恢復(fù)時間與故障恢復(fù)成本。只有針對計算機系統(tǒng)運行的時機情況,可能出現(xiàn)的故障進行預(yù)先的設(shè)計,才能制定合理有效的計算機故障排除方案。計算機容錯技術(shù)中仍然存在一些難以攻克的問題,需計算機行業(yè)從業(yè)人員強化專業(yè)技術(shù),深化針對這些問題的研究,為攻克這些難關(guān),找出行之有效的方法。
參考文獻:
[1] 富弘毅,楊學(xué)軍.大規(guī)模并行計算機系統(tǒng)硬件故障容錯技術(shù)綜述[J].計算機工程與科學(xué),2010,10(23):38-43+53.
[2] 胡澄宇.計算機容錯技術(shù)在非編網(wǎng)存儲系統(tǒng)中的應(yīng)用[J].科技創(chuàng)業(yè)月刊,2010,11(7):163-164.
[3] 黎珊珊.實時分布式計算機系統(tǒng)的容錯技術(shù)研究[J].計算機與數(shù)字工程,2002,6(3):61-64+31.
[4] 徐新海,楊學(xué)軍,林宇斐,等.一種面向CPU-GPU異構(gòu)系統(tǒng)的容錯方法[J].軟件學(xué)報,2011,10(01):2538-2552.
[5] 徐文芳,劉宏偉,舒燕君,等.三模冗余容錯系統(tǒng)管理板[J].清華大學(xué)學(xué)報(自然科學(xué)版),2011,S1(11):1434-1439.
[6] 熊庭剛,馬中,袁由光.基于操作系統(tǒng)調(diào)用的容錯計算機系統(tǒng)同步技術(shù)研究[J].計算機研究與發(fā)展,2006,11(06):1985-1992.
[7] 王意潔,孫偉東,周松,等云計算環(huán)境下的分布存儲關(guān)鍵技術(shù)[J].軟件學(xué)報,2012,4(9):962-986.
[8] 張紹林,楊孟飛,劉鴻瑾,等.一種面向多核的可重構(gòu)容錯方法[J].計算機科學(xué),2014,5(15):59-63.
[9] 易會戰(zhàn),王鋒,左克,等.基于內(nèi)存緩存的異步檢查點容錯技術(shù)[J].計算機研究與發(fā)展,2014,6(18):1229-1239.
[10] 宮婧,王文君.大數(shù)據(jù)存儲中的容錯關(guān)鍵技術(shù)綜述[J].南京郵電大學(xué)學(xué)報(自然科學(xué)版),2014,4(20):20-25.
[11] 徐奡,夏德天,鄭久壽.高升力系統(tǒng)控制計算機容錯技術(shù)研究[J].微電子學(xué)與計算機,2015,6(17):36-40+45.
[12] 歐陽瑞雪.嵌入式計算機控制系統(tǒng)容錯策略研究[J].信息技術(shù)與信息化,2015,12(19):113-115.
[13] 賈佳,楊學(xué)軍,李志凌.一種基于冗余線程的GPU多副本容錯技術(shù)[J].計算機研究與發(fā)展,2013,07(23):1551-1562.
[14] 劉偉,姚玉良,宋新亮.高性能互連網(wǎng)絡(luò)鏈路容錯分析與模型研究[J].計算機與信息技術(shù),2009,Z2(5):13-16.
[15] 彭珺,高珺.計算機網(wǎng)絡(luò)信息安全及防護策略研究[J].計算機與數(shù)字工程,2011,1(18):121-124+178.