董華倫
摘 要:隨著民航的快速發(fā)展,空管自動(dòng)化系統(tǒng)的地位越來(lái)越高,而空管自動(dòng)化系統(tǒng)中主要由計(jì)算機(jī)系統(tǒng)組成。硬盤(pán)是計(jì)算機(jī)系統(tǒng)的存儲(chǔ)中心,7x24小時(shí)運(yùn)行。在空管自動(dòng)化系統(tǒng)中故障的統(tǒng)計(jì)中,硬盤(pán)的故障率最高。為解決硬盤(pán)故障帶來(lái)的影響,現(xiàn)在服務(wù)器都使用RAID技術(shù)。RAID技術(shù)的使用緩解了硬盤(pán)故障帶來(lái)的影響,但是當(dāng)前空管自動(dòng)化系統(tǒng)中依然缺少對(duì)硬盤(pán)的監(jiān)控。
關(guān)鍵詞:AirNet;硬盤(pán)監(jiān)控;S.M.A.R.T;smartmontools
AirNet空管自動(dòng)化系統(tǒng)由成都民航空管科技有限公司自主研發(fā)的具有自主知識(shí)產(chǎn)權(quán)的管制中心空管自動(dòng)化系統(tǒng)。AirNet具備沖突告警、低高度告警、常規(guī)一次、二次雷達(dá)等監(jiān)視數(shù)據(jù)接入處理、雷達(dá)數(shù)據(jù)記錄回放、雷達(dá)顯示、飛行計(jì)劃處理及顯示等功能,可為空中交通控制提供自動(dòng)化的管制手段,是區(qū)域、進(jìn)近、塔臺(tái)等單位的雷達(dá)管制必備的系統(tǒng)。
AirNet自動(dòng)化系統(tǒng)的工作站使用HP Z系列工作站和HP DL380系統(tǒng)服務(wù)器,使用RedHat Linux Enterprise Serverr5.8或7.1的操作系統(tǒng)。在SMC的監(jiān)控程序上都缺少硬盤(pán)狀態(tài)的硬盤(pán),無(wú)法實(shí)時(shí)監(jiān)控硬盤(pán)的工作狀態(tài),存在無(wú)法及時(shí)發(fā)現(xiàn)硬盤(pán)健康狀態(tài)不佳的安全隱患。通常是通過(guò)定期檢查硬盤(pán)指示燈來(lái)判斷或待硬盤(pán)故障導(dǎo)致系統(tǒng)不可用才發(fā)現(xiàn),工作效率低下。尤其是當(dāng)前HP工作站也使用RAID1,當(dāng)其中一塊硬盤(pán)故障時(shí),在主機(jī)和顯示上都無(wú)任何變化,只有兩塊硬盤(pán)故障才能發(fā)現(xiàn),而此時(shí)系統(tǒng)已不可用,迫切需要一種監(jiān)控程序能實(shí)時(shí)監(jiān)控硬盤(pán)的健康狀態(tài)。
1 S.M.A.R.T
1.1 S.M.A.R.T的概念
Self-Monitoring Analysis and Reporting Technology的簡(jiǎn)稱(chēng)為S.M.A.R.T,是一種自我監(jiān)測(cè)、分析和報(bào)告的技術(shù)??梢酝ㄟ^(guò)使用硬盤(pán)上的一些指令和監(jiān)測(cè)軟件對(duì)支持S.M.A.R.T技術(shù)的硬盤(pán)的健康狀態(tài)進(jìn)行分析,比如:硬盤(pán)的磁頭、馬達(dá)、盤(pán)版、使用時(shí)間、電路情況、歷史情況等健康狀態(tài),將檢測(cè)到的數(shù)值與硬盤(pán)預(yù)設(shè)的安全值進(jìn)行分析比較,當(dāng)檢測(cè)到的數(shù)值超過(guò)預(yù)值后,可以自動(dòng)向用戶提供告警信息。支持S.M.A.R.T技術(shù)的硬盤(pán)可以通過(guò)使用硬盤(pán)上的監(jiān)測(cè)指令和主機(jī)上的監(jiān)測(cè)軟件對(duì)磁頭、盤(pán)片、馬達(dá)、電路的運(yùn)行情況、歷史記錄及預(yù)設(shè)的安全值進(jìn)行分析、比較。當(dāng)出現(xiàn)安全值范圍以外的情況時(shí),就會(huì)自動(dòng)向用戶發(fā)出警告。
1.2 S.M.A.R.T信息收集方式
S.M.A.R.T的信息收集有兩種方式,一種是在線收集方式(On-line),一種是離線收集方式(off-line)。在線收集方式,就是在硬盤(pán)在工作時(shí),硬盤(pán)自動(dòng)地實(shí)時(shí)或定時(shí)更新硬盤(pán)自身的S.M.A.R.T的數(shù)據(jù)。比如SCSI硬盤(pán),每4分鐘自動(dòng)更新S.M.A.R.T數(shù)據(jù),當(dāng)在4分鐘的周期里如硬盤(pán)健康狀態(tài)有異常,則會(huì)將主機(jī)提供告警信息。在線收集方式不會(huì)影響到硬盤(pán)的性能。
離線收集方式,就是在主機(jī)上通過(guò)相關(guān)檢測(cè)指令對(duì)硬盤(pán)進(jìn)行檢測(cè)。由于離線收集會(huì)讓硬盤(pán)進(jìn)行大量操作用以檢測(cè)健康狀態(tài),在一定程度上會(huì)造成對(duì)硬盤(pán)的讀寫(xiě)有一定的延遲,所以離線收集方式會(huì)對(duì)硬盤(pán)的性能有一定的下降。但由于當(dāng)前的硬盤(pán)性能和主機(jī)性能都較好,在實(shí)際使用過(guò)程中沒(méi)有明顯的體現(xiàn)。
2 smartmontools
2.1 smartmontools是什么
smartmontools是一種硬盤(pán)檢測(cè)工具,可以安裝在Windows和Linux操作系統(tǒng)上,在Windows或Linux操作系統(tǒng)運(yùn)行smartmontools,可以檢測(cè)硬盤(pán)的健康狀態(tài)。smartmontools主要由smartctl和smartd兩部分工具程序組成。可以認(rèn)為smartctl是離線收集,smartd是在線收集。
2.2 smartmontools參數(shù)的介紹
smartctl-a 查看S.M.A.R.T相關(guān)信息;
smartctl-s on 開(kāi)啟S.M.A.R.T功能;
smartctl-H 檢查硬盤(pán)健康狀態(tài);
smartctl-t short 后臺(tái)硬盤(pán)快速自檢;
smartctl-t long 后臺(tái)硬盤(pán)長(zhǎng)時(shí)間自檢;
smartctl-C-t short在前臺(tái)硬盤(pán)快速自檢;
smartctl-C-t long在前臺(tái)硬盤(pán)長(zhǎng)時(shí)間自檢;
smartctl-X中斷后臺(tái)硬盤(pán)自檢。
2.3 smartmontools的常用使用方法
(1)smartctl-i /dev/sda 顯示設(shè)備所有的SMART信息。
(2)smartctl-H /dev/sda 檢查硬盤(pán)健康狀態(tài)。
3 硬盤(pán)監(jiān)控程序的設(shè)計(jì)
當(dāng)前AirNet自動(dòng)化系統(tǒng)的操作系統(tǒng)版本為redhat5.8或redhat7.1,該兩個(gè)版本的操作系統(tǒng)都已經(jīng)安裝好smartmontools。
3.1 硬盤(pán)監(jiān)控程序的部署
(1)在SMC的/home/cdatc/AirNet/bin/disk_monitor目錄下新建disk_monitor.sh和alarm_displsy.sh兩個(gè)shell腳本程序,disk_monitor.sh為主程序,alarm_displsy.sh為告警顯示程序;
(2)在SMC的定時(shí)任務(wù)中添加disk_monitor.sh的定時(shí)任務(wù)。
3.2 disk_monitor.sh內(nèi)容如下
4 總結(jié)
該程序同樣也可部署在萊斯自動(dòng)化系統(tǒng)、ADS-B數(shù)據(jù)站等系統(tǒng)上,可移植性較高。通過(guò)該監(jiān)控程序的運(yùn)行,可以快速檢查硬盤(pán)的工作狀態(tài),提前發(fā)現(xiàn)設(shè)備隱患,安全隱患零容忍落到實(shí)處,推動(dòng)安全風(fēng)險(xiǎn)窗口前移,保障空管自動(dòng)化系統(tǒng)的持續(xù)運(yùn)行能力。
參考文獻(xiàn):
[1]360百科S.M.A.R.T(https://m.baike.so.com/doc/6778352-6994423.html).
[2]Smartmontools使用指(https://blog.csdn.net/lwprain/article/details/9819623).
[3]AirNet自動(dòng)化系統(tǒng)相關(guān)資料.
[4]HDD SMART-百度文庫(kù)(http://wenku.baidu.c).
[5]S.M.A.R.T技術(shù)(http://baike.baidu.com/view/158623.html).