阿不力米提·阿布都克力木
(中國(guó)民用航空新疆空中交通管理局空管中心氣象中心,新疆烏魯木齊 830016)
民航氣象數(shù)據(jù)庫(kù)系統(tǒng)是一套用于實(shí)現(xiàn)飛行氣象情報(bào)及氣象資料的交換、分析、處理、存儲(chǔ)等功能的信息系統(tǒng),包括通信子系統(tǒng)、數(shù)據(jù)庫(kù)子系統(tǒng)、信息處理子系統(tǒng)及相關(guān)網(wǎng)絡(luò)設(shè)施,是目前各空管系統(tǒng)氣象服務(wù)機(jī)構(gòu)用于開展氣象業(yè)務(wù)工作的重要裝備之一。
其中,民航氣象數(shù)據(jù)庫(kù)子系統(tǒng)擔(dān)負(fù)著管理和存儲(chǔ)氣象數(shù)據(jù)信息的任務(wù), 從而實(shí)現(xiàn)對(duì)氣象資料的有效存儲(chǔ)和快速檢索,在民用航空氣象服務(wù)保障中發(fā)揮了重要作用。隨著數(shù)據(jù)庫(kù)子系統(tǒng)對(duì)氣象數(shù)據(jù)的處理及存儲(chǔ)要求不斷增加,在業(yè)務(wù)運(yùn)行及氣象設(shè)備保障人員的維護(hù)監(jiān)控過程中,民航氣象數(shù)據(jù)庫(kù)系統(tǒng)發(fā)生了一起氣象資料不備份故障,如不及時(shí)發(fā)現(xiàn)和處理,將影響業(yè)務(wù)的正常運(yùn)行。
本文詳細(xì)介紹了一起氣象數(shù)據(jù)不備份故障事例,并通過實(shí)際案例分析,結(jié)合筆者實(shí)踐經(jīng)驗(yàn)及對(duì)故障長(zhǎng)期跟蹤,給出了故障問題的處理方法,為設(shè)備保障人員今后的設(shè)備維護(hù)和故障排查提供思路和參考。
如果數(shù)據(jù)庫(kù)不進(jìn)行氣象資料不歸檔,短期內(nèi)也許不會(huì)對(duì)業(yè)務(wù)造成較大的影響,但是如果長(zhǎng)時(shí)間不歸檔會(huì)對(duì)業(yè)務(wù)造成巨大的影響,主要包含:
(1)應(yīng)用庫(kù)表空間過大導(dǎo)致數(shù)據(jù)無法入庫(kù),目前應(yīng)用庫(kù)是保存3d,默認(rèn)是兩個(gè)表空間文件,當(dāng)數(shù)據(jù)增加到最大可擴(kuò)展存儲(chǔ)容量后,數(shù)據(jù)將無法入庫(kù)。
(2)長(zhǎng)時(shí)間資料不作歸檔清除,會(huì)造成數(shù)據(jù)表中數(shù)據(jù)大量增加,影響數(shù)據(jù)庫(kù)運(yùn)行和查詢效率。
(3)由于數(shù)據(jù)庫(kù)圖形文件沒有月份標(biāo)識(shí),當(dāng)應(yīng)用庫(kù)數(shù)據(jù)達(dá)到一個(gè)月以上時(shí)就會(huì)有兩個(gè)文件名一模一樣的文件,當(dāng)前端應(yīng)用查詢不嚴(yán)謹(jǐn)時(shí)有可能飛行文件或者圖形查詢會(huì)查出來上一個(gè)月的數(shù)據(jù)。
2017 年7 月26 日,值班期間檢查發(fā)現(xiàn)數(shù)據(jù)庫(kù)中氣象資料沒有正常歸檔,沒有將應(yīng)用庫(kù)中過期的資料轉(zhuǎn)移到歷史庫(kù)中,也沒有將歷史庫(kù)中過期的資料刪除。
(1)數(shù) 據(jù) 庫(kù)dmsserver 進(jìn) 程 每 天UTC18:10(北京時(shí)間凌晨2:10)調(diào)用expdp 命令,在/home/mhdbs/data/backup/20170726 目錄下形成dmp 文件,并打包成33 個(gè)zip 文件,一般40min 執(zhí)行完畢。
(2)出現(xiàn)異常后:/home/mhdbs/data/backup/2017 0726/形成表對(duì)應(yīng)的空目錄。如圖1 所示。
圖1 不正常歸檔留底(部分截圖)
圖2 日志信息
(3)故障的定位及精準(zhǔn)定位,離不開日志分析,日志通常分為三個(gè)層級(jí),第一層級(jí)為進(jìn)程類日志,第二層級(jí)為服務(wù)類日志,第三類層級(jí)為平臺(tái)類日志,分析日志,一般應(yīng)從第一層級(jí)逐級(jí)展開,如優(yōu)先查看進(jìn)程日志,進(jìn)程日志一般記錄進(jìn)程的活動(dòng),本列為dms 的日志,存放于/bin/log/dms/下;其次查看服務(wù)類日志,本列中服務(wù)類日志為oracle 數(shù)據(jù)庫(kù)的相關(guān)日志,數(shù)據(jù)庫(kù)日志文件記錄了數(shù)據(jù)庫(kù)的相關(guān)事務(wù)活動(dòng),包含警報(bào)、跟蹤和重做3 類日志,通過show parameter dump_dest;命令可以顯示日志路徑;第三層級(jí)為平臺(tái)日志,一般記錄平臺(tái)用戶相關(guān)的一些日志,如守護(hù)進(jìn)程、用戶登錄、定時(shí)任務(wù)等相關(guān)日志;應(yīng)當(dāng)從進(jìn)程日志開始逐層分析,根據(jù)本列的故障描述,優(yōu)先查看dms 相關(guān)日志和oracle 日志,查看相關(guān)日志文件及內(nèi)容顯示。如圖2 所示。
(4)如圖2 中的錯(cuò)誤描述所示,報(bào)故時(shí)間段正在使用expdp 進(jìn)行數(shù)據(jù)庫(kù)導(dǎo)出操作,為進(jìn)一步判斷故障原因,在shell 下執(zhí)行expdp 命令進(jìn)行了手動(dòng)排查,查看命令報(bào)錯(cuò)信息。如圖3 所示。
圖3 導(dǎo)出命令
(5)返回的錯(cuò)誤提示信息。如圖4 所示。
圖4 錯(cuò)誤信息
結(jié)合日志文件及系統(tǒng)返回的錯(cuò)誤提示信息,查閱相關(guān)文檔資料分析得知,民航氣象數(shù)據(jù)庫(kù)在用expdp 進(jìn)行備份導(dǎo)出時(shí)會(huì)在對(duì)應(yīng)用戶(userdbs)下自動(dòng)創(chuàng)建一個(gè)表名類似SYS_EXPORT_*_N 的表,其中*代表方案如FULL、SCHEMA、TABLE 等,N 一般是數(shù)字,如01、02 等形式,如果導(dǎo)出過程異常,諸如此類的表會(huì)遺留下來,則會(huì)占用用戶表空間,達(dá)到一定數(shù)量,會(huì)引起用戶表空間不足,會(huì)造成惡性循環(huán),使得expdp 數(shù)據(jù)泵job 異常終止,從而導(dǎo)致氣象資料備份失敗。
(1)清理dba_datapump_jobs 表。
(2)查詢生成清理DBA_DATAPUMP_JOBS 的SQL 語句,并復(fù)制生成的處理SQL 語句,對(duì)表DBA_DATAPUMP_JOBS 進(jìn)行清理,查詢結(jié)果總共99 條記錄。
(3)清理后再次查詢確認(rèn)DBA_DATAPUMP_JOBS是否清理完全。
(4)清理后再運(yùn)行備份命令,系統(tǒng)沒有報(bào)錯(cuò),資料備份確認(rèn)正常。
民航氣象服務(wù)是保證航空安全的重要前提,確保民航氣象數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)穩(wěn)定、安全、可靠是設(shè)備保障人員工作的重中之重。本文通過分析民航氣象數(shù)據(jù)庫(kù)系統(tǒng)中的異?,F(xiàn)象,經(jīng)采取對(duì)相應(yīng)表的操作,數(shù)據(jù)庫(kù)系統(tǒng)資料歸檔功能已恢復(fù)正常。在日常運(yùn)行中,設(shè)備保障人員及時(shí)分析系統(tǒng)日志文件各種提示錯(cuò)誤信息,有利于快速判斷故障點(diǎn),分析排查故障原因。通過此案例也告訴我們,設(shè)備出現(xiàn)故障之后,數(shù)據(jù)庫(kù)系統(tǒng)日志文件中記錄的任何信息都是不容錯(cuò)過的,通過查看日志可將系統(tǒng)運(yùn)行風(fēng)險(xiǎn)降到最低,從而保證氣象設(shè)備的正常運(yùn)轉(zhuǎn),有效提高設(shè)備的運(yùn)行質(zhì)量。