周 娜1) 李永紅2) 李曉京1) 張 蕾1)
?
地震行業(yè)Oracle數(shù)據(jù)庫維護(hù)現(xiàn)狀分析及對(duì)策
周 娜李永紅李曉京張 蕾
1)中國(guó)地震臺(tái)網(wǎng)中心,北京 100045 2)山東省地震局,濟(jì)南 250014
地震行業(yè)Oracle數(shù)據(jù)庫系統(tǒng)支撐了信息、前兆、應(yīng)急、日常辦公等多種業(yè)務(wù)應(yīng)用,是業(yè)務(wù)運(yùn)行的基礎(chǔ)保障,因此分析數(shù)據(jù)庫運(yùn)行維護(hù)的狀況,并提出可行性建議具有重要的意義。本文總結(jié)了近4年來Oracle數(shù)據(jù)庫運(yùn)行維護(hù)過程中出現(xiàn)的問題,歸納了影響數(shù)據(jù)庫運(yùn)行的各種因素,提供了數(shù)據(jù)庫運(yùn)行維護(hù)過程中的關(guān)鍵點(diǎn),對(duì)于指導(dǎo)數(shù)據(jù)庫的穩(wěn)定、健康、可靠運(yùn)行具有一定的參考意義。
地震 數(shù)據(jù)庫 維護(hù)現(xiàn)狀 對(duì)策
在整個(gè)IT產(chǎn)品的壽命周期中,運(yùn)營(yíng)階段的成本占了整個(gè)成本的約70%—80%(其余的成本花費(fèi)在產(chǎn)品開發(fā)和采購(gòu)上),而運(yùn)行維護(hù)作為運(yùn)行服務(wù)的重要組成部分,已成為人們關(guān)心的重要課題(李淑娟等,2008)。地震行業(yè)Oracle數(shù)據(jù)庫系統(tǒng)支撐了信息、前兆、應(yīng)急、日常辦公等多種應(yīng)用,已成為地震業(yè)務(wù)、政務(wù)系統(tǒng)運(yùn)行的基礎(chǔ)保障。數(shù)據(jù)庫系統(tǒng)的運(yùn)行水平直接決定了業(yè)務(wù)系統(tǒng)的運(yùn)行質(zhì)量。本文總結(jié)了近4年來Oracle數(shù)據(jù)庫運(yùn)行維護(hù)過程中出現(xiàn)的問題,歸納了影響數(shù)據(jù)庫運(yùn)行的各種因素,提供了數(shù)據(jù)庫運(yùn)行維護(hù)過程中的關(guān)鍵點(diǎn),對(duì)指導(dǎo)數(shù)據(jù)庫的穩(wěn)定、健康、可靠運(yùn)行可提供參考。
目前,Oracle數(shù)據(jù)庫系統(tǒng)主要集中分布在國(guó)家中心、41個(gè)區(qū)域中心、33個(gè)應(yīng)急中心、300個(gè)縣節(jié)點(diǎn)、300個(gè)臺(tái)站,其中雙機(jī)系統(tǒng)79套,單機(jī)系統(tǒng)600套。而支撐行業(yè)數(shù)據(jù)庫運(yùn)行的硬件平臺(tái)多樣,部署方式復(fù)雜,具體表現(xiàn)在以下幾個(gè)方面。
(1)數(shù)據(jù)庫系統(tǒng)的部署環(huán)境多樣復(fù)雜。雙機(jī)數(shù)據(jù)庫IT環(huán)境涉及到IBM服務(wù)器、曙光服務(wù)器和SUN服務(wù)器系統(tǒng),以及數(shù)據(jù)存儲(chǔ)系統(tǒng)EMC與HDS。
(2)數(shù)據(jù)庫系統(tǒng)的技術(shù)結(jié)構(gòu)復(fù)雜,管理難度高。系統(tǒng)大多采用Unix和Linux系統(tǒng),數(shù)據(jù)庫使用Oracle 10g RAC,存儲(chǔ)使用Oracle ASM管理。
(3)數(shù)據(jù)庫系統(tǒng)地域分散。主要集中分布在國(guó)家中心、41個(gè)區(qū)域中心、33個(gè)應(yīng)急中心、300個(gè)縣節(jié)點(diǎn)和300個(gè)臺(tái)站。
(4)系統(tǒng)管理分散。各級(jí)節(jié)點(diǎn)自行管理維護(hù)。在部分節(jié)點(diǎn)內(nèi)部,服務(wù)器和操作系統(tǒng)一般按照業(yè)務(wù)應(yīng)用分多個(gè)運(yùn)行維護(hù)小組,各自管理維護(hù)。
以上特點(diǎn)決定了地震行業(yè)數(shù)據(jù)庫運(yùn)行維護(hù)是一個(gè)復(fù)雜而艱巨的任務(wù),需要總結(jié)多年來數(shù)據(jù)庫運(yùn)維過程中出現(xiàn)的問題,制定合理的運(yùn)行維護(hù)策略,以保證數(shù)據(jù)庫系統(tǒng)的正常運(yùn)行。
為了更好地分析數(shù)據(jù)庫運(yùn)行維護(hù)過程中出現(xiàn)的問題,作者分析整理了近4年來數(shù)據(jù)庫運(yùn)行維護(hù)過程中出現(xiàn)的各類問題,其中系統(tǒng)故障6類、存儲(chǔ)故障5類、網(wǎng)絡(luò)故障3類、ASM故障11類、CRS故障8類、數(shù)據(jù)庫本身故障12類及其它故障4類,具體故障如表1所示。
表1 數(shù)據(jù)庫故障分析一覽表
續(xù)表
故障大類故 障 小 類節(jié) 點(diǎn) ASM故障(8)asm慢問題青海信息網(wǎng)絡(luò)系統(tǒng) (9)建asm的時(shí)候點(diǎn)create new 沒有反映 (10)asm歸檔滿導(dǎo)致數(shù)據(jù)無法登陸多省信息、應(yīng)急平臺(tái) (11)其它asm相關(guān)問題咨詢 CRS故障(1)crs重啟問題云南等 (2)suse10crs不能自動(dòng)重啟問題suse平臺(tái) (3)suse10vipca問題 (4)crs狀態(tài)offline (5)crs狀態(tài)Abort(coredump)多省應(yīng)急系統(tǒng) (6)安裝ORACLE集群CRS,運(yùn)行root.sh時(shí),報(bào)錯(cuò) [ CSSCLNT][1]clsssInitNative: connect failed, rc 9 failure at final check of oracle crs stack.10北京等多省 (7)crs安裝 Failure at final check of Oracle CRS stack. 10廣西 (8)crs hang問題多省應(yīng)急平系統(tǒng) 6.?dāng)?shù)據(jù)庫故障(1)ORA-00600: internal error code, arguments: [qertbFetchByRowID], [], [], [], [], [], [], []多省應(yīng)急系統(tǒng) (2)表空間不能刪除 (3)ORA-27102 out of memory (4)ORA-27123: unable to attach to shared memory segment IBM AIX RISC System/6000 Error: 13: Permission denied重慶應(yīng)急 (5)opt滿多省信息應(yīng)急系統(tǒng) (6)前兆suse10升級(jí)問題寧夏 (7)表空間數(shù)據(jù)文件建到本地導(dǎo)致數(shù)據(jù)不正常多省信息應(yīng)急系統(tǒng) (8)數(shù)據(jù)庫登不上,已超過最大連接數(shù)天津 (9)ORA-00600: internal error code, arguments: [3705], [1], [1], [2], [8], [], [], []海南 (10)ORA-00205: error in identifying control file, check alert log for more info天津 (11)ORA-00600: internal error code, arguments: [kccchb_3], [10346], [10345], [10345], [], [], [], []重慶應(yīng)急 (12)其它問題咨詢多省 7.其它故障(1)機(jī)房異常斷電導(dǎo)致數(shù)據(jù)問題多省 (2)網(wǎng)絡(luò)交換機(jī)故障導(dǎo)致數(shù)據(jù)問題多省 (3)更換存儲(chǔ)導(dǎo)致數(shù)據(jù)問題多省 (4)其它不正常操作導(dǎo)致數(shù)據(jù)問題多省
進(jìn)一步對(duì)表1中7大類故障進(jìn)行分析,可以看出存在以下問題:
(1)操作系統(tǒng)平臺(tái)存在兼容性問題
如部分省局?jǐn)?shù)據(jù)庫運(yùn)行在曙光服務(wù)器上,操作系統(tǒng)為SUSE,操作系統(tǒng)與后臺(tái)存儲(chǔ)系統(tǒng)之間的銜接容易出故障,如:表1中的系統(tǒng)故障(2)和(3)。而采用IBM和SUN硬件平臺(tái)的節(jié)點(diǎn)數(shù)據(jù)庫系統(tǒng)就沒有類似問題的發(fā)生。
(2)存儲(chǔ)系統(tǒng)平臺(tái)存在兼容性問題
如應(yīng)急數(shù)據(jù)庫系統(tǒng)部署在HDS之上,HDS經(jīng)常容易發(fā)生數(shù)據(jù)壞塊的情況,造成數(shù)據(jù)庫故障,如:表1中的存儲(chǔ)故障(3)、(4);ASM故障的(1)、(2);CRS故障的(5)、(8)等。
(3)日常維護(hù)存在問題
在操作系統(tǒng)和存儲(chǔ)系統(tǒng)軟硬件平臺(tái)不出現(xiàn)問題的情況下,需要維護(hù)人員每天、每周和每月定時(shí)做很多工作,如:查看磁盤空間使用情況、數(shù)據(jù)庫告警日志等。而目前缺乏統(tǒng)一的規(guī)章制度與規(guī)范,督促維護(hù)人員完成這些日常工作,維護(hù)工作的好壞基本上取決于維護(hù)人員的責(zé)任心。再者,運(yùn)行維護(hù)人員的水平較低,一些基本的數(shù)據(jù)庫維護(hù)工作難以很好的完成。如果有一套健全的規(guī)章制度與規(guī)范,同時(shí)還有一批具有較高數(shù)據(jù)庫運(yùn)行維護(hù)經(jīng)驗(yàn)的管理人員,那么上述7大類故障中的大多數(shù)故障是可以提前預(yù)防的。
(4)數(shù)據(jù)庫管理和維護(hù)缺乏科學(xué)依據(jù)
缺乏一套有效的數(shù)據(jù)庫監(jiān)控系統(tǒng)來對(duì)數(shù)據(jù)庫運(yùn)行狀態(tài)的各關(guān)鍵指標(biāo)信息進(jìn)行數(shù)據(jù)搜集和統(tǒng)計(jì),完成如日常性能監(jiān)控、每月性能評(píng)估、數(shù)據(jù)庫審計(jì)等人工工作量大,難以完成的工作,將數(shù)據(jù)庫隱患消滅在萌芽狀態(tài)(秦士兵,2012)。
而在數(shù)據(jù)庫運(yùn)行維護(hù)中凸顯出來的主要問題有:
(1)運(yùn)行維護(hù)管理制度不健全。目前Oracle數(shù)據(jù)庫管理被動(dòng)、分散、管理規(guī)范不完善,如:缺乏統(tǒng)一的備份與管理策略、安全策略、管理流程等。
(2)運(yùn)行維護(hù)人員技術(shù)水平較低。相對(duì)于專業(yè)的Oracle數(shù)據(jù)庫運(yùn)行維護(hù)人員而言,目前行業(yè)內(nèi)的技術(shù)人員在數(shù)據(jù)庫方面的運(yùn)行維護(hù)技能水平較低,技術(shù)人員相對(duì)不固定。雖然技術(shù)人員通過了每年的技術(shù)培訓(xùn),但在提高運(yùn)行維護(hù)的能力方面還有待進(jìn)一步提高。
(3)運(yùn)行維護(hù)技術(shù)平臺(tái)亟待建立。缺乏數(shù)據(jù)庫基礎(chǔ)運(yùn)行環(huán)境(操作系統(tǒng)、存儲(chǔ)系統(tǒng)和網(wǎng)絡(luò))的統(tǒng)一故障預(yù)警及故障監(jiān)測(cè)機(jī)制。管理員對(duì)系統(tǒng)故障的反應(yīng)速度無法提高,一般是在出現(xiàn)問題以后才進(jìn)行查找及處理,難以充分保障關(guān)鍵業(yè)務(wù)系統(tǒng)的可用性,無法做到“主動(dòng)式”系統(tǒng)管理。
針對(duì)數(shù)據(jù)庫運(yùn)行維護(hù)過程中出現(xiàn)的問題,應(yīng)該從運(yùn)行維護(hù)的組織架構(gòu)、流程制度規(guī)范、技術(shù)支撐平臺(tái)(蔣曉玲等,2012)等方面著手,以求提高行業(yè)數(shù)據(jù)庫的運(yùn)行維護(hù)水平和能力。
(1)完善行業(yè)數(shù)據(jù)庫運(yùn)行管理制度
以提高數(shù)據(jù)庫運(yùn)行水平和管理能力為目標(biāo),建立一套完整的流程管理規(guī)范,同時(shí)結(jié)合必要的工具管理軟件,使主機(jī)、存儲(chǔ)和數(shù)據(jù)庫系統(tǒng)得到責(zé)任保障,保證數(shù)據(jù)庫系統(tǒng)連續(xù)穩(wěn)定運(yùn)行。
(2)加強(qiáng)人員培訓(xùn)
一般來說,地震行業(yè)比較注重硬件平臺(tái)建設(shè),而對(duì)流程和人員的軟平臺(tái)建設(shè)有所忽略。由于當(dāng)前人員的技術(shù)水平還較低,再加之相關(guān)培訓(xùn)的不足,因此解決實(shí)際問題的能力和效率較低。為此需要開展相關(guān)的技術(shù)培訓(xùn),以提高地震系統(tǒng)數(shù)據(jù)庫的運(yùn)行和維護(hù)技能。
(3)建立數(shù)據(jù)庫運(yùn)行維護(hù)技術(shù)支撐平臺(tái)
應(yīng)建立數(shù)據(jù)庫基礎(chǔ)運(yùn)行環(huán)境(操作系統(tǒng)、存儲(chǔ)系統(tǒng)和網(wǎng)絡(luò))的統(tǒng)一故障預(yù)警及故障監(jiān)測(cè)機(jī)制,由過去的“被動(dòng)式”管理轉(zhuǎn)變?yōu)椤爸鲃?dòng)式”管理,以提高數(shù)據(jù)庫管理人員對(duì)系統(tǒng)故障的反應(yīng)速度,保障關(guān)鍵業(yè)務(wù)系統(tǒng)的可用性。
(4)建立數(shù)據(jù)庫運(yùn)行維護(hù)知識(shí)庫
開展數(shù)據(jù)庫知識(shí)轉(zhuǎn)移工作,建立一套持續(xù)機(jī)制,確保維護(hù)知識(shí)和技能的傳承。將數(shù)據(jù)庫運(yùn)行維護(hù)中的每次事件、故障或者問題解決過程中所獲得的解決方法和維護(hù)經(jīng)驗(yàn)都記錄下來,建立一個(gè)知識(shí)庫,以提高對(duì)出現(xiàn)的事件及問題的處理效率。
Oracle數(shù)據(jù)庫系統(tǒng)的運(yùn)行維護(hù)是一個(gè)需要長(zhǎng)期面對(duì)的研究課題,應(yīng)結(jié)合IT行業(yè)運(yùn)行維護(hù)的相關(guān)管理理論,進(jìn)行不斷的開發(fā)和完善。本文僅針對(duì)目前存在的問題提出了一些方向上的解決辦法。在未來的發(fā)展中,還需要將成熟的管理理論與具體的需求及目標(biāo)結(jié)合起來,以探求出解決具體問題的方案。
蔣曉玲,林鐘靈,2012. 基于ITIL的油氣田信息系統(tǒng)運(yùn)行維護(hù)體系的構(gòu)建——以中國(guó)石油西南油氣田為例. 天然氣工業(yè),32(s1):162—164.
李淑娟,趙澤宇,宓詠,2008. 信息化校園應(yīng)用的運(yùn)維監(jiān)控保障研究. 實(shí)驗(yàn)技術(shù)與管理,25(8):11—14.
秦士兵,2012. 電力企業(yè)信息系統(tǒng)中Oracle數(shù)據(jù)庫運(yùn)維管理. 中國(guó)新技術(shù)新產(chǎn)品,21:41—42.
Analysis of Problems in Operation and Maintenance of Oracle Earthquake Database and Their Resolutions
Zhou Na, Li Yonghong, Liu Xiaojingand Zhang Lei
1) China Earthquake Networks Center,Beijing 100045, China 2) Earthquake Administration of Shandong Province, Jinan 250014, China
The Oracle earthquake database system provides a support to many earthquake applications, such as earthquake information, precursor, emergency response and related daily office work. It is very significant to analyze of operation status and to keep good maintenance of Oracle seismic database. In this article, we collected the problems occurring during operation and maintenance of Oracle earthquake database in the past 4 years and summarized the possible factors resulting in these problems. We then propose some suggestions to resolve these problems. This work provides a guideline for the stability, health and reliability of the operation of the earthquake database.
Earthquake database; Maintaining status; Strategy
中國(guó)地震臺(tái)網(wǎng)中心青年基金項(xiàng)目資助
2012-12-23
周娜,女,生于1978年。中國(guó)地震臺(tái)網(wǎng)中心信息網(wǎng)絡(luò)部工程師。主要從事計(jì)算機(jī)網(wǎng)絡(luò)維護(hù)、數(shù)據(jù)庫管理等方面的工作。E-mail:zhouna@seis.ac.cn