宋柏芬,吳顯鳳,孟繁舉
(大慶鉆探工程公司物探一公司研究院 黑龍江 大慶 163357)
IBM集群系統(tǒng)是我院2009年引進(jìn)的一套高性能地震資料處理運(yùn)算系統(tǒng),它包括512個(gè)計(jì)算節(jié)點(diǎn),24個(gè)數(shù)輸入輸出節(jié)點(diǎn),6個(gè)存儲(chǔ)節(jié)點(diǎn)和5個(gè)管理節(jié)點(diǎn)。在管理節(jié)點(diǎn)上安裝CGG ,GeoEast等2套應(yīng)用軟件,擔(dān)負(fù)著地震資料處理生產(chǎn)任務(wù),經(jīng)過近十年的生產(chǎn)運(yùn)行,集群系統(tǒng)老化,故障率逐步升高,就GeoEast服務(wù)器即dqhm04管理節(jié)點(diǎn)而言,擔(dān)負(fù)著VSP垂直地震剖面處理系統(tǒng)和地震資料處理系統(tǒng)兩大功能,一旦出現(xiàn)故障勢(shì)必影響生產(chǎn)任務(wù)的正常運(yùn)行。
故障現(xiàn)象:安裝Geoeast 軟件的管理節(jié)點(diǎn)dqhm04服務(wù)器突然就能啟動(dòng)了,當(dāng)試圖進(jìn)入系統(tǒng)盤管理程序也無法進(jìn)入,故障現(xiàn)象顯示如圖1所示:
圖1 dqhm04服務(wù)器啟動(dòng)信息
針對(duì)上述故障現(xiàn)象,首先,我們查找相關(guān)維修資料,并根據(jù)以往的維修經(jīng)驗(yàn),初步判斷是該管理節(jié)點(diǎn)的系統(tǒng)盤或者是磁盤控制器壞了,我們采取由淺入深的辦法一步一步查找,先是把dqhm04節(jié)點(diǎn)的系統(tǒng)盤,安裝在原來的用于HP XP2400磁盤子系統(tǒng)管理的域名服務(wù)器dqfm02上,系統(tǒng)能夠正常啟動(dòng),判斷不是系統(tǒng)盤本身的原因;這時(shí)又把dqfm02上的系統(tǒng)盤放到dqhm04上,系統(tǒng)仍然出現(xiàn)上圖所示的故障現(xiàn)象,此時(shí)我們可以很肯定的判斷是磁盤控制器故障了,打開機(jī)箱發(fā)現(xiàn)磁盤控制器是集成在主板上的,因此無法單獨(dú)更換磁盤控制器,只能把dqhm04節(jié)點(diǎn)的系統(tǒng)磁盤移到dqfm02節(jié)點(diǎn)上,因?yàn)槲覀冎繥eoEast軟件是安裝在sdb1上,即外置盤上,所以必須把dqhm04節(jié)點(diǎn)的外置盤也移到dqfm02節(jié)點(diǎn)上,不用重新構(gòu)建RAID1(內(nèi)置盤是RAID1)和RAID5(外置盤是RAID5)讓磁盤控制器自動(dòng)識(shí)別磁盤[1,2]。
磁盤配置完成后,重新開啟。這時(shí)系統(tǒng)啟動(dòng)很慢,因?yàn)橐匦屡渲糜布?,系統(tǒng)自動(dòng)配置硬件完成后,發(fā)現(xiàn)此時(shí)的dqfm02節(jié)點(diǎn)和所有網(wǎng)段任何網(wǎng)都是不通的,而且dqfm02節(jié)點(diǎn)是HP XP2400磁盤管理的域名服務(wù)器,只配置一個(gè)168的存儲(chǔ)網(wǎng)段,并且這個(gè)存儲(chǔ)網(wǎng)還是用eth1和eth2綁定的,而dqhm04系統(tǒng)里定義了三個(gè)網(wǎng)段155(管理網(wǎng)段eth0),153(計(jì)算網(wǎng)段eth1),159(外網(wǎng)eth2),并且這三個(gè)網(wǎng)段在交換機(jī)上有屬于不同的VLAN(交換機(jī)上的虛擬地址池),我們不能簡單把dqfm02網(wǎng)口定義三個(gè)地址,我們查看其它管理節(jié)點(diǎn)的網(wǎng)絡(luò)地址確保這三個(gè)網(wǎng)口必須和其他管理節(jié)點(diǎn)的網(wǎng)口網(wǎng)絡(luò)地址定義的規(guī)律相同,只有這樣才能保證不同的網(wǎng)段屬于不同的VLAN,而且還能實(shí)現(xiàn)和系統(tǒng)其他節(jié)點(diǎn)相通,具體定義如下:
vi /etc/sysconfig/network-script/ifcfg-eth0
DEVICE=eth0
ONBOOT=yes
TYPE=Ethernet
NETMASK=255.255.0.0
IPADDR=155.10.100.204
USERCTL=no
IPV6INIT=no
vi /etc/sysconfig/network-script/ifcfg-eth1
DEVICE=eth1
BOOTPROTO=none
TYPE=Ethernet
ONBOOT=yes
IPADDR=153.10.100.4
NETMASK=255.255.0.0
USERCTL=no
IPV6INIT=no
vi /etc/sysconfig/network-script/ifcfg-eth2
DEVICE=eth2
ONBOOT=yes
TYPE=Ethernet
ONBOOT=yes
IPADDR=153.10.100.4
NETMASK=255.255.0.0
USERCTL=no
IPV6INIT=no
配置完網(wǎng)口之后,繼續(xù)配置網(wǎng)關(guān),具體操作如下:
vi /etc/yp.conf
domain dq2nis server dqhm01
所有網(wǎng)絡(luò)配置完成后,重啟機(jī)器。當(dāng)啟動(dòng)正常后我們用如下的命令查看網(wǎng)絡(luò)進(jìn)程是否正常。
# service network status
#serviceypbind status
當(dāng)這些進(jìn)程都起來后,此時(shí)已經(jīng)完成對(duì)該服務(wù)器系統(tǒng)的恢復(fù)[3]。
根據(jù)實(shí)際生產(chǎn)的需要對(duì)GeoEast軟件的有關(guān)用戶進(jìn)行遷移配置。具體操作步驟如下:
GeoEast軟件原來配置在IBM集群高機(jī)柜計(jì)算節(jié)點(diǎn)上,VSP和CGG處理軟件作業(yè)經(jīng)常同時(shí)應(yīng)用這些計(jì)算節(jié)點(diǎn),這樣同一個(gè)計(jì)算節(jié)點(diǎn)既有VSP又有CGG處理作業(yè),經(jīng)常多個(gè)作業(yè)疊加,節(jié)點(diǎn)負(fù)荷過重,導(dǎo)致作業(yè)運(yùn)行很慢,經(jīng)過權(quán)衡考慮分析??紤]到IBM集群矮機(jī)柜工作量相對(duì)較少,在矮機(jī)柜上增加了10個(gè)計(jì)算節(jié)點(diǎn),把VSP這部分作業(yè)從高機(jī)柜分離出來,讓VSP用戶的作業(yè)在矮機(jī)柜上運(yùn)行,既解決工作量的平衡,又方便了用戶,也不會(huì)使作業(yè)運(yùn)行的很慢[4]。
系統(tǒng)配置完成后,經(jīng)與GeoEast軟件開發(fā)商溝通后,又重新申請(qǐng)了10個(gè)節(jié)點(diǎn)的許可,交付處理用戶使用,當(dāng)用戶啟動(dòng)GeoEast軟件時(shí),出現(xiàn)如下信息:
[geoeast@l4b2n05~]$geoeast &
[1] 22803
[geoeast@l4b2n05~]$
The expiration date of GSPS’s license is
GeoComAgent is ready!
153.99.0.4
153.99.0.5
Please wait for opening projects ...
Openpeojects OK!(time: 48ms)
從啟動(dòng)信息看并沒有看到任何錯(cuò)誤,當(dāng)點(diǎn)開View Jobs頁面時(shí),如圖2所示,相應(yīng)界面是空的。
打開Work Flow Menu 里的Add New Flow窗口也是空的,如圖3所示。
圖2 瀏覽作業(yè)示意圖
圖3 作業(yè)流程菜單
重啟GeoEast軟件信息,并沒有看到什么故障信息,再進(jìn)一步進(jìn)行排查,首先檢查GeoEast軟件相關(guān)進(jìn)程,根據(jù)/etc/rc.d/rc.local
dqhm04# more /etc/rc.d/rc.local
export GEOEAST=/gssoft/GEOEAST/geoeast2.5.3
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartOracle
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartGeoCom
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartGJSS
/gssoft/GEOEAST/geoeast2.5.3/bin/gsm/rcstartTMS
文件定義的相關(guān)進(jìn)程,逐個(gè)檢查都是正常的,檢查用戶帳號(hào)也沒問題,再檢查用戶所用的數(shù)據(jù)盤也是正常的,經(jīng)過反復(fù)查找,當(dāng)檢查許可證文件時(shí),發(fā)現(xiàn)新加進(jìn)去的計(jì)算節(jié)點(diǎn)沒在里面,問題終于找到了,于是把新增的節(jié)點(diǎn)再都加進(jìn)去,重新啟動(dòng)管理節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn),交給處理用戶做作業(yè),這時(shí)系統(tǒng)運(yùn)行正常,啟動(dòng)作業(yè)流程菜單時(shí)如圖4所示[5]:
圖4 作業(yè)流程菜單
為了方便用戶,同時(shí)也為解決以前遺留的問題,原來VSP用戶應(yīng)用GeoEast和CGG用戶軟件時(shí)需要兩個(gè)環(huán)境變量的帳號(hào),用戶操作過程較為麻煩,于是又進(jìn)一步對(duì)VSP用戶的HOME目錄編譯一個(gè)如下所示的腳本文件:
cd /home/vsp***/
vi .shrc
if ( `hostname` == l4b2n12 || `hostname` == l4b2n13 || `hostname` == l4b2n14 ) then
source /cgg/jobmgr/init/gvt_cshrc
else
setenv GEOEAST /gssoft/GEOEAST/geoeast2.5.3
source $GEOEAST/configs/.cshrc
endif
#echo $HOSTNAME
加入這個(gè)文件之后,這樣用一個(gè)統(tǒng)一的賬號(hào)就可以既能應(yīng)用GeoEast軟件,又能應(yīng)用CGG軟件,對(duì)用戶來說,省去經(jīng)常更換用戶賬號(hào)操作的麻煩,大大方便了操作處理過程,同時(shí)也提高了生產(chǎn)效率[6,7]。
通過這兩次故障分析和總結(jié),對(duì)在系統(tǒng)盤盤控故障以及GeoEast許可證故障的查找和排除積累了一定的經(jīng)驗(yàn)和基礎(chǔ),再出現(xiàn)這樣類似的問題時(shí),將會(huì)很快找到原因并給與解決,為油田地震資料的處理解釋生產(chǎn)贏得寶貴的時(shí)間。針對(duì)VSP用戶應(yīng)用GeoEast軟件和CGG軟件環(huán)境變量的的優(yōu)化,使VSP用戶應(yīng)用GeoEast地震應(yīng)用軟件和CGG處理軟件更方便靈活,同時(shí)對(duì)這兩套軟件有了更深刻的理解,提高處理過程的技術(shù)水平,為今后更好地為處理解釋生產(chǎn)的保駕護(hù)航打下堅(jiān)實(shí)的基礎(chǔ),提高了解決與處理實(shí)際問題的能力。