人們對(duì)飛速前進(jìn)的互聯(lián)網(wǎng)生活已經(jīng)習(xí)以為常,很難意識(shí)到這樣一個(gè)真相——僅僅一兩次惡意或無(wú)意的破壞發(fā)生后,你眨眼就可以回到蒙昧?xí)r代。
互聯(lián)網(wǎng)公司常常將資源集中于高速發(fā)展的業(yè)務(wù),而忽略了在安全方面的投入。對(duì)于從事互聯(lián)網(wǎng)金融的公司,這是個(gè)致命的缺陷。
南方周末記者 劉志毅 謝鵬
發(fā)自廣州、北京
從2015年5月27日下午開(kāi)始,一直到5月29日上午,你很可能接連遭遇到這樣三件倒霉透頂?shù)氖拢褐Ц秾毥Y(jié)不了賬;攜程宕機(jī)了;眼看著大盤(pán)暴跌,股票軟件卻賣(mài)不了股票。
先是你去超市里購(gòu)物,以為打開(kāi)手機(jī)里的支付寶就能付款,當(dāng)你結(jié)賬的時(shí)候,收銀員卻說(shuō)支付寶這會(huì)用不了,可是你又沒(méi)有帶錢(qián)包,最后只能空著手回家。
第二天早上你要出差,打開(kāi)手機(jī)里的攜程客戶(hù)端,發(fā)現(xiàn)用不了,打開(kāi)電腦登錄攜程官網(wǎng),還是登不上。這天下午,中國(guó)A股暴跌超過(guò)6%。
到了第三天,股市早盤(pán)一度暴跌4個(gè)點(diǎn),你打算把股票賣(mài)了,卻發(fā)現(xiàn)你的證券軟件無(wú)法交易。公開(kāi)報(bào)道顯示,招商證券、國(guó)泰君安和國(guó)金證券等股票軟件一度出現(xiàn)無(wú)法交易現(xiàn)象。
人們對(duì)飛速前進(jìn)的互聯(lián)網(wǎng)生活已經(jīng)習(xí)以為常,很難意識(shí)到這樣一個(gè)真相——僅僅一兩次惡意或無(wú)意的破壞發(fā)生后,你眨眼就可以回到蒙昧?xí)r代。
“挖斷”支付寶
“如果是真的做到了異地多活,應(yīng)當(dāng)是分鐘級(jí)別的切換。兩個(gè)小時(shí)已經(jīng)足夠拷貝一個(gè)數(shù)據(jù)庫(kù)的備份,然后找一個(gè)新機(jī)房重新開(kāi)啟業(yè)務(wù)了?!?/p>
2015年5月27日17時(shí)左右,擁有數(shù)億用戶(hù)的支付寶被部分用戶(hù)反映,服務(wù)突然無(wú)法正常使用。
5月27日22點(diǎn)37分,支付寶在其官方微博上發(fā)布聲明稱(chēng),本次事故由杭州一主要機(jī)房的光纜被市政施工挖斷所造成。南方周末記者獲得的一份蓋有“中國(guó)電信杭州分公司”公章的說(shuō)明函顯示,此次市政施工未通知電信公司,頂管施工導(dǎo)致了“四條大對(duì)數(shù)光纜中斷”,造成了阿里巴巴公司的業(yè)務(wù)受到影響。
到19時(shí)左右,支付寶的服務(wù)恢復(fù)正常。事實(shí)上,在服務(wù)恢復(fù)正常的時(shí)候,被挖斷的線(xiàn)路還未修復(fù)完畢。上述說(shuō)明函顯示,一直到28日凌晨3點(diǎn)57分,光纜才陸續(xù)搶通。南方周末記者就事故修復(fù)過(guò)程咨詢(xún)支付寶內(nèi)部的多位技術(shù)人員,對(duì)方表示,無(wú)法提供更多的技術(shù)細(xì)節(jié)。
一家國(guó)有銀行的信息部門(mén)人士對(duì)南方周末記者表示,對(duì)于支付寶事件一種可能的推測(cè)是,連接數(shù)據(jù)中心的雙線(xiàn)中的一條線(xiàn)被破壞后,原有的容量對(duì)僅剩的一條線(xiàn)產(chǎn)生極大壓力,于是“擠爆了”支付寶的有效傳輸通道。如果剩下的一條傳輸線(xiàn)路中突增的服務(wù)請(qǐng)求不能被合理分發(fā)到所有服務(wù)器中,部分壓力過(guò)大的服務(wù)器就有可能宕機(jī)、停擺。剩下的就是滾雪球效應(yīng)了:尚未宕機(jī)的服務(wù)器接到越來(lái)越多的未處理請(qǐng)求,壓力逐漸變大而接連發(fā)生宕機(jī)。
雙線(xiàn)架構(gòu)是一般金融機(jī)構(gòu)傳輸信息的基本架構(gòu),兩條通路的布置方向和位置還必須互相遠(yuǎn)離,例如一條線(xiàn)從南出,另一條線(xiàn)就得從北出,甚至這兩條通信線(xiàn)路還要來(lái)自?xún)蓚€(gè)相互獨(dú)立的運(yùn)營(yíng)商,以充分規(guī)避風(fēng)險(xiǎn)。
網(wǎng)絡(luò)上的段子手們?cè)俅蔚谝粫r(shí)間發(fā)聲:“什么互聯(lián)網(wǎng)+、大數(shù)據(jù)、云計(jì)算,都頂不住傳統(tǒng)行業(yè)一鏟子。”
支付寶官方在回答公眾可能關(guān)心的問(wèn)題時(shí),用到一個(gè)關(guān)鍵詞“異地多活”。這也被業(yè)內(nèi)人士稱(chēng)為“分布式多活”,即在不同的地理空間分布著多個(gè)數(shù)據(jù)中心,一般情況下彼此地位均等,協(xié)同工作,并行提供服務(wù);而在某個(gè)中心發(fā)生故障的情況下,其他數(shù)據(jù)中心可以正常運(yùn)行并對(duì)關(guān)鍵業(yè)務(wù)或全部業(yè)務(wù)實(shí)現(xiàn)接管,互為備份,實(shí)現(xiàn)用戶(hù)的“故障無(wú)感知”。
但此次支付寶的部分用戶(hù)明顯對(duì)故障有感知,“異地多活”的救場(chǎng)似乎還未達(dá)到支付寶想要的最理想狀態(tài)。
其在官方聲明中也說(shuō),“作為一個(gè)金融系統(tǒng),對(duì)切換中的數(shù)據(jù)與資金安全性要求極高,因此切換速度上沒(méi)有做到更快,后面我們會(huì)不斷提升切換速度。但是,這并不代表我們對(duì)這次恢復(fù)時(shí)間是滿(mǎn)意的,我們希望未來(lái)這樣的切換能讓用戶(hù)無(wú)感知或者最小化感知。”
但對(duì)于在“異地多活”的環(huán)境下仍超過(guò)兩小時(shí)的恢復(fù)時(shí)間,來(lái)自一家國(guó)有大行和一家互聯(lián)網(wǎng)公司的兩位信息安全人士均持懷疑態(tài)度:“如果是真的做到了異地多活,應(yīng)當(dāng)是分鐘級(jí)別的切換。兩個(gè)小時(shí)已經(jīng)足夠拷貝一個(gè)數(shù)據(jù)庫(kù)的備份,然后找一個(gè)新機(jī)房重新開(kāi)啟業(yè)務(wù)了?!?/p>
“當(dāng)然這種猜測(cè)是基于不清楚他們的負(fù)載均衡策略和架構(gòu)的,更多的符合事實(shí)的細(xì)節(jié)還是要他們自己來(lái)披露。”前述銀行人士說(shuō)。
目前,國(guó)有大型銀行基本上采用“兩地三中心”的架構(gòu)模式來(lái)應(yīng)對(duì)緊急情況,即除了同城有一個(gè)災(zāi)備中心外,異地也有一個(gè)災(zāi)備中心。當(dāng)一個(gè)機(jī)房出問(wèn)題時(shí),系統(tǒng)會(huì)切到同城或者異地的災(zāi)備中心。以廣發(fā)銀行為例,南海數(shù)據(jù)中心、廣州同城備份中心、深圳異地災(zāi)備中心就形成了典型的“兩地三中心”整體架構(gòu)。
傳統(tǒng)的災(zāi)備切換模式下,備用中心在接替主中心時(shí)需要較長(zhǎng)的時(shí)間、關(guān)系復(fù)雜,會(huì)嚴(yán)重影響用戶(hù)的業(yè)務(wù)辦理,備用中心的投資回報(bào)也無(wú)法達(dá)到預(yù)期。真正在“兩地三中心”架構(gòu)上實(shí)現(xiàn)的“異地多活”模式則具有無(wú)中斷時(shí)間、無(wú)數(shù)據(jù)損失等對(duì)客戶(hù)透明的效果,在正常運(yùn)行時(shí),備份中心也不會(huì)閑置,而是可以提供成倍的服務(wù)能力。
“一鍵刪掉”攜程?
“大眾情緒是一件很奇怪的事情。支付寶癱了,平靜地過(guò)了;攜程癱了,也平靜地過(guò)了;證券公司癱了,沒(méi)有逃成頂沒(méi)有抄成底,也平靜地過(guò)了,如果是銀行呢?”
支付寶的光纜搶通后7個(gè)小時(shí),攜程又陷入了麻煩。5月28日上午11點(diǎn)左右,攜程的用戶(hù)反映,攜程的官網(wǎng)和App無(wú)法使用。
按照攜程官方的說(shuō)法,5月28日11時(shí)09分,因部分服務(wù)器遭到不明攻擊,導(dǎo)致官方網(wǎng)站及App暫時(shí)無(wú)法正常使用。一位接近攜程的消息人士告訴南方周末記者,攜程在第一時(shí)間啟動(dòng)了技術(shù)排查,所有技術(shù)人員緊急值班。大家很快發(fā)現(xiàn)問(wèn)題出在數(shù)據(jù)庫(kù)被刪除了,而且被刪除的情況“很?chē)?yán)重”。在修復(fù)過(guò)程中還發(fā)現(xiàn),只要你在上面上傳代碼,數(shù)據(jù)會(huì)自動(dòng)被刪除。一直到下午一點(diǎn)半,數(shù)據(jù)還在“持續(xù)被刪”中。
“一開(kāi)始大家的第一反應(yīng)是外面的黑客攻擊的,但很快意識(shí)到,應(yīng)該是內(nèi)部人所為,黑客不可能把數(shù)據(jù)庫(kù)刪除得這么干凈。”上述人士對(duì)南方周末記者透露。
當(dāng)天23點(diǎn)左右,攜程在宕機(jī)12個(gè)小時(shí)后恢復(fù)正常。按照攜程一季度財(cái)報(bào)公布的數(shù)據(jù)計(jì)算,攜程宕機(jī)的損失為平均每小時(shí)106.48萬(wàn)美元。
5月29日1點(diǎn)30分,攜程發(fā)表聲明稱(chēng),經(jīng)攜程技術(shù)排查,確認(rèn)此次事件是由于員工錯(cuò)誤操作導(dǎo)致。
奇虎360網(wǎng)絡(luò)攻防實(shí)驗(yàn)室負(fù)責(zé)人林偉對(duì)南方周末記者表示,即便是大企業(yè),災(zāi)備方案也做得不夠完整。
“支付寶屬于金融支付,如果是銀行,就不會(huì)出現(xiàn)這樣的情況,銀行有同城和異地災(zāi)備等完善災(zāi)備體系。攜程被刪除的代碼經(jīng)過(guò)8小時(shí)還沒(méi)有恢復(fù),有可能是在重新上線(xiàn)的過(guò)程中遭遇攻擊者的阻礙,影響了服務(wù)恢復(fù)的進(jìn)度,否則在有備份的情況下,代碼和數(shù)據(jù)一般能在1小時(shí)內(nèi)恢復(fù)。這個(gè)修復(fù)時(shí)間太長(zhǎng)了,刪除應(yīng)該是故意的,誤操作的可能性很低。”他說(shuō)。
攜程的聲明發(fā)布8個(gè)小時(shí)之后,中國(guó)A股開(kāi)市,經(jīng)歷了5月28日的暴跌之后,A股在29日早盤(pán)一度下跌4個(gè)點(diǎn),很多人紛紛賣(mài)掉自己的股票,但有些股民發(fā)現(xiàn)自己的證券交易軟件又出了問(wèn)題,預(yù)定的逃頂和抄底計(jì)劃不得不紛紛擱淺。
互聯(lián)網(wǎng)公司以指數(shù)級(jí)別的加速度構(gòu)筑起了我們的互聯(lián)網(wǎng)世界,另一方面,也將用戶(hù)置于瞬時(shí)崩潰的危險(xiǎn)之中。
但對(duì)大多數(shù)人來(lái)說(shuō),互聯(lián)網(wǎng)服務(wù)的中斷,遠(yuǎn)較對(duì)其錢(qián)袋子的威脅來(lái)得輕松。相比之下,傳統(tǒng)金融機(jī)構(gòu)開(kāi)設(shè)的實(shí)體網(wǎng)點(diǎn)、背后的國(guó)家信用都讓用戶(hù)天然地抱有更多信任,當(dāng)然他們的要求也更高,遇到問(wèn)題常常激起更廣泛關(guān)注。
一名銀行研究人士在一個(gè)非公開(kāi)的場(chǎng)合總結(jié)了5月底這三天接連發(fā)生的互聯(lián)網(wǎng)安全事件:“大眾情緒是一件很奇怪的事情。支付寶癱了,平靜地過(guò)了;攜程癱了,也平靜地過(guò)了;證券公司癱了,沒(méi)有逃成頂沒(méi)有抄成底,也平靜地過(guò)了,如果是銀行呢?”
高額投入的“危險(xiǎn)按鈕”
“當(dāng)時(shí)主中心已經(jīng)宕機(jī),是可以選擇切換的,但是可能覺(jué)得切換的風(fēng)險(xiǎn)比修復(fù)的風(fēng)險(xiǎn)更大,所以沒(méi)有選擇切換,而是進(jìn)行了修復(fù)?!?/p>
“世界上沒(méi)有絕對(duì)的安全,只有通過(guò)一個(gè)平衡可以把客戶(hù)體驗(yàn)和安全做得最佳?!睍r(shí)任阿里小微金融服務(wù)集團(tuán)(現(xiàn)為“螞蟻金服”)首席風(fēng)險(xiǎn)官胡曉明在接受南方周末記者采訪(fǎng)時(shí)曾說(shuō),在數(shù)據(jù)存儲(chǔ)、安全體系上,如果要投入,就是一個(gè)非常大的數(shù)字。
廣發(fā)銀行負(fù)責(zé)安全應(yīng)急的部門(mén)在給南方周末記者的回復(fù)中稱(chēng),在網(wǎng)絡(luò)、信息系統(tǒng)服務(wù)器等采用高可用性架構(gòu)的基礎(chǔ)上,還要加上日常開(kāi)展有效應(yīng)急演練及專(zhuān)項(xiàng)應(yīng)急演練,金融機(jī)構(gòu)才能比較有效應(yīng)對(duì)突發(fā)情況,減少中斷時(shí)間甚至是實(shí)現(xiàn)無(wú)縫切換。
“這也需要在網(wǎng)絡(luò)設(shè)計(jì)、系統(tǒng)架構(gòu)、數(shù)據(jù)同步、安全控制以及配套的運(yùn)維管理等方面均有非常高的要求和資金投入?!币晃汇y行相關(guān)人士表示。
但是注重投入產(chǎn)出比,是大多互聯(lián)網(wǎng)公司安全體系建設(shè)所面臨的現(xiàn)狀。
“互聯(lián)網(wǎng)公司發(fā)展得很快,一片欣欣向榮,在自己的架構(gòu)方面,可擴(kuò)展性、高并發(fā)能力總是考慮得多一點(diǎn)。安全性、容錯(cuò)性上就相對(duì)差一些?!必?fù)責(zé)過(guò)數(shù)家互聯(lián)網(wǎng)公司信息安全事務(wù)的林鵬對(duì)南方周末記者說(shuō),高速發(fā)展的業(yè)務(wù)通常是互聯(lián)網(wǎng)公司首要考慮的,在安全性上,互聯(lián)網(wǎng)公司遠(yuǎn)沒(méi)有傳統(tǒng)金融機(jī)構(gòu)的沉淀這么多。
互聯(lián)網(wǎng)安全社區(qū)“烏云”的多位人士都曾對(duì)南方周末記者提及,互聯(lián)網(wǎng)公司更看重業(yè)務(wù)的拓展,安全部門(mén)的地位經(jīng)常居次。
金融則是對(duì)安全極為敏感的行業(yè),當(dāng)互聯(lián)網(wǎng)公司也爭(zhēng)先恐后涉足金融領(lǐng)域時(shí),不得不像傳統(tǒng)金融機(jī)構(gòu)一樣如履薄冰。
“任何一筆投資、交易的丟失都是無(wú)法被用戶(hù)接受的?!绷柱i說(shuō),可資對(duì)比的是微信,作為騰訊的拳頭產(chǎn)品,微信也因光纜被挖斷而出現(xiàn)過(guò)故障,但是“發(fā)生意外時(shí)丟兩條聊天記錄,顯然在用戶(hù)的接受范圍內(nèi)”。
“發(fā)生支付寶這種事件時(shí),切是可以切的,但是誰(shuí)來(lái)保證切過(guò)去之后信息的一致性?”林鵬說(shuō),通常的情況是,沒(méi)有人敢。這樣的切換即使在技術(shù)上能達(dá)到,目前對(duì)于各大銀行等金融機(jī)構(gòu)來(lái)講也是幾乎未在實(shí)際操作中嘗試過(guò)的昂貴操作:一則風(fēng)險(xiǎn)太大,要保證整個(gè)數(shù)據(jù)的完整性;二則可能切換不回來(lái)。
“據(jù)我所知從沒(méi)有哪個(gè)銀行真的切換了的,大多是在演習(xí)。有一些故障時(shí),一般是等到故障修復(fù)或者系統(tǒng)回退,而不是選擇切換?!鼻笆鲢y行信息部門(mén)人士對(duì)南方周末記者說(shuō)。
2013年6月23日上午10點(diǎn)38分至11點(diǎn)23分,工商銀行部分地區(qū)因計(jì)算機(jī)系統(tǒng)升級(jí)原因造成柜面和電子渠道業(yè)務(wù)辦理緩慢,ATM機(jī)暫停服務(wù),甚至連余額都無(wú)法查詢(xún)?!爱?dāng)時(shí)主中心已經(jīng)宕機(jī),是可以選擇切換的,但是可能覺(jué)得切換的風(fēng)險(xiǎn)比修復(fù)的風(fēng)險(xiǎn)更大,所以沒(méi)有選擇切換,而是進(jìn)行了修復(fù)。”一位接近工商銀行的人士對(duì)南方周末記者說(shuō)。
金融機(jī)構(gòu)的信息系統(tǒng)出現(xiàn)問(wèn)題,往往還會(huì)帶來(lái)意料之外的猜測(cè)甚至恐慌。
工商銀行短暫宕機(jī)事件適逢全國(guó)“錢(qián)荒”,在故障剛出現(xiàn)時(shí),就有輿論揣測(cè),工行是因?yàn)橘Y金鏈緊張而無(wú)法辦理取款業(yè)務(wù)。最終,其官方微博在23日12點(diǎn)50分時(shí)表示,“系統(tǒng)已恢復(fù),各項(xiàng)業(yè)務(wù)正常辦理。”事后的復(fù)盤(pán)也證明,確實(shí)是信息系統(tǒng)故障導(dǎo)致了前述事故。
IBM方面提供給南方周末記者的一篇報(bào)道顯示,2014年8月,中國(guó)工商銀行的同城雙活數(shù)據(jù)中心投產(chǎn)?!半p活”方案意味著,“當(dāng)任何一個(gè)站點(diǎn)的系統(tǒng)計(jì)劃內(nèi)或計(jì)劃外需要停止運(yùn)行時(shí),金融交易可以在分鐘級(jí)的時(shí)間內(nèi)全部轉(zhuǎn)移至另外一個(gè)中心,并對(duì)外提供服務(wù)”。
但這是任何一家金融機(jī)構(gòu)不到最后不愿按動(dòng)的“最危險(xiǎn)按鈕”。