中國儲能網(wǎng)訊:對于數(shù)據(jù)中心來說,保持業(yè)務(wù)連續(xù)性是首要目標,然而龐大的數(shù)據(jù)中心面臨眾多潛在風(fēng)險,小概率事件也可能帶來災(zāi)難性后果——機房火災(zāi)、服務(wù)器長時間宕機、聲譽受損,據(jù)不完全統(tǒng)計,僅僅2020年以來有十幾樁類似大故障發(fā)生。
IDC圈經(jīng)過梳理盤點,列出近三年來嚴重程度可排前十的數(shù)據(jù)中心災(zāi)難事件。
數(shù)據(jù)中心火災(zāi)前/后對比
圖片
圖片
事件一:韓國SK公司數(shù)據(jù)中心火災(zāi)
2022年10月15日,韓國SK公司C&C板橋數(shù)據(jù)中心發(fā)生火災(zāi),大火在大約8小時后被撲滅。
起火后數(shù)據(jù)中心斷電造成韓國國民級聊天軟件Kakao Talk、主流電商平臺NAVER等在內(nèi)的眾多網(wǎng)絡(luò)服務(wù)中斷。據(jù)《韓國時報》報道,本次火災(zāi)導(dǎo)致了約3.2萬個服務(wù)器癱瘓,數(shù)千萬用戶服務(wù)受到影響——截止2021年,韓國人口約為5200萬。一天之后Kakao Talk等服務(wù)才開始陸續(xù)恢復(fù)。數(shù)據(jù)中心客戶表示,由于損失了大量服務(wù)器,恢復(fù)過程比預(yù)期的要長。
調(diào)查發(fā)現(xiàn),安裝在地下三層電氣設(shè)備室的5個電池機架全部燒毀,電池和機架附近似乎因電氣因素失火。
事件二:湖南電信荷花園大廈起火
2022年9月16日,位于湖南省長沙市芙蓉區(qū)的湖南電信大樓發(fā)生火災(zāi),數(shù)十層樓體燃燒劇烈,消防趕到后將火勢撲滅,撤離及時,無人員傷亡。經(jīng)初步偵察,現(xiàn)場為大廈外立面起火。為防止發(fā)生危險,大樓部分設(shè)備斷電,據(jù)中國電信官方及用戶反映,部分用戶手機語音和短信功能受到影響,截止當晚12時仍未恢復(fù)。
長沙電信大樓于2000年建成,建筑地上42層地下2層。大樓內(nèi)含荷花園電信機房,是湖南最大的主干線接入點之一,此前資料顯示,機房具備25G光纖直CHINANET骨干網(wǎng),總機架數(shù)量約1000個。
事發(fā)前招標信息顯示,該大廈消防設(shè)備超期運行,火災(zāi)報警系統(tǒng)等存在較大安全隱患。
事件三:谷歌數(shù)據(jù)中心電氣爆炸
當?shù)貢r間2022年8月8日,位于美國愛荷華州康瑟爾布拉夫斯的谷歌數(shù)據(jù)中心發(fā)生爆炸,造成3人受傷。
媒體報道,3名電工在數(shù)據(jù)中心大樓附近的變電站工作時,突然發(fā)生了電弧閃光(電氣爆炸),導(dǎo)致三名電工被嚴重?zé)齻?。事故發(fā)生后,多個地區(qū)的谷歌地圖、谷歌搜索出現(xiàn)中斷服務(wù)情況,有數(shù)據(jù)顯示,該故障影響了全球40多個國家/地區(qū)的至少1338臺服務(wù)器,包括美國、澳大利亞、南非、肯尼亞、以色列、南美洲部分地區(qū)、歐洲和亞洲部分地區(qū)。
谷歌證實了這場意外為電力事故,但未披露具體原因。
事件四:英國高溫致多個數(shù)據(jù)中心宕機
2022年夏天,歐洲經(jīng)歷極端高溫,當?shù)貢r間7月16日英國氣溫達到42℃,位于倫敦的谷歌云和甲骨文數(shù)據(jù)中心均因氣溫過高出現(xiàn)故障,導(dǎo)致系統(tǒng)宕機。
甲骨文報告,數(shù)據(jù)中心的兩臺制冷系統(tǒng)出現(xiàn)故障,導(dǎo)致數(shù)據(jù)中心內(nèi)部氣溫越來越高,一些系統(tǒng)自動采取保護措施關(guān)閉作業(yè),使得一些用戶的數(shù)據(jù)使用出現(xiàn)延遲問題。谷歌同樣稱數(shù)據(jù)中心內(nèi)的冷卻系統(tǒng)出現(xiàn)故障,導(dǎo)致了該區(qū)域的部分容量故障,導(dǎo)致VM(虛擬機)終止和一小部分客戶的機器損耗,同時谷歌關(guān)閉了機房內(nèi)的一些機器,以防進一步損壞。
谷歌表示只有“一小部分用戶”受到了影響。
事件五:網(wǎng)易游戲機房大規(guī)模服務(wù)器宕機
2021年11月3日,多款網(wǎng)易游戲出現(xiàn)無法登錄、斷連情況。
據(jù)《絕對演繹》等游戲官博表示原因系機房過熱導(dǎo)致服務(wù)器宕機“機房傳來報警,溫度過高。部分服務(wù)器過熱宕機??照{(diào)重新開機也沒有解決問題……”。
事發(fā)后約3小時左右,網(wǎng)易游戲各服務(wù)器已恢復(fù)正常登陸,網(wǎng)易方面并未就此次故障做統(tǒng)一回復(fù)。
事件六:Telstra英國數(shù)據(jù)中心火災(zāi)
2021年8月27日,澳洲電信Telstra位于英國首都倫敦的托管數(shù)據(jù)中心發(fā)生火災(zāi)并引起宕機?;馂?zāi)造成一半大樓斷電,消防人員表示,雖然只燒毀了三層供應(yīng)間的一小部分區(qū)域,但由于大火使支撐母線的斷路器跳閘,工程師們不得不通過發(fā)電機恢復(fù)電力。
據(jù)分析,這次火災(zāi)事故很有可能是由于UPS故障引起,事故擊穿了溫度保障、消防滅火及ups預(yù)測性維護、ups預(yù)防性維護等多重保障,最終導(dǎo)致火災(zāi)。
事件七:汛情致河南多機房斷電
2021年7月,河南遭遇極端暴雨天氣,多個數(shù)據(jù)中心受到汛情影響,機房停止服務(wù):
河南移動樞紐機房斷電,無法正常辦理移動業(yè)務(wù);海騰鄭州BGP機房、華中鄭州市BGP機房等數(shù)據(jù)中心因所在區(qū)域市電中斷超過1、2個小時,機房由柴發(fā)帶載,附近油站因道路積水暫時無法供油到機房,在出現(xiàn)電力中斷前,考慮到用戶數(shù)據(jù)安全,臨時中斷服務(wù)。
西部數(shù)碼鄭州區(qū)域、晉江文學(xué)城、河南省產(chǎn)權(quán)交易中心用戶方發(fā)布通知,表明服務(wù)受機房原因中斷。
當時IDC圈收到的照片顯示,有位于河南的數(shù)據(jù)中心出現(xiàn)機房進水情況。
事件八:OVH數(shù)據(jù)中心火災(zāi)
當?shù)貢r間2021年3月10日,歐洲云計算巨頭OVH位于法國萊茵省首府斯特拉斯堡的數(shù)據(jù)中心發(fā)生嚴重火災(zāi),OVH在該區(qū)域擁有的4個數(shù)據(jù)中心全部暫停服務(wù)。4座數(shù)據(jù)中心中,一座被完全燒毀,一座的服務(wù)器損毀了三分之一。
起火后,癱瘓的法國政府、企業(yè)與公共事業(yè)網(wǎng)站達到約360個,一些游戲開發(fā)商在歐洲的業(yè)務(wù)也受到影響,部分位于該數(shù)據(jù)中心的服務(wù)器被燒毀,其中游戲《Rust》表示,25臺歐洲服務(wù)器完全損毀,沒有備份,數(shù)據(jù)無法被修復(fù)。
盡管OVH短時間調(diào)查后解釋,此次起火可能因UPS引起,但一年后法國官方事故調(diào)查機構(gòu)的發(fā)布的報告顯示,災(zāi)難更大可能是由電力室逆變器周圍的濕氣引起的。
事件九:WebNX美國猶他州數(shù)據(jù)中心起火
2021年4月,美國主機托管公司W(wǎng)eb NX位于猶他州的奧格登數(shù)據(jù)中心著火,導(dǎo)致超360萬個網(wǎng)站出現(xiàn)故障,約1.5萬名客戶的資料受到影響,部分客戶數(shù)據(jù)完全丟失且無法恢復(fù)。
事件十:微軟Azure美東數(shù)據(jù)中心服務(wù)中斷6小時
2020年3月3日,微軟Azure位于美國東部的數(shù)據(jù)中心發(fā)生服務(wù)中斷,持續(xù)六小時,導(dǎo)致客戶無法使用Azure云服務(wù)。
微軟隨后披露,一個冷卻系統(tǒng)故障是導(dǎo)致這次停機的原因,發(fā)生故障的樓宇自動化控制導(dǎo)致氣流減少,隨后整個數(shù)據(jù)中心的溫度峰值阻礙了網(wǎng)絡(luò)設(shè)備的性能,使計算和存儲實例無法訪問。
.......
當然,2020年以來,數(shù)據(jù)中心發(fā)生的故障大事遠不止以上這些。
例如2020年8月華為云香港機房制冷設(shè)備出現(xiàn)異常,導(dǎo)致服務(wù)器掛了3個小時;2022年10月,蘇州國科數(shù)據(jù)中心因備用冷塔著火致樓頂著火,但或是影響范圍較小,或是如蘇州國科數(shù)據(jù)中心般機房和業(yè)務(wù)未受影響,因此并未列入。
這里僅盤點故障嚴重和造成較大影響的事件,供大家了解,以作前車之鑒。
智者千慮,必有一失。業(yè)務(wù)連續(xù)性是數(shù)據(jù)中心的首要原則,災(zāi)難預(yù)防和應(yīng)對是數(shù)據(jù)中心每分每秒的“必修課”。當前數(shù)據(jù)中心高可靠性正面臨諸多新挑戰(zhàn),災(zāi)難預(yù)防需要多方共同參與構(gòu)建。




