當?shù)貢r間2019年4月15日下午6點50分左右,法國巴黎圣母院發(fā)生火災,整座建筑損毀嚴重。著火位置位于圣母院頂部塔樓,大火迅速將圣母院塔樓的尖頂吞噬,很快,尖頂如被攔腰折斷一般倒下。
火災發(fā)生后,巴黎市檢察機關在第一時間宣布啟動調查,調查方向初步定為“意外”引發(fā)火災,檢方已經(jīng)排除了縱火的可能性,也不認為此事和恐怖主義有關。
巴黎圣母院的大火引發(fā)了國人的關心和聯(lián)想。咸豐十年(1860年)英法聯(lián)軍攻占北京后,縱火焚燒圓明園,大火三日不滅,圓明園及附近的清漪園、靜明園、靜宜園、暢春園及海淀鎮(zhèn)均被燒成一片廢墟,安佑宮中,近300名太監(jiān)、宮女、工匠葬身火海。使這座世界名園化為一片廢墟。大火連燒3天3夜,成為世界文明史上罕見的暴行。圓明園文物被掠奪的數(shù)量粗略統(tǒng)計約有150萬件,上至中國先秦時期的青銅禮器,下至唐、宋、元、明、清歷代的名人書畫和各種奇珍異寶。
殖民者的暴行永世不忘,被掠奪的文物必將歸還。更重要的是我們要從巴黎圣母院的大火警示中,查找安防工作中的漏洞,杜絕“意外”事件的發(fā)生。我國的很多古跡景點紛紛動作起來,加強了安防和培訓。
數(shù)據(jù)中心應該怎樣杜絕“意外”事故呢?在數(shù)據(jù)機房發(fā)生的各類事故中,火災事故約占80%左右。主要包括電子計算機本身起火;配套設備或附屬裝置起火;空調設備或電氣設備起火;外來火災侵擾和雷擊等。
2014年,三星韓國果川數(shù)據(jù)中心發(fā)生火災,起火的是三星的韓國果川數(shù)據(jù)中心的四樓,火勢蔓延速度較快,很快波及建筑物頂端,室外管道可能是引發(fā)火災的主要原因?;馂脑斐闪藬?shù)據(jù)中心數(shù)小時的停電,從而影響了全球用戶的網(wǎng)絡服務,甚至三星官網(wǎng)也出現(xiàn)了短暫的無法訪問。
2017年4月4日19時57分,北郵數(shù)據(jù)中心發(fā)生火災,起火原因系UPS蓄電池組事故,事故致部分教育網(wǎng)節(jié)點和校園網(wǎng)暫時不能訪問。
2018年9月30日上午10點26分,青島西海岸惠普大數(shù)據(jù)中心發(fā)生火災;
2015年10月13日,Windows Azure上海數(shù)據(jù)中心發(fā)生故障,是由服務器所在機房著火斷電引起,導致Azure基礎設施離線無法提供正常服務,受影響的用戶包括金融、互聯(lián)網(wǎng)、房地產(chǎn);2015年5月26日早晨,遠在美國亞利桑那州平頂山的蘋果工廠發(fā)生火災,起火點位于該公司數(shù)據(jù)處理中心屋頂光伏項目;2015年1月10日亞馬遜公司正在美國弗吉尼亞州建設的一座數(shù)據(jù)中心發(fā)生火災;2014年7月20日重慶農商行數(shù)據(jù)中心發(fā)生重大火災,整個機房全部燒毀,直接損失達到一個億以上。
僅僅幾年,數(shù)據(jù)中心的火災事故頻發(fā)。對于數(shù)據(jù)中心發(fā)生的故障,行業(yè)專家認為故障多發(fā)的原因還是在運維管理上,正所謂“三分技術,七分管理”,數(shù)據(jù)中心的故障大多源自于人禍。筆者認為很多人(包括許多專家)將“意外”發(fā)生的根源歸罪于運維和運維管理人員,其實這是非常不公平的。
正像可靠性源于設計一樣,數(shù)據(jù)中心的連續(xù)運行的安全性同樣也是源自設計,這就給設計院的設計工作提出了更加嚴格的要求。
在數(shù)據(jù)中心的消防設計時,必須選擇安全、環(huán)保、效果好的滅火產(chǎn)品,要考慮滅火產(chǎn)品的安全環(huán)保性、經(jīng)濟合理性、產(chǎn)品的適用性、可調整性等綜合性能;還必須搜集滅火產(chǎn)品在國際、國內應用的廣泛性及在大型項目中的業(yè)績;在國際、國內獲得的產(chǎn)品的認可及認證系統(tǒng)設計的配套工具,如系統(tǒng)設計計算的軟件等。
在數(shù)據(jù)中心施工建設時,必須嚴格遵守施工規(guī)范,GB50462-2015《中心基礎設施施工及驗收規(guī)范》是必須遵照的國家標準。特別是不能留有隱蔽性隱患。
數(shù)據(jù)中心的綜合布線對數(shù)據(jù)中心建設來說尤為重要。選擇什么樣的線纜、線經(jīng)和布線方案,對設備安全運行、維護和升級改造都會有很大影響。
數(shù)據(jù)中心設備的布局,如機柜正確的擺放方式應該是將服務器機柜面對面或者背靠背的擺放,這樣便形成了冷通道和熱通道,機柜之間的冷熱風不會混合在一起,形成短路氣流,大大提高制冷效果,保護好冷熱通道不被破壞。
高功率負載和高密度的服務器集中擺放,容易導致數(shù)據(jù)中心的局部熱點和單路電源功耗過高問題,可以將這些高功率設備和高密度服務器分在每個機柜內,這樣就不會出現(xiàn)高功率密度設備群。這對避免局部溫度升高,從而引發(fā)數(shù)據(jù)中心故障是有益的。
當然,數(shù)據(jù)中心機房運維管理工作責任重大,隨著互聯(lián)網(wǎng)、信息化產(chǎn)業(yè)的不斷發(fā)展,作為各種信息載體的數(shù)據(jù)中心發(fā)揮著越來越重要的作用,因此數(shù)據(jù)中心的安全運行變得尤為關鍵,數(shù)據(jù)中心運維管理工作也變得越來越復雜。
驗證測試是一個確保數(shù)據(jù)中心各系統(tǒng)設計、安裝、功能測試、系統(tǒng)聯(lián)調、運行狀態(tài)與設計意圖相符合的過程,是實施獲得良好功能和可靠運行過程中的重要組成部分。一個好的驗證測試不僅滿足測試相關的設備功能指標,更重要的是驗證系統(tǒng)是否可以滿足運行階段的要求。對系統(tǒng)運維人員而言,在驗證測試的過程,可以驗證設備操作流程,增加實際操作和應對突發(fā)事件的經(jīng)驗。近幾年建設的數(shù)據(jù)中心,都要求在數(shù)據(jù)中心投產(chǎn)前必須進行驗證測試。
數(shù)據(jù)中心基礎設施的驗證
測試是業(yè)主對于數(shù)據(jù)中心建設質量進行檢驗的一個重要過程,正式投產(chǎn)前未進行驗證測試,將給數(shù)據(jù)中心后續(xù)運行帶來巨大的風險隱患。驗證測試同樣也適用于改擴建和日常的運維項目,通過儀表測量、觀察、分析等方式,找出系統(tǒng)運行的潛在風險,實行相應的改善措施,確?;A設施達到功能要求,實現(xiàn)預期的可靠性和可利用性。
如下圖所示,主要的驗證測試包括性能驗證測試、功能驗證測試和運維驗證測試。
巴黎圣母院的大火給數(shù)據(jù)中心建設和安全運行敲響了警鐘,一切“意外”的隱患必須從數(shù)據(jù)中心設計階段給予重視,不能把故障的主要責任推給運維和運維人員。希望設計院的設計師們多為數(shù)據(jù)中心的連續(xù)性安全運行和運維人員著想,下苦功夫,從大處著眼,從小處著手,設計出一個經(jīng)得起“意外”事故考驗的數(shù)據(jù)中心。
作者簡介
曲學基:中國空間技術研究院高級工程師,《UPS應用》雜志主編。




