偌大的數(shù)據(jù)中心僅留3名員工值班 微軟在澳大利亞的數(shù)據(jù)中心起火損毀硬件 – 藍點網(wǎng)
時間:2025-12-10 00:21:26 出處:娛樂閱讀(143)
上周 Microsoft Azure 位于澳大利亞新南威爾士州的數(shù)的數(shù)點網(wǎng)數(shù)據(jù)中心發(fā)生起火,除了服務全部離線外,據(jù)中據(jù)中件藍這次事故還導致部分硬件被燒毀。心僅心起此次事故持續(xù)將近 24 小時才陸續(xù)恢復,留名利亞其中由于硬件損壞,員工部分客戶的值班數(shù)據(jù)無法轉移只能通過恢復手段進行復原。
微軟已經(jīng)發(fā)布了這次事故的微軟詳細報告,報告中提到了一些令人匪夷所思的火損毀硬情況,例如偌大的數(shù)的數(shù)點網(wǎng)數(shù)據(jù)中心,在夜間竟然只有 3 名工程師值班,據(jù)中據(jù)中件藍盡管這 3 名工程師已經(jīng)盡力,心僅心起但面對這種情況時仍然忙不過來,留名利亞進而導致事故變得更嚴重。員工
澳大利亞東區(qū)數(shù)據(jù)中心概況:由多個機房組成、值班使用水冷系統(tǒng)、微軟有 7 臺水冷設備其中 5 臺為常開機 2 臺為備用。

事故時間線:
事故觸發(fā)原因是新南威爾士州的市電供應出現(xiàn)問題 (8 月 30 日 08:41,注意是 UTC+0 時間非當?shù)貢r間),導致 5 臺常開水冷機組全部掛掉,只有 1 臺備用機組自動開機,另一臺開機了但又跳閘了。
現(xiàn)場值班工程師按照緊急操作程序試圖恢復常開水冷機組但失敗了,微軟承認由于數(shù)據(jù)中心園區(qū)的規(guī)模,夜間團隊配備的人手不足以及時重啟水冷機組,為此微軟臨時將夜間值班工程師由 3 名增加到 7 名。
在水冷機組歇菜后,存儲和 SQL 服務器發(fā)出了告警,此時距離市電供應問題已經(jīng)過去了 1 個小時 50 分鐘。隨著水冷機組的歇菜,服務器的溫度也越來越高。
接著工程師繼續(xù)嘗試啟動水冷機組,但依然沒能成功,到 11:20 水冷機組的 OEM 支持工程師抵達現(xiàn)場進行處理,到 11:34 現(xiàn)場工程師最終決定關閉兩個受影響的數(shù)據(jù)大廳的基礎設施。
到 12:12 五臺常開水冷機組終于手動重啟成功,接著數(shù)據(jù)中心溫度開始逐漸下降,隨后工程師開始為受影響的基礎設施恢復供電,最終到次日 06:40 所有設施恢復、所有數(shù)據(jù)恢復。
微軟大客戶受影響嚴重:
新南威爾士州數(shù)據(jù)中心托管著微軟多個大客戶的數(shù)據(jù),包括但不限于昆士蘭銀行、捷星航空 (澳航旗下子公司) 等,這次事故導致微軟的這些大客戶受到嚴重影響。
從事故報告來看,故障自動轉移進行的似乎并不是很順利,按照設計邏輯,一旦出現(xiàn)故障,服務會自動轉移到其他數(shù)據(jù)中心確保客戶不受影響。
此次故障 Azure 的故障轉移也進行了,但效果好像并不是很好,微軟表示后續(xù)要重新改進。
微軟的事后反思:
1. 由于數(shù)據(jù)中心規(guī)模較大,夜間團隊人員配備不足,無法及時重啟水冷機組,微軟暫時將夜間值班人員從 3 名增加到 7 名。
2. 對于這類大型事故,重啟水冷機組的經(jīng)濟操作程序執(zhí)行速度很慢,微軟正在探索改進自動化方案用來應對供電等問題。
3. 展望未來,微軟正在評估各種方法確保可以對各個水冷機組的子集負載曲線進行優(yōu)先級排序,以便掛了的時候先將負載最高的機組重啟。
4. 利用流程表對工作負載故障轉移和設備關閉進行排序,用來確定不同的優(yōu)先級,同時微軟正在改進水冷溫度報告,以便更好的根據(jù)溫度閾值來決定何時進行故障轉移或關閉服務器。
5. 五臺水冷機組沒有重啟,因為相應的水泵沒有收到水冷機組的運行信號,這很重要,因為水泵對水冷機組的成功啟動至關重要,為此微軟正在找水冷機組 OEM 調查為什么水冷機組沒有命令各自的水泵重啟。
6. 由于未知錯誤,一臺備用水冷機組就是跳閘那個沒能自動重啟,微軟正在找 OEM 診斷。
上一篇: 懂事的小兔寶寶的故事