奧推網

選單
科技

阿里雲迴應史上最大規模宕機故障:存在四大問題!

12月18日,阿里雲香港Region可用區C發生大規模服務中斷事件,對很多客戶業務產生重大影響,影響面擴大到香港可用區C的EBS、OSS、RDS等更多雲服務。

一般來說,雲伺服器宕機只需要一個小時左右便能恢復,而阿里雲這次宕機從18日早上8點56分首次檢測到故障警告,到次日凌晨0點30分所有服務恢復正常,歷時超過15個半小時。

這無疑是阿里雲運營十多年來持續時間最長的一次大規模故障。

12月18日,阿里雲第一時間對客戶進行事件原因分析和維護的進展更新,同時態度誠懇並明確表態,對於受本次故障影響的產品,阿里雲將根據相關產品的SLA協議進行賠付。

12月25日,阿里雲釋出關於阿里雲香港Region可用區C服務中斷事件的說明,對故障情況進行了詳細說明,並公佈了整個處理過程,對問題進行了詳細分析,還提出了改進措施。宣告中阿里雲表示,要向所有受到故障影響的客戶公開致歉,並儘快處理賠償事宜。

阿里雲的公告顯示,冷機系統故障恢復時間過長、現場處置不及時導致觸發消防噴淋、客戶在香港地域新購ECS等管控操作失敗、故障資訊釋出不夠及時透明是導致此次宕機時間長、規模大的四大重要原因。

值得注意的是,此次出故障的機房並非阿里雲自建資料中心,而是租用的香港電訊盈科公司機房。目前,阿里雲所租用的香港電訊盈科公司機房已修復製冷裝置故障,阿里雲香港地域所有可用區雲產品功能已經全部恢復正常。對於受本次故障影響的產品,阿里雲將根據相關產品的SLA協議進行賠付。

END

作者:梅雅鑫

責編/版式:沈新竹

稽核:申晴

監製:劉啟誠

【大咖談 | 盤點2022】系列文章

張雲勇:數字產業化和產業數字化駛上“快車道”

李彬:借數騰飛,以開放共建贏算力未來

何寶宏:欣欣以向榮,雲計算發展持續向好

曹磊:2022年5G行業應用實現“百案千面”

顧維璽:探索“工業網際網路+”的多元化服務新生態

範濟安:工業網際網路前途是光明的,道路是曲折的

唐雄燕:算力網路理念從廣泛認可逐漸深入人心

陳運清:算力網路已由理論走向實踐