数据中心(电力)故障:谷歌云德国宕机 12 个小时

数据中心(电力)故障:谷歌云德国宕机 12 个小时

文章图片

数据中心(电力)故障:谷歌云德国宕机 12 个小时

虽然造成不便的电力故障和冷却问题只影响一个可用区 , 却给大批用户带来了麻烦 。

2024 年 10 月 24 日 , 谷歌云在其位于德国法兰克福的 europe-west3(欧洲-西部)地区遭遇了持续半天的中断后公开道歉 。
这起事件开始于当地时间 10 月 24 日周四凌晨 2 点 30 分 , 结束于 15 点 09 分 , 总共持续了 12 个小时 39 分钟 。
这家云服务巨头表示:“我们为这次服务中断/故障可能所造成的不便道歉 。 ”
谷歌认为 , 根本原因是电力故障和冷却问题导致了这个地区的三个可用区之一europe-west3-c 断电 , 随之而来的是服务质量下降 。
谷歌发布的公告称:“谷歌工程师已实施了一个修复程序 , 使数据中心恢复全面运行 , 这缓解了问题 。 ”
受影响的服务和功能包括:Cloud Build、Cloud Developer Tools(云开发者工具)、Cloud Machine Learning(云机器学习)、Google Cloud Dataflow(谷歌云数据流)、Google Cloud Dataproc、Google Cloud Pub/Sub(谷歌云发布/订阅)、谷歌计算引擎、谷歌Kubernetes引擎、Persistent Disk(持久性磁盘)和Vertex AI Batch Prediction 。
用户遇到的一系列问题牵涉多项谷歌云服务 。
在谷歌计算引擎上 , 一些用户面临虚拟机创建失败、处理删除出现延迟以及正常操作无法使用受影响可用区中的某些实例等问题 。
在谷歌 Kubernetes 引擎中 , 受影响区域的节点无法访问 , 一些试图创建新节点的活动以失败告终 。 持久性磁盘实例无法访问 , 导致无法对其进行操作 。
Google Cloud Dataflow 的用户发现 , 为批处理作业扩展 worker 节点的操作出现延迟 , 一些流作业无法进入到下一步或无法适当扩展 。 现有的 Google Cloud Dataproc 集群仍可以正常使用 , 但是一些试图创建新集群的活动以失败告终 。 Cloud Build 用户在启动自定义worker 节点池时可能遇到延迟 。
虽然遇到的大多数问题在可用区层面 , 但也给整个区域带来了一定的影响 。
谷歌坚持称:“对于同一个区域的另外两个可用区而言 , 影响实例和磁盘资源的操作中只有不到 1% 遇到了内部错误 。 ”
Vertex AI Batch Prediction 遭遇了涉及多个可用区的问题 , 一些用户看到的错误信息是“无法在规定时间内准备好服务用户的基础设施” 。
谷歌在故障发生 26 分钟后首次通知用户 , 但直到故障发生近三个小时后才提供解决办法 。 谷歌最终告诉受影响的用户将工作负载迁移到其他区域或可用区 , 并建议区域持久性磁盘出现降级的那些用户定期拍摄快照 。
虽然 europe-west-3 并不特别经常遭遇中断 , 但去年年底确实遭遇了一起影响云工作站的事件 。
今年 5 月 , 谷歌云遇到了非常糟糕的一天 , 当时维护操作失败给 33 项服务(包括计算引擎和 Kubernetes 引擎)的用户带来了大约 2 小时 48 分钟的痛苦 。
那起事件发生在这家云提供商删除了澳大利亚养老基金 UniSuper 的整个账户大约一周后 。 这个错误归因于 bug 和配置不当这双重因素引发的一场悲剧 。
【数据中心(电力)故障:谷歌云德国宕机 12 个小时】

    推荐阅读