上周,微软数据中心园区的员工人数"不足",因为电力供应能力下降导致两个数据大厅的冷却设备断电,部分存储硬件被烧毁。该公司发布了一份关于此次大规模故障的初步事故后报告(PIR),包括昆士兰银行和捷星航空在内的大型企业客户完全中断了服务。
该报告揭示了一些企业完全失去服务的原因:在此次事故中,许多存储节点被主动关闭或组件烧毁,以至于数据及其所有副本都处于离线状态。
此外,在存储节点最终恢复后,托管 25 万多个数据库的"租户环"也发生了故障,尽管对客户的影响并不均衡。
微软表示,两个受影响数据大厅的冷却能力"由七个冷却器组成,其中五个冷却器处于运行状态,两个冷却器处于备用状态(N+2)"。电源下陷(电压骤降)导致五个运行中的冷却器出现故障。此外,只有一台备用机组工作。
微软表示,现场工作人员"执行了我们记录在案的应急操作程序 (EOP),试图使冷却器重新启动,但没有成功"。
该公司似乎被此次事件的规模吓到了,现场没有足够的工作人员,而且其应急程序也没有考虑到问题的规模。公司表示:"由于数据中心园区的规模,夜间团队的人员配备不足以及时重启冷却器。在更好地了解根本问题并采取适当的缓解措施之前,我们已暂时将团队人数从 3 人增至 7 人。"
关于其 EOP,微软表示"对于影响半径如此之大的事件而言,重新启动冷却器的 EOP 执行起来比较缓慢。"
"我们正在探索改进现有自动化的方法,以提高对各种电压骤降事件类型的应变能力。"
虽然没有足够的员工来执行记录在案的程序,但如果有更多的员工,就能更快地达到同样的效果,因为冷水机组本身就存在问题。
初步调查显示,冷水机组没有自动重新启动,"因为相应的泵没有从冷水机组获得运行信号"。
"这一点非常重要,因为它是成功重启冷水机组不可或缺的因素,"微软公司表示。"我们正在与我们的 OEM 供应商合作,调查为什么冷却器没有命令各自的泵启动。"
由于冷冻水回路温度已超过阈值",因此无法手动重启故障冷水机组。随着温度的升高,以及基础设施发出的热警告,微软别无选择,只能关闭服务器。这成功地使冷却水回路温度降至所需阈值以下,并恢复了冷却能力。
不过,并非一切都能顺利恢复。这次事故影响了七家存储租户,其中五家为"标准"租户,两家为"高级"租户。
微软表示,一些存储硬件"因数据大厅温度过高而损坏"。由于存储节点处于离线状态,因此无法进行诊断以排除故障。
"因此,我们的现场数据中心团队需要手动移除组件,并逐一重新安装,以确定是哪个(些)特定组件导致每个节点无法启动,"微软说。"为了成功恢复数据和恢复受影响的节点,需要更换多个组件。还需要在个别服务器中临时重新安装一些原始/故障组件。"
基础架构即代码自动化也出现故障,"错误地批准了过期请求,并将一些健康节点标记为不健康,从而减缓了存储恢复工作"。
微软表示,托管 25 万多个 SQL 数据库的租户环的故障进一步减缓了恢复速度。
该公司表示:"当我们试图将数据库从性能下降的环路中迁移出来时,SQL 手头并没有经过良好测试的工具,而这些工具是为在源环路处于性能下降的情况下迁移数据库而构建的。很快,这就成为我们减轻影响的最大障碍。"
最终的 PIR 预计将在几周内完成。