亚马逊披露AWS大宕机缘由:DynamoDB自动化“空DNS记录”触发级联故障,相关自动化已停用并加固
亚马逊发布完整复盘称,10月20日的网络大面积宕机源于DynamoDB的DNS管理自动化在北弗吉尼亚区域出现竞态错误,误将区域端点写成“空DNS记录”,自动修复未能生效而需人工介入回填与切换;在2025年10月20日14:49—17:24(当地时间,GMT+8)的主故障窗口内,亚马逊自有业务及众多依赖AWS的服务相继受影响,典型如 Snapchat、Reddit、Lyft、Fortnite、Duolingo、Canva、Apple Music/TV、Venmo、Hulu、PlayStation 等,表现为从响应变慢到短时不可达不等,其间EC2内部子系统亦出现阶段性受损,导致部分业务恢复拖尾。亚马逊已对涉事自动化停用/隔离并加装防护(额外一致性校验、变更与回滚护栏、流程防呆),承诺提升可用性并为客户致歉;此次事件提示行业在DNS等关键依赖上的单点—级联风险依然突出,需在多云容灾、就地缓存与降级策略等方面做更强的工程化准备。
支持率>95%