Cloudflare全球性“500错误”已修复:系BotManagement文件生成Bug所致,X与OpenAI等一度受影响
北京时间11月18日傍晚起,Cloudflare出现全球性“500错误”,其Dashboard与API也一度不可用,波及使用其边缘网络的多家互联网服务(包括X、OpenAI、Spotify、Letterboxd与Downdetector等,均为当地时间报道口径);根因系其Bot Management(机器人管理)功能在特定版本发布后触发的“文件生成逻辑错误”,导致部分依赖该组件的请求异常。按官方技术时间线:问题在北京时间11月18日20:03(12:03 UTC/美国东部时间07:03)被确认存在,20:22(12:22 UTC/07:22 ET)定位到与Bot Management相关的错误,20:32(12:32 UTC/07:32 ET)开始推送修复,随后错误率持续回落;至22:36(14:36 UTC/09:36 ET)大多数客户的错误已恢复到基线水平,官方在11月19日00:00(16:00 UTC/11:00 ET,当地时间)宣布事件结束。Cloudflare高管同时表态,这并非外部攻击事件,而是内部变更引发的Bug;公司将通过改进发布闸门、提升配置校验与回滚策略,降低类似变更对全球流量的连锁影响。对普通用户而言,若仍偶发报错,多为本地缓存或上游链路回稳的尾部效应,刷新DNS/浏览器缓存或等待运营商侧路由收敛通常即可恢复;对站点运营者,建议复核自身对Cloudflare Bot Management/Access/WARP的策略依赖,检查错误峰值时段的告警阈值与回滚预案是否有效,必要时补充旁路健康检查,以免单点配置在全球发布时放大成全站可用性事件。总体看,此次事故从发现到修复的处置节奏较快,但也再次提醒行业:当边缘与安全组件深度耦合在全球流量路径上,发布前的“灰度+自动化回归+按区域闸门”与“可观测性+迅速回滚”同样重要;而对重度依赖CDN/安全代理的业务,上线前准备本地直连降级或多CDN切流方案,依然是稳态运营的关键。
支持率>95%