一个代码拼写错误,导致微软 Azure DevOps 服务在巴西停摆十小时

一个代码拼写错误,导致微软 Azure DevOps 服务在巴西停摆十小时

IT资讯 2023-06-11 13:26:04 1年以前

IT酷哥 6 月 4 日消息,由于一个简单的代码错误,微软 Azure DevOps 在南巴西地区的服务中断了约十个小时。IT酷哥注意到,微软的软件工程经理 Eric Mattingly 在周五为这次中断道歉,并揭示了事故的原因:一个拼写错误导致了十七个生产数据库被删除。

Azure DevOps提供一组集成的服务和工具,用于管理软件项目,从规划和开发到测试和部署。Mattingly 解释说,Azure DevOps 的工程师有时会对生产数据库进行快照(Snapshot),以便调查报告的问题或测试性能改进。他们依赖于一个每天运行的后台系统,该系统会在一定时间后删除旧的快照。近日 Azure DevOps 的工程师进行了一次代码升级,用支持的 Azure.ResourceManager.* NuGet 包替换了已弃用的 Microsoft.Azure.Managment.* 包。这导致了一个大型的拉取请求,其中更换了旧包和新包中的 API 调用。

拼写错误就发生在这个拉取请求中,它将删除快照数据库的调用换成了删除托管数据库的 Azure SQL Server 的调用。Azure DevOps 有专门的测试来发现这样的问题,但 Mattingly 说,由于错误的代码只在某些条件下运行,因此现有的测试覆盖不到。

几天后,软件更改被部署到南巴西规模单元(特定角色的服务器集群)的客户环境。该环境有一个老的快照数据库,触发了这个错误,导致后台任务删除了“整个 Azure SQL Server 和所有十七个生产数据库”。

所有数据都已经恢复,但花了十多个小时。Mattingly 说,有几个原因造成这种情况。其中之一是,由于客户无法自己恢复 Azure SQL Server ,必须由值班的 Azure 工程师来处理,这个过程大约需要一个小时。另一个原因是,数据库有不同的备份配置:有些配置为区域冗余备份,有些配置为更新的地理区域冗余备份,解决这种不匹配增加了很长的恢复时间。

为了防止问题再次发生,Mattingly 称微软已经采取了各种修复和重新配置措施,并再次向所有受此中断影响的客户道歉。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 算力破局者云天畅想完成 C + 轮融资,通过算力赋能数字经济
  • 艾瑞报告揭示手机服务趋势 京东 618 为带来“省心价放心换”购机体验
  • 折叠屏全球首个!vivo X Fold2 获国际权威认证和国家级奖项
  • 近 50 位家电家居行业大佬强势为京东 618 打 Call 为用户甄选好物、好价、好服务
  • “未来教室”带动学校科创教学方法革新
  • 全球第三大半导体代工厂联电遭遇供电事故,部分晶圆报废
  • 科技大 V 探访华科大联合实验室,揭秘 OPPO ColorOS 流畅王牌
  • 我国民用无人机领域首项国标发布:17 条安全指标,监管“黑飞”“乱飞”现象
  • 苹果 WWDC23 前瞻:旗下首款混合现实头显的挑战与机遇
  • 库克称 Vision Pro 头显不营造孤立感、倡导多元社交
  • 康佳 144Hz 超高刷畅速电视 E9G 系列新品,画面极致顺滑轻松征服 PC 玩家
  • 特斯拉起诉“车顶维权”女车主并索赔 500 万,车主当庭反诉
  • 阿斯顿马丁首款电动汽车将于 2026 年发布
  • 得益于 AVX-512,AMD Zen 4 处理器在 y-cruncher 中可获得 20% 加速
  • 2027 年全球基于订阅的流媒体业务营收预估突破 1370 亿美元
  • 英特尔发布开源等宽字体 Intel One Mono,称可缓解视觉疲劳、保护开发者视力
  • 存储主控赛道究竟有何魅力?听听“黑马”英韧科技怎么说
  • 亮相欧冠,OPPO 邀请卡卡携手元宝女足现身欧冠决赛赛场
  • 实力破圈!容声冰箱“黑科技”亮相抖音 618 奇妙派对!
  • 618 年中大促来袭,乐橙 TS6-4K 不容错过
  • 最新资讯

    热门资讯