一个代码拼写错误,导致微软 Azure DevOps 服务在巴西停摆十小时

一个代码拼写错误,导致微软 Azure DevOps 服务在巴西停摆十小时

IT资讯 2023-06-11 13:26:04 1年以前

IT酷哥 6 月 4 日消息,由于一个简单的代码错误,微软 Azure DevOps 在南巴西地区的服务中断了约十个小时。IT酷哥注意到,微软的软件工程经理 Eric Mattingly 在周五为这次中断道歉,并揭示了事故的原因:一个拼写错误导致了十七个生产数据库被删除。

Azure DevOps提供一组集成的服务和工具,用于管理软件项目,从规划和开发到测试和部署。Mattingly 解释说,Azure DevOps 的工程师有时会对生产数据库进行快照(Snapshot),以便调查报告的问题或测试性能改进。他们依赖于一个每天运行的后台系统,该系统会在一定时间后删除旧的快照。近日 Azure DevOps 的工程师进行了一次代码升级,用支持的 Azure.ResourceManager.* NuGet 包替换了已弃用的 Microsoft.Azure.Managment.* 包。这导致了一个大型的拉取请求,其中更换了旧包和新包中的 API 调用。

拼写错误就发生在这个拉取请求中,它将删除快照数据库的调用换成了删除托管数据库的 Azure SQL Server 的调用。Azure DevOps 有专门的测试来发现这样的问题,但 Mattingly 说,由于错误的代码只在某些条件下运行,因此现有的测试覆盖不到。

几天后,软件更改被部署到南巴西规模单元(特定角色的服务器集群)的客户环境。该环境有一个老的快照数据库,触发了这个错误,导致后台任务删除了“整个 Azure SQL Server 和所有十七个生产数据库”。

所有数据都已经恢复,但花了十多个小时。Mattingly 说,有几个原因造成这种情况。其中之一是,由于客户无法自己恢复 Azure SQL Server ,必须由值班的 Azure 工程师来处理,这个过程大约需要一个小时。另一个原因是,数据库有不同的备份配置:有些配置为区域冗余备份,有些配置为更新的地理区域冗余备份,解决这种不匹配增加了很长的恢复时间。

为了防止问题再次发生,Mattingly 称微软已经采取了各种修复和重新配置措施,并再次向所有受此中断影响的客户道歉。

文章版权声明:除非注明,否则均为网络转载文章,转载或复制请以超链接形式并注明出处。

相关阅读

  • 古尔曼称苹果推出首款头显利好 Meta,助其提高市场份额
  • 流行电影和电视 Torrent 资源下载网站 RARBG 突然关闭,已运行 15 年
  • 小米开启 618 电池 / 屏幕换新服务:6 月 1 日到 7 日,至高省 795 元
  • 国产科幻电影《流浪地球 2》在维也纳进行联合国特别放映
  • 联发科连续 12 季度居手机芯片市场第一,天玑 9300 旗舰芯安排上全大核
  • 618 遇上高考季什么手机值得买?OPPO 旗舰优惠满满,入手无压力
  • 售价 3499 美元的苹果 Vision Pro 头显 BOM 清单曝光,物料成本达 1509 美元
  • 小课屏 C2 灵动版上市,行业首发 7 条人因智慧护眼调光,为孩子定制护眼屏幕光
  • 星火燎原 共享未来 | 讯飞 AI TechDay・金华站圆满举办
  • 持续自适应多因素认证,下一代零信任多因素认证最佳实践
  • 真五折!联想 thinkplus 口红电源,618 狂欢来袭
  • 复兴号动车组将开进青藏铁路,时速 160 公里
  • 中国铁路公告:“八纵八横”App 假冒国铁集团名义行骗,已报案并举报
  • 今年市值要重返 3 万亿美元,苹果股价创下收盘价新高
  • 李斌:已有车企与蔚来在谈共用换电站
  • 消息称极兔正与顺丰洽谈入股,双方曾 11.83 亿元交易丰网速运
  • 起诉特斯拉一审被判败诉,车顶维权女车主继续上诉
  • 特斯拉诉品玩名誉侵权案终审维持原判,后者被判道歉并赔偿 10 万元
  • 尼康发布尼康 Z 9 全画幅微单相机更新固件 4.00 版本
  • 为企业插上数据的翅膀 华为云企业快成长大数据技术创新论坛成都站即将举行
  • 最新资讯

    热门资讯