随着云平台技术关于运转关键业务流程的关键性愈加突显,各种规模的科技巨头和厂商往年都教训了屡次云缺点。
理想上,服务缺点曾经变得如此广泛,预备上班也如此关键,以致于11月份在AWS re:Invent会议上,云巨头AWS发布了Fault Injection Service (FIS)服务的更多场景,让客户可以用来测试当AWS可用区域出现片面断电或许与另一个AWS区域断开衔接时运行的运转状况。
Parametrix Insurance往年发布了一份报告得出论断称,作为有最多财产500强企业所依赖的云区域,AWS us-east-1的关键义务服务终止24小时或许会形成34亿美元的间接支出损失,终止48小时或许形成78亿美元的间接损失。
该报告称,east-1和west-2 AWS服务终止24小时或许形成82亿美元的损失,假设终止48小时或许形成175亿美元的损失。
Aviatrix将于明年1月份发布的一份报举报现,关于那些担忧要挟行为者形成服务终止的IT专业人员来说,“过去一年中,由防火墙形成的云网络缺点的数量,是受访者组织内网络攻打所形成缺点的两倍多”。
上方就让咱们详细了解一下2023年规模最大的云缺点事情。
2023年1月微软服务终止
1月17日,北美地域的Microsoft Teams和Microsoft 365用户在美国东部时期上午9:17至下午2:18左右遭逢服务终止。
终止跟踪网站DownDetector显示有数千个Teams报告疑问,其中包含上午10点左右的504份疑问报告,以及上午11点的另外503份疑问报告。
其中,大概66%是主机衔接疑问,20%是运行疑问,14%是登录疑问。
1月25日,据路透社报道称,网络疑问造成美洲、欧洲、亚太、中东和非洲的Azure、Teams、Outlook及其余服务终止。上午晚些时刻,系统齐全复原之后服务也复原了。
据路透社报道,微软将此归咎于微软广域网(WAN)设备的网络衔接疑问。
据Quest Software的Practical 365称,该事情继续了大概5个小时,疑问触及命令一个WAN路由器发送信息到其余路由器,造成相邻相关从新计算和表转发,从而阻止数据包转发。
2023年1月Glue缺点
IT Glue于太平洋规范时期1月18日上午8点左右报告称,必定启动“紧急数据库保养……以处置一些客户遇到的疑问”。
依据事情报告,Kaseya旗下的IT文档软件厂商IT Glue在太平洋规范时期上午9:33之前不时处于只读形式。IT Glue在1月20日之前复原了一切明码和文档。
IT Glue的用户群包含全球13000多个组织和超越350000人。
2023年2月Oracle、NetSuite缺点
虽然Oracle公司联结开创人、首席技术官Larry Ellison地下示意Oracle Cloud Infrastructure (OCI)“不会宕机”,但还是在往年2月遇到了一些疑问。
据Network World报道,2月OCI出现了多天的终止缺点。
这次终止从太平洋规范时期2月13日星期一上午10:30左右开局,不时继续到2月15日星期三下午3:30左右,笼罩了美洲、澳大利亚、亚太地域、中东、欧洲和亚洲的用户。
这次缺点触及允许OCI公共域名系统API后端基础设备的性能疑问,造成无法处置某些传入服务恳求。Oracle经常使用实时后端提升和DNS负载控制微调来缓解该疑问。
据Network World报道,OCI Vault、API Gateway、Oracle Digital Assistant和OCI Search with OpenSearch在缺点时期都遇到了疑问。
据Data Center Dynamics称,由于马萨诸塞州沃尔瑟姆市的Cyxtera数据中心起火,Oracle子公司NetSuite在美国东部时期2月14日半夜左右开局停电。
据The Register报道,马萨诸塞州的这个数据中心切断了主机电源,并于美国东部时期早晨10点26分左右开局复原帐户。
至少一名Reddit用户报告称,由于这次事情他们的帐户收到了积分。
2023年3月Datadog缺点
Datadog花了近两天的时期才处置从3月8日开局的服务终止缺点。
据MarketWatch报道,总部位于纽约的云监控和安保工具厂商Datadog于美国东部时期清晨1:31向用户通报了Web运行出现的疑问。富国银行的剖析师甚至宣布了一份报告,表白了对此次终止对Datadog支出影响的担忧。
依据一份文字记载显示,Datadog公司首席执行官Olivier Pomel在5月财季电话会议上泄漏,该事情给Datadog形成了约500万美元的损失,而且须要约500至600名工程师启动三班轮换才处置。
依据文字记载,Pomel示意,他“不太担忧这种状况再次出现”,并且Datadog学会了如何“更快地复原”以及“在这种状况出现时为咱们的客户提供更好的方法以缓解疑问”。
科技专栏作家Gergely Orosz写道,Datadog“很或许不会在系统停机时向客户收取数据传输费用”,并且“损失相当于公司一天的支出”。
Orosz示意,操作系统更新是形成此次终止的一个要素,并示意Datadog可以更好地与用户就该事情启动沟通。
2023年4月微软服务终止
4月20日,微软用户在经常使用Microsoft 365在线运行和Teams协作运行时遇到了近6个小时的疑问。
微软在太平洋夏令时期上午6:56发推文示意,正在“考查Microsoft 365 Online运行和Teams控制中心的访问疑问”。
微软在下午1点10散发布推文示意,“经过咱们的外部遥测收到了踊跃确实认,并向受影响的用户标明服务已复原”。
Ookla的DownDetector网站留意到今日有数千起M365停机报告,太平洋夏令时期上午7点左右报告超越3000起,并在太平洋夏令时期上午9点左右到达峰值。
据The Register报道,Teams、SharePoint Online和Outlook在4月24日再次遭逢终止。微软于太平洋夏令时期清晨4:17发布了无关该疑问的推文,并于上午7:17再次发布推文称“大局部影响”已获取修复。
据Bleeping Computer报告,4月25日Exchange Online再次出现缺点。微软于下午1:21在推特上发布了无关该疑问的信息,并示意疑问大概一个小时后获取处置。
2023年4月份谷歌服务终止
据The New Stack报道,太平洋夏季时期4月25日下午5点20分左右,法国巴黎的一座数据中心出现火灾,造成Google Cloud和欧洲地域的用于遇到90多种云服务的瘫痪。
IT Pro示意,受影响的服务包含Google Cloud Storage (GCS)、Cloud Key Management Service (KMS)、Cloud Identity and Access Management (IAM)和Google Kubernetes Engine (GKE)。
5月10日,谷歌报告称“数据中心受影响局部的某些实例依然无法用。”
2023年4月Oracle-Cerner终止
据Federal News Network报道,4月17日,美国退伍军人事务部遭逢了Oracle-Cerner电子肥壮记载(EHR)系统继续5个小时的终止缺点。
据FNN称,此次终止是由于数据库性能更新和缺点转移形成的。
而后在4月25日,Oracle-Cerner系统再次出现近4个小时的终止,给退伍军人控制局、美国国防部和美国海岸警卫队带来了影响。
据EHR Intelligence称,退伍军人事务部中止了该系统的其余实施,直到经常使用该系统的5个站点复原了对该系统性能的信念。
2023年5月Cisco SD-WAN缺点
思科vEdge平台的公共根证书过时造成思科在X(以前的Twitter)上地下赔罪,思科发帖称:“咱们对由此带来的应战示意歉意。”
依据思科网站上的一篇帖子,思科“发布了软件更新版本以终身处置此疑问”。
思科示意,vEdge路由器提供“思科SD-WAN处置方案的广域网、安保性和多云性能”。“思科SD-WAN vEdge路由器以配件、软件、云或虚构化组件的方式提供,位于远程办公室、分支机构、园区或数据中心等站点周边。”
2023年6月微软服务终止
Teams和Outlook等Microsoft 365服务在6月初延续几天出现大范围终止缺点,几天后又出现了严重的OneDrive终止。
而后在第二天,数千名用户遭逢了微软Azure云平台门户网站的瘫痪。
微软在当月晚些时刻证明,散布式拒绝服务(DDoS)攻打是形成此次事情的要素。
详细来说,6月5日早上,一次性服务终止影响了数万名Microsoft 365用户。微软示意,中止了一项未详细说明的“更新”。
“咱们曾经确定对Microsoft Teams、SharePoint Online和OneDrive for Business的下游影响,”微软在美国东部时期上午11:45左右发布的一条推文中这样示意。
微软称,曾经阻止了“潜在疑问的更新”在整个服务中进一步流传,并正在对微软已部署更新的局部基础设备启动审查,以加快复原更改操作。
第二天,微软发现服务疑问“再次出现”。美国东部时期半夜12:03,微软示意,曾经“发现再次形成影响”,并且正在采取进一步的缓解措施。
微软示意:“探测标明,由于之前采取了缓解措施,相关于早期迭代的影响有所缩小。”
截至美国东部时期上午11:22,3118位Down detector用户报告了Microsoft 365出现的疑问。
6月8日,一个名为“Anonymous Sudan”的黑客组织宣称对形成Microsoft OneDrive的终止缺点担任。美国东部时期下午3点,微软示意“正在继续剖析监控并执行负载平衡流程以提供缓解措施”。
今日形态页面的后续更新标明,终止仅对那些经过网络阅读器访问OneDrive的操作形成了影响,微软在更新中示意:“经常使用桌面客户端、同步客户端或Office客户端访问OneDrive服务不受影响。”
第二天也就是6月9日,微软用户教训了一次性严重的终止,Azure云平台门户封锁。
到那天下午,微软仿佛曾经处置了这个疑问。美国东部时期上午11点刚过,DownDetector上无关Azure可用性疑问的用户报告开局增多,在接上去的两个小时内记载了数千份无关Azure终止的用户报告。
“Anonymous Sudan”宣称对Azure门户启动了DDoS攻打。
6月12日星期一,微软示意,“网络流量激增”曾经被确定为造成此次终止的或许要素。
微软示意:“咱们发现网络流量激增,影响了这些网站的流量控制才干,并造成客户访问这些网站出现疑问。”
2023年6月AWS缺点
依据AWS网站上的一份事情报告,AWS在6月教训了长达几个小时的终止事情。
报告称:“自太平洋夏季时期2023年6月13日上午11:49开局,北弗吉尼亚 (US-EAST-1)区域的客户遇到了Lambda函数调用失误率和提前参与的疑问。由于Lambda函数调用升级,其余一些AWS服务包含Amazon STS、AWS Management Console、Amazon EKS、Amazon Connect和Amazon EventBridge也出现了失误率和提前参与的疑问。Lambda函数调用于太平洋夏令时期下午1:45开局复原到反常水平,一切受影响的服务也曾经在太平洋夏令时期下午3:37齐全复原。”
报告称,为了防止此事情再次出现,AWS“立刻禁用了触发该事情的Lambda前端队列优惠的裁减优惠,同时咱们努力于处置造成该疑问的潜在失误;失误曾经获取处置并部署到一切区域”。
报告称:“这一事情还发现了咱们Lambda蜂窝架构中用于Lambda前端裁减的破绽,这使得潜在失误在受影响单元裁减时发生影响。Lambda曾经成功了多项执行名目,以处置蜂窝架构裁减的紧迫疑问,并有望在往年晚些时刻成功更大的上班,以确保一切蜂窝都限度在经过充沛测试的尺寸,以防止未来出现异常的裁减疑问。”
据DownDetector报道,太平洋夏季时期6月13日半夜左右,数万名用户报告总部位于西雅图的AWS出现终止,佛蒙特州机动车辆控制局、波士顿全球报和纽约大都会交通局等组织在X(以前的Twitter)上报告了AWS形成的服务终止。
2023年7月的Slack缺点
Salesforce旗下协作平台Slack在太平洋夏季时期7月27日遇到了系统级的疑问,继续了大概1个小时,到清晨3点处置了。
Slack在一篇在线帖子中示意,在终止时期“用户无法跨多个平台发送或接纳信息”。
帖子称:“咱们的工程团队在对控制外部系统通讯的服务启动更改之后发现疑问,这个疑问造成Slack性能退步,直到复原更改,处置了一切用户的疑问。”
2023年7月IT Glue缺点
7月份,继续约1个小时的IT Glue疑问造成出现“502 Bad Gateway”失误,IT Glue于太平洋夏季时期7月18日上午11:54发布信息称,这共性能疑问“或许会使咱们的一些协作同伴无法访问IT Glue”,该事情于半夜12点46分获取处置。
2023年9月Microsoft Teams缺点
Microsoft Teams在9月中旬遇到了继续2个多小时的缺点。
太平洋夏季时期9月13日上午7点10分,微软在X(以前的Twitter)上发帖称,微软正在“考查影响Microsoft Teams的事情”,并且“用户或许会遇到发送和接纳信息出现提前或失败的疑问”。
微软“确定该疑问集中于经过北美受影响的基础设备提供服务的某些用户”,并将“受影响的服务流量路由到状况良好的基础设备以减轻影响”。
微软于太平洋夏季时期上午9:43发布信息称:“咱们曾经确认与此疑问相关的影响已获取处置。”
思科旗下的ThousandEyes情报公司发布文章称,“运行前端是可以访问的,但尝试登录系统和/或与其交互会造成500个失误和超时。”
该公司示意,这说明“存在某种方式的后端系统或散发层疑问”。
2023年9月Salesforce终止缺点
依据Salesforce的一份报告,9月20日Salesforce产品和服务出现了终止,继续了大概2个小时,但MuleSoft和Tableau这两家公司的服务终止了大概4个小时。
依据公司审查结果显示,Salesforce异常地因一项政策变卦而造成了终止,这次政策变卦“是咱们对安保控制启动继续审查和更新的规范操作程序的一局部”。
报告称:“虽然此次变卦的目标是参与深度进攻,但有意中阻止了对超出其预期范围的其余非法和必要资源的访问。最终结果是由于不足访问权限,造成服务之间的通讯出现缺点,以致系统出现缺点,限度了一些客户登录和经常使用这些服务。”
Salesforce更改了变卦查看和同意流程,并修复了Tableau中的启动竞争条件失误,以防止同一疑问再次出现,还承诺:
2023年11月Cloudflare终止,Workday归咎于位于俄勒冈州的数据中心
Workday和Cloudflare把从11月2日开局出现的终止缺点归因于俄勒冈州的一个设备内疑问,造成思科HundredEyes推测两者遭到同一数据中心的影响。
依据Cloudflare网站上的一篇帖子,Cloudflare首席执行官Matthew Prince示意,他对11月初出现的继续多天的事情感到“抱歉和难堪”,并将局部责任归咎于位于俄勒冈州由Flexential运营的数据中心。
11月2日,Cloudflare面向客户的控制平面界面和剖析服务出现终止,事情不时继续到11月4日。
Prince示意:“截至全球规范时期11月2日17:57,咱们能够在劫难复原设备中复原大局部控制平面,劫难复原设备上线之后,许多客户不会遇到大少数产品疑问。但是,其余服务须要更长的时期才干复原,并且在咱们齐全处置事情之前,经常使用这些服务的客户或许会遇到疑问。在事情出现时期,大少数客户都无法经常使用咱们的原始日志服务。”
Prince对此示意歉意,由于Cloudflare“置信咱们领有高可用性系统,即使咱们的某个**数据中心提供商出现劫难性缺点,也能够阻止这样的终止。”
“许多系统确实依照设计坚持在线,但一些关键系统具备不显著的、造成其无法用的依赖性。”
Cloudflare承诺做出的扭转包含:
来自Workday的一份报告称,事情继续了3个小时,但在报告中没有提及Cloudflare或Flexential,而是将其归咎于“俄勒冈州波特兰数据中心的停电,造成局部客户的服务终止”。
Workday示意:“由于备用电源缺点的疑问,以及不稳固的电力环境带来了额外的应战,服务复原所需的时期比通常状况要长。”
据KRON4称,DownDetector曾一度记载了1200多份与Workday终止相关的报告。