市场部:18983911536  运维专线:023-68626938   86503602  服务热线:023-68626928   68626799

市场部:18983911536

运维专线:023-68626938   86503602  

服务热线:023-68626928   68626799

搜索
确认
取消
搜索
搜索
这是描述信息

新闻资讯

NEWS

/
/
-
1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

  • 分类:企业资讯
  • 作者:
  • 来源:
  • 发布时间:2018-07-09 16:37
  • 访问量:

【概要描述】马哥运维实战ITPUB  转自|马哥Linux运维  昨天,技术圈又出了搅动全技术人的一次重大技术故障。记得上一次是携程2015年瘫痪了11小时,损失高达7000W+。  阿里云是国内最大的云服务商,服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球

1000+公司业务瘫痪,损失过亿,阿里云故障真正原因竟是这样

【概要描述】马哥运维实战ITPUB  转自|马哥Linux运维  昨天,技术圈又出了搅动全技术人的一次重大技术故障。记得上一次是携程2015年瘫痪了11小时,损失高达7000W+。  阿里云是国内最大的云服务商,服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球

  • 分类:企业资讯
  • 作者:
  • 来源:
  • 发布时间:2018-07-09 16:37
  • 访问量:
详情
马哥运维实战ITPUB   转自|马哥Linux运维
  昨天,技术圈又出了搅动全技术人的一次重大技术故障。记得上一次是携程2015年瘫痪了11小时,损失高达7000W+。
  阿里云是国内最大的云服务商,服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。
  6月27日下午,阿里云出现重大技术故障,故障于北京时间2018年6月27日,16:21左右开始,16:50分开始陆续恢复。官方给出的故障时间大概持续30分钟,陆续恢复时间有一个小时多。
1
  在6月27日凌晨时分,阿里云给了官方说明,最后官方给出的说明是:“我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。”引发了大量吐槽。
2
  对于此故障的原因,网上传的各种版本都有,传的最多的是以下2个版本:
  网上流传故障原因版本一
3
  网上流传故障原因版本二
4
  小编邀请原美团点评运维架构师&马哥教育联合创始人张sir对本次故障解读:
  “至于实习生误删登陆服务之说,应该是不存在的,一方面,大型互联网公司尤其是阿里云这样的公司,对工程师权限有着极为严格的控制,因为阿里云数十万台服务器,支撑了全国各行各业千亿以上规模的线上业务,不可能让实习生不熟悉的情况下,给予过高的管理权限。这是极其不专业的做法"
  “对于版本二的说法,说的比较含糊和笼统,我通过内部了解到原因:”
5
  "这个说法跟阿里云官方通告是比较符合的,本次故障的严重程度是非常高的,故障级别定义在S1级别,整个阿里集团的核心业务,以及依托阿里云的公司,很多都受了影响。"
6
  "对于企业来说,上线都是开发-测试-上线,大致都是以下这样的流程,通常开发会开发出来程序,然后交给测试工程师,测试工程师测试完成后,后提交给运维工程师进行线上服务配置以及业务上线。"
7
  “本次故障,阿里官方说明:工程师团队,在上线一次自动化运维新功能的时候,执行了一项变更验证操作,这一项功能在测试环境验证中未出现问题,上线生产环境中,触发了一个未知的bug。这个bug后来通过阿里的同学证实:具体原因是一个核心的应用在拉VIP列表的时候,返回了空列表,这就会导致上千VIP被禁用了。VIP = Virtual IP Address,虚拟IP地址,主要作用为集群的负载均衡的入口地址,可通过一个VIP的地址,实现一组业务的访问,通常也叫集群负载均衡技术。VIP是集群业务的入口,如果数千个VIP被禁用了,可能后端上万台的服务、应用、数据库等将直接无法访问,本次故障盲点,是测试通过了,在生产环境触发了一个未知bug,导致核心应用在拉取VIP列表时,为空了,导致内部的上千台负载均衡不可用,从而后端的应用也不可达。”
8
  "如图所示,对于大型互联网公司,运维技术架构都是多层机构。在内部负载均衡上配置的VIP如果不可达的话,后端的service层和数据库等内容,都是不可达的,这也是为什么故障的时候,页面能打开,但是报错为502故障,502错误一般常为后端服务器不可用,这也说明了故障的根源所在。阿里的运维团队故障响应还是比较给力的,数千个VIP配置错误,在半小时内从发现,到定位,到故障排除,以及解决,还是挺快的。”
  “在一个庞大复杂的架构体系中,会涉及到成千上万的配置以及几十种技术的应用,有时候可能因为一条配置的错误,会导致整个服务崩盘。而出故障时,一位优秀的运维工程师,可为公司挽回巨大损失。运维工程师目前已经是各家互联网公司必不可少的重要岗位,是要求有极高的技术能力和心理素质(当出现故障时,耽误一分钟损失上百万的时候,那种压力是常人无法理解的),所以这也是,为什么业内优秀的运维工程师是比较稀缺的。一个优秀的运维工程师或者云计算工程师,是需要不断的提升和学习,因为公司的业务需要不断的完善架构体系,保障服务正常运行,以及服务性能和工作效率不断的优化和改进。”
9
  阿里云对于本次故障,还是非常坦诚的:
  "对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。"
  此次阿里云重大故障,网友们纷纷讨论,运维都要背锅啦。其实,运维工程师这个群体,比你想象的要厉害,如果不是他们为互联网的业务保驾护航,可能故障远不止此。所以,对于错误,我们应该包容,错误是成长的必经之路,更何况,人非圣贤孰能无过? 

扫二维码用手机看

TOP

运维专线:

023-68626938/86503602 

惠泽首页    |    关于我们    |    人才招聘    |     运维服务    |    解决方案    |    产品中心    |     案例展示    |    新闻资讯    |     营销网络

公司地址:重庆市九龙坡区科城路71号(二郎留学生创业园D1栋9层)

© 2020 重庆惠泽科技发展有限公司 网站建设:中企动力 重庆 渝ICP备16005000号-1

CopyRight © 2020 重庆惠泽科技发展有限公司

网站建设:中企动力 重庆 渝ICP备16005000号-1

工商备案

发布时间:2020-06-16 00:00:00
在线客服
服务热线
023-68626928 023-68626799
服务时间:
8:00 - 24:00
客服组:
在线客服
QQ: