简单梳理腾讯云0408故障
昨天下午,腾讯云因为后端升级导致了一场全球性故障(国际站是否影响不确定),准确故障时间是腾讯云产品体验吐槽群15:26,当时我正在进行续费操作,刷着刷着就没权限了,大概16:34左右陆续恢复,彻底恢复17:00左右。 本文主要简单梳理一下,从故障到赔付过程中的没思考。
俺们都是现场怪
其实群里的响应还是比较快的,毕竟都是真实用户不是。
中间过程中还有人吐槽Status Page咋显示都是正常的(我不负责任的猜测,应该是云拨测服务本身也挂了
)
其他就是恢复相关的事宜了,最后希望能出详细的故障报告吧。
昨天晚上回家路上,刷到一篇有意思的文章,说腾讯云刚刚宣布全面云存储升级,然后就挂了,阴谋论了哈哈哈。
有什么影响
仅从我个人角度出发,不代表公司的意思哈(虽然也是腾讯云大客户不是)
作为腾讯云深度用户,深度使用LH,CFS,DNSPOD这些服务。总体上LH和CFS应该没受影响,主要还是鉴权相关的服务受到较大影响,例如调用DNSPOD API相关。从某种程度上来说,基本上就是去年阿里云故障的复刻。API鉴权服务挂了,导致依赖API的云产品和控制台都没法正常使用了。
去年的阿里云故障至今都没有纯技术纬度的事后故障复盘(可能没公开,大客户应该会有),估计腾讯云应该也会类似。目前腾讯云客服对外的口径是后端升级
导致的。
PS: 复盘特指卓越架构中稳定性部分的故障复盘, 有兴趣的可以搜搜
再说说状态页
其实,在去年之前,国内云服务商基本没有这个玩意的。
这个状态页有什么作用?
状态页能在服务宕机的情况下有效减少客户的焦虑,降低沟通成本,但它的核心价值在于 “建立与客户的信任关系”
腾讯云状态页
这个图大概是故障发生后几分钟内截取的,全绿哈哈。大概在故障30-50分钟后,才陆续有异常报告。
我大胆猜测,腾讯云这个服务状态页应该是基于腾讯云云拨测实现的,但是你云API挂了,云拨测依赖API自然也挂了,故而没有更新,可能我想的比较好。
也有人说,说不定这个数据就是人肉维护的,故障了大家都没时间处理这个了,也有可能挂的太多,处理不过来。
另外对照参考国内的服务商,如果服务异常了,一方面会更新服务状态,另一方面还会同步处理进展,我觉得国内的服务商还是值得学习的。目前而言,国内云服务商的状态页,没有任何价值,都是全绿。
其次公告
一开始蓝字的公告,比较仓促(公告出来时已经故障一段时间了)。有人批判这是三无公告
:无时间(故障时间),无地点(可用区/AZ),无范围(影响服务), 这个我还是比较赞同的。
灾难级公关
特指微博官方账号@腾讯云, 目前应该是删博了
赔付
还是看订阅消息时看到的VPS信号旗播报
腾讯云用户因控制台故障向客服索赔
NodeSeek 网友表示自己通过腾讯云客服获得了100元无门槛优惠券,作为今天(4月8日)下午腾讯云控制台故障的补偿。
该网友与客服交涉时称,由于腾讯云控制台无法打开已对其业务造成了损失。之后客服提供了该优惠券。他建议需要索赔的用户以实际问题分类接入人工客服以便更顺利地沟通。
[消息等级 Level C2 · 简要]
我觉得腾讯云应该积极主动赔付受影响的用户。
当然这里也会导致一些MJJ跟风而至,当然也包括我个人,赔付已经到账哈哈。
后续
去年11月慈善家Cloudflare的故障,Cloudflare CEO Matthew 亲自出来对故障进行道歉与复盘了,国内的就不强求了,出一个完整的技术复盘草草了事吧,赔付到位就行了。
毕竟世界就是一个草台班子,能赔或者能跑就行