滴滴罕见大规模崩溃,背后又是“降本增笑”?

11月27日23点左右,滴滴出行遭遇了自成立以来最严重的一次系统故障,导致全国多地的乘客和司机无法正常使用滴滴的各项服务 , 引发了社会的广泛关注和讨论 。根据滴滴官方的回应,本次事故是由于系统故障导致的,技术同学经过一夜的抢救在11月28日7点31分恢复了网约车服务 。然而 , 据一位滴滴平台的北京网约车司机透露 , 截至上午10点30分,滴滴司机端的后台系统仍然处于崩溃状态,故障的修复进度很缓慢 。
【滴滴罕见大规模崩溃,背后又是“降本增笑”?】

滴滴罕见大规模崩溃,背后又是“降本增笑”?


网友对滴滴的故障处理速度调侃道:滴滴程序员因打不到车 , 导致无法及时回公司,从而无法快速修复滴滴无法打车的问题 , 至此逻辑闭环 。在北京的网友分享了早上路上没有多少车的情况,戏称“滴滴别恢复了,堵车全是因为滴滴” 。
滴滴罕见大规模崩溃,背后又是“降本增笑”?


通常情况下 , 这类故障要么是由于版本迭代导致,要么是由于运维层面的问题 。从目前的修复进度来看,笔者更倾向于这是运维方面的问题 。因为如果只是版本迭代导致的故障 , 只需回滚版本即可快速修复线上故障 。并且,在当前互联网+的模式下,每家公司都有一个技术团队,像滴滴这样的数据中心级、服务提供级的问题通常不是由于大版本更新引起的 。通常发生在系统平稳运行期间,是运维团队需要处理的事情 。具体信息可以等官方技术复盘 。
滴滴罕见大规模崩溃,背后又是“降本增笑”?


滴滴作为国内最大的网约车平台,拥有超过5亿的注册用户,每天处理超过2000万的订单,对于系统的稳定性和安全性有着极高的要求 。然而,当前大部分公司的运维团队通常被视为"非营利部门"、"纯开支部门",降本增效的“第一刀”通常都砍到运维团队的身上 。在经济下行时 , 降本增效往往变成了降低成本而牺牲效率,经常被调侃为“降本增笑” 。
滴滴罕见大规模崩溃,背后又是“降本增笑”?


出现如此严重的故障说明滴滴在技术方面还有很大的提升空间 , 应该提升对运维团队的重视程度 。对于企业来讲 , 应该将业务稳定性放在第一位,不要总想着裁掉“维持稳定的员工”;对于员工来讲,应该尽量避免进入那些需要频繁维护、现金流明显不足、却又大力降低成本效益的企业 。因为省钱可能会带来风险的暴露,一个人的运维能力很难应对整个数据中心的问题 。
滴滴罕见大规模崩溃,背后又是“降本增笑”?



所以,请各位决策者重视为系统维护付出努力的运维团队,没事的时候,他们有没有好像不重要,但真当出事的时候,你会发现他们可以影响着一个应用的生死 。

    推荐阅读