滴滴罕见大规模崩溃，背后又是“降本增笑”？ _云知道

11月27日23点左右，滴滴出行遭遇了自成立以来最严重的一次系统故障，导致全国多地的乘客和司机无法正常使用滴滴的各项服务，引发了社会的广泛关注和讨论。根据滴滴官方的回应，本次事故是由于系统故障导致的，技术同学经过一夜的抢救在11月28日7点31分恢复了网约车服务。然而，据一位滴滴平台的北京网约车司机透露，截至上午10点30分，滴滴司机端的后台系统仍然处于崩溃状态，故障的修复进度很缓慢。
【滴滴罕见大规模崩溃，背后又是“降本增笑”？】

网友对滴滴的故障处理速度调侃道：滴滴程序员因打不到车，导致无法及时回公司，从而无法快速修复滴滴无法打车的问题，至此逻辑闭环。在北京的网友分享了早上路上没有多少车的情况，戏称“滴滴别恢复了，堵车全是因为滴滴” 。

通常情况下，这类故障要么是由于版本迭代导致，要么是由于运维层面的问题。从目前的修复进度来看，笔者更倾向于这是运维方面的问题。因为如果只是版本迭代导致的故障，只需回滚版本即可快速修复线上故障。并且，在当前互联网+的模式下，每家公司都有一个技术团队，像滴滴这样的数据中心级、服务提供级的问题通常不是由于大版本更新引起的。通常发生在系统平稳运行期间，是运维团队需要处理的事情。具体信息可以等官方技术复盘。

滴滴作为国内最大的网约车平台，拥有超过5亿的注册用户，每天处理超过2000万的订单，对于系统的稳定性和安全性有着极高的要求。然而，当前大部分公司的运维团队通常被视为"非营利部门"、"纯开支部门"，降本增效的“第一刀”通常都砍到运维团队的身上。在经济下行时，降本增效往往变成了降低成本而牺牲效率，经常被调侃为“降本增笑” 。

出现如此严重的故障说明滴滴在技术方面还有很大的提升空间，应该提升对运维团队的重视程度。对于企业来讲，应该将业务稳定性放在第一位，不要总想着裁掉“维持稳定的员工”；对于员工来讲，应该尽量避免进入那些需要频繁维护、现金流明显不足、却又大力降低成本效益的企业。因为省钱可能会带来风险的暴露，一个人的运维能力很难应对整个数据中心的问题。