昨天晚上深更半夜,网页和App突然都变哑巴了。那天晚上21点35分,大伙儿正看着网页和App呢,谁也没当回事,直到发现它们都卡死了,输进去的字怎么按都不往下送。虽然过了一会儿,系统稍微有点“回血”,能让大伙儿稍微喘口气,但等到凌晨0点20分,这次真的是彻底歇菜了,所有的聊天框全都静默了。大家在热搜上都开始讨论#DeepSeek崩了#,热度蹭蹭往上涨。 官方在凌晨1点24分给我们写了第二封修复日志。看着网页好像是能进去了,但其实跟被拔掉插头没两样,脑子是在算东西,可就是发不出结果来。一直等到上午10点33分那个灰色的“恢复”字样蹦出来,时间刚刚好停在12小时整。可奇怪的是,同一时刻API状态板上还显示着“Operational”,一点红色警报都没有。后台的模型推理就像一条暗暗流淌的河一样,可前端却像被拦在门外进不去一样。 毛病最终出在接入层和会话层上。长连接、鉴权还有上下文读写全卡在那了。官方记录里只写了个“性能异常”,根本没把根因说清楚。实际测试的时候也是这样,思维链倒是完整地跑出来了,结果前端一解析就掉链子了,只能看到半截的片段。推理出来的结果就被困在内存里出不来。 故障发生后的头三小时里,业内监测到有高达3.2Tbps的流量一下子冲了过来;咱们那种有状态的服务根本跟不上扩容的节奏,缓存跟连接池一下子就被挤爆了。等到上午9点13分更新后虽然能登陆网页了,但一到输出阶段又卡住不动了。API那边还在拼命跑着呢,前端的流水线却空转了一圈又一圈。 这就好比前端那边开了好几道门迎客,但供应的算力根本跟不上大家的需求。过去半年里头日活涨了66.7%,算力才涨了8.3%。这种极端比例被放大在那个崩溃的夜晚:门开得越多后面就越堵;API再稳也填不满“门外”的洪流。 这次停摆到底是因为架构分层有问题还是对齐上出了岔子?官方到现在也没给个说法解释为啥前端跟API出现了“不同步”。12小时停摆结束后那条分界线还在那悬着——前端像被遗忘的楼层一样躺在那不动弹,后端却在偷偷地转圈圈。本来分层是为了解耦的,结果现在变成了错位;一次没对齐的选择让大伙儿同时遭遇了“沉默”和“空转”。